吳安輝 何家峰 何啟莉
摘? 要:針對(duì)傳統(tǒng)車牌識(shí)別方法在復(fù)雜環(huán)境下識(shí)別準(zhǔn)確率不高和過程繁雜的問題,提出一種基于U-Net和CNN的車牌檢測(cè)和識(shí)別的深度學(xué)習(xí)模型,首先通過U-Net模型進(jìn)行車牌定位,然后采用透視變換方法對(duì)傾斜較大或者形變的車牌實(shí)現(xiàn)車牌矯正,最后通過改進(jìn)的CNN模型對(duì)車牌區(qū)域進(jìn)行車牌識(shí)別,其識(shí)別率為97.5%。實(shí)驗(yàn)結(jié)果表明該算法在復(fù)雜環(huán)境下能夠精準(zhǔn)識(shí)別。
關(guān)鍵詞:U-Net;CNN;車牌定位;車牌矯正;車牌識(shí)別
中圖分類號(hào):TP391.41? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)01-0081-04
Research on Algorithm of License Plate Detection and Recognition in Complex Scenes
WU Anhui,HE Jiafeng,HE Qili
(School of Information Engineering,Guangdong University of Technology,Guangzhou? 510006,China)
Abstract:Aiming at the problems of low accuracy rate and complex process of traditional license plate recognition methods in complex environment,a deep learning model of license plate detection and recognition based on U-Net and CNN is proposed. First,the U-NET model is used to locate the license plate,and then the perspective transformation method is used to correct the license plate with large tilt or deformation. Finally,the improved CNN model is used to recognize the license plate area,and the recognition rate reaches at 97.5%. The experimental results show that the algorithm proposed in this paper can accurately recognize license plates in complex environments.
Keywords:U-Net;CNN;license plate location;license plate correction;license plate recognition
0? 引? 言
隨著經(jīng)濟(jì)水平的提高,人們對(duì)汽車的需求量日益增長(zhǎng)。汽車在滿足人們?nèi)粘P枨蟮耐瑫r(shí)也帶來(lái)諸多嚴(yán)重的交通問題。車牌檢測(cè)與識(shí)別從停車管理到交通管制都有廣泛應(yīng)用,在車牌檢測(cè)與識(shí)別任務(wù)中,實(shí)現(xiàn)速度快、準(zhǔn)確性和魯棒性高的性能對(duì)實(shí)現(xiàn)智能交通運(yùn)輸尤為重要。隨著深度學(xué)習(xí)技術(shù)越來(lái)越成熟,將深度學(xué)習(xí)應(yīng)用于交通管理已成為一種趨勢(shì),通過深度學(xué)習(xí)的方法進(jìn)行車牌檢測(cè)與識(shí)別,是實(shí)現(xiàn)智能化城市管理的關(guān)鍵一步。
車牌識(shí)別技術(shù)分為傳統(tǒng)圖像處理方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的圖像處理方法一般分為三個(gè)步驟:圖像預(yù)處理、字符分割和文本識(shí)別。傳統(tǒng)方法首先將車牌分割成獨(dú)立的字符,然后車牌字符進(jìn)行特征提取,最后通過模板匹配[1,2]或支持向量機(jī)(SVM)[3]識(shí)別車牌字符。然而,傳統(tǒng)的圖像處理方法下的字符分割可能存在字符粘連的情況,對(duì)光照不均的車牌識(shí)別效果不佳。
近幾年,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)和圖像處理算法取得了較好的進(jìn)展。U-Net[5]在2015年被提出,并在生物醫(yī)學(xué)圖像的分割領(lǐng)域得到了廣泛的應(yīng)用[6]。U-Net模型最大限度地利用了車牌圖像的淺層和深層特征,實(shí)現(xiàn)對(duì)車牌區(qū)域精準(zhǔn)定位。在無(wú)需對(duì)字符分割的情況下,通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)車牌實(shí)現(xiàn)端到端的識(shí)別。
1? 相關(guān)工作
車牌定位是在圖像中獲找到車牌區(qū)域。傳統(tǒng)的圖像處理方法提取的車牌特征包括紋理特征[6]、邊緣特征[8]、顏色特征[7]等。在深度學(xué)習(xí)方法中,可以使用分割模型對(duì)車牌進(jìn)行像素級(jí)分割,進(jìn)一步定位到車牌區(qū)域。。
車牌矯正是一種對(duì)車牌進(jìn)行空間變換的技術(shù)。對(duì)車牌進(jìn)行矯正是為了提高對(duì)傾斜或畸變車牌識(shí)別的準(zhǔn)確性和魯棒性。傳統(tǒng)圖像處理方法通常使用邊緣檢測(cè)[10]和投影變換[11]方法進(jìn)行車牌矯正。在深度學(xué)習(xí)模型中,局部圖像特征包含了大量的特征,這些特征之間的相關(guān)性很小,不會(huì)因?yàn)槠淠承┨卣鞯南Ф绊憴z測(cè)和匹配;空間變換網(wǎng)絡(luò)(STN)[12]通過網(wǎng)絡(luò)訓(xùn)練對(duì)車牌進(jìn)行空間變換,從而對(duì)傾斜、畸變圖像進(jìn)行矯正。
傳統(tǒng)的車牌識(shí)別方法對(duì)數(shù)字和字母特征的識(shí)別效果較好,但對(duì)漢字的識(shí)別效果并不理想。傳統(tǒng)的車牌識(shí)別算法在特定條件下表現(xiàn)良好,但在復(fù)雜的環(huán)境下對(duì)車牌有效識(shí)別的難度還是很高。
2? 本文網(wǎng)絡(luò)模型
本文提出了一種基于深度學(xué)習(xí)的車牌識(shí)別方法,其中包括車牌定位、車牌矯正和車牌識(shí)別。本文的創(chuàng)新點(diǎn)在于使用U-Net模型對(duì)車牌區(qū)域進(jìn)行精確定位以及使用透視變換方法進(jìn)行車牌矯正。U-Net模型的優(yōu)點(diǎn)在于通過特征融合還原車牌圖像的分辨率,以進(jìn)一步精準(zhǔn)分割車牌區(qū)域[13]是以三維空間為介質(zhì)將傾斜或者形變的二維車牌圖像轉(zhuǎn)換到新的二維視圖上。在多種角度下均可以矯正,進(jìn)一步提高車牌的識(shí)別率。最后基于改進(jìn)的CNN模型對(duì)車牌區(qū)域進(jìn)行端到端識(shí)別。車牌檢測(cè)與識(shí)別算法的模型如圖1所示。
2.1? 車牌定位
本文采用基于U-Net的像素級(jí)定位模型進(jìn)行車牌定位。在收縮路徑中,下采樣操作經(jīng)過兩次卷積后再進(jìn)行最大池化處理以進(jìn)一步挖掘深層信息;在擴(kuò)張路徑中,通過連續(xù)的轉(zhuǎn)置卷積操作將分辨率依次恢復(fù)。該模型采用跳躍連接方式將下采樣的多通道特征圖和上采樣層進(jìn)行特征融合,將融合后的特征圖作為上采樣過程中的下一個(gè)輸入。經(jīng)過4次上采樣操作后將特征圖的分辨率還原。在最后一層使用大小為1×1的卷積核進(jìn)行卷積運(yùn)算得到二分類的通道數(shù),并對(duì)每個(gè)像素進(jìn)行預(yù)測(cè)。將所有正樣本進(jìn)行合并,得到一個(gè)相鄰的區(qū)域,該區(qū)域就是像素級(jí)定位的車牌區(qū)域,定位過程如圖2、圖3和圖4所示。
2.2? 車牌矯正
對(duì)車牌進(jìn)行矯正,獲取車牌的四個(gè)角點(diǎn)坐標(biāo),這是對(duì)車牌進(jìn)行識(shí)別前的優(yōu)化處理。首先計(jì)算得到車牌區(qū)域的邊緣坐標(biāo)和最小外接矩形,再?gòu)能嚺频倪吘壸鴺?biāo)中計(jì)算出與外接矩形最近的四個(gè)角點(diǎn)。最后經(jīng)過設(shè)計(jì)后的透視變換方法對(duì)傾斜角度較大或形變嚴(yán)重的車牌都能達(dá)到較佳的矯正效果,矯正公式為:
(1)
其中, 為變換矩陣,(x,y)為車牌區(qū)域的邊緣坐標(biāo),經(jīng)過變換得到矯正后的坐標(biāo)(X,Y),由于車牌圖像是二維平面,故需要轉(zhuǎn)化為(X′,Y′),轉(zhuǎn)換公式為:
(2)
2.3? 車牌識(shí)別
本文提出基于改進(jìn)的CNN對(duì)車牌進(jìn)行端到端識(shí)別。為了提高神經(jīng)網(wǎng)絡(luò)的表征能力,把淺層特征與高層語(yǔ)義信息以拼接方式拼接起來(lái),從而準(zhǔn)確提取圖像的全局特征。對(duì)特征圖平均池化處理,允許網(wǎng)絡(luò)更加注重環(huán)境特征;對(duì)特征圖最大池化處理,允許網(wǎng)絡(luò)更加注重細(xì)節(jié)特征。將這兩種處理方法結(jié)合起來(lái)使網(wǎng)絡(luò)獲取更加豐富的字符特征。因此將平均池化和最大池化處理引入到CNN模型中,對(duì)車牌圖像提取出更具有完整性的特征信息。由于車牌識(shí)別屬于多分類[14],由于CNN模型的結(jié)構(gòu)和參數(shù)是共享的,因此適用于每個(gè)字符的識(shí)別任務(wù)。在CNN模型設(shè)計(jì)中,車牌的7個(gè)標(biāo)簽對(duì)應(yīng)7個(gè)輸出就可以實(shí)現(xiàn)端到端識(shí)別。
本文使用Adam損失函數(shù)[15]來(lái)優(yōu)化CNN模型,損失值和識(shí)別率的計(jì)算公式為:
(3)
(4)
其中, 為網(wǎng)絡(luò)輸出層在沒有進(jìn)行歸一化情況下的概率,pn為第n個(gè)類別的概率,n為輸出層的神經(jīng)元個(gè)數(shù)。
3? 實(shí)驗(yàn)結(jié)果與分析
為了證實(shí)本文提出的車牌識(shí)別算法的有效性,需要對(duì)該算法進(jìn)行實(shí)驗(yàn)與分析。車牌定位和識(shí)別任務(wù)所需要的數(shù)據(jù)集主要來(lái)源于CCPD開源數(shù)據(jù)集、停車場(chǎng)、收費(fèi)站等,共計(jì)50 000張。
本文實(shí)驗(yàn)采用基于TensorFlow的深度學(xué)習(xí)框架。實(shí)驗(yàn)平臺(tái)的CPU為Intel i7-10750H,Python版本為3.6.5。本實(shí)驗(yàn)中迭代次數(shù)設(shè)置為35次,目的是為了提高模型的泛化能力。為了防止過擬合,迭代次數(shù)不能過多。經(jīng)過多次測(cè)試后,實(shí)驗(yàn)結(jié)果表明,迭代次數(shù)在30次之后趨于穩(wěn)定。
在圖像分割領(lǐng)域,一般用IoU和DICE衡量網(wǎng)絡(luò)分割的結(jié)果與實(shí)際結(jié)果之間的相似性。數(shù)值越大,說明圖像的相似性越高。二者的計(jì)算公式為:
(5)
(6)
其中,TP為樣本目標(biāo)和預(yù)測(cè)目標(biāo)的交集,F(xiàn)P為誤將車牌背景識(shí)別為車牌的集合,F(xiàn)N為將車牌誤認(rèn)為背景的部分,TN為正確識(shí)別背景的部分。
在車牌定位任務(wù)中,使用U-Net模型和FCN模型[16]對(duì)車牌進(jìn)行分割實(shí)驗(yàn)對(duì)比,并對(duì)兩個(gè)模型進(jìn)行綜合評(píng)價(jià),評(píng)價(jià)指標(biāo)如表1所示。
U-Net模型在IoU和DICE上都較優(yōu)于FCN模型。低損耗是視覺定位效果的評(píng)價(jià)指標(biāo)之一,模型的參數(shù)越小,在識(shí)別應(yīng)用上會(huì)更便捷和更具實(shí)用性。相較于FCN網(wǎng)絡(luò)模型,本文的定位模型具有明顯的優(yōu)勢(shì)。
在車牌矯正任務(wù)中,如果只是對(duì)車牌區(qū)域進(jìn)行邊緣檢測(cè),從而獲取車牌的四邊形,對(duì)于傾斜角度較大的車牌來(lái)說,矯正效果不好。因此采用透視變換方法,對(duì)傾斜角度較大的車牌也能獲得良好的矯正效果,進(jìn)一步提高該車牌識(shí)別算法的魯棒性。車牌矯正示意圖如圖5、圖6所示。
本文提出的車牌識(shí)別模型與模板匹配和基于多分類的SVM模型進(jìn)行對(duì)比,不同模型的識(shí)別率如表2所示。
對(duì)比實(shí)驗(yàn)結(jié)果表明,文獻(xiàn)[2]的模板匹配模型和文獻(xiàn)[4]的SVM模型的識(shí)別率分別為92%和95%,而使用本文的模型準(zhǔn)確率可達(dá)到97.5%。因此本文提出的模型對(duì)車牌的識(shí)別效果更好,在迭代次數(shù)相對(duì)較少的情況下就能達(dá)到更平穩(wěn)、更高的。
本文選取了不同場(chǎng)景下的的車牌進(jìn)行檢測(cè)與識(shí)別。由圖7可以看出,在不同場(chǎng)景下,本文的車牌識(shí)別方法具有很好的性能。
4? 結(jié)? 論
本文基于U-Net和CNN對(duì)不復(fù)雜環(huán)境下的車牌進(jìn)行檢測(cè)和識(shí)別。實(shí)驗(yàn)結(jié)果表明,本文提出的深度學(xué)習(xí)模型對(duì)車牌的識(shí)別率達(dá)到97.5%。本文提出的算法不僅解決了復(fù)雜條件下識(shí)別效果不佳的問題提高了識(shí)別速度,從而實(shí)現(xiàn)了實(shí)時(shí)、高精準(zhǔn)度的識(shí)別。
參考文獻(xiàn):
[1] 凌翔,賴錕,王昔鵬.基于模板匹配方法的不均勻照度車牌圖像識(shí)別 [J].重慶交通大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,37(8):102-106.
[2] 張俊峰,尚振宏,劉輝.基于顏色特征與模板匹配的車牌識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].軟件導(dǎo)刊,2018,17(1):212-215+ 220.
[3] CHEN J R. Chinese license plate identification based on Android platform [C]//2017 3rd International Conference on Computational Intelligence & Communication Technology (CICT).Ghaziabad:IEEE,2017:234-241.
[4] 李良榮,榮耀祖,顧平,等.基于SVM的車牌識(shí)別技術(shù)研究 [J].貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,35(5)48-54.
[5] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-Net:ConvolutionalNetworks for Biomedical Image Segmentation [C]//MedicalImage Computing and Computer- Assisted Intervention(MICCAI).Munich:Springer,2015:234-241.
[6] 周正東,李劍波,辛潤(rùn)超,等.基于帶孔U-net神經(jīng)網(wǎng)絡(luò)的肺癌危及器官并行分割方法 [J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,49(2):231-236.
[7] 應(yīng)宏微,姚明海,張永華.基于紋理分析和垂直投影的車牌定位算法 [J].控制工程,2004(5):432-435+476.
[8] 楊鼎鼎,陳世強(qiáng),劉靜漪.基于車牌背景和字符顏色特征的車牌定位算法 [J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(12):216-221.
[9] 陳宏照,謝正光,盧海倫.顏色與邊緣紋理相結(jié)合的車牌定位方法 [J].現(xiàn)代電子技術(shù),2018,41(21):67-70+75.
[10] 曾麗華,李超,熊璋.基于邊緣與顏色信息的車牌精確定位算法 [J].北京航空航天大學(xué)學(xué)報(bào),2007(9):1112-1116.
[11] WANG M,WANG G H. Method of Vehicle License Plate Correction Based on Characters Projec-tion Minimum Distance [J].Computer Engineering,2008,34(6):216-218.
[12] 高東東,張新生.基于空間卷積神經(jīng)網(wǎng)絡(luò)模型的圖像顯著性檢測(cè) [J].計(jì)算機(jī)工程,2018,44(5)240-245.
[13] 蔡英鳳,張?zhí)锾?,王海,?基于實(shí)例分割和自適應(yīng)透視變換算法的多車道線檢測(cè)[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,50(4):775-781.
[14] 陸超紅.基于多通道循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法 [J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(8):282-288.
[15] 汪友明,徐攀峰.基于改進(jìn)Adam優(yōu)化器的CNN電鏡醫(yī)學(xué)圖像分類 [J].西安郵電大學(xué)學(xué)報(bào),2019,24(5):26-33.
[16] LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:3431-3440.
作者簡(jiǎn)介:吳安輝(1993—),男,漢族,廣東湛江人,碩士研究生,主要研究方向:圖像處理與模式識(shí)別、深度學(xué)習(xí);何家峰(1970—),男,漢族,河南信陽(yáng)人,副教授,博士,主要研究方向:圖像處理與模式識(shí)別、人工嗅覺信號(hào)處理人工情感、雷達(dá)成像;何啟莉(1995—),女,漢族,四川自貢人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、圖像識(shí)別。