于之靖 王嘉偉 鄭建文 陶永奎 諸葛晶昌
1(中國民航大學(xué)電子信息與自動化學(xué)院 天津 300300)2(中國民航大學(xué)航空工程學(xué)院 天津 300300)
近年來,旅客出行次數(shù)日益增多,民航業(yè)的發(fā)展較為迅速,這對民航安全問題帶來了新的挑戰(zhàn)。機(jī)場標(biāo)記牌作為引導(dǎo)飛機(jī)起降滑行的信息指示牌,對于維持機(jī)場秩序、保障飛機(jī)起降安全具有重要意義。傳統(tǒng)檢查標(biāo)記牌合格性的方法是人工巡檢,此方法不僅效率低而且會造成誤檢漏檢。而人工智能作為近年來國家大力發(fā)展的新興技術(shù)產(chǎn)業(yè)之一,已經(jīng)在城市、醫(yī)療、交通、安全等多個領(lǐng)域產(chǎn)生了積極的影響。如何讓AI為民航賦能,建設(shè)安全、友好、高效的“智慧機(jī)場”還是一個亟待解決的問題。
自然場景下的文字是一種非常常見的視覺對象,在路標(biāo)、牌照以及產(chǎn)品包裝等地方經(jīng)常出現(xiàn)。正確識別自然場景下的文字不僅可以幫助人們更好地感知周圍環(huán)境,而且可以輔助人們在面對突發(fā)情況時做出正確的決策。
不同于發(fā)展較為成熟的OCR[1],自然場景下的文字檢測由于面對著光照、遮擋、傾斜等諸多因素的影響,算法的魯棒性還面臨著諸多的挑戰(zhàn)。 而近些年,基于深度學(xué)習(xí)的物體檢測算法發(fā)展較為迅速,現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)具有很好的表達(dá)能力,但網(wǎng)絡(luò)遷移泛化能力不強。對于在訓(xùn)練中出現(xiàn)過的樣本,網(wǎng)絡(luò)可以較好地學(xué)習(xí),但針對真實場景中未曾出現(xiàn)的樣本,網(wǎng)絡(luò)性能就會大幅下降。而真實場景下的文字通常會受光照、遮擋、角度的影響,如何處理訓(xùn)練集和測試集之間數(shù)據(jù)分布的差異具有重要意義。
鑒于此,嘗試從模型結(jié)構(gòu)角度出發(fā),通過引入域不變性的IN/BN,來讓網(wǎng)絡(luò)學(xué)習(xí)到更本質(zhì)的特征,并對特征做更精細(xì)的定位,從而提升模型的性能。
文字檢測問題是物體檢測問題的一個重要分支,近些年很多研究人員提出的方法從物體檢測發(fā)展而來。針對于通用物體檢測,其檢測方法大致可以分為兩類:一種是多階段的檢測方法,如R-CNN[2-4]系列。R-CNN[2]把檢測問題當(dāng)成分類問題來看待,先通過選擇性搜索算法得到大量的候選框,然后通過CNN提取每個候選框的特征,對于每個框的特征再用SVM進(jìn)行分類。Fast RCNN[3]共享整個卷及網(wǎng)絡(luò)并通過ROI Pooling輸出特定維度特征。而Faster RCNN[4]提出了RPN網(wǎng)絡(luò)來代替選擇性搜索算法,從而極大地減少了測試時間。通常來說,這樣的多階段的檢測方法召回率更高、性能更好,但是參數(shù)量和計算量也更大。另一種是單階段的檢測方法,如YOLO[6]、SSD[5]等。最初的YOLO直接在整張圖像的不同地方上輸出回歸框來代替RPN,這極大地減少了測試時間。而SSD在不同尺度的特征上輸出不同長寬比的default box,這使得SSD在不增加測試時間的同時提升了模型性能。這樣的單階段的檢測方法速度更快、實時性更高,但是精度比多階段模型略差。特別是對于密集、尺度變化大的文字來說往往效果更加不好。
此外,PVANet[7]利用更好的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)提取到更加精細(xì)的特征,從而提升了模型性能。而DetNet[8]從網(wǎng)絡(luò)結(jié)構(gòu)的角度出發(fā),通過設(shè)計一個更適合檢測任務(wù)的基礎(chǔ)網(wǎng)絡(luò),提取到了更加合理的特征。
文字檢測算法主要分為經(jīng)典算法和深度學(xué)習(xí)算法兩類。MSER[9](Maximally Stable Extremal Region)是區(qū)域檢測中影響最大的算法,該算法通過不斷調(diào)整二值化閾值檢測穩(wěn)定極值區(qū)域;SWT[10](Stroke Width Transform)利用Canny算子對圖像進(jìn)行邊緣檢測,得到的每個文字邊緣像素點的梯度。如果兩個像素點梯度方向相反并且歐氏距離小于一定閾值則被認(rèn)定為文字邊緣;Textbox++[11]改變了SSD的default box比例以及卷積核的尺寸,以提取更加合適的文字特征;STN[12](Spatial Transformer Networks)設(shè)計了一個空間變換模塊解決了扭曲文字定位與識別問題。
域不變性是指在某個場景下訓(xùn)練得到的模型在不同場景下依舊具有良好的魯棒性。目前,針對文字檢測任務(wù)的研究較少,研究者們更多關(guān)注圖像分類任務(wù)。其算法主要分為三類:半監(jiān)督、遷移學(xué)習(xí)、GAN。Naoto Inoue等[13]提出了一種基于半監(jiān)督的域不變性算法,通過利用GAN生成的數(shù)據(jù)和偽標(biāo)注數(shù)據(jù)做多次遷移學(xué)習(xí),使得模型具有更好的域不變性;R Volpi等[14]以對抗學(xué)習(xí)的方式讓模型學(xué)習(xí)到更加魯棒的特征;C Barto等[15]通過遷移學(xué)習(xí)的方式探討了用虛擬數(shù)據(jù)訓(xùn)練模型的可能性。
以上的這些方法更多地從優(yōu)化方法的角度提升模型的域不變性,卻較少關(guān)注模型結(jié)構(gòu)本身。因此,針對跨模態(tài)標(biāo)記牌文字檢測問題,研究嘗試設(shè)計具有域不變性的網(wǎng)絡(luò)結(jié)構(gòu)和更優(yōu)質(zhì)的卷積特征,在不增加計算量的前提下提升算法的魯棒性。
本文提出的模型是一個端對端可訓(xùn)練的文字檢測器,通過重新調(diào)整DW卷積,為基礎(chǔ)結(jié)構(gòu)引入域不變性的IN,讓網(wǎng)絡(luò)學(xué)習(xí)到域不變性的特征,從而提升基礎(chǔ)網(wǎng)絡(luò)的泛化能力。
整個文字檢測網(wǎng)絡(luò)如圖1所示。網(wǎng)絡(luò)結(jié)構(gòu)由三個部分組成:基礎(chǔ)網(wǎng)絡(luò)IBDW,區(qū)域提出網(wǎng)絡(luò)RPN,F(xiàn)ast RCNN邊框回歸器。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
Instance Normalization:該模塊最初應(yīng)用于風(fēng)格遷移,ulyanov等[16]提出用Instance Normalization(IN)替換Batch Normalization(BN),這樣在通過GAN進(jìn)行風(fēng)格遷移后時可以阻止實例特定的均值和協(xié)方差簡化學(xué)習(xí)的過程,最大程度保留每張圖片獨特的紋理細(xì)節(jié)。其中BN數(shù)學(xué)公式如下:
(1)
(2)
(3)
相較于BN,IN單獨計算每個樣本所有像素點的均值和方差,并做歸一化。其數(shù)學(xué)公式如下:
(4)
(5)
(6)
研究發(fā)現(xiàn)在神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化過程中,特別是訓(xùn)練樣本類內(nèi)距分布較大時,網(wǎng)絡(luò)總會隱式地學(xué)習(xí)一種風(fēng)格遷移能力。如果從模型結(jié)構(gòu)角度出發(fā),用IN替換掉部分BN,則可以直接賦予模型泛化能力,保留更多底層紋理細(xì)節(jié),提升模型在真實場景下的表現(xiàn)。
基礎(chǔ)網(wǎng)絡(luò):研究提出的基礎(chǔ)結(jié)構(gòu)IBDW如圖2所示。這樣的設(shè)計一方面為模型引入域不變性能力。另一方面,適度的增加IN可以更好地保存成分信息。通過引入IBDW模塊,讓網(wǎng)絡(luò)學(xué)習(xí)到更加本質(zhì)特征,在不增加模型參數(shù)的前提下,提升模型性能。
圖2 IBDW模塊
區(qū)域提出網(wǎng)絡(luò):區(qū)域提出網(wǎng)絡(luò)RPN在IBDW提取到的特征上為Fast RCNN生成文本建議框。本文設(shè)置不同大小、不同長寬比的先驗框。通過這樣的方式,RPN可以處理不同大小、不同長寬比的文字。ROI Align用來提取區(qū)域特征。相比于ROI Pooling,ROI Align可以得到更加精細(xì)的位置信息。
邊框回歸器:Fast R-CNN包括一個分類任務(wù)和一個回歸任務(wù)。這一部分的主要功能是為檢測提供更精確的回歸框。RPN網(wǎng)絡(luò)輸出的文本建議框經(jīng)過ROI Align得到7×7的特征圖,該特征圖作為輸入經(jīng)過Fast R-CNN最終得到精細(xì)的回歸框。
為了說明IN模塊如何提升模型泛化能力,這里通過計算不同域特征不同通道的特征分布進(jìn)行分析。假設(shè)特征單通道服從高斯分布,均值為μ,方差為σ2,則不同域A、B間單通道的KL散度為:
D(FA‖F(xiàn)B)=KL(FA‖F(xiàn)B)-KL(FB‖F(xiàn)A)
(7)
(8)
若D(FiA‖F(xiàn)iB)表示第i通道的KL散度,則每層神經(jīng)網(wǎng)絡(luò)的平均KL散度表示為:
(9)
式中:C是該層的通道數(shù)。式(9)提供了不同域之間特征分布的距離度量方法。
由于MNIST和SVHN數(shù)據(jù)集均是由不同分布的數(shù)字構(gòu)成,因此研究采用SVHN-MNIST構(gòu)建不同域特征。研究分別抽取兩個數(shù)據(jù)集部分相同字符,然后統(tǒng)計了11個ReLU層的特征散度。統(tǒng)計結(jié)果如圖3所示。
圖3 特征分布
從圖3可以看出,在IN-MobileNet中由外觀差異引起的特征散度明顯減少,這種現(xiàn)象一直持續(xù)到未添加IN的深層。這也說明在深層特征中外觀差異對特征提取的影響較小。
在這一部分,實驗在公開數(shù)據(jù)集上對比了不同方法的實驗性能,并用標(biāo)準(zhǔn)的評價指標(biāo)進(jìn)行評測。
為了驗證算法在不同場景下的魯棒性,實驗分別在ICDAR2013數(shù)據(jù)集和ICDAR2015數(shù)據(jù)集的訓(xùn)練集和測試集上做模型訓(xùn)練和性能測試,對比模型在不同數(shù)據(jù)集上的性能表現(xiàn),從而驗證提出的IN模塊在數(shù)據(jù)分布不一致時對于模型性能的影響。另外實驗通過CCD相機(jī)采集了100張助航燈光標(biāo)記牌圖像,以觀察模型在目標(biāo)場景下的表現(xiàn)。
研究采用了標(biāo)準(zhǔn)的文字檢測評價標(biāo)準(zhǔn):準(zhǔn)確率(P),召回率(R)和F值(F)。它們的數(shù)學(xué)表達(dá)如下:
(10)
(11)
(12)
式中:TP代表真正率,F(xiàn)P代表假正率,F(xiàn)N代表假負(fù)率。對于文字檢測,如果檢測框與ground truth交并比大于閾值(一般設(shè)置0.5)并且得分也大于相應(yīng)閾值則被視為正例。F值是準(zhǔn)確率和召回率的調(diào)和平均值。
為了加速網(wǎng)絡(luò)收斂,實驗預(yù)先在SynthText預(yù)訓(xùn)練并在真實數(shù)據(jù)集上做遷移學(xué)習(xí)。優(yōu)化方法采用隨機(jī)梯度下降,動量設(shè)置為0.9,Batch Size為16。訓(xùn)練前重新調(diào)整圖像大小,設(shè)置最長邊800,長寬比與原圖保持一致,并在調(diào)整后的圖像上做了隨機(jī)裁剪(裁剪比率0.7~1.0)和隨機(jī)偏轉(zhuǎn)(-15°~15°)。在預(yù)訓(xùn)練階段,采用10-3學(xué)習(xí)率訓(xùn)練迭代10萬次,然后分別用10-4和10-5的學(xué)習(xí)率訓(xùn)練迭代5萬次。
為了驗證IN對于不同基礎(chǔ)網(wǎng)絡(luò)不產(chǎn)生模型偏好,實驗一將IN引入不同模型,并在ICDAR2013數(shù)據(jù)集上訓(xùn)練、測試,實驗結(jié)果見表1。
表1 IN在不同基礎(chǔ)網(wǎng)絡(luò)的性能對比
為了研究IN對于模型泛化性能影響,實驗二、三分別在ICDAR2013和ICDAR2015數(shù)據(jù)集上訓(xùn)練和測試,實驗結(jié)果見表2、表3。
表2 IN在ICDAR2013數(shù)據(jù)集訓(xùn)練,ICDAR2013和2015測試集測試的性能對比
表3 IN在ICDAR2015數(shù)據(jù)集訓(xùn)練,ICDAR2013和2015測試集測試的性能對比
在目標(biāo)場景下可視化效果如圖4所示。
(a) 添加IN檢測效果
(b) 未添加IN檢測效果圖4 可視化效果圖
實驗結(jié)果表明,針對于不同場景、不同時刻、不同光照強度的測試環(huán)境,重新設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)可以有效得使得模型更關(guān)注于目標(biāo)本身,降低由外觀差異而引起的特征散度,提升模型在不同測試環(huán)境下的魯棒性和泛化能力。與其他方法不同,研究通過重新設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)直接賦予網(wǎng)絡(luò)域不變性的能力,使得模型可以在較強的外界干擾條件下學(xué)習(xí)到更加魯棒的特征,從而提升算法性能。
研究提出了一個具有域不變性的文字檢測模型,通過引入IN使得模型可以提取到更魯棒的特征。實驗結(jié)果表明,重新設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)降低了由外界干擾引起的特征散度,提升了算法在不同域間的泛化能力,針對于不同場景下標(biāo)記牌文字表現(xiàn)出更穩(wěn)定的檢測性能,為機(jī)場秩序維護(hù)、飛機(jī)起降安全等提供了保障。但同樣需要注意的是,提出的結(jié)構(gòu)只能在一定程度減弱數(shù)據(jù)分布差異帶來的影響。如何讓網(wǎng)絡(luò)在提取到更魯棒特征的同時讓特征分布更貼近于目標(biāo)場景、在有限的數(shù)據(jù)集上提升模型的泛化能力是下一步的工作重點。