陳心怡,王雪嬌,胡 石
(1.池州職業(yè)技術(shù)學(xué)院機(jī)電與汽車系,安徽池州247000;2.無錫機(jī)電高等職業(yè)技術(shù)學(xué)校,江蘇無錫214028)
深度學(xué)習(xí)越來越廣泛地應(yīng)用于自然場景圖像的文本檢測中,常用算法包括R-CNN、Fast R-CNN和Faster R-CNN。自然場景文本檢測的困難主要有:自然場景中的背景復(fù)雜,光線、噪聲等影響大,給文本檢測的準(zhǔn)確性帶來諸多不確定性;滑動(dòng)窗口的固定性造成運(yùn)算復(fù)雜度大大增加。為此,國內(nèi)外學(xué)者提出了一系列基于深度學(xué)習(xí)的文本檢測算法。針對多方向維度的文本信息:Wei等在anchor中新增了文本的方向度數(shù)信息[1];Liao等調(diào)整了Default Boxes的長寬比以適應(yīng)文本對話框,將SSD改進(jìn)成了可以適應(yīng)端對端訓(xùn)練的Text Boxes模型[2];Liao等對Text Boxes模型進(jìn)行了改進(jìn),演化成了Text Boxes++模型[3],可以更好地處理多方向的文本信息檢測。
Faster R-CNN在結(jié)構(gòu)上整合了特征提取、生成提取、邊界框回歸、分類器,并融合在一個(gè)網(wǎng)絡(luò)中,可以很好地提升網(wǎng)絡(luò)識(shí)別速度,并取得較好的綜合性能。Faster R-CNN模型的目標(biāo)優(yōu)化函數(shù)為
Faster R-CNN算法本身存在缺陷,尤其是在文本區(qū)域預(yù)測方面。傳統(tǒng)的滑動(dòng)窗口RPN有2個(gè)明顯的缺陷[4]:(1)滑動(dòng)窗口一旦設(shè)定為固定值,它不能隨真實(shí)或自然場景中的圖像而變化;(2)在任務(wù)處理過程中,不僅要進(jìn)行一系列繁雜的計(jì)算,還要同多個(gè)模型進(jìn)行匹配,需要耗費(fèi)大量的時(shí)間才能完成學(xué)習(xí)訓(xùn)練。針對此問題,本文對該算法加以改進(jìn)。
本文重新調(diào)整RPN策略,使文本預(yù)測不再受固定滑窗的束縛,將原有的滑動(dòng)窗口分割策略重新分割為不同的小窗口,得到細(xì)分后的RPN窗口,后續(xù)將其分別投射到估算狀態(tài)。這一過程實(shí)質(zhì)上是對RPN網(wǎng)絡(luò)模型的構(gòu)建,更準(zhǔn)確地說就是改變卷積核的尺度、種類和數(shù)量,由原來的n×n模式演變成大小不一的網(wǎng)絡(luò)結(jié)構(gòu)。本文依托回歸算法和共享目標(biāo)檢測法提取其中的網(wǎng)絡(luò)結(jié)構(gòu),只需要訓(xùn)練一個(gè)模型就可以實(shí)現(xiàn)多任務(wù)綁定處理,輸出端得到3個(gè)輸出結(jié)果,訓(xùn)練模型被大大簡化。構(gòu)建的端到端網(wǎng)絡(luò)結(jié)構(gòu)可以并行處理不同的任務(wù),1個(gè)輸入匹配多個(gè)輸出,簡化中間過程。改進(jìn)內(nèi)容包括回歸器的構(gòu)建、R-CNN算法與回歸器的結(jié)合、為訓(xùn)練網(wǎng)絡(luò)模型創(chuàng)建合理的優(yōu)化策略。
目標(biāo)函數(shù)使用交叉熵?fù)p失函數(shù)[5],其定義為
式(4)可以通過使用多重梯度反向傳播的方法來更新目標(biāo)網(wǎng)絡(luò)的參數(shù),并將用戶所測量到的值不斷地逼近其真實(shí)的測量值,從而提供對目標(biāo)參數(shù)的回歸測量值,該數(shù)值是基于多重網(wǎng)絡(luò)梯度所得的。圖1中是改進(jìn)后的文本檢測算法流程。
圖1 改進(jìn)的Faster R-CNN算法流程
USTB-SV1K數(shù)據(jù)庫是常用的文本檢測的數(shù)據(jù)庫,包含1 000張文本數(shù)據(jù),源自美國6個(gè)城市的Google街景,從當(dāng)?shù)刈匀磺榫持胁杉玫?,其中一部分圖像作為模型訓(xùn)練之用,另一部分圖像則用來對訓(xùn)練結(jié)果加以學(xué)習(xí)檢測。該數(shù)據(jù)庫文本包含多方向和多分辨率的信息,圖片大小均為512×512,其中水平方向文本占75%,其他方向的文本占25%。實(shí)驗(yàn)仿真中部分庫樣如圖2所示,利用矩形框來鎖定圖片中的檢測文本數(shù)據(jù)信息,邊框的對角坐標(biāo)決定矩形的位置。
圖2 文本庫樣
通常文本檢測的結(jié)果受文本尺寸、擺放角度甚至是姿態(tài)的影響較大,對文本檢測結(jié)果的評價(jià)方法也非固定不變。本文主要運(yùn)用平均性能F、召回率R和精度P這3個(gè)參數(shù)對文本檢測效果進(jìn)行評價(jià),實(shí)現(xiàn)對算法性能的衡量[7]。F,R,P分別為
其中,IC是正確找到的文本總數(shù),ID是通過算法找到的文本總數(shù),IG是測試的總文本數(shù)。
式(5)表明,文本檢測后,其正確率為精度P,漏檢文本的概率為召回率R。若圖像中存在很多的漏檢文本,則相應(yīng)的R值將較低。如果在數(shù)據(jù)集中顯示更多的誤報(bào)文本,則相應(yīng)的精度P值將相對較低。召回率與精度系數(shù)的加權(quán)平均值等于F,不僅凸顯了漏檢結(jié)果和文本檢測的準(zhǔn)確度,還直接反映算法的性能優(yōu)劣。平均性能F是一個(gè)較好反映檢測效果優(yōu)劣的指標(biāo)。在自然場景下,文本檢測的結(jié)果ID表示對應(yīng)算法所獲取的矩形文本框,用 |ID|來表示它的集合,|IG|表示真實(shí)集合。具體的匹配標(biāo)準(zhǔn)為
文本檢測召回率和精度分別為
仿真實(shí)驗(yàn)中使用的USTB-SV1K數(shù)據(jù)庫共包含2類圖像,共計(jì)1 000張,模型訓(xùn)練圖像200張,學(xué)習(xí)圖像800張。對學(xué)習(xí)圖像再分類,其中高對比度圖像200張,低對比度圖像200張,剩余圖像400張。表1顯示的是學(xué)習(xí)圖像的概況。
表1 學(xué)習(xí)圖像的概況
實(shí)驗(yàn)第1步,從數(shù)據(jù)集中選擇200個(gè)文本和非文本區(qū)域中的低對比度圖片,表2顯示的是Faster RCNN算法與改進(jìn)的Faster R-CNN算法在高對比度下的檢測性能結(jié)果。
表2 傳統(tǒng)的和改進(jìn)的Faster R-CNN在高對比度下的檢測性能結(jié)果
在對比度相對較高的圖像中,對于非文本區(qū)域或文本區(qū)域而言,改進(jìn)后的算法在檢測效果、學(xué)習(xí)以及整體特性方面都更為優(yōu)越。Faster R-CNN算法大大提高了文本分析和檢測數(shù)據(jù)的準(zhǔn)確性、召回率和平均性能,針對某些場景中近似文本信息的物體特征引起的誤檢測,改進(jìn)后的算法均有較好的效果。無論是本文算法或傳統(tǒng)算法,對于高對比度的圖像依然會(huì)因背景和光線問題造成漏檢。改進(jìn)的Faster RCNN文本檢測算法將回歸算法融合共享目標(biāo)檢測網(wǎng)絡(luò)后,在運(yùn)算量和任務(wù)處理的繁雜度上均比傳統(tǒng)算法要改進(jìn)不少,且該算法所搭建的網(wǎng)絡(luò)結(jié)構(gòu)還能保證特征提取的準(zhǔn)確性,能夠高效學(xué)習(xí)并同時(shí)處理多項(xiàng)任務(wù),但弊端是沒有側(cè)重細(xì)節(jié)特征,造成一些非文本區(qū)域被誤認(rèn)定為文本框。
實(shí)驗(yàn)第2步,選擇對比度偏低的200個(gè)文本,對比傳統(tǒng)的Faster R-CNN算法和改進(jìn)的Faster R-CNN算法的文本檢測效果,表3為最終得到的性能檢測結(jié)果。
表3 傳統(tǒng)的和改進(jìn)的Faster R-CNN在低對比度下的性能檢測結(jié)果
不論文本所處區(qū)域如何,圖像的對比度越高,改進(jìn)的算法特性表現(xiàn)就越好。比較2種算法可發(fā)現(xiàn),改進(jìn)后的Faster R-CNN算法顯然比傳統(tǒng)Faster R-CNN算法具有更好的文本檢測準(zhǔn)確性、召回率和平均性能。特別是召回率數(shù)值較低,反映了改進(jìn)的Faster R-CNN算法經(jīng)過改進(jìn)PRN網(wǎng)絡(luò)后可以獲得更多的文字區(qū)域,如此一來,算法中精度和查全率均能得到顯著提升。
實(shí)驗(yàn)第3步,隨機(jī)挑選400張文本圖片(高對比度和低對比度隨機(jī)選擇),其所含文本共計(jì)1 224個(gè),分別用改進(jìn)前后的算法來加以檢測,可得Faster R-CNN算法的平均性能、召回率和精度分別為74.51%、84.59%和73.62%,與之對應(yīng),改進(jìn)的Faster R-CNN算法檢測結(jié)果分別為83.07%、82.43%和79.21%。
圖3 改進(jìn)前后的算法檢測隨機(jī)選擇圖像結(jié)果。(a)原始圖像;(b)Faster R-CNN算法檢測效果;(c)改進(jìn)的Faster R-CNN算法檢測效果
用改進(jìn)前后的算法分別檢測多組隨機(jī)選取的圖像,結(jié)果表明改進(jìn)后的算法綜合性能要明顯好于傳統(tǒng)算法,針對光線強(qiáng)弱變化,改進(jìn)后的算法也具有較好的優(yōu)勢。例如,在光線的照射下,原始圖像中的一些信息相對模糊,依托傳統(tǒng)算法來進(jìn)行檢測無法檢測出正確的文本,而且受反光影響,其所標(biāo)注的文本信息為指示牌,但借助改進(jìn)后的算法能夠很準(zhǔn)確地發(fā)現(xiàn)目標(biāo)字樣,并得到準(zhǔn)確的檢測結(jié)果。
本文主要研究自然場景中的文本檢測算法,并提出了一種改進(jìn)的Faster R-CNN文本檢測算法。實(shí)驗(yàn)從數(shù)據(jù)集中分別選擇了對比度高、對比度低和任意選擇對比度3種情況進(jìn)行不同算法的文本檢測結(jié)果對比,實(shí)驗(yàn)結(jié)果表明,本文算法具有較好的處理效果。