• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向多角度文字檢測(cè)的旋轉(zhuǎn)交并比神經(jīng)網(wǎng)絡(luò)

      2023-03-15 09:55:44姚宏揚(yáng)仝明磊施漪涵
      關(guān)鍵詞:邊界損失角度

      姚宏揚(yáng) 仝明磊 施漪涵

      (上海電力大學(xué)電子與信息工程學(xué)院 上海 200090)

      0 引 言

      文字檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向,在各行各業(yè)中具有廣泛應(yīng)用。自然場(chǎng)景下的文字蘊(yùn)含重要的語(yǔ)義信息,有助于描述和理解圖片內(nèi)容。目前,文字檢測(cè)的方法大多數(shù)是通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)得到的特征圖上生成區(qū)域建議作為候選目標(biāo),生成有可能包含待檢測(cè)目標(biāo)的預(yù)選框,隨后進(jìn)行文字的分類和回歸,如CTPN[1]、R2CNN[2]、MultiBox[3]、Textbox++[4]、Faster R-CNN[5]和Mask R-CNN[6]等。在以上的檢測(cè)算法中,邊界框回歸是定位目標(biāo)的一個(gè)關(guān)鍵步驟。在檢測(cè)算法的網(wǎng)絡(luò)中,文本區(qū)域通常都表示為帶有多個(gè)參數(shù)的矩形框,分別是矩形框的中心坐標(biāo)、尺寸和方向等。因此,文字檢測(cè)任務(wù)通常被描述為回歸任務(wù),目的是達(dá)到標(biāo)注值與預(yù)測(cè)值之間的差異最小化。

      文字檢測(cè)最常用的評(píng)價(jià)標(biāo)準(zhǔn)是文字區(qū)域框選的準(zhǔn)確程度。通常采用重疊面積交并比評(píng)估指標(biāo)來比較不同檢測(cè)算法的精度。2016年提出的IoU(Intersection over Union)損失函數(shù)(IoU Loss)[7]和2019年提出的廣義IoU損失函數(shù)(GIoU Loss)[8]證明了L1和L2損失函數(shù)在邊界框回歸上效果不如IoU損失函數(shù)。在網(wǎng)絡(luò)中,邊界框的每個(gè)參數(shù)獨(dú)立訓(xùn)練,使用L1和L2損失函數(shù)將梯度反向傳播時(shí)每個(gè)參數(shù)也是獨(dú)立的,但實(shí)際上這些參數(shù)共同組成邊界框,應(yīng)當(dāng)是有相關(guān)性的。IoU損失函數(shù)就在反向傳播時(shí),將每個(gè)單獨(dú)的參數(shù)整合為邊界框之間的交并比,作為重疊面積的損失傳播到網(wǎng)絡(luò)。盡管IoU Loss和GIoU Loss解決了預(yù)測(cè)框的尺度敏感及參數(shù)缺乏相關(guān)性的問題,但仍面臨回歸不精準(zhǔn)的問題。

      現(xiàn)在的檢測(cè)算法可以較好地收斂水平或垂直的邊界框,但是自然場(chǎng)景中的文字目標(biāo)都有很大的方向隨機(jī)性,如果只能收斂成水平和垂直邊界框,就會(huì)包含非常多的背景冗余區(qū)域,使得檢測(cè)準(zhǔn)確度不高,也影響到后續(xù)的文字識(shí)別等操作,如何更好地回歸出具有旋轉(zhuǎn)方向的邊界框來檢測(cè)隨機(jī)方向的文本仍然是一個(gè)挑戰(zhàn)。

      為了實(shí)現(xiàn)更快、更精準(zhǔn)的旋轉(zhuǎn)目標(biāo)檢測(cè)和解決模型訓(xùn)練時(shí)預(yù)測(cè)參數(shù)缺乏相關(guān)性的問題,本文提出一種旋轉(zhuǎn)交并比(Rotation-Intersection over Union,RIoU)損失函數(shù)。通過添加錨點(diǎn)旋轉(zhuǎn)參數(shù),使預(yù)測(cè)邊界框的參數(shù)中帶有角度信息,將角度信息用于邊界框回歸,再對(duì)交并比損失函數(shù)添加合適的角度懲罰項(xiàng),使預(yù)測(cè)到的邊界框參數(shù)具有很強(qiáng)的相關(guān)性,并且角度參數(shù)也能夠快速收斂。與之前的水平檢測(cè)方法不同,我們?cè)黾有D(zhuǎn)錨點(diǎn)的方法可以使預(yù)測(cè)提議更加適應(yīng)文本區(qū)域,減少了檢測(cè)出的背景部分所占比,在網(wǎng)絡(luò)最后的非極大值抑制部分也引入了旋轉(zhuǎn)交并比的算法,在抑制冗余預(yù)測(cè)框時(shí),不僅考慮交并比分?jǐn)?shù),還要考慮到邊界框的角度信息,使得最終獲得的結(jié)果能夠更加精準(zhǔn)。

      1 文字檢測(cè)關(guān)鍵步驟

      1.1 文字檢測(cè)的評(píng)估

      大多數(shù)文字檢測(cè)任務(wù)中的評(píng)估標(biāo)準(zhǔn)使用聯(lián)合交叉指標(biāo)(IoU),具體表現(xiàn)為預(yù)測(cè)框與標(biāo)注框的面積交并比來確定一組預(yù)測(cè)中的正樣本和負(fù)樣本,以及預(yù)測(cè)框?qū)δ繕?biāo)包圍的準(zhǔn)確性?,F(xiàn)有的文字檢測(cè)數(shù)據(jù)集標(biāo)注都是以文字區(qū)域的真實(shí)形狀標(biāo)注,通常是矩形框或四邊形框的四個(gè)點(diǎn)坐標(biāo),具體形狀的方向角度有很大的隨機(jī)性。此時(shí),只能提供水平和垂直區(qū)域的檢測(cè)算法不能精準(zhǔn)地框選住真實(shí)的文字區(qū)域,使得檢測(cè)精度不會(huì)很高。

      1.2 損失函數(shù)與邊界框回歸

      在文字檢測(cè)中,網(wǎng)絡(luò)模型學(xué)習(xí)邊界框的參數(shù)至關(guān)重要。在2016年提出的YOLO v1[9]中采用了對(duì)邊界框參數(shù)直接回歸的方法,并對(duì)w和h參數(shù)取平方根來減輕回歸邊界框時(shí)的尺度敏感。2018年的YOLO v3[10]則是采用了2-wh。R-CNN中是通過選擇性搜索算法[11]計(jì)算出預(yù)測(cè)框的位置和大小,并對(duì)預(yù)測(cè)框進(jìn)行參數(shù)化表示。通過定義了邊界框尺寸的對(duì)數(shù)偏移量來減輕預(yù)測(cè)框的尺度敏感,最后將L2范數(shù)作為損失函數(shù)來優(yōu)化網(wǎng)絡(luò)參數(shù)。Fast R-CNN[12]中為了使網(wǎng)絡(luò)對(duì)于異常值的學(xué)習(xí)魯棒性更高,提出了L1平滑損失函數(shù)。2018年提出的Focal loss[13]解決了訓(xùn)練時(shí)正樣本和負(fù)樣本之間的不平衡而導(dǎo)致訓(xùn)練預(yù)測(cè)框參數(shù)困難的問題。

      1.3 非極大值抑制

      非極大值抑制(NMS)是大多數(shù)目標(biāo)檢測(cè)算法中的最后一個(gè)步驟,對(duì)于同一個(gè)目標(biāo)預(yù)測(cè)得到的多個(gè)檢測(cè)框,非極大值抑制會(huì)刪除與最高得分框的重疊部分超過閾值的冗余框。2017年提出的Soft-NMS[14]通過連續(xù)IoU函數(shù)使網(wǎng)絡(luò)學(xué)習(xí)的魯棒性更高。最近,自適應(yīng)NMS[15]和Softer-NMS被提出,以用來學(xué)習(xí)合適的閾值和加權(quán)平均算法。在本文中,RIoU Loss的方法也被應(yīng)用于非極大值抑制步驟中,抑制冗余框時(shí)會(huì)同時(shí)考慮到重疊面積和邊界框的角度偏差。

      2 旋轉(zhuǎn)交并比損失函數(shù)

      交并比的表達(dá)式:

      (1)

      式中:Bgt=(xgt,ygt,wgt,hgt)為標(biāo)注邊界框真值;B=(x,y,w,h)為網(wǎng)絡(luò)模型預(yù)測(cè)邊界框參數(shù)。IoU損失函數(shù)的表達(dá)式為:

      (2)

      然而,這里的IoU損失函數(shù)只能以水平預(yù)測(cè)框去對(duì)比場(chǎng)景圖片里的文字區(qū)域,在有角度偏差的情況下也不會(huì)提供額外的移動(dòng)梯度去優(yōu)化邊界框的回歸,導(dǎo)致檢測(cè)準(zhǔn)確度無法提高。

      2.1 旋轉(zhuǎn)錨點(diǎn)參數(shù)

      為了能檢測(cè)到旋轉(zhuǎn)文字區(qū)域,在生成錨點(diǎn)時(shí),錨點(diǎn)的參數(shù)中加入角度信息θ,由中心點(diǎn)坐標(biāo)、寬與高、旋轉(zhuǎn)角度組成:

      vanchor=(x,y,w,h,θ)

      (3)

      式中:θ為邊界框底邊與x軸的夾角。在整個(gè)網(wǎng)絡(luò)中,從區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)生成目標(biāo)可能存在的區(qū)域,到錨點(diǎn)框在特征圖上得到的候選預(yù)測(cè)框,再到最后預(yù)測(cè)框的分類和回歸,整個(gè)過程中邊界框的參數(shù)都帶有角度信息,網(wǎng)絡(luò)可以正確地訓(xùn)練邊界框的旋轉(zhuǎn)參數(shù)以檢測(cè)旋轉(zhuǎn)目標(biāo)區(qū)域。

      2.2 旋轉(zhuǎn)交并比損失函數(shù)的計(jì)算

      為了更好地訓(xùn)練旋轉(zhuǎn)參數(shù),增加預(yù)測(cè)框參數(shù)之間的相關(guān)性,本文設(shè)計(jì)一種旋轉(zhuǎn)交并比損失函數(shù),損失函數(shù)帶有額外的角度懲罰項(xiàng),將預(yù)測(cè)框的形狀與角度關(guān)聯(lián)起來,該懲罰項(xiàng)的定義為:

      (4)

      如圖1所示,對(duì)于寬高比為2∶2的正方形和4∶1的矩形文字框?qū)嵗?,兩種形狀的文字框面積相同,深色的預(yù)測(cè)框與淺色的標(biāo)注框之間的角度都相差30度,中心點(diǎn)坐標(biāo)和寬高都分別相等,此時(shí)兩種情況的smooth L1損失函數(shù)都是為1的最小值。細(xì)長(zhǎng)矩形文字框的IoU損失值要大于方形文字框,表明細(xì)長(zhǎng)文字預(yù)測(cè)框與標(biāo)注框重合程度較低。RIoU損失函數(shù)的角度懲罰項(xiàng)對(duì)于兩種實(shí)例得出兩個(gè)不同的值,30度的偏差時(shí)角度懲罰值都是0.33,但因?yàn)閷捀弑炔煌?,角度懲罰值乘以了一個(gè)不同的約束值,約束值和寬高比成正比。對(duì)于寬和高相差較大的矩形文本框,角度的偏差會(huì)使文字框遠(yuǎn)離中心的兩端產(chǎn)生更大的偏差,導(dǎo)致預(yù)測(cè)框兩端不能框選到文字部分,大幅影響交并比。而寬高相近的方形文字框即使有角度偏差,也能與標(biāo)注框有較大的重合部分。故式中寬和高平方和與和平方的比值就是用來調(diào)整不同形狀的邊界框角度偏移的約束值。最終的旋轉(zhuǎn)交并比損失函數(shù)定義為:

      LSmoothL1:1 LSmoothL1:1LIoU:0.3 LIoU:0.66R(B,Bgt)=0.5×0.33 R(B,Bgt)=0.68×0.33圖1 smooth L1損失函數(shù)與IoU損失函數(shù)兩種情況對(duì)比

      (5)

      當(dāng)預(yù)測(cè)框與目標(biāo)框完全重合時(shí),LRIoU=0;當(dāng)兩個(gè)邊界框不相交但角度一致時(shí),LRIoU=1;兩個(gè)邊界框不相交且角度有偏差時(shí),LRIoU≤2。

      對(duì)于旋轉(zhuǎn)多邊形的IoU計(jì)算,我們采用算法1。

      算法1RIoU旋轉(zhuǎn)矩形交并比計(jì)算

      輸入:預(yù)測(cè)框x,目標(biāo)框xgt。

      輸出:RIoU。

      x=Coordinate transformation(x)

      xgt= Coordinate transformation(xgt)

      For eachpixal(i,j) do

      ifintersection(i,j)>0 then

      I=intersection(i,j)

      U=rectangle(x)+rectangle(xgt)-I

      else

      RIoU=0

      end if

      end for

      function Coordinate transformation(boundingbox)

      (x1,y1,x2,y2,x3,y3,x4,y4) ← (xc,yc,w,h,θ)

      return result

      end function

      帶有角度的矩形交并比不同于水平矩形交并比的算法,水平矩形之間的相交部分也是矩形,只用通過簡(jiǎn)單的寬與高相乘即可得到,而帶有方向的矩形之間,重疊部分都是不規(guī)則的多邊形,我們計(jì)算多邊形的面積是采用程序中引用多邊形函數(shù)庫(kù)的方法。在算法1中,x表示預(yù)測(cè)框的位置形狀參數(shù),xgt表示目標(biāo)框的位置形狀參數(shù),文字框的參數(shù)都是以(xc,yc,w,h,θ)的形式組成。數(shù)據(jù)集所提供的標(biāo)注坐標(biāo)都是以邊界框四個(gè)點(diǎn)的形式標(biāo)注,為了方便計(jì)算交并比和繪制邊框,需要將錨點(diǎn)的參數(shù)轉(zhuǎn)化為相同形式的坐標(biāo),通過基于基本數(shù)學(xué)三角函數(shù)的坐標(biāo)轉(zhuǎn)換函數(shù)Coordinate transformation將文字框參數(shù)轉(zhuǎn)化為文字框的四個(gè)點(diǎn)坐標(biāo),具體為從左上點(diǎn)起順時(shí)針計(jì)算(x1,y1)到(x4,y4)為方框的四個(gè)點(diǎn)坐標(biāo)。如果預(yù)測(cè)框與標(biāo)注框有相交部分,則通過多邊形函數(shù)庫(kù)求出相交面積I。rectangle(x)為預(yù)測(cè)框的矩形面積,rectangle(xgt)為目標(biāo)框的矩形面積。U為聯(lián)合區(qū)域的面積。由此可以得到預(yù)測(cè)框與標(biāo)注框的旋轉(zhuǎn)交并比。

      RIoU損失函數(shù)彌補(bǔ)了smooth L1損失函數(shù)的不足。如圖2所示的三個(gè)實(shí)例分別表示不同情況下三種損失函數(shù)的值。其中深色框與淺色框分別為預(yù)測(cè)框和標(biāo)注框。當(dāng)預(yù)測(cè)框和標(biāo)注框都水平時(shí),RIoU損失函數(shù)會(huì)簡(jiǎn)化為IoU損失函數(shù),僅考慮兩個(gè)框的重疊面積。但是現(xiàn)實(shí)圖像上絕大部分文字區(qū)域都是有旋轉(zhuǎn)角度的,前兩種情況中因?yàn)閟mooth L1損失函數(shù)只考慮邊界框的位置和形狀所以得到的值相同,但明顯兩個(gè)框的偏差較大。此時(shí)RIoU損失函數(shù)就能很好地反饋到預(yù)測(cè)框的偏差。第三種情況下兩種框的位置形狀完全相等,smooth L1損失函數(shù)的值已經(jīng)最低,無法給網(wǎng)絡(luò)傳播梯度,但實(shí)際預(yù)測(cè)到的并不準(zhǔn)確。RIoU損失函數(shù)可以將角度偏差傳遞給網(wǎng)絡(luò)進(jìn)行優(yōu)化,對(duì)于文字檢測(cè)來說,RIoU損失函數(shù)對(duì)其檢測(cè)的準(zhǔn)確度有很大提升,能夠增強(qiáng)訓(xùn)練文本的角度信息,更準(zhǔn)確地框選出文本區(qū)域。如果需要針對(duì)3D空間的目標(biāo)檢測(cè),也可以設(shè)計(jì)出合適的定軸旋轉(zhuǎn)方案。

      LSmoothL1:1.4 LSmoothL1:1.4 LSmoothL1:1LIoU:0.3 LIoU:0.7 LIoU:0.6LRIoU:0.3 LRIoU:0.725 LRIoU:0.625圖2 三種損失函數(shù)對(duì)應(yīng)不同情況下的值

      2.3 旋轉(zhuǎn)交并比損失函數(shù)與邊界框收斂

      損失函數(shù)作為神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練誤差懲罰的依據(jù),可以直接影響到網(wǎng)絡(luò)模型的收斂。相比于smooth L1損失函數(shù)單獨(dú)地優(yōu)化錨點(diǎn)參數(shù), RIoU損失函數(shù)是將邊界框統(tǒng)一為一個(gè)邊界框整體,去訓(xùn)練邊界框統(tǒng)一后的位置和形狀,從而提供更準(zhǔn)確的邊界框預(yù)測(cè)。RIoU損失函數(shù)對(duì)尺度沒有敏感性,對(duì)于形狀相差很大的邊界框也能進(jìn)行歸一化后的比較,損失函數(shù)的值范圍是[0,2]。如圖3所示,RIoU損失函數(shù)與smooth L1損失函數(shù)和IoU損失函數(shù)相比在快速收斂邊界框形狀的同時(shí),能夠準(zhǔn)確地回歸邊界框的角度信息,使預(yù)測(cè)框與目標(biāo)框更加匹配,在最后進(jìn)行評(píng)估時(shí)減少了很多冗余區(qū)域,準(zhǔn)確度會(huì)有很大的提升。

      圖3 三種損失函數(shù)回歸結(jié)果

      在非極大值抑制步驟,我們采用RIoU來替換原始的IoU標(biāo)準(zhǔn)來抑制冗余檢測(cè)框。在抑制過程中不但要考慮重疊區(qū)域,還要考慮兩個(gè)文字框之間的夾角,共同組成預(yù)測(cè)框的閾值分?jǐn)?shù)。RIoU-NMS定義為:

      (6)

      式中:M為最高得分的預(yù)測(cè)框;ε為非極大值抑制的閾值;通過考慮IoU和兩個(gè)框之間夾角來刪除冗余框Bi;si為未被刪除的預(yù)測(cè)框的分?jǐn)?shù)。若某個(gè)預(yù)測(cè)框與最高得分框相交面積較小或角度相差過大,則這個(gè)預(yù)測(cè)框可能是其他目標(biāo)的檢測(cè)框,不應(yīng)該被抑制刪除。重疊面積較大,但角度相差也很大的預(yù)測(cè)框也會(huì)保留,這樣對(duì)于重疊或相交的兩個(gè)文本目標(biāo)就可以被很好地區(qū)分檢測(cè)出來。

      3 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)使用一塊TITAN X顯卡,顯存為12 GB,CPU為Intel Core i5-2320 @3.00 GHz×4,內(nèi)存為15.6 GB。軟件環(huán)境為ubuntu16.04,cuda9.0+cudnn7.4.1。遵循相同的訓(xùn)練方案:每次訓(xùn)練5萬迭代次數(shù),主干網(wǎng)絡(luò)為ResNet-50。

      3.1 數(shù)據(jù)集

      本文在文字檢測(cè)公共競(jìng)賽數(shù)據(jù)集ICDAR 2015[16]上進(jìn)行了實(shí)驗(yàn),ICDAR Robust Reading Competition是進(jìn)行場(chǎng)景文字檢測(cè)和識(shí)別任務(wù)最知名和最常用的數(shù)據(jù)集。ICDAR 2015數(shù)據(jù)集共包含1 500幅圖片,其中1 000幅作為訓(xùn)練圖片,500幅作為測(cè)試圖片。圖片內(nèi)容為隨身穿戴設(shè)備拍攝的現(xiàn)實(shí)場(chǎng)景照片,照片中的文字都具有透視形狀和角度方向性。

      3.2 實(shí)驗(yàn)與分析

      本文將增加錨點(diǎn)旋轉(zhuǎn)參數(shù)的方法和RIoU損失函數(shù)結(jié)合到目前主流的Faster R-CNN檢測(cè)算法中。在訓(xùn)練模型最后的邊界框回歸階段我們使用RIoU損失函數(shù)與smooth L1損失函數(shù)和IoU損失函數(shù)進(jìn)行了對(duì)比。另外,本文還對(duì)三種損失函數(shù)的回歸情況進(jìn)行了比較,對(duì)比了模型收斂速度和檢測(cè)效果。圖4展示了三種損失函數(shù)在ICDAR2015上的測(cè)試結(jié)果。

      圖4 ICDAR2015數(shù)據(jù)集結(jié)果對(duì)比

      圖4(a)中使用smooth L1損失函數(shù)的檢測(cè)器雖然檢測(cè)出比較多的文字區(qū)域,但是每個(gè)文字區(qū)域的框選不夠精準(zhǔn),存在將文字鄰近的邊界圖案一起框選進(jìn)來的情況。相比之下圖4(b)中IoU損失函數(shù)的檢測(cè)器對(duì)文字區(qū)域的框選就更加準(zhǔn)確,對(duì)文字區(qū)域邊框的檢測(cè)較為準(zhǔn)確,但是因?yàn)橹荒軝z測(cè)水平區(qū)域?qū)е掠泻芏嗟谋尘耙脖豢蜻x進(jìn)來。檢測(cè)結(jié)果最好的圖4(c)中,使用RIoU損失函數(shù)的檢測(cè)會(huì)對(duì)邊界框進(jìn)行旋轉(zhuǎn)角度的回歸,相比IoU損失函數(shù),文字區(qū)域的框選因?yàn)樾D(zhuǎn)后向文字的真實(shí)區(qū)域收縮,框選到多余背景的情況大量減少,對(duì)文字區(qū)域的檢測(cè)更精確。

      為了驗(yàn)證RIoU損失函數(shù)對(duì)于文字檢測(cè)的有效性,將三種損失函數(shù)在ICDAR 2015數(shù)據(jù)集下的測(cè)試結(jié)果進(jìn)行了對(duì)比。表1展示了測(cè)試結(jié)果。采用的是相同的官方評(píng)估標(biāo)準(zhǔn)。通過最終的檢測(cè)結(jié)果顯示,使用RIoU損失函數(shù)配合網(wǎng)絡(luò)中邊界框增加旋轉(zhuǎn)參數(shù)和改進(jìn)非極大值抑制的方法,相比較于默認(rèn)檢測(cè)方法,召回率和檢測(cè)準(zhǔn)確率得到11百分點(diǎn)的提升,H-mean得到11百分點(diǎn)的提升。

      表1 ICDAR 2015數(shù)據(jù)集的測(cè)試結(jié)果

      為了驗(yàn)證每個(gè)損失函數(shù)對(duì)于網(wǎng)絡(luò)參數(shù)的收斂速度影響,采取了每10 000個(gè)迭代次數(shù)保存一次訓(xùn)練模型的方式。圖5所示,RIoU損失函數(shù)和IoU損失函數(shù)在10 000次迭代時(shí)就能獲得很高的檢測(cè)準(zhǔn)確度,雖然IoU損失函數(shù)也會(huì)讓網(wǎng)絡(luò)模型加快收斂,但在相同的迭代次數(shù)下,使用RIoU損失函數(shù)的模型檢測(cè)準(zhǔn)確率要高于IoU損失函數(shù)。相比之下,smooth L1損失函數(shù)只能較為平緩地優(yōu)化網(wǎng)絡(luò),需要大量的訓(xùn)練步數(shù)才能達(dá)到中等的檢測(cè)精準(zhǔn)度,一方面是smooth L1損失函數(shù)只能單獨(dú)優(yōu)化回歸框的每個(gè)參數(shù),向網(wǎng)絡(luò)傳播梯度時(shí)沒有傳遞足夠的指示性,導(dǎo)致回歸框的參數(shù)只能單獨(dú)緩慢收斂;另一方面是對(duì)于非水平的文本區(qū)域也只能檢測(cè)出一個(gè)水平方框,會(huì)有很多背景區(qū)域被框選進(jìn)來,導(dǎo)致精準(zhǔn)度隨訓(xùn)練步數(shù)上升得較慢,最終的結(jié)果也不是很高。

      圖5 不同迭代次數(shù)下精準(zhǔn)值

      對(duì)于損失函數(shù),僅僅使用檢測(cè)結(jié)果來分析預(yù)測(cè)框回歸的過程是不夠的。大量隨機(jī)的文本區(qū)域、位置、比例和角度都是不受控制的因素。在實(shí)驗(yàn)中我們記錄了三種損失函數(shù)訓(xùn)練時(shí)的多組數(shù)值,綜合考慮收斂情況。圖6為三種損失函數(shù)在前200步迭代中的損失函數(shù)值的走勢(shì)。

      圖6 RIoU、IoU和smooth L1損失函數(shù)收斂速度對(duì)比

      圖6中橫軸代表迭代次數(shù),縱軸為損失函數(shù)的值。因?yàn)閟mooth L1值的范圍是大于1的,而IoU損失函數(shù)和RIoU損失函數(shù)值的范圍分別是[0,1]和[0,2],所以圖6中有兩個(gè)尺度的縱軸。雖然范圍不同,但可以觀察出smooth L1損失函數(shù)初始的損失值很大,之后隨著訓(xùn)練的進(jìn)行損失值開始緩慢下降,到了200步附近損失值的下降已經(jīng)非常緩慢,而且此時(shí)的值距離最優(yōu)值還有很大的差距。相比較IoU損失函數(shù)和RIoU損失函數(shù),尤其是RIoU損失函數(shù)的下降曲線尤為明顯,在初始的十步訓(xùn)練中,損失函數(shù)很快地下降到與最優(yōu)值較為接近的數(shù)值,之后的迭代中再繼續(xù)優(yōu)化,慢慢逼近最優(yōu)值。雖然IoU損失函數(shù)的下降曲線也明顯領(lǐng)先于smooth L1損失函數(shù),但是在面臨隨機(jī)方向的文本框時(shí),還是RIoU損失函數(shù)表現(xiàn)更好。

      4 結(jié) 語(yǔ)

      本文設(shè)計(jì)一種旋轉(zhuǎn)交并比損失函數(shù)用于邊界框回歸。將評(píng)價(jià)指標(biāo)交并比引入損失函數(shù),使邊界框參數(shù)之間具有相關(guān)性,旋轉(zhuǎn)交并比損失函數(shù)可以比原始的smooth L1損失函數(shù)更快更好地收斂。并且在邊界框參數(shù)中加入角度信息,邊界框回歸的角度偏差歸一化后作為懲罰項(xiàng)來反向傳播,網(wǎng)絡(luò)可以更好地檢測(cè)隨機(jī)方向性的文本目標(biāo),在檢測(cè)準(zhǔn)確率上取得了11百分點(diǎn)的提升。所提出的旋轉(zhuǎn)交并比損失函數(shù)可以很容易地整合到各類目標(biāo)檢測(cè)算法中。在下一步的研究工作中,損失函數(shù)的懲罰項(xiàng)還有更多設(shè)計(jì)的可能性,針對(duì)不同網(wǎng)絡(luò)模型,尋找到更加合適的損失函數(shù)解決方案,這些過程都還需要更加細(xì)致的研究。

      猜你喜歡
      邊界損失角度
      少問一句,損失千金
      神奇的角度
      拓展閱讀的邊界
      胖胖損失了多少元
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      一個(gè)涉及角度和的幾何不等式鏈的改進(jìn)
      論中立的幫助行為之可罰邊界
      角度不同
      37°女人(2017年8期)2017-08-12 11:20:48
      人啊
      滇池(2017年7期)2017-07-18 19:32:42
      一般自由碰撞的最大動(dòng)能損失
      茂名市| 金山区| 宁陵县| 闽侯县| 铜鼓县| 文昌市| 房山区| 烟台市| 长丰县| 封开县| 隆安县| 河池市| 盐池县| 普宁市| 城口县| 嘉义市| 师宗县| 舒城县| 盐池县| 九龙坡区| 菏泽市| 望都县| 武宣县| 延津县| 綦江县| 巴南区| 阿坝县| 波密县| 涡阳县| 岑溪市| 林西县| 左云县| 哈尔滨市| 惠东县| 运城市| 育儿| 曲阳县| 普定县| 长宁区| 沧源| 江孜县|