• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)Faster R-CNN的目標(biāo)檢測(cè)算法*

      2021-10-09 10:11:56殷小芳辛月蘭
      關(guān)鍵詞:錨框特征提取精度

      殷小芳 辛月蘭 蘭 天

      (青海師范大學(xué)物理與電子信息工程學(xué)院 西寧 810000)

      1 引言

      目標(biāo)檢測(cè)是計(jì)算機(jī)視覺和模式識(shí)別中的一個(gè)基本而重要的問(wèn)題,吸引了眾多學(xué)者的關(guān)注和研究并在人臉識(shí)別[1]、航空影像[2]、行為理解[3]、目標(biāo)跟蹤[4]、人機(jī)交互[5]、自動(dòng)駕駛[6~7]等諸多領(lǐng)域取得很好的成績(jī)。目標(biāo)檢測(cè)的目的是從圖像中找到目標(biāo)對(duì)象并且定位,基于手工特征的傳統(tǒng)目標(biāo)檢測(cè)算法和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法是目前主要的兩種算法。其中,局部二值化(Local Binarization,LB)、尺度不變特征變換(Scale Invariant Feature Transformation,SIFT)、方向梯度直方圖[8](Histogram of Oriented Gradient,HOG)等在傳統(tǒng)目標(biāo)檢測(cè)算法中有著優(yōu)秀的表現(xiàn),它是人們根據(jù)先驗(yàn)知識(shí)與經(jīng)驗(yàn)所設(shè)計(jì)的手工特征。隨著圖像領(lǐng)域中各類應(yīng)用任務(wù)越來(lái)越復(fù)雜以及各類任務(wù)所需要的數(shù)據(jù)量越來(lái)越大,傳統(tǒng)方法提取的特征存在局限性,在特征提取模板缺乏針對(duì)性,難以避免產(chǎn)生大量的冗余特征窗口,使得產(chǎn)生候選區(qū)域的方法需要大量的計(jì)算,檢測(cè)的速度和精度不能達(dá)到實(shí)際要求。深度學(xué)習(xí)網(wǎng)絡(luò)模型能夠通過(guò)自主學(xué)習(xí)出許多容易被人忽視的高級(jí)特征,避免人為主觀性等原因的影響。因此,采用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,能夠克服傳統(tǒng)的目標(biāo)檢測(cè)算法存在的問(wèn)題,提高檢測(cè)的準(zhǔn)確性和效率。

      現(xiàn)階段目標(biāo)檢測(cè)中的深度學(xué)習(xí)算法主要分為基于區(qū)域建議框的雙階段檢測(cè)算法和基于回歸運(yùn)算的單階段檢測(cè)算法[9]。前者主要的典型算法有R-CNN[10]、SPP-net[11]、Fast R-CNN[12]、Faster R-CNN[13]和Mask R-CNN[14]算法等,這些方法都是使用區(qū)域推薦產(chǎn)生候選目標(biāo),隨后使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。但是,由于視點(diǎn)、姿勢(shì)、遮擋和照明條件的巨大差異,此類方法的檢測(cè)精度與速度仍需要進(jìn)一步提高;后者主要的典型算法有YOLO[15]、YOLO v2[16]、YOLOv3[17]、SSD[18]和RetinaNet算法等,這些算法不需要區(qū)域推薦直接對(duì)目標(biāo)邊框進(jìn)行回歸運(yùn)算。單階段檢測(cè)算法具有很好的檢測(cè)速度但是檢測(cè)精度卻不如雙階段算法,因此本文采用目前應(yīng)用最廣泛且最成熟的卷積神經(jīng)網(wǎng)絡(luò)模型Faster R-CNN對(duì)20個(gè)種類進(jìn)行檢測(cè)。Faster R-CNN算法將目標(biāo)檢測(cè)的生成候選區(qū)域、提取特征、分類和回歸四個(gè)步驟全部統(tǒng)一在CNN中實(shí)現(xiàn),并且全部運(yùn)行在GPU上,實(shí)時(shí)性檢測(cè)復(fù)雜背景下的目標(biāo)具有很好的魯棒性??紤]到圖像的復(fù)雜性和多樣性更加顯著且當(dāng)光照條件不足、目標(biāo)過(guò)小、目標(biāo)重疊度高等情況下仍然存在誤檢、漏檢和檢測(cè)精度不高的情況。本文引入殘差網(wǎng)絡(luò)ResNet-101作為特征提取網(wǎng)絡(luò),加深網(wǎng)絡(luò)層數(shù)來(lái)挖掘圖像深層語(yǔ)義特征,同時(shí)利用殘差塊以減少層深帶來(lái)的計(jì)算量負(fù)擔(dān);其次,受Mask R-CNN中RoI Align的啟發(fā),本文引入RoI Align單元并結(jié)合雙線性插值的方法保留浮點(diǎn)數(shù)以提高檢測(cè)精度;最后采用soft-NMS來(lái)進(jìn)行非極大值抑制,此方法相比傳統(tǒng)算法可以讓重疊度高的物體更大程度地保留下來(lái)。通過(guò)實(shí)驗(yàn)表明本文算法的檢測(cè)性能有很好的表現(xiàn)。

      2 Faster R-CNN目標(biāo)檢測(cè)算法

      2016年Ren等提出了Faster R-CNN算法,該算法最大的優(yōu)點(diǎn)在于區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)的 加 入 解 決 了R-CNN、Fast R-CNN候選框生成計(jì)算開銷大的問(wèn)題,達(dá)到了端到端的實(shí)時(shí)性檢測(cè),極大地提高了雙階段目標(biāo)檢測(cè)算法的性能。

      2.1 區(qū)域建議網(wǎng)絡(luò)

      RPN的結(jié)構(gòu)如圖1所示,它能夠通過(guò)神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)生成量少質(zhì)優(yōu)的候選建議框,然后輸入到分類回歸網(wǎng)絡(luò)進(jìn)行檢測(cè)。在最后共享卷積層輸出的卷積特征圖中使用滑動(dòng)窗口的操作方式,滑動(dòng)窗口的中心在原像素空間的映射點(diǎn)成為錨框(anchor boxes)。為滿足不同尺寸目標(biāo)的需要,設(shè)置多種不同面積尺寸的anchor,三種尺度分別為(1282,2562,5212),三種高寬比分別為(1∶1,1∶2,2∶1)。按此標(biāo)準(zhǔn)當(dāng)以錨框?yàn)橹行幕瑒?dòng)一次窗口會(huì)生成k(K=9)個(gè)區(qū)域提議,通過(guò)設(shè)置最大交并比(Io U)值挑選出正、負(fù)例錨框,并采用非極大值抑制(Non-Maximum Suppression,NMS)的方法來(lái)選出最優(yōu)目標(biāo)候選框。

      圖1 RPN結(jié)構(gòu)

      2.2 RPN網(wǎng)絡(luò)的損失函數(shù)

      在Faster R-CNN中RPN網(wǎng)絡(luò)采用多任務(wù)損失,對(duì)一個(gè)圖像的損失函數(shù)定義為式(1):

      其中,pi為錨框預(yù)測(cè)為目標(biāo)的概率;為錨框真實(shí)目標(biāo)概率;如果錨框?yàn)檎?,?;如果錨點(diǎn)為負(fù)例,則為0;L為總損失函數(shù);表示是否為目標(biāo)的分類損失函數(shù);表示兩個(gè)目標(biāo)邊框回歸的對(duì)數(shù)損失;ti表示預(yù)測(cè)邊界框的4個(gè)坐標(biāo)參數(shù);表示與含有目標(biāo)的錨框?qū)?yīng)真實(shí)邊界框的坐標(biāo)參數(shù);Ncls為一個(gè)batch的樣本總數(shù)量、Nreg為錨框的總數(shù)、λ是分類和回歸得平衡比例參數(shù),式(1)中判斷是否為目標(biāo)的分類對(duì)數(shù)損失和回歸損失分別為

      其中,參數(shù)R為smooth函數(shù)[19],表達(dá)式為

      3 改進(jìn)的Faster R-CNN算法

      3.1 ResNet-101網(wǎng)絡(luò)的應(yīng)用

      特征提取網(wǎng)絡(luò)由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)構(gòu)成,其中卷積層、池化層、全連接層和分類層是CNN基本結(jié)構(gòu),CNN的不同會(huì)影響目標(biāo)的精度以及效率。常用的特征提取網(wǎng)絡(luò)是AlexNet、ZFNet、VGG-16、GoogleNet及ResNet這些重量級(jí)網(wǎng)絡(luò)。其中,GoogleNet和ResNet都是增加網(wǎng)絡(luò)的深度對(duì)模型進(jìn)行優(yōu)化,但是GoogleNet冗余的網(wǎng)絡(luò)層學(xué)習(xí)了不是恒等映射的參數(shù)造成了訓(xùn)練集準(zhǔn)確率降低,錯(cuò)誤率上升的現(xiàn)象。而ResNet網(wǎng)絡(luò)解決了上述的模型退化問(wèn)題,該網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)殘差模塊允許神經(jīng)網(wǎng)絡(luò)更深并避免網(wǎng)絡(luò)梯度消失,使得模型達(dá)到好的學(xué)習(xí)效果。綜合考慮本文引入ResNet-101網(wǎng)絡(luò)來(lái)替代原來(lái)的VGG16網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)得到更深層次的融合特征圖,以提高目標(biāo)檢測(cè)的性能,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2(b)。

      圖2 VGG16和ResNet-101網(wǎng)絡(luò)結(jié)構(gòu)示意圖

      從圖2可以看出,相比于VGG16網(wǎng)絡(luò),ResNet-101在卷積層后添加了一個(gè)批量歸一化(Batch Normalization,BN)層,BN層會(huì)將每層的輸入先進(jìn)行歸一化,統(tǒng)一為均值為0且方差為1的正態(tài)分布,解決了其他網(wǎng)絡(luò)在訓(xùn)練過(guò)程中中間層數(shù)據(jù)分布發(fā)生改變的問(wèn)題并且避免了梯度消失或爆炸、節(jié)約了訓(xùn)練時(shí)間。

      歸一化式(2)表示每層d維輸入,式(3)表示歸一化每一維:

      3.2 改進(jìn)的RoI池層

      在常見的Fast-RCNN、Faster-RCNN這樣的兩階段測(cè)框架中,RoI Pooling的功能是根據(jù)備選框的位置坐標(biāo)在特征圖中將相應(yīng)區(qū)域池化為統(tǒng)一尺寸的特征圖,以便進(jìn)行分類和回歸。但是RoI Pooling這一操作存在兩次量化的過(guò)程,將候選建議框邊界坐標(biāo)量化為整數(shù)時(shí)和最開始回歸的位置產(chǎn)生一定的誤差,這個(gè)誤差將直接影響檢測(cè)的精度,尤其針對(duì)小目標(biāo)。

      受Master R-CNN的啟發(fā),本文引入RoI Align單元解決RoI Pooling的上述缺點(diǎn),并且用ResNet-101網(wǎng)絡(luò)來(lái)替代原來(lái)的VGG16網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),圖3為改進(jìn)后的Faster R-CNN感興趣區(qū)域池化部分。當(dāng)輸入一個(gè)960*960的圖像其中包含315*315的框來(lái)定位一個(gè)人,圖像經(jīng)過(guò)ResNet-101特征提取網(wǎng)絡(luò)后,特征圖縮放步長(zhǎng)(stride)為32,960/32剛好整除得30,但是315/32以后得到9.84帶有小數(shù),RoI Pooling操作會(huì)將其直接量化為9。接著在下一步把框內(nèi)的特征池化為7*7的大小時(shí),9/7=1.28顯然又出現(xiàn)了小數(shù),也是直接將其量化為1。而本文引入的RoI Align單元會(huì)保留浮點(diǎn)數(shù),如圖中箭頭所指部分。RoI Align單元取消量化操作帶來(lái)的邊框位置偏差,使用雙線性內(nèi)插的方法獲得坐標(biāo)為浮點(diǎn)數(shù)的像素點(diǎn)上的圖像數(shù)值,從而將整個(gè)特征聚集過(guò)程轉(zhuǎn)化為一個(gè)連續(xù)的操作,使得最終達(dá)到了比較理想的檢測(cè)精度。

      圖3 改進(jìn)后得感興趣區(qū)域池化層

      3.3 Soft-NMS算法

      Faster R-CNN算法分類時(shí)采用了傳統(tǒng)的非極大值抑制NMS算法,該算法的目標(biāo)是搜索局部極大值,抑制非極大值元素,它的計(jì)算方式可以表示為式(4)。其中,bi是第i檢測(cè)框;si是第i檢測(cè)框的得分;Nt是NMS的預(yù)設(shè)閾值;M是檢測(cè)分?jǐn)?shù)最高檢測(cè)框;I oU( )M,bi是第i檢測(cè)框bi和檢測(cè)分?jǐn)?shù)最高檢測(cè)框M的最大交并比。

      式(4)中I o U的計(jì)算公式如下:其中,A為候選框面積;B為原標(biāo)記框面積。

      從式(4)中可以看出傳統(tǒng)的NMS算法會(huì)將所有與檢測(cè)框相鄰并大于預(yù)設(shè)閾值的框置為零,當(dāng)檢測(cè)重疊度高的圖像時(shí),此時(shí)目標(biāo)之間的距離十分相近,如果得分較低的框與得分較高的框的IoU值大于預(yù)設(shè)閾值,得分低的將直接被抑制,導(dǎo)致該目標(biāo)檢測(cè)失敗,模型的檢測(cè)性能從而受到影響。為了解決這個(gè)問(wèn)題,本文引入Soft-NMS算法替代NMS算法,該算法表示如下:

      其中,式中符號(hào)同式(4)。

      Soft-NMS算法采用“權(quán)值懲罰”的策略,相鄰檢測(cè)框在重疊部分設(shè)計(jì)了一個(gè)衰減函數(shù),讓其根據(jù)當(dāng)前得分遞歸地重新評(píng)分而非將分?jǐn)?shù)低的相鄰框直接抑制,從而保留了相鄰目標(biāo)的檢測(cè)框。并且Soft-NMS算法中引入的超參數(shù)只會(huì)出現(xiàn)在演示或測(cè)試階段,在訓(xùn)練階段沒有引入任何超參數(shù),沒有造成計(jì)算復(fù)雜度的增加。參照文獻(xiàn)[20]中Soft-NMS與NMS算法在不同的IoU閾值下的實(shí)驗(yàn)結(jié)果,本文將I o U閾值設(shè)定為0.6。

      3.4 改進(jìn)的Faster R-CNN算法流程

      1)輸入一副任意大小P×Q的圖像A,先將縮放為M×N的規(guī)定尺寸圖像B,然后將B圖像送入網(wǎng)絡(luò);

      2)B作為特征提取模塊的輸入,通過(guò)ResNet-101網(wǎng)絡(luò)得到更深層次的融合特征圖C;

      3)C作為RPN網(wǎng)絡(luò)的輸入,采用滑動(dòng)窗口的方法得到區(qū)域建議網(wǎng)絡(luò)D;

      4)C與D作為感興區(qū)域(RoI)的輸入,本文引入ROI Align單元進(jìn)行池化得到建議框與特征圖之間的映射圖E;

      5)把E分別輸出到分類器與回歸器中,分類器Softmax對(duì)E進(jìn)行分類,回歸器采用Soft-NMS算法進(jìn)一步修正和精簡(jiǎn)目標(biāo)邊框,最終分類目標(biāo)并定位。

      4 實(shí)驗(yàn)與分析

      4.1 實(shí)驗(yàn)設(shè)計(jì)

      為了驗(yàn)證本文算法的檢測(cè)性能,采用PASCALVOC2007、PASCALVOC2012這兩個(gè)數(shù)據(jù)集進(jìn)行驗(yàn)證,VOC數(shù)據(jù)集中包含20類目標(biāo),很多圖像都是生活中的實(shí)際場(chǎng)所,也有比較難以識(shí)別的小目標(biāo),可以滿足目前目標(biāo)檢測(cè)任務(wù)的需求。對(duì)于第3節(jié)中的所有分析,本文使用基于ResNet-101重新設(shè)計(jì)Faster R-CNN檢測(cè)算法。所有實(shí)驗(yàn)均在Windows10 1909系統(tǒng)下進(jìn)行,其中深度學(xué)習(xí)框架為tensorflow1.14,硬件環(huán)境為Intel Corei5-8400 2.81G Hz CPU,NVIDIA GeForce GTX 1080Ti GPU,顯存為11GB。軟件環(huán)境為Python 3.6,Keras 2.2.5,CUDA 8.0。實(shí)驗(yàn)中對(duì)所有數(shù)據(jù)集采用K折交叉驗(yàn)證法來(lái)得出最終的最優(yōu)檢測(cè)模型,將訓(xùn)練基本學(xué)習(xí)率設(shè)置為0.001,經(jīng)過(guò)40k次迭代后降至0.0001。針對(duì)改進(jìn)算法采用的評(píng)價(jià)指標(biāo)為均值平均精度(mean average precision,mAP),所有類別的平均精度(average precision,AP)的均值為mAP,該值越高檢測(cè)性能越好,其計(jì)算公式其定義為

      其中式(7)中,P為精確度;R為召回率;P=;,T P為既是正樣本又被預(yù)測(cè)為正樣本的個(gè)數(shù);F P為負(fù)樣本被預(yù)測(cè)為了正樣本的個(gè)數(shù);FN為正樣本被預(yù)測(cè)為了負(fù)樣本的個(gè)數(shù)。

      4.2 實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證本文算法的有效性,選取了PASCALVOC2007數(shù)據(jù)集中部分代表性結(jié)果并與相關(guān)算法進(jìn)行了對(duì)比。圖4(a)~(d)四組圖中從左到右依次為Faster R-CNN、加入Soft-NMS的Faster R-CNN算法、加入RoI Align單元的Faster R-CNN算法和本文算法。從圖中可以看出只加入Soft-NMS或者RoI Align單元相對(duì)于Faster R-CNN算法檢測(cè)精度均有一定程度的提高,但是對(duì)于遮擋嚴(yán)重或者距離相近的小目標(biāo)仍有漏檢或者檢測(cè)精度不高的情況。綜合看來(lái)本文算法檢測(cè)性能最優(yōu)且對(duì)于小目標(biāo)的檢測(cè)具有一定的優(yōu)勢(shì)。具體表現(xiàn):1)對(duì)于Faster R-CNN算法漏檢的小目標(biāo)或者遮擋嚴(yán)重的目標(biāo)本文算法可以識(shí)別且檢測(cè)精度較高,例如圖4(a)組圖中紅色小汽車、(b)組圖中右下角未能檢測(cè)的人和背對(duì)的人以及(d)圖中未能識(shí)別的飛機(jī);2)對(duì)于兩個(gè)距離較近的目標(biāo)本文算法可以更加準(zhǔn)確地進(jìn)行目標(biāo)分類,避免了漏檢情況的發(fā)生例如(b)組圖中背對(duì)的人和(d)組圖中未能識(shí)別的飛機(jī);3)對(duì)于都能檢測(cè)出來(lái)的目標(biāo)本文算法檢測(cè)精度最高,給予了很好的邊框修正。

      圖4 對(duì)各類目標(biāo)的檢測(cè)結(jié)果

      4.3 檢測(cè)性能評(píng)估

      表1顯示了在VOC2007數(shù)據(jù)集中的檢測(cè)結(jié)果,其中數(shù)據(jù)集中的4981張圖片用于訓(xùn)練,4982張圖片用來(lái)測(cè)試,表2顯示了訓(xùn)練和測(cè)試時(shí)間的對(duì)比。表1中算法均采用ResNet-101網(wǎng)絡(luò),從中可以看出加入Soft-NMS或者RoI Align單元的Faster R-CNN算法相對(duì)Faster R-CNN算法檢測(cè)精度分別提高了1.2%、1.5%。結(jié)合表2可以看出本文算法的時(shí)間開銷幾乎與Faster R-CNN算法保持一致,但是改進(jìn)后的算法相對(duì)于Faster R-CNN算法在檢測(cè)精度上提高了3.8%,通過(guò)圖4也可以看出改進(jìn)后的算法檢測(cè)結(jié)果表現(xiàn)最優(yōu),能夠很好地進(jìn)行目標(biāo)檢測(cè)。

      表1 PASCALVOC2007數(shù)據(jù)集檢測(cè)結(jié)果對(duì)比

      表2 訓(xùn)練和測(cè)試時(shí)間對(duì)比

      5 結(jié)語(yǔ)

      本文為了在保證檢測(cè)速度的前提下提高目標(biāo)檢測(cè)的精度,重新設(shè)計(jì)了Faster R-CNN算法的結(jié)構(gòu),為了提高較小目標(biāo)的檢測(cè)精度使用Mask R-CNN中的RoI Align單元代替原始的感興趣區(qū)域池化操作,避免了因兩次量化操作帶來(lái)的位置偏差影響檢測(cè)精度。同時(shí)針對(duì)距離較近的目標(biāo)采用Soft-NMS算法代替NMS算法,使得重疊度高的目標(biāo)能夠被成功檢測(cè)出來(lái)。實(shí)驗(yàn)結(jié)果表明了本文算法的檢測(cè)性能有著很好的表現(xiàn),下一步將從降低算法的復(fù)雜度出發(fā),進(jìn)一步提高目標(biāo)檢測(cè)的速度。

      猜你喜歡
      錨框特征提取精度
      基于YOLOv3錨框優(yōu)化的側(cè)掃聲吶圖像目標(biāo)檢測(cè)
      錨框策略匹配的SSD飛機(jī)遙感圖像目標(biāo)檢測(cè)
      基于SSD算法的輕量化儀器表盤檢測(cè)算法*
      基于GA-RoI Transformer的遙感圖像任意方向目標(biāo)檢測(cè)
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      Bagging RCSP腦電特征提取算法
      GPS/GLONASS/BDS組合PPP精度分析
      改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      涟源市| 辛集市| 西城区| 泾源县| 林西县| 毕节市| 前郭尔| 海丰县| 宁南县| 通化县| 马关县| 新河县| 敦化市| 益阳市| 大余县| 青川县| 清流县| 普宁市| 临清市| 涟源市| 盘山县| 铅山县| 灯塔市| 康乐县| 福鼎市| 惠东县| 东光县| 托克逊县| 安吉县| 兴国县| 新兴县| 枣阳市| 珠海市| 增城市| 乌拉特前旗| 盖州市| 彭州市| 安徽省| 卢湾区| 巴楚县| 墨竹工卡县|