向華橋,崔文超,劉世焯,孫水發(fā)
(三峽大學(xué) 計(jì)算機(jī)與信息學(xué)院,湖北 宜昌 443000)
隨著人們對(duì)于目標(biāo)檢測技術(shù)越來越廣泛的應(yīng)用,對(duì)于一些特定場景下小目標(biāo)的準(zhǔn)確識(shí)別有了更多需求。同時(shí)小目標(biāo)檢測性能的提高是目前目標(biāo)檢測技術(shù)中的一個(gè)難點(diǎn)問題,改善小目標(biāo)檢測性能對(duì)于整體目標(biāo)檢測技術(shù)的更好應(yīng)用有著重要意義。目標(biāo)檢測主要包括兩個(gè)方面的內(nèi)容,一是對(duì)圖像中感興趣目標(biāo)的定位,二是對(duì)定位邊框中目標(biāo)的分類。小目標(biāo)目前沒有特定的大小定義,其具有尺寸較小,分辨率低,特征不明顯等特點(diǎn),往往根據(jù)不同的應(yīng)用背景小目標(biāo)的尺寸定義略有不同,在MS COCO數(shù)據(jù)集中往往將尺寸小于32×32像素的目標(biāo)定義為小目標(biāo)。
傳統(tǒng)非深度學(xué)習(xí)的目標(biāo)檢測算法[1]往往分為3個(gè)步驟,生成候選區(qū)域、特征提取、目標(biāo)分類,生成候選區(qū)域后使用特征模板進(jìn)行特征提取,然后對(duì)提取的特征信息用分類器分類后得到檢測結(jié)果。而基于深度學(xué)習(xí)的檢測算法[2]使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)特征,通過反向傳播誤差實(shí)現(xiàn)網(wǎng)絡(luò)系數(shù)自動(dòng)更新,再將特征應(yīng)用于具體的檢測過程。2012年以來,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的目標(biāo)檢測研究取得了重大的突破。基于深度學(xué)習(xí)的目標(biāo)檢測算法往往又可以分為單階段和兩階段兩大類[3],其中RetinaNet[4]是經(jīng)典的單階段算法之一,F(xiàn)aster RCNN[5]是經(jīng)典的兩階段算法之一。現(xiàn)階段大部分目標(biāo)檢測算法以及各種不同的改進(jìn)都是針對(duì)常規(guī)尺度的目標(biāo),而對(duì)于小目標(biāo)檢測效果不夠理想。相關(guān)研究[3,6,7]表明小目標(biāo)檢測的瓶頸主要在于分類任務(wù):小目標(biāo)分辨率低,特征信息已經(jīng)不夠明顯,但傳統(tǒng)深度網(wǎng)絡(luò)的目標(biāo)檢測方法在特征處理過程中的下采樣等操作會(huì)進(jìn)一步導(dǎo)致信息損失,極大限制了其檢測的精度。
本文從減少特征處理過程中特征信息損失這個(gè)關(guān)鍵影響因素入手,結(jié)合CARAFE和HRNet的設(shè)計(jì)思想,提出了一種特征信息處理模塊CHRNet,用于整體目標(biāo)檢測模型的特征信息處理部分,同時(shí)針對(duì)樣本不平衡問題對(duì)Focal Loss[4]進(jìn)行一定調(diào)整,加上合適的anchor設(shè)計(jì)。以上改進(jìn)在兩種代表性的目標(biāo)檢測方法RetinaNet和Faster RCNN上加以應(yīng)用,在MOCOD和VEDAI[8]兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。具體來說,本文的主要貢獻(xiàn)包括:
(1)針對(duì)小目標(biāo)檢測中特征信息損失問題,提出了一種高表征能力的特征信息處理模塊CHRNet;
(2)針對(duì)小目標(biāo)檢測樣本不平衡問題對(duì)損失函數(shù)進(jìn)行了改進(jìn)調(diào)整,以及設(shè)計(jì)了更適合小目標(biāo)的anchor,相對(duì)更加全面地對(duì)影響因素進(jìn)行了研究改進(jìn)。
對(duì)于特征信息損失問題,目前主流做法有兩種,一是使用圖像金字塔結(jié)構(gòu),即將原始圖像進(jìn)行一系列縮放,結(jié)合超分辨率等,但是目前被證明會(huì)大幅增加內(nèi)存和計(jì)算開銷;二是在輸入圖像的特征信息上進(jìn)行操作,相對(duì)開銷較小?;诤笳叩乃枷?,于2017年提出的特征金字塔網(wǎng)絡(luò)(FPN)[9]是取得的最大進(jìn)展之一。自下而上通路是CNN對(duì)特征圖逐層前向卷積的過程,低層的網(wǎng)絡(luò)更關(guān)注細(xì)節(jié)信息,高層的網(wǎng)絡(luò)更關(guān)注語義信息,自上而下通路是對(duì)特征圖上采樣的一個(gè)過程,然后將處理過的低層特征和高層特征進(jìn)行融合,利用低層特征準(zhǔn)確的位置信息和高層特征提供的語義信息,使得輸出的特征圖具有更好的表征能力,現(xiàn)有各種更優(yōu)秀的特征金字塔結(jié)構(gòu)[10]都是基于FPN發(fā)展而來。同樣基于對(duì)特征信息的處理,于2019年提出的HRNet針對(duì)人體姿態(tài)估計(jì)問題從分類網(wǎng)絡(luò)的主體部分著手,由于常用的分類網(wǎng)絡(luò)學(xué)到的表征分辨率較低,很難在空間精度敏感的任務(wù)上取得準(zhǔn)確的預(yù)測結(jié)果,其用并行連接不同分辨率的卷積子網(wǎng)代替?zhèn)鹘y(tǒng)的串行連接,在不同分辨率的并行子網(wǎng)間進(jìn)行多次信息交換和特征融合,進(jìn)而提高了整體網(wǎng)絡(luò)的表征能力。于2019年提出的CARAFE上采樣算子從特征信息處理過程中常用的上采樣操作入手,整個(gè)算子相對(duì)于傳統(tǒng)的上采樣方法,它能夠在一個(gè)較大的感受野內(nèi)聚合信息,能夠動(dòng)態(tài)適應(yīng)特定實(shí)例的內(nèi)容,同時(shí)保持一定的計(jì)算效率,相對(duì)能夠更有效提取目標(biāo)特征信息。其它相關(guān)的方法[11-14]也對(duì)該方面有所改善。
對(duì)于樣本不平衡問題,一直是影響目標(biāo)檢測精度的重要因素。樣本不平衡問題是指在訓(xùn)練的時(shí)候各個(gè)類別的樣本數(shù)量極不均衡,負(fù)樣本的數(shù)量遠(yuǎn)大于正樣本,簡單樣本遠(yuǎn)大于難例,從而導(dǎo)致訓(xùn)練無法收斂到很好的解。對(duì)于小目標(biāo)而言,由于小目標(biāo)往往占據(jù)整幅圖很小一部分,其正負(fù)難易樣本往往是更不平衡的。目前有不少針對(duì)樣本不平衡問題的解決方法提出,比如OHEM(在線難例挖掘)[15]、GHM(梯度均衡化)[16]、Focal Loss、DR Loss[17]等。
以上工作從不同角度有效改善了小目標(biāo)的檢測性能,但是很多只是對(duì)小目標(biāo)檢測有一定幫助且針對(duì)特定的需求場景,而且小目標(biāo)和常規(guī)目標(biāo)的檢測性能仍然存在著顯著差異,因此具有一定改進(jìn)優(yōu)化的空間。
在減少特征信息損失方面,從整體模型的特征信息處理部分入手,利用改進(jìn)的高分辨率表征的HRNet[18]網(wǎng)絡(luò)對(duì)特征信息初步處理,而后結(jié)合FPN網(wǎng)絡(luò)進(jìn)行特征信息細(xì)化處理,同時(shí)在FPN中加入CARAFE[19]上采樣算子進(jìn)一步減少特征信息處理過程中的損失,隨著特征信息的處理進(jìn)程,在多次特征圖融合中設(shè)計(jì)了不同的融合方法,同時(shí)對(duì)相應(yīng)環(huán)節(jié)采用了越來越有效的上采樣方法,在保持一定計(jì)算效率的條件下最大化整體特征信息處理模塊的表征能力。
本文設(shè)計(jì)的特征信息處理模塊CHRNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 CHRNet特征信息處理模塊
上采樣可以簡單理解為進(jìn)行圖像的放大或者圖像的插值,在目標(biāo)檢測任務(wù)中,上采樣操作可以表示為每個(gè)位置的上采樣核和特征圖中對(duì)應(yīng)領(lǐng)域的像素做點(diǎn)積。傳統(tǒng)常用的上采樣方法有最近鄰插值法、雙線性插值法等,雙線性上采樣相對(duì)計(jì)算量較大,但上采樣效果更好,而CARAFE上采樣算子相對(duì)于傳統(tǒng)的插值方法,在保持一定計(jì)算效率的同時(shí)能夠更有效保留特征信息。
該模塊作為整體模型的特征信息處理部分,在輸入一張圖片后,首先是對(duì)其特征圖進(jìn)行前向卷積,同時(shí)保留不同分辨率的多個(gè)子網(wǎng)構(gòu)成并行網(wǎng)絡(luò),圖1(a)中有3個(gè)并行網(wǎng)絡(luò),同時(shí)網(wǎng)絡(luò)可分為3個(gè)階段,每個(gè)階段比上一個(gè)階段多一條分支,新增分支是上一階段的不同分辨率的特征圖進(jìn)行3×3跨步卷積融合后的結(jié)果,分辨率是上一分支分辨率大小的一半,通道數(shù)為上一分支的兩倍。同時(shí)在每一階段的并行分支中保留殘差單元保證網(wǎng)絡(luò)延伸時(shí)不會(huì)梯度彌散以及網(wǎng)絡(luò)退化。圖1(a)中的高層特征圖是對(duì)上一階段的特征圖進(jìn)行圖1(b)所示的相關(guān)操作后再通過1×1 conv 融合得到,其中上采樣采用最簡單的最近鄰上采樣方法。在并行子網(wǎng)反復(fù)交換特征信息以及不同分辨率的特征圖進(jìn)行融合后,該部分網(wǎng)絡(luò)的表征能力得到了增強(qiáng)。
在特征圖輸入到FPN網(wǎng)絡(luò)前,不是簡單用高階段得到的特征圖作為輸入,而是對(duì)高階段網(wǎng)絡(luò)的所有不同分辨率的特征圖(圖1(a)中有3個(gè))經(jīng)過圖1(c)中的對(duì)應(yīng)操作后得到。圖1(c)中在不同分辨率特征圖進(jìn)一步融合的時(shí)候,為了避免下采樣(跨步卷積)帶來的信息損失,只進(jìn)行相對(duì)低分辨率特征圖的上采樣,然后通過1×1 conv融合,其中上采樣采用更為有效的雙線性上采樣。融合后的不同特征圖之間的分辨率依然保持兩倍的關(guān)系,剛好符合FPN網(wǎng)絡(luò)后續(xù)特征圖進(jìn)一步融合的分辨率要求,從而直接得到了FPN自下而上通路中不同層的特征圖。
最后在FPN自上而下通路中,如虛線框g所示,將經(jīng)過CARAFE上采樣后的特征圖與自下而上通路中相應(yīng)的特征圖進(jìn)一步融合,然后經(jīng)過一個(gè)3×3 conv消除上采樣的混疊效應(yīng)后得到最終的輸出特征圖,用于模型后續(xù)的分類等操作。
本文的模型主體結(jié)構(gòu)[6]是基于經(jīng)典的單階段方法RetinaNet和經(jīng)典的兩階段方法Faster RCNN。將以上CHRNet模塊應(yīng)用于上述兩類方法,同時(shí)從整體模型的損失函數(shù)入手,加入并改進(jìn)常用的Focal Loss損失函數(shù),其中Faster RCNN模型中,結(jié)合小目標(biāo)檢測的特點(diǎn),主要將Focal Loss用于RPN部分,進(jìn)而改善樣本不平衡問題;最后針對(duì)小目標(biāo)設(shè)計(jì)了更合適的anchor,也是有效提高了整體模型的檢測精度。
Focal Loss主要是為了解決單階段目標(biāo)檢測中正負(fù)樣本比例嚴(yán)重失衡的問題,該損失函數(shù)降低了大量簡單負(fù)樣本在訓(xùn)練中所占的權(quán)重(小目標(biāo)檢測中往往是大面積的背景),使得模型在訓(xùn)練時(shí)更專注于難分類的樣本(小目標(biāo)檢測中往往是部分小目標(biāo)以及部分誤檢的負(fù)樣本)。
Focal Loss是在交叉熵?fù)p失函數(shù)基礎(chǔ)上進(jìn)行的修改,下面是Focal Loss損失函數(shù)(二分類)的形式
(1)
y′是分類器預(yù)測后經(jīng)過激活函數(shù)的輸出,是在0到1之間的一個(gè)概率值,當(dāng)存在大量簡單負(fù)樣本時(shí),交叉熵?fù)p失函數(shù)在大量簡單樣本的迭代過程中比較緩慢且可能無法優(yōu)化至最優(yōu)。Focal Loss則加了兩個(gè)關(guān)鍵參數(shù)γ,α, 其中γ主要是解決難易樣本不平衡問題,使得易分類樣本(分類器預(yù)測值y′高)的損失減少,使其更關(guān)注于難分的樣本,有效緩解了那些誤檢和漏檢的情況。此外,平衡因子α主要是用來平衡正負(fù)樣本本身的比例不均。
COCO數(shù)據(jù)集中將像素大小0×0到32×32的目標(biāo)定義為小目標(biāo),將像素大小32×32到96×96的定義為中等目標(biāo),由于在小目標(biāo)檢測中負(fù)樣本往往是大面積的背景,根據(jù)不同尺寸目標(biāo)之間的面積大小關(guān)系,為了更好地平衡小目標(biāo)情況下的正負(fù)樣本比例,將Focal Loss損失函數(shù)修改為如下形式
(2)
同時(shí),實(shí)驗(yàn)發(fā)現(xiàn)檢測結(jié)果中誤檢(比如將某塊背景檢測為目標(biāo))和漏檢(比如有些小目標(biāo)直接沒有檢測出來)的情況相對(duì)比較多,同時(shí)隨著γ的增大,易分類的樣本的損失比重會(huì)變得越來越小,在小目標(biāo)檢測中存在較多的誤檢和漏檢的樣本以及小目標(biāo)本身往往是難分類的樣本,所以嘗試合理增大γ, 從而改善小目標(biāo)檢測的精度。
現(xiàn)有的大部分基于深度學(xué)習(xí)的目標(biāo)檢測算法都有預(yù)先的錨框(anchor)設(shè)計(jì),預(yù)設(shè)一組尺度不同位置不同的固定參考框,每個(gè)參考框負(fù)責(zé)檢測與其交并比大于閾值的目標(biāo),anchor將目標(biāo)檢測轉(zhuǎn)換為了“這個(gè)固定參考框中有沒有認(rèn)識(shí)的目標(biāo)以及目標(biāo)框偏離參考框多遠(yuǎn)”的問題,從而有效提高了模型的檢測精度和效率。
設(shè)anchor矩形框的寬為W,高為H,W/H=anchor_ratios, 針對(duì)小目標(biāo)尺寸相對(duì)較小的特點(diǎn),相對(duì)于常規(guī)的目標(biāo)檢測情況,可以做以下設(shè)置,其中W即anchor_strides=[4,8,16,32,64] (與默認(rèn)配置有5個(gè)值保持一致), anchor_ratios=[0.5,1.0,2.0], 即針對(duì)參考框?qū)捀叩?個(gè)不同縮放比例,同時(shí)設(shè)定anchor整體的縮放因子anchor_scales=[4], 這樣小點(diǎn)的anchor尺寸為(4*4=16)16×16, 符合一般小目標(biāo)尺寸往往在32×32附近的要求,這樣在每一個(gè)位置會(huì)生成更符合小目標(biāo)尺寸的anchor,回歸的好不如預(yù)設(shè)的好,進(jìn)而改善小目標(biāo)的檢測性能。
本文實(shí)驗(yàn)主要在MOCOD和VEDAI這兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。MOCOD數(shù)據(jù)集是2019年清華大學(xué)舉辦的小目標(biāo)檢測競賽的數(shù)據(jù)集,該數(shù)據(jù)集基于虛擬仿真環(huán)境創(chuàng)建,模擬無人機(jī)在低空飛行時(shí)對(duì)城市道路上行駛的多種車輛進(jìn)行航拍,共有超過13 000張圖片。識(shí)別目標(biāo)包括12種車輛(BMW、Nissan、Mustang、Mini、Volkswagen、Policcar、Lincoln、Tazzar、Jeep、Truck、Bus、SUV);VEDAI數(shù)據(jù)集是一個(gè)包含不同交通工具的航空影像數(shù)據(jù)集,其中絕大部分都是符合小目標(biāo)尺寸的不同交通工具,本實(shí)驗(yàn)主要在其中1024×1024尺寸的1246張圖片上進(jìn)行,由于數(shù)據(jù)量相對(duì)較小,為了防止網(wǎng)絡(luò)出現(xiàn)過擬合等不好的情況,對(duì)其進(jìn)行了對(duì)比度增強(qiáng)、水平翻轉(zhuǎn)、隨機(jī)方向旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)手段,將數(shù)據(jù)擴(kuò)充至約5000張圖片,其目標(biāo)類別主要包括不同的交通工具(car、truck、pickup、tractor、camping car、boat、motorcycle、bus、van)。以上所有數(shù)據(jù)集都被處理為標(biāo)準(zhǔn)COCO數(shù)據(jù)集格式,其中約80%作為訓(xùn)練集,約20%作為測試集。
實(shí)驗(yàn)環(huán)境為ubuntu18.04,CUDA9.2,python3.7.4,pytorch1.2.0,mmdetection v1.0c1[20],CPU為Intel(R) Xeon(R) E5-2680 v3,GPU為2個(gè)2080Ti。
實(shí)驗(yàn)基準(zhǔn)以mmdetection上默認(rèn)方法為準(zhǔn),其中Faster RCNN為faster_rcnn_r50_fpn_1x,即主干網(wǎng)絡(luò)默認(rèn)經(jīng)過預(yù)訓(xùn)練的ResNet50[21]且采用了fpn網(wǎng)絡(luò),1x表示訓(xùn)練迭代次數(shù)為標(biāo)準(zhǔn)的12個(gè)epoch,類似的,RetinaNet為retinanet_r50_fpn_1x。本文考慮到和默認(rèn)的ResNet50的網(wǎng)絡(luò)參數(shù)量和計(jì)算復(fù)雜度相近,實(shí)驗(yàn)中選擇基于系列網(wǎng)絡(luò)中最小的HRNetV2-W18[22]網(wǎng)絡(luò)進(jìn)行改進(jìn),其中W18表示的是最后3個(gè)階段高分辨率子網(wǎng)絡(luò)的寬度,和ResNet50中50表示的網(wǎng)絡(luò)深度含義類似。優(yōu)化函數(shù)采用常用的帶動(dòng)量的SGD,學(xué)習(xí)率根據(jù)線性縮放規(guī)則動(dòng)態(tài)調(diào)整,比如在4 GPUs和2 imgs/gpu 的條件下有l(wèi)r=0.01,則2 GPUs和1 img/gpu的條件下lr=0.01/(4*2/2*1)=0.0025, 不同數(shù)據(jù)集上由于圖片尺寸不同學(xué)習(xí)率略有調(diào)整。
本實(shí)驗(yàn)主要關(guān)注檢測精度mAP和檢測速度FPS兩個(gè)主要指標(biāo),mAP以COCO數(shù)據(jù)集的精度評(píng)估為標(biāo)準(zhǔn),其評(píng)估了在不同交并比(IOU) [0.5∶0.05∶0.95] 下的AP,以這些閾值下平均AP作為最終結(jié)果mAP,相較于VOC數(shù)據(jù)集格式而言COCO數(shù)據(jù)集的評(píng)測標(biāo)準(zhǔn)更加嚴(yán)格。
4.3.1 數(shù)據(jù)集MOCOD
在MOCOD數(shù)據(jù)集上對(duì)改進(jìn)后Focal Loss測試不同γ對(duì)mAP的影響,見表1。
在MOCOD數(shù)據(jù)集上對(duì)CARAFE測試不同Kup和Kencoder對(duì)mAP的影響,見表2。
表1 MOCOD數(shù)據(jù)集上不同γ對(duì)于mAP的影響
表2 MOCOD數(shù)據(jù)集上不同的Kup,Kencoder對(duì)于mAP的影響
從表1中可以看出,適當(dāng)增大γ, 進(jìn)一步緩解了小目標(biāo)中的樣本不平衡問題,相對(duì)于默認(rèn)的γ=2,γ=3時(shí)在兩種方法中對(duì)于小目標(biāo)的檢測是更有幫助的。
從表2中可以看出,適當(dāng)增大Kup和Kencoder可以有效提升CARAFE上采樣過程中上采樣核和對(duì)應(yīng)點(diǎn)積特征圖的分辨率,相對(duì)于默認(rèn)的Kup=5,Kencoder=3, 小目標(biāo)檢測情況下Kup=9,Kencoder=7的時(shí)候檢測效果更優(yōu)。
(2)稻作產(chǎn)業(yè)缺乏品牌,且售價(jià)低廉,無額外附加值,且土地多質(zhì)次,病蟲害影響較大,約占當(dāng)年產(chǎn)量的20%~30%。
表3是加入相應(yīng)因素后的測試結(jié)果,隨著不同部分的加入,mAP得到了穩(wěn)定的提升,其中Focal Loss的加入和anchor的設(shè)計(jì)改動(dòng)對(duì)檢測速度FPS幾乎沒有影響,更多參數(shù)量的CARAFE上采樣算子使FPS略微降低約1個(gè)點(diǎn);同時(shí)表3中也在更深的ResNet上進(jìn)行了實(shí)驗(yàn),mAP同樣得到了進(jìn)一步提升,驗(yàn)證了在加入各種因素后整體模型的穩(wěn)定性。
表3 默認(rèn)方法基礎(chǔ)上加入Focal Loss、CARAFE和anchor設(shè)計(jì)以及在不同網(wǎng)絡(luò)深度下的實(shí)驗(yàn)結(jié)果
表4則是進(jìn)行相應(yīng)改進(jìn)后的實(shí)驗(yàn)結(jié)果,在損失少量檢測速度的情況下,可以看到相較于改進(jìn)前檢測精度mAP有了很大提升,其中CHRNet帶來的精度提升最高,F(xiàn)aster RCNN中提升了3.6個(gè)百分點(diǎn),RetinaNet中提升了4.1個(gè)百分點(diǎn)。
表4 加入上述3種因素且分別進(jìn)行相應(yīng)改進(jìn)后的實(shí)驗(yàn)結(jié)果
表5 默認(rèn)方法基礎(chǔ)上加入Focal Loss、CARAFE和anchor設(shè)計(jì)后的實(shí)驗(yàn)結(jié)果
4.3.2 數(shù)據(jù)集VEDAI
由表5和表6可以看出,在加入各種因素以及進(jìn)行相應(yīng)改進(jìn)后,mAP同樣有穩(wěn)定的提升,和MOCOD的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果相似。由表6中可以看到,CHRNet帶來的提升最大,F(xiàn)aster RCNN中提升了4.1個(gè)百分點(diǎn),RetinaNet中提升了3.6個(gè)百分點(diǎn)。
表6 加入上述3種因素且分別進(jìn)行相應(yīng)改進(jìn)后的實(shí)驗(yàn)結(jié)果
從以上實(shí)驗(yàn)結(jié)果可以看出,在Faster RCNN的RPN階段用Focal Loss代替默認(rèn)的交叉熵?fù)p失的時(shí)候,mAP有1個(gè)百分點(diǎn)左右的提升,F(xiàn)ocal Loss改進(jìn)后均有0.6個(gè)百分點(diǎn)左右的提升,對(duì)檢測速度FPS幾乎沒有影響;加入CARAFE時(shí),mAP均有1個(gè)百分點(diǎn)左右的提升,改進(jìn)后均有0.5個(gè)百分點(diǎn)左右的提升,同時(shí)檢測速度FPS略微降低約1個(gè)點(diǎn);加入提出的特征提取模塊CHRNet后,mAP有3.8個(gè)百分點(diǎn)左右的提升,同時(shí)檢測速度FPS小幅降低2個(gè)點(diǎn)左右;加入合適的anchor設(shè)計(jì)后,mAP均有5個(gè)百分
點(diǎn)左右的提升,對(duì)檢測速度幾乎沒有影響。
圖2是應(yīng)用CHRNet后在不同數(shù)據(jù)集上的部分檢測結(jié)果。
圖2 不同數(shù)據(jù)集的檢測結(jié)果
圖3 應(yīng)用CHRNet前后部分檢測結(jié)果
從上面不同數(shù)據(jù)集的部分檢測結(jié)果示例圖和應(yīng)用前后對(duì)比圖中可以直觀看出,應(yīng)用CHRNet后,檢測結(jié)果的置信度整體上得到了提高,同時(shí)漏檢等情況也得到了改善,說明在檢測過程中特征信息損失減少,對(duì)于目標(biāo)的分類更加準(zhǔn)確,進(jìn)而有效提高了小目標(biāo)檢測的精度。
綜合考慮,本文的研究對(duì)于提升小目標(biāo)檢測性能有一定幫助,同時(shí)自己的一些改進(jìn)也是有不錯(cuò)效果,特別是合適的anchor設(shè)計(jì)和提出的特征提取模塊CHRNet帶來的提升最大。
本文針對(duì)小目標(biāo)檢測問題,從減少特征信息損失這個(gè)主要影響因素著手,同時(shí)針對(duì)樣本不平衡問題也進(jìn)行一定改進(jìn),并結(jié)合合適的anchor設(shè)計(jì),在常用的單階段方法RetinaNet和兩階段方法Faster RCNN進(jìn)行了實(shí)驗(yàn);針對(duì)特征信息損失問題,在特征圖處理過程中,通過設(shè)計(jì)合適的特征圖融合方式以及采用越來越有效的上采樣方法,結(jié)合HRNet和CARAFE上采樣算子的設(shè)計(jì)思想,在保證一定計(jì)算效率的條件下設(shè)計(jì)了一個(gè)具有高表征能力的特征提取模塊CHRNet,同時(shí)對(duì)CARAFE上采樣算子進(jìn)行了針對(duì)性調(diào)優(yōu);針對(duì)樣本不平衡問題,對(duì)Focal Loss進(jìn)行了改進(jìn)調(diào)整,同時(shí)對(duì)關(guān)鍵參數(shù)γ進(jìn)行了實(shí)驗(yàn)調(diào)優(yōu);在兩個(gè)符合小目標(biāo)條件的數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn),結(jié)果表明,本文的改進(jìn)在一定程度兼顧檢測速度的條件下有效提升了小目標(biāo)檢測的精度,在COCO數(shù)據(jù)集標(biāo)準(zhǔn)下相對(duì)于默認(rèn)方法mAP均有約10個(gè)百分點(diǎn)的提升,其中本文的改進(jìn)有約4.5個(gè)百分點(diǎn)(不包括anchor設(shè)計(jì)),CHRNet帶來的提升約占80%。
未來將考慮從以下方向來進(jìn)一步研究改進(jìn):一是嘗試將簡單有效的Focal Loss結(jié)合其它方法進(jìn)一步緩解小目標(biāo)檢測中更突出的樣本不平衡問題;二是考慮進(jìn)一步改進(jìn)CHRNet模塊使得對(duì)檢測精度的提升更大,對(duì)檢測速度的影響更小;三是考慮結(jié)合更優(yōu)秀的目標(biāo)檢測方法,從整體方法上改善;從而進(jìn)一步提升小目標(biāo)檢測的性能。