周 博,葛洪武,李 珩,李 旭
(中國(guó)電子科技集團(tuán)公司 第54研究所,石家莊 050081)
目標(biāo)檢測(cè)的任務(wù)是找出圖像或視頻中人們感興趣的物體,并且同時(shí)檢測(cè)出它們的位置和大小,目標(biāo)檢測(cè)不僅要解決分類(lèi)問(wèn)題,還要解決定位問(wèn)題,作為計(jì)算機(jī)視覺(jué)的基本問(wèn)題之一,目標(biāo)檢測(cè)構(gòu)成了許多其他視覺(jué)任務(wù)的基礎(chǔ),例如實(shí)例分割、圖像標(biāo)注和目標(biāo)跟蹤等。目標(biāo)檢測(cè)算法可以分為一階段目標(biāo)檢測(cè)算法以及二階段目標(biāo)檢測(cè)算法,其中一階段目標(biāo)檢測(cè)算法主要包含YOLO[1-3]、SSD[4]等算法;二階段目標(biāo)檢測(cè)算法主要包括RCNN[5]、Fast RCNN[6]、Faster RCNN[7]等算法。一階段目標(biāo)檢測(cè)算法減少了空間和時(shí)間的占用,速度有較大提升,但精度低于二階段目標(biāo)檢測(cè)算法。上述算法的性能都依賴(lài)于大量的數(shù)據(jù)集,但是在某些場(chǎng)景下,往往難以收集到大量的數(shù)據(jù)集或者獲取數(shù)據(jù)集的代價(jià)非常高。
受限于大規(guī)模的數(shù)據(jù)集,小樣本目標(biāo)檢測(cè)算法在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的研究;小樣本目標(biāo)檢測(cè)算法旨在學(xué)習(xí)可轉(zhuǎn)移的知識(shí),將這些知識(shí)泛化到新類(lèi)中,從而對(duì)只有少量樣本的新類(lèi)進(jìn)行檢測(cè)。Wang等人基于Faster RCNN提出了兩階段微調(diào)方法[8](TFA,two-stage fine-tuning approach),在保持整個(gè)特征提取器不變的情況下,只微調(diào)分類(lèi)器和回歸器,首次證明了簡(jiǎn)單的遷移學(xué)習(xí)方法在小樣本目標(biāo)檢測(cè)任務(wù)上效果好于元學(xué)習(xí)方法。Sun等人提出了基于對(duì)比候選框編碼的小樣本目標(biāo)檢測(cè)算法[9](FSCE,few-shot object detection via contrastive proposal encoding),首次將對(duì)比學(xué)習(xí)引入到小樣本目標(biāo)檢測(cè)方法。Li等人提出了基于類(lèi)別特征均衡的小樣本目標(biāo)檢測(cè)算法[10](CME,class margin equilibrium)方法來(lái)優(yōu)化特征空間劃分和新類(lèi)表示,讓模型更好地學(xué)習(xí)小樣本的特征;Qiao等人提出了基于解耦Faster R-CNN的小樣本目標(biāo)檢測(cè)算法[11](DeFRCN,decoupled faster r-CNN for few-shot object detection)方法,緩解了Faster RCNN中前景和背景的識(shí)別沖突問(wèn)題,還提出了一個(gè)離線(xiàn)的分?jǐn)?shù)校準(zhǔn)模塊,以緩解定位和回歸之間的沖突,但是該模塊增加了模型的計(jì)算量。Kang等人以YOLOv2為基礎(chǔ)網(wǎng)絡(luò)提出了元學(xué)習(xí)小樣本目標(biāo)檢測(cè)算法(MetaYolo[12],few-shot object detection via feature reweighting),在此基礎(chǔ)上引入了特征重加權(quán)提取器,用于強(qiáng)化對(duì)于檢測(cè)新類(lèi)有幫助的元特征,Li等人以YOLOv3為基礎(chǔ)網(wǎng)絡(luò),提出了遙感小樣本目標(biāo)檢測(cè)算法[13](FSODM,few-shot object detection model),通過(guò)引入多尺度的特征重加權(quán)提取器來(lái)提升模型對(duì)于不同尺度目標(biāo)的檢測(cè)性能。
遙感圖像具有目標(biāo)尺度差異大、目標(biāo)模糊、背景復(fù)雜度高的特點(diǎn),上述小樣本目標(biāo)檢測(cè)算法大多基于日常生活中的常見(jiàn)物體開(kāi)發(fā),在遙感圖像目標(biāo)檢測(cè)任務(wù)上精度仍然較低,并且大多基于二階段的Faster RCNN算法,計(jì)算復(fù)雜度高,檢測(cè)速度較慢。其中FSODM以一階段的YOLOv3為基礎(chǔ),針對(duì)遙感圖像提出了多尺度的特征重加權(quán)提取器,提高了不同尺度目標(biāo)的檢測(cè)精度,并且有較快的檢測(cè)速度,但是FSODM提取到的圖像的深層語(yǔ)義信息以及淺層定位信息仍然不夠豐富。針對(duì)上述問(wèn)題,以FSODM為基礎(chǔ),提出了一種新的特征重加權(quán)小樣本目標(biāo)檢測(cè)算法(RE-FSOD,feature reweighting few-shot object detection),貢獻(xiàn)主要如下:
1)將元特征提取器的骨干網(wǎng)絡(luò)更換為CSPDarknet-53結(jié)構(gòu),在Neck部分加入路徑聚合網(wǎng)絡(luò)[14](PAN,path aggregation network)結(jié)構(gòu),CSPDarknet相對(duì)于初始的Darknet-53引入了交叉跨階段網(wǎng)絡(luò)[15](CSP,cross stage partial network)結(jié)構(gòu),并且將空間金字塔池化[16](SPP,spatial pyramid pooling)更換為快速空間金字塔池化(SPPF,spatial pyramid pooling fast),能夠減少參數(shù)量以及計(jì)算復(fù)雜度,并且提供了更強(qiáng)大的特征表示能力。PAN結(jié)構(gòu)能夠?qū)\層豐富的定位信息傳遞到深層,增強(qiáng)對(duì)不同尺度檢測(cè)目標(biāo)的定位能力,使得在3-shot、5-shot、10-shot情況下分別提升了大約10%、3%、4%。
2)提出了結(jié)合注意力機(jī)制和殘差結(jié)構(gòu)的C2fSE模塊,由壓縮激勵(lì)注意力機(jī)制[17](SE,suqueeze and excition)和帶有殘差結(jié)構(gòu)[18]的通道到像素模塊(C2f,channel to pixel)構(gòu)成,將其添加到原始的特征重加權(quán)提取器卷積層后,增加網(wǎng)絡(luò)的深度和感受野,提升網(wǎng)絡(luò)的語(yǔ)義特征提取能力,使得在3-shot、5-shot、10-shot情況下分別提升了大約4%、3%、4%。
3)將定位損失函數(shù)替換為CIOU[19]損失函數(shù),CIOU損失函數(shù)同時(shí)考慮了檢測(cè)目標(biāo)的大小、長(zhǎng)寬比、縱橫比等因素,加速模型的收斂,且提升了模型的定位性能,使得在3-shot、5-shot、10-shot情況下分別提升了大約6%、9%、3%。
小樣本目標(biāo)檢測(cè)算法旨在從源數(shù)據(jù)集Di中學(xué)習(xí)通用的元知識(shí),利用少量的目標(biāo)數(shù)據(jù)集Do將元知識(shí)遷移到目標(biāo)任務(wù)中,使得小樣本目標(biāo)檢測(cè)算法在目標(biāo)數(shù)據(jù)集上能夠快速收斂。假設(shè)目標(biāo)數(shù)據(jù)集中有N類(lèi)樣本,每類(lèi)樣本具有K個(gè)標(biāo)簽,稱(chēng)為N-way-K-shot[20]任務(wù)。
小樣本目標(biāo)檢測(cè)算法的數(shù)據(jù)集由支持集與查詢(xún)集構(gòu)成,給定一個(gè)k-shot任務(wù),支持集Si= {(Ik,Mk)},其中Ik代表輸入圖像并且Ik∈Rh×w×3,Mk代表對(duì)應(yīng)目標(biāo)的掩膜,k= 1,2,3,…,K。查詢(xún)集Qi包含Nq張圖片,Nq為訓(xùn)練集或者測(cè)試集中所有圖片的數(shù)目,同樣包含有k類(lèi)目標(biāo)。RE-FOSD算法的一次迭代訓(xùn)練的輸入為T(mén)i={Qi,Si}。
FSODM算法是Li等人于2021年提出的第一個(gè)小樣本遙感目標(biāo)檢測(cè)算法,F(xiàn)SODM算法基于YOLOv3目標(biāo)檢測(cè)算法進(jìn)行開(kāi)發(fā),在此基礎(chǔ)上引入了多尺度的特征重加權(quán)模塊,用來(lái)調(diào)整特征圖的特征,強(qiáng)化那些對(duì)于檢測(cè)新類(lèi)有幫助的特征,使得算法能夠在少量樣本下取得較好的檢測(cè)精度。相較于其他流行的小樣本目標(biāo)檢測(cè)算法TFA、FSCE等算法,F(xiàn)SODM結(jié)合了多尺度的特征重加權(quán)模塊,能夠更好地處理尺度多變的遙感目標(biāo),并且FSODM算法基于一階段的YOLOv3算法開(kāi)發(fā),在推理階段可以移除掉新增的特征重加權(quán)模塊,具有較少的計(jì)算量以及更快的推理速度,但FSODM的檢測(cè)精度仍然較低,為了能夠更準(zhǔn)確地識(shí)別遙感目標(biāo),仍需要對(duì)算法進(jìn)一步改進(jìn),F(xiàn)SODM結(jié)構(gòu)如圖1所示。
圖1 FSODM網(wǎng)絡(luò)結(jié)構(gòu)圖
RE-FSOD算法以FSODM為基礎(chǔ),與FSODM有相同的架構(gòu),同樣由元特征提取器、特征重加權(quán)提取器、預(yù)測(cè)模塊3部分構(gòu)成,整體架構(gòu)如圖2所示,詳細(xì)結(jié)構(gòu)如圖3所示。
圖2 RE-FSOD架構(gòu)圖
圖3 RE-FSOD網(wǎng)絡(luò)結(jié)構(gòu)圖
圖4 CSP結(jié)構(gòu)示意圖
元特征提取器的輸入為查詢(xún)集中的圖片,能夠提取3個(gè)不同尺度的元特征圖,特征重加權(quán)提取器為數(shù)據(jù)集中的所有目標(biāo)類(lèi)別生成3個(gè)尺度的特定類(lèi)特征重加權(quán)向量,將對(duì)應(yīng)尺度的特征重加權(quán)向量與元特征圖進(jìn)行1×1的通道卷積來(lái)調(diào)整元特征圖的權(quán)重,強(qiáng)化對(duì)于檢測(cè)新類(lèi)有幫助的特征,將特征圖輸入到預(yù)測(cè)模塊中生成(x,y,w,h,o,c),(x,y,w,h)代表邊界框坐標(biāo),o代表置信度,c代表類(lèi)別分?jǐn)?shù)。
元特征提取器旨在從查詢(xún)集中提取到魯棒的元特征,I為輸入到元特征提取器的查詢(xún)圖片,I∈Rh×w×c,提取得到的元特征為Fi=ε(I)∈Rhi × wi × mi,用i代表3個(gè)尺度的序號(hào),i=1,2,3。其中hi,wi,mi表示尺度i的特征圖的大小。依照FSODM的設(shè)置,將特征提取器的圖片輸入設(shè)置為512×512,3個(gè)特征圖的尺寸大小分別為16×16×1 024、32×32×512、64×64×256。
FSODM中元特征提取器由Darknet-53以及特征金字塔網(wǎng)絡(luò)(FPN,feature pyramid network)構(gòu)成。RE-FSOD將元特征提取器的骨干網(wǎng)絡(luò)替換為CSPDarknet-53,并且在FPN的基礎(chǔ)上添加了PAN結(jié)構(gòu)。Darknet-53中存在大量的殘差塊,并且使用步長(zhǎng)為2,卷積核大小為3×3的卷積層Conv2D代替池化層進(jìn)行下采樣,殘差塊可以增加網(wǎng)絡(luò)的深度,使得網(wǎng)絡(luò)能夠提取更高級(jí)的語(yǔ)義特征,可以避免梯度的消失或者爆炸。CSPDarknet-53相比于Darknet-53網(wǎng)絡(luò)在殘差結(jié)構(gòu)中引入了CSP結(jié)構(gòu),CSP將原輸入分為兩個(gè)分支,分別使用1×1的卷積進(jìn)行特征變換,并且使特征圖的通道數(shù)減半,其中一個(gè)分支的特征圖經(jīng)過(guò)N個(gè)BottleNeck模塊,最后在通道維度上進(jìn)行連接,CSP分流的結(jié)構(gòu)可以減少計(jì)算量,有效地傳遞信息,使得網(wǎng)絡(luò)能夠更好地學(xué)習(xí)特征。
CSPDarknet-53使用了SPPF(最大池化特征金字塔)模塊,原方法中在骨干網(wǎng)絡(luò)中使用的方法為SPP,兩者的作用都是實(shí)現(xiàn)局部特征與全局特征的融合,SPP存在4個(gè)分支,其中一個(gè)分支為卷積層,其余3個(gè)分支分別為卷積核為5,9,13的最大池化層,之后將4個(gè)分支的輸出在通道維度上進(jìn)行連接,將局部特征與全局特征融合進(jìn)而提取到不同大小的目標(biāo)特征,SPPF在SPP結(jié)構(gòu)上進(jìn)行了改進(jìn),復(fù)用了已有的特征圖,并且將3個(gè)最大池化層的卷積核設(shè)置為5,大大提升了推理速度。
一般淺層的特征圖具有更多定位信息和較少的語(yǔ)義信息,深層的特征圖尺寸變得更小,維度變得更大,因此深層的特征圖具有更多的語(yǔ)義信息和較少的定位信息。在FSODM元特征提取器使用了FPN結(jié)構(gòu),F(xiàn)PN是一個(gè)自頂向下的特征金字塔,把淺層的語(yǔ)義特征傳遞下來(lái),對(duì)整個(gè)金字塔進(jìn)行增強(qiáng),它只增強(qiáng)了語(yǔ)義信息,但是沒(méi)有對(duì)定位信息進(jìn)行傳遞,PAN結(jié)構(gòu)針對(duì)FPN的缺點(diǎn),在FPN的基礎(chǔ)上增加了一個(gè)自底向上的金字塔,對(duì)FPN進(jìn)行補(bǔ)充,將定位特征傳遞上去,這樣生成的特征圖同時(shí)擁有了豐富的定位和語(yǔ)義信息,能夠提升目標(biāo)檢測(cè)算法的精度。
特征重加權(quán)提取器的輸入是檢測(cè)目標(biāo)的感興趣區(qū)域(ROI),如圖1所示,包含各個(gè)類(lèi)的圖片以及對(duì)應(yīng)類(lèi)別目標(biāo)的掩膜,一般輸入圖像會(huì)包含多個(gè)檢測(cè)目標(biāo),為了使特征重加權(quán)提取能夠識(shí)別特定類(lèi)別的目標(biāo),因此只選取對(duì)應(yīng)類(lèi)別的一個(gè)目標(biāo),根據(jù)此目標(biāo)位置將邊界框內(nèi)的區(qū)域像素設(shè)置為1并且將其余位置的像素點(diǎn)設(shè)置為0得到掩膜。將輸入圖像與掩膜拼接成4維向量輸入到特征重加權(quán)提取器中,生成對(duì)應(yīng)類(lèi)別多個(gè)尺度的特征重加權(quán)向量,特征重加權(quán)向量與元特征圖進(jìn)行1×1的卷積來(lái)調(diào)整元特征圖,強(qiáng)化對(duì)于檢測(cè)新類(lèi)有幫助的特征。
FSODM中使用卷積層與最大池化層構(gòu)成特征重加權(quán)網(wǎng)絡(luò),為了使得特征重加權(quán)能夠提取到更豐富的語(yǔ)義信息,提出了融合注意力機(jī)制的C2fSE模塊,在此基礎(chǔ)上將C2fSE模塊融入到特征重加權(quán)提取器中,C2fSE模塊由C2f模塊以及SE模塊構(gòu)成,C2f模塊的卷積層通過(guò)增加卷積核的大小和步幅來(lái)擴(kuò)大感受野,使得模型能夠在更大的區(qū)域內(nèi)獲取特征,同時(shí)C2f中的殘差結(jié)構(gòu)能夠加深網(wǎng)絡(luò)的層數(shù),增強(qiáng)網(wǎng)絡(luò)的特征提取能力。SE(Squeeze-and-Excitation)注意力機(jī)制首先通過(guò)壓縮操作,將每個(gè)通道的二維特征壓縮為1個(gè)實(shí)數(shù),得到通道維度的全局特征,之后通過(guò)激勵(lì)操作為每個(gè)通道生成一個(gè)權(quán)重,最后將得到的權(quán)重調(diào)整初始的特征圖,SE通過(guò)擠壓與激勵(lì)的操作使模型更加關(guān)注信息量大的特征,從而抑制那些不重要的特征,進(jìn)而提升特征重加權(quán)網(wǎng)絡(luò)的特征提取能力。
FSODM損失函數(shù)由定位損失、類(lèi)別損失及置信度損失構(gòu)成,相較于FSODM,RE-FSOD將定位損失由均方誤差損失更換為CIOU損失。
FSODM均方誤差損失公式如式(1)所示:
(1)
(2)
式中,A為預(yù)測(cè)框的面積,B為真實(shí)框的面積。
CIOU損失函數(shù)寬高比懲罰項(xiàng)如式(3)所示:
(3)
式中,wgt與hgt是真實(shí)框的寬和高,w和h是預(yù)測(cè)框的寬和高。
CIOU中心點(diǎn)距離懲罰項(xiàng)由式(4)、式(5)定義:
(4)
d=ρ2(Actr,Bctr)
(5)
式中,Actr,Bctr分別是真實(shí)框與預(yù)測(cè)框的中心點(diǎn),ρ2(·)代表兩點(diǎn)間的歐式距離,c是真實(shí)框A與預(yù)測(cè)框B的最大外接矩形的對(duì)角線(xiàn),d為A與B的中心點(diǎn)的距離。
其中:α為權(quán)重系數(shù),如式(6)所示:
(6)
CIOU損失函數(shù)最終定義如式(7)所示:
(7)
正樣本置信度損失如式(8)所示:
(8)
式中,p0為預(yù)測(cè)的置信度o,o為預(yù)測(cè)框中存在物體的可能性,pt為真實(shí)框的值,有目標(biāo)為1,沒(méi)有目標(biāo)時(shí)為0。
負(fù)樣本置信度損失如式(9)所示:
(9)
式中,neg代表所有負(fù)樣本。
總置信度損失如式(10)所示:
Lo=Lobj·wobj+Lnobj·wnobj
(10)
式中,wobj和wnobj是正樣本和負(fù)樣本損失的權(quán)重,用來(lái)平衡正負(fù)樣本損失。類(lèi)別損失如式(11)所示:
(11)
式中,cpt是真實(shí)類(lèi)別分?jǐn)?shù),cpj是預(yù)測(cè)類(lèi)別分?jǐn)?shù),已經(jīng)使用置信度來(lái)判斷預(yù)測(cè)框中是否存在目標(biāo),因此分類(lèi)損失中忽略了負(fù)樣本。
RE-FSOD總的損失函數(shù)表示為:
L=Lciou+Lobj+Lc
(12)
預(yù)測(cè)模塊與YOLOv3類(lèi)似,依據(jù)YOLOv3的設(shè)置,采用基于anchor(錨框)的方法,anchor對(duì)應(yīng)大物體尺寸設(shè)置為(116×90)、(156×198)、(373×326),對(duì)中等物體尺寸設(shè)置為(30×61)、(62×45)、(59×119),對(duì)小物體尺寸設(shè)置為(10×13)、(16×30)、(33×23)。將3個(gè)尺度的特征圖輸入到預(yù)測(cè)模塊中,生成(x,y,w,h,o,c),(x,y,w,h)代表邊界框坐標(biāo),o代表置信度,c代表類(lèi)別分?jǐn)?shù)。與YOLOv3預(yù)測(cè)模塊相比,只有類(lèi)別預(yù)測(cè)不同,YOLOv3每個(gè)預(yù)測(cè)框生成k個(gè)類(lèi)別分?jǐn)?shù),由于RE-FSOD對(duì)每個(gè)類(lèi)都有一個(gè)類(lèi)特征圖,每個(gè)預(yù)測(cè)框只預(yù)測(cè)一個(gè)類(lèi)別分?jǐn)?shù)c,對(duì)應(yīng)于輸入圖像的同一位置的一組預(yù)測(cè)框稱(chēng)為cpi(I= 1,2,…,K),每個(gè)預(yù)測(cè)框類(lèi)別的最終概率為:
(13)
數(shù)據(jù)集使用公開(kāi)的NWPU VHR-10十分類(lèi)遙感數(shù)據(jù)集,選擇船舶、儲(chǔ)罐、籃球場(chǎng)、棒球場(chǎng)、汽車(chē)、地面軌道、港口為基類(lèi),飛機(jī)、棒球場(chǎng)、網(wǎng)球場(chǎng)為新類(lèi)。訓(xùn)練策略依據(jù)FSODM中的設(shè)置,訓(xùn)練過(guò)程分為兩階段:第一階段在具有充足標(biāo)簽的基類(lèi)上進(jìn)行訓(xùn)練,稱(chēng)為基類(lèi)訓(xùn)練;第二階段使用第一階段生成的模型在小樣本數(shù)據(jù)集上進(jìn)行微調(diào)。基類(lèi)訓(xùn)練的數(shù)據(jù)集Dtrain中包括640張圖片,共包括7類(lèi)目標(biāo),其中包含船舶目標(biāo)240個(gè)、儲(chǔ)罐目標(biāo)524個(gè)、籃球場(chǎng)目標(biāo)127個(gè)、地面軌道目標(biāo)130目標(biāo)個(gè)、港口目標(biāo)180個(gè)、橋梁目標(biāo)99個(gè)、汽車(chē)目標(biāo)472個(gè)。在k-shot任務(wù)下,微調(diào)階段的小樣本數(shù)據(jù)集Dtest包括10類(lèi)目標(biāo),從基類(lèi)數(shù)據(jù)集中的圖片隨機(jī)選取,直至選取的圖片包含所有類(lèi)的k個(gè)的目標(biāo)。依據(jù)1.1中的設(shè)置,每次迭代的輸入為T(mén)i={Qi,Si}。一張查詢(xún)圖像對(duì)應(yīng)一組支持圖像,支持圖像由圖像及其對(duì)應(yīng)目標(biāo)類(lèi)別的掩膜構(gòu)成如圖9所示,一輪訓(xùn)練中,查詢(xún)圖像就是訓(xùn)練集的所有圖像,其所對(duì)應(yīng)的支持圖像由訓(xùn)練集中的圖像隨機(jī)組合生成。
圖9 查詢(xún)圖像與支持圖像示意圖
圖10 數(shù)據(jù)增強(qiáng)示意圖
訓(xùn)練以及推理流程如下:
1)生成基類(lèi)訓(xùn)練集Dtrain以及推理所用的小樣本數(shù)據(jù)集Dtest。
2)初始化特征提取器、特征重加權(quán)網(wǎng)絡(luò)、預(yù)測(cè)模塊的網(wǎng)絡(luò)權(quán)重。
3)將Dtrain中數(shù)據(jù)輸入到網(wǎng)絡(luò)中訓(xùn)練900輪,保存模型。
4)加載步驟3)中的模型,利用Dtest訓(xùn)練10輪進(jìn)行微調(diào),生成最后的模型。
5)利用Dtest中的數(shù)據(jù)集,將支持集輸入到特征重加權(quán)網(wǎng)絡(luò)中生成重加權(quán)向量。
6)將查詢(xún)圖像輸入到網(wǎng)絡(luò)中生成元特征圖,利用重加權(quán)向量與元特征圖進(jìn)行1×1的通道卷積生成調(diào)整后的元特征圖,將其輸入到預(yù)測(cè)模塊進(jìn)行解碼生成最后的預(yù)測(cè)結(jié)果。解碼過(guò)程只有類(lèi)別預(yù)測(cè)與YOLOv3不同,其余均相同。
CPU為intel Xeon○RGold 6310,GPU為V100-32 GB,24 G運(yùn)行內(nèi)存,Ubuntu20.04操作系統(tǒng),Pytorch版本為0.3.1,計(jì)算架構(gòu)為CUDA8。
超參數(shù)說(shuō)明:訓(xùn)練圖像的分辨率設(shè)置為512×512,批次大小設(shè)置為16,使用SGD優(yōu)化器,基類(lèi)訓(xùn)練階段學(xué)習(xí)率為0.01,微調(diào)階段學(xué)習(xí)率設(shè)置為0.001,優(yōu)化器權(quán)重衰減設(shè)置為0.000 5,動(dòng)量因子設(shè)置為0.937,在基類(lèi)訓(xùn)練階段訓(xùn)練900輪,在微調(diào)階段訓(xùn)練10輪,訓(xùn)練集與測(cè)試集以8∶2的比例進(jìn)行劃分,其中訓(xùn)練集640張圖片,測(cè)試集160張圖片。
RE-FSOD通過(guò)mAP(mean Average Precision)平均精度均值以及AP(Average Precision)平均精度來(lái)評(píng)價(jià)小樣本目標(biāo)檢測(cè)算法的性能。
(14)
(15)
(16)
式中,P代表預(yù)測(cè)出真實(shí)正例占所有預(yù)測(cè)為正確的比例,R代表預(yù)測(cè)出的真實(shí)正例占所有預(yù)測(cè)為正例的比例,用來(lái)反映漏檢情況,在式(16)中,n是代表類(lèi)別數(shù),根據(jù)P和R利用式(16)計(jì)算得出mAP。實(shí)驗(yàn)采用mAP50作為評(píng)價(jià)指標(biāo)。
數(shù)據(jù)增強(qiáng)流程:
1)在圖像輸入到特征提取網(wǎng)絡(luò)之前,首先將圖像向左右、上下兩個(gè)方向隨機(jī)平移,平移的距離不過(guò)圖像尺度的20%。
2)裁剪平移后的圖像,使用HSV進(jìn)行數(shù)據(jù)增強(qiáng),以0.5的概率將圖像隨機(jī)進(jìn)行翻轉(zhuǎn),最后使用多尺度策略將圖像放縮,輸入到網(wǎng)絡(luò)當(dāng)中。
將圖像進(jìn)行翻轉(zhuǎn)、平移使檢測(cè)目標(biāo)在圖像中的位置發(fā)生變化,進(jìn)行HSV數(shù)據(jù)增強(qiáng)調(diào)整圖像的色彩,使得輸入到重加權(quán)模塊的每張圖片都是不同的,兩種方法大大豐富了樣本的多樣性,可以使模型提取到更加魯棒的特征表示,提升模型的泛化能力。
為了評(píng)估RE-FSOD模型在小樣本場(chǎng)景下的檢測(cè)性能,將數(shù)據(jù)集分為兩部分,其中以飛機(jī)、棒球場(chǎng)、網(wǎng)球場(chǎng)作為新類(lèi),其余類(lèi)別作為基類(lèi)。并且進(jìn)行了3-shot、5-shot、10-shot實(shí)驗(yàn)。
改進(jìn)1 為使用CSPDarknet-53骨干網(wǎng)絡(luò),并且添加PAN結(jié)構(gòu)以及SPPF結(jié)構(gòu),改進(jìn)2為將定位損失函數(shù)替換為CIOU損失函數(shù),改進(jìn)3為在特征重加權(quán)提取器中添加C2fSE結(jié)構(gòu)。同時(shí)為了驗(yàn)證改進(jìn)的有效性,進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示,使用改進(jìn)1之后,即使用CSPDarknet-53作為骨干網(wǎng)絡(luò),并且添加PAN結(jié)構(gòu)后,在3-shot、5-shot、10-shot情況下mAP分別提升了10%、2.8%、3.9%,證明改進(jìn)1能夠有效地提升的目標(biāo)檢測(cè)算法精度,并且在3-shot實(shí)驗(yàn)中,mAP有大幅提升,說(shuō)明改進(jìn)1在樣本極少的情況性能更加出色。在改進(jìn)1的基礎(chǔ)上添加改進(jìn)2,將定位損失函數(shù)更換為CIOU損失,在3-shot、5-shot、10-shot的情況下分別提升了6.3%、9.6%、3%,驗(yàn)證了改進(jìn)2的有效性,說(shuō)明CIOU損失函數(shù)相比于均方誤差損失函數(shù)能夠提升模型的定位精度。在此基礎(chǔ)上引入C2fSE模塊,在3-shot、10-shot情況下分別提升了3%、1.1%,5-shot情況下基本持平,證明了改進(jìn)3的有效性。并且在不同樣本條件下進(jìn)行了3個(gè)改進(jìn)模塊兩兩組合的實(shí)驗(yàn),相較于只改進(jìn)1個(gè)模塊,均有不同程度的提高,說(shuō)明改進(jìn)模塊具有較好的獨(dú)立性。
表1 消融實(shí)驗(yàn)結(jié)果mAP50
RE-FSOD算法相較于FSODM算法在3-shot、5-shot、10-shot情況下的mAP分別提升了19%、11%、8%。并且樣本越少提升效果越明顯,說(shuō)明RE-FSOD相比于FSODM在小樣本條件下檢測(cè)遙感圖像目標(biāo)具有明顯優(yōu)勢(shì)。
為驗(yàn)證RE-FSOD算法的性能,與當(dāng)前流行的小樣本目標(biāo)檢測(cè)算法FSODM、TFA、FSCE、PAMS-Det進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表2所示,RE-FSOD相較于性能最好的PAMS-Det算法在3-shot、5-shot、10-shot的情況下mAP提升了14%、10%、7%。
表2 不同算法實(shí)驗(yàn)結(jié)果mAP50
RE-FSOD以FSODM算法為基礎(chǔ)進(jìn)行改進(jìn),為驗(yàn)證RE-FSOD改進(jìn)模塊的性能,進(jìn)行如圖11所示的實(shí)驗(yàn),在10-shot場(chǎng)景下,RE-FSOD相較于FSODM算法能夠減少錯(cuò)分漏分的情況,驗(yàn)證了改進(jìn)模塊的優(yōu)越性。
圖11 實(shí)驗(yàn)結(jié)果對(duì)比圖
為了驗(yàn)證特征重加權(quán)模塊的效果,高維向量難以可視化,使用T-SNE模塊對(duì)其進(jìn)行降維,T-SNE算法中,高維向量的分布與降維后向量的分布是比較接近的,但是如果在高維向量中本來(lái)有一段距離,降維后的向量距離就會(huì)被拉大,直觀(guān)地說(shuō),如果原來(lái)在高維空間中距離很近,降維后距離仍然很近,但是如果在高維空間有距離,降維后距離就會(huì)被拉大,這樣的特性有利于對(duì)1 024維、512維、256維的高緯特征重加權(quán)進(jìn)行降維,并進(jìn)行可視化。
從基類(lèi)訓(xùn)練集的支持集中隨機(jī)選取了共140張圖片輸入到特征重加權(quán)模塊生成重加權(quán)向量,每類(lèi)20張,使用T-SNE將高維數(shù)據(jù)降到2維,進(jìn)行可視化。得到結(jié)果如圖12所示。
圖12 不同維度重加權(quán)向量對(duì)比
不同的點(diǎn)代表不同類(lèi)別的特征重加權(quán)向量,可以見(jiàn)到相同類(lèi)別的重加權(quán)向量聚集在一起,這表明重加權(quán)模塊通過(guò)梯度下降后能夠成功地表示來(lái)自原始輸入圖片的類(lèi)別信息。并且使用樣本點(diǎn)到中心點(diǎn)的歐式距離對(duì)聚類(lèi)效果進(jìn)行了評(píng)估,公式如下:
(17)
式中,(xmean,ymean)是類(lèi)中心點(diǎn)的坐標(biāo),(x1,y1)是樣本點(diǎn)的坐標(biāo)。
計(jì)算所有樣本點(diǎn)到其類(lèi)中心點(diǎn)的歐式距離的平均值,得到256維的平均歐式距離為785,512維平均歐式距離為689,1 024維平均歐式距離為627,說(shuō)明1 024維的特征重加權(quán)向量聚類(lèi)結(jié)果比512維以及256維的特征重加權(quán)向量聚類(lèi)結(jié)果更好,說(shuō)明維度更高的特征重加權(quán)向量承載了更多信息,因此具有更高維度的特征重加權(quán)向量能夠更好地表示支持樣本中的類(lèi)別信息。
RE-FSOD以FSODM方法為基礎(chǔ),在元特征提取器中使用CSPDarknet-53作為骨干網(wǎng)絡(luò),并且添加了PAN結(jié)構(gòu)以及SPPF結(jié)構(gòu),能夠提取更加魯棒的元特征,在特征重加權(quán)提取器中引入結(jié)合注意力機(jī)制與殘差結(jié)構(gòu)的C2fSE模塊,能夠提取到更豐富的語(yǔ)義信息,并且使用CIOU作為定位損失函數(shù),提升定位精度并加速算法的收斂。經(jīng)過(guò)實(shí)驗(yàn)證明,特定重加權(quán)向量的維度越高,提取到特定類(lèi)別重加權(quán)向量的語(yǔ)義信息越豐富,RE-FSDO相較于FSODM提出的3個(gè)改進(jìn)方法均能有效地提升算法的檢測(cè)精度,并且相較于其他先進(jìn)小樣本目標(biāo)檢測(cè)方法具有明顯的優(yōu)勢(shì),說(shuō)明該方法能夠更好的處理尺度多變、背景復(fù)雜、目標(biāo)模糊的遙感圖像。目前RE-FOSD在推理速度、計(jì)算量、占用內(nèi)存等方面仍然有待于進(jìn)一步提升,后續(xù)計(jì)劃通過(guò)利用剪枝、量化等方法對(duì)模型進(jìn)行輕量化,在保證模型精度的同時(shí)降低模型的參數(shù)量并且提升模型的推理速度。