• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    小樣本目標(biāo)檢測研究綜述

    2023-01-17 09:31:08劉春磊陳天恩姜舒文
    計算機與生活 2023年1期
    關(guān)鍵詞:基類類別范式

    劉春磊,陳天恩,王 聰,姜舒文,陳 棟+

    1.廣西大學(xué)計算機與電子信息學(xué)院,南寧530004

    2.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心,北京100097

    3.國家農(nóng)業(yè)信息化工程技術(shù)研究中心,北京100097

    目標(biāo)檢測是計算機視覺方向的熱點領(lǐng)域,其任務(wù)是將圖像中任意數(shù)目的感興趣對象用外接矩形框選出來并識別出對象類別。作為計算機視覺的基本任務(wù)之一,目標(biāo)檢測應(yīng)用廣泛,其已經(jīng)在缺陷檢測[1-3]、農(nóng)業(yè)病蟲害識別[4]和自動駕駛[5]等領(lǐng)域發(fā)揮著重要的作用。

    2014 年,Girshick 等[6]提出了用于解決目標(biāo)檢測任務(wù)的R-CNN(region-based convolutional neural networks)算法并取得了極大的性能提升,目標(biāo)檢測研究從此進入深度學(xué)習(xí)時代。Girshick 等[7]又在2016 年提出了經(jīng)典的Faster R-CNN 兩階段算法,首先在圖像上生成大量可能是對象的候選區(qū),然后對這些候選區(qū)進行篩選,對篩選得到的候選區(qū)進行分類和回歸得到想要的結(jié)果。由于兩階段算法會基于生成的大量候選區(qū)做進一步處理,雖然檢測精度較高,但檢測速度相對不是很理想。一階段算法不需要事先通過專門的算法模塊生成大量候選區(qū),而只是在圖像上預(yù)先定義了不同大小和比例的錨框,用這些錨框代替了兩階段算法的候選區(qū),不再需要復(fù)雜的候選區(qū)操作,只需對圖像進行一次卷積處理就可以完成對象的定位和分類,經(jīng)典的一階段網(wǎng)絡(luò)有YOLO(you only look once)系列[8-10]、SSD(single shot multibox detector)[11]、RetinaNet[12]等。近些年,在自然語言處理領(lǐng)域大放異彩的Transformer[13]技術(shù)也被成功應(yīng)用到目標(biāo)檢測中,DETR(detection transformer)[14]是其中的代表之作,其不再需要錨框、候選區(qū)和非極大值抑制等人為設(shè)計的知識,而是將目標(biāo)檢測看作直接的集合預(yù)測問題,真正地實現(xiàn)了端到端檢測。

    上述的目標(biāo)檢測方法都需要使用大量實例級別的標(biāo)注信息來實現(xiàn),這可能會出現(xiàn)以下一些問題:(1)由于現(xiàn)實世界中固有的長尾分布,有些類別本身就很難獲得大量的標(biāo)注信息,比如珍稀動植物、罕見病癥等;(2)圖像的標(biāo)注通常需要消耗大量的人力去完成,而且,標(biāo)注的準(zhǔn)確率也不穩(wěn)定,漏標(biāo)和誤標(biāo)的情況常有發(fā)生,尤其是某些難以標(biāo)注的對象,比如病蟲害、腫瘤等;(3)模型的訓(xùn)練需要消耗大量的資源,如昂貴的GPU 設(shè)備和專業(yè)的領(lǐng)域知識等。當(dāng)只有很少的標(biāo)注信息時,現(xiàn)有主流的目標(biāo)檢測方法很難達到令人滿意的效果。然而,現(xiàn)實生活中,即便一個孩童,也能夠通過僅僅觀察幾張圖像就完成對新類別的學(xué)習(xí)。因此,通過很少的樣本數(shù)量進行目標(biāo)檢測是一個極具現(xiàn)實意義的問題,受到了越來越多的關(guān)注。

    小樣本學(xué)習(xí)只使用很少的訓(xùn)練樣本就能夠得到想要的結(jié)果?,F(xiàn)在,小樣本學(xué)習(xí)在圖像分類、語義分割和目標(biāo)檢測這三大計算機視覺任務(wù)上都有應(yīng)用,但迄今為止研究的重點主要集中在圖像分類。相比分類,小樣本目標(biāo)檢測問題更加復(fù)雜,其不僅僅需要分類目標(biāo)的類別,還需要定位出目標(biāo)的具體位置。小樣本目標(biāo)檢測問題的提出是為了解決實際生產(chǎn)生活中樣本數(shù)據(jù)標(biāo)注量少的問題,是非常有現(xiàn)實意義的研究方向。目前,已有一些關(guān)于小樣本目標(biāo)檢測的綜述,潘興甲等[15]將小樣本目標(biāo)檢測方法分為基于微調(diào)、基于模型結(jié)構(gòu)和基于度量學(xué)習(xí)三種,并對這些分類方法進行了分析。劉浩宇等[16]將其分成基于數(shù)據(jù)、模型和算法三個類別,并對每個類別進行了歸納總結(jié),探討了小樣本目標(biāo)檢測的現(xiàn)狀和未來趨勢。張振偉等[17]也從六方面對小樣本目標(biāo)檢測方法進行了分析,比較了不同方法的優(yōu)缺點。與這些綜述[15-17]不同,本文首先將這些方法歸納為兩種范式,再按照改進策略的不同,從基于注意力機制、圖卷積神經(jīng)網(wǎng)絡(luò)、度量學(xué)習(xí)和數(shù)據(jù)增強的角度進行歸納總結(jié),對比分析了不同分類的優(yōu)缺點和適用場景。同時,收錄了近兩年提出的許多新的小樣本目標(biāo)檢測方法,對比分析了這些方法的性能表現(xiàn)。

    1 小樣本目標(biāo)檢測概述

    1.1 小樣本目標(biāo)檢測定義和訓(xùn)練過程

    小樣本目標(biāo)檢測(few-shot object detection,F(xiàn)SOD)相對于通用目標(biāo)檢測最大的不同,是其數(shù)據(jù)輸入的不同,F(xiàn)SOD 將數(shù)據(jù)集分為基類數(shù)據(jù)集Db和新類數(shù)據(jù)集Dn。基類數(shù)據(jù)集Db由擁有大量標(biāo)注圖像的基類Cb組成,新類數(shù)據(jù)集Dn由只有少量標(biāo)注圖像的新類Cn組成,其中,基類類別和新類類別不存在交集,即Cb?Cn=?。小樣本目標(biāo)檢測方法的目標(biāo)是通過在基類和新類數(shù)據(jù)集上訓(xùn)練得到一個模型,期待該模型可以檢測出任意給定測試圖像中的新類和基類對象,小樣本目標(biāo)檢測定義如圖1 所示。

    小樣本目標(biāo)檢測算法的訓(xùn)練過程一般分為兩個階段:第一階段使用大量的基類數(shù)據(jù)Dbase進行模型的訓(xùn)練,從初始化模型Minit得到基模型Mbase,稱之為基訓(xùn)練階段;第二階段使用由少量的基類數(shù)據(jù)Dbase和新類數(shù)據(jù)Dnovel組成的平衡數(shù)據(jù)集Dfinetune對基模型Mbase進行模型微調(diào),得到最終模型Mf,稱之為微調(diào)階段。整個訓(xùn)練過程如圖2 所示。

    圖2 模型訓(xùn)練過程Fig.2 Model training process

    1.2 小樣本目標(biāo)檢測的相關(guān)領(lǐng)域研究

    在通用目標(biāo)檢測的基礎(chǔ)上,有一些其他新穎的研究方向,這些研究方向與小樣本目標(biāo)檢測有相似之處,容易造成混淆,本節(jié)對這些研究方向進行簡易的區(qū)分解釋。

    零樣本目標(biāo)檢測[18]在算法模型的訓(xùn)練階段只使用可見類別,不可見類別的視覺信息不會被使用到,而用其語義等輔助信息參與訓(xùn)練,這些輔助信息正是零樣本目標(biāo)檢測的研究重點。小樣本目標(biāo)檢測可以使用少量的新類圖像作為視覺方面的信息,同時借鑒零樣本中不可見類別中輔助信息的使用;單例目標(biāo)檢測[19]是小樣本目標(biāo)檢測的一個特例,其中每個新類只有一個標(biāo)注對象信息;任意樣本目標(biāo)檢測[20]將零樣本或者小樣本的情況同時考慮,即一個算法模型既可以解決零樣本問題又可以處理小樣本問題。

    還有一些其他的研究在小樣本目標(biāo)檢測的基礎(chǔ)上,新增加一些新的領(lǐng)域限定條件。為了避免災(zāi)難性遺忘,同時可以持續(xù)檢測不斷增加的新類別,提出了類增量小樣本目標(biāo)檢測[21];半監(jiān)督小樣本目標(biāo)檢測[22]在不增加新類標(biāo)注的情況下,將基類數(shù)據(jù)的來源修改為有標(biāo)注的圖像和沒有標(biāo)注的圖像;弱監(jiān)督小樣本目標(biāo)檢測[23]相對于小樣本目標(biāo)檢測的區(qū)別在于其數(shù)據(jù)集中新類標(biāo)注不是實例級的,而是由圖像級標(biāo)注構(gòu)成的。

    圖3 從數(shù)據(jù)流向的角度展示了小樣本目標(biāo)檢測及其相似任務(wù)之間的區(qū)別與聯(lián)系。這些研究領(lǐng)域的數(shù)據(jù)集構(gòu)成都由基類和新類組成,為了避免混淆,更加明確本綜述的研究范圍,本文對這些相似概念做了簡單的區(qū)分說明。同時,可以從這些領(lǐng)域?qū)ふ覇栴}解決的靈感,將其應(yīng)用到小樣本目標(biāo)檢測方法。

    圖3 小樣本目標(biāo)檢測及其相似任務(wù)的區(qū)別與聯(lián)系Fig.3 Differences and connections between few-shot object detection and its similar tasks

    2 小樣本目標(biāo)檢測的兩類經(jīng)典范式

    目前的小樣本目標(biāo)檢測方法可以概括為兩種范式,基于遷移學(xué)習(xí)的范式和基于元學(xué)習(xí)的范式?;谶w移學(xué)習(xí)的范式是將從已知類中學(xué)習(xí)到的知識遷移到未知類的檢測任務(wù)中?;谠獙W(xué)習(xí)的范式是利用元學(xué)習(xí)器從不同的任務(wù)中學(xué)習(xí)元知識,然后對包含有新類的任務(wù)通過元知識的調(diào)整完成對新類的檢測。本章將對這兩種范式的典型方法進行簡述。

    2.1 基于遷移學(xué)習(xí)的范式

    兩階段微調(diào)方法(two-stage fine-tuning approach,TFA)[24]是遷移學(xué)習(xí)范式的基線方法,基于Faster RCNN 算法進行改進。TFA 認(rèn)為Faster R-CNN 主干網(wǎng)絡(luò)是類無關(guān)的,特征信息可以很自然地從基類遷移到新類上,僅僅只需要微調(diào)檢測器的最后一層(包含類別分類和邊界框回歸),就可以達到遠(yuǎn)遠(yuǎn)超過之前方法的性能表現(xiàn)。整個方法分為基訓(xùn)練和微調(diào)兩個階段,如圖4 所示。在基訓(xùn)練階段,整個模型在有著大量標(biāo)注的基類上訓(xùn)練;在微調(diào)階段,凍結(jié)網(wǎng)絡(luò)前期的參數(shù)權(quán)重,由基類和新類組成的平衡子集對頂層的分類器和回歸器進行微調(diào)。另外,TFA 在微調(diào)階段的分類器上采用余弦相似性測量候選框和真實類別邊界框之間的相似性。

    圖4 遷移學(xué)習(xí)基線方法TFA 算法架構(gòu)圖Fig.4 Model architecture diagram of transfer learning baseline method TFA

    由于小樣本中每個新類別的樣本量非常少,其高方差可能會導(dǎo)致檢測結(jié)果的不可靠,TFA 通過抽樣多組訓(xùn)練樣本進行評估,并且在不同組進行多次實驗得到平均值。由于統(tǒng)計上的偏差,之前的評估標(biāo)準(zhǔn)無法完成不同算法的統(tǒng)一比較,TFA 修改了原先的數(shù)據(jù)基準(zhǔn),在VOC[25]、COCO[26]和LVIS[27]三個數(shù)據(jù)集上建立了新的基準(zhǔn),檢測基類、新類和全部數(shù)據(jù)集上的性能表現(xiàn),提出了廣義小樣本目標(biāo)檢測基準(zhǔn)。

    2.2 基于元學(xué)習(xí)的范式

    圖5 元學(xué)習(xí)基線方法FSRW 算法架構(gòu)圖Fig.5 Model architecture diagram of meta-learning baseline method FSRW

    FSRW[28]整個網(wǎng)絡(luò)模型是基于一階段網(wǎng)絡(luò)YOLOv2[9]進行改進的,在一階段網(wǎng)絡(luò)中新增了元特征學(xué)習(xí)器和元學(xué)習(xí)器模塊,元特征學(xué)習(xí)器以查詢圖像為輸入,使用YOLOv2 的骨干實現(xiàn),從有充足樣本的基類圖像中提取具有泛化性的元特征,用于之后檢測新類。元學(xué)習(xí)器模塊以支持集為輸入,將新類的某一類別實例轉(zhuǎn)換為一個全局向量,該向量用來檢測特定類別的對象實例。網(wǎng)絡(luò)的訓(xùn)練過程同樣分兩階段完成,首先使用基類數(shù)據(jù)訓(xùn)練連同元學(xué)習(xí)器模塊在內(nèi)的整個網(wǎng)絡(luò)模型,然后由少量標(biāo)注的新類和基類組成的平衡數(shù)據(jù)集微調(diào)模型以適應(yīng)新類。

    2.3 兩種范式的對比分析

    (1)遷移學(xué)習(xí)和元學(xué)習(xí)的相同點:

    ①兩種范式都是為了解決小樣本目標(biāo)檢測任務(wù)而提出的,都希望通過少量的新類圖像就可以完成對新類別的檢測。

    ②兩種范式的數(shù)據(jù)集都分為有大量標(biāo)注的基類數(shù)據(jù)和只有少量標(biāo)注的新類數(shù)據(jù)。

    ③兩種范式的訓(xùn)練過程都分為兩階段進行,分別是基訓(xùn)練階段和微調(diào)階段,算法模型在基訓(xùn)練階段學(xué)習(xí)到基類數(shù)據(jù)具有泛化性的知識,然后在新類數(shù)據(jù)上對模型進行微調(diào),達到檢測新類的目的。

    ④兩種范式的評價指標(biāo)相同,不論是VOC 數(shù)據(jù)集、COCO 數(shù)據(jù)集,還是FSOD 數(shù)據(jù)集[29],兩種范式的評價指標(biāo)都是相同的。

    (2)遷移學(xué)習(xí)和元學(xué)習(xí)的不同點:

    ①數(shù)據(jù)的輸入方式不同,元學(xué)習(xí)范式是以任務(wù)(episode)為輸入單元,每個任務(wù)由支持集圖像和查詢集圖像組成,目的是找到查詢集圖像中屬于支持集類別的目標(biāo)對象,而遷移學(xué)習(xí)范式通常不需要分為支持集和查詢集兩部分。

    ②元學(xué)習(xí)范式隨著支持集中類別數(shù)量的增加,內(nèi)存利用率會降低,而遷移學(xué)習(xí)范式不會隨著類別數(shù)量的增加而使內(nèi)存利用率降低。

    ③元學(xué)習(xí)范式除了通用目標(biāo)檢測模型外,還有一個需要獲得類別級元知識的元學(xué)習(xí)器,而遷移學(xué)習(xí)范式只需要在通用目標(biāo)檢測模型上改進即可。

    3 小樣本目標(biāo)檢測算法研究現(xiàn)狀

    上一章中,將小樣本目標(biāo)檢測分為基于元學(xué)習(xí)和基于遷移學(xué)習(xí)兩種范式,在這兩種范式中,存在著一些共性的解決方法,依據(jù)這些方法改進策略的不同,將小樣本目標(biāo)檢測分類為基于注意力機制、基于圖卷積神經(jīng)網(wǎng)絡(luò)、基于度量學(xué)習(xí)和基于數(shù)據(jù)增強四種實現(xiàn)方式,分類概況如圖6 所示。在本章中,將對這些分類方法進行詳細(xì)分析和總結(jié)。

    圖6 分類圖Fig.6 Classification graph

    3.1 基于注意力機制

    對于小樣本目標(biāo)檢測來說,難以從少量的新類樣本中準(zhǔn)確學(xué)習(xí)到感興趣對象的特征信息,而通過注意力機制可以較為準(zhǔn)確地找到圖像中的感興趣區(qū)域,目前已有一些關(guān)于注意力機制的研究[30],注意力機制可以看作一個動態(tài)選擇的過程,通過輸入的重要性對特征進行自適應(yīng)特征加權(quán)。本節(jié)將其分為通道注意力、空間注意力和Transformer自注意力方法。

    3.1.1 通道注意力

    2018 年Hu 等[31]首次提出了使用SENet 的通道注意力,如圖7 所示,不同特征圖的不同通道可能代表著不同的對象,當(dāng)需要選擇什么對象時,通道注意力使用自適應(yīng)的方法重新校準(zhǔn)每個通道的權(quán)重來關(guān)注該對象。

    圖7 SE 模塊Fig.7 SE block

    在遷移學(xué)習(xí)范式上,Zhang 等[32]使用二階池化和冪正則化計算支持特征和查詢特征之間的互相關(guān)性,二階池化提取支持特征數(shù)據(jù)的二階統(tǒng)計,形成注意力調(diào)制圖,通過添加冪正則化可以減少二階池化帶來的可變性。Wu 等[33]提出了FSOD-UP(universalprototype augmentation for few-shot object detection)方法,使用了通用原型的知識,在條件性通用原型和候選框上施加通道注意力機制,提高了候選框的生成質(zhì)量,以此提高方法對新類的檢測性能。

    在元學(xué)習(xí)范式上,Yan 等[34]針對一張圖像有多個目標(biāo)的問題提出了Meta R-CNN 方法,該方法不是對整張圖像而是在感興趣區(qū)域上使用元學(xué)習(xí)范式。Meta R-CNN 新增加了預(yù)測頭重塑網(wǎng)絡(luò)分支,該分支用有標(biāo)注的支持圖像獲取每個類別的注意向量,對模型生成的感興趣區(qū)域特征應(yīng)用該向量進行通道注意力關(guān)注,以檢測出查詢圖像中與這些向量表示的類別相同的對象。Wu 等[35]在Meta-RCNN 中將由支持集得到的類原型與查詢集的特征圖通過類別注意力結(jié)合起來,獲得每個特定類的特征圖,然后將這些特征圖結(jié)合起來使用隨后的區(qū)域候選網(wǎng)絡(luò)和檢測頭對查詢集進行分類和定位。Fan 等[29]在提出的Attention-RPN 方法前期階段使用深度互相關(guān)注意力區(qū)域候選網(wǎng)絡(luò),通過通道注意力機制利用支持集和查詢集之間的關(guān)系提高候選框的生成質(zhì)量。Liu 等[36]認(rèn)為檢測中分類和定位子任務(wù)對特征嵌入的喜好不同,提出了AFD-Net(adaptive fully-dual network)方法,分開處理分類和定位問題,對支持集分支使用注意力機制產(chǎn)生分類和回歸兩個通道注意力分支,之后將這兩個分支與查詢集的感興趣區(qū)域的分類和定位特征進行聚合處理,最終得到增強的特征表示。

    3.1.2 空間注意力

    當(dāng)人們看到一張圖像時,他們總是會將視線聚焦于圖像中的某一區(qū)域,空間注意力受此啟發(fā),對特征圖上的每個位置進行注意力調(diào)整,可以自適應(yīng)地關(guān)注圖像中的某重點區(qū)域,這些重點區(qū)域往往是人們所感興趣的對象。

    Chen 等[37]基于遷移學(xué)習(xí)范式提出了AttFDNet 方法,將自底向上的空間注意力和自頂向下的通道注意力結(jié)合起來,自底向上注意力由顯著性注意(saliency attentive model,SAM)模塊實現(xiàn),由于其類別無關(guān)性,能夠自然檢測圖像中的顯著區(qū)域。Yang等[38]為解決訓(xùn)練集數(shù)據(jù)多樣性少的問題,提出了CTNet方法,使用親和矩陣在不同尺度、位置和空間關(guān)系三方面識別每個候選框上下文字段的重要性,再用上下文聚合將這些關(guān)系與候選框聚合起來,利于新類別分類的同時,避免了大量的誤分類。Li 等[39]提出了LSCN(low-shot classification correction network)方法,用從基類檢測器中得到的誤檢候選框作為方法校正網(wǎng)絡(luò)分支的輸入,使用空間注意力機制通過跨通道的任意兩個位置間的成對關(guān)系獲得全局感受野,通過捕捉整張圖像的信息,解決候選框復(fù)雜的對象外觀問題。Xu 等[40]在FSSP(few-shot object detection via sample processing)方法中使用了自我注意力模塊(self-attention module,SAM),該空間注意力模塊可以突出顯示目標(biāo)對象的物理特征而忽略其他的噪聲信息,更好地提取復(fù)雜樣本的特征信息。Agarwal 等[41]提出了AGCM(attention guided cosine margin)方法解決小樣本下的災(zāi)難性遺忘和類別混淆問題,構(gòu)建了注意力候選框融合模塊,通過空間注意力關(guān)注不同候選框之間的相似性,用于減少類內(nèi)的方差,從而在檢測器的分類頭中創(chuàng)建類內(nèi)更加緊密、類間良好分離的特征簇。

    基于元學(xué)習(xí)范式,Chen 等[42]為解決小樣本任務(wù)中的空間錯位和特征表示模糊問題,提出了包含跨圖像空間注意的DAnA(dual-awareness attention)方法,通過跨圖像空間注意自適應(yīng)地將支持圖像轉(zhuǎn)化為查詢位置感知向量,通過測量該感知向量和查詢區(qū)域的相關(guān)性,確定查詢區(qū)域是否為想要的目標(biāo)對象。Meta Faster R-CNN[43]將檢測頭分為基類檢測和新類檢測兩種,基類檢測沿用原有的Faster R-CNN部分,新類檢測頭提出了Meta-Classifier模塊,使用注意力機制進行特征對齊,解決空間錯位問題,在查詢圖像的候選框特征和支持集類原型的每個空間位置通過親和矩陣計算對應(yīng)關(guān)系,基于對應(yīng)關(guān)系,獲得想要的前景對象。Quan 等[44]認(rèn)為在支持集中使用互相關(guān)技術(shù)會給查詢特征引入噪聲,提出了CAReD(cross attention redistribution)方法,專注挖掘有助于候選框生成的支持特征,去除有害的支持噪聲。不再對支持集特征作平均處理,而是通過空間注意力計算同一類別不同實例之間的相關(guān)性,對每個支持特征重加權(quán),從而得到最終的支持特征。彭豪等[45]在由多尺度空間金字塔池算法生成的不同層次上產(chǎn)生注意力圖,強化了特定尺度物體的線索,可以提高小目標(biāo)的檢測能力。Zhang 等[46]提出了KFSOD(kernelized few-shot object detector)方法,針對PNSD(power normalizing second-order detector)中核化仍然是線性相關(guān)的問題,使用核化自相關(guān)單元從支持圖像中提取特征形成線性、多項式和RBF(radial basis function)核化表示。然后將這些特征表示與查詢圖像的特征進行交叉相關(guān)以獲得注意力權(quán)重,并通過注意力區(qū)域提議網(wǎng)絡(luò)生成查詢提議區(qū)域。

    3.1.3 Transformer自注意力機制

    Transformer 注意力機制在自然語言處理已經(jīng)取得了巨大成功[47]。DETR 成功地將其應(yīng)用到目標(biāo)檢測領(lǐng)域,將檢測問題看作集合預(yù)測問題。其中的核心內(nèi)容是多頭注意力機制,其將模型分為多個頭,形成多個特征子空間,可以讓模型關(guān)注圖像不同方面的信息,通過圖像的內(nèi)在關(guān)系來獲取圖像中重要的信息,如圖8 所示。

    圖8 多頭注意力模塊Fig.8 Multi-head attention block

    Transformer自注意力機制全部遵從元學(xué)習(xí)的范式,Zhang 等[48]借鑒DETR 的思想,提出了Meta-DETR 方法,去除了在小樣本中表現(xiàn)不佳的候選框預(yù)測,改為直接的端到端檢測。Meta-DETR 由查詢編碼分支、支持編碼分支和解碼分支三部分組成。查詢編碼分支以查詢圖像為輸入,通過特征提取器和Transformer編碼器生成其查詢特征,支持編碼分支從支持圖像中提取支持類原型,解碼分支將帶有支持類原型的查詢特征聚合為特定類的特征,然后應(yīng)用與類別無關(guān)的Transformer 解碼器預(yù)測該支持類的檢測結(jié)果。Hu 等[49]提出了DCNet 方法,提出稠密關(guān)系蒸餾解決外觀改變和遮擋問題,稠密關(guān)系蒸餾模塊通過編碼器將支持集和查詢集提取出的特征信息編碼成原生Transformer 中的Key-Value 特征圖對,使用改進的Transformer 注意力機制關(guān)注查詢集和支持集之間的像素級關(guān)系,用以增強查詢集的特征表示。APSPNet(attending to per-sample-prototype networks)[50]在經(jīng)典的元學(xué)習(xí)方法Attention-RPN 和FsDetView(few-shot object detection and viewpoint estimation)基礎(chǔ)上,新增了兩個使用Transformer技術(shù)的注意力模塊,一個是支持集數(shù)據(jù)內(nèi)部注意(intra-support attention module,ISAM),另一個是查詢-支持集間注意(query-support attention module,QSAM),ISAM 在同一個類的支持集內(nèi)使用注意力機制,去除可能是噪聲的信息,QSAM 通過支持集的每個樣本原型聚合查詢特征和支持特征,達到了遠(yuǎn)超基線方法的性能。Han 等[51]認(rèn)為之前在查詢和支持分支上進行特征對齊的方法過于簡單,提出了FCT(fully cross-transformer)方法,在特征提取器部分使用了多層Cross-Transformer 進行兩分支的特征對齊,并提出了非對稱分批交叉注意用來聚合兩分支的關(guān)鍵信息,用聚合到的關(guān)鍵信息對兩分支特征進行增強。在檢測頭上,提出基于Cross-Transformer 的感興趣區(qū)特征提取器,兩分支聯(lián)合提取查詢建議框和支持圖像感興趣區(qū),進行多級交互處理。

    綜上所述,基于注意力機制的方法在小樣本目標(biāo)檢測中應(yīng)用廣泛,注意力機制可以找到圖像中的感興趣區(qū)域,抑制其他的無用噪聲信息。最近隨著Transformer 自注意力的提出,其在小樣本目標(biāo)檢測中取得了遠(yuǎn)超其他注意力的性能表現(xiàn),目前已有關(guān)于這方面的研究[52],基于Transformer 自注意力機制的小樣本目標(biāo)檢測有著極大的前景,將會得到進一步的發(fā)展。但是,Transformer 的模型訓(xùn)練需要花費較長的時間,且模型參數(shù)過大,不利于工程部署,未來的研究方向可以向著輕量化發(fā)展。

    3.2 基于圖卷積神經(jīng)網(wǎng)絡(luò)

    小樣本條件下的新類樣本數(shù)量少,可以通過深入挖掘不同類別之間的內(nèi)在關(guān)系來實現(xiàn)對新類的檢測,卷積神經(jīng)網(wǎng)絡(luò)存在平移不變性,即一張圖像可以共享卷積算子的參數(shù),圖結(jié)構(gòu)則沒有這種平移不變性,每一個圖節(jié)點的周圍結(jié)構(gòu)都可能是不同的,因此,圖可以處理實體之間的復(fù)雜關(guān)系。圖由節(jié)點和邊組成,每個節(jié)點都有自己的特征,節(jié)點與節(jié)點之間通過邊進行關(guān)聯(lián),圖卷積就是利用節(jié)點間的邊關(guān)系對節(jié)點信息進行推理更新,從而增強節(jié)點的特征表示。

    Kim 等[53]認(rèn)為圖像中各種物體的存在有所關(guān)聯(lián),比如一張圖像中某個對象周圍有鍵盤和顯示器,那它更可能是鼠標(biāo)而不是球,基于此提出了基于遷移學(xué)習(xí)范式的FSOD-SR(spatial reasoning for few-shot object detection)方法,通過圖卷積技術(shù)考慮圖像中對象間的全局上下文關(guān)系,而不僅是通過單個感興趣區(qū)域特征預(yù)測新類,將感興趣區(qū)域特征作為圖節(jié)點,邊的構(gòu)成由感興趣區(qū)域特征表示的視覺信息和幾何坐標(biāo)信息兩者結(jié)合得到,如圖9 所示。Zhu 等[54]提出SRR-FSD(semantic relation reasoning for few-shot object detection)方法,利用基類與新類之間存在的恒定語義關(guān)系,由所有的詞嵌入特征組成嵌入語義空間,應(yīng)用圖卷積進行顯式關(guān)系推理,將從大量文本中學(xué)習(xí)到的語義信息嵌入到每個類概念中,并與分類的視覺特征進行結(jié)合。

    圖9 FSOD-SR 架構(gòu)圖Fig.9 FSOD-SR architecture diagram

    在元學(xué)習(xí)范式上,Kim等[55]提出了FSOD-KT(fewshot object detection via knowledge transfer)方法,其支持集分支使用圖卷積技術(shù)對查詢圖像感興趣區(qū)的特征向量進行特征增強。圖的頂點為每個類的原型,圖的邊關(guān)系使用類別之間的文本相似性度量(由GloVe[56]計算),通過圖卷積神經(jīng)網(wǎng)絡(luò)使這些類原型間產(chǎn)生關(guān)聯(lián),然后通過增強后的原型對查詢圖像的感興趣區(qū)域特征進行度量,檢測出與該原型一致的類別。Liu等[57]提出了基于Meta R-CNN的DRL-for-FSOD(dynamic relevance learning for few-shot object detection)方法,考慮到不同類之間存在著聯(lián)系,將支持集圖像和查詢集的感興趣區(qū)域特征放入同一個特征空間,使用皮爾遜相關(guān)系數(shù)去度量支持集類別和查詢集感興趣區(qū)域間的相似性作為圖的關(guān)系,構(gòu)造了一個動態(tài)圖卷積網(wǎng)絡(luò),對其進行推理,使得相同類彼此靠近,不同類之間遠(yuǎn)離,減少了誤分類的情況。Han等[58]基于異構(gòu)圖卷積網(wǎng)絡(luò)提出了QA-FewDet(query adaptive few-shot object detection)方法,存在類間和類內(nèi)兩種子圖,前者推理新類和基類的類間的關(guān)系,后者推理不同新類的候選框之間的關(guān)系以及新類節(jié)點與候選框之間的關(guān)系。使用類間子圖增強新類原型表示,類內(nèi)子圖提供查詢自適應(yīng)類原型和上下文感知原型特征。

    綜上所述,基于圖卷積神經(jīng)網(wǎng)絡(luò)的小樣本目標(biāo)檢測方法大多選擇將候選框作為圖的節(jié)點,通過圖卷積來自動推理不同候選框之間的關(guān)系,以此學(xué)習(xí)到新類同基類間的內(nèi)在聯(lián)系,達到對新類對象的檢測。但是當(dāng)圖節(jié)點過多時,節(jié)點之間的邊關(guān)系也會變得異常復(fù)雜,可能會面臨模型過擬合的問題。同時,新類的樣本量較少也可能導(dǎo)致模型在新類檢測上產(chǎn)生過擬合現(xiàn)象。

    3.3 基于度量學(xué)習(xí)

    通過度量基類和小樣本的新類之間的相似性,使得不同類別彼此遠(yuǎn)離,相同類別之間靠近,可以很好地區(qū)分出新類數(shù)據(jù)。度量學(xué)習(xí)又可分為改進度量損失函數(shù)、原型學(xué)習(xí)和對比學(xué)習(xí)。度量損失函數(shù)在不同類別之間設(shè)計距離公式;原型學(xué)習(xí)為每個類別生成線性分類器,衡量類別與原型之間的距離;對比學(xué)習(xí)是將目標(biāo)圖像與某幾個圖像對比進行檢測。

    3.3.1 改進度量損失函數(shù)

    在遷移學(xué)習(xí)范式上,Cao 等[59]提出了FADI(fewshot object detection via association and discrimination)方法,將遷移學(xué)習(xí)的微調(diào)階段分為關(guān)聯(lián)、鑒別兩步,關(guān)聯(lián)加強類內(nèi)相關(guān)性,鑒別擴大類間差異。在關(guān)聯(lián)中,使用偽標(biāo)簽顯式地將新類轉(zhuǎn)變?yōu)樽钕嗨频幕愄卣鞅硎荆骂惖奶卣鲿鄬奂?,但可能會與基類特征空間混淆,為了擴大不同類間的距離,在分類分支引入了專門的邊際損失,擴大了所有類別的差異性。Wu 等[60]提出了SVD(singular value decomposition)的方法,新引入了對象注意損失和背景注意損失兩個損失函數(shù),用于更好地分類正負(fù)錨框,將屬于同一類的正錨框聚集起來,將背景和負(fù)錨框兩者盡可能地區(qū)分開。

    在元學(xué)習(xí)范式上,Karlinsky 等[61]在RepMet(representative-based metric learning)方法中提出一個距離度量學(xué)習(xí)(distance metric learning,DML)模塊,代替了Faster R-CNN 中的檢測頭,假定特征嵌入空間中每個類有K個模型,DML 計算感興趣區(qū)域在每個類別中每個模型的概率,新增加了嵌入損失函數(shù),減小嵌入向量E和最接近表征的距離,擴大嵌入向量E和一個錯誤類的最接近表征的距離。Li 等[62]為了減輕新類的特征表示和分類之間存在的矛盾,提出了CME(class margin equilibrium)方法。為了準(zhǔn)確實現(xiàn)新類的類別分類,任意兩個基類應(yīng)該彼此遠(yuǎn)離,為了準(zhǔn)確表示新類特征,基類的分布應(yīng)該彼此接近。CME 首先通過解耦定位分支將檢測轉(zhuǎn)換為分類問題,在特征學(xué)習(xí)過程中,通過類邊際損失為新類保留充足的邊界距離,在追求類邊界平衡中保證新類的檢測性能。Zhang 等[63]提出了PNPDet(plug-and-play detector)方法,將基類和新類檢測分開,防止在學(xué)習(xí)新概念的時候影響基類的檢測性能,以CenterNet[64]為基礎(chǔ)架構(gòu),新增了一個用于新類別檢測的熱圖預(yù)測并行分支,將最后一層熱圖子網(wǎng)絡(luò)替換為余弦相似對比頭和自適應(yīng)余弦相似對比頭,將距離度量學(xué)習(xí)的損失函數(shù)引入類別預(yù)測中,極大提升了新類的檢測性能。彭豪等[45]在隱藏層的特征空間上應(yīng)用正交損失函數(shù),使得模型在分類過程中保持不同類別彼此分離,相同類別彼此聚合。

    3.3.2 對比學(xué)習(xí)

    對比學(xué)習(xí)是將目標(biāo)圖像與某幾個圖像進行對比檢測,在最小化類內(nèi)距離的同時最大化類間距離,提高相同或相似類之間的緊湊性和加大不同類之間的差異性,可以有效提高邊界框的分類精度。

    在遷移學(xué)習(xí)范式上,Sun 等[65]在原有分類和定位分支外,新增加一個對比分支,通過對比候選框編碼損失函數(shù),利用余弦相似性函數(shù)度量感興趣區(qū)域特征和特定類權(quán)重的語義相似性。

    在元學(xué)習(xí)范式上,F(xiàn)an 等[29]在Attention-RPN 方法中采用了三元組對比訓(xùn)練策略,即一張支持集圖像與查詢集相同類別的一個正例和不同類別的一個負(fù)例組成一個三元組。Quan 等[44]在分類對比學(xué)習(xí)InfoNCE[66]的啟發(fā)下,將無監(jiān)督的對比學(xué)習(xí)轉(zhuǎn)換為有監(jiān)督的對比學(xué)習(xí),對支持和查詢兩分支的最終特征施加對比學(xué)習(xí)策略。

    3.3.3 原型學(xué)習(xí)

    基于遷移學(xué)習(xí)范式,Qiao 等[67]提出了一個解耦的Faster R-CNN 方法DeFRCN(decoupled faster R-CNN),通過在分類分支中使用原型校準(zhǔn)模塊解決多任務(wù)的耦合。使用一個離線的原型與感興趣區(qū)特征計算相似度,然后用得到的相似度微調(diào)模型進行類別預(yù)測,可以分類出與原型相似的感興趣區(qū)域特征。Wu 等[33]提出了通用原型的方法FSOD-UP,通用原型是在所有的對象類別中學(xué)習(xí)的,而不是某一個特定類。不同類別間存在著內(nèi)在不變的特征,可以利用這點來增強新類對象特征。

    基于元學(xué)習(xí)范式,Li等[68]提出了基于元學(xué)習(xí)和度量學(xué)習(xí)的MM-FSOD(meta and metric integrated fewshot object detection)方法,將元學(xué)習(xí)訓(xùn)練方法從分類轉(zhuǎn)移到特征重構(gòu)。新的元表示方法對類內(nèi)平均原型進行分類,區(qū)分不同類別的聚類中心,然后重建低級特征。Han 等[43]針對候選框生成提出了Meta Faster R-CNN 方法,采用基于輕量化度量學(xué)習(xí)的原型匹配網(wǎng)絡(luò)。Meta Faster R-CNN 中Meta-RPN 是一個錨框級輕量化粗粒度原型匹配網(wǎng)絡(luò),Meta-Classifier 是一個像素級細(xì)粒度原型匹配網(wǎng)絡(luò),整個檢測網(wǎng)絡(luò)是從粗粒度到細(xì)粒度優(yōu)化的過程,用來產(chǎn)生特定新類的候選框??紤]到FSRW[28]方法只是簡單地平均支持樣本信息生成每個類別的原型,這樣的做法泛化性較差,APSPNet[50]將每個支持樣本看作一個原型,稱之為逐樣本原型,這樣可以更好地將不同的支持信息與查詢圖像結(jié)合。

    綜上所述,度量學(xué)習(xí)主要通過令相同類別之間彼此靠近、不同類別之間彼此遠(yuǎn)離來完成。其思路簡單好用,被大量應(yīng)用到小樣本目標(biāo)檢測中,但度量學(xué)習(xí)過于依賴于采樣的策略,如果采集的樣本過于復(fù)雜,可能會發(fā)生不收斂、過擬合的問題;如果采集的樣本過于簡單,又可能不會學(xué)習(xí)對類別檢測有用的信息。

    3.4 基于數(shù)據(jù)增強

    小樣本的核心問題是其數(shù)據(jù)量少,最簡單直接的想法就是擴充數(shù)據(jù)樣本。郭永坤等[69]就圖像在空頻域上的圖像增強方法作了研究綜述,數(shù)據(jù)增強技術(shù)可以通過直接增加訓(xùn)練的圖像數(shù)量或者間接對特征進行增強,使得網(wǎng)絡(luò)的輸入信息增加,從而最大程度地增加模型能夠處理的圖像信息,減少模型的過擬合。

    3.4.1 多特征融合

    在遷移學(xué)習(xí)范式上,Zhang 等[32]提出了PNSD 方法,使用多特征融合得到細(xì)節(jié)更豐富的特征圖,多特征融合采用雙線性插值上采樣和1×1 卷積下采樣將所有特征映射到相同的尺度,將尺度信息顯式混合到特征圖中。另外,通過注意力候選區(qū)網(wǎng)絡(luò)生成候選框,經(jīng)過相似網(wǎng)絡(luò)的全局、局部和塊狀關(guān)系頭三種關(guān)系進行分類和定位。Vu 等[70]對通過主干網(wǎng)絡(luò)得到的特征圖使用了多感受野的嬰兒學(xué)習(xí),使用多感受野可以得到該對象的更多空間信息,通過微調(diào)多感受野模塊有效地將先驗空間知識轉(zhuǎn)移到新域。

    基于元學(xué)習(xí)范式,Xiao 等[71]提出FsDetView 方法,將查詢圖像的候選框和支持集特征進行三種方式特征融合,三種融合方式分別是通道連接、簡單相減和查詢特征自身,這樣可以更好地利用特征之間的內(nèi)在關(guān)系。Fan 等[29]在提出的Attention-RPN 方法中使用了多關(guān)系檢測器,通過支持集的候選框和查詢集感興趣區(qū)域特征進行全局、局部和塊狀的關(guān)系結(jié)合,避免了背景中的錯檢。Hu 等[49]認(rèn)為當(dāng)對象發(fā)生遮擋時,局部的細(xì)節(jié)信息往往起絕對性作用,提出了DCNet 方法,在感興趣區(qū)域上使用三種不同的池化層捕捉上下文信息要遠(yuǎn)好于單一池化的效果。彭豪等[45]對感興趣區(qū)域分別施加最大池化和平均池化技術(shù),進行多種特征融合,可以提升模型對新類參數(shù)的敏感度。

    3.4.2 增加樣本數(shù)量的方法

    在遷移學(xué)習(xí)范式上,Wu 等[72]為解決小樣本中的尺度問題,提出了MPSR(multi-scale positive sample refinement)方法,將對象金字塔作為一個輔助分支加入到主體的Faster R-CNN 和特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN),手動地將處理過的不同尺度對象方形框與FPN 的不同級別進行對應(yīng),使模型捕捉到不同尺度的對象。為解決訓(xùn)練數(shù)據(jù)變化的缺乏,Zhang 等[73]在感興趣區(qū)域特征空間上通過幻覺網(wǎng)絡(luò)(hallucination)產(chǎn)生額外的訓(xùn)練樣本,將從基類中學(xué)習(xí)到的類內(nèi)樣本變化轉(zhuǎn)移到新類上。Kim 等[53]為了不破壞圖像中的空間關(guān)系,選擇在圖像中隨機調(diào)整每個對象的尺寸若干次,這樣既增加了感興趣區(qū)域的數(shù)量,又適應(yīng)了不同大小的對象尺度。Sun等[65]認(rèn)為具有不同交并比(intersection over union,IoU)分?jǐn)?shù)的候選框類似于類內(nèi)數(shù)據(jù)增強,在TFA 的基礎(chǔ)上提出了更優(yōu)的FSCE(few-shot object detection via contrastive proposals encoding)方法,即在微調(diào)階段,將NMS(non maximum suppression)處理后的候選框的最大數(shù)量翻倍和將感興趣區(qū)域特征中用于損失計算的候選框數(shù)量減半。Xu 等[40]認(rèn)為圖像金字塔技術(shù)在增加正樣本數(shù)量的同時也引入了大量的負(fù)樣本,沒有充分發(fā)揮正樣本數(shù)量增強的優(yōu)勢,提出了正樣本增強技術(shù),包括背景稀疏化、多尺度復(fù)制和隨機裁剪技術(shù),通過去除一些負(fù)樣本實例,大大減少了負(fù)樣本的占比。Kaul 等[74]提出了Pseudo-Labelling 方法,采用偽標(biāo)記的方法增加新類別的樣本數(shù)量,首先在訓(xùn)練集上產(chǎn)生新類的偽標(biāo)記,通過自監(jiān)督訓(xùn)練的驗證刪除標(biāo)簽不正確的大量邊界框,之后由類似Cascade R-CNN[75]的逐步優(yōu)化方法糾正質(zhì)量差的邊界框,大大減少類別不平衡性。Guirguis 等[76]利用連續(xù)學(xué)習(xí)中的重放方法存儲以前的任務(wù)中的基類樣本,以便在學(xué)習(xí)新任務(wù)時進行重放,實現(xiàn)基類和新類之間的知識轉(zhuǎn)移。提出了一個新的梯度更新規(guī)則,將基類的梯度添加到新類梯度更新中,它還會自適應(yīng)地重新加權(quán)它們,以防新梯度指向可能導(dǎo)致遺忘的方向。作為一個即插即用的模塊,可以很方便地與任意FSOD模型結(jié)合。多尺度正樣本特征提取如圖10所示。

    圖10 多尺度正樣本特征提取Fig.10 Multi-scale positive sample feature extraction

    在元學(xué)習(xí)范式上,Yang 等[77]以RepMet 為基礎(chǔ),提出了NP-RepMet 方法,將其他方法丟棄的負(fù)樣本納入模型訓(xùn)練中,可以得到更加魯棒的嵌入空間。Li等[22]除了使用簡單的數(shù)據(jù)增強技術(shù)外,還將變換不變性(transformation invariant principle,TIP)引入到小樣本檢測中。具體地,在查詢分支上,用從查詢變換圖像中得到的候選框檢測原始查詢圖像對象邊界框,在支持分支上,在原始支持圖像和支持變換圖像間施加一致性損失,最后對兩分支結(jié)果做聚合處理。Zhang 等[78]認(rèn)為不應(yīng)該對支持樣本只進行簡單的平均操作,提出了SQMG(support-query mutual guidance)方法。在基訓(xùn)練階段,支持引導(dǎo)的查詢增強通過核生成器對查詢特征進行增強,通過支持查詢相互引導(dǎo)模塊生成更多與支持相關(guān)的候選框。另外,候選框和聚合支持特征之間進行多種特征比較,得到更高質(zhì)量的候選框。

    3.4.3 增加候選框數(shù)量的方法

    基于遷移學(xué)習(xí)范式,Zhang 等[79]提出了同時使用多個區(qū)域候選網(wǎng)絡(luò)結(jié)構(gòu)的CoRPNs 方法,用以解決因為樣本少而產(chǎn)生較少的候選框的問題,如果某一個區(qū)域候選網(wǎng)絡(luò)遺漏了具有高IoU 值的候選框,那么其他的區(qū)域候選網(wǎng)絡(luò)能夠檢出該候選框。在模型訓(xùn)練時,只有最確定的那個區(qū)域候選網(wǎng)絡(luò)模塊才能獲得梯度,在測試時,也只從最確定的那個區(qū)域候選網(wǎng)絡(luò)中獲取候選框。

    為了解決模型不遺忘的問題,F(xiàn)an 等[80]提出了基于元學(xué)習(xí)范式的Retentive R-CNN 模型,新增了Bias-Balanced RPN 和Re-Detector 模塊。區(qū)域候選網(wǎng)絡(luò)不是完全的類無關(guān)的,而更偏向于可見類別的檢測,因此,基類檢測器不能很好檢測出新類,產(chǎn)生了很多誤報。在Bias-Balanced RPN 中引入了新的分支,同時檢測新類和基類對象,原有的檢測頭只用來檢測基類。在Re-Detector 中,原有分支只檢測基類,新分支同時檢測基類和新類,在兩個分支基類檢測上施加一致性損失可以更好地完成檢測。

    綜上所述,可以直接或間接的多種方式完成對新類別數(shù)據(jù)樣本的擴充,增加新類別樣本數(shù)據(jù)的方法是最直接有效的解決類別樣本數(shù)量不足的方法,同時也能帶來更加豐富的樣本特征,減少模型過擬合的產(chǎn)生,但如果使用了過多的數(shù)據(jù)增強策略,可能會在增加樣本信息的同時,引入一些無關(guān)的噪聲信息。

    4 算法數(shù)據(jù)集、評估指標(biāo)和性能分析

    小樣本目標(biāo)檢測方法中常用的公開數(shù)據(jù)集有Pascal VOC[25]、MS-COCO[26]和FSOD[29]數(shù)據(jù)集,在個別方法中使用到的其他數(shù)據(jù)集有LVIS[27]、iNatureList[81]、ImageNet-Loc[82]等。數(shù)據(jù)集的概況如表1 所示。

    表1 小樣本目標(biāo)檢測常用數(shù)據(jù)集及其劃分方式Table 1 Typical datasets for few-shot object detection and their divisions

    4.1 小樣本目標(biāo)檢測公開數(shù)據(jù)集介紹

    4.1.1 Pascal VOC 數(shù)據(jù)集

    小樣本目標(biāo)檢測實驗使用的Pascal VOC 數(shù)據(jù)集由Pascal VOC2007[25]和Pascal VOC2012[83]共同組成,整個VOC 數(shù)據(jù)集一共有21 503 張圖像,其中,VOC07有9 963 張圖像,VOC12 有11 540 張圖像。VOC07 和VOC12 的train 和val 集合數(shù)據(jù)用模型訓(xùn)練,VOC07的test 集合數(shù)據(jù)用于模型測試。VOC 數(shù)據(jù)集一共有20 個類別,隨機選擇其中的5 類作為新類,剩余的15類作為基類,為了盡量減少由隨機性帶來的影響,分成多組不同的數(shù)據(jù)進行訓(xùn)練,常見的做法是分為3 組進行,即分組1、分組2 和分組3,每個分組中新類的類別均不同,關(guān)于3 組劃分的具體細(xì)節(jié)如下:分組1的新類類別為鳥類、公交車、牛、摩托車和沙發(fā);分組2 的新類類別為飛機、瓶子、牛、馬和沙發(fā);分組3 的新類類別為船、貓、自行車、羊和沙發(fā)。分組中每個新類的對象都應(yīng)當(dāng)有K個標(biāo)注邊界框,VOC 數(shù)據(jù)集中K的取值常為1、2、3、5、10。由于新類的樣本數(shù)量非常少,其選擇會非常影響模型的性能表現(xiàn),采用多次實驗來消除隨機性的影響,TFA 提出通過30 次重復(fù)實驗并取平均值得到公平的實驗結(jié)果,之后的一些論文提出只進行10 次實驗也可以公平比較實驗結(jié)果。

    4.1.2 Microsoft COCO 數(shù)據(jù)集

    COCO2014[26]數(shù)據(jù)集相比VOC 數(shù)據(jù)集有更多的類別和更多的圖像,包含123 287 張圖像,其中,訓(xùn)練集有82 783張圖像,驗證集有40 504張圖像。從COCO數(shù)據(jù)集的train 和val 集合中選取5 000 張圖像用作測試數(shù)據(jù)集,其余的圖像用于訓(xùn)練階段。選取COCO數(shù)據(jù)集中與VOC 重疊的20 個類別作為新類,剩余的60 類作為基類數(shù)據(jù),同時K的取值通常為10、30,即一個類別選擇10 個或者30 個目標(biāo)樣本用來訓(xùn)練。

    4.1.3 FSOD 數(shù)據(jù)集

    FSOD 數(shù)據(jù)集[29]是專門針對小樣本目標(biāo)檢測而設(shè)計的數(shù)據(jù)集,對于小樣本目標(biāo)檢測任務(wù)來說,類別數(shù)量越多檢測效果越好。FSOD 數(shù)據(jù)集的類別數(shù)很多,總共有1 000 類,每個類別的標(biāo)注數(shù)量較少,超過90%類別的圖像數(shù)量在22~108 張之間,即使最常見的類別也沒有超過208 張圖像,總的圖像數(shù)量也并不多。FSOD 數(shù)據(jù)集包含大約66 000 張圖像和182 000個邊界框,其中訓(xùn)練集800 類,測試集200 類,有531類來自ImageNet 數(shù)據(jù)集,有469 類來自O(shè)penImage 數(shù)據(jù)集。此外,F(xiàn)SOD 數(shù)據(jù)集還合并了有相同語義的類別,移除了標(biāo)注質(zhì)量差的數(shù)據(jù)。

    4.1.4 其他數(shù)據(jù)集

    ImageNet-Loc數(shù)據(jù)集[82]在RepMet[61]和Meta-RCNN[35]中使用,固定地使用500 個隨機的任務(wù),每個類別的邊界框的數(shù)量取不同的1、5 和10。

    iNatureList 數(shù)據(jù)集[81]是一個長尾分布的物種數(shù)據(jù)集,包含2 854 個類別,可以檢測在所有類上的AP指標(biāo)(具體有AP、AP50 和AP75)和AR 指標(biāo)(AR1 和AR10)。

    LVIS 數(shù)據(jù)集[27]在TFA 中有被使用,其有著天然的長尾分布,整個數(shù)據(jù)集的類別分布為類別圖像數(shù)量小于10 個的稀有類、圖像數(shù)量為10~100 的普通類和圖像數(shù)量大于100 的頻繁類。將頻繁類和普通類看作基類,稀有類看作新類進行訓(xùn)練。在模型的微調(diào)階段,手動創(chuàng)建一個平衡的數(shù)據(jù)子集,其中每個類別擁有10 個實例。

    Zhu 等[54]提出了一個更加現(xiàn)實的FSOD 數(shù)據(jù)集基準(zhǔn),即刪除預(yù)訓(xùn)練分類模型中有關(guān)的新類圖像的隱式樣本(implicit shot)。在CoRPNs[79]中,也提到了移除預(yù)訓(xùn)練數(shù)據(jù)集中有關(guān)的基類和新類數(shù)據(jù),包含275類,超過30 萬張圖像。Huang 等[84]指出,這樣的做法可能會使預(yù)訓(xùn)練模型得不到最優(yōu)解。因此,只刪除對應(yīng)VOC 數(shù)據(jù)集中新類的數(shù)據(jù)即可,對于COCO 數(shù)據(jù)集,它的新類類別是很常見的,應(yīng)該按照長尾分布,選取樣本量少的作為新類。

    4.2 評估指標(biāo)

    通用目標(biāo)檢測方法常用的評估指標(biāo)有平均準(zhǔn)確率(average precision,AP)[85]和平均召回率(average recall,AR)。

    AP 表示檢測所得正樣本數(shù)占所有檢測樣本的比例,其表達式為:

    式中,TP表示被正確檢測為正例的實例數(shù),F(xiàn)P表示被錯誤檢測為正例的實例數(shù)。AP 表示類別的平均檢測精度,mAP(mean average precision)是平均AP值,是多個目標(biāo)類別的檢測精度,即將每個類別的AP值取平均得到mAP 值。

    AR 表示檢測所得正樣本數(shù)占所有正樣本的比例,其表達式為:

    式中,TP表示被正確檢測為正例的實例數(shù),F(xiàn)P表示被錯誤檢測為負(fù)例的實例數(shù)。

    小樣本目標(biāo)檢測的評估指標(biāo)和通用目標(biāo)檢測有一些細(xì)微的差別,VOC 數(shù)據(jù)集根據(jù)所選新類類別的不同分為3 組實驗,在每組中,新類樣本數(shù)量K的取值均為1、2、3、5 和10。一般地,只需檢測新類類別的AP 值(novel AP,nAP)即可,一些算法也會關(guān)注模型體現(xiàn)在基類上的不遺忘特性,測試所得模型在基類的性能,指標(biāo)為bAP(base AP),這里所提到的AP 值都是在交并比值為0.5 的mAP 值。

    在COCO 數(shù)據(jù)集中,新類樣本數(shù)量K的取值為10 和30,模型會檢測在新類數(shù)據(jù)集上的不同IoU 閾值、不同對象尺度的AP 值以及不同的AR 值。采用COCO 風(fēng)格的評價指標(biāo),具體指標(biāo)項有mAP、AP50、AP75、APs、APm 和APl。這里的mAP 指的是在10 個IoU 閾值(0.50:0.05:0.95)的指標(biāo),AP50、AP75 則是只計算單個IoU 閾值(0.50 和0.75)的指標(biāo)。APs、APm 和APl 表示在不同的標(biāo)注邊界框面積的指標(biāo),APs 是面積小于32 像素×32 像素,APm 是面積在32像素×32 像素到96 像素×96 像素之間,APl 是面積大于96 像素×96 像素。AR 有AR1、AR10 和AR100(AR1 是指每張圖片中,在給定1 個檢測結(jié)果中的指標(biāo),其他同理)。

    由于隨機性的影響,以上檢測值都會通過多次實驗取平均值當(dāng)作最后的結(jié)果。一般地,VOC 的重復(fù)實驗次數(shù)為10 次或者30 次,COCO 數(shù)據(jù)集的重復(fù)次數(shù)為10 次。另外,F(xiàn)SOD 數(shù)據(jù)集中K的取值常為1、5,具體指標(biāo)項為AP50 和AP75。

    跨數(shù)據(jù)集問題:從COCO 到VOC,使用VOC 和COCO 重合的20 個類別作為新類,使用COCO 中剩余的60 類作為基類數(shù)據(jù),K的取值為10,具體評估指標(biāo)項為mAP。

    4.3 算法性能分析

    表2 根據(jù)不同的改進策略,對現(xiàn)有方法分類的機制、優(yōu)勢、局限性和適用場景這四方面進行了詳細(xì)比較。本節(jié)使用在4.2 節(jié)中提到的數(shù)據(jù)評估策略在VOC、COCO 和FSOD 數(shù)據(jù)集上對各個方法進行性能評估,而像iNaturaList、ImageNet-LOC 等數(shù)據(jù)集由于被使用次數(shù)較少,說服力差,不具有可比性,故不做性能對比分析,具體結(jié)果可見表3~表7,表中加粗為最優(yōu)性能結(jié)果,下劃線為次優(yōu)性能結(jié)果。

    表2 小樣本目標(biāo)檢測方法優(yōu)缺點對比Table 2 Comparison of advantages and disadvantages of few-shot object detection methods

    表3 遷移學(xué)習(xí)方法在VOC 數(shù)據(jù)集上的mAP 對比Table 3 mAP comparison of transfer learning methods on VOC dataset 單位:%

    表4 元學(xué)習(xí)方法在VOC 數(shù)據(jù)集上的mAP 對比Table 4 mAP comparison of meta-learning methods on VOC dataset 單位:%

    表5 遷移學(xué)習(xí)方法在COCO 數(shù)據(jù)集上的AP 對比Table 5 AP comparison of transfer learning methods on COCO dataset 單位:%

    表6 元學(xué)習(xí)方法在COCO 數(shù)據(jù)集上的AP 對比Table 6 AP comparison of meta-learning methods on COCO dataset 單位:%

    表7 FSOD 數(shù)據(jù)集上的性能對比Table 7 Performance comparison on FSOD dataset 單位:%

    從表中可得:(1)無論是采用遷移學(xué)習(xí)范式還是元學(xué)習(xí)范式在檢測性能上并沒有太大的差異,由前述對兩種范式的分析可選擇適合的范式進行改進增強。(2)隨著shot 數(shù)的增多,檢測性能有較大的提升,說明圖像信息越多,學(xué)習(xí)到的特征信息越充分,樣本數(shù)據(jù)增強可能是小樣本問題解決的關(guān)鍵,最新的方法Pseudo-Labelling[74]和CFA-DeFRCN[76]都在探索數(shù)據(jù)增強的方法,也說明了數(shù)據(jù)增強的重要性。(3)在不同的數(shù)據(jù)集上檢測結(jié)果也不相同,VOC 的檢測結(jié)果總體要大于COCO 的檢測結(jié)果,在VOC 和COCO數(shù)據(jù)集上表現(xiàn)最好的都是基于遷移學(xué)習(xí)范式的CFADeFRCN,其除了使用數(shù)據(jù)增強外,將其結(jié)合基于度量學(xué)習(xí)DeFRCN 方法使用,得到了最優(yōu)秀的檢測結(jié)果。可見使用較為簡單直接的技術(shù)方法可以成功減少模型過擬合的程度,從而達到較優(yōu)的效果。(4)其他的使用注意力機制方法的Meta-DETR 和AFD-Net以及使用數(shù)據(jù)增強的SQMG方法也表現(xiàn)出了不錯的性能。

    5 小樣本目標(biāo)檢測在各領(lǐng)域的應(yīng)用研究

    小樣本目標(biāo)檢測算法由于只需要少量的新類標(biāo)注就可以完成對目標(biāo)類別的檢測,目前在自動駕駛、遙感圖像檢測、農(nóng)業(yè)病蟲害檢測等領(lǐng)域都有應(yīng)用。

    5.1 自動駕駛

    自動駕駛是目前計算機視覺應(yīng)用較為成功的一個領(lǐng)域,車輛行駛會面臨非常多的場景,遇見各種各樣的類別,不可能對全部的類別收集到大量標(biāo)注的圖像,自動駕駛需要確保駕駛的絕對安全,在很短的時間里做出反應(yīng),這些特性通用目標(biāo)檢測都無法滿足。Majee 等[86]新提出了IDD[87]數(shù)據(jù)集,并驗證了TFA 方法和FSRW 方法在該數(shù)據(jù)集上的性能表現(xiàn);Agarwal 等[41]提出了AGCM 方法,有助于在檢測器的分類頭中創(chuàng)建更加緊密且良好分離的特征簇,在IDD自動駕駛數(shù)據(jù)集上取得了當(dāng)時的最好效果。

    5.2 遙感目標(biāo)檢測

    另外一個常見的應(yīng)用領(lǐng)域是遙感目標(biāo)檢測,遙感圖像有助于救援行動援助、災(zāi)害預(yù)測和城市規(guī)劃等,對于一些偏遠(yuǎn)地區(qū)或者無人區(qū)遙感數(shù)據(jù)的獲取同樣非常困難,且其中出現(xiàn)的目標(biāo)種類眾多,這對于通用目標(biāo)檢測是極大的挑戰(zhàn)。Xiao 等[88]提出了SAAN(self-adaptive attention network)方法,在目標(biāo)對象上使用注意力,而不是整張圖像,避免一些無用的甚至是有害的特征干擾,在RSOD[89]數(shù)據(jù)集上取得了最好的效果。另外,李成范等[90]在自建的HSI 遙感圖像上應(yīng)用K 近鄰(K-nearest neighbor,KNN)得到了圖像局部特征,并與改進的CNN 算法結(jié)合,使用TripletLoss 損失令同類更加緊密,不同類別更加分離,得到了良好的檢測效果。

    5.3 農(nóng)業(yè)病蟲害檢測

    對于農(nóng)業(yè)病蟲害檢測,需要專業(yè)的領(lǐng)域知識才能識別不同作物、不同生長環(huán)境下的病蟲害,完成標(biāo)注工作,而要求農(nóng)業(yè)專家進行大量的標(biāo)注工作是費時費力的,且害蟲可以處在不同的發(fā)育期,要獲取大量這種圖像數(shù)據(jù)同樣較為困難,現(xiàn)階段只有很少的一些工作涉及到小樣本病蟲害檢測。劉凱旋[91]建立了基于不同樣本數(shù)量的水稻害蟲檢測算法。在樣本數(shù)據(jù)多的時候,使用Cascade R-CNN[75]模型進行害蟲檢測,當(dāng)樣本數(shù)量進一步減少時,再通過條件判斷切換成小樣本目標(biāo)檢測算法,為后續(xù)農(nóng)業(yè)害蟲的智能化檢測研究提供了理論支撐。桂江生等[92]針對大豆食心蟲蟲害進行了小樣本檢測,通過卷積學(xué)習(xí)一個非線性度量函數(shù),而不是使用線性度量公式衡量查詢集和支持集之間的關(guān)系,最終5-shot 的條件下可以達到82%的檢測率。

    5.4 其他潛在應(yīng)用領(lǐng)域

    另外,還有一些其他可以探索的應(yīng)用領(lǐng)域,比如,自然界的生物種類眾多,對于生物保護來說,辨認(rèn)物種類別尤為關(guān)鍵,其類別符合長尾分布,大部分的類別都只有很少的數(shù)量且不易獲取到其圖像,可以將其應(yīng)用到不常見的生物物種檢測;零售商品的自動售賣技術(shù)很方便地為顧客提供24 h 服務(wù),零售商品的種類成千上萬,目標(biāo)檢測所需的標(biāo)注成本巨大,如果只標(biāo)注很少圖像就可以完成檢測的話,可以大大縮減成本;在工業(yè)檢測領(lǐng)域,缺陷檢測的自動化工作可以節(jié)約大量的人力且提高效率,比如雞蛋裂紋檢測,可以提高產(chǎn)品質(zhì)量,但實際的工廠作業(yè)很難收集到大量的樣本數(shù)據(jù),小樣本目標(biāo)檢測可以利用少量的樣本完成缺陷檢測。

    6 小樣本目標(biāo)檢測的未來研究趨勢

    小樣本目標(biāo)檢測的創(chuàng)建初衷是用來解決實際問題的,可現(xiàn)階段的效果仍然不太理想。譬如小樣本目標(biāo)檢測方法在COCO 數(shù)據(jù)集10-shot 的條件下最好的mAP 檢測效果僅有19.1%,這距離實用性仍有較大的差距。除了需要提高檢測精度外,未來小樣本目標(biāo)檢測方法在以下方面值得進一步的研究:

    (1)自適應(yīng)領(lǐng)域遷移:從不同領(lǐng)域?qū)W習(xí)到的通用概念往往并不相同,將從一個領(lǐng)域中學(xué)習(xí)到的知識遷移到另一個領(lǐng)域的方法,叫作自適應(yīng)域遷移。小樣本目標(biāo)檢測方法也是將從基類學(xué)習(xí)到的知識遷移到新類中,可以將自適應(yīng)領(lǐng)域遷移的方法應(yīng)用到小樣本目標(biāo)檢測方法中。

    (2)數(shù)據(jù)增強方面:小樣本對于模型過擬合問題尤為敏感,而圖像數(shù)據(jù)增強技術(shù)恰恰是最直接簡便的用于減少過擬合的方法,比如使用半監(jiān)督和自監(jiān)督等方法可以減少模型的過擬合。

    (3)圖卷積神經(jīng)網(wǎng)絡(luò):現(xiàn)在有一些工作是基于圖卷積神經(jīng)網(wǎng)絡(luò)完成的,但圖卷積神經(jīng)網(wǎng)絡(luò)是一個仍在不斷探索的領(lǐng)域,研究如何在小樣本條件下通過圖卷積神經(jīng)網(wǎng)絡(luò)更好推理學(xué)習(xí)是很有前景的方向。

    (4)多模態(tài)的方向:Transformer 作為注意力機制方法,有著天然的處理多種模態(tài)的數(shù)據(jù),將文字和圖像等結(jié)合起來共同考慮,這對于缺乏圖像樣本數(shù)量的小樣本檢測任務(wù)是巨大的增強。

    7 總結(jié)

    本文對小樣本目標(biāo)檢測做了詳細(xì)的分析總結(jié)。首先,介紹了小樣本目標(biāo)檢測任務(wù)的定義及相關(guān)概念,敘述了小樣本目標(biāo)檢測基于元學(xué)習(xí)和基于遷移學(xué)習(xí)的兩種經(jīng)典范式,重點闡述了從注意力機制、圖卷積神經(jīng)網(wǎng)絡(luò)、度量學(xué)習(xí)和數(shù)據(jù)增強方面提升小樣本目標(biāo)檢測性能的方法。之后,對常用數(shù)據(jù)集和評估指標(biāo)進行了介紹,對各個方法的性能進行了比較和分析。最后,提出了小樣本目標(biāo)檢測應(yīng)用的一些領(lǐng)域并對未來的研究方向進行了展望。

    猜你喜歡
    基類類別范式
    基于C#面向?qū)ο蟪绦蛟O(shè)計的封裝、繼承和多態(tài)分析
    以寫促讀:構(gòu)建群文閱讀教學(xué)范式
    甘肅教育(2021年10期)2021-11-02 06:14:08
    范式空白:《莫失莫忘》的否定之維
    孫惠芬鄉(xiāng)土寫作批評的六個范式
    管窺西方“詩辯”發(fā)展史的四次范式轉(zhuǎn)換
    空戰(zhàn)游戲設(shè)計實例
    服務(wù)類別
    新校長(2016年8期)2016-01-10 06:43:59
    一種基于用戶興趣的STC改進算法
    虛機制在《面向?qū)ο蟪绦蛟O(shè)計C++》中的教學(xué)方法研究
    論類別股東會
    商事法論集(2014年1期)2014-06-27 01:20:42
    塔城市| 融水| 巩留县| 常山县| 旺苍县| 沂南县| 莱芜市| 汝州市| 大城县| 碌曲县| 乐都县| 定州市| 靖江市| 含山县| 天门市| 丹江口市| 苏州市| 宾阳县| 休宁县| 金寨县| 江安县| 会泽县| 宿松县| 茂名市| 丹巴县| 天峻县| 邹城市| 桂阳县| 桂东县| 乐陵市| 鄢陵县| 汪清县| 西安市| 壶关县| 高州市| 巴东县| 禹州市| 大英县| 兴宁市| 重庆市| 隆化县|