張振偉,郝建國,黃 健,潘崇煜
國防科技大學(xué) 智能科學(xué)學(xué)院,長沙 410073
近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在圖像領(lǐng)域的應(yīng)用和發(fā)展以及高性能計算設(shè)備的強力推進,圖像分類識別技術(shù)取得了巨大成功,從2012年獲得圖像分類冠軍的AlexNet[1]到后來的VGG[2]、GoogleNet[3]、ResNet[4],各種網(wǎng)絡(luò)模型被相繼提出并在圖像分類領(lǐng)域不斷取得新的突破。以深度學(xué)習(xí)為核心的目標(biāo)檢測技術(shù)充分吸收了圖像分類領(lǐng)域的研究成果,加之更加廣泛的應(yīng)用場景(如智能監(jiān)測、自動駕駛、安全領(lǐng)域等),使得目標(biāo)檢測技術(shù)成為計算機視覺領(lǐng)域新的研究熱點,許多成熟的算法模型已經(jīng)成功部署到實際應(yīng)用場景當(dāng)中。目前基于深度學(xué)習(xí)的目標(biāo)檢測模型需要大量的標(biāo)注樣本進行訓(xùn)練,但在實際場景當(dāng)中,往往很難獲取到相應(yīng)規(guī)模的高質(zhì)量標(biāo)注樣本。而小樣本學(xué)習(xí)可以在少量標(biāo)簽樣本條件下實現(xiàn)對新類型目標(biāo)的快速分類識別,降低了對大規(guī)模標(biāo)簽數(shù)據(jù)的依賴。受小樣本學(xué)習(xí)啟發(fā),近年來,小樣本圖像目標(biāo)檢測技術(shù)研究逐漸引起廣泛關(guān)注。相對于常規(guī)的監(jiān)督式目標(biāo)檢測方法需要借助大量的待檢測類別標(biāo)注樣本進行訓(xùn)練,小樣本圖像目標(biāo)檢測在具有充足標(biāo)注數(shù)據(jù)的公開數(shù)據(jù)集基礎(chǔ)上,只需要極少量待檢測的新類別標(biāo)注樣本,通過精心設(shè)計訓(xùn)練方法、模型結(jié)構(gòu)和損失函數(shù),就可以獲得具有一定泛化性能的檢測模型,極大提高模型開發(fā)的效率,也更具實用價值。
小樣本圖像目標(biāo)檢測是傳統(tǒng)目標(biāo)檢測技術(shù)與小樣本學(xué)習(xí)技術(shù)的融合,旨在通過少量的標(biāo)注樣本學(xué)習(xí)具有較好泛化性能的檢測模型。目前,小樣本圖像目標(biāo)檢測方法多基于經(jīng)典的兩階段目標(biāo)檢測算法Faster R-CNN[5],如文獻[6-12]均將Faster R-CNN作為主干網(wǎng)絡(luò)。也有部分研究基于經(jīng)典的YOLO[13]和SSD[14]一階段目標(biāo)檢測算法,如文獻[15-16]分別以YOLOv2[17]和YOLOv3[18]作為主干網(wǎng)絡(luò),文獻[19]以SSD作為主干網(wǎng)絡(luò)。與小樣本圖像分類相比,小樣本圖像目標(biāo)檢測更具挑戰(zhàn)性,不僅要對目標(biāo)進行分類,還要確定目標(biāo)在圖像中的精確位置。檢測過程中不僅要提取分類任務(wù)所關(guān)注的高層語義信息,還要獲取低層級的像素級信息實現(xiàn)目標(biāo)的定位。雖然直接使用小樣本學(xué)習(xí)的方法難以完成對目標(biāo)的檢測,但小樣本學(xué)習(xí)的方法為小樣本圖像目標(biāo)檢測提供了解決思路。
本文結(jié)合當(dāng)前小樣本目標(biāo)檢測研究現(xiàn)狀,對主流小樣本目標(biāo)檢測從不同方面做了詳細的闡述,同時,為便于區(qū)分,將與之相似的弱監(jiān)督小樣本目標(biāo)檢測和域適應(yīng)小樣本目標(biāo)檢測統(tǒng)稱為廣義小樣本目標(biāo)檢測并對其進行了簡要介紹,特別地,本文在當(dāng)前大量綜述研究基礎(chǔ)上,總結(jié)了目前小樣本目標(biāo)檢測存在的問題和挑戰(zhàn),并提出了下一步可能的應(yīng)對方案,為研究者進一步探索提供更多有益參考。
給定集合Db和集合Dn。對于集合Db,其類別稱作基類,記為Cb,每個類別均有充足的標(biāo)注樣本。集合Dn,類別稱作新類,記為Cn,每個類別只提供少量標(biāo)注樣本(通常少于10個),兩個集合類別無交叉,即Cb?Cn=?。對于測試集T={(x,y),x∈X,y∈Y},x為輸入圖像,y={(ci,bi),i=1,2,…,N}表示圖像x中目標(biāo)的類別和位置信息,其中類別c∈{Cb?Cn}。小樣本圖像目標(biāo)檢測算法研究的目的是利用集合Db和集合Dn對模型進行優(yōu)化,實現(xiàn)對測試集T中圖像目標(biāo)的檢測,與小樣本學(xué)習(xí)中常用的N-wayK-shot在新類上計算平均準(zhǔn)確率的指標(biāo)評估方法不同,小樣本目標(biāo)檢測計算每個類對基類和新類所有類別平均精度值。
按照小樣本目標(biāo)檢測方法的思想和模型結(jié)構(gòu),現(xiàn)有的小樣本目標(biāo)檢測方法主要分為以下6類:基于度量學(xué)習(xí)的方法,基于數(shù)據(jù)增強的方法,基于模型結(jié)構(gòu)的方法,基于微調(diào)的方法,基于元學(xué)習(xí)的方法以及基于集成的方法。表1對這幾種方法進行了簡要的對比分析。
表1 小樣本圖像目標(biāo)檢測方法對比分析Table 1 Comparisions of different methods for few-shot object detection
1.2.1 基于度量學(xué)習(xí)方法
基于度量學(xué)習(xí)的方法是在獲取潛在目標(biāo)區(qū)域特征的前提下,將目標(biāo)區(qū)域特征和支持圖像特征轉(zhuǎn)換到相同的嵌入空間,通過計算距離或者相似度對潛在的目標(biāo)區(qū)域進行分類,進而實現(xiàn)對圖像中不同目標(biāo)的檢測。Karlinsky等[20]提出了一種表征距離度量學(xué)習(xí)方法,用具有多個模態(tài)的混合模型表示每個類,并將這些模態(tài)的中心作為類的表示向量,通過單一的端到端訓(xùn)練過程,同時學(xué)習(xí)訓(xùn)練類別的嵌入空間、主干網(wǎng)絡(luò)參數(shù)和代表性向量。Zhang等[21]提出一種利用對比網(wǎng)絡(luò)解決小樣本圖像目標(biāo)檢測的度量學(xué)習(xí)方法。模型訓(xùn)練好之后無需對參數(shù)進行調(diào)整即可對新類目標(biāo)實現(xiàn)檢測。圖1表示了基于度量學(xué)習(xí)方法的典型結(jié)構(gòu)。其中特征提取網(wǎng)絡(luò)用于提取查詢圖像和支持圖像特征,候選區(qū)域網(wǎng)絡(luò)則用于生成候選區(qū)域,最終形成感興趣區(qū)域(region of interest,RoI),編碼網(wǎng)絡(luò)則用于將感興趣區(qū)域特征與支撐圖像特征轉(zhuǎn)換到嵌入空間,用于距離和相似度度量。文獻[22]在分類模型中引入語義相似性度量作為額外的監(jiān)督信息,提高了小樣本學(xué)習(xí)的泛化能力,為小樣本目標(biāo)檢測提供了有益借鑒。
圖1 基于度量學(xué)習(xí)的小樣本圖像目標(biāo)檢測方法Fig.1 Metric learning based method for few-shot object detection
基于度量學(xué)習(xí)的方法另一個研究的重點是損失函數(shù)設(shè)計。一個有效的損失函數(shù)應(yīng)當(dāng)能使得同類別具有較高的相似度,而不同類別之間相似度盡可能小。如Hsieh等[23]設(shè)計了基于裕度的排名損失(margin-based rank loss),用于隱式學(xué)習(xí)一種度量來預(yù)測區(qū)域建議和查詢特征的相似性。
與小樣本學(xué)習(xí)中的圖像分類類似,小樣本目標(biāo)檢測中度量學(xué)習(xí)主要體現(xiàn)在最后的分類器部分,用于類別相似度度量,因此可以借鑒小樣本學(xué)習(xí)中度量學(xué)習(xí)的相關(guān)研究成果[24]。另外,基于度量學(xué)習(xí)的方法更容易實現(xiàn)增量式學(xué)習(xí),即模型在基類數(shù)據(jù)集上完成訓(xùn)練后可以直接用于新類別目標(biāo)檢測。但同時由于度量學(xué)習(xí)重點關(guān)注類別相似性,而定位信息則主要依賴于前一階段區(qū)域建議網(wǎng)絡(luò),使得模型檢測性能還需要進一步驗證。
1.2.2 基于數(shù)據(jù)增強的方法
數(shù)據(jù)增強是計算機視覺領(lǐng)域提高模型性能常用的手段,特別是在訓(xùn)練數(shù)據(jù)不夠豐富的情況下利用數(shù)據(jù)增強技術(shù)能夠有效提高模型的魯棒性。通過數(shù)據(jù)增強,對新類別樣本進行擴充,在構(gòu)建相對大量樣本基礎(chǔ)上,利用已有的圖像檢測算法進行訓(xùn)練和測試,將小樣本圖像檢測轉(zhuǎn)化為常規(guī)的監(jiān)督式圖像檢測問題?;谶@一思想,Wu等[10]提出了一種多尺度正樣本優(yōu)化方法(MPSR),如圖2所示,通過構(gòu)建目標(biāo)金字塔(object pyramids),形成多個尺度正樣本,而后利用特征金字塔網(wǎng)絡(luò)(feature pyramid net,F(xiàn)PN)[25]構(gòu)建特征金字塔(feature pyramids)進一步增強數(shù)據(jù)多樣性,用于對網(wǎng)絡(luò)進行訓(xùn)練。Riou等[26]還提出了通過復(fù)制粘貼來擴充小目標(biāo)數(shù)據(jù)的方法。對于小樣本目標(biāo)檢測,除了縮放變換和復(fù)制粘貼外,還可以采用其他常用的數(shù)據(jù)增強方式,主要包括兩大類,一類是不改變標(biāo)注框的增強,有色彩變換、高斯噪聲、彈性變換;另一類是改變標(biāo)注框的增強,包括平移變換、剪切變換、旋轉(zhuǎn)變換、鏡像變換、裁剪變換及標(biāo)注框變換(只對標(biāo)注框內(nèi)部分進行旋轉(zhuǎn)、鏡像等操作)。隨著語義嵌入在小樣本目標(biāo)檢測中的應(yīng)用[27-29],還可以通過語義增強[30]的方法進行數(shù)據(jù)擴充。另外Zhang等[31]通過生成虛擬樣本增加樣本多樣性,在極少樣本條件下實現(xiàn)了一定性能提升,在極少樣本條件下實現(xiàn)了一定性能提升。
圖2 基于數(shù)據(jù)增強的小樣本圖像目標(biāo)檢測方法Fig.2 Data augmentation based method for few-shot object detection
基于數(shù)據(jù)增強的方法比較容易理解,具有較強的可解釋性,而且不同的增強手段可以聯(lián)合使用,實現(xiàn)性能疊加,獲得更好的檢測性能。但單純地使用數(shù)據(jù)增強的方法,對模型性能提升能力有限,難以從根本上解決樣本數(shù)量不足的問題。
1.2.3 基于模型結(jié)構(gòu)的方法
通過構(gòu)建新的模型結(jié)構(gòu)實現(xiàn)新類目標(biāo)檢測是解決小樣本圖像目標(biāo)檢測的一種新思路。圖3展示了該類方法的典型結(jié)構(gòu),在常規(guī)檢測模型基礎(chǔ)上,通過構(gòu)建新的模型結(jié)構(gòu)提供有效的輔助信息,從而降低對樣本數(shù)量的依賴,達到小樣本條件下檢測的目的。
圖3 基于模型結(jié)構(gòu)的小樣本圖像目標(biāo)檢測方法Fig.3 Model based method for few-shot object detection
Yang等[19]發(fā)現(xiàn)直接采用遷移學(xué)習(xí)的方法訓(xùn)練小樣本圖像目標(biāo)檢測器,在目標(biāo)定位方面往往表現(xiàn)良好,但在分類方面容易出現(xiàn)混淆,比如將馬識別為狗。其主要原因在于目標(biāo)定位時只需區(qū)分定位的目標(biāo)屬于前景或者背景,不需要知道其具體類別,所以目標(biāo)定位往往表現(xiàn)良好,檢測器性能主要取決于分類模塊,基于此,提出一種即插即用的上下文轉(zhuǎn)換器(context-transformer)模塊,該模塊由相似性發(fā)現(xiàn)(affinity discovery)和上下文聚合(context aggregation)兩個子模塊構(gòu)成,能夠發(fā)現(xiàn)基類和新類的關(guān)聯(lián)關(guān)系,通過上下文關(guān)聯(lián)關(guān)系有效解決目標(biāo)混淆的問題。Fan等[8]認為區(qū)域候選網(wǎng)絡(luò)在沒有足夠輔助信息支持的情況下,難以過濾掉與目標(biāo)不相關(guān)的前景信息,導(dǎo)致網(wǎng)絡(luò)產(chǎn)生大量的目標(biāo)不相關(guān)信息,為解決上述問題,提出一種新的注意力網(wǎng)絡(luò),通過權(quán)值共享充分學(xué)習(xí)目標(biāo)間的匹配關(guān)系以及同類別的通用知識。Chen等[32]結(jié)合元學(xué)習(xí)和遷移學(xué)習(xí)的優(yōu)點,引入了新穎的注意力目標(biāo)檢測器,能夠結(jié)合自下而上和自上而下的注意力,其中自下而上的注意力提供了顯著區(qū)域的先驗知識,自上而下的注意力從目標(biāo)標(biāo)注信息進行學(xué)習(xí)。同時,在常規(guī)目標(biāo)檢測損失函數(shù)的基礎(chǔ)上設(shè)計了目標(biāo)聚焦損失和背景聚焦損失項,目標(biāo)聚焦損失有助于將同一物體的特征聚集到一起,而背景聚焦損失有助于解決部分未標(biāo)注目標(biāo)被錯分為背景的問題,最終通過混合訓(xùn)練策略,模型獲得了較好的檢測性能。
通過設(shè)計新的模型結(jié)構(gòu)實現(xiàn)小樣本目標(biāo)檢測的方法獲得了很多學(xué)者的認可,而且也是最有可能從根本上解決樣本不足問題的方法之一,但由于新的模型結(jié)構(gòu)設(shè)計需要更多的理論和經(jīng)驗作支撐,往往不容易實現(xiàn),甚至?xí)?dǎo)致性能衰退。
1.2.4 基于元學(xué)習(xí)的方法
與傳統(tǒng)的監(jiān)督學(xué)習(xí)以樣本為基本單位進行迭代訓(xùn)練不同,元學(xué)習(xí)以任務(wù)為單位進行迭代訓(xùn)練,并從中習(xí)得一組在不同任務(wù)中均表現(xiàn)良好的初始化參數(shù),針對特定的任務(wù)只需要進行少量的迭代即可在新任務(wù)中獲得較好的性能。圖4展示了典型的基于元學(xué)習(xí)的小樣本圖像目標(biāo)檢測方法,在元訓(xùn)練階段利用豐富的基類樣本訓(xùn)練元模型預(yù)測權(quán)重,在元測試階段,利用學(xué)習(xí)到的元知識結(jié)合小樣本圖像的類相關(guān)參數(shù)進行參數(shù)預(yù)測。
圖4 基于元學(xué)習(xí)的小樣本圖像目標(biāo)檢測方法Fig.4 Meta learning based method for few-shot object detection
Kang等[16]在YOLOv2基礎(chǔ)上引入了元特征學(xué)習(xí)器和輕量級的特征重加權(quán)模塊,能夠使檢測器快速適應(yīng)新的類別,利用具有充足樣本的基類數(shù)據(jù)集訓(xùn)練特征學(xué)習(xí)器,提取可泛化到新對象類的元特征。重加權(quán)模塊將來自新類的一些支持示例轉(zhuǎn)換成全局向量,該向量用于指示相應(yīng)檢測對象的元特征的重要性或相關(guān)性,將特征學(xué)習(xí)器學(xué)習(xí)到的元特征和重加權(quán)模塊得到的權(quán)重向量卷積整合就可以得到目標(biāo)的分類和回歸信息。Wang等[33]將檢測器最后一層作為類別相關(guān)部分,該部分參數(shù)不能在基類和新類之間直接轉(zhuǎn)換,通過引入?yún)?shù)化的權(quán)重預(yù)測元模型,實現(xiàn)了參數(shù)間的轉(zhuǎn)換。Yan等[12]在Mask RCNN[34]的基礎(chǔ)上提出了Meta R-CNN,利用支持分支獲取類別注意力向量后與興趣區(qū)域特征相融合作為新的預(yù)測特征用于檢測或分割。Xiao等[35]在Meta R-CNN的基礎(chǔ)上對融合網(wǎng)絡(luò)進一步改進獲得了更好的檢測性能。Perez-Rua等[36]借鑒CenterNet[37]的結(jié)構(gòu)和思路提出一種中心點預(yù)測的元學(xué)習(xí)方法,該模型能夠?qū)崿F(xiàn)增量式學(xué)習(xí),即在添加新類后無需再訪問基類數(shù)據(jù)。
Zhang等[38]認為現(xiàn)有的元學(xué)習(xí)方法主要局限于區(qū)域級預(yù)測,性能主要依賴于最初定位良好的區(qū)域建議。針對這一問題,在Deformable DETR[39]基礎(chǔ)上,將近年來流行的Transformer[40]與元學(xué)習(xí)相結(jié)合,提出了圖像級元學(xué)習(xí)小樣本目標(biāo)檢測模型,用編碼、解碼器替代了原有的非極大值抑制(NMS)、錨框等啟發(fā)式組件,實現(xiàn)了在圖像層級上的目標(biāo)定位和分類。文獻[41]利用參數(shù)共享的特征提取網(wǎng)絡(luò)提取查詢圖像和支持圖像的特征后,通過稠密關(guān)系提取模塊執(zhí)行密集的特征匹配以激活輸入圖像的共存特征,再將其送入RPN網(wǎng)絡(luò)提取興趣區(qū)域。另外,對于興趣區(qū)域池化部分,先進行不同尺度的層級池化后再進行融合,之后送入檢測器頭部用于分類和定位。
元學(xué)習(xí)的方法被普遍認為是一種比較有潛力的方法[9,38],被廣泛應(yīng)用于各類小樣本任務(wù)中,具有較強的通用性,可以在不依賴模型的前提下,利用少量的支持樣本快速更新優(yōu)化模型參數(shù),具備快速適應(yīng)新任務(wù)的能力。然而在實際應(yīng)用中發(fā)現(xiàn),元學(xué)習(xí)器設(shè)計并非易事,且在學(xué)習(xí)迭代過程中容易出現(xiàn)不收斂問題[42]。
1.2.5 基于微調(diào)的方法
基于微調(diào)的方法是利用大量基類數(shù)據(jù)對現(xiàn)有的模型結(jié)構(gòu)進行預(yù)訓(xùn)練,而后利用少量的新類別樣本對部分參數(shù)進行微調(diào),進而實現(xiàn)小樣本條件下目標(biāo)檢測。文獻[9]發(fā)現(xiàn)基于微調(diào)的方法在小樣本圖像目標(biāo)檢測中效果超過很多元學(xué)習(xí)方法。該論文采用帶有特征金字塔網(wǎng)絡(luò)(FPN)的Faster R-CNN檢測模型作為基本檢測框架,首先,使用大量基類數(shù)據(jù)對檢測網(wǎng)絡(luò)進行預(yù)訓(xùn)練。而后,凍結(jié)前端的圖像特征提取器及RPN網(wǎng)絡(luò)參數(shù),并隨機初始化檢測器頭部的分類和回歸網(wǎng)絡(luò),在此基礎(chǔ)上,利用少量的支撐樣本對模型進行微調(diào),最終在基類和新類上均達到了較好的泛化性能,圖5展示了該模型訓(xùn)練的基本流程。Sun等[43]實驗發(fā)現(xiàn)僅微調(diào)分類和回歸網(wǎng)絡(luò)盡管能獲得較高的召回率,但容易出現(xiàn)類別混淆,基于此,提出對特征金字塔(FPN)網(wǎng)絡(luò)、區(qū)域建議網(wǎng)絡(luò)(RPN)以及分類回歸網(wǎng)絡(luò)聯(lián)合進行微調(diào),同時在損失函數(shù)中增加對比損失項保持類間差異性,減少類別混淆,該方法在公測數(shù)據(jù)集上獲得了較好的性能提升。
圖5 基于微調(diào)的小樣本圖像目標(biāo)檢測方法Fig.5 Fine tuning based method for few-shot object detection
通過微調(diào)使得模型實現(xiàn)對新類目標(biāo)的檢測是一種簡單但相對有效的方法,特別是在一定數(shù)量樣本條件下能獲得相對較好的檢測性能。其難點在于如何相對準(zhǔn)確地區(qū)分類別相關(guān)和類別無關(guān)參數(shù)以及選擇合適的超參數(shù)。盡管Sun等[43]將骨干網(wǎng)絡(luò)部分和興趣區(qū)域池化部分作為類別無關(guān)組件,其余部分作為類別相關(guān)組件,通過微調(diào)獲得了一定的性能提升,但這種劃分仍缺乏足夠的理論和實驗支撐。
1.2.6 基于集成的方法
不少研究表明,采取單一的小樣本目標(biāo)檢測方法已經(jīng)越來越難獲得性能的提升,一些學(xué)者試圖尋找新的突破口,借鑒不同方法的優(yōu)點,提出了基于集成的方法。Li等[11]將用于余弦相似度度量的興趣區(qū)域向量和類別注意力向量按通道進行正則化處理,作為新的度量方式,首次提出了元學(xué)習(xí)和度量學(xué)習(xí)相集成的方法。Zhu等[29]將視覺信息融入語義關(guān)系并在語義空間進行關(guān)系推理,再將經(jīng)過關(guān)系推理增強后的語義關(guān)系集成到基于微調(diào)的方法當(dāng)中,可以看作是度量學(xué)習(xí)與基于微調(diào)的方法的結(jié)合,相比于直接微調(diào)的方法,性能獲得了一定的提升。Han等[44]提出了一種集成元學(xué)習(xí)和模型結(jié)構(gòu)的方法,在元學(xué)習(xí)方法的基礎(chǔ)上,構(gòu)建并行檢測模型,分別用于檢測基類和新類,對于新類檢測通道分別提出了原型匹配區(qū)域建議網(wǎng)絡(luò)和原型匹配分類器兩個模塊,專門負責(zé)新類檢測。Fan等[45]在TFA[9]的基礎(chǔ)上提出一種并聯(lián)結(jié)構(gòu)分別用于檢測基類和新類,并參照TFA[9]的微調(diào)方法對新類檢測分支進行微調(diào),在學(xué)習(xí)新類知識的同時避免了對基類知識的遺忘。
基于集成的方法在小樣本目標(biāo)檢測領(lǐng)域是一種相對新穎的解決思路,能夠一定程度上汲取不同方法的優(yōu)點,從不同角度實現(xiàn)模型檢測性能的提升,達到聯(lián)合制勝的效果。但另一方面,集成的方法往往會帶來更大的計算量,導(dǎo)致模型檢測速度下降,如何在精度和速度之間取得平衡也是一個值得關(guān)注的問題。
目前小樣本圖像目標(biāo)檢測主要利用PASCAL VOC[46]和MSCOCO[47]兩個公開數(shù)據(jù)集作為實驗數(shù)據(jù)集,進行算法驗證和分析對比,還有部分文獻[8,11]采用了FSOD[8]數(shù)據(jù)集。表2展示了不同數(shù)據(jù)集的基本統(tǒng)計信息。其中,PASCAL VOC數(shù)據(jù)集主要有VOC 2007和VOC 2012兩個版本。該數(shù)據(jù)集可用于圖像分類、目標(biāo)檢測、語義分割以及人體部位識別等4類任務(wù)。按目標(biāo)類別劃分為交通工具、房屋設(shè)施、動物、人4個大類,共20個小類。
表2 PASCAL VOC、MSCOCO及FSOD數(shù)據(jù)集詳情匯總Table 2 Summary of PASCAL VOC,MSCOCO and FSOD datasets
MSCOCO數(shù)據(jù)集是由微軟開發(fā)維護的大型圖像數(shù)據(jù)集,目前主要有MSCOCO 2014和MSCOCO 2017兩個版本。MSCOCO數(shù)據(jù)集從數(shù)據(jù)收集層面將數(shù)據(jù)集分為標(biāo)志性對象圖像、標(biāo)志性場景圖像和非標(biāo)志性場景圖像三部分,共91個分類。用于檢測的目標(biāo)類別總共有80個,其中涵蓋了PASCAL VOC數(shù)據(jù)集的20個類別。
FSOD數(shù)據(jù)集由騰訊優(yōu)圖實驗室和香港科技大學(xué)于2020年公布,是專門構(gòu)建的小樣本圖像目標(biāo)檢測的公開數(shù)據(jù)集,來源于ImageNet和Open Image兩個數(shù)據(jù)集,涵蓋1 000個類別,共66 502張圖像和182 000個標(biāo)注框。
文獻[16]首次詳細介紹了PASCAL VOC和MSCOCO數(shù)據(jù)集劃分設(shè)置,在之后的小樣本目標(biāo)檢測研究中,基本沿用了文獻[16]的數(shù)據(jù)集設(shè)置方式。對于PASCAL VOC數(shù)據(jù)集,采用3種不同的類別分組,每種分組按照15個類別作為基類,剩余5個類別作為新類進行設(shè)置;對于MSCOCO數(shù)據(jù)集則選擇與VOC數(shù)據(jù)集類別重合的20個類作為新類,剩余80個類別作為基類。對于FSOD數(shù)據(jù)集則按照文獻[8]的實驗設(shè)置,選擇與其他類別相似度較小的200類作為新類,其余800類作為基類。訓(xùn)練過程中,對于基類,均提供全部圖片及標(biāo)注信息,對于新類,則根據(jù)1/2/3/5/10-shot(VOC)或者10/30-shot(MSCOCO)等不同的實驗設(shè)置選取相應(yīng)的圖片及標(biāo)注信息。
小樣本圖像目標(biāo)檢測訓(xùn)練過程,通常采用兩階段訓(xùn)練方式,在第一個訓(xùn)練階段將具有充足標(biāo)注樣本的基類作為輸入,采用指定的學(xué)習(xí)率,對模型進行一定輪次預(yù)訓(xùn)練,第二階段稱作微調(diào)階段,利用新類或者相近數(shù)量的新類和基類(保持類別平衡)對模型進行微調(diào)。
就輸入方式而言,目前主要有兩種方式,一種是常規(guī)目標(biāo)檢測輸入方式,即以批處理的方式輸入,基于數(shù)據(jù)增強、微調(diào)及模型結(jié)構(gòu)的方法常采用這種方式。另一種是采用任務(wù)式輸入方式,將輸入圖像區(qū)分為查詢集Q={(Iq,Mq)}和支持集S={(Is,Ms)}。其中Iq、Is分別表示查詢集和支持集圖像,Mq、Ms分別表示相應(yīng)圖像所對應(yīng)的標(biāo)注信息,查詢集每張圖像可能包含多個類別目標(biāo),而支持集每張圖像只包含一個有效目標(biāo),一般由訓(xùn)練集圖像按標(biāo)注框進行裁剪或者掩碼處理得到。單次任務(wù)可表示為:
在第一個訓(xùn)練階段,Iq∈Db,Is∈Db,微調(diào)階段(基于元學(xué)習(xí)的方法中稱作元測試階段),Iq∈{Db?Dn},Is={Db?Dn},測試階段(或稱推理階段),Iq∈T,Is∈{Db?Dn}?;诙攘繉W(xué)習(xí)和元學(xué)習(xí)的方法通常采用這種方式。
小樣本圖像目標(biāo)檢測性能評估與常規(guī)目標(biāo)檢測性能評估類似,均基于準(zhǔn)確度-召回率曲線計算平均精度均值(mean average precision,mAP)。
一般來講,準(zhǔn)確率和召回率不能同時達到最優(yōu)值,單獨使用準(zhǔn)確率或者召回率并不能很好地反應(yīng)模型的檢測性能,因此,檢測模型平均精度值(average precision,AP)表示模型對某一類目標(biāo)的檢測性能優(yōu)劣。AP值計算可以通過對準(zhǔn)確度-召回率曲線(precisionrecall curve)積分實現(xiàn)。以召回率為x軸,準(zhǔn)確度為y軸繪制PR曲線(實際計算中需要進行插值操作),曲線下方的面積大小即為AP值。計算公式為:
對于多類別目標(biāo)檢測,使用mAP進行性能評估。計算公式為:
其中,APi表示第i個類別的平均精度值,N表示總類別數(shù)。對于MSCOCO數(shù)據(jù)集,除上述指標(biāo)外,部分模型[9-10,16,33]還用到了AP、AP50、AP75、Aps、APm、APl、AR1、AR10、AR100、ARs、ARm、ARl等指標(biāo)。其中AP、AP50是最常用的兩個指標(biāo)。另外Chen等[48]將檢測速度FPS(frame per second)也考慮在內(nèi),綜合進行性能評估。
與常規(guī)目標(biāo)檢測算法性能評估不同之處在于,除總體評價指標(biāo)AP外,小樣本圖像目標(biāo)檢測算法還區(qū)分基類平均精度值(APbase)和新類平均精度值(APnovel)分別進行性評估與對比。
為了對比不同方法的性能,本節(jié)從每類方法中選取其中比較經(jīng)典的模型,并利用PASCAL VOC數(shù)據(jù)集在分組1(將鳥類、公交車、牛、摩托車、沙發(fā)作為新類,其余類別作為基類)條件下,使用論文作者公布的代碼及參數(shù)配置進行了實驗驗證,表3展示了幾種典型的小樣本檢測模型在VOC數(shù)據(jù)集上的性能對比,表中加粗部分表示對應(yīng)設(shè)置下的最優(yōu)結(jié)果。為了盡可能降低隨機性,所有的實驗結(jié)果均采用重復(fù)運行6次后的均值作為最終的結(jié)果。
表3 幾種典型的小樣本目標(biāo)檢測模型檢測性能對比Table 3 Comparison of detection performance of several typical few-shot object detection models%
從驗證結(jié)果可以看出,首先,F(xiàn)SCE[43]、MPSR[10]、GFSD[45]在不同設(shè)置下檢測精度相對要優(yōu)于其他模型,并且FSCE與MPSR檢測結(jié)果更接近。主要原因可能是由于,一方面,F(xiàn)SCE、MPSR和GFSD均采用FRCN+FPN結(jié)構(gòu)作為基礎(chǔ)框架,分層對目標(biāo)進行預(yù)測,更有益于目標(biāo)檢測;另一方面,F(xiàn)SCE及MPSR定位器部分結(jié)構(gòu)相似,分類器部分則通過不同方式進行了改進。其次,大部分模型采用了Faster R-CNN或者帶有FPN結(jié)構(gòu)的Faster R-CNN作為基礎(chǔ)框架,而且整體性能上要優(yōu)于基于一段式的SSD算法模型,這是因為相比于一段式的SSD算法,兩段式的Faster R-CNN,在常規(guī)監(jiān)督學(xué)習(xí)的目標(biāo)檢測中就具有更好的檢測精度。而且,兩段式檢測算法中候選區(qū)域網(wǎng)絡(luò)(RPN)能夠產(chǎn)生類別無關(guān)的候選框,微調(diào)階段可以將更多的注意力用于類別相關(guān)部分的參數(shù)優(yōu)化,從而有效減少了微調(diào)階段優(yōu)化參數(shù)數(shù)量,更有利于小樣本條件下模型優(yōu)化。另外,結(jié)合圖6中樣本數(shù)量與模型性能的關(guān)系圖曲線可以看出,在一定范圍內(nèi),隨著支持樣本數(shù)的增加,各種方法的檢測性能均有所提升,表明更多的支持樣本會引入更多的先驗信息,提升小樣本目標(biāo)檢測的性能。最后,不同方法在5-way 5-shot條件下準(zhǔn)確率均超過42%,相對于隨機檢測(目標(biāo)分類部分為10分類問題,僅分類任務(wù)上隨機正確率為10%)性能有明顯提升,表明小樣本圖像檢測在技術(shù)上是可行的,但性能還有待提升。
圖6支持樣本數(shù)對模型性能的影響Fig.6 Influence of support images count on model performance
高分辨率的遙感圖像作為信息化條件下情報信息的重要來源,將在未來戰(zhàn)爭中發(fā)揮重要作用。信息化條件下戰(zhàn)場態(tài)勢瞬息萬變,單純依靠人力從海量的遙感圖像中獲取戰(zhàn)場信息,已經(jīng)不能滿足實時感知的需要,從海量遙感圖像中快速獲取目標(biāo)信息將成為提高戰(zhàn)場感知能力的關(guān)鍵。由于軍事領(lǐng)域內(nèi)用于目標(biāo)檢測的標(biāo)注數(shù)據(jù)集非常有限,同時人工標(biāo)注數(shù)據(jù)難度高、代價大,并且針對新的檢測對象,常規(guī)的目標(biāo)檢測方法都需要大量的時間在新收集的數(shù)據(jù)集上對模型重新進行訓(xùn)練,而小樣本圖像目標(biāo)檢測通過特殊的模型和訓(xùn)練機制設(shè)計,在已有大樣本數(shù)據(jù)集上完成預(yù)訓(xùn)練后,對新的檢測目標(biāo),只需要提供少量的樣本數(shù)據(jù),對模型進行在線微調(diào),無需將原始模型下線,基于海量數(shù)據(jù)重新訓(xùn)練,數(shù)據(jù)依賴小,且便于部署,適應(yīng)瞬息萬變的戰(zhàn)場環(huán)境,將在未來軍事遙感領(lǐng)域發(fā)揮重要作用。
圖像檢索是在給定特定實例(特定目標(biāo)、場景等)的支持圖像的情況下,從數(shù)據(jù)庫圖像中找到包含相同實例的圖像。這一過程與小樣本圖像目標(biāo)檢測中基于度量學(xué)習(xí)的1-shot檢測方法不謀而合,只需提供1張用于檢索的支持圖像,就可以實現(xiàn)對查詢圖像的檢測和檢索。目前圖像檢索主要采用基于尺度不變特征變換(scale invariant feature transform,SIFT)及基于CNN的方法,從檢索結(jié)果來看,存在大量的不相關(guān)圖像,并且難以實現(xiàn)一圖多目標(biāo)情景的檢索。另一方面,從圖像檢索的流程來看,目標(biāo)檢測與圖像檢索有許多相似之處,都可以看作是從圖像中查詢目標(biāo)。就檢索準(zhǔn)確度而言,用目標(biāo)檢測的方法可以實現(xiàn)更加精準(zhǔn)的檢索,但就檢測任務(wù)而言,常規(guī)的目標(biāo)檢測方法只能檢測指定類別的目標(biāo),顯然難以完成多樣化的圖像檢索任務(wù),而小樣本圖像目標(biāo)檢測技術(shù)在預(yù)先定義類別基礎(chǔ)上,支持用戶后期自定義新類別,具備可持續(xù)學(xué)習(xí)和在線學(xué)習(xí)能力。
殘次品檢測是工業(yè)生產(chǎn)中的一個重要環(huán)節(jié),以往只能依靠人工進行檢測,這樣的檢測手段顯然難以滿足自動化生產(chǎn)的需要,而且在一些不適合人工作的危險環(huán)境及人工視覺難以滿足的場合,迫切需要實現(xiàn)自動化檢測。Wang等[49]針對布匹缺陷提出一種基于深度學(xué)習(xí)的自動檢測模型,Mei等[50]采用SSD檢測網(wǎng)絡(luò)實現(xiàn)了對緊固件缺陷的自動檢測。盡管這些方法能夠?qū)崿F(xiàn)對殘次品的檢測,但需要大量的殘次品標(biāo)注樣本對模型進行訓(xùn)練。實際工業(yè)生產(chǎn)中往往難以收集大量的缺陷樣本,而小樣本條件下的目標(biāo)檢測,不僅節(jié)約大量的人力成本,也能有效提高生產(chǎn)自動化程度。
除了前文定義的主流的小樣本圖像目標(biāo)檢測外,還有一些非常類似的檢測任務(wù),例如弱監(jiān)督小樣本目標(biāo)檢測和域適應(yīng)小樣本目標(biāo)檢測等。為了便于區(qū)分,這里將其統(tǒng)稱為廣義小樣本目標(biāo)檢測。
對于集合Dn,若其中的任意元素(xi,yi)∈Dn,滿足即對于新類,只提供目標(biāo)的正樣本圖像及其類別標(biāo)簽信息,而不是常規(guī)設(shè)置中的整張圖像和局部標(biāo)注框信息,這樣的小樣本目標(biāo)檢測稱作弱監(jiān)督小樣本目標(biāo)檢測。
相比于主流的小樣本目標(biāo)檢測,弱監(jiān)督小樣本目標(biāo)檢測,無法直接使用支持樣本對網(wǎng)絡(luò)模型進行微調(diào),條件更為苛刻,更具挑戰(zhàn)性,其方法更趨向于弱監(jiān)督目標(biāo)檢測的方法。Hu等[51]利用圖神經(jīng)網(wǎng)絡(luò)及空間相似性搜索提出SILCO模型,首次在少量樣本條件下實現(xiàn)弱監(jiān)督目標(biāo)檢測,可以看作弱監(jiān)督小樣本目標(biāo)檢測的初探,但該模型只適用于1-way 5-shot的場景。Karlinsky等[52]針對SILCO的限制提出了一種星網(wǎng)(StarNet)模型,通過查詢和支持圖像之間的幾何匹配進行定位和分類,實現(xiàn)了真正意義上的弱監(jiān)督小樣本目標(biāo)檢測,可以作為該領(lǐng)域的基準(zhǔn)模型。Shaban等[53]基于不同類別特征在嵌入空間中形成單個聚類的假設(shè),利用馮·米賽斯-費舍爾分布(von Mises-Fisher(vMF)distribution),設(shè)計了方向統(tǒng)計模型,通過歸納偏差來解決小樣本學(xué)習(xí)中的過擬合問題。
就弱監(jiān)督小樣本目標(biāo)檢測目前的研究現(xiàn)狀而言,尚處于探索和起步階段,模型性能與主流的全監(jiān)督小樣本目標(biāo)檢測相比還有一定差距,在缺乏精確的實例監(jiān)督信息的條件下,模型容易將局部目標(biāo)作為目標(biāo)整體,導(dǎo)致目標(biāo)檢測精度下降,這也是弱監(jiān)督目標(biāo)檢測容易出現(xiàn)的問題[54],未來還需要進一步研究和探索。
如圖7(a)所示,對于主流的小樣本目標(biāo)檢測,其基類和新類類別標(biāo)簽不同,但屬于同一數(shù)據(jù)域,而域適應(yīng)小樣本目標(biāo)檢測基類和新類類別標(biāo)簽相同,但屬于不同的數(shù)據(jù)域,如可見光圖像和線條簡筆畫、卡通圖像等,如圖7(b)所示,其數(shù)據(jù)特征分布相差很大。同時,域適應(yīng)小樣本目標(biāo)檢測通常使用特有的數(shù)據(jù)集,如Cityscapes[55]、Foggy Cityscapes[56]、SIM10k[57]、KITTI[58]等數(shù)據(jù)集。
圖7 主流的小樣本目標(biāo)檢測和域適應(yīng)小樣本目標(biāo)檢測對比Fig.7 Comparision of general few-shot object detection and domain adaption few-shot object detection
自Chen等[59]首次將域適應(yīng)和目標(biāo)檢測結(jié)合以來,不少學(xué)者開始關(guān)注域適應(yīng)目標(biāo)檢測研究,如Inoue等[60]結(jié)合CycleGan[61]提出一種弱監(jiān)督域適應(yīng)目標(biāo)檢測方法,并構(gòu)建了用于域適應(yīng)目標(biāo)檢測的Clipart1k、Watercolor2k和Comic2k三個數(shù)據(jù)集。Saito等[62]通過分層對齊的方式在不同特征層分別進行域適應(yīng),實現(xiàn)較好的效果。Learned-Miller等[63]利用CycleGan[61]在源域和目標(biāo)域之間生成多個中間域圖像,實現(xiàn)了數(shù)據(jù)增強的效果。盡管常規(guī)條件下域適應(yīng)目標(biāo)檢測已經(jīng)有不少研究成果,但小樣本條件下的域適應(yīng)目標(biāo)檢測仍處于起步階段,Wang等[64]在Faster R-CNN的基礎(chǔ)上通過引入源和目標(biāo)配對機制以及對源特征正則化的方法實現(xiàn)了首個真正意義上的域適應(yīng)小樣本目標(biāo)檢測。
從研究內(nèi)容而言,域適應(yīng)小樣本目標(biāo)檢測與主流的小樣本目標(biāo)檢測存在一定的互補關(guān)系,該領(lǐng)域研究能夠進一步拓寬小樣本目標(biāo)檢測的研究范圍。但就目前研究現(xiàn)狀而言,域適應(yīng)小樣本目標(biāo)檢測研究社區(qū)還不完善,沒有設(shè)定統(tǒng)一的數(shù)據(jù)集以及相關(guān)的類別設(shè)置和劃分,對于算法性能評估仍缺乏相對統(tǒng)一的衡量標(biāo)準(zhǔn),這些問題在今后相關(guān)研究中亟待進一步解決。
單純依靠大規(guī)模標(biāo)注樣本的目標(biāo)檢測方法無法適應(yīng)不斷變化的新情況、新任務(wù),小樣本目標(biāo)檢測由于對數(shù)據(jù)依賴小,能夠利用少量的標(biāo)注樣本實現(xiàn)在線學(xué)習(xí),有較強的靈活性和可擴展性。相比于強監(jiān)督式目標(biāo)檢測,不僅能夠有效降低標(biāo)注樣本收集成本,而且能適用于樣本稀缺的場景,更加符合實際應(yīng)用需求,但就目前研究現(xiàn)狀而言,還面臨不少挑戰(zhàn),主要體現(xiàn)在模型泛化能力、相關(guān)理論研究和模型結(jié)構(gòu)三個方面,這里對其進行分析并探討相關(guān)的應(yīng)對思路。
一個成熟的小樣本圖像目標(biāo)檢測算法應(yīng)該具備較好的泛化能力,而從目前研究現(xiàn)狀來看,除人臉識別認證領(lǐng)域外,模型泛化能力距實際應(yīng)用還有較大差距。主要體現(xiàn)在兩個方面,一是相比于大樣本目標(biāo)檢測,現(xiàn)有的小樣本目標(biāo)檢測算法在檢測性能上還有不小差距;另一方面,現(xiàn)有的小樣本目標(biāo)檢測算法,主要針對同域不同類或者同類不同域問題,對于新類和基類在不同數(shù)據(jù)集上,比如,基類屬于MSCOCO或者PASCAL VOC等自然景物圖像數(shù)據(jù)集,新類來自于電子商務(wù)商標(biāo)或者遙感圖像數(shù)據(jù)集,類似這種不同類不同域問題還缺乏行之有效的方法。針對這些問題,可以從以下兩個方面著手解決:一方面將類別信息融入候選區(qū)域網(wǎng)絡(luò),提出更加有效的候選區(qū)域?,F(xiàn)有的小樣本圖像目標(biāo)檢測算法,大多數(shù)將分類和定位作為兩個子任務(wù)。對于分類部分,主要借鑒小樣本學(xué)習(xí)的思路和方法,而對于定位部分,通常采用候選區(qū)域與類別無關(guān)的思想。但在實際檢測過程中,對于同類目標(biāo),在不同的檢測任務(wù)中,產(chǎn)生候選區(qū)域時,可能有時作為前景,有時作為背景,在這種情況下,模型泛化能力顯然會受到影響。研究將類別信息融入候選區(qū)域網(wǎng)絡(luò),產(chǎn)生更有針對性的候選區(qū)域,將有效提高模型的泛化能力。
另一方面,考慮將主流的小樣本目標(biāo)檢測的方法和廣義小樣本目標(biāo)檢測方法相融合。首先在實際場景中往往圖像易得而標(biāo)注信息難獲取,所以在有限標(biāo)注信息作為監(jiān)督信息的條件下,可以考慮使用弱監(jiān)督小樣本目標(biāo)檢測的方法從無標(biāo)注的圖像中提取同類目標(biāo)特征作為弱監(jiān)督輔助信息,以便檢測器能獲得更多的先驗知識,文獻[65]所提出的方法一定程度上體現(xiàn)了這樣一種思路。其次考慮將域適應(yīng)小樣本目標(biāo)檢測方法與主流的小樣本目標(biāo)檢測方法相融合,研究解決不同域不同類目標(biāo)在小樣本條件下的檢測。
通常小樣本圖像分類只需要關(guān)注與類別相關(guān)的語義信息,而小樣本圖像目標(biāo)檢測,不僅要關(guān)注與類別相關(guān)的語義信息,還要關(guān)注位置信息,因此,依靠小樣本學(xué)習(xí)的相關(guān)理論指導(dǎo)小樣本圖像目標(biāo)檢測進行算法設(shè)計和實驗存在一定的局限性,需要針對小樣本目標(biāo)檢測的特有問題開展理論研究。比如在樣本數(shù)據(jù)缺乏的情況下如何更有效地提取目標(biāo)的位置信息,如何在提取高層語義信息的過程中,更多地保留位置信息,學(xué)習(xí)過程中,如何抑制背景信息,增強關(guān)注信息等??茖W(xué)的理論基礎(chǔ)將更有益于小樣本圖像目標(biāo)檢測技術(shù)的發(fā)展。
現(xiàn)有的小樣本圖像目標(biāo)檢測算法普遍采用兩段式的Faster R-CNN作為基礎(chǔ)框架,模型相對復(fù)雜,不便于部署,而近年來一段式目標(biāo)檢測算法由于兼顧了精度和速度兩個方面的性能指標(biāo)而得到廣泛關(guān)注。2016年Joseph等開創(chuàng)性地設(shè)計出了YOLO檢測模型以來,模型不斷升級更新,檢測精度、速度不斷提升,而參數(shù)量不斷減小。特別是2020年6月,Ultralytics發(fā)布的YOLOv5,最小模型參數(shù)量不到30 MB,在保持相對不錯的檢測精度前提下,能夠?qū)崿F(xiàn)對視頻信息的實時檢測且便于部署,這對于小樣本圖像目標(biāo)檢測算法提供了新的機遇,未來小樣本圖像目標(biāo)檢測算法可以借鑒YOLO算法的成功經(jīng)驗從精度和速度兩個方面提升模型的性能。
本文從主流的小樣本圖像目標(biāo)檢測的問題定義出發(fā),介紹了當(dāng)前主要方法及實驗設(shè)計并指出了小樣本圖像目標(biāo)檢測潛在的應(yīng)用場景,在此基礎(chǔ)上,對廣義小樣本目標(biāo)檢測做了簡要闡述,最后基于當(dāng)前的研究現(xiàn)狀分析了小樣本圖像目標(biāo)檢測技術(shù)面臨的挑戰(zhàn)并探討了應(yīng)對方案。雖然目前小樣本圖像目標(biāo)檢測算法還不夠成熟,模型泛化性能尚有待提高,但隨著目標(biāo)檢測技術(shù)的發(fā)展及小樣本條件下的目標(biāo)檢測應(yīng)用需求牽引,未來必然會催生更多更成熟的研究成果。