羅善威,陳 黎
(1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢,430065;2. 武漢科技大學(xué)智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢,430065)
一般的監(jiān)督學(xué)習(xí)需要大量的樣本來(lái)對(duì)模型進(jìn)行迭代訓(xùn)練,但是很多特殊場(chǎng)景下的樣本是難以收集的,如醫(yī)療領(lǐng)域、安防領(lǐng)域等,因此,小樣本學(xué)習(xí)成為機(jī)器學(xué)習(xí)研究領(lǐng)域中亟待解決的熱點(diǎn)問(wèn)題。現(xiàn)階段小樣本學(xué)習(xí)方法主要分為三大類:①基于數(shù)據(jù)增強(qiáng)的方法。常用的數(shù)據(jù)增強(qiáng)技術(shù)通過(guò)對(duì)圖像進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)、平移和縮放等操作來(lái)實(shí)現(xiàn)訓(xùn)練集的擴(kuò)充。同時(shí),研究人員也設(shè)計(jì)了各種新的數(shù)據(jù)增強(qiáng)策略[1-3]。②基于遷移學(xué)習(xí)的方法。遷移學(xué)習(xí)是把一個(gè)領(lǐng)域(源域)的知識(shí)遷移到另外一個(gè)領(lǐng)域(目標(biāo)域),使得在目標(biāo)域也能夠取得良好的學(xué)習(xí)效果。在遷移學(xué)習(xí)中需要解決的主要問(wèn)題是領(lǐng)域自適應(yīng)問(wèn)題[4-5]。③基于元學(xué)習(xí)的方法。元學(xué)習(xí)具有學(xué)會(huì)學(xué)習(xí)的能力,即利用以往的知識(shí)和經(jīng)驗(yàn)來(lái)指導(dǎo)新任務(wù)的學(xué)習(xí),其主要方法之一為基于度量的元學(xué)習(xí)。度量學(xué)習(xí)的基本思想是學(xué)習(xí)數(shù)據(jù)之間的相似性,而孿生網(wǎng)絡(luò)(Siamese Network)在衡量?jī)蓚€(gè)輸入的相似程度上具有優(yōu)勢(shì),在深度學(xué)習(xí)相關(guān)領(lǐng)域取得了較好的應(yīng)用效果。
Koch等[6]將孿生網(wǎng)絡(luò)應(yīng)用于小樣本學(xué)習(xí),孿生網(wǎng)絡(luò)的兩個(gè)子網(wǎng)絡(luò)共享權(quán)值,通過(guò)計(jì)算兩個(gè)輸入的相似度進(jìn)行二分類。在圖像識(shí)別領(lǐng)域,Bertinetto等[7]通過(guò)構(gòu)建一個(gè)學(xué)習(xí)網(wǎng)絡(luò)來(lái)對(duì)孿生網(wǎng)絡(luò)中的參數(shù)進(jìn)行學(xué)習(xí),并采用因子分解機(jī)來(lái)解決網(wǎng)絡(luò)參數(shù)過(guò)多的問(wèn)題。在細(xì)粒度識(shí)別領(lǐng)域,細(xì)粒度的手動(dòng)標(biāo)記非常耗時(shí)且需要特定領(lǐng)域的廣泛專業(yè)知識(shí),Yuan等[8]通過(guò)孿生網(wǎng)絡(luò)的二分類特性來(lái)解決細(xì)粒度識(shí)別中的標(biāo)簽缺乏和樣本不均衡問(wèn)題。對(duì)人體跌倒進(jìn)行動(dòng)作識(shí)別時(shí),Droghini等[9]提出通過(guò)孿生網(wǎng)絡(luò)來(lái)計(jì)算不同事件類別信號(hào)之間的差異,并且在分類階段只需要使用一個(gè)人體跌倒信號(hào)作為模板。在自然語(yǔ)言處理中,O’Neill等[10]采用孿生網(wǎng)絡(luò)解決單詞的相關(guān)性問(wèn)題,并同時(shí)運(yùn)用了遷移學(xué)習(xí)策略。在半監(jiān)督學(xué)習(xí)領(lǐng)域,Motiian等[11]將孿生網(wǎng)絡(luò)與生成對(duì)抗網(wǎng)絡(luò)相結(jié)合,最大化不同類樣本在目標(biāo)空間的差異,同時(shí)也最小化同類樣本在目標(biāo)空間的差異。孿生網(wǎng)絡(luò)在目標(biāo)跟蹤領(lǐng)域中的應(yīng)用報(bào)道較多。Bertinetto等[12]對(duì)傳統(tǒng)孿生網(wǎng)絡(luò)中相似度計(jì)算方法進(jìn)行改進(jìn),提出了新方法SiamFC,對(duì)參考圖像特征圖和場(chǎng)景圖像特征圖進(jìn)行卷積計(jì)算來(lái)得到相似度矩陣。Li等[13]針對(duì)目標(biāo)跟蹤中的精度問(wèn)題和實(shí)時(shí)性問(wèn)題,提出了新的孿生網(wǎng)絡(luò)結(jié)構(gòu)SiamRPN,其包含用于特征提取的孿生網(wǎng)絡(luò)和候選區(qū)域生成網(wǎng)絡(luò),后者由分類和回歸兩條分支組成。Wang等[14]提出用掩膜對(duì)目標(biāo)進(jìn)行跟蹤的SiamMask方法,該方法在SiamRPN的基礎(chǔ)上引入了Mask分支,通過(guò)掩膜生成旋轉(zhuǎn)框,從而提升目標(biāo)跟蹤的精度。Li等[15]用更深的網(wǎng)絡(luò)結(jié)構(gòu)去克服孿生網(wǎng)絡(luò)中平移不變性的限制,即提出一種基于層次的互相關(guān)操作特征聚集結(jié)構(gòu),該結(jié)構(gòu)有助于模型從多個(gè)層次的特征中預(yù)判出相似度。
本文采用度量學(xué)習(xí)方法來(lái)解決小樣本學(xué)習(xí)問(wèn)題,針對(duì)傳統(tǒng)孿生網(wǎng)絡(luò)難以確定目標(biāo)定位的問(wèn)題,為了同時(shí)提取目標(biāo)的相似度特征和位置信息,提出一種基于雙重相似度(Double Similarity)計(jì)算和孿生網(wǎng)絡(luò)(Siamese Network)的小樣本實(shí)例分割模型(命名為DSSN)。DSSN將孿生網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)相結(jié)合,并在特征相似度計(jì)算階段構(gòu)建雙重相似度計(jì)算網(wǎng)絡(luò)來(lái)獲得特征圖的空域相似度和頻域相似度,然后將相似度特征圖輸入實(shí)例分割網(wǎng)絡(luò)獲得最后的分割結(jié)果。
DSSN模型有兩個(gè)輸入,分別是參考圖像和場(chǎng)景圖像,輸出為參考圖像所屬的類別在場(chǎng)景圖像中的邊界框和形狀掩碼。
本文算法結(jié)構(gòu)如圖1所示,其采用孿生殘差網(wǎng)絡(luò)(Siamese ResNet-101)作為骨干網(wǎng)絡(luò),對(duì)參考圖像和場(chǎng)景圖像進(jìn)行特征提取。輸出每一個(gè)殘差塊(Residual Block)的計(jì)算結(jié)果,得到兩組不同的特征圖,分別對(duì)應(yīng)于參考圖像和場(chǎng)景圖像。將這兩組特征圖輸入孿生特征金字塔得到語(yǔ)義更強(qiáng)的兩組特征圖,然后輸入到雙重相似度計(jì)算網(wǎng)絡(luò)對(duì)空域特征和頻域特征進(jìn)行計(jì)算和融合。最后將得到的空域和頻域特征圖分別輸入實(shí)例分割階段的三個(gè)分支進(jìn)行計(jì)算:區(qū)域提取網(wǎng)絡(luò)(RPN)、邊界框的分類和回歸(CLS+Bounding Box)以及掩碼分支(Mask)。
圖1 本文算法的網(wǎng)絡(luò)結(jié)構(gòu)
本文骨干網(wǎng)絡(luò)Siamese ResNet-101以孿生網(wǎng)絡(luò)為基本結(jié)構(gòu),并將殘差網(wǎng)絡(luò)(ResNet-101)[16]作為基礎(chǔ)網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)通過(guò)增加跳躍結(jié)構(gòu)來(lái)直接連接淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò),從而能夠有效解決隨著網(wǎng)絡(luò)層數(shù)的加深而導(dǎo)致的梯度彌散問(wèn)題。
假設(shè)第一個(gè)殘差單元的輸入為xl,輸出為xl+1,則殘差單元的結(jié)構(gòu)可以表示為:
xl+1=xl+F(xl,wl)
(1)
F(xl,wl)=wlσ(wl-1xl-1)
(2)
式中:F(xl,wl)代表卷積計(jì)算函數(shù);wl代表卷積層的參數(shù);σ(·)代表激活函數(shù)。所以對(duì)于任意單元xL,有:
(3)
假設(shè)損失函數(shù)為J,可以得到:
(4)
本文采用孿生特征金字塔(SFPN)來(lái)解決實(shí)例分割任務(wù)中常出現(xiàn)的多尺度問(wèn)題。SFPN通過(guò)改變網(wǎng)絡(luò)連接,在基本不增加原有模型計(jì)算量的前提下大幅提升了模型性能。對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,不同深度對(duì)應(yīng)著不同層次的語(yǔ)義特征,低層特征語(yǔ)義信息比較少,但是對(duì)應(yīng)的目標(biāo)位置信息準(zhǔn)確,高層特征語(yǔ)義信息比較豐富,但是對(duì)應(yīng)的目標(biāo)位置信息比較粗略,所以需要構(gòu)建特征金字塔來(lái)對(duì)低層語(yǔ)義特征和高層語(yǔ)義特征進(jìn)行融合。
如圖2所示,孿生特征金字塔提取孿生殘差網(wǎng)絡(luò)輸出的兩組特征圖,每組特征圖對(duì)應(yīng)不同語(yǔ)義層次殘差塊的輸出。場(chǎng)景圖像和參考圖像對(duì)應(yīng)的特征圖分別記為Ik和Rk(k=2,3,4,5)。將Ik和Rk分別轉(zhuǎn)化為結(jié)合上、下層語(yǔ)義特征的特征圖IFk和RFk(k=2,3,4,5,6)。孿生特征金字塔中上、下層語(yǔ)義特征結(jié)合的計(jì)算公式如下:
(5)
式中:conv代表卷積操作;sum代表元素的對(duì)位求和操作;upsample代表上采樣操作。RFk的計(jì)算公式同IFk。
圖2 孿生特征金字塔結(jié)構(gòu)
雙重相似度計(jì)算網(wǎng)絡(luò)DSN中的兩個(gè)子網(wǎng)絡(luò)分別為空域相似度計(jì)算網(wǎng)絡(luò)和頻域相似度計(jì)算網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入為孿生特征金字塔所提取的語(yǔ)義特征圖IFk和RFk,輸出為相似度特征圖Pk。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 雙重相似度計(jì)算網(wǎng)絡(luò)結(jié)構(gòu)
(1) 空域和頻域特征提取
為了對(duì)空域相似度計(jì)算網(wǎng)絡(luò)和頻域相似度計(jì)算網(wǎng)絡(luò)的輸入進(jìn)行不同語(yǔ)義特征的提取,本文采用卷積核大小為3×3的卷積層分別提取空域特征和頻域特征。
(2) 相似度計(jì)算方法
在空域相似度計(jì)算網(wǎng)絡(luò)中,先對(duì)參考圖像空域特征圖采用全局平均池化,然后通過(guò)兩個(gè)特征圖的空間距離來(lái)計(jì)算空域相似度。本文參照文獻(xiàn)[17],構(gòu)建fσ(x1,x2)來(lái)計(jì)算空域相似度:
(6)
式中:x1代表場(chǎng)景圖像的空域特征圖;x2代表參考圖像的空域特征圖;σ代表scale參數(shù);d(x1,x2)代表x1與x2的空間距離,本文采用L1距離公式,即d(x1,x2)=|x1-x2|。
為了減少特征圖的噪聲和模型的計(jì)算量,本文采用TopK算法對(duì)空域相似度特征圖進(jìn)一步提取,即選取K個(gè)均值最大的特征圖。
在頻域相似度計(jì)算網(wǎng)絡(luò)中,通過(guò)fφ(x1,x2)對(duì)場(chǎng)景圖像與參考圖像的頻域特征圖進(jìn)行卷積計(jì)算,然后經(jīng)過(guò)一個(gè)卷積核大小為1×1的卷積層得到場(chǎng)景圖像與參考圖像的頻域相似度。fφ(x1,x2)計(jì)算公式如下:
fφ(x1,x2)=x2*x1
(7)
式中:x1代表場(chǎng)景圖像的頻域特征圖;x2代表參考圖像的頻域特征圖;*代表以x2為卷積核對(duì)x1進(jìn)行卷積計(jì)算。
(3)相似度特征融合方法
在雙重相似度計(jì)算網(wǎng)絡(luò)的特征融合階段,本文采用的方法是將空間相似度和頻域相似度在特征通道這一維度上進(jìn)行合并,并將合并后的特征圖進(jìn)行卷積核大小為1×1的卷積計(jì)算,得到場(chǎng)景圖像與參考圖像的相似度特征圖Pk(k=2,3,4,5,6)。
DSSN模型中的實(shí)例分割網(wǎng)絡(luò)引入Mask R-CNN[18]中的區(qū)域提取網(wǎng)絡(luò)(RPN)、邊界框的分類和回歸(CLS+Bounding Box)以及掩碼分支(Mask)。
區(qū)域提取網(wǎng)絡(luò)(RPN)的輸入為特征金字塔輸出的特征圖,RPN的實(shí)質(zhì)是通過(guò)計(jì)算得到不同尺度的候選框,并對(duì)候選框進(jìn)行篩選。候選框的多尺度是通過(guò)Anchor來(lái)實(shí)現(xiàn)的。RPN基于Pk(k=2,3,4,5,6)這5個(gè)特征圖,通過(guò)前向傳播得到一個(gè)5n維的向量,這個(gè)向量代表5種不同尺度的Anchor,每種尺度又包含n個(gè)不同長(zhǎng)寬比例的Anchor,每個(gè)Anchor的相關(guān)參數(shù)包括Δx、Δy、Δh、Δw、p,其中,Δx代表橫坐標(biāo)相對(duì)于中心點(diǎn)的偏移,Δy代表縱坐標(biāo)相對(duì)于中心點(diǎn)的偏移,Δh代表高度相對(duì)于原Anchor高度的偏移,Δw代表寬度相對(duì)于原Anchor寬度的偏移,p為前、后景置信度。Anchor的相關(guān)參數(shù)計(jì)算公式如下:
(8)
式中:(x,y)代表Anchor的中心坐標(biāo);w和h分別代表Anchor的寬和高。當(dāng)Anchor修正完成后,會(huì)產(chǎn)生大量的Box,這時(shí)再根據(jù)每個(gè)Box的p值,使用非極大值抑制(NMS)算法即可過(guò)濾出較為精確的候選框。
獲取候選框之后,采用ROI Align算法直接從特征圖中裁剪出候選框?qū)?yīng)位置的特征,并將特征變換為統(tǒng)一的尺度。ROI Align算法在池化過(guò)程中引入了雙線性插值,將原先離散的池化操作變?yōu)檫B續(xù)的,使得映射后的坐標(biāo)值精度更高。
在得到候選框?qū)?yīng)的同一尺度的特征圖后,將其輸入CLS、Bounding Box、Mask等分支進(jìn)行后續(xù)的計(jì)算。對(duì)于CLS分支,通常采用全連接層和Softmax層來(lái)進(jìn)行類別預(yù)測(cè)。對(duì)于Bounding Box分支,通常對(duì)每個(gè)類別都回歸得出一個(gè)5維向量的修正值,修正過(guò)程與式(8)一致。對(duì)于 Mask分支,根據(jù)得到的目標(biāo)邊界框,通過(guò)全卷積神經(jīng)網(wǎng)絡(luò)(FCN)來(lái)得到目標(biāo)更為精準(zhǔn)的形狀掩碼信息。
DSSN模型的損失函數(shù)分別為:區(qū)域提取網(wǎng)絡(luò)的分類損失LRPN-cls、區(qū)域提取網(wǎng)絡(luò)的回歸損失LRPN-box、實(shí)例分割網(wǎng)絡(luò)的分類損失Lcls、實(shí)例分割網(wǎng)絡(luò)的回歸損失Lbox、實(shí)例分割網(wǎng)絡(luò)的分割損失Lmask。
由于模型在RPN網(wǎng)絡(luò)結(jié)構(gòu)中會(huì)產(chǎn)生大量的背景目標(biāo)而導(dǎo)致類別不平衡,所以本文將LRPN-cls設(shè)置為Focal Loss損失函數(shù)[19]。Focal Loss不僅可以解決正、負(fù)樣本的不均衡問(wèn)題,還可以平衡簡(jiǎn)單樣本和困難樣本,計(jì)算公式如下:
(9)
式中:y代表預(yù)測(cè)類別置信度;y*代表標(biāo)簽類別;α代表平衡因子;γ用于調(diào)節(jié)簡(jiǎn)單樣本權(quán)重降低的速率,當(dāng)γ=0時(shí),LRPN-cls即為交叉熵?fù)p失函數(shù),當(dāng)γ增加時(shí),調(diào)整因子(1-y)γ和yγ的影響也在增加。本文中設(shè)α=0.8、γ=2。
Lcls為二元交叉熵?fù)p失函數(shù),計(jì)算公式如下:
Lcls(y,y*)=
-[y*log(y)+(1-y*)log(1-y)]
(10)
LRPN-box與Lbox的計(jì)算公式相同,如下所示:
LRPN-box(t,t*)=Lbox(t,t*)=
(11)
(12)
式中:t代表預(yù)測(cè)邊界框;t*代表標(biāo)簽邊界框;(x,y)代表邊界框的中心點(diǎn);(w,h)代表邊界框的寬和高。
Lmask的計(jì)算公式如下:
(13)
式中:y代表分割結(jié)果圖;y*代表分割標(biāo)簽圖;(i,j)代表在分割圖上的每一個(gè)像素點(diǎn)的坐標(biāo)。
模型總的損失函數(shù)為L(zhǎng)RPN-cls、LRPN-box、Lcls、Lbox、Lmask的加權(quán)和:
Ltotal=2LRPN-cls+0.1LRPN-box+
2Lcls+0.5Lbox+Lmask
(14)
本文實(shí)驗(yàn)采用微軟公司發(fā)布的COCO數(shù)據(jù)集。COCO數(shù)據(jù)集包含20多萬(wàn)張標(biāo)注圖片,超過(guò)150萬(wàn)個(gè)對(duì)象實(shí)例,總計(jì)80個(gè)類別。本文將其中60個(gè)類別用于訓(xùn)練模型,另外20個(gè)類別用于檢驗(yàn)?zāi)P偷男颖緦?shí)例分割性能。為了盡可能減少在對(duì)類別進(jìn)行分配時(shí)所造成的隨機(jī)誤差,本文對(duì)COCO數(shù)據(jù)集中的80個(gè)類別進(jìn)行3次隨機(jī)分配,得到不同的3組訓(xùn)練集和驗(yàn)證集。驗(yàn)證集分別記為S1、S2、S3。
為了定量評(píng)估本文算法,采用COCO數(shù)據(jù)集中的通用指標(biāo)mAP來(lái)客觀評(píng)價(jià)實(shí)例分割效果, mAP值越大,表明算法的分割效果越好。
本文算法的實(shí)驗(yàn)環(huán)境詳細(xì)信息如下:
(1)硬件設(shè)備: CPU Intel Core i7-8700K;內(nèi)存16 GB;GPU Nvidia GeForce GTX 1080Ti。
(2)軟件設(shè)備: 操作系統(tǒng)64位Windows 10;Python 3.5;CUDA Toolkit 9.0;深度學(xué)習(xí)框架TensorFlow 1.8。
為了驗(yàn)證基于空域特征和頻域特征相結(jié)合的相似度計(jì)算方法的有效性,在3組不同的數(shù)據(jù)集上進(jìn)行測(cè)試,并與其他幾種相似度計(jì)算方法進(jìn)行了對(duì)比,包括:
(1) 基于空域特征的方法(SSSN):計(jì)算場(chǎng)景圖像特征圖與參考圖像特征圖在空間上的差異性,通過(guò)歐氏距離來(lái)對(duì)特征圖的相似性進(jìn)行度量。
(2) 基于頻域特征的方法(FSSN):計(jì)算場(chǎng)景圖像特征圖和參考圖像特征圖在頻域上的差異性,通過(guò)卷積計(jì)算方法來(lái)對(duì)特征圖的相似性進(jìn)行度量,即將參考圖像的特征圖作為卷積核對(duì)場(chǎng)景圖像的特征圖進(jìn)行卷積計(jì)算。
表1給出了不同相似度計(jì)算方法的實(shí)例分割性能指標(biāo)mAP。由表1可知,基于單一的空域特征或頻域特征的相似度計(jì)算方法的mAP值均低于本文方法對(duì)應(yīng)值。相比于SSSN和FSSN,本文方法在3組數(shù)據(jù)集上的mAP平均值分別提升了22.6%和18.2%。
表1 不同相似度計(jì)算方法的性能比較
Table 1 Performance comparison of different similarity computing methods
相似度計(jì)算方法mAPS1S2S3平均SSSN0.1390.1620.1770.159FSSN0.1430.1660.1850.165DSSN0.1620.2120.2110.195
為了驗(yàn)證本文DSSN模型網(wǎng)絡(luò)結(jié)構(gòu)中雙重相似度計(jì)算階段所提取的空域和頻域特征的有效性,在3組數(shù)據(jù)集上進(jìn)行特征提取層的性能對(duì)比。本實(shí)驗(yàn)比較了4種不同的特征提取方法,分別為:不采用卷積層 (DSSN-v0)、采用1×1的卷積核 (DSSN-v1)、采用3×3的卷積核 (DSSN-v3)和采用5×5的卷積核(DSSN-v5)。
表2給出了采用不同卷積層時(shí)DSSN模型的實(shí)例分割性能指標(biāo)mAP。由表2可知,采用3×3的卷積核對(duì)場(chǎng)景圖像和參考圖像特征圖進(jìn)行卷積操作能有效提升模型的實(shí)例分割性能。與DSSN-v0、DSSN-v1、DSSN-v5相比,DSSN-v3的mAP平均值分別提升了12.1%、5.4%、10.8%
表2 不同特征提取方法的性能比較
Table 2 Performance comparison of different feature extracting methods
特征提取方法mAPS1S2S3平均DSSN-v00.1550.1770.1910.174DSSN-v10.1590.1920.2050.185DSSN-v30.1620.2120.2110.195DSSN-v50.1490.1780.2020.176
為了驗(yàn)證本文提出的相似度特征融合方法的有效性,在3組數(shù)據(jù)集上進(jìn)行測(cè)試,并與另外一種常見(jiàn)的特征融合方法進(jìn)行對(duì)比,該方法是對(duì)空域特征圖和頻域特征圖進(jìn)行簡(jiǎn)單相加求和,記為DSSN-A。
表3給出了兩種相似度特征融合方法的性能比較,可以看出,相比于DSSN-A,本文方法在小樣本實(shí)例分割中的性能更優(yōu),mAP平均值提升了6.0%。
表3 不同特征融合方法的性能比較
Table 3 Performance comparison of different feature fusion methods
相似度特征融合方法mAPS1S2S3平均DSSN-A0.1610.1900.2010.184DSSN0.1620.2120.2110.195
為了更加客觀地評(píng)價(jià)本文算法的性能,表4給出了本文方法、Mask R-CNN[18]和Siamese Mask R-CNN[20]方法在數(shù)據(jù)集S1、S2、S3上的實(shí)例分割性能指標(biāo)mAP。
在表4中,F(xiàn)PN代表在骨干網(wǎng)絡(luò)后面加入特征金字塔,SFPN代表在骨干網(wǎng)絡(luò)后面加入孿生特征金字塔。由實(shí)驗(yàn)結(jié)果得知,在引入Siamese RestNet-101 SFPN作為骨干網(wǎng)絡(luò)的情況下,本文模型DSSN在3組數(shù)據(jù)集上的mAP指標(biāo)相比于Mask R-CNN模型平均提升了38.3%,相比于Siamese Mask R-CNN模型平均提升了30%。并且,在孿生殘差網(wǎng)絡(luò)后沒(méi)有加入特征金字塔時(shí),本文模型DSSN也優(yōu)于其他兩種模型。
表4 不同方法的小樣本實(shí)例分割性能對(duì)比
圖4所示為3種方法在S1數(shù)據(jù)集上的實(shí)例分割結(jié)果。由圖4可知,對(duì)于密度較大的目標(biāo),本文模型DSSN比其他兩種模型具有更好的分割效果,并且在目標(biāo)邊緣的分割上也更加精細(xì)。
圖4 不同方法的實(shí)例分割結(jié)果
本文提出了一種基于雙重相似度孿生網(wǎng)絡(luò)的小樣本實(shí)例分割方法,使用孿生殘差網(wǎng)絡(luò)結(jié)構(gòu)作為骨干網(wǎng)絡(luò),融合不同尺度的低層和高層特征語(yǔ)義信息,對(duì)參考圖像特征圖和場(chǎng)景圖像特征圖的空域相似度和頻域相似度進(jìn)行計(jì)算和合并,同時(shí)得到兩個(gè)輸入之間的相似度特征和參考圖像在場(chǎng)景圖像中的位置信息,最后通過(guò)實(shí)例分割網(wǎng)絡(luò)得到分割結(jié)果。實(shí)驗(yàn)結(jié)果證明了本文方法在小樣本數(shù)據(jù)集上比其他對(duì)比算法具有更好的實(shí)例分割性能。