史彩娟,陳厚儒,葛錄錄,王子雯
注意力殘差多尺度特征增強(qiáng)的顯著性實(shí)例分割
史彩娟,陳厚儒,葛錄錄,王子雯
(華北理工大學(xué)人工智能學(xué)院,河北 唐山 063210)
顯著性實(shí)例分割是指分割出圖像中最引人注目的實(shí)例對(duì)象。現(xiàn)有的顯著性實(shí)例分割方法中存在較小顯著性實(shí)例不易檢測(cè)分割,以及較大顯著性實(shí)例分割精度不足等問(wèn)題。針對(duì)這2個(gè)問(wèn)題,提出了一種新的顯著性實(shí)例分割模型,即注意力殘差多尺度特征增強(qiáng)網(wǎng)絡(luò)(ARMFE)。模型ARMFE主要包括2個(gè)模塊:注意力殘差網(wǎng)絡(luò)模塊和多尺度特征增強(qiáng)模塊,注意力殘差網(wǎng)絡(luò)模塊是在殘差網(wǎng)絡(luò)基礎(chǔ)上引入注意力機(jī)制,分別從通道和空間對(duì)特征進(jìn)行選擇增強(qiáng);多尺度特征增強(qiáng)模塊則是在特征金字塔基礎(chǔ)上進(jìn)一步增強(qiáng)尺度跨度較大的特征信息融合。因此,ARMFE模型通過(guò)注意力殘差多尺度特征增強(qiáng),充分利用多個(gè)尺度特征的互補(bǔ)信息,同時(shí)提升較大顯著性實(shí)例對(duì)象和較小顯著性實(shí)例對(duì)象的分割效果。ARMFE模型在顯著性實(shí)例分割數(shù)據(jù)集Salient Instance Saliency-1K (SIS-1K)上進(jìn)行了實(shí)驗(yàn),分割精度和速度都得到了提升,優(yōu)于現(xiàn)有的顯著性實(shí)例分割算法MSRNet和S4Net。
顯著性實(shí)例分割;注意力機(jī)制;殘差網(wǎng)絡(luò);多尺度;特征增強(qiáng)
視覺(jué)顯著性即關(guān)注場(chǎng)景中最突出、最明顯、占有主體部位的對(duì)象。利用視覺(jué)顯著性進(jìn)行的顯著目標(biāo)檢測(cè)與顯著實(shí)例分割生成的顯著圖只與顯著對(duì)象相關(guān),符合人類視覺(jué)系統(tǒng)的普遍規(guī)律[1]。而非顯著性任務(wù)的目標(biāo)檢測(cè)任務(wù)和圖像分割,則是以整個(gè)場(chǎng)景內(nèi)所有對(duì)象為目標(biāo)。ELAZARY和ITTI[2]對(duì)人類視覺(jué)系統(tǒng)的研究也證實(shí)了最吸引人的對(duì)象在視覺(jué)系統(tǒng)中更加突出。因此,顯著性目標(biāo)檢測(cè)(salient object detection,SOD)[3-5]和實(shí)例分割(instance segmentation,IS)[6-9]得到了廣泛關(guān)注和研究,并被應(yīng)用于圖像視頻的場(chǎng)景理解[10]、智能車輛的輔助駕駛[11]、人機(jī)交互的圖像媒體編輯[12]以及工業(yè)檢測(cè)中機(jī)器人感知系統(tǒng)[13]等。
顯著性目標(biāo)檢測(cè)是指檢測(cè)出圖像視頻場(chǎng)景中最突出的部分。傳統(tǒng)的顯著性目標(biāo)檢測(cè)[14]方法均依賴于人工提取特征,非常耗時(shí)、精度不高、且效率低下。隨著深度學(xué)習(xí)的發(fā)展,采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[15]能夠自動(dòng)提取多尺度特征,無(wú)需人工干預(yù),且提取的特征更為魯棒。因此,目前大部分SOD均采用CNN提取的特征。但現(xiàn)有SOD方法僅能對(duì)圖像場(chǎng)景中突出區(qū)域進(jìn)行框定(bounding box,BBox),無(wú)法將每個(gè)實(shí)例單獨(dú)區(qū)分,不能滿足計(jì)算機(jī)視覺(jué)領(lǐng)域更深入地應(yīng)用需求。
而IS的提出有效解決了區(qū)域內(nèi)多實(shí)例區(qū)分的問(wèn)題。IS能夠?yàn)閳D像中每個(gè)實(shí)例分配掩碼,并根據(jù)各自掩碼屬性區(qū)分類別信息。最初的IS方法受到R-CNN二階段目標(biāo)檢測(cè)框架的啟發(fā),將分割掩碼的分支添加到目標(biāo)檢測(cè)的框架之中,其中最具有代表性的工作為HE等[16]提出的Mask R-CNN方法。之后逐漸發(fā)展出基于直接掩碼生成的方法[17]和基于一階段目標(biāo)檢測(cè)框架的方法[18]。
但I(xiàn)S是對(duì)場(chǎng)景內(nèi)所有的實(shí)例進(jìn)行區(qū)分,與人的視覺(jué)顯著性特點(diǎn)不符。因此,為了實(shí)現(xiàn)對(duì)顯著性目標(biāo)進(jìn)行實(shí)例分割,2017年LI等[19]首次提出顯著性實(shí)例分割概念,結(jié)合SOD及IS的特點(diǎn),在SOD為主體對(duì)象生成目標(biāo)框(BBox)的基礎(chǔ)上,額外為每個(gè)主體對(duì)象輸出準(zhǔn)確的掩碼(Mask)。圖1給出了顯著性實(shí)例分割示意圖。文獻(xiàn)[19]設(shè)計(jì)了MSRNet (multi-scale refinement network)模型,并且創(chuàng)建了顯著性實(shí)例分割數(shù)據(jù)集(salient instance saliency-1K,SIS-1K)。MSRNet借助對(duì)應(yīng)的實(shí)例對(duì)象聚類以及預(yù)先計(jì)算的邊緣圖[20]取得實(shí)例對(duì)象的掩碼,最終生成的掩碼通過(guò)使用準(zhǔn)確的像素分割圖對(duì)每個(gè)實(shí)例對(duì)象進(jìn)行標(biāo)記。但MSRNet過(guò)于依賴邊緣圖的精度,時(shí)間成本開(kāi)銷較大。2019年FAN等[21]基于Mask R-CNN提出了S4Net(single stage salient instance segmentation),該網(wǎng)絡(luò)實(shí)現(xiàn)了端到端的訓(xùn)練方式,且受到基于傳統(tǒng)圖割的分割方法(GrabCut)啟發(fā),利用實(shí)例對(duì)象和周圍背景間的關(guān)系幫助分割。但是S4Net對(duì)場(chǎng)景中較小顯著性實(shí)例對(duì)象不易識(shí)別和分割,對(duì)較大顯著性實(shí)例對(duì)象分割精度不足。
圖1 顯著性實(shí)例分割
近年,CNN以其良好的特征學(xué)習(xí)能力得到了廣泛研究和應(yīng)用,其能夠提取多層多尺度特征,其中深層特征中包含豐富的語(yǔ)義信息,而淺層特征中包含空間結(jié)構(gòu)細(xì)節(jié)。為了充分融合利用多層多尺度卷積特征,文獻(xiàn)[22]提出了特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN),此后FPN被廣泛應(yīng)用于目標(biāo)檢測(cè)和圖像分割等任務(wù)。另外,其他許多工作也將多尺度特征進(jìn)行融合來(lái)提升算法模型的精度。如LIU等[23]提出的PANet (path aggregation network)是基于FPN,通過(guò)構(gòu)筑自底向上的信息通路促進(jìn)特征信息流動(dòng);GHIASI等[24]提出的NAS-FPN通過(guò)神經(jīng)網(wǎng)絡(luò)搜索技術(shù)生成最合適的網(wǎng)絡(luò)模型結(jié)構(gòu),從而增強(qiáng)特征圖所含信息。顯著性實(shí)例分割面臨的挑戰(zhàn)性之一就在于圖像場(chǎng)景中目標(biāo)的大小可能相差較大,難以檢測(cè)到顯著性實(shí)例,因此本文將基于特征金字塔進(jìn)行多尺度特征增強(qiáng),從而提升顯著性實(shí)例分割的精度。
起源于機(jī)器翻譯和自然語(yǔ)言處理領(lǐng)域的注意力機(jī)制,近年被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。圖像中應(yīng)用的注意力機(jī)制可以分為軟注意力[25]和硬注意力[26]。軟注意力機(jī)制對(duì)圖像的通道和空間敏感。使用軟注意力機(jī)制計(jì)算出的結(jié)果是個(gè)[0,1]的區(qū)間數(shù)值,且可以微分,能夠通過(guò)CNN計(jì)算梯度得到特征權(quán)重信息,篩選出對(duì)任務(wù)有幫助的特征;硬注意力機(jī)制則是對(duì)圖像中各區(qū)域進(jìn)行關(guān)注,結(jié)果非0即1。對(duì)任務(wù)有幫助的區(qū)域判定為1,其余無(wú)效區(qū)域判定為0。硬注意力是不可微的注意力機(jī)制,訓(xùn)練過(guò)程要通過(guò)增強(qiáng)學(xué)習(xí)來(lái)完成。本文將利用軟注意力機(jī)制提升每個(gè)顯著實(shí)例的關(guān)注度,使提取的特征信息更加完備,從而克服顯著性實(shí)例分割面臨的另一個(gè)挑戰(zhàn),即顯著性區(qū)域的邊界與具有相似特征的其他實(shí)例混淆或重疊。
因此,為了解決現(xiàn)有顯著性實(shí)例分割方法的不足,本文設(shè)計(jì)了一種新的顯著性實(shí)例分割模型,即注意力殘差多尺度特征增強(qiáng)網(wǎng)絡(luò)(attention residual multi-scale feature enhancement network,ARMFE),該模型包括2個(gè)模塊:①注意力殘差網(wǎng)絡(luò)模塊(attention residual network,Att-ResNet),通過(guò)特征權(quán)值篩選的方式提升檢測(cè)分割較大實(shí)例對(duì)象的精度;②多尺度特征增強(qiáng)模塊(multi-scale feature enhancement module,MFEM),通過(guò)特征融合的方式提升較小顯著性實(shí)例對(duì)象的分割效果。
本文模型ARMFE在顯著性實(shí)例分割數(shù)據(jù)集SIS-1K上進(jìn)行了實(shí)驗(yàn),并與現(xiàn)有算法進(jìn)行了比較,取得了更優(yōu)的分割精度,提升了分割速度。
本文的顯著性實(shí)例分割模型ARMFE,其框圖如圖2所示。由圖可以看出,ARMFE主要通過(guò)特征提取、特征融合及顯著分割3個(gè)階段完成顯著性實(shí)例分割。
(1) 特征提取階段。提出基于注意力機(jī)制的殘差網(wǎng)絡(luò)模塊Att-ResNet進(jìn)行顯著性特征提取。
Att-ResNet是在殘差網(wǎng)絡(luò)(ResNet)[27]基礎(chǔ)上引入通道注意力(channel attention,CA)和空間注意力(spatial attention,SA)。通過(guò)通道和空間上的不同權(quán)值,篩選出屬于顯著實(shí)例的特征,從而克服具有相似特征的不同實(shí)例的混淆或重疊問(wèn)題。
(2) 特征融合階段。設(shè)計(jì)了多尺度特征增強(qiáng)模塊豐富特征圖上的顯著實(shí)例信息。將Att-ResNet模塊提取的特征先采用特征金字塔網(wǎng)絡(luò)FPN進(jìn)行初步融合,再使用本文設(shè)計(jì)的多尺度特征增強(qiáng)模塊MFEM。通過(guò)跨尺度的特征融合以及增強(qiáng)模塊,豐富并提純每個(gè)特征圖中顯著特征信息,從而解決大小相差較大的不同尺度顯著性實(shí)例分割的問(wèn)題。
(3) 顯著分割階段。基于Mask-RCNN實(shí)例分割結(jié)構(gòu),將增強(qiáng)后的顯著特征圖通過(guò)檢測(cè)分支和分割分支來(lái)生成邊界框BBox和掩碼Mask,最終組合生成顯著實(shí)例分割的顯著圖。
圖2 ARMFE框圖
接下來(lái),本文將對(duì)注意力殘差網(wǎng)絡(luò)模塊Att-ResNet和多尺度特征增強(qiáng)模塊MFEM進(jìn)行詳細(xì)介紹。
近年,由于軟注意力機(jī)制相較于硬注意力機(jī)制,不僅可微且對(duì)空間通道敏感,軟注意力機(jī)制被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。軟注意力機(jī)制可以賦予各類特征不同的權(quán)值,實(shí)現(xiàn)對(duì)特征的篩選,從而令網(wǎng)絡(luò)模型選擇出符合任務(wù)目標(biāo)的相關(guān)特征。
因此,本文將軟注意力機(jī)制引入殘差網(wǎng)絡(luò),設(shè)計(jì)了注意力殘差網(wǎng)絡(luò)Att-ResNet模塊對(duì)特征進(jìn)行選擇。該模塊在殘差網(wǎng)絡(luò)基礎(chǔ)上引入CA和SA子模塊,分別在通道層次和空間層次對(duì)特征進(jìn)行篩選,從而獲取空間和通道所包含的顯著特征信息。
1.1.1 通道注意力子模塊
CA子模塊采用了SENet[28]中的擠壓激勵(lì)模塊,該模塊能夠在空間維度上將特征進(jìn)行壓縮,進(jìn)而對(duì)不同通道中的特征進(jìn)行選擇。通過(guò)CA子模塊實(shí)現(xiàn)將包含顯著特征的通道特征賦以較大權(quán)值,同時(shí)抑制其他特征的作用。
CA子模塊首先順著空間維度進(jìn)行特征壓縮,并將每個(gè)二維的特征通道轉(zhuǎn)換成一個(gè)具有全局感受野的標(biāo)量,代表在特征通道上響應(yīng)的全局分布。再通過(guò)學(xué)習(xí)特征通道間的相關(guān)參數(shù),為每個(gè)特征通道生成對(duì)應(yīng)權(quán)值。生成的權(quán)值代表了特征圖上每個(gè)通道包含顯著特征的程度,最后每個(gè)通道權(quán)值依次與原始特征相乘,完成在通道層次上對(duì)原始特征的篩選。
CA的具體實(shí)現(xiàn)及其結(jié)構(gòu)如圖3所示。首先將殘差網(wǎng)絡(luò)提取的初始特征圖××經(jīng)過(guò)全局平均池化變換為1×1×的數(shù)列,令個(gè)維度的特征圖同時(shí)共享特征信息;然后經(jīng)過(guò)一層全連接層(fully connected layers,F(xiàn)C)將特征維度降低到輸入的1/16,然后經(jīng)過(guò)ReLu函數(shù)激活后再通過(guò)一個(gè)全連接層升回到原來(lái)的維度。使用Sigmoid函數(shù)增強(qiáng)通道間相關(guān)性,每個(gè)通道計(jì)算權(quán)值后與原特征圖相乘。
圖3 通道注意力子模塊
1.1.2 空間注意力子模塊
Att-ResNet不僅采用子模塊CA,實(shí)現(xiàn)對(duì)不同特征通道的選擇。還進(jìn)一步引入子模塊SA,通過(guò)關(guān)注空間上的特征,進(jìn)一步提高對(duì)顯著特征的篩選能力。
SA子模塊從空間層次出發(fā),對(duì)同一通道的不同位置的像素進(jìn)行特征篩選,再對(duì)顯著特征進(jìn)一步進(jìn)行選擇,從而增強(qiáng)特征提取階段特征圖中顯著實(shí)例的空間位置信息。
SA子模塊首先在列通道的維度通過(guò)2步并行的池化操作提取出更加豐富的高層特征,不再改變輸入的特征尺寸,而是壓縮成通道數(shù)為1的特征圖,通過(guò)卷積核進(jìn)行空間特征參數(shù)學(xué)習(xí),進(jìn)而表征出每個(gè)像素在空間位置的權(quán)值信息。生成的空間權(quán)值再與原輸入特征相乘,完成空間上的特征篩選。
SA子模塊具體實(shí)現(xiàn)和結(jié)構(gòu)如圖4所示。SA子模塊的輸入是通道注意力處理后的特征圖,圖尺寸為××。通過(guò)使用全局平均池化和最大池化操作,于此同時(shí)保持通道數(shù)不變,得到尺寸為××1的2張?zhí)卣鲌D。將2張?zhí)卣鲌D相加后通過(guò)卷積核為7×7的卷積層,增強(qiáng)空間相關(guān)性后使用Sigmoid函數(shù),為每個(gè)通道計(jì)算權(quán)值并與原特征圖相乘。
圖4 空間注意力子模塊
1.1.3 注意力殘差網(wǎng)絡(luò)模塊
圖5給出了Att-ResNet結(jié)構(gòu)圖,Att-ResNet的每個(gè)Block之間都集成了通道CA子模塊和SA力子模塊。以殘差網(wǎng)絡(luò)的第一個(gè)Block為例:初始輸入圖像由ResNet提取得到特征圖1,然后進(jìn)第一個(gè)Block內(nèi)(圖5中的輸入),依次經(jīng)過(guò)CA和SA子模塊處理,每次得到的結(jié)果均與前次輸入的特征圖進(jìn)行乘法運(yùn)算,得到特征圖2,再通過(guò)跳躍連接將1與2進(jìn)行相加操作,合成一個(gè)Block的最終輸出3。
Att-ResNet的運(yùn)行速度與普通的殘差網(wǎng)絡(luò)ResNet水平相當(dāng),將在第2節(jié)進(jìn)行驗(yàn)證討論。
研究表明,多尺度卷積特征中的淺層特征圖感受野較小,適合處理小目標(biāo);而深層特征圖分辨率低,包含目標(biāo)屬性的語(yǔ)義信息更加豐富,對(duì)較大目標(biāo)的處理更為有效。為了融合與利用多尺度信息,F(xiàn)PN被廣泛應(yīng)用于目標(biāo)檢測(cè)和圖像分割。
但是,現(xiàn)有FPN類方法采用順序特征信息流動(dòng)方式使生成的特征圖更多地關(guān)注相鄰尺度信息,忽略了尺度跨度較大的特征信息。導(dǎo)致FPN在信息傳遞期間,每次融合都會(huì)將非相鄰尺度中的特征信息進(jìn)行稀釋,導(dǎo)致用于分割的特征圖不完整,精度不高。
因此,本文設(shè)計(jì)了一種多尺度特征增強(qiáng)模塊MFEM。與依靠橫向連接的FPN不同,MFEM首先使用不同倍率的池化和上采樣的操作,將多個(gè)尺度的特征圖融合為統(tǒng)一的單一尺度,達(dá)到集成每個(gè)尺度特有信息的作用。再利用精煉子模塊整合全局信息,提取出其中的顯著語(yǔ)義特征,將背景信息過(guò)濾,增強(qiáng)顯著物體特征。最后再通過(guò)不同倍率的池化和上采樣的操作重新生成多個(gè)固定尺寸的特征圖,用于顯著實(shí)例分割。另外,為了進(jìn)一步增強(qiáng)用于分割的特征圖,借助殘差跳躍連接的思想,將前后2部分特征圖使用殘差跳躍連接進(jìn)行逐元素相加操作,為精煉后的多尺度特征圖補(bǔ)充了原始信息。
該增強(qiáng)結(jié)構(gòu)可促進(jìn)每個(gè)跨度的信息交融,及多個(gè)尺度的互補(bǔ)信息,達(dá)到更佳的顯著性實(shí)例分割效果。結(jié)構(gòu)如圖6所示。
圖5 注意力殘差網(wǎng)絡(luò)模塊
圖6 多尺度特征增強(qiáng)模塊
多尺度特征增強(qiáng)模塊由2部分組成:
(1) FPN特征圖的縮放融合。將FPN生成的特征圖尺度由大到小排列為{2,3,4,5,6},不同尺度的特征圖分別經(jīng)過(guò)不同倍率的最大池化操作和雙線性插值上采樣運(yùn)算,縮放至4尺寸后(如2經(jīng)過(guò)4倍最大池化,5經(jīng)過(guò)2倍上采樣)進(jìn)行逐元素加法運(yùn)算實(shí)現(xiàn)多尺度特征融合及信息交融,即4?。
(2) 融合特征圖的精煉和重縮放(復(fù)原)。對(duì)于輸出的融合特征圖連續(xù)通過(guò)3個(gè)3×3卷積,并通過(guò)批歸一化(batch normalization,BN)和ReLU激活函數(shù),處理后得到4?。之后進(jìn)行第一步的重縮放,復(fù)原。重新生成與原有尺寸個(gè)數(shù)相同的特征圖,此時(shí)每張?zhí)卣鲌D都向其他尺度共享了所包含的空間信息和語(yǔ)義信息。最后引入跳躍連接,將與進(jìn)行融合,打通了原始信息和精煉后信息之間的路徑,保證信息傳遞的同時(shí)進(jìn)一步增強(qiáng)每層尺度內(nèi)的特征。
另外,本模塊在后續(xù)步驟中舍棄尺度較大的2,僅使用{6,5,4,3}進(jìn)行檢測(cè)和分割,進(jìn)一步提高運(yùn)行速度,同時(shí)保持較高精度。
本文模型在數(shù)據(jù)集SIS-1K上進(jìn)行了實(shí)驗(yàn),并與相關(guān)方法進(jìn)行了視覺(jué)與數(shù)據(jù)對(duì)比,及消融實(shí)驗(yàn)。
(1) 數(shù)據(jù)集。本文采用SIS-1K數(shù)據(jù)集,該數(shù)據(jù)集是LI等[19]專門為顯著性實(shí)例分割所創(chuàng)建。其中包含1 000張高質(zhì)量圖片和與顯著性實(shí)例對(duì)象一一對(duì)應(yīng)的手工標(biāo)注分割真值圖。該數(shù)據(jù)集中一部分是容易分辨的簡(jiǎn)單場(chǎng)景圖片,另一部分為多個(gè)顯著性實(shí)例對(duì)象重疊的復(fù)雜場(chǎng)景圖片。
(2) 實(shí)驗(yàn)環(huán)境。本文模型采用Tensorflow 1.15深度學(xué)習(xí)框架、編程語(yǔ)言Python 3.6實(shí)現(xiàn),在Ubuntu 18.04下使用1*GTX1080ti 11 G顯卡完成實(shí)驗(yàn)。
(3) 超參數(shù)。從SIS-1K中隨機(jī)選取500幅圖像作為訓(xùn)練集,選取200張作為驗(yàn)證集,將最后剩余的300張圖片作為測(cè)試集。由于數(shù)據(jù)集圖片較少,在網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中通過(guò)水平翻轉(zhuǎn)圖片的方式增加圖片數(shù)量。網(wǎng)絡(luò)初始訓(xùn)練學(xué)習(xí)率設(shè)置為0.002,共迭代40 000次,在經(jīng)過(guò)20 000次迭代后學(xué)習(xí)率變?yōu)?.000 2。權(quán)重衰減和動(dòng)量分別設(shè)置為0.000 1和0.9。
(4) 比較方法。本文所提ARMFE模型的性能表現(xiàn)將在2.3節(jié)中與開(kāi)創(chuàng)性工作的MSRNet以及基于Mask R-CNN的S4Net進(jìn)行比較。
圖7給出了本文模型在SIS-1K數(shù)據(jù)集上的分割效果圖,并與S4Net模型和MSRNet模型進(jìn)行了比較。圖中從上至下,①和②行為簡(jiǎn)單背景圖;③和④行為復(fù)雜場(chǎng)景圖。①,②行與③,④行的不同處在于圖中顯著性實(shí)例對(duì)象的數(shù)量及大小。
圖7 顯著實(shí)例分割效果圖
通過(guò)視覺(jué)比較可以看出,無(wú)論在分割難度低的簡(jiǎn)單背景,還是分割難度較高的復(fù)雜背景,本文模型ARMFE在單目標(biāo)場(chǎng)景的檢測(cè)框更加完整,分割出的實(shí)例掩碼也更加完整。例如,①行中火車車頂能夠完整包含進(jìn)檢測(cè)框內(nèi),③行的人像腿部掩碼覆蓋面積更加接近真值圖;對(duì)于包含尺度不一的實(shí)例對(duì)象場(chǎng)景,本文所提多尺度特征增強(qiáng)模塊能夠通過(guò)共享不同尺度特征圖內(nèi)的信息解決較小目標(biāo)漏檢及錯(cuò)檢問(wèn)題。在MSRNet中,②行距離較近的鹿掩碼無(wú)法區(qū)分出現(xiàn)粘連,③行錯(cuò)誤的將右下角也作為顯著實(shí)例進(jìn)行了掩碼生成;在S4Net中,②行左上角的鹿未被檢測(cè)分割,④行的2名行人被誤認(rèn)為同一實(shí)例,這些問(wèn)題在使用注意力機(jī)制和多尺度特征增強(qiáng)結(jié)合的算法后得以解決。
本節(jié)給出了ARMFE模型在SIS-1K數(shù)據(jù)集上運(yùn)行結(jié)果,并與MSRNet、S4Net進(jìn)行了比較。
本文采用Microsoft COCO公開(kāi)評(píng)估指標(biāo)計(jì)算mAP0.5和mAP0.7。mAP0.5為交并比閾值為0.5下的平均精度;mAP0.7為交并比閾值為0.7下的平均精度。其中mAP數(shù)值越大,該算法性能越強(qiáng);Times數(shù)值越小,算法的運(yùn)行速度越快。表1列出了3種顯著性實(shí)例分割算法的數(shù)值對(duì)比。S4Net與本文模型在2.1節(jié)所述實(shí)驗(yàn)環(huán)境下,超參設(shè)置及迭代次數(shù)均保持一致。MSRNet采用其原文數(shù)據(jù)?!癗/A”為算法原文未給出數(shù)據(jù)。
從表1可以看出,本文的ARMFE無(wú)論使用交并比閾值為0.5的平均精度(mAP0.5)還是閾值為0.7的平均精度(mAP0.7)衡量,均優(yōu)于MSRNet和S4Net的表現(xiàn),說(shuō)明本文所提的網(wǎng)絡(luò)模型能夠有效提升顯著性實(shí)例分割的精度。使用ResNet-50為基礎(chǔ)模型時(shí),ARMFE相較S4Net 在mAP0.5上的結(jié)果提升了7.1%,在mAP0.7上提升5.9%。2項(xiàng)指標(biāo)消耗的時(shí)間成本分別增加0.003 s和0.002 s,證實(shí)了ARMFE在提升分割精度的情況下,依然能夠保持高速實(shí)時(shí)的特性。
表1 不同顯著性實(shí)例分割算法的精度對(duì)比
本節(jié)對(duì)模型ARMFE中的模塊進(jìn)行消融實(shí)驗(yàn),驗(yàn)證每個(gè)模塊的有效性并詳細(xì)闡述各自功能。結(jié)果見(jiàn)表2。
表2 消融實(shí)驗(yàn)
注:黑體為最優(yōu)數(shù)據(jù)
在ResNet-50為基礎(chǔ)模型的情況下,實(shí)驗(yàn)分別添加了AM和MFEM,得到的數(shù)據(jù)顯示:每個(gè)模塊比表1中S4Net的平均精度均有不小提升。其中單獨(dú)使用AM網(wǎng)絡(luò)的mAP0.5從82.0%漲至87.2%,提升5.2%;mAP0.7從61.4%漲至65.1%提升3.7%。單獨(dú)使用MFEM得到網(wǎng)絡(luò)mAP0.5提升4.7%;mAP0.7提升2.0%。此時(shí)AM的表現(xiàn)相較于MFEM更加突出,同時(shí)僅付出0.001的時(shí)間開(kāi)銷。以ResNet-101為基礎(chǔ)模型,單獨(dú)使用AM的mAP0.5則下降了0.3%,mAP0.7持平;單獨(dú)使用MFEM,mAP0.5和mAP0.7均能獲得0.5%的提升。
結(jié)合不同深度基礎(chǔ)模型下AM及MFEM的表現(xiàn),可以得出AM的性能表現(xiàn)與網(wǎng)絡(luò)深度有關(guān),在較淺層的ResNet下能夠有效幫助特征提取,為檢測(cè)分割提供良好的幫助;但在深層網(wǎng)絡(luò)后則顯得較為乏力,反觀MFEM無(wú)論網(wǎng)絡(luò)層數(shù)深淺,均能發(fā)揮良好作用,保持網(wǎng)絡(luò)精度的提升。
AM和MFEM組合能夠獲取穩(wěn)定的精度提升。但從時(shí)間成本上看,深層網(wǎng)絡(luò)付出開(kāi)銷占比較大,同時(shí)精度提升較小。因此,本文最終選擇ResNet-50作為基礎(chǔ)網(wǎng)絡(luò)框架。
實(shí)驗(yàn)證明,本文模型ARMFE能夠在有效改善當(dāng)前顯著性實(shí)例分割任務(wù)所存在的顯著對(duì)象漏檢、錯(cuò)檢及掩碼覆蓋精度問(wèn)題。
本文模型ARMFE能夠更好地解決顯著性實(shí)例分割任務(wù)中尺度不一的實(shí)例對(duì)象漏檢和錯(cuò)檢問(wèn)題,以及單個(gè)實(shí)例掩碼檢測(cè)框不準(zhǔn)確、覆蓋精度不足的問(wèn)題,還實(shí)現(xiàn)了精度與速度間的平衡。與當(dāng)前相關(guān)工作對(duì)比,不僅精度有所提高,而且視覺(jué)上感知更加直觀明顯。后續(xù)將更加關(guān)注如何有效地利用特征圖,進(jìn)一步提高顯著性實(shí)例分割中實(shí)例對(duì)象的掩碼精度。
[1] LI F F, VANRULLEN R, KOCH C, et al. Rapid natural scene categorization in the near absence of attention[J]. Proceedings of the National Academy of Sciences, 2002, 99(14): 9596-9601.
[2] ELAZARY L, ITTI L. Interesting objects are visually salient[J]. Journal of Vision (Electronic Resource), 2008, 8(3): 3.1-3.15.
[3] WANG B, CHEN Q, ZHOU M, et al. Progressive feature polishing network for salient object detection[C]//The 34th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2020: 12128-12135.
[4] BORJI A, CHENG M M, HOU Q, et al. Salient object detection: a survey[J]. Computational Visual Media, 2019, 5(2): 117-150.
[5] QIN X B, ZHANG Z C, HUANG C Y, et al. BASNet: boundary-aware salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7471-7481.
[6] CHEN H, SUN K Y, TIAN Z, et al. BlendMask: top-down meets bottom-up for instance segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 8570-8578.
[7] BOLYA D, ZHOU C, XIAO F Y, et al. YOLACT: real-time instance segmentation[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE Press, 2019: 9156-9165.
[8] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.
[9] CHEN K, PANG J M, WANG J Q, et al. Hybrid task cascade for instance segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 4969-4978.
[10] ANDERSON P, HE X D, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6077-6086.
[11] ZENG W, WANG S, LIAO R, et al. Dsdnet: deep structured self-driving network[C]//The 16th European Conference on Computer Vision. Heidelberg: Springer, 2020: 156-172.
[12] VIAZOVETSKYI Y, IVASHKIN V, KASHIN E. StyleGAN2 distillation for feed-forward image manipulation[C]//The 16th European Conference on Computer Vision. Heidelberg: Springer, 2020: 170-186.
[13] PARK D, SEO Y, SHIN D, et al. A single multi-task deep neural network with post-processing for object detection with reasoning and robotic grasp detection[C]//2020 IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE Press, 2020: 7300-7306.
[14] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.
[15] CHAUHAN R, GHANSHALA K K, JOSHI R C. Convolutional neural network (CNN) for image detection and recognition[C]//2018 First International Conference on Secure Cyber Computing and Communication (ICSCCC). New York: IEEE Press, 2018: 278-282.
[16] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2980-2988.
[17] NEVEN D, BRABANDERE B D, GEORGOULIS S, et al. Towards end-to-end lane detection: an instance segmentation approach[C]//2018 IEEE Intelligent Vehicles Symposium (IV). New York: IEEE Press, 2018: 286-291.
[18] XIE E Z, SUN P Z, SONG X G, et al. PolarMask: single shot instance segmentation with polar representation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 12190-12199.
[19] LI G B, XIE Y, LIN L, et al. Instance-level salient object segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 247-256.
[20] PONT-TUSET J, ARBELAEZ P, T BARRON J, et al. Multiscale combinatorial grouping for image segmentation and object proposal generation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(1): 128-140.
[21] FAN R C, CHENG M M, HOU Q B, et al. S4Net: single stage salient-instance segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 6096-6105.
[22] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 936-944.
[23] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.
[24] GHIASI G, LIN T Y, LE Q V. NAS-FPN: learning scalable feature pyramid architecture for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7029-7038.
[25] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 3141-3149.
[26] ZHAO B, WU X, FENG J S, et al. Diversified visual attention networks for fine-grained object classification[J]. IEEE Transactions on Multimedia, 2017, 19(6): 1245-1256.
[27] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[28] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
Salient instance segmentation via attention residual multi-scale feature enhancement
SHI Cai-juan, CHEN Hou-ru, GE Lu-lu, WANG Zi-wen
(College of Artificial Intelligence, North China University of Science and Technology, Tangshan Hebei 063210, China)
Salient instance segmentation is to segment the most noticeable instance object in the image. However, there remain some problems in the existing methods of salient instance segmentation. For example, the small salient instances are difficult to be detected and segmented, and the segmentation accuracy is insufficient for large salient instances. Therefore, to solve these two problems, a new salient instance segmentation model, namely the attention residual multi-scale feature enhancement network (ARMFE), has been proposed. ARMFE includes two modules, i.e. the attention residual network module and the multi-scale feature enhancement module. The attention residual network module combines the residual network with the spatial attention sub-module and the channel attention sub-module to enhance the features. The multi-scale feature enhancement module can further enhance the information fusion for features with large scale span based on the feature pyramid. Therefore, the proposed ARMFE model canmake full use of the complementary information of multi-scales features by attention residual multi-scale feature enhancement, and then simultaneously improve the accuracy of detecting and segmenting large instance objects and small instance objects. The proposed ARMFE model has been tested on the salient instance segmentation dataset Salient Instance Saliency-1K (SIS-1K), and the segmentation accuracy and speed have been improved. This indicates that our proposed model outperforms other existing salient instance segmentation algorithms, such as MSRNet and S4Net.
salient instance segmentation; attention mechanism; residual network; multi-scale; feature enhancement
TP 391.4
10.11996/JG.j.2095-302X.2021060883
A
2095-302X(2021)06-0883-08
2021-04-12;
2021-05-21
國(guó)家自然科學(xué)基金項(xiàng)目(61502143);河北省研究生示范課項(xiàng)目(KCJSX2019097);華北理工大學(xué)杰出青年基金項(xiàng)目(JQ201715);唐山市人才資助項(xiàng)目(A202110011)
史彩娟(1977-),女,河北唐山人,教授,博士。主要研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺(jué)等。E-mail:scj-blue@163.com
21 May,2021
12 April,2021;
National Natural Science Foundation of China (61502143);Graduate Model Class Project of Hebei Province (KCJSX2019097); Distinguished Youth Foundation of North China University of Science and Technology (JQ201715); Talent Foundation ofTangshan (A202110011)
SHI Cai-juan (1977-), female, professor, Ph.D. Her main research interests cover image processing, computer vision, etc. E-mail:scj-blue@163.com