李元貞,趙俊松
(1.河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2.中國民航大學(xué)信息網(wǎng)絡(luò)中心,天津 300300)
2081059521@qq.com;xmbdhyq@163.com
圖像顯著性目標(biāo)檢測(cè)旨在模擬人類視覺機(jī)制,識(shí)別并分割出場(chǎng)景中人類感興趣的部分,常被作為其他視覺領(lǐng)域的預(yù)處理階段,應(yīng)用于風(fēng)格遷移[1]等。早期,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)為多層感知機(jī)的形式,造成卷積后的特征輸出時(shí)再次經(jīng)過全連接層,不適用于像素級(jí)別的顯著性任務(wù)。為此,大量研究者開始利用全卷積網(wǎng)絡(luò)去除全連接層,從而獲得更加精確的結(jié)果。然而,全卷積網(wǎng)絡(luò)仍然存在顯著目標(biāo)檢測(cè)邊緣缺失、定位有誤等問題。因此,本文總結(jié)了不同問題的針對(duì)性解決方法及各自的作用原理,從深度學(xué)習(xí)的網(wǎng)絡(luò)框架入手,探究應(yīng)用于上述網(wǎng)絡(luò)的各類深度學(xué)習(xí)策略的優(yōu)點(diǎn)和缺點(diǎn),分析目前深度學(xué)習(xí)方法在圖像顯著性目標(biāo)檢測(cè)領(lǐng)域的評(píng)價(jià)結(jié)果,并總結(jié)提出基于深度學(xué)習(xí)的圖像顯著性目標(biāo)檢測(cè)任務(wù)亟待解決的問題。
單流單層輸出結(jié)構(gòu)在網(wǎng)絡(luò)最深層輸出預(yù)測(cè)結(jié)果,該種架構(gòu)簡(jiǎn)單,但是對(duì)網(wǎng)絡(luò)最后一層的特征樣式依賴性較強(qiáng),隨著網(wǎng)絡(luò)層級(jí)的傳遞,較淺層的一些細(xì)節(jié)信息會(huì)缺失,預(yù)測(cè)的結(jié)果將變成一個(gè)模糊的顯著區(qū)域,而不是精準(zhǔn)的顯著目標(biāo)。為此,演變出一種單流多層融合輸出的結(jié)構(gòu),利用跳層連接的方式[2],打破特征在網(wǎng)絡(luò)層級(jí)間的串聯(lián)傳遞,融合各層級(jí)的特征和性能,可以使最終的預(yù)測(cè)結(jié)果兼顧細(xì)節(jié)與整體,很多基于多層級(jí)特征融合的策略,都源于此。多流網(wǎng)絡(luò)則是利用多個(gè)分支,不同分支關(guān)注圖像中不同類型的特征,特征間互為補(bǔ)充,以此兼顧多種特征性能,如邊緣檢測(cè)[3]或RGB-D深度圖[4]。與多流網(wǎng)絡(luò)不同,“U”形結(jié)構(gòu)僅有一個(gè)輸入,但是分為上采樣階段和下采樣階段,該網(wǎng)絡(luò)架構(gòu)的可擴(kuò)展性強(qiáng),是目前應(yīng)用最廣的架構(gòu),如特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,FPN)[5],結(jié)合網(wǎng)絡(luò)深淺層特征的同時(shí),適應(yīng)圖像中目標(biāo)的尺度變化。細(xì)化網(wǎng)絡(luò)[6]則是“U”形網(wǎng)絡(luò)的進(jìn)一步演變,通過堆疊多個(gè)上采樣與下采樣,逐漸優(yōu)化網(wǎng)絡(luò)學(xué)習(xí)過程中的特征表達(dá),該種方法也適用于優(yōu)化顯著目標(biāo)的邊緣細(xì)節(jié),但是需要多次嘗試,選出最優(yōu)的迭代次數(shù),并且網(wǎng)絡(luò)的規(guī)模也相對(duì)較大。對(duì)應(yīng)網(wǎng)絡(luò)架構(gòu)所適用的深度學(xué)習(xí)策略,詳見表1。
表1 顯著性目標(biāo)檢測(cè)經(jīng)典架構(gòu)Tab.1 Classic architectures of salient object detection
圖像顯著性目標(biāo)檢測(cè)任務(wù)期待獲取定位準(zhǔn)確、邊緣細(xì)節(jié)完整及內(nèi)部均勻、高亮的目標(biāo)。因此,通常利用邊緣檢測(cè)分支、細(xì)節(jié)優(yōu)化網(wǎng)絡(luò)或條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)對(duì)目標(biāo)進(jìn)行邊緣特征增強(qiáng);利用多尺度或多層級(jí)的特征融合策略,適應(yīng)不同感受野范圍的特征圖像;利用通道注意力、空間注意力等注意力機(jī)制,加強(qiáng)顯著目標(biāo)的定位能力。除此之外,考慮設(shè)計(jì)更適用于顯著性目標(biāo)檢測(cè)任務(wù)的損失函數(shù),需要加強(qiáng)對(duì)網(wǎng)絡(luò)訓(xùn)練過程中的監(jiān)督,優(yōu)化預(yù)測(cè)結(jié)果。
基于深度學(xué)習(xí)的圖像顯著性目標(biāo)檢測(cè)方法,隨著卷積神經(jīng)網(wǎng)絡(luò)的層級(jí)加深,特征圖尺寸會(huì)不斷縮小,造成顯著目標(biāo)所包含的邊緣細(xì)節(jié)缺失。為此,SU等[7]基于選擇性和不變性分析,將邊緣檢測(cè)和顯著性定位問題拆分解決,用邊緣分支彌補(bǔ)顯著分支的邊緣細(xì)節(jié)。SONG等[8]提出顯著性檢測(cè)的分層邊緣細(xì)化網(wǎng)絡(luò),利用改進(jìn)的“U”形結(jié)構(gòu)粗略檢測(cè)顯著目標(biāo)的區(qū)域,然后利用空間金字塔池化檢測(cè)顯著目標(biāo)的邊緣,一對(duì)一分層監(jiān)督整個(gè)網(wǎng)絡(luò)的不同輸出。WANG等[9]提出利用金字塔增強(qiáng)模塊和顯著性邊緣檢測(cè)模塊獲取邊緣增強(qiáng)的顯著性結(jié)果,通過進(jìn)一步結(jié)合條件隨機(jī)場(chǎng),有效提升預(yù)測(cè)精度。雖然利用邊緣檢測(cè)分支、細(xì)化網(wǎng)絡(luò)、條件隨機(jī)場(chǎng)的方法能夠緩解深度學(xué)習(xí)中網(wǎng)絡(luò)細(xì)節(jié)信息缺失的問題,但是上述方法最大的弊端在于網(wǎng)絡(luò)模型的運(yùn)行規(guī)模過大,并且在復(fù)雜紋理場(chǎng)景下容易造成過度分割,使顯著目標(biāo)內(nèi)部的均勻性受到影響。
深度學(xué)習(xí)網(wǎng)絡(luò)中不同層級(jí)的特征具有不同的特性,較深層的特征圖分辨率較低,可以用來定位顯著目標(biāo),較淺層的特征圖分辨率較高,可以保留一些局部細(xì)節(jié)。因此,融合多個(gè)層級(jí)的特征有利于優(yōu)化顯著性檢測(cè)結(jié)果。DAKHIA等[10]提出通過結(jié)合不同層級(jí)局部信息和全局金字塔池實(shí)現(xiàn)多個(gè)特征的集成,有效聚合全局上下文信息,提高預(yù)測(cè)圖質(zhì)量。除了利用不同層之間的特征融合,還進(jìn)一步延伸出單一層級(jí)的多尺度特征融合,以此適應(yīng)不同感受野范圍的顯著目標(biāo)。陳琴等[11]提出利用FPN網(wǎng)絡(luò)獲取不同層級(jí)的特征,與此同時(shí)利用擴(kuò)張卷積建立中心鄰域金字塔,捕獲不同級(jí)別的對(duì)比度信息。王正文等[12]提出基于語義引導(dǎo)特征聚合的顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò),設(shè)計(jì)了包含不同空洞率的空洞卷積模塊,以此得到不同尺寸大小的特征,融合它們?cè)鰪?qiáng)語義信息;同時(shí),設(shè)計(jì)多層級(jí)聚合模塊,以級(jí)聯(lián)的方式不斷提取特征中的顯著部分,細(xì)化顯著物體的邊緣細(xì)節(jié)。不同尺度和不同層級(jí)的特征融合,在某種程度上增強(qiáng)了特征的表達(dá)。然而,融合的特征是否被需要,融合特征之間的差異性是否較大的問題仍然存在,不經(jīng)過信息篩選的特征堆疊,反而會(huì)引入噪聲。
視覺注意力機(jī)制在圖像領(lǐng)域有著廣泛的應(yīng)用,很多顯著性檢測(cè)方法也通過加入注意力模塊抑制背景噪聲,突出顯著目標(biāo)。陳維婧等[13]提出將改進(jìn)的通道注意力機(jī)制與空間注意力機(jī)制并行結(jié)合,輸出的兩個(gè)注意力特征加權(quán)融合再反饋至通道-空間聯(lián)合注意力機(jī)制中,從而得到細(xì)粒度更高的顯著圖。LIANG等[14]提出雙重注意中間表示模塊和高級(jí)通道注意模塊,前者使用兩個(gè)分支自適應(yīng)地整合中間層特征的空間和語義信息,后者通過兩種不同的通道操作獲得高層的語義特征,從而針對(duì)不同層級(jí)提取不同的注意力。王凱誠等[15]提出了注意力精煉模塊,對(duì)通道維度整合的注意力進(jìn)行非局部的空間操作,并且用顯著真值監(jiān)督空間操作后的特征,增強(qiáng)預(yù)測(cè)位置的準(zhǔn)確性。作為顯著性目標(biāo)檢測(cè)任務(wù)的重要策略,注意力機(jī)制可以有效定位顯著目標(biāo),但是針對(duì)低對(duì)比度、前景背景雜亂等復(fù)雜場(chǎng)景,則容易受到干擾。此外,注意力機(jī)制往往包含大量參數(shù),會(huì)造成網(wǎng)絡(luò)運(yùn)行規(guī)模較大。
圖像顯著性目標(biāo)檢測(cè)任務(wù)中主要采用交叉熵?fù)p失函數(shù),如公式(1)所示。利用顯著性真值圖像與預(yù)測(cè)圖像計(jì)算得到,預(yù)測(cè)結(jié)果與真值越相近,損失值越小。
但是,傳統(tǒng)的交叉熵?fù)p失函數(shù)對(duì)圖像中的每一個(gè)像素點(diǎn)是同等看待的,而針對(duì)顯著性問題,前景目標(biāo)及邊緣區(qū)域應(yīng)當(dāng)受到更多的關(guān)注。為此,F(xiàn)ENG等[16]提出帶邊緣權(quán)重的交叉熵?fù)p失函數(shù),使處于目標(biāo)邊緣位置的像素特征更具判別性;WEI等[17]在利用邊緣權(quán)重?fù)p失函數(shù)的同時(shí),提出區(qū)分前景目標(biāo)與背景區(qū)域,從而關(guān)注顯著目標(biāo),抑制背景噪聲。盡管如此,交叉熵?fù)p失還是逐像素級(jí)別的損失計(jì)算,不符合人類從整體結(jié)構(gòu)角度觀察物體的習(xí)慣。為此,LIU等[18]提出結(jié)合交并比(Intersection over Union,IoU)損失關(guān)注顯著目標(biāo)的結(jié)構(gòu)特性,如公式(2)所示。
目前,大多數(shù)圖像顯著性監(jiān)督都是在交叉熵?fù)p失與IoU損失的基礎(chǔ)上,設(shè)計(jì)各類權(quán)重,區(qū)分前景與背景,通過整合得到一個(gè)新的損失。除此之外,研究者對(duì)監(jiān)督方式的選擇也有所不同。CHEN等[19]對(duì)網(wǎng)絡(luò)不同層級(jí)的特征采取同時(shí)監(jiān)督。WU等[20]提出下采樣階段對(duì)淺層網(wǎng)絡(luò)采取邊緣真值的監(jiān)督,對(duì)深層網(wǎng)絡(luò)采取顯著性真值的監(jiān)督,此外利用上述兩種真值對(duì)上采樣階段的特征采取一種損失交替的監(jiān)督方式,突出前景輪廓檢測(cè)且產(chǎn)生均勻高亮的顯著圖。與上述兩種類型對(duì)多個(gè)特征進(jìn)行監(jiān)督不同,陳家禎等[21]僅對(duì)網(wǎng)絡(luò)輸出層的結(jié)果進(jìn)行監(jiān)督,從總體上看,多個(gè)損失監(jiān)督的方式相比僅對(duì)結(jié)果監(jiān)督的方式,可以在一定程度上提升訓(xùn)練結(jié)果的性能。但是,某些特定屬性的數(shù)據(jù)集真值監(jiān)督,對(duì)于現(xiàn)實(shí)生活場(chǎng)景的復(fù)雜性與多樣性的滿足程度遠(yuǎn)遠(yuǎn)不夠,為了推進(jìn)圖像顯著性在實(shí)際生活中的應(yīng)用,也有考慮用弱監(jiān)督的方式作用于顯著性任務(wù),ZHANG等[22]就提出利用輔助的邊緣檢測(cè)任務(wù)及門控結(jié)構(gòu)的感知損失構(gòu)造出偽標(biāo)簽,將標(biāo)簽交替迭代地用于網(wǎng)絡(luò)訓(xùn)練中,即一邊訓(xùn)練網(wǎng)絡(luò)完成預(yù)測(cè),一邊用預(yù)測(cè)結(jié)果作為新的真值訓(xùn)練網(wǎng)絡(luò)。
為了進(jìn)一步了解基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)研究現(xiàn)狀,本文利用柱狀圖對(duì)前文提及的代表性研究方法加以示意,詳見圖1,縱坐標(biāo)的數(shù)值表示F度量值的大小,取值范圍為0.000—1.000,并且數(shù)值越大,表明預(yù)測(cè)效果越好,不同灰度柱狀圖的對(duì)應(yīng)研究方法名稱在圖下方標(biāo)注,其中BANet和ITBINet是利用邊緣檢測(cè)分支和細(xì)化網(wǎng)絡(luò)的邊緣增強(qiáng)策略,MAFNet和GCPANet是利用特征融合策略,PAGE是重點(diǎn)利用注意力機(jī)制,MLM為關(guān)注損失的策略,F(xiàn)3Net則同時(shí)兼顧邊緣增強(qiáng)、特征融合與損失。本文展示了DUTS-TE、ECSSD、HKU-IS和PASCAL-S四個(gè)廣泛使用的顯著性數(shù)據(jù)集結(jié)果,首先單獨(dú)觀察每個(gè)子圖的數(shù)據(jù)集,柱狀條的高度較為平均且數(shù)值均在0.800—0.950,表明目前基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)的研究水平趨于一致且均能達(dá)到一定的效果,有利于顯著目標(biāo)的準(zhǔn)確定位與邊緣完整性。其次通過橫向?qū)Ρ炔煌瑪?shù)據(jù)集的F度量值發(fā)現(xiàn),DUTS-TE和PASCAL-S數(shù)據(jù)集的整體指標(biāo)值要略低于其他兩個(gè)數(shù)據(jù)集,這是因?yàn)镈UTS-TE和PASCAL-S數(shù)據(jù)集相較于其他數(shù)據(jù)集包含更加復(fù)雜的前景和背景,對(duì)顯著目標(biāo)的識(shí)別具有一定的挑戰(zhàn)性。因此,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)目前主要面臨的問題是復(fù)雜自然場(chǎng)景下的目標(biāo)識(shí)別。此外,F(xiàn)3Net方法在多個(gè)數(shù)據(jù)集上都能取得優(yōu)秀的表現(xiàn),表明在網(wǎng)絡(luò)特征提取的不同階段,綜合使用相應(yīng)的深度學(xué)習(xí)策略,可以有效增強(qiáng)特征表達(dá),提升預(yù)測(cè)結(jié)果的精準(zhǔn)性。
圖1 4 個(gè)數(shù)據(jù)集的F度量值柱狀圖Fig.1 Histograms of F-measure on 4 datasets
本文圍繞深度學(xué)習(xí),對(duì)20余種顯著性目標(biāo)檢測(cè)方法展開了研究論述。首先,歸納了5 種深度學(xué)習(xí)框架;其次,探究依托于深度學(xué)習(xí)架構(gòu)上的4 種深度學(xué)習(xí)策略,分析各自的作用原理與優(yōu)點(diǎn)、缺點(diǎn)。研究表明,兼顧整體與細(xì)節(jié)的方法更能滿足定位準(zhǔn)確、邊緣完整的顯著性目標(biāo)檢測(cè)要求。通過進(jìn)一步分析在DUTS-TE、ECSSD、HKU-IS和PASCAL-S數(shù)據(jù)集上的F度量指標(biāo)發(fā)現(xiàn),目前的深度學(xué)習(xí)方法對(duì)紋理清晰、目標(biāo)單一的顯著性數(shù)據(jù)集已經(jīng)取得了較好的檢測(cè)效果,但是針對(duì)包含復(fù)雜前景背景的數(shù)據(jù)集,檢測(cè)會(huì)受到一定的干擾。未來將重點(diǎn)解決復(fù)雜場(chǎng)景下的顯著目標(biāo)識(shí)別,構(gòu)建自然場(chǎng)景下的復(fù)雜圖像數(shù)據(jù)集,并且加強(qiáng)在復(fù)雜數(shù)據(jù)集上的深度學(xué)習(xí)訓(xùn)練。