葉協(xié)康 馬晨陽 陳小偉* 張 晴 林家駿
1(上海應(yīng)用技術(shù)大學(xué)計算機科學(xué)與信息工程學(xué)院 上海 201418) 2(華東理工大學(xué)信息科學(xué)與工程學(xué)院 上海 200237)
顯著目標檢測是對圖像中最具視覺特點和吸引人的區(qū)域或物體進行定位,并按照符合人眼視覺特征的邊界進行分割。顯著目標檢測作為圖像處理的重要預(yù)處理步驟,其應(yīng)用十分廣泛,如視覺跟蹤[1],語義分割[2]、目標識別[3]和圖像檢索[4]。
早期的顯著目標檢測算法主要依賴于啟發(fā)式先驗信息,如顏色、紋理和對比度,但是這些手工的特征很難捕捉高級語義關(guān)系和上下文信息,往往不能準確定位和分割出顯著目標,特別是面對顏色對比度低、多目標、背景結(jié)構(gòu)雜亂等復(fù)雜場景。近年來,深度學(xué)習(xí)技術(shù)發(fā)展迅速,其中卷積神經(jīng)網(wǎng)絡(luò)在各類計算機視覺任務(wù)中較大提升了模型性能[5-6]?;诰矸e神經(jīng)網(wǎng)絡(luò)的顯著目標檢測模型[7-8]較傳統(tǒng)的方法將檢測性能提高到了一個新的高度。這些模型采用編碼器與解碼器組合的結(jié)構(gòu)。編碼器部分通常由預(yù)訓(xùn)練好的模型組成,如ResNet[9]或VGG[10],提取不同層次不同尺度的各類特征。在解碼器中,提取到的特征會以不同的方式進行特征融合,最終生成顯著圖。
盡管基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測模型取得了較好的研究進展,但是在面對低對比度、雜亂背景等復(fù)雜場景時,仍存在一些問題有待解決。從卷積神經(jīng)網(wǎng)絡(luò)得到的不同層次的特征具有不同的特征屬性。高層次的特征包含豐富的語義信息但是缺少準確的位置信息,低層次的特征包含豐富的細節(jié)信息但卻無法排除背景噪聲干擾。研究人員提出多尺度特征融合方法,但是簡單的多尺度特征融合方法不能高效地融合特征。另外,對于從不同的卷積層提取的特征,并不是所有的特征通道都對最終的顯著圖有同等重要的影響。部分特征通道對顯著目標具有較高的敏感度,對檢測顯著目標提供了積極的響應(yīng),而其他特征通道的敏感度較低,甚至對非顯著目標有較高的響應(yīng),反而對檢測顯著目標產(chǎn)生了負面影響。因此,如果能夠選擇出相對重要的特征通道,去除噪聲通道產(chǎn)生的負面影響,便可以更好地檢測顯著目標,從而獲得更好的模型性能。
為了解決上述問題,本文提出一種基于全局注意力的多尺度網(wǎng)絡(luò)模型用于顯著目標檢測。首先,所提網(wǎng)絡(luò)采用主干網(wǎng)絡(luò)提取輸入圖像的多層級特征,將多層級特征分別融合,得到高層級特征和低層級特征。隨后,針對從主干網(wǎng)絡(luò)提取的最深層特征信息進行處理,利用不同膨脹率的空洞卷積獲得不同感受野信息以提取輸入圖像的多尺度全局信息,通過面向通道的注意模塊選擇合適的注意特征通道,計算表示每個特征通道重要性的權(quán)重系數(shù),將得到的注意力權(quán)重作用于整合得到的高層級特征和低層級特征,利用注意力權(quán)重突出顯著目標特征通道,并且過濾噪聲通道。最后,利用高層級特征去指導(dǎo)低層級特征定位顯著目標,通過融合引導(dǎo)優(yōu)化,豐富顯著目標的細節(jié)信息并抑制不相關(guān)的背景噪聲,提高模型性能。
為了驗證提出模型性能,在5個公開顯著目標檢測基準數(shù)據(jù)集上進行實驗并與近年發(fā)表的具有代表性的方法進行比較,實驗結(jié)果表明,本文模型可以獲得更好的局部細節(jié)和顯著圖。
傳統(tǒng)的顯著性檢測方法大多根據(jù)圖像的低級特征和啟發(fā)式先驗信息來預(yù)測圖像的顯著性,如顏色、紋理、對比度[11]等。雖然這類方法在簡單場景中能夠檢測出大部分顯著性物體,但是這些方法主要依賴低層和中層特征,缺乏高層語義信息,無法在紋理復(fù)雜、背景雜亂的圖像中準確識別出顯著的目標。
卷積神經(jīng)網(wǎng)絡(luò)在高級語義信息表征方面具有優(yōu)勢,近年來被廣泛應(yīng)用于顯著計算模型中[5-6]。文獻[12]將啟發(fā)式顯著先驗特征與循環(huán)深度網(wǎng)絡(luò)相結(jié)合,使用手工處理后的特征作為顯著先驗特征輸入。近年來,研究人員嘗試利用多層、多尺度特征融合[7],同時聚合高層語義信息和低層結(jié)構(gòu)細節(jié),以進一步提升模型性能。文獻[13]提出了一種分層優(yōu)化模型,通過整合局部上下文信息逐步優(yōu)化圖像細節(jié)。文獻[14-15]利用短連接融合多層級特征,同時利用高層語義信息和低層細節(jié)結(jié)構(gòu)進行顯著性檢測。然而,多尺度特征存在冗余信息,只利用簡單的加法操作和連接操作的多尺度特征融合方法無法解決多層級特征間的信息冗余。
注意力機制可以在一定程度上有效過濾多尺度特征中的冗余信息,可顯著提升特征表示和學(xué)習(xí)性能,已應(yīng)用于目標跟蹤[16]、姿態(tài)估計[17]、圖像分割[18]等多個計算機視覺任務(wù)中。文獻[19]提出了一種注意引導(dǎo)網(wǎng)絡(luò),該網(wǎng)絡(luò)有選擇性融合多尺度上下文信息,產(chǎn)生注意特征來抑制背景的干擾,從而獲得更好的性能。文獻[20]采用門控雙向信息傳遞模塊,提供一個自適應(yīng)并且有效的策略來集成多層級特征。文獻[21]使用殘差學(xué)習(xí)融合多層級特征進行顯著性優(yōu)化,提出反向注意力的方式指導(dǎo)殘差學(xué)習(xí)。
本文提出的基于全局注意力的多尺度特征顯著性檢測模型的結(jié)構(gòu)如圖1所示,主要由三個模塊組成,分別為特征增強模塊(Feature Enhancement Module,F(xiàn)EM)、全局注意力模塊(Global Attention Module,GAM)、多尺度優(yōu)化模塊(Multi-scale Optimization Module,MOM)。其中:特征增強模塊針對從骨干網(wǎng)絡(luò)各個側(cè)邊輸出的多層級特征進行處理,提升特征的表達能力;全局注意力模塊利用空洞空間卷積池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)模塊[22]提取全局信息,再從全局特征中提取通道權(quán)重信息;多尺度優(yōu)化模塊將經(jīng)通道權(quán)重優(yōu)化后的高層級特征引導(dǎo)優(yōu)化后的低層級特征進行優(yōu)化,最后將優(yōu)化后的低層級特征和高層級特征進行連接,生成最終的顯著圖。
圖1 網(wǎng)絡(luò)模型
表1 特征增強模塊中的卷積層細節(jié)
最后,分別將采用處理后的前三層特征和后兩層特征進行連接,使用3×3大小的卷積核進行卷積操作,再將融合特征降至128維,得到高層級特征(High-level fusion features,fH)和低層級特征(Low-level fusion features,fL)。
為了更好地提取全局信息,本文用ASPP模塊對VGG-16中從Pool5層提取的深層特征進行處理。與普通的卷積操作相比,空洞卷積能夠增大特征的感受野而不增加模型的計算量,因此使用空洞卷積可以提取更豐富的全局信息,本文模型分別采用膨脹率為1、6、12、18的空洞卷積,將不同空洞卷積后得到的特征融合得到多尺度全局信息特征X。
不同特征通道對不同的對象會有不同的響應(yīng)值,對于一幅給定圖像,并不是所有的物體都是顯著目標,因此無區(qū)別地對待所有特征通道可能會導(dǎo)致檢測性能下降,甚至出現(xiàn)完全相反的結(jié)果,所以找到對顯著目標具有高響應(yīng)值的特征通道會大大提高模型性能。受文獻[23]的啟發(fā),本文對全局信息優(yōu)化后的特征進行重要性權(quán)重計算,網(wǎng)絡(luò)模塊如圖2所示。首先用全局平均池化操作處理,然后采用兩個1×1卷積操作,最后使用Sigmoid激活函數(shù)得到通道注意力權(quán)重。
圖2 全局注意力模塊細節(jié)
由于來自深層的高層級特征圖包含較多的高級語義信息,能夠準確定位顯著目標,而來自淺層的特征具有豐富的空間信息,能夠更好地捕捉結(jié)構(gòu)細節(jié),為了高層特征與低層特征更好地融合以獲得更優(yōu)的顯著圖,本文提出新的融合方法,采用高層級特征指導(dǎo)低層級特征定位顯著目標。
本文方法在5個常用基準數(shù)據(jù)集上進行性能評估實驗。ECSSD數(shù)據(jù)集包含1 000幅各種復(fù)雜場景的圖像。DUT-OMRON數(shù)據(jù)集包含5 168幅更具挑戰(zhàn)性的圖像。HKU-IS數(shù)據(jù)集包含4 447幅圖像,其中包含很多不連續(xù)顯著的對象、對比度較低或顯著目標觸及圖像邊界的圖像。PASCAL-S數(shù)據(jù)集是從PASCAL-VOC分割數(shù)據(jù)集中挑選出來的,這個數(shù)據(jù)集共有850幅自然圖像。DUTS-TE是DUTS數(shù)據(jù)集的測試集,包含很多具有挑戰(zhàn)性的復(fù)雜場景。
本文采用5種性能評價指標來定量評價。
(1) PR曲線:通過使用0到255之間的不同閾值對顯著性圖進行二值化計算,然后將二值化后的圖與真值圖進行比較,得到一系列成對的查準率和查全率,即可繪制PR曲線。
(2) F-measure是對查準率和查全率進行加權(quán)計算,即:
(1)
式中:β2通常設(shè)置為0.3[24];p為查準率;r為查全率。
(3)ωFβ是F-measure的加權(quán),彌補了傳統(tǒng)評價指標的插值、依賴和重要性相同等不足,類似于Fβ,ωFβ由pω和rω的加權(quán)調(diào)和平均值計算而得,即:
(2)
(4)MAE定義為預(yù)測的顯著圖與真值圖之間的像素級平均絕對誤差:
(3)
式中:w和h分別代表預(yù)測的顯著圖S的寬度和高度;G表示真值圖。MAE的值越小表示預(yù)測的顯著圖與真值圖之間的差距越小,即性能越強。
本文網(wǎng)絡(luò)基于PyTorch實現(xiàn),并使用單個NVIDIA GTX TITAN GPU訓(xùn)練網(wǎng)絡(luò)。使用DUTS-TR數(shù)據(jù)集訓(xùn)練模型,該數(shù)據(jù)集包含10 553幅圖像。為了使模型更具魯棒性,通過水平翻轉(zhuǎn)進行數(shù)據(jù)增強。模型使用Adam優(yōu)化器訓(xùn)練,其權(quán)重衰減為0.000 5,初始學(xué)習(xí)率為0.000 5,并在迭代了15個epoch后學(xué)習(xí)率下降10%,總共訓(xùn)練24個epoch。為了更好地監(jiān)督損失,本文采用混合損失函數(shù)監(jiān)督的方式,同時使用BCE[25]、SSIM[26]、IoU[27]作為損失函數(shù)。
本文方法與9種相關(guān)顯著目標檢測方法進行比較,包括DCL[14]、RFCN[5]、DHS[13]、NLDF[6]、Amulet[7]、PAGR[19]、C2S[8]、RAS[21]和DSS[15],出于公平原則,本文使用上述算法作者提供的模型和顯著圖。
3.4.1定量評估
表2 不同方法在不同數(shù)據(jù)集的Fβ和比較
續(xù)表2
表3 不同方法在不同數(shù)據(jù)集的MAE和ωFβ比較
圖3為各方法在基準數(shù)據(jù)集上的PR曲線比較,可以看到,本文方法在DUT-OMRON數(shù)據(jù)集上與RAS性能相當,在ECSSD、PASCAL-S、HUK-IS數(shù)據(jù)集上,本文方法較其他方法均具有優(yōu)勢,說明本文方法性能優(yōu)于其他方法。
(a) ECSSD
(b) DUT-OMRON
(c) PASCAL-S
(d) HUK-IS圖3 不同算法在不同數(shù)據(jù)集的PR曲線比較
3.4.2定性評估
圖4是本文方法和其他方法的顯著性檢測直觀視覺效果比較??梢钥闯觯疚姆椒ǖ娘@著性檢測視覺效果比其他方法好,能夠更加準確地檢測顯著性目標。例如,在第5幅圖像中,其他方法未能完整地檢測出顯著性目標,而本文準確檢測出完整的顯著性目標。在第7幅圖像中,其他方法檢測出來的蝴蝶被蝴蝶后的花朵干擾,導(dǎo)致檢測出來的顯著性區(qū)域比真值多出一部分,而本文方法精準地檢測出完整的蝴蝶。無論是顯著性目標邊界比較細致(第1、第2、第6行)、前景背景對比度不大(第3行),還是有多個顯著性目標(第4、第8行),本文方法均能準確定位顯著性目標,檢測出完整顯著區(qū)域。
(a)輸入 (b) 真值 (c) DCL (d) RFCN (e) DHS (f) NLDF (g) Amulet (h) PAGR (i) RAS (j) DSS (k) 本文圖4 不同方法的視覺對比
為了驗證本文模型各模塊的有效性,我們分別依次移除各個模塊,在DUTS數(shù)據(jù)集上重新訓(xùn)練模型,在DUT-OMRON和HKU-IS數(shù)據(jù)集上進行性能測試。
如表4所示,其中:Ourswo_ASPP表示移除全局注意力模塊中的ASPP模塊;Ourswo_Weight表示移除全局注意力模塊中的通道權(quán)重模塊;Ourswo_GAM表示移除整個全局注意力模塊;Ourswo_MOM表示移除多尺度優(yōu)化模塊中高層特征與低層特征融合步驟。可以看出本文模型的各個模塊移除后,性能有明顯下降,說明本文算法中各個模塊的有效性。
表4 本文模型各模塊性能比較
本文提出一種基于多尺度優(yōu)化和全局注意力的網(wǎng)絡(luò)結(jié)構(gòu)。首先,該網(wǎng)絡(luò)增強主干網(wǎng)絡(luò)的特征,融合前三層和后兩層特征,進行多尺度特征融合得到高層和低層特征,然后利用ASPP模塊提取全局信息,再提取全局信息中的通道權(quán)重,以此權(quán)重引導(dǎo)優(yōu)化高層和低層特征,最后融合高層特征和低層特征,得到顯著性預(yù)測圖。本文方法在常用的基準數(shù)據(jù)集上與近幾年基于深度學(xué)習(xí)的顯著性檢測方法進行比較,實驗結(jié)果證明本文方法整體上相較于近幾年的方法性能更加優(yōu)異。