董 波,王永雄,周 燕,劉 涵,高遠(yuǎn)之,於嘉敏,張夢穎
基于子網(wǎng)絡(luò)級聯(lián)式混合信息流的顯著性檢測
董 波,王永雄*,周 燕,劉 涵,高遠(yuǎn)之,於嘉敏,張夢穎
上海理工大學(xué)光電信息與計算機工程學(xué)院,上海 200093
針對現(xiàn)有顯著性檢測算法在復(fù)雜場景下細(xì)節(jié)特征丟失的問題,本文提出了一種多層子網(wǎng)絡(luò)級聯(lián)式混合信息流的融合方法。首先使用FCNs骨干網(wǎng)絡(luò)學(xué)習(xí)多尺度特征。然后通過多層子網(wǎng)絡(luò)分層挖掘構(gòu)建級聯(lián)式網(wǎng)絡(luò)框架,充分利用各層次特征的上下文信息,將檢測與分割任務(wù)聯(lián)合處理,采用混合信息流方式集成多尺度特性,逐步學(xué)習(xí)更具有辨別能力的特征信息。最后,嵌入注意力機制將顯著性特征作為掩碼有效地補償深層語義信息,進(jìn)一步區(qū)分前景和雜亂的背景。在6個公開數(shù)據(jù)集上與現(xiàn)有的9種算法進(jìn)行對比分析,經(jīng)實驗驗證,本文算法運行速度可達(dá)20.76 幀/秒,并且實驗結(jié)果在5個評價指標(biāo)上普遍達(dá)到最優(yōu),即使對于挑戰(zhàn)性很強的全新數(shù)據(jù)集SOC。本文方法明顯優(yōu)于經(jīng)典的算法,其測試結(jié)果F-measure提升了1.96%,加權(quán)F-measure提升了3.53%,S-measure提升了0.94%,E-measure提升了0.26%。實驗結(jié)果表明,提出的模型有效提高了顯著性檢測的正確率,能夠適用于各種復(fù)雜的環(huán)境。
顯著性檢測;級聯(lián)式;混合信息流;注意力機制
顯著性檢測是對人類視覺注意力機制進(jìn)行建模,準(zhǔn)確定位圖像中最重要的前景信息。作為計算機視覺任務(wù)的預(yù)處理過程,其類型眾多,在靜態(tài)圖像中有RGB圖像顯著性檢測[1],光場顯著性檢測[2],融合深度信息的顯著性檢測[3]以及高分辨率的顯著性檢測[4]。在視頻場景中有目標(biāo)顯著性檢測[5]和注視點顯著性檢測[6]。
本文研究聚焦于對象級的顯著性檢測,其實現(xiàn)方法很多,可以歸納為兩類:早期的計算方法和基于深度學(xué)習(xí)的方法。早期的方法主要基于各種手工特征設(shè)計顯著性檢測模型,由于人眼對視覺中心和周圍的敏感性[7]具有一定的差異,對比度[8]成為一種廣泛的研究特性,其他手工特征還包括中心先驗[9]、背景先驗[10]等。近年來,基于深度學(xué)習(xí)的顯著性檢測方法已經(jīng)顯示出令人印象深刻的結(jié)果。整合卷積神經(jīng)網(wǎng)絡(luò)的層次特征來實現(xiàn)多尺度特征融合的方法是當(dāng)前的趨勢。
近幾年,許多研究者通過集成層次化的卷積特性,實現(xiàn)細(xì)粒度的顯著性檢測。這是因為更深層次的卷積特征傾向于對高層次知識進(jìn)行編碼,能夠更好地定位突出的目標(biāo),而較低層次的卷積特征更有可能捕獲豐富的空間信息。Liu等人[11]將提取的多層特征輸入多個子網(wǎng)絡(luò),預(yù)測最高分辨率的顯著圖,并直接融合,取得了較好的效果。但是多個子網(wǎng)絡(luò)的方式可能會導(dǎo)致不同尺度的特征信息混淆,難以準(zhǔn)確獲得復(fù)雜區(qū)域邊界。因此,Liu等人[12]采用了由粗到細(xì)的特征提取方法,通過引入遞歸聚合方法,將各級初始特征融合在一起,逐級生成高分辨率的語義特征,并結(jié)合全局和局部的注意力機制,較好地解決了這一問題。盡管這類方法取得了良好的性能,但該方法中高層的語義信息逐層傳輸?shù)綔\層,所捕獲的深層位置信息逐漸稀釋或缺失。并且該方法中堆積大量的注意力模塊,導(dǎo)致前景和背景區(qū)分不明顯的部分的邊緣模糊,某些層次的不準(zhǔn)確信息還會導(dǎo)致錯誤檢測。采用逐層融合的方式,解決了顯著性目標(biāo)稀釋的問題。然而,由于逐級生成,隨著網(wǎng)絡(luò)深入,其特征逐漸由低級特征向高級特征發(fā)生轉(zhuǎn)變,過多的低層次特征帶來更多的空間細(xì)節(jié),但這將導(dǎo)致高層特征無法獲取準(zhǔn)確的顯著性目標(biāo),使得模型在復(fù)雜情況下可能失效。
為了有效整合多層的特征,本文借鑒多分類器級聯(lián)在目標(biāo)檢測任務(wù)[13]上的良好性能,構(gòu)建了一種用于顯著性檢測的多層子網(wǎng)絡(luò)級聯(lián)式全卷積神經(jīng)網(wǎng)絡(luò)框架。和逐級融合的方式不同,該模型拋棄了大量冗雜的低層特征,僅利用較高層的特征進(jìn)行處理,有效避免了引入過多的低層信息,導(dǎo)致模型誤判。為了使得子網(wǎng)絡(luò)生成盡可能精確的顯著圖,引入混合信息流機制,捕捉更加有效的上下文信息,以確保子網(wǎng)絡(luò)得到的顯著圖不會出現(xiàn)漂移。同時,利用中間層生成的顯著性映射嵌入注意力機制來細(xì)化高階特征,濾除噪聲的同時改善信息流的傳遞方式,增強了多尺度顯著性特征的有效性。與現(xiàn)有的顯著性檢測方法相比,該方法通過級聯(lián)式多級細(xì)化,從而獲得多層次的表征信息;利用通道組合的方式融合多分支信息流,從而獲得更為有效的上下文信息,并結(jié)合注意力機制增強了顯著性特征信息,從而提高了顯著性檢測的性能。
在顯著性檢測中,信息的提取和流動方式?jīng)Q定了最終特征融合的效果。本文提出的多層子網(wǎng)絡(luò)級聯(lián)式混合信息流框架如圖1所示。輸入的圖像經(jīng)骨干網(wǎng)絡(luò)處理后,獲取的多層次特征分別進(jìn)入不同的子網(wǎng)絡(luò),每一個子網(wǎng)絡(luò)由混合信息流模塊獲取顯著性特征信息,并將獲得的三個尺度的特征經(jīng)通道融合的方式整合。由于直接利用各階段深層次的卷積特征提取顯著性對象仍然存在一定的不足,因此本文使用注意力機制,將該層次的信息過濾后流入更深的層次中,從而輔助深層提取顯著性信息。最后經(jīng)非線性加權(quán)融合后即可獲得準(zhǔn)確的顯著圖。
圖1 基于多層子網(wǎng)絡(luò)級聯(lián)式混合信息流的顯著性檢測模型
全卷積神經(jīng)網(wǎng)絡(luò)[14](FCNs)是顯著性檢測模型中應(yīng)用最為廣泛的網(wǎng)絡(luò),該網(wǎng)絡(luò)模型的較淺層能提取到低層次特征,較深層能提取到更有效的高層次特征。本文將FCNs[14]作為骨干網(wǎng)絡(luò)獲得多層次特征,并采用級聯(lián)式混合信息流方式進(jìn)行多尺度特征融合,有效避免了FCNs[14]對應(yīng)點聚合的弊端,形成更加豐富的特征信息。
當(dāng)顯著性目標(biāo)結(jié)構(gòu)復(fù)雜時,單個層次的特征往往無法提供足夠的細(xì)節(jié)辨別能力,為了區(qū)分前景和復(fù)雜的背景信息,需要準(zhǔn)確獲取空間上下文信息。本文增加了一組混合任務(wù)分支,用于建立整個圖像像素的上下文語義關(guān)聯(lián)信息。具體是將前一分支的掩碼特征反饋到當(dāng)前掩碼特征,采用直連方式加強掩碼分支之間的信息流,利用分層式結(jié)構(gòu)和新增的特征融合層實現(xiàn)多尺度最優(yōu)融合。上下文信息是對多尺度特征的有效補充,因此組合他們可以獲得更好的預(yù)測結(jié)果。
該模塊首先通過1′1的卷積層將特征投影到一個不同的特征空間,接著,為了充分構(gòu)建多個層次之間的上下文信息,利用′1和1′對流層來處理這些特征,并將結(jié)果反饋到每一個分支進(jìn)行處理,其中=(3, 3, 5, 7),以得到多個層次的特性并彌補不同特征在空間語義上的不足,如圖2所示。此外,為了擴大各分支的感知區(qū)域,采用相對應(yīng)大小的擴張卷積進(jìn)行上采樣解碼。最后將轉(zhuǎn)換后的不同層次特征圖通過連接進(jìn)行融合,使得模型捕獲到任意空間位置在不同尺度下的上下文語義信息。結(jié)合本地特征對融合后的特征圖進(jìn)行補充,利用ReLU消除冗雜信息,從而建立顯著性對象區(qū)域的上下文信息。
圖2 混合信息流
密集連接有利于改善特征的表示方式,提升顯著性檢測性能。本文將深層次的語義特征與各層次的上下文信息結(jié)合,從而建立不同層之間的連接關(guān)系,實現(xiàn)多分支之間的語義信息交互。為了解決語義信息的融合問題,采用通道組合的方式,逐步融合高層的語義信息以獲取更有效的上下文信息,并將上采樣處理后采用卷積層對融合后的特征圖進(jìn)行平滑處理,使得下一步融合更加有效。該機制如下所示:
為了驗證該機制的有效性,本文對其附近的特征圖進(jìn)行了可視化處理。如圖3所示,其中圖3(a)、3(b)列表示較淺層的特征信息,能夠凸出顯著性目標(biāo)的空間細(xì)節(jié)信息,圖3(c)、3(d)列表示深層次的特征映射,能夠很好地定位顯著性目標(biāo)。經(jīng)混合信息流機制處理后特征圖3(a)、3(c)相對于未處理的特征圖3(b)、3(d),能夠更好地捕獲顯著性目標(biāo)的空間細(xì)節(jié)以及定位信息,有助于模型持續(xù)關(guān)注圖像中的顯著性對象。
混合信息流機制能夠獲得不同層次特征之間的上下文語義信息,但是不同層次的語義信息比較獨立,難以在全局范圍內(nèi)構(gòu)建信息網(wǎng)絡(luò)流。本文提出了一種注意力機制,彌補了混合信息流機制的不足,實現(xiàn)了不同層次特征的語義信息傳遞方式。該機制引入高斯濾波方式,降低噪聲特征,提高模型對邊界區(qū)域的感知性能。再將特征圖映射到[0,1],利用(×)函數(shù)的分類機制,提高深層次中顯著性目標(biāo)區(qū)域的權(quán)值,并且減小了非顯著性區(qū)域的權(quán)值,從而增強了全局注意力圖。最后將空間注意力圖作為權(quán)重與骨干特征的各個通道相乘,得到帶有空間注意力的特征¢。計算方式:
, (8)
表1 x(×)函數(shù)參數(shù)選擇
本文實驗基于PYTORCH框架實現(xiàn),使用NVIDIA GeForce GTX 1080Ti GPU進(jìn)行加速訓(xùn)練。訓(xùn)練階段采用VGG-16預(yù)訓(xùn)練模型初始化骨干網(wǎng)絡(luò)參數(shù)。利用數(shù)據(jù)集作為訓(xùn)練集,包含10553幅圖像,將輸入圖像大小調(diào)整為350′350,僅使用簡單的隨機水平翻轉(zhuǎn)來增強數(shù)據(jù)集。模型采用Adam優(yōu)化器,初始化學(xué)習(xí)率為5e-5,衰減權(quán)值為5e-4,共進(jìn)行25個epoch。采用的目標(biāo)函數(shù)[17]為
本文使用5個顯著性基準(zhǔn)數(shù)據(jù)集評估本文的模型,分別為ECSSD[15]、PASCAL[18]、DUT-OMRON[19]、HKUIS[15]和DUTS[20],其中ECSSD[15]有1000個語義上有意義且復(fù)雜的圖像,包含各種復(fù)雜的場景。PASCAL[18]數(shù)據(jù)集由850幅圖像組成,均是帶有像素級注釋的自然圖像。DUT-OMRON[19]包括5168張具有挑戰(zhàn)性的圖片,每張圖片通常都有復(fù)雜的背景。HKUIS[15]包含4447張低對比度的圖片,每張圖片中都有多個前景對象。DUTS[19]數(shù)據(jù)集是目前數(shù)量最多的顯著性檢測基準(zhǔn)數(shù)據(jù)集,包含了用于訓(xùn)練的10553張圖像(DUTS-TR)和測試評估的5019張圖像(DUTS-TE)。該數(shù)據(jù)集大多數(shù)顯著性目標(biāo)位置和規(guī)模不同,并具有復(fù)雜的背景。除此之外,本文對一個全新的數(shù)據(jù)集SOC[21]進(jìn)行了探索研究,它包含日常物體類別中顯著和非顯著物體的圖像,并且顯著圖像含有單個或多個顯著性目標(biāo)。除了對象類別注釋之外,每個顯著的圖像都伴有反映現(xiàn)實場景中常見挑戰(zhàn)的屬性,極具挑戰(zhàn)性。
本文使用2個常用指標(biāo)(F-measure[22],平均絕對誤差(MAE)[23])以及最近提出的3個新的指標(biāo)(加權(quán)F-measure[24],S-measure[25],E-measure[26])進(jìn)行評估。
1) F-measure[22]():將預(yù)測的顯著圖與其對應(yīng)的真值圖進(jìn)行對比,通常使用一個閾值來將一個顯著性映射二值化成一個前景掩碼映射,計算出平均準(zhǔn)確率(Precision,用P表示)和召回率(Recall,用R表示):
其中:和表示顯著圖的寬度和高度,(,)和(,)表示像素(,)處的顯著性值和二元真值。MAE分?jǐn)?shù)越小,顯著圖與真值圖之間相似程度高。
5) E-measure[26](m):最近Fan等人提出了一種增強定位度量的方法,該指標(biāo)能夠主動適應(yīng)度量整體與局部的顯著性差異。為了比較非二值顯著性映射和二值映射,我們采用了一種類似于上述最大F-measure的方法,首先通過運行所有可能的閾值將顯著性映射二值化,再將兩個二進(jìn)制映射的全局平均值對其進(jìn)行對齊,然后計算局部像素相關(guān)性,最后得出最大m,如下所示:
對現(xiàn)有的8個模型進(jìn)行了比較,其中包括7個基于深度學(xué)習(xí)的模型與1個傳統(tǒng)的顯著性模型,基于深度學(xué)習(xí)的模型包括:DCL[27](深度對比學(xué)習(xí)),DSS[28](具有短連接的深度監(jiān)督模型),DHS[29](深度分層學(xué)習(xí)),Amulet[30](聚合多層次特征模型),DLS[31](深層次聚合),NLDF[32](非線性深度連接),SRM[33](逐步修正模型),同時本文對比了一種傳統(tǒng)方法:DRFI[34](區(qū)域特征融合)。DCL[27],DSS[28],DHS[29],Amulet[30],DLS[31],NLDF[32]利用VGG-16作為骨干網(wǎng)絡(luò),而SRM[33]是在ResNet-50上實踐。實驗結(jié)果如表2~5所示,其中,-TR-表示該數(shù)據(jù)集作為該方法的訓(xùn)練集,紅色表示方法的最優(yōu)結(jié)果,藍(lán)色表示方法的次優(yōu)結(jié)果。
表2 在5個基準(zhǔn)數(shù)據(jù)集的Fb評分結(jié)果(越高越好)
表3 在5個基準(zhǔn)數(shù)據(jù)集的MAE評分結(jié)果(越低越好)
表4 在5個基準(zhǔn)數(shù)據(jù)集的Fwb評分結(jié)果(越高越好)
表5 在5個基準(zhǔn)數(shù)據(jù)集的Sa和Em評分結(jié)果(越高越好)
此外,本文對SOC數(shù)據(jù)集進(jìn)行了評估,這是最近提出用于顯著性檢測的一個全新數(shù)據(jù)集,具有很強的挑戰(zhàn)性。與DCL[27]、DSS[28]、DHS[29]、RFCN[35]、NLDF[32]、SRM[33]這6種先進(jìn)的算法進(jìn)行比較,如表6所示(最優(yōu)結(jié)果紅色標(biāo)記)。所提方法能夠很好地適應(yīng)這樣一個新的數(shù)據(jù)集,在各個指標(biāo)下均達(dá)到最優(yōu)結(jié)果,進(jìn)一步說明本文模型的準(zhǔn)確性與魯棒性。
表6 在SOC基準(zhǔn)數(shù)據(jù)集的測試結(jié)果
為了更加直觀地表明評價之間的關(guān)系,本文對MAE與,m的分布趨勢進(jìn)行關(guān)聯(lián)分析,如圖4所示。本文的方法基本位于最左上角,在平均絕對誤差MAE減小的前提下,和m均有提升,表明所提方法能夠更加突出前景區(qū)域和結(jié)構(gòu)。這主要得益于混合信息流方式集成各個階段互補特性,逐步學(xué)習(xí)更多具有辨別的特征信息,同時結(jié)合注意力機制使得信息之間可以實現(xiàn)非線性流動,從而使得最終的顯著性映射集成了更多有效的多尺度的上下文信息。
為了進(jìn)一步說明本文方法的優(yōu)點,在圖5中給出了部分?jǐn)?shù)據(jù)的可視化結(jié)果。紅色方框內(nèi)是本文結(jié)果與真值圖,可以得出該方法能夠準(zhǔn)確地識別圖像中最顯著的目標(biāo)對象,并且?guī)缀踉谒星闆r下都能保持其尖銳的邊界分割,目標(biāo)區(qū)域高亮均勻,在特征融合以及抗噪性能方面達(dá)到了最優(yōu)效果。
本文利用ECSSD[15]數(shù)據(jù)集作為測試,比較不同算法的運行時間與精度如表7。從表7可以看出,與DHS[29]、DSS[28]、NLDF[32]、Amulet[30]、SRM[33]算法相比,所提算法在保證處理效率的同時,精度大有提高,體現(xiàn)了本文算法的高效性。
為了驗證本文提出的混合信息流、注意力機制以及非線性加權(quán)融合方式的有效性,在本文提出的級聯(lián)框架上對各模塊進(jìn)行實驗分析。分別用兩層卷積替換對比,采用DUTS-TR[19]數(shù)據(jù)集作為訓(xùn)練集,DUTS-TE[19]數(shù)據(jù)集作為測試集,結(jié)果如表8所示,最佳結(jié)果用紅色突出顯示。實驗結(jié)果說明,各個模塊對模型精度都有一定的提升,缺失任何模塊都會對模型精度造成影響。
圖5 本文算法與其他模型定性比較結(jié)果
表7 時間復(fù)雜度對比(ECSSD[15]-MAE)
表8 基于DUTS-TE[19]數(shù)據(jù)集的有效性分析
圖6 (a) 原圖;(b) FCNs網(wǎng)絡(luò);(c) FCNs+級聯(lián)方式;(d) 加入混合信息流機制后的效果;(e) 引入注意力機制的效果;(f) 非線性融合
由圖6中的顯著性映射可以看出,在一些復(fù)雜的場景中,僅使用骨干網(wǎng)絡(luò)很難定位出顯著的目標(biāo),結(jié)果較為模糊。引入級聯(lián)式框架后,得到的顯著圖的質(zhì)量有較大的改善。結(jié)合混合信息流以及注意力機制,顯著的區(qū)域可以被精確地分割,從而說明了本文模型的有效性。
本文提出的子網(wǎng)絡(luò)級聯(lián)式混合信息流框架,有效解決了復(fù)雜場景下的顯著性檢測方法存在多尺度融合問題。該方法結(jié)合了級聯(lián)式的優(yōu)勢,提出的混合信息流機制可充分提取各層次特征,并利用注意力機制增強特征提取。最后通過非線性方式融合不同尺度的特征信息,取得了很好的效果。在5個廣泛使用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行定量分析,5個評估指標(biāo)均達(dá)到最優(yōu),同時在一個全新的SOC數(shù)據(jù)集上測試結(jié)果達(dá)到最佳,有效地驗證了本文模型的準(zhǔn)確性與魯棒性。通過可視化定性分析,同時對不同指標(biāo)結(jié)果進(jìn)行關(guān)聯(lián)分析和運行速度分析,驗證了所提模型的性能都有較大提升。本文還對級聯(lián)式框架、混合信息流機制、注意力機制進(jìn)行了有效性驗證,進(jìn)一步說明了所提方法的良好效果。
[1] Zhang X D, Wang H, Jiang M S,. Applications of saliency analysis in focus image fusion[J]., 2017, 44(4): 435–441.
張學(xué)典, 汪泓, 江旻珊, 等. 顯著性分析在對焦圖像融合方面的應(yīng)用[J]. 光電工程, 2017, 44(4): 435–441.
[2] Piao Y R, Rong Z K, Zhang M,. Deep light-field-driven saliency detection from a single view[C]//, 2019: 904–911.
[3] Zhao J X, Cao Y, Fan D P,. Contrast prior and fluid pyramid integration for RGBD salient object detection[C]//, 2019: 3927–3936.
[4] Zeng Y, Zhang P P, Lin Z,. Towards high-resolution salient object detection[C]//, 2019: 7233–7242.
[5] Fan D P, Wang W G, Cheng M M,. Shifting more attention to video salient object detection[C]//, 2019: 8554–8564.
[6] Shen C, Huang X, Zhao Q. Predicting eye fixations on webpage with an ensemble of early features and high-level representations from deep network[J]., 2015, 17(11): 2084–2093.
[7] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]., 1998, 20(11): 1254–1259.
[8] Perazzi F, Kr?henbühl P, Pritch Y,. Saliency filters: Contrast based filtering for salient region detection[C]//, 2012: 733–740.
[9] Zhao H W, He J S. Saliency detection method fused depth information based on Bayesian framework[J]., 2018, 45(2): 170341.
趙宏偉, 何勁松. 基于貝葉斯框架融合深度信息的顯著性檢測[J]. 光電工程, 2018, 45(2): 170341.
[10] Wei Y C, Wen F, Zhu W J,. Geodesic saliency using background priors[C]//, 2012: 29–42.
[11] Liu J J, Hou Q, Cheng M M,. A Simple Pooling-Based Design for Real-Time Salient Object Detection[C]//, 2019: 3917–3926.
[12] Liu N, Han J W, Yang M H. PiCANet: Learning pixel-wise contextual attention for saliency detection[C]//, 2018: 3089–3098.
[13] Chen K, Pang J M, Wang J Q,. Hybrid task cascade for instance segmentation[C]//, 2019: 4974–4983.
[14] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//, 2015: 3431–3440.
[15] Yan Q, Xu L, Shi J P,. Hierarchical saliency detection[C]//, 2013: 1155–1162.
[16] Li G B, Yu Y Z. Visual saliency based on multiscale deep features[C]//, 2015: 5455–5463.
[17] Xi X Y, Luo Y K, Wang P,. Salient object detection based on an efficient end-to-end saliency regression network[J]., 2019, 323: 265–276.
[18] Li Y, Hou X D, Koch C,. The secrets of salient object segmentation[C]//, 2014: 280–287.
[19] He X M, Zemel R S, Carreira-Perpinan M A. Multiscale conditional random fields for image labeling[C]//, 2004: II.
[20] Wang L J, Lu H C, Wang Y F,. Learning to detect salient objects with image-level supervision[C]//, 2017: 136–145.
[21] Fan D P, Cheng M M, Liu J J,. Salient objects in clutter: bringing salient object detection to the foreground[C]//, 2018: 186–202.
[22] Cheng M M, Mitra N J, Huang X L,. Global contrast based salient region detection[J]., 2015, 37(3): 569–582.
[23] Cheng M M, Warrell J, Lin W Y,. Efficient salient region detection with soft image abstraction[C]//, 2013: 1529–1536.
[24] Margolin R, Zelnik-Manor L, Tal A. How to evaluate foreground maps[C]//, 2014: 248–255.
[25] Fan D P, Cheng M M, Liu Y,. Structure-measure: a new way to evaluate foreground maps[C]//, 2017: 4548–4557.
[26] Fan D P, Gong C, Cao Y,. Enhanced-alignment measure for binary foreground map evaluation[C]//, 2018: 698–704.
[27] Li G B, Yu Y Z. Deep contrast learning for salient object detection[C]//, 2016: 478–487.
[28] Hou Q B, Cheng M M, Hu X W,. Deeply supervised salient object detection with short connections[C]//, 2017: 3203–3212.
[29] Liu N, Han J W. DHSNet: deep hierarchical saliency network for salient object detection[C]//, 2016: 678–686.
[30] Zhang P P, Wang D, Lu H C,. Amulet: aggregating multi-level convolutional features for salient object detection[C]//, 2017: 202–211.
[31] Hu P, Shuai B, Liu J,. Deep level sets for salient object detection[C]//, 2016: 2300–2309.
[32] Luo Z M, Mishra A, Achkar A,. Non-local deep features for salient object detection[C]//, 2017: 6609–6617.
[33] Wang T T, Borji A, Zhang L H,. A stagewise refinement model for detecting salient objects in images[C]//, 2017: 4039–4048.
[34] Jiang H D, Wang J D, Yuan Z J,. Salient object detection: a discriminative regional feature integration approach[C]//, 2013: 2083–2090.
[35] Wang L Z, Wang L J, Lu H C,. Saliency detection with recurrent fully convolutional networks[C]//, 2016: 825–841.
Saliency detection hybrid information flows based on sub-network cascading
Dong Bo, Wang Yongxiong*, Zhou Yan, Liu Han, Gao Yuanzhi, Yu Jiamin, Zhang Mengyin
Institute of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China
Visual comparison before and after hybrid information flows
Overview:Saliency detection (SOD) is to detect and segment most important foreground objects that are modeled to accurately locate the mechanism of human visual attention. It has many types, including RGB SOD, light field SOD, RGB-D SOD, and high-resolution SOD. In the video scene, there are object SOD and fixation SOD, while the specific task is broken down into object-level saliency detection and instance-level significance detection. In view of the multi-scale feature fusion problem existing in the complex scenario of the existing saliency object detection algorithms, a fusion method of multi-layer sub-network cascade hybrid information flows is proposed in this paper. First of all, the FCNs backbone network and feature pyramid structure are used to learn multi-scale features. Then, through the multi-layer sub-network layering mining to build a cascading network framework, the context information of the characteristic of each level is fully used. The method of information extraction and flows determines the effect of final feature fusion, so we use the hybrid information flows to integrate multi-scale characteristics and learn more characteristic information with discernment. In order to solve the problem of semantic information fusion, high-level semantic information is used to guide the bottom layer, obtaining more effective context information. In this paper, we adopt the way of channel combination fusion, and the sampling processing is accompanied by the convolution layer smoothing the fusion feature map, making the next fusion more effective. Finally, the effective saliency feature is transmitted as mask information, which realizes the efficient transmission of information flows and further distinguishes the foreground and messy background. Finally, the multi-stage saliency mapping nonlinear weighted fusion is combined to complement the redundant features. Compared with the existing 9 algorithms on the basis of the 6 public datasets, the run speed of the proposed algorithm can reach 20.76 frames and the experimental results are generally optimal on 5 evaluation indicators, even for the challenging new dataset SOC. The proposed method is obviously better than the classic algorithm. Experimental results were improved by 1.96%, 3.53%, 0.94%, and 0.26% for F-measure, weighted F-measure, S-measure, and E-measure, respectively, effectively demonstrating the accuracy and robustness of the proposed model. Through the visual qualitative analysis verification, the correlation analysis and running speed analysis of different indicators are carried out, which further highlights the superior performance of the proposed model. In addition, this paper verifies the effectiveness of each module, which further explains the efficiency of the proposed cascading framework that mixes information flow and attention mechanisms. This model may provide a new way for multi-scale integration, which is conducive to further study.
Citation: Dong B, Wang Y X, Zhou Y,Saliency detection hybrid information flows based on sub-network cascading[J]., 2020, 47(7): 190627
Saliency detection hybrid information flows based on sub-network cascading
Dong Bo, Wang Yongxiong*, Zhou Yan, Liu Han, Gao Yuanzhi, Yu Jiamin, Zhang Mengyin
Institute of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China
In view of the detail feature loss issue existing in the complex scenario of existing saliency detection algorithms, a fusion method of multi-layer sub-network cascade hybrid information flows is proposed in this paper. We first use the FCNs backbone network to obtain multi-scale features. Through the multi-layer sub-network layering mining to build a cascading network framework, the context information of the characteristic of each level is fully used. The detection and segmentation tasks are processed jointly. Multi-scale features are integrated by hybrid information flows, and more characteristic information with discernment is learned step by step. Finally, the embedded attention mechanism effectively compensates the deep semantic information as a mask, and further distinguishes the foreground and the messy background. Compared with the existing 9 algorithms on the basis of the 6 public datasets, the running speed of the proposed algorithm can reach 20.76 frames and the experimental results are generally optimal on 5 evaluation indicators, even for the challenging new dataset SOC. The proposed method is obviously better than the classic algorithm. Experimental results were improved by 1.96%, 3.53%, 0.94%, and 0.26% for F-measure, weighted F-measure, S-measure, and E-measure, respectively. These experimental results show that the demonstrating the proposed model has higher accuracy and robustness and can be suitable for more complex environments, the proposed framework improves the performance significantly for state-of-the-art models on a series of datasets.
saliency detection; cascade; hybrid information flows; attention mechanism
TP391
A
10.12086/oee.2020.190627
: Dong B, Wang Y X, Zhou Y,. Saliency detection hybrid information flows based on sub-network cascading[J]., 2020,47(7): 190627
董波,王永雄,周燕,等. 基于子網(wǎng)絡(luò)級聯(lián)式混合信息流的顯著性檢測[J]. 光電工程,2020,47(7): 190627
Supported by National Natural Science Foundation of China (61673276)
* E-mail: wyxiong@usst.edu.cn
2019-10-17;
2019-12-11
國家自然科學(xué)基金資助項目(61673276)
董波(1998-),男,主要從事機器視覺的研究。E-mail:535806671@qq.com
王永雄(1970-),男,博士,教授,主要從事智能機器人與機器視覺的研究。E-mail:wyxiong@usst.edu.cn