• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多層次特征細(xì)化融合的RGB-D顯著性目標(biāo)檢測

      2021-03-14 00:50:46王靜李穎宋甜
      現(xiàn)代計算機 2021年36期
      關(guān)鍵詞:卷積顯著性特征

      王靜,李穎,宋甜

      (四川大學(xué)電子信息學(xué)院,成都 610065)

      0 引言

      顯著性目標(biāo)檢測的目的在于識別場景中最吸引人類注意力的區(qū)域。這一基礎(chǔ)研究任務(wù)在各種計算機視覺應(yīng)用中發(fā)揮著重要作用,比如場景分類[1]、視覺跟蹤[2]、內(nèi)容感知圖像編輯[3]、光場圖像分割[4]、圖像字幕[5]、語義分割[6]、縮略圖創(chuàng)建[7]、前景注釋[8]和質(zhì)量評價[9]等領(lǐng)域。

      僅采用RGB 圖像的顯著性目標(biāo)檢測雖然能夠較好的識別出場景中的顯著性目標(biāo),但是在面對一些較為復(fù)雜的背景,如背景中具有不同的光照條件、目標(biāo)與背景對比度較低以及顯著目標(biāo)和背景具有相似的外觀等時,仍然有提升的空間。為了解決這些具有挑戰(zhàn)性的問題,近年來常采用的一種方法是使用Depth 圖像。Depth 圖像可以在位置和空間結(jié)構(gòu)上提供許多有用的信息。Depth圖像提供的有用信息能和RGB 圖像信息形成互補,有助于解決復(fù)雜背景下不能很好檢測顯著目標(biāo)的問題。

      傳統(tǒng)的基于RGB-D的顯著性目標(biāo)檢測方法主要依賴于手工提取的特征,如深度圖中的邊界信息、形狀紋理以及表面法線等,以此來增強復(fù)雜背景中顯著目標(biāo)的識別。Ciptadi 等人[10]提出了一種新的包含深度信息的視覺顯著性計算模型,并采用了一種從深度測量構(gòu)建三維布局和形狀特征的方法。Ren 等人[11]提出了一種兩階段RGB-D 顯著性目標(biāo)檢測模型,其中通過整合區(qū)域?qū)Ρ榷?,以及背景、深度和方向先驗來獲得顯著性圖。Peng 等人[12]提出了一種專門的多階段RGBD 模型,該模型考慮了低水平特征對比、中等水平區(qū)域分組和高水平先驗增強所產(chǎn)生的深度和外觀信息。

      傳統(tǒng)方法雖然取得了一定的效果,但是手工提取的特征并不能充分的表征Depth 圖中所包含的互補信息,傳統(tǒng)方法的顯著性目標(biāo)檢測模型性能仍然有一定的提升空間。當(dāng)前的一些研究采用卷積神經(jīng)網(wǎng)絡(luò)來提取Depth 圖像和RGB 圖像的特征。DF[13]設(shè)計了一種新的卷積神經(jīng)網(wǎng)絡(luò)來自動學(xué)習(xí)RGBD 顯著目標(biāo)檢測的交互機制,該方法利用了傳統(tǒng)顯著性檢測中獲得的知識,采用各種靈活的、可解釋的顯著性特征向量作為輸入。該方法能夠引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)現(xiàn)有特征的組合,以更有效地預(yù)測顯著性。AFNet[14]提出了一種自適應(yīng)融合方案來融合兩種模態(tài)產(chǎn)生的顯著預(yù)測結(jié)果。該方法設(shè)計了一個雙流卷積神經(jīng)網(wǎng)絡(luò),每個網(wǎng)絡(luò)從RGB 或Depth 模態(tài)提取特征并預(yù)測顯著性圖,然后通過一個開關(guān)映射來自適應(yīng)融合預(yù)測結(jié)果。FRDT[15]提出了一種新的自頂向下的多層次融合結(jié)構(gòu),通過交織融合模塊有效地融合全局信息,門控選擇融合模塊過濾RGB 和Depth 數(shù)據(jù)中不需要的信息以及提出了自適應(yīng)融合模塊以重新整合融合跨模態(tài)特征的每一層。

      以往這些RGBD 顯著性目標(biāo)檢測的研究部分過于關(guān)注RGB 和Depth 特征的充分提取以及RGB特征和Depth 特征的跨模態(tài)融合,缺少了對于跨模態(tài)特跨層次特征解碼方面的研究,甚至可能會引入噪聲。部分關(guān)注于RGB和Depth特征層次融合的研究也并沒有充分利用到深層次特征和淺層次特征的特性。淺層次特征攜帶有詳細(xì)的微觀信息,有豐富的顯著目標(biāo)的細(xì)節(jié)以及包含較多的噪聲。深層次特征包含有豐富的全局上下文信息,能夠較好的區(qū)分顯著目標(biāo)和背景以及含有更少的噪聲。

      因此,本文設(shè)計了一種基于多層次特征融合的網(wǎng)絡(luò)結(jié)構(gòu),通過設(shè)計的多尺度檢測模塊增強獲取全局上下文信息的能力,并且增強網(wǎng)絡(luò)定位顯著目標(biāo)的能力,這有助于獲取顯著目標(biāo)的整體結(jié)構(gòu)以及減少噪聲的干擾。同時運用了改良過的多層次細(xì)化模塊,在網(wǎng)絡(luò)跨層次融合解碼的過程中,將所有更深層次的特征作為輸入,以保持網(wǎng)絡(luò)解碼過程中顯著目標(biāo)與背景的區(qū)分,同時逐步細(xì)化顯著目標(biāo)的細(xì)節(jié)并精煉邊界。本文在5 個常見數(shù)據(jù)集上與7 種先進的RGBD 顯著性目標(biāo)檢測方法進行了4 個常見指標(biāo)以及預(yù)測結(jié)果的對比,總體來說,我們的網(wǎng)絡(luò)取得了較為優(yōu)異的結(jié)果。同時進行了各模塊的消融實驗,證明了各模塊的有效性。

      1 網(wǎng)絡(luò)結(jié)構(gòu)

      1.1 模型引入

      本文構(gòu)建了基于殘差網(wǎng)絡(luò)進行特征提取和跨層次特征融合的雙流網(wǎng)絡(luò)結(jié)構(gòu),總體架構(gòu)如圖1所示。在該網(wǎng)絡(luò)架構(gòu)中,多尺度檢測和跨層次融合在網(wǎng)絡(luò)中相互串聯(lián),在擴大網(wǎng)絡(luò)全局感受野[16]的同時增強深層次特征在融合中的區(qū)分能力,共同結(jié)合實現(xiàn)顯著目標(biāo)的完整預(yù)測,并且有效地抑制淺層次特征噪聲導(dǎo)致的圖像不清晰問題。下面給出了一個較為簡略的網(wǎng)絡(luò)工作流程。

      圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)

      首先,我們采用了兩個相同的骨干網(wǎng)絡(luò)對原始的RGB 圖像和Depth 圖像進行特征提取。骨干網(wǎng)絡(luò)分為五個卷積層,來自骨干網(wǎng)絡(luò)的層次特征以類似Hou[17]的側(cè)輸出方式加以利用。再通過多尺度檢測模塊(MSD)生成初始預(yù)測圖。然后通過多層次細(xì)化模塊(CFA)從深層次到淺層次逐層級融合層次特征(每層次都加入更深層次特征)得到最終的顯著目標(biāo)預(yù)測圖。

      1.2 骨干網(wǎng)絡(luò)

      本文采用在深度學(xué)習(xí)方法中廣泛使用的經(jīng)過ImageNet 預(yù)訓(xùn)練初始化的ResNet 作為骨干網(wǎng)絡(luò),去掉了ResNet最后的全連接層,并且將ResNet五層卷積層的每一層的最后一個卷積塊的輸出作為提取出的層次特征。我們將同層次的RGB 特征和Depth特征先采用像素加進行了初步的融合。

      1.3 多尺度檢測模塊(Multiscale detection, MSD)

      由于顯著目標(biāo)的尺度大小并不總是一致的,這意味著模型需要在不同的上下文中獲取信息,以便可靠地檢測目標(biāo)。我們需要增強網(wǎng)絡(luò)模型的感受野,以便于解決不同規(guī)模大小的顯著目標(biāo)的檢測問題,因此我們采用了一個多尺度檢測模塊來擴大網(wǎng)絡(luò)的感受野。

      多尺度檢測模塊如圖2 所示,我們采用了三個不同膨脹率的卷積塊構(gòu)成的并行分支并且增加了一個短連接。每個卷積塊都由1×1,3×3,1×1的三個連續(xù)卷積核級聯(lián)組成。不同在于三個卷積塊中的3×3卷積層的膨脹率分別為1、2、3,這樣做的目的是從跨模態(tài)的特征中提取全局上下文信息,增強預(yù)測顯著目標(biāo)的完整性。最后,將三個卷積塊的輸出和短連接加在一起,通過一個1×1的卷積層將通道數(shù)降為1,生成一個初始預(yù)測。深層次的特征具有更多的語義區(qū)分信息,所以初始顯著圖能夠更好的捕獲顯著目標(biāo)的位置,但是缺失許多顯著目標(biāo)的細(xì)節(jié)。

      圖2 多尺度檢測模塊

      1.4 多層次細(xì)化模塊(Cross level aggre-gation, CFA)

      由于低層次的特征包含輸入圖像的許多顯著細(xì)節(jié),我們在初始顯著圖中逐步融合較低層次特征,以細(xì)化顯著目標(biāo)的細(xì)節(jié)。但是引入低層次特征細(xì)化的過程中,同時會引入非顯著區(qū)域。高層次的特征主要關(guān)注于顯著目標(biāo)的語義區(qū)分信息,因此我們在引入較低層次特征的同時,會引入所有更高層次的特征,以消除低層次特征引入會帶來的非顯著區(qū)域。

      層次特征的融合方式引入了如圖3 所示的In?ception[18]結(jié)構(gòu),主要構(gòu)造為1×1、3×3、5×5 的多級卷積和最大池化。在我們的網(wǎng)絡(luò)中,將輸入設(shè)計為融合所有較高層次特征后的Fi和高層次CFA的融合輸出Cj(i,j=1,2,3,4,5)。我們將四個分支的輸出聚合在一起最終輸出,并且為了便于進一步融合較淺層次的特征,我們將總輸出通道數(shù)修改為輸入通道數(shù)(k)的一半。

      圖3 多層次細(xì)化模塊

      2 實驗相關(guān)設(shè)置

      2.1 實驗數(shù)據(jù)集

      本文的訓(xùn)練集采用了訓(xùn)練集NJUD 的1485 張圖片和訓(xùn)練集NLPR的700張圖片作為訓(xùn)練集。將剩余的NJUD 和NLPR 兩個數(shù)據(jù)集的部分當(dāng)做了測試集。并且額外選取了3個常用的數(shù)據(jù)集STERE,DES,LFSD作為測試集。

      2.2 評價指標(biāo)

      為了評估我們的模型和相比較的先進模型的性能,我們采用了4 個在顯著性目標(biāo)檢測中的常用指標(biāo):E-measure(Eα)、S-measure(Sβ)、F-measure(Fξ)以及平均絕對誤差(M)。對于M來說,值越低越好。對其它指標(biāo)來說,值越高越好。

      2.3 實驗細(xì)節(jié)

      本文的網(wǎng)絡(luò)模型是基于Pytorch 框架實現(xiàn)的,在實驗室配備的一臺GTX 1080 Ti GPU上進行的網(wǎng)絡(luò)訓(xùn)練和測試。訓(xùn)練時初始的學(xué)習(xí)率設(shè)置為1e-4,衰減率設(shè)置為0.1。將批次大小batch-size設(shè)置為6,并且對訓(xùn)練模型進行了200個epoch的訓(xùn)練。

      2.4 損失函數(shù)

      我們的方法總體損失函數(shù)由初始損失Lm和最終損失Lf組成。假設(shè)G表示真實監(jiān)督,Sm代表MSD 模塊輸出的初始預(yù)測,Sf是網(wǎng)絡(luò)細(xì)化后的最終預(yù)測結(jié)果??傮w損失函數(shù)定義如下:

      公式(1)中λ用于平衡初始預(yù)測的權(quán)重。我們采用了廣泛使用的交叉熵?fù)p失用于計算Lf和Lm:

      公式(2)中i表示索引并且Si∈{Sf,Sm}。

      3 實驗結(jié)果

      3.1 消融實驗

      為了研究我們的網(wǎng)絡(luò)模型中每個關(guān)鍵結(jié)構(gòu)的有效性,我們進行了消融實驗,并展示了在兩個具有代表性的數(shù)據(jù)集STERE 和NLPR 上的實驗結(jié)果。

      表1展示了網(wǎng)絡(luò)模型的消融實驗結(jié)果。對比1和2 的結(jié)果可以看出,網(wǎng)絡(luò)僅采用MSD 模塊的對顯著目標(biāo)檢測的性能不如網(wǎng)絡(luò)僅采用CFA 模塊的性能。根據(jù)3 的結(jié)果數(shù)據(jù)可以看出,網(wǎng)絡(luò)同時采用MSD 模塊和CFA 模塊的性能是最佳的。相對于僅采用CFA模塊,網(wǎng)絡(luò)在加上MSD模塊和CFA模塊后,在兩個數(shù)據(jù)集四個評價指標(biāo)上分別取得了0.3%~1.39%,0.3%~1.45%,0.5%~2.0%,0.002~0.007的性能提升。

      表1 消融實驗結(jié)果

      3.2 與其他方法對比

      本文主要對比的方法是近年來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法。由于基于傳統(tǒng)方法的顯著性目標(biāo)檢測方法的性能和基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法有較大差距,故方法對比中未加入傳統(tǒng)方法。為了保證公平,競爭方法的結(jié)果皆為作者直接提供的開源結(jié)果。

      表2 中展示了我們的方法在5 個數(shù)據(jù)集上與其他7 個先進方法的定量結(jié)果,其中紅色和藍(lán)色分別代表對應(yīng)數(shù)據(jù)集指標(biāo)的第一、第二。圖4 中展示了我們的方法與其他6 個先進方法的定性結(jié)果??梢钥吹剑覀兊姆椒ㄈ〉昧藘?yōu)異的性能。如圖4 中第一行所示的顯著目標(biāo)與背景具有相似結(jié)構(gòu)情況,我們的方法能夠準(zhǔn)確分割出顯著,目標(biāo)與背景并且排除了背景干擾。第三行和第五行的顯著目標(biāo)與背景的對比度較低,我們的方法能夠更準(zhǔn)確清晰的分割出顯著目標(biāo),并且邊界更為凝練。第四行的結(jié)果表明我們的模型更能排除背景干擾,展示出顯著目標(biāo)的細(xì)節(jié)。第七行中顯著目標(biāo)有遮擋分割的情況下,我們的網(wǎng)絡(luò)能夠有較好的表現(xiàn)。

      表2 定量結(jié)果對比

      圖4 可視化比較

      4 結(jié)語

      本文提出了一種多層次特征細(xì)化融合的顯著性目標(biāo)檢測網(wǎng)絡(luò)模型,通過以深層次特征的區(qū)分性語義為引導(dǎo),在與低層次特征的融合過程中去除噪聲和冗余,有效地融合了不同通道和尺度的特征。最終以一種漸進融合的方式融合深層次到淺層次的特征,從粗糙到精細(xì)地預(yù)測出完整且精細(xì)的顯著目標(biāo)。在5 個常用數(shù)據(jù)集上的實驗結(jié)果證明了我們的網(wǎng)絡(luò)模型的有效性,同時也顯示了在完整并精細(xì)檢測顯著目標(biāo)的優(yōu)勢。

      猜你喜歡
      卷積顯著性特征
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      如何表達(dá)“特征”
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      不忠誠的四個特征
      基于顯著性權(quán)重融合的圖像拼接算法
      電子制作(2019年24期)2019-02-23 13:22:26
      基于視覺顯著性的視頻差錯掩蓋算法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      抓住特征巧觀察
      一種基于顯著性邊緣的運動模糊圖像復(fù)原方法
      論商標(biāo)固有顯著性的認(rèn)定
      夏津县| 玉田县| 慈溪市| 江永县| 颍上县| 建瓯市| 鄂伦春自治旗| 新沂市| 米易县| 大埔县| 东阳市| 庄浪县| 汕头市| 泽库县| 朝阳市| 英德市| 丽水市| 衢州市| 仪陇县| 通化市| 锦屏县| 赫章县| 金山区| 和林格尔县| 霞浦县| 龙门县| 惠东县| 景洪市| 盱眙县| 资溪县| 四子王旗| 霞浦县| 南皮县| 舞钢市| 资源县| 钟祥市| 隆安县| 仁化县| 富川| 中方县| 古交市|