• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      RGB-D語(yǔ)義分割:深度信息的選擇使用

      2022-08-09 12:38:22趙經(jīng)陽(yáng)余昌黔桑農(nóng)
      關(guān)鍵詞:彩色圖像語(yǔ)義卷積

      趙經(jīng)陽(yáng),余昌黔,桑農(nóng)

      華中科技大學(xué)人工智能與自動(dòng)化學(xué)院圖像信息處理與智能控制教育部重點(diǎn)實(shí)驗(yàn)室,武漢 430074

      0 引 言

      語(yǔ)義分割是計(jì)算機(jī)視覺領(lǐng)域中的一項(xiàng)基本任務(wù),目標(biāo)是將圖像中的每一個(gè)像素分配給對(duì)應(yīng)的類別,是像素級(jí)別的多分類任務(wù)。在自動(dòng)駕駛、虛擬現(xiàn)實(shí)和醫(yī)學(xué)圖像處理等領(lǐng)域具有重要意義。卷積神經(jīng)網(wǎng)絡(luò)促使神經(jīng)網(wǎng)絡(luò)迅速發(fā)展,在計(jì)算機(jī)視覺各項(xiàng)任務(wù)中均取得最好效果(Krizhevsky等,2012;Simonyan和Zisserman,2015;He等,2016)。而全卷積神經(jīng)網(wǎng)絡(luò)(Long等,2015)徹底改變了語(yǔ)義分割等領(lǐng)域的格局,依靠編碼器—解碼器的結(jié)構(gòu),降低了對(duì)圖像尺寸的依賴,無(wú)論輸入編碼器圖像尺寸如何,都可在解碼器輸出部分得到相同大小的分割圖像。一系列基于全卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割研究(Chen等,2017,2018a;Lin等,2016;Liu等,2015)極大地推動(dòng)了語(yǔ)義分割的發(fā)展。

      由于深度相機(jī)的出現(xiàn)(Zhang,2012),可以比較方便地獲取彩色圖像對(duì)應(yīng)的深度圖像。深度圖是單通道圖像,圖像中的每個(gè)值對(duì)應(yīng)該像素點(diǎn)到相機(jī)平面的距離。顯而易見,深度圖含有彩色圖像相對(duì)匱乏的空間深度信息。在語(yǔ)義分割任務(wù)中,彩色圖像中外觀相似的相鄰物體是網(wǎng)絡(luò)難以區(qū)分的,但深度圖像的應(yīng)用可以在一定程度上緩解這個(gè)問題。盡管外觀特征相似,但其在3D空間中相距甚遠(yuǎn),這可以幫助網(wǎng)絡(luò)進(jìn)行分類。Gupta等人(2014)將深度圖轉(zhuǎn)化為三通道的HHA(horizontal disparity, height above ground and angle with gravity)圖像,豐富了深度圖像信息。

      近年有不少關(guān)于RGB-D語(yǔ)義分割的研究(Jiang等,2018;Xing等,2020),但如何更有效地提取深度信息并嵌入到視覺特征仍是一個(gè)值得探索的問題。彩色圖像由于其明亮的顏色和清晰的紋理,蘊(yùn)含了良好的語(yǔ)義信息。而與彩色圖像對(duì)齊的深度圖像存在較為準(zhǔn)確的深度數(shù)據(jù),含有區(qū)別于彩色圖像的空間信息。兩種圖像既有差異性也有互補(bǔ)性,如果簡(jiǎn)單地將全部深度信息和視覺特征組合在一起,可能會(huì)對(duì)網(wǎng)絡(luò)產(chǎn)生干擾。根據(jù)將深度信息嵌入視覺特征的方式,大部分研究方法可以大致分為以下3類:?jiǎn)瘟?one-stream)方法(Wang和 Neumann,2018;Xing等,2019)、雙流(two-stream)方法(Cheng等,2017;Lee等,2017)以及多任務(wù)(multi-task)方法(Xu 等,2018;Zhang 等,2019)。單流方法不會(huì)將深度圖作為額外輸入而對(duì)其提取特征,只有一個(gè)對(duì)彩色圖像進(jìn)行特征提取的主干(backbone)網(wǎng)絡(luò),特征提取過程中利用深度圖固有空間信息輔助視覺特征提取,以達(dá)到提高語(yǔ)義分割的效果;或是采用多個(gè)卷積核沿深度方向?qū)斎雸D像提取特征,每個(gè)卷積核處理不同深度的像素點(diǎn),最后將多個(gè)卷積核的計(jì)算結(jié)果相加。雙流方法將深度圖作為額外輸入而對(duì)其提取特征,主要存在兩個(gè)主干網(wǎng)絡(luò),每個(gè)主干網(wǎng)絡(luò)分別對(duì)彩色圖像和深度圖像提取特征,在編碼或解碼階段將提取的視覺特征與深度特征融合,達(dá)到利用深度信息的目的。多任務(wù)方式與上述兩種方式顯著不同,將語(yǔ)義分割、深度估計(jì)以及表面法線估計(jì)等多種任務(wù)一同處理,這類方式往往只有一個(gè)共用的主干網(wǎng)絡(luò),在對(duì)彩色圖像進(jìn)行特征提取過程中,根據(jù)不同任務(wù)的監(jiān)督可以得到多個(gè)任務(wù)相似的特征以及互補(bǔ)的特征,不同任務(wù)間特征的交互會(huì)提高各個(gè)任務(wù)的性能。除此之外,Song等人(2017)和Zhong等人(2018)利用深度信息將彩色圖像映射到3D空間中,使用3D卷積對(duì)圖像進(jìn)行特征提取,然而這種方法得到的3D數(shù)據(jù)是比較稀疏的,對(duì)于計(jì)算資源和存儲(chǔ)空間要求較高,從而限制了它的應(yīng)用。Qi等人(2017)在3D點(diǎn)云的基礎(chǔ)上構(gòu)建了K-近鄰圖(K-nearest neighbor graph),通過循環(huán)迭代方式更新節(jié)點(diǎn)的特征表示。

      以上研究都忽略了同一個(gè)問題,即并非所有的深度信息都是必要的,將全部深度信息嵌入視覺特征可能會(huì)對(duì)網(wǎng)絡(luò)造成干擾。彩色圖像固有的顏色和紋理信息有時(shí)完全可以清楚地區(qū)分兩個(gè)或多個(gè)類別,此時(shí)深度信息的加入多少有些畫蛇添足的味道。例如,深度特征相似但視覺特征不同的物體本可以由視覺特征區(qū)分,此時(shí)加入深度信息反而會(huì)使網(wǎng)絡(luò)模型做出錯(cuò)誤判斷。如圖1所示,圖1(a)中的毛巾(橙色框中物體)僅通過視覺特征,即僅將彩色圖像作為輸入,網(wǎng)絡(luò)便可清晰分辨,如圖1(b)橙色框中的分割結(jié)果。引入全部深度信息時(shí),網(wǎng)絡(luò)的分割結(jié)果反而變差,如圖1(c)橙色框中的分割結(jié)果。引入部分深度信息時(shí),網(wǎng)絡(luò)的分割結(jié)果又變好,如圖1(e)橙色框中的分割結(jié)果。此外,圖1(a)中的鏡子(藍(lán)色框中物體)和插座(綠色框中物體)僅使用彩色圖像,分割結(jié)果如圖1(b)中的藍(lán)色框與綠色框;或?qū)⑷可疃刃畔⑶度胍曈X特征,分割結(jié)果如圖1(c)中的藍(lán)色框與綠色框,都沒有取得理想效果,僅使用視覺特征缺少空間深度信息,而引入全部深度信息可能會(huì)對(duì)網(wǎng)絡(luò)產(chǎn)生干擾,但合理利用深度信息卻取得了良好結(jié)果,如圖1(e)中藍(lán)色框與綠色框中的分割結(jié)果。在網(wǎng)絡(luò)不需要深度信息時(shí)不引入深度信息或者引入極少的深度信息,不會(huì)對(duì)模型造成額外干擾;在網(wǎng)絡(luò)需要深度信息時(shí),引入較多的深度信息。

      圖1 彩色圖像、深度圖像、標(biāo)簽以及不同方法的分割結(jié)果Fig.1 Color image, depth image, label and segmentation results of different methods((a)original image;(b)segmentation result with color image only;(c)segmentation result with all depth information;(d)depth image;(e)segmentation result with partial depth information selected by network adaptively;(f)label image)

      而且,卷積神經(jīng)網(wǎng)絡(luò)中卷積核的固有結(jié)構(gòu)限制了其特征提取的能力。Dai等人(2017)和Zhu等人(2019)針對(duì)這個(gè)問題提出了可變形卷積,可以根據(jù)輸入學(xué)習(xí)卷積點(diǎn)的位置偏移矩陣,擴(kuò)大卷積的感受野,依據(jù)物體形狀提取相關(guān)特征,從而提高模型的建模能力。但僅依靠視覺特征輸入學(xué)習(xí)偏移矩陣略有不足,因?yàn)椴噬珗D像具有的深度信息是十分有限的。基于以上問題,本文提出了深度信息引導(dǎo)的特征提取模塊(depth guided feature extraction,DFE),其中包括深度信息引導(dǎo)的特征選擇模塊(depth guided feature selection,DFS)和深度信息嵌入的可變形卷積模塊(depth embedded deformable convolution,DDC)。為了避免引入全部深度信息對(duì)網(wǎng)絡(luò)造成干擾,提出的DFS模塊將視覺特征和深度特征連接,通過通道注意力模塊(channel attention,CA)使網(wǎng)絡(luò)關(guān)注圖像中希望被關(guān)注的部分,篩選出對(duì)輸出具有重要影響的視覺特征和深度特征。對(duì)于篩選出來的視覺特征和深度特征,采用深度信息選擇模塊(depth selection,DS)得到深度特征對(duì)應(yīng)的權(quán)重矩陣,這樣網(wǎng)絡(luò)可以根據(jù)任務(wù)需要自適應(yīng)地調(diào)整深度信息引入的程度,篩選出具有關(guān)鍵深度信息的多模特征。例如,需要深度信息輔助網(wǎng)絡(luò)進(jìn)行分類時(shí),深度信息對(duì)應(yīng)的比例變大。反之,深度信息占的比例減小。為了更好地提高模型的建模能力,提出的DDC對(duì)篩選出來含有關(guān)鍵深度信息的多模特征進(jìn)行卷積運(yùn)算,學(xué)習(xí)采樣點(diǎn)的位置偏移矩陣,根據(jù)物體形狀提取更相關(guān)的特征。

      本文主要貢獻(xiàn)為:1)提出深度信息引導(dǎo)的特征選擇模塊DFS,可根據(jù)視覺特征和深度特征的輸入自適應(yīng)地決定深度信息加入比例,能夠在一定程度上避免全部深度信息引入對(duì)網(wǎng)絡(luò)造成的干擾;2)提出深度信息嵌入的可變形卷積模塊DDC,深度圖固有的空間深度信息可以幫助模型學(xué)習(xí)更準(zhǔn)確的位置偏移,從而根據(jù)物體形狀提取更相關(guān)的特征;3)重新思考深度信息引入對(duì)RGB-D模型的影響,并在NYUv2(New York University Depth Dataset V2)數(shù)據(jù)集上達(dá)到最好的分割效果;4)設(shè)計(jì)的模塊DFS、DDC以及DFE可以比較方便地嵌入目前流行的特征提取網(wǎng)絡(luò),利用深度信息提高模型的建模能力。

      1 相關(guān)研究

      隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,計(jì)算機(jī)視覺領(lǐng)域不斷取得新的進(jìn)展(Simonyan和 Zisserman,2015;He等,2016;Szegedy等,2015)。對(duì)2D圖像的語(yǔ)義分割,基于全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)(Chen 等,2018a;Zhao等,2017)和編碼器—解碼器(encoder-decoder)模型的持續(xù)涌現(xiàn)(Badrinarayanan等,2015;Ronneberger等,2015;Lin等,2017b),極大地推動(dòng)了語(yǔ)義分割技術(shù)進(jìn)步。注意力機(jī)制(Vaswani等,2017)和可變形卷積(deformable convolution,DC)也進(jìn)入科研人員視野。深度相機(jī)的出現(xiàn)使深度圖獲取相對(duì)容易,人們很自然地將彩色圖像的語(yǔ)義分割擴(kuò)展到RGB-D圖像的語(yǔ)義分割。研究表明,深度圖像的引入可以提高圖像分割的效果,RGB-D語(yǔ)義分割技術(shù)也在蓬勃發(fā)展。

      1.1 RGB-D語(yǔ)義分割

      深度圖像的加入使彩色圖像的語(yǔ)義分割擴(kuò)展到RGB-D圖像的語(yǔ)義分割。早期RGB-D圖像語(yǔ)義分割多是將深度圖作為單獨(dú)輸入,對(duì)深度圖像和彩色圖像分別提取特征,在適當(dāng)位置將兩種模態(tài)的特征融合,實(shí)現(xiàn)將深度信息嵌入視覺特征的目的。為了更好地將深度信息嵌入視覺特征,自RefineNet(Lin 等,2017b)擴(kuò)展而來的RDFNet(RGB-D fusion network)(Lee等,2017)提出多模特征融合模塊(multi-modal feature fusion,MMF)融合相同階段的深度特征和視覺特征,采用逐層優(yōu)化的方法將不同階段的多模特征融合,顯著提高了語(yǔ)義分割精度。Wang等人(2016)在編碼器和解碼器之間提出一種特征轉(zhuǎn)換網(wǎng)絡(luò),分別挖掘視覺特征和深度特征之間的相似特征以及獨(dú)有特征,通過相似特征之間的交互增強(qiáng)各自的特征表示。由反卷積網(wǎng)絡(luò)擴(kuò)展而來的LSDNet(locality sensitive deconvolution network)(Cheng等,2017)在反卷積過程中利用深度信息改善物體邊緣信息,采用門控結(jié)構(gòu)融合深度圖像和彩色圖像的分割結(jié)果。CFNet(cascaded feature network)(Lin等,2017a)采用上下文感知的感受野模塊提取不同深度的上下文信息,采用級(jí)聯(lián)方式將不同深度的上下文信息進(jìn)行融合來改善語(yǔ)義分割效果。Wang和Neumann(2018)基于同一物體具有相似深度的思想,利用卷積點(diǎn)與周圍像素點(diǎn)之間距離的差異,顯式地改變周圍點(diǎn)對(duì)中心卷積點(diǎn)的貢獻(xiàn)程度,距離近的像素點(diǎn)貢獻(xiàn)大,距離遠(yuǎn)的像素點(diǎn)貢獻(xiàn)小,從而實(shí)現(xiàn)RGB-D的語(yǔ)義分割。2.5D卷積網(wǎng)絡(luò)(Xing等,2019)利用深度信息將彩色圖像上的像素點(diǎn)按照深度劃分至不同區(qū)域,采用多個(gè)卷積核分別處理不同深度的像素點(diǎn),最后將多個(gè)卷積核處理的結(jié)果相加。3DGNN(3D graph neural network)(Qi等,2017)采用3D圖神經(jīng)網(wǎng)絡(luò)以點(diǎn)云為基礎(chǔ)創(chuàng)建K-近鄰圖,通過循環(huán)迭代方式更新節(jié)點(diǎn)的特征表示。Zhang等人(2019)將語(yǔ)義分割、深度估計(jì)以及表面法線估計(jì)等多種任務(wù)一同處理,這些任務(wù)具有相似的特征以及互補(bǔ)的特征,不同任務(wù)間特征的交互會(huì)提高各任務(wù)的性能。

      以上RGB-D語(yǔ)義分割的研究均未考慮深度信息引入是否會(huì)對(duì)網(wǎng)絡(luò)模型產(chǎn)生干擾。本文從一個(gè)新的角度思考深度信息的作用,在合理利用深度信息的同時(shí),篩選關(guān)鍵的深度信息嵌入視覺特征,從而改善語(yǔ)義分割效果。

      1.2 注意力機(jī)制

      源于人類視覺的注意力機(jī)制已廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的各種任務(wù),作為一種有效工具,可以突出圖像中含有重要信息部分,即可以幫助網(wǎng)絡(luò)關(guān)注到人類感興趣的區(qū)域。SENet(squeeze-and-excitation network)(Hu等,2018)中的通道注意力(channel attention)機(jī)制沿通道方向進(jìn)行均值池化,可以提取關(guān)鍵的全局信息,這個(gè)全局信息可以作為權(quán)重對(duì)輸入特征進(jìn)行篩選,即突出圖像中人類感興趣的部分。DFN(discriminative feature network)(Yu等,2018)中的通道注意力模塊(channel attention block,CAB)將高層特征與相鄰的低層特征融合,利用高層特征豐富的語(yǔ)義信息作為引導(dǎo),篩選出具有判別性的特征對(duì)低層的特征進(jìn)行逐層優(yōu)化,提升了語(yǔ)義分割精度。本文采用SENet中的通道注意力機(jī)制,利用深度信息篩選關(guān)鍵特征。

      1.3 可變形卷積

      圖像中物體形狀和尺寸千差萬(wàn)別,卷積核只在固定位置采樣,忽略了物體的空間位置信息,其固有的幾何結(jié)構(gòu)限制了卷積神經(jīng)網(wǎng)絡(luò)的建模能力。為了解決上述問題,Dai等人(2017)提出可變形卷積,在標(biāo)準(zhǔn)2D卷積基礎(chǔ)上增加一個(gè)新的卷積,用來學(xué)習(xí)采樣點(diǎn)的位置偏移,此時(shí)可變形卷積可以通過輸入視覺特征自適應(yīng)地調(diào)整采樣點(diǎn)位置,增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)提取特征的能力。Zhu等人(2019)在Dai等人(2017)基礎(chǔ)上進(jìn)一步改進(jìn),由于采樣點(diǎn)位置偏移是通過對(duì)視覺特征卷積學(xué)習(xí)到的,所有新的采樣點(diǎn)可能會(huì)超出感興趣區(qū)域。為了解決這個(gè)問題,Zhu等人(2019)采用調(diào)制機(jī)制,通過對(duì)輸入視覺特征進(jìn)行卷積,學(xué)習(xí)一個(gè)與采樣位置相關(guān)的權(quán)重矩陣,超出感興趣區(qū)域的采樣位置會(huì)得到一個(gè)較小權(quán)重,可以在一定程度上緩解采樣點(diǎn)超出相關(guān)區(qū)域問題。相對(duì)于彩色圖像,深度圖像含有豐富的空間深度信息,提出的深度信息嵌入的可變形卷積模塊DDC,在關(guān)鍵深度信息嵌入下,可以依據(jù)物體形狀提取到更相關(guān)的特征。

      SAG(separation-and-aggregation gate)(Chen等,2020)和ACNet(attention complementary network)(Hu等,2019)都對(duì)特征進(jìn)行了選擇。但是,SAG同時(shí)調(diào)整深度特征和視覺特征加入網(wǎng)絡(luò)的程度,導(dǎo)致深度特征可能會(huì)占據(jù)主導(dǎo)地位,而深度特征缺少語(yǔ)義信息,僅依靠深度特征分辨不同物體對(duì)于網(wǎng)絡(luò)是十分困難的。ACNet僅依靠通道注意力的方法進(jìn)行特征選擇,略有不足,也沒有考慮到深度特征語(yǔ)義信息不足的缺點(diǎn)。本文方法則以視覺特征為主,深度信息為輔,僅在模型需要時(shí)自適應(yīng)地添加深度信息,即僅選擇關(guān)鍵的深度特征。

      2 方 法

      彩色圖像具有豐富的顏色和紋理信息,而與之對(duì)齊的深度圖像蘊(yùn)含較為豐富的空間深度信息,深度信息的引入可以在一定程度上提高彩色圖像語(yǔ)義分割的效果。然而,如何將深度信息嵌入視覺特征仍然是一個(gè)值得探索的問題。當(dāng)前絕大多數(shù)的研究都在嘗試找到一種最好的利用深度信息的方式來提高彩色圖像語(yǔ)義分割的精度,但并沒有考慮深度信息的引入是否會(huì)對(duì)網(wǎng)絡(luò)產(chǎn)生干擾,有時(shí)僅依靠視覺特征網(wǎng)絡(luò)就能區(qū)分不同的物體,在引入深度信息后反而會(huì)使網(wǎng)絡(luò)模型作出錯(cuò)誤判斷。本文從這個(gè)角度出發(fā),重新考慮深度信息的利用方式,提出了深度信息引導(dǎo)的特征提取模塊DFE,包括深度信息引導(dǎo)的特征選擇模塊DFS和深度信息嵌入的可變形卷積模塊DDC。DFS首先將視覺特征與深度特征連接得到多模特征,然后通過注意力機(jī)制篩選對(duì)輸出具有重要影響的多模特征,通過對(duì)這部分多模特征的學(xué)習(xí),得到深度特征對(duì)應(yīng)的權(quán)重矩陣,自適應(yīng)地決定深度信息引入的程度,之后將輸入視覺特征與篩選出的深度特征相加,得到含有關(guān)鍵深度信息的多模特征。DDC對(duì)嵌入關(guān)鍵深度信息的多模特征進(jìn)行學(xué)習(xí),得到卷積采樣點(diǎn)的位置偏移矩陣,從而確定新的采樣點(diǎn)位置。由于深度信息的引入,可變形卷積可以在一定程度上克服彩色圖像空間深度信息不足的缺點(diǎn),根據(jù)物體的形狀提取更相關(guān)的特征。

      2.1 網(wǎng)絡(luò)整體結(jié)構(gòu)

      圖2為網(wǎng)絡(luò)整體結(jié)構(gòu)。本文采用雙流方法分別對(duì)彩色圖像和深度圖像提取特征。提出的DFE模塊包括DFS模塊和DDC模塊。DFS可以篩選對(duì)輸出有重要影響的深度特征,并自適應(yīng)地調(diào)整深度特征嵌入視覺特征的程度,得到含有關(guān)鍵深度信息的多模特征;DDC結(jié)合含有關(guān)鍵深度信息的多模特征以及輸入視覺特征,可以根據(jù)物體形狀學(xué)習(xí)更相關(guān)的特征。網(wǎng)絡(luò)編碼器的輸出通過解碼器產(chǎn)生與原始圖像尺寸相同的分割圖像,本文未特別設(shè)計(jì)解碼器結(jié)構(gòu),采用基準(zhǔn)分割網(wǎng)絡(luò)deeplabV3+的解碼器單元作為本文網(wǎng)絡(luò)的解碼器部分。

      圖2 網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.2 The overall structure of the network

      2.2 編碼器

      本文采用ResNet-50(He等,2016)作為提取特征主干網(wǎng)絡(luò),在ResNet相鄰模塊間添加DFE結(jié)構(gòu),通過深度信息引導(dǎo)逐層提取重要的特征表示。

      2.2.1 深度信息引導(dǎo)的特征提取模塊DFE

      本文從一個(gè)新的辯證角度看待深度信息的作用,將全部深度信息引入神經(jīng)網(wǎng)絡(luò)有時(shí)會(huì)使網(wǎng)絡(luò)做出錯(cuò)誤判斷,為了盡可能避免這種情況,合理利用深度信息,提出了DFE模塊,如圖3所示。深度信息引導(dǎo)的特征提取模塊首先將深度特征與視覺特征連接,然后通過通道注意力方法從融合特征中篩選出具有重要影響的特征。得到的關(guān)鍵特征通過深度信息選擇模塊(DS)產(chǎn)生對(duì)應(yīng)于深度特征的權(quán)重矩陣。深度特征與對(duì)應(yīng)的權(quán)重矩陣相乘之后再與視覺特征相加,從而將深度信息嵌入視覺特征。由于深度特征對(duì)應(yīng)的權(quán)重矩陣是通過學(xué)習(xí)得到的,網(wǎng)絡(luò)可以根據(jù)需要自適應(yīng)地調(diào)整深度信息引入的多少,而不是對(duì)深度信息照單全收。為了更好地發(fā)揮可變形卷積的特征提取能力,本文提出的深度信息嵌入的可變形卷積模塊,將嵌入深度信息的多模特征作為輸入,學(xué)習(xí)采樣點(diǎn)的位置偏移,深度特征的加入彌補(bǔ)了視覺特征空間深度信息不足的缺點(diǎn)。

      圖3 網(wǎng)絡(luò)的DFE模塊Fig.3 DFE module of the network

      2.2.2 深度信息引導(dǎo)的特征選擇模塊DFS

      (1)

      (2)

      式中,CA表示通道注意力方法。

      從多模特征中篩選出來的特征對(duì)輸出有比較重要的影響,同時(shí)也影響著深度信息嵌入網(wǎng)絡(luò)的程度。于是,通過深度信息選擇模塊DS,網(wǎng)絡(luò)學(xué)習(xí)到了深度特征對(duì)應(yīng)的權(quán)重矩陣γH×W。具體為

      (3)

      式中,f3×3表示3×3的卷積函數(shù),f1表示第1個(gè)1×1的卷積函數(shù),f2表示第2個(gè)1×1的卷積函數(shù),R表示ReLU激活函數(shù),σ表示sigmoid函數(shù)。

      將權(quán)重矩陣與相應(yīng)深度特征點(diǎn)乘,得到篩選出的深度特征DH×W×C,即

      (4)

      (5)

      DS模塊結(jié)構(gòu)如圖4所示。經(jīng)過通道注意力方法的多模特征先進(jìn)行3×3的卷積運(yùn)算進(jìn)一步提取特征,并對(duì)多模特征進(jìn)行降維,減少運(yùn)算參數(shù)量,之后經(jīng)過1×1的卷積運(yùn)算與ReLU激活函數(shù)得到通道數(shù)為1的目標(biāo)矩陣,再經(jīng)過1×1的卷積運(yùn)算進(jìn)行調(diào)整,調(diào)整后的目標(biāo)矩陣通過sigmoid函數(shù)生成深度特征對(duì)應(yīng)的權(quán)重矩陣,這個(gè)權(quán)重矩陣對(duì)深度特征進(jìn)行了顯式的篩選,可以根據(jù)任務(wù)需要自適應(yīng)地確定引入網(wǎng)絡(luò)的深度信息的多少。

      圖4 深度信息選擇模塊DSFig.4 Depth information selection module

      2.2.3 深度信息嵌入的可變形卷積模塊DDC

      為了改變卷積核固有的幾何結(jié)構(gòu),提升卷積神經(jīng)網(wǎng)絡(luò)建模能力,可變形卷積通過對(duì)輸入視覺特征進(jìn)行卷積運(yùn)算學(xué)習(xí)采樣點(diǎn)的位置偏移,使采樣點(diǎn)不再局限于固定尺寸的方格中,而是根據(jù)物體形狀偏移。然而僅依靠視覺特征學(xué)習(xí)采樣點(diǎn)的位置偏移略有不足,畢竟彩色圖像含有的空間深度信息十分有限。這時(shí)需要發(fā)揮深度圖像的作用,將深度信息引入視覺特征,通過含有關(guān)鍵深度信息的多模特征來學(xué)習(xí)更加符合物體形狀的位置偏移。

      本文采用與可變形卷積(Dai等,2017)類似的方式描述卷積運(yùn)算,用x代表輸入特征圖,w表示卷積核的權(quán)重,y表示卷積的輸出。卷積核采樣點(diǎn)的感受野與卷積核的尺寸相關(guān),假如采用3×3的卷積核,那么可以用集合A={(-1,1), (0,1), (1,1), (-1,0),(0,0), (0,1), (-1,-1), (0,-1), (1,-1)} 表示卷積核的感受野,這也是卷積核采樣點(diǎn)的位置坐標(biāo),中心坐標(biāo)(0,0) 為卷積核采樣的中心點(diǎn)pi。標(biāo)準(zhǔn)卷積運(yùn)算具體計(jì)算為

      (6)

      式中,pj∈A為卷積核感受野中的點(diǎn)。

      深度信息嵌入的可變形卷積同樣包含兩個(gè)卷積運(yùn)算,第1個(gè)卷積運(yùn)算對(duì)含有關(guān)鍵深度信息的輸入多模特征進(jìn)行卷積,得到第2個(gè)卷積運(yùn)算的位置偏移矩陣。第2個(gè)卷積運(yùn)算對(duì)輸入視覺特征進(jìn)行卷積,將初始采樣點(diǎn)的坐標(biāo)與第1個(gè)卷積運(yùn)算得到的位置偏移坐標(biāo)相加得到新的采樣點(diǎn)的坐標(biāo),根據(jù)卷積核的權(quán)重對(duì)新的采樣點(diǎn)完成加權(quán)求和。即

      (7)

      (8)

      (9)

      式中,pj∈A為感受野中其余采樣點(diǎn)的坐標(biāo),(pj+pi+Δpdj)為新的采樣點(diǎn)的坐標(biāo);Δpdj為采樣點(diǎn)的位置偏移,來自O(shè)ffH×W×2C對(duì)應(yīng)的柵格,由第1個(gè)卷積運(yùn)算得到,即Δpdj∈OffH×W×2C,如圖5所示。

      圖5 深度信息嵌入的可變形卷積DDCFig.5 Depth embedded deformable convolution

      2.3 解碼器

      圖6 解碼器網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Decoder network structure

      解碼器將編碼器得到的語(yǔ)義特征通過金字塔池化模塊得到多尺度的語(yǔ)義特征,經(jīng)過1×1的卷積運(yùn)算進(jìn)行調(diào)整,接著通過4倍上采樣運(yùn)算得到中間特征,中間特征與編碼器階段DFE模塊中相同尺寸的多模特征融合,融合后的特征經(jīng)過3×3的卷積運(yùn)算進(jìn)一步提取特征,之后再進(jìn)行4倍上采樣運(yùn)算得到分割結(jié)果(Chen等,2018b)。

      3 實(shí) 驗(yàn)

      實(shí)驗(yàn)在NYUv2數(shù)據(jù)集(Silberman等,2012)上進(jìn)行,包括消融實(shí)驗(yàn)以及與其他方法的比較。

      3.1 數(shù)據(jù)集

      NYUv2數(shù)據(jù)集是目前流行的RGB-D數(shù)據(jù)集之一,含有1 449幅像素級(jí)別標(biāo)注的彩色圖像以及與之對(duì)齊的深度圖像,其中包括795幅訓(xùn)練集圖像和694幅測(cè)試集圖像。數(shù)據(jù)集圖像均為常見的室內(nèi)場(chǎng)景,如客廳、臥室和浴室等。本文使用的是適用于語(yǔ)義分割的40類標(biāo)注的NYUv2數(shù)據(jù)集。

      3.2 實(shí)驗(yàn)細(xì)節(jié)

      3.3 消融實(shí)驗(yàn)

      3.3.1 DDC消融實(shí)驗(yàn)

      一般意義上的可變形卷積對(duì)輸入視覺特征先進(jìn)行第1個(gè)單獨(dú)的卷積,得到對(duì)應(yīng)采樣點(diǎn)的位置偏移,使得中心采樣點(diǎn)與周圍采樣點(diǎn)偏移至同一類別或相關(guān)類別,然后對(duì)位置偏移之后的新采樣點(diǎn)進(jìn)行第2個(gè)卷積,以打破卷積核固有的結(jié)構(gòu)限制,提高卷積神經(jīng)網(wǎng)絡(luò)的建模能力。然而彩色圖像中空間深度信息十分有限,僅依靠彩色圖像學(xué)習(xí)到的位置偏移稍有不足。針對(duì)這個(gè)問題,提出了DDC,對(duì)含有深度信息的多模特征進(jìn)行卷積學(xué)習(xí)采樣點(diǎn)的位置偏移,對(duì)新采樣點(diǎn)完成卷積運(yùn)算。

      表1為DDC消融實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)1為實(shí)驗(yàn)基準(zhǔn),是將全部深度信息嵌入視覺特征(All)得到的分割結(jié)果。實(shí)驗(yàn)2在實(shí)驗(yàn)1基礎(chǔ)上添加了一般意義上的可變形卷積(DC),圖像分割結(jié)果為46.2%,精度相對(duì)于基準(zhǔn)提高了0.2%;實(shí)驗(yàn)3在實(shí)驗(yàn)1基礎(chǔ)上加入了DDC,在參數(shù)數(shù)量相同情況下,分割結(jié)果為46.6%,相對(duì)于基準(zhǔn)提高了0.6%,相對(duì)實(shí)驗(yàn)2提高了0.4%,充分說明了DDC的有效性。在同時(shí)加入DFS情況下,DDC的性能依舊高于一般意義上的可變形卷積,如實(shí)驗(yàn)4和實(shí)驗(yàn)5,實(shí)驗(yàn)5相對(duì)于實(shí)驗(yàn)4提高了0.4%。實(shí)驗(yàn)結(jié)果表明,在深度信息引導(dǎo)下,網(wǎng)絡(luò)學(xué)習(xí)到了更好的位置偏移。

      企業(yè)的發(fā)展能力也稱成長(zhǎng)能力,是指企業(yè)在從事經(jīng)營(yíng)活動(dòng)過程中所表現(xiàn)出的增長(zhǎng)能力,如規(guī)模的擴(kuò)大、盈利的持續(xù)增長(zhǎng)、市場(chǎng)競(jìng)爭(zhēng)力的增強(qiáng)等。反映企業(yè)發(fā)展能力的主要財(cái)務(wù)比率有銷售增長(zhǎng)率、資產(chǎn)增長(zhǎng)率、股權(quán)資本增長(zhǎng)率、利潤(rùn)增長(zhǎng)率等。

      表1 DDC消融實(shí)驗(yàn)結(jié)果Table 1 The results of DDC ablation study

      3.3.2 DFS消融實(shí)驗(yàn)

      深度圖作為彩色圖像的補(bǔ)充,提供了彩色圖像相對(duì)匱乏的空間深度信息,在一定程度上提高了語(yǔ)義分割效果。然而不加考慮地將全部深度信息嵌入視覺特征也可能對(duì)網(wǎng)絡(luò)產(chǎn)生干擾。在模型僅依靠視覺特征網(wǎng)絡(luò)即可區(qū)分兩類或多類物體時(shí),加入的深度信息反而會(huì)使模型做出錯(cuò)誤判斷。對(duì)此,本文提出了DFS,在深度信息的引導(dǎo)下,自適應(yīng)地調(diào)整深度信息嵌入視覺特征的程度,在網(wǎng)絡(luò)不需要深度信息時(shí),不引入或僅引入極少的深度信息,避免對(duì)網(wǎng)絡(luò)產(chǎn)生不必要干擾;而在網(wǎng)絡(luò)需要深度信息時(shí),將關(guān)鍵的深度信息融入視覺特征。

      為驗(yàn)證DFS的有效性,進(jìn)行了一系列實(shí)驗(yàn),結(jié)果如表2所示。實(shí)驗(yàn)1為實(shí)驗(yàn)基準(zhǔn),即將全部深度信息嵌入視覺特征(All)得到的分割結(jié)果。實(shí)驗(yàn)2為添加DFS的分割結(jié)果,相對(duì)于實(shí)驗(yàn)1提高了5.4%。充分說明了DFS的有效性。在同時(shí)使用DDC情況下,實(shí)驗(yàn)4的分割結(jié)果為51.9%,相對(duì)于實(shí)驗(yàn)3的46.6%,提高了5.3%。實(shí)驗(yàn)結(jié)果表明,合理利用深度信息可以在較好地提高網(wǎng)絡(luò)性能的同時(shí)減少對(duì)網(wǎng)絡(luò)的干擾。

      表2 DFS消融實(shí)驗(yàn)結(jié)果Table 2 The results of DFS ablation study

      3.3.3 DFE消融實(shí)驗(yàn)

      表3為DFE消融實(shí)驗(yàn)結(jié)果。其中,DFE-n表示第n個(gè)DFE模塊??梢钥闯觯诓皇褂肈FE模塊情況下分割結(jié)果為46.0%,即對(duì)比基準(zhǔn)。在僅使用第1個(gè)DFE模塊情況下分割結(jié)果為48.8%,相對(duì)于基準(zhǔn)提高了2.8%,在加入第2個(gè)DFE模塊后分割結(jié)果提升至49.3%,相對(duì)于只有1個(gè)DFE模塊情況提高了0.5%;使用3個(gè)和4個(gè)DFE模塊的分割結(jié)果分別為50.8%和51.9%,相對(duì)于基準(zhǔn)分別提高了4.8%和5.9%,充分說明了DFE模塊的有效性。

      表3 DFE消融實(shí)驗(yàn)結(jié)果Table 3 The results of DFE ablation study

      綜合前面的實(shí)驗(yàn),形成表4。通過表4,可以清楚地觀察到本文方法的有效性。

      表4 DFE綜合實(shí)驗(yàn)結(jié)果Table 4 The results of DFE comprehensive study

      3.4 與其他方法的對(duì)比

      為進(jìn)一步驗(yàn)證本文方法有效性,與其他方法進(jìn)行對(duì)比。為了比較的公平性,實(shí)驗(yàn)均采用ResNet-50作為主干網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如表5所示。

      表5 不同方法的mIoU和PA對(duì)比Table 5 Comparison of results of mIoU and PA among different methods /%

      本文方法思路與SAG和ACNet兩種方法相似,與這兩種方法相比,ACNet、SAG、DFS和DFE方法的分割精度分別為48.3%、51.3%、51.4%和51.9%,本文方法取得了更優(yōu)異的分割結(jié)果。且ACNet、SAG、DFS和DFE方法的參數(shù)量分別為934.0 M、888.2 M、706.2 M和1 098.0 M,相比于ACNet以及SAG,DFS方法使用較少參數(shù)實(shí)現(xiàn)了較好的分割效果。DFE方法在結(jié)合DDC模塊后參數(shù)量有一定增加,但實(shí)現(xiàn)了最好的分割結(jié)果。VCD + ACNet與本文分割結(jié)果相同,然而VCD + ACNet使用了3個(gè)主干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),本文僅使用2個(gè)主干網(wǎng)絡(luò),本文使用更少參數(shù)達(dá)到了相同的分割效果。使用ResNet-101作為主干網(wǎng)絡(luò)時(shí),本文方法分割精度可以達(dá)到52.6%。

      3.5 圖像語(yǔ)義分割結(jié)果的可視化

      圖7為圖像語(yǔ)義分割結(jié)果的可視化??梢钥闯觯肴可疃刃畔⒑罂赡軙?huì)對(duì)分割結(jié)果產(chǎn)生負(fù)面影響(圖7(b)(c))。而在加入DFS模塊和DFE模塊后,網(wǎng)絡(luò)能夠比較合理地利用深度信息,在提升網(wǎng)絡(luò)分割性能的同時(shí),盡量避免對(duì)網(wǎng)絡(luò)造成不利影響(圖7(d)(e))。

      圖7 圖像分割結(jié)果的可視化Fig.7 Visualization of image segmentation results((a)color images;(b)results with color images only;(c)results with all depth information;(d)results with DFS;(e) results with DFE;(f)label images)

      4 結(jié) 論

      本文重新思考了深度信息的利用方式。在視覺特征足夠區(qū)分不同物體情況下,深度信息的加入反而可能會(huì)使模型產(chǎn)生錯(cuò)誤的分類結(jié)果。為了避免這種情況,提出一種深度信息引導(dǎo)的特征提取模塊DFE。DFE包括特征選擇模塊DFS和可變形卷積模塊DDC。DFS模塊在特征提取過程中可以自適應(yīng)地調(diào)整深度信息引入的多少。DDC模塊通過深度信息的嵌入,增強(qiáng)可變形卷積提取特征能力,將嵌入關(guān)鍵深度信息的多模特征作為輸入,學(xué)習(xí)卷積核采樣的位置偏移。由于深度圖固有的空間深度信息,彌補(bǔ)了彩色圖像空間深度信息不足的缺點(diǎn),可以提取到較好的語(yǔ)義特征。與其他方法在NYUv2數(shù)據(jù)集上的比較中,本文方法取得了最佳效果。此外,DFE模塊可以比較方便地嵌入當(dāng)下流行的特征提取網(wǎng)絡(luò)中。

      猜你喜歡
      彩色圖像語(yǔ)義卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      語(yǔ)言與語(yǔ)義
      基于FPGA的實(shí)時(shí)彩色圖像邊緣檢測(cè)
      電子制作(2019年16期)2019-09-27 09:34:46
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于最大加權(quán)投影求解的彩色圖像灰度化對(duì)比度保留算法
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      基于顏色恒常性的彩色圖像分割方法
      認(rèn)知范疇模糊與語(yǔ)義模糊
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      阿巴嘎旗| 柯坪县| 信丰县| 刚察县| 诸暨市| 宾川县| 兖州市| 新巴尔虎左旗| 青冈县| 宜都市| 时尚| 汾西县| 舒兰市| 台州市| 邹平县| 阿克苏市| 西贡区| 紫云| 伊通| 峨边| 科尔| 腾冲县| 建水县| 汉阴县| 西畴县| 会泽县| 伊宁县| 金坛市| 江都市| 密山市| 旺苍县| 德令哈市| 临泉县| 清徐县| 蒙自县| 曲沃县| 昭觉县| 张家港市| 鲜城| 松江区| 庆城县|