孫劉杰,張煜森,王文舉,趙進
圖文信息技術(shù)
基于注意力機制的輕量級RGB-D圖像語義分割網(wǎng)絡
孫劉杰,張煜森,王文舉,趙進
(上海理工大學,上海 200093)
針對卷積神經(jīng)網(wǎng)絡在RGB-D(彩色-深度)圖像中進行語義分割任務時模型參數(shù)量大且分割精度不高的問題,提出一種融合高效通道注意力機制的輕量級語義分割網(wǎng)絡。文中網(wǎng)絡基于RefineNet,利用深度可分離卷積(Depthwise separable convolution)來輕量化網(wǎng)絡模型,并在編碼網(wǎng)絡和解碼網(wǎng)絡中分別融合高效的通道注意力機制。首先RGB-D圖像通過帶有通道注意力機制的編碼器網(wǎng)絡,分別對RGB圖像和深度圖像進行特征提?。蝗缓蠼?jīng)過融合模塊將2種特征進行多維度融合;最后融合特征經(jīng)過輕量化的解碼器網(wǎng)絡得到分割結(jié)果,并與RefineNet等6種網(wǎng)絡的分割結(jié)果進行對比分析。對提出的算法在語義分割網(wǎng)絡常用公開數(shù)據(jù)集上進行了實驗,實驗結(jié)果顯示文中網(wǎng)絡模型參數(shù)為90.41 MB,且平均交并比(mIoU)比RefineNet網(wǎng)絡提高了1.7%,達到了45.3%。實驗結(jié)果表明,文中網(wǎng)絡在參數(shù)量大幅減少的情況下還能提高了語義分割精度。
RGB-D圖像;語義分割;深度可分離卷積;通道注意力
圖像語義分割是計算機視覺的一項基本任務,已經(jīng)得到了廣泛的研究,其目的是為圖像中的每個像素都分配一個語義標簽,使圖像上的不同種類的物體被區(qū)分開來。如今語義分割網(wǎng)絡有較多的應用場景,如自動駕駛、醫(yī)學診斷和機器人等領(lǐng)域。由于RGB-D圖像比二維圖像多提供了深度信息,所以基于RGB-D圖像的語義分割對復雜環(huán)境適應性較強。隨著RGB-D傳感器的價格下降,RGB-D圖像獲取方便,將深度圖像和RGB圖像結(jié)合進行語義分割成為當前計算機視覺領(lǐng)域的研究重點。
現(xiàn)有的語義分割算法分為2種,一種是傳統(tǒng)的語義分割算法,另一種是基于深度學習的語義分割算法。傳統(tǒng)的語義分割算法中,利用分類算法、圖像特征和區(qū)間信息等方法對圖像進行語義分割。Karsnas等[1]利用基于區(qū)域的分割方法,把整張圖像分割成小的區(qū)域,這些區(qū)域是有著相同的性質(zhì)。Zhang等[2]提出隱式馬爾可夫隨機場模型來分割圖像。Felzenszwalb等[3]提出將HOG特征用于進行圖像語義分割。Cohen等[4]通過利用不同的彩色模型例如Lab、YcBcr、RGB等來對圖像進行分割任務。Yang等[5]利用SVM分類器,提出了一種分層模型的圖像分割算法。Kumar等[6]提出了將條件隨機場(CRF)模型用于圖像的語義分割,通過將隱馬爾可夫模型的特點和最大熵模型的特點融合,使語義分割網(wǎng)絡的分割效果得到很大提升。以上傳統(tǒng)的語義分割方法主要基于RGB圖像?,F(xiàn)實場景中物體都是三維的,從三維物體到二維的投影成像會丟失一部分信息,另一方面,在投影成像的過程中光照和噪聲對其影響很大,這些因素都會導致圖像分割結(jié)果的不準確。
隨著深度學習時代的到來,基于深度學習的語義分割算法成為現(xiàn)在研究重點。全卷積神經(jīng)網(wǎng)絡FCN[7]的提出并在圖像語義分割領(lǐng)域的成功運用,使利用CNN網(wǎng)絡來完成語義分割任務成為發(fā)展趨勢。FCN網(wǎng)絡主要是使用卷積層替換VGG-16[8]網(wǎng)絡中原有的全連接層,去掉最后的分類層,使網(wǎng)絡能適應任意尺寸的輸入。Ronneberger等[9]提出了U-Net網(wǎng)絡,使用多次跳躍連接,增加低層特征,提高網(wǎng)絡精度;Noh等[10]基于FCN網(wǎng)絡提出了DeconvNet網(wǎng)絡,其結(jié)構(gòu)采用編碼-解碼。Badrinarayanan等[11]提出了SegNet網(wǎng)絡,其結(jié)構(gòu)類似于DeconvNet,并使解碼網(wǎng)絡的反池化操作更平滑。在RGB-D圖像語義分割網(wǎng)絡中,將物體深度信息引入語義分割任務,作為顏色信息的補充,有利于區(qū)分圖像中容易混淆的區(qū)域,從而提高語義分割精度。McCormac等[12]將深度信息和RGB信息組合成4個通道信息,提高分割的精度,但沒有對兩者特征融合的方法進行深入探究,所以分割精度提升有限。RDFNet[13]將色彩信息以及深度信息分別輸入2個編碼網(wǎng)絡中,通過特征融合模塊,將2種特征有效融合,最終獲得了較好的分割結(jié)果,但這樣會增加網(wǎng)絡的參數(shù)量和計算量,提高了使用者的計算機硬件門檻。過大的計算量降低了分割的實時性,限制了語義分割網(wǎng)絡的應用,因此語義分割網(wǎng)絡的輕量化設計尤為重要。
注意力機制[14](Attention Mechanism)近年來被廣泛使用在圖像識別、語義分割、自然語言處理等方面,旨在提高網(wǎng)絡模型的性能。注意力有2種方法,一種是基于強化學習方法,通過收益函數(shù)來激勵,讓網(wǎng)絡更加關(guān)注與任務相關(guān)度更高的信息上;另一種是基于梯度下降方法,通過目標函數(shù)和相應的優(yōu)化函數(shù)來實現(xiàn)。在計算機視覺領(lǐng)域,2種方法都有使用,其核心思想就是基于輸入的全部特征,找到特征間的關(guān)聯(lián)性,增加與任務相關(guān)度高的特征權(quán)重。比如通道注意力,空間域注意力,像素注意力,多階注意力等。文中使用的就是一種基于強化學習方法的通道注意力機制。
文中通過改進網(wǎng)絡結(jié)構(gòu)并進行輕量化設計,在分割精度損失較小或保證精度的同時,減少網(wǎng)絡的參數(shù)量和計算量。同時提出一種特征融合模塊,將RGB圖像特征和深度特征融合,更有效地利用RGB-D圖像進行語義分割,并且文中引入ECA-Net(Efficient Channel Attention)[15]高效的通道注意力機制,使用局部跨通道交互信息的策略,重新調(diào)整特征通道的權(quán)重,賦予特征通道不同的權(quán)值,有效地利用高層特征來指導低層特征的學習,使網(wǎng)絡聚焦于對該任務更重要的特征,從而提高語義分割網(wǎng)絡的性能。
文中以RefineNet[16]網(wǎng)絡模型為基礎,構(gòu)建一種輕量級網(wǎng)絡結(jié)構(gòu),通過使用深度可分離卷積對原始網(wǎng)絡進行輕量化設計,旨在減少網(wǎng)絡的參數(shù)量,使得網(wǎng)絡所需的訓練時間變少;通過在網(wǎng)絡中融合高效的通道注意力機制,旨在提高語義分割網(wǎng)絡的分割性能,從而彌補在輕量化設計時網(wǎng)絡分割性能的損失。該網(wǎng)絡分為編碼器網(wǎng)絡和解碼器網(wǎng)絡,編碼器使用融合了高效通道注意力模塊的ECA-MobileNet-V2網(wǎng)絡,用來進行深度圖像和RGB圖像的特征提取,然后通過特征融合模塊將2種特征進行融合,得到2種特征的最優(yōu)融合特征;解碼器是經(jīng)過輕量化設計的RefineNet*模塊,同時在解碼網(wǎng)絡中也加入高效的通道注意力模塊,對編碼器提取的特征進行卷積、融合、池化,使得多尺度特征的融合更加深入,得到更好的分割效果。網(wǎng)絡總體結(jié)構(gòu)見圖1。
該網(wǎng)絡數(shù)據(jù)源為色彩信息和深度信息。輸入的深度信息是HHA圖像,將深度圖編碼成HHA[17],即水平差異、離地高度、像素局部表面法向量與中立方向的夾角3個通道,這種預處理方式會從RGB-D圖像的深度數(shù)據(jù)提取更豐富的空間信息,更有利于圖像的語義分割任務,能提高網(wǎng)絡的分割性能。
圖1 網(wǎng)絡總體結(jié)構(gòu)
基于RGB-D的語義分割的關(guān)鍵在于有效地提取RGB圖像特征和深度特征,并且2種特征的融合方式對網(wǎng)絡后續(xù)進行的語義分割尤為重要。文中提出了一種特征融合模塊,用來融合不同層次的特征,文中網(wǎng)絡的特征融合模塊見圖2。
文中的特征融合模塊是由2個分支組成,分別對RGB特征和深度特征進行處理。每個分支都是先通過一次1×1卷積進行降維,用來減少參數(shù)量,然后接著2個殘差塊來為2種特征進行非線性轉(zhuǎn)換,方便后續(xù)進行特征融合。緊接著一個3×3卷積用來訓練學習控制各模態(tài)特征重要性的參數(shù),最后通過一個殘差池化給融合后的特征加入上下文信息。除殘差塊外的1×1卷積和3×3卷積的其他卷積對控制特征維度進行求和,以及自適應地融合2種特征都起到了重要作用。因為深度特征對語義分割主要起輔助作用,并且語義分割網(wǎng)絡對RGB特征的識別能力更強,所以主要通過融合模塊利用深度特征對RGB特征進行補充,來減少顏色模糊、光照等的影響。
RefineNet網(wǎng)絡架構(gòu)的參數(shù)數(shù)量和浮點運算數(shù)量主要來自RCU模塊(Residual Convolution Unit)、MRF模塊(Multi-resolution Fusion)、CRP模塊(Chained Residual Pooling)中的3×3卷積。文中將RefineNet與Inverted residuals block結(jié)構(gòu)[18]融合,替代原有的標準3×3卷積操作,利用深度可分離卷積(Depthwise separable convolution)來減少原始網(wǎng)絡的參數(shù)量和計算量。深度可分離卷積與標準卷積有所不同,標準卷積的每次卷積操作,包含了特征映射的空間信息和通道信息。深度可分離卷積把標準卷積分為2步,分別為深度卷積(Depthwise)和逐點卷積(Pointwise),從而分2步提取特征映射信息。如圖3所示,在Depthwise卷積中,對輸入個通道特征圖單獨做卷積,輸出個特征圖。Depthwise卷積主要是對空間平面特征的提取,通道之間的信息不發(fā)生融合。在Pointwise卷積中,Depthwise卷積輸出的個特征圖被看作一個整體,通過一個標準1×1×卷積操作輸出一個特征圖,因為在Pointwise卷積中有個1×1×卷積核,所以最終輸出個通道特征圖。
圖2 特征融合模塊
圖3 深度可分離卷積
圖4 卷積對比
標準卷積與深度可分離卷積對比見圖4。假設標準卷積輸入的特征張量為××1,其中,、、1分別為特征張量高度、特征張量寬度、通道數(shù),輸出特征張量為××2,卷積核的大小為×,則標準卷積的參數(shù)量為212,計算量為212。當此特征張量輸入深度可分離卷積時,則其參數(shù)量 為21+12,其中Depthwise卷積的參數(shù)量為21,Pointwise卷積的參數(shù)量為12。其計算量為21+12。深度可分離卷積與標準卷積的計算量之比為:
(1)
參數(shù)量之比為:
(2)
當卷積核的大小>1時,深度可分離卷積的計算量和參數(shù)量都小于標準卷積,并且深度可分離卷積可以達到與標準卷積對圖片處理相近的效果,因此文中參考MobileNet-V2對深度可分離卷積的應用,用深度可分離卷積替代RefineNet網(wǎng)絡中標準的3×3卷積,以達到網(wǎng)絡輕量化目的。
RefineNet中RCU模塊為原始ResNet中的卷積單元,為2個3×3標準卷積,主要任務是將預訓練后編碼器網(wǎng)絡的權(quán)重進行微調(diào)。為了減少參數(shù)量和計算量,將RCU模塊改進為倒殘差結(jié)構(gòu)[18]:首先使用一個1×1卷積擴張?zhí)卣骶S度,緊接著使用一個3×3的深度卷積,最后使用一個1×1逐點卷積進行壓縮,并且最后一個激活層函數(shù)為線性激活函數(shù),前面2個激活層函數(shù)為ReLU。將RCU-LW模塊設計為此結(jié)構(gòu)是為了避免深度卷積只在低維特征上進行卷積操作導致效果不好,這樣就可以得到更高維度的特征,使網(wǎng)絡有更豐富的特征來滿足預測。
MRF-LW模塊中為2組3×3的深度卷積和1×1逐點卷積。此模塊主要先進行輸入自適應,生成相同特征維數(shù)的特征映射,然后將所有特征映射上采樣到輸入的最大分辨率,最后通過求和融合所有特征圖。CRP-LW模塊主要為從大的圖像區(qū)域捕獲其上下文背景信息,能夠有效地將具有多種尺度特征集合起來,并將可學習的權(quán)重與它們?nèi)诤显谝黄?。RCU-LW模塊、MRF-LW模塊、CRP-LW模塊見圖5。
RefineNet網(wǎng)絡的編碼器是ResNet-101。由于ResNet-101網(wǎng)絡深度達到101層,參數(shù)量和計算量較大,為了減小語義分割網(wǎng)絡的參數(shù)量和降低對計算機性能要求,文中使用了輕量級網(wǎng)絡MobileNet-V2作為編碼器網(wǎng)絡,提高了特征提取的速度。MobileNet-V2與ResNet-101模型大小對比見表1。
通道注意力機制在改善深度卷積神經(jīng)網(wǎng)絡性能方面體現(xiàn)了很大的優(yōu)勢,廣泛應用于圖像分類、語義分割、目標檢測等多個方面,能夠使網(wǎng)絡在訓練中學習到對特征通道和背景等信息的建模能力,有效地提升了網(wǎng)絡模型的性能。因為不同的通道是從不同的角度對目標深度信息進行建模,所以對于不同的目標任務各個通道的重要性不同,而通道間也存在聯(lián)系。大多現(xiàn)有的方法在提高的網(wǎng)絡性能的同時,也相應地增加了網(wǎng)絡模型的復雜程度。
圖5 LW-RefineNet中各個模塊
表1 特征提取網(wǎng)絡在網(wǎng)絡參數(shù)量(Params)、浮點運算次數(shù)(FLOPs)比較
Tab.1 Comparison of feature extraction network in network parameters (Param) and floating-point operation times (FLOPS)
文中使用的ECA-Net高效通道注意力模塊只涉及少量參數(shù),同時對網(wǎng)絡性能的增益明顯。ECA-Net注意力模塊是由經(jīng)典的SENet[19]改進而來。當特征信息輸入時,SENet中的通道注意力模塊首先獨立地對每個通道采用全局平均池化操作,然后使用2個非線性全連接(FC)層和1個Sigmoid函數(shù)來生成通道權(quán)重,其中2個全連接層用于捕捉跨通道交互信息,并且SENet還通過降低維度的方式來降低模型復雜性,但是此方式會使通道特征首先投影到低維空間,然后再映射回來,使通道與其權(quán)重之間成為間接的對應關(guān)系。另外所有通道的相關(guān)性對通道注意力預測不是必要的。ECA-Net注意力模塊使用卷積核大小為的1×1卷積來替代通道注意力模塊的全連接層,以實現(xiàn)本地跨通道交互信息。其中表示把每個通道的依賴關(guān)系提取依據(jù)特征維度限定在個通道以內(nèi)。該注意力模塊不需要使通道維度降低,并在進行跨通道交互信息時考慮每個通道的相鄰通道,這樣可以降低注意力模塊的計算量,提高網(wǎng)絡整體運行速度并且保證了網(wǎng)絡效果。
跨通道交互信息的覆蓋范圍值自適應地確定原理為:根據(jù)群卷積在卷積神經(jīng)網(wǎng)絡中的成功應用,提升了卷積神經(jīng)網(wǎng)絡的結(jié)構(gòu)[20],其中高維通道涉及長范圍的卷積,低維通道涉及短范圍的卷積,給定了固定數(shù)量的分組。同理,交互作用的覆蓋范圍(即一維卷積的核尺寸)與通道維數(shù)成正比,也就是說,在與之間可能存在一個映射:
(3)
最簡單的映射是為線性函數(shù)關(guān)系,即()=?–,但是用線性函數(shù)表示的關(guān)系存在局限性。通常將通道維數(shù)也就是濾波器的數(shù)量設置為2的冪,因此,將線性函數(shù)()=?–擴展為非線性函數(shù),即:
(4)
在給定信道維數(shù)的條件下,可以通過式(5)自適應地確定卷積核值的大小,即:
(5)
式中:||odd為最接近的奇數(shù)。在實驗中分別將和設為2和1,最終值取3,即文中加入ECA-Net利用的1×1卷積的核為3,因此通過映射,高維通道的相互作用距離較長,而低維通道的相互作用距離較短。
將高效的通道注意力機制加入到編碼器網(wǎng)絡和解碼器網(wǎng)絡中。編碼器網(wǎng)絡為融入了高效通道注意力的MobileNet-V2,在MobileNet-V2的倒殘差結(jié)構(gòu)中的殘余層融合了通道注意力機制ECA-Net。這樣使網(wǎng)絡提取的特征通過GAP和自適應1×1卷積確定相應的特征通道的權(quán)重,并根據(jù)上述跨通道交互信息的覆蓋范圍值自適應地確定原理,捕捉了特征通道和其相鄰3個通道的相互依賴關(guān)系,從而使整個網(wǎng)絡在端到端的訓練中學習到對不同特征通道的權(quán)重,提高編碼網(wǎng)絡的特征提取能力。ECA-MobileNet-V2 block見圖6。
為了更好地比較各編碼網(wǎng)絡的復雜性,將各個網(wǎng)絡模型體積對比見表2。根據(jù)表2所示的數(shù)據(jù)可知,ECA-MobileNet-V2的模型體積和計算量都遠小于SE-ResNet-101網(wǎng)絡,ECA-NET作為一種高效通道注意力機制融合到網(wǎng)絡后,該網(wǎng)絡的模型大小不變,并且增加的計算量很少。
圖6 ECA-MobileNet-V2 block結(jié)構(gòu)
表2 融合不同通道注意力機制網(wǎng)絡在網(wǎng)絡參數(shù)(Params)、浮點運算次數(shù)(FLOPs)比較
Tab.2 Comparison of network with different channels attention mechanism networks in parameters (Params) and floating-point operation times (Flops)
文中解碼器網(wǎng)絡是在基于RefineNet上進行輕量化設計,并加入高效的通道注意力機制。對于圖像的語義分割,圖像的低層特征有助于分割出輪廓清晰的目標,但缺乏具有豐富語義信息的高層特征容易產(chǎn)生錯誤分割。語義分割的重點在于利用好低層的外觀信息和深層的語義信息,RefineNet將不同深度的特征圖融合起來,使語義分割網(wǎng)絡的性能提升。這樣直接融合的操作,忽略了2種層次特征的權(quán)重對語義分割的影響,并不能充分利用好低層特征信息和高層特征信息。為了解決此問題,文中在網(wǎng)絡中融合了高效的通道注意力模塊,在2種特征融合前先經(jīng)過注意力模塊,用具有豐富語義信息的高層特征指導低層特征,以達到更好分割效果。融合了高效通道注意力模塊的RefineNet*網(wǎng)絡結(jié)構(gòu)見圖7。
實驗平臺硬件配置為:Inter(R) core(TM)i9- 10920X CPU 3.50 GHz,內(nèi)存64 G、NVIDIA GeForce RTX 3070顯卡,軟件配置為Ubuntu 18.04系統(tǒng),PyTorch深度學習框架。
基于RGB-D圖像的語義分割常用的數(shù)據(jù)集為NYU Depth v2[21]和SUN-RGBD[22]數(shù)據(jù)集,這2個是經(jīng)典的RGB-D數(shù)據(jù)集,絕大多數(shù)RGB-D語義分割網(wǎng)絡都會在這2個數(shù)據(jù)集上訓練和評估,并進行性能對比。NYU Depth v2數(shù)據(jù)集一共包含1449張室內(nèi)場景的RGB-D圖像,語義標簽一共分為了40類。所有數(shù)據(jù)是由Microsoft Kinect采集。在該實驗中,使用了795個實例用于網(wǎng)絡訓練,654個實例用與網(wǎng)絡測試。SUN-RGBD數(shù)據(jù)集一共10 335張RGB-D圖像和語義標簽,每個像素被分配一個語義標簽。所有圖像一共被劃分為37個語義類別。在該實驗中使用了5285個圖像進行訓練,5050個圖像進行測試。
實驗采用了圖像語義分割常用的3個性能評價指標:平均交并比(mIoU)、像素精度(pixel accuracy)、平均精度(mean accuracy)。上述評價指標定義如下所述。
1)平均交并比(mIoU)。在圖像的語義分割中物體經(jīng)過分割區(qū)域與物體本身正確的區(qū)域的交集占兩者并集的百分比稱為交并比(IoU),則平均交并比即是(mIoU)對每類物體的交并求均值,計算式為:
(6)
式中:Pii為屬于物體i類被分類為i類的像素數(shù)量,稱為真正;Pij為屬于i類物體卻被劃分為j類物體的像素數(shù)量,稱為假負;Pji為屬于j物體被分類為i類的像素數(shù)量,稱為假正;Pjj 為屬于j類物體被分類為j類物體的像素數(shù)量,稱為真負;i類為正類,非i類為負類,K+1為分割類別的總數(shù)量,1為1個背景類。圖像語義分割性能指標具體見圖8。
圖7 LW-RefineNet*模塊結(jié)構(gòu)
Fig.7 LW-RefineNet* module structure
圖8 語義分割性能指標
2)像素精度(Pixel Accuracy)、平均像素精度(Mean Pixel Accuracy)。像素精度為所有像素中分類正確的精度百分比,平均精度為各類物體像素精度的平均值,計算式分別為:
(7)
(8)
式中:P為屬于物體類也被分類為類的像素數(shù)量;P為原本屬于類物體的像素卻被劃分為類物體的像素數(shù)量;+1為分割類別的總數(shù)量,1為1個背景類。
為驗證文中網(wǎng)絡模型輕量化設計的效果以及融合通道注意力機制對語義分割性能的提升作用,實驗將文中網(wǎng)絡與原始網(wǎng)絡的模型參數(shù)量進行對比,并在NYU Depth v2數(shù)據(jù)集上進行多組對照實驗,實驗結(jié)果見表3。其中原始網(wǎng)絡的編碼網(wǎng)絡采用ResNet-101,文中網(wǎng)絡的編碼網(wǎng)絡采用ECA-MobileNet-V2即ECA-V2。
實驗結(jié)果表明,文中網(wǎng)絡模型僅為90.41 MB,并且文中網(wǎng)絡的平均交并比(mIoU)比原始網(wǎng)絡提高了1.7%。在對解碼網(wǎng)絡RefineNet進行輕量化設計時,整個網(wǎng)絡模型大小減少了253.30 MB,計算量減少了1.783×1011,但同時網(wǎng)絡的平均交并比(mIoU)降低了0.9%。在LW-RefineNet-101中融合通道注意力機制后,該網(wǎng)絡的模型大小基本不變,平均交并比(mIoU)提高了2.8%。說明融合通道注意力機制對整個語義分割網(wǎng)絡起到了提高分割性能的作用,另一方面說明ECA作為一種高效的通道注意力機制融合到網(wǎng)絡不會影響網(wǎng)絡模型的大小,且增加的計算量只有1.1×108。由于ResNet-101網(wǎng)絡結(jié)構(gòu)深等特點,所以其特征信息提取的能力高于MobileNet-V2,從而導致文中網(wǎng)絡的平均交并比低于LW-RefineNet*-101,但是ResNet-101的模型也比MobileNet-V2大149.38 MB,達不到網(wǎng)絡輕量化設計的目的,因此文中采用的編碼網(wǎng)絡是ECA-MobileNet-V2。在編碼網(wǎng)絡中融合通道注意力機制是為了減小將ResNet-101更換為MobileNet-V2對網(wǎng)絡分割性能產(chǎn)生的影響。
為了更詳細地分析文中網(wǎng)絡在各個語義類別上的分割情況,將文中網(wǎng)絡和原始RefineNet-101網(wǎng)絡在SUN-RGBD數(shù)據(jù)集進行實驗。實驗結(jié)果見表4。
如實驗結(jié)果表4所示,文中網(wǎng)絡在32個類別的交并比上明顯超過RefineNet-101網(wǎng)絡,在“照片”、“窗簾”、“地毯”、“電冰箱”、“紙張”5個類別上語義分割精度與原網(wǎng)絡近似。具體來說,文中網(wǎng)絡因為利用了物體的深度信息,輔助RGB信息進行語義分割,提高了幾何特征明顯以及一些輪廓復雜、重疊的物體的分割準確率。因為“紙張”類別的厚度很小,輪廓簡單,其在基于RGB圖片分割時交并比(IoU)就低,所以文中網(wǎng)絡“紙張”類別的交并比(IoU)會低于RefineNet-101;同時網(wǎng)絡中高效的通道注意力機制有效的利用了空間信息和語義信息,通過加強對有效特征的學習,提高對物體分割的準確率,例如對“櫥柜”、“柜臺”、“沐浴器”、“浴缸”等類別物體的分割交并比提高了約6%。
文中網(wǎng)絡與其他語義分割算法在NYU Depth V2數(shù)據(jù)集上的對比實驗結(jié)果見表5,語義分割結(jié)果可視圖見圖9。
表3 網(wǎng)絡模型參數(shù)量和性能對比
Tab.3 Comparison of number of network model parameters and performance
表4 在SUN-RGBD數(shù)據(jù)集37個類別的交并比(IoU)的比較
Tab.4 Comparison results of IoU of 37 categories in SUN-RGBD dataset %
表5 不同網(wǎng)絡算法在NYU Depth V2上性能對比
Tab.5 Comparison of performance of different network algorithms on NYU Depth V2 %
由實驗結(jié)果可知,文中網(wǎng)絡比FuseNet網(wǎng)絡像素精度(Pixel Acc)提高了4.5%,平均精度(Mean Acc)提高了5.8%,平均交并比(mIoU)提高了7%,比同樣使用了通道注意力機制的MMAF-Net- 152[25]的平均交并比(mIoU)高了0.7%,平均精 度(Mean Acc)提高了5.8%。文中網(wǎng)絡與主流 語義分割網(wǎng)絡RefineNet-101相比不僅在模型參 數(shù)量減少了,而且比原始網(wǎng)絡RefineNet-101的 像素精度(Pixel acc)提高了1.4%,平均精度 (Mean acc)提高了1.8%,平均交并比(mIoU)提高了1.7%。
從語義分割可視化結(jié)果來看,文中網(wǎng)絡將物體的邊界分割得更為清晰,輪廓分割得更為明顯,特別是當分割一些體積較小的物體時,文中網(wǎng)絡分割的準確率更高。這說明在網(wǎng)絡中融合通道注意力機制后,網(wǎng)絡把對語義分割重要的特征通道的權(quán)重增大,這樣使網(wǎng)絡聚集于對該分割任務更重要的特征,達到了更好的語義分割效果。
圖9 語義分割結(jié)果
文中提出了一種基于RGB-D圖像的語義分割網(wǎng)絡,其通過深度可分離卷積對RefineNet網(wǎng)絡進行輕量化設計,在保證分割性能的前提下,使模型參數(shù)量降低為90.41 MB;通過使用特征融合模塊將RGB特征和深度特征進行多層次融合,更有效地利用了RGB-D信息,提升了語義分割網(wǎng)絡的性能;在網(wǎng)絡中融合高效的通道注意力機制,在低層特征和高層特征融合前先經(jīng)過注意力模塊,用具有豐富語義信息的高層特征指導低層特征,有效地利用低層特征,提升了網(wǎng)絡的邊緣分割效果,同時有效利用高層特征增加分割準確率,使文中網(wǎng)絡比RefineNet-101網(wǎng)絡平均交并比(mIoU)提高了1.7%?;赗GB-D圖像的語義分割網(wǎng)絡的性能還有提升空間,特別是在深度信息與RGB信息融合方法還需進一步探究,更好地利用深度信息提升語義分割精度,以及提高語義分割網(wǎng)絡的實時性,都是未來研究的方向。
[1] K?RSN?S A, DAHL A L, LARSEN R. Learning Histopathological Patterns[J]. Journal of Pathology Informatics, 2011, 2: 12.
[2] ZHANG Y, BRADY M, SMITH S. Segmentation of Brain MR Images through a Hidden Markov Random Field Model and the Expectation-Maximization Algorithm[J]. IEEE Transactions on Medical Imaging, 2001, 20(1): 45-57.
[3] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object Detection with Discriminatively Trained Part-Based Models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[4] COHEN A, RIVLIN E, SHIMSHONI I, et al. Memory Based Active Contour Algorithm Using Pixel-Level Classified Images for Colon Crypt Segmentation[J]. Computerized Medical Imaging and Graphics, 2015, 43: 150-164.
[5] YANG Yi, HALLMAN S, RAMANAN D, et al. Layered Object Models for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(9): 1731-1743.
[6] KUMAR S, HEBERT M. Discriminative Random Fields: A Discriminative Framework for Contextual Interaction in Classification[C]// IEEE International Conference on Computer Vision, Nice, 2003: 1150- 1157.
[7] SHELHAMER E, LONG J, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.
[8] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. 2014: arXiv: 1409.1556[cs.CV]. https:// arxiv.org/abs/1409.1556.
[9] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015, 2015: 1520-1528.
[10] NOH H, HONG S, HAN B. Learning Deconvolution Network for Semantic Segmentation[C]// IEEE International Conference on Computer Vision, Santiago, 2016: 1520-1528.
[11] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[12] MCCORMAC J, HANDA A, DAVISON A, et al. SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks[C]// IEEE International Conference on Robotics & Automation, Singapore, 2017: 4628-4635.
[13] PARK S J, HONG K S, LEE S. Rdfnet: Rgb-d Multi-Level Residual Feature Fusion for Indoor Semantic Segmentation[C]// International Conference on Computer Vision, Venice, Italy, IEEE, 2017: 4980-4989.
[14] CHAUDHARI S, MITHAL V, POLATKAN G, et al. An Attentive Survey of Attention Models[J]. ACM 37, 2020, 4: 20.
[15] WANG Qi-long, WU Bang-gu, ZHU Peng-fei, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C]// Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2020: 11531-11539.
[16] LIN Guo-sheng, MILAN A, SHEN Chun-hua, et al. RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation[C]// Computer Vision and Pattern Recognition, IEEE, Honolulu, Hawaii, 2017: 1925-1934.
[17] GUPTA S, ARBELAEZ P, MALIK J. Perceptual Organization and Recognition of Indoor Scenes from RGB-D Images[C]// Computer Vision and Pattern Recognition, IEEE, Portland, Oregon, 2013: 564-571.
[18] SANDLER M, HOWARD A, ZHU Meng-long, et al. Mobilenetv2: Inverted Residuals and Linear Bottlenecks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Salt lake, Utah, 2018: 4510-4520.
[19] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation Networks[C]// Computer Vision and Pattern Recognition, IEEE, Salt Lake City, Utah, 2018: 7132-7141.
[20] IOANNOU Y, ROBERTSON D, CIPOLLA R, et al. Deep Roots: Improving CNN Efficiency with Hierarchical Filter Groups[C]// EEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017: 5977-5986.
[21] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor Segmentation and Support Inference from RGB-D Images[C]// Proceedings of the IEEE Conference on Computer Vision, Florence, 2012: 746-760.
[22] SONG S, LICHTENBERG S P, XIAO Jian-xiao. SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Boston, 2015: 567-576.
[23] LIN G, SHEN C, VAN DEN HENGEL A, et al. Exploring Context with Deep Structured Models for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6): 1352-1366.
[24] HAZIRBAS C, MA Ling-ni, DOMOKOS C, et al. FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-Based CNN Architecture[C]// Computer Vision-ACCV 2016, 2017: 213-228.
[25] FOOLADGAR F, KASAEI S. Multi-Modal Attention-Based Fusion Model for Semantic Segmentation of RGB-Depth Images[EB/OL]. arXiv: 1912.11691, 2019. https://arxiv.org/abs/1912.11691.
Lightweight Semantic Segmentation Network for RGB-D Image Based on Attention Mechanism
SUN Liu-jie, ZHANG Yu-sen, WANG Wen-ju, ZHAO Jin
(University of Shanghai for Science and Technology, Shanghai 200093, China)
The work aims to propose a lightweight semantic segmentation network incorporating efficient channel attention mechanism to solve the problem of large number of model parameters and low segmentation accuracy when Convolutional Neural Network performs semantic segmentation in RGB-D images. Based on RefineNet, the network model was lightened by Depthwise Separable Convolution. In addition, an efficient channel attention mechanism was applied to the encoding network and the decoding network.Firstly, the features of RGB image and depth image were extracted by the encoder network with channel attention mechanism. Secondly, the two features were fused in multiple dimensions by the fusion module. Finally, the segmentation results were obtained by the lightweight decoder network and compared with the segmentation results of 6 networks such as RefineNet. The proposed algorithm was tested on public datasets commonly used in semantic segmentation networks. The experimental results showed that the parameters of the proposed network model were only 90.41 MB, and the mIoU was 1.7% higher than that of RefineNet network, reaching 45.3%. The experimental results show that the proposed network can improve the precision of semantic segmentation even when the number of parameters is greatly reduced.
RGB-D images; semantic segmentation; depthwise separable convolution; channel attention mechanism
TP391
A
1001-3563(2022)03-0264-10
10.19554/j.cnki.1001-3563.2022.03.033
2021-06-11
上海市科學技術(shù)委員會科研計劃(18060502500)
孫劉杰(1965—),男,博士,上海理工大學教授,主要研究方向為光信息處理技術(shù)、印刷機測量與控制技術(shù)、數(shù)字印刷防偽技術(shù)、圖文信息處理技術(shù)。