賀照蒙,孔廣黔,吳 云
貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng)550025
隨著人工智能的不斷發(fā)展,智能家居機(jī)器人逐漸走進(jìn)了人們的生活。智能家居機(jī)器人的主要工作場(chǎng)所就是室內(nèi)。為了讓機(jī)器人在室內(nèi)環(huán)境中更好地完成工作,必須使其具備一定的對(duì)室內(nèi)場(chǎng)景的理解能力。而語(yǔ)義分割就是將圖像分割成幾個(gè)具有語(yǔ)義意義的連貫部分,這有助于機(jī)器人對(duì)場(chǎng)景的理解。因此,越來(lái)越多的研究者投入到室內(nèi)場(chǎng)景語(yǔ)義分割的研究之中。
然而,由于室內(nèi)場(chǎng)景的物體種類(lèi)繁多,物體尺寸相差較大且大量物體重疊遮擋,導(dǎo)致室內(nèi)場(chǎng)景語(yǔ)義分割仍極具挑戰(zhàn)。隨著深度相機(jī)(例如Time-of-Flight(TOF)、Kinect等)的出現(xiàn)和發(fā)展,研究者通過(guò)深度相機(jī),可以獲得更多的幾何信息,這些信息對(duì)光照、外觀和遮擋都具有更高的不變性,融合RGB和深度特征有利于室內(nèi)場(chǎng)景的語(yǔ)義分割,理論上比只利用RGB信息進(jìn)行語(yǔ)義分割的分割性能更好。
總而言之,深度圖像能為語(yǔ)義分割提供更為豐富的幾何信息,有助于網(wǎng)絡(luò)避免受目標(biāo)的外觀、光照等影響。但是,目前大多數(shù)室內(nèi)場(chǎng)景語(yǔ)義分割網(wǎng)絡(luò)的融合方式過(guò)于單一,不能根據(jù)RGB和深度圖像的特點(diǎn)進(jìn)行融合,分割精度欠佳。針對(duì)這一問(wèn)題,本文引入通道注意力機(jī)制的思想,設(shè)計(jì)了特征融合模塊,使網(wǎng)絡(luò)能夠?qū)W習(xí)性地融合RGB和深度信息;同時(shí)使用多尺度聯(lián)合訓(xùn)練指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)各個(gè)尺度的特征,加速網(wǎng)絡(luò)收斂,提高分割精度。
本文網(wǎng)絡(luò)主要包括編碼器和解碼器兩部分。其中解碼器部分包括:(1)骨干網(wǎng)絡(luò)-殘差網(wǎng)絡(luò)(Residual Networks,ResNet)[13];(2)特征融合模塊(Feature Fusion Module,F(xiàn)FM)。解碼器部分包括:(1)反卷積模塊;(2)跳過(guò)連接;(3)多尺度聯(lián)合訓(xùn)練模塊。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)總體結(jié)構(gòu)Fig.1 Overall network structure
本文網(wǎng)絡(luò)首先利用骨干網(wǎng)絡(luò)ResNet(上下分支)分階段提取圖像的RGB和深度特征,得到(block0~block4)5個(gè)階段的特征圖xi∈RH×W×C(i∈[1,5],H×W×C表示特征圖的高為H,寬為W,通道數(shù)為C);然后通過(guò)特征融合模塊FFM(粉紅色)有選擇性地融合同尺度的特征圖x;接著使用反卷積(淺藍(lán)色)恢復(fù)圖像的細(xì)節(jié)信息,在此過(guò)程中,加權(quán)融合跳過(guò)連接提供的底層特征(黃色);最后使用多尺度聯(lián)合訓(xùn)練模塊,生成outi(i∈[1,4])(深灰色)和最終的finalout(紫色)5個(gè)尺度的預(yù)測(cè)圖。
本文網(wǎng)絡(luò)相較于Locality-Sensitive[10]、DFCN-DCRF[14]等網(wǎng)絡(luò)的改進(jìn)之處在于:(1)在編碼器部分提出引入注意力機(jī)制的特征融合模塊,該模塊能夠根據(jù)深度特征圖和RGB特征圖的特點(diǎn),學(xué)習(xí)性地調(diào)整網(wǎng)絡(luò)參數(shù),更有效地對(duì)深度特征和RGB特征進(jìn)行深度融合;(2)在解碼器部分則利用多尺度聯(lián)合訓(xùn)練模塊來(lái)加權(quán)融合圖像的底層特征,恢復(fù)細(xì)節(jié)信息,提高預(yù)測(cè)圖像的精確度。
在室內(nèi)場(chǎng)景語(yǔ)義分割中,深度圖像和RGB圖像提供的信息差異較大。RGB圖像提供的是目標(biāo)類(lèi)的顏色、形狀等各個(gè)類(lèi)別的細(xì)節(jié)信息;深度圖像提供的是圖像中各個(gè)類(lèi)的相對(duì)位置信息。融合RGB圖像和深度圖像能夠有效提高室內(nèi)場(chǎng)景語(yǔ)義分割的精度,但如果忽略?xún)烧叩牟町愋?,使用直接求和的方式?duì)兩者進(jìn)行融合,則無(wú)法充分利用兩種圖像的有效信息,甚至可能因提取到的特征權(quán)重占比失衡而導(dǎo)致分類(lèi)錯(cuò)誤。
軟土地區(qū)選用的地方做法一般采用增加零層板方案。其中,附屬用房及辦公樓部分柱網(wǎng)大約為7m×8m,柱網(wǎng)間距不大,可僅在柱網(wǎng)間設(shè)置零層板即可。而泵房部分為跨度22m的門(mén)式剛架結(jié)構(gòu),因此,還需要對(duì)廠(chǎng)區(qū)地坪進(jìn)行處理。地坪活荷載按照30kN/m2進(jìn)行計(jì)算,在鋼柱區(qū)間內(nèi)均勻布置地坪樁。北塘熱電廠(chǎng)供熱管網(wǎng)南干線(xiàn)天堿中繼泵站樁承臺(tái)平面布置圖如圖1所示,地坪樁及零層板布置圖如圖2所示。
針對(duì)這一問(wèn)題,本文希望網(wǎng)絡(luò)能夠選擇性地關(guān)注從深度圖像和RGB圖像提取到的特征,按照各自特點(diǎn)進(jìn)行融合,從而產(chǎn)生互補(bǔ)的效果。
因此,本文設(shè)計(jì)了一個(gè)新的特征融合模塊,如圖2所示(H×W表示特征圖的大小,C表示特征圖的通道數(shù))。該模塊由預(yù)處理和通道注意力兩部分組成。預(yù)處理部分通過(guò)卷積操作增強(qiáng)深度特征圖和RGB特征圖的聯(lián)系,學(xué)習(xí)各通道局部特征的相關(guān)性,同時(shí)使用短連接保留深度特征和RGB特征的特性;通道注意力部分使網(wǎng)絡(luò)更關(guān)注相對(duì)重要的特征通道,通過(guò)訓(xùn)練尋找各通道的最佳融合方式,實(shí)現(xiàn)按照深度特征圖和RGB特征圖的特點(diǎn)進(jìn)行融合的目的。
圖2 特征融合模塊Fig.2 Feature fusion module
(1)預(yù)處理部分如圖3所示。通道注意力的全局平均池化(Global Average Pooling,GPA)會(huì)對(duì)整個(gè)通道的全局信息進(jìn)行壓縮,無(wú)法實(shí)現(xiàn)各通道局部特征相關(guān)性的學(xué)習(xí),因此加入預(yù)處理部分來(lái)加強(qiáng)深度和RGB這兩種特征圖的局部相關(guān)性。預(yù)處理部分首先串聯(lián)ResNet分支中同尺度的RGB特征圖和深度特征圖,得到組合特征圖x;考慮卷積核感受野對(duì)分割效果的影響,通過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)使用兩個(gè)3×3卷積來(lái)增強(qiáng)深度特征圖和RGB特征圖的聯(lián)系效果最好(使用更大的卷積核或增加卷積層的數(shù)量,分割精度幾乎沒(méi)有變化,只是增大了計(jì)算量);同時(shí)使用短連接將組合得到的特征圖x映射到后層,用以保留深度特征和RGB特征的特性,最后得到初步融合的特征圖y。計(jì)算公式如下:
圖3 預(yù)處理部分Fig.3 Preprocessing part
其中,x為組合后的特征圖,f3×3為3×3卷積函數(shù),σ為Relu激活函數(shù)。
(2)通道注意力部分如圖4所示。該部分通過(guò)學(xué)習(xí)的方式來(lái)自動(dòng)獲取每個(gè)特征通道的重要程度,然后依此實(shí)現(xiàn)深度信息和RGB信息的互補(bǔ)融合。首先使用全局平均池化(GPA)對(duì)初步融合的特征圖y進(jìn)行壓縮,得到其對(duì)應(yīng)的一維特征yc。此時(shí)yc在一定程度上具有全局的感受野,為了便于最后為y分配權(quán)重,yc輸入和輸出的通道數(shù)不變,計(jì)算公式如下:
圖4 通道注意力部分Fig.4 Channel attention part
其中,H為特征圖y的高,W為特征圖y的寬。
然后通過(guò)2個(gè)1×1卷積增強(qiáng)通道之間的相關(guān)性,并學(xué)習(xí)得到各通道融合的權(quán)重系數(shù)組W,目的是通過(guò)訓(xùn)練權(quán)重系數(shù)組W建立各通道之間的聯(lián)系;為了方便訓(xùn)練,使用Sigmoid函數(shù)把學(xué)習(xí)到的權(quán)重W?yc映射到0~1之間,將之看作是經(jīng)過(guò)選擇后的每個(gè)特征通道的重要程度;最后通過(guò)點(diǎn)乘的方式給經(jīng)過(guò)初步融合的特征圖y進(jìn)行加權(quán),達(dá)到RGB信息和深度信息互補(bǔ)融合的目的,得到深度融合的特征圖z,計(jì)算公式如下:
訓(xùn)練數(shù)據(jù)時(shí),為了加速網(wǎng)絡(luò)收斂,提高分割精度,本文網(wǎng)絡(luò)使用5個(gè)尺度聯(lián)合訓(xùn)練以充分利用圖像各個(gè)尺度的有利于分割的特征。為了恢復(fù)圖像經(jīng)過(guò)卷積、池化丟失的細(xì)節(jié)信息,在解碼器中,提出一種新的加權(quán)融合的方式融合底層特征,具體體現(xiàn)在:特征圖每經(jīng)過(guò)一次反卷積,都和跳過(guò)連接提供的同尺度的底層特征圖加權(quán)求和;然后作為輸入,進(jìn)行下一次反卷積。以較小的參數(shù)量實(shí)現(xiàn)了底層特征和高層語(yǔ)義特征的學(xué)習(xí)性融合,公式如下:
其中,i∈[1,4],w(wi_0+wi_1=1,且均大于0)為可學(xué)習(xí)的權(quán)重系數(shù),θi為臨近上一次反卷積的輸出,?i為跳過(guò)連接提供的與θi同尺度的底層特征圖,zi為臨近下一次反卷積的輸入。
為了盡可能少地產(chǎn)生冗余損失,本文對(duì)標(biāo)簽進(jìn)行預(yù)處理,用插值的方法把標(biāo)簽處理成與預(yù)測(cè)圖相同的分辨率(對(duì)標(biāo)簽進(jìn)行降采樣處理)。使用與預(yù)測(cè)圖相同分辨率的標(biāo)簽指導(dǎo)訓(xùn)練,在一定程度上減少了冗余損失和計(jì)算量。損失函數(shù)為語(yǔ)義分割任務(wù)中最常用的交叉熵?fù)p失函數(shù),公式如下:
式中,Lossl表示預(yù)測(cè)圖為outl(l∈[1,5])時(shí)的損失,gi∈R表示位置i上的標(biāo)簽語(yǔ)義映射上的類(lèi)索引,si∈R表示位置i上網(wǎng)絡(luò)輸出的概率,k為數(shù)據(jù)集中的類(lèi)數(shù),N表示特定輸出的空間分辨率。
本文網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)時(shí)的總損失計(jì)算公式如下:
2.1.1數(shù)據(jù)集
本文實(shí)驗(yàn)在室內(nèi)場(chǎng)景語(yǔ)義分割主流數(shù)據(jù)集NYUDV2[15]和SUNRGB-D[16-18]上訓(xùn)練并測(cè)試。
NYUDV2數(shù)據(jù)集是由Microsoft Kinect攝像機(jī)記錄的各種室內(nèi)場(chǎng)景的視頻序列組成,它含有1 449個(gè)分辨率為640×480的像素級(jí)標(biāo)記的RGB和深度圖像對(duì),并且包含3個(gè)城市的464個(gè)場(chǎng)景,具有894個(gè)目標(biāo)類(lèi)別。本文根據(jù)官方設(shè)置將該數(shù)據(jù)集分為795張訓(xùn)練圖像和654張測(cè)試圖像,采用文獻(xiàn)中最常用的版本——40類(lèi)語(yǔ)義標(biāo)注。
SUNRGB-D數(shù)據(jù)集是目前最大的室內(nèi)場(chǎng)景語(yǔ)義分割數(shù)據(jù)集,它包括10 335個(gè)像素級(jí)標(biāo)注的RGB-D圖像,具有20個(gè)不同的場(chǎng)景和37個(gè)類(lèi)別,其中訓(xùn)練圖像5 285張和測(cè)試圖像5 050張。由于該數(shù)據(jù)集采集時(shí)獲取設(shè)備不同,圖像大小不固定。
2.1.2實(shí)驗(yàn)細(xì)節(jié)
數(shù)據(jù)預(yù)處理。為了降低噪聲對(duì)數(shù)據(jù)集的影響,本文對(duì)數(shù)據(jù)集進(jìn)行了以下預(yù)處理:(1)為了降低過(guò)擬合,采取了翻轉(zhuǎn)、旋轉(zhuǎn)和像素值歸一化等數(shù)據(jù)增強(qiáng)措施。(2)為了減弱光照對(duì)分割效果的影響,采取了顏色和亮度歸一化等措施。
參數(shù)設(shè)置。初始學(xué)習(xí)率為1E-3,權(quán)重衰減為1E-4。使用NVIDIA GeForce RTX 2080 Ti顯卡進(jìn)行訓(xùn)練,batch size為3。在NYUDV2數(shù)據(jù)集上訓(xùn)練時(shí),每迭代80次,學(xué)習(xí)率乘以0.8;在SUNRGB-D數(shù)據(jù)集上訓(xùn)練時(shí),每迭代10次,學(xué)習(xí)率乘以0.8。
評(píng)價(jià)指標(biāo)。本文實(shí)驗(yàn)采用像素精度(Pixel Accuracy,PA)、平均準(zhǔn)確率(mean Accuracy,mAcc)、平均交并比(mean Intersection over Union,mIoU)、頻權(quán)交并比(Frequency Weighted Intersection over Union,F(xiàn)WIoU)四種指標(biāo)衡量分割效果。
2.2.1消融實(shí)驗(yàn)
為了驗(yàn)證特征融合模塊以及多尺度聯(lián)合訓(xùn)練對(duì)語(yǔ)義分割效果的影響,本文進(jìn)行了以下五組對(duì)比實(shí)驗(yàn)。本次實(shí)驗(yàn)骨干網(wǎng)絡(luò)均為ResNet50,實(shí)驗(yàn)數(shù)據(jù)集為SUNRGB-D,實(shí)驗(yàn)結(jié)果如表1所示。
表1 在SUNRGB-D數(shù)據(jù)集上的對(duì)照實(shí)驗(yàn)Table 1 Control experiments on SUNRGB-D dataset %
結(jié)果顯示,在SUNRGB-D數(shù)據(jù)集上,使用多尺度聯(lián)合訓(xùn)練,四種評(píng)價(jià)指標(biāo)相對(duì)于原網(wǎng)絡(luò)分別提高了5.7個(gè)百分點(diǎn)、1.9個(gè)百分點(diǎn)、0.8個(gè)百分點(diǎn)、2.3個(gè)百分點(diǎn),這是由于多尺度聯(lián)合訓(xùn)練能夠有效利用有利于分割的各個(gè)尺度的特征,逐步優(yōu)化分割結(jié)果;在加入特征融合模塊中的注意力部分時(shí),四種評(píng)價(jià)指標(biāo)相對(duì)于原網(wǎng)絡(luò)分別提高了6.1個(gè)百分點(diǎn)、2.5個(gè)百分點(diǎn)、1.4個(gè)百分點(diǎn)、3.3個(gè)百分點(diǎn),說(shuō)明注意力部分能夠有選擇性地融合圖像的RGB特征和深度特征,自適應(yīng)地為其分配權(quán)重,在一定程度上避免目標(biāo)因形狀、顏色相似而被錯(cuò)誤分類(lèi);當(dāng)加入預(yù)處理部分時(shí),四種評(píng)價(jià)指標(biāo)均有所提高,這是由于預(yù)處理部分完成了深度特征圖和RGB特征圖的初步融合,在融合過(guò)程中能夠?qū)W習(xí)兩種特征圖的局部相關(guān)性,加強(qiáng)兩種特征圖之間的聯(lián)系,有助于注意力部分完成深度融合。
2.2.2網(wǎng)絡(luò)性能對(duì)比
為了證明本文網(wǎng)絡(luò)的有效性,將本文網(wǎng)絡(luò)和Locality-Sensitive[10]、FCN-32s[19]等主流網(wǎng)絡(luò)進(jìn)行對(duì)比。實(shí)驗(yàn)在SUNRGB-D和NYUDV2數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)結(jié)果如表2所示。
由表2可知,本文網(wǎng)絡(luò)的分割結(jié)果優(yōu)于其他主流分割網(wǎng)絡(luò)。相比分割精度最高的RefineNet(ResNet152)[20],本文網(wǎng)絡(luò)在平均交并比(mIoU)上分別提高了0.7個(gè)百分點(diǎn)和1.5個(gè)百分點(diǎn),取得了較好的分割精度。值得注意的是,相對(duì)于RefineNet(ResNet152),本文網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)為ResNet50,參數(shù)量更少。
表2 不同網(wǎng)絡(luò)分割結(jié)果對(duì)比Table 2 Comparison of different network segmentation results %
2.2.3分割效果
為了更全面地評(píng)估本文網(wǎng)絡(luò),分析影響分割精度的因素,測(cè)試了本文網(wǎng)絡(luò)在SUNRGB-D數(shù)據(jù)集上的不同類(lèi)別物體的交并比(IoU)并與經(jīng)典網(wǎng)絡(luò)DFCN-DCRF進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表3所示。
結(jié)果表明,本文提出的網(wǎng)絡(luò)無(wú)論是在較難分割的類(lèi)別(如box、bag),還是在較易分割的類(lèi)別(如wall、floor)上都優(yōu)于DFCN-DCRF,說(shuō)明了本文網(wǎng)絡(luò)對(duì)提升各個(gè)類(lèi)別的分割精度都有一定的效果。同時(shí),對(duì)比表3可以看出,交并比較高的類(lèi)別,一般都是在室內(nèi)占比較大且結(jié)構(gòu)簡(jiǎn)單的物體(例如wall交并比為79%,floor交并比為90%,bed交并比為72%等);交并比較低的類(lèi)別,則是在室內(nèi)占比較?。ɡ鏱ox交并比為30%,bag交并比為18%等)或是結(jié)構(gòu)復(fù)雜、不連續(xù)且顏色、材料差異較大的物體(例如bslf交并比為36%,stand交并比為20%)。顯然,占比較小的物體分割難度較大。因此,研究如何使網(wǎng)絡(luò)更關(guān)注占比較小的物體,有著十分重要的意義。
表3 SUNRGB-D數(shù)據(jù)集不同類(lèi)別物體的交并比(IoU)Table 3 Intersection over Union(IoU)of different types of objects in SUNRGB-D dataset %
圖5 顯示了本文網(wǎng)絡(luò)與經(jīng)典網(wǎng)絡(luò)FCN-32s、DFCNDCRF的分割效果對(duì)比??梢钥闯?,本文網(wǎng)絡(luò)分割效果更好,不但減小了錯(cuò)誤分類(lèi)的概率,而且分割邊界也更加清晰、平滑。
圖5 分割效果對(duì)比Fig.5 Comparison of segmentation effect
針對(duì)目前大多數(shù)室內(nèi)場(chǎng)景語(yǔ)義分割網(wǎng)絡(luò)的融合方式過(guò)于單一,不能根據(jù)RGB和深度圖像的特點(diǎn)進(jìn)行融合的問(wèn)題,本文提出了一種改進(jìn)的室內(nèi)場(chǎng)景語(yǔ)義分割網(wǎng)絡(luò)。首先,本文網(wǎng)絡(luò)以RGB和深度圖像為輸入,利用ResNet分階段提取RGB和深度圖像的特征;然后,通過(guò)引入注意力機(jī)制的特征融合模塊(FFM),根據(jù)提取到的RGB和深度特征的特點(diǎn),逐步融合各個(gè)階段的特征;最后,使用反卷積恢復(fù)圖像的細(xì)節(jié)信息,并加權(quán)融合跳過(guò)連接提供的底層特征,生成預(yù)測(cè)圖像。此外,在訓(xùn)練過(guò)程中,使用多尺度聯(lián)合訓(xùn)練,加速網(wǎng)絡(luò)收斂,提高分割精度。實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)在室內(nèi)場(chǎng)景語(yǔ)義分割任務(wù)中表現(xiàn)良好,能夠有選擇性地融合圖像的RGB特征和深度特征,有效提高了分割精度。