張佳琪,袁 駿,惠永科,胡 勇,張 睿
(1.太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024;2.中國機(jī)械科學(xué)研究總院集團(tuán)有限公司,北京 100044)
自動駕駛領(lǐng)域中利用語義分割技術(shù)對路況進(jìn)行分類有助于系統(tǒng)了解路況,進(jìn)而做出更為精確的路徑規(guī)劃以及更為及時地規(guī)避障礙物,確保行車的安全,因此關(guān)于道路場景的分割對自動駕駛系統(tǒng)來說有著重要的現(xiàn)實(shí)意義。
現(xiàn)有的基于語義的圖像分割方法已難以適用于多個目標(biāo)的分割任務(wù),而基于深度學(xué)習(xí)的方法為計(jì)算機(jī)視覺領(lǐng)域的研究帶來了新的突破。與經(jīng)典的體系結(jié)構(gòu)相比,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)圖像語義分割技術(shù)[1]能顯示出更好的效率和準(zhǔn)確性。陳先昌[2]和Farabet等[3]提出了一種使用從原始像素訓(xùn)練的多尺度卷積網(wǎng)絡(luò)對密集特征向量進(jìn)行提取,以圖像中每個像素為中心,為多個大小的區(qū)域進(jìn)行編碼的方法;Long等[4]提出的全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)的流水線雖然擴(kuò)展了卷積神經(jīng)網(wǎng)絡(luò),并且可以預(yù)測任意尺寸的輸入圖像,但是FCN預(yù)測結(jié)果分辨率比較低;Ronneberger等[5]提出的UNet在上采樣部分中具有大量特征通道,使得較高分辨率層能夠接收到上下文信息,通過“U”字網(wǎng)絡(luò)形狀獲得深度特征和淺層信息,達(dá)到了預(yù)測的目的。
隨著大規(guī)模公共數(shù)據(jù)集和進(jìn)化的高性能圖形處理器(Graphic Process Unit,GPU)技術(shù)的發(fā)展,出現(xiàn)了一種高效的語義分割網(wǎng)絡(luò)CPNet[6],能夠捕捉到類與類之間的語義關(guān)系,進(jìn)而提高了該網(wǎng)絡(luò)對道路場景的理解分析能力。而基于像素的縱向位置且有選擇性的突出信息屬性的網(wǎng)絡(luò)HANet[7]則可以更好地實(shí)現(xiàn)城市街道場景圖像的語義分割。
圖1 改進(jìn)后的DeepLab 網(wǎng)絡(luò)結(jié)構(gòu)
圖2 通道注意力結(jié)構(gòu)
FCA(vh,WC)=σ1{fc2{δ[fc1(vh,WC1)],WC2}}.
(1)
其中:FCA(vh,WC)為進(jìn)行完激活函數(shù)后的輸出;WC、WC1、WC2均為通道注意力模塊中的參數(shù);σ1為Sigmoid操作;fc1、fc2分別為第一個全連接層和第二個全連接層;δ為ReLU函數(shù)。
(2)
CA將對響應(yīng)較高的通道給予較大的加權(quán),為了進(jìn)一步提高融合性能,將之前輸入圖像中的不同通道進(jìn)行拼接融合,然后使用1×1卷積來進(jìn)行維度的降低,與此同時使用CA注意力模塊融合從主干網(wǎng)絡(luò)提取出的特征圖,并提取豐富的上下文信息,得到有效的高階特征。
在解碼器端輸入圖像并通過ResNet50模型的輸入層后,首先將兩個特征圖同時提取出來作為解碼器的特征輸入信息,根據(jù)遷移殘差連接的思想,將所提取出的兩個特征圖分為兩條路徑,一路經(jīng)過注意力機(jī)制SE(Squeeze-and-Excitation)模塊,在SE模塊中對高階特征進(jìn)行處理,產(chǎn)生有效的特征圖,從而提高分割結(jié)果,另一路不通過SE模塊;接著再將兩路提取出的低級特征分別經(jīng)過1×1的卷積操作降維后再疊加,之后融合編碼器中四倍上采樣獲取的高級特征,最后經(jīng)過3×3的卷積和上采樣的方法將其還原到與輸入圖像相同的分辨率,并對特征進(jìn)行進(jìn)一步的精細(xì)化,進(jìn)而恢復(fù)空間信息。
本文采用了信息論中的重要函數(shù)——交叉熵?fù)p失函數(shù),交叉熵?fù)p失函數(shù)計(jì)算公式定義為:
L=-yilog2pi-(1-yi)log2(1-pi).
(3)
其中:yi為輸出的真實(shí)值,yi=0或yi=1;pi為樣本的預(yù)測概率。
本文采用Cityscapes這一大型的數(shù)據(jù)集來對實(shí)例語義標(biāo)簽[11]進(jìn)行訓(xùn)練和測試。Cityscapes是從50個城市中春、夏、秋季的街頭采集到的各式各樣的三維圖像,其中5 000張圖像是具有高品質(zhì)的像素級注釋,而另外20 000張圖像則進(jìn)行了粗略的注釋,這樣就可以更好地使用這些標(biāo)注過的數(shù)據(jù)。
本實(shí)驗(yàn)是在Windows10操作系統(tǒng)下使用Pycharm平臺以及Python3.9語言開發(fā)的,CPU為Intel(R)Core(TM)i9-10900K CPU @ 3.70 GHz;GPU采用NVIDIA RTX 3090。
本實(shí)驗(yàn)使用的評價(jià)指標(biāo)為平均交并比(Mean Intersection over Union,MIoU)和總體精度(Over Accuracy,OA)。MIoU計(jì)算公式為:
(4)
其中:n為標(biāo)簽標(biāo)記的類別數(shù);n+1為包含空類或者背景的總類別數(shù);pii為模型預(yù)測與實(shí)際均為i類的像素個數(shù);pij為預(yù)測為j類但實(shí)際為i類的像素個數(shù);pji為預(yù)測為i類但實(shí)際為j類的像素個數(shù)。
MIoU的取值范圍為[0,1],1表示準(zhǔn)確的預(yù)測,0表示完全錯誤的預(yù)測,MIoU值越高表示模型性能越好。
表1 不同模型結(jié)構(gòu)的消融實(shí)驗(yàn)結(jié)果
表2 不同網(wǎng)絡(luò)模型Cityscapes數(shù)據(jù)集分割效果對比
圖3 原始模型分割結(jié)果和改進(jìn)后DeepLab 模型分割結(jié)果對比