馬吉權(quán),趙淑敏,孔凡輝
1. 黑龍江大學(xué)計算機科學(xué)與技術(shù)學(xué)院,哈爾濱 150080; 2. 黑龍江大學(xué)數(shù)據(jù)科學(xué)與技術(shù)學(xué)院,哈爾濱 150080
圖像語義分割是計算機視覺領(lǐng)域經(jīng)典的研究課題。全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)(Long等,2015)的提出拓寬了基于深度神經(jīng)網(wǎng)絡(luò)的研究方法在圖像分割領(lǐng)域的視野,該網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)(LeCun等,1989)中的全連接層全部替換為卷積層,并在此基礎(chǔ)上使用softmax函數(shù)對每個像素進行分類以完成圖像分割。同年提出的U-Net(Ronneberger等,2015)在解碼階段使用多尺度特征融合的方式(concatenate)形成多通道特征圖,提升了圖像分割質(zhì)量。隨后,涌現(xiàn)出眾多基于深度學(xué)習(xí)的圖像語義分割模型,進一步提升了圖像分割任務(wù)的效果。包括基于FCN/U-Net網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的方法(如3D UNet(?i?ek等,2016))、基于多尺度感知獲得圖像特征信息的方法(如DeepLabV1-V4(Chen等,2018b)和郭彤宇等人(2019)方法)、基于注意力機制的方法(如dual attention network(Fu等,2019))和基于網(wǎng)絡(luò)參數(shù)優(yōu)化及半監(jiān)督的分割方法(如MobileNets(Howard等,2017))等。常見的基于以上4種方法分類的圖像分割網(wǎng)絡(luò)如圖1所示。
圖1 常見的圖像分割網(wǎng)絡(luò)分類Fig.1 Summary of common image segmentation networks
現(xiàn)有語義分割網(wǎng)絡(luò)在復(fù)雜場景下容易對圖像中有色差或圖像中占有區(qū)域廣、跨度大的物體產(chǎn)生錯誤的劃分結(jié)果。針對這些問題,本文提出一種新的基于改進的條形池化與通道注意力機制的雙分支語義分割網(wǎng)絡(luò)(strip pooling and channel attention net,SPCANet)。該網(wǎng)絡(luò)從空間和內(nèi)容兩方面對輸入圖像進行特征提取,并通過注意力機制實現(xiàn)對特征權(quán)重的重分配,提高特征表達能力。本文創(chuàng)新點如下:1)在空間感知子網(wǎng)中使用改進的條形池化技術(shù)(strip atrous block,SA Block),進一步在編碼階段增大水平與豎直方向上的感受野,提高對圖像區(qū)域中跨度較大物體的感知能力。2)使用二階通道注意力(second-order channel attention,SOCA)優(yōu)化通道特征選擇,一定程度減少了色差導(dǎo)致的圖像分割錯誤。3)使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的VGG16(Visual Geometry Group 16-layer network)(Simonyan和Zisserman,2015)作為內(nèi)容感知子網(wǎng),以輔助空間感知子網(wǎng)優(yōu)化語義分割的嵌入特征。4)SPCANet在Cityscapes數(shù)據(jù)集上的目標(biāo)分割指標(biāo)mIoU(mean intersection over union)與backbone相比提升了1.2%。消融性實驗表明,本文提出的各種改進成分在分割任務(wù)中均起到了積極作用。
引入注意力機制的目的是根據(jù)某種關(guān)系對神經(jīng)網(wǎng)絡(luò)提取的不同層次的特征進行權(quán)重分配,以提升網(wǎng)絡(luò)的特征表達能力。常見的注意力實現(xiàn)方式包括通道注意力和空間注意力兩類,實現(xiàn)方法的簡要展示如圖2所示。其中,通道注意力使用簡單的全局平均池化來實現(xiàn),空間注意力則通過計算特征的自相似性來獲取其空間依賴關(guān)系,從而實現(xiàn)注意力分配。如今,注意力機制廣泛應(yīng)用于圖像分類、圖像修復(fù)及圖像分割等諸多深度學(xué)習(xí)網(wǎng)絡(luò)中(Vaswani等,2017)。其中,SENet(squeeze-and-excitation networks)(Hu等,2018)使用池化、全連接及門控機制形成通道注意力,提高通道特征信息的表達能力。該網(wǎng)絡(luò)提出的SE Block是一種即插即用的模塊化結(jié)構(gòu),可以方便地嵌入到其他神經(jīng)網(wǎng)絡(luò)中,如SE-Inception、SE-ResNet。Fu等人(2019)將基于上下文的空間信息引入圖像分割網(wǎng)絡(luò),提出雙重注意網(wǎng)絡(luò)(dual attention network,DA-Net),通過矩陣轉(zhuǎn)置及矩陣乘運算探索空間自相似性和特征在通道維度上的依賴關(guān)系。在金字塔注意力網(wǎng)絡(luò)(pyramid attention network,PAN)(Li等,2018a)中,進一步將注意力機制應(yīng)用于上采樣過程,采用全局注意力上采樣模塊(global attention upsample,GAU)將高層次特征生成的全局上下文信息依次經(jīng)過卷積、批量歸一化和非線性變換等操作后與低層次特征相乘,最后將高層次特征與加權(quán)后的低層次特征相加并進行上采樣。OCNet(object context network)(Yuan和Wang,2021)、DA-Net(dual attention network)(Fu等,2019)和CCNet(criss-cross attention network)(Huang等,2019)則利用非局部(non-local)思想來聚合遠程空間信息。該類方法可以捕獲圖像中的長距離依賴關(guān)系,在計算某個位置的響應(yīng)特征時,會計算該位置與圖中其他所有像素點的相似度,并根據(jù)這個相似度值進行加權(quán)計算作為該位置的輸出來實現(xiàn)注意力的權(quán)重分配。
圖2 通道注意力與空間注意力示意圖Fig.2 Sketch of channel attention and spatial attention
本文提出的圖像語義分割網(wǎng)絡(luò)采用了兩種注意力機制。一種是基于二階特征的通道注意力,在使用協(xié)方差保留通道間關(guān)聯(lián)關(guān)系的基礎(chǔ)上,進一步使用門控開關(guān)來調(diào)整各通道的權(quán)重比例關(guān)系;另一種是基于改進后條形池化技術(shù)的空間注意力,這種注意力可以進一步增大在水平和豎直方向上的感受野,同時提高對圖像中大尺度物體的感知度,并針對性的重新分配注意力權(quán)重,使這些大尺度物體的特征在學(xué)習(xí)過程中獲得更大的關(guān)注度。
特征融合廣泛應(yīng)用于計算機視覺領(lǐng)域。為了解決圖像中目標(biāo)物體形狀、顏色及亮度等多樣性導(dǎo)致分割不準(zhǔn)確問題,本文提出了基于條形池化和通道注意力的雙分支分割網(wǎng)絡(luò),并引入特征融合來增強圖像細(xì)節(jié)信息的表達。
現(xiàn)有的特征融合大部分基于多尺度思想實現(xiàn)。例如,使用并行的、不同大小的卷積或池化在特征提取后進行融合,或?qū)⒕哂谐橄笳Z義的高層特征圖與具有更多圖像細(xì)節(jié)的低層特征進行特征融合。圖3是多尺度及特征融合思想的示意圖,這樣的設(shè)計思路可以從多個尺度感知圖像物體,從而增強圖像細(xì)節(jié)信息的表達。DeepLabV2(Chen等,2017)引入空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)概念,使用多個并行的、具有不同大小感受野的卷積或池化操作來提取特征圖信息以實現(xiàn)多尺度特征表達。類似地,PSPNet(pyramid scene parsing network)(Zhao等,2017)和RFBNet(receptive field block net)(Liu等,2018)也采用這樣的思路進一步提高了分割質(zhì)量。DeepLabV3在將多尺度應(yīng)用于下采樣階段的同時,將特征融合的思路引入上采樣階段,進一步優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu)。
本文提出的SPCANet引入了多尺度思想。首先利用改進后的條形池化技術(shù)進一步增大感受野,然后在此基礎(chǔ)上從多個尺度對圖像特征進行提取并融合。此外,使用內(nèi)容感知子網(wǎng)增強對圖像內(nèi)容的感知,進一步提升后續(xù)特征融合階段的圖像特征表達能力。
SPCANet的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)輸入為三通道彩色圖像,將該輸入圖像分別送入空間感知子網(wǎng)和內(nèi)容感知子網(wǎng)進行編碼,獲得嵌入空間的特征表達,然后采用concatenate特征融合方式對這兩組特征進行融合。將融合后的特征圖送入分類預(yù)測模塊(head模塊)進行分類;此時的輸出已經(jīng)是完成分類后、尺寸為輸入圖像1/8大小的分割圖,最后使用最鄰近插值法將圖像恢復(fù)成原始圖像大小作為最終的分割結(jié)果。
該網(wǎng)絡(luò)旨在解決3個問題。1)采用改進后的條形池化技術(shù)SA Block,在1維的水平和豎直方向上擁有更大的感受野,增強對圖像中大尺度物體的感知度,以解決在復(fù)雜場景下物體被錯誤分類問題;2)使用二階通道注意力機制,進一步利用通道之間的關(guān)聯(lián)關(guān)系對通道信息進行特征優(yōu)化選擇;3)通過引入特征融合的思想,利用內(nèi)容感知子網(wǎng)Sub_VGG16改善由于空間感知子網(wǎng)更關(guān)注單維方向上的感受野導(dǎo)致的特征提取特異性問題。
圖3 兩種常用的多尺度特征融合方法Fig.3 Commonly used multi-scale feature fusion methods ((a) spatial pyramid pooling module;(b) encoder-decoder multi-scale feature fusion)
受條形池化(strip pooling)(Hou等,2020)的啟發(fā),本文在條形池化技術(shù)的基礎(chǔ)上結(jié)合多尺度思想加入并行的1維膨脹卷積,以進一步增大在水平及豎直方向上的感受野。具體實現(xiàn)過程如圖5所示。該模塊將輸入的特征圖同時送入兩個子分支進行不同維度(水平和豎直方向)的編碼。在水平方向上,首先使用1×n的池化操作將特征圖變換成形狀為n×1的特征表示,這里n為模塊輸入特征圖(n×n)的尺寸。在此基礎(chǔ)上,使用一組并行的膨脹卷積對特征圖進行特征提取,膨脹率的選擇借鑒了DeepLabV3(Chen等,2017)中ASPP的經(jīng)驗:隨著特征圖尺寸的減小,過大的膨脹率反而不利于提取到特征中更有效的圖像特征,綜合考量之后,將膨脹率(rate)設(shè)定為[0, 6, 12, 18]。該設(shè)計可以在不增加額外參數(shù)的情況下進一步增大在水平方向上的感受野,同時從多個尺度感知水平方向上的物體。之后,將這些并行分支產(chǎn)生的特征圖采用concatenate特征融合方式進行特征融合,并使用最鄰近插值法將n×1的特征圖恢復(fù)至該模塊輸入時的尺寸大小。豎直方向上的做法與水平方向類似。使用n×1的池化操作將特征圖變換成形狀為1×n的特征表示,在此基礎(chǔ)上,使用一組并行的膨脹卷積進行特征提取并融合,在填充之后得到豎直方向上的圖像特征。在得到水平與豎直方向上的特征后,將這兩個分支的結(jié)果通過加操作來完成特征融合,實現(xiàn)水平與豎直方向上的特征疊加。最后將疊加后的特征圖送入1×1的卷積中進行特征調(diào)整,使用sigmoid函數(shù)將輸出值映射到(0, 1),隨后與原始輸入相乘形成水平和豎直方向疊加后的權(quán)重分配。
圖4 SPCANet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 The structure of SPCANet
二階通道注意力機制最先應(yīng)用于圖像的超分辨率領(lǐng)域,是一種參數(shù)較少且方便嵌入及調(diào)用的特征模塊。該注意力機制是基于SE Block提出的。SE Block中的通道注意力是通過一階統(tǒng)計信息(使用全局平均池化,將每張?zhí)卣鲌D用一個值表征)來實現(xiàn)的。本文通過基于協(xié)方差與全局池化的二階特征統(tǒng)計實現(xiàn)通道特征加權(quán)。
在數(shù)學(xué)角度上,協(xié)方差可以用來描述變量之間的相關(guān)性。對于H×W×C的圖像特征,可以將其維度轉(zhuǎn)換為WH×C,用協(xié)方差矩陣來描述C個通道之間的相關(guān)性。與傳統(tǒng)一階注意力機制的全局平均池化操作相比,該注意力通過使用二階特征統(tǒng)計自適應(yīng)地重新標(biāo)定通道特征(按重要程度分配不同的權(quán)重),獲得更具有區(qū)分性的特征表示,捕獲優(yōu)于一階注意力的統(tǒng)計特征。二階通道注意力模塊的結(jié)構(gòu)如圖6所示。該模塊的輸入是一組特征圖,使用協(xié)方差對輸入特征圖的通道關(guān)系進行關(guān)聯(lián)性表示后進行特征選擇,相關(guān)操作與SE Block類似。具體做法如下:將協(xié)方差處理后得到的關(guān)聯(lián)性結(jié)果送入一個池化函數(shù)中進行特征轉(zhuǎn)換,并使用兩個卷積層進行特征調(diào)整(這兩個卷積層中間使用ReLU(rectified linear unit)來增加非線性),此后,通過函數(shù)sigmoid實現(xiàn)門控機制,動態(tài)地學(xué)習(xí)通道權(quán)重W。最后將學(xué)習(xí)到的權(quán)重W與該模塊的輸入相乘得到加權(quán)后的特征輸出F。
圖6中,HGCP表示協(xié)方差池化函數(shù),HGCP的具體實現(xiàn)方式為
圖5 改進后的條形池化模塊Fig.5 Revised strip atrous block
(1)
式中,yc是使用協(xié)方差關(guān)聯(lián)通道之間特征后的輸出結(jié)果。
WD和WU均為1×1的卷積層,其通道數(shù)分別為c/r和c。SE Block中r的設(shè)定為16,但為了較大程度獲取通道間關(guān)聯(lián)性,嘗試將r設(shè)定為8。實驗發(fā)現(xiàn),當(dāng)r=8時,實驗結(jié)果相對較好,最終確定r值為8。w是門控開關(guān)后得到的各通道權(quán)重分配,具體實現(xiàn)為
w=f(WUδ(WDz))
(2)
式中,f()和δ()分別代表sigmoid 和ReLU函數(shù)。該模塊在得到w后,與輸入時的特征圖對應(yīng)相乘,得到模塊最終的輸出結(jié)果。
圖6 二階通道注意力模塊圖Fig.6 SOCA Block
本文網(wǎng)絡(luò)模型借助內(nèi)容感知輔助子網(wǎng)提升特征的內(nèi)容表達能力,彌補由于空間感知子網(wǎng)更關(guān)注長條狀感受野導(dǎo)致的圖像內(nèi)容特征信息的缺失。
在內(nèi)容感知輔助子網(wǎng)結(jié)構(gòu)的選擇上,將3種在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的網(wǎng)絡(luò)作為候選項,分別是VGG16(Simonyan和Zisserman,2015)、ResNet101(He等,2016)和DenseNet101(Huang等,2017)。實際使用過程中,對網(wǎng)絡(luò)的編碼部分進行了截取,以保證在特征融合時其特征圖尺寸與空間感知子網(wǎng)的特征圖尺寸一致。對基于以上3種網(wǎng)絡(luò)結(jié)構(gòu)的空間感知子網(wǎng)模型進行消融性實驗,發(fā)現(xiàn)使用VGG16作為內(nèi)容感知子網(wǎng)的效果最佳。最終選擇在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的VGG16的前10層(10層卷積與3次池化操作)作為內(nèi)容感知子網(wǎng)。
在圖像分割或分類網(wǎng)絡(luò)中,獲取高層特征后,會將特征圖送入一個分類預(yù)測模塊(Head)中進行分類。SPCANet選擇延用SPNet中的Head模塊,模塊參數(shù)部分未做修改。該Head包括一個簡單的通道降維、5個并行的卷積和池化操作。其內(nèi)部卷積尺寸分別為3、1×3和3×1,池化操作的尺寸對應(yīng)為1、12、20、1×n和n×1(后期通過最鄰近插值法將輸出恢復(fù)至原尺寸大小),這里的池化操作是為了能在提取了較高語義特征的特征圖上,進一步捕捉像素之間的依賴性。最后使用分類函數(shù)對像素進行分類。需要注意的是,在Head中已經(jīng)完成了對像素的分類,但是此時的輸出分割結(jié)果尺寸為原始圖像的1/8。在Head模塊之后,通過最鄰近插值法恢復(fù)其圖像大小,得到最后的圖像語義分割結(jié)果。
SPCANet模型在2塊2080Ti的GPU上進行訓(xùn)練,使用框架為pytorch。網(wǎng)絡(luò)訓(xùn)練過程中,將輸入圖像尺寸調(diào)整為768×768像素(原始圖像為1 024×2 048像素,SPNet模型的圖像輸入大小即為768×768像素,為了能較好地對比兩者的輸出,控制訓(xùn)練參數(shù),將本文模型的圖像輸入定為768×768像素),同時使用旋轉(zhuǎn)、隨機高斯模糊、水平隨機翻轉(zhuǎn)等方式進行數(shù)據(jù)增強。該網(wǎng)絡(luò)的損失函數(shù)采用交叉熵?fù)p失,并將SGD(stochastic gradient descent)作為優(yōu)化器。初始學(xué)習(xí)率設(shè)置為0.005,momentum為0.9,權(quán)重衰減值設(shè)置為0.000 1,該類參數(shù)均采用經(jīng)驗值作為默認(rèn)值。并使用poly的學(xué)習(xí)率策略以加快收斂速度(power為0.9,DeepLabV2及PARSENET均采用這種學(xué)習(xí)策略),其迭代策略為
(3)
式中,R為學(xué)習(xí)率衰減因子,i為當(dāng)前迭代次數(shù),imax為最大迭代次數(shù),power為指數(shù)控制因子。
Cityscapes數(shù)據(jù)集共有5 000幅基于汽車駕駛場景的高分辨率圖像,其中訓(xùn)練集2 975幅、驗證集500 幅、測試集1 525 幅,記錄了50個不同城市的街道場景。該數(shù)據(jù)集共有19個類別的密集像素標(biāo)注(97%覆蓋率)。此外,Cityscapes數(shù)據(jù)集有fine和coarse兩套評測標(biāo)準(zhǔn),前者提供5 000幅精細(xì)標(biāo)注的圖像,后者提供5 000幅精細(xì)標(biāo)注外加20 000幅粗糙標(biāo)注的圖像。SPCANet使用精細(xì)標(biāo)注的圖像標(biāo)簽進行訓(xùn)練。
3.3.1 實驗結(jié)果對比
表1為Cityscapes測試集在各網(wǎng)絡(luò)模型上的預(yù)測結(jié)果,為杜絕惡意刷指標(biāo)現(xiàn)象,官網(wǎng)未提供該數(shù)據(jù)集test部分的真實標(biāo)注(ground truth),所以測試集指標(biāo)需要將模型的輸出結(jié)果打包上傳至官網(wǎng)以獲取最終的指標(biāo)結(jié)果。表中指標(biāo)值均為Cityscapes數(shù)據(jù)集官網(wǎng)提供。
表1 不同方法在Cityscapes測試集上的結(jié)果展示Table 1 Results of different methods on Cityscapes test set /%
此外,實驗選擇一些相關(guān)度較高的網(wǎng)絡(luò)模型復(fù)現(xiàn)并進行對比。由于本文網(wǎng)絡(luò)是基于條形池化技術(shù)、注意力機制和特征融合的語義分割網(wǎng)絡(luò),在復(fù)現(xiàn)其他模型時,針對性地選擇了經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu) U-Net、提出條形池化模塊的SPNet、基于注意力的SENet和特征融合提取網(wǎng)絡(luò)PSPNet,對比結(jié)果如表2所示。
表2 各類網(wǎng)絡(luò)在Cityscapes驗證集上的實驗對比Table 2 Comparison with others networks on Cityscapes val set
需要說明的是,復(fù)現(xiàn)網(wǎng)絡(luò)模型采用的代碼均為在GitHub中尋找的網(wǎng)絡(luò)模型源碼。將這些源碼下載后進行調(diào)試訓(xùn)練,部分網(wǎng)絡(luò)在復(fù)現(xiàn)過程中受參數(shù)及訓(xùn)練環(huán)境的影響無法完全復(fù)現(xiàn)其真實效果,指標(biāo)值相對較低,表2僅供參考。
圖7為本文網(wǎng)絡(luò)在Cityscapes驗證集上與其他網(wǎng)絡(luò)模型的分割結(jié)果對比。圖中藍色框為提升效果較為明顯部分。在第1組對比圖中,SPCANet對藍色框中較小區(qū)域的黃色路標(biāo)進行了有效識別,這類物體易在光照影響下出現(xiàn)一定色差,從而導(dǎo)致分割錯誤;在第2組對比圖中,SPCANet較為清晰地將長條狀的交通標(biāo)識和欄桿(灰色標(biāo)注部分)分割出來,行人(紅色標(biāo)注部分)的輪廓也清晰準(zhǔn)確。道路和建筑這類在圖像中占有區(qū)域廣、跨度大的物體,容易受距離影響而導(dǎo)致分割錯誤,在第3組和第4組對比圖中,道路(粉色部分)和建筑的分割精準(zhǔn)度也有明顯提升。
圖8展示了本文方法在Cityscapes測試集的分割效果??梢钥闯觯煌ㄐ盘柵?、信號燈、行人和籬笆等物體被較為清晰完整地標(biāo)記出來,圖像整體分割質(zhì)量較高。
3.3.2 消融性對比
為了對引入的3個模塊組件進行有效性分析,實驗在原backbone的基礎(chǔ)上,采用從無到有的方式依次對3個組件進行有效性驗證,對比結(jié)果如表3所示。
消融性對比實驗采用小批量數(shù)據(jù)集進行。在Cityscapes數(shù)據(jù)集中隨機抽取 520 幅圖像作為訓(xùn)練數(shù)據(jù),187幅圖像作為驗證數(shù)據(jù)。在消融性實驗中,分別將圖像裁剪為 768 × 768像素和512 × 512 像素送入網(wǎng)絡(luò)。同時,為了防止小數(shù)據(jù)集訓(xùn)練導(dǎo)致欠擬合,在訓(xùn)練過程中增加了相應(yīng)的迭代次數(shù),設(shè)定其epoch值為360,單卡訓(xùn)練的 batch_size 值為1。
圖7 SPCANet在Cityscapes數(shù)據(jù)集上與其他網(wǎng)絡(luò)模型的分割結(jié)果對比Fig.7 Comparison of the segmentation resultson on Cityscapes between SPCANet and other models((a)input images;(b)ground truth;(c)PSPNET;(d)SPNET;(e)ours)
圖8 Cityscapes測試集實驗結(jié)果圖Fig.8 Experimental results of Cityscapes test set((a) input images;(b) output results)
Backbone的基礎(chǔ)結(jié)構(gòu)采用SPNet的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),即Resnet101為基準(zhǔn)(bn1層略有調(diào)整),其4個layer后分別添加了條形池化模塊(SPBlock),并且在編碼后使用分類模塊(head)進行分類。
為了進一步對改進后條形池化技術(shù)SA Block的有效性進行研究,對19種分類中每一類物體的精準(zhǔn)度進行比較,具體指標(biāo)結(jié)果如表4所示。從指標(biāo)IoU和Acc的變化中可以發(fā)現(xiàn),人行道、交通信號燈、交通標(biāo)志、行人和載重汽車的正確率明顯提高。
圖9為SA Block使用對比圖,展示了基礎(chǔ)backbone模型(輸入尺寸為768×768像素)和在backbone基礎(chǔ)上添加SA Block模型(輸入尺寸分別為512×512像素和758×758像素)的輸出結(jié)果??梢钥闯?,人行道、行人和載重汽車的可視化結(jié)果更為明顯,與表4的結(jié)論相同。
圖10為SOCA Block使用對比圖,展示了基礎(chǔ)backbone模型(輸入尺寸為768×768像素)和在backbone基礎(chǔ)上添加SOCA模型(輸入尺寸分別為512×512像素和758×758像素)的輸出結(jié)果。從結(jié)果圖中可以發(fā)現(xiàn),相關(guān)圖像細(xì)節(jié)分類及準(zhǔn)確度均有所提高。
本文探索了優(yōu)化的條形池化技術(shù)SA Block、二階通道注意力機制SOCA以及基于內(nèi)容感知子網(wǎng)的特征融合對語義圖像分割的作用。實驗表明,SA Block增大了圖像感受野,并對在圖像中占有區(qū)域廣、跨度大的物體具有較好的感知度;通道注意力的使用可以進一步利用圖像間的通道信息提升物體分割質(zhì)量,在一定程度上減少了光照導(dǎo)致的分割錯誤;同時,使用內(nèi)容感知子網(wǎng)進行特征融合可以最大程度地保留圖像的原始細(xì)節(jié)特征,使模型的整體分割精度得到進一步提升。
表3 不同模塊的消融性分析Table 3 Ablation analysis on different models
表4 Cityscapes不同類別物體的結(jié)果分析Table 4 Segmentation results analysis of Cityscapes in different kinds of objects
圖9 SA Block使用對比圖Fig.9 Comparison chart of SA Block usage ((a) input image;(b) basic backbone;(c) add SA Block(512×512);(d) add SA Block(768×768))
圖10 SOCA Block使用對比圖Fig.10 Comparison chart of SOCA Block ((a) input image;(b) basic backbone;(c) add SOCA block(512×512);(d) add SOCA block)(768×768)
在后續(xù)研究工作中,計劃通過弱監(jiān)督或無監(jiān)督的訓(xùn)練方式減少模型對數(shù)據(jù)的依賴性。同時,希望借鑒光譜及色相的概念,進一步緩解由于色差導(dǎo)致的分割問題,提高算法模型的容錯性及可移植性,爭取探索到更加準(zhǔn)確且高效的分割算法。