郭浩然,郭繼昌,汪昱東
(天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
語(yǔ)義分割是當(dāng)今計(jì)算機(jī)視覺(jué)領(lǐng)域的核心問(wèn)題之一,在自動(dòng)駕駛、醫(yī)學(xué)影像分析、地理信息系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用.在過(guò)去幾年里,基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展使得陸地場(chǎng)景下的語(yǔ)義分割方法進(jìn)步顯著.Long等[1]提出全卷積網(wǎng)絡(luò)(FCN),開(kāi)啟了卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在語(yǔ)義分割領(lǐng)域的先河.基于FCN,SegNet[2]在降低計(jì)算成本的同時(shí),得到了略好于FCN的分割精度.U-Net[3]通過(guò)跨連接將各個(gè)層次的信息保留,取得了很好的分割效果.Deeplab[4-6]系列網(wǎng)絡(luò)使用的空洞卷積層和PSPNet[7]提出的金字塔池化模塊可以有效地提升網(wǎng)絡(luò)的性能.周登文等[8]提出基于多級(jí)特征并聯(lián)網(wǎng)絡(luò)的語(yǔ)義分割網(wǎng)絡(luò),能夠較好地平衡網(wǎng)絡(luò)的準(zhǔn)確度與速度.
近年來(lái),隨著水下機(jī)器視覺(jué)任務(wù)需求的增加,水下圖像語(yǔ)義分割成為值得研究的問(wèn)題.Liu等[9]提出水下圖像語(yǔ)義分割網(wǎng)絡(luò),設(shè)計(jì)無(wú)監(jiān)督色彩校正模塊,以提高輸入圖像的質(zhì)量.Zhou等[10-12]提出多種水下圖像增強(qiáng)的方法,全面解決了各種退化問(wèn)題.
Islam等[13]提出首個(gè)用于水下圖像語(yǔ)義分割的大規(guī)模數(shù)據(jù)集SUIM.筆者將FCN、SegNet、UNet等經(jīng)典分割網(wǎng)絡(luò)應(yīng)用在SUIM數(shù)據(jù)集上,取得了不錯(cuò)的分割結(jié)果.這些語(yǔ)義分割模型都很少考慮分割速度和計(jì)算成本,因此實(shí)時(shí)語(yǔ)義分割算法越來(lái)越受到關(guān)注.ENet[14]降低了模型的復(fù)雜度,但導(dǎo)致感受野不足.Ocnet[15]結(jié)合交叉稀疏自注意力方法與空洞金字塔池化方法,提高了網(wǎng)絡(luò)的精度.ERFNet[16]提出基于殘差連接和深度可分離卷積的語(yǔ)義分割網(wǎng)絡(luò),減少了模型的運(yùn)算量.CGNet[17]設(shè)計(jì)模塊同時(shí)學(xué)習(xí)局部特征和全局特征,模型參數(shù)量小于0.5M,但精度較差.DFANet[18]提出的深度特征聚合網(wǎng)絡(luò)旨在利用網(wǎng)絡(luò)級(jí)和階段級(jí)相結(jié)合的特征.LEDNet[19]設(shè)計(jì)輕量級(jí)的上采樣模塊APN,顯著加快了處理速度.Bisenet[20]和Bise-Netv2[21]采用2個(gè)分支,語(yǔ)義分支得到的深層信息對(duì)空間分支得到的淺層信息進(jìn)行指導(dǎo),提升了網(wǎng)絡(luò)的性能.盡管這些語(yǔ)義分割模型在陸地場(chǎng)景都取得了不錯(cuò)的分割效果,但在水下場(chǎng)景的表現(xiàn)較差[14,16-17,19,21].由于水下圖像存在對(duì)比度較低、噪聲較大的問(wèn)題,大部分水下圖像都存在不同程度的模糊,使得這些語(yǔ)義分割模型得到的分割結(jié)果邊緣粗糙,語(yǔ)義邊界不明顯.
為了解決上述問(wèn)題,本文提出面向水下場(chǎng)景的輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò).在水下語(yǔ)義分割數(shù)據(jù)集SUIM和Reus等[22]提出的海草數(shù)據(jù)集上訓(xùn)練并評(píng)估提出的網(wǎng)絡(luò).這2個(gè)數(shù)據(jù)集的測(cè)試結(jié)果表明,該網(wǎng)絡(luò)能夠在保持高準(zhǔn)確度的同時(shí),達(dá)到實(shí)時(shí)的處理速度.
圖1中,編碼器(Encoder)首先對(duì)輸入圖像進(jìn)行快速下采樣,生成不同分辨率的特征圖.解碼器(Decoder)由2個(gè)特征融合模塊組成,在聯(lián)合高低級(jí)特征的同時(shí)可以進(jìn)行快速上采樣,最后進(jìn)行8倍上采樣,得到最終的分割圖.損失函數(shù)部分使用分割損失和邊緣損失,通過(guò)預(yù)先提取的語(yǔ)義邊界監(jiān)督網(wǎng)絡(luò)的邊緣特征,細(xì)化了分割的邊緣.
網(wǎng)絡(luò)的編碼器部分由模塊1~模塊5這5個(gè)模塊組成,其中模塊1采用2個(gè)步長(zhǎng)為2的3×3卷積,快速將輸入圖像下采樣到1/4.模塊2~模塊4由倒置瓶頸層構(gòu)成,在獲取特征信息的同時(shí)將圖像下采樣到1/32,得到具有豐富上下文信息的高級(jí)特征.模塊5是池化金字塔模塊,用于細(xì)化特征圖并嵌入全局池化信息.各模塊的參數(shù)如表1所示.表中,s為步長(zhǎng),r為空洞率,W、H、C分別為輸出的寬度、高度和通道數(shù).
表1 所提網(wǎng)絡(luò)的編碼器組成Tab.1 Encoder composition of proposed network
編碼器中的倒置瓶頸層和金字塔池化模塊是進(jìn)行輕量化設(shè)計(jì)需要重點(diǎn)考慮的模塊.MobileN-etv2[23]利用升降維操作和深度可分離卷積,有效減少了模型的參數(shù)量.借鑒MobileNetv2倒置殘差的思想,設(shè)計(jì)倒置瓶頸層,將空洞卷積添加到Mobilenetv2的倒置殘差模塊(inverted residual block)中.在PSPNet的金字塔池化模塊的基礎(chǔ)上改進(jìn)了升降維操作的位置,減小了參數(shù)量.設(shè)計(jì)的倒置瓶頸層和金字塔池化模塊如圖2所示.
圖2 倒置瓶頸層與池化金字塔的結(jié)構(gòu)示意圖Fig.2 Architectures of inverted bottleneck layer and pyramid pooling module
1.1.1 倒置瓶頸層 設(shè)計(jì)輕量化模塊倒置瓶頸層來(lái)提取特征,如圖2(a)所示.圖2(a)中,input為輸入特征圖,主路徑用3×3卷積有效地對(duì)特征進(jìn)行聚合并拓展到高維空間.為了控制計(jì)算成本,膨脹比率選擇了3.第2個(gè)卷積層中使用深度可分離卷積和空洞卷積,減少了計(jì)算量,增大了模型感受野的分辨率,在編碼器不同的模塊中采用不同的空洞率.在快捷路徑上,添加3×3卷積來(lái)細(xì)化特征圖,但沒(méi)有增加太多的計(jì)算成本,因?yàn)?×3卷積是在CUDNN庫(kù)中特別優(yōu)化的,此外使用LeakyReLU替代ReLU作為激活函數(shù).
1.1.2 池化金字塔 PSPNet提出的金字塔池化模塊可以有效提升網(wǎng)絡(luò)的性能,本文改進(jìn)后的金字塔池化模塊結(jié)構(gòu)如圖2(b)所示.相較于PSPNet的池化金字塔,該模塊用加和操作替代了通道連接,減少了參數(shù)量,選擇了較大的池化核.此處選擇3×3、7×7、13×13和H×W,經(jīng)過(guò)池化層后再上采樣到之前的尺寸,通過(guò)將不同深度的信息與不同大小的池化核相結(jié)合,形成多尺度特征提取.該模塊融合了4個(gè)不同尺度的特征,可以聚合不同尺度的上下文信息,提高獲取全局信息的能力.
所提網(wǎng)絡(luò)采用非對(duì)稱(chēng)的結(jié)構(gòu),解碼器部分只采用2個(gè)特征融合模塊,在解碼器的最后部分采取8倍上采樣,得到與原圖分辨率相同的分割結(jié)果.各模塊的參數(shù)如表2所示.表中,N為數(shù)據(jù)集包含的類(lèi)別數(shù).
利用改進(jìn)的Jensen尾流模型計(jì)算位于下游的風(fēng)機(jī)所捕獲的風(fēng)速。簡(jiǎn)化的尾流效應(yīng)模型如圖1所示。在大多數(shù)研究中,圖1所示的錐形區(qū)域?yàn)轱L(fēng)通過(guò)每個(gè)單獨(dú)的風(fēng)機(jī)時(shí)所形成的尾流效應(yīng)區(qū)域。本文將其簡(jiǎn)化為二維模型[14]。
表2 所提網(wǎng)絡(luò)的解碼器組成Tab.2 Decoder composition of proposed network
編碼器第5個(gè)模塊得到的特征圖為高級(jí)特征,第4個(gè)模塊得到的特征為低級(jí)特征.高級(jí)特征的分辨率更低,具有更豐富的上下文信息;低級(jí)特征的分辨率更高,具有更豐富的空間細(xì)節(jié)信息.對(duì)于高級(jí)特征和低級(jí)特征來(lái)說(shuō),簡(jiǎn)單的合并方式忽略了這2類(lèi)信息的多樣性,會(huì)導(dǎo)致分割精度下降.
該網(wǎng)絡(luò)利用特征融合模塊,融合編碼器得到的高低級(jí)特征,如圖3所示.圖中,input1表示輸入的低級(jí)特征,input2表示輸入的高級(jí)特征.該模塊將2個(gè)輸入分別通過(guò)簡(jiǎn)單的殘差結(jié)構(gòu)進(jìn)行細(xì)化,利用高級(jí)特征的上下文信息來(lái)指導(dǎo)低級(jí)特征,利用低級(jí)特征的空間信息來(lái)指導(dǎo)高級(jí)特征,將2個(gè)路徑的特征圖相加,最后通過(guò)3×3卷積層以改變通道數(shù).
圖3 特征融合模塊的結(jié)構(gòu)示意圖Fig.3 Architecture of feature fusion module
總損失函數(shù)是在線(xiàn)難樣本挖掘交叉熵?fù)p失(online hard example mining crossentropy loss, OHEMCELoss)和二元交叉熵?fù)p失(binary crossentropy loss, BCELoss)2種損失函數(shù)的線(xiàn)性組合.使用OHEMCELoss作為分割損失函數(shù),如下所示:
式中:ls為分割損失,GT為真實(shí)的語(yǔ)義標(biāo)簽,Seg(X)為得到的分割結(jié)果,OHEMCE為OHEMCELoss的計(jì)算過(guò)程.使用BCELoss作為語(yǔ)義邊界損失函數(shù),如下所示:
式中:lb為邊緣損失,GTedge為從真實(shí)的語(yǔ)義標(biāo)簽中通過(guò)邊緣提取得到的邊緣標(biāo)簽,Segedge(X)為從分割結(jié)果提取得到的邊緣,BCE為BCELoss的計(jì)算過(guò)程.使用參數(shù)α來(lái)平衡分割損失和邊界損失,如下所示:
式中:L為總損失,α為平衡參數(shù).
對(duì)原圖的真實(shí)語(yǔ)義標(biāo)簽及得到的分割結(jié)果圖進(jìn)行邊緣提取,如圖4所示.明確的語(yǔ)義邊界監(jiān)督使得網(wǎng)絡(luò)獲得更準(zhǔn)確的語(yǔ)義邊界,雙邊特征更加明顯.
圖4 真實(shí)語(yǔ)義標(biāo)簽和分割結(jié)果的邊緣特征提取Fig.4 Edge feature extractions of Ground Truth and segmentation results
采用Islam等[13]提出的用于水下圖像語(yǔ)義分割的數(shù)據(jù)集SUIM和Reus等[22]提出的海草數(shù)據(jù)集.SUIM包含1 525幅自然水下圖像及其真實(shí)語(yǔ)義標(biāo)簽、110幅圖片的測(cè)試集,這些圖像是在海洋探索和人-機(jī)器人合作實(shí)驗(yàn)期間收集的.該數(shù)據(jù)集對(duì)8個(gè)對(duì)象類(lèi)別進(jìn)行了像素級(jí)注釋: 魚(yú)類(lèi)和其他脊椎動(dòng)物、珊瑚礁和其他無(wú)脊椎動(dòng)物、水生植物/植物群、沉船/廢墟、人類(lèi)潛水員、機(jī)器人和儀器、海底和巖石、水體背景.海草數(shù)據(jù)集包含12 682幅圖片,該數(shù)據(jù)集包含海草和水體背景2個(gè)類(lèi)別.其中6 037幅是人工標(biāo)注過(guò)的,這些圖片采集于0~6 m深的海底,實(shí)驗(yàn)中隨機(jī)挑選其中的80%作為訓(xùn)練集,剩余20%作為測(cè)試集.
實(shí)驗(yàn)使用PyTorch1.9在一張NVIDIA GeForce GTX 1080Ti顯卡上進(jìn)行訓(xùn)練,使用Adam優(yōu)化器,訓(xùn)練600代.訓(xùn)練時(shí)批處理個(gè)數(shù)設(shè)置為32,初始學(xué)習(xí)率設(shè)置為0.000 5,權(quán)重衰減為0.000 1,動(dòng)量設(shè)置為0.9.學(xué)習(xí)率采用“Poly”策略,隨著迭代次數(shù)的增加,學(xué)習(xí)率逐漸衰減.
實(shí)驗(yàn)中預(yù)先將輸入圖片的分辨率統(tǒng)一調(diào)整為320像素×256像素.為了增加網(wǎng)絡(luò)訓(xùn)練可用的數(shù)據(jù),使用了幾種不同的圖像預(yù)處理方法: 以50%的概率左右翻轉(zhuǎn)圖像;以-20°~20°的隨機(jī)角度旋轉(zhuǎn)圖像;使用預(yù)先計(jì)算好的數(shù)據(jù)集的均值和方差,對(duì)數(shù)據(jù)集的每一個(gè)圖片進(jìn)行歸一化處理.
在SUIM和海草數(shù)據(jù)集的測(cè)試集上,評(píng)估所提網(wǎng)絡(luò)的性能.與訓(xùn)練時(shí)一樣,預(yù)先將圖片的分辨率統(tǒng)一調(diào)整為320像素×256像素,得到的實(shí)驗(yàn)結(jié)果如圖5、6所示.圖中,第1行為輸入的原圖,第2行為真實(shí)的語(yǔ)義標(biāo)簽,第3行為本文所提網(wǎng)絡(luò)得到的實(shí)驗(yàn)結(jié)果.
圖5 所提網(wǎng)絡(luò)與經(jīng)典網(wǎng)絡(luò)的SUIM數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果對(duì)比Fig.5 Experimental results on SUIM dataset of proposed network compared with classical network
從圖5可得如下結(jié)論.1)所提網(wǎng)絡(luò)與經(jīng)典的常規(guī)語(yǔ)義分割網(wǎng)絡(luò)U-Net、SegNet、Deeplab、GCN[24]相比,得到的語(yǔ)義分割結(jié)果的視覺(jué)效果明顯優(yōu)于這4種網(wǎng)絡(luò).例如第1列,U-Net和SegNet得到的語(yǔ)義分割結(jié)果明顯出現(xiàn)了大面積分類(lèi)錯(cuò)誤的情況,所提網(wǎng)絡(luò)可以較準(zhǔn)確地進(jìn)行分類(lèi)并劃分出準(zhǔn)確的語(yǔ)義邊界.2)所提網(wǎng)絡(luò)與優(yōu)秀的輕量級(jí)網(wǎng)絡(luò)ENet、ERFNet、LEDNet、BiseNetv2得到的分割結(jié)果在視覺(jué)效果上相差不大,在某些情況下的分割準(zhǔn)確度更優(yōu).例如第4列,所提網(wǎng)絡(luò)得到的分割結(jié)果圖獲得了最接近真實(shí)語(yǔ)義標(biāo)簽的分割邊界,這是因?yàn)樗峋W(wǎng)絡(luò)使用的輔助邊緣損失函數(shù)可以使網(wǎng)絡(luò)更關(guān)注邊緣,起到細(xì)化邊緣的作用.3)與經(jīng)典的常規(guī)語(yǔ)義分割網(wǎng)絡(luò)PSPNet、OCNet相比,所提網(wǎng)絡(luò)的分割效果略差,這是由于PSPNet、OCNet的網(wǎng)絡(luò)層數(shù)和通道數(shù)更多,特征學(xué)習(xí)能力更強(qiáng).例如第6列,所提網(wǎng)絡(luò)的部分區(qū)域出現(xiàn)分類(lèi)錯(cuò)誤的情況,而PSPNet、OCNet分割結(jié)果更準(zhǔn)確.
從圖6可得如下結(jié)論.1)與經(jīng)典的常規(guī)語(yǔ)義分割網(wǎng)絡(luò)U-Net、SegNet相比,所提網(wǎng)絡(luò)得到的語(yǔ)義分割結(jié)果的視覺(jué)效果明顯更優(yōu),例如第2、4、5列,U-Net和SegNet出現(xiàn)了部分錯(cuò)檢和漏檢的區(qū)域,所提網(wǎng)絡(luò)得到的分割結(jié)果更接近GT.2)與經(jīng)典的常規(guī)語(yǔ)義分割網(wǎng)絡(luò)PSPNet、OCNet相比,所提網(wǎng)絡(luò)得到的語(yǔ)義分割結(jié)果的視覺(jué)效果略差,例如第2列,PSPNet、OCNet得到的分割結(jié)果與所提網(wǎng)絡(luò)相比,更貼近于GT.3)所提網(wǎng)絡(luò)與優(yōu)秀的輕量級(jí)網(wǎng)絡(luò)ENet、ERFNet、LEDNet、BiseNetv2、CGNet得到的分割結(jié)果在視覺(jué)效果上相差不大.
圖6 所提網(wǎng)絡(luò)與經(jīng)典網(wǎng)絡(luò)的海草數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比Fig.6 Experimental results on seagrass dataset of proposed networkcompared with classical network
如圖7所示為所提網(wǎng)絡(luò)的SUIM數(shù)據(jù)集的實(shí)驗(yàn)失敗案例.可知,所提網(wǎng)絡(luò)的分割結(jié)果出現(xiàn)了部分區(qū)域分類(lèi)錯(cuò)誤的情況.這可能是由于網(wǎng)絡(luò)主體結(jié)構(gòu)部分為了減少參數(shù)量,采用非對(duì)稱(chēng)的編解碼器結(jié)構(gòu),這種不對(duì)稱(chēng)的結(jié)構(gòu)會(huì)導(dǎo)致空間細(xì)節(jié)的丟失.盡管所提網(wǎng)絡(luò)使用的特征融合模塊及U型結(jié)構(gòu)在一定程度上彌補(bǔ)了空間信息的損失,但不能徹底解決該問(wèn)題.此外,所提網(wǎng)絡(luò)使用的通道數(shù)較少,學(xué)習(xí)特征的能力相對(duì)較弱.
圖7 所提網(wǎng)絡(luò)的SUIM數(shù)據(jù)集實(shí)驗(yàn)失敗案例Fig.7 Experimental failure cases on SUIM dataset of proposed network
2.3.1 對(duì)比實(shí)驗(yàn) 為了體現(xiàn)所提網(wǎng)絡(luò)的優(yōu)勢(shì),考慮幾種先進(jìn)的語(yǔ)義分割模型,包括非輕量級(jí)模型UNet、SegNet、Deeplab、PSPNet、GCN、OCNet、SUIMNet、輕量級(jí)模型ENet、ERFNet、LEDNet、BiseNetv2、CGNet.這些語(yǔ)義分割模型都是在SUIM數(shù)據(jù)集和海草數(shù)據(jù)集上訓(xùn)練并進(jìn)行測(cè)試.
選擇平均交并比(mean intersection over union,mIoU)和像素準(zhǔn)確率(pixel accuracy,PA)作為衡量分割精度的評(píng)價(jià)指標(biāo).像素準(zhǔn)確率PA為預(yù)測(cè)類(lèi)別正確的像素?cái)?shù)占總像素?cái)?shù)的比例.mIoU為語(yǔ)義分割的標(biāo)準(zhǔn)度量,是所有類(lèi)別交集和并集之比的平均值.
在語(yǔ)義分割問(wèn)題中,這2個(gè)集合為真實(shí)值和預(yù)測(cè)值.平均交并比的計(jì)算公式如下:
式中:classes為分割類(lèi)別的總數(shù)量.
表3給出SUIM數(shù)據(jù)集每一類(lèi)的交并比(intersection over union,IoU),包括水體背景(background waterbody, BW)、人類(lèi)潛水員(human divers, HD)、水生植物/植物群(aquatic plants and sea-grass, PF)、沉船/廢墟(wrecks or ruins, WR)、機(jī)器人和儀器(robots, RO)、珊瑚礁和其他無(wú)脊椎動(dòng)物(reefs and invertebrates, RI)、魚(yú)類(lèi)和其他脊椎動(dòng)物(fish and vertebrates, FV)以及海底和巖石(sea-floor and rocks,SR)8個(gè)類(lèi)別.由表3可得如下結(jié)論.1)該網(wǎng)絡(luò)在SUIM測(cè)試集上達(dá)到53.55%的mIoU指標(biāo)和85.32%的PA指標(biāo),相較于U-Net、SegNet、GCN等經(jīng)典網(wǎng)絡(luò)優(yōu)勢(shì)較大,與其他輕量級(jí)網(wǎng)絡(luò)相比,所提網(wǎng)絡(luò)的精度最高,mIoU和PA指標(biāo)遠(yuǎn)遠(yuǎn)優(yōu)于ENet,略?xún)?yōu)于BiseNetv2,僅次于非輕量級(jí)網(wǎng)絡(luò)PSPNet和OCNet.2)該網(wǎng)絡(luò)在BW和SR 2個(gè)類(lèi)別上達(dá)到最優(yōu)的分割精度;在HD和RO類(lèi)別上的分割精度在所有網(wǎng)絡(luò)中排在前3位,十分接近于經(jīng)典語(yǔ)義分割網(wǎng)絡(luò)PSPNet,明顯優(yōu)于LEDNet、BiSeNetv2、ENet等其他輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò).在RI和FV 2個(gè)類(lèi)別上,該網(wǎng)絡(luò)的分割精度較BiseN-etv2差,這可能是由于BiseNetv2可以通過(guò)空間分支(detail branch)來(lái)彌補(bǔ)快速下采樣過(guò)程中的信息損失,說(shuō)明該網(wǎng)絡(luò)在該方面有一定的提升空間.3)該網(wǎng)絡(luò)在PF和WR 2個(gè)分類(lèi)較困難的類(lèi)別上的分割精度與PSPNet差距較大,這是因?yàn)樵摼W(wǎng)絡(luò)為了減少模型參數(shù)量,使用了較少的卷積層和網(wǎng)絡(luò)通道數(shù),相較于基礎(chǔ)網(wǎng)絡(luò)采用了ResNet-101的PSPNet,所提網(wǎng)絡(luò)的特征學(xué)習(xí)能力較差.
表3 各網(wǎng)絡(luò)在SUIM數(shù)據(jù)集上的精度指標(biāo)對(duì)比結(jié)果Tab.3 Comparison results of accuracy index on SUIM dataset in each network
從表4可知,所提網(wǎng)絡(luò)在海草數(shù)據(jù)集上分別在0~2 m和2~6 m的范圍內(nèi)達(dá)到88.63%和89.01%的mIoU指標(biāo)以及96.08%和96.10%的PA指標(biāo),在所有輕量級(jí)網(wǎng)絡(luò)中精度指標(biāo)可以排在前兩位,僅次于輕量級(jí)網(wǎng)絡(luò)BiseNetv2.相比于經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò)U-Net、SegNet、Deeplab等,所提網(wǎng)絡(luò)的分割精度明顯更優(yōu),但與PSPNet和OCNet相比,所提網(wǎng)絡(luò)的分割精度略差.
表4 各網(wǎng)絡(luò)在海草數(shù)據(jù)集上的精度指標(biāo)對(duì)比結(jié)果Tab.4 Comparison results of accuracy index in each network on seagrass dataset
因?yàn)楸疚牡哪繕?biāo)是設(shè)計(jì)輕量且高效的水下圖像語(yǔ)義分割網(wǎng)絡(luò),通過(guò)對(duì)比實(shí)驗(yàn)評(píng)估其他語(yǔ)義分割網(wǎng)絡(luò)與所提網(wǎng)絡(luò)的效率和實(shí)時(shí)性.評(píng)估指標(biāo)包括模型參數(shù)量p(Param)、浮點(diǎn)運(yùn)算數(shù)f(floating point operations,F(xiàn)LOPs)和推理速度v(inference speed).其中浮點(diǎn)運(yùn)算數(shù)表示網(wǎng)絡(luò)模型的計(jì)算成本,浮點(diǎn)運(yùn)算數(shù)越小表明需要的計(jì)算成本越小.推理速度v以每秒幀數(shù)來(lái)衡量,每秒幀數(shù)越大,表明網(wǎng)絡(luò)每秒可以處理的圖片數(shù)越多,實(shí)時(shí)性越強(qiáng).
從表5可得如下結(jié)論.1)所提網(wǎng)絡(luò)每秒可以處理近258幀的圖片,在推理速度上所提網(wǎng)絡(luò)最優(yōu),比其他輕量級(jí)網(wǎng)絡(luò)ENet、ERFNet、LEDNet、BiseNetv2、CGNet的推理速度分別高出141、60、147、14、142幀/s,相比于非輕量級(jí)網(wǎng)絡(luò),優(yōu)勢(shì)更明顯,推理速度達(dá)到PSPNet的40多倍.2)所提網(wǎng)絡(luò)的模型參數(shù)量為1.45×106,排在第4位,僅次于輕量級(jí)網(wǎng)絡(luò)ENet、LEDNet和CGNet,相比于非輕量級(jí)網(wǎng)絡(luò),參數(shù)量大幅降低.3)所提網(wǎng)絡(luò)的浮點(diǎn)運(yùn)算數(shù)為0.31×109,在所有分割網(wǎng)絡(luò)中排在第1位,計(jì)算成本很小.
表5 各網(wǎng)絡(luò)的效率指標(biāo)對(duì)比結(jié)果Tab.5 Comparison results of efficiency index in each network
綜合對(duì)比平均交并比、像素準(zhǔn)確率、推理速度、參數(shù)量和浮點(diǎn)運(yùn)算數(shù)可知,所提網(wǎng)絡(luò)在參數(shù)量、計(jì)算成本及處理速度等方面與常規(guī)的語(yǔ)義分割網(wǎng)絡(luò)相比得到了很大的提升,與其他輕量級(jí)網(wǎng)絡(luò)相比體現(xiàn)出一定的優(yōu)勢(shì).在分割精度上十分接近甚至優(yōu)于常規(guī)的語(yǔ)義分割網(wǎng)絡(luò),在所有的輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò)中取得了較好的分割精度.
2.3.2 消融實(shí)驗(yàn) 為了證明每個(gè)模塊的有效性,開(kāi)展消融實(shí)驗(yàn),消融實(shí)驗(yàn)結(jié)果如表6所示.池化金字塔模塊的消融實(shí)驗(yàn)結(jié)果表明,利用該模塊可以顯著提高網(wǎng)絡(luò)的性能,使得mIoU有了顯著的提升.這主要是因?yàn)槌鼗鹱炙K通過(guò)全局池化和多尺度特征融合,引入了更多的上下文信息,有效地提高了分割精度.
表6 SUIM數(shù)據(jù)集消融實(shí)驗(yàn)精度指標(biāo)的對(duì)比結(jié)果Tab.6 Comparison results of accuracy indicators for ablation experiments on SUIM dataset
為了驗(yàn)證特征融合模塊的優(yōu)勢(shì),在解碼器部分采用不同的上采樣方式.具體如下:將解碼器部分替換成類(lèi)似于FCN的編碼器結(jié)構(gòu),將高級(jí)特征2倍上采樣后與低級(jí)特征簡(jiǎn)單的對(duì)應(yīng)元素相加,將該過(guò)程重復(fù)2次,最后進(jìn)行8倍上采樣得到最后的分割結(jié)果.實(shí)驗(yàn)數(shù)據(jù)表明,利用特征融合模塊可以有效地結(jié)合高低級(jí)特征,提高了網(wǎng)絡(luò)的性能.此外,通過(guò)消融實(shí)驗(yàn)驗(yàn)證了預(yù)先進(jìn)行圖像預(yù)處理操作的有效性,包括對(duì)圖片進(jìn)行隨機(jī)翻轉(zhuǎn)和歸一化處理.實(shí)驗(yàn)結(jié)果表明,圖像預(yù)處理操作可以將mIoU提升0.4%.
測(cè)試不同的基礎(chǔ)網(wǎng)絡(luò)編解碼器結(jié)構(gòu)對(duì)分割精度和速度的影響.將編碼器的5個(gè)模塊分別替換為Mobilenetv2和ResNet-18[25],測(cè)試精度指標(biāo)mI-oU和速度指標(biāo)FPS.為了驗(yàn)證采用的非對(duì)稱(chēng)的編解碼器結(jié)構(gòu)的優(yōu)勢(shì),將所提網(wǎng)絡(luò)的解碼器部分替換成與編碼器對(duì)稱(chēng)的結(jié)構(gòu),把編碼器中步長(zhǎng)為2的卷積層替換成2倍上采樣模塊,實(shí)驗(yàn)結(jié)果如表7所示.
表7 基礎(chǔ)網(wǎng)絡(luò)消融實(shí)驗(yàn)不同指標(biāo)的對(duì)比結(jié)果Tab.7 Comparison results of different indexes in baseline network ablation experiments
從表7可得如下結(jié)論.1)相比于Mobilenetv2,本文的基礎(chǔ)網(wǎng)絡(luò)的分割精度與分割速度都更優(yōu).2)本文的基礎(chǔ)網(wǎng)絡(luò)的mIoU略遜于ResNet-18,但是在推薦速度指標(biāo)上明顯高于ResNet-18,檢測(cè)速度更大,實(shí)時(shí)性更強(qiáng).3)與本文的非對(duì)稱(chēng)結(jié)構(gòu)相比,對(duì)稱(chēng)結(jié)構(gòu)可以提高分割精度,這是由于非對(duì)稱(chēng)的編解碼器結(jié)構(gòu)會(huì)不可避免地在下采樣過(guò)程中損失空間信息.對(duì)稱(chēng)結(jié)構(gòu)可以在一定程度上緩解該問(wèn)題,提升網(wǎng)絡(luò)性能,但增加了大量的卷積層,網(wǎng)絡(luò)復(fù)雜度大大提升,推理速度大幅下降.與對(duì)稱(chēng)結(jié)構(gòu)相比,非對(duì)稱(chēng)的編解碼器結(jié)構(gòu)可以在精度和速度間取得優(yōu)秀的平衡.
測(cè)試不同的損失函數(shù)對(duì)分割精度的影響.測(cè)試3種不同的分割損失函數(shù),包括OHEMCELoss、交叉熵?fù)p失(crossentropy loss, CELoss)和交并比損失(intersection over union loss, IoULoss),實(shí)驗(yàn)結(jié)果如表8所示.可以看出,使用OHEMCELoss時(shí)的訓(xùn)練效果最好.這是因?yàn)镺HEMCELoss會(huì)對(duì)分割難度較大的樣本增大訓(xùn)練次數(shù),使得訓(xùn)練更有效,且與邊緣損失函數(shù)BCELoss組合使用可以進(jìn)一步提升網(wǎng)絡(luò)的性能.驗(yàn)證輔助邊緣損失函數(shù)的有效性,測(cè)試平衡參數(shù)α對(duì)分割結(jié)果的影響,實(shí)驗(yàn)結(jié)果如表9所示.可知,當(dāng)α = 0.1時(shí),分割效果最佳,利用輔助邊緣損失函數(shù)可以顯著提升網(wǎng)絡(luò)的性能,將mIoU指標(biāo)從52.66%提升到53.55%.
表8 損失函數(shù)消融實(shí)驗(yàn)精度指標(biāo)的對(duì)比結(jié)果Tab.8 Comparison results of accuracy index in loss function ablation experiments
表9 平衡參數(shù)α消融實(shí)驗(yàn)精度指標(biāo)的對(duì)比結(jié)果Tab.9 Comparison results of accuracy index in balance parameter α ablation experiments
圖8給出所提網(wǎng)絡(luò)有、無(wú)輔助邊緣損失函數(shù)的實(shí)驗(yàn)結(jié)果對(duì)比圖.如圖8(a)所示為真實(shí)的語(yǔ)義標(biāo)簽,如圖8 (b)所示為不使用邊緣損失函數(shù)得到的分割結(jié)果,如圖8 (c)所示為使用輔助邊緣損失函數(shù)得到的分割結(jié)果.從圖8可以看出,當(dāng)α = 0.1時(shí),輔助邊緣損失函數(shù)可以使得相同類(lèi)別內(nèi)的特征更加一致,不同類(lèi)別間的特征更加明顯.通過(guò)明確的語(yǔ)義邊界監(jiān)督,網(wǎng)絡(luò)模型獲得更準(zhǔn)確的語(yǔ)義邊界,分割效果更好.
圖8 所提網(wǎng)絡(luò)有、無(wú)邊緣損失函數(shù)的對(duì)比結(jié)果Fig.8 Comparison results of proposed network with or without edge loss function
本文提出面向水下場(chǎng)景的輕量級(jí)圖像語(yǔ)義分割網(wǎng)絡(luò),在分割精度和速度之間達(dá)到較好的平衡.利用輔助邊緣損失函數(shù),使得語(yǔ)義邊界更準(zhǔn)確.所提網(wǎng)絡(luò)解決了現(xiàn)有語(yǔ)義分割模型在水下場(chǎng)景表現(xiàn)較差、分割邊界粗糙的問(wèn)題,對(duì)水下圖像的語(yǔ)義分割研究具有重要意義.
所提網(wǎng)絡(luò)主要考慮水下圖像的邊緣模糊問(wèn)題,對(duì)于顏色對(duì)比度較低的水下圖像,分割性能較差.在未來(lái)的研究中,將會(huì)考慮設(shè)計(jì)顏色校正模塊以解決色偏問(wèn)題,提高模型的魯棒性.