左純子, 王征, 張科, 潘紅光
(西安科技大學(xué) 電氣與控制工程學(xué)院,陜西 西安 710054)
在煤礦井下作業(yè)時(shí),巷道內(nèi)存在大量煤塵顆粒,當(dāng)空氣中煤塵濃度達(dá)到上限時(shí),會(huì)引起煤塵爆炸,嚴(yán)重威脅煤礦生產(chǎn)安全[1-2]。對(duì)煤塵的各種特性進(jìn)行分析,研究煤塵爆炸機(jī)理及其防范措施,對(duì)于保障煤礦安全生產(chǎn)具有重要意義[3]。
目前對(duì)煤塵顆粒的研究主要集中在煤塵自身的物理特性方面,如粒徑、形態(tài)、表面結(jié)構(gòu)等[4-5]。鑒于技術(shù)手段及研究角度的局限,現(xiàn)有研究大多針對(duì)煤塵特性的1個(gè)或幾個(gè)參數(shù),所生成的模型泛化能力較弱[6]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖像處理方法被應(yīng)用到煤塵顆粒特征研究中,并取得一定的成果。語(yǔ)義分割是圖像處理和機(jī)器視覺(jué)的一個(gè)重要分支。與分類任務(wù)不同,語(yǔ)義分割需要判斷圖像中每個(gè)像素點(diǎn)的類別,進(jìn)行精確分割。傳統(tǒng)的語(yǔ)義分割網(wǎng)絡(luò) 包 括 全 卷 積 網(wǎng) 絡(luò) ( Fully Convolutional Networks,F(xiàn)CN)[7]、 金 字 塔 場(chǎng) 景 解 析 網(wǎng) 絡(luò) (Pyramid Scene Parsing Network,PSPNet)[8],SegNet[9],U?Net[10],Unet?SE[11],DeepLabV3+[12]等。FCN需要進(jìn)行 8倍上采樣,采樣結(jié)果較模糊,易產(chǎn)生噪聲;SegNet未考慮上下文和局部細(xì)節(jié)信息;PSPNet融合了不同尺度的卷積,但分割細(xì)小物體時(shí)易出現(xiàn)模糊現(xiàn)象。U?Net和Unet?SE采用普通卷積進(jìn)行下采樣,空間分辨率會(huì)有所損失;DeepLabV3+引入擴(kuò)張卷積,可以獲取更多上下文信息,且能捕獲到邊緣細(xì)節(jié)信息。為了更好地捕獲煤塵不規(guī)則細(xì)小顆粒物,在DeepLabV3+的基礎(chǔ)上進(jìn)行改進(jìn),并提出一種基于改進(jìn)DeepLabV3+的煤塵圖像分割方法。
DeepLabV3+網(wǎng)絡(luò)模型用于解決圖像分割問(wèn)題,分為編碼和解碼2個(gè)部分。通過(guò)特征提取網(wǎng)絡(luò)Xception提取煤塵顆粒特征,用空洞空間卷積池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)獲得煤塵的高層語(yǔ)義特征,用解碼器獲得煤塵的低層邊界特征。經(jīng)編碼器編碼后,圖像分辨率降為原來(lái)的1/16,因此,對(duì)高層語(yǔ)義特征進(jìn)行4倍上采樣,將分辨率恢復(fù)到原圖的1/4;通過(guò)1×1卷積對(duì)低層邊界特征進(jìn)行壓縮,并與高層語(yǔ)義特征進(jìn)行融合;再通過(guò)3×3卷積和4倍上采樣,輸出與原圖大小相等的預(yù)測(cè)圖像。
由于煤塵顆粒的邊緣特征信息相似,局部細(xì)節(jié)特征難以區(qū)分,所以DeepLabV3+網(wǎng)絡(luò)模型難以直接用于煤塵圖像分割。為此,從以下方面對(duì)DeepLabV3+網(wǎng)絡(luò)模型進(jìn)行改進(jìn):
(1) 在編碼器中,用 CA?MobileNetV3 輕量化模塊代替Xception實(shí)現(xiàn)特征提取,確保特征提取更加細(xì)致、準(zhǔn)確。
(2) 在ASPP模塊中對(duì)空洞率進(jìn)行改進(jìn),使其更適合小顆粒煤塵提取。
(3) 在解碼器中引入全局注意力上采樣 (Global Attention Upsample,GAU)模塊,在計(jì)算量較小時(shí)對(duì)低層特征信息進(jìn)行加權(quán),用高層特征信息指導(dǎo)低層特征信息,實(shí)現(xiàn)特征融合。
改進(jìn)DeepLabV3+網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
圖1 改進(jìn) DeepLabV3+網(wǎng)絡(luò)模型結(jié)構(gòu)
由于煤塵顆粒形狀不規(guī)則、尺寸差異大且具有多尺度特征,在卷積過(guò)程中有多個(gè)卷積核,需要進(jìn)行多次卷積運(yùn)算,使得卷積的計(jì)算量呈指數(shù)上升。CA?MobileNetV3模塊使用深度可分離卷積,可將空間和通道分離,與標(biāo)準(zhǔn)卷積相比,縮小了計(jì)算量,提高了計(jì)算效率。深度可分離卷積由深度卷積和逐點(diǎn)卷積2個(gè)部分構(gòu)成。
設(shè)輸入特征圖大小為F×F×M,輸出特征圖大小為F×F×N,卷積核大小為K×K×N×M,則標(biāo)準(zhǔn)卷積的計(jì)算量為F2MK2,深度可分離卷積的計(jì)算量為F2NK2+NMF2,深度可分離卷積的計(jì)算量與標(biāo)準(zhǔn)卷積計(jì)算量之比為可以看出,在計(jì)算量相同的情況下,深度可分離卷積可以有更大的深度,從而加快算法的分割速度。
CA?MobileNetV3在MobileNetV3的基礎(chǔ)上進(jìn)行改進(jìn),采用坐標(biāo)注意力(Coordinate Attention,CA)模塊[13]代替原來(lái)的壓縮獎(jiǎng)懲(Squeeze?and?Excitation,SE)模塊。SE模塊只關(guān)注了通道信息,而忽略了位置信息。本文通過(guò)引入CA模塊,在通道和位置2個(gè)維度上關(guān)注煤塵圖像的重要特征。相比于SE模塊,CA模塊捕獲到的信息量更大,計(jì)算量、精度也隨之上升。
CA?MobileNetV3模塊結(jié)構(gòu)如圖2所示。
圖2 CA?MobileNetV3 模塊結(jié)構(gòu)Fig.2 The structure of CA-MobileNetV3 module
將大小為W×H×M的特征圖通過(guò)1×1的標(biāo)準(zhǔn)卷積進(jìn)行特征壓縮,然后通過(guò)3×3的深度卷積提取特征;再將獲取的特征分別通過(guò)大小為C×W×1和C×1×W的卷積核在寬度和高度2個(gè)方向上分別編碼,然后進(jìn)行特征融合;對(duì)融合后的特征進(jìn)行批量歸一化,以加快網(wǎng)絡(luò)的收斂速度;最后通過(guò)1×1標(biāo)準(zhǔn)卷積與原來(lái)輸入的特征進(jìn)行融合,形成新的特征圖。
ASPP模塊獲取圖像語(yǔ)義信息后,通過(guò)空洞率不同的空洞卷積對(duì)不同尺度的特征信息進(jìn)行采樣,再將多個(gè)尺度的信息進(jìn)行融合。ASPP模塊由多個(gè)空洞率不同的卷積核以并聯(lián)方式組成,空洞率的大小決定了是否能較好地提取小目標(biāo)特征。一般空洞率越大,圖像的感受野越大[14],但空洞率較大時(shí)可能存在小目標(biāo)信息丟失、信息利用率較低等問(wèn)題。當(dāng)感受野大于要分割的煤塵顆粒時(shí),體積小的煤塵顆粒的信息將不會(huì)被捕獲,而被作為背景處理。當(dāng)空洞率較小時(shí),卷積核的尺度和圖像的感受野相對(duì)較小,有利于捕捉較小的煤塵顆粒。但當(dāng)感受野過(guò)小時(shí),會(huì)捕捉太多局部信息,導(dǎo)致煤塵圖像難以分割。
ASPP 常用的一組空洞率為[1,6,8,12],但并不適合煤塵顆粒這種小目標(biāo)特征提取,容易導(dǎo)致煤塵顆粒細(xì)節(jié)部分被忽略,從而達(dá)不到語(yǔ)義分割的效果。并且,當(dāng)空洞率存在公約數(shù)時(shí)(1除外),會(huì)造成煤塵局部細(xì)節(jié)信息大量丟失。為了盡可能多地捕捉煤塵顆粒局部信息,使局部信息之間產(chǎn)生更多關(guān)聯(lián),本文參考非0值間最大距離公式[15-16],通過(guò)實(shí)驗(yàn)選擇更適合煤塵顆粒小目標(biāo)分割的不含公約數(shù)的一組空洞率。同時(shí),采用 3×1和 1×3卷積對(duì)所有 3×3空洞卷積進(jìn)行分解,以壓縮模型參數(shù)量,減小煤塵圖像處理計(jì)算量,從而提升網(wǎng)絡(luò)模型的效率,縮短分割時(shí)間[17]。
在解碼部分,大部分網(wǎng)絡(luò)模型采用線性插值上采樣方式獲取高分辨率圖像,導(dǎo)致圖像細(xì)節(jié)信息難以恢復(fù)。GAU模塊可在計(jì)算量較小的情況下對(duì)全局上下文特征信息進(jìn)行融合,將高層特征信息作為低層特征信息的指導(dǎo),其結(jié)構(gòu)如圖3所示。GAU模塊首先改變低層特征每個(gè)通道的權(quán)重,對(duì)低層特征信息進(jìn)行3×3卷積后加權(quán),以增強(qiáng)類內(nèi)特征的一致性,并將低層特征和高層特征相結(jié)合進(jìn)行全局上采樣,以獲取煤塵顆粒的高分辨圖像;然后,用帶有Leaky ReLU和Sigmoid的1×1卷積層對(duì)全局信息進(jìn)行壓縮和提取,獲取低層特征的權(quán)重向量,得到加權(quán)特征;最后,將加權(quán)特征與高層特征相融合,得到最終的輸出結(jié)果。
圖3 GAU 模塊結(jié)構(gòu)Fig.3 The structure of GAU module
GAU模塊用全局上采樣機(jī)制代替解碼器的上采樣機(jī)制,使煤塵顆粒的特征信息經(jīng)過(guò)長(zhǎng)距離傳輸后不衰減,更加有利于捕捉煤塵顆粒的邊緣細(xì)節(jié)信息。
通過(guò)煤塵采樣器采集采煤工作面煤塵顆粒樣本,將樣本放入60 ℃恒溫干燥箱中干燥24 h以上。將攝像頭與顯微鏡連接,采集煤塵顆粒樣本圖像,并統(tǒng)一剪裁成分辨率為224×224的圖像,形成原始數(shù)據(jù)集。通過(guò)圖形界面標(biāo)注軟件Lableme對(duì)原始數(shù)據(jù)集中的圖像進(jìn)行標(biāo)注,生成json文件,之后批量轉(zhuǎn)換成分辨率為224×224、深度為24的灰度圖。將數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集占90%,驗(yàn)證集占10%。利用Pytorch深度學(xué)習(xí)框架進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試,軟件編程語(yǔ)言為Python3.7。實(shí)驗(yàn)采用交叉熵?fù)p失函數(shù),并且采用隨機(jī)梯度下降(Stochastic Gradient Descent,SDG)算法優(yōu)化網(wǎng)絡(luò)模型。設(shè)置訓(xùn)練周期為100,每批次處理50張煤塵圖像,學(xué)習(xí)率為0.01。
采用深度學(xué)習(xí)常用的平均交并比(Mean Intersection over Union,MIoU)、召回率和像素精度(Pixel Accuracy,PA)、準(zhǔn)確度及F1值作為評(píng)估指標(biāo),驗(yàn)證本文方法的性能。
隨機(jī)挑選測(cè)試集中的煤塵圖像,分別采用CA?MobileNetV3,MobileNetV3,Xception作為特征提取網(wǎng)絡(luò)進(jìn)行特征提取,結(jié)果如圖4所示。由圖4可看出:Xception的特征提取效果最差,不能很好地區(qū)分煤塵與背景區(qū)域,煤塵邊緣等細(xì)節(jié)信息較模糊,存在煤塵邊緣細(xì)節(jié)特征丟失的情況;MobileNetV3的特征提取效果優(yōu)于Xception,但對(duì)小顆粒物的細(xì)節(jié)特征提取仍受到背景因素的影響。CA?MobileNetV3通過(guò)加入CA模塊,降低了背景的影響,與MobileNetV3相比,更為關(guān)注小顆粒物邊緣的特征信息,對(duì)邊緣特征的激活程度更高,較為精確地保留了大量煤塵顆粒信息。
圖4 圖像特征提取結(jié)果Fig.4 Image characteristic extraction results
對(duì)CA?MobileNetV3與原DeepLabV3+特征提取網(wǎng)絡(luò)Xception進(jìn)行對(duì)比,結(jié)果見(jiàn)表1。可看出,與原DeepLabV3+的特征提取網(wǎng)絡(luò)Xception相比,采用CA?MobileNetV3后,MIoU提升約6%,所占內(nèi)存減少約 186 MB。
表1 不同特征提取網(wǎng)絡(luò)的性能Table 1 Performance of different characteristic extraction networks
選擇有公約數(shù)的空洞率[1,6,8,12],[1,12,18,24]和沒(méi)有公約數(shù)的空洞率[1,3,7,9],[1,5,7,11],[1,7,11,13]進(jìn)行實(shí)驗(yàn),將煤塵顆粒數(shù)據(jù)集輸入網(wǎng)絡(luò)模型,實(shí)驗(yàn)結(jié)果見(jiàn)表2。分析表2可知,當(dāng)空洞率沒(méi)有公約數(shù)時(shí),模型的PA和MIoU均高于空洞率有公約數(shù)時(shí)的值。當(dāng)空洞率設(shè)置為[1,5,7,11]時(shí),模型的分割性能最好。
表2 不同空洞率下 DeepLabV3+網(wǎng)絡(luò)模型的分割性能Table 2 Segmentation performance of DeepLabV3+ network model under different dilation rates
為了驗(yàn)證GAU模塊的性能,對(duì)原DeepLabV3+和加入GAU模塊之后的網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果見(jiàn)表3。由于在解碼器中使用了全局注意力機(jī)制,減少了高層特征和低層特征融合時(shí)的特征損失,引入GAU模塊后,MIoU提升了4.2%,準(zhǔn)確度提升了1.14%。
表3 GAU 模塊性能Table 3 The performance of GAU module
對(duì) U?Net, DeepLabV3+, FCN, PSPNet, SegNet,Unet?SE和改進(jìn)后DeepLabV3+七種網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,各網(wǎng)絡(luò)模型通過(guò)測(cè)試集訓(xùn)練后的性能指標(biāo)見(jiàn)表4。可看出,改進(jìn)DeepLabV3+在煤塵數(shù)據(jù)集上的F1和MIoU指標(biāo)高于其他網(wǎng)絡(luò)模型,且訓(xùn)練時(shí)間較短,圖像處理速度顯著高于其他網(wǎng)絡(luò)模型;U?Net,SegNet,PSPNet,F(xiàn)CN,Unet?SE 的F1值較小,這是因?yàn)檫@些網(wǎng)絡(luò)模型對(duì)煤塵圖像的細(xì)節(jié)特征提取較粗糙,未得到圖像的多尺度深層信息,導(dǎo)致網(wǎng)絡(luò)模型在進(jìn)行特征融合時(shí)難以區(qū)分高層特征和低層特征。改進(jìn)DeepLabV3+通過(guò)GAU模塊將提取的底層特征和高層特征相融合,獲得了較好的分割效果。改進(jìn)DeepLabV3+綜合性能最優(yōu),滿足圖像分割精度和實(shí)時(shí)性要求。
表4 各網(wǎng)絡(luò)模型性能指標(biāo)Table 4 Performance indicators of each network model
不同網(wǎng)絡(luò)模型對(duì)煤塵圖像的分割效果如圖5所示。可看出,采用PSPNet,SegNet進(jìn)行煤塵圖像分割時(shí),產(chǎn)生了許多噪點(diǎn),分割結(jié)果較粗糙;采用U?Net,F(xiàn)CN,DeepLabV3+,Unet?SE 進(jìn)行煤塵圖像分割時(shí),雖然能較好地還原煤塵顆粒尺寸,但對(duì)細(xì)小煤塵顆粒的分割還是較模糊,輪廓部分成色較淡,這是因?yàn)檫@4種網(wǎng)絡(luò)模型未充分學(xué)習(xí)到煤塵顆粒的細(xì)節(jié)特征;改進(jìn)DeepLabV3+能有效區(qū)分煤塵顆粒和礦物顆粒,礦物顆粒內(nèi)部未出現(xiàn)紅色區(qū)域,也未出現(xiàn)噪點(diǎn),煤塵顆粒成像更清晰,對(duì)小目標(biāo)的分割效果明顯優(yōu)于原DeepLabV3+網(wǎng)絡(luò)模型。
圖5 不同網(wǎng)絡(luò)模型對(duì)煤塵圖像的分割效果Fig.5 Segmentation effect of different network models on coal dust image
(1) 特征提取網(wǎng)絡(luò)采用 CA?MobileNetV3,將 CA模塊嵌入MobileNetV3中,以較小的開(kāi)銷提升模型準(zhǔn)確度,有效避免了傳統(tǒng)機(jī)器學(xué)習(xí)方法在煤塵識(shí)別中泛化能力差的問(wèn)題,以及一般深度學(xué)習(xí)框架因參數(shù)體積過(guò)大而難以嵌入使用的實(shí)際問(wèn)題。與原DeepLabV3+網(wǎng)絡(luò)模型相比,采用CA?MobileNetV3后,MIoU提升約6%,所占內(nèi)存減少約186 MB。
(2) 在ASPP模塊中選擇適合煤塵顆粒特征提取的空洞卷積組,有利于煤塵顆粒的高層語(yǔ)義特征篩選,不會(huì)出現(xiàn)因?yàn)槊簤m顆粒體積小而捕捉不到的現(xiàn)象。實(shí)驗(yàn)結(jié)果表明,當(dāng)空洞率沒(méi)有公約數(shù)時(shí),模型的PA和MIoU均高于空洞率有公約數(shù)時(shí)的值。當(dāng)空洞率設(shè)置為[1,5,7,11]時(shí),模型的分割性能最好。
(3) 在解碼器部分采用GAU重構(gòu)高分辨率分割圖像,將高層特征作為低層特征的指導(dǎo)并進(jìn)行加權(quán)融合,提高了網(wǎng)絡(luò)模型的語(yǔ)義分割性能,更好地適應(yīng)了不同尺度下的特征融合。引入GAU模塊后,MIoU提升了4.2%,準(zhǔn)確度提升了1.14%。
(4) 實(shí)驗(yàn)結(jié)果表明,改進(jìn) DeepLabV3+網(wǎng)絡(luò)模型在煤塵數(shù)據(jù)集上的召回率為90.26%,準(zhǔn)確度為89.23%,相比于其他網(wǎng)絡(luò)模型,改進(jìn)DeepLabV3+對(duì)煤塵特征的學(xué)習(xí)能力更強(qiáng),能獲取更多細(xì)節(jié)信息,并大幅縮短訓(xùn)練時(shí)間,對(duì)小目標(biāo)的分割效果更優(yōu)。