郭學(xué)俊,彭 贊
(太原理工大學(xué) 大數(shù)據(jù)學(xué)院,山西 晉中 030600)
帶鋼是一種重要的材料,在建筑、航空工業(yè)和化學(xué)工業(yè)中有著廣泛的應(yīng)用。這些應(yīng)用對帶鋼表面缺陷等產(chǎn)品質(zhì)量及其自動(dòng)檢測提出了日益嚴(yán)格的要求。目前,帶鋼表面缺陷的檢測主要依賴機(jī)器視覺檢測方法[1]。但由于帶鋼表面缺陷圖像的復(fù)雜性,機(jī)器視覺方法應(yīng)用于帶鋼表面缺陷檢測存在以下3個(gè)難點(diǎn):一是圖像中的缺陷與背景的對比度較低、許多缺陷的邊緣模糊;二是一些不同類別的缺陷在紋理和灰度等信息上非常相似、同類缺陷的形狀、尺寸大小變化多樣;三是凌亂的背景、不均勻的光照分布和噪聲均對缺陷的識別形成了較強(qiáng)的干擾。傳統(tǒng)機(jī)器視覺表面缺陷檢測方法利用人工設(shè)計(jì)的低級特征識別缺陷,對于復(fù)雜背景下的表面缺陷圖像無法取得滿足要求的結(jié)果。
基于深度學(xué)習(xí)的機(jī)器視覺表面缺陷檢測方法利用多層網(wǎng)絡(luò)結(jié)構(gòu)和非線性變換能夠自動(dòng)從表面缺陷圖像中獲取不同尺度和不同級別的語義特征[2]。因此,這類方法具有強(qiáng)大的特征表達(dá)能力。目前,基于深度學(xué)習(xí)的語義分割方法,即全卷積神經(jīng)網(wǎng)絡(luò)模型,已經(jīng)成為帶鋼表面缺陷自動(dòng)檢測的重要研究方向。然而,深度學(xué)習(xí)模型的性能往往嚴(yán)重依賴大規(guī)模的訓(xùn)練數(shù)據(jù)集。但是在實(shí)際應(yīng)用中,由于缺陷產(chǎn)生的隨機(jī)性,大規(guī)模數(shù)據(jù)集的搜集需要很長的時(shí)間。缺乏足夠的訓(xùn)練樣本將導(dǎo)致嚴(yán)重的過擬合現(xiàn)象,模型泛化性能變差。此外,語義分割模型往往關(guān)注像素分類精度,而忽視了表面缺陷邊緣質(zhì)量,但邊緣質(zhì)量對缺陷分析非常重要。
為了緩解以上問題,ENSHAE et al和PRAPPACHER et al分別使用數(shù)據(jù)增強(qiáng)和模擬生成以增大訓(xùn)練集規(guī)模[3-4],但是以上兩種方法仍然依賴大規(guī)模數(shù)據(jù)集,將耗費(fèi)大量的計(jì)算資源和時(shí)間。BOZIC et al和TABERNIK et al利用弱監(jiān)督減少表面缺陷提取模型訓(xùn)練所需樣本數(shù)量[5-6],但目前弱監(jiān)督方法的精度仍大幅度落后于全監(jiān)督方法。ASLAM et al[7]使用U-Net模型高效利用訓(xùn)練集從而減輕模型性能對大規(guī)模訓(xùn)練集的依賴。但是,該網(wǎng)絡(luò)層數(shù)較少、無法融合不同空間分辨率的特征,且跳躍連接無法選擇性的融合不同級別的特征。DAMACHARLA et al、SONG et al和 DONG et al利用遷移深度學(xué)習(xí)實(shí)現(xiàn)基于小規(guī)模訓(xùn)練集的帶鋼表面缺陷的自動(dòng)識別與提取[8-10]。DAMACHARLA et al[8]通過殘差和密集連接模塊代替U-Net中的卷積層,從而加深網(wǎng)絡(luò)結(jié)構(gòu)并引入深度監(jiān)督增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力。SONG et al[9]在殘差連接模塊的基礎(chǔ)上還在U-Net解碼器部分引入通道權(quán)重模塊選擇性融合高低層次特征,最后通過一個(gè)一維殘差增強(qiáng)模塊細(xì)化提取結(jié)果。DONG et al[10]設(shè)計(jì)了金字塔特征聚合模塊聚合不同尺度或空間分辨率的特征,并采用全局上下文注意力模塊選擇性聚合相鄰不同尺度的特征,最后用邊緣增強(qiáng)模塊實(shí)現(xiàn)邊緣增強(qiáng)并改進(jìn)預(yù)測精度。該方法專注于高級特征的充分利用,卻忽視了低級特征和高級特征的融合,而低級特征對于邊緣和細(xì)節(jié)非常重要?,F(xiàn)有的高性能表面缺陷語義分割方法大多采用遷移深度學(xué)習(xí)方法。然而,遷移深度學(xué)習(xí)中的預(yù)訓(xùn)練模型所提取的識別特征往往來自自然場景圖像,這些圖像與帶鋼表面缺陷圖像有很大不同。而且,預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)嚴(yán)重限制了網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整。
為了解決密集連接中的冗余計(jì)算問題,LEE et al[11]提出了一次性聚合結(jié)構(gòu)用于目標(biāo)檢測。該結(jié)構(gòu)是密集連接的進(jìn)一步改進(jìn),可以更加高效地重復(fù)利用提取的特征,因而對應(yīng)的網(wǎng)絡(luò)模型不僅具有強(qiáng)大的特征表達(dá)能力而且可以實(shí)現(xiàn)小樣本學(xué)習(xí)。但一次性聚合不利于梯度反向傳播。另外,WANG et al[12]提出一種基于密集連接模塊的特征金字塔注意力網(wǎng)絡(luò)(Pyramid Attention Network,PAN)用于提取路面裂紋,其中特征金字塔注意力模塊在提取多尺度特征時(shí)能有效避免空洞卷積可能引起的柵格效應(yīng)。此外,該模塊和全局注意力模塊利用高層次和全局信息指導(dǎo)低層次特征的選擇和融合,有利于邊緣信息的提取。受文獻(xiàn)[11-12]啟發(fā),本文基于改進(jìn)的一次性聚合模塊、特征金字塔注意力模塊和全局注意力上采樣模塊等構(gòu)建了一個(gè)由粗到精的全卷積神經(jīng)網(wǎng)絡(luò)模型。
本文的主要貢獻(xiàn)如下:
1) 提出一種具備邊緣感知能力的多尺度語義分割模型,用于帶鋼表面缺陷自動(dòng)識別和提取。
2) 該模型用改進(jìn)的一次性聚合模塊取代PAN模型中的密集連接模塊,因而無需任何預(yù)訓(xùn)練集便可從小樣本數(shù)據(jù)集中學(xué)習(xí)獲得從圖像到缺陷預(yù)測圖的映射關(guān)系。
3) 該模型用改進(jìn)的PAN模型和淺層U-Net級聯(lián)構(gòu)建了一個(gè)由粗到細(xì)的結(jié)構(gòu),提升了對邊緣信息的感知能力。
本文將帶鋼表面缺陷自動(dòng)檢測問題轉(zhuǎn)化為帶鋼表面圖像語義分割問題。如圖1所示,本文的圖像語義分割模型由粗略語義預(yù)測和精細(xì)語義預(yù)測兩個(gè)級聯(lián)的子網(wǎng)絡(luò)組成。粗略語義預(yù)測子網(wǎng)絡(luò)采用U型編碼器-解碼器結(jié)構(gòu)。首先利用改進(jìn)的一次性聚合模塊和特征金字塔注意力模塊構(gòu)建編碼器,提取多層級和多尺度特征并降低訓(xùn)練所需的數(shù)據(jù)量。然后由一系列全局注意力上采樣模塊作為解碼器實(shí)現(xiàn)高級特征指導(dǎo)低級特征復(fù)原空間信息,并輸出初步預(yù)測結(jié)果。精細(xì)語義預(yù)測子網(wǎng)絡(luò)利用一個(gè)淺層U-Net對第一個(gè)子網(wǎng)絡(luò)獲得的初步預(yù)測結(jié)果進(jìn)行細(xì)化并改進(jìn)邊緣精度。
圖1 本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Our proposed network structure
圖2 本文方法中的n×n卷積模塊Fig.2 n×n Convolution module in our method
圖1中的m值代表粗略語義預(yù)測子網(wǎng)絡(luò)下采樣路徑中4個(gè)改進(jìn)的一次性聚合模塊中卷積模塊的個(gè)數(shù)。圖2定義了n×n卷積模塊,本文中如無特殊說明,其結(jié)構(gòu)依次為卷積核大小為n×n、步長為1的卷積層,批量歸一化層和激活函數(shù)為ReLU的激活層。
改進(jìn)的一次性聚合模塊的具體結(jié)構(gòu)如圖3所示。首先輸入特征依次經(jīng)過m個(gè)濾波器數(shù)量為16的3×3卷積模塊,輸出m個(gè)不同等級的特征。然后這些特征和輸入特征通過一次性聚合的方式按通道堆疊在一起。最終,再將輸入特征通過1×1卷積模塊將其通道數(shù)提升至與一次性聚合操作后的特征圖通道數(shù)相同,再將二者相加。改進(jìn)之處在于最后一步的殘差相加提升了梯度反向傳播能力。
圖3 改進(jìn)的一次性聚合模塊Fig.3 Improved one-shot aggregation module
特征金字塔注意力模塊的具體結(jié)構(gòu)如圖4所示。首先輸入特征分別輸入1×1卷積與U型特征金字塔結(jié)構(gòu),這兩個(gè)輸出的乘積再與輸入特征依次經(jīng)過全局最大池化和1×1卷積操作后的結(jié)果相加。U型金字塔結(jié)構(gòu)通過3次2×2最大值池化,獲得3個(gè)不同分辨率的特征。這些特征分別經(jīng)過3組不同卷積核大小的卷積操作提取特征,低分辨率的特征經(jīng)過上采樣后再逐級相加。其中每組卷積均由兩個(gè)相同大小的卷積組成,卷積核大小分別為7×7、5×5和3×3.不同于金字塔特征聚合模塊僅能在獲取多空間分辨率特征和像素級別擴(kuò)大感受視野,特征金字塔注意力機(jī)制還能通過全局最大池化支路,提供全局上下文注意力,在通道方向上對所提取的特征進(jìn)行選擇[12]。
圖4 特征金字塔注意力模塊Fig.4 Feature pyramid attention module
全局注意力上采樣模塊的具體結(jié)構(gòu)如圖5所示。低級特征經(jīng)過3×3卷積模塊后與高級特征經(jīng)過全局平均池化、1×1卷積、批量歸一化層和激活函數(shù)為Sigmoid的激活層后相乘,得到經(jīng)過高層次特征在通道維度指導(dǎo)后的低層次特征圖。最后該特征輸出與經(jīng)過卷積核大小為3×3、步長為2的反卷積操作的高層次特征進(jìn)行相加。
圖5 全局注意力上采樣模塊Fig.5 Global attention up-sample module
粗略語義預(yù)測子網(wǎng)絡(luò)是一種改進(jìn)的特征金字塔注意力網(wǎng)絡(luò)[12],采用U型網(wǎng)絡(luò)結(jié)構(gòu),由下采樣路徑,特征金字塔注意力模塊和上采樣路徑3部分組成,其中下采樣路徑和上采樣路徑對應(yīng)部分之間有跳躍連接,實(shí)現(xiàn)低級特征和高級特征的融合。下采樣路徑依次由1個(gè)7×7卷積模塊、4個(gè)分別由大小為2×2、步長為2的最大池化層和改進(jìn)的一次性聚合模塊組成(其中,m分別取4,6,9,12)的下采樣單元組成。上采樣路徑依次由4個(gè)全局注意力上采樣模塊和1個(gè)1×1卷積模塊組成。
精細(xì)語義預(yù)測子網(wǎng)絡(luò)采用經(jīng)典的U-Net網(wǎng)絡(luò)結(jié)構(gòu),具體的結(jié)構(gòu)如圖1所示。由下采樣路徑和上采樣路徑兩部分組成,其中下采樣路徑和上采樣路徑對應(yīng)部分之間有跳躍連接,實(shí)現(xiàn)低級特征和高級特征的融合。下采樣路徑依次由2個(gè)3×3的卷積模塊和4個(gè)下采樣階段組成,每個(gè)下采樣階段由大小為2×2、步長為2的最大池化層和3×3卷積模塊組成。上采樣路徑依次由4個(gè)上采樣階段和1個(gè)3×3卷積模塊組成,每個(gè)上采樣階段由步長為2的雙線性插值上采樣操作和3×3卷積模塊組成。精細(xì)語義預(yù)測子網(wǎng)絡(luò)通過學(xué)習(xí)粗略語義預(yù)測子網(wǎng)絡(luò)預(yù)測結(jié)果和真實(shí)標(biāo)簽圖像之間的差異進(jìn)一步改進(jìn)邊緣預(yù)測精度。
本文提出的方法所使用的損失函數(shù)為由交叉熵(CE)函數(shù)、結(jié)構(gòu)相似性指數(shù)度量(SSIM)函數(shù)和交并比(IoU)函數(shù)組成的混合損失函數(shù):
L=lCE+lSSIM+lIoU.
(1)
以上3個(gè)函數(shù)分別用于計(jì)算模型預(yù)測結(jié)果與真實(shí)標(biāo)簽之間的像素級差、局部結(jié)構(gòu)性、全局性差異。其定義為:
(2)
(3)
(4)
式中:N代表像素個(gè)數(shù),M代表類別總數(shù)。對于類別c,yic代表像素i的真實(shí)標(biāo)簽,如果像素i的真實(shí)類別為c則yic取1,否則yic取0.pic代表像素i預(yù)測為類別c的可能性,μy,μp和σy,σp分別是真實(shí)標(biāo)簽圖像y和預(yù)測圖像p的平均值和標(biāo)準(zhǔn)差,σyp是真實(shí)標(biāo)簽圖像y和預(yù)測圖像p的協(xié)方差。C1=0.012和C2=0.032被用來避免除零。
為驗(yàn)證本文提出方法的有效性,使用了東北大學(xué)熱軋帶鋼表面缺陷數(shù)據(jù)集[13](簡稱NEU-Seg數(shù)據(jù)集)對模型的性能進(jìn)行評估。本文對比實(shí)驗(yàn)中所有模型均在搭載NVIDIA Tesla K80圖形處理器,深度學(xué)習(xí)框架為TensorFlow 1.14.0的工作站上進(jìn)行了訓(xùn)練、測試與評估。
如圖6所示,NEU-Seg數(shù)據(jù)集包括鋼帶表面夾雜(In)、斑點(diǎn)(Pa)、劃傷(Sc)3種類別的缺陷數(shù)據(jù),分別用紅、綠、藍(lán)3種顏色表示。每個(gè)類別的數(shù)據(jù)包括尺寸為200 mm×200 mm的原始圖像、200 mm×200 mm的人工標(biāo)記圖像各300張。為了使模型的泛化能力更強(qiáng),使用Augmentor數(shù)據(jù)增強(qiáng)工具對數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增強(qiáng)。增強(qiáng)方法為:旋轉(zhuǎn)范圍為最大左旋10°,最大右旋10°,概率為80%的圖像旋轉(zhuǎn);概率為50%的圖像垂直翻轉(zhuǎn);30%的概率放大原始圖像,并按照原始圖像的85%進(jìn)行裁切;改變圖像大小為256 mm×256 mm以便于模型訓(xùn)練,最終擴(kuò)充的數(shù)據(jù)樣本數(shù)為10 000張。其中,訓(xùn)練集6 000張、驗(yàn)證集2 000張、測試集2 000張。
圖6 東北大學(xué)熱軋帶鋼表面缺陷數(shù)據(jù)集示例Fig.6 Samples of NEU-Seg defect dataset
本方法及其他對比實(shí)驗(yàn)所用的網(wǎng)絡(luò)在訓(xùn)練階段均使用Adam優(yōu)化器,訓(xùn)練輪數(shù)(Epoch)為100輪,學(xué)習(xí)率初始值為3×10-4且在訓(xùn)練過程中使用Cosine方法對其進(jìn)行衰減,批次大小為8.Adam優(yōu)化器的一階矩估計(jì)的指數(shù)衰減率β1為0.9,二階矩估計(jì)的指數(shù)衰減率β2為0.999.
定量評價(jià)結(jié)果如表1所示。表1最后一行顯示本文提出的方法在NEU-Seg數(shù)據(jù)集上取得了較好的語義分割效果,夾雜類缺陷像素精度(In_PA)為91.43%、斑點(diǎn)類缺陷像素精度(Pa_PA)為96.35%、劃痕類缺陷像素精度(Sc_PA)為93.49%、平均交并比(mIoU)達(dá)87.65%、平均像素精度(mPA)達(dá)93.76%,平均F1值(mF1score)達(dá)93.19%.表1中第二行和三行分別與第一行進(jìn)行比較,結(jié)果分別驗(yàn)證了不同等級特征融合和多尺度特征提取的必要性。表1中第七行與第二和第三行進(jìn)行對比,結(jié)果表明本文所提出的方法中的粗略語義預(yù)測網(wǎng)絡(luò)無論是在整體還是類別分割性能上優(yōu)于FCN[14]、U-Net[7]和DeepLab V3+[15].該結(jié)果驗(yàn)證基于改進(jìn)型一次性聚合模塊的PAN模型強(qiáng)大的特征表達(dá)能力。表1中第七行分別與第四行、第五行對比,結(jié)果表明,粗略語義預(yù)測網(wǎng)絡(luò)中的改進(jìn)型一次聚合模塊在整體分割性能和類別精度上均優(yōu)于目前基于深度遷移方法中通常采用的殘差連接和密集連接模塊[8]。第七行和第六行比較表明對一次性聚合模塊的改進(jìn)提升了模型的分割性能。第七行和第八行相比較表明本文所提出的整體方法提升了粗略語義預(yù)測網(wǎng)絡(luò)的性能,該結(jié)果驗(yàn)證了本文采用由粗到細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)提升了模型的邊緣感知能力。
表1 NEU-Seg數(shù)據(jù)集對比實(shí)驗(yàn)評估結(jié)果Table 1 Comparative experiment results and evaluations using the NEU-Seg defect dataset
基于東北大學(xué)熱軋帶鋼表面缺陷數(shù)據(jù)集,采用本文所提出的方法與粗略語義預(yù)測網(wǎng)絡(luò)、基于Resnet101的PAN、基于Dense121的PAN和DeepLab V3+等模型的定性評價(jià)與比較結(jié)果如圖7所示。圖7表明本文所提出的方法在不同尺度的各類缺陷的自動(dòng)提取上均取得了滿意的結(jié)果,相比于其他方法,抗干擾能力更強(qiáng)而且與標(biāo)簽圖像更接近。這說明該方法特征表達(dá)能力強(qiáng)大,能夠感知并提取多尺度特征和邊緣信息,進(jìn)而提升預(yù)測精度。以上的定量和定性評價(jià)結(jié)果均證明了本文所提方法的有效性。
圖7 東北大學(xué)熱軋帶鋼表面缺陷數(shù)據(jù)集各模型實(shí)驗(yàn)結(jié)果可視化Fig.7 Visualization of experimental results of models using the NEU-Seg defect dataset
本文提出一種基于邊界感知和小樣本學(xué)習(xí)的多尺度帶鋼表面缺陷自動(dòng)提取方法。該方法以一種改進(jìn)的一次性聚合模塊和特征金字塔注意力模塊搭建編碼器,不僅可以高效重復(fù)利用特征還能從帶鋼表面圖像中準(zhǔn)確地提取多尺度特征。因而,這種方法具有強(qiáng)大的特征表達(dá)和模型泛化能力,基于小規(guī)模樣本集也能實(shí)現(xiàn)。此外,該方法采用由粗到細(xì)的結(jié)構(gòu)和全局注意力上采樣模塊提升模型的邊緣感知能力,進(jìn)一步提升了預(yù)測精度。東北大學(xué)鋼表面語義分割數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)驗(yàn)證了該方法對夾雜、斑點(diǎn)和劃傷等帶鋼表面缺陷自動(dòng)提取的可行性和有效性。下一步將研究基于元深度學(xué)習(xí)的帶鋼表面圖像語義分割方法,進(jìn)一步降低模型訓(xùn)練所需的樣本數(shù)量。