基于改進(jìn)Deeplabv3+的瓷磚表面缺陷檢測(cè)

2024-01-13 06:49:08婁樹理

煙臺(tái)大學(xué)學(xué)報(bào)(自然科學(xué)與工程版) 2024年1期

汪穎,婁樹理

(煙臺(tái)大學(xué)物理與電子信息學(xué)院,山東煙臺(tái) 264005)

瓷磚作為建筑中一種重要的材料,其質(zhì)量檢測(cè)一直是人們關(guān)注的重點(diǎn)。目前在瓷磚生產(chǎn)的檢測(cè)方面仍依賴于人工,人工檢測(cè)不僅耗時(shí)長(zhǎng)、效率低,而且容易受個(gè)人主觀因素的影響,因此利用機(jī)器視覺技術(shù)對(duì)瓷磚表面缺陷進(jìn)行快速高效的檢測(cè),對(duì)于推動(dòng)瓷磚生產(chǎn)的自動(dòng)化具有重要的意義。

在機(jī)器視覺領(lǐng)域,有關(guān)瓷磚表面缺陷檢測(cè)一直是研究熱點(diǎn)。在傳統(tǒng)研究檢測(cè)方法中,SAMARAWICKRAMA等[1]提出了基于圖像處理技術(shù)的瓷磚行業(yè)自動(dòng)檢測(cè)系統(tǒng),該系統(tǒng)可以高精度和高效率地檢測(cè)瓷磚表面的顏色變化和缺陷;SHIRE等[2]提出了一種自動(dòng)缺陷檢測(cè)和分類技術(shù),能夠在很短的時(shí)間內(nèi)檢測(cè)瓷磚缺陷;李慶利等[3]提出了一種基于灰色關(guān)聯(lián)分析的瓷磚特征提取算法,并完成了瓷磚表面缺陷檢測(cè)軟件設(shè)計(jì);段春梅等[4]提出了基于機(jī)器視覺的瓷磚表面缺陷無損檢測(cè)算法,對(duì)瓷磚素坯圖像預(yù)處理、圖像分割后,利用圓形度特征描述實(shí)現(xiàn)缺陷判別;吳冰等[5]提出了一種基于BP神經(jīng)網(wǎng)絡(luò)與區(qū)域生長(zhǎng)法相結(jié)合的瓷磚表面缺陷圖像分割技術(shù);劉利等[6]提出了一種對(duì)彩色帶花紋的瓷磚色差檢測(cè)算法,對(duì)采集到的瓷磚圖像依次進(jìn)行色彩空間轉(zhuǎn)換、中值濾波、二值化和灰度直方圖分割。以上傳統(tǒng)檢測(cè)方法一定程度上緩解了人工檢測(cè)的壓力,但特征提取主要依賴人工設(shè)計(jì)的提取器,存在計(jì)算冗余量大、復(fù)雜度高的缺陷,且難以適應(yīng)復(fù)雜場(chǎng)景,算法魯棒性差。

近年來,隨著深度學(xué)習(xí)模型的不斷探究,語義分割以其優(yōu)秀的缺陷檢測(cè)能力為缺陷檢測(cè)帶來新的研究方向,常見的分割網(wǎng)絡(luò)有U-Net[7]、PSPNet[8]、Deeplab[9-12]系列。文獻(xiàn)[13]針對(duì)傳統(tǒng)芯片缺陷檢測(cè)方法難以實(shí)現(xiàn)缺陷特征精確提取且泛化性較差的問題,提出了改進(jìn)U-Net芯片焊縫氣泡缺陷的檢測(cè)方法(DSSMob-U-Net)。U-Net網(wǎng)絡(luò)方法提高了圖像檢測(cè)精度,但該網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜,對(duì)物體邊界的檢測(cè)效果不理想。文獻(xiàn)[14]針對(duì)移動(dòng)端平臺(tái)難以應(yīng)用計(jì)算復(fù)雜度高的語義分割網(wǎng)絡(luò)對(duì)隧道襯砌裂縫實(shí)時(shí)檢測(cè)的問題,提出一種基于改進(jìn)PSPNet的實(shí)時(shí)分割網(wǎng)絡(luò)模型Mobile-PSPNet,以減少模型對(duì)計(jì)算資源的需求。PSPNet網(wǎng)絡(luò)通過直接使用不同的池化操作來控制感受野,一定程度上提高了檢測(cè)速度,但是采用方形核卷積進(jìn)行池化操作,并不能充分利用場(chǎng)景,精度受到影響。

Deeplabv3+算法通過多尺度特征里不同參數(shù)的設(shè)置,使卷積層和池化層提取不同的特征,這些特征的融合提升了網(wǎng)絡(luò)的性能,但Deeplabv3+網(wǎng)絡(luò)依然存在網(wǎng)絡(luò)參數(shù)量大,以及邊緣細(xì)節(jié)特征被忽略的問題,這會(huì)導(dǎo)致算法運(yùn)行速度變慢以及整體精度下降。針對(duì)Deeplabv3+網(wǎng)絡(luò)普遍存在的網(wǎng)絡(luò)參數(shù)量大、邊緣細(xì)節(jié)分割不準(zhǔn)確等問題,本研究在DeepLabv3+的基礎(chǔ)上進(jìn)行改進(jìn),首先采用輕量級(jí)的主干網(wǎng)絡(luò)MobileNetv2[15]替代DeepLabv3+的主干網(wǎng)絡(luò)Xception,MobileNetv2網(wǎng)絡(luò)減少了計(jì)算成本和參數(shù)量,提高了檢測(cè)速度。同時(shí)在空間金字塔提取多尺度信息之后加入CBAM注意力機(jī)制,增強(qiáng)網(wǎng)絡(luò)對(duì)邊緣位置和小尺度缺陷特征的感知能力,解決邊緣缺陷和小尺度缺陷導(dǎo)致的漏檢、錯(cuò)檢等問題,細(xì)化了分割結(jié)果。

1 Deeplabv3+ 模型概述

Deeplabv3+模型[13]如圖1,采用編碼器-解碼器結(jié)構(gòu)實(shí)現(xiàn)對(duì)缺陷的分割。編碼器模塊首先通過Xception神經(jīng)網(wǎng)絡(luò)對(duì)輸入的缺陷圖像提取圖像特征,提取到的特征輸入到空間金字塔池化模塊(Atrous Spatial Pyramid Pooling,ASPP),獲取多個(gè)尺度的高層語義信息之后,將各特征信息進(jìn)行通道維拼接并通過1×1卷積降低通道數(shù),然后將高層次特征圖輸入到解碼器進(jìn)行處理。

圖1 改進(jìn)前的Deeplabv3+網(wǎng)絡(luò)結(jié)構(gòu)

解碼器模塊將經(jīng)過4倍上采樣處理的多尺度高級(jí)特征與主干網(wǎng)絡(luò)Xception提取出的低級(jí)特征進(jìn)行融合,再利用3×3卷積和4倍上采樣,恢復(fù)圖像原尺寸,完成瓷磚表面缺陷目標(biāo)的分割。相比于僅有編碼器結(jié)構(gòu),編碼器-解碼器結(jié)構(gòu)能很好地融合圖像的低層次信息和高層次信息,有效避免上采樣操作帶來的目標(biāo)像素丟失問題。

2 Deeplabv3+ 模型改進(jìn)

利用Deeplabv3+網(wǎng)絡(luò)雖然能較好地檢測(cè)缺陷區(qū)域,但由于實(shí)際生產(chǎn)的瓷磚邊緣區(qū)域和微小缺陷相較于中間區(qū)域更容易被遺漏,導(dǎo)致分割精度下降。為提高網(wǎng)絡(luò)分割精度,對(duì)Deeplabv3+網(wǎng)絡(luò)進(jìn)行改進(jìn),改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2。首先將主干網(wǎng)絡(luò)中的Xception替換為MobileNetv2,利用輕量化MobileNetv2模型能有效減少模型復(fù)雜度和計(jì)算量。Deeplabv3+模型能夠通過ASPP獲得多尺度信息,但是僅通過各維度進(jìn)行簡(jiǎn)單拼接,無法獲取豐富的上下文信息,對(duì)于瓷磚邊緣缺陷、小目標(biāo)缺陷信息提取不足,因此利用注意力機(jī)制CBAM來增強(qiáng)網(wǎng)絡(luò)對(duì)邊緣缺陷位置的感知能力,提高整體的分割精度。

圖2 改進(jìn)后的Deeplabv3+網(wǎng)絡(luò)結(jié)構(gòu)

改進(jìn)后的Deeplabv3+網(wǎng)絡(luò)中,輸入圖像首先進(jìn)入編碼器中的MobileNetv2提取特征,由于該網(wǎng)絡(luò)體積小、參數(shù)量少,可以更快速、精準(zhǔn)地從大量瓷磚表面缺陷圖像信息中提取缺陷部位。經(jīng)提取的特征進(jìn)入ASPP,該結(jié)構(gòu)對(duì)輸出的多尺度空間信息進(jìn)行特征拼接。為減少拼接后的無關(guān)特征對(duì)識(shí)別精度的影響,先通過CBAM注意力機(jī)制提高卷積神經(jīng)網(wǎng)絡(luò)的注意力,再使用1×1大小的卷積增加編碼結(jié)構(gòu)的非線性。1×1卷積后的多尺度高級(jí)特征經(jīng)4倍上采樣處理后與Mobilenetv2網(wǎng)絡(luò)提取的低級(jí)特征進(jìn)行拼接,拼接后再利用3×3卷積和4倍上采樣,恢復(fù)圖像原圖的分辨率。

2.1 基于MobileNetv2的主干模型改進(jìn)

改進(jìn)前的Deeplabv3+主干網(wǎng)絡(luò)采用的是Xception,雖然對(duì)多種類的圖像提取特征有較好的分割精度,但其網(wǎng)絡(luò)復(fù)雜度高,對(duì)于復(fù)雜多樣、信息量大的瓷磚表面缺陷圖像,隨著模型訓(xùn)練的進(jìn)行,網(wǎng)絡(luò)參數(shù)量會(huì)逐漸加大,速度大量降低,為提升特征提取的速度,本研究使用MobileNetv2代替Xception作為主干網(wǎng)絡(luò),MobileNetv2網(wǎng)絡(luò)中的倒殘差結(jié)構(gòu)和線性瓶頸層共同構(gòu)成線性倒殘差結(jié)構(gòu),如圖3所示,其中倒殘差結(jié)構(gòu)里采用逐點(diǎn)卷積和深度卷積,卷積時(shí)先通過1×1逐點(diǎn)卷積進(jìn)行升維,隨后進(jìn)行3×3的深度卷積對(duì)各個(gè)通道進(jìn)行一個(gè)單獨(dú)的卷積,最后再進(jìn)行1×1的逐點(diǎn)卷積降維。為避免降維后Relu函數(shù)損失瓷磚缺陷處的特征信息,在倒殘差結(jié)構(gòu)的最后一個(gè)1×1逐點(diǎn)卷積上,將線性瓶頸層替換之前的Relu激活函數(shù)進(jìn)行降維,極大地減少了低維特征信息的大量損失,增加了信息維度,對(duì)提高分割精確度具有重要意義。

圖3 MobileNetv2網(wǎng)絡(luò)中的倒殘差結(jié)構(gòu)

2.2 引入注意力機(jī)制模塊CBAM

Deeplabv3+模型能夠通過ASPP獲得多尺度信息,但是僅通過對(duì)各維度進(jìn)行簡(jiǎn)單拼接,無法獲取豐富的上下文信息,對(duì)于瓷磚表面缺陷這種小目標(biāo)提取是不足的,因此在編碼器結(jié)構(gòu)中加入CBAM注意力機(jī)制以提高上下文的聯(lián)系能力,增強(qiáng)信息提取。

CBAM注意力機(jī)制(圖4)是由通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)兩個(gè)獨(dú)立的部分組成的。該模塊會(huì)對(duì)輸入進(jìn)來的缺陷瓷磚的特征層分別進(jìn)行CAM和SAM的點(diǎn)乘處理,以提高檢測(cè)精度,最后再輸出特征圖,公式可以表示為

圖4 CBAM注意力機(jī)制

F′=MC(F).*F,

(1)

F″=MS(F).*F′,

(2)

式中:MC(F)為通道注意力機(jī)制;F為輸入特征圖;F′ 為與通道注意力點(diǎn)乘后產(chǎn)生的特征圖;MS(F)為空間注意力機(jī)制;F″為與空間注意力機(jī)制點(diǎn)乘后產(chǎn)生的特征圖。

缺陷特征圖在CAM模塊中分別經(jīng)過一個(gè)最大池化和平均池化之后,分別進(jìn)入多層感知器進(jìn)行處理,最后用函數(shù)sigmoid進(jìn)行激活生成通道注意力特征,CAM模塊可以表示為

MC(F)=σ{MLP[AvgPool(F)]+

MLP[MaxPool(F)]},

(3)

式中:σ為Sigmoid激活函數(shù);MLP為多層感知器;AvgPool、MaxPool分別表示平均池化和最大值池化。

SAM模塊主要反映輸入值在空間維度上的重要程度,其輸入的特征值由CAM模塊輸出得到,再分別進(jìn)行最大池化和平均池化,分別處理好之后將輸出的特征值進(jìn)行拼接,并利用7×7的卷積產(chǎn)生一個(gè)二維的特征圖。SAM模塊可以表示為

MC(F′)=σ{f[AvgPool(F′);

Max[MaxPool(F′)]]},

(4)

式中:MC(F′)為空間注意力模塊;f為卷積層運(yùn)算。

3 實(shí)驗(yàn)過程與結(jié)果分析

3.1 實(shí)驗(yàn)條件

采用的軟件編程語言為Python 3.7,操作系統(tǒng)為Ubuntu18.04,GPU資源類型為TeslaT4,大小為 16 GB顯存。模型基于Pytorch深度學(xué)習(xí)框架,主干網(wǎng)絡(luò)為MobileNetv2,迭代次數(shù)為60次。

數(shù)據(jù)來自公開的數(shù)據(jù)集(Mvtec)[16],該圖像集是Mvtec公司提出的無監(jiān)督的異常檢測(cè)數(shù)據(jù)集,為圖像集缺陷部分提供了精確的像素級(jí)標(biāo)注。圖像集里缺陷的類別為crack、glue-strip、gray-stroke、oil、rough五類,本實(shí)驗(yàn)將該數(shù)據(jù)集分為裂痕瓷磚表面缺陷和磨損瓷磚表面缺陷兩類進(jìn)行訓(xùn)練。在訓(xùn)練之前先用軟件labelme將數(shù)據(jù)集中瓷磚的缺陷部分進(jìn)行框選標(biāo)注,生成所需的json格式的文件。

3.2 數(shù)據(jù)集增強(qiáng)

選取Mvtec圖像集里含瓷磚表面缺陷的圖片進(jìn)行訓(xùn)練。為了提高圖像的質(zhì)量和可辨識(shí)度,使圖像更有利于觀察或者進(jìn)一步分析,使用亮度增強(qiáng)的預(yù)處理方法對(duì)圖像進(jìn)行數(shù)據(jù)增強(qiáng)操作[17],如圖5,圖像增強(qiáng)后的輪廓及邊緣信息等比增強(qiáng)前更加清晰。

圖5 亮度增強(qiáng)前后圖像

使用Mvtec瓷磚數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)時(shí)需要大量的數(shù)據(jù),而直接使用Mvtec數(shù)據(jù)集里的圖像訓(xùn)練,容易出現(xiàn)模型過擬合的問題,因此,通過鏡像、旋轉(zhuǎn)等圖像幾何變換對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。擴(kuò)充后的瓷磚數(shù)據(jù)集數(shù)量達(dá)到700張,并按照9∶1的比例分成訓(xùn)練集和測(cè)試集,數(shù)據(jù)集如圖6。

圖6 擴(kuò)充后的圖像

擴(kuò)充后的瓷磚表面缺陷數(shù)據(jù)集使網(wǎng)絡(luò)模型的泛化能力得到提高,降低了網(wǎng)絡(luò)模型對(duì)相關(guān)屬性的敏感程度,加速了收斂的過程,避免模型過擬合等問題。

3.3 評(píng)價(jià)指標(biāo)

為了驗(yàn)證模型的性能,需選取合適的性能評(píng)價(jià)指標(biāo),本研究選取語義分割常用的4個(gè)指標(biāo)對(duì)分割的效果進(jìn)行綜合評(píng)價(jià),分別為:平均交并比(Mean Interisection over Union,MIou)、平均像素準(zhǔn)確率(Mean Pixcal Accuracy,MPA)、幀數(shù)(FPS)、正確率(Accuracy)。其中,MIou、MPA、Accuracy評(píng)價(jià)指標(biāo)計(jì)算公式分別為

(5)

(6)

(7)

式中:假設(shè)一共有k個(gè)類別(不包含背景在內(nèi)),本實(shí)驗(yàn)將圖像分為兩類,因此k=2;Pii表示真實(shí)值為i,預(yù)測(cè)值為i的像素?cái)?shù)量;Pij表示真實(shí)值為i,預(yù)測(cè)值為j的像素?cái)?shù)量;Pji表示真實(shí)值為j,預(yù)測(cè)值為i的像素?cái)?shù)量;TP表示被正確地劃分為正例P的個(gè)數(shù);TN表示被正確地劃分為負(fù)例N的個(gè)數(shù),P表示正例的個(gè)數(shù),即真實(shí)值與預(yù)測(cè)值一樣的個(gè)數(shù);N表示負(fù)例的個(gè)數(shù),即真實(shí)值與預(yù)測(cè)值不一樣的個(gè)數(shù);MIou表示瓷磚數(shù)據(jù)集真實(shí)值與預(yù)測(cè)值這兩個(gè)集合的交集和并集之比;MPA表示每個(gè)瓷磚缺陷類內(nèi)被正確分類像素?cái)?shù)的比例。FPS是模型每秒能處理圖片的數(shù)量,其值越高,代表模型的速度越快;Accuracy表示被分對(duì)的樣本數(shù)除以所有的樣本數(shù)的概率,其值越高,代表分類器越好。

3.4 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證改進(jìn)模型的效果,分別與Unet、PSPNet、改進(jìn)前Deeplabv3+三個(gè)網(wǎng)絡(luò)進(jìn)行了對(duì)比,在保證訓(xùn)練次數(shù)與訓(xùn)練數(shù)據(jù)集都相同的情況下,對(duì)比結(jié)果如表1所示。

表1 與其他分割網(wǎng)絡(luò)對(duì)比

對(duì)比可知,改進(jìn)后的Deeplabv3+算法效果提升明顯。與Unet算法、PSPNet算法、改進(jìn)前的Deeplabv3+相比,MIou分別提升1.34%、12.38%、4.03%,MPA分別提升4.37%、6.36%、5.06%,FPS分別提升26.66、39.76、5.45,Accuracy分別提升1.45%、8.01%、1.09%,說明改進(jìn)后的算法在分割精度和檢測(cè)速度上有了明顯提升。Deeplabv3+模型改進(jìn)前后的分割效果對(duì)比如圖7所示。

圖7 改進(jìn)前后的分割效果對(duì)比

本模型結(jié)構(gòu)主要有兩個(gè)部分改進(jìn),分別是MobileNetv2和注意力機(jī)制,為了驗(yàn)證改進(jìn)的有效性,對(duì)兩種改進(jìn)進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表2。由表2可知,原始的以Xception為主干網(wǎng)絡(luò)的Deeplabv3+模型在瓷磚數(shù)據(jù)集上進(jìn)行檢測(cè),MIou值較低。將主干網(wǎng)絡(luò)Xception替換為MobileNetv2后,MIou提高2.86%,MPA提高6.97%,FPS提高5.59,Accuarcy提高2.67%,說明MobileNetv2網(wǎng)絡(luò)提取細(xì)節(jié)信息能力更強(qiáng),檢測(cè)速度更快。在此基礎(chǔ)上,繼續(xù)增加注意力機(jī)制模塊CBAM,MIou提高3.47%,MPA提高0.79%,FPS下降0.14,Accuracy提高1.89%,說明添加注意力機(jī)制后,檢測(cè)速度有輕微下降,但是可以抑制部分干擾信息的影響,提升了檢測(cè)缺陷的能力。

表2 不同模塊的性能效果

4 結(jié) 論

針對(duì)瓷磚表面缺陷檢測(cè)速度慢、精度低的問題,基于Deeplabv3+模型,用輕量級(jí)網(wǎng)絡(luò)MobileNetv2替代Xception作為主干網(wǎng)絡(luò),降低了模型復(fù)雜度,減少計(jì)算量,提升了檢測(cè)速度;其次引入注意力機(jī)制CBAM,提高算法對(duì)邊緣缺陷和小尺度缺陷的注意力,更加關(guān)注重點(diǎn)信息,提升了分割精度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的Deeplabv3+算法MIou提升6.33%,MPA提升7.76%,FPS提升5.45,Accuracy提高4.56%,對(duì)瓷磚缺陷具有較好的分割性能。