多注意力機(jī)制金字塔池化金手指劃痕分割方法

2023-01-13 11:58:26吳良武周永霞王宇航朱鈺萍

計算機(jī)工程與應(yīng)用 2023年1期

吳良武，周永霞，王宇航，朱鈺萍

1.中國計量大學(xué) 信息工程學(xué)院，杭州 310018

2.杭州市藍(lán)弧視覺科技有限公司，杭州 310018

柔性電路板（flexible printed circuit，F(xiàn)PC）是一種廣泛應(yīng)用于生活生產(chǎn)中的電子器件，在電子設(shè)備、手機(jī)、電腦和醫(yī)療設(shè)備等領(lǐng)域都得到大量使用。金手指是FPC上用于導(dǎo)電進(jìn)行信號傳輸?shù)慕瘘S色導(dǎo)電觸片。金手指在生產(chǎn)、搬運過程中容易對表面的鍍金造成一定的損傷，造成不同的缺陷，其中劃痕是金手指中最常見的缺陷之一。金手指表面的劃痕會降低FPC的導(dǎo)電性能減弱信號的傳輸效果，影響設(shè)備的正常使用，所以必須將存在缺陷的元件檢測出來，對其進(jìn)行返工或報廢處理。

傳統(tǒng)的金手指劃痕缺陷檢測是人工實現(xiàn)的，通過肉眼鑒別生產(chǎn)出的FPC有無缺陷。人工識別是非常費時費力的，而且長時間地使用肉眼容易造成視覺疲勞，可能會造成對缺陷的誤檢和漏檢。由于缺陷區(qū)域較小以及背景的干擾，使用傳統(tǒng)的圖像處理方法和基于深度學(xué)習(xí)的分類模型檢測后，都存在大量漏檢和誤檢的情況，無法達(dá)到工廠的生產(chǎn)要求。

2015年，美國伯克利大學(xué)的Long等[1]提出了全卷積網(wǎng)絡(luò)（fully convolutionl network，F(xiàn)CN），該網(wǎng)絡(luò)將神經(jīng)網(wǎng)絡(luò)末端的全連接層替換成了卷積層，使其可以接受任意大小的圖片作為輸入。FCN是將卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用到圖像語義分割中的開山之作，隨后的語義分割模型基本都采用了這種結(jié)構(gòu)。FCN提出后不久，基于其改進(jìn)的語義分割網(wǎng)絡(luò)U-Net[2]誕生。與FCN相比，U-Net的網(wǎng)絡(luò)結(jié)構(gòu)是完全對稱的，encoder部分和decoder部分是非常相似的；而FCN的decoder部分較為簡單，只使用了反卷積操作。劉孝保等[3]首先使用Focal-Loss優(yōu)化后的U-Net網(wǎng)絡(luò)對缺陷進(jìn)行分割和定位；然后結(jié)合卷積神經(jīng)網(wǎng)絡(luò)（CNN）和反向傳播神經(jīng)網(wǎng)絡(luò)（BPNN）構(gòu)建主從特征與分類層；最后通過級聯(lián)特定模糊規(guī)則的模糊神經(jīng)網(wǎng)絡(luò)對鋁型材表面缺陷進(jìn)行分割，取得了較好的分割效果；任秉銀等[4]針對U-Net對微小缺陷分割效果不佳的情況，在分類網(wǎng)絡(luò)中加入分割網(wǎng)絡(luò)并且加入注意力機(jī)制對U-Net網(wǎng)絡(luò)進(jìn)行改進(jìn)，很好地完成對手機(jī)屏幕輕微劃痕的準(zhǔn)確檢測。

語義分割是對圖像中的每一像素進(jìn)行細(xì)粒度的分類，檢測效果會更加精準(zhǔn)，因此本文選擇該方法對金手指表面的劃痕進(jìn)行檢測。由于劃痕的形狀大小不一，目前主流分割模型[1-2，5-6]對劃痕的分割效果不夠理想；而金字塔結(jié)構(gòu)能夠獲取多尺度特征信息，于是本文基于PSP-Net[6]模型結(jié)構(gòu)，提出了多注意力機(jī)制金字塔池化方法對金手指表面的劃痕進(jìn)行分割。主干網(wǎng)絡(luò)采用ResNet50[7]來提取特征圖，然后將獲得的特征圖輸入到多注意力機(jī)制金字塔池化模塊（multi-attention mechanism Pyramid pooling module，MAMPPM）進(jìn)行特征增強，接著與原始特征圖拼接后通過一個卷積層得到最終分割結(jié)果。實驗結(jié)果表明，本文提出的方法能夠很好地分割出金手指表面的劃痕，并且劃痕邊緣區(qū)域的分割效果相比于其他模型更加光滑和細(xì)膩，在MIOU和MPA指標(biāo)上也有較大的提升，優(yōu)于常用的分割模型；并且目前已在工廠實際生產(chǎn)中進(jìn)行測試，每1 000份產(chǎn)品中的漏檢率大約為5%，基本符合工廠的生產(chǎn)需求。

1 金手指表面劃痕分割方法

金手指表面的劃痕形狀和深淺各不相同，通過高分辨率工業(yè)相機(jī)在環(huán)形光源的照射下獲取的圖片能夠突出劃痕的形狀和深淺，如圖1所示。金手指表面并不是光滑的經(jīng)過光源的反射后，拍攝得到的圖片中背景區(qū)域和劃痕區(qū)域有一定的相似性。因此分割模型需要將劃痕區(qū)域的特征進(jìn)行增強，以便更好地將背景和劃痕區(qū)分出來。

圖1 金手指劃痕圖Fig.1 Golden finger scratched diagram

針對圖片存在背景干擾的問題，本文首先采用去除全連接層的ResNet50模型獲取圖像的特征圖，并使用擴(kuò)張卷積[8]策略來增大感受野以獲取更多的特征信息；然后在PSP-Net的金字塔池化模塊（pyramid pooling module，PPM）中的每一層引入了CBAM[9]和ECA[10]兩種注意力機(jī)制，在注意力機(jī)制的輸出端串聯(lián)邊界細(xì)化（boundary refinement，BR）模塊[11]實現(xiàn)對劃痕邊緣區(qū)域的精細(xì)化，使邊緣的分割效果更加準(zhǔn)確；采用級聯(lián)的方式將金字塔不同層建立聯(lián)系進(jìn)行特征增強，最后將不同層的輸出與最初獲取的特征圖拼接后通過卷積層得到最終的預(yù)測分割圖，模型完整結(jié)構(gòu)如圖2所示。

圖2 完整模型結(jié)構(gòu)圖Fig.2 Complete model structure diagram

1.1 特征提取

考慮到劃痕區(qū)域會受到背景的干擾，需要一個深度網(wǎng)絡(luò)提取更多的特征信息，本文采用ResNet50模型獲取輸入圖片的特征圖，輸入圖片的大小為112×112，bath-size為32。

ResNet50總共有50層，模型的最后一層是用于分類的全連接層，語義分割中并不需要該層，因此實際上使用了前49層提取特征。ResNet50的第一部分是一個單獨的卷積層，受VGG-Net[12]模型的啟發(fā)，為了減少網(wǎng)絡(luò)的參數(shù)量，本文采用3層3×3的卷積層堆疊在一起替代原模型中第一層7×7的卷積層。卷積層后是一個3×3的最大池化層，為了保留更多的特征信息，池化層中stride和padding都設(shè)為1。模型的第二部分由4個layer共16個bottleneck堆疊構(gòu)成，bottleneck的結(jié)構(gòu)如圖3所示。輸入的特征圖首先使用1×1大小的卷積核進(jìn)行降維，經(jīng)過3×3大小的卷積處理后再通過1×1大小的卷積核對通道數(shù)進(jìn)行還原以保證輸出的通道數(shù)與輸入的通道數(shù)一致，降維再還原的過程有效減少了模型的計算量；每個卷積層后都串聯(lián)了批量歸一化層（batch normalization，BN）和ReLU激活函數(shù)，BN層能夠?qū)斎霐?shù)據(jù)進(jìn)行歸一化處理，防止網(wǎng)絡(luò)在反向傳播中出現(xiàn)梯度爆炸或梯度消失，使得訓(xùn)練過程更加穩(wěn)定；ReLU激活函數(shù)增加了網(wǎng)絡(luò)的非線性因素同時可以防止梯度消失。

圖3 Bottleneck結(jié)構(gòu)圖Fig.3 Bottleneck structure

使用降采樣方法增加感受野和降低計算量，但是這會降低空間分辨，本文ResNet50的layer3和layer4中采用擴(kuò)張卷積策略在不降低空間分辨率的情況下增大感受野，使得卷積輸出包含較大范圍內(nèi)的信息并且具有較高的空間分辨率以便對目標(biāo)的定位更加精準(zhǔn)。經(jīng)過layer4之后得到32×3×8×8的4維特征張量。

1.2 多注意力機(jī)制金字塔池化

PSP-Net的金字塔池化模塊（PPM）將提取的特征圖按不同層分別分成1×1、2×2、3×3、6×6共4種包含不同大小的子區(qū)域的特征圖，如圖4顯示，接著使用1×1的卷積將不同尺寸的特征圖通道數(shù)降為原來的1/4，之后全部上采樣使其與輸入特征圖的大小相同并與輸入特征圖進(jìn)行拼接，最終將全局和局部特征信息融合到一起。

圖4 金字塔池化模塊Fig.4 Pyramid pooling module

但是4種帶有不同局部信息的特征圖在上采樣過程中會丟失部分信息，并且原模型只是將不同尺寸的特征圖簡單拼接，沒有進(jìn)一步利用不同層的特征信息。針對上述的不足，本文將金字塔不同層建立聯(lián)系對劃痕區(qū)域進(jìn)行特征增強。具體做法如下：首先將金字塔的第一層通過雙線性插值增大到與第二層特征圖相同的尺寸；接著與第二層的特征圖進(jìn)行逐元素求點積，求點積后的結(jié)果輸入到CBAM注意力機(jī)制中；輸出結(jié)果與第二層的特征圖逐元素求和，然后將求和結(jié)果與CBAM模塊和BR模塊串聯(lián)，構(gòu)成了多注意力機(jī)制特征增強模塊（multi-attention mechanism feature enhancement module，

MAMFEM），如圖5。圖中1×1的卷積操作是為了相乘和相加過程中通道數(shù)能夠保持一致。

圖5 多注意力機(jī)制特征增強模塊Fig.5 Multi-attention mechanism feature enhancement module

本文數(shù)據(jù)集中代表背景的像素值為0，代表劃痕的像素值為1，數(shù)據(jù)集圖片中背景區(qū)域占據(jù)了圖片的絕大部分；又因為第一層的特征圖是經(jīng)過全局平均池化后得到的，所以該特征圖中元素的值趨近于0。經(jīng)過雙線性插值上采樣后與第二層逐元素求點積使得第二層中的元素的值都減小了，這相當(dāng)于弱化了劃痕的特征信息，不利于對劃痕的分割。于是將點積的結(jié)果通過CBAM獲取重要特征后再與第二層進(jìn)行逐元素求和，得到的新的特征圖中背景區(qū)域是兩個非常小的數(shù)求和之后的結(jié)果，依然是一個很小的數(shù)，而劃痕區(qū)域是一個較大的數(shù)與一個相對較小的數(shù)求和后的結(jié)果，結(jié)果依然是一個較大的數(shù)，并且比原來的值更大，所以通過逐元素求點積再逐元素求和的操作，使得第二層背景區(qū)域的特征信息基本不受影響的情況下，增強了劃痕區(qū)域的特征信息，具體運算流程如圖6。圖中是金字塔第一層與第二層進(jìn)行特征增強的示例，金字塔第一層和第二層子區(qū)域較大因此包含更多的背景信息，所以數(shù)值較小，而金字塔的第三、第四層的子區(qū)域相對較小，包含相對較多的劃痕信息，因此數(shù)值會較大，特征增強效果也會更明顯。

圖6 逐元素相乘再相加運算流程Fig.6 Element-wise multiplication and addition operation process

在加入MAMFEM后將輸出與第二層的原始特征圖拼接，并與ECA模塊和BR模塊串聯(lián)得到新的第二層輸出。

第一層與第二層融合后的輸出按照與第一層相同的方法進(jìn)行雙線性插值得到與金字塔第三層相同尺寸的特征圖，輸出結(jié)果再與第三層進(jìn)行逐元素求點積以及逐元素求和的操作，最后與第三層原始特征圖拼接得到新的第三層輸出；然后繼續(xù)按照相同的方法將新的第三層輸出結(jié)果與第四層進(jìn)行融合得到新的第四層輸出；最后將金字塔所有層全部上采樣，并與帶有全局特征信息的特征圖進(jìn)行拼接。整個模塊通過級聯(lián)的方式將金字塔不同層建立聯(lián)系并進(jìn)行特征融合，逐層增強劃痕區(qū)域的特征信息，同時采用不同的注意力機(jī)制獲取重要的特征信息，顧本文將其稱為多注意力機(jī)制金字塔池化模塊，結(jié)構(gòu)如圖7所示。

圖7 多注意力機(jī)制金字塔池化模塊Fig.7 Multi-attention mechanism pyramid pooling module

CBAM是一種結(jié)合了通道注意力和空間注意力的注意力機(jī)制，能夠獲取每個特征通道和特征空間的重要程度，利用獲得的重要程度來抑制當(dāng)前任務(wù)中不重要的特征，結(jié)構(gòu)如圖8所示；通過實驗發(fā)現(xiàn)使用CBAM能夠?qū)⒉恢匾奶卣餍畔⒔档投鄠€數(shù)量級，而本文數(shù)據(jù)集圖片中背景的占比很大，通過CBAM能夠很好地抑制背景對分割的影響。ECA模塊是一種超輕量通道注意力機(jī)制，ECA-Net作者通過剖析SE-Net[13]中的通道注意力模塊后，證明避免降維和適當(dāng)?shù)目缤ǖ澜换νǖ雷⒁饬Φ闹匾裕挥谑墙o定輸入后在不降低維度的情況下進(jìn)行逐通道平均池化，通過考慮每個通道和它k個近鄰來捕獲局部跨通道交互；本文提出的多注意力機(jī)制金字塔模塊中存在通道拼接的過程，于是便考慮使用ECA模塊來捕獲重要通道提升分割效果。BR模塊能夠進(jìn)一步提高對邊緣區(qū)域分割的準(zhǔn)確性，其結(jié)構(gòu)類似于殘差塊的結(jié)構(gòu)，如圖9所示。

圖9 邊界細(xì)化模塊Fig.9 Boundary refinement module

1.3 損失函數(shù)

交叉熵可以判定實際的輸出和期望的輸出的接近程度，交叉熵?fù)p失函數(shù)在語義分割中使用廣泛，公式1是一個二分類的交叉熵?fù)p失函數(shù)的表達(dá)式，其中P表示預(yù)測值，y表示真實值。當(dāng)y=1時，L=－lb P，因為對數(shù)函數(shù)是單調(diào)遞增函數(shù)，所以L是P的單調(diào)遞減函數(shù)，即預(yù)測值P越大（接近1）靠近真實值，那么損失函數(shù)L的值就越小；P越?。ń?）遠(yuǎn)離真實值，L的值越大。同理，當(dāng)y=0時，L=－lb(1-P)，此時L是P的單調(diào)遞增函數(shù)，即預(yù)測值P越大（接近1）遠(yuǎn)離真實值，損失函數(shù)的值越大；當(dāng)P越小時（接近0）靠近真實值，L的值越大。但是交叉熵?fù)p失函數(shù)對于正負(fù)樣本會公平處理，當(dāng)正樣本占比比較小時，會被更多的負(fù)樣本淹沒，因此當(dāng)正負(fù)樣本不均衡時很難挖掘出正樣本。

Dice系數(shù)是一種用來度量集合相似度的函數(shù)，如公式（2）所示，用于計算兩個樣本的相似程度。公式（2）中|X?Y|表示X和Y的交集，|X|和|Y|分別表示X、Y的元素個數(shù)，分子中的系數(shù)2是因為分母中存在重復(fù)計算X和Y的共同元素，S的取值范圍為[0，1]；在語義分割任務(wù)中X表示ground truth，Y表示predictions。Dice系數(shù)的另外一種形式如公式（3）所示，在計算Dice Loss[14]時通常使用公式（4）這種形式，其中TP表示將正類正確預(yù)測為正類的個數(shù)；FP表示將負(fù)類錯誤預(yù)測為正類的個數(shù)；FN表示將正類錯誤預(yù)測為負(fù)類的個數(shù)；smooth是一個極小的數(shù)，可以防止分母預(yù)測為0，并起到平滑loss的作用。Dice Loss在訓(xùn)練過程中更傾向于挖掘正樣本（前景區(qū)域），解決正負(fù)樣本不均衡問題。

本文訓(xùn)練使用的圖像中，前景（劃痕區(qū)域）的占比較小，屬于樣本不均衡問題[15]，因此將Dice Loss作為本文模型訓(xùn)練時的損失函數(shù)之一。但是Dice Loss在正樣本為小目標(biāo)時存在震蕩的情況，會造成訓(xùn)練過程不穩(wěn)定，而交叉熵?fù)p失函數(shù)訓(xùn)練過程則較為穩(wěn)定，所以本文最后將兩種損失函數(shù)相結(jié)合作為本文模型的損失函數(shù)。PSP-Net中添加了輔助分支來優(yōu)化學(xué)習(xí)過程，本文保留了輔助分支，并在多次實驗后將輔助分支的權(quán)重設(shè)為0.8，最后結(jié)合Dice Loss和交叉熵?fù)p失函數(shù)得到本文最終的損失函數(shù)，見公式（5）：

公式（5）中的Aux_CE_Loss表示采用交叉熵?fù)p失函數(shù)形式的輔助Loss，Aux_Dice_Loss表示采用Dice Loss形式的輔助Loss。本文在選取損失函數(shù)時嘗試使用過Focal Loss、Lovasz Loss等適用于樣本不均衡的損失函數(shù)，但是在訓(xùn)練過程中出現(xiàn)了nan或是訓(xùn)練效果不佳的情況，不適用于本文的方法。

2 實驗分析

2.1 實驗數(shù)據(jù)集和實驗環(huán)境

本文使用的數(shù)據(jù)集是杭州藍(lán)弧視覺科技有限公司使用工業(yè)相機(jī)在搭建的機(jī)臺上拍攝得到的，并在原圖的基礎(chǔ)上裁剪出分辨率為112×112共1 000張包含劃痕的圖片，部分?jǐn)?shù)據(jù)集原始圖片見圖10。本文使用Labelme標(biāo)注工具制作分割標(biāo)簽圖，然后使用ImageEnhance進(jìn)行數(shù)據(jù)增強，生成包含6 000張彩圖和6 000張標(biāo)簽圖的數(shù)據(jù)集。本文的數(shù)據(jù)集采用VOC2007格式，分割的類別數(shù)為2，因為標(biāo)簽圖中背景的像素值為0，劃痕的像素值為1，所以生成的標(biāo)簽圖看上去是全黑的圖片，經(jīng)過OpenCV處理后，部分?jǐn)?shù)據(jù)集標(biāo)簽圖片見圖11，圖中紅色區(qū)域代表劃痕，黑色區(qū)域代表背景。數(shù)據(jù)集按9∶1的比例分成訓(xùn)練集和驗證集。

圖10 劃痕數(shù)據(jù)集原始圖Fig.10 Original image of scratch dataset

圖11 劃痕數(shù)據(jù)集標(biāo)簽圖Fig.11 Label image of scratch dataset

實驗使用的硬件環(huán)境為RTX 2080Ti顯卡、Inteli7-9800x處理器和32 GB內(nèi)存。軟件環(huán)境為Windows10操作系統(tǒng)、OpenCV3.4.1、Python3.7、tensorflow-gpu2.1和pytorch1.4.0開發(fā)環(huán)境。

2.2 實驗參數(shù)和評價指標(biāo)

本文使用的深度學(xué)習(xí)框架為pytorch，總共訓(xùn)練140個epoch，采用Adam優(yōu)化器，初始學(xué)習(xí)率為10-4，學(xué)習(xí)率調(diào)整策略為StepLR；StepLR中的步數(shù)設(shè)為1，沖量為0.9，即每訓(xùn)練完一個epoch后學(xué)習(xí)率變?yōu)樯弦粋€epoch的學(xué)習(xí)率乘以0.9。訓(xùn)練過程采用基于遷移學(xué)習(xí)[16]的策略：前40個epoch的batch-size為32，接著50個epoch的batch-size改為16，最后50個epoch的batch-size為8，在每次更改batch-size大小的同時，學(xué)習(xí)率也需恢復(fù)成初始學(xué)習(xí)率10-4。

本文選取平均交并比（MIOU）和平均像素準(zhǔn)確度（MPA）作為模型的評價指標(biāo)。交并比（IOU）是兩個集合（真實值與預(yù)測值）交集與并集的比例，MIOU是計算每一類的IOU然后求平均，能夠很好地反映分割的精度，計算公式見公式（6）：

式中k+1表示類別數(shù)（包括k個目標(biāo)類和1個背景類），i表示真實值，j表示預(yù)測值，pij表示將i預(yù)測為j；像素準(zhǔn)確度（PA）表示正確分類的像素點和所有像素點的比例，MPA是計算每一類正確分類的像素點數(shù)和該類的所有像素點數(shù)的比例然后求平均，計算公式見公式（7）：

式中k+1表示類別數(shù)（包括k個目標(biāo)類和1個背景類），pij表示把本屬于i類的卻預(yù)測為j類的像素點總數(shù)。

2.3 實驗對比與分析

2.3.1 訓(xùn)練策略對比

本文訓(xùn)練中采用了遷移學(xué)習(xí)的思想，凍結(jié)前40個epoch，batch-size為32訓(xùn)練得到的權(quán)重，將Batch-size減小為16后使用前40個epoch訓(xùn)練得到的權(quán)重繼續(xù)訓(xùn)練，對模型進(jìn)行微調(diào)（fine tune），經(jīng)過50個epoch訓(xùn)練后進(jìn)行相同的操作：凍結(jié)訓(xùn)練得到的權(quán)重，將batch-size減小為8后使用前面凍結(jié)的權(quán)重繼續(xù)訓(xùn)練50個epoch。采用遷移學(xué)習(xí)策略訓(xùn)練和采用不同batch-size大小訓(xùn)練的結(jié)果對比見表1。由表1可以看出，本文提出的模型采用遷移學(xué)習(xí)的訓(xùn)練方法后，在MIOU和MPA指標(biāo)上都有顯著的提高，驗證了本文訓(xùn)練策略的有效性。

表1 采用遷移學(xué)習(xí)策略訓(xùn)練結(jié)果對比Table1 Comparison of training results using transfer learning strategies 單位：%

2.3.2 消融實驗分析

為了驗證本文方法的有效性和改進(jìn)的必要性，通過設(shè)定不同的消融實驗來進(jìn)行驗證，實驗結(jié)果見表2。

表2 消融實驗對比Table 2 Comparison of ablation experiments單位：%

由表2可以看出PSP-Net中的PPM在加入MAMFEM之后，模型在MIOU以及MPA指標(biāo)上立馬有了顯著的提升，相比于原始的模型分別高出了5.96個百分點和10.94個百分點，這是MAMFEM將金字塔的不同層建立連接實現(xiàn)特征增強的效果，表明MAMFEM的使用對模型性能提升的有效性。MAMFEM后加入concat操作，與原金字塔池化得到的特征圖進(jìn)行拼接，使得原來金字塔層的特征信息得到保留，更加豐富的語義信息在模型性能上也帶來了一定的提升，可以看到在concat操作后，MIOU和MPA分別提升了1.44個百分點和1.08個百分點，指標(biāo)的提升表明了concat操作的有效性。通過表2中第四行和第五行的數(shù)據(jù)可以看出，單獨加入ECA模塊后模型的分割效果非但沒有得到改善反而變差了；這是因為ECA模塊是將k個鄰域的通道進(jìn)行交互來捕獲重要通道，concat操作將兩個不同的輸出首尾相連，但是連接處區(qū)域的通道幾乎沒有相關(guān)性，因此在連接處的跨通道交互會破壞原來的通道，如圖12紅色區(qū)域所示；雖然其他區(qū)域的通道沒有遭到破壞，但是隨著一層一層的級聯(lián)，金字塔底層被破壞的通道數(shù)和受影響的通道數(shù)會增加，導(dǎo)致分割效果變差；而通過增大k增大交互的范圍，使得連接處靠近左側(cè)的通道與左側(cè)通道相關(guān)性增強，靠近右側(cè)的通道與右側(cè)通道相關(guān)性增強，可以減輕對通道破壞，實驗結(jié)果表明本文方法在k取7時效果最好。

圖12 ECA模塊實現(xiàn)原理圖Fig.12 ECA module implementation schematic diagram

由表2第六行可知，concat后加入BR模塊提高了對邊緣區(qū)域的分割能力，分割效果有了一定的改善。表2第七行的數(shù)據(jù)表明將ECA和BR模塊串聯(lián)后使用，模型的分割能力有了較為明顯的提升；雖然單獨加入ECA模塊會破壞部分通道，但是串聯(lián)類似殘差塊的BR模塊后，被破壞的通道得到了一定的改善，同時ECA模塊對重要通道的捕獲效果得到保留以及BR模塊對邊緣區(qū)域分割準(zhǔn)確度的提高，使得分割能力有了較大的提升。

2.3.3 對比實驗分析

為了驗證本文方法的優(yōu)越性，分別選用了U-Net、PSP-Net及Deeplab v3+[17]3個分割模型對金手指劃痕訓(xùn)練集進(jìn)行訓(xùn)練并將訓(xùn)練結(jié)果使用驗證集進(jìn)行測試對比。經(jīng)過實驗，各模型測試得到的MIOU和MPA見表3。從表3可以看出本文的方法在MIOU指標(biāo)上是最高的，達(dá)到了86.03%，相比較于U-Net以及PSP-Net有了大幅提升，分別高出了14.36個百分點、9.67個百分點，對比當(dāng)前較為流行的Deeplab v3+模型同樣也有明顯的提升，高出了5.78個百分點；通過表3的數(shù)據(jù)對比，本文的方法在MPA指標(biāo)上同樣是最高的，達(dá)到了94.35%，對比U-Net、PSP-Net、Deeplab v3+分別高出了20.19個百分點、14.11個百分點和9.26個百分點。

表3 MIOU和MPA對比Table 3 Comparison of MIOU and MPA單位：%

表3的數(shù)據(jù)對比可以看出，本文提出的方法可以顯著提高分割的精確度。

各模型的分割效果圖如圖13所示。從左到右分別是原始圖、標(biāo)簽圖、U-Net分割效果圖、PSP-Net分割效果圖、Deeplab v3+分割效果圖以及本文方法分割效果圖。U-Net的分割效果如圖13第三列所示，U-Net缺少類似金字塔的結(jié)構(gòu)獲取多尺度信息，劃痕的特征信息較難獲取，導(dǎo)致分割效果相對較差，有些區(qū)域沒能分割出來，有些則是將背景錯分為劃痕。由圖13第四列可以看出，PSP-Net在分割效果上比較粗糙，劃痕存在分割斷斷續(xù)續(xù)的情況，邊緣區(qū)域分割也不夠精細(xì)，造成有些邊緣區(qū)域出現(xiàn)了鋸齒狀，與標(biāo)簽圖的光滑邊緣差別較大；PSP-Net中缺少注意力機(jī)制和邊界細(xì)化模塊，不同金字塔層之間也沒有關(guān)聯(lián)，對于淺劃痕區(qū)域、與背景相近的區(qū)域和邊緣區(qū)域的特征信息較難提取，使得分割效果不佳。Deeplabv3+分割效果則相對較好，如圖13第五列所示，Deeplab v3+模型中使用了空間金字塔池化模塊，能夠獲得多尺度的信息，并且該模型引入了新的Decoder模塊：在上采樣過程中首先使用雙線性插值恢復(fù)到原始圖像四分之一大小的特征圖，接著與Encoder中相同大小的特征圖拼接，并采用3×3的卷積進(jìn)一步融合特征獲取更多的低層特征，最后再使用雙線性插值得到與原圖像相同大小的分割圖。但是Deeplab v3+的分割圖在有些較淺且與背景相似度較高的劃痕區(qū)域，還是存在分割不完整以及邊緣區(qū)域分割不夠精細(xì)的情況；這是因為缺少了注意力機(jī)制對重要特征進(jìn)行挖掘以及缺少邊界細(xì)化模塊提高對劃痕邊緣區(qū)域分割的準(zhǔn)確度。

圖13 不同模型分割效果Fig.13 Different model segmentation renderings

本文提出的方法，一方面通過金字塔池化獲取了多尺度信息，不同尺度的特征圖包含了不同的特征信息，小尺度的金字塔層包含了更多的背景信息而大尺度的相對包含了更多劃痕區(qū)域的信息，通過雙線性插值級聯(lián)后，增強了劃痕區(qū)域的特征信息。另一方面，本文模型使用不同的注意力機(jī)制來重點獲取更多劃痕的特征信息，邊界細(xì)化模塊進(jìn)一步提高劃痕邊緣像素點的分割準(zhǔn)確度，使得邊緣的分割效果更加光滑，見圖13第六列。

3 結(jié)束語

本文針對傳統(tǒng)圖像處理方法以及基于深度學(xué)習(xí)的分類模型由于劃痕形狀大小不一，檢測效果不佳的問題，采用PSP-Net的模型結(jié)構(gòu)并提出了多注意力機(jī)制的金字塔池化模塊（MAMPPM）實現(xiàn)對劃痕的語義分割。實驗結(jié)果表明，本文提出的方法，在采用級聯(lián)的方式連接不同金字塔層實現(xiàn)不同尺度的特征融合并加入注意力機(jī)制與邊界細(xì)化模塊后，可以增強模型對劃痕區(qū)域以及邊緣區(qū)域的信息提取能力，能夠有效分割出不同形狀和大小的劃痕。對于劃痕的分割，本文仍然存在不足，需要改進(jìn)的方面主要有：（1）對于淺而細(xì)的劃痕存在分割不完整，分割精度有待提高，對于距離相近的兩條劃痕分割存在黏連的情況，因此對于邊緣的分割還可以更精細(xì)；（2）本文數(shù)據(jù)集是在環(huán)形光源拍攝得到的，不同光源的成像效果不同，因此可以采集不同光源下的圖片獲得更多的劃痕樣本，擴(kuò)充數(shù)據(jù)集提升分割的準(zhǔn)確度。