基于改進deeplabv3+的舌象分割算法

2023-04-13 11:39:00劉東華梁富娥呂珊珊

現(xiàn)代計算機 2023年3期

劉東華，張偉，顧旋，梁富娥，呂珊珊

（甘肅中醫(yī)藥大學(xué)信息工程學(xué)院，蘭州 730000）

0 引言

舌診作為中醫(yī)特色診斷方法中望診的重要組成部分，在中醫(yī)智能診斷中扮演著重要的角色。舌頭的大小、顏色、紋理等都能反映出人體對應(yīng)的病癥，因此舌診在現(xiàn)代中醫(yī)智能診斷和計算機輔助中醫(yī)診斷中具有重要意義。當前計算機技術(shù)處理舌象圖片都是先將舌體從圖片中分割出來，然后再對舌象進行下一步的分類識別研究。舌體分割效果的好壞直接影響到后續(xù)研究的進程，舌體分割精度高可以大大提升后續(xù)研究的精度和簡便性，能夠減少許多不必要的麻煩。傳統(tǒng)的圖像處理方法如閾值法［1］，通過設(shè)置一個像素值來將高于此像素值或低于此像素值的部分進行分割劃分，利用單一的某個閾值來進行舌象分割的速度較快，但分割精度不高。邊緣檢測法［2］，利用像素值在某一區(qū)域內(nèi)發(fā)生劇烈的變化差值，來判斷此區(qū)域為邊緣區(qū)域，從而進行舌象分割，舌象圖片復(fù)雜，色彩變換多，容易出現(xiàn)誤判，分割精度低。主動輪廓算法［3］，算法過度依賴輪廓線，穩(wěn)定性低導(dǎo)致分割準確率不高。傳統(tǒng)圖像處理技術(shù)太過于依賴人工特征值的選擇，利用的基本都是淺層的顏色和紋理的特征信息，這使得分割精度不高，分割出的圖像效果不理想。

目前基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)在圖像處理領(lǐng)域大放異彩，卷積神經(jīng)網(wǎng)絡(luò)從R_CNN［4］發(fā) 展到Faster R_CNN［5］，從CNN 到FCN［6］，在圖像檢測分類等領(lǐng)域得到了廣泛的應(yīng)用。本文提出了一種改進的deeplabv3+分割算法，采用注意力機制模塊（convolutional block attention module, CBAM）和改進條帶池化模塊（strip pooling module, SPM）［7］及混合池化模塊（mixed pooling module, MPM）來提取上下文信息，更好地進行舌象分割。

1 整體分割網(wǎng)絡(luò)模型結(jié)構(gòu)

本文采用編碼器-解碼器結(jié)構(gòu)來對網(wǎng)絡(luò)模型deeplabv3+進行語義分割，在編碼器部分引入空間金字塔模塊，對輸入特征采用多采樣率擴張卷積來獲取多尺度上下文信息，然后通過編碼器-解碼器結(jié)構(gòu)來恢復(fù)空間信息并獲取目標邊界，將其有效結(jié)合進行高效語義分割。過程如圖1所示。

圖1 分割網(wǎng)絡(luò)流程

本文改進的deeplabv3+分割模型中采用了空洞空間金字塔池化（atrous spatial pyramid pooling,ASPP），采用不同的上采樣率進行多尺度特征提取。采用深度可分離卷積，降低參數(shù)數(shù)列，提高計算效率。同時加入了注意力機制來專注于舌體分割，抑制無關(guān)噪聲干擾，提高分割精度。改進池化模塊，加入條帶池化和混合池化模塊來提取上下文信息，更好地進行語義分割。

2 算法模型

2.1 深度可分離卷積

深度可分離卷積［8］實現(xiàn)起來與普通卷積一樣，但其運行所需的參數(shù)量與普通卷積相比卻大大減少，其一般應(yīng)用于一些輕量級網(wǎng)絡(luò)模型。深度可分離卷積主要由逐通道卷積和逐點卷積組成。逐通道卷積的每一個卷積核和通道都一一對應(yīng)，這樣特征圖通道數(shù)就不會改變。逐點卷積的卷積核尺寸為1 × 1 ×M，M為上一層的通道數(shù)，所以卷積會在上一步特征圖的深度方向上進行加權(quán)組合，從而輸出新的特征圖。

2.2 空洞空間金字塔池化

空洞空間金字塔池化對輸入特征圖以不同采樣率的空洞卷積并行采樣，然后將得到的結(jié)果堆疊到一起擴大通道數(shù)，最后通過1×1 的卷積將通道數(shù)降低到預(yù)期的數(shù)值，這樣的操作相當于以多個比例捕捉圖像的上下文，獲取更多的上下文信息來進行后續(xù)的分割處理?？斩淳矸e［9］能夠在擴大感受野的同時保證分辨率，其十分適用于檢測、分割任務(wù)，感受野的增大可檢測、分割大的目標，高分辨率則可精確定位目標。空洞卷積中參數(shù)dilation rate 設(shè)置不同，網(wǎng)絡(luò)的感受野不同，從而能夠獲取多尺度信息。

2.3 注意力機制

2.3.1 通道注意力機制

通道注意力機制的工作原理，首先對輸入進來的特征層分別進行全局平均池化和全局最大池化，獲得初始通道注意力權(quán)重。初始權(quán)重僅代表各自通道特征信息，無法體現(xiàn)各通道特征的差異，所以將平均池化和最大池化的結(jié)果通過共享的全連接層進行處理，以便更好地進行分類。然后對處理后的兩個結(jié)果進行相加，并取一個sigmoid，此時獲得了輸入特征層每一個通道的權(quán)值（介于0～1 之間），將權(quán)值乘上原輸入特征層即可。

通道注意力機制表達式為

式中：Ic代表輸入特征圖I的第c個通道；Wc代表產(chǎn)生的第c個自適應(yīng)權(quán)重；TC代表經(jīng)過通道注意力機制后輸出的特征圖。

2.3.2 空間注意力機制

空間注意力機制詳細原理：首先將通道本身進行降維處理，在輸入進來的每一個特征點的通道上取最大值池化和平均值池化。然后將結(jié)果特征圖進行堆疊拼接，調(diào)整通道數(shù)后取一個sigmoid，此時獲得輸入特征層每一個特征點的權(quán)值（介于0～1 之間），再將這個權(quán)值乘上原輸入特征層即可。

空間注意力機制表達式為

式中：S(x，y)表示在空間位置(x，y)處的特征值，W(x，y)則是在(x，y)處的權(quán)重值，H(x，y)是經(jīng)過空間注意力機制后的輸出。

2.3.3 CBAM注意力機制

CBAM 注意力機制［10］如圖2所示，可以看到CBAM 包含兩個獨立的子模塊，通道注意力模塊和空間注意力模塊，分別進行通道與空間上的特征注意力處理。在CBAM 注意力機制中通道注意力模塊和空間注意力模塊進行串聯(lián)處理，先進行通道注意力處理再進行空間注意力處理能使模型達到最佳注意力效果。這樣不僅能夠節(jié)約參數(shù)和計算力，并且能夠使其方便地應(yīng)用于其它網(wǎng)絡(luò)模型。

圖2 CBAM注意力機制

2.4 條帶池化

條帶池化，是將原本的池化核改進為水平垂直的條帶狀池化的方法，對池化核長條形區(qū)域所對應(yīng)的特征圖上位置的像素值求平均。實際應(yīng)用中目標對象可能是長條狀的信息，使用大方形窗口不能很好地處理，但條帶池化就能有效地應(yīng)對，更好地提取依賴特征。條帶池化能夠獲取孤立區(qū)域的長距離關(guān)系，并且在其他空間維度上保持較窄的內(nèi)核形狀，有利于獲得上下文信息。

2.4.1 條帶池化模塊

條帶池化模塊SPM 利用水平垂直方向上的池化核沿水平垂直空間兩個維度捕獲上下文信息。結(jié)構(gòu)原理如圖3所示，輸入一個特征圖（C×H×W），每一通道特征分別經(jīng)過水平和垂直池化核后變成了H× 1 和1 ×W，對池化核內(nèi)的元素值求平均，并以該值作為池化輸出值。對兩個輸出特征圖分別沿著左右和上下進行擴容，擴容后兩個特征圖尺寸相同，對擴容后的特征圖對應(yīng)相同位置求和得到H×W的特征圖。最后通過1 × 1的卷積和sigmoid處理后與原輸入圖對應(yīng)像素相乘得到輸出結(jié)果。

圖3 SPM結(jié)構(gòu)原理

2.4.2 混合池化模塊

混合池化模塊MPM 主要是通過利用不同內(nèi)核形狀的池化模型來探索復(fù)雜場景圖像，從而收集有用的上下文信息?；旌铣鼗K將金字塔池化模塊和條帶池化模型相結(jié)合，通過各類池化模塊獲取不同的上下文信息，使特征更有辨別力，可以連續(xù)使用它來擴展遠程依賴關(guān)系。結(jié)構(gòu)原理如圖4所示，輸入特征圖分別進行金字塔池化和條帶池化，金字塔池化生成多尺度特征，捕獲局部上下文信息。條帶池化模塊能使孤立區(qū)域之間的連接和條紋狀結(jié)構(gòu)的編碼區(qū)域成為可能，然后將輸出結(jié)果進行有效融合。

將SPM 和MPM 兩模塊串聯(lián)一起嵌入具有瓶頸的網(wǎng)絡(luò)模型中，進行參數(shù)縮減和模塊化設(shè)計，能夠在一定程度上改善網(wǎng)絡(luò)模型，提升模型效果。

3 實驗研究與分析

3.1 數(shù)據(jù)集

數(shù)據(jù)主要來源于AI Studio 和Kaggle 云平臺上的比賽數(shù)據(jù)集，數(shù)據(jù)有經(jīng)過專業(yè)儀器采集得到的，也有智能手機拍攝的，來源不同，復(fù)雜度也不同，可以提高模型的泛化能力。總共選取舌象圖片700 張，隨機抽取70 張作為測試集，并將剩下的630 張按照10∶1 的比例隨機劃分為訓(xùn)練集和驗證集進行訓(xùn)練。

3.2 實驗環(huán)境

深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型對計算機硬件要求較高，租用云平臺進行模型訓(xùn)練，GPU 型號NVIDIA RTX A2000 12GB 顯存，CPU 型號Intel（R）Xeon（R）CPU E5-2680 v4 2.40GH，硬盤Samsung SSD 870，主板型號X10DRG-O+-CPU，模型框架平臺TensorFlow，編程語言Python。

3.3 算法評價標準

對模型預(yù)測分割出來的結(jié)果圖與舌象真實標簽圖進行比較分析，計算出各分割模型的好壞。評價指標主要有像素準確率PA，類別像素準確率CPA，類別平均像素準確率MPA，交并比IoU，平均交并比MIoU，頻權(quán)交并比FWIoU。

其中：TP是把正標簽預(yù)測為正的數(shù)量；FP是把負標簽預(yù)測為正的數(shù)量；FN是把正標簽預(yù)測為負的數(shù)量；TN是把負標簽預(yù)測為負的數(shù)量。各評價指標值越接近于1則說明算法模型越好。

3.4 結(jié)果分析

將本文算法與傳統(tǒng)分割算法，包括閾值算法、邊緣檢測算法、主動輪廓算法以及卷積神經(jīng)網(wǎng)絡(luò)模型算法SegNet 算法和PSPNet 算法進行比較分析。結(jié)果如表1和圖5所示。

表1 算法各指標對比單位：%

圖5 算法結(jié)果對比

傳統(tǒng)圖像處理方法太過于依賴人工特征的選擇，并且選擇的分割特征都是淺層的顏色、形狀和紋理等，當圖像比較單調(diào)而且目標與環(huán)境有著較大的差異時，表現(xiàn)出的效果可能還不錯。但當遇到像舌象這樣比較復(fù)雜的圖像時，僅僅依靠單一特征來進行分割是有點困難的，容易出現(xiàn)因錯誤劃分導(dǎo)致分割結(jié)果精度不高的情況?；诰矸e神經(jīng)網(wǎng)絡(luò)的SegNet 算法和PSPNet算法都是比較經(jīng)典的語義分割算法模型，SegNet算法在編碼和解碼過程中使用same卷積，不會改變圖片的原始大小，能使在池化時丟失的信息被重修獲取。PSPNet 算法核心部件是金字塔池化模塊，這和deeplabv3+算法有些相似，但deeplabv3+在金字塔池化的基礎(chǔ)上進行了改進完善，使得效果得到進一步提升。

本文算法的類別平均像素準確率MPA和平均交并比MIoU值比SegNet算法和PSPNet算法的對應(yīng)值都要高，并且MIoU達到了95.54%，可以很好地滿足舌象分割需求。

為了驗證本文改進算法的有效性，將其與未改進的算法進行比較分析，通過結(jié)果來驗證改進思路和算法的正確性和有效性。表2所示為加入注意力機制與未加入注意力機制的對比結(jié)果。

表2 注意力機制結(jié)果對比單位：%

本研究在網(wǎng)絡(luò)模型中加入CBAM 注意力機制，它結(jié)合了通道注意力機制和空間注意力機制，能夠結(jié)合通道和空間的注意力特征信息，然后將其與原輸入特征圖進行融合并進行特征修正，產(chǎn)生最后的特征圖。加入注意力機制能夠使網(wǎng)絡(luò)更加專注于分割目標對象，抑制無關(guān)噪聲信號的干擾，更好地提升模型效果，模型的MPA和MIoU分別提升了0.11和0.64個百分點。

將條帶池化模塊SPM 和混合池化模塊MPM串聯(lián)加入網(wǎng)絡(luò)模型中，與CBAM注意力機制進行對比，將注意力機制模型與改進池化模型有效結(jié)合，融入網(wǎng)絡(luò)模型中進一步提升模型舌象分割效果。表3為改進池化模塊的對比分析結(jié)果。

條帶池化模塊和混合池化模塊通過轉(zhuǎn)換池化核的方式來改進池化模型，更好地獲取上下文信息，其本質(zhì)也可以看作注意力機制。分別將CBAM 注意力機制和改進池化模型SPM、MPM 加入到deeplabv3+網(wǎng)絡(luò)模型中，可以看出單獨加入改進模塊對模型的提升都比較小，沒有達到預(yù)期的效果。當將CBAM 模塊和改進池化模塊SPM、MPM 一同融入deeplabv3+網(wǎng)絡(luò)中時，效果比單獨使用時有了不錯的提升。改進分割網(wǎng)絡(luò)模型相比于未改進網(wǎng)絡(luò)模型的MPA和MIoU分別提升了1.49 和2.02 個百分點。本文改進方法的整體效果尚可，分割準確率也可以滿足舌象分割的需求。

4 結(jié)語

本文采用deeplabv3+網(wǎng)絡(luò)模型對舌象進行分割處理，采用CBAM 注意力機制模塊和改進條帶池化模塊SPM 和MPM 來對網(wǎng)絡(luò)模型進行改進提升。將各改進模塊有效地融合加入分割網(wǎng)絡(luò)模型當中，相比于未改進之前有了不錯的提升，分割精度也能滿足舌象分割的需求，從而驗證本文改進算法對模型分割效果提升的有效性。