梁禮明,尹 江,彭仁杰,吳媛媛
(江西理工大學(xué)電氣工程與自動(dòng)化學(xué)院,贛州 341000)
皮膚病是一種很常見的病癥,它種類繁多,其中屬黑色素瘤是最危險(xiǎn)的,到了后期往往伴隨著皮膚癌出現(xiàn),若能在早期發(fā)現(xiàn)并及時(shí)治療即可治愈。皮膚病的檢測(cè)方法一般采用皮損皮膚鏡圖像,這是一種無創(chuàng)的成像技術(shù),通過消除皮膚表面反射,達(dá)到增強(qiáng)更深層次皮膚的可視化效果的作用,來獲得高分辨率圖像,從而使病變皮膚的亞表面更容易被分析[1]。利用皮膚鏡這一技術(shù)可以在一定程度上提高缺乏經(jīng)驗(yàn)的皮膚科醫(yī)生的診斷準(zhǔn)確性。因此,為了最大化輔助醫(yī)生診斷,近年來科研工作者將迅速發(fā)展的深度學(xué)習(xí)技術(shù)和皮膚鏡檢查結(jié)合為一體,形成了自動(dòng)皮膚鏡圖像分析技術(shù)。該技術(shù)通常分為3個(gè)步驟,分別是圖像分割、特征提取和病變分類,其中的第一步皮膚鏡圖像分割對(duì)于圖像的后續(xù)分析至關(guān)重要[2]。由于病變皮膚和周圍皮膚之間存在以下分析難點(diǎn):皮損周邊的顏色分布不均、形狀不規(guī)則;毛發(fā)、血管等遮擋病灶區(qū)域;皮損邊界模糊等因素[3]。這給皮膚鏡圖像自動(dòng)分割任務(wù)帶來一定的挑戰(zhàn)。
近些年,隨著深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,特別是全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)[4]在圖像分割中的興起,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN))在醫(yī)學(xué)圖像分割上取得了顯著地發(fā)展。在不同的CNN體系結(jié)構(gòu)中,如FCN及其擴(kuò)展U-Net[5]編解碼器網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割方法中得到了廣泛的應(yīng)用。王雪[6]在UNet網(wǎng)絡(luò)編碼底層引入多尺度特征融合模塊,以捕獲更多高級(jí)語義信息并保留空間上下文信息。Ibtehaz等[7]對(duì)UNet進(jìn)行了改進(jìn),構(gòu)建了一種新的MultiResUNet醫(yī)學(xué)圖像分割架構(gòu),通過引入MultiRes模塊,更好地處理邊界模糊的問題。文獻(xiàn)[8]提出基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)分割方法,針對(duì)特征圖的空間會(huì)隨著網(wǎng)絡(luò)層的處理而減小的問題,設(shè)計(jì)了一個(gè)包含主注意分支、空間注意分支和通道注意分支的高分辨率模塊,主注意分支將高分辨特征圖作為輸入來提取邊界周圍的空間細(xì)節(jié),其他兩個(gè)注意分支增強(qiáng)了主分支中關(guān)于空間和通道維度的特征,通過融合分支輸出來獲取具有詳細(xì)空間信息的特征。文獻(xiàn)[9]構(gòu)建了一種基于U型結(jié)構(gòu)的上下文編碼解碼網(wǎng)絡(luò),通過采用高效雙通道注意力機(jī)制模塊和金字塔池化模塊來捕獲更多的語義信息與空間信息,在皮膚病變分割上取得了可觀成績。但以上算法還存在一定的局限性,在皮膚病變分割中對(duì)皮損邊界模糊和小病灶分割效果較差。
圖1 MAU-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of MAU-Net
針對(duì)皮損邊界模糊和顏色分布不均、形狀不規(guī)則等問題,設(shè)計(jì)一個(gè)多尺度注意力模塊(MA),并提出一種基于注意力融合網(wǎng)絡(luò)MAU-Net的分割方法。MAU-Net網(wǎng)絡(luò)是以U-Net網(wǎng)絡(luò)為基礎(chǔ)的分割網(wǎng)絡(luò),通過多尺注意力模塊(MA)在特征提取時(shí)融合不同層次的特征并將重要的目標(biāo)特征給予一定的權(quán)重,從而加強(qiáng)解碼器中通道和空間像素特征的重要程度來提升分割精度,以更好地輔助醫(yī)療診斷。
提出的多尺度注意力網(wǎng)絡(luò)MAU-Net結(jié)構(gòu)圖如圖1所示。主要貢獻(xiàn)有兩點(diǎn):一個(gè)是設(shè)計(jì)了一個(gè)新的多尺度注意力模塊(MA);另一個(gè)是提出了一種MAU-Net網(wǎng)絡(luò)用于皮膚鏡圖像自動(dòng)分割。相對(duì)于U-Net網(wǎng)絡(luò),MAU-Net網(wǎng)絡(luò)主要有以下幾點(diǎn)改進(jìn)。
(1)將U-Net網(wǎng)絡(luò)中的普通的卷積層全部更換成可分離卷積層,并在隨后加入BatchNorm(batch normalization layer)函數(shù),該函數(shù)可實(shí)現(xiàn)了批歸一化層的功能,這在一定的程度上縮小了網(wǎng)絡(luò)模型的大小。
(2)將ReLU激活函數(shù)用ELU函數(shù)代替。
(1)
(2)
式中:x為變量;α為一個(gè)可調(diào)整的參數(shù),可以控制ELU函數(shù)負(fù)值部分在何時(shí)飽和。
在迭代訓(xùn)練時(shí)ReLU激活函數(shù)有一些缺陷,當(dāng)輸入為負(fù)值時(shí),ReLU 函數(shù)的學(xué)習(xí)速度就有可能會(huì)變得很慢,甚至有時(shí)會(huì)使部分神經(jīng)元直接無效,這部分神經(jīng)元也稱為靜默神經(jīng)元。而ELU函數(shù)在當(dāng)輸入為負(fù)值時(shí),該函數(shù)會(huì)添加一個(gè)非零的輸出,防止靜默神經(jīng)元的出現(xiàn),提高網(wǎng)絡(luò)學(xué)習(xí)效率。
(3)在上采樣時(shí)采用雙三次插值法代替雙線性插值。雙線性插值是線性插值的擴(kuò)展,一般用于在直線2D網(wǎng)格上插值兩個(gè)變量(如該操作中的高度方向和寬度方向)的函數(shù)。三線插值同樣是線性插值的一種擴(kuò)展,是三個(gè)參數(shù)(維度D、高度H、寬度W)的插值方程,在三個(gè)方向上進(jìn)行線性插值。雙三次插值是在二維網(wǎng)格上對(duì)數(shù)據(jù)點(diǎn)進(jìn)行插值的三次插值的擴(kuò)展,它能創(chuàng)造出比雙線性和最近臨插值更為光滑的圖像邊緣。能在一定程度上改善皮膚鏡圖像分割時(shí)邊緣模糊的問題。
(4)設(shè)計(jì)了一個(gè)新的多尺度注意力模塊(MA),并將MA模塊很好地融合進(jìn)U型網(wǎng)絡(luò)中。MA模塊可自動(dòng)學(xué)習(xí)并專注于形狀和大小不同的目標(biāo)結(jié)構(gòu),同時(shí)可以很輕松地集成到標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)中,如U-Net網(wǎng)絡(luò),以提升網(wǎng)絡(luò)的靈敏度和預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果表明,MA可以在保持計(jì)算效率的同時(shí),不同程度提高U-Net網(wǎng)絡(luò)在不同數(shù)據(jù)集和訓(xùn)練規(guī)模上的預(yù)測(cè)性能。
圖2 MA模型結(jié)構(gòu)Fig.2 Model structure of MA
MAU-Net網(wǎng)絡(luò)主要是分為編碼器和解碼器這兩個(gè)部分組成(圖1),是能夠?qū)崿F(xiàn)端到端開始訓(xùn)練的深層網(wǎng)絡(luò),而無需使用其他骨干網(wǎng)絡(luò)來進(jìn)行預(yù)訓(xùn)練。編碼器部分總共有5層網(wǎng)絡(luò),每層網(wǎng)絡(luò)都是有兩組卷積核為3×3的可分離的卷積、批歸一化(BN)和ELU激活函數(shù)組成,隨后進(jìn)行最大池化下采樣。解碼器部分相對(duì)應(yīng)也有5層網(wǎng)絡(luò),解碼器的每一層都是利用下采樣和上采樣得到的特征圖像同時(shí)進(jìn)入多尺度注意力模塊(MA)中進(jìn)行特征處理。經(jīng)過MA模塊處理后的特征再與下采樣的特征圖像進(jìn)行加權(quán)融合,隨后經(jīng)過兩組卷積核為3×3的可分離的卷積、批歸一化(BN)和ELU激活函數(shù)。此時(shí)的參數(shù)經(jīng)過梯度優(yōu)化學(xué)習(xí)了特定的圖像特征,并通過層級(jí)轉(zhuǎn)移學(xué)習(xí),融合已學(xué)習(xí)到的特征并在后續(xù)的層級(jí)上進(jìn)行新的學(xué)習(xí)。圖像卷積操作能夠很好地提取到醫(yī)學(xué)圖像中的目標(biāo)信息,卷積層利用逐層來處理圖像的局部信息,并將提取到圖像的高維信息表示出來。最后,在高維空間中依據(jù)其語義信息來分離像素。通過這個(gè)漸進(jìn)的過程,網(wǎng)絡(luò)對(duì)圖像的預(yù)測(cè)可以從圖像自身收集到的信息為條件,在每一層的特征輸出時(shí),加入非線性激活函數(shù),從而最終得到需要的目標(biāo)特征。
MA模型的結(jié)構(gòu)如圖2所示。其中g(shù)和h分別來自U型網(wǎng)絡(luò)的第i個(gè)階段的下采樣特征和上采樣特征,特征的通道個(gè)數(shù)和尺寸大小都為C、H和W。將同一階段的特征g和特征h作為多尺度注意力模塊的輸入。首先對(duì)這兩個(gè)特征進(jìn)行卷積和非線性映射操作。
gi=ELU{BN[f1×1(g)]}
(3)
hi=ELU{BN[f1×1(h)]}
(4)
式中:f1×1為標(biāo)準(zhǔn)的卷積操作,卷積核大小1×1;BN為批標(biāo)準(zhǔn)化操作。gi和hi經(jīng)過一組非線性映射提取特征,接著進(jìn)行特征融合,得到上采樣和下采樣融合的特征信息j:
j=concat(gi,hi)
(5)
將融合的信息傳入到類似金字塔結(jié)構(gòu)的多尺度模塊中,再使用特征融合concat函數(shù)水平融合,得到多個(gè)尺度特征s:
s=f{concat[f1×1(j),f3×3(j),f5×5(j),f7×7(j)]}
(6)
式(6)中:f1×1、f3×3、f5×5、f7×7均為空洞卷積,卷積核大小分別為1×1、3×3、5×5、7×7;空洞率分別為1、3、5、7;f為標(biāo)準(zhǔn)的卷積操作,卷積核大小1×1,通過該卷積操作將通道數(shù)縮小為原來的1/4。
然后將融合了多個(gè)尺度的特征s通過卷積操作,將其通道上的每個(gè)像素相乘了一個(gè)權(quán)重系數(shù),從而能起改變成單通道,讓圖像特征展平,再通過一個(gè)批歸一化函數(shù)(BN)和Tanh激活函數(shù)。而此時(shí)的特征變成了一個(gè)單通道的特征矩陣,相當(dāng)于是一個(gè)權(quán)重系數(shù)。將這個(gè)單通道特征矩陣和圖像特征相乘,這相對(duì)于是在特征圖像到抑制背景特征,放大目標(biāo)特征的作用。多尺度注意力融合模塊的輸出特征F為
F=Tanh{BN[f1×1(s)]}?s
(7)
式(7)中:f1×1為卷積核大小1×1的標(biāo)準(zhǔn)卷積,將原有通道改變成單通道;?表示對(duì)應(yīng)位置元素相乘。
本實(shí)驗(yàn)是基于百度飛槳的paddlepaddle2.0實(shí)現(xiàn)的,充分利用了百度提供的PaddleSeg圖像分割開發(fā)套件。實(shí)驗(yàn)的平臺(tái)是在百度的云平臺(tái)(AI Studio)上進(jìn)行的。使用的機(jī)器型號(hào)是v100的圖形處理器(graphic processing unit,GPU)加速圖像處理,內(nèi)存大小是32 G,顯存大小是16 G。
2.1.1 數(shù)據(jù)集
本文網(wǎng)絡(luò)模型是在2個(gè)公開的皮膚病變數(shù)據(jù)集上分別進(jìn)行了對(duì)比實(shí)驗(yàn),來檢驗(yàn)本文模型的性能以及泛化能力,這兩個(gè)數(shù)據(jù)集分別來自ISIC2016挑戰(zhàn)賽[10]和ISIC2017挑戰(zhàn)賽[11]。同時(shí)在ISIC2017挑戰(zhàn)賽數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),來驗(yàn)證本文設(shè)計(jì)的MA模塊對(duì)網(wǎng)絡(luò)是否有增益。
ISIC2016挑戰(zhàn)賽數(shù)據(jù)集包含了900張訓(xùn)練數(shù)據(jù)圖像和379張測(cè)試數(shù)據(jù)圖像。每組病變分割數(shù)據(jù)都包括原始圖像,結(jié)合專家手工以二值掩模的形式跟蹤病變邊界的金標(biāo)準(zhǔn)圖像。其中原始圖像是JPEG格式的皮膚鏡圖像。而專家手工標(biāo)注的金標(biāo)準(zhǔn)圖像是PNG格式的二進(jìn)制蒙版圖像。其中每個(gè)像素為0和255兩個(gè)值,0代表的是圖像病變以外的區(qū)域,255代表的是病變內(nèi)的區(qū)域。同樣的是ISIC2017挑戰(zhàn)賽數(shù)據(jù)集包含了2 000張訓(xùn)練數(shù)據(jù)圖像和600張測(cè)試數(shù)據(jù)圖像。每組病變分割數(shù)據(jù)和ISIC2016挑戰(zhàn)賽數(shù)據(jù)類似。
2.1.2 數(shù)據(jù)預(yù)處理
由于圖像原尺寸的大小各不相同。在訓(xùn)練之前,將數(shù)據(jù)圖像統(tǒng)一縮小到分辨率為256像素×256像素輸入到網(wǎng)絡(luò)。同時(shí)將金標(biāo)準(zhǔn)圖像每個(gè)像素為0和255轉(zhuǎn)化為0和1。
2.1.3 實(shí)驗(yàn)訓(xùn)練過程中細(xì)節(jié)和參數(shù)設(shè)置
在實(shí)驗(yàn)訓(xùn)練時(shí),對(duì)輸入數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng)處理,這個(gè)數(shù)據(jù)增強(qiáng)是與訓(xùn)練同步進(jìn)行的。主要采用了圖像尺寸隨機(jī)按比例縮放,最大尺寸為原始圖像2.0倍,最小尺寸為原始圖像0.5倍。在訓(xùn)練過程中對(duì)圖像進(jìn)行了隨機(jī)翻轉(zhuǎn),同時(shí)也加入了對(duì)圖像的明亮范圍、對(duì)比范圍和飽和度的設(shè)置,設(shè)置的參數(shù)為0.4(0最小,1最大)。其他參數(shù)的設(shè)置batch_size為16,就是每批次加載16張圖像進(jìn)行訓(xùn)練??偣灿?xùn)練了80個(gè)epoch(將訓(xùn)練數(shù)據(jù)全部訓(xùn)練一次為一個(gè)epoch)。采用得是常見的交叉熵?fù)p失函數(shù),優(yōu)化算法采用隨機(jī)梯度下降算法(SGD),學(xué)習(xí)率參數(shù)設(shè)置為0.05,同時(shí)加入一個(gè)動(dòng)量衰減值y,取值為0.9,而衰減的速率為0.000 1。所有的實(shí)驗(yàn)都是基于此訓(xùn)練參數(shù)設(shè)定的。
2.1.4 評(píng)估指標(biāo)
采用三種常用的圖像分割評(píng)估指標(biāo)來驗(yàn)證算法性能,分別為平均交并比(MIoU)、精確率(precision,P)及Kappa系數(shù),定義如下。
(8)
(9)
(10)
(11)
(12)
式中:FN、FP、TP及TN分別為假陰性、假陽性、真陽性及真陰性區(qū)域的像素個(gè)數(shù);Po和Pe分別為觀察一致性和機(jī)遇一致性。
為了驗(yàn)證MAU-Net網(wǎng)絡(luò)的性能,選取了近些年來的4個(gè)模型:其中包括U-Net網(wǎng)絡(luò)和3個(gè)U-Net網(wǎng)絡(luò)的改進(jìn)及變體的對(duì)比模型,分別為U-Net、Attention U-Net[12]、U-Net++[13]和U2Net[14]。表1是在ISIC2016挑戰(zhàn)賽數(shù)據(jù)集中的測(cè)試集上與上述的4個(gè)模型的對(duì)比結(jié)果。由表1可知,在皮膚鏡圖像分割的任務(wù)中,MAU-Net的MIoU、精確度和Kappa值分別為90.21%、95.83%和89.82%,性能比U-Net分別提高了2.1%、2.51%和2.48%。其中MAU-Net的MIoU和精確度是5種方法中最優(yōu)的。
表1 不同算法在ISIC2016挑戰(zhàn)賽數(shù)據(jù)集的對(duì)比結(jié)果Table 1 Comparison results of different models in ISIC 2016 challenge datasets
表2是在ISIC2017挑戰(zhàn)賽數(shù)據(jù)集中的測(cè)試集上和其他方法的對(duì)比結(jié)果。MAU-Net模型在該數(shù)據(jù)集上的MIoU、精確度和Kappa值分別為83.61%、93.58%和81.70%,性能比U-Net分別提高了5.27%、2.01%和6.83%。在皮膚鏡圖像分割的任務(wù)中,相比其他算法,本文算法在三個(gè)評(píng)價(jià)指標(biāo)中都達(dá)到了最優(yōu)。其中ISIC2017挑戰(zhàn)賽數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)并不是來自同一個(gè)數(shù)據(jù)集中抽取的,所以在驗(yàn)證中整體的精度上都會(huì)略微下降,但MAU-Net模型仍能表現(xiàn)出很好的性能,且都優(yōu)于這4種基準(zhǔn)模型,這表明了本文方法是有效且泛化性良好。
表2 不同算法在ISIC2017挑戰(zhàn)賽數(shù)據(jù)集的對(duì)比結(jié)果Table 2 Comparison results of different models in ISIC 2017 challenge datasets
圖3 ISIC2016和ISIC2017數(shù)據(jù)集上的結(jié)果對(duì)比圖Fig.3 Comparison of results on ISIC2016 and ISIC2017 datasets
將上訴的實(shí)驗(yàn)均用可視化將分割的實(shí)驗(yàn)結(jié)果展現(xiàn)出來,并在ISIC2016和ISIC2017這兩個(gè)數(shù)據(jù)集中分別挑出4張皮膚病變分割圖出來,對(duì)比結(jié)果如圖3所示。
由圖3可知算法在各種復(fù)雜的病變區(qū)域下都取得了精確的分割結(jié)果。如第3行和第6行所示,本文模型能很好地對(duì)小目標(biāo)進(jìn)行較為精確地分割,要優(yōu)于其他模型的效果。第4和第5行對(duì)比結(jié)果可以看出,MAU-Net能對(duì)較大的目標(biāo)也能精確地分割出來,且分割的目標(biāo)比較完全,達(dá)到了人工手動(dòng)分割的水準(zhǔn)。而其他模型對(duì)模糊的大目標(biāo)的分割或多或少有一些遺漏。最后一行顯示,本文模型在處理對(duì)比度較弱的目標(biāo)也能較為完整地將目標(biāo)分割出來,與U-Net、AttentionU-Net、U-Net++和U2Net這些模型相比具有更優(yōu)的性能。從這些結(jié)果可以得出,本文模型能過處理皮膚鏡圖像的各種情況并能分割出高精度的結(jié)果。
為了驗(yàn)證本文設(shè)計(jì)的多尺度注意力模塊MA的有效性,在ISIC2017挑戰(zhàn)賽數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。
表3 加入MA模塊在ISIC2017挑戰(zhàn)賽數(shù)據(jù)集的性能影響Table 3 Performance impact of adding MA module in ISIC 2017 challenge dataset
加入MA模型的網(wǎng)絡(luò)比原網(wǎng)絡(luò)的性能全面得到了提升。加入了MA模型的三個(gè)評(píng)價(jià)指標(biāo)MIoU、精確度和Kappa值分別比原網(wǎng)絡(luò)提升了1.94%、0.70%和2.31%。從該實(shí)驗(yàn)中得出MA模型是有助于網(wǎng)絡(luò)對(duì)皮膚鏡圖像的分割效果。由于MA模塊能夠很好地利用多個(gè)尺度特征同時(shí)又能專注于其中重要的特征,這對(duì)皮損區(qū)域的識(shí)別和定位非常有幫助。
提出了一種適用于皮膚鏡圖像自動(dòng)分割的MAU-Net網(wǎng)絡(luò),其中包含了一種多尺度注意力模塊(MA)。將它集成到一個(gè)編碼-解碼網(wǎng)絡(luò)中,有效地融合多層次特征和深度特征。MA模塊充分利用多個(gè)尺度的特征在空間中互補(bǔ)信息,提升了模型邊緣分割效果。證實(shí)了融合多個(gè)層次的特征MA模塊能夠有效提升網(wǎng)絡(luò)最終的分割精度。實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)的MA模塊對(duì)皮損區(qū)域的識(shí)別和定位非常有幫助,對(duì)于多變的小尺寸皮損區(qū)域能自動(dòng)分割出一個(gè)很好的效果,同時(shí)對(duì)皮損邊緣區(qū)域的處理也能達(dá)到一個(gè)較為理想的水平。但是,MA模塊也存在一些不足,由于該模塊融合了多個(gè)尺度的信息,會(huì)增加原網(wǎng)絡(luò)一定的訓(xùn)練時(shí)間。同時(shí)皮膚鏡圖像自動(dòng)分割任務(wù)的準(zhǔn)確率還存在進(jìn)一步提升空間,考慮解決邊緣分割模糊和類別不均衡問題,或者進(jìn)一步利用深度信息來提升皮膚鏡圖像分割精度等,都是下一步研究的方向。