王 雪
(吉林農(nóng)業(yè)科技學(xué)院 網(wǎng)絡(luò)信息中心, 吉林 吉林 132101)
醫(yī)學(xué)圖像分割是醫(yī)學(xué)圖像分析與處理的關(guān)鍵步驟, 可輔助醫(yī)生做出更準(zhǔn)確的診斷和治療方案, 從而減少人工處理時(shí)間和人為錯(cuò)誤. 傳統(tǒng)醫(yī)學(xué)圖像分割方法主要包括基于水平集分割[1-2]、 閾值分割[3]、 基于邊緣或區(qū)域分割[4-5]和模糊聚類分割[6]等, 這些方法均需用手動(dòng)提取的特征進(jìn)行分割, 很難為不同的分割任務(wù)設(shè)計(jì)具有代表性的特征, 缺乏特征的通用性. 隨著卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像分析和處理領(lǐng)域的發(fā)展, 基于深度學(xué)習(xí)的分割方法因其可自動(dòng)學(xué)習(xí)圖像特征, 克服了傳統(tǒng)方法中手動(dòng)提取特征的局限性而成為目前研究的熱點(diǎn). 全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network, FCN)[7]是典型端到端的圖像分割深度網(wǎng)絡(luò)之一. Rommeberger等[8]提出了U-Net網(wǎng)絡(luò)結(jié)構(gòu)用于生物醫(yī)學(xué)圖像分割, 該網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)編碼減少空間維度并提取高層語(yǔ)義特征, 解碼結(jié)合跳躍連接操作恢復(fù)空間維度和圖像細(xì)節(jié)信息, 在醫(yī)學(xué)圖像分割上性能較好. 但該結(jié)構(gòu)中的連續(xù)卷積和池化操作在提取高層次語(yǔ)義特征的同時(shí)也丟失了圖像中部分空間上下文信息. 因此, 如何在編碼中捕獲更多的高級(jí)特征并保留豐富的空間上下文信息, 以提高醫(yī)學(xué)圖像分割性能仍是該領(lǐng)域亟待解決的問(wèn)題之一.
本文提出一種基于U-Net網(wǎng)絡(luò)的多尺度和多維度特征融合分割方法, 用于醫(yī)學(xué)圖像中皮膚病變分割. 該方法在U-Net網(wǎng)絡(luò)編碼底層引入多尺度和多維度特征融合模塊, 以捕獲更多高級(jí)語(yǔ)義信息并保留空間上下文信息. 實(shí)驗(yàn)結(jié)果表明, 該方法在皮膚病變數(shù)據(jù)集上分割效果較好.
U-Net網(wǎng)絡(luò)[6]是一個(gè)基于FCN的圖像分割網(wǎng)絡(luò), 主要用于醫(yī)學(xué)圖像分割, 并在細(xì)胞壁、 肺部和眼底視網(wǎng)膜血管分割等方面效果較好. U-Net網(wǎng)絡(luò)結(jié)構(gòu)主要由卷積層、 最大池化層、 反卷積層、 跳躍連接以及非線性激活函數(shù)Relu組成. U-Net中使用帶邊界權(quán)值的損失函數(shù), 表示為
(1)
其中:pl(x)(x)是Softmax函數(shù);l:Ω→{1,2,…,K}表示像素點(diǎn)的標(biāo)簽值;ω:Ω→R表示像素點(diǎn)權(quán)值,
ω(x)=ωc(x)+ω0·exp{-(d1(x)+d2(x))2/(2σ2)},
(2)
式中ωc:Ω→R表示平衡類別的權(quán)值,d1:Ω→R表示像素點(diǎn)與其最近細(xì)胞的距離,d2:Ω→R表示像素點(diǎn)與其第二近細(xì)胞的距離,ω0和σ為常數(shù).
由于U-Net網(wǎng)絡(luò)在向下編碼提取高層次語(yǔ)義特征過(guò)程中, 連續(xù)卷積和池化操作丟失了圖像中部分空間上下文信息, 因此為解決該問(wèn)題, 本文提出一種基于多尺度和多維度特征的融合方法, 從多個(gè)尺度提取更多的語(yǔ)義特征并結(jié)合維度信息保留更多的空間上下文信息. 改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示. 主要包括3個(gè)模塊: 特征編碼模塊、 多尺度和多維度特征融合模塊(multi-scale and multi-dimensional feature fusion, MSSE)及特征解碼模塊.
圖1 改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of improved network
受文獻(xiàn)[9]啟發(fā), 本文在提取圖像多尺度特征時(shí)采用Atrous卷積, 通過(guò)引入不同的擴(kuò)張率參數(shù), 在不增加參數(shù)量的同時(shí)擴(kuò)大感受野. Atrous卷積計(jì)算公式為
(3)
其中x(i)表示輸入信號(hào),w(k)表示長(zhǎng)度為k的濾波器,r為對(duì)輸入信號(hào)進(jìn)行采樣的步幅,y(i)為Atrous卷積的輸出. 此外, 本文引入Inception結(jié)構(gòu)[10]思想, 將不同大小卷積核提取的特征進(jìn)行融合. 圖2(A)為多尺度特征提取塊, 該卷積塊包含4個(gè)Atrous卷積分支, 卷積核大小為3×3, 擴(kuò)張率分別為1,3,5. 第4個(gè)分支為不同擴(kuò)張率卷積和一個(gè)1×1卷積的級(jí)聯(lián)結(jié)構(gòu).
經(jīng)過(guò)上述圖2(A)模塊提取的多尺度特征后, 本文進(jìn)一步通過(guò)通道上下文信息融合模塊提取特征圖像通道間的權(quán)重信息, 采用擠壓和激勵(lì)(squeeze and excitation, SE)模塊[11], 結(jié)合特征通道間的作用關(guān)系改善模型的特征表達(dá)能力. SE模塊主要包括兩部分, 即Squeeze和Excitation. 圖2(B)為SE網(wǎng)絡(luò)模塊, 其中:Fsq(·)表示對(duì)輸出特征圖進(jìn)行全局平均池化, 以降低特征維度到1×1×C,C表示通道數(shù);Fex(·,W)通過(guò)全連接層和非線性學(xué)習(xí)得到特征圖各通道的權(quán)重值; 最后經(jīng)過(guò)Fscale(·,·)將各通道的權(quán)重信息融合到特征圖像中. 本文通過(guò)上述過(guò)程提取的多尺度和多維度特征信息以殘差網(wǎng)絡(luò)結(jié)構(gòu)[12]中跳躍連接的思想, 與圖2(A)的輸入特征圖進(jìn)行融合, 其目的是防止網(wǎng)絡(luò)梯度消失, 同時(shí)為后續(xù)解碼模塊保留更多的空間上下文信息, 提升分割精度.
圖2 多尺度和多維度特征融合模塊Fig.2 Multi-scale and multi-dimensional feature fusion blocks
實(shí)驗(yàn)硬件環(huán)境: 服務(wù)器Intel Xeon CPU E5-2620 v4, 內(nèi)存64 GB DDR4 MHz, NVIDIA GeForce GTX 1080 Ti獨(dú)立顯卡3張. 軟件環(huán)境: Ubuntu 16.04 LTS 64位操作系統(tǒng), 基于PyTorch框架, CUDA版本10.0.
采用國(guó)際皮膚影像協(xié)會(huì)(international skin imaging collaboration, ISIC)出版的ISIC2018皮膚鏡檢查圖像數(shù)據(jù)集[13], 該數(shù)據(jù)集來(lái)自病變分割、 皮膚鏡特征檢測(cè)和疾病分類數(shù)據(jù). 該數(shù)據(jù)集共包含2 594張圖片, 本文參考文獻(xiàn)[14]的方法, 將數(shù)據(jù)集劃分為訓(xùn)練集(1 815張)、 驗(yàn)證集(259張)和測(cè)試集(520張). 采用文獻(xiàn)[15]的方法進(jìn)行數(shù)據(jù)增強(qiáng), 包括水平翻轉(zhuǎn)、 垂直翻轉(zhuǎn)和對(duì)角線翻轉(zhuǎn). 圖像預(yù)處理主要包括HSV顏色空間中的顏色抖動(dòng)和圖像隨機(jī)移動(dòng), 圖片大小調(diào)整為448×448.
模型訓(xùn)練過(guò)程中, 采用Adam優(yōu)化器, batch_size=8, epoch=100, 初始學(xué)習(xí)率lr設(shè)為0.000 2, 當(dāng)損失值連續(xù)10個(gè)epoch遞增時(shí), 更新學(xué)習(xí)率為lr/2.
為評(píng)價(jià)本文的分割效果, 本文采用3個(gè)評(píng)價(jià)指標(biāo), 即分割準(zhǔn)確率Acc、 靈敏度Sen和AUC. 計(jì)算公式如下:
Acc=(TP+TN)/(TP+TN+FP+FN),
(4)
Sen=TP/(TP+FN),
(5)
其中TP表示真陽(yáng)率, TN表示真陰率, FP表示假陽(yáng)率, FN表示假陰率. AUC表示ROC曲線下的區(qū)域, 用于衡量分割性能, 其取值范圍為0~1, AUC值越大說(shuō)明分割性能越好.
將本文實(shí)驗(yàn)結(jié)果與文獻(xiàn)[8]和文獻(xiàn)[14]在測(cè)試數(shù)據(jù)集(520張圖片)上的結(jié)果進(jìn)行對(duì)比, 表1列出了不同方法下的各評(píng)價(jià)指標(biāo)值. 由表1可見(jiàn), 本文方法的Acc,Sen,AUC評(píng)價(jià)指標(biāo)結(jié)果分別為0.949,0.835,0.980, 均優(yōu)于其他方法. 圖3為本文方法所得的ROC曲線. 圖4為不同方法對(duì)ISIC2018數(shù)據(jù)集上不同皮膚鏡下4張圖片的分割結(jié)果. 由圖4可見(jiàn), 在不同背景環(huán)境和不同大小皮膚病變區(qū)域的分割中, 本文方法的分割效果優(yōu)于U-Net網(wǎng)絡(luò)方法.
圖3 本文方法在ISIC數(shù)據(jù)集上的ROC曲線Fig.3 ROC curve of proposed method on ISIC dataset
圖4 不同方法對(duì)ISIC2018數(shù)據(jù)集上4張圖片的分割結(jié)果Fig.4 Segmentation results of four images on ISIC2018 dataset by different methods
表1 不同方法在ISIC2018數(shù)據(jù)集上分割結(jié)果的對(duì)比Table 1 Comparison of segmentation results of different methods on ISIC2018 dataset
綜上所述, 本文提出的基于U-Net多尺度和多維度特征融合方法將提取的多尺度網(wǎng)絡(luò)深層語(yǔ)義特征和維度信息進(jìn)行融合, 有效解決了U-Net網(wǎng)絡(luò)特征編碼模塊在提取語(yǔ)義特征過(guò)程中尺度單一和空間上下文信息丟失等問(wèn)題, 提高了醫(yī)學(xué)圖像的分割精度.