康文瀚 范 勇 高 琳 蔣 勇 高毓曼
(1.西南科技大學計算機科學與技術學院 四川綿陽 621010;2.成都信息工程大學區(qū)塊鏈產(chǎn)業(yè)學院 成都 610225)
深度學習方法在醫(yī)學領域涉及CT圖像分割、MRI圖像分割、計算機輔助診斷等等。完全卷積神經(jīng)網(wǎng)絡[1]或編碼器-解碼器結構[2]在醫(yī)學圖像分割領域中較為常見。2015年MICCAI會議上提出的U-Net[3]分割模型采用對稱路徑融合多層信息獲得多尺度特征。一方面,U-Net網(wǎng)絡在Encoder階段獲取圖像中的上下文信息,在Decoder階段采用上采樣方法將圖像恢復到輸入圖像分辨率。另一方面,U-Net網(wǎng)絡通過長連接(Long-concatenate)將圖像的全局信息和局部信息進行融合,提高了網(wǎng)絡對特征信息的學習敏感度。文獻[4]基于U-Net結構提出了以三維數(shù)據(jù)作為輸入進行訓練的3DU-Net模型,3DU-Net網(wǎng)絡解決了由于二維切片造成的上下文信息丟失的問題。文獻[5]提出U-Net++網(wǎng)絡模型。U-Net++在Unet基礎上采用密集跳躍連接彌補缺失的語義信息。文獻[6]提出的Res-UNet模型是在U-Net基礎上通過使用加權注意力機制和跳躍連接使模型可以學到更多的鑒別特征。文獻[7]結合可變形卷積和U-Net網(wǎng)絡提出DU-Net網(wǎng)絡,該網(wǎng)絡通過大量的上采樣提取上下文信息獲得更高的輸出分辨率。文獻[8]引入密集連接模塊到U-Net結構中,使模型達到去除偽影的效果。文獻[9]采用兩個Vnet-S網(wǎng)絡級聯(lián)的方式分別對CT影像進行粗分割和細分割。MultiResUNet[10]利用Multiblock擴展U-Net模型,使網(wǎng)絡能夠從多分辨率進行分析訓練。文獻[11]利用全尺度跳躍連接代替U-Net模型的長連接,使得高級語義信息與低級語義信息進行結合,獲得更高的分割精度。文獻[12]引入DenseNet模塊應用于卷積層中,用于提升對小區(qū)域中特征提取能力和避免梯度消失問題。文獻[13]提出的CRF 3DU-Net網(wǎng)絡分別利用3DU-Net和全連接條件隨機場對圖像進行粗分割和細分割,可以使網(wǎng)絡提高像素間的關聯(lián)性。文獻[14]將最優(yōu)密集預測單元引入Deeplabv3+ 網(wǎng)絡中減少分割過程中出現(xiàn)的不完全分割情況。雖然上述網(wǎng)絡對U-Net模型的改進在分割中具有積極作用,但都忽略了圖像中遠距離特征之間的關聯(lián)關系。
針對神經(jīng)網(wǎng)絡中忽略圖像中遠距離特征之間的關聯(lián)關系造成的過分割問題,本文在編碼器階段與解碼器階段之間采用雙路徑長連接的方式使模型在每個特征之間建立關聯(lián)關系,豐富圖像的有效特征且有利于解決梯度消失問題。雙路徑的長連接方式分別由建立特征之間關聯(lián)關系的注意力路徑和豐富特征的殘差路徑組成,有利于減少醫(yī)學圖像中器官的過分割問題,獲得更好的分割效果。在卷積層采用改進的瓶頸結構替換傳統(tǒng)卷積層,利用上采樣與下采樣后的特征彌補丟失的淺層特征。在MSDSpleen數(shù)據(jù)集[15]上驗證了模型的有效性。
本文提出一種基于U型結構的具有雙路徑長連接方式的醫(yī)學分割模型AR-UNet(Attention-Residual U Network),模型總體結構如圖1所示。
圖1 AR-UNet網(wǎng)絡結構圖Fig.1 Network structure diagram of AR-UNet
圖1中注意力路徑代表雙路徑長連接方式中的建立特征之間關聯(lián)關系的注意力路徑,殘差路徑代表雙路徑長連接方式中的由N個殘差塊組成的提取特征的殘差路徑。在Encoder階段和Decoder階段,每一層由改進的瓶頸結構組成。Encoder階段與Decoder階段之間通過雙路徑的方式進行長連接。
AR-UNet與U-Net不同,受文獻[16]影響 AR-UNet在U-Net基礎上利用改進的瓶頸結構替換傳統(tǒng)的卷積層,使模型利用上采樣和下采樣后的特征彌補卷積過程中所造成的淺層特征信息丟失。借鑒文獻[17]在上采樣和下采樣過程中使用卷積替換池化層有助于增加相鄰特征間的依賴性。AR-UNet利用雙路徑長連接的方式替換U-Net中的長連接方式,可以使模型在每個特征之間建立關聯(lián)關系,同時提取更豐富的多尺度特征。
采用邊界投影獲取器官邊界的預處理方式與對像素的預處理方式不同。該預處理方式利用球坐標系將前景體素與背景體素之間的連續(xù)坐標投影到矩形框,從而獲取用于AR-UNet網(wǎng)絡模型訓練的器官邊界部分。預處理具體步驟如下:
步驟1:定義一個帶符號的矩陣C(x,y,z),C(x,y,z) 包含每個整數(shù)坐標(x,y,z)與邊界β之間帶符號的歐式距離,用于判斷坐標體素與邊界之間的距離偏差。
(1)
其中:V表示真值標簽的坐標集合;當C(x,y,z)為正時,表示坐標體素位于邊界內部;當C(x,y,z)為負時,表示坐標體素位于邊界外部;當C(x,y,z)為 0時,表示坐標體素位于邊界。
(2)
(3)
近年來基于編碼器和解碼器的思想廣泛應用到深度學習。在編碼器階段由于下采樣造成的邊緣信息的丟失,在解碼器階段通過反卷積所彌補的僅僅是丟失的部分邊緣信息,因此長連接成為編碼器與解碼器之間彌補信息丟失的重要方式。
在器官圖像分割任務中,本文在經(jīng)過彈性邊界投影(Elastic boundary projection ,EBP)[18]預處理后的邊界圖像中引入由注意力路徑和殘差路徑組成的雙路徑長連接方式,該方式不僅在圖像中每個空間位置上的特征之間建立關聯(lián)關系,而且豐富了在長連接過程中對不同尺度特征的信息提取。雙路徑長連接方式如圖2所示。圖2中路徑1為注意力機制路徑,該路徑使網(wǎng)絡能夠在不同尺度的特征圖中建立特征之間的關聯(lián)關系,這樣可以脫離空間距離的限制,使圖像中相似的特征之間具有長依賴關系,從而通過聚合每個空間位置上的特征豐富局部特征的上下文信息,提高局部特征的表達能力,達到減少器官過分割的目的。路徑1將每個尺度在Encoder階段的輸出特征圖L輸入空間注意力機制,對圖像的每個特征之間建立關聯(lián)關系。路徑2為殘差路徑,該路徑對編碼器階段不同尺度的特征進行提取,這樣可以豐富編碼器和解碼器之間的特征信息。路徑2將每個尺度在Encoder階段的輸出特征圖L輸入由N個殘差塊組成的殘差路徑,在提取豐富的特征信息的同時解決梯度消失問題。
圖2 雙路徑長連接結構圖Fig.2 Structure diagram of dual-path long connection
雙路徑長連接方式過程可用式(4)描述:
Fo=f1×1(Att(L)+Res(L))
(4)
其中:輸入特征圖為L∈Rc×w×h;c,w,h分別代表通道數(shù)、寬和高;Att表示注意力路徑;Res表示殘差路徑操作;fN×N表示包括卷積核為N×N的卷積計算。
注意力路徑Att 操作過程如下:當L輸入注意力路徑時會進行 4 個分支操作,其中reshape,transpose分別表示矩陣變維操作和矩陣轉置操作。
分支1用于獲取特征圖的空間位置信息。分支1過程如下:
L1=f1×1(f1×1(L)+f3×3(L))
(5)
(6)
分支2生成由每個空間位置上的特征與所有空間位置上的特征之間關聯(lián)起來的關系圖S,用于捕獲每個空間位置上的特征之間的關聯(lián)關系。分支2整體過程如式(7):
(7)
分支3利用關系圖S與輸入特征圖生成由所有特征相互關聯(lián)后的特征圖。分支3過程如下:
L3=f1×1(f1×1(L)+f3×3(L))
(8)
M=reshape(reshape(L3)?reshape(S))
(9)
其中:L3∈Rc×w×h;M∈Rc×w×h。
分支4如式(10)、式(11):
FA=εM+(f1×1(L)+f3×3(L))
(10)
LA=f1×1(FA)+f3×3(FA)
(11)
其中,F(xiàn)A∈Rc×w×h;LA∈Rc×w×h;ε為尺度系數(shù)。ε初始化為0,在網(wǎng)絡模型中逐漸學習尺度系數(shù)ε,通過所有相互關聯(lián)的特征與原始特征的加權和的方法聚集每個空間位置中的特征,從而豐富局部特征的上下文信息,達到減少器官過分割的目的。
殘差路徑Res操作的過程如下:
resi=f1×1(Fi)+f3×3(Fi)
(12)
Fi=resi-1
(13)
Res(L)=resN
(14)
其中:resi表示第i+1個殘差塊;Fi表示經(jīng)過第i個殘差塊后的特征圖;i表示殘差路徑中存在的殘差塊數(shù)量,i=0,1,2,3,…N。當i=0時表示輸入特征圖L。
本文使用改進的瓶頸結構替代傳統(tǒng)的卷積層,能夠利用下采樣與上采樣后的特征彌補卷積過程中造成的淺層特征丟失。
文獻[19]指出傳統(tǒng)的卷積層和池化層中進行特征提取時普遍存在特征丟失等問題,并且隨著網(wǎng)絡模型逐漸龐大和網(wǎng)絡層次逐漸加深,梯度消失也隨之出現(xiàn)。為克服上述問題,借鑒文獻[16],本文引入改進的瓶頸結構替換傳統(tǒng)的卷積層。傳統(tǒng)的殘差結構和本文中所采用的改進的瓶頸結構分別如圖3所示。圖中Conv3×3表示卷積核為3×3的卷積操作,BN表示歸一化操作,ELU[20]表示激活函數(shù)。改進的瓶頸結構利用特征融合彌補了卷積操作中造成的淺層特征丟失的問題。改進的瓶頸結構具體步驟如下:
圖3 傳統(tǒng)的殘差結構與改進的瓶頸結構示意圖Fig.3 Schematic diagrams of traditional residual structure and improved bottleneck structure
步驟1:對于輸入改進的瓶頸結構的特征圖Fin,經(jīng)過一次ConvBlock1操作產(chǎn)生的特征圖F1與下一次ConvBlock2操作產(chǎn)生的特征圖F2進行融合,獲得新的特征圖F12。對特征圖F1中的特征充分利用,彌補了在ConvBlock2操作中造成的特征丟失。
步驟2:F12經(jīng)過ConvBlock3操作后產(chǎn)生特征圖F3。
步驟3:與輸入改進的瓶頸結構的特征圖Fin再次進行特征融合獲得單個尺度的輸出特征圖Fout。對Fin中的特征充分利用,彌補由于ConvBlock1,ConvBlock2,ConvBlock3操作造成的特征丟失。
使用醫(yī)學分割中的公共數(shù)據(jù)集用于評估本文方法的有效性。MSDSpleen數(shù)據(jù)集,數(shù)據(jù)來自Memorial Sloan Kettering Cancer Center的捐贈者。MSDSpleen數(shù)據(jù)集中包括41張高分辨率CT圖像,從中隨機選擇21張作為訓練集,20張作為驗證集和測試集,其中圖像的寬和高都為512像素,沿著軸向的長度范圍在31像素到168像素之間。
實驗的PC環(huán)境為Ubuntu 20.04.2系統(tǒng),Intel(R) Xeon(R) CPU,GPU為NVIDIA GeForce 1080Ti,12 GB內存。在Pytorch深度學習框架中進行訓練與測試。
在實驗過程中首先使用彈性邊界投影(Elastic boundary projection,EBP)[18]預處理方式將高分辨率的CT圖像處理為尺寸為120×120像素的2D圖像。其次將預處理后的2D圖像輸入到網(wǎng)絡中進行訓練,得到模型的最優(yōu)參數(shù)。最后將測試集中的圖像輸入具有最優(yōu)參數(shù)的模型中得到分割結果的CT圖像。訓練過程中采用小批量樣本的方式訓練模型,小批量樣本大小設置為16個,損失函數(shù)采用MSEloss,采用初始學習率為0.001和權重衰減系數(shù)為0.000 1的Adam優(yōu)化器,并且每經(jīng)過1個epoch學習率變?yōu)樵瓉淼?/2,雙路徑長連接方式中選用殘差塊數(shù)量N=3。
本文實驗以DSC度量(Dice similarity coefficient)、Jaccard相似系數(shù)(Jaccard similarity coefficient)、精確率(Precision)、過分割率(FPR ,F(xiàn)alse positive rate)為評價指標。
(15)
(16)
(17)
(18)
其中:TP表示真陽性;FP表示假陽性;TN表示真陰性;FN表示假陰性。DSC度量的取值范圍[0,1],DSC值越大表示預測的分割結果與真值標簽重合區(qū)域占比越大,即預測的分割結果越好。Jaccard相似系數(shù)用于衡量分割預測的分割結果和真值標簽之間的相似度,Jaccard值越大表示兩者之間的相似度越高,即預測的分割結果越接近真值標簽。精確率表示在預測的分割結果中判斷為陽性的樣本中真陽性的比例,精確率值越大表示分割結果越好。過分割率表示在預測的分割結果中將真值標簽以外的部分分割出來的比率。過分割率越低表示在分割結果中出現(xiàn)假陽性的占比越小。
為了驗證雙路徑長連接方式和改進的瓶頸結構的有效性,本文在MSDSpleen數(shù)據(jù)集上分別做了EBP+殘差路徑(EBP+Res),EBP+注意力路徑(EBP+Att),EBP+雙路徑長連接(EBP+DoubleCat),EBP+改進的瓶頸結構(EBP+Bot)和EBP+雙路徑長連接+改進的瓶頸結構(EBP+DoubleCat+Bot)實驗。實驗結果如表1所示。
表1 模型有效性驗證Table 1 Verification of model effetiveness
從表1可知,EBP和EBP+Res,EBP+Att,EBP+DoubleCat相比較,雙路徑長連接方式能夠有效利用圖像中的特征信息,同時提取更多有效特征,它通過注意力路徑使模型建立特征之間的關聯(lián)關系,通過殘差路徑使模型在長連接中提取豐富的特征信息,從而提升算法精度。EBP和EBP+Bot比較表明,改進的瓶頸結構對算法的提升有促進作用,改進的瓶頸結構能夠將上采樣與下采樣后的特征用于彌補卷積造成的淺層特征信息丟失的問題,可以使網(wǎng)絡模型保留更完整的特征信息。由EBP+DoubleCat和EBP+Bot的評價指標可知,雙路徑長連接方式和改進的瓶頸結構均能提高分割精度,雙路徑長連接方式能直接根據(jù)編碼器階段的特征圖學習圖像中的重要特征信息從而提升算法效果,而改進的瓶頸結構依托彌補丟失的淺層特征信息提升性能。在改進的瓶頸結構的基礎上添加雙路徑長連接方式不僅能豐富特征信息,還能通過建立每個特征間的關聯(lián)關系充分利用這些特征,提升算法的分割效果。
為驗證AR-UNet模型的優(yōu)越性,與5個算法(U-Net[3],EBP[18],Deeplabv3+[21],CCNet[22],ResUNet[23])進行對比,其中包括了用于分割任務的先進模型。U-Net是醫(yī)學圖像中用于分割的2D模型,為了有效對比分割精度,統(tǒng)一采用彈性邊界投影的圖像預處理應用于所有對比算法中。EBP采用的模型為2D的VNet[24]模型。Deeplabv3+模型是一個2D模型,它采用金字塔結構和編解碼器結構結合的方法提高圖像分割精度。CCNet利用十字交叉注意力模塊捕獲每個像素間的長依賴關系獲得更多的有用上下文信息。ResUNet將殘差結構與U-Net結構相結合提高醫(yī)學圖像分割領域中的精度。本文算法及其他5個算法在MSDSpleen數(shù)據(jù)集上的DSC度量、Jaccard相似系數(shù)、精確率、過分割率如表2所示。
從表2可知,本文算法在DSC度量、Jaccard相似系數(shù)、精確率、過分割率上均比其他算法表現(xiàn)優(yōu)異。在MSDSpleen數(shù)據(jù)集上DSC度量達到了93.60%,超越了其他5種算法。圖4展示了所有模型在MSDSpleen數(shù)據(jù)集上定性結果比較。從定性和定量比較的結果可以看出,雙路徑長連接方式與改進的瓶頸結構能夠明顯提升分割效果,有雙路徑長連接方式的網(wǎng)絡能夠使圖像中相似的特征之間建立長依賴關系并提取更多特征,所以器官圖像更容易被分割。此外,改進的瓶頸結構可彌補卷積過程中造成的部分信息丟失,能夠減小特征信息丟失帶來的圖像分割不佳的影響。
表2 不同算法在MSDSpleen數(shù)據(jù)集上的實驗結果Table 2 Experimental results of different algorithms on MSDSpleen dataset
圖4 模型定性結果比較Fig.4 Comparison of qualitative results of models
本文提出了一個提取豐富的特征信息并將圖像中的特征信息相互關聯(lián)的用于CT圖像器官分割的模型AR-UNet。AR-UNet網(wǎng)絡中采用了雙路徑長連接方式,它們代替編碼器和解碼器之間的長連接方式使模型在每個特征之間建立關聯(lián)關系進而增加相似的特征之間的長依賴關系,同時提取豐富的有效信息。該網(wǎng)絡通過使用改進的瓶頸結構替換傳統(tǒng)的卷積層彌補丟失的淺層特征。實驗結果表明,在醫(yī)學圖像分割的公共數(shù)據(jù)集MSDSpleen中,AR-UNet能夠有效提高器官圖像分割的精度,同時也說明,醫(yī)學圖像分割中不僅相鄰的特征信息之間可以提供有效的上下文信息,遠距離的相似特征之間也會提供有效信息。