張相芬,劉艷,袁非牛
(上海師范大學(xué)信息與機電工程學(xué)院,上海 201400)
醫(yī)學(xué)圖像分割能夠最大程度地為醫(yī)生提供患者的信息,對疾病的診斷和治療手段的選擇具有重要意義。人腦圖像分割是根據(jù)強度同質(zhì)性等特征將腦組織分割成白質(zhì)(WM)、灰質(zhì)(GM)和腦脊液(CSF)。受腦組織復(fù)雜特征的限制,腦組織的分割面臨極大的挑戰(zhàn)。
現(xiàn)有的腦組織分割方法主要分為基于傳統(tǒng)算法的分割方法和基于深度學(xué)習(xí)的分割方法[1]。基于傳統(tǒng)算法的腦組織分割方法包括基于區(qū)域增長、邊緣、聚類和閾值的分割方法。其中,SOMASUNDARAM等[2]根據(jù)不同腦組織的強度信息自動選取種子點,并進行多種子點的區(qū)域生長,最終得到分割結(jié)果。LI等[3]使用K-means 聚類方法實現(xiàn)對腦組織的分割,方法簡單且分割速率較快。SALMAN等[4]提出一種結(jié)合K-means、聚類、分水嶺變換等多種傳統(tǒng)分割算法的邊緣檢測分割網(wǎng)絡(luò),分階段地完成圖像分割。但傳統(tǒng)分割方法易受噪聲影響,導(dǎo)致分割精度降低。基于深度學(xué)習(xí)的分割方法[5]多借助端到端的網(wǎng)絡(luò),這種網(wǎng)絡(luò)不易受噪聲影響,能更好地學(xué)習(xí)圖像特征,因此廣泛應(yīng)用在醫(yī)學(xué)圖像分割任務(wù)中。例如,RONNEBERGER等[6]提出U-Net 網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠提取單層二維圖像的上下文信息,但不能獲得醫(yī)學(xué)圖像的三維空間信息。CICEK等[7]設(shè)計3D U-Net 網(wǎng)絡(luò)模型,將3D 的卷積、池化、反卷積等操作引入到U-Net 中,從而獲取醫(yī)學(xué)圖像的3D 空間信息,但僅依靠單一模態(tài)提供的信息,存在局限性問題。此外,受上采樣、下采樣操作的影響,深度學(xué)習(xí)網(wǎng)絡(luò)不能準確表達輸出特征,進一步影響分割精度。LONG等[8]提出MSCD-UNet 網(wǎng)絡(luò),采用多分支池化信息提取器緩解最大池化方法存在的信息丟失問題,使得分割精度得到一定程度的提升,但是其網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,導(dǎo)致參數(shù)量增加、分割效率降低。
針對以上問題,本文提出基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)MCRAIP-Net。以3D U-Net作為基礎(chǔ)網(wǎng)絡(luò),為充分融合多模態(tài)特征信息,構(gòu)建多模態(tài)編碼器模塊(Multi-modality Encoder Module,MEM)和雙通道交叉重構(gòu)注意力(Dual-channel Cross Reconstruction Attention,DCRA)模塊,此外,設(shè)計倒金字塔解碼器(IPD)模塊,以融合多模態(tài)圖像的特征,解決解碼器最后一層輸出特征表達不準確的問題。
3D U-Net[7]是一個具有對稱編碼器和解碼器的神經(jīng)網(wǎng)絡(luò)。3D U-Net 中編碼器和解碼器通過跳躍連接將同等分辨率的特征相連接,以提供較高的分辨率特征。此外,3D U-Net 結(jié)構(gòu)設(shè)計中將3D 醫(yī)學(xué)圖像數(shù)據(jù)作為輸入并使用3D 卷積、3D 最大池化和3D 反卷積來實現(xiàn)特征提取和特征恢復(fù)。這種方式可以捕獲圖像的3D 空間特征以提高分割精度。SUN等[9]基于3D U-Net 提出一種改進的具有體積特征重新校準層的3D U-Net,稱為SW-3D-Unet,以充分利用切片間的空間上下文特征。HUANG等[10]提出的3D RU-Net,從編碼器的區(qū)域特征中切出多級感興趣區(qū)域(Region of Interest,ROI),從而擴大了3D RU-Net適用的體積大小和有效感知領(lǐng)域。
上述自動分割方法在醫(yī)學(xué)圖像分割方面具有較優(yōu)的性能,但多數(shù)忽略了單一模態(tài)數(shù)據(jù)信息的局限性。因此,本文引入注意力機制,設(shè)計多模態(tài)交叉重構(gòu)的倒金字塔分割網(wǎng)絡(luò),以3D U-Net 為基礎(chǔ),在輸入層引入雙通道交叉注意力機制和多模態(tài)融合策略,從而提高圖像的分割精度。
在人們感知中,從不同感官獲得的信息會被注意力機制加權(quán)[11]。這種注意力機制允許人們選擇性地關(guān)注重要信息。受此啟發(fā),Google DeepMind 團隊在執(zhí)行圖像分類任務(wù)時提出注意力機制,從而掀起了注意力機制研究的熱潮。例如,SENet[12]通過顯式建模通道之間的連接關(guān)系,以自適應(yīng)地重新校準通道特征響應(yīng)。殘差注意力網(wǎng)絡(luò)[13]是通過堆疊注意力模塊構(gòu)建的,這些注意力模塊生成注意力感知特征。SENet 和殘差注意力網(wǎng)絡(luò)分別是采用通道注意力模塊和空間注意力模塊的代表。CBAM[14]是一種輕量級的通用模塊,同時采用空間和通道注意力來提高深度神經(jīng)網(wǎng)絡(luò)的性能。除了通道注意力和空間注意力之外,一些研究人員還使用其他注意力機制。例如,為了提取相關(guān)的空間圖像特征,SUN等[15]提出一種用于左心室分割的新堆棧注意U-Net。
多種方法利用注意力機制進行醫(yī)學(xué)圖像分割。YANG等[16]提出用于舌下小靜脈分割的協(xié)同注意網(wǎng)絡(luò),它可以自動學(xué)習(xí)靜脈目標結(jié)構(gòu)。KAUL等[17]提出將注意力整合到全卷積網(wǎng)絡(luò)中的FocusNet,通過卷積編碼器生成的特征圖實現(xiàn)醫(yī)學(xué)圖像分割。受這些注意力機制的啟發(fā),本文設(shè)計雙通道交叉注意力模塊以獲得更多相關(guān)特征,并將這一思想與多模態(tài)融合機制相結(jié)合以關(guān)注更多的大腦細節(jié)信息。
在醫(yī)學(xué)圖像分析中,由于多模態(tài)(如T1、T1-IR、T2-FLAIR 等)數(shù)據(jù)可以為醫(yī)學(xué)研究提供互補信息,因此多模態(tài)的融合信息被廣泛用于腦組織分割[18]和病變分割[19]。根據(jù)醫(yī)學(xué)圖像分割的深度學(xué)習(xí)網(wǎng)絡(luò)[20],基于多模態(tài)的圖像分割網(wǎng)絡(luò)分為層級融合網(wǎng)絡(luò)、決策級融合網(wǎng)絡(luò)和輸入級融合網(wǎng)絡(luò)。在層級融合網(wǎng)絡(luò)中,將每個模態(tài)的圖像作為輸入來訓(xùn)練個體增強網(wǎng)絡(luò),這些學(xué)習(xí)到的個體特征表示在網(wǎng)絡(luò)層中進行融合。層級融合網(wǎng)絡(luò)可以有效地集成和充分利用多模態(tài)圖像[21]。在決策級融合網(wǎng)絡(luò)[22]中,以每個模態(tài)圖像作為單個分割網(wǎng)絡(luò)的單一輸入,將各自的分割結(jié)果相結(jié)合得到最終的分割結(jié)果。輸入級融合網(wǎng)絡(luò)[23]通常在通道維度上將多模態(tài)圖像疊加得到融合特征,用于訓(xùn)練分割網(wǎng)絡(luò)。
本文考慮到輸入級融合網(wǎng)絡(luò)可以最大限度地保留原始圖像信息并學(xué)習(xí)圖像內(nèi)在特征,采用輸入級融合網(wǎng)絡(luò)來充分利用多模態(tài)圖像的特征表示。為了更加關(guān)注重要信息,本文在輸入級融合網(wǎng)絡(luò)中添加了雙通道交叉注意力機制,既能夠融合多模態(tài)特征又能關(guān)注到其中的大腦細節(jié)信息。
本文引入注意力機制,提出一種新穎的多模態(tài)交叉重構(gòu)倒金字塔網(wǎng)絡(luò)MCRAIP-Net,實現(xiàn)醫(yī)學(xué)腦圖像的分割,該網(wǎng)絡(luò)主要包含多模態(tài)交叉重構(gòu)編碼結(jié)構(gòu)和倒金字塔解碼器結(jié)構(gòu)兩個部分。
由于不同模態(tài)的MRI 圖像能夠表征不同的信息,因此有效地融合多模態(tài)信息對于實現(xiàn)高質(zhì)量的分割具有重要意義。本文使用并行前饋編碼器結(jié)構(gòu)提取不同模態(tài)的特征,并在每個分辨率上進行融合,該融合過程主要分為兩個步驟:1)在多模態(tài)編碼器模塊中進行初步融合;2)將初步融合的特征送入雙通道交叉重構(gòu)注意力模塊中進一步融合。
在初步融合過程中,本文將T1、T1-IR 和T2-FLAIR三個模態(tài)的MRI 數(shù)據(jù)作為輸入,采用最大池化對每個模態(tài)的數(shù)據(jù)獨立地進行下采樣,從而有效捕獲3D 圖像的上下文信息。將同一分辨率級的特征按像素級相加,這樣的設(shè)計不僅能夠提高網(wǎng)絡(luò)的表達能力,還可以減少參數(shù)量。多模態(tài)編碼器模塊結(jié)構(gòu)如圖1 所示。假設(shè)第l層的三個模態(tài)特征在初步融合后得到的特征為Featurel_1 和Featurel_2,其中l(wèi)∈1、2、3,至此,完成多模態(tài)的初步融合。
圖1 多模態(tài)編碼器模塊結(jié)構(gòu)Fig.1 Structure of multi-modality encoder module
第二步融合是對初步融合的特征進行交叉重構(gòu)融合。雙通道交叉重構(gòu)注意力模塊結(jié)構(gòu)如圖2所示。
圖2 雙通道交叉重構(gòu)注意力模塊結(jié)構(gòu)Fig.2 Structure of dual-channel cross reconstruction attention module
DCRA 模塊的輸入是第一步的融合特征Featurel_1 和Featurel_2。兩個融合特征的大小均為I×J×K,其中,I、J、K分別表示特征圖的長、寬、高。首先,分別對兩個輸入進行一次卷積,其目的是充分融合每個輸入中包含的兩個模態(tài)信息,在卷積之后得到特征F1、F2;然后,將特征F1、F2 按像素級相加得到特征fl,ch;最后,使用全局平均池化對特征fl,ch沿軸向、冠狀和矢狀方向進行空間信息壓縮,以獲得空間統(tǒng)計信息,其中ch 表示第ch 個通道,ch ∈[1,Ch]。的計算過程如式(1)~式(3)所示:
其中:ωl,ch(i,j,k)表示空間像素(i,j,k)的權(quán)重值。
每個像素通道的加權(quán)張量是使用所有模態(tài)的空間信息產(chǎn)生的,這樣能夠增強網(wǎng)絡(luò)對圖像特征信息的表達。本文將特征F1和F2 分別與重構(gòu)的三維權(quán)重相乘并按像素級相加,得到重構(gòu)注意的特征,該特征能更好地表達多模態(tài)的三維特征信息。
本文提出一種基于3D U-Net的MCRAIP-Net網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,在圖中每個特征上都標記了通道數(shù)量。
圖3 多模態(tài)交叉重構(gòu)的倒金字塔網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of inverted pyramid network with multi-modality cross reconstruction
為了對當(dāng)前分辨率下的特征向量進行重構(gòu)加權(quán),本文對編碼器每一個分辨率級的特征都使用了雙通道交叉重構(gòu)注意力模塊,以捕獲更有效的特征,將雙通道交叉重構(gòu)注意力模塊的輸出特征跳轉(zhuǎn)連接到同一分辨率級的解碼器中,降低下采樣時信息丟失對分割精度的影響。在深度神經(jīng)網(wǎng)絡(luò)中,通常僅對網(wǎng)絡(luò)最后一層的輸出特征進行分類,該特征經(jīng)過多次連續(xù)的下采樣和上采樣后得到,在一定程度上存在表達不準確的問題。為解決該問題,本文采用倒金字塔解碼器(如圖3 中虛線框所示),將解碼器中每一層的特征都參與到最后的分類任務(wù)中。具體做法是:將低分辨率特征通過雙線性插值的方法恢復(fù)到輸入圖像大小,再將這些特征進行拼接并通過3×3×3 的卷積來實現(xiàn)融合,對融合特征進行1×1×1 卷積,最后采用Sigmoid 函數(shù)對卷積結(jié)果進行判決,最終完成分割任務(wù)。
本文實驗均在Tensorflow 開源框架下實現(xiàn),訓(xùn)練和測試的平臺 是Intel?Xeon?處理器,兩塊NVIDIA GeForce GT1080ti顯卡(顯 存8 GB)的windows(64 位)系統(tǒng)。網(wǎng)絡(luò)權(quán)重更新迭代次數(shù)設(shè)為5 000 次,網(wǎng)絡(luò)模型的初始學(xué)習(xí)率為0.001,權(quán)重每更新1 000 次學(xué)習(xí)率下降1/2。
本文為了更好地評價所提的網(wǎng)絡(luò)模型,在兩個主流的醫(yī)學(xué)腦圖像數(shù)據(jù)集MRBrainS13 和IBSR18 上進行實驗。MRBrainS13 數(shù)據(jù)集是對不同程度白質(zhì)病變的糖尿病患者采集獲得的,該訓(xùn)練數(shù)據(jù)集有5 個研究對象(2 個男性、3 個女性),對每個成像受試者進行掃描,獲取多模態(tài)的MRI 大腦數(shù)據(jù),數(shù)據(jù)包括T1、T1-IR 和T2-FLAIR 三種模態(tài),每種模態(tài)數(shù)據(jù)的大小為240×240×240。在實驗中,本文將數(shù)據(jù)的80%作為訓(xùn)練集,10%作為驗證集,10%作為測試集。所有的圖像都經(jīng)過了偏差矯正,其目標分割圖像由醫(yī)學(xué)專家手工分割獲得。IBSR18 數(shù)據(jù)集包含18 個T1 MRI 數(shù)據(jù),大小均為256×256×128,MRI掃描圖像和醫(yī)學(xué)專家手工分割結(jié)果由馬薩諸塞州綜合醫(yī)院的形態(tài)測量分析中心提供。
為了評價本文算法的有效性和可靠性,本文使用最常用的三個評價指標來評估網(wǎng)絡(luò)對腦組織(WM、GM和CSF)的分割性能。這三個指標分別是Dice系數(shù)(Dice Coefficient,DC)、絕對體積差(Absolute Volume Difference,AVD)和豪斯多夫距離(Hausdorff Distance,HD),其表達式如式(5)所示:
其中:P表示預(yù)測模型的分割圖像;G表示人工分割的真實圖像;VP表示預(yù)測分割結(jié)果的體積;VG表示真實分割圖像的體積。h(P,G)和h(G,P)的表達式分別如式(6)和式(7)所示:
Dice 系數(shù)越大表示分割越準確,HD 和AVD 值越小表示分割性能越好。
本文基于MRBrainS13 數(shù)據(jù)集進行實驗,以驗證所提各模塊的有效性,實驗結(jié)果如表1 所示。
表1 在MRBrainS13 數(shù)據(jù)集上的消融實驗結(jié)果Table 1 Results of ablation experiments on the MRBrainS13 dataset
將未嵌入MEM 模塊、DCRA 模塊和IPD 模塊的3D U-Net 作為基礎(chǔ)網(wǎng)絡(luò)。在逐步將MEM、DCRA 和IPD模塊添加到3D U-Net 之后,網(wǎng)絡(luò)的分割性能也相應(yīng)得到提高。在3D U-Net 中加入MEM 模塊后(網(wǎng)絡(luò)模塊表示為3D U-Net+MEM),在9 個評價指標中,除了CSF的AVD 指標以外,相比3D U-Net 其他8 項指標都有所提升,尤其是WM 和GM 的Dice 指標,分別提升了2.03和2.39 個百分點。在3D U-Net+MEM 框架基礎(chǔ)上加入DCRA 模塊后(網(wǎng)絡(luò)模塊表示為3D U-Net+MEM+DCRA),相比3D U-Net+MEM 又有6 個指標得到提升,其中,WM 和GM 的Dice 指標分別從90.89%和87.83%提高到91.57%和88.44%,說明本文構(gòu)造的雙通道交叉重構(gòu)注意力模塊能夠有效提取不同模態(tài)的特征,從而提高網(wǎng)絡(luò)的分割性能。
為驗證IPD 模塊的有效性,本文算法基于3D U-Net+MEM+DCRA+IPD 框架做了第四組實驗。從表1 可以看出,3D U-Net+MEM+DCRA+IPD 框架取得了最優(yōu)的分割結(jié)果。因此,本文提出的算法具有更好的特征提取和分割性能,所提的分割網(wǎng)絡(luò)模型在分割精度上較3D U-Net 有明顯的提升,但是其參數(shù)量比3D U-Net 網(wǎng)絡(luò)增加了將近一倍,因此其運行效率低于3D U-Net 網(wǎng)絡(luò)。
加入不同模塊后模型所需的參數(shù)量以及對每個32×32×32 三維圖像的運行時間對比如表2 所示。從表2 可以看出,雖然MCRAIP-Net 所需參數(shù)量和運行時間較3D U-Net 更多,但表1 數(shù)據(jù)已表明MCRAIPNet 的分割精度最高。
表2 不同模型的參數(shù)量和運行時間對比Table 2 Parameters quantity and running time comparison among different models
本文消融實驗結(jié)果如圖4 所示,本文給出三個分割實例的實驗結(jié)果對比,分別為例1、例2、例3。Ground-Truth 代表真實分割圖像,從圖中方框標記的腦組織細節(jié)信息可以看出,與真實分割結(jié)果對比,本文提出的算法對細節(jié)特征的分割更加準確,進一步驗證本文所提的MEM 模塊、DCRA 模塊以及IPD 模塊的有效性。
圖4 消融實驗的分割結(jié)果Fig.4 Segmentation results of ablation experiment
實驗結(jié)果表明,本文提出的MCRAIP-Net 可以有效地對多模態(tài)數(shù)據(jù)進行訓(xùn)練,并且獲得更優(yōu)的分割結(jié)果。
本文將MCRAIP-Net 算法與四種目前最先進的醫(yī)學(xué)腦圖像分割算法進行對比,包括3D U-Net[7]、HyperDense-Net[24]、MMAN[25]和SW-3D-Unet[9]。實驗統(tǒng)計數(shù)據(jù)如表3 所示。從表3 可以看出,在除了CSF 的Dice 系數(shù)和AVD 以及CSF 的AVD 三個指標之外,本文提出的MCRAIP-Net 算法的6 個指標均優(yōu)于其他算法,本文提出的深度網(wǎng)絡(luò)模型的分割效果總體優(yōu)于其他算法。以GM 的分割為例,本文算法得到的Dice 系數(shù)比SW-3D-Unet 提高2.39 個百分點。從表3 可以看出,本文算法的分割性能相比于3D U-Net 和HyperDense-Net 均有較大的提升,以WM為例,相較于3D U-Net 的Dice 系數(shù)平均提升了2.81 個百分點,相較于HyperDense-Net 的Dice 系數(shù)平均提升2.21 個百分點。因此,本文算法能更準確地完成腦部圖像分割任務(wù)。
表3 在MRBrainS13 數(shù)據(jù)集上不同算法的分割結(jié)果Table 3 Segmentation results among different algorithms on MRBrainS13 dataset
在MRBrainS13 數(shù)據(jù)集上不同算法的實驗結(jié)果對比如圖5 所示。
圖5 在MRBrainS13 數(shù)據(jù)集上不同算法的實驗結(jié)果對比Fig.5 Experimental results comparison among different algorithms on MRBrainS13 dataset
從圖5 可以看出,相較于其他四種算法,本文算法分割圖像的整體形態(tài)與真實標簽最接近,對腦組織分割也更準確,特別是在圖中方框標記的區(qū)域。本文算法在測試集上的多模態(tài)分割示例如圖6 所示。本文算法分割出的腦組織邊界十分清晰,也證明了本文算法在腦組織分割任務(wù)中具有較好的分割性能。
圖6 在測試集上本文算法的多模態(tài)分割示例Fig.6 An example of multi-modality segmentation of the proposed algorithm on test dataset
為驗證本文提出的網(wǎng)絡(luò)架構(gòu)也適用于分割單模態(tài)數(shù)據(jù),本文在IBSR18 數(shù)據(jù)集上進行對比實驗,將本文所提算法與U-Net[6]、Residual U-Net[26]、Inception U-Net[27]、SegNet[28]和MhURI[29]的分割結(jié)果進行對比。不同算法的圖像分割評價指標如表4 所示。以Dice 系數(shù)為例,從表4 可以看出,本文算法的Dice 系數(shù)分割指標總體高于其他對比算法。實驗結(jié)果表明,本文算法在只有單模態(tài)情況下也能取得較好的分割結(jié)果。
表4 在IBSR18 數(shù)據(jù)集上不同算法的分割結(jié)果Table 4 Segmentation results comparison among different algorithms on IBSR18 dataset
本文提出一種新穎的深度學(xué)習(xí)網(wǎng)絡(luò),用于實現(xiàn)人腦磁共振圖像的分割。將T1、T1-IR 和T2-FLAIR三種模態(tài)的數(shù)據(jù)作為輸入,通過多模態(tài)交叉重構(gòu)編碼器對各模態(tài)數(shù)據(jù)進行下采樣實現(xiàn)特征提取,并對同一分辨率級的特征進行兩級融合,其中在雙通道交叉重構(gòu)注意力模塊中不僅充分融合了三模態(tài)的特征,還對特征進行重構(gòu)加權(quán)和細化?;诮獯a器各分辨率級的特征,利用倒金字塔解碼器實現(xiàn)腦組織的分割,有效提升圖像的分割精度。實驗結(jié)果表明,本文算法不僅具有較優(yōu)的細節(jié)特征提取能力,而且能有效融合不同模態(tài)的信息。后續(xù)將引入邊緣檢測注意力模塊來定位待分割組織的邊界,并利用正則化方法進行深度監(jiān)督,進一步提升網(wǎng)絡(luò)模型的分割精度和訓(xùn)練效率。