周靜,鐘原,李平,楊毅,馬立泰,張濤
(1.西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610500;2.四川大學(xué)華西醫(yī)院 骨科,成都 610041)
對(duì)于頸椎病的診斷,有必要獲取患者的骨關(guān)節(jié)和頸椎脊髓信息作為判斷依據(jù),這通常需要獲得CT、X 射線、MRI 等醫(yī)學(xué)成像信息。與CT 和X 射線相比,MRI 分辨率高、圖像準(zhǔn)確清晰,更能清楚地看到器官的內(nèi)部組織形態(tài)和神經(jīng)靜脈。由于成像原理不同,因此MRI 還能獲得相關(guān)部位的脊髓信息。然而,在當(dāng)前的臨床應(yīng)用中,特別是在初級(jí)保健設(shè)置中,在MRI 上手動(dòng)識(shí)別和分割頸椎結(jié)構(gòu)是一個(gè)費(fèi)力、耗時(shí)且容易出錯(cuò)的過程。基于人工智能的輔助分割可以大大減少勞動(dòng)消耗,并有助于根據(jù)分割結(jié)果判斷頸椎骨折、脊髓受壓等問題。因此,人工智能技術(shù)可以對(duì)頸椎關(guān)節(jié)圖像和脊髓信息進(jìn)行精細(xì)的像素級(jí)別診斷,在頸椎MRI 圖像診斷過程中進(jìn)一步為疾病診斷提供更詳細(xì)的依據(jù)。但由于相鄰骨關(guān)節(jié)的相似性和相鄰椎間盤的相似性,與傳統(tǒng)的器官[1-2]或組織分割[3-4]相比,頸椎分割任務(wù)更具挑戰(zhàn)。
近年來,許多研究者致力于基于深度學(xué)習(xí)進(jìn)行醫(yī)學(xué)圖像的相關(guān)分析[5-6],然而由于缺乏頸椎MRI 圖像數(shù)據(jù)集,專注于頸椎圖像分析的研究較少[7]。公開的MRI 椎體分割數(shù)據(jù)集主要涉及胸椎和腰椎信息[8-9],其他的一些MRI 數(shù)據(jù)集側(cè)重于腦部腫瘤[10-11]、心臟器官[12-13]等。對(duì)于脊椎分割,標(biāo)準(zhǔn)U-Net 和具有數(shù)據(jù)增強(qiáng)的U-Net 被用于進(jìn)行CT 和MRI 數(shù)據(jù)集分割[14],一種混合方法[15]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和完全卷積網(wǎng)絡(luò)(FCN),利用類冗余作為軟約束,改進(jìn)了分割脊椎的效果。Res50-UNet[16]將U-Net 應(yīng)用于脊椎分割,大幅度提升了分割效果。DGMSNet[17]為脊椎分割預(yù)測生成分割路徑,并為關(guān)鍵點(diǎn)生成熱圖預(yù)測生成檢測路徑。但是,基于頸椎的多實(shí)例分割依舊是匱乏的,且由于頸椎結(jié)構(gòu)復(fù)雜,因此相關(guān)模型應(yīng)用于頸椎分割時(shí)分割結(jié)構(gòu)不完整,難以保證分割精度。
本文建立一種多尺度特征融合注意力(Multi-Scale Feature Fusion Attention,MSFFA)網(wǎng)絡(luò)模型?;赗esNet[18]進(jìn)行特征提取,利 用DeepLabv2[19]中空間金字塔池化(ASPP)結(jié)構(gòu)構(gòu)建特征注意力機(jī)制和多尺度信息融合實(shí)現(xiàn)更加精細(xì)的邊緣信息提取,同時(shí)結(jié)合原始尺寸特征補(bǔ)充分割的細(xì)節(jié)信息。通過不同尺度的融合增強(qiáng),有效提取頸椎部位的不同結(jié)構(gòu)。
隨著人工智能的快速發(fā)展,構(gòu)建基于深度學(xué)習(xí)的端到端圖像分割網(wǎng)絡(luò)在圖像領(lǐng)域取得了不斷的突破[20]?;谏疃葘W(xué)習(xí)的主流醫(yī)療圖像分割網(wǎng)絡(luò)主要分為非對(duì)稱的DeepLab 系列和對(duì)稱的U 型結(jié)構(gòu)系列[21-22]。
FCN[23]將圖像分類中的CNN 特征提取過程 引入端到端圖像分割領(lǐng)域。為了解決FCN 缺乏空間一致性信息的問題,在VGG-16 網(wǎng)絡(luò)[24]的基礎(chǔ)上重寫了DeepLabv1[25],通過調(diào)整VGG 網(wǎng)絡(luò)結(jié)構(gòu),加 入Atrous 卷積,在不增加計(jì)算負(fù)荷的情況下擴(kuò)大接收?qǐng)觯⒗脳l件隨機(jī)場(CRF)提高分割邊界的準(zhǔn)確性。DeepLabv2 提出了Atrous ASPP,通過靈活地使用Atrous 卷積來捕獲多尺度圖像的上下文,使用底層細(xì)節(jié)來優(yōu)化分割性能。DeepLabv3[26]級(jí)聯(lián)了Atrous 卷積模塊,該模塊使用多個(gè)衰減率來捕捉不同尺度的背景。為了細(xì)化分割效果,DeepLabv3+[27]利用中間層的特征圖對(duì)輸出圖像進(jìn)行放大,并增加一個(gè)簡單的解碼模塊對(duì)分割結(jié)果進(jìn)行細(xì)化。
U 形結(jié)構(gòu)的編解碼網(wǎng)絡(luò)也被廣泛應(yīng)用于醫(yī)學(xué)圖像分割。U-Net[28]網(wǎng)絡(luò)通過連續(xù)下采樣和連續(xù)上采樣構(gòu)成U 型網(wǎng)絡(luò)結(jié)構(gòu),將編碼器和解碼器連接起來。由于其良好的結(jié)構(gòu)設(shè)計(jì)和性能,在U 型結(jié)構(gòu)的基礎(chǔ)上產(chǎn)生了大量的網(wǎng)絡(luò)變體。Res-UNet[29]將ResNet和U-Net 相結(jié)合,替換了傳統(tǒng)U-Net 中有殘留連接的子模塊。H-DenseUNet[30]的靈感來自密集連接,使用密集連接替換子模塊。UNet++[31]在U-Net 上增加了嵌套和密集的跳接卷積神經(jīng)網(wǎng)絡(luò),解決了醫(yī)學(xué)圖像分割的準(zhǔn)確性問題。Res-UNet++[32]在Res-UNet的基礎(chǔ)上使用了CRF 和測試時(shí)間增強(qiáng)(TTA)。同時(shí),注意力機(jī)制也被引入醫(yī)學(xué)圖像分割任務(wù)中。例如:UNet++[33]在U-Net 的基礎(chǔ)上集成了Attention,在解碼器部分使用了Attention Gates;TransUNet[34]在U-Net 的編碼結(jié)構(gòu)中引入了Transformer,增強(qiáng)了模型對(duì)細(xì)粒度特征的提取;UTNet[35]在編碼器和解碼器中應(yīng)用了一個(gè)自注意力模塊,以最小的開銷捕獲不同規(guī)模的遠(yuǎn)程依賴關(guān)系。此外,Swin-UNet[36]使用Transformer 替換U-Net 中的子模塊,將標(biāo)記化的圖像補(bǔ)丁通過跳躍式連接發(fā)送到基于Transformer 的U型En-Decoder 架構(gòu)進(jìn)行局部和全局語義特征學(xué)習(xí)。
MSFFA 網(wǎng)絡(luò)模型整體結(jié)構(gòu)如圖1 所示。首先,基于ResNet 進(jìn)行初步特征提取,通過多尺度注意力(Multi-Scale Attention,MSA)模塊對(duì)特征信息進(jìn)行不同感受野卷積,實(shí)現(xiàn)特征信息的注意力機(jī)制,增強(qiáng)對(duì)于關(guān)鍵信息的提取。其次,為緩解不同尺度特征融合帶來的損失,提出一種具有差異化的跨尺度特征融合(Cross-scale Feature Fusion,CFF)模塊,將高維特征信息進(jìn)行切分處理,通過中心增強(qiáng)和邊緣增強(qiáng)融合信息,將高維信息融入低維特征,豐富低維特征信息。最后,對(duì)特征進(jìn)行分割輸出時(shí),引入原始樣本進(jìn)行簡單的卷積操作,進(jìn)行分割細(xì)節(jié)的補(bǔ)充。
圖1 MSFFA 網(wǎng)絡(luò)模型整體結(jié)構(gòu)Fig.1 Overall structure of MSFFA network model
注意力機(jī)制的設(shè)計(jì)主要用于實(shí)現(xiàn)對(duì)特定特征信息的增強(qiáng)。在MSFFA 中的MSA 模塊來源于對(duì)頸椎分割圖像特征提取有效性的考慮,通過ResNet 進(jìn)行特征提取后添加簡易的Decoder 模塊就能取得較好的分割性能[Dice 相似系數(shù)(Dice Similarity Coefficient,DSC)約為88%],但ResNet 通過連續(xù)卷積操作缺乏全局信息的提取。因此,MSFFA 將ASPP 的思想引入其中,增強(qiáng)對(duì)于全局信息的捕獲。
ASPP 通過不同步長的卷積操作進(jìn)行特征提取,然后通過在維度上的疊加獲得全局信息,會(huì)對(duì)原始特征改變較大。出于對(duì)ResNet 原始特征的保護(hù),對(duì)ASPP 中的特征信息的疊加過程進(jìn)行了重新考慮,構(gòu)建基于ASPP 結(jié)構(gòu)的注意力設(shè)計(jì):MSA 模塊。MSA依賴于ASPP 的結(jié)構(gòu)設(shè)計(jì),被用于特征信息的增強(qiáng),從ResNet 特征出發(fā),通過不同步長的卷積操作將不同感受野的注意力信息引入ResNet 特征信息,對(duì)于重要的特征,通過在不同視野上不斷增強(qiáng)其權(quán)重后,能夠獲得更好的整體結(jié)構(gòu)信息。
MSA 主要包含特征權(quán)重計(jì)算和特征融合兩個(gè)操作。特征權(quán)重計(jì)算采用金字塔結(jié)構(gòu)的卷積設(shè)計(jì)獲取特征在不同感受野中的權(quán)重大小,并對(duì)ResNet 生成的高維特征信息進(jìn)行相乘,實(shí)現(xiàn)不同感受野的特征增強(qiáng)。特征融合將金字塔結(jié)構(gòu)和高維權(quán)重信息統(tǒng)一后降低通道維數(shù),通過融合模型特征權(quán)重來增強(qiáng)不同感受野感受到的特征,達(dá)到融合增強(qiáng)的效果。如圖2 所示,對(duì)于單個(gè)步長為2 的卷積注意力,根據(jù)訓(xùn)練不同視圖的特征信息本身構(gòu)造不同視圖的權(quán)重信息,并將生成的權(quán)值與特征對(duì)應(yīng)相乘,構(gòu)造并生成具有空間相關(guān)性的權(quán)值特征信息。
圖2 多尺度注意力結(jié)構(gòu)Fig.2 Structure of multi-scale attention
由于低維特征往往包含更詳細(xì)的信息,高維特征更容易訓(xùn)練,在獲得高維特征后,模型往往需要將高維特征與低維特征相結(jié)合,以增強(qiáng)圖像分割效果。為了緩解高維特征和低維特征之間的通道差異以及上采樣損失,提出跨尺度特征融合對(duì)得到的低維特征構(gòu)建多個(gè)分支,將多個(gè)分支進(jìn)行差異化對(duì)比,進(jìn)一步融合到高維特征中。
CFF 主要實(shí)現(xiàn)相似域特征增強(qiáng)和邊緣域特征增強(qiáng),相似域特征增強(qiáng)在結(jié)構(gòu)上保護(hù)了重要特征,通過相加的方式增強(qiáng)相似域信息。邊緣域特征增強(qiáng)對(duì)邊界信息進(jìn)行判斷,邊緣性判斷依據(jù)邊緣位置差異,通過相減的方式增強(qiáng)邊緣域信息。CFF 主要通過不同順序的卷積運(yùn)算和上采樣運(yùn)算,使得特征訓(xùn)練過程不同,產(chǎn)生差異的特征。先上采樣后卷積的特征信息主要來源于高維空間的轉(zhuǎn)換,先卷積后采樣的特征信息主要來源于低維空間的轉(zhuǎn)換,通過具有差異化的跨尺度特征融合實(shí)現(xiàn)不同尺度特征信息的融合。跨尺度特征融合結(jié)構(gòu)如圖3 所示。
圖3 跨尺度特征融合結(jié)構(gòu)Fig.3 Structure of cross-scale feature fusion
在上述特征信息變化的基礎(chǔ)上,獲得了H/4×W/4(H和W分別為原始輸入圖像的長和寬)大小的特征信息,但在上采樣過程中,H/4×W/4 大小的特征往往對(duì)特征信息的細(xì)節(jié)保護(hù)不夠。在最終的分割前,引入原始樣本特征,對(duì)分割結(jié)果進(jìn)行細(xì)節(jié)增強(qiáng)。但如果簡單地使用原始樣本的特征信息,往往會(huì)引入大量的噪聲,因此不能簡單地用原始樣本信息與高維特征進(jìn)行相加完成分割,可以通過一些簡單的卷積操作減少噪聲的引入。簡單的卷積運(yùn)算包含1 個(gè)卷積核大小為3、輸入通道為3、輸出通道為16 的卷積,1 個(gè)BatchNorm模塊,1 個(gè)ReLU 激活函數(shù)和1個(gè)卷積核大小為1、輸入通道為16、輸出通道為64 的卷積。
對(duì)于頸椎分割數(shù)據(jù)集,采集300 例患者在T2 模態(tài)下600 張圖像作為數(shù)據(jù)集,每張圖像包括頸椎關(guān)節(jié)、椎間盤、脊髓、椎管、背景等16 個(gè)類別。數(shù)據(jù)切分按照患者切分,保證切分的獨(dú)立性,其中,175 例患者的350 張圖像用作訓(xùn)練,50 例患者的100 張圖像用作驗(yàn)證,75 例患者的150 張圖像用作測試。
在實(shí)驗(yàn)訓(xùn)練中,優(yōu)化器統(tǒng)一使用RMSprop,損失函數(shù)為交叉熵?fù)p失和Dice 損失的均值。批處理大小B統(tǒng)一設(shè)置為6,訓(xùn)練迭代次數(shù)E 設(shè)置為200,初始學(xué)習(xí)率r設(shè)置為0.01,學(xué)習(xí)率依據(jù)驗(yàn)證數(shù)據(jù)集的Dice 進(jìn)行自適應(yīng)調(diào)整。測量指標(biāo)選取Dice 相似系數(shù)和交并比(Intersection of Union,IoU)作為參考。通過IoU測量單個(gè)類別的實(shí)驗(yàn)結(jié)果進(jìn)行比較,并統(tǒng)計(jì)模型的訓(xùn)練時(shí)間和內(nèi)存消耗。為了驗(yàn)證實(shí)驗(yàn)方案的可靠性和穩(wěn)定性,實(shí)驗(yàn)對(duì)比純卷積運(yùn)算U-Net、AttUNet、UNet++、DeepLabv3+(ResNet34)、純Transformer 結(jié)構(gòu)的Swin-UNet以及結(jié) 合CNN 和Transformer 的TransUNet 和UTNet 模型,在相同的條件下,每個(gè)實(shí)驗(yàn)進(jìn)行5次,均值和方差作為衡量指標(biāo),其中,均值作為性能的主要參考指標(biāo),方差作為穩(wěn)定性的判斷依據(jù)。
實(shí)驗(yàn)測試了多種常用的圖像分割模型的性能指標(biāo),并驗(yàn)證了不同模型的分割效果。MSFFA 基于ResNet 作為基準(zhǔn)特征提取器,通過調(diào)整結(jié)構(gòu)和訓(xùn)練,分割結(jié)果在DSC 中達(dá)到90.55±0.19%,優(yōu)于其他模型。單個(gè)類別的IoU 分割結(jié)果如表1 所示,類別均值結(jié)果如表2 所示,其中,最優(yōu)指標(biāo)值用加粗字體標(biāo)示。不同模型在兩個(gè)實(shí)例上的可視化結(jié)果如圖4 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。
表1 不同模型和分割類別的IoU 比較Table 1 Comparison of the IoUs of different models and segmentation classes %
表2 不同模型的指標(biāo)均值比較Table 2 Comparison of indicator mean values of different models %
圖4 不同模型在頸椎數(shù)據(jù)集上的分割結(jié)果Fig.4 Segmentation results of different models on cervical vertebra dataset
如表1 所示,與其他模型相比,MSFFA 在多個(gè)類別上更具優(yōu)勢(shì),證明了該模型在當(dāng)前數(shù)據(jù)集上的可用性。如表2 所示,MSFFA 在DSC 和IoU 指標(biāo)上優(yōu)于其他模型且方差更小,表明模型更穩(wěn)定。為了驗(yàn)證每個(gè)模型的單獨(dú)分割性能,選擇了U-Net、AttUNet等模型在兩個(gè)實(shí)例上的分割效果進(jìn)行展示和比較。由圖4 可以看出,MSFFA 比多數(shù)模型分割更加清晰,且與DeepLabv3+的分割結(jié)果相似,但比DeepLabv3+的邊緣更平滑。
根據(jù)MSFFA 設(shè)計(jì),對(duì)連續(xù)疊加過程中各模塊的影響進(jìn)行多次實(shí)驗(yàn),驗(yàn)證各模塊對(duì)模型性能的改善效果。各模塊疊加過程實(shí)驗(yàn)結(jié)果如圖5 所示,其中,A1 代表多尺度注意力的調(diào)整,A2 代表基于A1 的多tap 特征融合的調(diào)整,A3 代表基于A2 增加的原始尺度特征進(jìn)行分割。隨著各模塊的增加,模型性能不斷提高,逐漸趨于穩(wěn)定狀態(tài)。
圖5 模塊疊加的性能變化Fig.5 Performance change of module overlays
為了驗(yàn)證加減法操作對(duì)模型訓(xùn)練的影響,設(shè)計(jì)了“+,+”和“-,-”操作構(gòu)建多tap 特征融合,分別表示中心特征增強(qiáng)和邊緣特征增強(qiáng)。由圖6 可以看出,與“+,-”操作進(jìn)行對(duì)比,“+,-”組合更穩(wěn)定,分割精度略高于另外兩種組合,驗(yàn)證了MSFFA 設(shè)計(jì)的正確性和有效性。
圖6 不同特征組合的性能差異Fig.6 Performance difference of different feature combinations
為了驗(yàn)證原始尺寸的樣本特征對(duì)當(dāng)前數(shù)據(jù)集的性能優(yōu)化效果,引入不同的Dropout,如表3 所示,最優(yōu)指標(biāo)值用加粗字體標(biāo)示。由表3 可以看出,Dropout 的增加使得原始尺寸的樣本信息的引入減少,導(dǎo)致性能持續(xù)下降,穩(wěn)定性也有下降的趨勢(shì),這說明了完整地引入原始樣本信息能有效地增強(qiáng)模型性能,提高模型準(zhǔn)確性。
表3 不同Dropout 對(duì)原始特征的影響Table 3 Influence of different Dropouts on original features %
如圖7 所示,與所有U 結(jié)構(gòu)網(wǎng)絡(luò)模型相比,MSFFA 內(nèi)存消耗更小,單次訓(xùn)練時(shí)間也相對(duì)更短。由于Swin-UNet 和TransUNet 是針對(duì)不同的圖像尺寸設(shè)計(jì),導(dǎo)致模型尺寸和其他尺寸有較大差異,因此無法直接與它們進(jìn)行對(duì)比。由圖7 可以看出,除了DeepLabv3+以外,其他模型具有較低的訓(xùn)練時(shí)間消耗和內(nèi)存消耗,雖然引入了額外的模型結(jié)構(gòu),稍增加了模型內(nèi)存消耗和訓(xùn)練時(shí)間,但總體變化不明顯。
圖7 不同模型的平均訓(xùn)練時(shí)間和內(nèi)存消耗Fig.7 Average training time and memory consumption of different models
為了驗(yàn)證模型的泛化性,在一個(gè)公開的矢狀面腰椎分割MRI 數(shù)據(jù)集[37]上利用相同的實(shí)驗(yàn)設(shè)置進(jìn)行實(shí)驗(yàn),共包含514 張帶有脊柱測量的圖像和注釋,圖像大小為320×320 像素,圖像標(biāo)簽共包含7 個(gè)類別的分割,包含1 個(gè)背景和6 個(gè)椎體信息。數(shù)據(jù)劃分按照7∶1∶2 的比例構(gòu)建訓(xùn)練集、驗(yàn)證集和測試集。在該數(shù)據(jù)集中,由于Transformer 對(duì)于圖像像素信息有一定限制,因此只對(duì)CNN 結(jié)構(gòu)的模型進(jìn)行比較。如表4所示,最優(yōu)指標(biāo)值用加粗字體標(biāo)示,在各模型上共進(jìn)行5 次實(shí)驗(yàn),對(duì)所有類別統(tǒng)計(jì)了5 次實(shí)驗(yàn)的IoU 和DSC 均值。
表4 腰椎分割性能比較Table 4 Comparison of lumbar vertebra segmentation performance %
由表4 可以看出,MSFFA 在與其他CNN 模型的對(duì)比中表現(xiàn)出較高的分割性能,這說明了MSFFA 在椎體分割的醫(yī)學(xué)圖像上具有一定的泛化能力,能夠在多個(gè)類別上具有良好的分割效果,且CNN 的結(jié)構(gòu)設(shè)計(jì)對(duì)圖像像素尺寸限制更小,能夠以準(zhǔn)確的圖像信息進(jìn)行訓(xùn)練預(yù)測。
在圖8 中選擇兩個(gè)實(shí)例進(jìn)行可視化(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版),可以看出MSFFA在分割結(jié)果上更加明顯,不存在錯(cuò)誤分割脊椎塊的問題,并且在細(xì)節(jié)上分割更平滑。
圖8 不同模型在腰椎數(shù)據(jù)集上的分割結(jié)果Fig.8 Segmentation results of different models on lumbar vertebra dataset
為了解決頸椎MRI 圖像分割模型缺乏、分割邊緣提取效果差的問題,本文基于ResNet 提出MSFFA模型。利用多尺度注意力以及跨尺度特征融合對(duì)頸椎分割進(jìn)行優(yōu)化,增強(qiáng)對(duì)于分割邊緣的特征提取,實(shí)現(xiàn)頸椎MRI 錐體、椎間盤與脊髓的精細(xì)分割。實(shí)驗(yàn)結(jié)果表明,與U-Net、UNet++、AttUNet、UTNet 等模型相比,MSFFA 分割得到的頸椎結(jié)構(gòu)更加完整,邊緣更加平滑,同時(shí)在腰椎分割中也能取得更精確的分割結(jié)果。下一步將針對(duì)不同醫(yī)療機(jī)構(gòu)采集樣本差異問題,采用自適應(yīng)分割方法,結(jié)合頸椎病分類模型,實(shí)現(xiàn)全自動(dòng)頸椎疾病診斷。