熱娜古麗·艾合麥提尼亞孜,米吾爾依提·海拉提,王正業(yè),葉爾夏提·多力孔,嚴(yán)傳波
(1.新疆醫(yī)科大學(xué) 公共衛(wèi)生學(xué)院,新疆 烏魯木齊 830011;2.新疆醫(yī)科大學(xué) 醫(yī)學(xué)工程技術(shù)學(xué)院,新疆 烏魯木齊 830011)
包蟲病是由棘球絳蟲幼蟲引起的一種呈全球分布性的人畜共患寄生蟲病[1]。根據(jù)中國疾病預(yù)防控制中心數(shù)據(jù)顯示[2],每年約有超過200 萬人感染包蟲病,在畜牧地區(qū)特別是醫(yī)療衛(wèi)生條件較差的偏遠(yuǎn)地區(qū)的流行較為突出。我國是世界上包蟲病患病最嚴(yán)重的國家之一[3],以細(xì)粒棘球絳蟲引起的囊型包蟲病(Cyst Echinococcosis,CE)和多房棘球絳蟲引起的泡型包蟲病(Alveolar Echinococcosis,AE)流行為主,其中囊型包蟲病的患病率最高,占全部發(fā)病的98%以上[4]。此病多發(fā)于中國西北部牧區(qū)和青藏高原等醫(yī)療資源貧瘠的地區(qū),由于新疆肝包蟲病發(fā)病率較高,已成為新疆的地方性特色病[5]。包蟲病不同分型在臨床上對應(yīng)不同的治療方案[6],準(zhǔn)確的分型對包蟲病的治療有重要的意義。目前臨床上評估肝包蟲病首選的方法是影像檢查,超聲診斷因其無輻射和低成本等特點(diǎn)被廣泛用于肝包蟲病的篩查和診斷[7]。然而,該病患者多而專業(yè)醫(yī)生和檢測技術(shù)遠(yuǎn)遠(yuǎn)不能滿足患者的就醫(yī)需要,尤其是在畜牧及偏遠(yuǎn)的地區(qū),往往還存在著醫(yī)生經(jīng)驗(yàn)不足的情況,并且因該病早期臨床表現(xiàn)不明顯,患者往往是出現(xiàn)肝區(qū)疼痛等明顯癥狀時才開始就醫(yī),這不僅給治療帶來更大的難度,還會影響肝包蟲發(fā)病早期的精確診斷。
隨著人工智能領(lǐng)域的快速發(fā)展,深度學(xué)習(xí)相關(guān)技術(shù)在計(jì)算機(jī)視覺、自然語言處理、生物信息等多個領(lǐng)域取得了巨大的成功。圖像分類作為深度學(xué)習(xí)技術(shù)應(yīng)用最成功的領(lǐng)域之一,深度學(xué)習(xí)的發(fā)展使胃癌、乳腺癌等疾病[8-9]的精確分類成為可能,還有部分學(xué)者[10-12]提出使用計(jì)算機(jī)輔助診斷(Computer Aided Diagnosis,CAD)的方法輔助醫(yī)生對疾病進(jìn)行分型、評級和預(yù)后等。近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)開始陸續(xù)應(yīng)用于醫(yī)學(xué)圖像的分類中,國內(nèi)外學(xué)者利用CNN 構(gòu)建了如VGGNet、ResNet、EfficientNet等許多成功的分類網(wǎng)絡(luò)架構(gòu)。一直以來,卷積神經(jīng)網(wǎng)絡(luò)都被認(rèn)為是計(jì)算機(jī)視覺的基礎(chǔ)模型,直到2017 年6 月谷歌發(fā)布論文《Attention is All You Need》[13]提出Transformer 以后,基于Transformer的模型迅速成為自然語言處理領(lǐng)域的主流模型。2020年10月,谷歌再次提出了Vision Transformer(ViT),可以直接利用Transformer 對圖像進(jìn)行分類,并取得了與當(dāng)前最優(yōu)卷積網(wǎng)絡(luò)相媲美的結(jié)果[14]。Swin Transformer 模型是微軟最近提出的在Transformer 基礎(chǔ)上改進(jìn)的模型,通過對圖像塊序列的預(yù)測實(shí)現(xiàn)了圖像分類,正被越來越多的研究者[15-16]應(yīng)用于圖像分類、目標(biāo)檢測和語義分割等任務(wù)。
本研究首次提出基于改進(jìn)Swin Transformer 對5 類包蟲病病灶實(shí)現(xiàn)全自動分型的輔助診斷方法,并通過引入卷積注意力機(jī)制(Convolutional Block Attention Module,CBAM),一定程度上提高了整體網(wǎng)絡(luò)框架的效率和分類準(zhǔn)確率。本研究利用在ImageNet 上訓(xùn)練好的權(quán)重初始化Swin Transformer 模型的參數(shù),在肝包蟲病超聲圖像數(shù)據(jù)上進(jìn)行微調(diào),不僅提高了模型的泛化能力,減輕過擬合現(xiàn)象,還減少了模型訓(xùn)練時間,同時提高分類算法的精度和效率。最后通過與經(jīng)典的CNN 網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn),驗(yàn)證了Swin Transformer 網(wǎng)絡(luò)對肝囊型包蟲病進(jìn)行分類的有效性。
本實(shí)驗(yàn)深度學(xué)習(xí)框架為PyTorch 1.4.0,采用了Python3.7編程語言進(jìn)行模型框架的搭建,開發(fā)工具為PyCharm Community Edition。環(huán)境配置如下:CPU i7;內(nèi)存15.6 GB;GPU GeForce GTX 1080 Ti;顯存11GB。操作系統(tǒng):Ubuntu 18.04.2 LTS。
本次研究選用的數(shù)據(jù)集來自新疆醫(yī)科大學(xué)各附屬醫(yī)院自2008 年至2018 年期間采集的囊型肝包蟲超聲影像資料。關(guān)于病灶的分型參考了世界衛(wèi)生組織包蟲病非正式工作組(WHO-IWGE)對于包蟲病灶的分型標(biāo)準(zhǔn)[17],本次納入研究的肝囊型包蟲病超聲圖像分為5 種類型:單囊型(CE-1)、多子囊型(CE-2)、內(nèi)囊塌陷型(CE-3)、壞死實(shí)變型(CE-4)和鈣化型(CE-5),各分型樣本個數(shù)及患者數(shù)如圖1 和表1 所示。本次研究收集了2 486 位病人共計(jì)4 813 張肝包蟲超聲影像圖片,每張超聲圖像的類型都由該醫(yī)院擁有3 年以上工作經(jīng)驗(yàn)的超聲科影像醫(yī)師驗(yàn)證確定。
圖1 肝囊型包蟲病(HCE)各分型超聲圖
表1 HCE5 種亞型的超聲圖像及患者數(shù)量
1.3.1 網(wǎng)絡(luò)整體框架
Transformer 最開始用于自然語言處理領(lǐng)域,因其強(qiáng)大的表征能力逐漸獲得研究人員的關(guān)注,提出將該技術(shù)擴(kuò)展到計(jì)算機(jī)視覺領(lǐng)域,但因其巨大計(jì)算量而望而卻步。直到2021 年微軟研究院在ICCV 上提出的基于多頭注意力機(jī)制的Swin Transformer[18],提出通過滑動窗口機(jī)制和空間降維注意力方法解決了傳統(tǒng)Transformer 長期被詬病的計(jì)算量大的問題。通過圖2 可以看出整個框架的基本流程如下:首先是將圖像輸入到Patch 劃分模塊(Patch Partition)中進(jìn)行分塊,然后就是通過四個階段構(gòu)建不同大小的特征圖,除了第一階段中先通過一個線性嵌入層(Linear Embeding)對每個像素的通道(Channel)數(shù)據(jù)做線性變換外,剩下三個階段都是先通過一個圖像降采樣層(Patch Merging)進(jìn)行下采樣,最后通過全連接層對5 種肝囊型包蟲病進(jìn)行分類,并輸出預(yù)測結(jié)果。
圖2 Swin Transformer 整體架構(gòu)圖
1.3.2 W-MSA 和SW-MSA
Swin Transformer 網(wǎng)絡(luò)相對于傳統(tǒng)Transformer 一個重要的改進(jìn)就是使用基于窗口的多頭自注意力(W-MSA)和基于移位的多頭自注意力(SW-MSA),W-MSA 將輸入圖片劃分成不重合的窗(Windows),然后在不同的Window內(nèi)進(jìn)行self-attention 計(jì)算,由于Window 內(nèi)部的patch 數(shù)量遠(yuǎn)小于圖片patch 數(shù)量,并且窗口數(shù)量是保持不變的,W-MSA 的計(jì)算復(fù)雜度和圖像尺寸呈線性關(guān)系,相對于直接對整個特征圖進(jìn)行多頭注意力機(jī)制(MSA),能進(jìn)一步減少計(jì)算量。然而,不重合的窗口之間缺乏信息交流,這樣就失去了Transformer 利用自注意力從全局構(gòu)建關(guān)系的能力,于是進(jìn)一步引入SW-MSA 來跨窗口進(jìn)行信息交流,讓信息在相鄰的窗口中進(jìn)行傳遞,從一開始就能實(shí)現(xiàn)對圖像全局特征的學(xué)習(xí),從而具有更強(qiáng)的特征學(xué)習(xí)能力。連續(xù)兩個Swin Transformer block 結(jié)構(gòu)圖如圖3所示。
圖3 連續(xù)兩個Swin Transformer block 結(jié)構(gòu)圖
1.3.3 卷積注意力機(jī)制
2018年,文獻(xiàn)[19]提出卷積注意力機(jī)制(Convolutional Block Attention Module,CBAM),這是一種簡單而有效的前饋卷積神經(jīng)網(wǎng)絡(luò)注意力模塊。CBAM 將通道和空間注意力機(jī)制相結(jié)合,更關(guān)注圖像的重要信息,在計(jì)算機(jī)視覺領(lǐng)域已得到廣泛且深入的研究。為了進(jìn)一步細(xì)化骨干網(wǎng)絡(luò)提取到的特征,本研究在Swin Transformer 網(wǎng)絡(luò)的第一階段的線性嵌入層前后加上了CBAM 模塊,該模塊使得神經(jīng)網(wǎng)絡(luò)能夠關(guān)注不同病灶區(qū)域的特征,更能注意到最高響應(yīng)以外的區(qū)域,增加的信息提高了網(wǎng)絡(luò)的分類性能。卷積注意力機(jī)制模塊如圖4 所示。
圖4 卷積注意力機(jī)制模塊
將肝囊型包蟲病各類的數(shù)據(jù)以3:1:1 的比例進(jìn)行劃分,訓(xùn)練過程使用自適應(yīng)矩估計(jì)(Adam)優(yōu)化器進(jìn)行參數(shù)調(diào)優(yōu),初始學(xué)習(xí)率設(shè)為0.000 1,Loss 計(jì)算過程采用交叉熵?fù)p失函數(shù),訓(xùn)練批大小統(tǒng)一設(shè)為16,一共訓(xùn)練200 個epochs,每次訓(xùn)練耗時約3 h。數(shù)據(jù)集在模型中的訓(xùn)練結(jié)果如圖5 所示,其中,圖5(a)、圖5(c)表示不使用ImageNet上的Swin Transformer 預(yù)訓(xùn)練權(quán)重;圖5(b)和圖5(d)表示使用預(yù)訓(xùn)練權(quán)重?;谖⒄{(diào)的遷移學(xué)習(xí)的Swin Transformer 網(wǎng)絡(luò)經(jīng)過200 個epoch 訓(xùn)練,精準(zhǔn)率穩(wěn)定上升達(dá)到90%以上,最高達(dá)到90.2%,驗(yàn)證了基于遷移學(xué)習(xí)的Swin Transformer 模型對肝包蟲病有較好的分類效果。
圖5 驗(yàn)證和訓(xùn)練的損失和準(zhǔn)確率變化曲線
為進(jìn)一步分析Swin Transformer 在肝囊型包蟲病各分型上的準(zhǔn)確率,表2 列出了每個類別的性能指標(biāo)。相對Swin Transformer 基線,采用遷移學(xué)習(xí)精確率(precision)平均提高了23%,召回度(recall)平均提高了22%,特異度(specificity)平均提高了3%。圖6 所示為混淆矩陣結(jié)果對比。
圖6 混淆矩陣結(jié)果
表2 兩種模型各分類分型結(jié)果
為了進(jìn)一步驗(yàn)證優(yōu)化的Swin Transformer 在肝包蟲病圖像分類方面的性能,本實(shí)驗(yàn)設(shè)置了包括多個經(jīng)典的CNN 分類模型的對比實(shí)驗(yàn),包括:ResNet34、VggNet16、MobileNetV2、EfficientNetV2 和ConvNeXt。為了實(shí)驗(yàn)結(jié)果可信可比,對比實(shí)驗(yàn)均在統(tǒng)一的實(shí)驗(yàn)環(huán)境下進(jìn)行。圖7 顯示了幾種網(wǎng)絡(luò)的分類性能對比結(jié)果。對比實(shí)驗(yàn)結(jié)果顯示基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型的分類準(zhǔn)確率均小于基于多頭注意力機(jī)制的Swin Transformer 模型(92.6%)。其中,MobileNetV2 的分類準(zhǔn)確率(70.5%)最低,Efficient-NetV2 的分類準(zhǔn)確率(74%)相對較低,ResNet34 準(zhǔn)確率高達(dá)90.2%,VggNet16 的分類準(zhǔn)確率(88.3%)略低于ResNet34。
圖7 不同模型分型的結(jié)果對比圖
Grad-CAM 是一種神經(jīng)網(wǎng)絡(luò)可解釋性的經(jīng)典方法,通過它可以觀察模型更側(cè)重哪塊區(qū)域來達(dá)到正確分類的目的。為了更直觀地顯示改進(jìn)的Swin Tranformer 網(wǎng)絡(luò)在肝包蟲病分類分類的有效性,本文使用該方法對隨機(jī)選擇的分類正確的測試集樣本關(guān)鍵區(qū)域進(jìn)行可視化操作來觀察模型的診斷是否基于關(guān)鍵的臨床特征。原圖和不同類別可視化結(jié)果如圖8 所示,圖8(a)中紅色區(qū)域?qū)?yīng)于該類別的權(quán)重的高分,證明該模型能夠準(zhǔn)確識別各類別肝囊型包蟲病超聲圖像的關(guān)鍵目標(biāo)區(qū)域,該區(qū)域與醫(yī)生標(biāo)記的病灶區(qū)域重疊度較高,再次證明該模型的診斷結(jié)果具有良好的可靠性。
圖8 模型熱力圖
本研究提出了基于多頭注意力機(jī)制的Swin Transformer 用于肝囊型包蟲病超聲圖像的自動分類方法,通過對比實(shí)驗(yàn)證明了該方法在包蟲病分類中的有效性,如表3 所示,基于遷移學(xué)習(xí)的網(wǎng)絡(luò)模型相對基線模型準(zhǔn)確率提高了24.5%,引入CBAM 模塊的算法獲得更高的分類準(zhǔn)確率(92.6%),說明了CBAM 模塊的引入可以有效提升模型的分類效能。
由表2 和圖6 可以看出基于遷移學(xué)習(xí)的Swin Transformer 網(wǎng)絡(luò)具有分類性能更佳、收斂速度快等優(yōu)點(diǎn),能夠很好地彌補(bǔ)實(shí)際應(yīng)用過程中部分類別樣本數(shù)據(jù)量不足以支持網(wǎng)絡(luò)訓(xùn)練的缺陷,提高了神經(jīng)網(wǎng)絡(luò)對于小規(guī)模樣本數(shù)據(jù)集的適用性,解決了分類模型在實(shí)際應(yīng)用過程中面臨的數(shù)據(jù)樣本不足導(dǎo)致的網(wǎng)絡(luò)無法收斂的問題,降低了網(wǎng)絡(luò)在新領(lǐng)域中重新學(xué)習(xí)的代價(jià),為實(shí)現(xiàn)Swin Transformer 在肝包蟲病的自動分型的進(jìn)一步應(yīng)用打下了良好的基礎(chǔ)。由表1 和圖6 能看出,各類別數(shù)據(jù)量對分型效果的影響顯著,并且CE-4 和CE-5 由于特征相似,分類時容易出現(xiàn)混淆。由表3 能看出經(jīng)過改進(jìn)的Swin Transformer 模型在測試集上診斷準(zhǔn)確率達(dá)到92.6%,在肝囊型包蟲病分型的表征學(xué)習(xí)中表現(xiàn)出更加突出的特征提取能力,說明基于Swin Transformer 的方法具有很好的研究前景,有望用于其他類疾病的分型診斷中。
表3 網(wǎng)絡(luò)性能比較結(jié)果
雖然本研究提出的基于Swin Transformer 的改進(jìn)方法有效提高了肝包蟲病自動分型的效率和準(zhǔn)確度,但是由于硬件條件、自身能力等原因,仍需要在當(dāng)前工作基礎(chǔ)上進(jìn)一步深入研究,包括:(1)由于肝包蟲病部分類別的超聲圖像數(shù)據(jù)較少,極大影響了該類別分類準(zhǔn)確率,可以使用更加先進(jìn)的數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充數(shù)據(jù),來提高Swin Transformer 網(wǎng)絡(luò)的魯棒性和泛化能力來達(dá)到更高的分類效果。(2)本研究所采用的數(shù)據(jù)來自新疆醫(yī)科大學(xué)各附屬醫(yī)院,因影像醫(yī)師手法和圖像采集設(shè)備存在差異,超聲超聲儀器在報(bào)告結(jié)果時生成的圖像存在較大的差異,并且非影像信息增加了分型的難度分類和病灶檢測模型的計(jì)算量,后續(xù)可以開展對肝囊型包蟲超聲圖像影像區(qū)域的自動分割算法研究來去除圖像中干擾信息,進(jìn)而提升模型的整體分類性能。
本研究提出一種改進(jìn)Swin Transformer 的肝囊型包蟲病超聲圖像輔助診斷方法,該網(wǎng)絡(luò)結(jié)合CBAM 來獲取病灶不同區(qū)域的信息,有效地提高模型的分型性能。該方法的提出也填補(bǔ)了Swin Transformer 網(wǎng)絡(luò)模型用于醫(yī)學(xué)圖像分類方面的空缺,為該方法用于其他類疾病醫(yī)學(xué)圖像的分型診斷提供一種有效的數(shù)據(jù)支持和依據(jù)。