劉學(xué)思,聶瑞,張和華,楊利,段傲文
陸軍軍醫(yī)大學(xué)大坪醫(yī)院 醫(yī)學(xué)工程科,重慶 400042
肺結(jié)核是由結(jié)核分枝桿菌引起的傳染性極強(qiáng)的肺部疾病,屬于國(guó)家乙類(lèi)傳染病[1]。世界衛(wèi)生組織(WHO)報(bào)告稱(chēng)2010年至2019年結(jié)核病雖然不再是世界十大死亡因素之一,但在中低收入和低收入國(guó)家仍然是第七及第八大致死因素[2],不容忽視。據(jù)WHO統(tǒng)計(jì)我國(guó)2019年新增肺結(jié)核病例83.3萬(wàn),占全球總數(shù)的8.4%[2],在肺結(jié)核的防治方面,我國(guó)仍然面臨著巨大的壓力[3]。肺結(jié)核的治療方針是“早期、規(guī)律、適量、聯(lián)合、全程”,而早期發(fā)現(xiàn)顯然是最重要的[4]。目前肺結(jié)核的篩查手段主要是X線(xiàn)影像加痰涂片,X線(xiàn)胸部正位平片多作為首要篩查手段[5]。在醫(yī)療條件欠佳的基層單位,肺結(jié)核的篩查多依靠入職體檢或每年一次的常規(guī)體檢X線(xiàn)胸片檢查[6]。由于體檢人數(shù)多、過(guò)程快,外加基層醫(yī)生閱片經(jīng)驗(yàn)不足導(dǎo)致肺結(jié)核疾病診斷的漏診率、誤診率較高[7]。尤其在一些特殊性質(zhì)如學(xué)校、軍隊(duì)等既立足于自我醫(yī)療保障又相對(duì)封閉管理的集體生活單位,一旦發(fā)生漏診誤診,極容易造成大規(guī)模感染,擾亂學(xué)生的正常學(xué)習(xí)生活秩序[8]、影響部隊(duì)?wèi)?zhàn)斗力[9],后果嚴(yán)重。因此,如何能夠盡可能地降低基層醫(yī)生在X線(xiàn)閱片中肺結(jié)核的漏診率成為迫切需要解決的問(wèn)題。
為了解決上述難題,國(guó)內(nèi)外開(kāi)展了一系列的研究[10-16],主要是采用人工智能的方法,對(duì)肺結(jié)核進(jìn)行輔助診斷。綜合現(xiàn)有文獻(xiàn),肺結(jié)核分類(lèi)算法主要分為3類(lèi),即機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)與機(jī)器學(xué)習(xí)結(jié)合算法和深度學(xué)習(xí)算法。
機(jī)器學(xué)習(xí)算法主要采用人工特征提取的方式,由有經(jīng)驗(yàn)的醫(yī)務(wù)人員勾畫(huà)出感興趣區(qū)域(Region of Interest,ROI),再由支持向量機(jī)(Support Vector Machines,SVM)、極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)、在線(xiàn)順序超限學(xué)習(xí)機(jī)(Online Sequential Extreme Learning Machine,OSELM)等分類(lèi)器對(duì)特征進(jìn)行分類(lèi),Govindarajan等[14]利用ELM和OSELM分類(lèi)器,在蒙哥馬利(Montgomery)公共數(shù)據(jù)集上實(shí)現(xiàn)了99.2%的肺結(jié)核分類(lèi)準(zhǔn)確率。此方法最大的優(yōu)勢(shì)在于樣本需求量小、分類(lèi)特征準(zhǔn)確;缺點(diǎn)在于人工提取特征成本高、模型泛化能力弱。
機(jī)器學(xué)習(xí)與深度學(xué)習(xí)結(jié)合算法主要利用深度學(xué)習(xí)的經(jīng)典神經(jīng)網(wǎng)絡(luò)如VggNet、Resnet、Inception等先對(duì)肺結(jié)核圖像進(jìn)行特征提取,再將提取到的特征傳輸?shù)綑C(jī)器學(xué)習(xí)分類(lèi)器中如SVM、XGBoost等,最終實(shí)現(xiàn)肺結(jié)核影像的分類(lèi)。Rahman等[15]利用DenseNet 201網(wǎng)絡(luò)提取肺結(jié)核圖像的特征,再利用XGBoost分類(lèi)器實(shí)現(xiàn)了99.92%的分類(lèi)準(zhǔn)確率。此方法優(yōu)點(diǎn)在于分類(lèi)準(zhǔn)確率高、效果好;缺點(diǎn)在于特征提取和分類(lèi)需分開(kāi)進(jìn)行,操作繁瑣且模型不便部署。
深度學(xué)習(xí)算法仍然是目前研究的主流,可以分為卷積神經(jīng)網(wǎng)絡(luò)與視覺(jué)轉(zhuǎn)換網(wǎng)絡(luò)。對(duì)于卷積神經(jīng)網(wǎng)絡(luò),Oloko-Oba等[16]列舉了目前深度學(xué)習(xí)在肺結(jié)核胸部X線(xiàn)正位圖像分類(lèi)中的應(yīng)用,較為常見(jiàn)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)為Inception、DenseNet、AlexNet、ResNet和 VggNet,其 中 VggNet網(wǎng)絡(luò)使用頻度最高。Alawi等[17]利用自己構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),取得了目前肺結(jié)核分類(lèi)深度學(xué)習(xí)網(wǎng)絡(luò)中最高的準(zhǔn)確率(98.71%)。深度學(xué)習(xí)的優(yōu)點(diǎn)在于人工參與較少,使用方便,權(quán)值共享模式使網(wǎng)絡(luò)復(fù)雜度降低;缺點(diǎn)在于圖像輸入大小固定,圖像壓縮會(huì)損失較多細(xì)節(jié)。目前,卷積神經(jīng)網(wǎng)絡(luò)中最具代表性的是Liu等[18]2022年提出的ConvNeXt深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),其算法搭建更加簡(jiǎn)潔,相較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)其參數(shù)更少、結(jié)構(gòu)更加優(yōu)化,同時(shí)在自然數(shù)據(jù)集上的訓(xùn)練效果達(dá)到了87.8%的最高準(zhǔn)確率,成為了目前分類(lèi)效果最好的基礎(chǔ)神經(jīng)網(wǎng)絡(luò)。
視覺(jué)轉(zhuǎn)換網(wǎng)絡(luò)主要代表的是Vision Transformer(ViT)網(wǎng) 絡(luò)與 Swin Transformer(SwinT)網(wǎng)絡(luò),ViT網(wǎng)絡(luò)是Dosovitskiy等[19]在2020年提出的,創(chuàng)新性地將語(yǔ)言識(shí)別網(wǎng)絡(luò)應(yīng)用至圖像識(shí)別領(lǐng)域。Duong等[20]混合使用EfficientNet和ViT網(wǎng)絡(luò)實(shí)現(xiàn)了肺結(jié)核的分類(lèi),準(zhǔn)確率達(dá)到97.72%。ViT網(wǎng)絡(luò)的優(yōu)勢(shì)在于其是不同于傳統(tǒng)意義的卷積神經(jīng)網(wǎng)絡(luò)的另一種網(wǎng)絡(luò)結(jié)構(gòu),在多模態(tài)應(yīng)用方面有著極大突破,且在大型自然數(shù)據(jù)集上的分類(lèi)效果要遠(yuǎn)高于經(jīng)典神經(jīng)網(wǎng)絡(luò)。缺點(diǎn)在于圖像分辨率高,像素點(diǎn)多,基于全局自注意力的計(jì)算導(dǎo)致計(jì)算量十分龐大。
針對(duì)這一問(wèn)題,2021年Liu等[21]提出了一種包含滑窗操作、具有層級(jí)設(shè)計(jì)的SwinT網(wǎng)絡(luò)。SwinT網(wǎng)絡(luò)采用滑動(dòng)窗口和分層結(jié)構(gòu)成為了機(jī)器視覺(jué)領(lǐng)域的新主干網(wǎng)絡(luò)。在圖像分類(lèi)任務(wù)中,通過(guò)與卷積神經(jīng)網(wǎng)絡(luò)相似的分層結(jié)構(gòu)來(lái)處理圖片,使模型能夠靈活處理不同尺度的圖片,能夠?qū)⒃嫉腣iT網(wǎng)絡(luò)計(jì)算復(fù)雜度從指數(shù)級(jí)別(h*w)2降低至線(xiàn)性級(jí)別M2*(h*w),其中h表示圖像的高,w表示圖像的寬,M表示每個(gè)窗口中patch的數(shù)量。SwinT網(wǎng)絡(luò)的優(yōu)勢(shì)在于不受圖像輸入大小的限制,計(jì)算復(fù)雜度低,且在自然圖像數(shù)據(jù)集中的分類(lèi)性能也超過(guò)了ViT網(wǎng)絡(luò)。
綜上所述,SwinT網(wǎng)絡(luò)、ViT網(wǎng)絡(luò)及ConvNeXt網(wǎng)絡(luò)有著各自的優(yōu)勢(shì),結(jié)合現(xiàn)有文獻(xiàn),國(guó)內(nèi)外關(guān)于SwinT網(wǎng)絡(luò)和ConvNeXt網(wǎng)絡(luò)在肺結(jié)核圖像分類(lèi)方面的應(yīng)用研究未見(jiàn)報(bào)道,同時(shí)ViT網(wǎng)絡(luò)在肺結(jié)核的分類(lèi)方面的報(bào)告也僅有1例。因此,探究SwinT、ViT以及ConvNeXt網(wǎng)絡(luò)較使用頻度最高的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)VggNet在肺結(jié)核分類(lèi)任務(wù)中的使用效果優(yōu)劣并篩選出分類(lèi)性能最優(yōu)的深度學(xué)習(xí)網(wǎng)絡(luò)是十分必要的。
數(shù)據(jù)集采用蒙哥馬利(Montgomery)和深圳醫(yī)院公共數(shù)據(jù)集,Montgomery結(jié)核病的標(biāo)準(zhǔn)數(shù)字圖像數(shù)據(jù)庫(kù)由美國(guó)馬里蘭州蒙哥馬利縣國(guó)家醫(yī)學(xué)圖書(shū)館與衛(wèi)生與公眾服務(wù)部合作創(chuàng)建,是蒙哥馬利縣結(jié)核病篩查計(jì)劃下收集的X光影像數(shù)據(jù),包括58例含肺結(jié)核病灶的胸部正位X線(xiàn)圖像和80例正常胸部正位x線(xiàn)圖像,數(shù)據(jù)格式為PNG,分辨率為4020×4892像素或4892×4020像素。深圳醫(yī)院結(jié)核病的標(biāo)準(zhǔn)數(shù)字圖像數(shù)據(jù)庫(kù)由美國(guó)馬里蘭州國(guó)家醫(yī)學(xué)圖書(shū)館與中國(guó)深圳廣東醫(yī)學(xué)院深圳第三人民醫(yī)院合作創(chuàng)建。胸部X光片來(lái)自門(mén)診診所飛利浦DR機(jī)日常工作采集,包括336例含肺結(jié)核病灶的胸部正位X線(xiàn)圖像和326例正常胸部正位X線(xiàn)圖像,數(shù)據(jù)格式為PNG,分辨率約為3000×3000像素。兩個(gè)公開(kāi)數(shù)據(jù)集被合并成一個(gè)壓縮文件并可以通過(guò)如下鏈接獲得:http://archive.nlm.nih.gov/repos/chestImages.php。
為更好地比較網(wǎng)絡(luò)效果,本研究對(duì)數(shù)據(jù)集進(jìn)行了融合與擴(kuò)增。融合后的數(shù)據(jù)集大小為800張,其中包括結(jié)核病胸部正位X線(xiàn)影像(TB)394張、正常胸部正位片(normal)406張。由于原圖分辨率過(guò)大,網(wǎng)絡(luò)訓(xùn)練成本高,因此先將原始圖像進(jìn)行了resize操作,使原始圖像分辨率統(tǒng)一降至512×512像素,再對(duì)兩種分類(lèi)分別采用水平翻轉(zhuǎn)、平移(-50,-50)個(gè)像素、逆時(shí)針旋轉(zhuǎn)10°、變暗4種數(shù)據(jù)增強(qiáng)方法進(jìn)行擴(kuò)增。為了保持normal類(lèi)和TB類(lèi)數(shù)據(jù)均衡,手動(dòng)剔除了60例使用變暗增強(qiáng)的數(shù)據(jù),最終每類(lèi)數(shù)據(jù)為1970張,共3940張。原始數(shù)據(jù)及擴(kuò)增后的數(shù)據(jù)分布如表1所示。
表1 原始數(shù)據(jù)集及擴(kuò)增后數(shù)據(jù)集數(shù)據(jù)分布
數(shù)據(jù)集按照60∶20∶20的比例隨機(jī)劃分訓(xùn)練集、驗(yàn)證集與測(cè)試集,具體分布如圖1所示。
圖1 數(shù)據(jù)集數(shù)據(jù)分布
1.3.1 實(shí)驗(yàn)設(shè)置
本研究基于騰訊云服務(wù)器完成,操作系統(tǒng)為Windows Server 2016,GPU 為 Tesla 7,編譯平臺(tái)為PyCharm Community Edition 2021.2.1、編譯器為 Python 3.7、編譯環(huán)境為 Pytorch 1.7、Torchversion 0.8.0。實(shí)驗(yàn)中超參數(shù)設(shè)置:Epoch:50、Freeze Epoch:25、Batch Size:32、Learning Rate:0.0001。優(yōu)化器采用Adam優(yōu)化器,loss函數(shù)采用交叉熵函數(shù)。其中,Epoch分為兩個(gè)部分,即凍結(jié)訓(xùn)練(Freeze Epoch)與解凍訓(xùn)練(Unfreeze Epoch)。凍結(jié)訓(xùn)練是指將網(wǎng)絡(luò)主干部分凍結(jié)只訓(xùn)練全鏈接層參數(shù),解凍訓(xùn)練是指進(jìn)行全部參數(shù)訓(xùn)練。
1.3.2 實(shí)驗(yàn)設(shè)計(jì)
采用遷移學(xué)習(xí)的微調(diào)(Fine-tune)[22]方法,首先對(duì)VggNet-16(Vgg-16)和 VggNet-19(Vgg-19)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將訓(xùn)練結(jié)果作為基線(xiàn),再分別對(duì)SwinT、ViT、ConvNeXt的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,每個(gè)網(wǎng)絡(luò)分別加載Base和Large兩種預(yù)訓(xùn)練權(quán)重,實(shí)驗(yàn)采用相同的訓(xùn)練集、驗(yàn)證集及測(cè)試集,保證結(jié)果的可比較性。對(duì)驗(yàn)證集上首次出現(xiàn)準(zhǔn)確率最高的Epoch對(duì)應(yīng)的模型進(jìn)行保存,利用保存的模型分別對(duì)測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試,保存評(píng)價(jià)指標(biāo)。
利用模型測(cè)試代碼對(duì)保存的各網(wǎng)絡(luò)模型計(jì)算并記錄模型參數(shù)量、計(jì)算復(fù)雜度(FLOPs)模型大小及CPU推理時(shí)間。
利用Grad-CAM工具分別對(duì)SwinT、ViT、ConvNeXt網(wǎng)絡(luò)保存的模型進(jìn)行熱力圖可視化。
1.3.3 評(píng)價(jià)指標(biāo)
本實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 score、混淆矩陣以及受試者工作特征(Receiver Operating Characteristic,ROC)曲線(xiàn)作為分類(lèi)效果評(píng)價(jià)手段。其相關(guān)公式表達(dá)如式(1)~(4)所示:
其中,TP、TN、FP、FN分別表示真陽(yáng)性、真陰性、假陽(yáng)性、假陰性的數(shù)量。
混淆矩陣以預(yù)測(cè)標(biāo)簽作為橫軸、真實(shí)標(biāo)簽作為縱軸形成矩陣圖,主對(duì)角線(xiàn)上的數(shù)字越大說(shuō)明分類(lèi)效果越好。
ROC 曲線(xiàn)是以假陽(yáng)性率(False Positive Rate,F(xiàn)PR)作為橫軸、真陽(yáng)性率(True Positive Rate,TPR)作為縱軸通過(guò)改變閾值形成的曲線(xiàn),曲線(xiàn)下面積(Area Under Curve,AUC)越接近1說(shuō)明分類(lèi)效果越好。
2.1.1 準(zhǔn)確率等評(píng)價(jià)指標(biāo)對(duì)比情況
對(duì)于肺結(jié)核混合數(shù)據(jù)集的分類(lèi)任務(wù)各網(wǎng)絡(luò)效果對(duì)比如表2所示。從表2中可以看出,作為基線(xiàn)的Vgg-16和Vgg-19網(wǎng)絡(luò)的準(zhǔn)確率分別為95.18%和93.78%,F(xiàn)1 score分別為95.23%和93.76%。SwinT-Base和SwinT-Large網(wǎng)絡(luò)的準(zhǔn)確率分別達(dá)到98.60%和98.85%,F(xiàn)1 score分別達(dá)到98.61%和98.86%。ConvNeXt-Base和ConvNeXt-Large網(wǎng)絡(luò)精確率最高達(dá)到了98.70%和100%。
表2 肺結(jié)核分類(lèi)效果對(duì)比
2.1.2 混淆矩陣對(duì)比情況
混淆矩陣如圖2所示。從混淆矩陣中可以看出,8個(gè)網(wǎng)絡(luò)的假陽(yáng)性例數(shù)分別為:23、23、12、8、8、7、4、0,假陰性例數(shù)分別為:15、26、21、9、3、2、89、115。
圖2 各網(wǎng)絡(luò)混淆矩陣
2.1.3 ROC曲線(xiàn)對(duì)比情況
以FPR為橫軸、TPR為縱軸繪制各網(wǎng)絡(luò)的ROC曲線(xiàn),結(jié)果如圖3所示。從圖3中可以看出,所有網(wǎng)絡(luò)AUC值均大于0.5,其中Swint-Large網(wǎng)絡(luò)AUC值最高為0.9992,Vit-Large網(wǎng)絡(luò)與Swint-Base網(wǎng)絡(luò)AUC值接近分別為0.9981和0.9974。AUC值最小的是ConvNeXt網(wǎng)絡(luò)為0.9872。
圖3 各網(wǎng)絡(luò)ROC曲線(xiàn)
為了更好地了解網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化情況,對(duì)所訓(xùn)練的網(wǎng)絡(luò)進(jìn)行參數(shù)量、計(jì)算復(fù)雜度、模型大小和推理時(shí)間的對(duì)比,結(jié)果如表3所示。
表3 網(wǎng)絡(luò)模型參數(shù)及推理時(shí)間
從表3中可以看出,對(duì)于Base網(wǎng)絡(luò),Swint-Base網(wǎng)絡(luò)的FLOPs最低為15.1 G,參數(shù)量和模型大小最小的是Vit-Base網(wǎng)絡(luò)分別為 85.6 M 和 343.3 M。對(duì)于 Large網(wǎng)絡(luò),Swint-Large網(wǎng)絡(luò)參數(shù)量、計(jì)算復(fù)雜度及模型大小均取得了最小值,分別為194.8 M,34 G和780.6 M。從CPU推理時(shí)間上看,單張圖像推理時(shí)間最短的仍然是VggNet的兩個(gè)網(wǎng)絡(luò),均低于0.1 s,推理時(shí)間最長(zhǎng)的為Vit-Large網(wǎng)絡(luò)為0.54 s。
由于深度學(xué)習(xí)網(wǎng)絡(luò)的“黑匣子”機(jī)制,我們無(wú)法了解模型是用哪些特征來(lái)進(jìn)行分類(lèi)的,因此為了確定模型分類(lèi)注意力是否正確,使用熱力圖可視化Grad-CAM[23]方法對(duì)模型的注意力機(jī)制進(jìn)行探究。由于VggNet網(wǎng)絡(luò)已有大量研究基礎(chǔ),故本文不再對(duì)VggNet進(jìn)行熱力圖可視化操作。選取測(cè)試集中normal樣本和TB樣本各20例,分別對(duì)每個(gè)模型進(jìn)行熱力圖生成,對(duì)于ConvNeXt網(wǎng)絡(luò)選取“stages[-1]”特征層,對(duì)于ViT網(wǎng)絡(luò)選取“blocks [-1].norm1”特征層,對(duì)于SwinT網(wǎng)絡(luò)選取“norm”特征層進(jìn)行熱力圖成像。選擇其中3個(gè)正常圖像和3個(gè)肺結(jié)核圖像數(shù)據(jù)進(jìn)行展示,成像結(jié)果如圖4所示,前3行為正常肺部影像,后3行為肺結(jié)核影像。圖4結(jié)果顯示,ViT網(wǎng)絡(luò)熱力圖顏色分布十分分散,而相反ConvNeXt網(wǎng)絡(luò)熱力圖顏色分布過(guò)于集中,SwinT網(wǎng)絡(luò)熱力圖顏色分布主要集中在肺部。
圖4 各網(wǎng)絡(luò)熱力圖可視化
本研究對(duì)SwinT網(wǎng)絡(luò)預(yù)測(cè)錯(cuò)誤的圖像單獨(dú)生成熱力圖,其中Swint-Base網(wǎng)絡(luò)預(yù)測(cè)錯(cuò)誤圖像熱力圖如圖5a所示,Swint-Large網(wǎng)絡(luò)預(yù)測(cè)錯(cuò)誤圖像熱力圖如圖5b所示。從圖5可以看出,SwinT網(wǎng)絡(luò)一部分將正常的肺紋理識(shí)別為了病灶,一部分錯(cuò)誤的將胃腸道的積氣影識(shí)別為病灶影像。
圖5 SwinT網(wǎng)絡(luò)預(yù)測(cè)錯(cuò)誤圖像熱力圖
從網(wǎng)絡(luò)性能對(duì)比實(shí)驗(yàn)結(jié)果中可以看出,ViT網(wǎng)絡(luò)及SwinT網(wǎng)絡(luò)整體性能超過(guò)VggNet網(wǎng)絡(luò),且SwinT-Large網(wǎng)絡(luò)性能最優(yōu)。從圖2混淆矩陣中可以看出SwinT-Large網(wǎng)絡(luò)假陰性2例,假陽(yáng)性7例,是所有網(wǎng)絡(luò)中分類(lèi)錯(cuò)誤最少的。
從圖3的ROC曲線(xiàn)上可以看出,所有網(wǎng)絡(luò)AUC值均大于0.5,表明各網(wǎng)絡(luò)均可實(shí)現(xiàn)肺結(jié)核的分類(lèi),但分類(lèi)效果最好的仍然是SwinT-Large網(wǎng)絡(luò),其AUC值為0.9992最為接近1。SwinT-Large網(wǎng)絡(luò)在肺結(jié)核混合數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率達(dá)到98.85%,略高于Alawi等[17]實(shí)現(xiàn)的最高準(zhǔn)確率(98.71%),精確率為98.24%,召回率為99.49%,F(xiàn)1 score為98.86%,分別比Vgg-16網(wǎng)絡(luò)相應(yīng)指標(biāo)高出3.67%、3.96%、3.3%和3.63%。除精確率指標(biāo)略低于ConvNeXt網(wǎng)絡(luò)外,其他評(píng)價(jià)指標(biāo)均達(dá)到最高值。ConvNeXt-Large網(wǎng)絡(luò)精確率達(dá)到100%的原因是由于模型為了獲得更少的假陽(yáng)性樣本而產(chǎn)生了更多的假陰性樣本,從圖2中可以看出其假陰性樣本例數(shù)達(dá)到了115例,ConvNeXt-Base網(wǎng)絡(luò)也存在同樣的問(wèn)題。在實(shí)際應(yīng)用中肺結(jié)核的漏診(假陰性)相較于肺結(jié)核的誤診(假陽(yáng)性)造成的后果往往更加嚴(yán)重,如此高的漏診率臨床上是無(wú)法接受的。
從表3可以看出,SwinT-Base、ViT-Base及ConvNeXt-Base網(wǎng)絡(luò)的參數(shù)量、計(jì)算復(fù)雜度(ViT-Base除外)及模型大小均小于Vgg-16和Vgg-19網(wǎng)絡(luò)。其中SwinT-Base的計(jì)算復(fù)雜度最小為15.1 G,即有著最小的計(jì)算復(fù)雜度,這與Liu等[21]通過(guò)移動(dòng)滑窗設(shè)計(jì)減少了網(wǎng)絡(luò)計(jì)算復(fù)雜度的結(jié)論一致。
其參數(shù)量和模型大小與Vit-Base網(wǎng)絡(luò)、ConvNeXt-Base網(wǎng)絡(luò)接近,同時(shí)Swint-Large網(wǎng)絡(luò)在Large網(wǎng)絡(luò)中參數(shù)量、計(jì)算復(fù)雜度及模型大小均取得了最小值,說(shuō)明SwinT網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化更加合理,能夠在更少的參數(shù)下取得更加準(zhǔn)確的結(jié)果。CPU單張圖像推理時(shí)間均在1 s以?xún)?nèi),各網(wǎng)絡(luò)相差不大,此推理時(shí)間在實(shí)際應(yīng)用中完全能夠滿(mǎn)足使用需求。
熱力圖中顏色越深表示對(duì)結(jié)果預(yù)測(cè)貢獻(xiàn)越大。從圖4可以看出,ViT網(wǎng)絡(luò)熱力圖注意力分布十分分散,無(wú)用特征參與過(guò)多,結(jié)果可信度低。而ConvNeXt網(wǎng)絡(luò)熱力圖注意力過(guò)于集中,只利用了肺部的局部特征,忽略了大量的有用信息,且對(duì)正常圖像的分類(lèi)特征提取有誤,注意力多集中在心影處,這也是ConvNeXt網(wǎng)絡(luò)在測(cè)試集上預(yù)測(cè)效果較差的原因所在。SwinT網(wǎng)絡(luò)熱力圖注意力分布主要集中在肺部,特征提取最為準(zhǔn)確,這也是SwinT網(wǎng)絡(luò)分類(lèi)效果最好的原因。對(duì)圖5錯(cuò)誤預(yù)測(cè)圖像的熱力圖進(jìn)行分析可知:肺門(mén)處的血管集合影像易與肺結(jié)核的索條影混淆,導(dǎo)致部分正常的肺紋理被錯(cuò)誤地預(yù)判成病灶;而胃腸道集氣影像因人而異,并不是所有病例中都會(huì)出現(xiàn),若該影像只出現(xiàn)在某一類(lèi)病例中,便容易被模型誤判為分類(lèi)特征,造成分類(lèi)錯(cuò)誤。由于圖像分類(lèi)任務(wù)是對(duì)圖像整體進(jìn)行特征篩選,為避免有些無(wú)用的特征被網(wǎng)絡(luò)錯(cuò)誤識(shí)別,有幾種解決辦法:① 圖像預(yù)處理時(shí),采用分割網(wǎng)絡(luò)將肺部區(qū)域單獨(dú)識(shí)別進(jìn)行分割操作[24],將其他組織視作背景全部置為0,即黑色,這樣可以減少無(wú)關(guān)特征的參與,提高分類(lèi)準(zhǔn)確率;② 將伴有胃部腸道影的患者圖像整合到其他患者圖像中,使其既在正常類(lèi)中出現(xiàn)也在異常類(lèi)中出現(xiàn)[25];③ 增加數(shù)據(jù),搜集更豐富的原始數(shù)據(jù),如不同國(guó)家、不同地區(qū)、不同年齡、不同性別的圖像等或采用信息更豐富的CT數(shù)據(jù)[26]。
SwinT網(wǎng)絡(luò)在肺結(jié)核X線(xiàn)圖像分類(lèi)任務(wù)中取得了準(zhǔn)確率98.85%的優(yōu)異成績(jī),在目前單獨(dú)采用深度學(xué)習(xí)網(wǎng)絡(luò)的肺結(jié)核分類(lèi)任務(wù)中效果最優(yōu),其分層設(shè)計(jì)及采用移位窗口方法的自注意力機(jī)制使特征自動(dòng)提取更為準(zhǔn)確,能夠有效減少如ViT網(wǎng)絡(luò)和ConvNeXt網(wǎng)絡(luò)注意力過(guò)于分散或過(guò)于局限導(dǎo)致的特征提取不準(zhǔn)確的問(wèn)題。另外,SwinT網(wǎng)絡(luò)具有相對(duì)較低的網(wǎng)絡(luò)參數(shù)和計(jì)算復(fù)雜度,且相對(duì)較小的模型和相對(duì)較快的推理速度,在模型應(yīng)用部署上更有優(yōu)勢(shì)。因此,SwinT網(wǎng)絡(luò)為肺結(jié)核醫(yī)學(xué)影像分類(lèi)任務(wù)提供了一種不同于卷積神經(jīng)網(wǎng)絡(luò)且完全可行的深度學(xué)習(xí)方法,有利于推動(dòng)人工智能在肺結(jié)核X線(xiàn)影像輔助診斷方面的快速發(fā)展,對(duì)醫(yī)學(xué)影像學(xué)的發(fā)展意義重大。SwinT網(wǎng)絡(luò)不僅可以用于肺結(jié)核X線(xiàn)影像的分類(lèi)任務(wù),還可以擴(kuò)展至其他醫(yī)學(xué)影像分類(lèi)、識(shí)別、分割甚至多模態(tài)任務(wù),Liu等[21]指出該網(wǎng)絡(luò)具有作為主干網(wǎng)絡(luò)的巨大潛力,因此SwinT網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)的圖像分類(lèi)識(shí)別任務(wù)必然會(huì)成為接下來(lái)的研究熱點(diǎn)。