王 劍,樊 敏
(山西醫(yī)科大學(xué)汾陽學(xué)院,山西 汾陽 032200)
伴隨著卷積網(wǎng)絡(luò)的不斷發(fā)展,卷積網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域得到了廣泛的應(yīng)用,在氣胸分類方面取得了較好的分類結(jié)果。其中2017年NIH[2]的研究人員使用自然語言處理的方法構(gòu)建了一個(gè)醫(yī)學(xué)圖像數(shù)據(jù)集,并命名為Chest X-ray 14,該團(tuán)隊(duì)使用在ImageNet 上預(yù)訓(xùn)練好的深度學(xué)習(xí)框架在該數(shù)據(jù)集上完成氣胸分類的訓(xùn)練,最終獲得了80.6%的AUC 分?jǐn)?shù)。Jun[3]等提出了一種基于CNN 網(wǎng)絡(luò)的集成框架來診斷正常X 射線照片和含有氣胸的X 射線照片,該方法使用了不同的數(shù)據(jù)分辨率進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,使得最后獲得了91.1%的AUC分?jǐn)?shù)。該實(shí)驗(yàn)使用的是NIH 胸部數(shù)據(jù)集,正常胸片樣本和氣胸樣本之間存在著較大的數(shù)據(jù)不平衡問題。吳恩達(dá)[4]團(tuán)隊(duì)利用CheXNet 網(wǎng)絡(luò)在Chest X-Ray 14數(shù)據(jù)集上進(jìn)行了訓(xùn)練,其模型在肺炎診斷中表現(xiàn)優(yōu)異,但是在氣胸分類上的AUC 值只有88.7%。Sze[5]等提出了一種基于CheXNet 網(wǎng)絡(luò)的氣胸檢測(cè)模型,利用二元交叉熵?fù)p失函數(shù)解決數(shù)據(jù)不平衡的問題,最終在包含7 個(gè)氣胸?cái)?shù)據(jù)集以及195 個(gè)正常胸片的測(cè)試集上達(dá)到了70.8%的AUC 分?jǐn)?shù)。Park[6]等基于預(yù)訓(xùn)練的YOLO Darknet-19網(wǎng)絡(luò),采用SGD優(yōu)化器在氣胸?cái)?shù)據(jù)集上進(jìn)行微調(diào),并且保持輸入分辨率為1024×1024。經(jīng)過訓(xùn)練在內(nèi)部測(cè)試數(shù)據(jù)集上的AUC 分?jǐn)?shù)為98.4%。Geva[7]等基于紋理分析技術(shù)和監(jiān)督學(xué)習(xí)技術(shù),提出了一種面向胸部X 射線照片自動(dòng)診斷氣胸的專用框架。該框架使用了局部二值模式(LBP)和最大響應(yīng)濾波器(MR)算法,并且使用AdaBoost 分類器和KNN 分類器進(jìn)行訓(xùn)練,最終在含有108 例病例,其中48 例為氣胸病例的本地?cái)?shù)據(jù)集上獲得了81%的敏感性和87%的特異性值。
VisionTransformer 網(wǎng)絡(luò)是由Transformer 網(wǎng)絡(luò)發(fā)展而來的,目前VIT 網(wǎng)絡(luò)在圖像處理的各個(gè)領(lǐng)域包括分類、檢測(cè)、分割中都展現(xiàn)出了較好的性能,本文將基于Transformer網(wǎng)絡(luò)完成氣胸圖像的分類任務(wù)。
Chest X-ray 14 數(shù)據(jù)集含有12 萬張分辨率為1024×1024 的圖像,數(shù)據(jù)的格式為png。該數(shù)據(jù)集包含有3 萬例病例信息,由專業(yè)的醫(yī)生對(duì)14 種常見的肺部疾病進(jìn)行篩選和標(biāo)注,篩選之后氣胸?cái)?shù)據(jù)集為5298張,其他疾病數(shù)據(jù)為28774 張,正常圖像為60412 張,其準(zhǔn)確率超過了90%。
CheXpert 數(shù)據(jù)集包含了2002 年10 月到2017 年7月之間,斯坦福醫(yī)院的22萬張胸片數(shù)據(jù)。該數(shù)據(jù)來自65240 個(gè)就醫(yī)者,該數(shù)據(jù)集被標(biāo)記為14 個(gè)標(biāo)簽,其中12 個(gè)為常見的肺部疾病,另外兩個(gè),一個(gè)是健康標(biāo)簽,一個(gè)是輔助設(shè)備標(biāo)簽。其中氣胸?cái)?shù)據(jù)為17313 張,非氣胸?cái)?shù)據(jù)為167665張。
CheXpert 數(shù)據(jù)集與Chest X-ray 14 集最大不同點(diǎn)在于,CheXpert 數(shù)據(jù)集含有側(cè)體位胸片,但是側(cè)體位胸片一般是用來做輔助分析的,而不直接用于疾病診斷。因此當(dāng)我們使用圖像做氣胸分類任務(wù)時(shí),只選擇正位胸片即可。
MIMIC-CXR 數(shù)據(jù)集是由斯坦福大學(xué)發(fā)布的,該原始數(shù)據(jù)集中包含了65379 例就診者的胸片,共計(jì)377110張胸部X光片。該數(shù)據(jù)集也有14個(gè)標(biāo)簽,每張圖片被標(biāo)記為,陽性、陰性或不確定。MIMIC-CXRJPG數(shù)據(jù)集是由原始數(shù)據(jù)集轉(zhuǎn)換為JPG格式的數(shù)據(jù)集,共計(jì)222750張數(shù)據(jù)集,其中氣胸?cái)?shù)據(jù)集為9317張。該數(shù)據(jù)集和CheXpert數(shù)據(jù)集一樣,也存在側(cè)體位胸片。
由于醫(yī)學(xué)圖像數(shù)據(jù)采集的特殊性,醫(yī)學(xué)圖像往往樣本數(shù)量偏少并且圖像質(zhì)量參差不齊,然而數(shù)據(jù)集的多少以及圖像質(zhì)量的高低對(duì)深度學(xué)習(xí)起著至關(guān)重要的作用。針對(duì)圖像質(zhì)量,本文通過對(duì)四種常用的圖像增強(qiáng)技術(shù)進(jìn)行實(shí)驗(yàn),最終選用了效果較好的直方圖均衡化方法,實(shí)驗(yàn)證明利用該方法對(duì)氣胸?cái)?shù)據(jù)進(jìn)行處理可以提高氣胸分類的結(jié)果。
4.外歸因思想。十年間,很多協(xié)解人員思想和行為在現(xiàn)實(shí)自愿和心理非自愿的情況下長(zhǎng)期交互游離。協(xié)解人員普遍將矛頭指向油田和各二級(jí)單位,將協(xié)解問題歸因于政策不合理、執(zhí)行欠公正、人情太冷漠、命運(yùn)多坎坷等外部因素,而很少在自我的性格特征、主觀思想、行為習(xí)慣上找根源。如有些人協(xié)解前工作不勤奮、規(guī)章不遵守、人際不協(xié)調(diào);有些人協(xié)解時(shí)總想獲自由闖事業(yè),貪圖大額補(bǔ)償,躲避工作壓力。但是真正到協(xié)解后又開始創(chuàng)業(yè)嫌艱難、擇業(yè)怨機(jī)遇、再就業(yè)挑崗位講待遇,所以總是將自己困在一個(gè)周而復(fù)始的消極循環(huán)里,造成工作生活中的挫敗感、自卑感和不愉悅感。
直方圖均衡化(HE)技術(shù)[8]是圖像處理中常用的圖像增強(qiáng)技術(shù),高對(duì)比度的圖像具有近似均勻分布的直方圖,即每個(gè)灰色級(jí)別都有相同的概率出現(xiàn)。為了創(chuàng)建更均勻分布的直方圖,可以對(duì)較暗的圖像區(qū)域進(jìn)行灰度的重新分布,這可以使圖像更加清晰。假設(shè)一幅圖像M×N 的灰度值在[0,L]范圍內(nèi),那么它的直方圖計(jì)算公式如下:
其中,rk的取值范圍為[0,L],代表像素的灰度值,nk表示該灰度值所包含的像素個(gè)數(shù)。M×N 代表圖像的總像素個(gè)數(shù),p(rk) 即概率論中所說的頻率。在直角坐標(biāo)系中畫出rk與p(rk) 的關(guān)系圖形,即為直方圖。
圖像反轉(zhuǎn)是圖像處理中常用的圖像增強(qiáng)技術(shù)之一,在二進(jìn)制的圖像中,像素值由0變?yōu)?,由1變?yōu)?,圖像會(huì)黑白反轉(zhuǎn)。對(duì)于8Bite 的灰度圖像,則會(huì)使用255 減去原始像素,得到的差值為新圖像的像素值。對(duì)于X 光圖像,該操作會(huì)使暗點(diǎn)變亮,亮點(diǎn)變暗,具體計(jì)算公式如下:
其中,x和y是原始圖像和轉(zhuǎn)換后的圖像像素值。通過該操作,胸片中的感興趣區(qū)域(肺部區(qū)域)會(huì)變得更亮,骨骼會(huì)更暗。在臨床中,該方法得到了放射科醫(yī)生的青睞。
平衡對(duì)比度增強(qiáng)技術(shù)(BCET)[9]可以在不改變圖像數(shù)據(jù)直方圖模式的情況下拉伸或壓縮圖像的對(duì)比度。該方法的解是基于從圖像數(shù)據(jù)中獲取的拋物線函數(shù),具體公式如下:
其中,y表示最終的輸出圖像,x表示輸入圖像。該拋物線包含三個(gè)系數(shù)a,b和c,該系數(shù)由輸入和輸出圖像的最小值和最大值獲得。具體公式如下:
其中,l表示輸入圖像的最小值,h表示輸入圖像的最大值,e表示輸入圖像的平均值,L表示輸出圖像的最小值,H表示輸出圖像的最大值,E表示輸出圖像的平均值,s為圖像的均方和。
攝像設(shè)備在獲取圖像的過程中,會(huì)對(duì)圖像產(chǎn)生非線性轉(zhuǎn)化。公式如下:
其中,g(u)為變化后的像素值,r即Gamma 值,可見該變化會(huì)對(duì)圖像造成非線性的影像。理想狀態(tài)下,即如果知道r的值,那么就可以進(jìn)行還原其真實(shí)值,具體公式如下:
當(dāng)r值大于1 時(shí),圖像的整體亮度會(huì)下降,圖片會(huì)變暗,原因是圖像的灰度級(jí)經(jīng)過變換后整體向低灰度級(jí)延展。當(dāng)r值小于1時(shí),經(jīng)過變換后的圖像整體亮度會(huì)上升,圖像會(huì)變亮,原因是圖像經(jīng)過變換后灰度級(jí)整體向高灰度級(jí)延展。Gamma 校正的效果如圖1 所示。當(dāng)r值小于1 時(shí),圖像亮度會(huì)增強(qiáng),圖像整體效果會(huì)變白。當(dāng)r值大于1 時(shí),圖像亮度會(huì)減弱,圖像整體效果會(huì)變暗。
圖1 r參數(shù)值對(duì)圖像增強(qiáng)效果的對(duì)比
如圖2 所示,將原始?xì)庑貓D像分別利用直方圖均衡化、圖像反轉(zhuǎn)、BCET、gamma 校正進(jìn)行處理后,可以看出直方圖均衡化操作要好于圖像反轉(zhuǎn)、ECET 方法及Gamma 校正,更能突出氣胸病兆的區(qū)域特征,所以本文選取了直方圖均衡化操作作為圖像增強(qiáng)的方法。
圖2
基于VIT 網(wǎng)絡(luò)的氣胸圖像分類框架如圖3 所示,首先從Chestx-ray 14 數(shù)據(jù)集、CheXpert 數(shù)據(jù)集和MIMIC-CXR 數(shù)據(jù)集中隨機(jī)抽取氣胸樣例,經(jīng)過篩選剔除側(cè)位胸片,最終獲得2萬張氣胸?cái)?shù)據(jù),為了使數(shù)據(jù)集保存平衡,從非氣胸?cái)?shù)據(jù)集中以1:1的比例抽取2萬張非氣胸?cái)?shù)據(jù)集,然后調(diào)整圖像大小、并使用直方圖均衡化方法進(jìn)行圖像增強(qiáng),最后經(jīng)過圖像切塊即可輸入到VIT 網(wǎng)絡(luò)當(dāng)中,VIT 網(wǎng)絡(luò)選用VIT-L/16 版本,將MLP 模塊中的網(wǎng)絡(luò)進(jìn)行修改,最后一層網(wǎng)絡(luò)改為二分類網(wǎng)絡(luò)即可。
圖3 基于Transformer網(wǎng)絡(luò)的氣胸分類框架
將所選的4萬張圖像進(jìn)行分類標(biāo)記,并進(jìn)行劃分,具體的94%的數(shù)據(jù)集為訓(xùn)練集,3%的數(shù)據(jù)集為驗(yàn)證集,3%的數(shù)據(jù)集為測(cè)試集,梯度優(yōu)化采用SGD 優(yōu)化器,損失函數(shù)使用交叉熵函數(shù),學(xué)習(xí)速率設(shè)置為0.001,設(shè)置批量大小為24,epoch為30,使用ImageNet數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重進(jìn)行初始化。
圖像分類的評(píng)價(jià)指標(biāo)很多,但是對(duì)于醫(yī)學(xué)圖像分類輔助診斷的問題,分類模型的準(zhǔn)確率、精確率及AUC 值起著最為重要的作用。因此本文選擇準(zhǔn)確率和精確率作為評(píng)價(jià)所提模型的指標(biāo)。
準(zhǔn)確率定義為正確識(shí)別的正樣本和負(fù)樣本占總樣本的比例。公式如下:
精確率是所有正確識(shí)別的正樣本與所有網(wǎng)絡(luò)認(rèn)為是正樣本的比率,公式如下:
AUC 值為ROC 曲線下的面積,作為評(píng)估指標(biāo),AUC 值越大,說明模型越好,AUC 值更加看重正樣本的比率。
式⑺、式⑻中,TP 表示正樣本中預(yù)測(cè)為正樣本的樣本數(shù),TN 表示負(fù)樣本中預(yù)測(cè)為負(fù)樣本的樣本數(shù),F(xiàn)P 為負(fù)樣本中預(yù)測(cè)為正樣本的樣本數(shù),F(xiàn)N 為正樣本中預(yù)測(cè)為負(fù)樣本的樣本數(shù)。
如圖4 所示為VIT 網(wǎng)絡(luò)的訓(xùn)練集誤差、驗(yàn)證集誤差與驗(yàn)證集分類準(zhǔn)確率,表1 為網(wǎng)絡(luò)在測(cè)試集上的準(zhǔn)確率、精確率、AUC值,從表1可以看出,DenseNet-121網(wǎng)絡(luò)的準(zhǔn)確率為86.4%,比VIT 網(wǎng)絡(luò)低3.6%,其中VIT網(wǎng)絡(luò)的AUC 值達(dá)到了0.93,而DenseNet-121 的AUC值為0.89。由此驗(yàn)證了本文所提方法的有效性。
圖4 訓(xùn)練集損失和驗(yàn)證集準(zhǔn)確率
表1 測(cè)試集氣胸分類結(jié)果
本文充分利用了直方圖均衡化進(jìn)行圖像增強(qiáng)改變圖像質(zhì)量以及VisionTransformer網(wǎng)絡(luò)在特征提取方面的優(yōu)勢(shì),并且為了使模型具有更好的泛化性,從三個(gè)開源胸部數(shù)據(jù)集中選取了訓(xùn)練數(shù)據(jù)集,同時(shí)為了使模型有更好的分類效果,在訓(xùn)練時(shí)采用了SGD 優(yōu)化器,調(diào)整了MLP的結(jié)構(gòu),使用了遷移學(xué)習(xí)的思想,實(shí)驗(yàn)結(jié)果表明,所提方法的準(zhǔn)確率達(dá)到了90.1%,AUC值達(dá)到了0.93,優(yōu)于DenseNet-121 卷積網(wǎng)絡(luò),為臨床診斷提供了可靠的依據(jù)。如何利用Transformer 網(wǎng)絡(luò)進(jìn)行多分類任務(wù),將是下一步的研究方向。