于薏 周奕文 陳弟 胡珊 楊燕寧
1武漢大學(xué)人民醫(yī)院眼科中心 430060;2武漢大學(xué)人民醫(yī)院消化內(nèi)鏡中心 430060;3武漢大學(xué)資源與環(huán)境學(xué)院 430060
視網(wǎng)膜脫離(retinal detachment,RD)是眼科常見的致盲眼病之一,其發(fā)病率為6.3/10萬人~17.9/10萬人[1]。RD患者可能出現(xiàn)突發(fā)性、無痛性視力喪失,初期可表現(xiàn)為閃光感、眼前漂浮物及幕狀黑影遮擋。若不及時診療,可能導(dǎo)致嚴(yán)重視功能損傷,甚至致盲[2-3]。玻璃體后脫離(posterior vitreous detachment,PVD)的癥狀與6%~18%的RD發(fā)生有關(guān)[4],若患者同時存在玻璃體積血(vitreous hemorrhage,VH),RD的發(fā)生率可升至30%,甚至90%[5]。美國管理醫(yī)療網(wǎng)數(shù)據(jù)分析顯示,眼科急診就診人次占所有急診的3.4%[6]。RD、VH及PVD為眼科急診常見就診病因[7]。在我國,RD、VH及PVD患病人數(shù)多,是臨床常見眼科病癥[8-9]。RD患者需要眼科醫(yī)生的緊急診療,而VH和PVD患者通常僅需門診密切隨訪[10]。因此,臨床上快速、準(zhǔn)確地區(qū)分這3種疾病非常重要。眼科B型超聲作為眼科常用檢查,具有實時性較好、經(jīng)濟性高、方便快捷、無創(chuàng)傷性等優(yōu)勢,可在屈光間質(zhì)不透明的情況下對眼后節(jié)情況進行評估,是目前臨床常用、基層普及率較高的輔助診斷工具[7]。在實際臨床工作中,眼科B型超聲閱片對醫(yī)師經(jīng)驗有一定要求,醫(yī)師往往需經(jīng)過專門培訓(xùn),才能初步分辨RD、VH、PVD[11]。鑒于臨床B型超聲檢查基數(shù)大、基層醫(yī)院操作醫(yī)生水平有限等問題,提高B型超聲圖像在RD、VH及PVD中的診斷效率及準(zhǔn)確度、減輕醫(yī)療負擔(dān)是當(dāng)前亟待解決的問題。近年來,人工智能(artificial intelligence,AI)在眼科發(fā)展迅速,其在輔助白內(nèi)障、糖尿病視網(wǎng)膜病變、早期青光眼等疾病的診斷篩查方面取得了重大突破[12-14],AI在讀片速度及診斷準(zhǔn)確性上體現(xiàn)出極大優(yōu)勢,在部分疾病輔助診斷水平上接近高級別臨床醫(yī)師[15]。因此,將AI技術(shù)應(yīng)用于眼科B型超聲圖像的輔助識別或可提高急診及基層醫(yī)院臨床診療的效率及質(zhì)量。本研究擬探討AI輔助下的眼科B型超聲評估對臨床的應(yīng)用價值,探索玻璃體及視網(wǎng)膜疾病篩查、診療及智能醫(yī)療普及的新方法。
1.1.1B型超聲圖像收集 采用診斷試驗研究方法,回顧性收集2018年1月至2020年10月于武漢大學(xué)人民醫(yī)院眼科中心應(yīng)用眼科A/B超聲診斷儀(SW-2000,天津索維公司)進行檢查的患者眼科B型超聲圖像以及患者的年齡、性別、臨床診斷。所有眼科B型超聲圖像均由同1位工作經(jīng)驗20年以上的資深眼科超聲醫(yī)師采集,操作時嚴(yán)格按照規(guī)范進行檢測。所收集的全部眼科B型超聲圖像為BMP格式,大小在760 kb以上,清晰度為512×512像素。本研究經(jīng)武漢大學(xué)人民醫(yī)院倫理委員會審核通過(批文號:WDRY2020K-192),所有操作均遵循《赫爾辛基宣言》。
1.1.2B型超聲圖像篩選及分類 所收集的圖像由專業(yè)眼科醫(yī)生進行篩選,剔除不合格圖像,包括診斷不明確、拍攝模糊、對焦不清晰、偽影等所致的低質(zhì)量圖像以及多病種混合圖像,選取合格圖像建立計算機訓(xùn)練的數(shù)據(jù)集。最終共獲得來自1 278名受試者的3 600張眼科B型超聲圖像,受試者平均年齡為(49.32±7.69)歲,根據(jù)所收集受試者臨床診斷,對圖像進行分類,其中正常眼圖像731張,VH圖像462張,RD圖像522張,PVD圖像610張,其他病種(玻璃體混濁、后鞏膜葡萄腫、視網(wǎng)膜水腫、球內(nèi)異物、硅油填充術(shù)后、硅油取出術(shù)后等)圖像1 275張,并將數(shù)據(jù)集分為訓(xùn)練集和測試集,不同數(shù)據(jù)集分類數(shù)據(jù)見表1。
表1 收集數(shù)據(jù)基線信息及數(shù)量Table 1 The information and quantity of the data collected數(shù)據(jù)集例數(shù)圖像數(shù)(張)年齡(mean±SD,歲)不同病種圖像數(shù)(張)正常RDVHPVD其他訓(xùn)練集1003281248.46±4.58557423361508963測試集27578851.25±6.2717499101102312 注:RD:視網(wǎng)膜脫離;VH:玻璃體積血;PVD:玻璃體后脫離 Note:RD:retinal detachment;VH:vitreous hemorrhage;PVD:posterior vitreous detachment
1.2.1B型超聲圖像標(biāo)記 每幅圖像均由3位有3年以上臨床工作經(jīng)驗的眼科醫(yī)師采用VCG IMAGE Annotator圖像標(biāo)記軟件(Version 1.0.5,Visual Geometry Group,Department of Engineering Science,University of Oxford),結(jié)合患者基線信息及臨床診斷,對病灶范圍進行標(biāo)記(圖1),標(biāo)記結(jié)果出現(xiàn)分歧時由第4位更高年資的眼科醫(yī)師判定。
圖1 人工標(biāo)記的眼部B型超聲圖像 A:標(biāo)記的視網(wǎng)膜脫離病灶(黃框內(nèi)) B:標(biāo)記的玻璃體后脫離病灶(黃框內(nèi)) C:標(biāo)記的玻璃體積血病灶(黃框內(nèi))Figure 1 Manually labeled B-scan images of eyes A:Retinal detachment labeled within the yellow frame B:Posterior vitreous detachment labeled within the yellow frame C:Vitreous hemorrhage labeled within the yellow frame
1.2.2深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型的建立 采用基于ResNet-50的深度學(xué)習(xí)網(wǎng)絡(luò)模型進行圖像分類[16]。該模型以ImageNet的ResNet50預(yù)訓(xùn)練模型為基礎(chǔ),對收集到的眼科超聲圖像進行訓(xùn)練,首先通過遷移學(xué)習(xí)[17],根據(jù)圖像種類對網(wǎng)絡(luò)結(jié)構(gòu)的輸出分類層進行修改,數(shù)據(jù)重新訓(xùn)練和替換系統(tǒng)結(jié)構(gòu)的最終分類層。在該模型中,使用Drop Out[18]、Early Stopping[19]以及數(shù)據(jù)集擴增[20]來最大程度地降低過擬合的風(fēng)險。
模型訓(xùn)練流程如下:(1)通過深度卷積網(wǎng)絡(luò)1(deep convolutional neural network 1,DCNN1)將圖像分類為異常和正常;(2)DCNN2對異常圖像進行識別,將其分為RD/VH/PVD或其他疾??;(3)識別為RD/VH/PVD的圖像將被DCNN3進一步識別,分類為其中的具體疾病類型;(4)模型以熱圖的形式輸出結(jié)果,并給出診斷。每個DCNN的輸入都來自于上一個DCNN的輸出。3個DCNN的數(shù)據(jù)庫圖像數(shù)量分別為DCNN1數(shù)據(jù)庫3 600張(訓(xùn)練集∶ 測試集=2 812∶ 788),DCNN2數(shù)據(jù)庫2 869張(訓(xùn)練集∶ 測試集=2 255∶ 614),DCNN3數(shù)據(jù)庫1 594張(訓(xùn)練集∶ 測試集=1 292∶ 302)(圖2)。
圖2 模型訓(xùn)練流程圖 DCNN:深度卷積網(wǎng)絡(luò);RD:視網(wǎng)膜脫離;VH:玻璃體積血;PVD:玻璃體后脫離Figure 2 Flow chart of model training DCNN:deep convolultional neural network;RD:retinal detachment;VH:vitreous hemorrhage;PVD:posterior vitreous detachment
計算機算法使用Python(3.6.5版)編寫。開源Keras庫(2.1.5版)和TensorFlow庫(1.12.2版)作為后端。使用具有4個NVIDIA Geforce GTX 1080(GPU內(nèi)存8 GB)的服務(wù)器來訓(xùn)練模型。
1.2.3評價指標(biāo)
1.2.3.1模型準(zhǔn)確性驗證 將模型用于測試集圖像診斷,采用準(zhǔn)確度、敏感度、特異度、陽性預(yù)測值(positive predictive value,PPV)和陰性預(yù)測值(negative predictive value,NPV)、受試者工作特征(receiver operating characteristic curve,ROC)曲線及ROC曲線下面積(area under curve,AUC)評估模型準(zhǔn)確性。
1.2.3.2人機比較 另選取獨立于機器訓(xùn)練數(shù)據(jù)集的診斷明確、對焦清晰的眼科B型超聲圖像120張(RD、VH和PVD圖片各40張)用于人機測試,3位具有10年以上眼科超聲臨床經(jīng)驗的高年資醫(yī)師分別獨立對圖像進行診斷,同時應(yīng)用模型對該批次圖像進行評估。測試過程由同一位研究人員記錄評估耗時,最后將3位受試醫(yī)師與模型的評估結(jié)果,包括評估的準(zhǔn)確度及評估所用的時間進行比較。
1.2.3.3模型輔助低年資醫(yī)師效果評估 另選取150張獨立于計算機訓(xùn)練集的診斷明確、對焦清晰的眼科B型超聲圖像(正常、RD、VH、PVD和其他疾病圖像各30張),由8位未經(jīng)過眼科超聲培訓(xùn)的低年資眼科醫(yī)師分別獨立對150張圖像進行診斷并記錄評估結(jié)果,計算8位醫(yī)師的診斷準(zhǔn)確度(150張圖像中評估正確的圖像比例)。4個月后,由該8位醫(yī)生在模型輔助下再次對相同150張圖像進行診斷,先由計算機進行評估,以熱圖的形式標(biāo)記病變區(qū)域,以供受試醫(yī)師參考。
采用SPSS 25.0統(tǒng)計學(xué)軟件進行統(tǒng)計分析,對模型輔助前后的診斷準(zhǔn)確度行配對t檢驗,以評估計算機模型在臨床實際應(yīng)用中進行輔助診療的效果。P<0.05為差異有統(tǒng)計學(xué)意義。
計算機模型DCNN1對圖像識別的準(zhǔn)確度為0.943,敏感度為0.940,特異度為0.954,PPV為0.817,NPV為0.986;DCNN2對異常圖像識別的準(zhǔn)確度為0.909,敏感度為0.920,特異度為0.897,PPV為0.903,NPV為0.916;DCNN3對RD/VH/PVD分類的準(zhǔn)確度為0.927,其中對RD識別的準(zhǔn)確度為0.909,對PVD識別的準(zhǔn)確度為0.990,對VH識別的準(zhǔn)確度為0.881。3個DCNN的混淆矩陣圖見圖3。DCNN1及DCNN2的AUC分別為0.947和0.909(圖4)。
圖3 各網(wǎng)絡(luò)模型的混淆矩陣 A:DCNN1 B:DCNN2 C:DCNN3 PVD:玻璃體后脫離;VH:玻璃體積血;RD:視網(wǎng)膜脫離Figure 3 Confusion matrix diagrams of three DCNN models A:DCNN1 B:DCNN2 C:DCNN3 PVD:posterior vitreous detachment;VH:vitreous hemorrhage;RD:retinal detachment
圖4 DCNN1和DCNN2模型的ROC曲線 A:DCNN1模型 AUC=0.947 B:DCNN2模型 AUC=0.090Figure 4 ROC curve for DCNN1 and DCNN2 models A:DCNN1 AUC=0.947 B:DCNN2 AUC=0.909
針對120張測試圖像,模型識別RD、VH和PVD的準(zhǔn)確度分別為0.925、0.800和1.000,與3位高年資眼科醫(yī)生診斷的準(zhǔn)確度相近。3位高年資醫(yī)生評估圖像所用時間最短為1 394.40 s,平均11.62 s/張;最長為1 827.62 s,平均15.23 s/張。模型評估120張圖像用時747.66 s,平均6.23 s/張,讀圖速度約為高年資醫(yī)生的2倍(表2)。
表2 人機識別B型超聲圖像的準(zhǔn)確度及用時比較Table 2 Comparison of accuracy and time of identifying B-scan ultrasound images between the model and ophthalmologists人機識別B型超聲圖像的準(zhǔn)確度RDVHPVD用時(s)模型0.9250.8001.000747.66眼科醫(yī)生10.9250.8751.0001456.80眼科醫(yī)生20.8500.8000.9501394.40眼科醫(yī)生30.9000.8250.9251827.62 注:RD:視網(wǎng)膜脫離;VH:玻璃體積血;PVD:玻璃體后脫離 Note:RD:retinal detachment;VH:vitreous hemorrhage;PVD:poste-rior vitreous detachment
模型輔助前和模型輔助下低年資醫(yī)師對圖像評估的準(zhǔn)確度分別為0.603±0.144和0.814±0.084,模型輔助下醫(yī)師對圖像評估準(zhǔn)確度較模型輔助前明顯升高,差異有統(tǒng)計學(xué)意義(t=6.488,P<0.01)。無模型輔助時,8位未經(jīng)眼科超聲培訓(xùn)的醫(yī)師對圖像識別的準(zhǔn)確度最低為0.380,最高為0.827;在模型輔助下,8位醫(yī)師對圖像識別的準(zhǔn)確度均有所提升,準(zhǔn)確度最高提升0.360,平均每位醫(yī)師準(zhǔn)確度較前提升0.211±0.086,提升后準(zhǔn)確度均在0.650以上,最高為0.927(表3)。
表3 模型輔助前后低年資醫(yī)師圖像診斷準(zhǔn)確度比較Table 3 Comparison of image diagnosis accuracy of junior doctors between without and with model assistance模型輔助前準(zhǔn)確度模型輔助后準(zhǔn)確度準(zhǔn)確度提升臨床醫(yī)師10.6200.8400.220臨床醫(yī)師20.4400.7000.260臨床醫(yī)師30.5260.8870.360臨床醫(yī)師40.7060.8530.147臨床醫(yī)師50.3800.6800.300臨床醫(yī)師60.8270.9270.100臨床醫(yī)師70.5730.7600.187臨床醫(yī)師80.7530.8670.114平均0.6030.8140.211
眼科B型超聲檢查因其方便快捷且無創(chuàng)的優(yōu)點常作為臨床上眼科基本檢查項目用于評估眼底癥狀[21],然而大量眼科B型超聲檢查結(jié)果分析給臨床醫(yī)生帶來極大工作量[22];另一方面,由于其操作及結(jié)果的評估對醫(yī)生專業(yè)能力有一定要求,培養(yǎng)一名合格的眼科超聲醫(yī)生需要花費大量的時間和精力[23],因此,實現(xiàn)眼科B型超聲圖像評估的自動化及智能化是當(dāng)前我國眼底病篩查、推進智慧醫(yī)療的必要條件。目前,AI在醫(yī)療領(lǐng)域發(fā)展迅猛,但少見AI輔助眼科B型超聲進行眼底病診斷或篩查的相關(guān)研究。開展基于眼科圖像的AI輔助診斷系統(tǒng)的研發(fā)是我國防盲、治盲工作的發(fā)展趨勢[15]。
近年來,深度學(xué)習(xí)技術(shù)作為一類多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法被廣泛應(yīng)用于醫(yī)療領(lǐng)域。在眼科疾病診斷方面,大多是采用大量圖像數(shù)據(jù)進行機器學(xué)習(xí)[24]。本研究用于機器學(xué)習(xí)的眼科B型超聲圖像均為同一位工作經(jīng)驗20年以上的資深眼科超聲醫(yī)師采集,并剔除不合格圖像,以保證模型的學(xué)習(xí)效果,從而使模型達到較為理想的識別精度。在深度學(xué)習(xí)過程中,網(wǎng)絡(luò)深度遇到的主要問題包括梯度消失和梯度爆炸,而解決方式通常為數(shù)據(jù)的初始化和正則化[25]。ResNet-50是在現(xiàn)有深度網(wǎng)絡(luò)訓(xùn)練的基礎(chǔ)上提出的一種具有計算負擔(dān)小、易優(yōu)化等優(yōu)點的殘差學(xué)習(xí)框架,其包含49個卷積層和1個全連接層的性能優(yōu)良的殘差網(wǎng)絡(luò)模型。殘差可用來解決退化和梯度問題,使得網(wǎng)絡(luò)性能在深度增加的同時也得到提升[26]。本研究中采用ResNet-50構(gòu)建的基于B型超聲圖像模型對識別RD、PVD和VH有較高的準(zhǔn)確度、敏感度及特異度。在人機比較測試中,模型表現(xiàn)出了良好性能,其準(zhǔn)確度與高年資眼科超聲醫(yī)生相近,且用時僅為臨床醫(yī)生的1/2。經(jīng)模型輔助后,低年資醫(yī)生對B型超聲圖像的評估準(zhǔn)確度也有了大幅提高,部分低年資醫(yī)生準(zhǔn)確度甚至與高年資超聲醫(yī)生相近,體現(xiàn)了模型在輔助評估方面的巨大應(yīng)用潛力,以及在疾病診斷及患者快速普篩方面的應(yīng)用價值。但在同一模型的輔助下,各個醫(yī)生最終的準(zhǔn)確度并非完全一致,這可能與醫(yī)生自身的專業(yè)水平差異有關(guān),另外醫(yī)生缺少豐富閱片經(jīng)驗,且在大量閱片時可能會產(chǎn)生疲勞,會結(jié)合自己的主觀判斷給出診斷,這些因素均會對準(zhǔn)確度產(chǎn)生影響。
本研究設(shè)置了3個網(wǎng)絡(luò)結(jié)構(gòu),利用2個二分類模型與1個三分類模型對5種超聲圖像(正常、PVD、VH、RD和其他疾病)進行識別。首先利用DCNN1篩選出正常圖像,再利用DCNN2識別異常圖像中的其他病種圖像,最后DCNN3將PVD/VH/RD圖像進行分類。與單一的五分類模型相比,這種網(wǎng)絡(luò)結(jié)構(gòu)具有更好的識別準(zhǔn)確度和精度。同時,由于該網(wǎng)絡(luò)的輸入是單張圖像數(shù)據(jù),因此模型最終是基于單張超聲圖像而非單個患者進行診斷識別,而實際臨床操作中,操作者往往會采集多張不同鐘點位的超聲圖像,即1例患者有多張圖像數(shù)據(jù),因此只要采集的數(shù)據(jù)中含有病灶圖像,模型便可對其進行識別。
本研究存在一定的局限性。首先,由于模型的訓(xùn)練依賴于大量樣本數(shù)據(jù)及特征的識別,本研究中用于模型訓(xùn)練的圖像為特征明顯的臨床常見單病種圖像,目前該模型所能識別的疾病類型有限,對混合疾病及臨床罕見病的識別尚不完善;其次,當(dāng)圖像不清晰或病變特征不明顯時,模型往往無法正確識別,后期將聯(lián)合多家醫(yī)院建立更大樣本的數(shù)據(jù)庫用于模型訓(xùn)練,進一步提高模型的識別精度,增加可識別疾病類型,以便更好地實現(xiàn)AI的臨床轉(zhuǎn)換應(yīng)用。
綜上所述,本研究結(jié)果表明基于眼科B型超聲圖像的RD、PVD和VH識別智能診斷系統(tǒng)的準(zhǔn)確度、敏感度和特異度較好,能夠輔助臨床醫(yī)師更好、更快地對B型超聲圖像進行分析,并且此模型較適合眼科醫(yī)師缺乏、臨床經(jīng)驗欠佳的基層或社區(qū)醫(yī)院,也可應(yīng)用于大批量人群的眼底病篩查。
利益沖突所有作者均聲明不存在利益沖突