陳婷麗,王 靜,袁 非
糖尿病性視網(wǎng)膜病變、視網(wǎng)膜大動(dòng)脈瘤和黃斑變性等眼底疾病常常嚴(yán)重危害患者視力,而患者在疾病早期常無明顯自覺癥狀。因此,此類疾病的篩查和早期診治對(duì)于患者的預(yù)后具有非常重要的意義。隨著分級(jí)診療的普及,眼底病變的篩查工作一直成為基層眼科、社區(qū)醫(yī)院的重心,而探索一種經(jīng)濟(jì)快捷、高效的眼底病變篩查方式,一直以來是廣大眼科醫(yī)師和人工智能工程人員追求的目標(biāo)。隨著人工智能的快速興起,實(shí)現(xiàn)眼底病變的智能化篩查成為目前研究的熱點(diǎn)[1-2]。人工智能在糖尿病性視網(wǎng)膜病變[3-4]、青光眼[5-6]、黃斑變性[7-8]等眼科疾病的應(yīng)用具有很高的敏感性和特異性。本研究擬通過人工智能診斷系統(tǒng)對(duì)真實(shí)世界中的患者進(jìn)行診斷,以評(píng)估其在眼底疾病篩查診斷中的應(yīng)用價(jià)值。
1.1對(duì)象收集2018-07/12在我院眼科體檢的療養(yǎng)員1345例2690眼,其中男830例1660眼,女515例1030眼,年齡16~77(平均45.06±10.70)歲,最佳矯正視力為0.04~1.5。納入標(biāo)準(zhǔn):患者眼底照相成像清晰且患者同意本研究對(duì)其眼底照相進(jìn)行相關(guān)數(shù)據(jù)分析。排除標(biāo)準(zhǔn):(1)因眼外傷、角膜混濁、白內(nèi)障、玻璃體混濁(積血)等導(dǎo)致屈光間質(zhì)透明度下降,影響眼底清晰成像者;(2)因全身疾病無法配合眼底照相檢查者。本研究經(jīng)醫(yī)院倫理委員會(huì)批準(zhǔn),經(jīng)患者同意并簽署知情同意書。
1.2方法所有體檢者均由同一檢查者采用免散瞳眼底彩色照相機(jī)進(jìn)行眼底拍照,分別拍攝以黃斑為中心和以視盤為中心的眼底照片。采用以多層深度卷積神經(jīng)網(wǎng)絡(luò)算法為基礎(chǔ)的人工智能診斷系統(tǒng)對(duì)所上傳的眼底圖像進(jìn)行分析,獲取人工智能診斷報(bào)告,作為人工智能診斷組。同時(shí),該患者由兩位眼底??漆t(yī)師會(huì)診,彼此分別獨(dú)立對(duì)患眼進(jìn)行裂隙燈下90D前置鏡檢查,分別得出診斷報(bào)告。將完全相同的診斷結(jié)果作為最終人工診斷結(jié)果,若出現(xiàn)診斷差異性,交由眼底??浦魅吾t(yī)師進(jìn)行最終診斷的確定,以上結(jié)果作為專家診斷組。本研究中主要診斷包含有21個(gè)臨床常見眼底病所需診斷:(0)未見明顯異常;(1)玻璃膜疣(黃斑區(qū)外);(2)眼底動(dòng)脈硬化;(3)年齡相關(guān)性黃斑變性(ARMD)玻璃膜疣;(4)豹紋樣眼底;(5)疑似白內(nèi)障眼底/圖片質(zhì)量不佳;(6)杯盤比偏大;(7)其他黃斑變性;(8)黃斑前膜;(9)其他視神經(jīng)病變;(10)不明異常-就診/觀察;(11)大玻璃膜疣/色素沉著;(12)視網(wǎng)膜零星出血;(13)視網(wǎng)膜有髓神經(jīng)纖維;(14)非增殖性糖尿病性視網(wǎng)膜病變輕度;(15)非增殖性糖尿病性視網(wǎng)膜病變中度;(16)非增殖性糖尿病性視網(wǎng)膜病變重度;(17)增殖性糖尿病性視網(wǎng)膜病變;(18)視網(wǎng)膜分支靜脈阻塞;(19)視網(wǎng)膜大動(dòng)脈瘤;(20)視網(wǎng)膜激光斑。以專家診斷組為金標(biāo)準(zhǔn),計(jì)算人工智能診斷組的準(zhǔn)確率、一致性、敏感性和特異性。
統(tǒng)計(jì)學(xué)分析:采用統(tǒng)計(jì)學(xué)軟件SPSS 21.0進(jìn)行統(tǒng)計(jì)分析。計(jì)量資料以均數(shù)±標(biāo)準(zhǔn)差表示,計(jì)數(shù)資料以眼數(shù)表示。通過Kappa檢驗(yàn)比較人工智能診斷組與專家組結(jié)果的一致性。其中Kappa值>0且≤0.20為極低的一致性,>0.20且≤0.40為一般的一致性,>0.40且≤0.60為中等的一致性,>0.60且≤0.80為高度一致性,>0.80為幾乎完全一致。Kappa檢驗(yàn)中P<0.05表示兩者之間的一致性具有統(tǒng)計(jì)學(xué)意義。以專家組結(jié)果為金標(biāo)準(zhǔn),計(jì)算人工智能診斷組的準(zhǔn)確性、敏感度和特異性,其中涉及四個(gè)統(tǒng)計(jì)參數(shù):真陽性(true positive, TP)、假陽性(false positive,F(xiàn)P)、真陰性(true negative,TN)、假陰性(false negative,F(xiàn)N),計(jì)算公式如下:準(zhǔn)確率=(TP+TN)/(TP+FP+FN+TN),敏感性=TP/(TP+FN),特異性=TN/(FP+TN)。
2.1人工智能系統(tǒng)診斷準(zhǔn)確率在本研究中,所納入患者的診斷結(jié)果有1~5(1.38±0.67)個(gè)診斷,人工智能診斷組所有診斷完全一致的準(zhǔn)確率為62.82%,其中僅1個(gè)診斷的準(zhǔn)確率為56.09%,2個(gè)診斷的準(zhǔn)確率為77.96%,3個(gè)診斷的準(zhǔn)確率為84.61%,4個(gè)診斷的準(zhǔn)確率為86.95%,5個(gè)診斷的準(zhǔn)確率為60.00%。在僅1個(gè)診斷的結(jié)果中,由于豹紋狀眼底診斷產(chǎn)生差異的為606眼(71.63%),去除豹紋狀眼底診斷差異后,該組診斷準(zhǔn)確率為87.54%。
2.2人工智能系統(tǒng)診斷的一致性在本研究中,由于患者的診斷結(jié)果大于等于1個(gè)診斷,因此,我們根據(jù)不同診斷對(duì)結(jié)果分別進(jìn)行一致性分析。人工智能診斷組和臨床專家組一致性分析結(jié)果見表1,在玻璃膜疣(黃斑區(qū)外)、ARMD玻璃膜疣、黃斑前膜、不明異常-就診/觀察、近視萎縮弧、視網(wǎng)膜有髓神經(jīng)纖維、分支靜脈阻塞、非增殖性糖尿病性視網(wǎng)膜病變(輕度、中度、重度)、視網(wǎng)膜大動(dòng)脈瘤、視網(wǎng)膜激光斑診斷中,Kappa值>0.80,具有幾乎一致性。在疑似白內(nèi)障眼底/圖片質(zhì)量不佳、動(dòng)脈硬化、杯盤比增大、其他黃斑變性、大玻璃膜疣/色素沉著、視網(wǎng)膜零星出血、增殖性糖尿病性視網(wǎng)膜病變?cè)\斷中,Kappa值>0.60且≤0.80,具有高度一致性。在其他視神經(jīng)病變中,Kappa值>0.40且≤0.60,具有中等一致性,在無明顯異常和豹紋狀眼底中,Kappa值>0且≤0.20,具有極低一致性。
2.3人工智能系統(tǒng)診斷的敏感性和特異性在本研究中,人工智能系統(tǒng)診斷的敏感性結(jié)果見表1,在玻璃膜疣(黃斑區(qū)外)、ARMD玻璃膜疣、豹紋狀眼底、黃斑前膜、不明異常-就診/觀察、近視萎縮弧、視網(wǎng)膜零星出血、視網(wǎng)膜有髓神經(jīng)纖維、分支靜脈阻塞、視網(wǎng)膜大動(dòng)脈瘤、視網(wǎng)膜激光斑、非增殖性糖尿病性視網(wǎng)膜病變(輕度、中度、重度)診斷中,敏感性>0.80;在動(dòng)脈硬化、疑似白內(nèi)障眼底/圖片質(zhì)量不佳、杯盤比增大、其他黃斑變性、增殖性糖尿病性視網(wǎng)膜病變、大玻璃膜疣/色素沉著、其他視神經(jīng)病變?cè)\斷中,敏感性>0.60且≤0.80;在無明顯異常診斷中,敏感性>0且≤0.20,其中在專家組認(rèn)為無明顯異常而人工智能組認(rèn)為有異常的501例中,人工智能組診斷為豹紋狀眼底改變的占98.6%,為494例。人工智能系統(tǒng)診斷的特異性結(jié)果見表1,豹紋狀眼底特異性為0.142,其余診斷特異性均大于0.90,具有較高的特異性。
表1 人工智能診斷系統(tǒng)的一致性、敏感性和特異性
近年來,隨著人工智能的快速發(fā)展,人工智能在臨床中的應(yīng)用日益廣泛[2, 9-10]。深度學(xué)習(xí)算法是對(duì)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,其中包括多種算法,諸如:受限波爾茲曼機(jī)、卷積網(wǎng)絡(luò)、堆棧式自動(dòng)編碼器等[11]。本研究中,人工智能主要以深度學(xué)習(xí)為基礎(chǔ),通過多層深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,自動(dòng)獲取眼底圖片中的異常病灶信息,進(jìn)而得出相應(yīng)的診斷。
卷積神經(jīng)網(wǎng)絡(luò)[12](convolutional neural networks,CNN)是近幾年以來發(fā)展迅速并且受到各學(xué)科領(lǐng)域廣泛關(guān)注的一種深度學(xué)習(xí)的模型。早期的卷積神經(jīng)網(wǎng)絡(luò)主要用于手寫識(shí)別,隨著其不斷發(fā)展并且廣泛應(yīng)用在圖像處理、物體分類及語音處理等領(lǐng)域。卷積神經(jīng)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,具有以下優(yōu)點(diǎn):(1)卷積神經(jīng)網(wǎng)中的神經(jīng)元采用局部感知連接,相比較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)全連接的方式很大程度上降低了網(wǎng)絡(luò)計(jì)算的復(fù)雜度[13];(2)卷積神經(jīng)網(wǎng)絡(luò)權(quán)值共享的特殊方式使其布局更加接近生物網(wǎng)絡(luò),在圖像處理上極具優(yōu)勢(shì);(3)卷積神經(jīng)網(wǎng)絡(luò)利用多卷積核操作,實(shí)現(xiàn)能夠?qū)τ趶?fù)雜圖像信息進(jìn)行多特征抽取,進(jìn)一步提高了網(wǎng)絡(luò)的抽象能力;(4)卷積神經(jīng)網(wǎng)絡(luò)中含有下采樣層,能夠有效地減少每層樣本的數(shù)量,進(jìn)一步提升模型的能效。
以往研究主要集中在人工智能診斷系統(tǒng)對(duì)于單病種的診斷一致性、準(zhǔn)確性、敏感性和特異性的研究[14]。在真實(shí)世界中,患者的診斷往往并非單一,因此,我們通過人工智能診斷系統(tǒng)分析門診患者的眼底照相,進(jìn)而評(píng)估其一致性、準(zhǔn)確性、敏感性和特異性。
其中,為所選路徑中前往充電的充電站集合;為電動(dòng)汽車在完全充電狀態(tài)的容量;為電動(dòng)汽車在充電站充電電量與總?cè)萘康谋戎担粸樵摮潆娬镜某潆姽β蕿槌潆娦省?/p>
人工智能診斷組對(duì)于患者的完整診斷的診斷準(zhǔn)確性為62.82%,其中4個(gè)診斷的診斷準(zhǔn)確率最高為86.95%,其次為3個(gè)診斷的準(zhǔn)確率為84.61%,2個(gè)診斷的準(zhǔn)確率為77.96%,單個(gè)診斷準(zhǔn)確率僅為71.63%,5個(gè)診斷的準(zhǔn)確率最低為60%。診斷個(gè)數(shù)是指同一患者同一眼別的診斷名稱個(gè)數(shù),由于單一患眼具有5個(gè)診斷的數(shù)量很少,在納入患者中僅具有5眼別,其中3眼別的診斷完全一致,診斷準(zhǔn)確率為60%。在臨床中僅靠眼底照相對(duì)單眼做出5個(gè)診斷的患者數(shù)量很少,這也是本研究存在的不足之處,我們也將在后期擴(kuò)大樣本量,從而完善人工智能系統(tǒng)對(duì)于多診斷的眼底照相的準(zhǔn)確率研究,但是在本研究中,對(duì)于具有5個(gè)診斷的眼底照相,人工智能診斷系統(tǒng)具有60%的準(zhǔn)確率,也說明了人工智能眼底病變?cè)\斷系統(tǒng)在未來的臨床工作中具有很好的應(yīng)用前景。
在21個(gè)眼底病常用診斷中,我們發(fā)現(xiàn)除無明顯異常及豹紋狀眼底外,其余診斷的一致性Kappa值高達(dá)0.57~1,敏感性高達(dá)0.651~1,特異性高達(dá)0.93~1。雖然在無明顯異常及豹紋狀眼底診斷中Kappa值較低,分別為0.044、0.169,然而其P值小于0.05,提示人工智能診斷組與專家組之間具有診斷一致性。但是其一致性非常低。同時(shí),我們發(fā)現(xiàn)豹紋狀眼底的診斷一致性、特異性分別為Kappa值0.169,特異性0.142,說明這可能和我們?cè)谌斯ぶ悄芟到y(tǒng)中關(guān)于豹紋狀眼底的深度學(xué)習(xí)算法有關(guān),單純通過眼底照相可能存在一定的局限性,尚需通過深度學(xué)習(xí)結(jié)合患者的驗(yàn)光結(jié)果等進(jìn)一步加強(qiáng)和完善豹紋狀眼底的診斷一致性和特異性。通過數(shù)據(jù)分析發(fā)現(xiàn),在單個(gè)診斷中,共501眼由臨床專家組診斷為無明顯異常,而人工智能診斷組認(rèn)為其中有494眼為豹紋狀眼底。當(dāng)去除豹紋狀眼底診斷時(shí),單個(gè)診斷的準(zhǔn)確率提升至87.54%。因此,我們推測(cè),該診斷系統(tǒng)可以隨著深度學(xué)習(xí)增加從而得到進(jìn)一步優(yōu)化,具有很大的提升空間。
目前大多數(shù)人工智能在眼底病的研究主要集中在人工智能診斷系統(tǒng)對(duì)于糖尿病性視網(wǎng)膜病變的應(yīng)用價(jià)值。He等[3]和Gargeya等利用深度學(xué)習(xí)算法對(duì)糖尿病患者的眼底照相進(jìn)行識(shí)別以診斷DR,都獲得了大于90%的敏感性和特異性[12]。翁銘等[15]通過人工智能診斷系統(tǒng)對(duì)糖尿病患者進(jìn)行診斷,并將DR分為輕度NPDR、中度NPDR、重度NPDR及PDR進(jìn)行分析,得出人工智能診斷系統(tǒng)的敏感性為0.82,特異性為0.91。本研究結(jié)果顯示,在患者診斷中糖尿病性視網(wǎng)膜病變(輕度NPDR、中度NPDR、重度NPDR、PDR)的敏感性和特異性分別為0.920、0.911、0.886、0.780和0.998、0.997、0.996、0.992,其中敏感性較以往研究類似,而特異性大于99%。這可能由于篩查人群的不同,既往研究主要針對(duì)糖尿病患者的DR篩查,而本研究所納入門診患者中非糖尿病性視網(wǎng)膜病變患者占大多數(shù),提示人工智能對(duì)于DR患者的診斷具有高度特異性,在篩查診斷中具有極低的假陰性,對(duì)于DR篩查工作具有重要的臨床意義。
本研究結(jié)果顯示,人工智能診斷系統(tǒng)對(duì)于本試驗(yàn)中大多數(shù)診斷均具有較高的敏感性和特異性,然而不同的眼底疾病都有其臨床診斷金標(biāo)準(zhǔn),單依賴于眼底照相可能無法做出精確的診斷。青光眼是第二大致盲疾病,人工智能診斷系統(tǒng)在青光眼方面的應(yīng)用主要在檢測(cè)視網(wǎng)膜神經(jīng)纖維層厚度、視野和杯盤比等方面[16-17]。Diaz-Pinto等[18]研究認(rèn)為基于卷積神經(jīng)網(wǎng)絡(luò)的人工智能診斷系統(tǒng)通過眼底照相診斷青光眼的敏感性為0.934,特異性為0.858。本研究從眼底照相中通過識(shí)別杯盤比的大小確認(rèn)其是否異常,具有高度一致性,且有較好的敏感性0.651和高度特異性0.997。本研究敏感性下降的主要原因可能為Diaz-Pinto的研究對(duì)象為具有56%青光眼患者的眼底圖庫,而本研究對(duì)象為門診隨機(jī)患者,青光眼確診患者常伴有明顯的杯盤比增大,從而有利于人工智能診斷系統(tǒng)進(jìn)行確診,提高診斷敏感性。臨床上對(duì)于青光眼的診斷仍需視野、OCT等檢查支持,因此本研究中以杯盤比增大作為診斷,我們認(rèn)為,隨著人工智能診斷系統(tǒng)的深度學(xué)習(xí)的加強(qiáng)和優(yōu)化,其對(duì)于人群篩查具有重大的臨床意義。本研究結(jié)果顯示,人工智能診斷系統(tǒng)在黃斑前膜、黃斑變性、ARMD玻璃膜疣等黃斑疾病診斷抑或是視網(wǎng)膜大動(dòng)脈瘤、分支靜脈阻塞、視網(wǎng)膜零星出血中,都具有高度一致性、敏感性和特異性。本研究中的人工智能診斷系統(tǒng)目前主要通過眼底照相的細(xì)節(jié)識(shí)別處理,而對(duì)于該類眼底疾病,臨床上常需要進(jìn)一步行OCT、眼底血管造影等檢查以進(jìn)一步明確診斷。因此,在后續(xù)人工智能診斷系統(tǒng)研究中,將會(huì)納入更多眼科檢查結(jié)果,通過多維度的深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不斷更新人工智能診斷系統(tǒng),使之能夠更為智能化的服務(wù)眼科醫(yī)療。
綜上所述,基于多層深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的人工智能診斷系統(tǒng)對(duì)于絕大多數(shù)眼底疾病可以達(dá)到較高的敏感性和特異性,適用于眼底疾病的篩查工作,特別有利于基層醫(yī)院或社區(qū)醫(yī)院對(duì)于眼底疾病的初步診斷。本研究中也存在一定的不足之處,比如眼底疾病的病種仍有一定的局限性,部分病種的樣本量較小,部分眼底病變未采用其他檢查做為診斷參考標(biāo)準(zhǔn)等。因此,我們將進(jìn)一步擴(kuò)大眼底病種,增大樣本量,完善人工智能診斷模型,以期對(duì)于常見眼底疾病能夠做出更為準(zhǔn)確的診斷,推動(dòng)人工智能眼底病變?cè)\斷系統(tǒng)的發(fā)展。