(青島大學附屬青島市市立醫(yī)院東院保健科,山東 青島 266003)
消化內鏡技術是診斷胃腸道疾病的重要手段,普通白光內鏡在觀察黏膜淺表血管、組織形態(tài)變化方面已無法滿足臨床需求。隨著窄帶成像放大內鏡、智能分光比色技術、共聚焦激光顯微內鏡等較為先進內鏡技術應用于臨床,內鏡成像包含越來越多的復雜信息,內鏡圖像的解讀成為一項具有挑戰(zhàn)性工作。隨著信息技術快速發(fā)展,深度學習(DL)在醫(yī)療領域受到越來越多的關注,計算機輔助診斷(CAD)胃腸道疾病成為一項熱門的研究課題。通過分析提取疾病信息載體的內鏡圖像數據特征,CAD可提高臨床醫(yī)生執(zhí)行醫(yī)療任務能力,并有效提升診斷準確率,進而指導治療、評估預后。目前,DL已在內鏡下診斷Barrett食管、食管癌、幽門螺旋桿菌(Hp)感染、胃癌、結腸息肉等方面取得一定成果,未來在胃腸病學中應用范圍將進一步擴大。本文對國內外關于DL在Barrett食管、食管癌、Hp感染、胃癌、結腸息肉等方面應用,以及DL在胃腸鏡診斷中存在的不足及未來發(fā)展前景研究進展進行綜述。
人工智能以人類智慧為基礎,通過技術手段設定特定的程序使計算機模擬人類的某些行為或思維過程,致力于實現智能行為自動化。當人工智能與臨床胃腸鏡成像技術結合時,往往面對大量圖像數據需要進行深度挖掘、剖析內鏡圖像數據與疾病診斷之間的關聯。CAD是借助計算機算法及圖形處理技術進行內鏡圖像預處理、提取圖像特征、處理數據、得出診斷結果的一種先進技術[1]。
DL是目前主流的人工智能實現方法,其實質是通過構建多隱層的機器學習模型和海量的訓練數據,對數據中的原始特征進行表征學習,組合低層特征形成抽象高層表示屬性類別或特征[2]。作為建立、模擬人腦神經結構進行分析學習的神經網絡,DL具有較強的建模和推理能力,善于利用計算機算法挖掘、提取原始圖像數據中包含的抽象原始特征,通過一系列的復雜函數算法解釋醫(yī)學圖像,邏輯模擬計算機在腦神經元中的結構活動,實現計算機輸出單一診斷結果[3]。
卷積神經網絡(CNN)是一種經典而廣泛應用DL模型,擅長處理圖像尤其是復雜圖像相關的學習問題。CNN充分挖掘高維數據中的內在結構,通過卷積來模擬特征區(qū)分,基于卷積的權值共享及池化,降低圖像參數的數量級,對復雜的圖像數據自發(fā)進行降維處理,減少訓練參數數目,使圖像學習模型對縮放、平移、扭曲在一定程度上具有不變性、較強的魯棒性和容錯能力,優(yōu)化模型訓練,自發(fā)地從原始圖像數據中獲得特征的表達[4]。CNN在DL領域是一個“端到端”圖像分類模型,即輸入原始內鏡圖像,輸出內鏡下診斷疾病類別[5]。
Barrett食管是食管腺癌潛在的風險因子,絕大部分的指南均建議對可疑Barrett食管的病人進行“每隔2 cm四象限活檢”[6],然而目前異常增生病變區(qū)域活檢的靈敏度僅為64%[7]。目前以DL為基礎的CAD已研發(fā)用于自動識別Barrett食管及Barrett食管中癌變部位的技術。
2015年,VAN DER SOMMEN等[8]設計了機器學習常規(guī)內鏡圖像下特殊紋理、顏色濾過的計算機算法,識別早期Barrett食管病變區(qū)域的每圖像分析的靈敏度和特異度均為83%。該小組又基于容積式激光顯微內鏡(VLE)成像技術開發(fā)了CAD模型,利用分層、信號強度分析、分層與信號衰減統計等計算機算法,分別將60張Barrett食管病人高質量離體VLE圖像進行體外交叉驗證,結果顯示“分層與信號衰減統計”性能最優(yōu),受試者工作特征曲線下面積(AUC)為0.95,靈敏度為90%,特異度為93%[9]。DE GROOF等[10]就DL的CAD系統輔助內鏡醫(yī)生識別Barrett食管展開研究,前瞻性收集經組織學驗證的60例Barrett食管病人內鏡圖像,病變圖像由6位專家獨立評估,在線軟件描繪病變區(qū)域,利用DL的監(jiān)督學習技術,識別病變區(qū)域相關組織顏色、紋理,以求高精度檢測和定位Barrett食管癌變部位,結果顯示系統輔助診斷Barrett食管癌變的靈敏度為95%,特異度為85%,準確率為92%。
食管癌作為所有癌癥中第六大死亡原因,病人5年生存率僅15%~20%[11]。最近一項大型回顧性、多中心隊列研究表明,早期食管癌漏診率約為6.4%[12],早期食管癌癥狀的非特異性導致50%的病人確診時無法行手術治療或已有遠處轉移[13]。早期食管癌的篩查與診治是提高食管癌病人預后的有效途徑。胃鏡檢查為食管癌及癌前病變篩查的常規(guī)手段,有效提高內鏡篩查的靈敏度與診斷的準確率尤為重要。目前已有內鏡下食管癌智能識別、浸潤深度判定及光學病理學預測等方面的研究。
SHIN等[14]就高分辨率顯微內鏡(HRME)下食管鱗狀細胞癌(ESCC)的CAD展開定量研究,組織病理學輔助驗證,結果顯示獨立驗證組輔助診斷ESCC的靈敏度、特異度和AUC分別為84%、95%和0.93。HORIE等[15]采用單發(fā)多盒檢測(SSD)DL神經網絡架構,開發(fā)了常規(guī)內鏡圖像下智能識別食管癌的CNN模型,該系統用時27 s快速分析1 118張驗證集圖像,靈敏度和準確率均達98%。GHATWARY等[16]基于CNN就高清白光內鏡(HD-WLE)圖像自動識別食管腺癌(EAC)構建CAD模型,系統自動檢測和診斷EAC的靈敏度為96%,特異度為92%。EBIGBO等[17]報道,利用CAD-DL評估早期EAC的靈敏度為97%,特異度為88%。GUO等[18]開發(fā)CAD食管癌前病變及早期ESCC系統,利用6 473張癌前病變、早期ESCC和非癌性病變的窄帶成像對CAD模型進行訓練,通過內鏡圖像集、視頻數據集進行驗證,圖像檢測的靈敏度和特異度分別為98.04%和95.03%,AUC為0.989。對于27個非放大視頻數據集,每幀靈敏度60.8%,每病變靈敏度(定義為至少在視頻一幀中通過算法正確檢測到病變的百分比)為100%;而對于20個放大視頻,每幀靈敏度為96.1%,每病變靈敏度為100%;未改變全長的33個食管內鏡視頻每幀特異度為99.9%,每病變特異度為90.9%。以上研究通過分析存儲的內鏡圖像,為實時內鏡檢查快速識別食管癌奠定了基礎。
KUMAGAI等[19]基于細胞內鏡系統(ECS)應用DL實現虛擬組織學診斷,就“光學活檢”替代ESCC活組織檢查展開研究,結果顯示,系統17 s分析1 520張獨立訓練集內鏡圖像,正確識別27例ESCC中25例病變,總體靈敏度為92.6%;準確識別28例良性食管病變中25例非癌性病變,特異度為89.3%,準確率為90.9%,提示在無組織學活檢情況下診斷ESCC有望成為可能。
NAKAGAWA等[20]采用SSD架構,利用深度神經網絡分析ESCC浸潤深度構建了CAD系統。CAD相較于16名經驗豐富的內鏡醫(yī)生使用相同的驗證集驗證結果,靈敏度分別為90.1%、89.8%,特異度分別為95.8%、88.3%,陽性預測值分別為99.2%、97.9%,陰性預測值分別為63.9%、65.5%,系統區(qū)分黏膜下深層、黏膜層及黏膜淺層浸潤的準確率達91%。該研究結果表明,新開發(fā)的人工智能-CAD系統診斷食管癌浸潤深度與經驗豐富的內鏡醫(yī)生相當。
Hp感染可使部分病人發(fā)生胃黏膜萎縮和腸上皮化生,兩者均會增加胃癌罹患風險。常規(guī)內鏡下結節(jié)狀胃炎高度提示Hp感染,放大內鏡和窄帶成像可觀察Hp感染特殊征象,包括胃小凹和(或)匯集小靜脈、上皮下毛細血管網等改變。WATANABE等[21]報道,內鏡下Hp感染診斷陽性率為62.1%,Hp未感染為88.9%,Hp根除率為55.8%。人工智能可提高內鏡下識別Hp感染的準確率,減少漏診。
SHICHIJO等[22]研究應用22層深度神經網絡架構GoogLeNet,通過包含超過1 400萬張圖像的ImageNet數據庫進行預訓練,學習圖像特征,實現遷移學習過程。共納入32 208張圖片構建了CAD的Hp感染模型,11 481張圖片評估模型,CAD與23名內鏡醫(yī)師手動診斷同步進行,CAD診斷Hp感染的靈敏度、特異度、準確率、診斷時間分別為88.9%、87.4%、87.7%、194 s,而內鏡醫(yī)師則分別為79.0%、83.2%、82.4%、(230±65)min。ITOH等[23]開發(fā)了基于CNN的智能識別Hp感染的CAD模型,檢測Hp感染的靈敏度和特異度均為86.7%,AUC為0.956。ZHENG等[24]結合CNN模型(RESNET-50)評估Hp感染,研究納入1 959例病人的15 484張上消化道內鏡圖像集作為訓練及驗證集,系統識別單個內鏡圖像的準確率為84.5%,靈敏度為81.4%,特異度為90.1%,AUC為0.93。SHICHIJO等[25]就常規(guī)內鏡圖像應用CAD評估Hp感染狀態(tài)進行試驗研究,試驗納入98 546張內鏡圖像作為算法預訓練數據集,系統以261 s快速分析23 699張單獨測試數據集,Hp陰性的診斷準確率約為80%,Hp陽性約為48%,Hp根除狀態(tài)約為84%。該結果提示CAD模型在一定程度上可對Hp感染狀態(tài)進行有效預測。NAKASHIMA等[26]利用圖像增強內鏡(IEE)設計了基于DL算法預測Hp感染狀態(tài)的前瞻性研究,222例受試者依次拍攝普通白光(WLI)、增強藍激光成像(BLI-bright)、聯動成像內鏡(LCI)3種不同的IEE光源模式圖像,以血清學Hp抗體驗證,研究結果顯示WLI、BLI-Bright及LCI的AUC分別為0.66、0.96、0.95,BLI-Bright、LCI所獲得的AUC顯著大于WLI。
目前我國早期胃癌的診斷率不足10%,遠低于日本的50%~70%[27]。胃癌的早期識別主要存在兩大問題:①早期胃癌常常表現為微小的平坦、隆起或凹陷,內鏡下準確識別十分困難;②內鏡下胃癌浸潤深度判定困難。利用CAD早期胃癌及癌前病變、判斷胃癌浸潤深度的研究已有報道。2013年,MIYAKI等[28]開發(fā)了基于放大內鏡智能分光比色技術(FICE)的早期胃癌定量分析系統,其總體準確率達85.9%。隨后,該團隊基于BLI進行早期胃癌的定量分析研究,可有效地區(qū)分早期胃癌、癌癥周圍組織炎癥、胃炎[29]。2018年,KANESAKA等[30]開發(fā)了結合窄帶成像放大內鏡(ME-NBI)計算機輔助識別胃癌、劃定胃癌邊界的軟件,該系統識別胃癌準確率高達96.3%,界定胃癌病變區(qū)域的準確率達73.8%。
2018年,HIRASAWA等[3]首次報道了常規(guī)內鏡下基于CNN實現胃癌的自動檢測,CNN診斷系統47 s可分析2 296張測試圖像,總體靈敏度達92.2%,直徑≥6 mm侵襲性病灶靈敏度為98.6%。次年,WU等[31]采用深度卷積神經網絡(DCNN)架構,開發(fā)了無盲點早期胃癌的內鏡檢測、智能識別胃鏡圖像解剖位置系統,早期胃癌智能識別的準確率為92.5%,優(yōu)于同期各級內鏡醫(yī)生的診斷能力;細分胃解剖部位為10部位或26部位,CAD參照胃鏡圖像確定其解剖部位的準確率分別為90.0%或65.9%,與內鏡醫(yī)生表現相當。LUO等[32]開展了一項多中心、病例對照、診斷性研究,研究對象來自中山大學癌癥中心聯合5家醫(yī)院,行內鏡下上消化道癌癥(食管癌、胃癌)檢測,收集了84 424例病人的1 036 469幅內鏡圖像完成系統開發(fā)測試,其內部驗證集準確率為95.5%,靈敏度為94.2%,陽性預測值為81.4%,陰性預測值為97.8%,該系統具有較高的診斷準確性,對比診斷性能與內鏡專家水平相當,且優(yōu)于普通內鏡醫(yī)生,具有較高的臨床使用價值。
KUBOTA等[33]應用反向傳播神經網絡算法,首次開發(fā)了可進行胃癌浸潤深度分析的計算機輔助系統,總體準確率為64.7%。2019年YOON等[34]基于CNN改善早期胃癌內鏡下檢測和深度預測展開研究,結果表明針對早期胃癌檢測和深度預測其AUC分別為0.981和0.851。ZHU等[35]基于CNN-CAD系統,應用深度殘差網絡(ResNet-50)架構進行遷移學習,常規(guī)內鏡下確定胃癌侵襲深度,鑒別黏膜內癌(M)、黏膜下淺層分化型癌(SM1,浸潤深度≤500 μm)、黏膜下深層浸潤癌(SM2,浸潤深度>500 μm)。該系統36 s成功檢測了203張獨立測試集常規(guī)內鏡圖像,系統識別SM2的靈敏度達76.47%,特異度達95.56%,其總體準確率則達89.16%,AUC達0.94。
結腸鏡檢查是發(fā)現結腸息肉及腺瘤的主要手段。腺瘤檢出率每增加1%,結直腸癌發(fā)病率則降低約3%[36]。數據統計分析發(fā)現,腺瘤漏診率約為26%[37],因此,減少腺瘤和息肉的漏診是標準結腸鏡檢查目標。CAD結腸息肉及腺瘤主要包括結腸鏡下息肉的自動識別及實時顯示息肉存在的位置、大小、數量等特征,內鏡下行息肉組織學分類,實現精確光學診斷。
KARKANIS等[38]首次報道使用CAD靜態(tài)結腸鏡圖像下結直腸息肉,檢出率>90%。此項回顧性研究結果僅適用于靜態(tài)圖像,故研究結果無法應用于臨床。為解決上述問題,2018年MISAWA等[39]開展了一項通過分析內鏡視頻,實時檢測結直腸息肉的三維CNN試驗性研究,結果提示該系統的準確率達76.5%。URBAN等[40]利用CNN測試了計算機輔助實時定位和篩查息肉的圖像分析能力,試驗使用長達5 h由專家標識的20個結腸鏡檢查視頻作為測試集,結果顯示CNN自動檢測息肉的準確率為96.4%。與此同時,WANG等[41]開發(fā)和驗證了自動檢測腸鏡下息肉的DL算法,對1 290例病人的5 545張結腸鏡圖像數據進行實時訓練,使用4個獨立數據集集中驗證:數據集A為1 138例病人的27 113張結腸鏡圖像,測試靈敏度為94.38%,特異度為95.92%,AUC為0.984;數據集B為CVC-ClinicDB公共數據庫,29個結腸鏡視頻包含612張息肉圖像,靈敏度為88.24%;數據集C為包含138例經組織學證實為息肉的110例病人的138個剪輯結腸鏡檢查視頻,靈敏度為91.64%;數據集D為54例病人結腸鏡檢查的全長視頻,測試特異度為95.4%。同年,該小組基于DL的息肉自動檢測系統進行了一項前瞻性隨機對照研究,在腺瘤及息肉檢出群體中小腺瘤和增生性息肉的檢出率較標準內鏡增加,較大腺瘤檢出率兩者無明顯差異[42]。
KOMEDA等[43]基于CNN系統就結腸息肉分類展開了初步研究,驗證結果的準確率為75.1%。MORI等[44]開展了一項利用CAD鑒別腫瘤性息肉或非腫瘤性息肉前瞻性研究,結果顯示微小息肉(息肉大小≤5 mm)病理預測準確率達98.1%。BYRNE等[45]通過構建DL模型,分析原始結腸鏡檢查視頻,實時區(qū)分視頻中微小腺瘤及增生性息肉,準確率為94%,特異度為83%,靈敏度為98%。因此,基于CAD預測息肉病理類型在未來臨床工作中有望成為可能,息肉病理準確預測仍是臨床上一項重要挑戰(zhàn)。
自動檢測胃腸道腫瘤在胃腸道疾病的CAD中尤為關鍵,假陽性(非腫瘤誤診為腫瘤)和假陰性(腫瘤誤診為非腫瘤)結果的誤判,直接導致治療方案的錯誤選擇。胃腸道腫瘤要求內鏡下切除或手術切除,而非腫瘤性息肉則可保留。如胃炎伴紅腫、萎縮、腸上皮化生時,賁門、胃竇、幽門的顏色、黏膜表面及其正常組織結構改變,易與早期胃癌混淆,假陽性增多[3]?;蛞蛟缙诎┳儏^(qū)域過小,內鏡下漏診,假陰性出現。導致假陽性或假陰性最主要原因為機器學習材料數量和質量的限制,一方面,累積量大且質優(yōu)的內鏡下圖片進行計算機算法的訓練與驗證,才能產生更加準確結果;另一方面,內鏡視頻常包含更多低像素的真實圖片,這是靜止圖片很難捕捉的,利用視頻里截取的大量畫面作為學習材料,一定范圍內減少假陽性和假陰性率[7]。
目前的研究多為回顧性,由于研究前排除了因空氣不足、活檢后出血、黏液分泌、食物及糞便干擾、暈影、模糊、散焦等導致的低質量圖片[3,15,46],有傾向性地選擇清晰、典型、分辨率清晰的高質量內鏡圖像,造成了選擇偏倚,導致回顧性試驗研究的結果往往優(yōu)于臨床操作時實際結果。由于排除了低質量圖片,回顧性研究往往無法解釋實時內鏡檢查拍攝的低質量圖片?,F已有針對Barrett食管、Hp感染、結直腸息肉及腺瘤等的前瞻性研究,結果不易受偏倚影響,可獲得相對真實、可信度更高的臨床試驗數據[10,26,42]。故應著力進行大量前瞻性研究,不斷改良CAD系統,提高臨床試驗的準確率、靈敏度及特異度,為人工智能走向未來臨床實時應用打下堅實基礎。
不同型號的內鏡所獲得的檢查圖像的分辨率在不同設備中變化很大[35],現階段大部分回顧性試驗的材料來源于相同類型的內鏡和內鏡系統等單一渠道,以后研究應盡量包含多中心機構、多型號、多設備內鏡圖像數據,以確保結果的可重復性。
目前,內鏡視頻整體分析多偏向于結腸息肉及腺瘤方向[39-41,45],其他領域較少涉及,CAD研究大多數針對選定的內鏡圖像,臨床實時應用具有一定片面性與局限性。由于圖像數據集回顧性使用不能涵蓋病變所有形態(tài)特征,因缺乏非臨床意義的非典型特征,導致圖像選擇偏倚程度很高[47]。視頻集的應用能較好解決上述問題。同時,內鏡視頻分析可在實時內鏡檢查后行二次復查,快速識別、篩查胃腸道疾病,減少疾病漏診,在未來的DL輔助胃腸鏡檢查具有相當大的發(fā)展?jié)撃堋?/p>
目前,大多數研究使用診斷測試評估人工智能輔助診斷系統,結果在很大程度上受樣本質量和數量影響。訓練集、測試集及驗證集在病人病種及疾病嚴重程度上應完全獨立,考慮數據偏斜對模型影響,應根據疾病組成、目標人群和其他相關因素來準備測試數據集,以確保陽性樣本和陰性樣本的充分性[47-48]。此外,還應將病人患病風險分層納入當前DL模型中,以改善高風險人群的漏診,并且減少常規(guī)人群的誤診,使CAD得到更好的應用。
基于DL技術進行CAD獲得越來越多的關注,這與DL技術應用于實時胃腸鏡較好的發(fā)展前景密不可分。CAD在實時胃腸鏡檢查中提示病變部位,給予精準分類,將作為第二個觀察者輔助疾病診斷[41]。在低醫(yī)療資源地區(qū)或人群密集地區(qū),CAD用于人群胃腸鏡篩查,可避免內鏡醫(yī)生因經驗及專業(yè)知識不足或大負荷量的工作疲勞產生疾病漏診或誤診。CAD結合細胞內鏡或高分辨率顯微內鏡等成像技術,可實時給予替代組織病理學的病理結果,根據計算機視覺優(yōu)勢,甚至可預測腫瘤浸潤深度[20,35,49],指導疾病的診斷,以提供更有效的治療[19,50]。CAD可用于培訓缺乏經驗的新內鏡醫(yī)生,為其提供在線專業(yè)知識的訓練,提升專業(yè)技能。CAD可在線進行[3,22],為國內一些缺乏具有豐富經驗內鏡醫(yī)生的地區(qū)提供更為專業(yè)的內鏡診斷,便于病人于當地醫(yī)院就診,簡化看病流程。
目前大多數研究仍集中在早期系統開發(fā)和可行性研究階段,后期產品開發(fā)并未能從這些早期研究中跟進[51],DL結合胃腸鏡檢查進行CAD仍處于試驗研究階段。因此,未來還需結合功能更強大、效率更高、穩(wěn)定性更好的優(yōu)質算法與框架,進行大量高質量的前瞻性試驗研究,使CAD系統獲得更高的靈敏度、特異度和準確率,或可實現人工智能在臨床中的應用。