王 娜,王 悅**,馮琦慧,張曉波,李清麗,沈丹華,魏麗惠
(1.北京大學(xué)人民醫(yī)院a.婦產(chǎn)科;b.病理科,北京 100044;2.四川大學(xué)華西第二醫(yī)院婦產(chǎn)科四川大學(xué)出生缺陷與相關(guān)婦兒疾病教育部重點實驗室,成都 610041)
子宮頸癌發(fā)病率在世界范圍內(nèi)居女性惡性腫瘤第四位[1],我國年新增宮頸癌近11萬例,死亡接近5萬例[2]。2018年世界衛(wèi)生組織(WHO)發(fā)出全球消除子宮頸癌的行動計劃[3]。我國婦女發(fā)展綱要也明確提出宮頸癌篩查覆蓋率達到80%的目標。宮頸脫落細胞學(xué)是目前最重要且有效的宮頸癌篩查手段之一,但我國有3.5億適齡篩查婦女人口,即使以每3~5年進行一次篩查的標準來實施,年篩查量仍接近一億人次。目前,我國臨床多采用傳統(tǒng)人工光鏡檢測,由病理醫(yī)師進行閱片診斷,此方法效率低,工作耗時長、強度大,且細胞病理醫(yī)師的數(shù)量不足、水平不一,易導(dǎo)致臨床漏診和誤診。以上均成為掣肘我國宮頸癌篩查覆蓋率的重要因素。近年來,人工智能(artificial intelligence,AI)得到快速發(fā)展并開始在醫(yī)學(xué)領(lǐng)域中廣泛應(yīng)用[4-8],其中AI參與細胞學(xué)病理閱片,有望提高工作效率,提高診斷準確性,降低漏診率和誤診率,為宮頸癌篩查帶來曙光[9-10]。但AI的診斷效能以及能多大程度替代人工仍是未知數(shù)。為評估AI在宮頸癌細胞學(xué)篩查中的診斷效能,本研究對2019年10月至2020年1月期間“適合國人宮頸癌篩查方案建立”(科技部重大慢性非傳染性疾病防控研究)課題組在部分地區(qū)隨訪的202例宮頸薄層液基細胞學(xué)標本,利用多流卷積神經(jīng)網(wǎng)絡(luò)(mutlti-stream convolutional neural networks,MS-CNN)細胞分類算法進行AI判讀,再經(jīng)病理學(xué)醫(yī)師核驗,以評價AI判讀的準確性,進而評估AI替代人工判讀的可能性,為我國尚處于初步探索階段的AI病理閱片提供資料。
1.1 研究對象 選取“適合國人宮頸癌篩查方案建立”課題中[11]納入篩查(有性生活史、年齡<65歲、自愿參加、未確診宮頸癌或癌前病變、未切除子宮),且篩查結(jié)果異常(HPV陽性或細胞學(xué)≥ASCUS,無需轉(zhuǎn)診陰道鏡和轉(zhuǎn)診陰道鏡病理結(jié)果≤CIN1),并參與第二輪隨訪的202例患者,其中包括北京大學(xué)人民醫(yī)院于內(nèi)蒙古通遼市篩查的129例,四川大學(xué)華西二院于四川省涼山州會東縣篩查的73例,分別在2019年10月和2020年1月于當?shù)蒯t(yī)院行宮頸脫落細胞學(xué)檢查和HPV檢測。
1.2 實驗方法
1.2.1 取樣、制片及巴氏染色 TCT(Thinprep cytologic test,豪洛捷公司新柏氏液基細胞學(xué)檢測)采樣刷采集宮頸移行帶區(qū)域、宮頸管及陰道穹窿的脫落上皮細胞并轉(zhuǎn)移到細胞保存液中。由Thinprep2000全自動處理儀把樣本混勻、過濾、轉(zhuǎn)移、固定。蘇木素染核(3~5min)→水沖洗1次→95%酒精漂洗1次→橘黃染胞漿(40~60s)→95%酒精漂洗2次→EA50染胞漿(3~5min)→95%酒精漂洗3次→二甲苯(5~10min)→中性樹膠封片。
1.2.2 診斷標準 根據(jù)TBS-2014報告系統(tǒng)[12]細胞學(xué)診斷分為無宮頸上皮病變或惡性細胞(negative intraepithelial lesion or malignancy,NILM),沒有明確診斷意義的不典型鱗狀上皮細胞(atypical squamous cells of undetermined significance,ASCUS)、低度鱗狀上皮內(nèi)病變(low grade squamous intraepithelial lesion,LSIL)、非典型鱗狀上皮-不除外高度病變(atypical squamous cell cannot exclude high-grade squamous intraepithelial lesion,ASC-H)、高度鱗狀上皮內(nèi)病變(high grade squamous intraepithelial lesion,HSIL)、鱗狀細胞癌(squamous cell carcinoma,SCC),以及非典型腺上皮細胞(atypical grandular cell,AGC)、原位腺癌(endocervical adenocarcinoma in situ,AIS)、腺癌(adenocarcinoma)。
1.2.3 AI閱片及判讀 用生強、江豐等玻片掃描系統(tǒng)獲取202例宮頸薄層液基細胞學(xué)標本的數(shù)字圖像并存儲,再人工導(dǎo)入深思考人工智能機器人科技(北京)有限公司提供的MS-CNN[13]細胞分類算法,得到判讀結(jié)果。具體操作是,玻片掃描系統(tǒng)同時裝載幾十到上百片玻片,一張玻片在60s左右的時間內(nèi)在某放大倍率的鏡頭下快速移動,完成逐點掃描并將圖像無縫拼接,生成高分辨率的全視野數(shù)字化切片(whole slide imaging,WSI),玻片信息得以數(shù)字化、完整、永久儲存;病理學(xué)醫(yī)師可宏觀或以任意放大倍率觀察細節(jié)。MSCNN是一種適用于細胞分類的神經(jīng)網(wǎng)絡(luò)分類算法,圖像首先經(jīng)數(shù)據(jù)擴增(平移、旋轉(zhuǎn)、翻轉(zhuǎn)變換)和細胞核分割等過程實現(xiàn)預(yù)處理,然后根據(jù)細胞核形態(tài)和紋理、核漿比等人工設(shè)計的和自動學(xué)習(xí)提取的特征進行細胞分類。該分類算法的獨特性在于,在雙流卷積神經(jīng)網(wǎng)絡(luò)對細胞和細胞核特征分別進行隱式提取的基礎(chǔ)上,加入一路傳統(tǒng)的人工設(shè)計的形態(tài)學(xué)提取流,各流經(jīng)過全連接層進行特征拼接,最后輸出細胞分類。
1.2.4 病理醫(yī)師閱片及判讀 202例樣本經(jīng)AI閱片判讀后,全部由一名有資質(zhì)和經(jīng)驗的病理學(xué)醫(yī)師再次判讀,并由另外一名有資質(zhì)和經(jīng)驗的病理學(xué)醫(yī)師核驗,給出最終的人工判讀結(jié)果。
1.3 統(tǒng)計學(xué)分析 采用SPSS21統(tǒng)計軟件,計算相應(yīng)的統(tǒng)計學(xué)指標,包括可靠性(符合率、Kappa分析)、真實性(靈敏度和漏診率、特異度和誤診率)、診斷價值(預(yù)測值)。對配對表進行配對卡方檢驗(McNemar檢驗和Marginal Homogeneity檢驗),P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 閱片 病理學(xué)醫(yī)師的閱片成功率為100%。機器閱片的成功率為90.10%(182/202),即對182例樣本給出判讀結(jié)果,余未給出判讀結(jié)果的原因如下:6例細胞量少,6例細菌過多,8例制片模糊。本文僅對同時具有人工判讀結(jié)果和機器判讀結(jié)果的182例進行分析。
2.2 判讀結(jié)果和結(jié)果分析 以人工判讀結(jié)果為標準,對MS-CNN兩種分類算法的診斷效能分別進行評價,見表1~3和圖1。
圖1 數(shù)字化圖像及其MS-CNN判讀結(jié)果
表1 MS-CNN二分類算法與人工判讀結(jié)果
MS-CNN二分類和多分類算法的符合率分別為68.13%(124/182)和73.08%(133/182),根據(jù) Kappa值判斷其與人工判讀結(jié)果一致性一般,且存在一定差異(McNemar檢驗和Marginal Homogeneity檢驗,P<0.05)。
二分類中,AI判讀的陽性率47.80%(87/182)明顯高于人工判讀15.93%(29/182),靈敏度、特異度、陰性預(yù)測值分別為100%、62.09%、100%,即可將所有含有異常細胞的樣本篩選出來達到零漏診率,并且陰性結(jié)果100%正確。多分類中,人工判讀NILM、ASCUS、LSIL、ASC-H、HSIL 分別有153 例(84.07%)、22例(12.09%)、7 例(3.85%)、0例、0 例,MS-CNN分別有 112例(61.53%)、58例(31.87%)、9例(4.95%)、1 例(0.55%)、2 例(1.10%),特異度分別為 96.55%、73.75%、98.29%、99.45%、98.90%,陰性預(yù)測值為99.03%。
表2 MS-CNN多分類算法與人工判讀結(jié)果
表3 MS-CNN算法診斷效能綜合評價
目前,AI已在乳腺癌、肺癌、甲狀腺癌、膀胱癌以及婦科腫瘤的影像學(xué)和病理學(xué)閱片中應(yīng)用,對腫瘤的診斷、分型、分期、預(yù)后判斷等方面有重要意義。AI輔助宮頸脫落細胞學(xué)閱片的優(yōu)點主要在于:(1)通過高通量、高速度的影像掃描系統(tǒng)獲取高分辨率的數(shù)字化圖像,實現(xiàn)圖像信息數(shù)字化、完整、永久的云端存儲。(2)輔助教學(xué)、科研和遠程會診。(3)絕大多數(shù)研究顯示[9-10],AI判讀的效率、敏感度、特異度、準確性高,特別是低漏診率使其有較好的臨床應(yīng)用前景。現(xiàn)各種算法準確性大多接近93.78%,使用KNN和SVM進行兩分類時,準確性可達99.27%和98.5%[10]。以金域醫(yī)學(xué)與華為云EI合力開發(fā)的人工智能輔助宮頸癌篩查為例,該模型在排陰率高于60%的基礎(chǔ)上,陰性片判讀的正確率高于99%,陽性病變的檢出率超過99.9%。據(jù)報道[13],MS-CNN算法取得了Herlev宮頸細胞數(shù)據(jù)庫目前最好的分類結(jié)果,二分類準確性達99%,其在Ideepwise宮頸細胞數(shù)據(jù)庫多分類準確率也達到了85%。本文進一步驗證MS-CNN算法的診斷效能,旨在為我國尚處于初步探索階段的AI輔助宮頸細胞學(xué)閱片提供更多參考資料。
本研究中182例測試結(jié)果顯示,MS-CNN在篩選異常細胞方面表現(xiàn)突出,但符合率不高。二分類算法靈敏度達100%,這和李雪等[14]的研究結(jié)果一致。因此,臨床醫(yī)生或可考慮在初篩中應(yīng)用該漏診率為零的人工智能方法,將含有異常細胞的樣本全部篩選出來,再由細胞病理學(xué)醫(yī)師對陽性結(jié)果樣本進一步判讀;但37.91%的誤診率提示二分類算法仍需進一步學(xué)習(xí)以達到靈敏度和特異度的平衡,達到既不漏診又最大程度減少臨床病理醫(yī)師工作量的目標。此外,研究中多分類算法模型的符合率較二分類高,誤診率較二分類低,這與MS-CNN算法本身的優(yōu)勢有關(guān),既利用了傳統(tǒng)的人工設(shè)計特征提取流提供的宮頸細胞領(lǐng)域知識,又利用了卷積神經(jīng)網(wǎng)絡(luò)隱式學(xué)習(xí)大量訓(xùn)練數(shù)據(jù)的優(yōu)勢;但是靈敏度不高,存在漏診病例,可能的原因之一是該算法僅學(xué)習(xí)了Herlev數(shù)據(jù)集和Ideepwise數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)相對較少,因此算法的完善需要更多像本研究一樣的臨床數(shù)據(jù)的支持,其他原因還可能發(fā)生在制片、掃描以及不同級別的細胞之間本身容易混淆判讀等環(huán)節(jié)。
需注意的是,本文對MS-CNN診斷性能的評價可能存在偏倚,原因如下:(1)靈敏度和特異度等評價指標會因研究地點、研究對象特征、患病率、疾病嚴重程度、參考標準等不同而產(chǎn)生差異。本研究中樣本僅來自于宮頸癌篩查項目中部分地區(qū)結(jié)果異常且參與隨訪的人群,以人工判讀的細胞學(xué)結(jié)果而非組織病理學(xué)結(jié)果為標準評價診斷效能;(2)LSIL的樣本少,且樣本中不包括ASC-H、HSIL和腺細胞異常的樣本。
綜上所述,在宮頸脫落細胞學(xué)篩查中,人工智能已經(jīng)逐步參與到制片、掃描、細胞分類等各個環(huán)節(jié)。從本研究結(jié)果看,MS-CNN二分類算法在宮頸癌初篩中其篩出陰性樣本的準確率達100%,有望部分替代病理醫(yī)師的初篩工作,將更多的人力集中在陽性標本的判讀工作中,顯著提高宮頸癌篩查效率及覆蓋率。但鑒于其目前較低的陽性標本的準確率,該AI算法仍需進一步學(xué)習(xí)完善,以達到漏診率和診斷符合率之間更好的平衡,實現(xiàn)精確分類(TBS標準)的最終目標。