楊會 張興娜 姜秋竹 原成英 屈重霄 劉云霄 王晨 李明 李榮山 周曉霜
030600 太原,山西醫(yī)科大學(楊會,張興娜,姜秋竹);030012 太原,山西醫(yī)科大學附屬人民醫(yī)院/山西省人民醫(yī)院腎內科(原成英,李榮山,周曉霜),病理科(屈重霄,劉云霄);030001 太原,山西醫(yī)科大學第二醫(yī)院病理科(王晨);030024 太原,太原理工大學(李明)
中國屬于發(fā)展中國家,存在醫(yī)療資源分布不均衡的問題,大城市醫(yī)院與基層醫(yī)院醫(yī)療信息不對等,與門可羅雀的基層醫(yī)院相比,省會城市醫(yī)院長期“人潮涌動”,醫(yī)務人員經常保持高負荷的勞動狀態(tài)。山西省是腎臟病的高發(fā)區(qū)域,據本課題組前期的流行病學調查結果,山西省的慢性腎臟病發(fā)病率為13.8%,遠高于全國10.8%的水平[1]。腎臟病的診斷高度依賴腎穿刺活檢術,腎臟病理是腎臟病學中不可或缺的部分,但目前我國腎臟病理科醫(yī)師嚴重短缺,山西省可以獨立進行腎臟病理閱讀、診斷的醫(yī)院不足5家,專業(yè)的腎臟病理學醫(yī)師不足10人。人工智能在醫(yī)療實踐中的應用是醫(yī)學研究的熱點,目前已應用于影像學、病理學和皮膚癌的圖像分析,其分析速度快,準確度可與臨床醫(yī)學專家媲美[2]。因此,本課題組決定開發(fā)腎小球人工智能識別系統(tǒng),在該項目中我們將整張腎小球病理載玻片進行全信息、全方位快速掃描,得到數字化的腎組織病理切片圖像,然后以人工智能(artificial intelligence,AI)技術和Faster R-CNN算法為核心[3-4],開發(fā)出能夠自動對腎組織病理切片圖像中腎小球進行識別的軟件系統(tǒng)。該軟件能夠迅速識別腎小球并且精確計數,并且可以從腎組織病理切片中提取出缺血硬化的腎小球,達到幫助腎臟病理專業(yè)醫(yī)師提高診斷效率的目的,現報道如下。
收集2008年9月至2018年9月在山西省人民醫(yī)院和山西醫(yī)科大學第二醫(yī)院行腎穿刺活檢術患者的腎臟病理切片,要求患者的臨床數據完整、病史明確。納入患者的原發(fā)病包括IgA腎病、膜性腎病、糖尿病腎病、高血壓腎損害、狼瘡腎炎、過敏性紫癜性腎炎。
1.腎臟病理切片掃描 選取患者PASM染色的腎臟病理切片,切片完整、均勻,切片厚度為3~4 μm。使用寧波江豐生物信息技術有限公司的病理掃描儀進行數字化掃描,病理切片圖像含有百萬數量級的顯微結構,每張切片的大小約50 G,每位患者的病理切片可產生1 T的數據,該數據通過遠程病理系統(tǒng)傳輸到云端并進行儲存。
2.腎臟病理圖像數據集的制作 本文中使用了腎臟病理圖像YPMH數據集。該數據集中包含10年間3 251例腎病患者腎活檢病理切片的四種染色:六胺銀(PASM)染色、過碘酸雪夫反應(PAS/糖原反應)、蘇木精伊紅(HE)染色和MASSON染色,共計13 065張病理切片。首先,對數據進行清洗,將損壞的、灰塵污染的不清晰切片進行剔除,得到四種染色樣本全部完整可用的患者數量為2 870例,即11 480張圖像。由于PASM染色腎小球基底膜和腎小管基底膜呈現出黑色,系膜基質呈黑細絲狀,細胞核呈紅色,背景和紅細胞呈黃色,能夠較好地顯示腎小球基底膜、細胞核和紅細胞的分布及病變情況,從腎組織病理切片圖像中獲取腎小球特征數據相對容易,可以較好地將腎小球從腎小管間質等腎臟病理圖像背景結構中區(qū)別出來。因此,在本項目中,主要使用了數據集中的PASM染色的腎組織病理圖像制作訓練和測試集,訓練和測試從腎組織病理圖像中識別腎小球的模型。
將2 870例PASM染色病理圖像用于制作數據集。采集到的圖像為KFB格式,平均每張圖像的大小為25 000像素點×35 000像素點,包含8~9億像素點,且KFB為私有數據格式,不能直接用于神經網絡的訓練。因此,在制作數據集的過程中,將所有原圖像數據轉換為通用格式并裁剪或壓縮,得到2 870張適合于網絡讀取學習的大小和格式。將所有樣本隨機劃分為包括2 296張圖像(80%)的訓練集和包括174張圖像(20%)的測試集。使用Python語言和openslide工具包,讀取由原圖無損轉換為svs格式的數據,每張圖像都在400倍(×400)下直接進行重疊裁剪,使每張腎組織病理切片圖像被裁剪為多個局部,成為適合神經網絡讀取和學習的大小。
由于數據中腎小球大小、形態(tài)不一,且相對于神經網絡學習所需的龐大數據量以及腎小球復雜的特征集而言,所制作數據集的規(guī)模仍然較小。因此,在訓練網絡之前,使用仿射變換進行數據增強。將每張圖像旋轉90°、180°、270°,并將原圖和旋轉后的圖像都進行翻轉。使數據集擴大8倍。所有訓練樣本圖片都標注出相對完整、能夠用于病灶觀察的腎小球,并將標簽命名為“glo”,過于不完整的腎小球和已經壞死無法觀察病變特征的腎小球不予以標注。
3.AI的訓練與測試 完成上述數據預處理步驟后,得到的圖像可用于訓練AI,本實驗AI使用Faster R-CNN網絡學習。本實驗使用LabelImg對圖像進行標注,生成XML文件保存標注信息,遵循Pascal VOC格式。本實驗采用Anaconda 3.0管理器,使用Python 3.5版本語言和Pycharm工具,基于TensorFlow框架實現Faster R-CNN算法。AI使用Faster R-CNN訓練模型,訓練40 000次,在所有樣本圖像上的平均訓練和測試時間約為2 s/iteration。采用mAP來度量每個模型的性能,評價AI識別腎小球的準確率。
4.腎臟病理醫(yī)師識別測試 將174張病理切片分別給2名工作2年左右的病理科醫(yī)師和1名10年以上工作經歷的腎臟病理科醫(yī)師閱讀,收集識別出腎小球的平均時間和準確率。
通過訓練集訓練基于Faster R-CNN卷積神經網絡開發(fā)的AI得到模型,從腎組織病理切片中提取出腎小球(包含正常的腎小球及缺血硬化性腎小球),訓練過程中的精度及損失變化見表1,在測試集上測試AI模型得到結果如圖1。AI模型在測試集上的性能為:mAP=94.37%,整張玻片圖像處理時間約為1 s,平均識別一個腎小球的時間(0.05±0.04)s(數據由太原理工大學大數據庫學院提供)。病理科初級醫(yī)師(工作2年左右)和高級醫(yī)師(10年以上工作經歷)識別一個腎小球的時間為(22.32±2.32)s和(11.50±1.42)s,識別時間均慢于AI(均P<0.05)(圖2)。初級醫(yī)師和高級醫(yī)師識別腎小球的精確度分別為(82.18±4.92)%和(93.29±7.64)%,AI為(99.93±1.30)%,AI識別腎小球的精確度優(yōu)于初級醫(yī)師和高級醫(yī)師(均P<0.05)。(圖3)
表1 AI訓練過程中精度及損失變化(%)
圖1 AI進行測試后得到的圖像結果
隨著我國醫(yī)療條件的改善,病理學檢查和診斷的需求量不斷增加,三甲醫(yī)院病理醫(yī)師必須每天高強度閱片,不單耗費大量精力,還會因為工作疲勞導致工作能力暫時降低,造成不能完成任務或診斷效能降低。在本項目中將174張病理切片給工作2年左右的病理科醫(yī)師和10年以上工作經歷的病理科醫(yī)師閱讀,計算識別出腎小球的平均時間和準確率,在此過程中隨著工作時間的延長,腎臟病理科醫(yī)師閱讀并且識別出一個腎小球的平均時間和準確率不斷下降。目前,病理醫(yī)師每天高強度閱片的工作狀態(tài)已經持續(xù)許久,至今未能有效解決??梢娀谏疃葘W習的AI病理診斷系統(tǒng)有望能改善這一狀況。病理圖像是基于深度學習的人工智能的絕佳應用場景。借助計算機輔助診斷技術進行信息處理成為一項理想的選擇,AI輔助診斷系統(tǒng)的構建能夠提供一些肉眼無法觀察到的病理切片的特異性屬性,從而降低由于醫(yī)師的主觀因素(如臨床經驗不足或工作疲勞)導致的誤診或漏。
圖2 AI與不同年資醫(yī)師的識別腎小球時間比較
圖3 AI與不同年資醫(yī)師的識別腎小球準確率比較
組織切片數字化是病理AI技術發(fā)展的前提。近年來數字化病理技術和計算機圖像處理技術得到長足發(fā)展,數字切片掃描儀和計算機在醫(yī)療領域廣泛應用,解決了基于計算機圖像處理的病理診斷系統(tǒng)的工程問題,也為基于計算機圖像處理的病理診斷系統(tǒng)帶來了更廣闊的發(fā)展空間[5]。在本項目中,我們將整張腎臟病理切片進行全信息、全方位快速掃描,使物質化的玻璃載玻片變成數字化的病理切片,研究結果已表明AI識別腎小球的時間和精確度優(yōu)于初級醫(yī)師和高級醫(yī)師(P<0.05),AI計算腎小球個數與識別缺血硬化性腎小球的速度和效率明顯高于參與這項研究的病理科醫(yī)師,達到幫助腎臟病理專業(yè)醫(yī)師提高診斷效率目的。
現階段,常用的算法大多要求有具體位置標注信息的醫(yī)療圖像,傳統(tǒng)醫(yī)療圖像庫只保存圖像信息和診斷結果,不能直接用于深度學習算法。因此,在我們平臺軟件的工作中,根據實驗具體進展情況,不斷調整數據處理方式,并調整網絡參數訓練目標檢測模型,最后使用相同的性能評價方法來評價每個模型,找到最佳的數據集合和切割腎小球的模型[6],積極推動了機器學習算法和AI方法在此領域的發(fā)展,開發(fā)出基于大數據及AI的腎臟病理診斷技術,成功將AI與醫(yī)療診斷完美結合。本項目結合病理圖像數據集、網絡結構及其參數、算法損失函數核心數據庫,利用先進的生物信息學及AI分析技術,通過建立最佳數據集合和識別腎小球的目標檢測模型,運用Faster R-CNN算法進行運算,然后應用深度學習、復雜網絡等方法進行綜合分析[7],最終自動輸出腎臟病理診斷結果,致力于腎臟病理圖像的自動識別,后期將逐步實現腎臟病理遠程會診,完善腎臟疾病生物樣本庫,實現腎臟病大數據處理及隨訪業(yè)務,并拓展腎臟病精準治療和科學研究等項目。
相較于傳統(tǒng)的手動設計特征提取腎小球方法而言,本項目使用深度學習算法來訓練AI學習腎組織病理切片圖像中腎小球的特征,能夠從具有異質性的腎臟病理切片圖像中識別出形態(tài)各異的腎小球,并且這種識別工作可以一次性在大批量數據上提取可能包含腎小球的候選區(qū)域,解決了以往腎小球提取工作不能大批量進行和只能提取具有固定特征的腎小球的問題[8]。相較于過去手動分割出腎臟病理圖像中的腎小球和非腎小球片段,并從分類角度研究腎小球的工作,本文從目標檢測的角度,基于Faster R-CNN識別腎臟病理圖像中的腎小球,為后續(xù)實現自動從腎臟病理圖像中分割腎小球奠定基礎,節(jié)省手動切割過程中的時間和開銷,也為后續(xù)病變特征識別工作帶來一定幫助。
本項目以腎臟病理圖片數據為基礎,開展腎臟病理重要病變識別的深度學習算法、病灶識別和病變判斷的深度學習算法、腎臟病理AI閱片輔助診斷算法的臨床測試,并且進行遠程閱片中心的軟件設計與開發(fā)、遠程閱片中心硬件設計與搭建、與基層醫(yī)院之間網絡連接、腎臟病理AI閱片輔助診斷平臺和影像大數據資源平臺的搭建,在腎臟病理智能醫(yī)療方面開展全方位的研究和產業(yè)化應用。在全力推進分級診療背景下,通過搭建區(qū)域醫(yī)療衛(wèi)生信息化平臺,可有效提升基層醫(yī)療衛(wèi)生服務水平,實現醫(yī)聯體之間的互聯互通,減少人民群眾醫(yī)療負擔,促進三級診療、區(qū)域化醫(yī)療的順利推動。
在接下的工作中,可以把本文中檢測到的候選區(qū)域的參數簡單變換,轉換成切割原圖所需的數據格式,批量對原圖上的腎小球進行切割,從原圖中提取出單獨的腎小球,進行后續(xù)對腎小球內部病變特征的識別工作,這也是本項目的最終目標。