陳怡洋,孔維正,吳輝群,季菊玲
南通大學(xué)醫(yī)學(xué)院,南通 226000
肺癌是中國發(fā)病率和患病人數(shù)最高的腫瘤,也是癌癥死因之首。晚期肺癌患者常出現(xiàn)胸水,其中的癌細(xì)胞可通過細(xì)胞病理學(xué)來確診。然而,胸水富含蛋白質(zhì),可使間皮細(xì)胞和淋巴細(xì)胞反應(yīng)性增生,加上缺乏組織形態(tài)背景作為參照,導(dǎo)致胸水細(xì)胞病理學(xué)診斷的難度增加。因此,通常需要制作細(xì)胞包埋塊和免疫組化等協(xié)助診斷,成本高、時(shí)間長,在基層醫(yī)院不易施行[1]。
人工智能(artificial intelligence,AI)輔助病理診斷在臨床工作中已有一些初步應(yīng)用,但在輔助胸水肺腺癌細(xì)胞病理診斷方面鮮有報(bào)道。為獲得最優(yōu)模型,本研究采用2種較先進(jìn)的深度學(xué)習(xí)方法,即Inception V3和Yolo(You only look once)V4,并在開發(fā)數(shù)據(jù)集(訓(xùn)練集、驗(yàn)證集和測試集)中評(píng)估其性能[2]。應(yīng)用深度學(xué)習(xí)模型對(duì)胸水脫落肺腺癌細(xì)胞的檢測與分類,探討人工智能輔助肺癌細(xì)胞病理診斷的可行性。
1.1 一般資料回顧性收集2019年3月至2021年12月南通大學(xué)附屬醫(yī)院、上海交通大學(xué)附屬胸科醫(yī)院和復(fù)旦大學(xué)附屬中山醫(yī)院的胸水標(biāo)本130例。其中細(xì)胞病理診斷為肺腺癌110例,另有非腫瘤性胸水標(biāo)本20例為對(duì)照組。納入標(biāo)準(zhǔn):病理診斷明確,未經(jīng)臨床診療(手術(shù)、放療和化療)。本研究通過南通大學(xué)醫(yī)學(xué)院倫理委員會(huì)審批(2022-1),3家醫(yī)院均存有病理診斷知情同意書。病理圖像為脫敏處理后進(jìn)行相互公開交流學(xué)習(xí)的讀片資料,僅保留基本信息。
1.2 細(xì)胞分離、制片、染色
1.2.1 常規(guī)法處理胸水抽取胸水50 mL,加入1 000 U/mL肝素液1 mL,放鹽水瓶中置于4 ℃冰箱中靜置6~12 h,棄去上清。將底部10~20 mL富含細(xì)胞的胸水用長吸管移入2個(gè)15 mL離心管中,以1 500r/min離心后沉淀5 min;用PBS液洗1次;再以1 500r/min離心后沉淀5 min;加入液基固定液懸浮沉淀,備用。
1.2.2 單細(xì)胞分離法處理胸水抽取胸水50 mL,加入1 000 U/mL肝素液1 mL,放鹽水瓶中置于4℃冰箱中靜置6~12 h,棄去上清。將底部10~20 mL富含細(xì)胞的胸水用長吸管移入2個(gè)15 mL離心管中,以1 500r/min離心沉淀5 min;棄上清,將離心管中的細(xì)胞沉淀以5 mL“肺癌單細(xì)胞分離液”重懸,37℃消化15 min,間隔5 min搖勻1次;配制方法:0.01%PBS配制,pH 7.2,-20℃保存(表1)。用巴氏吸管將所獲細(xì)胞懸液轉(zhuǎn)移至單細(xì)胞制備裝置,加壓通過100目篩網(wǎng);1 500r/min離心5 min,棄上清,保留沉淀細(xì)胞;加2 mL PBS液,重懸細(xì)胞;加入液基固定液懸浮沉淀,備用。
表1 肺癌單細(xì)胞分離液配方
1.2.3 液基薄層細(xì)胞制片將上述2種方法處理的胸水,均采用膜式制片法各制片1張,蘇木精-伊紅(hematoxylin-eosin, H-E)染色[3]。
1.3 數(shù)據(jù)處理與機(jī)器學(xué)習(xí)
1.3.1 全切片數(shù)字掃描(whole slide imaging,WSI)采用40倍物鏡掃描,每個(gè)病例采集和選擇 10 幅圖像(96′96 dpi)。
1.3.2 數(shù)據(jù)預(yù)處理運(yùn)算平臺(tái)為戴爾T7920圖形工作站圖形處理器(graphics processing unit, GPU)。在計(jì)算機(jī)程序中設(shè)定分組:將數(shù)據(jù)集按照6∶2∶2的比例隨機(jī)分為訓(xùn)練集(n=80)、驗(yàn)證集(n=25)和測試集(n=25)。訓(xùn)練集用于訓(xùn)練模型以及確定模型權(quán)重;驗(yàn)證集用于確定網(wǎng)絡(luò)結(jié)構(gòu)以及調(diào)整模型的超參數(shù);測試集用于檢驗(yàn)?zāi)P偷姆夯芰?,評(píng)估模型的精確度。
1.3.3 標(biāo)注和機(jī)器學(xué)習(xí)在??撇±磲t(yī)師指導(dǎo)下使用LabelImg軟件對(duì)訓(xùn)練集圖像數(shù)據(jù)進(jìn)行畫框標(biāo)注,分別標(biāo)注各類細(xì)胞,定義標(biāo)簽(表2)。分別用Yolo V4和Inception V3模型進(jìn)行機(jī)器學(xué)習(xí),對(duì)不同分類細(xì)胞進(jìn)行學(xué)習(xí)和訓(xùn)練、驗(yàn)證和測試 。
表2 圖片中各種細(xì)胞的標(biāo)記參數(shù)
1.4 統(tǒng)計(jì)學(xué)處理數(shù)據(jù)統(tǒng)計(jì)分析由Yolo V4和Inception V3模型內(nèi)設(shè)程序完成。
2.1 一般資料分析結(jié)果(表3)顯示:130例患者中,男性49例、女性81例,年齡35~83歲,平均年齡(57±22)歲,病理診斷肺腺癌110例。130例標(biāo)本按照6∶2∶2的比例進(jìn)行預(yù)測分析并分組,其中訓(xùn)練集80例、驗(yàn)證集25例、測試集25例。
表3 3組患者的一般資料分析
2.2 細(xì)胞分離液的制片效果未經(jīng)肺癌單細(xì)胞分離液處理的病理片細(xì)胞較密集,肺腺癌細(xì)胞有很多成簇狀,單個(gè)細(xì)胞較少。如果是間皮細(xì)胞增生比較明顯,或癌細(xì)胞數(shù)量比較少的病例,病理診斷較為困難,需要經(jīng)驗(yàn)豐富的高年資??萍?xì)胞病理醫(yī)生診斷。
結(jié)果(圖1)顯示:經(jīng)肺癌單細(xì)胞分離液處理的病理片細(xì)胞亦較密集,肺腺癌細(xì)胞仍然有少數(shù)成簇狀,但呈大串的細(xì)胞較少。同時(shí),單個(gè)的腺癌細(xì)胞數(shù)量明顯增多,病理診斷相對(duì)容易。
圖1 肺腺癌細(xì)胞的單幅顯微圖像
2.3 機(jī)器學(xué)習(xí)的數(shù)據(jù)分析常規(guī)胸水細(xì)胞片中單個(gè)細(xì)胞少,肺腺癌細(xì)胞簇內(nèi)的細(xì)胞數(shù)量差異很大,單細(xì)胞和細(xì)胞簇的混合學(xué)習(xí)識(shí)別率很低,模型運(yùn)算速度較慢。其中,成簇細(xì)胞的識(shí)別率<10%。
結(jié)果(圖2)顯示:經(jīng)肺癌單細(xì)胞分離液處理的細(xì)胞片的圖像中單個(gè)腺癌細(xì)胞數(shù)量明顯增多,不僅標(biāo)注效率高,而且模型運(yùn)算速度快。使用訓(xùn)練后的Yolo V4模型對(duì)胸水脫落細(xì)胞H-E染色涂片中疑似+確診肺癌細(xì)胞進(jìn)行識(shí)別標(biāo)注的結(jié)果:單個(gè)腺癌細(xì)胞A+a識(shí)別準(zhǔn)確率的平均值約為20%,即全類平均正確率(mAP)為20%。
圖2 單個(gè)腺癌細(xì)胞A+a識(shí)別準(zhǔn)確率
結(jié)果(表4)顯示:使用訓(xùn)練后的Inception V3模型對(duì)胸水脫落細(xì)胞病理圖像中單個(gè)細(xì)胞分割后的淋巴細(xì)胞、間皮細(xì)胞、疑似+確診肺癌細(xì)胞進(jìn)行分類,腺癌(A+a)細(xì)胞識(shí)別準(zhǔn)確度可達(dá)98%。
表4 訓(xùn)練集(train)測試結(jié)果
3.1 胸水中肺癌細(xì)胞的病理診斷和基于深度學(xué)習(xí)的AI模型肺癌是目前威脅人類健康常見的惡性腫瘤之一,發(fā)病率及病死率均為第一。肺癌的病理類型很多,其中以腺癌、鱗狀細(xì)胞癌和小細(xì)胞癌最為常見,占所有肺癌的90%~95%。不同病理類型的肺癌不僅治療方案和預(yù)后不同,腫瘤驅(qū)動(dòng)基因也有所不同。晚期肺癌常會(huì)伴發(fā)胸水,其中的癌細(xì)胞可以通過細(xì)胞病理學(xué)來明確診斷。然而,胸水中癌細(xì)胞的病理學(xué)診斷并非易事。胸水中大量增生的反應(yīng)性間皮細(xì)胞與脫落到胸水中的肺腺癌細(xì)胞形態(tài)相似,單靠顯微鏡肉眼觀察很難做出正確的診斷。因此,臨床上通過制作細(xì)胞包埋塊、加做免疫組化、DNA定量等方法來協(xié)助診斷[4]。為了不耽誤疾病的診治,快速而準(zhǔn)確地對(duì)胸水中脫落細(xì)胞做出良惡性判斷是目前對(duì)病理科醫(yī)師的迫切要求。
AI已廣泛應(yīng)用于現(xiàn)代醫(yī)學(xué)領(lǐng)域,可以幫助病理科醫(yī)生做出更準(zhǔn)確的診斷。深度學(xué)習(xí)是AI 技術(shù)的熱門研究領(lǐng)域,是一種基于人工神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行特征學(xué)習(xí)的AI 算法的泛稱,對(duì)于大數(shù)據(jù)樣本、復(fù)雜函數(shù)模型具有強(qiáng)大的處理能力[5]。代表性網(wǎng)絡(luò)主要是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)。Coudray等[6]使用遷移學(xué)習(xí)和Inception V3模型對(duì)非小細(xì)胞肺癌病理圖像進(jìn)行分類,結(jié)果表明深度學(xué)習(xí)模型可以為專家和患者提供快速、準(zhǔn)確和便宜的癌癥類型或基因突變檢測,在癌癥診療方面前景可觀。目前,基于數(shù)據(jù)與模型驅(qū)動(dòng)的深度學(xué)習(xí)分割方法是研究熱點(diǎn)。標(biāo)記法是將圖像欲分割成的幾個(gè)區(qū)域各以1個(gè)不同的標(biāo)號(hào)來表示,對(duì)圖像中的每一個(gè)像素,用一定的方式予以這些標(biāo)記中的某一個(gè),標(biāo)記相同的連通像素組成該標(biāo)記所代表的區(qū)域。本課題組用此方法來標(biāo)記不同的細(xì)胞。Yolo是目前流行的目標(biāo)檢測模型之一,研究采用的是比較新的V4版本。該模型的特點(diǎn)是“快”,但每個(gè)網(wǎng)格只能預(yù)測一個(gè)物體,容易造成漏檢。除此之外,模型對(duì)物體的尺度相對(duì)敏感,尺度變化大的物體泛化能力較差。對(duì)此,本研究將病理科醫(yī)生的經(jīng)驗(yàn)通過其優(yōu)點(diǎn)轉(zhuǎn)化為“精準(zhǔn)識(shí)別”,但不可避免的是模型對(duì)細(xì)胞“簇”識(shí)別的精確度較低。Inception V3模型是谷歌Inception系列里面的第三代模型,相比于其他神經(jīng)網(wǎng)絡(luò)模型,Inception網(wǎng)絡(luò)最大的特點(diǎn)在于將神經(jīng)網(wǎng)絡(luò)層與層之間的卷積運(yùn)算進(jìn)行了拓展,采用不同大小的卷積核,使得存在不同大小的感受野,最后實(shí)現(xiàn)拼接達(dá)到不同尺度特征的融合。本研究將這2種模型分別應(yīng)用在胸水脫落癌細(xì)胞病理診斷的不同任務(wù)訓(xùn)練中。
3.2 胸水單體細(xì)胞制備技術(shù)據(jù)報(bào)道[7],目前將胸水脫落細(xì)胞的液基薄層細(xì)胞制片應(yīng)用于基于深度學(xué)習(xí)的AI細(xì)胞病理學(xué)診斷模塊開發(fā)存在1個(gè)明顯的問題:液基制片中胸水細(xì)胞成團(tuán)、成簇現(xiàn)象比較明顯,顯微鏡下不容易對(duì)焦,對(duì)病理科醫(yī)生的診斷經(jīng)驗(yàn)和水平要求較高,同時(shí)增加了機(jī)器學(xué)習(xí)難度并減慢了模塊運(yùn)算速度,不利于模塊在日常高通量病理診斷工作中的推廣應(yīng)用。課題組在前期的研究中發(fā)現(xiàn),癌細(xì)胞成簇是影響AI高效迅速識(shí)別胸水肺癌細(xì)胞的最大問題。這導(dǎo)致AI診斷的樣本量、圖像標(biāo)注難度增大,工作量呈指數(shù)級(jí)增長,算法模型的精確度大幅下降。最終不僅病理診斷困難,對(duì)成像的精度和組合的影響也非常巨大。
現(xiàn)有的細(xì)胞懸液制備方法主要分為物理和化學(xué)方法。通常采用機(jī)械聯(lián)合酶消化法將實(shí)體瘤組織制備成腫瘤單細(xì)胞懸液,其優(yōu)點(diǎn)是經(jīng)濟(jì)、快速,能滿足一般實(shí)驗(yàn)和臨床診斷的要求。然而此“單細(xì)胞懸液”在顯微鏡下觀察仍是以細(xì)胞簇為主的液體,并不完全滿足AI分析的需求。關(guān)鍵性病理特征采集和標(biāo)注方法的有效性決定了AI識(shí)別能力和未來診斷的精準(zhǔn)度。因此,課題組從細(xì)胞之間相互連接的機(jī)制出發(fā),在常規(guī)細(xì)胞裂解液的基礎(chǔ)上,進(jìn)行分解、離散癌細(xì)胞團(tuán)塊,研發(fā)出“癌細(xì)胞單體細(xì)胞制備方法”(已申請(qǐng)專利)。該方法能分離胸水中的肺癌細(xì)胞簇,形成肺癌單細(xì)胞,便于細(xì)胞標(biāo)注和機(jī)器學(xué)習(xí),提高識(shí)別的效率和準(zhǔn)確性。
本研究發(fā)明一種應(yīng)用于AI識(shí)別的胸水單體細(xì)胞制備方法,明顯增加了胸水中肺癌細(xì)胞單體率,提高了機(jī)器學(xué)習(xí)和訓(xùn)練精準(zhǔn)識(shí)別胸水肺癌細(xì)胞的效率,化繁為簡,提升機(jī)器深度學(xué)習(xí)的泛化能力和魯棒性。不過此技術(shù)在胸水細(xì)胞AI輔助病理診斷方面還不成熟,目前缺乏多樣性數(shù)據(jù)和循證依據(jù)的支持。對(duì)此,仍需加強(qiáng)CNN與細(xì)胞良惡性特征的關(guān)聯(lián)性分析并整合??撇±磲t(yī)生的經(jīng)驗(yàn),進(jìn)一步提高模型的精度[8]。希望在不久的未來,通過人工智能深度學(xué)習(xí)技術(shù)構(gòu)建肺癌液基細(xì)胞智能病理診斷模型的應(yīng)用,提高不同地區(qū)/單位液基細(xì)胞病理診斷的一致性,降低誤診率、漏診率。
綜上所述,AI輔助細(xì)胞病理診斷有助于提高診斷效率、縮短診斷時(shí)間、提升診斷水平,具有重要的臨床意義和廣闊的商業(yè)應(yīng)用前景。
利益沖突:所有作者聲明不存在利益沖突。
致謝:南通大學(xué)附屬醫(yī)院病理科章建國主任、上海交通大學(xué)附屬胸科醫(yī)院病理科韓昱晨主任提供病例,復(fù)旦大學(xué)附屬中山醫(yī)院病理科陳崗教授提供圖片、病理診斷復(fù)核及專業(yè)指導(dǎo)。