祁亮,沈潔
南京大學(xué)醫(yī)學(xué)院附屬鼓樓醫(yī)院腫瘤中心/南京大學(xué)臨床腫瘤研究所,南京210008
原發(fā)性肝癌(肝癌)是全球最常見的一種惡性腫瘤,其發(fā)病率和病死率均居所有腫瘤的前5位。在中國(guó),肝癌是第4位常見的惡性腫瘤及第3位腫瘤致死病因,嚴(yán)重威脅著人們的生命健康。隨著對(duì)肝癌致病因素、早期診斷、血清學(xué)生物標(biāo)志物、基因組學(xué)、代謝組學(xué)、蛋白質(zhì)組學(xué)、影像、病理、治療、療效評(píng)估、復(fù)發(fā)預(yù)測(cè)、生存分析等方面研究的持續(xù)深入,大量的數(shù)據(jù)被積累起來。近年來,大數(shù)據(jù)、數(shù)據(jù)挖掘、云計(jì)算、人工智能等分析技術(shù)的出現(xiàn)及迅猛發(fā)展,為分析肝癌患者的大量數(shù)據(jù)提供了便捷的手段。而各種處理大數(shù)據(jù)的工具背后都有機(jī)器學(xué)習(xí)(machine learning)的應(yīng)用[1]。
機(jī)器學(xué)習(xí)致力于研究如何通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能,在計(jì)算機(jī)系統(tǒng)中,“經(jīng)驗(yàn)”通常以“數(shù)據(jù)”的形式存在,因此,機(jī)器學(xué)習(xí)所研究的主要內(nèi)容是關(guān)于在計(jì)算機(jī)上從數(shù)據(jù)中產(chǎn)生“模型(model)”的算法,即“學(xué)習(xí)算法(learning algorithm)”。有了學(xué)習(xí)算法,便能基于這些積累的大量數(shù)據(jù)產(chǎn)生模型,然后在面對(duì)新的肝癌患者時(shí),模型會(huì)提供相應(yīng)的判斷(如預(yù)后、復(fù)發(fā)風(fēng)險(xiǎn)、療效、影像等)。機(jī)器學(xué)習(xí)和之前出現(xiàn)的各種專家診療系統(tǒng)有本質(zhì)區(qū)別,專家診療系統(tǒng)是人們將既往許多專家診療的病例信息匯集到一起,編成固定程序,當(dāng)遇到新的肝癌患者時(shí),專家診療系統(tǒng)會(huì)檢索自己大的數(shù)據(jù)庫(kù),找到最匹配的數(shù)據(jù),然后給出診療建議;而機(jī)器學(xué)習(xí)是利用多種算法,使計(jì)算機(jī)自己學(xué)習(xí)既往診療的多個(gè)病例,把這些病例的所有特征或?qū)傩跃C合分析,從而得出最佳的診療模型,然后去面對(duì)新的患者,在后續(xù)的使用中,可以根據(jù)新的病例,繼續(xù)學(xué)習(xí),完善模型,這也是人工智能的體現(xiàn)。
機(jī)器學(xué)習(xí)領(lǐng)域旨在開發(fā)經(jīng)驗(yàn)豐富的計(jì)算機(jī)算法,有望使計(jì)算機(jī)能夠幫助人們分析大型復(fù)雜的數(shù)據(jù)集,包括肝癌影像學(xué)上的序列元素、肝癌的基因測(cè)序及表觀遺傳學(xué)、肝癌蛋白質(zhì)組學(xué)、肝癌代謝組學(xué)等大量數(shù)據(jù)[2]。機(jī)器學(xué)習(xí)中有很多算法,而在肝癌診療領(lǐng)域常用的是人工神經(jīng)網(wǎng)絡(luò)、決策樹(decision tree)、支持向量機(jī)(support vector machine,SVM)這3種,很多研究中也提到了以上算法的各種改良版本。
人工神經(jīng)網(wǎng)絡(luò)又稱神經(jīng)網(wǎng)絡(luò)算法,是一種模擬人腦的神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)人工智能的機(jī)器學(xué)習(xí)技術(shù),在解決非線性問題方面比較常用。人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,從單層神經(jīng)網(wǎng)絡(luò)(又稱為感知機(jī)),到兩層神經(jīng)網(wǎng)絡(luò)(多層感知機(jī)),再到多層神經(jīng)網(wǎng)絡(luò)。目前,伴隨著云計(jì)算、大數(shù)據(jù)等技術(shù)的迅猛發(fā)展,多層神經(jīng)網(wǎng)絡(luò)的研究已進(jìn)入深度學(xué)習(xí)領(lǐng)域,包括卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)等(圖1),在處理醫(yī)學(xué)X線片、電子計(jì)算機(jī)斷層掃描(CT)、磁共振成像(magnetic resonance imaging,MRI)、超聲、病理等中,其判別良惡性疾病已超過了資深的影像學(xué)專家和病理專家。在對(duì)肝癌的研究中,人工神經(jīng)網(wǎng)絡(luò)也是使用最多一種的算法[3-7];此外,比較常用的還有決策樹和SVM[7-10]。
圖1 人工神經(jīng)網(wǎng)絡(luò)分類圖
目前,肝癌的影像學(xué)檢查主要包括超聲[包括實(shí)時(shí)灰階超聲造影(contrast-enhanced ultrasonography,CEUS)]、增強(qiáng)CT、增強(qiáng)MRI、釓塞酸二鈉磁共振成像(gadolinium ethoxybenzyl diethylenetriamine pentaacetic acid-magnetic resonance imaging,Gd-EOB-DTPA-MRI)、數(shù)字減影血管造影(digital subtract angiography,DSA)、正電子發(fā)射計(jì)算機(jī)斷層顯像(positron emission tomography,PET)-CT等。2017年版原發(fā)性肝癌診療規(guī)范[11]中指出,對(duì)于慢性肝病和(或)肝硬化患者,首次影像學(xué)發(fā)現(xiàn)的直徑≤2 cm的病灶/結(jié)節(jié),需要至少2種影像學(xué)檢查(MRI、CT、CEUS、EOB-MRI)結(jié)果有肝癌的典型表現(xiàn),但行2種影像學(xué)檢查,對(duì)于部分經(jīng)濟(jì)條件較差的患者來說,不僅增加了經(jīng)濟(jì)負(fù)擔(dān),而且部分肝癌患者可能因此引起治療延遲而產(chǎn)生嚴(yán)重后果。He等[12]收集了肝臟結(jié)節(jié)直徑<2 cm的患者的影像學(xué)數(shù)據(jù),使用機(jī)器學(xué)習(xí)中的決策樹算法,構(gòu)建了一個(gè)7步?jīng)Q策樹模型。該模型中,無論是疑似還是確診的肝癌患者,都通過增強(qiáng)CT、增強(qiáng)MRI或EOBMRI檢查開始,確診的患者進(jìn)入治療環(huán)節(jié),未確診的患者接受進(jìn)一步影像學(xué)檢查,影像結(jié)果的判斷分為陽(yáng)性(包括真陽(yáng)性和假陽(yáng)性)和陰性(包括真陰性和假陰性)。該研究結(jié)果顯示,EOB-MRI組真陽(yáng)性肝癌患者的比例(43.4%)高于增強(qiáng)MRI組和增強(qiáng)CT組(37.4%和34.5%),假陰性患者的比例(3.6%)低于增強(qiáng)MRI組和增強(qiáng)CT組(9.6%和12.5%),且EOB-MRI組未能確診的患者不需要再行第2種影像學(xué)檢查,直接行肝穿刺活檢確診。整個(gè)模型最后預(yù)測(cè),對(duì)于肝臟結(jié)節(jié)直徑<2 cm的患者,行EOB-MRI檢查的患者的總花費(fèi)低于行增強(qiáng)CT和增強(qiáng)MRI檢查的患者,即對(duì)于肝臟結(jié)節(jié)直徑<2 cm的患者,該模型建議首先行EOB-MRI檢查。
影像科醫(yī)師對(duì)于肝癌讀片的水平有高有低,如果機(jī)器學(xué)習(xí)能自學(xué)患者的影像學(xué)資料并構(gòu)建診斷模型,則可以輔助醫(yī)師進(jìn)行診斷。祁紅琳等[13]通過對(duì)肝癌患者的術(shù)后MRI圖像提取10個(gè)紋理特征,使用機(jī)器學(xué)習(xí)中的人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建了預(yù)測(cè)肝癌術(shù)后復(fù)發(fā)的模型,用以輔助臨床醫(yī)師制定治療方案。Kuppili等[14]使用SVM和極限學(xué)習(xí)機(jī)(extreme learning machine,ELM,也是機(jī)器學(xué)習(xí)中的一種算法),對(duì)63例美國(guó)肝癌患者的超聲圖像特征進(jìn)行學(xué)習(xí),構(gòu)建了準(zhǔn)確度為96.75%的診斷模型。Konda等[15]使用SVM學(xué)習(xí)了肝癌患者超聲影像的特征,構(gòu)建的診斷模型對(duì)判別良性肝占位、肝癌、轉(zhuǎn)移性肝癌的準(zhǔn)確率分別達(dá)到84.4%、87.7%、85.7%。Conze等[16]使用決策樹算法大類中的隨機(jī)森林算法,構(gòu)建了基于增強(qiáng)CT多相超體素特征的肝臟組織區(qū)分模型。劉建華和王建偉[17]使用人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建了包括圖像預(yù)處理、圖像分割、特征提取和分類識(shí)別的肝癌影像學(xué)診斷方法,該方法的準(zhǔn)確率為83.33%。郝濤和張智[18]從一階統(tǒng)計(jì)特征、灰度共生矩陣、灰度行程矩陣三方面提取正常肝、原發(fā)性肝癌和肝血管瘤CT圖像的紋理特征,使用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些通過特征提取的屬性,構(gòu)建了肝癌的診斷模型,準(zhǔn)確率達(dá)(91.08±6.96)%。在多層神經(jīng)網(wǎng)絡(luò)尚未成熟應(yīng)用于醫(yī)學(xué)之前,國(guó)內(nèi)的學(xué)者曾使用兩層神經(jīng)網(wǎng)絡(luò)構(gòu)建過大量的關(guān)于CT、MRI、超聲圖像的用于診斷肝癌的模型,其目的在于輔助醫(yī)師診斷[19-24]。人工神經(jīng)網(wǎng)絡(luò)層數(shù)越多,模型擬合能力越強(qiáng),但所花費(fèi)的計(jì)算代價(jià)太大,在20世紀(jì)90年代后期,兩層神經(jīng)網(wǎng)絡(luò)逐漸被國(guó)外學(xué)者淘汰。近幾年,隨著計(jì)算機(jī)計(jì)算能力的突飛猛進(jìn),及對(duì)深層神經(jīng)網(wǎng)絡(luò)研究的逐步深入,多層神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等開始陸續(xù)被用于影像學(xué)診斷(圖2)。截至目前,尚未看到有卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于肝癌的影像學(xué)研究報(bào)道,但在其他疾病的診斷模型研究中,已取得了既往兩層神經(jīng)網(wǎng)絡(luò)無法比擬的高度,2018年初,斯坦福大學(xué)Pranav Rajpurkar等[25]構(gòu)建了一個(gè)121層的卷積神經(jīng)網(wǎng)絡(luò),并使用包含14種疾病的10萬張胸部X線片來構(gòu)建模型,最后將該模型與專業(yè)的放射科醫(yī)師同時(shí)讀片,結(jié)果顯示模型的診斷準(zhǔn)確率高于放射科醫(yī)師。當(dāng)然,這種體量的模型和龐大的圖像數(shù)據(jù)相結(jié)合,借助目前的運(yùn)算速度,在之前是不可想象的。
圖2 卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單示意圖
Li等[26]對(duì)肝癌患者的病理圖像資料采用中心擴(kuò)散分割的方法獲得每個(gè)固定尺寸的灰度圖像塊,并在3位病理學(xué)專家的指導(dǎo)下做相應(yīng)的標(biāo)記;然后構(gòu)建了一個(gè)多重連接的卷積神經(jīng)網(wǎng)絡(luò)來識(shí)別肝癌細(xì)胞的細(xì)胞核;最后使用反向傳播算法來訓(xùn)練多重連接-卷積神經(jīng)網(wǎng)絡(luò)-極限學(xué)習(xí)機(jī)架構(gòu),該模型在肝癌細(xì)胞的細(xì)胞核分級(jí)方面有優(yōu)越性。Pang等[27]提出了一種凹凸變化方法來優(yōu)化隨機(jī)森林算法、SVM、ELM等算法。在數(shù)據(jù)預(yù)處理階段,使用雙側(cè)濾波器增強(qiáng)蘇木精-伊紅染色(hematoxylin-eo-sin staining,HE)的病理圖像,并在病理學(xué)專家的指導(dǎo)下獲得每個(gè)肝癌患者的圖像斑塊。在提取每個(gè)補(bǔ)丁的完整特征后,對(duì)這些特征進(jìn)行特征選擇(特征選擇算法是機(jī)器學(xué)習(xí)中的一種數(shù)據(jù)處理算法),然后將處理后的數(shù)據(jù)訓(xùn)練隨機(jī)森林、SVM、ELM等模型,并用CCV進(jìn)行優(yōu)化,使得機(jī)器學(xué)習(xí)訓(xùn)練出來的模型能更準(zhǔn)確地分類肝癌的病理圖像,準(zhǔn)確率達(dá)到98.74%。
血清甲胎蛋白(alpha fetoprotein,AFP)是目前診斷肝癌常用而又重要的一種方法,2017年版原發(fā)性肝癌診療規(guī)范[11]中診斷標(biāo)準(zhǔn)為AFP≥400 μg/L,排除慢性或活動(dòng)性肝炎、肝硬化,睪丸或卵巢胚胎來源性腫瘤以及妊娠等;對(duì)于AFP低度升高者,應(yīng)作動(dòng)態(tài)觀察,并與肝功能變化對(duì)比分析,有助于診斷,約30%的肝癌患者的AFP水平正常,為了彌補(bǔ)AFP的不足,在兩層神經(jīng)網(wǎng)絡(luò)算法開始普及后,即有學(xué)者開始了嘗試。2001年P(guān)oon等[28]使用人工神經(jīng)網(wǎng)絡(luò)及決策樹構(gòu)建了血清AFP在正常水平患者的肝癌診斷模型,并用該模型計(jì)算出了AFP cut-off值。2005年楊美琴等[29]利用人工神經(jīng)網(wǎng)絡(luò)建立了聯(lián)合 AFP、癌胚抗原(carcinoembryonic antigen,CEA)、糖類抗原 19-9(carbohydrate antigen 19-9,CA19-9)、糖類抗原 724(carbohydrate antigen 724,CA724)、細(xì)胞角質(zhì)蛋白19片段抗原21-1(cytokeratin 19 fragment antigen 21-1,CYFRA21-1)、神經(jīng)元特異性烯醇化酶(neuron-specific enolase,NSE)及組織多肽抗原(tissue polypeptide antigen,TPA)的多種標(biāo)志物診斷模型,該模型鑒別肝癌和腸癌的準(zhǔn)確率為88.9%,在鑒別肝癌和胃癌的準(zhǔn)確率為93.5%,而且還可以提示原發(fā)灶不明的惡性腫瘤的原發(fā)部位。2010年Camaggi等[30]利用45例丙型肝炎病毒(hepatitis C virus,HCV)相關(guān)肝硬化、早期肝癌及晚期肝癌患者的522份血清樣本訓(xùn)練了隨機(jī)森林模型,得到了血清中多種蛋白質(zhì)組學(xué)特征可以用來區(qū)分伴有或不伴有肝硬化、伴有或不伴有血管浸潤(rùn)的肝癌的結(jié)論,并正確分類了45例患者中的43例。2011年P(guān)atterson等[31]利用SVM構(gòu)建了血清中甘氨酸脫氧膽酸鹽、脫氧膽酸3-硫酸鹽、膽紅素水平、溶血磷脂水平的預(yù)測(cè)肝癌發(fā)生的模型。胡瓊英等[32]收集了435份血清蛋白質(zhì)譜數(shù)據(jù),先篩選肝癌差異表達(dá)蛋白標(biāo)志物,然后用這些差異表達(dá)蛋白標(biāo)志物數(shù)據(jù)訓(xùn)練了一個(gè)人工神經(jīng)網(wǎng)絡(luò)模型用于診斷肝癌,其靈敏度和特異度分別為84.00%、81.25%。Wang等[33]建立了人工神經(jīng)網(wǎng)絡(luò)及SVM模型,該模型通過血清肽和AFP聯(lián)合檢測(cè)對(duì)乙型肝炎病毒(hepatitis B virus,HBV)相關(guān)肝硬化進(jìn)展的早期肝癌進(jìn)行診斷。尹咪咪等[34]使用機(jī)器學(xué)習(xí)在肝癌患者的臨床數(shù)據(jù)中篩選出高爾基體蛋白73(Golgi protein 73,GP73)、AFP、α-L-巖藻糖苷酶(alpha-L-fetoprotein,AFU)、谷草轉(zhuǎn)氨酶(glutamic-oxaloacetic transaminase,GOT)、谷丙轉(zhuǎn)氨酶(glutamic-pyruvic transaminase,GPT)、白細(xì)胞(white blood cell,WBC)等指標(biāo),然后用這些指標(biāo)構(gòu)建人工神經(jīng)網(wǎng)絡(luò)模型,用于肝炎和肝癌患者的鑒別診斷,準(zhǔn)確率分別為95.5%、86.0%。2017年王運(yùn)九等[35]對(duì)630例肝細(xì)胞肝癌患者及非肝細(xì)胞肝癌患者(包括肝炎和肝硬化)的臨床資料先采用單因素和多因素分析篩選出有統(tǒng)計(jì)學(xué)意義的指標(biāo),如AFP、總膽汁酸、活化部分凝血活酶時(shí)間(activated partial thromboplastin time,APTT)、堿性磷酸酶(alkaline phosphatase,ALP)及血小板,然后用這些指標(biāo)訓(xùn)練邏輯回歸模型和人工神經(jīng)網(wǎng)絡(luò)模型(兩層神經(jīng)網(wǎng)絡(luò)),來診斷肝細(xì)胞肝癌,最后得到的邏輯回歸模型和人工神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率分別為80.4%和83.4%,提示人工神經(jīng)網(wǎng)絡(luò)在處理臨床大量數(shù)據(jù)進(jìn)行分類問題的解決上優(yōu)于邏輯回歸。隨著近幾年基因測(cè)序的開展及2016年美國(guó)癌癥基因組圖譜(the cancer genome atlas,TCGA)的繪制完成,研究者開始研究基于使用基因共表達(dá)網(wǎng)絡(luò)來分析鑒定肝癌的潛在生物標(biāo)志物。2017年Zhang等[36]首先從全基因組中大規(guī)模選擇與肝細(xì)胞肝癌密切相關(guān)的候選基因,使用cytoscape軟件建立了基因共表達(dá)網(wǎng)絡(luò),然后通過馬爾科夫聚類算法(Markov cluster algorithm,MCL,機(jī)器學(xué)習(xí)中的無監(jiān)督算法),將全局網(wǎng)絡(luò)聚類成若干子模塊,并對(duì)這些已鑒定的基因模塊進(jìn)行GO分析來進(jìn)一步探索與肝細(xì)胞肝癌功能障礙明顯相關(guān)的基因,發(fā)現(xiàn)HK2、KLF4可以作為潛在候選基因,最后通過SVM建立預(yù)測(cè)模型,評(píng)估肝癌分類結(jié)果。2018年Wang等[37]應(yīng)用隨機(jī)森林建立模型,從137例肝細(xì)胞肝癌患者及431例非肝細(xì)胞肝癌患者(224例肝炎和207例肝硬化)的尿液中提取DNA進(jìn)行檢測(cè),并從尿液基因測(cè)序結(jié)果中篩選生物標(biāo)志物,該模型用于鑒別診斷達(dá)到了90%的特異度和87%的靈敏度。
伴隨著二代測(cè)序技術(shù)的發(fā)展,全基因組測(cè)序積累的數(shù)據(jù)正在呈指數(shù)級(jí)增長(zhǎng),因?yàn)閷?duì)于1例肝癌患者,全基因組測(cè)序能產(chǎn)生20 000多個(gè)基因的表達(dá)量、突變等信息,這就使得數(shù)據(jù)的維度很高,很多早期的機(jī)器學(xué)習(xí)算法處理大量基因測(cè)序數(shù)據(jù)表現(xiàn)不佳,泛化能力下降;而近年來出現(xiàn)的大數(shù)據(jù)分析技術(shù)、深度學(xué)習(xí)等為處理基因測(cè)序數(shù)據(jù)提供了技術(shù)支持。深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)范疇,因現(xiàn)在計(jì)算機(jī)計(jì)算能力的大幅度提升,很多復(fù)雜的機(jī)器學(xué)習(xí)算法得以實(shí)現(xiàn),包括多層神經(jīng)網(wǎng)絡(luò)中的深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)及眾多學(xué)者改良的早期機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)模型的幾個(gè)要點(diǎn):①更強(qiáng)的計(jì)算能力;②更大量的數(shù)據(jù);③更好的訓(xùn)練算法。這些要素在肝癌基因組學(xué)的迅猛發(fā)展下和計(jì)算機(jī)技術(shù)的發(fā)展下逐步實(shí)現(xiàn)。2014年Ibrahim等[38]利用深度信念網(wǎng)絡(luò)構(gòu)建了基于基因和miRNA水平的肝細(xì)胞肝癌患者亞群分類的模型,在該研究中,使用了機(jī)器學(xué)習(xí)中的特征選擇、SVM、深度信念網(wǎng)絡(luò)等算法,最后證實(shí)深度信念網(wǎng)絡(luò)能夠在多個(gè)抽象層次上表示數(shù)據(jù),并能很好地區(qū)分不同肝癌亞群,比早期的特征選擇算法更具優(yōu)勢(shì)。張朋軍和田亞平[39]對(duì)52例早期肝癌患者和34例健康對(duì)照者的外周血基因數(shù)據(jù)進(jìn)行分析,分別用邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)構(gòu)建外周血多參數(shù)基因診斷模型,結(jié)果顯示人工神經(jīng)網(wǎng)絡(luò)的靈敏度和特異度均高于邏輯回歸(靈敏度:96%vs94%,特異度:86%vs80%),并且認(rèn)為人工神經(jīng)網(wǎng)絡(luò)在肝癌疾病預(yù)測(cè)及早期檢測(cè)中有更好的診斷價(jià)值。2017年Qiu等[40]使用Illumina公司甲基化分析儀450K Beadchip對(duì)576例早期肝癌患者的基因CpG甲基化水平進(jìn)行檢測(cè),得到的數(shù)據(jù)使用機(jī)器學(xué)習(xí)中Lasso算法及SVM-RFE算法(Lasso算法,用于精簡(jiǎn)數(shù)據(jù),降低維度;SVM-RFE算法,即支持向量機(jī)遞歸特征消除算法),建立了預(yù)測(cè)早期肝癌復(fù)發(fā)風(fēng)險(xiǎn)的甲基化標(biāo)簽。2018年Augello等[41]使用機(jī)器學(xué)習(xí)中的分類算法發(fā)現(xiàn)MICA基因的兩個(gè)單核苷酸多態(tài)性位點(diǎn)rs2596542、rs2596538及“年齡”可用于肝硬化和肝癌的鑒別分類。Chandhary等[42]利用TCGA數(shù)據(jù)中的360例肝細(xì)胞肝癌患者的RNA測(cè)序、miRNA測(cè)序及甲基化數(shù)據(jù),構(gòu)建了一個(gè)含有3個(gè)隱藏層的多層人工神經(jīng)網(wǎng)絡(luò)模型,確定了2個(gè)不同生存期肝細(xì)胞肝癌患者的亞群分類。Liao等[43]對(duì)肝細(xì)胞肝癌患者的Dishevelled/EGL-10/Pleckstrin(DEP)結(jié)構(gòu)域(DEPDC)蛋白質(zhì)超家族進(jìn)行研究,設(shè)計(jì)了一種分離DEPDC和非DEPDC的計(jì)算方法。首先,他們檢查了已知DEPDC的Pfam數(shù),并使用每個(gè)Pfam的最長(zhǎng)序列來構(gòu)建系統(tǒng)發(fā)育樹;隨后,提取了DEPDC和非DEPDC的188維(188D)和20維(20D)特征,并將它們用隨機(jī)森林分類器進(jìn)行了分類;最后,設(shè)計(jì)了肝細(xì)胞癌組織及癌旁正常組織中人DEPDC表達(dá)水平的實(shí)驗(yàn)驗(yàn)證方法。結(jié)果表明,DEPDC超家族可以分為3類,而且,188D和20D特征可以用于有效區(qū)分兩種蛋白質(zhì)的類型,成功構(gòu)建了DEPDC的二元分類器,并通過實(shí)驗(yàn)驗(yàn)證了它們?cè)谌烁伟┙M織中的表達(dá)。Liang等[44]使用機(jī)器學(xué)習(xí)結(jié)合代謝組學(xué)從肝細(xì)胞肝癌患者的尿液中鑒定了15種肝細(xì)胞肝癌和匹配的健康對(duì)照者有差異的代謝物,涉及幾種關(guān)鍵的代謝途徑,其中5種代謝物對(duì)肝細(xì)胞肝癌的診斷有價(jià)值,靈敏度為96.5%,特異度為83.0%。Gui等[45]學(xué)者應(yīng)用最大相關(guān)最小冗余算法跟隨增量特征選擇的機(jī)器學(xué)習(xí)方法應(yīng)用于由43個(gè)腫瘤和52個(gè)非腫瘤樣本產(chǎn)生的一組微陣列數(shù)據(jù)。通過機(jī)器學(xué)習(xí)方法,確定了117個(gè)可以最佳分離腫瘤和非腫瘤樣本的基因探針,這些基因不僅包括已知的肝癌相關(guān)基因,如MT1X、BMI1和CAP2,還包括之前未發(fā)現(xiàn)與肝癌密切相關(guān)的腫瘤基因,如TACSTD2。然后,基于來自STRING數(shù)據(jù)庫(kù)的蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)數(shù)據(jù)構(gòu)建了一個(gè)分子相互作用網(wǎng)絡(luò),并用機(jī)器學(xué)習(xí)方法確定了基因中最短路徑上的187個(gè)基因。網(wǎng)絡(luò)分析揭示了泛素C在肝細(xì)胞肝癌發(fā)病機(jī)制中的新潛在作用。
機(jī)器學(xué)習(xí)在構(gòu)建預(yù)測(cè)危險(xiǎn)因素、發(fā)生及復(fù)發(fā)風(fēng)險(xiǎn)、生存預(yù)測(cè)等方面也有許多研究。Santos等[46]利用SMOTE過采樣算法和K均值聚類算法構(gòu)建具有代表性數(shù)據(jù)的肝細(xì)胞肝癌數(shù)據(jù)庫(kù),然后利用這個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)訓(xùn)練邏輯回歸模型和人工神經(jīng)網(wǎng)絡(luò)模型,相比于循證醫(yī)學(xué),機(jī)器學(xué)習(xí)以其強(qiáng)大的算法(比如聚類算法)可以“學(xué)得”患者的異質(zhì)性,生成具有相似預(yù)后特征的同質(zhì)組,映射到相似的生存模式上,達(dá)到更準(zhǔn)確的預(yù)測(cè)。并且機(jī)器學(xué)習(xí)在處理含有缺失值、不平衡的數(shù)據(jù)集時(shí)具有較大的靈活度。Ho等[47]使用人工神經(jīng)網(wǎng)絡(luò)、邏輯回歸及決策樹3種算法構(gòu)建了接受肝切除手術(shù)的肝細(xì)胞肝癌患者術(shù)后1、3、5年的無病生存率模型,并發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)模型的精確度更高,證明基于臨床數(shù)據(jù)構(gòu)建的肝細(xì)胞肝癌患者行肝切除術(shù)后無病生存率的預(yù)測(cè)模型在醫(yī)療決策支持系統(tǒng)中應(yīng)用的可行性。Chiu等[48]對(duì)434例接受過肝切除術(shù)的肝細(xì)胞肝癌患者的病歷資料進(jìn)行分析,先用Cox回歸模型篩選出21個(gè)潛在輸入變量(特征),然后分別訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)模型和邏輯回歸模型,來預(yù)測(cè)患者術(shù)后1、3、5年的生存率,結(jié)果顯示人工神經(jīng)網(wǎng)絡(luò)優(yōu)于邏輯回歸。Shi等[49]對(duì)22 926例接受過肝切除手術(shù)的肝細(xì)胞肝癌患者的1000對(duì)邏輯回歸模型和人工神經(jīng)網(wǎng)絡(luò)模型進(jìn)行評(píng)估,人工神經(jīng)網(wǎng)絡(luò)模型在97.28%的病例中準(zhǔn)確率更高,該研究也是目前檢索到的肝癌樣本量最大的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型評(píng)估的研究。
射頻消融(radiofrequency ablation,RFA)、經(jīng)導(dǎo)管肝動(dòng)脈化療栓塞術(shù)(transcatheter arterial chemoembolization,TACE)作為一部分不能耐受術(shù)后切除的肝細(xì)胞肝癌患者的根治手段及晚期不能手術(shù)肝癌患者的治療手段,在肝癌的治療中占有重要地位。Liang等[50]對(duì)首次接受RFA治療的肝細(xì)胞肝癌患者利用遺傳算法(genetic algorithm,GA)、模擬退火算法(simulated annealing,SA)、隨機(jī)森林算法及混合的GA+隨機(jī)森林算法、SA+隨機(jī)森林算法5種特征選擇算法處理數(shù)據(jù),篩選出16個(gè)臨床特征,然后用SVM算法訓(xùn)練這些數(shù)據(jù),最后得到準(zhǔn)確度為82%的預(yù)測(cè)RFA術(shù)后復(fù)發(fā)模型。Abajian等[51]對(duì)36例經(jīng)TACE治療的肝細(xì)胞肝癌患者在TACE治療前及治療后1個(gè)月分別行MRI檢查,然后分別用MRI數(shù)據(jù)和臨床資料訓(xùn)練隨機(jī)森林和邏輯回歸,建立評(píng)估患者對(duì)TACE治療有無反應(yīng)的預(yù)測(cè)模型,總體準(zhǔn)確度為78%,并通過模型選出了最強(qiáng)預(yù)測(cè)因素為肝硬化和MRI影像中腫瘤信號(hào)強(qiáng)度>27.0。
藥物潛在治療靶點(diǎn)的尋找:Yang等[52]利用SVM,確定了可能是肝癌治療靶點(diǎn)的化學(xué)敏感基因,包括MT1E、MYC和GADD45B;并預(yù)測(cè)了幾種已知的肝癌抑制劑,如格爾德霉素、alvespimycin(HSP90抑制劑)和多柔比星(化療藥物)。23種預(yù)測(cè)藥物中有7種是強(qiáng)心苷類,表明該種藥物與肝癌抑制之間存在關(guān)聯(lián)。該研究展示了使用基于初始體外藥物篩選的大型微陣列儲(chǔ)存庫(kù)的SVM模型在藥物篩選中的策略,從生物學(xué)角度驗(yàn)證這些結(jié)果有助于開發(fā)更精確的化學(xué)敏感性模型。
此外,也有不少國(guó)內(nèi)外學(xué)者使用機(jī)器學(xué)習(xí)對(duì)肝癌的致病因素及復(fù)發(fā)風(fēng)險(xiǎn)進(jìn)行建模,這些研究為了提高預(yù)測(cè)模型的準(zhǔn)確度,將研究點(diǎn)著重放在算法的優(yōu)化及數(shù)據(jù)的處理上[53-59]。
姚曄等[60]使用X線容積成像系統(tǒng)對(duì)某肝癌患者進(jìn)行掃描,采集各時(shí)相呼吸運(yùn)動(dòng)圖像;利用碘油標(biāo)記方法對(duì)肝癌病灶進(jìn)行定位,并通過圖像檢測(cè)技術(shù)獲取病灶標(biāo)記點(diǎn)的運(yùn)動(dòng)軌跡,對(duì)標(biāo)記點(diǎn)的運(yùn)動(dòng)軌跡數(shù)據(jù)進(jìn)行分析,建立人工神經(jīng)網(wǎng)絡(luò)模型,并用其預(yù)測(cè)下一時(shí)間段的運(yùn)動(dòng)曲線,將預(yù)測(cè)結(jié)果與腫瘤標(biāo)記點(diǎn)實(shí)際的運(yùn)動(dòng)軌跡進(jìn)行比較分析。結(jié)果顯示利用人工神經(jīng)網(wǎng)絡(luò)可以有效預(yù)測(cè)肝腫瘤的運(yùn)動(dòng)趨勢(shì),在一定時(shí)間段內(nèi)可保持良好的精準(zhǔn)度,誤差在1個(gè)像素距離內(nèi),但在呼吸運(yùn)動(dòng)峰值處預(yù)測(cè)精準(zhǔn)度尚不理想,誤差接近2個(gè)像素距離。該研究表明人工神經(jīng)網(wǎng)絡(luò)模型是預(yù)測(cè)肝腫瘤運(yùn)動(dòng)的一種新方法,可能對(duì)肝癌的體部立體定向放療以及實(shí)時(shí)跟蹤放療精準(zhǔn)度的提升有一定幫助,且具有一定的臨床價(jià)值。
Estevez等[61]檢測(cè)了411例病例的血清細(xì)胞譜,其中肝細(xì)胞肝癌患者102例:32%HBV感染,54%HCV感染,14%非HBV感染和非HCV感染;非肝細(xì)胞肝癌患者309例:39%HBV感染,39%HCV感染,22%非HBV和非HCV感染。使用隨機(jī)森林機(jī)器學(xué)習(xí)來獲得接受者操作者特征曲線并使用各個(gè)細(xì)胞因子的平均熒光強(qiáng)度的Z分?jǐn)?shù)來確定單獨(dú)的細(xì)胞因子重要性。在肝細(xì)胞肝癌和非肝細(xì)胞肝癌患者中,HBV和HCV患者的細(xì)胞因子譜不同(肝細(xì)胞肝癌的曲線下面積為0.82,非肝細(xì)胞肝癌的為0.90),結(jié)果顯示有或無肝細(xì)胞肝癌的HBV或HCV感染的患者具有明顯不同的細(xì)胞因子概況,表明疾病發(fā)病機(jī)制和(或)疾病特征的潛在差異。
對(duì)于住院的肝癌患者,包括腫瘤數(shù)量、大小和解剖部位的信息,通常只能在電子病歷(electronic medical record,EMR)中的臨床敘述中找到。Yim等[62]使用自然語言處理(natural language processing,NLP)提供了一種自動(dòng)和可縮放的手段來提取這些信息,這可以進(jìn)一步進(jìn)行基于證據(jù)的研究。在本文中創(chuàng)建了一個(gè)注釋腫瘤信息的101個(gè)放射學(xué)報(bào)告的語料庫(kù),之后應(yīng)用機(jī)器學(xué)習(xí)算法來提取腫瘤信息。該研究為方便從HIS系統(tǒng)中提取臨床資料提供了方法。
未來,隨著深度學(xué)習(xí)的不斷發(fā)展,機(jī)器學(xué)習(xí)在肝癌研究領(lǐng)域的應(yīng)用會(huì)更加寬廣和深入。在計(jì)算機(jī)科學(xué)的發(fā)展下,新的優(yōu)秀的算法會(huì)不斷出現(xiàn),使構(gòu)建的模型準(zhǔn)確度越來越高,泛化能力越來越強(qiáng);在基因測(cè)序數(shù)據(jù)大量被積累的背景下,結(jié)合優(yōu)良的機(jī)器學(xué)習(xí)算法,未來肝癌亞分類的模型會(huì)越來越有臨床實(shí)用性,尤其是深度學(xué)習(xí)在提取數(shù)據(jù)特征和高維數(shù)據(jù)的處理方面更加流行;深度學(xué)習(xí)在影像學(xué)圖像的處理中有著顯著的優(yōu)勢(shì),精度高、速度快、智能化是現(xiàn)在圖像識(shí)別模型的特點(diǎn);近幾年量子計(jì)算機(jī)概念的出現(xiàn),使得計(jì)算機(jī)運(yùn)行速度突飛猛進(jìn),已有科學(xué)家開始研究經(jīng)典人工神經(jīng)網(wǎng)絡(luò)的量子泛化,如能用到肝癌的研究中,可能會(huì)產(chǎn)生革命性的影響[63-65]。