高美虹 尚學(xué)群
(西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,西安 710072)
癌癥具有較高的發(fā)病率和死亡率,是人類(lèi)健康的巨大威脅[1-3]。2018年,全世界大約有1 810萬(wàn)癌癥新生病例和960萬(wàn)癌癥死亡病例[2-3]。癌癥預(yù)后,是指根據(jù)病人當(dāng)前狀況對(duì)其治療結(jié)果進(jìn)行預(yù)測(cè)。癌癥預(yù)后分析可以有效避免過(guò)度治療及醫(yī)療資源的浪費(fèi),為醫(yī)務(wù)人員及家屬進(jìn)行醫(yī)療決策提供科學(xué)依據(jù)。癌癥預(yù)后與基因突變相關(guān),常見(jiàn)的癌癥預(yù)后相關(guān)的突變基因有TP53、KRAS、BRAF和PIK3CA等[4-7]。對(duì)癌癥預(yù)后相關(guān)的突變基因進(jìn)行分析,有助于癌癥預(yù)后研究,并可以為癌癥患者的治療提供一個(gè)參考。癌癥預(yù)后受多種臨床因素影響,如患者的性別、年齡及其腫瘤分期等[8-10]。常見(jiàn)的癌癥預(yù)后方法及相關(guān)問(wèn)題包括癌癥易感性預(yù)測(cè)、癌癥復(fù)發(fā)性預(yù)測(cè)和癌癥生存期預(yù)測(cè)。
隨著近年來(lái)電子計(jì)算機(jī)技術(shù)在醫(yī)療診斷中的應(yīng)用及測(cè)序技術(shù)的發(fā)展,對(duì)癌癥的易感性、復(fù)發(fā)性及生存期進(jìn)行自動(dòng)化預(yù)測(cè)成為可能[11-14]。一系列開(kāi)源數(shù)據(jù)庫(kù)(如TCGA和GEO等)提供了大量醫(yī)療數(shù)據(jù),創(chuàng)造了構(gòu)建計(jì)算模型以有效進(jìn)行癌癥預(yù)后的機(jī)會(huì)。醫(yī)療數(shù)據(jù)具有數(shù)據(jù)量大、模式復(fù)雜、個(gè)體表達(dá)特異等特點(diǎn)。機(jī)器學(xué)習(xí)方法可以從一系列復(fù)雜的醫(yī)療數(shù)據(jù)集中挖掘重要的模式,極大推動(dòng)了醫(yī)療信息化發(fā)展,使得智慧醫(yī)療受到廣泛關(guān)注。癌癥患者作為智慧醫(yī)療的重要組成部分,對(duì)其進(jìn)行有效的智能預(yù)測(cè)十分必要。常見(jiàn)的基于機(jī)器學(xué)習(xí)的癌癥預(yù)后方法及相關(guān)問(wèn)題包括:a.基于機(jī)器學(xué)習(xí)的癌癥易感性的預(yù)測(cè),即用機(jī)器學(xué)習(xí)方法預(yù)測(cè)癌癥發(fā)生的可能性;b.基于機(jī)器學(xué)習(xí)的癌癥復(fù)發(fā)性的預(yù)測(cè),即用機(jī)器學(xué)習(xí)方法預(yù)測(cè)癌癥復(fù)發(fā)的可能性;c.基于機(jī)器學(xué)習(xí)的癌癥生存期的預(yù)測(cè),即用機(jī)器學(xué)習(xí)方法預(yù)測(cè)癌癥的生存結(jié)果。常用的癌癥預(yù)后相關(guān)的機(jī)器學(xué)習(xí)方法包括COX比例風(fēng)險(xiǎn)回歸、隨機(jī)生存森林(RSF)、LASSO回歸、人工神經(jīng)網(wǎng)絡(luò)(ANN)、貝葉斯網(wǎng)絡(luò)(BN)、支持向量機(jī)(SVM)和決策樹(shù)(DT)等[15-19]。機(jī)器學(xué)習(xí)方法已被廣泛應(yīng)用于癌癥預(yù)后研究中,其可以基于癌癥樣本數(shù)據(jù)得出有效和準(zhǔn)確的預(yù)后結(jié)論[17,20-26]。
本文重點(diǎn)對(duì)已有的基于機(jī)器學(xué)習(xí)的癌癥預(yù)后方法進(jìn)行綜述。第1節(jié)對(duì)機(jī)器學(xué)習(xí)方法與癌癥預(yù)后進(jìn)行了概述,包括癌癥預(yù)后分析、相關(guān)機(jī)器學(xué)習(xí)方法及機(jī)器學(xué)習(xí)在癌癥預(yù)后中的應(yīng)用。第2~4節(jié)對(duì)基于機(jī)器學(xué)習(xí)的癌癥預(yù)后方法進(jìn)行了詳細(xì)分析,統(tǒng)計(jì)了近20年來(lái)基于機(jī)器學(xué)習(xí)方法的癌癥預(yù)后相關(guān)研究,并對(duì)常用的癌癥預(yù)后分析方法進(jìn)行了比較。第5節(jié)對(duì)全文進(jìn)行了總結(jié),并對(duì)未來(lái)值得關(guān)注的研究方向進(jìn)行初步探討。
機(jī)器學(xué)習(xí)方法與癌癥預(yù)后的關(guān)系如圖1所示,其可以基于回歸分析方法、神經(jīng)網(wǎng)絡(luò)分析方法、SVM分析方法及一些常用的機(jī)器學(xué)習(xí)方法,對(duì)癌癥患者的mRNA表達(dá)數(shù)據(jù)、lncRNA表達(dá)數(shù)據(jù)、miRNA表達(dá)數(shù)據(jù)及DNA甲基化數(shù)據(jù)進(jìn)行分析,構(gòu)建預(yù)后模型,獲得癌癥患者的易感性、復(fù)發(fā)性及生存期相關(guān)的預(yù)后情況。下面分別對(duì)癌癥預(yù)后、機(jī)器學(xué)習(xí)分析過(guò)程及預(yù)后相關(guān)的機(jī)器學(xué)習(xí)方法進(jìn)行詳細(xì)介紹。
Fig.1 Schematic diagram of cancer prognosis analysis based on machine learning圖1 基于機(jī)器學(xué)習(xí)的癌癥預(yù)后分析示意圖
癌癥預(yù)后分析可以對(duì)患者的預(yù)后風(fēng)險(xiǎn)進(jìn)行評(píng)估,通過(guò)患者的基因表達(dá)情況,將患者的預(yù)后情況分為高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)兩類(lèi)。圖2和圖3所示為癌癥預(yù)后分析的一個(gè)實(shí)例:首先,獲得癌癥樣本和癌旁樣本的分布情況(圖2),其中FC表示兩種樣本間基因表達(dá)值的倍數(shù)變化,F(xiàn)C越大則樣本間的表達(dá)差異越大,圖2a~c分別表示logFC的絕對(duì)值大于1、大于1.5及大于2時(shí)樣本表達(dá)量的聚類(lèi)結(jié)果,可以發(fā)現(xiàn)logFC的絕對(duì)值越大,聚類(lèi)效果越好;然后,對(duì)癌癥樣本和癌旁樣本的表達(dá)情況進(jìn)行分析,獲得差異表達(dá)的mRNA特征、lncRNA特征、miRNA特征及DNA甲基化特征等;最后,對(duì)這些特征在癌癥樣本中的表達(dá)情況進(jìn)一步分析,獲得癌癥樣本的預(yù)后情況(圖3),其中圖3a~c分別表示所有集合、訓(xùn)練集及測(cè)試集上癌癥樣本的預(yù)后情況,圖中紅線表示高預(yù)后風(fēng)險(xiǎn)的樣本生存時(shí)間分布,綠線表示低預(yù)后風(fēng)險(xiǎn)的樣本生存時(shí)間分布,可以發(fā)現(xiàn)基于表達(dá)值的預(yù)后分析在3個(gè)集合上都有著良好的預(yù)后效果。
Fig.2 Schematic diagram of the distribution of samples related to cancer survival prognosis圖2 癌癥生存期預(yù)后樣本分布示意圖
Fig.3 Schematic diagram of cancer prognosis results圖3 癌癥預(yù)后結(jié)果示意圖
1.1.1 癌癥預(yù)后分析
癌癥預(yù)后與基因突變相關(guān),常見(jiàn)的癌癥預(yù)后相關(guān)的突變基因有TP53、KRAS、BRAF和PIK3CA等[4-7]。KRAS的突變與胰腺癌的預(yù)后有關(guān),其是導(dǎo)致胰腺癌發(fā)生的主要事件,且對(duì)胰腺癌的治療具有重要意義[4]。TP53的突變與乳腺癌和其他一些癌癥的不良預(yù)后有關(guān),TP53突變的確切位置與疾病的產(chǎn)生有關(guān),故TP53突變的位置可以為疾病的治療提供指導(dǎo)[5];BRAF的突變與甲狀腺乳頭癌(PTC)的預(yù)后有關(guān),其可以作為一個(gè)預(yù)測(cè)因子對(duì)PTC患者進(jìn)行生存風(fēng)險(xiǎn)預(yù)測(cè)[6];PIK3CA的突變與結(jié)腸癌的預(yù)后有關(guān),在接受結(jié)腸癌切除術(shù)的患者中,具有PIK3CA突變患者的生存期較其他患者短[7]。綜上,基因突變與癌癥患者的預(yù)后情況相關(guān),對(duì)癌癥預(yù)后相關(guān)的突變基因進(jìn)行分析,有助于癌癥預(yù)后研究,并可以為癌癥患者的治療提供一個(gè)參考。
癌癥預(yù)后受多種臨床因素影響,如患者的性別、年齡及其腫瘤分期等[8-10]。在性別方面,男性更容易患肺癌、肝癌和皮膚癌,而女性更容易患甲狀腺癌、乳腺癌和腎上腺皮質(zhì)癌[8]。在年齡方面,癌癥患者的存活率與其最初病理診斷時(shí)的年齡有關(guān),某些類(lèi)型的癌癥更容易在較年輕的群體中發(fā)生,如腎上腺皮質(zhì)癌、宮頸癌、腦部低級(jí)別膠質(zhì)瘤、嗜鉻細(xì)胞瘤、副神經(jīng)節(jié)瘤、睪丸生殖細(xì)胞瘤和甲狀腺癌等[9-10]。在腫瘤分期方面,分期值越低,代表腫瘤處于越早期階段,預(yù)后情況越好;而分期值越高,則腫瘤處于越晚期階段,預(yù)后情況也會(huì)越差[8]。
1.1.2 預(yù)后分析類(lèi)型
隨著測(cè)序技術(shù)與計(jì)算機(jī)技術(shù)的發(fā)展,對(duì)癌癥患者的預(yù)后情況進(jìn)行自動(dòng)化和個(gè)性化分析成為可能[11-14]。一系列開(kāi)源數(shù)據(jù)庫(kù)如TCGA和GEO等提供了大量醫(yī)療數(shù)據(jù),這為人們提供了能構(gòu)建更強(qiáng)大、更準(zhǔn)確的模型以更有效預(yù)測(cè)癌癥的機(jī)會(huì)。醫(yī)療數(shù)據(jù)具有數(shù)據(jù)量大、模式復(fù)雜、個(gè)體表達(dá)特異等特點(diǎn)。機(jī)器學(xué)習(xí)方法可以從一系列復(fù)雜的醫(yī)療數(shù)據(jù)集中挖掘重要的模式,極大推動(dòng)了醫(yī)療信息化發(fā)展,使得智慧醫(yī)療受到廣泛關(guān)注[27-31]。癌癥患者作為智慧醫(yī)療的重要組成部分,對(duì)其進(jìn)行有效的智能預(yù)測(cè)十分必要。常見(jiàn)的基于機(jī)器學(xué)習(xí)的癌癥預(yù)后方法及相關(guān)問(wèn)題包括:
a.癌癥易感性的預(yù)測(cè),即用機(jī)器學(xué)習(xí)方法預(yù)測(cè)癌癥發(fā)生的可能性(第2節(jié))。對(duì)某些常見(jiàn)癌癥,如胃癌、肝癌、乳腺癌等的發(fā)生風(fēng)險(xiǎn)進(jìn)行有效預(yù)測(cè),得出癌癥易感性的高低,為癌癥的預(yù)防提供一個(gè)參考。
b.癌癥復(fù)發(fā)性的預(yù)測(cè),即用機(jī)器學(xué)習(xí)方法預(yù)測(cè)癌癥復(fù)發(fā)的可能性(第3節(jié))。對(duì)癌癥患者的術(shù)后復(fù)發(fā)風(fēng)險(xiǎn)進(jìn)行有效預(yù)測(cè),得出癌癥復(fù)發(fā)性的高低,為癌癥的治療提供一個(gè)參考。
c.癌癥生存期的預(yù)測(cè),即用機(jī)器學(xué)習(xí)方法預(yù)測(cè)癌癥的生存結(jié)果(第4節(jié))。對(duì)癌癥患者的生存風(fēng)險(xiǎn)進(jìn)行有效預(yù)測(cè),得出癌癥患者生存風(fēng)險(xiǎn)的高低,為癌癥的治療提供一個(gè)參考。
1.1.3 預(yù)后分析數(shù)據(jù)集
a.TCGA數(shù)據(jù)集。TCGA是一個(gè)開(kāi)源的癌癥數(shù)據(jù)集,包括level 1、level 2數(shù)據(jù)及l(fā)evel 3三種類(lèi)型的數(shù)據(jù)。level 1和level 2數(shù)據(jù)屬于測(cè)序數(shù)據(jù),數(shù)據(jù)規(guī)模龐大、處理過(guò)程復(fù)雜且下載權(quán)限不易獲取;level 3數(shù)據(jù)屬于表達(dá)數(shù)據(jù),數(shù)據(jù)規(guī)模較小、處理過(guò)程相對(duì)簡(jiǎn)單且可以免費(fèi)獲取。在基于機(jī)器學(xué)習(xí)方法的預(yù)后分析中,用到的數(shù)據(jù)類(lèi)型以level 3數(shù)據(jù)居多。TCGA數(shù)據(jù)的下載地址為https://portal.gdc.cancer.gov/。
b.GEO數(shù)據(jù)集。GEO是一個(gè)開(kāi)源的功能基因組學(xué)數(shù)據(jù)集,收錄了序列數(shù)據(jù)和陣列數(shù)據(jù)兩種,其中序列數(shù)據(jù)通過(guò)測(cè)序獲得,數(shù)據(jù)規(guī)模龐大、處理過(guò)程復(fù)雜且下載權(quán)限不易獲取,而陣列數(shù)據(jù)通過(guò)基因芯片獲得,數(shù)據(jù)規(guī)模較小、處理過(guò)程相對(duì)簡(jiǎn)單且容易獲取。在預(yù)后分析中,GEO數(shù)據(jù)可以作為T(mén)CGA數(shù)據(jù)的外部驗(yàn)證數(shù)據(jù)集,對(duì)預(yù)后模型進(jìn)行有效性驗(yàn)證。GEO數(shù)據(jù)的下載地址為https://portal.gdc.cancer.gov/。
c.UCSC Xena數(shù)據(jù)集。UCSC Xena是一個(gè)開(kāi)源的癌癥全基因組數(shù)據(jù)集,收錄了眾多數(shù)據(jù)集中的數(shù)據(jù),包括TCGA、GETx以及target等,并對(duì)其進(jìn)行了預(yù)處理。UCSC Xena數(shù)據(jù)集中的數(shù)據(jù)以表達(dá)數(shù)據(jù)為主,數(shù)據(jù)規(guī)模較小且處理過(guò)程簡(jiǎn)單。在預(yù)后分析中,UCSC Xena數(shù)據(jù)可以作為T(mén)CGA數(shù)據(jù)的外部驗(yàn)證數(shù)據(jù)集,對(duì)預(yù)后模型進(jìn)行有效性驗(yàn)證。UCSC Xena數(shù)據(jù)集的下載地址為http://xena.ucsc.edu/。
d.GENCODE數(shù)據(jù)集。GENCODE是一個(gè)開(kāi)源的基因注釋數(shù)據(jù)集,收錄了人類(lèi)和小鼠的基因注釋信息,在提取癌癥患者的表達(dá)數(shù)據(jù)時(shí)需要用到此類(lèi)信息。例如,在進(jìn)行TCGA樣本的mRNA和lncRNA表達(dá)數(shù)據(jù)提取時(shí),選擇的是GENCODE中的v19注釋數(shù)據(jù),這是由TCGA數(shù)據(jù)注釋時(shí)的版本信息所決定的。GENCODE數(shù)據(jù)集的下載地址為https://www.gencodegenes.org/。
機(jī)器學(xué)習(xí)(ML)是人工智能的一個(gè)重要分支,它可以對(duì)已有的樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),從而得出推理的結(jié)論[32-34]。ML過(guò)程包括兩個(gè)階段:第一階段是學(xué)習(xí)階段,根據(jù)給定數(shù)據(jù)集對(duì)系統(tǒng)中的未知依賴(lài)關(guān)系進(jìn)行估計(jì);第二階段是推理階段,根據(jù)預(yù)測(cè)的依賴(lài)關(guān)系對(duì)系統(tǒng)的輸出進(jìn)行估計(jì)。ML方法分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩種,有監(jiān)督學(xué)習(xí)方法的輸入數(shù)據(jù)包含標(biāo)簽,而無(wú)監(jiān)督學(xué)習(xí)方法的輸入數(shù)據(jù)不包含標(biāo)簽。ML的目標(biāo)是生成一個(gè)用于預(yù)測(cè)、分類(lèi)、評(píng)估及其他類(lèi)似任務(wù)的模型。模型生成前,需要進(jìn)行數(shù)據(jù)集劃分。模型生成后,需要進(jìn)行性能評(píng)估與誤差分析。
數(shù)據(jù)集劃分過(guò)程中應(yīng)保證訓(xùn)練集和測(cè)試集的樣本足夠大且相互獨(dú)立,測(cè)試集的標(biāo)簽信息已知。常用數(shù)據(jù)集劃分方法包括:a.留出法,將數(shù)據(jù)集劃分為兩個(gè)互斥且分布盡量一致的集合;b.隨機(jī)抽樣法,將留出法重復(fù)多次,隨機(jī)選擇訓(xùn)練樣例和測(cè)試樣例;c.交叉驗(yàn)證法,將數(shù)據(jù)集劃分為k個(gè)互斥的集合;d.自助法,從數(shù)據(jù)集中有放回采樣m次,獲得包含m個(gè)樣本的數(shù)據(jù)作為訓(xùn)練集,那些未被抽到的數(shù)據(jù)作為測(cè)試集。
性能評(píng)估需確定以下幾個(gè)參數(shù):TP,實(shí)際情況與預(yù)后結(jié)果均為正樣本;TN,實(shí)際為正樣本,預(yù)后結(jié)果為負(fù)樣本;FP,實(shí)際為負(fù)樣本,預(yù)后結(jié)果為正樣本;FN,實(shí)際情況與預(yù)后結(jié)果均為負(fù)樣本。根據(jù)以上4個(gè)參數(shù),可以得到下面的性能評(píng)估指標(biāo):
a.TPR,即真陽(yáng)性率,也叫靈敏度,用于評(píng)估預(yù)測(cè)出的正樣本占所有正樣本的比例,定義如下:
b.FPR,即假陽(yáng)性率,用于評(píng)估預(yù)測(cè)出的正樣本占所有負(fù)樣本的比例,定義如下:
c.TNR,即真陰性率,也叫特異性,用于評(píng)估預(yù)測(cè)出的負(fù)樣本占所有負(fù)樣本的比例,定義如下:
d.ACC,即準(zhǔn)確度,用于評(píng)估正確分類(lèi)的樣本數(shù)與總樣本數(shù)的比值,定義如下:
e.AUC,用于評(píng)估ROC曲線下的面積,ROC曲線的橫縱坐標(biāo)分別為FPR和TPR。
ML在生成分類(lèi)模型時(shí),會(huì)產(chǎn)生訓(xùn)練和泛化兩種錯(cuò)誤,訓(xùn)練錯(cuò)誤是指訓(xùn)練集上的誤分類(lèi)錯(cuò)誤,而泛化錯(cuò)誤是指測(cè)試集上的預(yù)期錯(cuò)誤。ML中常用的泛化誤差分析方法為偏差-方差分解法,即將泛化誤差分解為偏差、方差、噪聲之和,對(duì)這3種誤差分別進(jìn)行估計(jì)。
ML方法可以從一系列復(fù)雜的數(shù)據(jù)集中挖掘重要的模式,在預(yù)后分析中發(fā)揮著重要作用,以下對(duì)幾個(gè)常用預(yù)后相關(guān)的ML分析方法進(jìn)行介紹。
1.3.1 回歸分析方法
預(yù)后相關(guān)的回歸分析方法包括COX比例風(fēng)險(xiǎn)回歸分析和LASSO回歸分析等[35-36]。COX回歸以癌癥患者的生存時(shí)間和生存狀態(tài)為預(yù)后變量,分析預(yù)后特征對(duì)患者預(yù)后變量的影響。LASSO回歸是一種常用的正則化回歸方法,通過(guò)構(gòu)造一個(gè)懲罰函數(shù)來(lái)對(duì)患者的預(yù)后情況進(jìn)行有效篩選,得到更為精煉的預(yù)后特征,從而對(duì)癌癥患者的預(yù)后情況進(jìn)行準(zhǔn)確判斷[37]。
COX回歸分析又分為單因素COX回歸分析和多因素COX回歸分析,單因素COX回歸用于確定單個(gè)預(yù)后特征對(duì)預(yù)后變量的影響,多因素COX回歸用于確定多個(gè)預(yù)后特征協(xié)同作用對(duì)預(yù)后變量產(chǎn)生的影響。預(yù)后相關(guān)的COX回歸分析過(guò)程包括:a.對(duì)癌癥數(shù)據(jù)進(jìn)行初步分析,獲得各個(gè)特征的表達(dá)值;b.用偏似然函數(shù)對(duì)預(yù)后特征進(jìn)行參數(shù)估計(jì);c.用Wald檢驗(yàn)方法進(jìn)行假設(shè)檢驗(yàn),獲得顯著的預(yù)后特征;d.根據(jù)預(yù)后特征及對(duì)應(yīng)的回歸系數(shù),構(gòu)建風(fēng)險(xiǎn)預(yù)后模型,并用KM方法對(duì)模型的預(yù)后能力進(jìn)行評(píng)估。
LASSO回歸分析用以減小模型的過(guò)擬合。由方差權(quán)衡可知,建立回歸模型時(shí)的一個(gè)重要的任務(wù)是進(jìn)行變量選擇。傳統(tǒng)的變量選擇方法存在靈活性差且模型方差高的缺點(diǎn),基于正則化回歸的LASSO回歸方法應(yīng)運(yùn)而生。預(yù)后相關(guān)的LASSO回歸分析過(guò)程包括:a.獲得預(yù)后特征的表達(dá)值;b.加入正則項(xiàng)對(duì)預(yù)后特征進(jìn)行回歸懲罰;c.將冗余預(yù)后變量的系數(shù)變?yōu)?;d.篩選回歸系數(shù)不為0的特征進(jìn)行預(yù)后分析。
1.3.2 神經(jīng)網(wǎng)絡(luò)分析方法
神經(jīng)網(wǎng)絡(luò)是對(duì)生物神經(jīng)系統(tǒng)的交互反應(yīng)進(jìn)行模擬,由具有適應(yīng)性的簡(jiǎn)單單元組成廣泛并行的互聯(lián)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)各層之間通過(guò)權(quán)值連接,通過(guò)激活函數(shù)對(duì)輸出進(jìn)行控制。預(yù)后相關(guān)的神經(jīng)網(wǎng)絡(luò)分析方法包括人工神經(jīng)網(wǎng)絡(luò)(ANN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度神經(jīng)網(wǎng)絡(luò)(DNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和自編碼器(autoencoder)等[38-42]。這些方法的輸入為預(yù)后屬性,通過(guò)權(quán)值矩陣和激活函數(shù)對(duì)預(yù)后屬性進(jìn)行處理,得到患者的預(yù)后結(jié)果并輸出。其基本結(jié)構(gòu)包括:a.輸入層,對(duì)預(yù)后特征進(jìn)行表示;b.權(quán)值矩陣,位于輸入層與隱藏層之間,對(duì)對(duì)預(yù)后特征進(jìn)行加權(quán)處理;c.激活函數(shù),位于隱藏層與輸出層之間,用于計(jì)算并輸出最終的預(yù)后結(jié)果;d.輸出層,輸出癌癥的預(yù)后結(jié)果。
1.3.3 支持向量機(jī)分析方法
SVM根據(jù)患者的預(yù)后屬性對(duì)他們進(jìn)行分類(lèi),最終將患者的預(yù)后結(jié)果分為預(yù)后好和預(yù)后差兩類(lèi)[43]。超平面被認(rèn)為是兩種預(yù)后結(jié)果間的決策邊界,兩種預(yù)后類(lèi)別處于超平面的兩側(cè)。對(duì)于線性可分的癌癥預(yù)后數(shù)據(jù)集來(lái)說(shuō),這樣的超平面可能有很多個(gè),但是使得幾何間隔最大的超平面是唯一的。預(yù)后相關(guān)的SVM分類(lèi)過(guò)程包括:a.獲得預(yù)后特征的表達(dá)值;b.訓(xùn)練獲得合適的超平面,將訓(xùn)練集中的樣本分為預(yù)后好和預(yù)后差兩類(lèi);c.根據(jù)訓(xùn)練好的模型,對(duì)癌癥樣本進(jìn)行預(yù)后分析。
1.3.4 其他分析方法
決策樹(shù)(DT)方法、隨機(jī)森林(RF)方法、K近鄰(KNN)方法、半監(jiān)督學(xué)習(xí)的協(xié)同訓(xùn)練(SSL co-training)方法與相似網(wǎng)絡(luò)融合(SNF)方法也可用于癌癥預(yù)后分析[44-50]。DT方法根據(jù)預(yù)后屬性與節(jié)點(diǎn)分裂算法建立決策樹(shù)模型,預(yù)后結(jié)果由葉子節(jié)點(diǎn)的值確定。RF方法對(duì)多個(gè)DT的預(yù)后結(jié)果進(jìn)行集成,做出最終的預(yù)后判斷。KNN方法對(duì)離癌癥樣本最近的K個(gè)鄰居樣本的預(yù)后結(jié)果進(jìn)行分析,得出該樣本的預(yù)后結(jié)果。SSL co-training方法用有標(biāo)記預(yù)后樣本對(duì)無(wú)標(biāo)記預(yù)后樣本進(jìn)行標(biāo)記,得出其預(yù)后結(jié)果。SNF方法對(duì)不同的預(yù)后特征進(jìn)行計(jì)算并融合,獲得統(tǒng)一的相似性網(wǎng)絡(luò)并進(jìn)行預(yù)后分析。
基于ML的癌癥易感性預(yù)測(cè),是指用ML方法對(duì)某些常見(jiàn)癌癥,如胃癌、肝癌、乳腺癌等的發(fā)生風(fēng)險(xiǎn)進(jìn)行有效預(yù)測(cè),得出癌癥易感性的高低,為癌癥的預(yù)防提供一個(gè)參考。
ML方法可以對(duì)癌癥的易感性進(jìn)行預(yù)測(cè)。某些常見(jiàn)的癌癥,如乳腺癌、胃癌和肝癌等在特定家族中有著較大的發(fā)病率[51-53],有必要對(duì)這些癌癥的易感性進(jìn)行有效預(yù)測(cè)。癌癥易感性預(yù)測(cè)具有重要意義:a.有助于揭示癌癥的發(fā)生、發(fā)展及惡化機(jī)制[54];b.有助于癌癥患者選擇恰當(dāng)?shù)闹委熉肪€及方法,如攜帶腫瘤易感基因的患者更容易在某些藥物的影響下發(fā)生第二腫瘤,所以應(yīng)盡量避免這類(lèi)藥物的使用[55];c.有助于攜帶遺傳易感基因的患者選擇合適的防治方案[56]。隨著對(duì)癌癥易感性的深入研究及ML技術(shù)的廣泛使用,基于ML的癌癥易感性預(yù)測(cè)方法逐漸受到關(guān)注。該方法對(duì)癌癥患者的易感性數(shù)據(jù)進(jìn)行學(xué)習(xí),獲得有效的ML模型,從而對(duì)癌癥患者的易感性情況進(jìn)行預(yù)測(cè)。癌癥易感性預(yù)測(cè)是癌癥預(yù)后的重要組成部分,本文對(duì)其相關(guān)研究進(jìn)行了深入分析。
本文對(duì)PubMed上收錄的過(guò)去20年間發(fā)表的癌癥易感性預(yù)測(cè)相關(guān)研究進(jìn)行統(tǒng)計(jì),檢索的關(guān)鍵詞是“maching learning in cancer susceptibility”(表1)??梢园l(fā)現(xiàn),在過(guò)去的20年中,用ML方法對(duì)癌癥易感性進(jìn)行預(yù)測(cè)的相關(guān)研究數(shù)量逐漸增長(zhǎng),且增長(zhǎng)速率在近5年顯著提升。其中,2002~2006年間基于ML的癌癥易感性預(yù)測(cè)的相關(guān)研究總數(shù)為4,2007~2011年此數(shù)值增長(zhǎng)到了10,2012~2016年此數(shù)值增長(zhǎng)到了42,2017年至今(截至2021年6月22日)相關(guān)研究的數(shù)量達(dá)到了141??梢园l(fā)現(xiàn),基于ML的癌癥易感性預(yù)測(cè)在過(guò)去的20年中逐漸受到研究者的關(guān)注,尤其是在過(guò)去5年中,此類(lèi)研究的數(shù)量明顯提升。具體來(lái)說(shuō),2017~2021年相關(guān)研究的數(shù)量是2002~2006年相關(guān)研究數(shù)量的35倍之多,是2007~2011年相關(guān)研究數(shù)量的14倍之多,是2012~2016年間相關(guān)研究數(shù)量的3倍之多。綜上,ML在癌癥易感性預(yù)測(cè)方面的研究逐漸成為研究熱點(diǎn)。
Table 1 Research status of cancer susceptibility prediction based on machine learning(2002-2021)表1 基于機(jī)器學(xué)習(xí)的癌癥易感性預(yù)測(cè)研究情況(2002~2021)
進(jìn)一步對(duì)基于ML的癌癥易感性預(yù)測(cè)的相關(guān)研究進(jìn)行比較分析(表2)??梢园l(fā)現(xiàn),CNN、RNN、獨(dú)立成分分析(ICA)、K均值聚類(lèi)(K-means)、RF、SVM、DT、樸素貝葉斯(na?ve Bayes)、SSL co-training及多分類(lèi)方法在預(yù)測(cè)癌癥易感性方面都有著良好的性能[57-65]。CNN和RNN屬于有監(jiān)督的神經(jīng)網(wǎng)絡(luò)分類(lèi)方法(神經(jīng)網(wǎng)絡(luò)方法在癌癥的診斷和預(yù)后中有著廣泛的應(yīng)用[66-68]),可以對(duì)癌癥患者的MRI圖形進(jìn)行分析,獲得合適的神經(jīng)網(wǎng)絡(luò)模型,從而對(duì)患者的易感性進(jìn)行預(yù)測(cè)。DT、RF、SVM和na?ve Bayes屬于有監(jiān)督學(xué)習(xí)的分類(lèi)方法,其中DT和RF屬于樹(shù)結(jié)構(gòu)分類(lèi)方法,且RF屬于集成學(xué)習(xí)范疇,其集成多個(gè)DT的預(yù)后結(jié)果以做出最終的預(yù)后判斷。ICA和K-means屬于無(wú)監(jiān)督學(xué)習(xí)分類(lèi)方法,K-means通過(guò)對(duì)癌癥患者的預(yù)后信息進(jìn)行聚類(lèi)以獲得癌癥易感性預(yù)測(cè)結(jié)果,ICA通過(guò)識(shí)別癌癥樣本的屬性特征并從中提取有用的特征進(jìn)行預(yù)易感性預(yù)測(cè)。Co-training屬于半監(jiān)督學(xué)習(xí)方法,通過(guò)對(duì)有易感性標(biāo)記的癌癥樣本和無(wú)易感性標(biāo)記的癌癥樣本進(jìn)行處理,從而獲得癌癥樣本的易感性預(yù)測(cè)結(jié)果。
Table 2 Comparative analysis of cancer susceptibility prediction based on machine learning表2 基于機(jī)器學(xué)習(xí)的癌癥易感性預(yù)測(cè)比較分析
癌癥易感性預(yù)測(cè)涉及多種癌癥:色素性皮損、膠質(zhì)瘤、乳腺癌及常見(jiàn)的20種癌癥。色素性皮損是一種常見(jiàn)疾病,目前已有基于此疾病的圖像數(shù)據(jù)庫(kù)及檢測(cè)相關(guān)的研究[69-70]。膠質(zhì)瘤是最常見(jiàn)的腦部原發(fā)性腫瘤,它擁有多種亞型且預(yù)后情況各不相同[71-72]。乳腺癌是一種常見(jiàn)的具有高發(fā)病率和致死率的癌癥,位居女性惡性腫瘤的首位,超過(guò)90%的乳腺癌患者在診斷時(shí)未發(fā)生轉(zhuǎn)移,故對(duì)于乳腺癌患者,其主要治療目標(biāo)是根除腫瘤和預(yù)防復(fù)發(fā)[73]。常見(jiàn)的20種癌癥為T(mén)CGA數(shù)據(jù)集中包含的癌癥,如膀胱尿路上皮癌、結(jié)腸癌、頭頸鱗狀細(xì)胞癌、胃癌等。
癌癥易感性預(yù)測(cè)的數(shù)據(jù)來(lái)源包括臨床數(shù)據(jù)和公共數(shù)據(jù)兩種。臨床數(shù)據(jù)通過(guò)收集癌癥患者的醫(yī)療信息獲得,收集渠道一般為醫(yī)院或醫(yī)學(xué)研究機(jī)構(gòu)。公共數(shù)據(jù)通過(guò)從公共數(shù)據(jù)集下載獲得,如ISIC數(shù)據(jù)集、TCGA數(shù)據(jù)集、1000 Genome數(shù)據(jù)集、Utah數(shù)據(jù)集、Ontario數(shù)據(jù)集和SEER數(shù)據(jù)集等。這兩種易感性預(yù)測(cè)數(shù)據(jù)的類(lèi)型包括表達(dá)數(shù)據(jù)、MRI成像數(shù)據(jù)和SNP數(shù)據(jù)等。其中,表達(dá)數(shù)據(jù)包括mRNA表達(dá)數(shù)據(jù)、miRNA表達(dá)數(shù)據(jù)、lncRNA表達(dá)數(shù)據(jù)和DNA甲基化數(shù)據(jù)等,MRI成像數(shù)據(jù)是癌癥患者的病理圖像數(shù)據(jù),SNP數(shù)據(jù)則是癌癥患者相關(guān)基因的單位點(diǎn)變異數(shù)據(jù)。
癌癥易感性預(yù)測(cè)的性能由其涉及的癌癥類(lèi)型、ML方法、分析的數(shù)據(jù)類(lèi)型共同決定?;贑NN對(duì)ISIC數(shù)據(jù)集中色素性皮損患者進(jìn)行易感性分析時(shí),AUC值 達(dá)到了0.9[57]。基于SVM、RF、RNN、ICA和K-means對(duì)膠質(zhì)瘤患者M(jìn)RI圖像數(shù)據(jù)進(jìn)行分析時(shí),準(zhǔn)確度接近或超過(guò)90%,甚至?xí)_(dá)到95%[58-61]?;诙喾诸?lèi)方法對(duì)TCGA數(shù)據(jù)集和1000 Genome數(shù)據(jù)集中20種常見(jiàn)癌癥進(jìn)行分析時(shí),AUC在0.75~0.96之 間[62]。基 于SVM、SSL cotraining、DT和na?ve Bayes對(duì)乳腺癌患者SNP數(shù)據(jù)進(jìn)行分析時(shí),AUC在0.73~0.81之間[63-65]。綜上,ML在癌癥易感性預(yù)測(cè)方面有著良好的性能,其對(duì)色素性皮損和膠質(zhì)瘤的易感性預(yù)測(cè)有著較高的準(zhǔn)確度,對(duì)乳腺癌的易感性預(yù)測(cè)性能較其他癌癥差一些,但也在可接受的范圍內(nèi)??偟膩?lái)說(shuō),ML方法在癌癥易感性預(yù)測(cè)方面表現(xiàn)優(yōu)良,尤其是近幾年提出的預(yù)測(cè)方法,其準(zhǔn)確度逐漸提高。
癌癥易感性預(yù)測(cè)可以為臨床醫(yī)生提供指導(dǎo),在智慧醫(yī)療的癌癥預(yù)后方面有著極大價(jià)值。癌癥易感性預(yù)測(cè)的特點(diǎn)包括:預(yù)測(cè)數(shù)據(jù)豐富、預(yù)測(cè)分析過(guò)程自動(dòng)化實(shí)現(xiàn)、預(yù)測(cè)結(jié)果準(zhǔn)確性高。癌癥易感性預(yù)測(cè)的優(yōu)勢(shì)是分析方法簡(jiǎn)單、數(shù)據(jù)獲取容易、預(yù)測(cè)的準(zhǔn)確度較高。癌癥易感性預(yù)測(cè)不的足為只對(duì)常見(jiàn)癌癥進(jìn)行了預(yù)測(cè),缺少罕見(jiàn)疾病的易感性預(yù)測(cè)相關(guān)研究。
基于ML的癌癥復(fù)發(fā)性預(yù)測(cè),是指用機(jī)器學(xué)習(xí)方法預(yù)測(cè)癌癥復(fù)發(fā)的可能性,對(duì)癌癥患者的術(shù)后復(fù)發(fā)風(fēng)險(xiǎn)進(jìn)行有效預(yù)測(cè),得出癌癥復(fù)發(fā)性的高低,為癌癥的治療提供一個(gè)參考。
ML方法可以對(duì)癌癥的復(fù)發(fā)性進(jìn)行預(yù)測(cè)。盡管癌癥在早期是可以預(yù)防和治愈的,但絕大多數(shù)患者的確診時(shí)期較晚且治療后容易復(fù)發(fā),癌癥復(fù)發(fā)性預(yù)測(cè)有助于尋求特定的方法進(jìn)行癌癥治療,改善癌癥預(yù)后情況。隨著對(duì)癌癥復(fù)發(fā)性的深入研究及機(jī)器學(xué)習(xí)技術(shù)的廣泛使用,基于ML的癌癥復(fù)發(fā)性預(yù)測(cè)方法逐漸受到關(guān)注。該方法對(duì)癌癥患者的復(fù)發(fā)性數(shù)據(jù)進(jìn)行學(xué)習(xí),獲得有效的機(jī)器學(xué)習(xí)模型,從而對(duì)癌癥患者的復(fù)發(fā)性情況進(jìn)行預(yù)測(cè)。癌癥復(fù)發(fā)性預(yù)測(cè)是癌癥預(yù)后的重要組成部分,本文對(duì)其相關(guān)研究進(jìn)行了深入分析。
對(duì)PubMed上收錄的過(guò)去20年間發(fā)表的癌癥復(fù)發(fā)性預(yù)測(cè)相關(guān)研究進(jìn)行統(tǒng)計(jì),檢索的關(guān)鍵詞是“maching learning in cancer recurrence”(表3)??梢园l(fā)現(xiàn),基于ML的癌癥復(fù)發(fā)性預(yù)測(cè)相關(guān)研究在過(guò)去20年里呈現(xiàn)逐年增長(zhǎng)趨勢(shì),增長(zhǎng)速率在過(guò)去的5年中有了顯著提升。其中,2017~2021(截至2021年6月22日)發(fā)表的基于ML的癌癥復(fù)發(fā)性預(yù)測(cè)研究數(shù)是2012~2016年此類(lèi)研究數(shù)的7倍,是2007~2011年間此類(lèi)研究數(shù)目的26倍,是2002~2006年間此類(lèi)研究數(shù)目的133倍。此外,與基于ML的癌癥易感性預(yù)測(cè)的相關(guān)研究相比,基于ML的癌癥復(fù)發(fā)性預(yù)測(cè)的研究數(shù)目明顯較多,其近20年的總研究數(shù)約為癌癥易感性預(yù)測(cè)相關(guān)研究的2.4倍,近5年的總研究數(shù)約為癌癥易感性預(yù)測(cè)相關(guān)研究的2.8倍。總的來(lái)說(shuō),ML在癌癥復(fù)發(fā)性預(yù)測(cè)方面的研究受到研究者的廣泛關(guān)注,越來(lái)越多的預(yù)測(cè)方法被提了出來(lái)。
Table 3 Research status of cancer recurrence prediction based on machine learning(2002-2021)表3 基于機(jī)器學(xué)習(xí)的癌癥復(fù)發(fā)性預(yù)測(cè)研究情況(2002~2021)
進(jìn)一步對(duì)基于ML的癌癥復(fù)發(fā)性預(yù)測(cè)的相關(guān)研究進(jìn)行分析(表4)??梢园l(fā)現(xiàn),癌癥復(fù)發(fā)性預(yù)測(cè)相關(guān)的ML算法包括Autoencoder、SNF、KNN、RF、DNN、SVM、LASSO回歸、COX回歸、邏輯 回 歸 和ANN等[49,74-82]。其 中,Autoencoder、DNN和ANN屬于神經(jīng)網(wǎng)絡(luò)分類(lèi)方法,它們均屬于有監(jiān)督學(xué)習(xí)方法,根據(jù)已有的癌癥復(fù)發(fā)性數(shù)據(jù)對(duì)癌癥患者復(fù)發(fā)性進(jìn)行預(yù)測(cè)。LASSO回歸、COX回歸和邏輯回歸均屬于回歸分析方法,LASSO回歸分析用于篩選癌癥復(fù)發(fā)性特征,COX回歸分析用于確定預(yù)后特征和癌癥復(fù)發(fā)性之間的相關(guān)性,邏輯回歸用于對(duì)癌癥復(fù)發(fā)性相關(guān)樣本進(jìn)行分類(lèi)。SNF將各個(gè)癌癥復(fù)發(fā)性相關(guān)的相似性網(wǎng)絡(luò)構(gòu)造成一個(gè)統(tǒng)一的網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)包含了各個(gè)網(wǎng)絡(luò)中特征數(shù)據(jù)的共同點(diǎn),可以用于癌癥樣本的復(fù)發(fā)性分析。KNN是有監(jiān)督學(xué)習(xí)方法,根據(jù)離待預(yù)測(cè)樣本最近的K個(gè)鄰居的復(fù)發(fā)情況對(duì)該樣本的復(fù)發(fā)性進(jìn)行預(yù)測(cè)。RF是樹(shù)結(jié)構(gòu)的有監(jiān)督學(xué)習(xí)方法,根據(jù)癌癥復(fù)發(fā)性數(shù)據(jù)構(gòu)造相關(guān)的森林結(jié)構(gòu),用于確定待測(cè)樣本的復(fù)發(fā)性。上述方法在癌癥易感性預(yù)測(cè)方面均有其對(duì)應(yīng)的使用場(chǎng)景,總的來(lái)說(shuō),SVM的應(yīng)用最為廣泛,其次是LASSO和COX,最后是一些其他的ML算法。
癌癥復(fù)發(fā)性預(yù)測(cè)涉及多種癌癥,包括前列腺癌、結(jié)直腸癌、鼻咽癌、肝癌、膠質(zhì)母細(xì)胞瘤和肺癌等,都是一些致死率較高的疾病。前列腺癌是男性群體中第二大最常見(jiàn)的惡性腫瘤,也是全球第5大死亡原因[83],對(duì)前列腺癌病因和致病風(fēng)險(xiǎn)因素的了解有助于對(duì)易患該疾病的高危男性進(jìn)行預(yù)測(cè),開(kāi)發(fā)有效的篩查和預(yù)防方法。結(jié)直腸癌是世界范圍內(nèi)常見(jiàn)的惡性腫瘤,擁有較高的發(fā)病率和致死率,在確診的結(jié)直腸癌患者中,晚期診斷比例較大,這對(duì)結(jié)直腸癌的防控提出了挑戰(zhàn)[84]。鼻咽癌是指發(fā)生于鼻咽腔頂部和側(cè)壁的惡性腫瘤,在過(guò)去10年中,鼻咽癌的發(fā)病率和死亡率有所下降,這可能是生活方式的改變與醫(yī)學(xué)治療共同作用的結(jié)果[85]。原發(fā)性肝癌是中國(guó)常見(jiàn)的惡性腫瘤,多種治療方案如傳統(tǒng)中醫(yī)和現(xiàn)代的西醫(yī)已被廣泛用于提高肝癌患者的生活質(zhì)量、延緩癌癥發(fā)展時(shí)間、延長(zhǎng)患者的生存時(shí)間[86]。膠質(zhì)母細(xì)胞瘤屬于最常見(jiàn)的腦部惡性腫瘤,屬于膠質(zhì)瘤中的一種,其治療方法包括手術(shù)、放療和化療等[87]。肺癌的發(fā)生和環(huán)境因素有很大的相關(guān)性,如吸煙和環(huán)境污染等會(huì)導(dǎo)致肺癌的發(fā)病率上升,肺癌篩選有助于高風(fēng)險(xiǎn)患者的識(shí)別和相關(guān)預(yù)測(cè)工具的開(kāi)發(fā)[88]。
Table 4 Comparative analysis of cancer recurrence prediction based on machine learning表4 基于機(jī)器學(xué)習(xí)的癌癥復(fù)發(fā)性預(yù)測(cè)比較分析
癌癥復(fù)發(fā)性預(yù)測(cè)涉及到的數(shù)據(jù)來(lái)源包括公共數(shù)據(jù)和臨床數(shù)據(jù)兩種。公共數(shù)據(jù)是指從公開(kāi)數(shù)據(jù)集獲取的數(shù)據(jù),表4中涉及到的癌癥復(fù)發(fā)性預(yù)測(cè)相關(guān)的公共數(shù)據(jù)集包括TCGA數(shù)據(jù)集、多中心國(guó)家數(shù)據(jù)庫(kù)提供的數(shù)據(jù)集、GEO數(shù)據(jù)集。臨床數(shù)據(jù)是指從醫(yī)院或醫(yī)學(xué)研究機(jī)構(gòu)收集的數(shù)據(jù),表4涉及到的癌癥復(fù)發(fā)性相關(guān)的臨床數(shù)據(jù)集包括圣約瑟夫醫(yī)院收集的數(shù)據(jù)集與中山大學(xué)第一附屬醫(yī)院收集的數(shù)據(jù)集。上述數(shù)據(jù)集包含的數(shù)據(jù)類(lèi)型主要分為兩種,一是表達(dá)數(shù)據(jù),如TCGA和GEO數(shù)據(jù)集提供的表達(dá)數(shù)據(jù);二是癌癥圖像數(shù)據(jù),如MRI圖像數(shù)據(jù)和CT圖像數(shù)據(jù)。
癌癥復(fù)發(fā)性預(yù)測(cè)的性能由其涉及的癌癥類(lèi)型、ML方法和分析的數(shù)據(jù)類(lèi)型共同決定。如表4所示,在預(yù)測(cè)前列腺癌的復(fù)發(fā)性時(shí),涉及到的ML方法有Autoencoder、SNF、KNN、RF、DNN、LASSO、COX和邏輯回歸,其預(yù)測(cè)的AUC在0.703~0.940之間,最高AUC值是由邏輯回歸方法得到的;在預(yù)測(cè)鼻咽癌的復(fù)發(fā)性時(shí),涉及到的ML方法有ANN、KNN和SVM,其預(yù)測(cè)的準(zhǔn)確性分別為0.812、0.775和0.732;在預(yù)測(cè)肝癌的復(fù)發(fā)性時(shí),涉及到的ML方法有LASSO、SVM和COX,預(yù)測(cè)的一致性指數(shù)約為0.7;在預(yù)測(cè)膠質(zhì)母細(xì)胞瘤時(shí),用到的ML方法為SVM,其AUC為0.84;在預(yù)測(cè)肺癌的復(fù)發(fā)性時(shí),用到的ML方法為SVM和LASSO,預(yù)測(cè)的AUC在0.79~0.84之間??梢园l(fā)現(xiàn),前列腺癌易感性預(yù)測(cè)的準(zhǔn)確性較其他癌癥高,且準(zhǔn)確性的差異主要是由預(yù)測(cè)的癌癥類(lèi)型和數(shù)據(jù)集的來(lái)源決定,使用的ML方法對(duì)準(zhǔn)確性預(yù)測(cè)的影響較前兩者小。此外,通過(guò)表4可以發(fā)現(xiàn),癌癥復(fù)發(fā)性預(yù)測(cè)中最常用的分析方法是SVM,然后是神經(jīng)網(wǎng)絡(luò)方法與回歸分析方法,最后是其他的ML方法。綜上,癌癥復(fù)發(fā)性預(yù)測(cè)的性能由癌癥類(lèi)型、數(shù)據(jù)來(lái)源和使用的分析方法共同決定,癌癥易感性預(yù)測(cè)在某些癌癥如前列腺癌上有著十分準(zhǔn)確的預(yù)測(cè)性能,但總的來(lái)說(shuō),其準(zhǔn)確性較癌癥易感性預(yù)測(cè)略遜一籌。
癌癥復(fù)發(fā)性預(yù)測(cè)有助于尋求特定的方法進(jìn)行癌癥治療,有助于癌癥預(yù)后情況的改善。癌癥復(fù)發(fā)性預(yù)測(cè)的特點(diǎn)包括:預(yù)測(cè)數(shù)據(jù)豐富、預(yù)測(cè)分析過(guò)程自動(dòng)化實(shí)現(xiàn)、預(yù)測(cè)結(jié)果的準(zhǔn)確性在可接受的范圍內(nèi)。癌癥復(fù)發(fā)性預(yù)測(cè)的優(yōu)勢(shì)是分析方法簡(jiǎn)單且數(shù)據(jù)獲取容易。癌癥復(fù)發(fā)性預(yù)測(cè)不的足為只對(duì)常見(jiàn)癌癥進(jìn)行了預(yù)測(cè),缺少罕見(jiàn)疾病的復(fù)發(fā)性預(yù)測(cè)相關(guān)研究,且預(yù)測(cè)模型的準(zhǔn)確性有待進(jìn)一步提高。
基于ML的癌癥生存期預(yù)測(cè),是指用機(jī)器學(xué)習(xí)方法預(yù)測(cè)癌癥的生存結(jié)果,對(duì)癌癥患者的生存風(fēng)險(xiǎn)進(jìn)行有效預(yù)測(cè),得出癌癥患者生存風(fēng)險(xiǎn)的高低,為癌癥的治療提供一個(gè)參考。
ML方法可以對(duì)癌癥的生存期進(jìn)行預(yù)測(cè)。癌癥生存期預(yù)測(cè)具有重要意義:a.可以有效避免過(guò)度治療,根據(jù)患者的預(yù)后情況為其提供適當(dāng)和個(gè)性化的治療方案;b.可以避免醫(yī)療資源的浪費(fèi),使得有限的醫(yī)療資源發(fā)揮更重大的治療作用;c.可以改善癌癥的預(yù)后,根據(jù)預(yù)后結(jié)果選擇合適的治療方案,使得預(yù)后情況得以提高。隨著對(duì)癌癥生存期的深入研究及ML技術(shù)的廣泛使用,基于ML的癌癥生存期預(yù)測(cè)方法逐漸受到關(guān)注。該方法對(duì)癌癥患者的生存期數(shù)據(jù)進(jìn)行學(xué)習(xí),獲得有效的ML模型,從而對(duì)癌癥患者的生存情況進(jìn)行預(yù)測(cè)。癌癥生存期預(yù)測(cè)是癌癥預(yù)后中的重要組成部分,本文對(duì)其相關(guān)研究進(jìn)行了深入分析。
ML方法可以對(duì)癌癥的生存期進(jìn)行預(yù)測(cè),對(duì)PubMed上收錄的過(guò)去20年間發(fā)表的癌癥生存期預(yù)測(cè)相關(guān)研究進(jìn)行統(tǒng)計(jì),檢索的關(guān)鍵詞是“maching learning in cancer survival”(表5)??梢园l(fā)現(xiàn),此類(lèi)研究在過(guò)去的20年中一直被研究人員所關(guān)注,且關(guān)注度在最近10年顯著提升。在最近5年中,ML在癌癥生存期預(yù)測(cè)方面的研究有了爆發(fā)式的增長(zhǎng)。截至2021年6月22日,近5年此類(lèi)研究的數(shù)目達(dá)到1 442項(xiàng)之多,是2012~2016年間此類(lèi)研究數(shù)的8.7倍,是2007~2011年間此類(lèi)研究數(shù)的28.8倍,是2002~2006年間此類(lèi)研究數(shù)的84.8倍。此外,ML在癌癥生存期預(yù)測(cè)方面的研究明顯較其在癌癥易感性預(yù)測(cè)和癌癥復(fù)發(fā)預(yù)測(cè)方面的研究數(shù)多,其在近20年的總研究數(shù)分別是前兩者的3.5倍和8.5倍,而在近5年的總研究數(shù)分別是前兩者的10.2倍和3.6倍。綜上,ML在癌癥生存期預(yù)測(cè)方面有著廣泛的應(yīng)用,且越來(lái)越受到研究者的關(guān)注。
Table 5 Research status of cancer survival prediction based on machine learning(2002-2021)表5 基于機(jī)器學(xué)習(xí)的癌癥生存期預(yù)測(cè)研究情況(2002~2021)
進(jìn)一步對(duì)基于ML的癌癥生存期預(yù)測(cè)的相關(guān)研究進(jìn)行分析(表6)可以發(fā)現(xiàn),癌癥生存期預(yù)測(cè)涉及到的機(jī)器學(xué)習(xí)算法包括SVM、COX回歸、LASSO回歸、梯度提升機(jī)(GBM)、RF、廣義線性模型(GLM)、QuPath、邏輯回歸、DNN、RSF、概率神經(jīng)網(wǎng)絡(luò)(PNN)、多層感知機(jī)(MLP)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)及Kmeans等[89-98]。SVM屬于有監(jiān)督學(xué)習(xí)方法,在進(jìn)行存期預(yù)測(cè)時(shí),對(duì)已有的生存期預(yù)測(cè)數(shù)據(jù)進(jìn)行學(xué)習(xí),獲得相關(guān)的學(xué)習(xí)模型,從而對(duì)新的癌癥患者進(jìn)行生存期預(yù)測(cè)。COX回歸、LASSO回歸、邏輯回歸和GLM均屬于回歸分析方法,COX用于確定預(yù)后特征和癌癥生存期之間的相關(guān)性,LASSO用于篩選癌癥生存期相關(guān)的預(yù)后特征,邏輯回歸用于對(duì)癌癥生存期相關(guān)的樣本進(jìn)行分類(lèi),GLM用于構(gòu)建預(yù)后特征與癌癥生存期之間的線性模型。GBM屬于集成學(xué)習(xí)算法,是基于梯度下降算法得到提升樹(shù)模型。RF與RSF屬于樹(shù)結(jié)構(gòu)的有監(jiān)督的分類(lèi)算法,根據(jù)癌癥生存期數(shù)據(jù)構(gòu)造RF/RSF結(jié)構(gòu)用于確定待測(cè)樣本的生存期。MLP、DNN、PNN和RBFNN屬于神經(jīng)網(wǎng)絡(luò)分類(lèi)方法,它們根據(jù)已有的癌癥生存期數(shù)據(jù)對(duì)新的癌癥患者生存期進(jìn)行預(yù)測(cè)。K-means屬于無(wú)監(jiān)督學(xué)習(xí)方法,通過(guò)對(duì)癌癥患者的生存期數(shù)據(jù)進(jìn)行聚類(lèi)以獲得生存期相關(guān)的預(yù)后結(jié)果。在上述癌癥生存期相關(guān)的ML方法中,SVM、LASSO和COX有著最廣泛的應(yīng)用,其次是RF和神經(jīng)網(wǎng)絡(luò),最后是其他ML方法。
癌癥生存期預(yù)測(cè)涉及多種癌癥,包括宮頸癌、腎透明細(xì)胞癌、尿路上皮癌、乳腺癌、大腸癌及TCGA中的癌癥等,這些癌癥大都有著較高的發(fā)病率和致死率。宮頸癌是常見(jiàn)的女性惡性腫瘤,具有較高的發(fā)病率和致死率,每年都有超過(guò)50萬(wàn)婦女被診斷出患有宮頸癌,且每年都會(huì)有超過(guò)30萬(wàn)人因?qū)m頸癌死亡[99]。腎透明細(xì)胞癌是一種常見(jiàn)的腎臟惡性腫瘤,擁有較高的發(fā)病率,有研究表明免疫檢查點(diǎn)抑制劑可延長(zhǎng)一部分轉(zhuǎn)移性透明細(xì)胞腎細(xì)胞癌患者的生存期[100]。尿路上皮癌是起源于尿路上皮的一種多源性惡性腫瘤,可以分為非浸潤(rùn)性乳頭狀腫瘤、扁平病變和浸潤(rùn)性癌[101]。大腸癌具體分為結(jié)腸癌和結(jié)直腸癌,其發(fā)病與生活方式和遺傳等相關(guān),在人群中有著較高的發(fā)病率和致死率[102-103]。
Table 6 Comparative analysis of cancer survival prediction based on machine learning表6 基于機(jī)器學(xué)習(xí)的癌癥生存期預(yù)測(cè)比較分析
癌癥生存期預(yù)測(cè)涉及到的數(shù)據(jù)來(lái)源包括公共數(shù)據(jù)與臨床數(shù)據(jù)兩種。公共數(shù)據(jù)是指從公開(kāi)的數(shù)據(jù)集獲取的數(shù)據(jù),臨床數(shù)據(jù)是指從醫(yī)院或醫(yī)學(xué)研究機(jī)構(gòu)收集的數(shù)據(jù)。表6中涉及到癌癥生存期預(yù)測(cè)的公共數(shù)據(jù)集有TCGA數(shù)據(jù)集、Firebrowse數(shù)據(jù)集、IMvigor210數(shù)據(jù)集、IMvigor211數(shù)據(jù)集、TNBC數(shù)據(jù)集、宮頸癌數(shù)據(jù)集和SEER數(shù)據(jù)集,涉及到癌癥生存期相關(guān)的臨床數(shù)據(jù)集包括波蘭熱舒夫州立醫(yī)院收集的數(shù)據(jù)集。上述數(shù)據(jù)集涉及到的數(shù)據(jù)類(lèi)型主要分為兩種,一是表達(dá)數(shù)據(jù),如TCGA數(shù)據(jù)集提供的表達(dá)數(shù)據(jù);二是癌癥圖像數(shù)據(jù),如DCE-MRI圖像數(shù)據(jù)。
癌癥生存期預(yù)測(cè)的性能由其涉及的癌癥類(lèi)型、ML方法和分析的數(shù)據(jù)類(lèi)型共同決定。如表6所示,在預(yù)測(cè)宮頸癌的生存期時(shí),涉及到的ML方法有SVM、DNN、COX、PNN、MLP和SVM,其預(yù)測(cè)的AUC在0.818~0.951 5之間,最高AUC值是由SVM方法得到的,其預(yù)測(cè)的C-index在0.695~0.795之間,是由DNN和COX得到的;在預(yù)測(cè)腎透明細(xì)胞癌的生存期時(shí),涉及到的ML方法有COX、Lasso和SVM,其AUC約為0.78;在預(yù)測(cè)尿路上皮癌的生存期時(shí),涉及到的ML方法有GBM、RF、COX和GLM,其預(yù)測(cè)的AUC在0.69~0.71之間,最高AUC值是由GBM方法得到的;在預(yù)測(cè)乳腺癌的生存期時(shí),涉及到的ML方法有QuPath、ANN、LASSO、邏輯回歸、SVM和RF,其預(yù)測(cè)的AUC值約為0.9;在預(yù)測(cè)大腸癌的生存期時(shí),涉及到的ML方 法 有RSF和COX,其 預(yù) 測(cè) 的C-index在0.695~0.795之間。通過(guò)上述分析可知,ML在癌癥生存期預(yù)測(cè)方面有著良好的性能,且平均來(lái)說(shuō),要較ML對(duì)癌癥復(fù)發(fā)性預(yù)測(cè)的性能更好。
癌癥生存期預(yù)測(cè)可以有效避免過(guò)度治療及醫(yī)療資源的浪費(fèi),且有助于癌癥預(yù)后情況的改善。癌癥生存期預(yù)測(cè)的特點(diǎn)包括:預(yù)測(cè)數(shù)據(jù)豐富、預(yù)測(cè)分析過(guò)程自動(dòng)化實(shí)現(xiàn)、預(yù)測(cè)結(jié)果的準(zhǔn)確性在可接受的范圍內(nèi)。癌癥生存期預(yù)測(cè)的優(yōu)勢(shì)是分析方法簡(jiǎn)單且數(shù)據(jù)獲取容易。癌癥生存期預(yù)測(cè)不的足為只對(duì)常見(jiàn)癌癥進(jìn)行了預(yù)測(cè),缺少罕見(jiàn)疾病的生存期預(yù)測(cè)相關(guān)研究,且預(yù)測(cè)模型的準(zhǔn)確性有待進(jìn)一步提高。
癌癥預(yù)后與多種因素相關(guān),包括基因突變與患者臨床特征等。常見(jiàn)預(yù)后相關(guān)的突變基因包括TP53、KRAS、BRAF和PIK3CA等,對(duì)癌癥預(yù)后相關(guān)的突變基因進(jìn)行分析,有助于癌癥預(yù)后研究,并可以為癌癥患者的治療提供一個(gè)參考。癌癥預(yù)后受多種臨床特征影響,包括患者的性別、年齡及其腫瘤分期等。隨著測(cè)序技術(shù)和計(jì)算機(jī)技術(shù)的發(fā)展,對(duì)癌癥患者的預(yù)后情況進(jìn)行自動(dòng)化和個(gè)性化分析成為可能。癌癥數(shù)據(jù)具有數(shù)據(jù)量大、模式復(fù)雜及個(gè)體表達(dá)特異等特點(diǎn)。ML作為人工智能的一個(gè)分支,可以從一系列復(fù)雜的數(shù)據(jù)集中挖掘重要的模式,故可以應(yīng)用到癌癥數(shù)據(jù)的預(yù)后分析中。基于ML的癌癥預(yù)后分析方法分為:a.癌癥易感性預(yù)測(cè),即預(yù)測(cè)癌癥發(fā)生的可能性;b.癌癥復(fù)發(fā)性預(yù)測(cè),即預(yù)測(cè)癌癥治療后的復(fù)發(fā)可能;c.癌癥生存期預(yù)測(cè),即預(yù)測(cè)癌癥患者的生存結(jié)果。
癌癥預(yù)后涉及多種ML方法。癌癥易感性預(yù)測(cè)涉及到的ML方法包括CNN、RNN、ICA、K-means、RF、SVM、DT、na?ve Bayes、SSL cotraining及多分類(lèi)方法等。癌癥復(fù)發(fā)性預(yù)測(cè)涉及到的ML方法包括Autoencoder、SNF、KNN、RF、DNN、SVM、LASSO回歸、COX回歸、邏輯回歸及ANN等。癌癥生存期預(yù)測(cè)涉及到的ML方法包括SVM、COX、LASSO、GBM、RF、GLM、QuPath、邏輯回歸、DNN、RSF、PNN、MLP、RBFNN及K-means等。上述提到的方法中,最常用的是COX和LASSO回歸分析方法,然后是SVM分類(lèi)方法,其次是一些神經(jīng)網(wǎng)絡(luò)方法,最后是剩余的其他方法。癌癥預(yù)后涉及到的數(shù)據(jù)來(lái)源有兩種,公共數(shù)據(jù)集提供的數(shù)據(jù)和醫(yī)院/醫(yī)學(xué)研究機(jī)構(gòu)收集的臨床數(shù)據(jù),公共數(shù)據(jù)樣本量多但涉及到的癌癥類(lèi)型不全,臨床數(shù)據(jù)樣本量較少但記錄的臨床信息豐富。癌癥預(yù)后涉及到的數(shù)據(jù)類(lèi)型主要包括兩種,表達(dá)數(shù)據(jù)和癌癥圖像數(shù)據(jù)。癌癥預(yù)后性能由其涉及的預(yù)后種類(lèi)、癌癥類(lèi)型、機(jī)器學(xué)習(xí)方法和分析的數(shù)據(jù)類(lèi)型共同決定??偟膩?lái)說(shuō),預(yù)測(cè)性能從高到低依次為:癌癥易感性預(yù)測(cè)、癌癥生存期預(yù)測(cè)、癌癥復(fù)發(fā)性預(yù)測(cè)。癌癥預(yù)后相關(guān)研究在過(guò)去20年間逐漸受到研究者的關(guān)注,尤其是近5年,基于ML的癌癥預(yù)后研究方法迅速增長(zhǎng),研究數(shù)從多到少依次為:癌癥生存期預(yù)測(cè)、癌癥復(fù)發(fā)性預(yù)測(cè)、癌癥易感性預(yù)測(cè)。
基于以上研究現(xiàn)狀,在未來(lái)的基于ML的癌癥預(yù)后分析中,應(yīng)從以下幾個(gè)方面進(jìn)行探索與完善:a.癌癥預(yù)后分析覆蓋的癌癥類(lèi)型不全面,當(dāng)前研究大都基于一些常見(jiàn)癌癥進(jìn)行預(yù)后分析,對(duì)于其他具有高致死率的癌癥,也有必要將其納入預(yù)后分析的范疇;b.癌癥易感性和復(fù)發(fā)性預(yù)后相關(guān)研究較癌癥生存期預(yù)后相關(guān)研究少,有待對(duì)癌癥易感性和復(fù)發(fā)性進(jìn)行深入研究,為癌癥的預(yù)防和治療提供參考;c.癌癥預(yù)后數(shù)據(jù)信息利用不充分,目前用到的數(shù)據(jù)類(lèi)型主要包括癌癥的表達(dá)數(shù)據(jù)和癌癥切片的圖像數(shù)據(jù),現(xiàn)有預(yù)后方法均是基于其中一種數(shù)據(jù)類(lèi)型進(jìn)行預(yù)后分析,但表達(dá)數(shù)據(jù)和圖像數(shù)據(jù)在預(yù)后分析中各有優(yōu)劣,在未來(lái)的研究中,應(yīng)當(dāng)對(duì)兩種數(shù)據(jù)進(jìn)行綜合分析,使得預(yù)后判斷更加準(zhǔn)確;d.癌癥預(yù)后性能仍有可觀的提升空間,尤其是癌癥的生存期和復(fù)發(fā)性預(yù)測(cè),未來(lái)的預(yù)后研究中,應(yīng)從使用的ML方法出發(fā),訓(xùn)練合適的預(yù)后模型,進(jìn)行有效的預(yù)后分析。