張帆,李澤東,彭禹,陳勝,周鈞
(1.中南大學(xué)湘雅二醫(yī)院 急診醫(yī)學(xué)科,湖南 長(zhǎng)沙 410011;2.湖南省湘西自治州人民醫(yī)院 普外一科,湖南 吉首416000)
胰腺癌是第七常見(jiàn)的惡性腫瘤,在中國(guó),也是導(dǎo)致癌癥相關(guān)死亡的第六位因素[1]。其5年生存率僅有5%~10%,在確診胰腺癌后,患者的中位生存時(shí)間約為5~6個(gè)月[2-3]。實(shí)際上,絕大多數(shù)胰腺癌患者都出現(xiàn)了局部進(jìn)展,甚至是遠(yuǎn)處轉(zhuǎn)移(80%~85%),只有極少數(shù)患者是可以手術(shù)切除的(15%~20%)[4-5]。胰腺癌的不良預(yù)后原因眾多,例如,系統(tǒng)免疫炎癥指數(shù)可能是胰腺癌患者預(yù)后不良的獨(dú)立危險(xiǎn)因素[6],早期階段的檢測(cè)率低,具有遠(yuǎn)處轉(zhuǎn)移的高風(fēng)險(xiǎn),以及化療的效果較差等[7],手術(shù)僅在診斷為早期胰腺癌的15%~20%的患者中被認(rèn)為是可行的[8],由于胰腺癌患者往往到了晚期,才開(kāi)始出現(xiàn)少量癥狀,因而,開(kāi)發(fā)能夠早期診斷胰腺癌的工具是有重大意義的[9]。血清碳水化合物抗原19-9(CA19-9)是目前用作評(píng)估胰腺癌臨床治療療效的標(biāo)志物,盡管它低靈敏度和低特異性,但它仍然是胰腺癌中唯一獲得美國(guó)食品藥品監(jiān)督管理局批準(zhǔn)的標(biāo)志物,其他抗原(例如CEA和CA125)作為早期標(biāo)記完全無(wú)效,但一些腫瘤學(xué)家仍將其用作治療反應(yīng)性的標(biāo)記[10]。因此,尋找更為有效的胰腺癌診斷分子標(biāo)志物,依舊是個(gè)值得深入探討的課題。
microRNA(miRNA)是長(zhǎng)度約為18~25個(gè)核苷酸的非編碼RNA,發(fā)揮著調(diào)控基因表達(dá)和RNA沉默中的功能。異常的miRNA在多種腫瘤及良性疾病中被發(fā)現(xiàn),并且發(fā)揮著重要的作用[11]。研究發(fā)現(xiàn),許多miRNA可以在血漿、血清等體液中穩(wěn)定存在,這也使得研究循環(huán)miRNA以檢測(cè)疾病的進(jìn)展成為可能[12-13]。由于miRNA可以在體液(例如血清或血漿)中檢測(cè)到,因此它們已成為潛在的有用的生物標(biāo)志物,用于風(fēng)險(xiǎn)評(píng)估,診斷和預(yù)后[14]。例如,Martínez-Hernández等[15]的研究發(fā)現(xiàn)血清miR-19b和miR-26b可能用于預(yù)測(cè)免疫介導(dǎo)的炎癥性疾病的發(fā)生,Huang等[16]發(fā)現(xiàn)循環(huán)中的miR-487a,miR-493-5p,miR-501-3p和miR-502-5p是骨肉瘤的新型潛在診斷生物標(biāo)志物。可見(jiàn),血清miRNA作為預(yù)測(cè)疾病的生物標(biāo)志物的巨大潛力。
決策樹(shù)是一種用于判別分析的監(jiān)督式機(jī)器學(xué)習(xí)算法,它易于理解和解釋。它允許通過(guò)以分層樹(shù)或規(guī)則集的形式生成可理解的知識(shí)結(jié)構(gòu)并以圖形直觀的方式呈現(xiàn)它們,從而從數(shù)據(jù)中提取知識(shí)[17]。決策樹(shù)也已用于鑒定癌癥中的生物標(biāo)志物,例如,利用miRNA表達(dá)數(shù)據(jù)進(jìn)行肺癌診斷和亞型分型[18],使用核受體表達(dá)定義一組肺癌的預(yù)后生物標(biāo)志物[19]等。本研究旨在通過(guò)分析GEO(Gene Expression Omnibus)數(shù)據(jù)庫(kù)中血清miRNA的測(cè)序數(shù)據(jù),將決策樹(shù)的方法應(yīng)用于胰腺癌的預(yù)測(cè)中,確定胰腺癌的生物標(biāo)志物。
這項(xiàng)研究中我們比較了來(lái)自GEO數(shù)據(jù)庫(kù)的胰腺癌患者和健康對(duì)照人群的血清miRNA表達(dá)譜。其中納入研究的數(shù)據(jù)集包括:GSE113486,包含40例胰腺癌患者血清miRNA樣本,和100例非腫瘤對(duì)照樣本;GSE85589包含19例健康對(duì)照和88例胰腺癌患者血清樣本。GEOquery R包用于下載臨床信息及表達(dá)譜。
由于本研究下載的表達(dá)譜數(shù)據(jù)是經(jīng)過(guò)預(yù)先處理及標(biāo)準(zhǔn)化的,這里無(wú)需進(jìn)一步處理,但由于GSE113486及GSE85589非同批次測(cè)序結(jié)果,這里需要進(jìn)一步去除批次效應(yīng),以利進(jìn)一步研究。批次效應(yīng)是指表示測(cè)序樣本在不同的批次處理和測(cè)量時(shí)引入的與生物狀態(tài)不相關(guān)的系統(tǒng)性的技術(shù)偏差。本研究采用sva R包的ComBat函數(shù)移除批次效應(yīng),并使用主成分分析(principal component analysis,PCA)評(píng)估批次效應(yīng)移除前后的差異。
LASSO(least absolute shrinkage and selection operator)回歸是擬合高維廣義線性模型的一種流行的變量選擇方法,通過(guò)構(gòu)造懲罰函數(shù)以減少變量數(shù)并有效避免過(guò)度擬合,可以得到更精細(xì)的模型。為了篩選出用于鑒別腫瘤與非腫瘤樣本的關(guān)鍵miRNA,本研究通過(guò)R軟件中的glmnet軟件包,使用LASSO回歸分析篩選重要的miRNA。
R語(yǔ)言中的set.seed函數(shù)及sample函數(shù)可用于生成隨機(jī)數(shù)并用于隨機(jī)抽樣分組,本研究基于以上兩個(gè)函數(shù),通過(guò)隨機(jī)抽樣,將247例樣本,隨機(jī)分為訓(xùn)練集(60%)和測(cè)試集(40%),LASSO回歸分析篩選的關(guān)鍵miRNA用于訓(xùn)練集中決策樹(shù)的構(gòu)建。本研究使用rpart R包實(shí)現(xiàn)決策樹(shù)算法,rpart函數(shù)用于決策樹(shù)的生成,選擇交叉驗(yàn)證誤差最小的樹(shù)即最優(yōu)的樹(shù)。predict函數(shù)用于測(cè)試集中觀測(cè)點(diǎn)的分類,使用ROC曲線分析評(píng)價(jià)決策樹(shù)的預(yù)測(cè)效果,InformationValue R包的plotROC函數(shù)用于ROC曲線繪制。
為了對(duì)比正常血清樣本和胰腺癌血清樣本中關(guān)鍵miRNA的表達(dá)差異,本研究利用Wilcoxon檢驗(yàn)對(duì)比了關(guān)鍵miRNA分別在GSE113486 及GSE85589數(shù)據(jù)集中正常與腫瘤樣本的表達(dá)差異,以及在全部樣本中正常與腫瘤樣本的表達(dá)差異。
為進(jìn)一步了解關(guān)鍵miRNA所涉及的功能,本研究利用miRDB、miRTarBsae及TargetScan3種數(shù)據(jù)庫(kù),預(yù)測(cè)miRNA的靶向mRNA。其中,在3 種數(shù)據(jù)庫(kù)中均有預(yù)測(cè)到的靶向mRNA將被用于富集分析,注釋關(guān)鍵miRNA可能涉及的功能,clusterProfiler R包用于富集分析(enrichment analysis)[20]。
去除批次效應(yīng)前,首先利用主成分分析評(píng)估兩數(shù)據(jù)集之前的批次效應(yīng),分析結(jié)果如圖1 A所示,兩數(shù)據(jù)集呈現(xiàn)分別聚類,差異明顯。經(jīng)過(guò)ComBat函數(shù)移除批次效應(yīng)后的主成分分析結(jié)果如圖1B,兩數(shù)據(jù)集之間表達(dá)量沒(méi)有出現(xiàn)分別聚類。
圖1 PCA 圖 A:批次效應(yīng)校正前PCA;B:批次效應(yīng)校正后PCAFigure 1 PCA plots A:PCA before batch effect adjustment;B:PCA after batch effect adjustment
去除批次效應(yīng)后,納入研究的有247例樣本(119例健康對(duì)照和128例胰腺癌),共2526個(gè)miRNA。對(duì)2526個(gè)miRNA進(jìn)行LASSO回歸分析,采用10倍交叉驗(yàn)證,結(jié)果顯示最佳的λ=0.0272212(圖2),其對(duì)應(yīng)變量為33,即33個(gè)miRNA具有鑒別腫瘤樣本及正常樣本的潛力。
圖2 關(guān)鍵miRNA 的篩選 A:LASSO 篩選變量動(dòng)態(tài)過(guò)程圖;B:交叉驗(yàn)證參數(shù)λ 的選擇過(guò)程圖Figure 2 Screening process of the hub miRNAs A:Dynamic process variable screening by LASSO;B:Dynamic process of selection of cross validation parameter λ
為了通過(guò)血清miRNA中關(guān)鍵miRNA表達(dá)區(qū)分腫瘤與正常患者,本研究納入LASSO回歸篩選出的33個(gè)關(guān)鍵miRNA,構(gòu)建決策樹(shù)并驗(yàn)證決策樹(shù)的預(yù)測(cè)效果。研究中將247例樣本按6:4的比例進(jìn)行隨機(jī)分組,分為訓(xùn)練集(71例正常,77例腫瘤)和測(cè)試集(48例正常,51例腫瘤)。將rpart算法應(yīng)用于訓(xùn)練集,獲得了一個(gè)簡(jiǎn)單的決策樹(shù)模型,模型包含兩個(gè)miRNA,分別是miR-4532和miR-4668-5p(圖3)。
圖3 決策樹(shù)模型Figure 3 The decision tree model
使用測(cè)試數(shù)據(jù)集(占總數(shù)據(jù)的40%)來(lái)測(cè)量分類樹(shù)的性能。然后通過(guò)曲線下的面積來(lái)評(píng)價(jià)該分類器的判別力。結(jié)果如圖4,在訓(xùn)練集中ROC曲線下面積(AUC)為0.9481,測(cè)試集中AUC為0.9024。即由miR-4532和miR-4668-5p構(gòu)成的決策樹(shù)在訓(xùn)練集及測(cè)試集中均表現(xiàn)出良好的區(qū)分腫瘤與正常樣本的能力。
通過(guò)W i l c o x o n 檢驗(yàn)對(duì)比了關(guān)鍵miRNA在胰腺癌血清樣本和正常血清樣本中的差異,結(jié)果表明,兩組樣本差異有統(tǒng)計(jì)學(xué)意義 (P<0.05)(圖5)。
圖5 關(guān)鍵miRNA 胰腺癌血清樣本和正常血清樣本中差異Figure 5 Differences of the hub miRNAs in pancreatic and normal serum samples
利用3 種數(shù)據(jù)庫(kù)分別預(yù)測(cè)m i R-4532 和miR-4668-5p的靶向mRNA,結(jié)果顯示,miR-4532在3種數(shù)據(jù)庫(kù)中均預(yù)測(cè)到的mRNA有6個(gè),miR-4668-5p在3種數(shù)據(jù)庫(kù)中均預(yù)測(cè)到的mRNA有73個(gè)。利用clusterProfiler R包進(jìn)行GO(Gene Ontology)富集分析,及KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集。GO富集主要包括細(xì)胞組分(cellular component,CC)、分子功能(molecular function,MF)、生物過(guò)程(biological process,BP)。結(jié)果如圖6所示,關(guān)鍵miRNA的靶基因可能與轉(zhuǎn)錄調(diào)節(jié)復(fù)合物,核染色質(zhì),轉(zhuǎn)錄阻遏物復(fù)合體,巨核細(xì)胞分化的調(diào)控,黏著劑組裝,細(xì)胞-底物連接組織,巨核細(xì)胞分化,黏著斑組裝的負(fù)調(diào)節(jié)等功能有關(guān)。其KEGG結(jié)果表明,關(guān)鍵miRNA的靶基因主要富集于癌癥中的轉(zhuǎn)錄失調(diào),F(xiàn)oxO信號(hào)通路,黏附連接,胰腺癌,乙型肝炎,肝細(xì)胞癌,TGF-β信號(hào)通路,MAPK信號(hào)通路等信號(hào)通路中。
圖6 GO 及KEGG 分析Figure 6 GO and KEGG enrichment analysis
miRNA參與了發(fā)育和各種生理過(guò)程,其失調(diào)可能會(huì)導(dǎo)致多種疾病的進(jìn)展[21]。有研究表明,miRNA可以反映病理過(guò)程,因而被認(rèn)為可以用于診斷及鑒別不同的腫瘤類型,甚至是良性疾病的識(shí)別。例如,血清miRNA對(duì)用于高度準(zhǔn)確和特異性地篩查肉瘤[22],Zou等[23]研究發(fā)現(xiàn)5 種血清miRNA可用作為鼻咽癌的潛在生物標(biāo)志物,Zarecki等[24]發(fā)現(xiàn)血清miRNA作為骨質(zhì)疏松性椎體骨折的新型生物標(biāo)志物等。
使用來(lái)自健康個(gè)體,胰腺癌和胰腺炎患者的胰腺組織的活檢樣品進(jìn)行的比較miRNA表達(dá)譜差異的研究,清楚地表明了與正常細(xì)胞相比,各種miRNA在癌細(xì)胞中的差異表達(dá),預(yù)示了miRNA在胰腺癌診斷,預(yù)后和抗癌治療中的潛在作用[25]。Hong等[26]研究發(fā)現(xiàn)與鄰近的正常胰腺組織相比,胰腺癌組織中共發(fā)現(xiàn)了158個(gè)miRNA差異表達(dá),例如miR-200,miR-96和miR-217。在胰腺癌患者中,除了胰腺細(xì)胞和組織中miRNA的異常表達(dá)外,在全身循環(huán)中也觀察到miRNA失調(diào)。例如,一些研究報(bào)告了miR-18a,miR-21,miR-22,miR-24,miR-25,miR-99a,miR-155,miR-185,miR-191,miR-196a在胰腺癌血液中的差異表達(dá)[27],miR-486-5p通過(guò)作用于體內(nèi)多種信號(hào)通路參與胰腺腺癌的發(fā)生發(fā)展[28],胰腺癌細(xì)胞中miR-519d減低,且對(duì)于胰腺癌細(xì)胞增殖和侵襲能力有所增強(qiáng)[29]。
在本研究中,通過(guò)LASSO回歸發(fā)現(xiàn)了33個(gè)具有鑒定胰腺癌腫瘤潛力的血清miRNA,并通過(guò)機(jī)器學(xué)習(xí)的方法構(gòu)建了決策樹(shù),用于區(qū)分胰腺癌腫瘤患者和正常對(duì)照,其中miR-4532和miR-4668-5p這兩個(gè)血清miRNA被認(rèn)為是有效觀測(cè)點(diǎn)。同樣的,在本研究的訓(xùn)練集和測(cè)試集中,該決策樹(shù)表現(xiàn)出了良好的預(yù)測(cè)效果,即AUC值分別為0.9481和0.9024,miR-4532和miR-4668-5p在腫瘤和正常樣本中也表現(xiàn)出了明顯差異,即腫瘤樣本血清中表達(dá)相對(duì)較高。實(shí)際上,已經(jīng)有研究表明hsamiR-4532在腫瘤中發(fā)揮重要作用,hsa-miR-4532下調(diào)癌癥中的高甲基化可能促進(jìn)乳腺癌細(xì)胞中的阿霉素抗性[30],攜帶hsa-miR-4532的急性髓樣白血病細(xì)胞衍生的外泌體可以通過(guò)激活LDOC1依賴性STAT3信號(hào)通路抑制正常的造血干細(xì)胞的造血作用等[31]。也有研究表明miR-4668-3p參與結(jié)直腸癌的細(xì)胞增殖,遷移,侵襲和上皮細(xì)胞-間充質(zhì)轉(zhuǎn)化過(guò)程[32],miR-4668-5p在預(yù)測(cè)舒尼替尼治療轉(zhuǎn)移性腎細(xì)胞癌反應(yīng)方面具有預(yù)測(cè)潛力[33]。
決策樹(shù)在醫(yī)學(xué)上的應(yīng)用已經(jīng)頗為廣泛,例如,用于肝癌肝切除手術(shù)方式選擇的決策樹(shù)[34],基于MRI的決策樹(shù)用于黃疸型嬰兒的膽道閉鎖診斷中[35]。隨著基因組學(xué)的發(fā)展和二代測(cè)序的成本降低,越來(lái)越多的測(cè)序可供我們進(jìn)一步研究,將基因組學(xué)數(shù)據(jù)和決策樹(shù)結(jié)合起來(lái),將是一個(gè)很好的思路,用于癌癥研究。Sherafatian等[18]基于數(shù)據(jù)庫(kù)中miRNA表達(dá)數(shù)據(jù)構(gòu)建決策樹(shù)進(jìn)行肺癌診斷和亞型分型。本研究發(fā)現(xiàn)miR-4532和miR-4668-5p在胰腺癌患者的血清中相對(duì)表達(dá)較高,并通過(guò)構(gòu)建決策樹(shù),用于區(qū)分正常血清樣本和胰腺癌患者血清樣本。這將有益于胰腺癌患者的早期診斷,甚至有可能通過(guò)進(jìn)一步研究,取代傳統(tǒng)的診斷方法,為胰腺癌的診斷提供一個(gè)簡(jiǎn)單準(zhǔn)確的策略。同時(shí),miR-4532和miR-4668-5p的預(yù)測(cè)作用也顯示出了其在胰腺癌進(jìn)程中的重要作用,有可能作為潛在的治療靶點(diǎn),值得進(jìn)一步研究。