閻赟夢,王鵬輝,葉亞菲
1)鄭州大學(xué)第一附屬醫(yī)院檢驗(yàn)科;河南省檢驗(yàn)醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室 鄭州 450052 2)首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院普通外科 北京 100070
肝癌是全球腫瘤相關(guān)死亡的第3大原因[1]。肝細(xì)胞癌 (hepatocellular carcinoma,HCC)是最常見的原發(fā)性肝癌類型,與慢性HBV或HCV感染、酗酒、非酒精性脂肪肝疾病和黃曲霉毒素等膳食毒素暴露有關(guān)[2]。HCC異質(zhì)性高且易發(fā)生遠(yuǎn)處播散轉(zhuǎn)移,預(yù)后較差[3-5]。復(fù)雜的病因和高異質(zhì)性使HCC預(yù)后預(yù)測具有挑戰(zhàn)性。
高通量技術(shù)的發(fā)展促進(jìn)了分類模型的建立,其中血管侵襲信息可以從分子特征中獲得[6]?;诖嬖诨虿淮嬖谘芙櫟腍CC組織中的差異表達(dá)基因來預(yù)測腫瘤血管浸潤,有助于評估HCC術(shù)后復(fù)發(fā)風(fēng)險(xiǎn)[7-9]。最近的一項(xiàng)研究[10]從癌癥基因組圖譜數(shù)據(jù)庫(the Cancer Genome Atlas,TCGA)獲得miRNA和mRNA表達(dá)數(shù)據(jù),建立了一種基于16個miRNA的分類器,該分類器可以有效地識別肝癌血管侵襲并預(yù)測總生存期[11]。以上研究表明,這些多基因模型預(yù)測肝癌患者預(yù)后具有可行性。
本研究通過分析TCGA、基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus,GEO)GSE19977和GSE20017中的HCC mRNA測序數(shù)據(jù),使用最小絕對收縮選擇算子(least absolute shrinkage and selection operator,LASSO)和支持向量機(jī)遞歸特征消除(support vector machine-recursive feature elimination,SVM-RFE)兩種計(jì)算方法識別HCC血管侵襲特征基因。此外,我們還進(jìn)行了功能分析,使用單因素Cox回歸分析篩選預(yù)后相關(guān)基因。
1.1 數(shù)據(jù)收集和預(yù)處理從TCGA(https://cancergenome.nih.gov/)中獲取Illumina HiSeq 2000 RNA測序平臺測量的HCC的3級基因表達(dá)譜,并使用log2 (FPKM+1) 轉(zhuǎn)換的表達(dá)數(shù)據(jù)。GSE19977和GSE20017臨床及基因數(shù)據(jù)信息從GEO(https://www.ncbi.nlm.nih.gov/gds)中獲取。對TCGA、GEO的數(shù)據(jù)庫做以下處理:①將探針轉(zhuǎn)為基因名。②一個探針對應(yīng)多個基因,去除該探針。③具有多個基因名的基因表達(dá)水平取中位數(shù)。處理后的TCGA-HCC數(shù)據(jù)集中包含111例血管侵襲及210例未發(fā)生血管侵襲的HCC組織樣本,GSE19977數(shù)據(jù)集中包含40例血管侵襲及95例未發(fā)生血管侵襲的HCC組織樣本,GSE20017數(shù)據(jù)集中包含40例血管侵襲及95例未發(fā)生血管侵襲的HCC組織樣本。
1.2 HCC血管侵襲相關(guān)差異表達(dá)基因的篩選和富集分析TCGA-HCC、GSE19977和GSE20017數(shù)據(jù)集樣本分為血管侵襲組、未發(fā)生血管侵襲組。數(shù)據(jù)分析均采用R語言各軟件包進(jìn)行,通過RMA算法標(biāo)準(zhǔn)化原始數(shù)據(jù),差異表達(dá)基因的分析采用R軟件的limma包。使用limma包識別兩組的差異表達(dá)基因,log2 fold change>1.0且P<0.05為差異表達(dá)基因的篩選標(biāo)準(zhǔn)。3個數(shù)據(jù)集中上下調(diào)表達(dá)一致的交集的差異表達(dá)基因被納入后續(xù)分析。使用 pheatmap、ggplot2包繪制差異表達(dá)基因的火山圖,使用clusterProfiler包進(jìn)行GO功能富集和KEGG信號通路分析。
1.3 HCC血管侵襲特征基因的篩選使用R中的“glmnet”軟件包進(jìn)行LASSO回歸算法,識別與血管侵襲和未侵襲樣本判別顯著相關(guān)的基因。采用SVM-RFE方法選擇特征基因[12]。將兩種算法之間的重疊基因納入后續(xù)分析。
1.4 統(tǒng)計(jì)學(xué)處理使用R4.1.2進(jìn)行分析。采用Cox回歸分析篩選出的特征基因與HCC患者預(yù)后的關(guān)系。檢驗(yàn)水準(zhǔn)α=0.05。
2.1 與HCC血管侵襲相關(guān)的差異表達(dá)基因TCGA-HCC、GSE19977和GSE20017數(shù)據(jù)集中,分別有4 648、2 531、2 526個差異表達(dá)基因,火山圖見圖1。3個數(shù)據(jù)集中上下調(diào)表達(dá)一致的差異基因有517個(圖2)。
圖1 3個數(shù)據(jù)集中HCC血管侵襲相關(guān)的差異表達(dá)基因的火山圖
A:上調(diào)的差異表達(dá)基因;B:下調(diào)的差異表達(dá)基因
517個基因的GO富集結(jié)果表明,交集的差異基因主要富集于線粒體基質(zhì)、核糖體、血紅素結(jié)合、氧化還原酶活性等,參與核糖體加工等生物學(xué)過程;KEGG分析結(jié)果表明,交集的差異表達(dá)基因主要富集在新陳代謝、過氧化物酶體增殖物激活受體(PPAR)、補(bǔ)體和凝血級聯(lián)、氨基酸的生物合成等信號通路。
2.2 HCC血管侵襲特征基因的篩選使用LASSO回歸算法縮小差異表達(dá)基因,得到28個基因作為肝癌血管侵襲的相關(guān)生物標(biāo)志物。使用SVM-RFE算法確定了120個特征子集。最終選擇了兩種算法之間的10個重疊特征基因:愛帕琳肽受體(apelin receptor,APLNR)、殘疾基因同源物1(disabled homolog 1,DAB1)、分泌磷蛋白2(secreted phosphoprotein 2,SPP2)、甲狀腺激素應(yīng)答蛋白(thyroid hormone responsiveprotein,THRSP)、溶質(zhì)載體家族22成員7(solute carrier family 22 member 7,SLC22A7 )、溶質(zhì)載體家族16成員2(solute carrier family 16 member 2,SLC16A2)、內(nèi)皮細(xì)胞特異性分子1(endothelial cell specific molecule 1,ESM1)、外泌體成分8(exosome component 8,EXOSC8)、同源盒基因D10(homeobox D10,HOXD10)和TB(POZ)結(jié)構(gòu)域6蛋白(kelch repeat and BTB domain-containing protein 6,KBTBD6)。箱線圖(圖3)展示了這10個基因在TCGA-HCC數(shù)據(jù)集中的表達(dá)情況,血管侵襲組中APLNR、DAB1、SPP2、THRSP、SLC22A7和SLC16A2低表達(dá),而ESM1、EXOSC8、HOXD10和KBTBD6高表達(dá)。
圖3 10個重疊的特征基因在TCGA-HCC數(shù)據(jù)集中的表達(dá)情況
2.3 特征基因與HCC患者預(yù)后的關(guān)系根據(jù)TCGA-HCC數(shù)據(jù)集中10個基因的表達(dá)中位數(shù)分為高表達(dá)和低表達(dá)組,單因素Cox回歸分析(均以低表達(dá)為對照)顯示,HOXD10高表達(dá)和SLC22A7、SPP2、APLNR低表達(dá)是患者預(yù)后的危險(xiǎn)因素,結(jié)果見圖4。
圖4 單因素Cox回歸分析結(jié)果
肝癌是一種高度侵襲性惡性腫瘤,晚期肝癌患者預(yù)后極差。對于早期診斷為肝癌的患者,手術(shù)切除、射頻消融、肝移植為肝癌患者提供了治愈的可能。但肝癌切除、肝移植術(shù)后復(fù)發(fā)較為常見,5 a復(fù)發(fā)率高達(dá)50%和10%~20%[13]。因此,迫切需要進(jìn)一步研究導(dǎo)致復(fù)發(fā)的分子生物學(xué)機(jī)制和識別復(fù)發(fā)風(fēng)險(xiǎn)高的人,以預(yù)防和減少相關(guān)的發(fā)病率和死亡率。肝癌血管侵犯占肝癌患者25%~50%,是復(fù)發(fā)的主要危險(xiǎn)因素[11,14]。本研究旨在篩選HCC血管侵襲和預(yù)后相關(guān)基因,有望指導(dǎo)肝癌患者的個體化治療。
盡管有關(guān)肝癌進(jìn)展的分子機(jī)制已經(jīng)被廣泛研究,與血管侵襲相關(guān)的特異性驅(qū)動基因和分子途徑仍不清楚。針對肝癌血管侵襲的基因組和蛋白質(zhì)景觀的全面分析表明,MYC、CREBZF、HOXD13、ATF4和ZBTB17是血管侵襲相關(guān)轉(zhuǎn)錄組最重要的上游調(diào)節(jié)因子[11]。MYC癌基因是血管侵襲過程中mRNA、miRNA和蛋白質(zhì)組學(xué)變化的共同上游調(diào)節(jié)因子。Mínguez等[7]通過分析79 例丙型肝炎相關(guān)HCC樣本全基因組,定義了與血管侵襲相關(guān)的35個基因表達(dá)特征,該特征在石蠟包埋組織中得到驗(yàn)證。Hu等[7]建立了一個基于TCGA數(shù)據(jù)庫的基因組學(xué)預(yù)測模型,并研究了差異表達(dá)基因?qū)Ω伟┭芮忠u患者的預(yù)后價(jià)值。
本研究通過對TCGA-HCC、GSE19977、GSE20017數(shù)據(jù)集中HCC血管侵襲組和未發(fā)生血管侵襲的mRNA的綜合分析,確定了517個差異表達(dá)基因。LASSO和SVM-RFE方法進(jìn)一步篩選出10個特征基因,GO富集結(jié)果表明,交集的差異基因主要富集于線粒體基質(zhì)、核糖體,血紅素結(jié)合、氧化還原酶活性等,參與核糖體加工等生物學(xué)過程,KEGG通路富集分析表明,交集的差異表達(dá)基因主要富集在新陳代謝、PPAR、補(bǔ)體和凝血級聯(lián)等信號通路。單因素Cox回歸分析篩選出4個HCC預(yù)后相關(guān)基因:APLNR、 HOXD10、 SLC22A7和SPP2。
研究[15-17]表明,APLNR基因在腫瘤發(fā)生發(fā)展中發(fā)揮重要作用,APLNR基因可促進(jìn)肝癌的血管形成,APLNR高表達(dá)與肝癌微血管侵犯、肝內(nèi)轉(zhuǎn)移和早期復(fù)發(fā)相關(guān),高表達(dá)組的無復(fù)發(fā)生存期和總生存期更短。SPP2基因編碼一種分泌的磷蛋白,它是胱抑素超家族的成員。有研究[18-19]顯示,SPP2表達(dá)與肝癌患者的總生存時間呈負(fù)相關(guān)。肝癌中SPP2啟動子甲基化水平低于正常組。SLC22A7在肝癌組織中的mRNA和蛋白質(zhì)水平均受到抑制,這可能是導(dǎo)致5-FU耐藥的機(jī)制之一。此外,與線粒體功能障礙相關(guān)的SLC22A7表達(dá)降低可能在肝癌發(fā)生中起致病作用,并且即使在治愈性肝切除術(shù)后,它也將成為預(yù)測腫瘤復(fù)發(fā)的生物標(biāo)志物[20]。HOXD10在肝癌血管侵犯組較未侵犯組明顯高表達(dá),且其表達(dá)水平與肝癌患者預(yù)后呈負(fù)相關(guān)[10]。
本研究通過生物信息學(xué)篩選了HCC血管侵襲特征基因和預(yù)后標(biāo)志物,有助于我們更好了解HCC血管侵襲發(fā)生的分子生物學(xué)機(jī)制,對肝癌的早期診斷和治療具有重要臨床意義。