商澤斌,楊天昊,劉 健,趙兵剛,趙新春,聶善化(天津中醫(yī)藥大學,天津 067;中部戰(zhàn)區(qū)95部隊醫(yī)院,天津 076;空軍軍醫(yī)大學西京醫(yī)院急診科,陜西 西安 700;武警湖北省總隊醫(yī)院,湖北 武漢 006)
卵巢癌(ovarian cancer,OC)是婦科最常見的惡性腫瘤之一,其起病隱匿,并且早期缺乏有效的診斷方法,當患者出現(xiàn)癥狀就診時多已發(fā)展至晚期[1]。因此,OC的預后差,死亡率高,已成為病死率最高的一種婦科腫瘤疾病,嚴重威脅著女性的健康與生命?;诖?,亟需探索新的診斷生物標志物和治療靶點以提高和改善OC的診斷率與治療效果。隨著對腫瘤代謝的認識和研究的進展,從中探索有效的生物標志物、治療靶點已逐漸成為一個新的研究方向。
代謝重編程是腫瘤細胞最重要的特征之一,其主要表現(xiàn)為糖酵解增加和氧化磷酸化減少,即所謂的“有氧糖酵解”或“Warburg效應”,這種代謝改變在腫瘤中已被廣泛證明,并對腫瘤發(fā)生發(fā)展的各個階段有著重要影響[2],被認為是晚期惡性腫瘤的“標志”[3-4]。據(jù)報道,糖代謝的異常與OC的發(fā)生、進展和化療藥物的耐藥性等密切相關(guān)[5-10],其中糖酵解途徑發(fā)揮著重要作用[11-13]。因此,糖酵解途徑的異常是區(qū)分腫瘤細胞與正常細胞的一個重要特征,從糖酵解的角度來探索OC的生物標志物和潛在的治療靶點可能具有重要意義。
基于生物信息學分析和高通量測序技術(shù)的進步和廣泛應用以及機器學習在生物信息學應用中的逐漸成熟,這為挖掘各種疾病的潛在機制、潛在的生物標記物和治療靶點提供了重要的方法和手段[14]。本研究采用GEO數(shù)據(jù)庫、TCGA數(shù)據(jù)庫中OC的數(shù)據(jù)集,利用生物信息學與機器學習進行分析,旨在篩選和確定OC中與糖酵解相關(guān)的生物標志物。此外,我們還對這些生物標志物進行了免疫浸潤分析、富集分析、藥敏分析,以探索其在OC中的潛在機制與臨床應用的可能,以期為進一步研究提供方向。
本研究中的OC相關(guān)數(shù)據(jù)來自GEO數(shù)據(jù)庫與TCGA數(shù)據(jù)庫。通過對GEO數(shù)據(jù)庫中OC數(shù)據(jù)集進行篩選,選擇含有正常對照與腫瘤組織的數(shù)據(jù)集,并且兩組樣本之間的數(shù)量差距不超過10倍。GSE12470數(shù)據(jù)集共包含53例樣本,其中10例正常,43例OC腫瘤樣本(該數(shù)據(jù)集包括8例OC早期和35例OC晚期組織以及10例正常腹膜標本的18 716個基因表達譜);GSE18520數(shù)據(jù)集共包含63例樣本,其中10例正常樣本,53例OC腫瘤樣本(該數(shù)據(jù)集包括了53例晚期、高級別原發(fā)性腫瘤標本和10例正常卵巢表面上皮的基因表達譜)。
1.2.1 糖酵解相關(guān)基因的獲取 從KEGG數(shù)據(jù)庫查詢、收集糖酵解信號通路的基因,并整合文獻資料,得到糖酵解相關(guān)基因。
1.2.2 差異表達基因(differentially expressed genes,DEGs)分析 使用R包“l(fā)imma”對GSE12470的樣本進行DEGs分析。以|log2(FC)|≥1.0和Padjust<0.05為標準篩選DEGs,并使用R包“ggplot2”繪制火山圖。并與1.2.1中的糖酵解相關(guān)基因使用韋恩圖交集獲得差異表達的糖酵解相關(guān)基因,進行后續(xù)分析。
1.2.3 構(gòu)建蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡 將1.2.2獲取的差異表達的糖酵解相關(guān)基因?qū)隨TRING數(shù)據(jù)庫,限定物種“Homo sapiens”,并以置信度>0.7,構(gòu)建PPI網(wǎng)絡,利用Cytoscape通過MCC算法篩選出PPI網(wǎng)絡中排名前10的靶點。
1.2.4 基于機器學習的篩選、識別生物標志物 利用GSE12470數(shù)據(jù)集,以OC患者和正常人為樣本,基因為描述符,采用三種機器學習算法,包括最小化絕對收縮和選擇算法(least absolute shrinkage and selection operator,LASSO)邏輯回歸、支持向量機-遞歸特征消除(support vector machine-recursive feature elimination,SVM-RFE)和隨機森林(random forest,RF)算法,用來識別差異表達的糖酵解相關(guān)基因中的關(guān)鍵特征分子。LASSO是一種評估高維數(shù)據(jù)的降維方法,本研究通過使用R包“glmnet”中的“cv.glmnet”函數(shù)進行擬合LASSO模型。SVM-RFE被廣泛用于特征排序和基因簽名的選擇,本研究通過R包“caret”使用“rfe”算法實現(xiàn)SVM-RFE算法。為了驗證SVM-RFE模型,使用十倍交叉驗證來選擇與糖酵解相關(guān)的特征基因。RF是一種有監(jiān)督的非參數(shù)分類方法,本研究通過R包“randomForest”建立RF模型。最終,三種機器學習算法重疊的基因被確定為糖酵解相關(guān)的關(guān)鍵診斷性生物標志物,對于預測OC有關(guān)鍵作用。通過R語言“pROC”包使用GSE12470數(shù)據(jù)集生成受試者工作特征(receiver operating characteristic,ROC)曲線,并計算ROC曲線下面積(area under the curve,AUC)值,以評估所確定的生物標志物的預測效用,并利用GSE18520數(shù)據(jù)集進行驗證。
1.2.5 免疫浸潤分析 通過R語言,分別采用TIMER、EPIC、MCPCOUNTER三種算法,利用TCGA數(shù)據(jù)庫的數(shù)據(jù)對1.2.4篩選得到的生物標志物進行免疫浸潤分析。使用Spearman的相關(guān)分析來描述定量變量之間的相關(guān)性。P<0.05表示差異有統(tǒng)計學意義。
1.2.6 基因組富集分析(gene set enrichment analysis,GSEA) 為了確定關(guān)鍵基因相關(guān)的信號通路,我們根據(jù)基因表達的中位數(shù)將GSE12470數(shù)據(jù)集中的腫瘤樣本分為高表達和低表達組。對1.2.4選得到的生物標志物進行了單基因GSEA富集分析,并用R軟件包“clusterProfiler”進行可視化。
1.2.7 NCI-60細胞系分析 通過使用CellMiner數(shù)據(jù)庫(https://discover.nci.nih.gov/cellminer)評估NCI-60。我們研究了NCI-60細胞系中1.2.4篩選得到的生物標志物的表達,并系統(tǒng)地測試了它們在60個人類癌癥細胞系中的表達水平與200多個化療藥物的藥物敏感性之間的相關(guān)性。藥物敏感性用Z-score衡量,分數(shù)越高,細胞對藥物治療越敏感。
通過分析共識別得到4 132個OC DEGs(圖1A),糖酵解相關(guān)基因67個,兩者交集后得到20個差異表達的糖酵解相關(guān)基因(圖1B)。將20個基因輸入STRING數(shù)據(jù)庫構(gòu)建PPI網(wǎng)絡(圖1C),探究它們之間的蛋白相互作用,以此得到關(guān)鍵的蛋白。進一步利用MCC算法篩選出排名前十的關(guān)鍵靶點:ALDOA、GPI、ADH1B、ADH1C、ADH1A、ALDH2、ALDH1B1、PGK1、ALDH3A2、ENO3(圖1D)。并將20個差異表達的糖酵解相關(guān)基因的表達情況可視化(圖2),其中ADH1A、ADH1B、ADH1C、ADH5、ALDH1B1等基因的表達量在OC中下調(diào),GPI、GAPDH、HK2、HKDC1、PCK1等基因在OC中表達上調(diào)。
A:GSE12470數(shù)據(jù)集中的DEGs火山圖;B:DEGs與糖酵解相關(guān)基因交集韋恩圖;C:差異表達糖酵解相關(guān)基因PPI網(wǎng)絡圖;D:MCC算法得到PPI網(wǎng)絡中排名前十的蛋白(圖中使用顏色標注的蛋白,顏色越深排名越前)。DEGs:差異表達基因。圖1 篩選OC中差異表達的糖酵解相關(guān)基因及PPI網(wǎng)絡構(gòu)建
圖2 20個糖酵解相關(guān)DEGs可視化分析結(jié)果(aP<0.05,bP<0.01)
使用LASSO回歸算法,從差異表達的糖酵解相關(guān)基因中提取的9個基因被確定為潛在的診斷生物標志物(圖3A~B)。RF算法識別了19個基因具有診斷價值(圖3C~D)。通過SVM-REF算法,從這些潛在的目標中提取13個基因作為候選生物標志物(圖3E~F)。然后將三種算法得到的特征基因韋恩圖疊加,得到8個具有診斷性質(zhì)的生物標志物(ALDH1B1、ALDH2、ALDH3A2、ALDOA、ENO3、GAPDH、GPI、HKDC1,圖3G)。為了評估8個生物標志物在OC中的預測效用,我們通過繪制ROC曲線,發(fā)現(xiàn)在GSE12470數(shù)據(jù)集中8個標志物具有顯著的鑒別效率(圖4A),并且在GSE18520隊列中同樣也表現(xiàn)出很好的預測性能(圖4B)。
A~B:LASSO回歸分析;C~D:RF算法;E~F:SVM-RFE算法;G:LASSO、SVM-RFE和RF算法篩選得到的生物標志物交集韋恩圖。LASSO:最小化絕對收縮和選擇算法;SVM-RFE:支持向量機-遞歸特征消除;RF:隨機森林。圖3 基于機器學習鑒定OC中具有診斷性能的糖酵解相關(guān)基因
A:8個關(guān)鍵生物標志物在GSE12470數(shù)據(jù)集中的ROC曲線;B:8個關(guān)鍵生物標志物在GSE18520數(shù)據(jù)集中的ROC曲線。圖4 8個關(guān)鍵生物標志物的ROC分析
綜合不同免疫細胞浸潤算法,結(jié)果顯示,8個生物標志物中的大多數(shù)與Endothelial cell和NK cell相關(guān),與CD4+T cell存在不同程度的相關(guān)性(圖5)。
A:EPIC算法;B:MCPCOUNTER算法;C:TIMER算法。藍色代表正相關(guān),紅色代表負相關(guān),顏色越深相關(guān)越強。 aP<0.05,bP<0.01。圖5 免疫浸潤分析
單基因GSEA富集分析顯示,8個關(guān)鍵分子對OC的影響涉及多個信號通路,如ALDH3A2與Proteoglycans in cancer、Diabetic cardiomyopathy、Ribosome等信號通路的激活有關(guān)。此外,這些分子大部分與Focal adhesion、Amoebiasis、Ribosome等信號通路存在較顯著的相關(guān)性(圖6)。
8個關(guān)鍵分子的表達和預期藥物反應之間的關(guān)系(圖7)。其中突出的是,HKDC1、ALDH3A2與藥物反應之間存在明顯的相關(guān)性,值得關(guān)注的是,它們主要表現(xiàn)為負相關(guān)。如,在接受Arsenic、Dacarbaz、lmexon等治療的患者中,ALDH3A2的表達與藥物敏感性呈顯著的負相關(guān)。HKDC1的表達與Vinblastine、Paclitaxel、Pipamperon、Dolastain-10等之間也表現(xiàn)為負相關(guān)。
近年來,代謝重編程作為腫瘤細胞不同于正常細胞的特征之一,在腫瘤中的作用得到了廣泛的關(guān)注。因此,研究代謝重編程與腫瘤發(fā)展之間的關(guān)系正成為腫瘤診斷、預防和治療的一種新策略。目前,雖然已有許多研究報道了糖酵解與OC的生長、轉(zhuǎn)移、耐藥等相關(guān)[15-17],但是對OC中與糖酵解相關(guān)的生物標志物的研究仍然有限。因此,本研究的目的是探討OC與糖酵解相關(guān)的生物標志物,并進一步分析它們與免疫細胞浸潤、信號通路、藥物敏感性等的關(guān)系,為OC的研究提供新的方向。
我們首先從KEGG數(shù)據(jù)庫中下載了糖酵解相關(guān)基因集,篩選了20個OC樣本和正常樣本之間的DEGs,包括12個上調(diào)基因和8個下調(diào)基因。有證據(jù)[18-23]表明,這20個基因在各種類型的腫瘤中,可以作為致癌基因或抑癌基因發(fā)揮作用。由此可見,與糖酵解相關(guān)的異常調(diào)控基因可能在OC中起重要作用。隨后,利用PPI網(wǎng)絡及MCC算法鑒定了10個相互作用程度最高的樞紐基因(ALDOA、GPI、ADH1B、ADH1C、ADH1A、ALDH2、ALDH1B1、PGK1、ALDH3A2、ENO3)。通過結(jié)合LASSO邏輯回歸、SVM-RFE和RF三種機器學習算法對20個DEGs進行篩選,以此鑒定出對于OC診斷具有潛在應用價值的生物標志物。結(jié)果得到8個具有診斷價值的特征基因(ALDH1B1、ALDH2、ALDH3A2、ALDOA、ENO3、GAPDH、GPI、HKDC1),并且?guī)缀跛刑卣骰蛟趦蓚€數(shù)據(jù)集中的AUC值均>0.7,這表明這些基因可作為OC診斷的潛在生物標志物。值得關(guān)注的是,從PPI網(wǎng)絡中篩選出的10個樞紐基因與機器學習得到的8個特征基因有6個重合(ALDH1B1、ALDH2、ALDH3A2、ALDOA、ENO3、GPI),這些生物標志物不僅對于OC的診斷具有價值,而且對于OC的發(fā)展有著重要調(diào)控作用,綜合它們在兩個隊列的鑒別表現(xiàn),GPI與ENO3的作用和性能顯得尤為突出。
磷酸葡萄糖異構(gòu)酶(glucose phosphate isomerase,GPI)是糖酵解途徑第二步的關(guān)鍵酶,廣泛分布于人體各組織中,能促進6-磷酸葡萄糖和6-磷酸果糖的相互轉(zhuǎn)換。研究表明,GPI在胃腸道腫瘤、腎癌、肺癌、乳腺癌等多種腫瘤中表達上調(diào)[24-26]。此外,GPI不僅與腫瘤的發(fā)生和進展聯(lián)系緊密,還對腫瘤細胞的凋亡、遷移及浸潤等有著影響[27-28],尤其是在乳腺癌和胃腸道腫瘤等具有轉(zhuǎn)移性和侵襲性的腫瘤中表現(xiàn)的更加明顯[29]。在糖酵解代謝途徑中起催化作用的烯醇化酶(enolase,ENO),肌肉特異性烯醇化酶(muscle-specific enolase,ENO3)是ENO的三種同工酶之一,與糖代謝和脂代謝的關(guān)系密切[30-31]。研究發(fā)現(xiàn),ENO3在一些腫瘤中異常表達,影響著腫瘤的進展,如在非小細胞肺癌與結(jié)直腸癌中表達上調(diào)[32-33],而在胰腺癌與肝癌中表達下調(diào)[34-35]。然而,關(guān)于GPI、ENO3在OC進展中的作用的研究鮮有報道。本研究發(fā)現(xiàn),GPI、ENO3均具有良好的診斷價值(AUC>0.9),并在OC中的表達均上調(diào),這為臨床應用GPI、ENO3作為OC診斷標志物的可及性和可行性提供了理論依據(jù)。
除了GPI、ENO3外,其他大多數(shù)特征基因與癌癥的發(fā)生發(fā)展也密切相關(guān)。醛縮酶家族成員參與糖酵解及糖異生等過程,是糖酵解過程中的主要代謝酶。研究[27-36]發(fā)現(xiàn),醛縮酶家族成員在多種惡性腫瘤中異常表達,在腫瘤生長、侵襲轉(zhuǎn)移及耐藥等方面發(fā)揮重要作用。ALDOA是醛縮酶家族中的重要成員,研究[37-42]發(fā)現(xiàn),ALDOA在乳腺癌、胃癌、前列腺癌、甲狀腺癌等多種腫瘤組織中均呈現(xiàn)高表達,并可作為一個獨立的預后生物標志物[43]。ALDH3A2屬于醛脫氫酶3家族成員A2,在乙醇代謝和脂質(zhì)過氧化產(chǎn)生的醛的解毒過程中至關(guān)重要[44],有研究表明,ALDH3A2可成為胃腺癌的生物標志物[45]。HKDC1是近年發(fā)現(xiàn)的第五種己糖激酶[46-47],現(xiàn)已有研究[48-50]表明HKDC1可能在乳腺癌、肺癌、結(jié)直腸癌及淋巴瘤中發(fā)揮致癌作用。本研究表明,ALDOA、HKDC1在OC中表達上調(diào),ALDH3A2在OC中表達下調(diào),它們的異常表達對于OC具有診斷價值,并在OC的發(fā)展進展中發(fā)揮重要調(diào)控作用。
代謝重編程不僅僅是腫瘤細胞的特征,而各種類型的免疫細胞在增殖、分化和執(zhí)行效應功能的過程中也會經(jīng)歷代謝重編程[51]。通過靶向代謝途徑能調(diào)節(jié)抗腫瘤免疫功能與提高免疫治療的療效和應答率[51-52]。因此,探討糖酵解相關(guān)特征基因與免疫細胞浸潤和免疫功能之間的關(guān)系至關(guān)重要。我們采用TIMER、EPIC、MCPCOUNTER三種算法評估了8個特征基因與OC免疫細胞浸潤的關(guān)系。結(jié)果表明,8個特征基因與Endothelial細胞、NK細胞、CD4+T細胞等多種免疫細胞存在相關(guān)性,提示通過靶向糖酵解來調(diào)節(jié)免疫的可能性,為腫瘤免疫治療提供了不同的見解。
為了進一步研究得到的生物標志物在OC中的潛在分子機制,我們進行了GSEA研究。GSEA富集分析顯示,這些生物標志物的作用機制涉及Focal adhesion、Amoebiasis、Ribosome等多種信號通路,這提示8個特征基因?qū)C的影響不僅限于對糖代謝的調(diào)控,且與多種信號通路密切相關(guān),為下一步的研究提供了參考。
通過使用NCI-60細胞系數(shù)據(jù),我們發(fā)現(xiàn)這些生物標志物與一些美國食品藥品監(jiān)督管理局批準的化療藥物的耐藥性相關(guān),尤其是HKDC1、ALDH3A2與許多藥物反應之間表現(xiàn)出廣泛的負相關(guān),如Arsenic、Vinblastine、Dacarbaz、Paclitaxel、lmexon等。然而,HKDC1、ALDH3A2與藥物敏感性的關(guān)系卻鮮有報道,本研究結(jié)果表明,它們可能是調(diào)控藥物敏感性的關(guān)鍵因子,可作為克服藥物誘導的耐藥性或輔助藥物敏感性的治療靶點。
本研究首次采用生物信息學和機器學習算法的綜合策略,篩選OC中與糖酵解相關(guān)的生物標志物,鑒定出了8個在OC中具有診斷價值的特征基因。經(jīng)過進一步的生物學研究,表明它們在OC的作用機制涉及免疫、藥物反應等多個方面。以上結(jié)果提示,糖酵解在OC中起著重要作用,值得進一步探索。由于本研究中的數(shù)據(jù)量有限,因此,所得結(jié)果需要通過更多的數(shù)據(jù)以及實驗進行進一步驗證。
綜上所述,本研究發(fā)現(xiàn)多個糖酵解相關(guān)基因在OC中表達異常并具有診斷價值,其中GPI、ENO3在OC中診斷價值更高,且二者可能通過多種信號通路、免疫調(diào)節(jié)方式參與腫瘤的進展。此類分子的發(fā)現(xiàn),有利于為OC患者篩選出潛在的診斷生物標志物和治療靶點,為OC基礎(chǔ)研究提供新的理論依據(jù)。