李成長(zhǎng) 徐久成
(河南師范大學(xué) 1生命科學(xué)學(xué)院細(xì)胞分化與調(diào)控省部共建國(guó)家重點(diǎn)實(shí)驗(yàn)室培育基地,河南 新鄉(xiāng) 453007;2計(jì)算機(jī)與信息工程學(xué)院智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南省工程實(shí)驗(yàn)室;3新鄉(xiāng)醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院生理學(xué)與病理生理學(xué)系)
美國(guó)肺癌的5年生存率不超過(guò)17.4%〔1,2〕。肺腺癌是最常見(jiàn)類型的肺癌〔3〕,一項(xiàng)肺癌發(fā)病類型方面的流行病學(xué)研究顯示,肺腺癌的發(fā)病率為40%,大細(xì)胞肺癌為9%,肺鱗癌為25%,小細(xì)胞肺癌為24%〔4〕。肺腺癌治療手段主要包括:手術(shù)切除、放療、化療、激素療法和分子靶向療法,在肺癌發(fā)病早期手術(shù)切除的治療效果比較好,但該病早期癥狀不明顯,易被忽視,確診時(shí)常處于晚期。晚期肺腺癌的治療手段比較有限,分子靶向療法是一個(gè)重要選擇,但由于缺乏有效的分子靶點(diǎn),目前大多數(shù)藥物的治療效果還不能令患者滿意。
Pan等〔5〕研究發(fā)現(xiàn)在中國(guó)肺腺癌患者中表皮生長(zhǎng)因子受體(EGFR)的Del19肽突變(估計(jì)頻率為40%)導(dǎo)致中國(guó)肺腺癌患者患病,EGFR可能是免疫治療的特異性靶標(biāo)。Hu等〔6〕研究發(fā)現(xiàn)EGFR突變的晚期肺腺癌患者給予酪氨酸激酶抑制劑可有效延長(zhǎng)患者生存時(shí)間。上皮-間質(zhì)細(xì)胞轉(zhuǎn)化與肺腺癌細(xì)胞的耐藥性密切相關(guān),Han等〔7〕研究表明miR-146b通過(guò)靶向蛋白酪氨酸磷酸酶(PTP)1B逆轉(zhuǎn)人肺腺癌細(xì)胞的上皮-間質(zhì)轉(zhuǎn)化,進(jìn)而抑制該型腫瘤的耐藥性。盡管相關(guān)研究已發(fā)現(xiàn)多種肺腺癌治療的潛在分子靶標(biāo),但有關(guān)治療該病的高效分子靶標(biāo)相對(duì)較少。這也吸引多個(gè)研究領(lǐng)域的學(xué)者參與尋找癌癥潛在分子靶標(biāo)的研究中,相關(guān)方法較多,既有傳統(tǒng)的實(shí)驗(yàn)方法,又有基于機(jī)器學(xué)習(xí)的特征選擇方法〔8~12〕。本文試圖利用生物信息學(xué)方法尋找肺腺癌發(fā)病的關(guān)鍵基因,為該病的分子靶向治療提供理論依據(jù)。
1.1基因表達(dá)數(shù)據(jù)的選取 檢索GEO數(shù)據(jù)庫(kù),選取肺腺癌基因表達(dá)譜數(shù)據(jù)集:GSE31210。該基因表達(dá)譜來(lái)源于日本國(guó)家癌癥中心研究所的基因芯片肺腫瘤表達(dá)情況的檢測(cè)結(jié)果,共包含226個(gè)肺腺腫瘤組織樣本和20個(gè)正常肺組織樣本。
1.2基于GEO2R獲取顯著差異表達(dá)基因 為方便研究人員對(duì)GEO數(shù)據(jù)庫(kù)的基因芯片數(shù)據(jù)進(jìn)行分析,GEO提供了基于R語(yǔ)言的差異基因數(shù)據(jù)分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/),該工具利用R語(yǔ)言的GEOquery、Biobase和limma工具包比較數(shù)據(jù)庫(kù)中的兩組樣本,發(fā)現(xiàn)并鑒別不同實(shí)驗(yàn)條件下表達(dá)有顯著性差異的基因。本文利用GEO2R對(duì)上述基因表達(dá)譜數(shù)據(jù)集GSE31210中226個(gè)腫瘤樣本和20個(gè)正常樣本的基因數(shù)據(jù)進(jìn)行差異分析,采用參數(shù)默認(rèn)分析數(shù)據(jù),差異表達(dá)基因(DEGs)的選擇標(biāo)準(zhǔn)為:adj.P值<0.05且 |log2FC|>2?;赗語(yǔ)言繪制火山圖(Volcano plots)可視化顯著差異表達(dá)的基因。
1.3基因本體論(GO)與京都基因與基因組百科全書(shū)(KEGG)功能富集分析 GO分析主要包括GO注釋和GO富集分析。GO富集分析主要包括生物過(guò)程、細(xì)胞組成和分子功能三個(gè)方面的內(nèi)容,常用于高通量數(shù)據(jù)DEGs 的生物學(xué)功能的分析。作為一個(gè)綜合數(shù)據(jù)庫(kù),KEGG包含16個(gè)子數(shù)據(jù)庫(kù),其中之一就是KEGG通路數(shù)據(jù)庫(kù)。利用該數(shù)據(jù)庫(kù)研究人員可分析DEGs顯著富集的生物學(xué)通路。DAVID是一個(gè)基于GO和KEGG數(shù)據(jù)庫(kù)的基因功能富集分析工具,該工具功能強(qiáng)大,采用交互式圖形用戶界面,非常便于用戶使用,本文利用DAVID對(duì)DEGs進(jìn)行GO和KEGG通路富集分析,P<0.05且基因count排名前10位的術(shù)語(yǔ)或通路作為顯著富集的納入標(biāo)準(zhǔn)。
1.4蛋白互作網(wǎng)絡(luò)構(gòu)建與關(guān)鍵基因的鑒別研究 基因通過(guò)翻譯形成蛋白實(shí)現(xiàn)其生物學(xué)功能,而蛋白質(zhì)-蛋白質(zhì)之間相互作用(PPI)是實(shí)現(xiàn)其生物學(xué)功能的重要途徑,與多方面的生命活動(dòng)相關(guān),由此分析,研究PPI網(wǎng)絡(luò)有助于揭示DEGs的生物功能。STRING數(shù)據(jù)庫(kù)是構(gòu)建PPI網(wǎng)絡(luò)經(jīng)典途徑,本文在多蛋白模式下,將肺腺癌DEGs輸入STRING數(shù)據(jù)庫(kù),采用默認(rèn)參數(shù)構(gòu)建PPI網(wǎng)絡(luò),由于Cytoscape軟件更擅長(zhǎng)網(wǎng)絡(luò)數(shù)據(jù)的分析和可視化,將STRING數(shù)據(jù)庫(kù)所構(gòu)建PPI網(wǎng)絡(luò)導(dǎo)入到Cytoscape軟件,基于最大團(tuán)中心性算法(MCC算法)利用Cytoscape內(nèi)置的Cytohubba插件對(duì)網(wǎng)絡(luò)進(jìn)行拓?fù)浞治觯b別與肺腺癌發(fā)病相關(guān)的關(guān)鍵基因。
1.5生存分析 生存分析是一種研究影響因素與生存時(shí)間和生存結(jié)局關(guān)系的數(shù)據(jù)統(tǒng)計(jì)分析方法,可用于探索特定基因過(guò)表達(dá)對(duì)患者的生存時(shí)間是否有顯著影響。本課題相關(guān)肺腺癌基因的生存分析主要利用Kaplan Meier plotter(http://kmplot.com/)在線生存分析數(shù)據(jù)庫(kù)完成,在此數(shù)據(jù)庫(kù)中,可獲得肺癌、卵巢癌、胃癌和乳腺癌的生存數(shù)據(jù),為評(píng)估特定基因的預(yù)后價(jià)值,該數(shù)據(jù)庫(kù)根據(jù)患者基因的表達(dá)值(高表達(dá)與低表達(dá))中位數(shù)將其分為兩個(gè)隊(duì)列??捎糜诜治瞿硞€(gè)基因表達(dá)量高低對(duì)患者生存時(shí)間是否有顯著影響,同時(shí)還可繪制生存曲線,是腫瘤生存數(shù)據(jù)分析的一個(gè)可靠工具。
2.1肺腺癌DEGs 基于GEO2R在線工具對(duì)基因表達(dá)譜數(shù)據(jù)集GSE31210的腫瘤樣本與正常樣本進(jìn)行差異顯著性分析,共獲得443個(gè)DEGs,其中表達(dá)上調(diào)的DEGs有171個(gè),272個(gè)DEGs表達(dá)下調(diào)。利用火山圖可視化DEGs表達(dá)情況(圖1),其中縱坐標(biāo)代表基因表達(dá)水平變化倍數(shù)的對(duì)數(shù)值,橫坐標(biāo)代表差異顯著性P值的負(fù)對(duì)數(shù)值,每個(gè)基因用圖中的一個(gè)點(diǎn)表示,logFC取值<-2的灰色點(diǎn)代表表達(dá)顯著下調(diào)的基因,logFC取值>2的灰色點(diǎn)代表表達(dá)顯著上調(diào)的基因,其余黑色點(diǎn)代表表達(dá)情況無(wú)顯著變化的基因。
2.2GO與KEGG功能富集分析 本文利用DAVID數(shù)據(jù)庫(kù)對(duì)DEGs進(jìn)行GO與KEGG功能富集分析,基因count>10且P<0.05作為顯著富集的納入標(biāo)準(zhǔn),功能富集顯著性排名前10的GO詞匯和KEGG通路利用柱狀圖表示,對(duì)富集水平進(jìn)行可視化展示。GO富集分析結(jié)果顯示,GO生物學(xué)過(guò)程主要富集于:細(xì)胞對(duì)雌二醇刺激的反應(yīng)、血管生成、細(xì)胞黏附、膠原分解代謝過(guò)程、炎癥反應(yīng)、血清素?cái)z取的負(fù)調(diào)控、受體內(nèi)化、細(xì)胞表面受體信號(hào)通路、細(xì)胞外基質(zhì)分解、蛋白水解、膠原分解代謝等生物學(xué)過(guò)程(圖2A)。細(xì)胞組分主要富集于細(xì)胞外區(qū)域、細(xì)胞外空間、質(zhì)膜的整合組分、細(xì)胞外蛋白質(zhì)基質(zhì)、脂膜筏、質(zhì)膜、膜的組成部分、細(xì)胞表面、細(xì)胞外泌體、細(xì)胞質(zhì)核周區(qū)域(圖2B)。分子功能方面主要富集于成纖維細(xì)胞生長(zhǎng)因子結(jié)合、鈣離子結(jié)合、轉(zhuǎn)運(yùn)活性、絲氨酸型內(nèi)肽酶活性、與物質(zhì)的跨膜運(yùn)動(dòng)有關(guān)的ATPase活性、Ras胍基核苷酸交換因子活性、肝素結(jié)合、金屬內(nèi)肽酶活性、金屬肽酶活性、膠原結(jié)合(圖2C)。KEGG通路富集分析主要集中于ECM-受體相互作用、蛋白質(zhì)消化吸收、癌癥中的轉(zhuǎn)錄失調(diào)、細(xì)胞黏附分子(CAMs)、黏附斑等生物學(xué)通路 (圖2D)。
2.3蛋白互作網(wǎng)絡(luò)的構(gòu)建 本文利用STRING數(shù)據(jù)庫(kù)構(gòu)建蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò),該數(shù)據(jù)庫(kù)基于文本挖掘、實(shí)驗(yàn)證據(jù)、數(shù)據(jù)庫(kù)和共表達(dá)關(guān)系等信息確定蛋白之間的互作關(guān)系,網(wǎng)絡(luò)中的每個(gè)點(diǎn)代表一種蛋白,任何兩點(diǎn)之間的連線表示兩蛋白之間存在互作關(guān)系,采用數(shù)據(jù)庫(kù)默認(rèn)參數(shù)構(gòu)建蛋白互作網(wǎng)絡(luò)(圖3)。利用肺腺癌DEGs所構(gòu)建蛋白互作網(wǎng)絡(luò)總節(jié)點(diǎn)數(shù)為401,邊數(shù)為1 131,平均節(jié)點(diǎn)度為5.64,局部聚類系數(shù)為0.369,互作網(wǎng)絡(luò)富集P值<1.0×10-16。
2.4基于MCC算法鑒別網(wǎng)絡(luò)中的關(guān)鍵基因 將STRING數(shù)據(jù)庫(kù)所構(gòu)建的互作網(wǎng)絡(luò)信息導(dǎo)入到Cytoscape軟件,基于Cytoscape內(nèi)置的Cytohubba插件鑒別蛋白互作網(wǎng)絡(luò)中的關(guān)鍵基因,該插件包含11種可用于網(wǎng)絡(luò)拓?fù)浞治龅乃惴?,相?duì)于其他幾種算法,MCC算法的穩(wěn)定性較好,結(jié)果可靠,在關(guān)鍵節(jié)點(diǎn)的鑒別分析中應(yīng)用廣泛,本文采用MCC算法來(lái)鑒別肺腺癌發(fā)病相關(guān)的關(guān)鍵基因,共選取10個(gè)關(guān)鍵基因,這10個(gè)的關(guān)鍵基因按照度值排序依次是:CCNA2、HMMR、CDCA8、TOP2A、EXO1、RRM2、DLGAP5、CDC45、DEPDC1、ANLN (圖4)。
圖1 肺腺癌DEGs的火山圖
A.GO生物學(xué)過(guò)程富集分析結(jié)果;B.GO細(xì)胞學(xué)組分富集分析結(jié)果;C.GO分子功能富集分析結(jié)果;D.KEGG通路富集分析結(jié)果
圖3 基于STRING數(shù)據(jù)庫(kù)構(gòu)建DEGs的蛋白互作網(wǎng)絡(luò)
深色節(jié)點(diǎn)為關(guān)鍵基因,其余節(jié)點(diǎn)為與關(guān)鍵基因有直接互作關(guān)系的基因
2.5生存分析 Kaplan Meier數(shù)據(jù)庫(kù)可對(duì)21種腫瘤相關(guān)的54 000多個(gè)基因探針進(jìn)行生存分析。本文利用Kaplan Meier數(shù)據(jù)庫(kù)對(duì)所選取的排名前10位的關(guān)鍵基因進(jìn)行生存分析,結(jié)果表明MCC算法所選取的10個(gè)關(guān)鍵基因過(guò)表達(dá)的肺腺癌患者的生存時(shí)間都表現(xiàn)為顯著縮短(P>0.05)。排名前4位的關(guān)鍵基因分別為CCNA2、HMMR、CDCA8及TOP2A。
本研究提示DGEs主要包含與腫瘤發(fā)病密切相關(guān)的基因。生存分析表明所鑒別關(guān)鍵基因的過(guò)表達(dá)與患者的生存時(shí)間顯著縮短密切相關(guān),表明這些基因具有重要的生物學(xué)功能。一項(xiàng)基于基因共表達(dá)網(wǎng)絡(luò)的研究顯示CCNA2和CDCA8在細(xì)胞周期進(jìn)程中起關(guān)鍵作用〔13〕,但其在肺腺癌過(guò)程中的作用,未見(jiàn)報(bào)道。一項(xiàng)為期3年的隨訪研究發(fā)現(xiàn)HMMR表達(dá)升高的患者,與該基因表達(dá)下降的患者相比,生存時(shí)間較短〔14〕。Stevens等〔15〕研究發(fā)現(xiàn)肺腺癌細(xì)胞中的HMMR表達(dá)減少可降低其誘發(fā)肺部腫瘤向較遠(yuǎn)部位轉(zhuǎn)移的能力。Fan等〔16〕研究也提出TOP2A是肺腺癌病變關(guān)鍵基因這一結(jié)論。Yang等〔17〕研究表明EXO1是肺癌風(fēng)險(xiǎn)相關(guān)基因,與從不吸煙人群中EGFR外顯子部分部位缺失的增加關(guān)系密切。 MacDermed等〔18〕研究表明核糖核苷酸還原酶(RR)M2參與肺癌腺細(xì)胞增殖和細(xì)胞周期調(diào)控〔18〕,以該基因?yàn)榘悬c(diǎn)的藥物吉西他濱目前已應(yīng)用于治療非小細(xì)胞肺癌〔19〕。Zhang等〔20〕研究提示DLGAP5與肺腺癌細(xì)胞有絲分裂過(guò)程紡錘體功能密切相關(guān),具有重要的預(yù)后價(jià)值。基于基因表達(dá)譜相關(guān)研究提示CDC45與細(xì)胞周期和DNA復(fù)制顯著相關(guān)〔21〕。Wang等〔22〕研究證明含DEP結(jié)構(gòu)域的蛋白質(zhì)(DEPDC)1與肺腺癌不良預(yù)后相關(guān),肺腺癌細(xì)胞系相關(guān)研究表明DEPDC1通過(guò)抑制調(diào)節(jié)NF-κB活性來(lái)抑制A549細(xì)胞的凋亡,該基因可能是肺癌的新型治療靶標(biāo)。ANLN高表達(dá)患者的肺腺癌細(xì)胞轉(zhuǎn)移明顯高于ANLN低表達(dá)患者,ANLN表達(dá)受抑制后,癌細(xì)胞遷移和侵襲能力降低〔23〕。