李 琦 王梅芳 唐以軍
十堰市太和醫(yī)院(湖北醫(yī)藥學(xué)院附屬醫(yī)院)呼吸與危重癥醫(yī)學(xué)科 湖北 十堰 442000
肺癌是我國惡性腫瘤的首要死亡原因,非小細(xì)胞肺癌(non?small cell lung cancer,NSCLC)是最常見的腫瘤,其中腺癌是肺癌最常見病理組織類型。吸煙曾認(rèn)為是導(dǎo)致肺腺癌的主要病因,近年來,女性肺腺癌的發(fā)病率和死亡率不斷增加,與男性相比,女性更容易發(fā)生非吸煙相關(guān)的肺腺癌,因此,性別也是肺腺癌一個(gè)獨(dú)立的預(yù)后因素。一項(xiàng)研究報(bào)告指出女性從肺癌免疫治療中比男性受益更多[1]。因此探尋女性肺腺癌的發(fā)病機(jī)制,明確女性肺腺癌發(fā)生發(fā)展相關(guān)的關(guān)鍵基因和通路,有助于為臨床尋找更多的診斷和治療靶點(diǎn)。
近年來隨著微陣列和高通量測序技術(shù)的快速發(fā)展,其與生物信息學(xué)分析相結(jié)合,在臨床研究中的應(yīng)用越來越有價(jià)值,為闡明腫瘤發(fā)生過程中關(guān)鍵基因的改變提供了一種有效的方法,可以為癌癥的診斷、治療和預(yù)后發(fā)現(xiàn)有前景的生物標(biāo)志物。本研究運(yùn)用生物信息學(xué)方法,分析GEO 數(shù)據(jù)庫中肺腺癌數(shù)據(jù)集,并對差異基因進(jìn)行富集分析,找出關(guān)鍵基因,并對關(guān)鍵基因進(jìn)行多數(shù)據(jù)庫驗(yàn)證,以期找到女性肺腺癌發(fā)生、發(fā)展的關(guān)鍵靶點(diǎn)。
1.1 芯片數(shù)據(jù)的獲取從GEO 數(shù)據(jù)庫下載7個(gè)肺腺癌數(shù)據(jù)集(GSE19804、GSE40791、GSE31210、GSE7670、GSE10072、GSE32863、GSE75037),其中GSE19804、GSE40791、GSE31210 數(shù)據(jù)集都是基于GPL570 芯片平臺(tái),GSE7670、GSE10072 數(shù)據(jù)集來源于GPL96 芯片平臺(tái),GSE32863、GSE75037 數(shù)據(jù)集來源于GPL6884 芯片平臺(tái)。GSE19804 包含60例女性肺腺癌組織及其配對癌旁組織,GSE40791 包含42例正常女性肺組織和41例女性肺腺癌組織,GSE31210 包含9例正常女性肺組織和121例女性肺腺癌組織,GSE7670 包含21例女性肺腺癌組織及配對癌旁組織,GSE10072 包含15例正常女性肺組織和23例女性肺腺癌組織,GSE32863包含45例女性肺腺癌組織及配對癌旁組織,GSE75037 包含59例女性肺腺癌組織及其配對癌旁組織。
1.2 篩選差異基因利用GEO 數(shù)據(jù)庫在線軟件GEO2R 以調(diào)整后的P值(adj.P)<0.05、log2FC>1(FC 為fold change,差異倍數(shù))為篩選條件,分別對5個(gè)數(shù)據(jù)集進(jìn)行差異表達(dá)基因(DEGs)篩選。然后篩選出在5 個(gè)數(shù)據(jù)集中均上調(diào)或者均下調(diào)的基因。
1.3 GO 和KEGG 分 析DAVID(https://david.ncifcrf. gov/)數(shù)據(jù)庫是一個(gè)注釋、可視化和集成發(fā)現(xiàn)的生物信息數(shù)據(jù)庫,目前主要用于差異基因的功能和通路富集分析。利用DAVID 數(shù)據(jù)庫進(jìn)行基因本體論(GO)和京都基因與基因百科全書(KEGG)富集分析,以P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
1.4 蛋白互作網(wǎng)絡(luò)構(gòu)建及篩選核心基因在STRING(https://string?db. org/cgi/)數(shù)據(jù)庫中輸入DEGs,種屬限定為“Homo sapiens”,最小連接評分(Combined score)值為0.4,再導(dǎo)出相應(yīng)結(jié)果文件。將所得文件導(dǎo)入Cytoscape 3.7.1 軟件,利用CytoHubba 插件中每一個(gè)基因的最大團(tuán)中心性(maximal clique centrality,MCC)分?jǐn)?shù),將得分前10的基因作為樞紐基因(Hub 基因)。
1.5 核心基因驗(yàn)證在Oncomine(www. onco?mine.org)數(shù)據(jù)庫中將篩選條件限定為“腫瘤與正常組織、非小細(xì)胞肺癌、人口統(tǒng)計(jì)學(xué)特征限定為女性、數(shù)據(jù)類型限定為mRNA”,將Hub 基因分別輸入逐一檢索,P<0.01 認(rèn)為有統(tǒng)計(jì)學(xué)意義。然后利用UALCAN 數(shù) 據(jù) 庫(http://ualcan. path. uab. edu/)將10 個(gè)Hub 基因輸入,驗(yàn)證在該數(shù)據(jù)庫中Hub 基因在肺癌組織和正常組織中的表達(dá)差異。
1.6 核心基因生存分析利用Kaplan?Meier plot?ter(http://kmplot. com/analysis/)數(shù) 據(jù) 庫 分 析1.4得到的10 個(gè)Hub 基因?qū)ε苑蜗侔┛傮w生存期(OS)的影響。打開Kaplan?Meier plotter 數(shù)據(jù)庫,選擇肺癌數(shù)據(jù)庫,將限定條件設(shè)定為“女性,腺癌”,分別將10 個(gè)Hub 基因輸入,根據(jù)基因的中位表達(dá)值以判定高表達(dá)、低表達(dá)與OS 的關(guān)系,log?rankP<0.05認(rèn)為有統(tǒng)計(jì)學(xué)意義。
2.1 篩選差異基因以log2FC>1,adj.P<0.05為篩選條件,從GSE19804 數(shù)據(jù)集中篩選出1 404 個(gè)DEGS,其中455 個(gè)上調(diào),949 個(gè)下調(diào);從GSE40791數(shù)據(jù)集中篩選出4 166 個(gè)DEGs,其中1 801 個(gè)上調(diào),2 365 個(gè)下調(diào);從GSE31210 數(shù)據(jù)集中從篩選出2 493 個(gè)DEGs,其中1 141 個(gè)上調(diào),1 352 個(gè)下調(diào);從GSE7670 數(shù)據(jù)集中從篩選出1 578 個(gè)DEGs,其 中707 個(gè)上調(diào),871個(gè)下調(diào);從GSE1007 數(shù)據(jù)集中篩選出673 個(gè)DEGs,其 中204 個(gè) 上調(diào),469 個(gè)下調(diào);從GSE32863 數(shù)據(jù)集中篩選出1 307 個(gè)DEGs,其 中548 個(gè) 上 調(diào),759 個(gè) 下 調(diào);從GSE75037 數(shù)據(jù)集中篩選出3 517 個(gè)DEGs,其中1 623 個(gè) 上 調(diào),1 894 個(gè)下調(diào);利用Vene 進(jìn)一步篩選,得到在7 個(gè)數(shù)據(jù)集中均上調(diào)的69 個(gè)DEGs 和207 個(gè)均下調(diào)的DEGs。
2.2 GO 和KEGG 富集分析對276 個(gè)DEGs 進(jìn)行GO 富集分析,GO 富集分析由生物過程(biologi?cal process,BP)、分子功能(molecular function,MF)、細(xì)胞組成(cellular component,CC)三個(gè)部分組成。根據(jù)P值排序,保留每個(gè)模塊前5 條結(jié)果(見表1)。KEGG 富集分析顯示DEGs 主要富集在瘧疾、ECM 受體相互作用、白細(xì)胞經(jīng)內(nèi)皮移動(dòng)、PI3K?Akt 信號通路、緊密連接等13 條信號通路。具體結(jié)果見圖1。
表1 差異表達(dá)基因GO 富集分析結(jié)果
圖1 差異表達(dá)基因KEGG 富集分析結(jié)果
2.3 構(gòu)建PPI 網(wǎng)絡(luò)篩選Hub 基因基于STRING數(shù)據(jù)庫和Cytoscape 軟件對276 個(gè)DEGs 經(jīng)行可視化分析,然后在利用Cytoscape 軟件中的CytoHubba插件篩選出網(wǎng)絡(luò)中MCC 最高的10 個(gè)基因分別為細(xì)胞分裂周期蛋白20(CDC20)、著絲粒蛋白F(CEN?PF)、人源全長重組蛋白(KIAA0101)、蛋白拓?fù)洚悩?gòu)酶Ⅱα(TOP2A)、人類異常紡錘體樣小頭畸形相關(guān)蛋白(ASPM)、胸苷酸合成酶(TYMS)、微小染色體維持蛋白4(MCM4)、核仁紡錘體相關(guān)蛋白1(NUSAP1)、母體胚胎亮氨酸拉鏈激酶(MELK)、泛素結(jié)合酶E2C(UBE2C),即為Hub 基因。結(jié)果見圖2。
圖2 Cytoscape中cytoHubba插件篩選出的10個(gè)Hub基因
2.4 Hub 基因的驗(yàn)證在oncomine 數(shù)據(jù)庫中顯示10 個(gè)Hub 基因在女性肺腺癌組織中較正常肺組織表達(dá)均增高(見圖3)。UALCAN 數(shù)據(jù)庫也進(jìn)一步證實(shí)10 個(gè)Hub 基因在女性肺腺癌組織中表達(dá)增高(見圖4)。
圖3 Oncomine 數(shù)據(jù)庫中10 個(gè)Hub 基因的表達(dá)
圖4 UALCAN 數(shù)據(jù)庫中10 個(gè)Hub 基因的表達(dá)
2.5 生存分析利用Kaplan?Meier plotter 對10 個(gè)Hub 基因進(jìn)行生存分析,結(jié)果顯示除ASPM 外,其余9 個(gè)Hub 基因高表達(dá)與低表達(dá)對女性肺腺癌的OS 均存在統(tǒng)計(jì)學(xué)差異,高表達(dá)組OS 顯著低于低表達(dá)組(見圖5)。
圖5 Kaplan?Meier plotter 數(shù)據(jù)庫中10 個(gè)Hub 基因的生存分析
本文通過對7 個(gè)GEO 數(shù)據(jù)集中女性肺腺癌腫瘤組織及正常肺組織的RNA 測序數(shù)據(jù)進(jìn)行分析,共獲得276 個(gè)DEGs,其中69 個(gè) 上調(diào),207 個(gè)下調(diào)。然后對276 個(gè)DEGs 進(jìn)行GO 和KEGG 富集分析,結(jié)果顯示DEGs 主要參與細(xì)胞黏附、血管生成等生物學(xué)過程;主要富集在細(xì)胞外外泌體、細(xì)胞外隙等細(xì)胞組分中;主要涉及鈣離子結(jié)合、肝素結(jié)合等分子功能。KEGG 富集分析顯示DEGs 主要富集在瘧疾、ECM 受體相互作用、白細(xì)胞經(jīng)內(nèi)皮移動(dòng)、PI3K?Akt 信號通路、緊密連接等信號通路。接著利用STRING 數(shù)據(jù)庫構(gòu)建PPI 網(wǎng)絡(luò),然后使用Cytoscape軟件篩選出CDC20 等10 個(gè)Hub 基因,利用onco?mine、UALCAN 兩 個(gè) 數(shù) 據(jù) 庫 對10 個(gè)Hub 基 因 對 進(jìn)行驗(yàn)證,它們在女性肺腺癌中均表達(dá)增高。最后利用Kaplan 數(shù)據(jù)庫進(jìn)行生存分析,結(jié)果發(fā)現(xiàn)10 個(gè)Hub基因中除ASPM 外,其余9 個(gè)基因高表達(dá)患者的OS均明顯低于低表達(dá)組。由此推測這9 個(gè)Hub 基因高表達(dá)可能與女性肺腺癌不良預(yù)后密切相關(guān)。
CDC20 是重要的細(xì)胞周期因子,在調(diào)節(jié)細(xì)胞染色體組裝檢驗(yàn)點(diǎn)和有絲分裂G2/M 期過程中發(fā)揮重要作用。有研究表明其在多種惡性腫瘤中表達(dá)增高,在腫瘤的發(fā)生發(fā)展中起重要作用[2,3]。Kato 等[3]研究發(fā)現(xiàn)在肺腺癌患者中CDC20 高表達(dá)者5年生存期明顯低于低表達(dá)患者。Shi 等[4]進(jìn)一步研究表明CDC20 在肺腺癌中與原發(fā)腫瘤大小相關(guān),肺腺癌細(xì)胞中CDC20 表達(dá)增高,抑制CDC20 表達(dá),可以明顯抑制肺腺癌細(xì)胞的增殖。
UBE2C 也稱為UBCH10,是泛素結(jié)合酶家族成員,是泛素?蛋白酶體介導(dǎo)蛋白質(zhì)降解途徑的關(guān)鍵介質(zhì)。研究表明UbcH10 在各種惡性腫瘤中異常過表達(dá),UbcH10 的過度表達(dá)與腫瘤的病理分級和不良預(yù)后顯著相關(guān)。既往研究表明UbcH10 在低分化NSCLC 組織中高表達(dá),UbcH10 高表達(dá)與NSCLC患者術(shù)后生存時(shí)間短相關(guān),是影響NSCLC 患者術(shù)后生存時(shí)間的獨(dú)立危險(xiǎn)因素,抑制UbcH10 的表達(dá)導(dǎo)致肺癌細(xì)胞增殖和遷移能力顯著降低[5?7]。Guo等[8]進(jìn)一步研究表明UBE2C 通過抑制自噬促進(jìn)NSCLC 細(xì)胞增殖、遷移和侵襲性生長。
CENPF 是著絲粒復(fù)合體的重要組成部分,在有絲分裂過程中調(diào)控染色體分離。有研究表明,CENPF 在多種肺腺癌細(xì)胞中表達(dá)增高[9]。Li 等[10]的研究發(fā)現(xiàn)CENPF 在非小細(xì)胞肺癌中表達(dá)增高,其表達(dá)與腫瘤大小、生命狀態(tài)和總生存率有顯著相關(guān)性,可能是NSCLC 患者預(yù)后潛在的獨(dú)立因素。
KIAA0101 是一種增殖細(xì)胞核抗原結(jié)合因子,與DNA 修復(fù)、凋亡、細(xì)胞周期、細(xì)胞增殖密切相關(guān)。李華等[11]研究發(fā)現(xiàn)在肺癌細(xì)胞在抑制KIAA0101 表達(dá),可以抑制肺癌細(xì)胞的生長活性。Kato 等[12]進(jìn)一步研究發(fā)現(xiàn)在女性非小細(xì)胞肺癌患者中,KIAA0101 高表達(dá)與腫瘤進(jìn)展、淋巴結(jié)轉(zhuǎn)移及預(yù)后不良相關(guān)。
TOP2A 位于17 號染色體上,其編碼的DNA 拓?fù)洚悩?gòu)酶Ⅱ蛋白,通過調(diào)節(jié)DNA 超螺旋結(jié)構(gòu),進(jìn)而調(diào)控DNA 復(fù)制、染色體分離、基因表達(dá)等多種生物學(xué)過程。TOP2A 是蒽環(huán)類藥物和依托泊苷抗癌藥物的靶點(diǎn),在多種腫瘤中均表達(dá)增高。研究發(fā)現(xiàn)在非小細(xì)胞肺癌組織和細(xì)胞中TOP2A 表達(dá)增高,敲除NCSLC 細(xì)胞中TOP2A 后,細(xì)胞早期凋亡率增加,增殖速率和侵襲能力明顯降低[13,14]。
MCM4 是微小染色體維持蛋白家族(MCMs)成員之一,位于8q11.2 染色體區(qū)域,是啟動(dòng)真核基因組DNA 復(fù)制的必需蛋白。Kikuchi 等[15]的研究表明在非小細(xì)胞肺癌中MCM4 表達(dá)增高,抑制MCM4 可以抑制非小細(xì)胞肺癌的增殖。
TYMS 是一種葉酸依賴酶,是嘧啶核苷酸合成的限速酶,參與細(xì)胞的DNA 合成、修復(fù)和復(fù)制,是部分抗腫瘤藥物的有效靶點(diǎn)。對于NSCLC 患者,TYMS 的表達(dá)已經(jīng)被研究用來預(yù)測可切除的非小細(xì)胞肺癌患者的生存,進(jìn)一步研究表明TYMS 可能是晚期非小細(xì)胞肺癌患者對培美曲塞化療敏感性的潛在預(yù)測因子[16]。
ASPM 位于染色體1q31.3 上,是一種與微管相關(guān)的中心體蛋白,定位于紡錘體和中心體,參與紡錘體運(yùn)動(dòng)和胞質(zhì)分裂的功能調(diào)節(jié)。ASPM 在多種腫瘤組織中廣泛表達(dá),并參與幾種腫瘤的發(fā)生和發(fā)展。有研究發(fā)現(xiàn)ASPM 在肺腺癌組織中表達(dá)增高,其表達(dá)水平與肺腺癌不良預(yù)后呈正相關(guān)[17,18]。進(jìn)一步研究發(fā)現(xiàn)在肺鱗狀細(xì)胞癌中,ASPM 敲除顯著抑制了LSCC 細(xì)胞的增殖,ASPM 消融明顯抑制了體內(nèi)腫瘤的生長[19]。
MELK 是蔗糖非發(fā)酵?1/AMP 活化蛋白激酶(Snf1/AMPK)家族成員,在細(xì)胞周期、細(xì)胞增殖、凋亡、剪接體組裝、基因表達(dá)、胚胎發(fā)育、造血和腫瘤形成等過程發(fā)揮重要作用。有研究顯示,MELK 在小細(xì)胞肺癌細(xì)胞及組織中表達(dá)增高,MELK 敲除或MELK 抑制劑均能抑制小細(xì)胞肺癌細(xì)胞生長[20]。Zang 等[21]研究進(jìn)一步表明MELK 的表達(dá)量與肺腺癌患者的預(yù)后呈負(fù)相關(guān),MELK 可能成為NSCLC新的治療靶點(diǎn)。
NUSAP1 是一種微管結(jié)合蛋白,在增殖細(xì)胞中特異性表達(dá),能夠交聯(lián)和穩(wěn)定微管,是細(xì)胞有絲分裂過程中的關(guān)鍵調(diào)控因子。有研究發(fā)現(xiàn),在非小細(xì)胞肺癌組織中NUSAP1 蛋白及mRNA 表達(dá)增高,NUSAP1 高表達(dá)與腫瘤大小、淋巴結(jié)轉(zhuǎn)移、TNM 分期相關(guān)[22,23]。Xu 等[24]進(jìn) 一步 研究 發(fā)現(xiàn)NUSAP1 在肺癌細(xì)胞中表達(dá)增高,敲除NUSAP1 可以促進(jìn)NSCLC 細(xì)胞凋亡,抑制細(xì)胞增殖、遷移和侵襲。于哲等[25]的研究發(fā)現(xiàn)在肺癌細(xì)胞中敲除NUSAP1 通過抑制AKT/mTOR 信號通路抑制肺癌細(xì)胞的增殖、遷移和侵襲,促進(jìn)腫瘤細(xì)胞凋亡,進(jìn)而發(fā)揮抑制肺癌的作用。
綜上所述,本文利用生物信息學(xué)方法對女性肺腺癌芯片數(shù)據(jù)集進(jìn)行挖掘,發(fā)現(xiàn)并探討了CDC20、CENPF、KIAA0101、TOP2A、TYMS、MCM4、NU?SAP1、MELK、UBE2C 這些基因高表達(dá)可能與女性肺腺癌不良預(yù)后密切相關(guān),但以上數(shù)據(jù)集原始數(shù)據(jù)大多來源于西方國家,由于種族差異,仍然需要采集中國女性肺腺癌組織樣本及患者臨床資料進(jìn)一步驗(yàn)證,并結(jié)合分子生物學(xué)實(shí)驗(yàn)驗(yàn)證其在女性肺腺癌中的具體機(jī)制。
武漢大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2022年3期