李經(jīng)蕾,侯 煒
(1.中國(guó)中醫(yī)科學(xué)院廣安門(mén)醫(yī)院,北京 100053;2.北京中醫(yī)藥大學(xué),北京 100029)
肺癌是世界上發(fā)病率和死亡率最高的癌癥類(lèi)型[1-2]。據(jù)估計(jì),2020年肺癌將占全球癌癥的12%,約1/4 的癌癥死亡由肺癌導(dǎo)致,其中80%~85%的病理類(lèi)型為非小細(xì)胞肺癌(non-small-cell lung cancer,NSCLC)[3-4]。由于肺癌早期癥狀不顯著,許多患者在確診時(shí)已處于晚期階段,5 年總體存活率只有19%[3,5]。肺鱗癌(lung squamous cell carcinoma,LUSC)和肺腺癌(lung adenocarcinoma,LUAD)是NSCLC 的兩大亞型。雖然LUSC 的進(jìn)展速度快于LUAD,但是早期LUSC的5年生存率較高,預(yù)后相對(duì)較好,因此加強(qiáng)對(duì)LUSC 的早期診斷,探索更高效的治療藥物,對(duì)患者意義重大。
加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene coexpression network analysis,WGCNA)是從全基因組表達(dá)中了解基因功能和基因關(guān)聯(lián)的一個(gè)重要方法,被用于尋找高度相關(guān)的基因模塊,并將基因模塊與臨床特征結(jié)合,以篩選網(wǎng)絡(luò)中的關(guān)鍵基因。這一方法可以用來(lái)識(shí)別潛在生物標(biāo)志物或治療靶點(diǎn)[6]。隨著基因組測(cè)序技術(shù)和生物信息大數(shù)據(jù)的發(fā)展,學(xué)者有了更多機(jī)會(huì)了解腫瘤的發(fā)生發(fā)展機(jī)制。研究[7]表明,帶有microRNA(miRNA)反應(yīng)元件的lncRNA可以作為競(jìng)爭(zhēng)性內(nèi) 源RNA(competing endogenous RNA, ceRNA) 與mRNA 競(jìng)爭(zhēng)結(jié)合miRNA,從而影響基因的表達(dá)水平。ceRNA 的異常調(diào)控與許多腫瘤有關(guān),如肺癌[8]、乳腺癌[9]、胃癌[10]等。
中醫(yī)藥在防治肺癌方面具有獨(dú)特優(yōu)勢(shì)。但由于中藥成分復(fù)雜,靶點(diǎn)多,目前的作用機(jī)制尚不清楚。故以網(wǎng)絡(luò)藥理學(xué)為基礎(chǔ),利用分子對(duì)接技術(shù),從生物學(xué)網(wǎng)絡(luò)的角度闡釋藥物與靶點(diǎn)的相互作用規(guī)律和機(jī)制,這與中醫(yī)藥的整體觀念和辨證論治的理念是一致的?,F(xiàn)代中藥學(xué)認(rèn)為白花蛇舌草味微苦,性甘寒,歸胃、大腸、小腸經(jīng),為清熱解毒良藥。研究表明,自白花蛇舌草提取出的化合物豆甾醇在胃癌[11]、膽管癌[12]中發(fā)揮重要作用,但在LUSC中研究較少。
本研究對(duì)腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫(kù)(https://portal.gdc.cancer.gov/)中LUSC-RNAseq 數(shù)據(jù)進(jìn)行了WGCNA 分析、差異表達(dá)分析,以獲得差異共表達(dá)基因;通過(guò)基因本體(gene ontology,GO)分析、蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein protein interaction network,PPI network)分析、生存分析確定關(guān)鍵基因;在此基礎(chǔ)上構(gòu)建LUSC-ceRNA 網(wǎng)絡(luò),通過(guò)分子對(duì)接,了解豆甾醇作用于LUSC 的機(jī)制,為進(jìn)一步完善中醫(yī)藥治療LUSC 的理論體系奠定基礎(chǔ)。
從TCGA 數(shù)據(jù)庫(kù)中下載LUSC-RNAseq 數(shù)據(jù)(截止至2020 年9 月),該數(shù)據(jù)集中共有551 例樣本,包括502 例LUSC 組織和49 例正常組織。利用R 4.0.2-Edger 的reads 中來(lái)自于某基因每1 000 個(gè)堿基長(zhǎng)度的reads 數(shù)(reads per kilobase per million mapped reads,RPKM)函數(shù)(RPKM=樣本映射到特定基因的外顯子上的所有的reads÷樣本的每百萬(wàn)所有reads 總和×外顯子的長(zhǎng)度,以kb 為單位)進(jìn)行過(guò)濾后,共有15 143 個(gè)RPKM值的基因接受下一步分析。
共表達(dá)網(wǎng)絡(luò)促進(jìn)了基于網(wǎng)絡(luò)的基因篩選方法,這些方法可用于識(shí)別候選生物標(biāo)志物和治療靶點(diǎn)。本研究構(gòu)建了TCGA-LUSC 的基因表達(dá)數(shù)據(jù)圖譜,利用R 4.0.2-WGCNA構(gòu)建基因表達(dá)網(wǎng)絡(luò),通過(guò)探索樣本間高度相關(guān)的基因模塊,將模塊與外部樣本性狀相關(guān)聯(lián),將相似的基因表達(dá)劃分為不同的基因共表達(dá)模塊。為了進(jìn)一步確定共表達(dá)網(wǎng)絡(luò)中的功能模塊,計(jì)算模塊之間的模塊-特性關(guān)聯(lián)和臨床特性信息系數(shù),相關(guān)系數(shù)高的模塊被認(rèn)為是與臨床特征相關(guān)的候選模塊,并被選擇用于后續(xù)分析。
為了尋找LUSC 組織與正常組織之間的差異表達(dá)基因(differentially expressed gene,DEG)和差異表達(dá)lncRNA(differentially expressed lncRNA,DEL),利用R 4.0.2-limma 在TCGA-LUSC 中 篩 選DEG 和DEL(|log2FC|≥2,校正后P<0.05)。重疊DEG和共表達(dá)網(wǎng)絡(luò)中關(guān)鍵模塊的基因獲得信度高的基因,利用R 4.0.2-Venn Diagram將其可視化為Venn圖。
通過(guò)R 4.0.2-Cluster Profiler 對(duì)Venn 圖中信度高的基因進(jìn)行GO 分析(P<0.05)。GO 注釋包含生物過(guò)程(biological process,BP)、細(xì)胞組件(cellular component,CC)和分子功能(molecular function,MF),可以識(shí)別所有生物的基因和基因組的生物屬性。
利用STRING 在線工具,構(gòu)建選定基因的PPI 網(wǎng)絡(luò)。選擇得分≥0.9 的基因建立網(wǎng)絡(luò)模型,通過(guò)Cytoscape(v3.8.0)可視化。通過(guò)Cytoscape-CytoHubba 尋找中樞節(jié)點(diǎn),基于最大團(tuán)中心性(maximal clique centrality,MCC)算法計(jì)算每個(gè)節(jié)點(diǎn)的MCC 值,選擇MCC值最高的10個(gè)基因作為關(guān)鍵基因。
將關(guān)鍵基因?qū)隟aplan-Meier Plotter 預(yù)后數(shù)據(jù)庫(kù)(http://kmplot.com/analysis/),以P<0.05 為標(biāo)準(zhǔn),篩選與預(yù)后相關(guān)的基因。
miRWalk數(shù)據(jù)庫(kù)(http://mirwalk.umm.uni-heidelberg.de) 是一個(gè)綜合性的miRNA 靶基因數(shù)據(jù)庫(kù),涵蓋TargetScan Human、miRDB、miRTarBase 等靶基因數(shù)據(jù)庫(kù)信息。利用miRWalk 篩選與關(guān)鍵基因相關(guān)的miRNA。篩選標(biāo)準(zhǔn)為:關(guān)鍵基因須同時(shí)與TargetScan Human、miRDB、miRTarBase 三個(gè)數(shù)據(jù)庫(kù)關(guān)聯(lián)。基于starBase(http://starbase.sysu.edu.cn/) 預(yù)測(cè)并篩選與miRNA 關(guān)聯(lián)的lncRNAs。通過(guò)Cytoscape(v3.8.0)構(gòu)建ceRNA網(wǎng)絡(luò)。
通過(guò)中藥系統(tǒng)藥理學(xué)數(shù)據(jù)庫(kù)與分析平臺(tái)(Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform,TCMSP,http://tcmspw.com/tcmsp.php)檢索中藥“白花蛇舌草”,確定有效生物活性的分子(生物利用率≥30%,類(lèi)藥性≥0.18);PDB 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)(Protein Data Bank,PDB,http://www.rcsb.org/pdb)檢索關(guān)鍵靶點(diǎn)蛋白,利用AutoDock Vina 對(duì)受體蛋白與配體小分子進(jìn)行分子對(duì)接。AutoDock Vina 將結(jié)果以一種結(jié)合能形式輸出,通過(guò)計(jì)算受體-配體復(fù)合物的空間效果、排斥作用、氫鍵、疏水相互作用以及分子的靈活性等值綜合打分,評(píng)估其親和力,最終給出最低結(jié)合能(docking score,DS)打分,這是衡量配體是否能與受體分子有效結(jié)合的重要指標(biāo),通常DS<-7 表示二者結(jié)合性強(qiáng),能值越低,二者的結(jié)合效果越強(qiáng)。
使用R 4.0.2-WGCNA,從TCGA-LUSC 中構(gòu)建了基因共表達(dá)網(wǎng)絡(luò),共確定了TCGA 數(shù)據(jù)集中的7 個(gè)關(guān)鍵模塊(圖1A),通過(guò)繪制模塊特征關(guān)系熱圖,確定了TCGA-LUSC 中與正常組織和腫瘤組織相關(guān)性最高的藍(lán)綠色模塊(MEturquoise)為關(guān)鍵模塊(圖1B)。
圖1 TCGA-LUSC加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析
從TCGA 數(shù)據(jù)庫(kù)中鑒定出DEGs 998 個(gè),DELs 2 217個(gè)。共表達(dá)網(wǎng)絡(luò)中,在TCGA數(shù)據(jù)集的藍(lán)綠色模塊發(fā)現(xiàn)了11 472個(gè)共表達(dá)基因。最終確定了801個(gè)信度高的重疊基因(圖2)。
GO分析(圖3)顯示,801個(gè)基因的生物過(guò)程(BP)主要在染色體分離和有絲分裂核分裂中富集。CC分析結(jié)果表明,這些基因主要涉及染色體著絲粒區(qū)域、濃縮染色體、染色體區(qū)域。MF 分析中,鈉離子跨膜轉(zhuǎn)運(yùn)蛋白活性、肝素結(jié)合、糖胺聚糖結(jié)合與這801 個(gè)基因相關(guān)。
圖2 差異表達(dá)基因和共表達(dá)模塊中基因的維恩圖
基于PPI 網(wǎng)絡(luò)(圖4A),使用CytoHubba 的MCC 算法,從中選擇得分最高的10個(gè)基因(圖4B),主要包括CDC20、BUB1、CCNB2、BUB1B、CDK1、CCNB1、KIF2C、NDC80、CDCA8、CENPF基因。
圖3 801個(gè)基因的GO分析
通過(guò)分析PPI 網(wǎng)絡(luò)中10個(gè)關(guān)鍵基因的預(yù)后,繪制了不同表達(dá)水平下的Kaplan-Meier(K-M)生存曲線(圖5)。結(jié)果顯示10個(gè)關(guān)鍵基因均與預(yù)后相關(guān)(P<0.05)。
在miRWalk 數(shù)據(jù)庫(kù)中分別檢索10個(gè)關(guān)鍵基因。依據(jù)“關(guān)鍵基因須同時(shí)與TargetScan Human、miRDB、miRTarBase三個(gè)數(shù)據(jù)庫(kù)關(guān)聯(lián)”的篩選標(biāo)準(zhǔn),CDCA8被確定為唯一符合篩選標(biāo)準(zhǔn)的關(guān)鍵基因。miRWalk數(shù)據(jù)庫(kù)同時(shí)篩選出hsa-let-7b-5p 為CDCA8 上游miRNA?;趍iRNA,通過(guò)starBase 預(yù)測(cè)到14 個(gè)與之關(guān)聯(lián)的lncRNAs(LINC00665、TMPO-AS1、AC090001.1、AF254983.1、AC007996.1、AC006206.1、AC133540.1、AL359924.1、SNHG4、 AC022075.1、 HOXA11-AS、 LINC00885、SLC9A3-AS1、 AL590666.2)。 基 于mRNA、 miRNA、lncRNA構(gòu)建了LUSC-ceRNA網(wǎng)絡(luò)(圖6),通過(guò)Cytoscape(v3.8.0)可視化。
AutoDock Vina 結(jié)果顯示DS=-8.1 kcal/mol,表明CDCA8蛋白與豆甾醇化合物分子的親和力強(qiáng)。圖7所示氨基酸殘基Lys15、Glu94與配體小分子形成氫鍵相互作用,氨基酸殘基Arg18、Glu40、Ile74、Leu87、Lys90、Val89、Phe86、Phe93 與配體小分子形成疏水相互作用。
雖然LUSC 患者在靶向治療中廣泛獲益,但耐藥性結(jié)局難以避免,加之患者早期缺乏明顯癥狀,致使許多患者在晚期時(shí)才被確診,故患者預(yù)后普遍較差。基于LUSC 的診療現(xiàn)狀,我們亟需更高效的生物標(biāo)志物和更有效的治療藥物,以提升LUSC 早期診斷率和有效治療率。
本研究中,綜合生物信息大數(shù)據(jù)分析,我們?cè)赥CGA 數(shù)據(jù)庫(kù)中鑒定出801 個(gè)信度高的基因。GO 分析表明,這些基因主要富集在染色體相關(guān)區(qū)域,且與細(xì)胞增殖密切相關(guān)。此外,根據(jù)Cytoscape-CytoHubba的MCC 評(píng)分,篩選出與LUSC 相關(guān)的前10 個(gè)基因(CDC20、BUB1、CCNB2、BUB1B、CDK1、CCNB1、KIF2C、NDC80、CDCA8、CENPF),發(fā)現(xiàn)它們與LUSC的生存顯著相關(guān)。經(jīng)預(yù)測(cè)上游miRNA 及關(guān)聯(lián)lncRNA構(gòu) 建 了CDCA8、hsa-let-7b-5p 與14 個(gè)lncRNAs 的ceRNA網(wǎng)絡(luò)。最后將受體蛋白CDCA8與豆甾醇配體進(jìn)行分子對(duì)接,在一定程度上闡釋了中藥白花蛇舌草治療LUSC的機(jī)制,為后續(xù)藥物研究提供了新思路。
圖4 蛋白互作網(wǎng)絡(luò)和候選關(guān)鍵基因的可視化
細(xì)胞分裂在生命過(guò)程中起著重要作用[13]。許多研究表明,細(xì)胞分裂過(guò)程中的任何失調(diào)可能導(dǎo)致惡性腫瘤的發(fā)生[14-15]。CDCA 蛋白家族有8 個(gè)成員,即CDCA1~CDCA8。CDCA8 在有絲分裂[16]、交叉染色體分離和分裂的調(diào)控中起著重要作用[17]。CDCA8在大多數(shù)類(lèi)型的腫瘤組織中高表達(dá),在正常組織中低表達(dá)[18]。研究表明,CDCA8在調(diào)節(jié)腫瘤細(xì)胞生長(zhǎng)過(guò)程中具有重要意義[19]。CDCA8的過(guò)度表達(dá)對(duì)肺癌和乳腺癌細(xì)胞的生長(zhǎng)至關(guān)重要[20]。還與胰腺癌[21]、胃癌[22]和腎癌[23]患者的不良預(yù)后顯著相關(guān)。雖然CDCA8 在LUSC中的作用機(jī)制研究較少,但其與患者生存期顯著相關(guān),可以作為腫瘤治療的潛在分子靶點(diǎn)和預(yù)后生物標(biāo)志物,這也為后續(xù)的研究提供了新的方向。hsa-let-7b-5p 已被證實(shí)可以作為肺癌預(yù)后相關(guān)生物標(biāo)志物[24]。本研究中,14 個(gè)lncRNAs 通過(guò)競(jìng)爭(zhēng)占有細(xì)胞內(nèi)的hsa-let-7b-5p,緩沖并削減了hsa-let-7b-5p 抑制CDCA8 編碼蛋白的能力,這成為L(zhǎng)USC 發(fā)生發(fā)展機(jī)制中的重要一環(huán)。
圖5 關(guān)鍵基因的K-M生存曲線
圖6 LUSC-ceRNA網(wǎng)絡(luò)
圖7 受體蛋白CDCA8與豆甾醇小分子配體之間的結(jié)合模式
由于LUSC 患者早期診斷率低,耐藥結(jié)局難以避免,5 年生存率低等困擾仍未解決,中醫(yī)藥逐漸成為治療LUSC 又一選擇。中藥通過(guò)多靶點(diǎn),多途徑協(xié)同影響腫瘤細(xì)胞的侵襲、發(fā)展和轉(zhuǎn)移,但由于中藥成分復(fù)雜,作用機(jī)制仍不明確。隨著網(wǎng)絡(luò)藥理學(xué)與計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,闡明中藥作用機(jī)制將成為可能。從清熱解毒藥白花蛇舌草中提取出的豆甾醇,已被證實(shí)可以通過(guò)抑制細(xì)胞遷移、細(xì)胞周期阻滯、線粒體介導(dǎo)的凋亡等途徑,抑制胃癌的進(jìn)展[11]。豆甾醇還可通過(guò)下調(diào)Jab1 蛋白誘導(dǎo)人膽囊癌細(xì)胞凋亡[25]。本研究通過(guò)分子對(duì)接技術(shù)明確了白花蛇舌草中的豆甾醇與LUSC預(yù)后相關(guān)的CDCA8蛋白親和力強(qiáng),其可能是白花蛇舌草抗腫瘤的主要物質(zhì)基礎(chǔ),通過(guò)作用于關(guān)鍵基因CDCA8,從而干預(yù)LUSC 預(yù)后。因此豆甾醇有可能開(kāi)發(fā)成具有抗腫瘤的中藥單體或先導(dǎo)化合物,或推進(jìn)含豆甾醇的中藥應(yīng)用于抗腫瘤領(lǐng)域。
綜上所述,本研究最終確定了CDCA8 作為L(zhǎng)USC的預(yù)后相關(guān)生物標(biāo)志物。分子對(duì)接技術(shù)為白花蛇舌草抗腫瘤活性成分的確定和分子機(jī)制研究提供了參考,為發(fā)現(xiàn)新型抗腫瘤中藥單體和先導(dǎo)化合物提供了研究方向,也為進(jìn)一步生物實(shí)驗(yàn)驗(yàn)證提供了理論依據(jù)。