李玉杰,吳登強,韋常宏,楊雪佳,周素芳
1廣西醫(yī)科大學基礎醫(yī)學院生物化學與分子生物學教研室,2長壽與老年相關疾病教育部重點實驗室,3廣西高校生物分子醫(yī)學研究重點實驗室,4區(qū)域性高發(fā)腫瘤早期防治研究教育部重點實驗室,廣西 南寧530021
肝癌是我國發(fā)病率第3位的惡性腫瘤,5年生存率僅為10%左右。據(jù)統(tǒng)計我國約有HBV 感染者1.2 億,占我國總?cè)丝诘?.09%,其中有1/4 是慢性乙肝患者[1,2]。目前可用的抗病毒藥物不能完全消除慢性乙型肝炎病毒。慢性HBV感染可導致肝臟慢性炎癥,導致正常肝細胞轉(zhuǎn)化為癌細胞,使乙肝病毒成為重要的環(huán)境致癌物[3-5]。因此,為了提高患者的存活率,迫切需要有效的生物標志物。近十年來,隨著全基因組基因表達芯片的廣泛應用,基于基因表達譜檢測出了多種分子標記,其中有幾種已用于肝癌的臨床治療。這些標記物在早期診斷、分子分型、化療敏感性和耐藥性、預后預測和監(jiān)測等方面具有重要價值[6,7]。這些技術是分析海量基因表達數(shù)據(jù)集的極佳選擇,以便深入解釋HCC的機制。目前,利用生物信息學方法可以識別與腫瘤消退相關的潛在生物標志物和信號通路。到目前為止,在大樣本的基礎上,還沒有足夠的生物信息學研究聚焦于HBV感染患者的HCC組織和非腫瘤組織之間的差異表達基因(DEGs),HBV促進HCC發(fā)生的確切分子機制還不完全清楚,相關生物標志物眾多,無法為臨床預后提供有針對性的依據(jù)[8]。迫切需要對相關的全基因組數(shù)據(jù)進行進一步的全面基因組分析[9,10]。因此,利用生物信息學分析,可以通過識別hub基因(與其他基因有大量相互作用,通常在信號通路和生物學過程中起重要作用的基因)來闡明HBV相關肝細胞癌的潛在分子機制,從而有助于開發(fā)有效的新的診斷和治療策略。在本研究中,為了增加樣本量,我們整合了從GEO數(shù)據(jù)庫獲得的3個數(shù)據(jù)集,使用一個大的隊列,確定了HBV相關肝癌組織和非腫瘤組織之間的DEGs。并試圖利用生物信息學分析來識別hub基因和通路,篩選HBV感染誘導的肝癌的潛在治療靶點。
基于GPL570 平臺的3 個微陣列數(shù)據(jù)集([HGU133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array)來 自GEO(http://www.ncbi.nlm.nih.gov/geo/)[11].GSE55092 數(shù)據(jù)集包含49個HBV相關的HCC組織樣本和91個HBV感染樣本,GSE121248數(shù)據(jù)集包含70個HBV相關的HCC組織樣本和37個HBV感染樣本,GSE84044數(shù)據(jù)集包含124個HBV感染樣本。所有原始數(shù)據(jù)(CEL)均從GEO 數(shù)據(jù)庫下載。使用Robust Multichip Average 調(diào)整背景的原始文件。探針集注解可在affymetrix 官網(wǎng)(http://www.affymetrix.com/support/technical/annotationfilesmain.affx)下 載,“sva”R包用于消除批間差。
使用基于未配對t檢驗的R 包“affy”(https://biocon-ductor.org/packages/affy/)鑒定HBV 相關HCC組織和非腫瘤HBV相關組織之間的DEG;閾值為|log2(fold change)|≥1.5,調(diào)整后的P<0.01。DEG由使用R包“gplots”(https://bioconductor.org/packages/gplots/)的熱圖表示。
用于注釋、可視化和集成發(fā)現(xiàn)的數(shù)據(jù)庫(DAVID,https://DAVID.ncifcrf.gov/home.jsp)是基于GO(http://www.geneontology.org)和KEGG(https://www.kegg.jp/)[12-15]。DEG分為3大類:生物過程(BP)、細胞成分(CC)和分子功能(MF)。通路分析應用于KEGG通路富集。
檢索相互作用基因/蛋白質(zhì)的搜索工具(https://string-db.org/.11.0版)是一種用于識別DEG相互作用和功能關聯(lián)的系統(tǒng),構建蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡。在Cytoscape(https://cytoscape.org/)上,CytoHubba插件用于獲取在PPI 網(wǎng)絡上得分最高的前10 個PPI hub 基因。
使用cBioPortal(http://www.cbioportal)分析關鍵基因之間的相關性。使用Oncomine 數(shù)據(jù)庫(https://www.oncomine.org/)驗證遺傳標記的表達水平,該數(shù)據(jù)庫是具有基于網(wǎng)絡的數(shù)據(jù)挖掘平臺的微陣列癌癥數(shù)據(jù)庫,以支持全基因組表達的分析。數(shù)據(jù)集按癌癥類型(肝癌)和分析類型(癌癥與正常)進行過濾。使用UALCAN 在線分析工具(http://ualcan.path.uab.edu/index.html)對遺傳標記進行預后分析,該工具結(jié)合了來自TCGA 數(shù)據(jù)庫的預后數(shù)據(jù)。Kaplan-Meier plotter(http://kmplot.com/analysis)是一個開源癌癥大數(shù)據(jù)分析網(wǎng)站,提供生存生物標志物的在線驗證并分析具有樞紐關鍵基因的患者的總生存期(OS)。
2018年5月~2020年9月在廣西醫(yī)科大學附屬腫瘤醫(yī)院進行的手術后,總共獲得了17個HCC 組織和17個配對的相鄰非腫瘤組織(表1)。所有組織在用于實驗前均獲得患者同意。本研究經(jīng)廣西醫(yī)科大學倫理委員會批準,符合廣西醫(yī)科大學的倫理指南和規(guī)定。FFPE RNA分離試劑盒(Omega Bio-Tek,Inc.)。根據(jù)制造商的方案,使用PrimeScript RT-qPCR 試劑盒(Takara Bio,Inc.)獲得互補(c)DNA。使用GoTaq qPCR Master Mix 和SYBR green I(Takara Bio,Inc.)進行PCR擴增。將mRNA 表達水平標準化為ACTB。細胞周期蛋白依賴性激酶1(CDK1)、細胞周期蛋白B1(CCNBI)和核分裂周期蛋白80(NDC80)的引物序列如下:CDK1 正向5'-AGC CGC CCT TTC CTC TTT CTT TC-3'和反向5'-CGG ATT CAC CAA TCG GGT AGC C-3';CCNB1正向5'-GCC AGT GCC AGA GCC AGA AC-3'和反向5'-CAT TGG GCT TGG AGA GGC AGT ATC-3';NDC80 正 向5'-GTG CCA GTG AGC TTG AGT CCT TG-3'和反向5'-CGT CTT TCT TCA GTC GTG GTT TGC-3';ACTB 正 向5'-AGG TCG GTG TGAACG GAT TTG-3'和反向5'-GGGGTCGTTG ATGGCAACA-3'(Sangon Biotech)。
表1 17例樣本的基本臨床信息Tab.1 Basic clinical information of 17 patients with HCC
PCR熱循環(huán)條件如下:95 ℃初始變性30 s,95 ℃5 s和60 ℃34 s 40個循環(huán)。對于每個樣品,在20μL反應體積中進行3 次重復實驗,其中包含2 μL 稀釋的cDNA、1.6 μL 正向和反向引物、10 μL SYBR Premix Ex Taq?(Takara Bio)和0.4μL ROX II Reference染料(Takara Bio)。CDK1、CCNB1 和NDC80 與ACTB 的相對表達使用2-ΔΔCt方法計算。
使用R-3.6.3和SPSS22.0(IBM Corp.)進行統(tǒng)計分析。計數(shù)資料比較采用χ2檢驗和Fisher's精確檢驗,連續(xù)資料比較采用t檢驗,繪制Kaplan-Meier曲線,并進行對數(shù)秩檢驗以評估患者生存。P<0.05被認為具有統(tǒng)計學意義。
在3個數(shù)據(jù)集(GSE55092、GSE121248 和GSE84044)中,其中119個為HBV相關的HCC 組織,其中252個為HBV 相關的組織。整合了3個數(shù)據(jù)集進行分析并去除批間差效應(圖1A)??偣泊_定了121個DEG,其倍數(shù)變化閾值>1.5 或<-1.5,調(diào)整后的P<0.01。圖1B中提供了DEG的熱圖。
圖1 去除微陣列數(shù)據(jù)中的批間差效應和DEG表達譜熱圖的構建Fig.1 Adjustment of batch effects in microarray expression data and heatmap of the expression profiles for the differentially expressed genes (DEGs).A:Removing the batch effects.B:Hierarchical clustering heatmaps of the DEGs screened on the basis of log|FC|>1.5 and a corrected P<0.01.The colors represent the expression level of the genes,and the higher the expression level,the darker the color(red,upregulated;green,downregulated).
記錄了富集分析的前10個結(jié)果(圖2)。BP 類別中顯著富集的GO功能是氧化還原過程、外源藥物分解代謝過程和環(huán)氧化酶P450 途徑。MF類別中顯著富集的GO功能是血紅素結(jié)合、鐵離子結(jié)合和氧化還原酶活性,作用于成對的供體,結(jié)合或還原分子氧。CC類別中顯著富集的GO功能是細胞外區(qū)域、細胞器膜和中間體。對于KEGG通路,基因主要富集在視黃醇代謝、代謝通路和咖啡因代謝中。
圖2 DEG 的GO 和KEGG 通路富集分析Fig.2 GO and KEGG pathway enrichment analyses of the DEGs.A:Biological process (BP).B:Cellular component(CC).C:Molecular function (MF).D:KEGG pathway analysis.a:Oxidation-reduction process;b:Exogenous drug catabolic process;c:Epoxygenase P450 pathway;d:Drug metabolic process;e:Regulation of attachment of spindle microtubules to kinetochore;f:Xenobiotic metabolic process;g:Steroid metabolic process;h:Gluconeogenesis;i:Cellular response to calcium ion;j:Androgen metabolic process.
構建一個包含112個節(jié)點和231連接線的PPI網(wǎng)絡(圖3A)。然后,使用來自Cytoscape的CytoHubba應用程序識別DEG 的中心基因(圖3B)。在這個網(wǎng)絡中,得到了10個節(jié)點和44連接線;這些節(jié)點代表10個基因:細胞周期蛋白依賴性激酶1(CDK1)、細胞周期蛋白B1(CCNBI)、核分裂周期80(NDC80)、拓撲異構酶(DNA)II α 170 000(TOP2A)、上皮細胞轉(zhuǎn)化序列2癌基因(ECT2)、細胞周期相關蛋白激酶2(NEK2)、肌動蛋白結(jié)合蛋白(ANLN)、泛素蛋白連接酶同源物(DTL)、核糖核苷酸還原酶M2(RRM2)和透明質(zhì)酸介導運動因子受體重組蛋白(HMMR)。同時,CDK1、CCNBI和NDC80是基于相互作用得分的前3個優(yōu)秀基因。
圖3 DEGs與前10個關鍵基因之間的PPI網(wǎng)絡構建Fig.3 Protein-protein interaction (PPI) network among the DEGs and the top 10 hub genes.A:PPI network.Circles represent genes,lines represent the interaction of proteins between genes,and the results within the circle represent the structure of proteins.Line colors indicate the interaction between the proteins.B:The most significant module was obtained from the PPI network of DEGs using CytoHubba,including 112 nodes and 231 edges.
在Wurmbach肝臟數(shù)據(jù)集中,3個hub基因顯著相關(圖4A)。根據(jù)cBioPortal數(shù)據(jù)庫(圖4B~D),3個關鍵基因的CDK1、CCNB1和NDC80之間存在顯著相關性(P<0.05)。Pearson 和spearman 得分均超過0.8。在Wurmbach肝臟數(shù)據(jù)集中,3個hub基因顯著相關(圖4A)。根據(jù)cBioPortal 數(shù)據(jù)庫(圖4B~D),3 個關鍵基因的CDK1、CCNB1和NDC80之間存在顯著相關性(P<0.05)。Pearson和spearman得分均超過0.8。
圖4 hub基因與表達的相關性Fig.4 Correlation among the 3 hub genes and their expressions.A-D:Correlations between CDK1,CCNB1 and NDC80 in HCC.
在TCGA數(shù)據(jù)集中,CDK1、CCNB1和NDC80在肝細胞癌中的mRNA 表達明顯高于鄰近組織(圖5A~C)。此外,Oncomine數(shù)據(jù)庫用于分析正常、肝硬化、肝細胞癌和肝細胞發(fā)育不良條件下hub 基因的表達(圖5D~F)。正常、肝硬化和肝細胞發(fā)育不良之間沒有顯著差異,但在HCC中表達顯著增加。在篩選了3個hub基因后,我們在Kaplan-Meier繪圖儀中對目標基因進行了OS分析。結(jié)果表明,這些hub基因的突變可能導致HCC 患者的OS較差,表明這些基因具有潛在的診斷價值(圖5G~I)。隨后,使用Oncomine,在四個不同的數(shù)據(jù)集中,我們還發(fā)現(xiàn)hub基因的表達在腫瘤組織中顯著上調(diào)(圖6A~C)。
圖5 hub基因在不同類型肝組織中的表達及CDK1、CCNB1和NDC80的ROC分析Fig.5 Expressions of CDK1,CCNB1 and NDC80 in different types of liver tissues and ROC analysis.A-C:Validation of the expression of the 3 genes at the mRNA and protein levels by the UALCAN database.D-F:Expression of CDK1,CCNB1 and NDC80 in normal,cirrhotic,HCC and hepatic dysplasia tissues in the Wurmbach liver dataset.G-I:Overall survival analyses of the hub genes using Kaplan–Meier Plotter online platform.
在17例肝癌中,CDK1、CCNB1和NDC80的表達明顯高于其配對的鄰近組織(P<0.001;圖7A~C)。此外,CCNB1與NDC80的表達呈高度正相關(P<0.001),而CDK1與CCNB1的表達與CDK1與NDC80的表達呈中度正相關(P<0.05;圖7D~F)。
圖7 驗證hub基因在臨床樣本中的表達Fig.7 Verification of the expression of the hub genes in clinical samples of HCC.A:CDK1.B:CCNB1.C:NDC80.***P<0.001 vs adjacent tissues(n=17).D-F:CDK1,CCNB1 and NDC80 expressions levels were highly correlated with one another(n=17).
肝癌的發(fā)生是一個復雜的生物學過程[16,17]。近年來,大量生物標志物被用于肝癌的早期診斷,尤其是慢性乙型肝炎病毒(HBV)[18-20],它是HCC的重要病因之一[21,22]。此外,本研究主要針對HBV感染患者,這與以往研究僅針對HCC患者有所不同。盡管一些研究使用了與本研究相似的數(shù)據(jù)集,但得到了不同的結(jié)果。首先,本研究使用“sva”包去除批次效應,減少分析誤差,使用不同插件分析hub 基因[23,24],本研究篩選出HBV-通過檢查GEO數(shù)據(jù)庫的3個芯片數(shù)據(jù)集來關聯(lián)HCC和正常組織。為了避免每個數(shù)據(jù)集在測量平臺和實驗室條件下的差異,我們使用“sva”包來消除批間差效應。在371份HBV陽性樣本中,與非腫瘤肝組織相比,在HCC組織中共鑒定出121個DEG。KEGG分析表明,DEG富含代謝途徑,如視黃醇代謝、咖啡因代謝和藥物代謝-細胞色素P450。這些結(jié)果表明,DEGs顯著影響細胞分裂和代謝途徑。氧化還原過程、外源性藥物分解代謝過程和紡錘體微管與動力連接的調(diào)節(jié)是前3個最顯著富集的BP。所有這些BP術語在維持生物體的正常生長和代謝方面都發(fā)揮著重要作用。
最后,表明10 個基因CDK1、CCNB1、NDC80、TOP2A、NEK2、ECT2、ANLN、DTL、RRM2、HMMR與癌細胞的生長和存活有關。據(jù)報道,TOP2A 可以在許多癌癥類型中誘導腫瘤的發(fā)展和進展。目前大多數(shù)研究表明,異常TOP2A表達誘導腫瘤的增殖、轉(zhuǎn)移和化療耐藥等惡性特征主要是通過DNA拓撲狀態(tài)的調(diào)節(jié)和復制。此外,TOP2A是一些最廣泛使用的用于治療人類癌癥的化療藥物的靶點[25,26]。NEK2通過其底物C-NAP1的可逆磷酸化調(diào)節(jié)有絲分裂中心體分離,在維持中心體完整性方面發(fā)揮著重要作用。癌細胞中過度暴露NEK2導致CIN、細胞增殖和耐藥性增強[27,28]。最近的一項研究還表明ECT2與早期復發(fā)性HCC疾病和較差的生存率顯著相關。敲除ECT2可顯著抑制Rho家族的小分子鳥苷酸三磷酸酶(Rho GTPases)的活性,促進細胞凋亡,減弱致癌性并降低HCC細胞的轉(zhuǎn)移能力[29,30]。ANLN缺乏誘導多核細胞數(shù)量增加,同時激活細胞凋亡信號和DNA損傷檢查點。此外,HBV感染通過抑制microRNA(miR)15a和miR 16 1的表達增加了ANLN的表達,這兩個都通過靶向其3個非翻譯區(qū)而被鑒定為ANLN 上游阻遏物。ANLN 通過減少細胞凋亡和DNA損傷的方式促進腫瘤生長。ANLN的表達水平顯著影響HCC患者的生存概率,可能代表一個有前景的預后生物標志物[31]。據(jù)報道,靶向DTL減少了細胞周期調(diào)節(jié)因子和染色體分離基因,導致細胞微核化增加。DTL耗竭抑制肝癌細胞生長、增加衰老和減少腫瘤發(fā)生[32,33]。據(jù)報道,RRM2是索拉非尼的新靶點,部分有助于其在HCC細胞中的抗癌活性[34]。
KEGG分析顯示,“視黃醇代謝”、“咖啡因代謝”和“p53信號通路”的富集程度最高,表明DEGs顯著影響細胞分裂和代謝通路,促進晚期復合物依賴性分解代謝過程、氧化還原過程和細胞是前3個具有最顯著富集的BP。腫瘤發(fā)生的主要原因可能是細胞周期失衡,導致細胞過度增殖。以前的研究報道,HBV感染可引起代謝信號通路的變化。結(jié)果可能會改變正常的肝細胞代謝并促進HBV相關HCC的進展。
除上述關鍵基因外,本研究重點關注CDK1、CCNB1和NDC80基因。CDK1與較差的HCC 總生存率相關(P=0.008)。CDK1高表達是1年和5年腫瘤復發(fā)的危險因素(P=0.013和P=0.017),表明CDK1可能在HCC進展中發(fā)揮重要的致癌作用[35]。CDK1是Serd/Thr 蛋白激酶的成員,對細胞G1/S和G2/M相變至關重要[36-38]。機制研究表明FOXM1直接結(jié)合CCNB1的啟動子區(qū)域并調(diào)節(jié)表達水平CCNB1 基因的轉(zhuǎn)錄水平。CCNB1的高表達與HCC患者的不良預后密切相關[39-41]。在既往研究中,HCC組織中NDC80的表達水平顯著高于鄰近組織。NDC80的組合式導致細胞凋亡增加和S期細胞周期停滯。NDC80通過減少細胞凋亡和克服細胞周期停滯來促進HCC 進展[42]。在本研究中,使用TCGA數(shù)據(jù)的進一步分析表明CDK1、CCNB1和NDC80之間存在密切相關性。HBV相關肝癌中3個hub基因的表達明顯高于鄰近組織。肝癌患者的生存率顯著相關。CDK1、CCNB1和NDC80在HCC組織中的高表達與預后不良和高復發(fā)風險有關。然而,這3個基因在肝癌和其他癌癥類型中的生物學功能,包括代謝和細胞周期,需要進一步研究。這可能表明它們作為治療肝癌或其他癌癥類型的靶標的效用,并提供有關它們相互作用的詳細信息。
總之,通過基因組水平和生物信息學分析,本研究確定了與肝癌發(fā)生有關的DEGs,同時,PPI網(wǎng)絡也揭示了DEGs在這些通路中的相互作用,并最終確定了3個基因標志物。只有少數(shù)研究集中在3個基因之間的聯(lián)系,本研究試圖做到這一點,一些結(jié)果與先前的研究一致,但NDC80與肝癌的關系鮮少被報道,以后的研究應該重點關注。雖然這些數(shù)據(jù)集在之前的研究中已經(jīng)部分使用,但本研究不同于之前的研究[10,23,43,44],本文綜合運用了3個數(shù)據(jù)集,而不是直接線上分析,相比之前的研究,增加了R包去除批間差效應,大大降低了外界因素導致的分析誤差,而且,此研究不僅僅停留于分析層面,并收集臨床樣本進行驗證,對采集的17對臨床樣本進行了RT-qPCR實驗驗證,結(jié)果表明與分析一致。本研究為有HBV感染史的患者提供了HCC的新病因和非腫瘤肝組織轉(zhuǎn)化為HCC組織的分子機制。重要的是,這些結(jié)果可能為這些患者的靶向治療提供一些潛在的治療靶點,有助于肝癌的早期診斷和治療。