蕭正康,馬丹丹,李中虎,張智勇,蔡 遜
原發(fā)性肝癌是臨床中的常見惡性腫瘤。2018年公布的全球癌癥數(shù)據(jù)顯示,在統(tǒng)計的185個國家36種惡性腫瘤中,肝癌新發(fā)病例數(shù)高達84.1萬例,排名第7位;死亡病例數(shù)78.1萬例,僅次于肺癌與胃癌[1]。肝癌具有早期癥狀不明顯、進展迅速、治療困難、預后不佳的特點。盡管目前有手術治療、介入治療、靶向治療等多種手段,肝癌的治療效果及預后仍然欠佳。因此尋找肝癌相關差異基因和新的腫瘤基因治療靶點顯得尤為迫切。
FAM72A(family with sequence similarity 72 member A)又稱p17、LMPIP或Ugene,由149個氨基酸組成,是一種神經(jīng)元蛋白,在生理條件下在其他組織中表達極低。既往研究[2-5]表明FAM72A與非神經(jīng)組織的腫瘤如結腸癌、乳腺癌、肺癌等多種惡性腫瘤的發(fā)生、發(fā)展和預后相關。但目前其在肝癌中的表達及功能尚不明確,該研究將結合多個數(shù)據(jù)庫分析FAM72A在肝癌中的表達及意義。
1.1 人類蛋白圖譜數(shù)據(jù)庫分析利用人類蛋白圖譜數(shù)據(jù)庫(human protein atlas,HPA)檢索FAM72A在細胞中的表達情況。HPA提供24 000種人類蛋白質的組織和細胞分布信息,利用免疫組化技術檢測每一種蛋白質在正常組織、腫瘤組織中的表達分布,并經(jīng)過專業(yè)人員閱讀和標引。在HPA中的”tissue”及”cell”選項卡中分別檢索“FAM72A”,獲得FAM72A在人正常組織中的表達概況和在腫瘤細胞中的定位。
1.2 基因差異表達分析利用GEPIA數(shù)據(jù)庫(gene expression profiling interactive analysis)及Oncomine數(shù)據(jù)庫檢索FAM72A在肝癌組織及癌旁組織中的表達差異。GEPIA是由北京大學開發(fā)的基于癌癥基因圖譜(the cancer genome atlas, TCGA)數(shù)據(jù)庫的在線數(shù)據(jù)分析網(wǎng)站。在GEPIA中檢索“FAM72A”基因,在“expression diy”選項卡中選擇”boxplot”,然后篩選腫瘤類型“LIHC”獲得肝癌組織與正常肝組織中的表達結果。Oncomine整合了高通量基因表達數(shù)據(jù)庫(gene expression omnibus,GEO)、TCGA數(shù)據(jù)庫和GTEx數(shù)據(jù)庫(the genotype-tissue expression)來源的數(shù)據(jù)。它是目前最大的腫瘤基因芯片數(shù)據(jù)庫和整合數(shù)據(jù)平臺。在Oncomine數(shù)據(jù)庫中篩選“FAM72A”基因,設定條件為“normal vs cancer”,選定腫瘤類型為“l(fā)iver cancer”,可以獲得各個子研究中肝癌組織與正常組織中的表達情況,并進行薈萃分析。
1.3 FAM72A表達量與病理特征的關系LinkedOmics數(shù)據(jù)庫是基于包含TCGA在內的多數(shù)據(jù)庫的在線分析平臺,可用于分析基因的mRNA、蛋白表達、目的基因與臨床病理特征關系、甲基化等數(shù)據(jù)。本研究利用LinkedOmics數(shù)據(jù)庫分析TCGA數(shù)據(jù)庫中肝癌患者病理特征與FAM72A表達水平的關系。
1.4 生存分析Kaplan-Meier Plotter數(shù)據(jù)庫分析目的基因相關生存預后。Kaplan-Meier Plotter數(shù)據(jù)庫是一個在線生存分析平臺,目前能夠評估5.4萬個基因在21種惡性腫瘤中的生存預后。在Kaplan-Meier Plotter中選擇”mRNA-seq”中的“l(fā)iver-caner”數(shù)據(jù)庫,檢索”FAM72A”基因,選擇腫瘤類型“l(fā)iver hepatocellular carcinoma”,選擇按中位數(shù)“median”進行分組。分別繪制肝癌中FAM72A高、低表達組患者的生存曲線。
1.5 FAM72A在肝癌組織中的共表達基因cBioPortal數(shù)據(jù)庫(cBio Cancer Genomics Portal)是一個可視化、多維度分析癌癥基因組數(shù)據(jù)網(wǎng)站。整合了miRNA表達、DNA甲基化等多種數(shù)據(jù)類型。本研究利用其分析TCGA數(shù)據(jù)庫中FAM72A在肝癌組織中的共表達基因(spearman相關系數(shù)的>0.3為正相關,>0.8為高度正相關)。
1.6 FAM72A共表達基因的GO富集功能分析及KEGG通路富集分析DAVID數(shù)據(jù)庫(The Database for Annotation, Visualization and Integrated Discovery)整合了生物學數(shù)據(jù)和分析工具,提供系統(tǒng)綜合的生物功能注釋信息。將與FAM72A正相關的共表達基因行GO生物途徑聚類分析和KEGG通路富集分析。
1.7 FAM72A共表達基因集的調控網(wǎng)絡構建String數(shù)據(jù)庫目前收錄了5 090個物種,2 460萬種蛋白質相互作用的信息。這些聯(lián)系中有實驗證實的,也有數(shù)據(jù)預測的結果。在STRING數(shù)據(jù)庫中搜索蛋白質名稱“FAM72A”,選擇物種“Homo sapiens”,獲得FAM72A在人類細胞中的蛋白相互作用網(wǎng)絡,同時STRING數(shù)據(jù)庫將根據(jù)文獻報道、數(shù)據(jù)庫收錄的數(shù)據(jù)、分子間共表達相關性等多方面證據(jù)預測蛋白分子間是否存在相互作用,并給出綜合得分(score),分數(shù)越接近1,分子間存在相互作用的可信度越大。分數(shù)越接近0說明目前證據(jù)不足,可信度越低。使用STRING數(shù)據(jù)的“Multiple Proteins Search”功能構建人肝癌組織中與FAM72A表達高度正相關(spearman相關系數(shù)>0.8)的共表達分子調控網(wǎng)絡。
1.8 統(tǒng)計學處理本研究利用相應數(shù)據(jù)庫提供的在線分析平臺進行統(tǒng)計學分析,兩組間差異的比較采用wilcox檢驗。多組連續(xù)型獨立樣本的比較采用Kruskal-Wallis檢驗。等級資料的相關分析采用spearman秩相關檢驗。生存分析以Kaplan-Meier法繪制患者生存曲線,采用Log-rank檢驗進行組間比較。P<0.05為差異具有統(tǒng)計學意義。
2.1 FAM72A在人體組織中及腫瘤細胞中的整體表達概況HPA數(shù)據(jù)庫顯示在統(tǒng)計的43種人體組織中,F(xiàn)AM72A mRNA高表達的組織器官前三位分別為淋巴結(pTPM=19.3)、睪丸(pTPM=15.9)及脾臟(pTPM=12.5),在肝臟(pTPM=1.1)中的表達僅排名第35位(圖1)。提示在人正常肝組織中FAM72A低表達。進一步分析FAM72A在多種腫瘤細胞中的表達定位,結果提示FAM72A表達于囊泡、細胞膜及細胞質中(圖2)。
圖1 FAM72A在人體不同正常組織及器官中的表達
圖2 腫瘤細胞中FAM72A的表達定位
2.2 FAM72A在肝細胞癌及正常肝組織中的表達差異通過GEPIA分析TCGA數(shù)據(jù)庫及GTEx數(shù)據(jù)庫中合計369個肝癌樣本及160個正常肝組織樣本中FAM72A的表達水平,結果顯示肝癌組織中的FAM72A表達水平較正常肝組織升高,差異具有統(tǒng)計學意義(Log2FC Cutoff=0.8,P<0.001)。進一步通過Oncomine數(shù)據(jù)庫驗證,數(shù)據(jù)庫中有3項子研究符合篩選條件。3項子研究分別為Guichar Liver、Guichar Liver2[6]及TCGA Liver,共包含221個肝癌組織樣本及171個正常肝組織樣本。對其進行薈萃分析,結果顯示FAM72A在肝癌組織中的表達水平高于正常肝組織(P=2.49×10-18)。見圖3。
圖3 FAM72A在人肝癌組織中的表達與人正常肝組織間的表達差異
2.3 FAM72A的表達與肝癌患者臨床病理特征間的聯(lián)系LinkedOmics分析結果[7]如表1及圖4所示,F(xiàn)AM72A表達量與患者年齡(spearman correlation,P=6.792×10-3)、病理分期(Kruskal-Wallis Test,P=1.817×10-2)、T分期(Kruskal-Wallis Test,P=2.153×10-2)、人種(Kruskal-Wallis Test,P=3.379×10-2)相關,與N分期(Wilcox Test,P=5.228×10-1)、M分期(Wilcox Test,P=5.930×10-1)等無關。
表1 FAM72A在人肝癌中的表達量與臨床病理特征的關系
圖4 FAM72A在人肝癌中的表達量與臨床病理特征的關系
2.4 FAM72A表達水平與患者生存預后關系Kaplan-Meier Plotter結果顯示在全部364個臨床病例中,F(xiàn)AM72A高表達組患者與低表達組患者相比,其預后生存更差,差異具有統(tǒng)計學意義(P=0.000 12)。其中低表達組患者中位生存期為71.0個月,而高表達組患者中位生存期僅為37.8個月(圖5)。
圖5 FAM72A高表達組患者與低表達組患者的生存曲線
2.5 尋找肝癌組織中FAM72A的共表達的基因cBioportal搜索結果中spearman秩相關系數(shù)大于0.3的共表達基因共有1 871個。其中高度正相關的共表達基因(spearman秩相關系數(shù)>0.8)有KIF14(rs=0.862)、NEK2(rs=0.856)、CENFP(rs=0.854)、FAM72D(rs=852)、FAM72B(rs=0.850)、NUF2(rs=0.841)、TOP2A(rs=829)、ANLN(rs=0.826)、SOG1(rs=0.820)及CDCA8(rs=0.801)等27個基因。
2.6 利用DAVID進行共表達基因的GO富集功能注釋及KEGG通路富集分析結果顯示1 871個共表達基因中,有1 833個被收錄于DAVID數(shù)據(jù)庫。對其進行GO生物途經(jīng)聚類分析,共表達基因主要參與DNA轉錄、DNA轉錄的調控、細胞分裂、細胞核分裂等過程(FDR<0.05)(圖6)。KEGG通路富集分析顯示這些基因參與了細胞周期、RNA轉運、剪接體、DNA復制、P53信號通路、堿基切除修復等相關通路(FDR<0.05)(圖7)。
圖6 共表達基因集的GO生物途徑聚類分析
圖7 共表達基因集的KEGG通路富集分析
2.7 String數(shù)據(jù)庫網(wǎng)站分析人源FAM72A可能存在的蛋白相互作用網(wǎng)絡結果顯示,在人類細胞中與FAM72A蛋白相互作用的蛋白網(wǎng)絡中共有10個蛋白(P=0.0151)。分別為DCLRE1B(score=0.562)、AURKA(score=0.554)、FAM115C(score=0.544)、C1orf74(score=0.479)、NDC80(score=0.469)、CDCA8(score=0.452)、TTK(score=0.439)、ADORA3(score=0.437)、AURKB(score=0.430)、UBALD2(score=0.420);其中FAM72A與DCLRE1B及AURKA的綜合得分最高(圖8)。進一步建立FAM72A在肝癌中高度相關的共表達分子的調控網(wǎng)絡。見圖9。
圖8 FAM72A在人細胞中存在的蛋白相互作用網(wǎng)絡
圖9 FAM72A在人肝癌組織中高度正相關的共表達分子調控網(wǎng)絡
FAM72A在多種腫瘤中出現(xiàn)表達升高。目前研究[4]表明FAM72A可以與堿基切除修復蛋白UNG2的NH2末端結合,而UNG2的NH2末端已經(jīng)被證明可以與PPM1D磷酸酯酶相互作用從而抑制堿基切除修復[8],但目前體外實驗尚未能證明FAM72A能夠直接調控UNG2的酶活性。其在肝癌中的作用尚不明確,需要進一步研究FAM72A在腫瘤中的作用。
本研究通過利用多個數(shù)據(jù)庫分析了FAM72A在肝癌中的表達及意義。首先HPA數(shù)據(jù)庫顯示FAM72A在正常肝組織中低表達,其在腫瘤細胞中主要定位于囊泡、細胞膜及細胞質。其次Oncomine數(shù)據(jù)庫及GEPIA分析包含TCGA數(shù)據(jù)庫在內的多項研究數(shù)據(jù)均顯示肝癌中FAM72A的mRNA表達水平升高。利用了LinkeOmics平臺分析結果顯示FAM72A的表達與肝癌患者的部分病理特征相關。FAM72A表達水平與人種及年齡相關且FAM72A高表達的患者其病理分期更晚。但結果并未提示FAM72A高表達肝癌患者更容易發(fā)生遠處轉移,這可能是由于數(shù)據(jù)庫中遠處轉移患者病例數(shù)較少。為了探究FAM72A表達與肝癌患者的生存預后關系,本研究組通過Kaplan-Meier Plotter繪制了FAM72A高表達組與低表達組的生存曲線。結果顯示肝癌患者中FAM72A高表達組的中位生存時間較低表達組縮短。FAM72A高表達提示肝癌患者的預后生存更差。FAM72A有可能作為判斷肝癌患者預后的新指標。
為了尋找FAM72蛋白在人細胞中相互作用的蛋白,本研究組利用STRING數(shù)據(jù)庫查找與FAM72A相互作用的蛋白。發(fā)現(xiàn)在人細胞中與FAM72A直接相互作用的蛋白有DCLRE1B、AURKA、FAM115C等10個蛋白,其中FAM72A與DCLRE1B與AURKA相關性最高。DCLRE1B(又稱APOLLO或SNM1B,目前研究顯示其與DNA損傷反應及和維持染色體端粒穩(wěn)定性上有著重要作用[9-10]。而AURKA則編碼的是一種定位在中心體上的絲氨酸/蘇氨酸激酶。該蛋白在細胞的有絲分裂中通過參與中心體的復制、分離和成熟等過程,對染色體平均分配到兩個子代細胞起著重要的作用[11-12]。有研究[13]表明,過表達AURKA基因可導致染色體不穩(wěn)定、促進細胞惡性轉化。后續(xù)還需要更多的研究來探索FAM72A與它們之間的作用方式。
同時本研究組利用了cBioPortal在分析了TCGA數(shù)據(jù)庫中的372個病例及其基因芯片數(shù)據(jù),以此尋找在肝癌組織中可能與FAM72A共同作用的共表達基因。最后獲得了肝癌中FAM72A的1871個共表達基因。為了進一步了解這些基因在肝癌組織中主要參與了哪些生物途經(jīng)及通路。本次研究使用DAVID數(shù)據(jù)庫對這些基因進行了聚類分析。數(shù)據(jù)庫顯示包含F(xiàn)AM72A在內的這些共表達基因主要參與了DNA轉錄、DNA轉錄的調控、細胞分裂、細胞核分裂、RNA聚合酶Ⅱ啟動子轉錄的負調控、DNA復制、DNA修復等重要途徑。提示了這些共表達基因在維持正常細胞分裂、DNA復制及轉錄的過程中共同發(fā)揮著重要的作用。通過KEGG通路富集分析,本研究發(fā)現(xiàn)了這些基因參與了細胞周期調控、RNA轉運、DNA復制、堿基切除修復以及P53信號等通路。進一步提示這些共表達基因參與細胞的增殖、腫瘤發(fā)生過程中的多個相關通路。
最后為了研究肝癌組織中FAM72A共表達分子間的相互作用關系。本研究組選取了與FAM72A高度正相關的27個共表達分子,利用STRING數(shù)據(jù)庫構建了它們之間的分子調控網(wǎng)絡。數(shù)據(jù)庫推測這些高度相關共表達分子中CDCA8可能與FAM72A間存在直接作用關系。CDCA8又稱人類細胞分裂周期相關基因8,其編碼的蛋白稱為Borealin。目前研究發(fā)現(xiàn)它與INCENP和Survivin共同構成了染色體移動復合物(chromosomal passenger complex, CPC)。CDCA8在腫瘤及未分化的人細胞中呈高表達,但在其他正常細胞中低表達或無表達。Borealin在穩(wěn)定雙極紡錘體、矯正動粒結合位點、定位染色體移動復合物到著絲粒方面等起著重要的作用[14]。有學者研究發(fā)現(xiàn)CDCA8在肝細胞癌中出現(xiàn)表達上調,且與腫瘤分化程度、腫瘤分期、腫瘤復發(fā)等因素相關,而高表達CDCA8的患者預后生存更差[15]。FAM72A與CDCA8的表達高度相關(rs=0.801),但目前尚無實驗和文獻報道兩者間的作用關系。本研究根據(jù)STRING數(shù)據(jù)庫結果推測CDCA8可能是FAM72A參與共表達分子網(wǎng)絡功能的重要節(jié)點。
綜上,本研究組綜合利用了多個數(shù)據(jù)庫,發(fā)現(xiàn)FAM72A在肝癌中高表達且其高表達FAM72A的患者預后及病理分期更差。FAM72A有可能成為判斷肝癌患者預后的新標志物。本研究初步探索了FAM72A及其共表達基因在肝癌組織中可能參與的生物途經(jīng)、通路。構建共表達分子之間的調控網(wǎng)絡,為后續(xù)研究FAM72A在肝癌中的作用提供了思路和方向。