張從紅 馮華君 周春玲 王丁婷 趙飛鵬 趙沖 許勝恩 覃綱
頭頸部惡性腫瘤是一類常見的嚴重影響人類健康的疾病,據(jù)2018年全球癌癥統(tǒng)計,每年有超過80萬新發(fā)病例被診斷[1],且大約90%的病例在病理上屬于鱗狀細胞癌。目前,大多數(shù)HNSCC在初診時即表現(xiàn)為局部晚期或伴有淋巴結轉移,患者通常被給予手術、放療、化療或幾種干預措施相結合的治療方案,但約有40%~60%的經治患者無法從上述治療中受益,主要原因為腫瘤局部復發(fā)、向身體其他部位轉移以及治療抵抗[2,3]。因此,研究HNSCC發(fā)生、發(fā)展的潛在機制,鑒定HNSCC的特異性分子標志,有利于HNSCC的早期診治與預后分析,最終提高患者生存率、改善生存質量。
近年來,隨著高通量測序技術的進步與基因芯片的興起,生物信息學步入蓬勃發(fā)展的階段,這為基因水平研究疾病提供了便捷。大量基因改變形成的差異基因被證實與腫瘤的發(fā)生、發(fā)展有關,基因表達譜芯片已被廣泛用于探索與腫瘤診斷、預后和治療相關的差異基因[4,5]。目前,許多研究者在HNSCC相關生物信息學分析方面作出了貢獻。例如,Yang B等[6]基于GSE6791數(shù)據(jù)集鑒定了15個HNSCC相關hub基因,其中 4 個基因(PSMA7、ITGA6、ITGB4、APP)與HNSCC預后差相關,推測其為HNSCC診斷及預后的潛在生物學標志。Yang K等[7]對GEO數(shù)據(jù)集(GSE6631、GSE58911)和 TCGA 中 HNSCC 數(shù)據(jù)進行系統(tǒng)的生物信息學分析,結果表明SERPINE1、PLAU和ACTA1在調節(jié)HNSCC的發(fā)生和進展中起重要作用,可作為HNSCC診斷及預后的關鍵生物標志。此外,Zhao L 等[8]基于 GSE6631、GSE58911、GSE83519數(shù)據(jù)集進行生信分析,鑒定了SPP1、ITGA6、TMPRSS11D、MMP1、LAMC2、FAT1、ACTA1、SERPINE1和CEACAM1共9個HNSCC相關hub基因。然而,上述研究對于HNSCC關鍵基因的鑒定結果并不一致,分析其原因可能是樣本、研究人員以及平臺不同,導致基因芯片數(shù)據(jù)不穩(wěn)定造成的。
本研究適當增加樣本量及數(shù)據(jù)集,對5組HNSCC相關表達譜數(shù)據(jù)進行差異性分析,提取5組芯片數(shù)據(jù)中同時出現(xiàn)的差異表達基因作為后續(xù)分析的基礎,以期提高原始數(shù)據(jù)的穩(wěn)定性以及篩選結果的可靠性。通過系統(tǒng)的生物信息學分析,鑒定HNSCC的關鍵基因及信號通路,初步探索其發(fā)病機制,為HNSCC早期診斷、預后及靶向治療提供潛在的分子生物學標志。
HNSCC與癌旁正常組織的基因芯片數(shù)據(jù)信息從GEO數(shù)據(jù)庫中查找獲取。本研究涉及的芯片數(shù)據(jù)為 GSE29330、GSE59102、GSE31056、GSE30784、GSE 58911,種屬均為homo sapiens,類型均為expression profiling by array,樣本大小、分類及平臺信息見表1。
表1 HNSCC相關GEO數(shù)據(jù)信息
2.1 原始數(shù)據(jù)處理及差異基因篩選
在 R(version 3.5.2)語言環(huán)境中,利用 limma、impute、gplots等軟件包處理5組HNSCC原始數(shù)據(jù),多個探針對應一個基因的情況表達值取均值。處理后數(shù)據(jù)采用經驗貝葉斯檢驗分析基因在HNSCC與正常組織中表達的差異性,本研究定義差異基因篩選標準為P<0.05且|log2差異倍數(shù)|>1。采用VennDiagram軟件包提取5組芯片數(shù)據(jù)中共有差異基因進行后續(xù)分析。
2.2 差異基因富集分析
DAVID數(shù)據(jù)庫是一款廣泛使用的在線免費基因功能注釋、可視化、數(shù)據(jù)整合分析軟件,本研究將差異表達基因導入DAVID V6.8,通過在線分析的方式獲得上調差異基因在GO與KEGG通路中具體的富集情況;用同樣的方法研究下調差異基因。
2.3 蛋白質相互作用的PPI網絡分析
將差異表達基因導入String11.0,有效結合分數(shù)的值設定為0.7以上,建立PPI網絡以反映蛋白質之間的作用關系。去除網絡中與其他蛋白沒有相互作用的孤立節(jié)點后,把網絡關系表準確地導入到Cytoscape 3.7.1軟件,建立可視化網絡模型,以degree得分篩選hub基因。
2.4 hub基因生存分析及功能富集分析
基因表達譜交互式分析(gene expression profiling interactive analysis,GEPIA)是一個基于TCGA和GTEx項目的在線生信分析工具(http://gepia.cancerpku.cn/),能夠運用可視化分析方法剖析大量的核糖核酸測序的表達譜數(shù)據(jù),這些數(shù)據(jù)通常來源于GTEx與TCGA中多種多樣的腫瘤以及部分正常樣本。本研究采用GEPIA在線分析hub基因,篩選與HNSCC總體生存率相關的基因,分析其在HNSCC中的差異性表達,并對這些基因進行通路富集分析。
經R軟件分析,分別從數(shù)據(jù)集GSE29330、GSE59102、GSE31056、GSE30784、GSE58911 中提取到差異表達基因 2198、2840、2124、1799、637 個(表2)。全面系統(tǒng)地剖析5個數(shù)據(jù)集中的差異表達基因,經過VennDiagram研究分析后獲得215個共同差異表達基因,其中上調基因數(shù)量較少,共有79個,其余均為表達下調的基因(圖1)。
表2 5組HNSCC數(shù)據(jù)集中的差異表達基因數(shù)目(P<0.05,|log2差異倍數(shù)|>1)
圖1 差異表達基因韋恩圖
為了了解差異基因參與的生物過程、在細胞中的組成以及分子水平的功能,本次研究在DAVID V6.8數(shù)據(jù)庫的基礎上,系統(tǒng)地剖析了GO富集情況,所得結果如圖2與圖3所示。細胞粘附、細胞外基質組織、表皮發(fā)育等40個GO條目中均有上調基因參與(P<0.01),圖中僅顯示FDR<0.01的前 13個GO條目(圖2)。而下調基因主要富集在角質化、胞外區(qū)、氧化還原酶活性等18個GO條目(P<0.01)(圖 3)。
圖2 上調基因GO富集分析結果(P<0.01且FDR<0.01)
圖3 下調基因GO富集分析結果(P<0.01)
為了從整體上了解差異基因的作用方式,本文在DAVID V6.8的基礎上,全面地剖析了其KEGG通路富集狀況,具體的結果如圖4與圖5所示。由此可見,上調基因主要在包括黏著斑在內的14條信號通路上富集(P<0.05),詳盡的通路信息如圖4所示。下調基因主要富集在包括代謝途徑在內的6信號通路(P<0.05),詳見圖 5。
圖4 上調基因KEGG通路富集分析結果(P<0.05)
圖5 下調基因KEGG通路富集分析結果(P<0.05)
差異基因導入String數(shù)據(jù)庫,設置結合分數(shù)>0.7,去除孤立結節(jié),生成PPI網絡關系表,Cytoscape軟件可視化PPI網絡(圖6);基于PPI網絡分析篩選出16個degree得分≥7的hub基因,分別為:ITGA5、COL1A1、COL4A2、COL4A1、ITGA3、COL12A1、CXCL8、 COL10A1、 COL5A2、 LAMB3、 LAMC2、MMP13、MMP3、ITGA6、PLAUR、SERPINE1(表 3)。
圖6 差異基因編碼蛋白的PPI網絡(結合分數(shù)>0.7)
表3 PPI網絡中得分較高的Hub基因(Degree得分≥7)
為了評估hub在HNSCC中表達的意義,本研究將hub基因導入GEPIA在線分析,結果顯示PLAUR(P=0.0092)、ITGA5(P=0.0024)、LAMB3(P=0.011)、LAMC2(P=0.013)、SERPINE1(P=0.0025)、ITGA6(P=0.036)、ITGA3(P=0.045)的差異性表達與HNSCC 總體生存率相關(P<0.05)(圖 7)。與正常頭頸部組織相比,上述基因在HNSCC中表達上調(P<0.01)(圖8),這一結果與基于GEO數(shù)據(jù)庫的差異分析結果一致。為了初步探索上述基因的作用機制,我們將其導入DAVID V6.8進行通路富集分析,結果顯示這7個與HNSCC總體生存率相關的hub基因在多條信號通路上富集,表4列出富集最顯著(富集基因數(shù)目最多且P值最小)的前3條信號通路。
圖7 HNSCC中 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 表達與患者預后的生存曲線(P<0.05)
圖8 HNSCC(T)與正常組織(N)中 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 表達的差異(P<0.01)
表4 7個與HNSCC總體生存率相關的hub基因的KEGG通路富集分析(P<0.01)
基于基因芯片及高通量測序技術的生物信息學分析方法為基因水平研究疾病提供了便捷,為了挖掘HNSCC發(fā)生、發(fā)展的關鍵基因,初步探索其發(fā)病機制,本研究對GEO數(shù)據(jù)庫中5個HNSCC數(shù)據(jù)集進行了系統(tǒng)全面的生物信息學分析。共鑒定了215個基因在HNSCC與癌旁正常組織中呈現(xiàn)差異性表達,其中上調基因數(shù)量較少,共有79個,其余均為表達下調的基因。此外,還剖析了這兩種差異基因的GO與KEGG通路富集情況,從整體上了解差異基因的主要功能及作用方式。借助String數(shù)據(jù)庫建立PPI網絡,掌握了差異基因編碼蛋白之間的互相作用,以degree得分≥7篩選出16個hub基因。接著,將16個hub基因導入GEPIA在線分析以進一步了解hub基因在HNSCC中差異性表達的臨床意義,發(fā)現(xiàn) PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 7個hub基因在HNSCC中高表達,且與HNSCC總體生存率相關。KEGG通路富集分析發(fā)現(xiàn)上述基因在3條癌癥相關信號通路上高度富集。
許多研究表明,纖溶酶原/纖溶酶系統(tǒng)尤其是其成員 uPA(PLAU)、uPAR(PLAUR)、PAI-1(SERPINE1)通過調節(jié)細胞外基質降解、生長因子和金屬蛋白酶的激活、細胞遷移等對于組織的修復與重塑有重要意義。對于癌癥而言,該系統(tǒng)可調節(jié)腫瘤的生長、侵襲、轉移以及血管生成和纖維化的基本過程[9,10]。有研究者對結直腸癌中纖溶酶原激活系統(tǒng)蛋白的表達情況進行免疫組化定量檢測,并且進一步剖析了臨床病理參數(shù)與上述蛋白表達情況之間的相關性,研究結果顯示,結直腸癌的發(fā)展和肝轉移與uPAR、PAI-1等基因的過表達存在緊密聯(lián)系[11]。不僅如此,有研究發(fā)現(xiàn)uPAR、PAI-1在口腔鱗狀細胞癌中的表達情況與患者生存率呈負相關[12,13]。結合本研究及上述研究成果,我們推測PLAUR、SERPINE1在HNSCC中高表達與患者預后差相關。ITGA5、ITGA6、ITGA3編碼產物為整合素α鏈家族成員。研究表明,膽囊癌的進展與ITGA6過表達存在相關性;此外,膽囊癌的淋巴結轉移、腫瘤細胞分化差等也與該基因存在一定的聯(lián)系,ITGA6可以作為膽囊癌預后不良的分子標志[14]。Huang Y等[15]研究者采用蛋白質印跡及免疫組織化學分析發(fā)現(xiàn)ITGA3在肝內膽管癌細胞系和肝內膽管癌患者中過度表達,高表達的ITGA3不僅可以促進肝內膽管癌細胞增殖和細胞周期進程,而且對淋巴結轉移和腫瘤的進展也有促進作用,提示ITGA3的異常表達與肝內膽管癌患者不良預后相關?;騆AMB3與LAMC2編碼產物為層粘連蛋白,是基底膜蛋白家族的成員。作為基底膜區(qū)的主要成分,LAMB3被發(fā)現(xiàn)與HNSCC淋巴結轉移陽性密切相關,抑制LAMB3可通過下調EMT相關蛋白減少細胞遷移和侵襲;此外,抑制LAMB3能增加順鉑在HNSCC細胞中的細胞毒性[16]。而LAMC2在結直腸癌中表達增高,與結直腸癌患者不良預后也存在一定的相關性[17]。結合本研究及上述研究成果,我們推測PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6 與 ITGA3 對 HNSCC 癌細胞增殖能力及侵襲力有舉足輕重的意義,且與HNSCC患者不良預后相關,是HNSCC早期診斷、靶向治療的潛在分子標志。
此外,本研究將 PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3 7 個與 HNSCC 總體生存率相關的hub基因導入DAVID V6.8數(shù)據(jù)庫,進而剖析其通路富集情況,研究結果表明這些基因主要富集在ECM-受體相互作用。此外,黏著斑與PI3KAkt信號通路中也存在這些基因的富集。ECM即細胞外基質,由一個復雜的大分子網絡組成,它們可以形成三維超分子結構,有特殊的生化特征以及許多生物力學優(yōu)勢,通過連接特定受體如整聯(lián)蛋白、同癸烷和盤狀結構受體可以協(xié)助細胞的增殖、遷移以及分化[18,19]。ECM可調節(jié)組織的發(fā)育和穩(wěn)態(tài),其調節(jié)失調有助于腫瘤的進展[20,21]。此外,黏著斑及PI3K-Akt信號通路也是重要的腫瘤相關信號通路,參與多種惡性腫瘤的發(fā)生、發(fā)展[22-24]。Fan QC等[25]研究發(fā)現(xiàn),敲除ITGA5可抑制口腔鱗狀細胞癌中癌細胞的增殖與遷移,而敲除ITGA5后磷酸化-PI3K、磷酸化-AKT和磷酸化-ERK的表達也隨之顯著下降,表明ITGA5能夠激活PI3K/AKT信號通路進而有助于口腔鱗狀細胞癌的發(fā)展。此外,Zhang H等[26]多位學者的研究結果表明,LAMB3能夠調節(jié)PI3K/Akt信號通路,進而介導胰腺癌的凋亡、增殖、侵襲和轉移行為。結合本研究及上述研究成果,我們推測上述3條信號通路對闡明HNSCC關鍵基因在HNSCC中的作用機制有重要意義。
綜上,利用生物信息學方法,能系統(tǒng)全面地剖析HNSCC的關鍵基因及信號通路。在本研究中,分別鑒定了7個與HNSCC發(fā)生、發(fā)展及預后相關的關鍵基因(PLAUR、ITGA5、LAMB3、LAMC2、SERPINE1、ITGA6、ITGA3),初步探索其作用機制,為 HNSCC 早期診治和預后分析提供了潛在的分子標志。然而,本研究所得結論尚缺乏驗證,有待于進一步的體、內外實驗研究。