郝 謙,陳 勇
膿毒癥是一種異質(zhì)性、復(fù)雜的病理生理綜合征,可引起多器官功能障礙,死亡率高。據(jù)估計(jì),全世界每年約有800萬(wàn)人死于膿毒癥,主要原因?yàn)槟摱景Y休克,而循環(huán)、細(xì)胞和代謝異??娠@著增加死亡率[1,2]。這些不良的結(jié)果可能是由于缺乏對(duì)膿毒癥分子機(jī)制的理解。近年來(lái)發(fā)展的高通量測(cè)序技術(shù)可以快速明確膿毒癥發(fā)病機(jī)制,以及膿毒癥相應(yīng)的標(biāo)記物,但是傳統(tǒng)的篩選差異基因表達(dá)極易遺漏調(diào)控過(guò)程中的核心分子,同時(shí)僅基于差異基因篩選難以對(duì)生物系統(tǒng)整體探索研究。通過(guò)系統(tǒng)的繪制個(gè)體生物網(wǎng)絡(luò)互作圖可以精準(zhǔn)地尋找出與預(yù)后相關(guān)的核心分子[3,4],加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)可以有效地解決上述問(wèn)題[5,6]。筆者擬利用該方法探索出與膿毒癥發(fā)生、預(yù)后相關(guān)的關(guān)鍵基因,為今后的研究提供線索。
選擇Gene Expression Omnibus(GEO)數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/geo/)。GEO數(shù)據(jù)庫(kù)為目前最常用的非腫瘤研究數(shù)據(jù)庫(kù),其內(nèi)含有比較齊全及數(shù)據(jù)量最多的數(shù)據(jù)庫(kù)。
1.2.1 數(shù)據(jù)檢索方法與要求
通過(guò)GEO數(shù)據(jù)庫(kù)檢索膿毒癥,下載時(shí)間:2020年12月28日。
納入分析數(shù)據(jù)集要求為:①數(shù)據(jù)量大于100;②含有膿毒癥患者和健康對(duì)照組;③膿毒癥患者有預(yù)后情況。
1.2.2 加權(quán)基因共表達(dá)網(wǎng)絡(luò)構(gòu)建和模塊篩選
WGCNA是一種常用的基因共表達(dá)網(wǎng)絡(luò)篩選技術(shù),已被廣泛應(yīng)用于識(shí)別和篩選各種疾病生物標(biāo)記物[7]。第一步,對(duì)每個(gè)樣本基因名稱(chēng)進(jìn)行轉(zhuǎn)換,對(duì)基因表達(dá)值進(jìn)行質(zhì)檢,檢測(cè)是否有缺失值,同時(shí)對(duì)每個(gè)樣本表達(dá)值進(jìn)行層次聚類(lèi)分析,篩選是否存在離群樣本,基于上述篩選,對(duì)缺失基因表達(dá)值及離群樣本予以剔除。第二步,通過(guò)R軟件中的“WGCNA”分析包構(gòu)建基因共表達(dá)網(wǎng)絡(luò)[4,8]。第三步,構(gòu)建基因之間的相關(guān)矩陣,確定軟閾值大小。第四步,構(gòu)建拓?fù)渲丿B矩陣(topological overlap matrix,TOM),用于度量基因的網(wǎng)絡(luò)連通性[3,9]。第五步,基于TOM數(shù)據(jù)將表達(dá)譜相似的基因歸為同一個(gè)基因模塊,并進(jìn)行連鎖層次聚類(lèi)[4,8]。第六步,計(jì)算每個(gè)模塊在每個(gè)數(shù)據(jù)集中所占權(quán)重,計(jì)算出權(quán)重最大模塊,用于后續(xù)研究。
1.2.3 核心基因篩選
在對(duì)基因模塊分析時(shí),通過(guò)對(duì)上述模塊權(quán)重計(jì)算獲得占比最大模塊TURQUOISE模塊,為進(jìn)一步識(shí)別模塊中核心靶基因,首先通過(guò)對(duì)模塊基因進(jìn)行皮爾森相關(guān)分析,并進(jìn)一步通過(guò)STRING(search tool for recurring instances of neighbouring genes)網(wǎng)站進(jìn)行了蛋白與蛋白之間的相互作用分析(protein protein interaction,PPI)(選擇連接數(shù)最大10個(gè)),并利用Cytoscape軟件中的MCODE插件對(duì)模塊中基因進(jìn)一步評(píng)分篩選。綜合上述的3個(gè)結(jié)果篩選真正的核心靶基因,SCAP。
1.2.4 GO功能學(xué)、KEGG通路分析和基因富集分析
為了解TURQUOISE模塊主要涉及的功能學(xué)和通路。采用標(biāo)準(zhǔn)富集計(jì)算方法進(jìn)行基因本體(gene ontology,GO)功能分析和京都基因與基因組百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析用以篩選與其相關(guān)的功能和通路。為了解SCAP基因在膿毒癥患者中的潛在功能,利用實(shí)驗(yàn)所納入的2個(gè)數(shù)據(jù)集進(jìn)行基因富集分析(gene set enrichment analysis,GSEA)。其注釋基因集c2.cp.kegg.v5.2,選擇基因通路列表(gene lists per pathway,GMT)數(shù)據(jù)庫(kù)作為參考基因集。將P<0.05和富集評(píng)分(enrichment score,ES)>0.3作為截止標(biāo)準(zhǔn),并選擇2個(gè)數(shù)據(jù)集中一致的通路認(rèn)為是其可能影響通路。
統(tǒng)計(jì)分析采用的是SPSS 24.0,GraphPad Prism 7.0和R 3.4.1,同時(shí)用上述軟件進(jìn)行圖像生成處理。t檢驗(yàn)用來(lái)分析兩個(gè)組別之間的平均數(shù)的差異。繪制受試者工作特性 (receiver operating characteristic,ROC)曲線,評(píng)估核心靶基因的預(yù)測(cè)能力,利用曲線下面積(area under curve,AUC)評(píng)估靈敏度和特異度。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
檢索GEO數(shù)據(jù)庫(kù)并按篩選要求得到了2個(gè)數(shù)據(jù)集GSE26378和GSE54514。GSE54514含有163例患者全血芯片數(shù)據(jù),其中健康對(duì)照組36例,膿毒癥患者127例,膿毒癥患者中其中死亡31例;含有男性64例,女性99例;平均年齡55.56歲(標(biāo)準(zhǔn)差17.21歲);使用基因芯片平臺(tái)為GPL6947。用于實(shí)驗(yàn)中進(jìn)行外部驗(yàn)證數(shù)據(jù)集GSE26378有103例患者全血芯片數(shù)據(jù),其中健康對(duì)照組21例,膿毒癥患者82例,膿毒癥患者中其中死亡12例;平均年齡53.75歲(標(biāo)準(zhǔn)差3.21歲);使用基因芯片平臺(tái)為GPL570。
基于21 085個(gè)基因在163例膿毒癥患者的表達(dá)數(shù)據(jù),利用WGCNA方法對(duì)每個(gè)樣本基因表達(dá)值及樣本表達(dá)值進(jìn)行層次聚類(lèi)分析,163例樣本無(wú)剔除離群樣本。進(jìn)一步利用基于無(wú)序列網(wǎng)絡(luò)的WGCNA方法,首先對(duì)軟閾值進(jìn)行篩選(圖1),當(dāng)軟閾值選擇為6時(shí)即可獲得較好的連接關(guān)系。將基因進(jìn)行模塊化富集分析(圖2),將基因依據(jù)其各相關(guān)表達(dá)量進(jìn)一步進(jìn)行分類(lèi)。共篩選獲得了22個(gè)相應(yīng)的基因模塊(圖3),依據(jù)各模塊在各個(gè)樣本上皮爾森系數(shù)絕對(duì)值相加為最高者認(rèn)定為響應(yīng)系數(shù)最高模塊,最后篩選獲取了TURQUOISE模塊,TURQUOISE模塊共含有1 377個(gè)基因。
為尋找TURQUOISE模塊中主要富集的細(xì)胞功能和通路,基于GO功能富集及KEGG數(shù)據(jù)庫(kù)中信號(hào)通路的上下游關(guān)系,依據(jù)TURQUOISE模塊中所含有的1 377個(gè)相關(guān)基因篩選表達(dá)響應(yīng)基因參與的信號(hào)通路的關(guān)聯(lián)圖(圖4A、B)。研究結(jié)果提示,發(fā)現(xiàn)多條極為相關(guān)的信號(hào)通路,即RNA調(diào)控表達(dá)異常、RNA剪切組成等。為進(jìn)一步尋找TURQUOISE模塊中真正的核心分子,同時(shí)為避免遺漏真正的核心分子,將TURQUOISE模塊中的基因上傳到STRING網(wǎng)站中,進(jìn)行PPI,并利用Cystacape軟件中復(fù)雜的分子檢測(cè)(molecular complex detection,MCODE)插件對(duì)PPI進(jìn)行評(píng)分篩選位于調(diào)控核心位置的基因(圖5),并結(jié)合PPI網(wǎng)絡(luò)所獲得的基因連接數(shù)(納入連接數(shù)前10位的基因)用于篩選真正的核心分子。將上述3種方法所篩選的結(jié)果綜合分析,最后篩選出了固醇調(diào)節(jié)元件結(jié)合蛋白裂解激活蛋白(srebpcieavage activating protein,SCAP)基因?yàn)楹诵陌谢颉?/p>
為了進(jìn)一步驗(yàn)證篩選的基因其在健康對(duì)照組和膿毒癥組中,以及在死亡組和存活組中表達(dá)情況,實(shí)驗(yàn)利用建模數(shù)據(jù)集GSE54514,對(duì)SCAP基因進(jìn)一步驗(yàn)證(圖6)。SCAP基因在膿毒癥患者存活組中表達(dá)較死亡組顯著更高(9.036±0.032vs8.857±0.067。P<0.01),SCAP基因在健康對(duì)照組表達(dá)較膿毒癥組顯著更高(9.190±0.073 vs 8.99±0.030。P<0.01)。同時(shí)在ROC曲線下分析發(fā)現(xiàn),SCAP基因?qū)τ诎l(fā)生膿毒癥和膿毒癥患者中死亡情況也有較好的預(yù)測(cè)能力(圖7)。其在預(yù)測(cè)膿毒癥患者死亡上的ROC AUC為0.64,P=0.02。在預(yù)測(cè)是否發(fā)生膿毒癥上其AUC=0.62,P=0.03。上述結(jié)果進(jìn)一步闡明實(shí)驗(yàn)所篩選的SCAP基因具有較好的預(yù)測(cè)膿毒癥發(fā)生和死亡能力。
為了明確實(shí)驗(yàn)所篩選的SCAP基因是否真正可以有效地預(yù)測(cè)膿毒癥的發(fā)生和預(yù)后情況,進(jìn)一步利用外部數(shù)據(jù)集GSE26378中對(duì)所篩選的SCAP基因表達(dá)進(jìn)行驗(yàn)證其在健康對(duì)照組和膿毒癥組中,以及在死亡組和存活組中表達(dá)情況(圖8),SCAP基因在膿毒癥患者存活組中表達(dá)較死亡組顯著更高(0.886±0.030 vs 0.730±0.061。P=0.045),SCAP基因在健康對(duì)照組表達(dá)較膿毒癥組顯著更高(1.154±0.088 vs 0.863±0.078。P<0.01)。同時(shí)在ROC曲線下分析發(fā)現(xiàn),SCAP基因?qū)τ诎l(fā)生膿毒癥和膿毒癥患者中死亡情況也有較好的預(yù)測(cè)能力(圖9)。其在預(yù)測(cè)膿毒癥患者死亡上的AUC=0.69,P=0.04。在預(yù)測(cè)是否發(fā)生膿毒癥上其AUC=0.71,P<0.01。上述結(jié)果進(jìn)一步闡明實(shí)驗(yàn)篩選的SCAP基因在外部數(shù)據(jù)集中也有較好的預(yù)測(cè)膿毒癥發(fā)生和死亡能力,進(jìn)一步驗(yàn)證了SCAP基因的可靠性。
為了解SCAP基因主要涉及何種功能調(diào)控,實(shí)驗(yàn)進(jìn)一步利用GEO數(shù)據(jù)庫(kù)中GSE54514和GSE26378數(shù)據(jù)集并采用GSEA其所涉及的下游通路。發(fā)現(xiàn)SCAP基因主要涉及了T細(xì)胞受體及糖代謝。見(jiàn)圖10、11。
膿毒癥是由于炎性細(xì)胞因子的失調(diào)導(dǎo)致體內(nèi)細(xì)胞因子風(fēng)暴最終造成多器官衰竭和死亡[10,11],是目前臨床中所面臨的一個(gè)主要的公共衛(wèi)生問(wèn)題;在過(guò)去的10年里,重癥監(jiān)護(hù)醫(yī)學(xué)取得了巨大的進(jìn)步,但是膿毒癥的死亡率卻沒(méi)有實(shí)質(zhì)性的改善[12]。就目前研究結(jié)果而言,由于膿毒癥發(fā)病過(guò)程復(fù)雜,可能涉及到復(fù)雜的全身炎癥效應(yīng)、免疫功能障礙、凝血功能異常、組織損傷及宿主對(duì)不同感染病原微生物和其毒素的異常反應(yīng)等多個(gè)方面,與機(jī)體多系統(tǒng)、多器官病理生理改變密切相關(guān),膿毒癥的根本發(fā)病機(jī)制尚未明確[13]。筆者研究為尋找膿毒癥發(fā)生的機(jī)制,通過(guò)精準(zhǔn)的WGCNA算法識(shí)別出與膿毒癥發(fā)生和預(yù)后顯著的SCAP基因。SCAP基因在內(nèi)部和外部數(shù)據(jù)集進(jìn)行了相應(yīng)的驗(yàn)證,均獲得了良好的結(jié)果,提示筆者研究所篩選的基因具有較強(qiáng)的重復(fù)性和可靠性。
SCAP是細(xì)胞脂肪合成酶的表達(dá)調(diào)控因子,在調(diào)節(jié)體內(nèi)甘油三酯和膽固醇水平中起著重要作用[14]。目前已有較多研究顯示,SCAP通過(guò)結(jié)合膽固醇調(diào)節(jié)元件結(jié)合蛋白 (sterol-regulatory element binding proteins,SREBP)并將它們從內(nèi)質(zhì)網(wǎng)運(yùn)輸?shù)礁郀柣w進(jìn)行蛋白水解處理,蛋白水解釋放的SREBP轉(zhuǎn)錄因子進(jìn)入細(xì)胞核,從而促進(jìn)膽固醇的合成和攝取[15]。當(dāng)內(nèi)質(zhì)網(wǎng)中的膽固醇堆積阻止了SCAP/SREBP復(fù)合物的運(yùn)輸,隨即中止SREBP的蛋白水解過(guò)程,導(dǎo)致靶基因轉(zhuǎn)錄水平下降[16]。因此,SREBP不再被加工,膽固醇合成和攝取受到抑制,膽固醇的穩(wěn)態(tài)得到恢復(fù)。目前已有較多的研究揭示了SCAP在脂質(zhì)代謝中所發(fā)揮的功能,其可能影響多種代謝通路等[17,1,8]。但目前尚無(wú)SCAP在膿毒癥中的作用及相關(guān)機(jī)制的報(bào)道。
筆者通過(guò)分析GEO中含有膿毒癥發(fā)生和預(yù)后相關(guān)的數(shù)據(jù)集GSE54514,首先利用了基于無(wú)序基因表達(dá)網(wǎng)絡(luò)的WGCNA方法,識(shí)別出對(duì)每個(gè)樣本具有最大影響作用的TURQUOISE模塊,為篩選出TURQUOISE模塊中最為核心的靶基因,即可能為數(shù)據(jù)集最為核心的靶基因,運(yùn)用了多種網(wǎng)絡(luò)識(shí)別算法,最終獲得了SCAP基因。為進(jìn)一步驗(yàn)證筆者研究上述算法是否真正可行,利用內(nèi)部數(shù)據(jù)集GSE54514通過(guò)驗(yàn)證SCAP基因在膿毒癥患者和健康對(duì)照組中SCAP基因表達(dá)顯著在健康對(duì)照組更高,提示SCAP基因高表達(dá)可能預(yù)示患者發(fā)生膿毒癥概率更低;同時(shí)在膿毒癥患者中死亡組和存活組患者的SCAP基因表達(dá)差異,結(jié)果提示存活組患者SCAP基因表達(dá)更高。上述結(jié)果進(jìn)一步提示SCAP基因在膿毒癥發(fā)生和發(fā)展過(guò)程中可能作為一個(gè)保護(hù)因素。為進(jìn)一步驗(yàn)證筆者研究通過(guò)內(nèi)部數(shù)據(jù)集篩選所獲得數(shù)據(jù)是否可靠,再次利用GEO數(shù)據(jù)集篩選獲得了含膿毒癥和健康對(duì)照組數(shù)據(jù)集GSE26738。并通過(guò)差異表達(dá)分析和ROC曲線驗(yàn)證了SCAP基因在膿毒癥患者中較健康對(duì)照組低表達(dá),同時(shí)在死亡患者中表達(dá)也較存活患者低。進(jìn)一步說(shuō)明了SCAP基因作為膿毒癥中保護(hù)因子的可靠性。為進(jìn)一步探索SCAP基因所涉及的通路和功能,實(shí)驗(yàn)通過(guò)GSEA分析篩選了SCAP基因下游通路。結(jié)果提示SCAP基因可能通過(guò)T細(xì)胞受體及糖代謝兩個(gè)功能產(chǎn)生作用,也有研究顯示其與膿毒癥發(fā)生、發(fā)展相關(guān)。進(jìn)一步佐證了筆者研究的結(jié)果。因此,筆者研究結(jié)果對(duì)未來(lái)探索或者應(yīng)用SCAP基因表達(dá)與膿毒癥患者發(fā)生和預(yù)后奠定了一定的基礎(chǔ),具有較強(qiáng)的指導(dǎo)意義。但不可否認(rèn)的是,筆者研究的結(jié)果還需要進(jìn)一步在臨床實(shí)際樣本中獲得更為可靠的驗(yàn)證,以及通過(guò)一系列的體內(nèi)/體外實(shí)驗(yàn)驗(yàn)證SCAP基因的臨床和生物學(xué)意義。
總之,筆者采用WGCNA等生物信息學(xué)方法利用GEO數(shù)據(jù)庫(kù)研究了膿毒癥患者發(fā)生和預(yù)后相關(guān)基因,并發(fā)現(xiàn)了SCAP基因的低表達(dá)與膿毒癥發(fā)生和較差的預(yù)后相關(guān)。同時(shí),筆者研究利用外部數(shù)據(jù)集對(duì)上述結(jié)果進(jìn)一步驗(yàn)證。上述的SCAP基因有可能成為新的預(yù)后指標(biāo),有助于膿毒癥患者個(gè)性化治療及臨床預(yù)后判斷。