陸華英,梁春華,李科蓮
(1.廣西醫(yī)科大學(xué)附屬武鳴醫(yī)院檢驗科,廣西 南寧;2.南寧市第二人民醫(yī)院,廣西 南寧;3.廣西中醫(yī)藥大學(xué)第一附屬醫(yī)院,廣西 南寧)
胃腸道間質(zhì)瘤(Gastrointestinal Stromal Tumors,GIST)于1983年被首次提出,是指原發(fā)于胃腸道、大網(wǎng)膜和腸系膜的c-KIT(CD117,一種干細胞因子受體)染色陽性的梭形細胞或上皮樣細胞的一組間葉源性腫瘤[1]。從我們對GIST的一般認知分析,GIST最常發(fā)生于胃,其發(fā)病率為60%~70%[2];GIST大體病理表現(xiàn)為腫瘤直徑2~20cm不等,境界清楚的質(zhì)硬腫塊,切面呈灰白色或紅棕色,囊性或?qū)嵭裕部砂橛袎乃兰梆ひ鹤冃訹3]。GIST臨床表現(xiàn)為男女之比2:1,常見于中老年人。同時,GIST是一種交界性腫瘤,一般分為低度惡性和高度惡性[4]。
值得注意的是,GIST臨床表現(xiàn)多樣,大小也存在較大差異。因其非特異的臨床表現(xiàn),給GIST的臨床診斷帶來巨大的困難[5]。在臨床上,胃間質(zhì)瘤的發(fā)現(xiàn)可能因消化道癥狀經(jīng)內(nèi)鏡檢出,但其診斷與分期基本依靠CT檢查[6]。GIST影像學(xué)表現(xiàn)多樣,主要影像學(xué)診斷要點包括腫瘤與腸壁的關(guān)系,即生產(chǎn)方式,強化特點及其他圖像特征,比如鈣化、壞死等。GIST生長方式包括腔外型、腔內(nèi)型、內(nèi)生型及混合型[7]。較大腫瘤其內(nèi)可伴壞死、液化,強化方式以明顯不均勻強化居多。值得注意的是,GIST不同的生長方式,導(dǎo)致腫瘤與周圍組織關(guān)系不同,尤其是外生性、混合型病變。因而極易導(dǎo)致影像學(xué)誤診[8]。所以,GIST的良惡性的早期診斷是臨床較為關(guān)注的問題[9]。
同時,隨著大數(shù)據(jù)及生物信息學(xué)的快速發(fā)展,大數(shù)據(jù)共享已成為當(dāng)前研究的趨勢。已有不少關(guān)于GIST進展變化的測序和芯片的研究報道[10]。但尚未進行深入的探索。因此,本研究主要通過WGCNA綜合分析挖掘出于GIST惡化進展過程中的潛在關(guān)鍵基因及信號通路。該挖掘信息有可能為后人繼續(xù)GIST惡化進展過程研究提供新的研究思路。
本研究的GIST惡化進展過程中的GSE136755基因表達譜數(shù)據(jù)及臨床信息來源于GEO數(shù)據(jù)庫[11]。該數(shù)據(jù)集是基于GPL17077平臺,包括65例GIST,其中包括6個轉(zhuǎn)移灶和59個胃,小腸,直腸,直腸癌的原發(fā)性腫瘤。在數(shù)據(jù)分析之前需要對下載的數(shù)據(jù)進行預(yù)處理,包括提取樣本信息、構(gòu)建基因表達矩陣、將探針名轉(zhuǎn)化為基因名,最終獲得行名為樣本名、列名為基因名的矩陣和行名為樣本名、列名為臨床信息的矩陣用于后續(xù)分析。
安裝R軟件WGCNA包,為節(jié)省計算機運算消耗的內(nèi)存,本研究選取表達量方差大于所有方差四分位數(shù)的基因。剔除離群樣本并確保基因表達矩陣的樣品號與臨床信息的樣品號一一對應(yīng)。按照無尺度網(wǎng)絡(luò)的標(biāo)準(zhǔn)選擇合適的加權(quán)系數(shù)β,并用此系數(shù)將相關(guān)矩陣轉(zhuǎn)化為鄰接矩陣,此后通過拓撲重疊(topological matrix,TOM)計算基因間的關(guān)聯(lián),基于TOM值進行層次聚類建樹。建樹的方法采用動態(tài)混合剪切法(dynamic tree cut),將相異度作為距離測度,設(shè)定最小模塊尺寸為30,進行模塊識別并繪制基因樹狀圖。
基于樣本的臨床信息表對模塊的性狀進行關(guān)聯(lián)分析,尋找和GIST惡化進展性狀顯著相關(guān)的模塊用于后續(xù)分析。采用以下方式幫助識別相關(guān)性較高的模塊:首先,我們計算模塊的特征值與表型的相關(guān)系數(shù)(即module eigengene E,ME值)、定義基因的顯著性(gene significance,GS)來表示基因和表型之間的相關(guān)性;然后,我們選擇取所有基因GS絕對值的平均數(shù)即模塊顯著性(module significance,MS)表示該模塊與表型之間的相關(guān)性;最后,我們選取模塊與表型之間的相關(guān)系數(shù)最大的、且P值小于0.05的模塊用于后續(xù)分析。
我們篩選出與表型高度相關(guān)的模塊后,還需要對模塊下的基因進行核心基因篩選。我們首先利用softConnectivity函數(shù)計算上述被選出來的模塊內(nèi)基因的連接度,篩選出模塊內(nèi)連接度前30的基因。同時,我們將上一步選取的與臨床表型相關(guān)的模塊內(nèi)的基因構(gòu)建PPI網(wǎng)絡(luò),并篩選出Degree最大的前30個基因。最后我們?nèi)∵@兩者的交集基因為核心基因。
在本研究中,為了進一步挖掘這些核心基因在GIST惡化進展過程中所發(fā)揮的分子生物學(xué)機制。我們用R軟件的clusterProfile包對這些核心基因進行GO和KEGG信號通路富集分析。以P.adjust<0.05為篩選標(biāo)準(zhǔn)。
GSE136755數(shù)據(jù)集被檢索到并被下載下來,一共是65個樣本,其中,女性26例,女性39例。在這個數(shù)據(jù)集內(nèi),他們把GIST分為兩個階段,分別是惡性GIST(轉(zhuǎn)移和高危GIST)和低惡性GIST(低危和極低危GIST)GIST。隨后我們對下載后的數(shù)據(jù)進行整理(id轉(zhuǎn)換和矩陣處理),其中,基因表達矩陣含有18652個基因;臨床信息矩陣為行名為樣本名、列名分別是GIST等級(level)、性別(gender)和年齡(age)。
首先,為減少運算時計算機消耗的內(nèi)存,選取基因表達量的方差大于所有方差四分位數(shù)的4663個基因(即選取在各個樣本中變化較大的基因)進行后面的運算?;虮磉_矩陣應(yīng)進行缺失值處理(刪除缺失值較多的基因)和離群樣本的剔除。根據(jù)樣本聚類的距離鑒定離群樣本,剔除離群樣本后最終有61個樣本納入后續(xù)分析(圖1A)。
隨后,我們進行軟閾值的篩選。為滿足共表達網(wǎng)絡(luò)符合無尺度網(wǎng)絡(luò),即出現(xiàn)連接度為k的節(jié)點的對數(shù)lgk與該節(jié)點出現(xiàn)的概率的對數(shù)lg[p(k)]呈負相關(guān),且相關(guān)系數(shù)應(yīng)>0.8。我們使用R軟件WGCNA包進行構(gòu)建權(quán)重共表達網(wǎng)絡(luò),使用分析包自動選擇的軟閾值計算得到軟閾值β=5(圖1B)。
最后,我們劃分基因模塊。確定軟閾值后,通過動態(tài)剪切樹法進行模塊初步識別并合并相似模塊,設(shè)置每個基因網(wǎng)絡(luò)模塊最少的基因數(shù)目為30,最終得到11個模塊(grey-82個基因,turquoise-1192個基因,blue-992個基因,brown-981個基因,yellow-290個基因,green-274個基因,red-255個基因,black-205個基因,pink-178個基因,magenta-121個基因,purple-93個基因),其中灰色模塊是無法聚集到其他模塊的基因集合(圖1C)。
如圖2A所示,根據(jù)各個模塊的特征向量,分別計算這些模塊與3個表型(level、gender和age)的相關(guān)性。結(jié)果顯示,綠色、藍色和棕色模塊與腫瘤level的相關(guān)性較高(分別是-0.42、0.37和-0.28),且P值均小于0.05。而洋紅色、粉紅色、紫色、紅色、綠松石、黑色、黃色、灰色、模塊與腫瘤level的相關(guān)性則較低(圖2A)。
為了進一步篩選出核心基因。我們首先使用blue模塊內(nèi)的992個基因上傳STRING數(shù)據(jù)庫,構(gòu)建PPI網(wǎng)絡(luò)(圖2B,以中間值信度=0.4為條件),并通過CytoHubba插件篩選簇Degree前30的基因。同時,我們利用softConnectivity函數(shù)計算blue模塊內(nèi)基因的連接度,篩選出模塊內(nèi)連接度前30的基因。最后,兩者的的交集基因(16個基因,ASPM、AURKA、BIRC5、BUB1、CCNA2、CCNB2、CDCA8、KIF11、KIF15、KIF20A、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C)被當(dāng)作為核心基因(圖2C和2D)。
在本研究中,為了進一步挖掘這些核心基因在GIST惡化進展過程中所發(fā)揮的分子生物學(xué)機制。核心基因的GO富集分析結(jié)果顯示,這16個潛在的關(guān)鍵基因主要富集在與細胞分裂增殖相關(guān)過程等方面(如chromosome segregation,mitotic nuclear division,organelle fission等)。同時,核心基因的GO富集分析結(jié)果顯示,這16個潛在的關(guān)鍵基因主要富集在細胞周期、增殖等方面。
目前來說,GIST還是醫(yī)學(xué)上的新詞,是21世紀(jì)初才正式命名和普遍使用的醫(yī)學(xué)新概念??梢哉f,GIST是直到本世紀(jì)才被重新認識的“新”疾病[12]。由于GIST起病隱匿,且容易被常規(guī)檢測手段忽略,該病往往在疾病晚期才被發(fā)現(xiàn),因此會對患者造成致命的傷害[13]。GIST是一種具有潛在惡性傾向的侵襲性腫瘤,有學(xué)者評價它“盡管它不是癌,卻一樣可以奪人性命?!癎IST的惡性程度與腫瘤的大小密切相關(guān),如果不予以重視,腫塊逐漸增大,則會對患者的生命健康造成嚴重的損傷。所以早發(fā)現(xiàn),早治療對于間質(zhì)瘤的治療十分重要[14]。雖然有越來越多的患者正受到GIST的威脅,但遺憾的是GIST仍然未能引起公眾足夠重視。之所以沒有引起人們的注意,是因為GIST早期癥狀具有一定的隱蔽性。同時,GIST惡化進展的機制不詳也限制了人們對胃腸間質(zhì)瘤的認識[16]。因此,本研究主要通過前人發(fā)表的關(guān)于GIST惡化進展的芯片數(shù)據(jù),通過綜合的生物信息學(xué)方法挖掘出GIST惡化進展?jié)撛诘年P(guān)鍵基因和其可能涉及分子生物學(xué)過程(GO Term和KEGG信號通路)。
圖A:樣本聚類分析熱圖。顏色強度與疾病狀態(tài)(風(fēng)險程度)、性別和年齡成正比。圖B:軟閾值確定。前者是分析各種軟閾值功效(β)的無標(biāo)度擬合指數(shù);后者是分析各種軟閾值功率的平均連通性;5是最合適的功效值。圖C:基因聚類樹和模塊劃分。圖中的每個分支代表一個基因,下面的每種顏色代表一個共表達模塊。
圖A: GIST惡化進展和診斷年齡相關(guān)的基因模塊鑒定。圖B:PPI網(wǎng)絡(luò)。從內(nèi)至外,依次是Degree>30,30≥Degree>20,20≥Degree>5,5≥Degree。圖C:韋恩圖。為WGCNA分析內(nèi)連接度最高的30個基因和藍色模塊基因內(nèi)Degree最高的30個基因的交集。圖D:16個基因在各樣本內(nèi)的表達聚類熱圖。
圖A:16個關(guān)鍵基因的GO富集分析。分為BP、CC和MF。這里僅顯示富集最明顯的前10個GO條目。圖B:16個關(guān)鍵基因的KEGG信號通路富集分析。
本研究利用生物信息學(xué)方法,對GIST數(shù)據(jù)集GSE136755進行WGCNA分析,篩選出與GIST惡化進展相關(guān)的基因模塊。結(jié)果顯示blue模塊內(nèi)的992個基因與GIST惡化進展密切相關(guān)。為進一步篩選與GIST惡化進展相關(guān)的關(guān)鍵基因,將blue模塊內(nèi)的992個基因構(gòu)建PPI網(wǎng)絡(luò),并通過CytoHubba插件篩選簇Degree前30的基因。同時,我們利用softConnectivity函數(shù)計算blue模塊內(nèi)基因的連接度,篩選出blue模塊內(nèi)連接度前30的基因。最后,我們篩選出16個與GIST惡化進展相關(guān)的關(guān)鍵基因。本文研究結(jié)果顯示,ASPM、AURKA、BIRC5、BUB1、CCNA2、CCNB2、CDCA8、KIF11、KIF15、KIF20A、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C與GIST惡化進展過程密切相關(guān),提示這些關(guān)鍵基因可能對GIST病人的預(yù)后具有一定的預(yù)測價值。
BUB1為紡錘體檢測點蛋白,作為有絲分裂檢測點的重要功能蛋白,調(diào)節(jié)細胞周期及有絲分裂。有研究指出,BUB1在腎癌及乳癌等多種腫瘤中過表達,且其突變及過表達與染色體不穩(wěn)定性、細胞分化和衰老相關(guān),可促進腫瘤的發(fā)生及進展[16,17]。KIF作為驅(qū)動蛋白超家族中的成員,可調(diào)節(jié)紡錘體的形成、染色體的分離和胞質(zhì)分裂,其表達異??梢鹑旧w分離失敗和胞質(zhì)分裂不完全,從而引起細胞異常、增殖和分化,誘發(fā)腫瘤形成,其異常表達已經(jīng)在多種惡性腫瘤中得到證實[18-20]。有研究表明,KIF14敲低可下調(diào)Skp2和Cks1的表達,進而抑制蛋白酶體依賴性p27Kip1泛素化,p27Kip1的增加抑制細胞周期蛋白的表達,包括CCNB1、CCND1和CCNE1,從而抑制腫瘤發(fā)生及進展[21]。ASPM(assembly factor for spindle microtubules)是一種與人類中心粒蛋白相關(guān)的基因,其研究主要涉及在人腦方面[22]。AURKA(aurora kinase A)編碼的蛋白是一種細胞周期調(diào)節(jié)激酶,在染色體分離過程中似乎與紡錘體極的微管形成和/或穩(wěn)定有關(guān);該基因編碼蛋白存在于有絲分裂間期的中心體和紡錘體兩極,可能在腫瘤的發(fā)展和進展中起作用[23]。BIRC5(baculoviral IAP repeat containing 5)是凋亡抑制因子(IAP)基因家族的成員,其編碼抑制凋亡細胞死亡的負調(diào)節(jié)蛋白。IAP家族成員通常包含多個桿狀病毒IAP重復(fù)序列(BIR)域,但該基因僅編碼一個BIR域的蛋白質(zhì)。其編碼蛋白也缺乏C端環(huán)指結(jié)構(gòu)域,在胎兒發(fā)育和大多數(shù)腫瘤中基因表達較高,而在成人組織中表達較低[24]。與此同時,CDCA8、MKI67、PBK、TOP2A、TPX2、TTK、UBE2C都是眾所周知的在細胞分裂增殖等過程中發(fā)揮作用。這與我們生物信息學(xué)挖掘的一致。但就目前對于胃腸間質(zhì)瘤惡化進展的分子生物學(xué)機制來說,還沒有深入的關(guān)于這些基因?qū)τ谄錂C制的研究。
因此,我們的這些基因有可能為后人研究GIST惡化進展的分子生物學(xué)機制研究提供新的思路。但我們這僅僅是通過生物信息學(xué)的方式挖掘,這些基因的作用仍有待進一步的體外和體內(nèi)實驗的驗證。
本研究通過構(gòu)建WGCNA網(wǎng)絡(luò)篩選出與GIST發(fā)生及惡化進展過程密切相關(guān)的16個潛在關(guān)鍵基因,這16個潛在的關(guān)鍵基因可能通過細胞分裂等相關(guān)通路來影響GIST發(fā)生及惡化過程。該挖掘信息有可能為后人繼續(xù)GIST惡化進展過程研究提供新的研究思路。