閆小妮,田國祥,潘振宇,楊津,柳青青,呂軍,4
隨著信息時代的發(fā)展,大數(shù)據(jù)戰(zhàn)略思維被逐漸熟知,大數(shù)據(jù)源于數(shù)據(jù)的獲取積累、數(shù)據(jù)的匯聚共享及數(shù)據(jù)的挖掘利用,基于大數(shù)據(jù)技術(shù)的挖掘和分析在生物醫(yī)學(xué)研究和臨床診治中發(fā)揮了重大作用。大數(shù)據(jù)分析的運(yùn)用促進(jìn)了癌癥基因組學(xué)研究的發(fā)展,從本質(zhì)上來看,癌癥的原因是細(xì)胞內(nèi)部的基因差異表達(dá)所引起的一種基因疾病。近年來多基因診斷及風(fēng)險評估模型被美國臨床腫瘤學(xué)會(ASCO)、美國國家綜合癌癥網(wǎng)絡(luò)(NCCN)等多個權(quán)威診療指南所采用,并開展了臨床應(yīng)用[1]。當(dāng)前受到廣泛關(guān)注的精準(zhǔn)醫(yī)療主要依賴于基因測序技術(shù),如何高效處理和分析海量病人的基因測序數(shù)據(jù),從中獲取個性化的癌變驅(qū)動信息成為實現(xiàn)腫瘤精準(zhǔn)診療的關(guān)鍵和難點問題。
隨著眾多公共數(shù)據(jù)庫的建立和開放,越來越多的研究者可以接觸到測序數(shù)據(jù)。GEPIA(Gene Expression Profiling Interactive Analysis),即基因表達(dá)譜數(shù)據(jù)動態(tài)分析,是一個新開發(fā)的用于癌癥和正?;虮磉_(dá)譜分析和交互分析的web服務(wù)器,填補(bǔ)了癌癥基因組學(xué)大數(shù)據(jù)信息缺口,幫助臨床科研愛好者更高效的利用公共數(shù)據(jù)資源。本文通過介紹GEPIA數(shù)據(jù)庫,讓GEPIA網(wǎng)頁式的交互界面使用更簡單,促進(jìn)研究領(lǐng)域的數(shù)據(jù)挖掘、科學(xué)討論和治療的發(fā)現(xiàn)。
GEPIA官方網(wǎng)站:http://gepia.cancer-pku.cn/index.html,首頁如圖1。該網(wǎng)站由北大張澤民教授團(tuán)隊開發(fā)[2]。GEPIA使用的RNA-Seq數(shù)據(jù)集基于UCSC Xena項目(http://xena.ucsc.edu),該項目由標(biāo)準(zhǔn)管道計算,分析來自TCGA和GTEx項目的9736個腫瘤和8587個正常樣本的RNA測序表達(dá)數(shù)據(jù)。TCGA在33種癌癥類型中產(chǎn)生了9736個腫瘤樣本,而這個項目只提供了726個正常樣本。腫瘤與正常數(shù)據(jù)之間的不平衡會導(dǎo)致各種鑒別分析的效率低下。因此GEPIA還整合了GTEx的數(shù)據(jù),GTEx項目產(chǎn)生了8000個正常樣本的RNA測序數(shù)據(jù)。同時,UCSC Xena項目使用標(biāo)準(zhǔn)管道重新計算了TCGA和GTEx原始RNA-Seq數(shù)據(jù),這使得兩個數(shù)據(jù)集兼容。因此,可以將TCGA和GTEx數(shù)據(jù)進(jìn)行整合,進(jìn)行非常全面的表達(dá)分析。TCGA和GTEx的表達(dá)量數(shù)據(jù)都是在同一個pipeline下重新算出來的,可以直接進(jìn)行比較。從架構(gòu)上來講,GEPIA用MySQL創(chuàng)建數(shù)據(jù)庫,主題分析流程由R和PerL完成,用php實現(xiàn)網(wǎng)頁式交互展示。GEPIA提供了關(guān)鍵的交互式分析,包括腫瘤/正常差異表達(dá)譜分析、剖面繪制、根據(jù)腫瘤類型或病理分期進(jìn)行分析、患者生存分析、相似基因檢測、相關(guān)性分析和降維分析等分析模塊,同時還提供快速定制功能。基因表達(dá)通常由人體圖和柱圖點圖來表示,如圖2,人體基因表達(dá)圖即在人體中腫瘤和正常樣本的中位表達(dá)圖;點圖和柱圖即所有腫瘤樣本和配對正常組織的基因表達(dá)譜(點圖:每個點代表樣本的表達(dá)式;柱圖:柱的高度代表某一腫瘤類型或正常組織的中位表達(dá))?;虮磉_(dá)譜GEPIA生成多個癌癥類型和成對的正常樣本的基因表達(dá)譜點圖,每個點代表一個不同的腫瘤或正常樣本。
圖1 網(wǎng)站首頁界面
圖2 基因表達(dá)圖
從搜索欄可以看出,GEPIA網(wǎng)站的分析主要有三個版塊:單基因分析、腫瘤類型分析、多基因分析。
2.1 單基因分析(Single Gene Analysis)即基因在不同腫瘤中的概況,和大部分?jǐn)?shù)據(jù)庫一樣,輸入基因名的時候會出現(xiàn)下拉菜單,方便準(zhǔn)確定位基因名。在輸入的基因名稱字段處,輸入一個基因符號或基因ID并點擊“GoPIA”按鈕即可搜索感興趣的基因。也可以從網(wǎng)頁右上角的GoPIA進(jìn)入,然后從Quick Search處輸入,進(jìn)行檢索。我們以基因CCT6A為示例檢索,兩種方法都會跳轉(zhuǎn)到同樣的界面下如圖3。檢索出來的頁面中有不同的標(biāo)簽,可以針對檢索的基因進(jìn)行各種分析:表達(dá)差異分析、生成表達(dá)DIY(基因表達(dá)譜、盒線圖表達(dá)式、病理階段表達(dá)圖、多個基因比較)、生存分析(生存圖、多數(shù)差異生存基因)、相似的基因檢測、相關(guān)分析、主成分分析。
2.2 腫瘤類型分析(Cancer Type Analysis)對于一種癌癥類型,GEPIA提供了這些分析:差異基因分析(允許用戶在給定數(shù)據(jù)集上應(yīng)用定制的統(tǒng)計方法和閾值,動態(tài)獲取差異表達(dá)的基因及其染色體分布)和最重要的生存基因(即給定一種癌癥類型,搜索與患者生存最相關(guān)的基因)。
圖3 GoPIA首頁界面
2.3 多基因分析(Multiple Gene Analysis)即多個基因比較,這個特性提供了基于給定基因列表的表達(dá)矩陣圖。該函數(shù)為給定的TCGA和/或GTEx表達(dá)數(shù)據(jù)集提供兩兩配對的基因表達(dá)相關(guān)性分析。給定一個基因列表,GEPIA還可以使用定制的TCGA和/或GTEx表達(dá)數(shù)據(jù)進(jìn)行主成分分析(PCA)。
3.1 差異表達(dá)分析允許用戶對給定數(shù)據(jù)集應(yīng)用自定義統(tǒng)計方法和閾值,動態(tài)獲取差異表達(dá)的基因及其染色體分布。對于每一種癌癥類型,我們選擇對給定基因表達(dá)水平最高的10%的腫瘤樣本。為了進(jìn)行比較,我們選擇相同數(shù)量的對同一基因表達(dá)水平最高的正常樣本。我們根據(jù)表達(dá)水平對腫瘤和正常樣本進(jìn)行排序,并將腫瘤樣本在前50%排名列表中的百分比作為百分比值進(jìn)行計算。表達(dá)數(shù)據(jù)首先進(jìn)行l(wèi)og2(TPM+1)的縮放,log2FC定義為中位(腫瘤)-中位(正常)。默認(rèn)情況下,表達(dá)的基因是那些通過以下閾值的基因:log2FC>1,百分比>0.9。方差分析和LIMMA方法認(rèn)為,|log2FC|值較高,q值低于預(yù)先設(shè)定閾值的基因為差異表達(dá)基因。在前10個選項中,log2FC值較高、百分比值高于閾值的基因被認(rèn)為是過表達(dá)基因。點擊差異基因列表按鈕:GEPIA將根據(jù)輸入?yún)?shù)生成差異表達(dá)基因列表[默認(rèn)情況下,按照log2FC降序排列],如圖4。點擊Plot按鈕:GEPIA將生成一個染色體分布圖,染色體上過表達(dá)的基因用紅線表示,過表達(dá)的基因用綠色表示(圖5)。
圖4 差異基因列表
圖5 染色體分布圖
3.2 DIY表達(dá)GEPIA根據(jù)選定的數(shù)據(jù)集和統(tǒng)計方法,根據(jù)腫瘤類型或病理分期繪制給定基因的表達(dá)譜。GEPIA生成多個癌癥類型和成對的正常樣本的基因表達(dá)譜點圖,每個點代表一個不同的腫瘤或正常樣本。在方差分析和LIMMA選項中,|log2FC|值高于預(yù)設(shè)閾值,q值低于預(yù)設(shè)閾值的基因被認(rèn)為是差異表達(dá)基因。在前10個選項中,log2FC值較高、百分比值高于閾值的基因被認(rèn)為是過表達(dá)基因。因此,只有過表達(dá)的基因才會出現(xiàn)在列表和染色體圖中(見圖6)。
圖6 基因表達(dá)譜點圖
GEPIA可生成帶有抖動的Box plot來比較幾種癌癥類型的表達(dá)(為了獲得最佳的視覺效果,我們推薦1-4種癌癥類型)。數(shù)據(jù)集選擇/數(shù)據(jù)集:在數(shù)據(jù)集選擇字段中選擇感興趣的癌癥類型,然后單擊add在數(shù)據(jù)集字段中構(gòu)建數(shù)據(jù)集列表。手動輸入用逗號分隔的癌癥類型(如ACC、BRCA、BLCA)也是可以的。圖形的x軸將遵循數(shù)據(jù)集的順序。腫瘤顏色參數(shù)可設(shè)置腫瘤數(shù)據(jù)集的方框顏色。法線顏色參數(shù)可設(shè)置法線數(shù)據(jù)集的框色。Log Scale可選擇使用線性還是log2(TPM+1)轉(zhuǎn)換的表達(dá)式數(shù)據(jù)進(jìn)行繪圖。抖動大小參數(shù)可設(shè)置框的抖動大小。差異閾值:|log2FC|截止設(shè)置自定義折改閾值,P值截止設(shè)置自定義P值閾值。匹配正態(tài)數(shù)據(jù)可選擇TCGA正態(tài)+ GTEx正態(tài),或僅選擇TCGA正態(tài)進(jìn)行差分分析和繪圖。本文的差異分析基于所選數(shù)據(jù)集(TCGA腫瘤 vs. TCGA正常+GTEx正?;騎CGA腫瘤 vs. TCGA正常)。差異分析方法為單因素方差分析,以疾病狀態(tài)(腫瘤或正常)為變量計算差異表達(dá):基因表達(dá)~疾病狀態(tài)將表達(dá)數(shù)據(jù)先轉(zhuǎn)化為log2(TPM+1)進(jìn)行差異分析,將log2FC定義為中位(腫瘤)-中位(正常)。|log2FC|值較高,q值低于預(yù)設(shè)閾值的基因被認(rèn)為是差異表達(dá)基因。點擊Plot按鈕:GEPIA將顯示一個基于用戶自定義輸入?yún)?shù)的基因表達(dá)框圖(圖7)。
3.3 病理分期剖面圖在分期圖中繪制了病理分期的基因表達(dá)情況。GEPIA可根據(jù)選定的數(shù)據(jù)集和統(tǒng)計方法,按照癌癥類型或病理分期繪制給定基因的表達(dá)譜[3]。自定義參數(shù)設(shè)置:在數(shù)據(jù)集選擇字段中選擇感興趣的一種或多種癌癥類型,然后單擊add在數(shù)據(jù)集字段中構(gòu)建數(shù)據(jù)集列表,或手動輸入用逗號分隔的癌癥類型(如COAD、READ);在Log Scale欄選擇使用線性還是log2(TPM+1)轉(zhuǎn)換的表達(dá)式數(shù)據(jù)進(jìn)行繪圖;在使用大分期欄選擇病理大分期或亞分期作圖;在情節(jié)色彩欄設(shè)置小提琴圖的顏色。差異基因表達(dá)分析方法為單因素方差分析,以病理分期為變量計算差異表達(dá):基因表達(dá)~病理分期將表達(dá)數(shù)據(jù)首先轉(zhuǎn)化為log2(TPM+1)進(jìn)行差異分析。點擊Plot按鈕:GEPIA將根據(jù)用戶自定義輸入生成一個基因表達(dá)階段圖,如圖8。如果點擊code還可以給出代碼。
圖7 匹配TCGA常規(guī)數(shù)據(jù)和GTEx數(shù)據(jù)的箱線圖
圖8 根據(jù)患者病理分期生成表達(dá)小提琴圖
用戶可以通過箱線圖比較一個基因在多種癌癥中的表達(dá)情況,也可以通過矩陣圖比較多個基因在多種基因比較中的表達(dá)情況。多基因表達(dá)比較這一特征提供了基于給定基因列表的表達(dá)矩陣圖。每個方塊中的顏色密度表示給定組織中某個基因的中值表達(dá)值,將所有塊中的最大中值標(biāo)準(zhǔn)化。同一腫瘤或正常組織中的不同基因可以在一個圖中進(jìn)行比較。在參數(shù)設(shè)置頁面輸入感興趣的基因列表,用逗號分隔的基因(如ERBB2、EGFR)也可以手工輸入。在數(shù)據(jù)集字段中選擇感興趣的癌癥類型,然后單擊add或all在組織順序字段中構(gòu)建數(shù)據(jù)集列表。Log Scale欄選擇使用線性還是log2(TPM+1)轉(zhuǎn)換的表達(dá)式數(shù)據(jù)進(jìn)行繪圖。匹配正常數(shù)據(jù)可以僅選取TCGA腫瘤、TCGA腫瘤+TCGA正常+GTEx正?;騎CGA腫瘤+TCGA正常繪制。點擊Plot按鈕:GEPIA將根據(jù)用戶自定義輸入?yún)?shù)生成一個表達(dá)式矩陣圖,如圖9。
3.4 生存分析在生存分析中,可以識別出與患者生存關(guān)系最顯著的基因,GEPIA根據(jù)基因表達(dá)進(jìn)行總生存(OS)或無病生存(DFS,也稱為無復(fù)發(fā)生存和RFS)分析[4]。GEPIA使用Log-rank檢驗,可以調(diào)整隊列閾值,并使用基因?qū)?。生存圖中還可以包含cox比例危險比和95%置信區(qū)間信息??梢运阉髋c患者生存最相關(guān)的基因。自定義參數(shù)設(shè)置在基因歸一化欄可設(shè)置基因場中用于歸一化的基因;在方法欄可選擇OS或DFS生存方法;軸向單位可選擇繪制月或日單位;在數(shù)據(jù)集選擇字段中選擇感興趣的一種或多種癌癥類型,然后單擊add在數(shù)據(jù)集字段中構(gòu)建數(shù)據(jù)集列表,或者手工輸入用逗號分隔的癌癥類型(如COAD、READ)。顏色反轉(zhuǎn)欄選擇是否反轉(zhuǎn)默認(rèn)顏色;分組截止選擇合適的表達(dá)閾值進(jìn)行高表達(dá)組和低表達(dá)組的分割;Cutoff-High(%)即表達(dá)水平高于此閾值的樣本為高表達(dá)隊列;Cutoff-Low(%)即表達(dá)水平低于此閾值的樣本為低表達(dá)隊列,如圖10。點擊Plot按鈕:GEPIA將根據(jù)用戶自定義的輸入?yún)?shù)生成一個生存圖,如圖11。
圖9 矩陣圖
圖10 生成分析圖參數(shù)設(shè)置界面
圖11 生存曲線圖
3.5 最重要的生存基因數(shù)據(jù)集選擇利用公共數(shù)據(jù)庫挖掘腫瘤發(fā)生過程的關(guān)鍵基因,為后續(xù)的功能驗證奠定基礎(chǔ)。在公共數(shù)據(jù)庫中挖掘腫瘤關(guān)鍵基因能為研究者提供生物信息學(xué)信息,能減少研究范圍。自定義選擇一種感興趣的癌癥類型,再選擇OS或DFS生存方法,分組截止選擇合適的表達(dá)閾值進(jìn)行高表達(dá)組和低表達(dá)組的分割。點擊列表按鈕:GEPIA將生成一份給定癌癥類型的100個最重要生存基因列表,如圖12。
3.6 相似基因檢測此功能識別具有相似表達(dá)模式的輸入基因和選定數(shù)據(jù)集的基因列表。點擊列表按鈕:GEPIA會生成一個由Pearson相關(guān)系數(shù)(PCC)排序的具有相似表達(dá)模式的基因列表,如圖13。
3.7 GEPIA還提供一組給定的TCGA和/或GTEx表達(dá)數(shù)據(jù)的兩兩相關(guān)基因分析相關(guān)性分析函數(shù)利用Pearson、Spearman和Kendall等方法,對給定的TCGA和/或GTEx表達(dá)數(shù)據(jù)進(jìn)行兩兩相關(guān)的基因表達(dá)分析。一個基因可以被另一個基因歸一化。GEPIA使用非對數(shù)比例尺進(jìn)行計算,使用對數(shù)比例尺軸進(jìn)行可視化。先輸入感興趣的基因A,【x軸】輸入感興趣的基因B,【對于y軸】基因歸一化設(shè)置用于歸一化基因A和基因b的基因。相關(guān)系數(shù)欄選擇設(shè)置計算相關(guān)系數(shù)的方法。在TCGA Tumor、TCGA Normal或GTEx字段中選擇感興趣的cancer types,點擊add在Used Expression Datasets字段中構(gòu)建數(shù)據(jù)集列表。也可以手工輸入逗號分隔的癌癥類型(如COAD腫瘤、READ腫瘤)。相關(guān)分析基于數(shù)據(jù)集列表。點擊Plot按鈕:GEPIA會生成一個相關(guān)分析結(jié)果的散點圖,如圖14。
圖12 最重要的生存基因
圖13 相似基因檢測
圖14 相關(guān)性分析
3.8 GEPIA同時在PCA中提供多種基因和癌癥類型的主成分分析并通過2D或3D圖顯示結(jié)果。對于給定的基因列表,GEPIA使用定制的TCGA和/或GTEx表達(dá)數(shù)據(jù)進(jìn)行主成分分析(PCA)。首先,GEPIA給出了前三個主成分(PC)的3D圖,并為每個PC解釋的方差生成條形圖。其次,GEPIA基于用戶指定的pc呈現(xiàn)2D或3D圖形。第一步點擊列表按鈕:GEPIA將根據(jù)相關(guān)分析結(jié)果生成3D散點圖和方差分布,點擊右上角的相機(jī)圖標(biāo),可以將3D圖形保存為.png文件。第二步點擊Plot 2D按鈕:GEPIA會生成一個相關(guān)分析結(jié)果的2D散點圖,如圖15。
圖15 主成分分析2D、3D顯示結(jié)果圖
結(jié)果下載可以通過單擊結(jié)果旁邊的按鈕下載PDF和SVG,下載的PDF和SVG圖形可以由adobeillustrator編輯。(Youtube面向全球用戶,Tencent面向中國用戶)。
目前,生命科學(xué)和醫(yī)學(xué)已進(jìn)入大數(shù)據(jù)驅(qū)動的顛覆性變革時代?;虮磉_(dá)譜在生物學(xué)、醫(yī)學(xué)和藥物研發(fā)等多個領(lǐng)域發(fā)揮著重要作用[5]。GEPIA是一個由國人開發(fā)的公共數(shù)據(jù)庫,通過使用GEPIA數(shù)據(jù)庫,實驗生物學(xué)家可以輕松地探索TCGA和GTEx數(shù)據(jù)集,找到問題的答案,并測試他們的假設(shè)。在差異分析和表達(dá)譜中,用戶很容易發(fā)現(xiàn)差異表達(dá)的基因。隨著基因檢測的應(yīng)用,逐漸改變了以往免疫組化為主的腫瘤預(yù)后評估及治療方案選擇的模式,并對腫瘤更為準(zhǔn)確地分型,對預(yù)后評估及治療具有更為重要的指導(dǎo)意義[6]。在GEPIA的所有功能中,最受歡迎的三大功能是:生存分析、相關(guān)性分析和盒式圖繪制。
本文通過介紹GEPIA數(shù)據(jù)庫的架構(gòu)及數(shù)據(jù)提取、分析方法,旨在幫助對基因公共數(shù)據(jù)感興趣的研究者了解GEPIA數(shù)據(jù)庫、熟悉網(wǎng)站架構(gòu),高效便捷地應(yīng)用該數(shù)據(jù)庫資料進(jìn)行科學(xué)研究,減少科研工作者在數(shù)據(jù)獲取、分析制圖方面所花費(fèi)的時間和精力,提供高效、便利、明晰的數(shù)據(jù)資料獲取途徑,從而減輕科研工作者壓力,提高工作效率。