盧 娟,鄭劍鋒
(1、江西省兒童醫(yī)院檢驗(yàn)科,江西南昌330006;2、南昌大學(xué)第二附屬醫(yī)院,江西南昌330006)
利用公共數(shù)據(jù)庫挖掘腫瘤關(guān)鍵基因
盧 娟1,鄭劍鋒2
(1、江西省兒童醫(yī)院檢驗(yàn)科,江西南昌330006;2、南昌大學(xué)第二附屬醫(yī)院,江西南昌330006)
目的利用公共數(shù)據(jù)庫挖掘肝癌發(fā)生過程的關(guān)鍵基因,為后續(xù)的功能驗(yàn)證奠定基礎(chǔ)。方法以肝癌表達(dá)譜芯片數(shù)據(jù)GSE33006為例,采用免費(fèi)開源的R/BioConductor分析工具,介紹基本分析步驟,對肝癌表達(dá)譜數(shù)據(jù)進(jìn)行分析。結(jié)果芯片數(shù)據(jù)GSE33006中,差異表達(dá)基因有2134個,同一基因在癌組織和癌旁組織具有不同的表達(dá)模式,說明該基因與肝癌相關(guān);同一基因在不同的癌組織表達(dá)存在差異,說明肝癌存在異質(zhì)性。結(jié)論在公共數(shù)據(jù)庫中挖掘腫瘤關(guān)鍵基因能為研究者提供生物信息學(xué)信息,能減少研究范圍。
腫瘤數(shù)據(jù)庫;基因表達(dá);R/BioConductor;數(shù)據(jù)挖掘
單從基因?qū)用婵?,腫瘤的發(fā)生、發(fā)展與多種癌基因過度激活,以及腫瘤抑制基因失活密切相關(guān)[1],探索研究新的基因功能改變與腫瘤發(fā)生發(fā)展關(guān)系,對揭示其發(fā)生發(fā)展的精確分子機(jī)制,進(jìn)一步提高腫瘤的防治水平具有重要意義。對于腫瘤這類復(fù)雜疾病,人類的認(rèn)識依然有限,如何從海量數(shù)據(jù)中提取有價值的信息,是研究者面臨的一個挑戰(zhàn)。隨著基因芯片技術(shù)的迅速發(fā)展,表達(dá)譜芯片分析已被廣泛應(yīng)用于生命科學(xué)各個研究領(lǐng)域,由此產(chǎn)生的數(shù)據(jù)也呈指數(shù)級增長[2,3]。如何利用這些海量數(shù)據(jù)并從中獲取有生物學(xué)意義的信息成為擺在研究者面前的難題。目前,對表達(dá)譜芯片數(shù)據(jù)挖掘方法要求有專業(yè)的生物信息學(xué)知識,而生物信息學(xué)處理往往采用Linux系統(tǒng),而在應(yīng)用最為廣泛的windows系統(tǒng)下進(jìn)行數(shù)據(jù)挖掘進(jìn)一步限制了分析工具的使用。為解決這一系統(tǒng)限制,本文以肝癌表達(dá)譜芯片數(shù)據(jù)為例,在windows系統(tǒng)下用R/Bio-Conductor,結(jié)合免費(fèi)的網(wǎng)絡(luò)資源,采用具體的實(shí)例和代碼分析Affemetrix芯片結(jié)果,對腫瘤數(shù)據(jù)挖掘,介紹基本分析步驟,以期為非生物信息學(xué)專業(yè)的臨床科研工作者提供一種易于上手的數(shù)據(jù)分析方法。
1.1 BioConductor在windows系統(tǒng)的安裝BioConductor是R的擴(kuò)展包,先安裝最新版本的R-3.2.0[4]。R的安裝,R官網(wǎng)(http://www.r-project.org/)有最新的安裝和管理文檔,下載windows版安裝程序,安裝。安裝完成后,啟動R程序,在R命令行窗口輸入如下命令,即可進(jìn)行安裝:source("http://bioconductor.org/biocLite.R");biocLite("pkgname");pkgname是需要用到的安裝包的名稱,本文需要用的安裝包有affy,annotate,annaffy,affyQCReport,arrayQualityMetrics,limma,pheatmap。
1.2 表達(dá)譜芯片的分析過程
1.2.1 芯片質(zhì)量分析芯片實(shí)驗(yàn)有可能失敗,失敗的原因可能是技術(shù)上的(包括片子本身的質(zhì)量),也可能是實(shí)驗(yàn)設(shè)計方面的,芯片質(zhì)量分析主要檢測前者。質(zhì)量分析中最重要的是樣品RNA降解分析。對于發(fā)表在GEO數(shù)據(jù)庫中的芯片數(shù)據(jù),這一步的作用不是很大,甚至可以直接跳過這一步分析。GEO數(shù)據(jù)庫的使用可以參考文獻(xiàn)[5,6]。但是,如果是自己的實(shí)驗(yàn)數(shù)據(jù),這一步就很關(guān)鍵。這一步主要是加載分析包,命令語句為:library("pkgname");讀取文件,命令語句為:cel.files<-list.celfiles();raw.data<-read.celfiles(filenames=cel.files);或:raw.data<-read.affy("file.txt")。
實(shí)例數(shù)據(jù)GSE33006[7]包含6個樣本(GSM818276_T_01.CEL,GSM818277_NT_01.CEL,GSM818278_T_02.CEL,GSM818279_NT_02.CEL,GSM818280_T_03.CEL,GSM818281_NT_03.CEL),對應(yīng)三個病人的組織標(biāo)本(癌和癌旁組織)。
1.2.2 表達(dá)芯片的預(yù)處理(preprocessing)表達(dá)芯片需要預(yù)處理,這個過程通常包含三個部分:⑴背景處理(background adjustment);⑵歸一化處理(normalization);⑶匯總(summarization)。每個步驟都有很多不同的處理方法,rma函數(shù)是預(yù)編譯好的C語言函數(shù),由affy包提供,具有運(yùn)行速度快的特點(diǎn),因此在處理Affymetrix芯片時常用。其常用的命令為:x.rma<-call.exprs(raw.data,"rma",do.log= FALSE)。
1.2.3 差異表達(dá)基因的獲取生物學(xué)數(shù)據(jù)分析時的“差異”有兩層意思,一是統(tǒng)計學(xué)上的差異,另外一個是生物學(xué)上的差異。差異表達(dá)基因的選取一般設(shè)置兩個閾值:基因表達(dá)變化量和統(tǒng)計顯著性量度。常見的分析方法有倍數(shù)變化法(fold chang,F(xiàn)C),參數(shù)分析(parameter analysis),非參數(shù)分析(nonparameter analysis)。由于噪聲的存在,通過數(shù)據(jù)轉(zhuǎn)換后微陣列數(shù)據(jù)可能仍然不呈正態(tài)分布,因此,基因表達(dá)譜數(shù)據(jù)分析常采用非參數(shù)檢驗(yàn)方法。本文用到的命令語句參考附件1。
1.2.4 GO注釋和KEGG富集分析Bioconductor中有不少軟件包可以進(jìn)行GO和KEGG統(tǒng)計分析和作圖,如GOstats[8]和KEGGgraph[9]等,不過這些軟件包的使用需要寫很多代碼,為了簡單,這里采用免費(fèi)的網(wǎng)絡(luò)資源:http://www.biosino.org/iGepros/ index.jsp[10]進(jìn)行GO注釋和KEGG富集分析,利用前面分析得到的差異基因在網(wǎng)絡(luò)上進(jìn)行,不需要書寫代碼,只要將得到的差異基因代碼粘貼到分析框,網(wǎng)站能自動分析出我們想要的結(jié)果(網(wǎng)站后臺運(yùn)行的也是R代碼)。GO注釋和KEGG富集分析過程如圖1。
圖1 用免費(fèi)網(wǎng)絡(luò)資源進(jìn)行GO和KEGG分析
1.2.5 聚類分析找到差異表達(dá)基因只是表達(dá)譜芯片數(shù)據(jù)分析第一步,通過建立共調(diào)控網(wǎng)絡(luò),發(fā)掘未知和已知基因功能才是芯片實(shí)驗(yàn)的最終目的,芯片數(shù)據(jù)的聚類分析就是這個目的。聚類分析是通過建立各種不同的數(shù)學(xué)模型,它把基于相似數(shù)據(jù)特征的變量或樣本組合在一起。歸為一個簇的基因在功能上可能相似或關(guān)聯(lián),從而找到未知基因的功能信息或已知基因的未知功能[11]。聚類分析方法大體上可分為層次聚類(hierarchical clustering)和分配聚類(partitional clustering)兩種,其中層次聚類在芯片分析中用得比較多。通過聚類能全面、直觀的展示樣品之間的關(guān)系及差異情況。本文的聚類分析命令語句參考附件1。
2.1 差異表達(dá)基因的獲取實(shí)例數(shù)據(jù)GSE33006中,與癌旁正常組織相比,以FC變化大于2,P值<0.05為篩選標(biāo)準(zhǔn),癌組織中差異表達(dá)基因有2134個,其中上調(diào)的有1186個,下調(diào)的948個,與研究者的結(jié)果有些不同(差異基因有1648個,上調(diào)的1136個,下調(diào)的512個),這說明分析方法的選擇對結(jié)果會產(chǎn)生影響。
2.2 GO注釋和KEGG富集分析將差異基因代碼粘貼到分析框,網(wǎng)站能自動分析出我們想要的GO和KEGG富集分析結(jié)果,部分結(jié)果見圖1。
2.3 聚類分析將差異基因進(jìn)行樣本-基因雙向聚類分析,結(jié)果如圖2。從圖可以發(fā)現(xiàn),同一基因在同一樣本的癌組織和癌旁組織具有不同的表達(dá)模式,而且同一基因在不同樣本的癌組織表達(dá)也存在差異。
圖2 差異基因的聚類分析
全基因表達(dá)譜芯片包含了人類全部基因mRNA信息,用表達(dá)譜芯片檢測腫瘤組織的基因表達(dá)水平,理論上能分析出表達(dá)發(fā)生改變的基因,也就是差異表達(dá)基因[12]。表達(dá)譜數(shù)據(jù)具有樣本量少基因多的特點(diǎn),往往噪聲冗余多而對樣本分類具有較強(qiáng)代表性的特征性基因少。生物芯片數(shù)據(jù)的分析工具中,目前有很多商業(yè)軟件可以提供便利的分析,但是這些軟件因?yàn)榘鏅?quán)的原因,使用受到限制。
Bioconductor是開源、免費(fèi)的程序設(shè)計環(huán)境,它主要基于統(tǒng)計編程語言R,Bioconductor可以用來分析多種基因組數(shù)據(jù)。它提供的軟件包中包括各種基因組數(shù)據(jù)分析和注釋工具,其中就有針對基因芯片數(shù)據(jù)的處理、分析、注釋及可視化的分析包[13]。對生物信息學(xué)專業(yè)的研究者來說,R/BioConductor提供的分析更注重對數(shù)據(jù)本身的理解和深入的分析,并且它的用途和方法的選擇上就更廣泛一些。而對于臨床科研工作者來說,很多人沒有相關(guān)的生物信息學(xué)背景,因此,使用一種簡單、易懂的分析方法就顯得比較重要。從易用性看,不用或少用代碼,采用交互式的類似網(wǎng)頁的分析方法就比較可行。
現(xiàn)在公開發(fā)表的腫瘤基因數(shù)據(jù),如TCGA(http://cancergenome.nih.gov/)[14],GEO(http://www. ncbi.nlm.nih.gov/geo/)數(shù)據(jù)庫[6],就有很多腫瘤表達(dá)譜數(shù)據(jù)供研究者使用。本文在目前最為常見的windows系統(tǒng)下,通過已發(fā)表的數(shù)據(jù),包含肝癌組織和癌旁組織的表達(dá)譜芯片數(shù)據(jù),較為詳細(xì)地介紹了R/BioConductor的分析步驟,以期能為非生物信息學(xué)專業(yè)的臨床研究人員提供一種簡單的數(shù)據(jù)分析方法。
[1]Duffy MJ,Synnott NC,McGowan PM,et al.p53 as a target for the treatment of cancer[J].Cancer Treat Rev,2014,40(10):1153-1160.
[2]Braun R.Systems analysis of high-throughput data[J].Adv Exp Med Biol,2014,844:153-187.
[3]Mooney M,McWeeney S.Data integration and reproducibility for high-throughput transcriptomics[J].Int Rev Neurobiol,2014,116:55-71.
[4]RCoreTeam.R:A language and environment for statistical computing[M].R Foundation for Statistical Computing,Vienna,Austria. 2014.
[5]余海浪,馬文麗,鄭文嶺.用于基因數(shù)據(jù)挖掘的基因表達(dá)數(shù)據(jù)庫GEO[J].中國生物工程雜志,2007,27(8):96-103.
[6]Barrett T,Suzek TO,Troup DB,et al.NCBI GEO:mining millions of expression profiles-database and tools[J].Nucleic Acids Res,2005,33(Database issue):D562-D566.
[7]Huang Y,Chen HC,Chiang CW,et al.Identification of a two-layer regulatory network of proliferation-related microRNAs in hepatoma cells[J].Nucleic Acids Res,2012,40(20):10478-10493.
[8]Falcon S,Gentleman R.Using GOstats to test gene lists for GO term association[J].Bioinformatics,2007,23(2):257-258.
[9]Zhang JD,Wiemann S.KEGGgraph:a graph approach to KEGG PATHWAY in R and bioconductor[J].Bioinformatics,2009,25 (11):1470-1471.
[10]Zheng G,Wang H,Wei C,et al.iGepros:an integrated gene and protein annotation server for biological nature exploration[J].Bmc Bioinformatics,2011,12(Suppl 14):S6.
[11]Azuaje F.Clustering-based approaches to discovering and visualising microarray data patterns[J].Brief Bioinform,2003,4(1):31-42.
[12]Schulze A,Downward J.Navigating gene expression using microarrays-a technology review[J].Nat Cell Biol,2001,3(8):E190-E195.
[13]Gentleman RC,Carey VJ,Bates DM,et al.Bioconductor:open software development for computational biology and bioinformatics [J].Genome Biol,2004,5(10):R80.
[14]Chin L,Hahn WC,Getz G,et al.Making sense of cancer genomic data[J].Genes Dev,2011,25(6):534-555.
Data mining in public data base to explore key tumor associated genes
LU Juan,ZHENG Jianfeng.
Department of Clinical Laboratory,Jiangxi Children’s Hospital,Nanchang 330006,P.R.China.
Objective To mine the key carcinogenic genes of liver cancer with the application of public data base.Methods Free open source R/BioConductor was used to analyze the expression profile of liver cancer data GSE33006.Results A total of 2134 differentially expressed genes were screened out by using microarray data GSE33006.The same genes showed different expression patterns between cancer tissues and adjacent tissues indicating that the genes are associated with liver cancer.Moreover,the same genes expressed diversely in different cancer tissues,indicate gene heterogeneity in liver cancer.Conclusions Mining tumor key genes in the public databases can provide bioinformatics information for researchers,and also can reduce the scope of the study.
Tumor database;Gene expression;R/BioConductor;Data mining
R730.2
A
1674-1129(2015)06-0711-03
10.3969/j.issn.1674-1129.2015.06.006
2015-05-15;
2015-09-11)
盧娟,女,1982年2月生,主管檢驗(yàn)師。
鄭劍鋒,男,1977年10月生,主治醫(yī)師,主要從事腫瘤分子診斷的研究。