邵學(xué)謙,孫雯
(1.齊齊哈爾醫(yī)學(xué)院附屬第三醫(yī)院普外一科,黑龍江齊齊哈爾161099;2.濟(jì)南循證醫(yī)藥科技開發(fā)中心,山東濟(jì)南250022)
結(jié)腸癌相關(guān)蛋白質(zhì)相互作用的網(wǎng)絡(luò)分析及其m icroRNA、轉(zhuǎn)錄因子和藥物預(yù)測
邵學(xué)謙1,孫雯2
(1.齊齊哈爾醫(yī)學(xué)院附屬第三醫(yī)院普外一科,黑龍江齊齊哈爾161099;2.濟(jì)南循證醫(yī)藥科技開發(fā)中心,山東濟(jì)南250022)
目的通過生物信息學(xué)方法分析結(jié)腸癌(colorectal cancer,CRC)相關(guān)的基因,構(gòu)建其蛋白質(zhì)相互作用網(wǎng)絡(luò),并預(yù)測結(jié)腸癌的microRNA、轉(zhuǎn)錄因子和相關(guān)藥物。方法首先通過倍數(shù)關(guān)系值分析255個(gè)結(jié)腸癌相關(guān)的微陣列芯片樣本中的表達(dá)基因,然后使用蛋白質(zhì)網(wǎng)絡(luò)數(shù)據(jù)庫String構(gòu)建其蛋白質(zhì)相互作用網(wǎng)絡(luò),最后應(yīng)用MSigDB 3.0分析法并結(jié)合WebGestalt在線軟件,對3組數(shù)據(jù)中的表達(dá)基因進(jìn)行microRNA、轉(zhuǎn)錄因子和藥物預(yù)測。結(jié)果本研究識別了4763個(gè)與結(jié)腸癌有關(guān)的基因,并采用表達(dá)最顯著的前200個(gè)基因構(gòu)建了蛋白質(zhì)相互作用網(wǎng)絡(luò)。此外,本文又采用前200個(gè)基因,通過生物信息學(xué)方法預(yù)測得到了與結(jié)腸癌有關(guān)的22條microRNA、58個(gè)轉(zhuǎn)錄因子和9種藥物。結(jié)論本研究識別了結(jié)腸癌的表達(dá)基因,構(gòu)建了其蛋白質(zhì)相互作用網(wǎng)絡(luò),并預(yù)測了其microRNA、轉(zhuǎn)錄因子和結(jié)腸癌有關(guān)藥物,為結(jié)腸癌的診斷和治療提供了潛在的生物標(biāo)記。
結(jié)腸癌;蛋白質(zhì)相互作用網(wǎng)絡(luò);microRNA;轉(zhuǎn)錄因子;藥物預(yù)測
結(jié)腸癌(colorectal cancer,CRC)發(fā)生于結(jié)腸部位,是一種由結(jié)腸炎引發(fā)的消化道惡性腫瘤[1-2]。目前結(jié)腸癌作為最常見的惡性腫瘤之一,其預(yù)后效果不佳[3-5]。因此,早期發(fā)現(xiàn)和診斷結(jié)腸癌,對于降低病死率和提高預(yù)后水平具有重要意義。生物信息學(xué)(bioinformatics)是在生命科學(xué)的研究過程中,以計(jì)算機(jī)科學(xué)和信息技術(shù)為工具,對生物信息進(jìn)行采集,處理,儲存,檢索和分析的科學(xué)[6-7]。生物信息學(xué)從核酸和蛋白質(zhì)序列出發(fā),分析序列中表達(dá)的結(jié)構(gòu)功能的生物信息,揭示大量復(fù)雜的生物數(shù)據(jù)包含的生物奧秘,是生命科學(xué)和計(jì)算機(jī)科學(xué)形成的一門交叉學(xué)科[8]。目前,生物信息學(xué)作為一門新興學(xué)科,開始受到科研人員的廣泛關(guān)注。
目前,國外關(guān)于結(jié)腸癌的分子生物學(xué)和生物信息學(xué)研究主要包括基于大量基因組數(shù)據(jù)的基因表達(dá)譜分析,關(guān)鍵基因和蛋白質(zhì)在疾病發(fā)生發(fā)展過程中的作用等。研究發(fā)現(xiàn),p14ARF是在結(jié)直腸癌中過度甲基化的p14下調(diào)基因[9];而環(huán)氧酶-2在多數(shù)結(jié)直腸癌組織中抑制表達(dá),并且與結(jié)腸癌患者的死亡緊密相關(guān)[10]。鮑欣等[11]對microRNA-21的表達(dá)進(jìn)行研究,結(jié)果表明結(jié)腸癌組織中microRNA-21的表達(dá)顯著提高,且在惡性度高、臨床分期晚的腫瘤組織中表達(dá)量更高。上述研究成果為結(jié)腸癌生物標(biāo)記和結(jié)腸癌病因的研究提供了一種方向。然而,目前國內(nèi)關(guān)于結(jié)腸癌的分子生物學(xué)和生物信息學(xué)相關(guān)研究的報(bào)道較少。因此,對結(jié)腸癌相關(guān)的基因及其表達(dá)譜進(jìn)行系統(tǒng)的研究,對結(jié)腸癌的診斷和治療具有重要的臨床意義。本文運(yùn)用生物信息學(xué)手段研究了結(jié)腸癌相關(guān)的基因和蛋白質(zhì)相互作用網(wǎng)絡(luò),并進(jìn)行了m icroRNA、轉(zhuǎn)錄因子和藥物預(yù)測。為分析結(jié)腸癌的致病機(jī)制,確立可行的臨床診斷和定向治療方法提供了參考。
1.1 結(jié)腸癌基因表達(dá)譜數(shù)據(jù) 從高通量基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus,網(wǎng)址:http://www.ncbi.nlm.nih.gov/geo/)和微陣列基因表達(dá)數(shù)據(jù)庫(Array Express database)下載所需的樣本表達(dá)微陣列數(shù)據(jù)[12-13]。本文選取GSE4183,E-MTAB-57和GSE41258 3組數(shù)據(jù)樣本,其中GSE4183[14]包括45個(gè)結(jié)腸癌患者樣品和8個(gè)對照樣本,E-MTAB-57[15]包括25個(gè)結(jié)腸癌患者樣品和22個(gè)對照樣本,GSE41258[16]包括101個(gè)結(jié)腸癌患者樣品和54個(gè)對照樣本。其中GSE4183數(shù)據(jù)采用Affymetrix Human Genome U133 Plus2.0 Array平臺,而E-MTAB-57和GSE41258數(shù)據(jù)則采用Affymetrix Human Genome U133A平臺進(jìn)行檢測。從數(shù)據(jù)庫下載原始raw文件以及該平臺探針注釋信息文件,用于后續(xù)分析。
1.2 數(shù)據(jù)預(yù)處理和基因識別 下載原始CEL數(shù)據(jù),利用RMA方法對所有樣本表達(dá)數(shù)據(jù)進(jìn)行預(yù)處理[17]。刪除沒有對應(yīng)基因的探針,對于有多個(gè)探針的基因,取其均值。最終得到基因樣本表達(dá)譜矩陣。
分別以3組數(shù)據(jù)的倍數(shù)關(guān)系值從小到大排序,利用基因組相關(guān)性分析(genome-wide relative significance,GWRS)求出GWRS相關(guān)系數(shù)[18]。然后計(jì)算每個(gè)基因在3組數(shù)據(jù)GWRS值的平均值,按照由大到小的順序進(jìn)行排序,取出前200條數(shù)據(jù)作為表達(dá)基因,并以此進(jìn)行后續(xù)分析和預(yù)測。
1.3 蛋白質(zhì)互相作用網(wǎng)絡(luò)構(gòu)建 構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)是研究蛋白質(zhì)間相互作用,尋找對疾病的發(fā)生和發(fā)展起關(guān)鍵作用的蛋白質(zhì)及其基因的方法。蛋白質(zhì)相互作用網(wǎng)絡(luò)可以反應(yīng)各基因在功能上的相互關(guān)系。首先選取表達(dá)最顯著的前200個(gè)基因,從蛋白質(zhì)網(wǎng)絡(luò)互作數(shù)據(jù)庫String中獲得蛋白質(zhì)間相互作用信息,然后使用相關(guān)軟件構(gòu)建蛋白質(zhì)互作網(wǎng)絡(luò)。
1.4 MicroRNA、轉(zhuǎn)錄因子和藥物預(yù)測 本文應(yīng)用Molecular signatures database(MSigDB)3.0分析方法,通過WebGestalt在線軟件對結(jié)腸癌前200條基因分別進(jìn)行microRNA、轉(zhuǎn)錄因子和藥物預(yù)測,并分析得到結(jié)腸癌相關(guān)的microRNA序列、轉(zhuǎn)錄因子和藥物。
2.1 基因識別 本文共找到4763個(gè)結(jié)腸癌相關(guān)的基因,前20個(gè)基因在3組數(shù)據(jù)下按照倍數(shù)關(guān)系值排序結(jié)果參見圖1(僅列出NCBI官方基因簡稱)。
圖1 結(jié)腸癌3組數(shù)據(jù)的前20個(gè)基因Fig.1 Top 20 gene signatures of three datasets of CRC
2.2 蛋白質(zhì)互相作用網(wǎng)絡(luò)構(gòu)建 以表達(dá)最顯著的前200個(gè)基因構(gòu)建的蛋白質(zhì)互相作用網(wǎng)絡(luò)圖參見圖2。圖中節(jié)點(diǎn)面積越大,代表該基因在蛋白質(zhì)相互作用網(wǎng)絡(luò)中與其他基因的關(guān)系越復(fù)雜,即該基因在結(jié)腸癌的發(fā)生和發(fā)展過程中的功能和作用越重要。
圖2 結(jié)腸癌基因的蛋白質(zhì)相互作用網(wǎng)絡(luò)Fig.2 Protein-protein interaction network constructed by gene signatures of CRC
2.3 microRNA、轉(zhuǎn)錄因子和藥物預(yù)測 通過生物信息學(xué)方法預(yù)測得到22條microRNA,58個(gè)轉(zhuǎn)錄因子和9種結(jié)腸癌相關(guān)藥物。
microRNA預(yù)測結(jié)果(僅列出NCBI官方microRNA)參見表1,轉(zhuǎn)錄因子預(yù)測結(jié)果參見表2,結(jié)腸癌相關(guān)藥物預(yù)測結(jié)果參見表3。
表1 結(jié)腸癌相關(guān)microRNA預(yù)測Tab.1 Prediction ofmicroRNA related to CRC
續(xù)表
表2 結(jié)腸癌相關(guān)轉(zhuǎn)錄因子預(yù)測Tab.2 Prediction of transcription factors related to CRC
表3 結(jié)腸癌相關(guān)藥物預(yù)測Tab.3 Prediction of drug related to CRC
目前,結(jié)腸癌是一種常見的消化道惡性腫瘤[19-20]。結(jié)腸癌的發(fā)病率占胃腸道腫瘤的第3位,且呈逐年上升趨勢[21]。在我國,中年人為結(jié)腸癌的高發(fā)人群,其發(fā)病年齡比西方國家約低10歲[22]。因此,在我國結(jié)腸癌的早期診斷和治療顯得尤為重要。
識別與疾病相關(guān)的表達(dá)基因不僅是進(jìn)一步研究蛋白質(zhì)相互作用網(wǎng)絡(luò)和疾病表達(dá)方式的基礎(chǔ),也為直接研究基因與疾病的關(guān)系提供了可能。在本文識別的前20個(gè)表達(dá)基因中,AQP8(水通道蛋白8)是一種結(jié)腸癌相關(guān)的重要基因。已有研究證明,水通道蛋白家族(AQPs)的超表達(dá)與腫瘤疾病的發(fā)生有關(guān)。目前,AQP8已經(jīng)成為一種反應(yīng)結(jié)腸癌患者預(yù)后的生物標(biāo)記[23]。蛋白質(zhì)相互作用及相互作用網(wǎng)絡(luò)的構(gòu)建和分析是理解生命活動中細(xì)胞組織、過程和功能的基礎(chǔ)[24]。本文通過蛋白質(zhì)相互作用網(wǎng)絡(luò)的構(gòu)建,識別了多個(gè)與結(jié)腸癌發(fā)生發(fā)展相關(guān)的重要蛋白質(zhì),揭示了結(jié)腸癌相關(guān)蛋白質(zhì)之間的復(fù)雜關(guān)系;另外,通過microRNA、轉(zhuǎn)錄因子和藥物的預(yù)測,發(fā)現(xiàn)了結(jié)腸癌潛在的microRNA、轉(zhuǎn)錄因子和藥物以及在結(jié)腸癌發(fā)生和發(fā)展過程中可能的基因表達(dá)方式。本研究可以由此推測結(jié)腸癌的發(fā)病機(jī)理和診斷方法,并尋找新的藥物靶標(biāo),為新藥研發(fā)起到積極的作用。
本文還構(gòu)建了結(jié)腸癌有關(guān)的基因的蛋白質(zhì)相互作用網(wǎng)絡(luò),并預(yù)測得到了與結(jié)腸癌有關(guān)的22條microRNA,58個(gè)轉(zhuǎn)錄因子和9種藥物。結(jié)果中預(yù)測出的大量的基因和藥物,沒有報(bào)道其與結(jié)腸癌相關(guān),這些基因,可以成為進(jìn)一步的研究目標(biāo),有助于對該疾病病因更全面的了解,同時(shí)為結(jié)腸癌的診斷和治療提供了新的方向。本文所預(yù)測的結(jié)腸癌基因表達(dá)方式可能成為結(jié)腸癌診斷和治療的新的生物標(biāo)記。另外,上述生物信息學(xué)分析方法為復(fù)雜疾病的研究提供了很好的借鑒,并為其他疾病的預(yù)測和干預(yù)提供了可能。
隨著生物信息學(xué)技術(shù)的蓬勃發(fā)展,運(yùn)用信息學(xué)手段對疾病的發(fā)生、發(fā)展以及診斷和治療的水平迅速提高。目前新興的生物信息學(xué)分析技術(shù)主要包括原始數(shù)據(jù)平臺、動態(tài)網(wǎng)絡(luò)的分析及可視化,多元數(shù)據(jù)的生物大分子相互作用的評估和預(yù)測,網(wǎng)絡(luò)聚類分析,復(fù)雜疾病相關(guān)子網(wǎng)的挖掘,以及生物功能分析等方面[25]。因此,未來關(guān)于結(jié)腸癌的分析也可以由此展開,例如結(jié)腸癌微陣列數(shù)據(jù)的擴(kuò)展,基因的生物代謝通路分析,相關(guān)生物功能分析等。
[1]Jess T,Rungoe C,Peyrin-Biroulet L.Risk of colorectal cancer in patients with ulcerative colitis:a meta-analysis of population-based cohort studies[J].Clin Gastroenterol H,2012,10(6):639-645.
[2]Risques RA,Lai LA,Himmetoglu C,et al.Ulcerative colitisassociated colorectal cancer arises in a field of short telomeres,senescence,and inflammation[J].Cancer research,2011,71(5):1669-1679.
[3]Murray GI,Duncan ME,O'Neil P,etal.Matrixmetalloproteinase-1 is associated with poor prognosis in colorectal cancer[J].Nature medicine,1996,2(4):461-462.
[4]Eaden JA,Abrams KR,Mayberry JF.The risk of colorectal cancer in ulcerative colitis:ameta-analysis[J].Gut,2001,48(4):526-535.
[5]Head KA,Jurenka JS.Inflammatory bowel disease Part1:ulcerative colitis--pathophysiology and conventional and alternative treatment options[J].Alternative medicine review:a journal of clinical therapeutic,2003,8(3):247-283.
[6]王可鑒,賀林,楊侖.生物信息學(xué)在藥物研究和開發(fā)中的應(yīng)用[J].中國藥理學(xué)與毒理學(xué)雜志,2014,28(1):118-125.
[7]謝瑩,韋正波.形成性評價(jià)在生物信息學(xué)教學(xué)中的應(yīng)用[J].教育教學(xué)論壇,2014,5(22):147-148.
[8]徐娟.miRNA-miRNA協(xié)同調(diào)控網(wǎng)絡(luò):構(gòu)建、疾病miRNA拓?fù)涮卣骷靶蛄泻徒Y(jié)構(gòu)相似性分析[D].哈爾濱:哈爾濱醫(yī)科大學(xué).2011.
[9]Sato F,Harpaz N,Shibata D,et al.Hypermethylation of the p14(ARF)gene in ulcerative colitis-associated colorectal carcinogenesis[J].Cancer research,2002,62(4):1148-1151.
[10]Wang D,Dubois RN.The role of COX-2 in intestinal inflammation and colorectal cancer[J].Oncogene,2010,29(6):781-788.
[11]鮑欣,楊艷明,劉念,等.MiR-21在結(jié)腸癌與癌旁組織中的表達(dá)及其臨床意義[J].吉林大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2013,39:318-321.
[12]Barrett T,Troup DB,Wilhite SE,et al.NCBI GEO:archive for functional genomics data sets-10 years on[J].Nucleic acids research,2011,39(Database issue):D1005-1010.
[13]Parkinson H,Kapushesky M,Shojatalab M,etal.ArrayExpress--a public database of microarray experiments and gene expression profiles[J]. Nucleic acids research,2007,35(Database issue):D747-750.
[14]Gyorffy B,Molnar B,Lage H,et al.Evaluation of microarray preprocessing algorithms based on concordancewith RT-PCR in clinical samples[J].Plos one,2009,4(5):e5645.
[15]Ancona N,Maglietta R,Piepoli A,etal.On the statistical assessment of classifiers using DNA microarray data[J].BMC bioinformatics,2006,7:387.
[16]Sheffer M,Bacolod MD,Zuk O,et al.Association of survival and disease progression with chromosomal instability:a genomic exploration of colorectal cancer[J].Proceedings of the National Academy of Sciences of the United States of America,2009,106(17):7131-7136.
[17]Kim Y,Doan BQ,Duggal P,et al.Normalization of microarray expression data using within-pedigree pool and its effect on linkage analysis[J].BMC proceedings,2007,Suppl 1:S152.
[18]Liu W,Peng Y,Tobin DJ.A new 12-gene diagnostic biomarker signature ofmelanoma revealed by integrated microarray analysis[J]. PeerJ,2013,1:e49.
[19]孫敬國,蔣曉忠,姚淑文,等.Twist蛋白表達(dá)與結(jié)腸癌發(fā)生發(fā)展的關(guān)系研究[J].中國全科醫(yī)學(xué),2011,14(12):1311-1314.
[20]劉見榮,侯風(fēng)剛.結(jié)腸癌治療概況[J].遼寧中醫(yī)藥大學(xué)學(xué)報(bào),2014,16(2):99-101.
[21]劉見榮,管宇,可飛,等.人結(jié)腸癌細(xì)胞中血管生成擬態(tài)與腫瘤細(xì)胞遷移和侵襲能力的關(guān)系[J].吉林大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2013,39(6):1201-1205.
[22]Simoglou C,Gymnopoulou I,Babalis D,etal.Surgery of colon cancer in a district hospital[J].Hellenic journal of surgery,2012,84(1):71-75.
[23]WangW,Li Q,Yang T,et al.Expression of AQP5 and AQP8 in human colorectal carcinoma and their clinical significance[J].World J Surg Oncol2012,10:242.
[24]Zhang A.Protein interaction networks:computational analysis[M]. Cambridge:Cambridge university press,2009.
[25]陳剛.生物網(wǎng)絡(luò)分析及其在復(fù)雜疾病研究中的應(yīng)用[D].長沙:中南大學(xué).2012.
(編校:譚玲)
Construction of protein-protein interaction network and prediction ofm icroRNA,transcription factors and drugs related to colorectal cancer
SHAO Xue-qian1,SUNWen2
(1.Department of General Surgery,Third Hospital Affiliated to Qiqihaer Medical College,Qiqihaer 161099,China;2.Evidence-Based Medicine Technology Development Center in Jinan,Jinan 250022,China)
ObjectiveTo identify gene signatures associated with colorectal cancer(CRC),construct the protein-protein interaction network,and predictmicroRNA,transcription factors and drugs related to CRC with bioinformatics technology.MethodsFirst of all,through the analysis of gene expression in 255 colorectal cancer related microarray sample of the multiple relationship values.Protein-protein interaction network was constructed based on String.MicroRNA expression profiles,transcription factors and drugs related to CRCwere predicted by MSigDB 3.0,using the online software WebGestalt.Results4763 gene signatureswere identified associated with CRC.A totalof22microRNA,58 transcription factors and 9 drugs related to CRC were predicted on the basis of top 200 gene signatures.Conclusion This study could identify gene expression of colorectal cancer,protein-protein interaction network of CRC could be setup,and somemicroRNA,transcription factors and drugs that related to this disease all screen out.These results provid some potential underlying biomarkers associated with CRC.
colorectal cancer;protein-protein interaction network;microRNA;transcription factors;drug prediction
Q7
A
1005-1678(2014)08-0102-04
2012國家醫(yī)學(xué)教育發(fā)展中心基金資助課題(20120411181)
邵學(xué)謙,男,本科,主任醫(yī)師,研究方向:普外科,腫瘤發(fā)病機(jī)制研究,E-mail:shxqdoctor@163.com;孫雯,男,博士,研究方向:生物基因的網(wǎng)絡(luò)體系,E-mail:513910531@qq.com。
book=105,ebook=110