王桂平 葉云 鄭文嶺 馬文麗
肺癌是我國男性和女性最主要致死性癌癥之一,包括小細(xì)胞肺癌和非小細(xì)胞肺癌[1]。肺腺癌(lung adenocarcinoma)屬于非小細(xì)胞肺癌,是最常見的肺癌之一,發(fā)病率約占原發(fā)性肺癌的20%-30%,在許多國家腺癌已超過鱗狀細(xì)胞癌。目前,人類對肺腺癌的發(fā)生機(jī)制仍不清楚,其發(fā)生發(fā)展可能與體內(nèi)多種癌基因或抑癌基因的表達(dá)改變有關(guān),如k-ras、p53、p16Ink4、HER2/Neu和COX-2等。因此,發(fā)現(xiàn)新的肺腺癌致病基因,對于揭示肺腺癌發(fā)病機(jī)制及尋找新的藥物治療靶點(diǎn)有著重要意義。
目前,疾病基因發(fā)現(xiàn)的方法包括連鎖分析法、基因序列相似性、基因功能相似性及蛋白質(zhì)相互作用網(wǎng)絡(luò)等多種途徑,其中以基于基因功能相似性方法在人類疾病候選基因發(fā)現(xiàn)中的應(yīng)用最廣泛[2-7]。近年來,許多基于功能相似性的生物信息學(xué)方法在人類疾病基因發(fā)現(xiàn)發(fā)揮重要作用,加速人類疾病基因發(fā)現(xiàn)過程,如POCUS、PROSPECTR、 SUSPECTS及Toppgene等,其中Toppgene具有高通量、快速、重復(fù)性好的優(yōu)點(diǎn),特別是可對基因提供更全面的評價[2,7,8]。為發(fā)現(xiàn)新的肺腺癌致病基因,本研究從GEO數(shù)據(jù)庫中獲取肺腺癌數(shù)據(jù)集,并進(jìn)行差異基因分析,將獲取的差異基因作為“檢測基因集”;同時,采用genecard和Fable文獻(xiàn)挖掘已知肺腺癌疾病基因,并將其定義為“訓(xùn)練基因集”;最后,利用Toppgene篩選肺腺癌候選基因,并通過熒光定量PCR對其獲得的基因進(jìn)行驗(yàn)證。
1.1 材料 Trizol RNA抽提試劑、PrimeScriptTM逆轉(zhuǎn)錄試劑盒、SYBRPremix Ex TaTM熒光定量PCR試劑盒均由中山醫(yī)達(dá)安基因公司提供。3900臺式高通量DNA合成儀、 9700 PCR儀、7500全自動熒光定量PCR儀均為ABI產(chǎn)品。肺腺癌細(xì)胞株A549和人支氣管上皮細(xì)胞16HBE由廣州醫(yī)學(xué)院醫(yī)學(xué)實(shí)驗(yàn)中心提供,培養(yǎng)于含10%胎牛血清(FBS,杭州四季青)、雙抗(青霉素100 U/mL、鏈霉素100 U/mL)的RPMI-1640培養(yǎng)基中。
1.2 方法
1.2.1 獲取GEO數(shù)據(jù)集 首先,我們從NCBI的GEO數(shù)據(jù)庫(http:www.ncbi.nlm.nih.gov/geo)中下載2個基因表達(dá)譜數(shù)據(jù)集,即GSE7670和GSE10072。其中,GSE7670數(shù)據(jù)集來源于臺灣臺北榮民總醫(yī)院(Taipei veterans general hospital),采用GPL96芯片平臺([HG-U133A] Affymetrix Human Genome U133A Array),包括27個配對的正常肺組織與肺腺癌組織、2個混合組織、2個商業(yè)化的正常肺組織、1個正常肺上皮細(xì)胞株與7個商業(yè)化肺癌細(xì)胞株,共64個樣本;而另一個數(shù)據(jù)集GSE10072則來源于美國N.I.H遺傳流行病學(xué)部(Genetic Epidemiology Branch),也采用GPL96芯片平臺,疾病組織類型為肺腺癌,包括58個腺癌和49個正常肺組織,共107個樣本。
1.2.2 肺腺癌差異表達(dá)基因分析[9]基因差異表達(dá)分析采用dchip軟件分析包進(jìn)行dchip由哈佛大學(xué)生物統(tǒng)計系Cheng LI等聯(lián)合開發(fā),是綜合性芯片分析軟件。該軟件運(yùn)行在于windows平臺,主要分析Affymetrix基因表達(dá)譜及SNP芯片數(shù)據(jù),dchip可進(jìn)行差異基因識別、方差分析、主成分分析、時間序列分析、層次聚類、連鎖分析及SNP的拷貝數(shù)分析等。我們對GSE10072和GSE7670數(shù)據(jù)集中質(zhì)量合格芯片樣本分別采用dchip進(jìn)行差異基因分析,具體操作方法按dchip操作指南進(jìn)行(http://www.dchip.org),2-fold change的基因被選擇為差異表達(dá)基因。最后,采用交集方法獲得共同差異基因。
1.2.3 文獻(xiàn)挖掘方法挖掘已知肺腺癌疾病基因 Genecards(http://www.genecards.org/)是一個收集并展示人類基因及其產(chǎn)物和相關(guān)疾病等綜合信息的知識平臺。它是由以色列的Weizmann研究所基因組研究中心和生物信息學(xué)中心共同開發(fā)的,含有46 560個基因資料(2.38版),其中24 824個已經(jīng)被HUGO基因命名委員會審核通過。我們以“l(fā)ung adenocarcinoma”或“adenocarcinoma of lung”作為搜索詞,進(jìn)入Genecards搜索已知肺腺癌疾病基因[10]。同時,也采用Fable文獻(xiàn)挖掘工具搜索已知肺腺癌疾病基因,F(xiàn)able登陸方式:http://www.fable.chop.edu/。
1.2.4 Toppgene篩選新的肺腺癌疾病基因[11]Toppgene(http://toppgene.cchmc.org/)是個有效而方便的基于基因功能相似性的候選基因篩選方法。我們以Genecards搜索到的已知肺腺癌疾病基因作為“training gene set”,而以來自dchip所獲得的差異基因作為“test gene set”,然后按Toppgene操作方法獲得候選基因。
1.2.5 熒光定量RT-PCR(ΔΔCT法) 收集對數(shù)生長期A549或16HBE細(xì)胞,按文獻(xiàn)方法[12-14]分別進(jìn)行RNA抽提、逆轉(zhuǎn)錄及熒光定量PCR反應(yīng)。反應(yīng)體系總體積50 μL,由5×SYBR Green I PCR buffer(10 μL)、10 pmol/μL引物F或R(1 μL)、10 mM dNTPs(1 μL)、3 U/μL Taq酶(1 μL)、cDNA(5 μL)及ddH2O (31 μL)構(gòu)成, 以β-actin為內(nèi)參。反應(yīng)條件設(shè)定為:93oC、3 min,然后93oC、30 s,55oC、45 s,72oC、45 s,共40個循環(huán)。引物設(shè)計與合成利用Primer Premier 5.0軟件設(shè)計特異性引物,使上下游引物跨越1個內(nèi)含子,由中山大學(xué)達(dá)安基因公司合成。設(shè)計引物序列:CD36(擴(kuò)增片段長度104 bp):5’-CAGATGCAGCCTCATTTCCA-3’(Forward Primer),5’-AACGTCGGATTCAAATACAGCA-3’(Reverse Primer);PMAIP1(擴(kuò)增片段長度79 bp):5’-GCTCCAGCAGAG CTGGAAGT-3’ (Forward Primer),5’-GAAGTTTCTG CCGGAAGTTCAG-3’(Reverse Primer);FABP4(擴(kuò)增片段長度106 bp):5’-GGCATGGCCAAACCTAACAT-3’(Forward Primer),5’-CCTGGCCCAGTATGAAGGAA A-3’(Reverse Primer);β-actin(擴(kuò)增片段長度106 bp)(內(nèi)參基因):5’-GCATGGGTCAGAAGGATTCCT-3’(Forward Primer),5’-TCGTCCCAGTTGGTGACGAT-3’(Reverse Primer)。
1.2.6 熒光定量PCR數(shù)據(jù)處理 熒光定量PCR實(shí)驗(yàn)數(shù)據(jù)應(yīng)用2-△△Ct進(jìn)行處理,其前提是目的基因和內(nèi)參基因擴(kuò)增效率相似[13]。計算各樣本平均CT值和△CT值(Ct=Ctsatb1-Ctβ-actin),計算2-△△Ct(Ct=Ct目的樣本-Ct參照樣本),其數(shù)值用于表示目的值相對于參照值的相對倍數(shù)。
2.1 肺腺癌差異表達(dá)基因 為了獲得肺腺癌共同差異表達(dá)基因,我們采用dchip分析軟件包分別對GSE10072和GSE7670數(shù)據(jù)集中合格芯片樣本進(jìn)行差異基因分析,最終獲得共同差異表達(dá)基因344個,其中上調(diào)基因94個,下調(diào)基因285個(表1)。
2.2 Genecards獲得已知肺腺癌疾病基因 以“l(fā)ung adenocarcinoma”或“adenocarcinoma of lung”作為搜索詞,進(jìn)入Genecards搜索已知肺腺癌疾病基因,共獲取230條gene card記錄;“l(fā)ung adenocarcinoma”作為搜索詞,通過Fable獲得118個基因與肺腺癌相關(guān)(過濾n<10的基因)。對兩種方法獲得的疾病基因進(jìn)行交集分析,瀏覽每一條文獻(xiàn),過濾不相關(guān)的基因,最終獲得277個已知肺腺癌疾病基因。
2.3 篩選新的肺腺癌疾病基因 采用Toppgene候選基因篩選方法,共獲得36個候選疾病基因,經(jīng)過文獻(xiàn)分析,15個基因已有在肺癌方面的報道(各基因報道文獻(xiàn)均不多),而另21個基因則在腫瘤方面的研究幾無報道(表2中加下劃線基因)。而對21個基因進(jìn)行KEGG通路富集分析,發(fā)現(xiàn)有3個基因(CD36、COL1A1、COL3A1)與ECM-receptor interaction(hsa04512)有關(guān),3個基因(CSF3、CXCL2、LEPR)與cytokine-cytokine receptor interaction(hsa04060)有關(guān),而3個基因(EDN1、EDNRB、LEPR)與neuroactive ligand-receptor interaction(hsa04080)相關(guān)。
2.4 熒光定量PCR實(shí)驗(yàn)驗(yàn)證 為了驗(yàn)證Toppgene所篩選的基因,我們挑選CD36、PMAIP1及FABP4三個基因,采用熒光定量PCR進(jìn)行驗(yàn)證,結(jié)果表明,與對照組相比,CD36、PMAIP1及FABP4在A549細(xì)胞中均為下調(diào)表達(dá),此與芯片數(shù)據(jù)一致(表3)。
當(dāng)前,基因連鎖和基因表達(dá)譜分析等高通量基因組分析方法能有效地對基因進(jìn)行分類,并產(chǎn)生數(shù)百個候選疾病基因,但不能提供足夠的疾病特異性基因信息,因此,這些方法在疾病基因發(fā)現(xiàn)方面存在較大問題[15]。近年來,生物信息學(xué)方法廣泛應(yīng)用于疾病基因發(fā)現(xiàn),特別是ToppGene在疾病基因發(fā)現(xiàn)方面具有獨(dú)特點(diǎn)。本研究中,我們的興趣在于通過計算生物學(xué)策略“ToppGene”,發(fā)現(xiàn)新的肺腺癌疾病基因。通過本研究,我們篩選到36個候選疾病基因,經(jīng)過文獻(xiàn)分析,發(fā)現(xiàn)21個基因在腫瘤方面的研究幾無報道(Pubmed數(shù)庫范圍內(nèi))。隨后,我們選取CD36、PMAIP1及FABP4三個基因進(jìn)行熒光定量PCR驗(yàn)證,結(jié)果發(fā)現(xiàn)CD36、PMAIP1及FABP4在A549細(xì)胞中均下調(diào)表達(dá),與芯片數(shù)據(jù)相一致。
表1 GSE7670和GSE10072中芯片樣本差異表達(dá)基因分析結(jié)果Tab 1 Analysis of lung adenocarcinoma differential expression genes against two GEO gene sets GSE10072 and GSE7670
表2 Toppgene篩選新的肺腺癌疾病候選基因(注:選取P<0.01的基因)Tab 2 The screen of lung adenocarcinoma candidate genes using Toppgene(Note: Genes were selected based on P<0.01)
表3 CD36、PMAIP1及FABP4的熒光定量PCR實(shí)驗(yàn)結(jié)果Tab 3 Expression of three genes CD36, PMAIP1 and FABP4 using fluorescent quantitation PCR
隨著生物技術(shù)的快速發(fā)展,生物信息量也成爆炸式增長,生物醫(yī)學(xué)文獻(xiàn)作為成果展示和學(xué)術(shù)交流的主要方式之一,其數(shù)目之大、增長速度之快遠(yuǎn)遠(yuǎn)超過了其它學(xué)科領(lǐng)域,例如,Medline收集了全世界4 800多種生物學(xué)及醫(yī)學(xué)雜志上的1 800多萬篇文獻(xiàn),并且以每個月超過萬篇的速度增長。海量的文獻(xiàn)中蘊(yùn)涵著豐富的生物學(xué)信息,因此,如何挖掘和發(fā)現(xiàn)其中有生物學(xué)意義的信息具有重要意義。Genecards[10]是一種收載較為全面的基因數(shù)據(jù)平臺,對基因注釋全面而規(guī)范;Fable也是一種功能強(qiáng)大的文獻(xiàn)挖掘工具,特別是在人類疾病基因和蛋白的挖掘方面功能具有獨(dú)特優(yōu)勢。為了更全面地確定已知肺腺癌疾病基因, 在本研究中,我們聯(lián)合應(yīng)用Genecards和Fable兩種文獻(xiàn)挖掘工具,建立一個含277個基因的“訓(xùn)練基因集”,并應(yīng)用此“訓(xùn)練基因集”最終篩選到肺腺癌候選疾病基因。
Toppgene[11]是一種基于功能相似性的候選疾病基因篩選工具,Toppgene最大優(yōu)點(diǎn)在于,它可從GO注釋、通路、蛋白相互作用、疾病表型、疾病、轉(zhuǎn)錄因子等14個方面對候選基因進(jìn)行全面評估,最后依據(jù)總體P值對候選基因進(jìn)行排序。與其它基于功能相似性的候選基因發(fā)現(xiàn)方法一樣,基于Toppgene的候選疾病基因篩選方面也有一定的缺陷,如:①仍有約1/3的基因沒有作功能注釋;②僅有部分的基因具有通路和表型注釋;③蛋白質(zhì)相互作用數(shù)據(jù)仍不完善,特別是通過實(shí)驗(yàn)驗(yàn)證的數(shù)據(jù)有限。相信,隨著生物信息學(xué)與各種生物技術(shù)的快速發(fā)展,Toppgene獲得的結(jié)果會越來越完善。
總之,通過本研究,我們篩選到一些可供進(jìn)一步實(shí)驗(yàn)研究的肺腺癌候選基因,有關(guān)這此候選基因在肺腺癌發(fā)生發(fā)展中的作用仍需進(jìn)一步的實(shí)驗(yàn)證實(shí)。