摘要:利用生物信息學(xué)方法分析了小家鼠(Mus musculus)、褐家鼠(Rattus norvegicus)、人(Homo sapiens)、黑猩猩(Pan troglodytes)、大猩猩(Gorilla)、倭黑猩猩(Pan paniscus)、猿(Nomascus leucogenys)、狨(Callithrix jacchus)、亞馬遜松鼠猴(Saimiri boliviensis)、家馬(Equus caballus)、小耳大嬰猴(Otolemur garnettii)、家貓(Felis catus)、東非狒狒(Papio Anubis)、獼猴(Macaca mulatta)、犬(Cains lapus)、野豬(Sus scrofa)、大熊貓(Ailuropoda melanoleuca)等17個(gè)物種GATA-2基因編碼序列(Coding sequence,CDS),并對(duì)該基因的遺傳多樣性、信號(hào)肽、導(dǎo)肽、跨膜結(jié)構(gòu)域、疏水性/親水性、蛋白質(zhì)二級(jí)結(jié)構(gòu)、氨基酸序列進(jìn)行了分析和預(yù)測(cè)。結(jié)果表明,在17個(gè)物種52條基因序列中共檢測(cè)到344個(gè)多態(tài)位點(diǎn),有25種單倍型,GATA-2 基因序列編碼區(qū)的種內(nèi)、種間存在豐富的遺傳多樣性。GATA-2蛋白N端無(wú)信號(hào)肽,不具有導(dǎo)肽,沒(méi)有跨膜結(jié)構(gòu)域,表現(xiàn)為親水性,蛋白質(zhì)二級(jí)結(jié)構(gòu)主要結(jié)構(gòu)元件是無(wú)規(guī)卷曲和α-螺旋,理論等電點(diǎn)為9.43,GATA-2蛋白呈堿性。
關(guān)鍵詞:GATA-2基因;物種;生物信息學(xué)分析;遺傳多樣性
中圖分類(lèi)號(hào):Q786 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):0439-8114(2013)24-6182-05
GATA家族是一類(lèi)能識(shí)別GATA基序(motif),并能與之結(jié)合的轉(zhuǎn)錄調(diào)節(jié)因子,在動(dòng)物、真菌、植物等生物中存在比較廣泛。脊椎動(dòng)物中已發(fā)現(xiàn)6種GATA結(jié)合蛋白,分為GATA-1/2/3和GATA-4/5/6兩大類(lèi),前者與紅細(xì)胞、淋巴及性腺的發(fā)育有關(guān),后者控制心、腸及外胚等組織分化的轉(zhuǎn)錄[1,2]。GATA-2的cDNA大小為2.6 kb,編碼的轉(zhuǎn)錄因子為474個(gè)氨基酸。GATA-2屬于鋅指結(jié)構(gòu)家族,可調(diào)控造血干/祖細(xì)胞的增殖和分化,在整個(gè)造血過(guò)程中對(duì)細(xì)胞的系統(tǒng)分化十分重要[3]。GATA-2還可調(diào)控其他造血相關(guān)因子的表達(dá),與多種造血系統(tǒng)疾病相關(guān)。另外,GATA-2可作為胚胎發(fā)育過(guò)程中原腸胚期外胚層腹部的分子標(biāo)記,還表達(dá)于胚胎發(fā)育時(shí)期和成年個(gè)體垂體中的[4],GATA-2失活后胚胎會(huì)因?yàn)樵煅δ艿娜笔Ф趹言兄衅谒劳?。GATA-2還可以與其他因子交互作用,從而在多方面發(fā)揮調(diào)控造血作用[5]。本研究利用生物信息學(xué)方法分析了GATA-2基因編碼區(qū)種內(nèi)和種間變異,研究了該基因不同種內(nèi)及種間的遺傳分化,為更好地研究該基因及GATA家族中其他成員的結(jié)構(gòu)和功能奠定了基礎(chǔ)。
1 材料與方法
1.1 序列來(lái)源
1.2 方法
2 結(jié)果與分析
2.1 不同物種GATA-2基因核苷酸分析
2.1.1 多態(tài)位點(diǎn)、單倍型及核苷酸多樣性分析 在所分析片段長(zhǎng)度為1 443 bp的52條序列中,發(fā)現(xiàn)344個(gè)多態(tài)位點(diǎn),百分率為23.84%,其中單一多態(tài)位點(diǎn)65個(gè),百分率為4.50%,簡(jiǎn)約多態(tài)位點(diǎn)279個(gè), 百分率為19.33%;共發(fā)現(xiàn)25種單倍型,單倍型的多樣性為0.967,說(shuō)明GATA-2基因種間和種內(nèi)變異較大。不同物種的多態(tài)位點(diǎn)數(shù)和單倍型多樣性不一致,表明GATA-2基因的種間存在遺傳變異。17個(gè)物種種間的平均核苷酸差異數(shù)(k)為76.676,核苷酸多樣性為0.053。其中,人的GATA-2基因平均核苷酸差異數(shù)和核苷酸多樣性最高,與其他物種差異較大,這表明人的GATA-2基因存在豐富的遺傳多樣性(表2)。
2.1.2 核苷酸歧異度、遺傳分化和凈遺傳距離分析 不同物種GATA-2基因遺傳分化(Gst)在0.093~1.000之間,核苷酸歧異度(Dxy)和凈遺傳距離(Da)都在0.001~0.109之間(表3)。不同物種間核苷酸歧異度和遺傳分化、凈遺傳距離的變化范圍均很大,說(shuō)明了不同物種間遺傳分化明顯。其中黑猩猩和倭黑猩猩、大猩猩、人的核苷酸歧異度、凈遺傳距離最小,說(shuō)明黑猩猩與倭黑猩猩、大猩猩、人之間的親緣關(guān)系較近,小家鼠、褐家鼠與其他物種間的核苷酸歧異度、凈遺傳距離最大,說(shuō)明小家鼠、褐家鼠與本研究中其他物種間親緣關(guān)系較遠(yuǎn)。
2.2 不同物種GATA-2基因氨基酸多樣性分析
2.2.1 密碼子偏愛(ài)性 ENC值是評(píng)價(jià)基因整體密碼子偏愛(ài)性,其取值范圍為20(每個(gè)氨基酸只使用1個(gè)密碼子的極端情況)~61(各個(gè)密碼子均被平均使用),其值越低說(shuō)明偏愛(ài)性越強(qiáng),越高則說(shuō)明偏愛(ài)性越低[6]。CBI值反映了一個(gè)基因中高表達(dá)優(yōu)越密碼子的組分情況,說(shuō)明外源基因在目的宿主中可能的表達(dá)情況[7]。所選不同物種GATA-2基因序列編碼區(qū)中密碼子有效值(ENC)為42.383 (<61),偏愛(ài)指標(biāo)(CBI)為0.494(>0),說(shuō)明GATA-2基因?qū)γ艽a子有較強(qiáng)偏愛(ài)性。
2.2.2 同義替換和非同義替換 17個(gè)物種52條GATA-2基因序列編碼區(qū)中同義替換平均位點(diǎn)數(shù)為365.80個(gè),非同義替換平均位點(diǎn)數(shù)為1 071.20個(gè)。不同物種同義替換位點(diǎn)數(shù)(SS)為364.50~367.50(表4),同義替換核苷酸多樣性均值[π(s)]為0.189;非同義替換位點(diǎn)數(shù)(NSS)為1 072.50~1 075.50,非同義替換核苷酸多樣性均值[π(a)]為0.006。GATA-2基因的非同義替換位點(diǎn)數(shù)均明顯高于同義替換位點(diǎn)數(shù),亞馬遜松鼠猴的非同義替換位點(diǎn)數(shù)較其他物種多,其次是家貓、小家鼠,說(shuō)明亞馬遜松鼠猴GATA-2基因編碼區(qū)的非同義替換較其他物種高,家貓、小家鼠分別為第二、第三。由于達(dá)爾文的正向選擇有些基因中非同義替代速率遠(yuǎn)遠(yuǎn)高于同義替代[8],因此推測(cè)本研究中的GATA-2基因在進(jìn)化過(guò)程中可能受到了正向選擇的影響。
2.2.3 不同物種GATA-2基因遺傳關(guān)系分析 根據(jù)不同物種間的核苷酸歧異度(Dxy),用MEGA5.0軟件的UPGMA方法進(jìn)行聚類(lèi)分析,構(gòu)建不同物種分子聚類(lèi)圖(圖1)。由圖1可以看出,人與黑猩猩、倭黑猩猩、大猩猩的親緣關(guān)系較近,小家鼠與褐家鼠與其他物種的親緣關(guān)系較遠(yuǎn),基本上與NCBI中的動(dòng)物學(xué)分類(lèi)相符合。
2.2.4 不同物種GATA-2基因的G+C含量 親緣關(guān)系相近的生物,核苷酸的堿基組成中的G+C含量相似,若生物之間G+C含量差別大,則表明它們的親緣關(guān)系遠(yuǎn)。本研究中的GATA-2基因的堿基組成,發(fā)現(xiàn)它們之間的G+C含量的均值為64.60%,不同物種的G+C含量在62.20%~66.10%之間(表4),說(shuō)明GATA-2基因在不同物種間發(fā)生了遺傳變異。小家鼠和褐家鼠GATA-2基因的G+C含量分別為62.60%、62.20%(表4),與其他物種GATA-2基因的G+C含量相差較大,說(shuō)明小家鼠和褐家鼠與本研究中的其他物種親緣關(guān)系最遠(yuǎn),與本研究之前的結(jié)果相符。
2.3 不同物種氨基酸序列預(yù)測(cè)和分析
2.3.1 信號(hào)肽的預(yù)測(cè)與分析 一般認(rèn)為,每一個(gè)需要運(yùn)輸?shù)亩嚯亩己幸欢伟被嵝蛄校?稱為信號(hào)肽序列(Signal peptide,SP),引導(dǎo)多肽至不同的轉(zhuǎn)運(yùn)系統(tǒng)[9]。信號(hào)肽幫助蛋白質(zhì)穿膜,與蛋白質(zhì)的細(xì)胞定位有關(guān),通過(guò)分析蛋白序列N端信號(hào)肽的有無(wú), 可以初步判斷某個(gè)蛋白是否為分泌蛋白[10]。利用蛋白分析專(zhuān)家EXPASY 工具里的SignalP 4.0 Server對(duì)17個(gè)物種GATA-2氨基酸序列進(jìn)行預(yù)測(cè),結(jié)果顯示所研究17個(gè)物種的GATA-2氨基酸序列均無(wú)信號(hào)肽,推測(cè)GATA-2不是分泌蛋白,在游離核糖體上起始合成后就于合成處發(fā)揮作用,可能不存在運(yùn)輸,而保留在細(xì)胞基質(zhì)中合成,運(yùn)輸?shù)郊?xì)胞器中起作用的蛋白質(zhì)。
2.3.2 導(dǎo)肽的預(yù)測(cè)和分析 導(dǎo)肽促使前體蛋白和細(xì)胞器膜相互作用,穿越過(guò)膜后被細(xì)胞器的蛋白酶切下轉(zhuǎn)運(yùn),繼續(xù)使整個(gè)蛋白穿越過(guò)膜,或直到中部導(dǎo)致轉(zhuǎn)運(yùn)停止。利用在線工具TargetP1.1 Server 對(duì)13個(gè)物種GATA-2氨基酸序列進(jìn)行預(yù)測(cè),結(jié)果顯示本研究中17個(gè)物種的GATA-2氨基酸序列均沒(méi)有氨基酸殘基裂解位點(diǎn),故推斷GATA-2氨基酸序列不具有導(dǎo)肽。
2.3.3 跨膜結(jié)構(gòu)域的預(yù)測(cè)和分析 蛋白的跨膜結(jié)構(gòu)域主要是膜內(nèi)在蛋白和細(xì)胞膜的膜脂相結(jié)合的部位,一般是由以α-螺旋形式存在的20個(gè)左右疏水氨基酸殘基構(gòu)成[11],利用在線工具TMHMM 2.0 Server對(duì)17個(gè)物種GATA-2氨基酸序列的跨膜結(jié)構(gòu)域進(jìn)行預(yù)測(cè),結(jié)果顯示本研究中17個(gè)物種的 GATA-2氨基酸序列均不存在跨膜結(jié)構(gòu)域,整條肽鏈位于細(xì)胞外,推測(cè)該蛋白不是定位于生物膜的膜蛋白。結(jié)合信號(hào)肽的預(yù)測(cè),說(shuō)明GATA-2蛋白質(zhì)屬于定位在細(xì)胞基質(zhì)中的蛋白質(zhì),不屬于膜蛋白或分泌蛋白。
2.3.4 疏水性/親水性的預(yù)測(cè)和分析 疏水性和親水性分析對(duì)于預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)和功能域具有重要的生物學(xué)意義。疏水性的氨基酸傾向于遠(yuǎn)離周?chē)肿樱瑢⒆约喊襁M(jìn)蛋白質(zhì)的內(nèi)部,親水氨基酸通常處于蛋白質(zhì)分子的表面[12]。利用在線工具 ProtScale 對(duì)17個(gè)物種GATA-2氨基酸序列的疏水性/親水性進(jìn)行預(yù)測(cè),結(jié)果顯示本研究17個(gè)物種的GATA-2氨基酸序列最低分值為-4.500,親水性最強(qiáng);最高分值為4.500,疏水性最強(qiáng)。總體上看,親水區(qū)域大于疏水區(qū)域,故整條多肽鏈表現(xiàn)為親水性,因此認(rèn)為GATA-2蛋白是親水性蛋白,處于蛋白質(zhì)分子的表面。
2.3.5 二級(jí)結(jié)構(gòu)的預(yù)測(cè)和分析 二級(jí)結(jié)構(gòu)主要指多肽鏈依賴氫鍵排列成在一維方向上具有周期性結(jié)構(gòu)的構(gòu)象,對(duì)其進(jìn)行預(yù)測(cè)與分析,有助于認(rèn)識(shí)蛋白的空間結(jié)構(gòu)[13]。用 PBIL LYON-GERLAND信息庫(kù)對(duì)17個(gè)物種GATA-2氨基酸序列的二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè),結(jié)果顯示本研究中17個(gè)物種的GATA-2蛋白質(zhì)二級(jí)結(jié)構(gòu)的主要結(jié)構(gòu)元件是無(wú)規(guī)卷曲(72.71%~75.83%),其次α-螺旋(11.46%~13.33%)、β折疊(7.29%-9.38%)、β轉(zhuǎn)角(3.75%~5.83%)。
2.3.6 氨基酸序列的組成成分及生化特性分析 用ProtParam在線工具分析17個(gè)物種GATA-2基因編碼的氨基酸序列,結(jié)果表明,理論等電點(diǎn)為9.43,GATA-2蛋白呈堿性,Pro是17個(gè)物種中最主要的氨基酸,含量在11.2%~11.7%;其次是Ala,含量在10.8%~11.5%;再次是Ser,含量在10.0%~11.0%。17個(gè)物種 GATA-2 蛋白的不穩(wěn)定系數(shù)在57.11~62.63之間,表明這種蛋白質(zhì)不穩(wěn)定[14]。
3 小結(jié)與討論
不同物種間GATA-2基因的核苷酸歧異度、凈遺傳距離和單倍型間的遺傳距離差異都較大,種內(nèi)及種間遺傳分化明顯。GATA-2基因?qū)γ艽a子有較強(qiáng)的偏愛(ài)性,非同義替換位點(diǎn)數(shù)均明顯高于同義替換位點(diǎn)數(shù),GATA-2基因在進(jìn)化過(guò)程中可能受到正向選擇的影響。GATA-2基因物種間的親緣關(guān)系與動(dòng)物學(xué)分類(lèi)相符。
GATA-2蛋白N端無(wú)信號(hào)肽,無(wú)導(dǎo)肽,無(wú)跨膜結(jié)構(gòu)域,整個(gè)多肽鏈表現(xiàn)為親水性,蛋白質(zhì)二級(jí)結(jié)構(gòu)的主要元件為無(wú)規(guī)則卷曲和α-螺旋,除此之外還有少量β折疊和β轉(zhuǎn)角,GATA-2蛋白質(zhì)不屬于膜蛋白或分泌蛋白,應(yīng)定位在細(xì)胞基質(zhì)。
參考文獻(xiàn):
[1] MORRISEY E E, IP H S, TANG Z, et al. GATA-4 activates transcription via two novel domains that are conserved within the GATA-4/5/6 subfamily[J]. Journal of Biological Chemistry,1997,272(13):8515-8524.
[2] ONODERA K, YOMOGIDA K, SUWABE N, et al. Conserved structure, regulatory elements, and transcriptional regulation from the GATA-1 gene testis promoter[J]. Journal of Biochemistry,1997,121(2):251-263.
[3] IKONOMI P, RIVERA C E, RIORDAN M, et al. Overexpression of GATA-2 inhibits erythroid and promotes megakaryocyte different iat ion[J]. Exp Hematol,2000,28(12):1423-1431.
[4] SUH H, GAGE P J, DROUIN J, et al. Pitx2 is required at multiple stages of pituitary organogenesis: Pituitary primordium formation and cell specification[J]. Development,2002,129(2): 329-337.
[5] 吳秀麗,李揚(yáng)秋.轉(zhuǎn)錄因子GATA-2的研究進(jìn)展[J]. 現(xiàn)代臨床醫(yī)學(xué)生物工程學(xué)雜志,2003,9(5):387-389.
[6] WRIGHT F. The‘effective number of codons’ used in a gene[J]. Gene,1990,87(1):23-29.
[7] NOVEMBRE J A.Accounting for background nucleotide composition when measuring codon ussge bias[J]. Mol Biol Evol,2002,19(8):1390-1394.
[8] GUO Z P . Introduction to Population Genetics[M]. Beijing: Agricultural Press,1993.298-332.
[9] 彭佳師,龔繼明.信號(hào)肽與蛋白質(zhì)的分選轉(zhuǎn)運(yùn)[J].植物生理學(xué)報(bào),2011,47(1):9-17.
[10] 孫翰昌,楊 帆,徐敬明,等.草魚(yú)含信號(hào)肽分泌蛋白的預(yù)測(cè)分析[J].水產(chǎn)科學(xué),2011,30(3):164-167.
[11] 張 耿,王 贊,關(guān) 寧,等.中間偃麥草Na+/H+逆向轉(zhuǎn)運(yùn)蛋白的分子克隆及生物信息學(xué)分析[J].遺傳,2007,29(10):1263-1270.
[12] 胡秀珍.蛋白質(zhì)規(guī)則二級(jí)結(jié)構(gòu)中親疏水氨基酸緊鄰關(guān)聯(lián)特性[J].內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版),2002,33(4):395-400.
[13] 徐 飛,成述儒,羅玉柱. 綿羊DRB1基因生物信息學(xué)分析[J]. 生物技術(shù)通報(bào),2011(1):113-118.
[14] 張雨良,張智俊,楊峰山,等.新疆鹽生植物車(chē)前PmNHXl 基因的克隆及生物信息學(xué)分析[J].中國(guó)生物工程,2009,29(1):27-33.