摘要:運用EMBOSS(The european molecular biology open software suite)軟件包中的CHIPS(Condon heterozygosity in a protein coding sequence)和CUSP(Create a condon usage table)程序對紅豆杉屬的52個基因的密碼子偏性進行綜合分析,并與大腸桿菌、酵母、擬南芥和水稻的密碼子偏性進行比較。結果表明,紅豆杉屬基因的Nc(有效密碼子數)為45~58,大部分密碼子使用頻率較為一致。部分氨基酸密碼子使用頻率存在較大差異,如Ala、Asp、Phe、Gly、His、Asn、Arg、Thr、Tyr等。紅豆杉屬基因密碼子偏性與擬南芥等雙子葉植物較接近,與原核生物和單子葉植物相差較遠。
關鍵詞:紅豆杉屬;密碼子偏性;CHIPS;CUSP
中圖分類號:S791.49 文獻標識碼:A 文章編號:0439-8114(2013)10-2427-04
核酸是蛋白質合成的模板,編碼天然蛋白質的20種氨基酸的密碼子共61種,每一種氨基酸可由1個密碼子(Met和Trp)至6個密碼子(Arg、Leu和Ser)編碼[1]。編碼同一種氨基酸的密碼子在不同物種中具有不同的使用頻率,這就造成密碼子偏性(Codon bias)[2]。從原核生物到真核生物,這種基因組中同義密碼子使用偏性的現象普遍存在,它的產生與多種因素有關,如基因表達水平、G/C含量、tRNA的豐富性等[3]。密碼子偏性的產生與基因的堿基組成、表達水平、編碼蛋白的結構與功能等眾多因素有關,且各因素間還可能相互影響,因而進行密碼子偏性分析是一個較為復雜的問題。從這些復雜的現象中分析并發(fā)現內在規(guī)律,將對新基因的預測、基因功能和表達調控機制研究、基因編碼蛋白的細胞定位及分子進化研究等具有重要指導意義。
紫杉醇是從雙子葉植物紅豆杉(Taxus brevifolia)中提煉出來的具有天然活性的雙萜抗癌藥物[4],是1971年從短葉紅豆杉的樹皮、樹根和枝葉中提煉出來的[5],被廣泛用于卵巢癌、非小細胞肺癌、乳腺癌等癌癥的治療[6]。目前紫杉醇主要的合成方法是化學合成,但是收益低、成本高,從紅豆杉植物中提取紫杉醇會造成嚴重的資源破壞。產量不足,帶動了紫杉醇合成的全方位的研究,其中利用生物工程方法實現紫杉醇的高產合成成為研究熱點。許多科學家希望實現紫杉醇合成基因在大腸桿菌等微生物中異源表達來實現紫杉醇的生物合成。但是蛋白質在異源宿主中表達一般會受到限制,因為編碼這些蛋白質的核酸序列往往含有宿主不喜歡使用的密碼子,從而降低了表達效率[7]。因此,分析紅豆杉屬植物基因的密碼子偏性對于選擇基因外源表達的合適的宿主有重要意義。
研究利用EMBOSS(The european molecular biology open software suite)軟件,以麥迪紅豆杉和東北紅豆杉為主,從紅豆杉屬植物中選取52個基因,對其編碼區(qū)進行密碼子偏性分析,并與大腸桿菌、酵母、擬南芥和水稻的密碼子偏性進行比較,為利用生物工程方法實現紫杉醇的生物合成提供參考。
1 材料與方法
1.1 紅豆杉基因來源
以麥迪紅豆杉和東北紅豆杉為主,從紅豆杉屬植物中選取52個基因。登錄號分別為AY724737,GU568338, FJ608574, EU078561, AF457109,AF228104, HB792670, FB922725, AY675557,AY461811, HB792772, FB922713, GU568337,AY563630, FB922731, AY453402, HB792790,AF466397, BD313599, HB792668, AY453403,DQ836053, AY644708, AY628433, HB792746,FB922723, AY452666, AY277740, AY326950,HB792782, HB792744, AY307951, AY461450,AY188177, HB831819, HB776721, BD313592,BD313600, BD313597, AY588482, AY505129,EU549861, AY289209, AY866412, BD313598,AY453404, EU549860, AY571340, HB769723,AY789508, AY518383, BD313601。
1.2 分析軟件與數據庫
用EMBOSS軟件包中的CHIPS(Condon heterozygosity in a protein coding sequence)和CUSP(Create a condon usage table)程序進行密碼子偏性分析[1,2]。CHIPS可對密碼子使用頻率進行統(tǒng)計,計算特定序列中有效密碼子的Nc(有效密碼子數),該值是一個基因的密碼子使用頻率與同義密碼子平均使用頻率偏差的量化值。
Nc=2+9/F2+1/F3+5/F4+3/F6
F=■, n﹥1,Pi=ni/n
其中,n表示基因中所使用的密碼子總數;k為同義密碼子數量;Pi是第i個密碼子的使用頻率(ni/n)。
Nc值與基因長度和氨基酸組成有關,因此可以對基因的密碼子偏性程度提供一個客觀的評價標準。CUSP是對一個或多個編碼序列進行閱讀后計算出密碼子頻率。該程序可計算不同密碼子在同一氨基酸編碼中所占的比例,并通過外延法計算密碼子在編碼基因中出現的頻率。本研究的大腸桿菌、酵母、擬南芥和水稻的密碼子偏性數據來自密碼子數據庫[8]。
2 結果與分析
2.1 紅豆杉屬基因編碼區(qū)長度與G+C含量
對從紅豆杉屬植物中選取的基因結構完整的52個基因進行分析(圖1),其編碼區(qū)長度主要為 1 200~1 600 bp。這些基因的(G+C)含量從34.0%到56.5%,平均(G+C)含量為43.7%,少數基因的(G+C)含量在50%以上(3/52)或40%以下(7/52)。如氨基變位酶基因AY724737的(G+C)含量為56.2%,苯丙氨酸解氨酶基因GU568338的(G+C)含量為56.5%,JAMYC轉錄因子FJ608574的(G+C)含量為50.8%。(G+C)含量在40%以下的基因有7個,其中成熟酶K基因EU078561、紅豆杉山定子成熟酶K基因AF457109、東北紅豆杉的成熟酶K基因AF228104的(G+C)含量分別為34.0%、34.1%、34.7%。
2.2 紅豆杉屬基因有效密碼子數
Nc值描述密碼子使用偏離隨機選擇的程度(并不是某個特殊密碼子的使用頻率與其他密碼子的比較),能反映密碼子家族中同義密碼子非均衡使用的偏好程度。其數值范圍在20(每個氨基酸只使用一個密碼子的極端情況)到61(各個密碼子都被使用)之間。已知高表達基因其密碼子偏愛程度較大,從而Nc值較小;低表達基因則含有較多種類的稀有密碼子,Nc值較大,所以,當前普遍通過比較Nc來確定內源基因表達量的相對高低。Nc值越小,對應的內源基因往往表達量越高。紅豆杉屬基因有效密碼子數Nc值主要為45~58(圖2),表明一個基因并沒有使用所有的密碼子,編碼氨基酸的密碼子有一定的偏性。
2.3 紅豆杉屬基因的密碼子偏性
紅豆杉屬基因密碼子偏性CUSP軟件分析結果見表1。由表1可知,除了Cys、Glu、Lys、Gln等,編碼Ala、Asp、Phe、Gly、His、Ile、Asn、Pro、Arg、Thr、Val、Tyr的密碼子以及終止密碼子存在比較明顯的偏性。其中Ala偏愛密碼子GCA的比例達0.39,而GCG的比例僅為0.10;Asp偏愛密碼子GAT的比例達0.64,而GAC的比例僅為0.36;Phe偏愛密碼子TTT的比例達0.61,而TTC的比例僅為0.39;Gly偏愛密碼子GGA的比例達0.42,而GGC的比例僅為0.16;His偏愛密碼子CAT的比例達0.69,而CAC的比例僅為0.31。此外Ile、Asn、Pro、Arg、Thr、Val、Tyr和終止肽鏈合成的偏愛密碼子分別為ATT、AAT、CCA/CCT、AGA、ACA/ACT、GTT、TAT和TGA。
觀察發(fā)現紫杉醇合成途徑中的偏愛密碼子和高頻密碼子的第三位堿基多為A/T,紫杉醇合成基因偏愛使用A/T結尾的密碼子,少量或避免使用G/C結尾的密碼子,這與Kawabe等[9]利用4種單子葉植物和3種雙子葉植物進行密碼子研究的結果一致,即雙子葉植物偏愛使用A/T結尾的密碼子且Nc值較高,而單子葉植物偏愛使用G/C結尾的密碼子且Nc值較低。同時發(fā)現偏愛密碼子和高頻密碼子一般含有較多的A/T,而含有較少的G/C,這一現象與紫杉醇合成基因的(G+C)含量較低的現象是一致的,紫杉醇合成基因的(G+C)含量只有43.7%,相應的在密碼子選擇上,占優(yōu)勢的密碼子含有更多的A/T。
2.4 紅豆杉基因密碼子與大腸桿菌、酵母、擬南芥和水稻密碼子偏性比較結果
紅豆杉基因密碼子偏性與大腸桿菌、酵母、擬南芥和水稻的密碼子偏性比較結果見表2。由表2可知,紅豆杉基因密碼子偏性與大腸桿菌、酵母、擬南芥和水稻等不同種類模式生物的密碼子偏性具有不同程度的差異。其與大腸桿菌的22個密碼子使用偏性差異較大。如編碼Ala的密碼子GCG在大腸桿菌中的頻率是31.7‰,在紅豆杉中則只有8.5‰;編碼Ile的密碼子ATA在大腸桿菌中的頻率為5.4‰,在紅豆杉中卻高達18.8‰?;蛎艽a子的偏性之所以在兩個物種間存在較大的差異可能主要是由于大腸桿菌屬于原核生物而紅豆杉則是高級植物,它們的親緣性差別較大,導致它們對密碼子的選擇性也不同。因此若需將紅豆杉的紫杉醇基因在大腸桿菌中表達,需要通過部分改造密碼子,來適應大腸桿菌的密碼子使用法則,來提高表達效率。
紅豆杉與同為雙子葉植物的擬南芥密碼子使用法則基本一致,僅有2個密碼子差異較大,而與單子葉植物水稻的密碼子使用法則差異較大,有15個密碼子有明顯差異。因此在進行外源基因表達時,紅豆杉的紫杉醇合成基因可以不經過密碼子優(yōu)化,而在擬南芥等雙子葉植物中獲得高效表達;若需將紫杉醇合成基因在水稻等單子葉植物中表達,則可以按照該研究提供的密碼子偏性進行適當的密碼子改造來提高表達效率。
3 小結與討論
密碼子是生物體內信息傳遞的基本環(huán)節(jié),在長期的進化過程中,任何一個物種為適應其基因組環(huán)境,都要形成特定的符合其基因組的密碼子使用法則。不同生物物種密碼子偏性有一定差別,造成外源基因在宿主中表達有強弱現象。選擇密碼子偏性相近的宿主,可能有利于外源蛋白質的高效表達。有研究報道通過改變目的基因的同義密碼子,使其適應宿主的密碼子偏性來提高目的蛋白質的表達量。
研究首先選取了紫杉醇合成途徑中的52個基因,對它們的(G+C)含量、密碼子偏性進行了綜合分析,得出了紫杉醇合成基因的密碼子用法特征,即偏愛使用A/T結尾的密碼子,少量使用G/C結尾的密碼子,且偏愛密碼子和高頻密碼子含有較多的A/T和較少的G/C,這與雙子葉植物密碼子使用法則和紫杉醇合成基因(G+C)含量低相一致。同時,紅豆杉的密碼子偏性與大腸桿菌、酵母、擬南芥和水稻的密碼子偏性進行比較,發(fā)現其與擬南芥等雙子葉植物的密碼子偏性基本一致,而與大腸桿菌等原核生物和水稻等單子葉植物的密碼子偏性差異較大。這為如何選擇合適宿主或改變密碼子實現紫杉醇合成基因外源高效表達提供一定依據。
參考文獻:
[1] 王 艷, 馬文麗, 鄭文嶺. SARS冠狀病毒的密碼子偏愛性分析[J].生命科學研究,2003,7(3):219-223.
[2] 范三紅,郭藹光,單麗偉,等. 擬南芥基因密碼子偏愛性分析[J]. 生物化學與生物物理進展,2003,30(2):221-227.
[3] LIU Q P,FENG Y,ZHAO X H,et al. Synonymous codon usage bias in Oryza sativa[J]. Plant Science,2004,167(1):101-105.
[4] 劉漢梅,何 瑞,張懷瑞,等. 玉米同義密碼子偏愛性分析[J]. 農業(yè)生物技術學報,2010,18(3):456-461.
[5] WANI M C,TAYLOR H L,WALL M E,et al. Plant antitumor agents.VI.The isolation and structure of taxol,a novel antileukemic and antitumor agent from Taxus brevifolia[J].Journal of the American Chemical Society,1971,93(9):2325-2327.
[6] 元英進,葛志強,馮 霞. 抗癌新藥紫杉醇和多烯紫杉醇[J]. 北京:化學工業(yè)出版社,2002.
[7] GUSTAFSSON C,GOVINDARAJAN S,MINSHULL J.Codon bias and heterologous protein expression[J]. Trends in Biotechnology,2004,22(7):346-358.
[8] NAKAMURA Y,GOJOBORI T,IKEMURA T.Condon usage tabulate form the international DNA sequence database:status for the year 2000[J]. Nucleic Acids Research,2000,28(1):292-296.
[9] KAWABE A,MIYASHITA N T. Patterns of codon usage bias in three dicot and four monocot plant species[J]. Genes Genetic Systems,2003,78(5):343-352.