林 瀚,黃亞志,張尚宏
(中山大學基因工程教育部重點實驗室∥生物工程研究中心,廣東 廣州 510275)
基因組GC含量(G與C所占的百分比)是基因組組成的標志性指標。早在20世紀50年代,Lee等[1]就發(fā)現(xiàn)細菌基因組GC含量可在25%~75%之間。迄今,有兩種觀點來解釋不同生物之間GC含量的差異:中性說[2]和選擇說[3]。中性說主要強調(diào)不同生物之間GC含量的差異是由堿基的隨機突變和漂移造成,而選擇說則認為GC含量的差異是環(huán)境及生物的生活習性等因素綜合作用的結(jié)果。
在選擇說的模式下,Thiery等[4]分析了一些脊椎動物的基因組,發(fā)現(xiàn)溫血脊椎動物的基因組GC含量要比冷血脊椎動物的高。Galtier等[5]和Hurst等[6]則研究了原核基因組GC含量與生物最適生長溫度的相關(guān)性,發(fā)現(xiàn)總體上相關(guān)關(guān)系并不明顯,而一些RNA(如16S rRNA)的GC含量卻與相應細菌的最適生長溫度有較好的相關(guān)性。Musto等[7]進一步采用按科分組分析以降低其他因素干擾的方法研究這種關(guān)系,結(jié)果也只發(fā)現(xiàn)了一些局部的規(guī)律。另一方面,近年的研究顯示,原核生物GC含量與其基因組大小卻有一定的總體相關(guān)性[8]。
由于基因組的GC含量可能要受到生物生存環(huán)境及生活習性的影響,所以從總體上去分析GC含量與基因組大小的相關(guān)性并不一定能反映兩者之間的確切關(guān)系。為了找到更精確的規(guī)律,本文采用單因素和雙因素分組分析的方法研究基因組大小與GC含量的關(guān)系,探索在不同環(huán)境和生活習性下兩者的相關(guān)性。
本研究一共選取了有代表性的411種原核生物基因組進行分析,包括371種真細菌和40種古細菌[9]。它們的全序列以及生存環(huán)境的數(shù)據(jù)均從NCBI基因組數(shù)據(jù)庫(http:∥www.ncbi.nlm.nih.gov/genomes/lproks.cgi)中獲得。
首先對所選取的原核生物樣本的基因組大小與GC含量進行回歸分析和計算決定系數(shù)R2(相關(guān)系數(shù)r的平方),驗證相關(guān)性的存在。然后,將這些原核生物按照最適生長溫度、氧氣偏好性、運動特性、水生特性和寄生特性的不同進行單因素分組和雙因素分組[9],對每一組原核生物的基因組大小與GC含量進行同樣的分析。
進一步,從分組的回歸分析結(jié)果中選出線性相關(guān)關(guān)系最好的一組,進行二核苷酸和三核苷酸頻率(數(shù)據(jù)源自我們以往的研究[10])與基因組大小的相關(guān)分析,以驗證在基因組大小與GC含量相關(guān)關(guān)系存在的情況下,是否同時也有寡聚核苷酸頻率上的偏好性。
所分析的原核生物基因組大小大部分都在1~6 Mb范圍內(nèi),而GC含量則一般在20%~75%之間(圖1)?;貧w分析顯示,基因組大小與GC含量總體上存在著具統(tǒng)計學意義的正相關(guān)(有關(guān)參數(shù)見圖1)。
圖1 原核生物基因組大小與基因組GC含量的回歸分析(樣本數(shù)n=411)
從圖2a可以看出,中溫原核生物基因組大小與GC含量呈現(xiàn)較顯著的正相關(guān)關(guān)系;而嗜熱原核生物的這種關(guān)系則較差,且它們的基因組較小(圖2b)。好氧原核生物也顯示出一定的正相關(guān)關(guān)系(圖2c);厭氧原核生物卻沒有什么明顯的規(guī)律(圖2d);兼性厭氧原核生物則有較好的正相關(guān)關(guān)系(圖2e)。不運動原核生物的正相關(guān)關(guān)系比較顯著(圖2f),而運動原核生物的則沒那么明顯(圖2g)。水生原核生物基因組大小與GC含量沒有明顯的關(guān)系(圖2h);寄生原核生物則呈現(xiàn)明顯的正相關(guān)關(guān)系(圖2i);兼性寄生原核生物也呈現(xiàn)一定的關(guān)系(圖2j)。
從以上組別的原核生物基因組大小與GC含量的相關(guān)系數(shù)看,寄生原核生物那一組的最大,其回歸直線斜率也最大。因此,寄生生活習性對維持或增強基因組大小與基因組GC含量的相關(guān)性有較大的作用。
從表1可以看出,除了厭氧寄生這一組外,其余和寄生有關(guān)的組別的基因組大小與GC含量正相關(guān)關(guān)系都非常好,r值都在0.65以上,這說明寄生的生活方式可能存在某些因素能夠維持或促進基因組大小與GC含量呈現(xiàn)較好的相關(guān)關(guān)系。另一方面,所有和厭氧有關(guān)的組別的r值都在0.30以下,P值也比較大,說明這些組別的相關(guān)關(guān)系都比較差。這可能是厭氧的生活方式存在某些阻礙基因組大小與GC含量呈正相關(guān)關(guān)系的因素,且這些因素的作用比寄生的正向作用還要強。此外,除厭氧不運動組和水生不運動組外,其余和不運動相關(guān)的組別的基因組大小與GC含量正相關(guān)關(guān)系都比較好。
圖2 不同組別原核生物基因組大小與基因組GC含量的回歸分析
表1 雙重生活習性因素分組情況下基因組大小與GC含量的相關(guān)分析
Table 1 Correlation between genome size and genomic GC content in various groups classified by combinations of lifestyles
Groupr P Groupr P Aerobic-Aquatic 0.1590.326Facultative-Host-associated0.8102.60×10-5Aerobic-Host-associated0.6582.59×10-4Facultative-Multiple0.5031.28×10-5Aerobic-Multiple0.2200.161Facultative-Motile0.3919.58×10-3Aerobic-Immotile0.5154.22×10-3Aquatic-Immotile0.2790.248Aerobic-Motile0.3342.79×10-3Aquatic-Motile0.3000.064Anaerobic-Aquatic0.1820.429Host-associated-Immotile0.6486.12×10-4Anaerobic-Host-associated0.2820.172Host-associated-Motile0.6651.54×10-4Anaerobic-Immotile0.2590.222Multiple-Immotile0.5760.012Anaerobic-Motile0.2340.249Multiple-Motile0.1890.168
2.4.1 二核苷酸頻率與基因組大小的相關(guān)/回歸分析 從表2可以看出,全由強核苷酸(C或G)或全由弱核苷酸(A或T)組成的二核苷酸的頻率(%)與基因組大小(Mb)的相關(guān)系數(shù)和回歸系數(shù)的絕對值都明顯比其他二核苷酸(一強一弱核苷酸組成)的要大。這說明隨著基因組大小增大,對能增加GC含量的二核苷酸的偏好性明顯增加, 對能減少GC含量的二核苷酸的偏好性明顯減小。此外,相關(guān)系數(shù)和回歸系數(shù)的值還顯示出二核苷酸的鏈對稱特征,即寡聚核苷酸的頻率與其反向互補序列的頻率很相近[10-11]。
2.4.2 三核苷酸頻率與基因組大小的相關(guān)/回歸分析 除CCC和GGG外,GC含量為100%或0%的三核苷酸頻率與基因組大小的相關(guān)系數(shù)絕對值都在0.65以上,回歸系數(shù)絕對值都在0.45以上,呈明顯的相關(guān)關(guān)系(表3)。因此,隨著基因組增大,對GC含量高于AT含量的三核苷酸的偏好性也增加,而對GC含量低于AT含量的三核苷酸的偏好性則減小。三核苷酸的鏈對稱特征同樣可從相關(guān)系數(shù)和回歸系數(shù)的值顯示出來。
表2 寄生原核生物基因組二核苷酸頻率與基因組大小的相關(guān)/回歸分析
Regression: regression coefficient;*:P< 0.05;**:P< 0.01
表3 寄生原核生物基因組中GC含量100%或0%的三核苷酸頻率與基因組大小的相關(guān)/回歸分析
Regression: regression coefficient; *:P< 0.05;**:P< 0.01
本研究分析了各種類型原核生物的基因組。嗜熱原核生物基因組大小與GC含量的相關(guān)性比較差,說明高溫可能對其有較大的負面影響,原因可能是基因組的增大受到生存溫度的制約。氧氣的偏好性同樣對這種相關(guān)性有影響,好氧原核生物的相關(guān)性不如兼性厭氧的,這可能是由于好氧的生活習性導致基因組GC含量偏高造成[12];厭氧原核生物中較差的關(guān)系則可能是由伴隨厭氧生活習性的多種因素導致。
寄生原核生物的基因組大小與GC含量有著最為明顯的正相關(guān)關(guān)系;在對其基因組二、三核苷酸頻率的分析中,同樣顯示出這種規(guī)律。寄生原核生物具有如此好的相關(guān)關(guān)系可能是由于某些與寄生生存方式相關(guān)的因素具促進作用而造成。另一方面,也可能是這種相關(guān)關(guān)系在生物基因組起源時就存在,寄生的生活方式導致寄生原核生物與“世”隔絕而少受外界環(huán)境因素影響,使這種相關(guān)關(guān)系維持得比較好。因此,原始生物基因組中是否就存在基因組大小與GC含量這種相關(guān)性值得進一步探索。總體而言,GC含量作為基因組的基本指標,它與普遍存在于基因組序列中的鏈對稱一起,蘊含著基因組起源與進化的重要信息[10-11]。
參考文獻:
[1]LEE K Y, WAHL R, BARBU E.Contenu en bases puriques et pyrimidiques des acides desoxyribonucleiques des bacteries [J].Ann Inst Pasteur, 1956, 91: 212-224.
[2]SUEOKA N.On the genetic basis of variation and heterogeneity of DNA base composition [J].Proc Natl Acad Sci USA, 1962, 48: 582-592.
[3]BERNARDI G.Compositional constraints and genome evolution [J].J Mol Evol, 1986, 24: 1-11.
[4]THIERY J P, MACAYA G, BERNARDI G.An analysis of eukaryotic genomes by density gradient centrifugation [J].J Mol Biol, 1976, 108: 219-235.
[5]GALTIER N, LOBRY J R.Relationships between genomic G+C content, RNA secondary structures, and optimal growth temperature in prokaryotes [J].J Mol Evol, 1997, 44: 632-636.
[6]HURST L D, MERCHANT A R.High guanine-cytosine content is not an adaptation to high temperature: a comparative analysis amongst prokaryotes [J].Proc R Soc Lond B Biol Sci, 2001, 268: 493-497.
[7]MUSTO H, NAYA H, ZAVALA A.Correlations between genomic GC levels and optimal growth temperatures in prokaryotes [J].FEBS Letters, 2004, 573: 73-77.
[8]MUSTO H, NAYA H, ZAVALA A.Genomic GC level, optimal growth temperature, and genome size in prokaryotes [J].Biochem Biophys Res Commun, 2006, 347: 1-3.
[9]林瀚.原核生物基因組大小和GC含量相關(guān)性研究 [D].廣州: 中山大學, 2008: 25-35.
[10]ZHANG S H, HUANG Y Z.Characteristics of oligonucleotide frequencies across genomes: conservation versus variation, strand symmetry, and evolutionary implications[J/OL].Nature Proceedings, 2008.[http:∥hdl.handle.net/10101/npre.2008.2146.1].
[11]ZHANG S H, HUANG Y Z.Limited contribution of stem-loop potential to symmetry of single-stranded genomic DNA [J].Bioinformatics, 2010, 26: 478-485.
[12]NAYA H H, ROMERO A, ZAVALA B.Aerobics increases the genomic guanine plus cytosine content(GC%)in prokaryotes [J].J Mol Biol, 2002, 55: 260-264.