黃婭琳 黃 捷 時(shí) 玉 徐燕紅 周用武 侯森林
(1.南京森林警察學(xué)院刑事科學(xué)技術(shù)學(xué)院,南京,210023;2.野生動(dòng)植物物證技術(shù)國家林業(yè)與草原局重點(diǎn)實(shí)驗(yàn)室,南京,210023;3.廣西壯族自治區(qū)森林公安局物證鑒定所,南寧,530028)
塔里木兔(Lepusyarkandensis),屬于兔形目(Lagomorpha),兔科(Leporidae),兔屬,又名莎車兔、南疆兔,為我國特有物種,僅分布于新疆塔克拉瑪干沙漠塔里木盆地周圍分散的綠洲及荒漠地帶[1]。隨著當(dāng)?shù)亟?jīng)濟(jì)的發(fā)展、石油開采業(yè)的發(fā)展以及非法狩獵活動(dòng)的增加,塔里木兔的數(shù)量急劇下降,于1989年被列為國家Ⅱ級(jí)重點(diǎn)保護(hù)野生動(dòng)物。與其他受保護(hù)物種相比,塔里木兔受關(guān)注程度較低,相關(guān)遺傳學(xué)研究較為匱乏。
mtDNA 在細(xì)胞中拷貝數(shù)多,沒有基因重組現(xiàn)象,嚴(yán)格遵循母系遺傳,其進(jìn)化速率是單拷貝核基因的 5—10 倍,因此它是動(dòng)物系統(tǒng)發(fā)育分析和物種識(shí)別的常用工具。本研究擬基于本研究組前期通過二代測序技術(shù)獲得的塔里木兔線粒體全基因組序列[2],對(duì)其線粒體DNA全基因組序列結(jié)構(gòu)特征及系統(tǒng)進(jìn)化進(jìn)行進(jìn)一步研究,以期為研究其遺傳多樣性、分類地位,為保護(hù)塔里木兔這一我國特有的瀕危物種奠定分子遺傳學(xué)研究基礎(chǔ)。
塔里木兔樣本于2019年2月采自新疆阿克蘇庫車縣。樣本采集后保存于南京森林警察學(xué)院DNA檢驗(yàn)室標(biāo)本庫。通過Illumina MiSeq測序分析獲得全長為17 011 bp的線粒體全基因組序列[3],該序列已提交NCBI基因數(shù)據(jù)庫(GenBank 登錄號(hào):MN450151)。另有下載自NCBI的GenBank的12份兔屬其他物種線粒體全基因組序列和2份外群物種鼠兔科(Ochotonidae)物種(高原鼠兔Ochotonacurzoniae和達(dá)烏爾鼠兔Ochotonadauurica)線粒體全基因組序列,實(shí)驗(yàn)材料信息詳見表1。
表1 用于系統(tǒng)進(jìn)化分析的物種線粒體DNA序列信息Tab.1 Mitochondrial DNA sequence information for phylogenetic analysis
使用Editseq7.1統(tǒng)計(jì)堿基組成、GC含量及氨基酸偏好性。通過Blast同源序列檢索及DNAStar和Genetyx軟件分析蛋白編碼基因、tRNA基因、rRNA基因和非編碼區(qū)基因。使用MEGA 7.0分析蛋白質(zhì)編碼基因的堿基組成和密碼子使用情況,并分析蛋白質(zhì)編碼基因的氨基酸使用情況[4]。使用在線軟件RNAstructure對(duì)tRNA二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測,使用RNAfold在線預(yù)測網(wǎng)站(http://rna.urmc.rochester.edu/RNAstructureWeb/index.html)對(duì)rRNA二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測[5]。
基于測序所得的塔里木兔線粒體全基因組序列和所下載的12種兔屬物種、2種外群鼠兔科物種線粒體基因組全序列,采用Mega 7.0軟件,分別使用最大似然法(maximum likelihood method,ML)和鄰接法(neighbor-joining method,NJ)構(gòu)建系統(tǒng)進(jìn)化樹。
塔里木兔線粒體基因組全序列總長為17 011 bp,呈雙鏈閉合環(huán)狀結(jié)構(gòu)(圖1)。通過分析表明:塔里木兔線粒體基因組包括13蛋白質(zhì)編碼基因、22個(gè)tRNA基因、2個(gè)rRNA基因(分別為rrnL、rrnS)和1個(gè)非編碼控制區(qū)(D-loop區(qū))。且基因排列順序和已報(bào)道的兔屬其他物種[6-8]相似,基因排列緊密,相鄰基因之間存在基因重疊現(xiàn)象。
塔里木兔線粒體全基因組序列中A、T、C、G的堿基含量分別為28.13%,27.67%、22.02%和22.17%,A+T的堿基含量為55.8%,C+G的含量為44.20%,表現(xiàn)出明顯的AT偏好性。
不同物種其線粒體基因的種類、位置和大小存在差異,表2所示為塔里木兔線粒體DNA上的RNA基因、蛋白編碼基因所在的位置,蛋白編碼基因的密碼子、起始密碼子、終止密碼子,以及tRNA的反密碼子。
表2 塔里木兔線粒體基因組注釋Tab.2 Characteristics of Lepus yarkandensis mitochondrial DNA genome
續(xù)表2
塔里木兔線粒體基因組共有13個(gè)蛋白質(zhì)編碼基因(cox1,cox2,cox3,atp6,atp8,nad1,nad2,nad3,nad4,nad4l,nad5,nad6,cob)。在塔里木兔線粒體基因組中,L鏈和H鏈上都有蛋白質(zhì)編碼基因,但是除了nad6以外,其他的蛋白質(zhì)編碼基因都在H鏈上。
除了nad2,nad3,nad5這3個(gè)蛋白質(zhì)編碼基因以ATT為起始密碼子,其余蛋白質(zhì)編碼基因(cox1,cox2,cox3,atp6,atp8,nad1,nad4,nad4l,nad6,cob)均以ATG作為起始密碼子。7個(gè)蛋白質(zhì)編碼基因(cox1,cox2,atp6,atp8,nad2,nad4l,nad5)共享相同的終止密碼子,3個(gè)蛋白質(zhì)編碼基因(cox3,nad1,nad6)共享相同的終止密碼子,其余3個(gè)蛋白質(zhì)編碼基因分別以TGA(nad3)、TCT(nad4)、AGG(cob)作為終止密碼子。塔里木兔線粒體DNA上的蛋白質(zhì)編碼基因的起始密碼子和終止密碼子均是完整的,不存在缺失狀況,這是進(jìn)化的一種象征[9]。
在其13個(gè)蛋白編碼基因中,每一個(gè)蛋白編碼基因的A+T含量均高于50%(表3),且13個(gè)蛋白編碼基因的A+T總含量為61.48%,可見其在蛋白編碼基因組中也具有AT偏好性。
表3 塔里木兔線粒體DNA蛋白質(zhì)編碼基因核苷酸含量Tab.3 Nucleotide content of the protein-coding genes of Lepus yarkandensis mitochondrial DNA
塔里木兔線粒體基因組中各蛋白質(zhì)編碼基因氨基酸使用情況如圖2所示,結(jié)果表明13個(gè)蛋白質(zhì)編碼基因中氨基酸使用最頻繁的依次包括Leu、Ile和Ser(Count>100),而Trp、Cys、Met和Arg的使用相對(duì)較少(Count<或=25)。
塔里木兔線粒體基因組上共檢測到22個(gè)tRNA基因,總長度為1 504 bp,長度范圍為6 471 bp,在線粒體基因組上的排列順序與其他兔形目動(dòng)物相同。其中8個(gè)tRNA基因(trnQ、trnA、trnN、trnC、trnY、trnS2、trnE、trnP)位于L鏈上,其余14個(gè)tRNA基因在H鏈上。
通過生物信息學(xué)分析對(duì)塔里木兔線粒體基因組編碼的22個(gè)tRNA的二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測,結(jié)果表明:除了trnM和trnS1以外,其余tRNA都有經(jīng)典的三葉草二級(jí)結(jié)構(gòu)(圖3)。在22個(gè)tRNA基因的二級(jí)結(jié)構(gòu)中出現(xiàn)了26對(duì)堿基錯(cuò)配現(xiàn)象。其中G-T錯(cuò)配25個(gè),A-A錯(cuò)配1個(gè)。A-A錯(cuò)配出現(xiàn)在trnF的氨基酸臂上。25個(gè)G-T錯(cuò)配在氨基酸臂、反密碼子臂、二氫尿嘧啶臂和TΨC臂上均有出現(xiàn)。這些錯(cuò)配是符合擺動(dòng)配對(duì)原則的,對(duì)于維持tRNA二級(jí)結(jié)構(gòu)的穩(wěn)定十分重要[10]。
rRNA是一類相對(duì)分子量較大的RNA[11],可為多種蛋白質(zhì)合成因子提供結(jié)合位點(diǎn),在蛋白質(zhì)合成起始時(shí),參與同mRNA選擇性的結(jié)合以及在肽鏈的延伸中與mRNA結(jié)合,與蛋白質(zhì)結(jié)合形成核糖體,并且可為tRNA提供結(jié)合位點(diǎn)。塔里木兔線粒體DNA的核糖體小亞基rrnS基因長度為955 bp,位于trnF-ttc(GAA)與trnV-gta(TAC)之間;核糖體大亞基rrnL基因?yàn)? 582 bp,位于A+T富含區(qū)與trnV-gta(TAC)和trnL2-tta(TAA)之間。兩個(gè)基因的位置十分靠近,中間只隔著一個(gè)trnV基因(圖1)。
通過生物信息學(xué)分析對(duì)塔里木兔線粒體基因組編碼的2個(gè)rRNA的二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測,結(jié)果表明:rRNA的二級(jí)結(jié)構(gòu)較為復(fù)雜,形成了較多的莖環(huán)結(jié)構(gòu),具體情況如圖4所示,rrnS的二級(jí)結(jié)構(gòu)如圖4A所示,rrnL的二級(jí)結(jié)構(gòu)如圖4B所示。
兔形目一共只有兔科和鼠兔科兩個(gè)科,分化程度不高,且兩個(gè)科的物種在外形上具有高度的相似性。本研究以兩種在我國有分布的鼠兔科物種(高原鼠兔和達(dá)烏爾鼠兔)為外群物種,基于塔里木兔和兔屬其他12個(gè)物種線粒體全基因組序列,分別用最大似然法(maximum likelihood method,ML)和鄰接法(Neighbor-Joining method,NJ)構(gòu)建系統(tǒng)進(jìn)化樹。結(jié)果如圖5、圖6所示,結(jié)果表明兩種方法構(gòu)建的分子系統(tǒng)進(jìn)化樹基本一致,外群物種高原鼠兔和達(dá)烏爾鼠兔單獨(dú)聚為一支,兔屬13個(gè)物種大致聚為4大支,華南兔單獨(dú)為一支,表明華南兔和兔屬其他12個(gè)物種親緣關(guān)系稍遠(yuǎn)一些。塔里木兔與蒙古兔聚為一支,表明塔里木兔與蒙古兔親緣關(guān)系最近。此結(jié)果與單獨(dú)基于線粒體cytb基因位點(diǎn)的聚類分析結(jié)果[2]不一致,表明僅基于單一位點(diǎn)進(jìn)行系統(tǒng)進(jìn)化關(guān)系分析容易造成偏差。
隨著基因領(lǐng)域的探索日益深入,由物種單個(gè)基因構(gòu)建的系統(tǒng)發(fā)生樹已經(jīng)不足以滿足研究者們對(duì)更加詳細(xì)、精確數(shù)據(jù)的需求。因此,通過使用更長的線粒體DNA序列,甚至是基因組全序列來構(gòu)建更精確、可靠的系統(tǒng)發(fā)生樹,以獲得能夠更加全面反映生物分子進(jìn)化水平的系統(tǒng)發(fā)育信息,逐漸成為研究者的共識(shí)與主流[12-13]。NCBI數(shù)據(jù)庫公布的兔屬其他物種線粒體基因組全序列大部分相似:全序列長度在17 kbp左右,結(jié)構(gòu)為雙鏈的閉合結(jié)構(gòu),通常包括13個(gè)蛋白編碼基因、22個(gè)tRNA基因、2個(gè)rRNA基因和1個(gè)非編碼控制區(qū)(D-loop區(qū))。
本研究分析了塔里木兔線粒體基因組特征,全長17 011 bp,AT含量為55.8%,呈現(xiàn)AT堿基偏好性,無基因重排的現(xiàn)象。在塔里木兔線粒體基因組中,L鏈和H鏈上都有蛋白質(zhì)編碼基因,但是除了nad6以外,其他的蛋白質(zhì)編碼基因都在H鏈上。Brown等[14]研究顯示,分布在H鏈上的線粒體基因容易形成沒有保護(hù)的單鏈,更易發(fā)生水解和氧化。塔里木兔線粒體基因組的蛋白編碼基因和RNA編碼基因主要分布于H鏈上,這說明塔里木兔線粒體基因組也易發(fā)生氧化和水解,而單獨(dú)位于L鏈上的nad6基因則相對(duì)穩(wěn)定,突顯出nad6基因的重要性與獨(dú)特性。
遺傳多樣性是物種適應(yīng)環(huán)境變化、形成生物多樣性的基礎(chǔ)之一,對(duì)于種群維持繁衍、適應(yīng)生境變化和抵抗疾病具有重要意義。遺傳多樣性的下降,可能會(huì)導(dǎo)致物種對(duì)環(huán)境適應(yīng)能力降低,這對(duì)生活在野外多變環(huán)境中的群體來說是一個(gè)極大的威脅[12]。線粒體DNA對(duì)分析遺傳多樣性具有重要參考價(jià)值。本研究基于線粒體全基因組序列構(gòu)建系統(tǒng)進(jìn)化樹,發(fā)現(xiàn)在兔屬13個(gè)物種中,塔里木兔和蒙古兔親緣關(guān)系最近,從線粒體基因結(jié)構(gòu)上看,兩者非常類似,線粒體基因組全長分別為17 011 bp和17 472 bp,AT含量分別為55.8%和57.3%[7],結(jié)合兩者地理分布較為接近的情況,推測塔里木兔和蒙古兔可能由共同的祖先演化而來。本研究的分析結(jié)果將為進(jìn)一步研究塔里木兔的遺傳特性、起源、演化和分類,為塔里木兔遺傳資源的保護(hù)與利用奠定基礎(chǔ)。