彭 冶,李 杰,王 濤,張 凱,寧先會(huì),暨 杰,尹紹武
南京師范大學(xué) 海洋科學(xué)與工程學(xué)院/江蘇省特色水產(chǎn)育種與綠色高效養(yǎng)殖技術(shù)工程研究中心,江蘇 南京 210023
微衛(wèi)星 (Microsatellite) 又稱(chēng)簡(jiǎn)單重復(fù)序列(Simple sequence repeats, SSRs),是指以少數(shù)幾個(gè)核苷酸 (1~6個(gè)) 為基本單位串聯(lián)重復(fù)的DNA序列。在真核生物和原核生物基因組中均有分布[1-3],甚至在病毒基因組中也有發(fā)現(xiàn)[4]。利用微衛(wèi)星核心序列的差異性以及側(cè)翼序列的保守性設(shè)計(jì)特異性引物,通過(guò)PCR擴(kuò)增出多態(tài)性微衛(wèi)星片段,可篩選出功能分子標(biāo)記或探究種間以及種內(nèi)不同群體的遺傳多樣性[5]。微衛(wèi)星在群體中通常表現(xiàn)出高多態(tài)性、呈共顯性遺傳及雜合率高等特點(diǎn),目前在遺傳圖譜的構(gòu)建[6]、親緣關(guān)系的鑒定[7]、遺傳多樣性分析以及標(biāo)記輔助育種[8]等研究中得到廣泛應(yīng)用。
瓦氏黃顙魚(yú) (Pelteobagrus vachelli) 隸屬于鲇形目、鲿科、黃顙魚(yú)屬,又名江黃顙魚(yú),主要生活在我國(guó)長(zhǎng)江水系及與其干流相通的附屬湖泊、河流中,具有生長(zhǎng)速度顯著快于普通黃顙魚(yú)、體型大、肉質(zhì)鮮嫩、無(wú)肌間刺等優(yōu)點(diǎn),深受養(yǎng)殖者和消費(fèi)者的喜愛(ài)[9-11]。國(guó)內(nèi)外關(guān)于黃顙魚(yú)屬的微衛(wèi)星相關(guān)研究主要集中在微衛(wèi)星標(biāo)記的開(kāi)發(fā)及其遺傳連鎖圖譜的構(gòu)建[12]、不同地理群體的遺傳多樣性和親緣關(guān)系分析[13]等。在瓦氏黃顙魚(yú)中主要集中在線(xiàn)粒體基因組分析[14]、群體遺傳多樣性分析[15]等。隨著二代測(cè)序技術(shù)的發(fā)展,越來(lái)越多的在物種全基因組基礎(chǔ)上的微衛(wèi)星研究相繼被報(bào)道[16-18]。微衛(wèi)星篩選搜索軟件MISA (MIcroSAtellite identification tool) 作為近年來(lái)使用較為快捷和高效的工具,具有指令簡(jiǎn)單、運(yùn)行時(shí)間短、無(wú)需聯(lián)網(wǎng)等優(yōu)點(diǎn),目前已在多種水生生物中得到廣泛應(yīng)用[19-21]。本文通過(guò)MISA軟件在全基因組水平上對(duì)瓦氏黃顙魚(yú)中的微衛(wèi)星序列進(jìn)行篩選、分析,探索了各堿基重復(fù)類(lèi)型的豐度及其規(guī)律,并且對(duì)外顯子區(qū)含有微衛(wèi)星的基因進(jìn)行了GO注釋和KEGG富集,進(jìn)一步探究了微衛(wèi)星在瓦氏黃顙魚(yú)全基因組中的潛在功能,為今后黃顙魚(yú)屬群體的微衛(wèi)星篩選、遺傳多樣性分析等研究積累參考資料。
基于本實(shí)驗(yàn)室前期瓦氏黃顙魚(yú)基因組測(cè)序和組裝,確定其基因組大小為663.53 Mb,Contig N50為14.02 Mb,scaffold N50為26.78 Mb,contig長(zhǎng)度錨定率為99.79%,定位到染色體上,基因組組裝質(zhì)量較好。
本文利用微衛(wèi)星搜索軟件MISA (http://pgrc.ipk-gatersleben.de/misa/),在瓦氏黃顙魚(yú)全基因組中篩選1~6堿基重復(fù)完整型微衛(wèi)星序列。設(shè)置采用MISA默認(rèn)參數(shù),即1~6種堿基重復(fù)次數(shù)最少為10、6、5、5、5和5。本文在統(tǒng)計(jì)過(guò)程中將所有可循環(huán)的序列以及堿基互補(bǔ)序列歸為一類(lèi)。如ACG重復(fù)拷貝類(lèi)別,與其歸為同一類(lèi)的重復(fù)拷貝類(lèi)別是TGC、GCT、CTG、CGA和GCA。
利用瓦氏黃顙魚(yú)全基因組GFF注釋文件和MISA軟件得到的微衛(wèi)星位置信息 (misa文件),對(duì)全基因組中所有微衛(wèi)星進(jìn)行定位。GO注釋采用實(shí)驗(yàn)室編寫(xiě)的Python腳本結(jié)合Blast2 GO軟件[22]進(jìn)行,以瓦氏黃顙魚(yú)全基因組的功能注釋基因作為背景基因集,利用KOBAS 2.0在線(xiàn)軟件進(jìn)行GO富集和KEGG富集分析[23]。
瓦氏黃顙魚(yú)全基因組大小為663 534 018 bp,6種完整型微衛(wèi)星總數(shù)為417 724個(gè),相對(duì)豐度為630 個(gè)·Mb?1,微衛(wèi)星長(zhǎng)度共計(jì) 9 826 125 bp,占瓦氏黃顙魚(yú)全基因組序列的1.48%,相對(duì)密度為14 809 bp·Mb?1。在6種重復(fù)類(lèi)型中,二堿基類(lèi)型的微衛(wèi)星個(gè)數(shù)最多,有181 107個(gè),占微衛(wèi)星總數(shù)的43.36%,其次是單堿基、四堿基、三堿基、五堿基和六堿基類(lèi)型微衛(wèi)星。其中六堿基類(lèi)型微衛(wèi)星出現(xiàn)頻率最低,為微衛(wèi)星總數(shù)的0.12% (表1)。
表1 瓦氏黃顙魚(yú)基因組中不同類(lèi)型微衛(wèi)星統(tǒng)計(jì)Table 1 Summary of different types of microsatellite in genome of P.vachelli
瓦氏黃顙魚(yú)基因組中不同類(lèi)型微衛(wèi)星核心序列拷貝數(shù)變化趨勢(shì)較為一致,但不同堿基類(lèi)型微衛(wèi)星核心序列拷貝數(shù)的優(yōu)勢(shì)范圍有很大區(qū)別。在6種堿基類(lèi)型拷貝數(shù)上,單堿基微衛(wèi)星拷貝數(shù)以10次為最多,二堿基微衛(wèi)星以6次為最多,三堿基、四堿基、五堿基和六堿基微衛(wèi)星均以5次為最多。在微衛(wèi)星核心序列拷貝數(shù)的變化范圍上,單堿基和二堿基核心序列拷貝數(shù)分別主要集中在10~31次和6~41次;四堿基和五堿基核心序列拷貝數(shù)均集中在5~20次;三堿基核心序列拷貝數(shù)集中在5~25次;六堿基核心序列拷貝數(shù)集中在5~10次。1~6堿基類(lèi)型在主要集中范圍內(nèi)的微衛(wèi)星數(shù)量分別占該種類(lèi)型微衛(wèi)星總數(shù)的99.2%、99.12%、99.48%、98.22%、98.29%和95.74% (圖1)。
圖1 瓦氏黃顙魚(yú)各類(lèi)型微衛(wèi)星核心序列數(shù)分布Fig.1 Distribution of different copy numbers of various types of microsatellites in P.vachelli
瓦氏黃顙魚(yú)全基因組中不僅不同微衛(wèi)星堿基類(lèi)型的數(shù)量存在明顯差異,同種堿基類(lèi)型不同類(lèi)別的數(shù)量也存在較大差別,其中出現(xiàn)頻率最高的前10種微衛(wèi)星重復(fù)類(lèi)別見(jiàn)表2。
表2 次數(shù)排名前10的重復(fù)堿基類(lèi)別Table 2 Top ten types of SSRs with most repeated copy numbers
單堿基類(lèi)型中,以A類(lèi)別 (A/T) 最為豐富,共計(jì)158 915個(gè),占單堿基總數(shù)目的97.50%;C、G堿基微衛(wèi)星重復(fù)數(shù)目則相對(duì)較少,共計(jì)4 072個(gè),占該類(lèi)型的2.50%。
二堿基類(lèi)型中,AC類(lèi)別最為豐富,共計(jì)130 224個(gè),占二堿基總數(shù)目的71.90%;其次是AG類(lèi)別和AT類(lèi)別,分別占比20.19%和13.82%;最少的是CG類(lèi)別,有172個(gè),占比0.09%。
三堿基、四堿基、五堿基類(lèi)型中呈現(xiàn)出典型的A/T堿基優(yōu)勢(shì),三堿基類(lèi)型中AAT類(lèi)別最為豐富,占該類(lèi)型的55.77%,其次是ATC、AAC類(lèi)別;四堿基類(lèi)型中AAAT類(lèi)別最為豐富,占該類(lèi)型的25.11%,其次是AATG、AGAT類(lèi)別;五堿基類(lèi)型中AATCT類(lèi)別最為豐富,占該類(lèi)型的7.78%,其次是AAAGA和AAAAT類(lèi)別。
六堿基類(lèi)型在整個(gè)基因組中所占比例較低,其中GGGTTA類(lèi)別較為豐富,共計(jì)111個(gè),占六堿基類(lèi)型的22.5%,其余堿基重復(fù)類(lèi)別較少 (表3)。
表3 瓦氏黃顙魚(yú)基因組中排名前3的微衛(wèi)星重復(fù)拷貝類(lèi)別Table 3 Top three dominant base classes in each base repeat type in P.vachelli genome
對(duì)微衛(wèi)星定位,定位在外顯子上的微衛(wèi)星有10 924個(gè),共分布在5 788個(gè)基因中。對(duì)相關(guān)編碼基因進(jìn)行GO注釋?zhuān)驳玫? 588個(gè)GO條目。涉及生物過(guò)程 (Biological process) 的條目最多,共986個(gè),在總條目中占比62.09%,主要參與細(xì)胞過(guò)程 (GO: 009987) 和代謝過(guò)程 (GO: 0008152) 等;其次是細(xì)胞成分 (Cellular component),共384個(gè)條目,占比24.18%,主要參與細(xì)胞和細(xì)胞部分 (GO:0005623、GO: 00044464);分子功能 (Molecular function) 注釋條目最少,共218個(gè)條目,占比13.73%,主要參與連接和催化活性 (GO: 0005488、GO:0003824)(圖2)。GO功能富集較為顯著的前10個(gè)條目主要參與結(jié)合、代謝、轉(zhuǎn)錄合成等過(guò)程,其中結(jié)合活性 (P=7.20×10?17)、細(xì)胞大分子代謝過(guò)程(P=1.49×10?14) 和核過(guò)程 (P=3.38×10?14) 最為顯著(圖2,表4)。
圖2 瓦氏黃顙魚(yú)微衛(wèi)星分布于外顯子的基因GO功能注釋Fig.2 GO function annotation of genes with microsatellites in exons in P.vachelli
表4 瓦氏黃顙魚(yú)微衛(wèi)星分布于外顯子的基因GO富集Table 4 GO enrichment of genes with microsatellites located in exons in P.vachelli
對(duì)瓦氏黃顙魚(yú)外顯子中含有微衛(wèi)星的基因進(jìn)行KEGG富集分析,共富集到273條通路中,其中黃酮與黃酮醇生物合成通路最為顯著 (P=0),但只有1個(gè)基因;細(xì)胞的內(nèi)吞作用通路上富集基因最多,有135個(gè) (P=1.86×10?5)。這些通路可以分為有機(jī)體系統(tǒng)、代謝、遺傳信息處理、環(huán)境信息處理和細(xì)胞過(guò)程5大類(lèi),其中有機(jī)體系統(tǒng)類(lèi)別富集的通路條數(shù)最多 (80條,表5)。
表5 瓦氏黃顙魚(yú)微衛(wèi)星分布于外顯子的基因KEGG富集Table 5 KEGG enrichment of genes with microsatellites in exons in P.vachelli
基于瓦氏黃顙魚(yú)的全基因組數(shù)據(jù),利用生物信息學(xué)軟件對(duì)瓦氏黃顙魚(yú)基因組中的完整型微衛(wèi)星進(jìn)行搜索統(tǒng)計(jì)。在663.53 Mb全基因組數(shù)據(jù)中篩選得到417 724個(gè)完整型微衛(wèi)星,總長(zhǎng)度約9.83 Mb,占全基因組總長(zhǎng)度的1.48%,相對(duì)豐度為629.54個(gè)·Mb?1。與人類(lèi) (Homo sapiens, 3%)[24]、小鼠(Mus musculus, 2.85%)[25]、牛 (Bos taurus, 4.7%) 和綿羊 (Ovis aries, 4.8%)[26]等哺乳動(dòng)物相比微衛(wèi)星含量在基因組中占比較?。慌c其他水生生物如紅鰭東方鲀 (Takifugu rubripes, 0.77%)、黑青斑河鲀 (Tetraodon nigroviridis, 1.06%)[27]以及美麗硬仆骨舌魚(yú)(Scleropages formosus, 0.79%)[19]等相比,微衛(wèi)星含量所占比例較高,和其近緣物種黃顙魚(yú)(Pelteobagrus fulvidraco, 1.8%)[28]相比含量比例相近。一方面支持了親緣關(guān)系越近,物種基因組微衛(wèi)星特征越相似的觀點(diǎn)[29],另一方面造成這種微衛(wèi)星含量存在差異的原因可能是由于不同物種之間基因組內(nèi)部堿基組成和排列方式不同。
與大菱鲆 (Scophthalmus maximus)[30]、金錢(qián)魚(yú)(Scatophagus argus)[20]等魚(yú)類(lèi)相似,瓦氏黃顙魚(yú)基因組中二堿基類(lèi)型微衛(wèi)星含量最高,占微衛(wèi)星總數(shù)的43.36%,其次是單堿基類(lèi)型,占39.02%。在鳥(niǎo)類(lèi)中,如紅原雞 (Gallus gallus)[31]、綠尾紅雉 (Lophophorus lhuysii)[32]和鸕鶿 (Phalacrocorax carbo)[33]等全基因組中單堿基占據(jù)核心地位,且傾向于第二優(yōu)勢(shì)微衛(wèi)星類(lèi)型為四堿基類(lèi)型;但在哺乳動(dòng)物,如牛和綿羊[26]、豬 (Sus scrofa) 和馬 (Equus caballus)[29]的基因組中均是單堿基類(lèi)型占據(jù)核心地位,傾向于第二優(yōu)勢(shì)微衛(wèi)星類(lèi)型為二堿基類(lèi)型。不同物種中的優(yōu)勢(shì)微衛(wèi)星類(lèi)型存在差異,推測(cè)可能與不同物種的進(jìn)化程度有關(guān)。
在瓦氏黃顙魚(yú)全基因組單堿基重復(fù)類(lèi)型中,A/T類(lèi)型占據(jù)絕對(duì)優(yōu)勢(shì),C/G類(lèi)型則分布較少,這種現(xiàn)象同樣出現(xiàn)在已發(fā)布的人、秀麗隱桿線(xiàn)蟲(chóng)(Caenorhabditis elegans) 和擬南芥 (Arabidopsis thaliana) 等物種中[34]。
二堿基重復(fù)類(lèi)型的前3類(lèi)別為AC、AG、AT類(lèi)別,和其他水生生物如金錢(qián)魚(yú)、4種河鲀[27]、斑鱧 (Channa maculata)[35]以及其近緣物種黃顙魚(yú)[28]相同;比例最少的GC類(lèi)別 (0.09%) 在其他的水生生物二堿基類(lèi)別比例中同樣也很低,如美麗硬仆骨舌魚(yú) (0.86%)[19]、黃顙魚(yú) (0.17%)[28]、中華絨螯蟹 (Eriocheir sinensis, 0.39%)[18]、鯉 (Cyprinus carpio, 0.17%)[21]等。Schorderet和Gartler[36]對(duì)該現(xiàn)象的解釋是,甲基化的C較易脫氨基轉(zhuǎn)化為T(mén),而GC又是維持DNA熱力學(xué)穩(wěn)定所必須的,導(dǎo)致GC比例不斷縮小,相對(duì)應(yīng)的TG比例則逐漸增加,瓦氏黃顙魚(yú)中的二堿基重復(fù)類(lèi)型中的AC類(lèi)別較多則支持該觀點(diǎn)。另一方面DNA序列發(fā)生滑動(dòng)復(fù)制被普遍認(rèn)為是微衛(wèi)星的產(chǎn)生方式[4],進(jìn)而推測(cè)可能是CG之間功能鍵相比于AT之間的更難斷裂,導(dǎo)致了在GC含量高的序列段不容易發(fā)生滑動(dòng),所以GC類(lèi)別在不同物種中含量均較低。
瓦氏黃顙魚(yú)全基因組三堿基重復(fù)的10種類(lèi)別中以AAT類(lèi)別最多,ATC、AAG次之,和人類(lèi)[24]基因組三堿基微衛(wèi)星含量排序相同。作為所有微衛(wèi)星重復(fù)類(lèi)型中最為特殊的一類(lèi),三堿基重復(fù)微衛(wèi)星可以通過(guò)復(fù)雜的環(huán)-折疊結(jié)構(gòu)來(lái)形成各種各樣穩(wěn)定的DNA結(jié)構(gòu),如發(fā)卡結(jié)構(gòu)和二重三葉草結(jié)構(gòu)[37],這種穩(wěn)定的結(jié)構(gòu)更有利于轉(zhuǎn)錄過(guò)程中的解旋和蛋白質(zhì)識(shí)別。另外,三堿基微衛(wèi)星總體上的不穩(wěn)定性也和一些遺傳病的發(fā)生有關(guān)[38]。因此推測(cè)三堿基微衛(wèi)星在瓦氏黃顙魚(yú)的生長(zhǎng)發(fā)育過(guò)程中起到重要作用,對(duì)其進(jìn)一步的挖掘分析有利于瓦氏黃顙魚(yú)早期遺傳疾病的預(yù)防和診斷。
四堿基、五堿基、六堿基重復(fù)類(lèi)型中,AAAT、AATG、AAAG、AATCT等類(lèi)別微衛(wèi)星占據(jù)優(yōu)勢(shì),表明微衛(wèi)星的存在形式在A和T堿基中較為豐富。四堿基重復(fù)類(lèi)型中的AAAX (X代表除A以外的任何堿基)類(lèi)別微衛(wèi)星在靈長(zhǎng)類(lèi)中較為豐富[38],在瓦氏黃顙魚(yú)中也有同樣的現(xiàn)象。其中AATCT微衛(wèi)星在黃顙魚(yú)基因組中占比較多[28],而在其他水生生物中則分布較少,推測(cè)這可能是黃顙魚(yú)屬進(jìn)化過(guò)程中特有的現(xiàn)象。關(guān)于五堿基類(lèi)型微衛(wèi)星的生物學(xué)意義相關(guān)報(bào)道較少,有發(fā)現(xiàn)可能與物種特異性相關(guān)[39],與三堿基類(lèi)型微衛(wèi)星進(jìn)行聯(lián)合分析可能對(duì)瓦氏黃顙魚(yú)相關(guān)疾病發(fā)生機(jī)制的研究有著更深層次的意義。
經(jīng)統(tǒng)計(jì)分析得到,6種完整型微衛(wèi)星重復(fù)類(lèi)型中,除二堿基和三堿基類(lèi)型微衛(wèi)星有輕微波動(dòng)以外,所有微衛(wèi)星類(lèi)型核心序列拷貝數(shù)的變化趨勢(shì)總體上是隨著核心拷貝數(shù)的增加,微衛(wèi)星數(shù)量逐漸遞減;這與人[24]、鯉[21]等全基因組中微衛(wèi)星的核心序列拷貝數(shù)的變化規(guī)律相同。Ellegren[40]研究認(rèn)為,在基因座上,長(zhǎng)等位基因趨向于變短,阻礙微衛(wèi)星無(wú)限延伸,一定程度上解釋了該種現(xiàn)象產(chǎn)生的原因。另外,微衛(wèi)星的突變率和其重復(fù)次數(shù)相關(guān),重復(fù)次數(shù)越多,突變率就越高[41],因此長(zhǎng)微衛(wèi)星序列和數(shù)目就傾向于減少,進(jìn)而微衛(wèi)星核心序列拷貝數(shù)出現(xiàn)了不同程度的波動(dòng)。
外顯子是重要的基因表達(dá)區(qū)域,本文對(duì)瓦氏黃顙魚(yú)基因組外顯子上含有微衛(wèi)星的基因進(jìn)行GO功能注釋和KEGG富集分析,GO功能注釋結(jié)果顯示,注釋到生物學(xué)過(guò)程中的相關(guān)基因主要定位在細(xì)胞和代謝進(jìn)程;注釋到細(xì)胞組分的相關(guān)基因主要參與細(xì)胞、細(xì)胞組分和膜組分;定位到分子功能的相關(guān)基因主要集中在結(jié)合和催化活動(dòng)。GO富集最為顯著的是結(jié)合活性和細(xì)胞大分子代謝。KEGG富集分析得到代謝類(lèi)別富集的通路數(shù)最多,其中前5條通路在所有的通路中富集最為顯著。GO注釋和KEGG富集聯(lián)合分析表明,瓦氏黃顙魚(yú)微衛(wèi)星定位到基因編碼區(qū)域的微衛(wèi)星可能和其體內(nèi)的生物代謝過(guò)程密切相關(guān),為以后研究瓦氏黃顙魚(yú)與生長(zhǎng)代謝相關(guān)的基因及相關(guān)通路等提供了數(shù)據(jù)支持。本研究通過(guò)對(duì)瓦氏黃顙魚(yú)全基因組中完整型微衛(wèi)星信息、外顯子上含有微衛(wèi)星基因的GO注釋以及KEGG富集進(jìn)行了聯(lián)合統(tǒng)計(jì)分析,為后續(xù)黃顙魚(yú)屬魚(yú)類(lèi)的微衛(wèi)星標(biāo)記開(kāi)發(fā)、遺傳多樣性分析工作等提供了基礎(chǔ)數(shù)據(jù)。