劉 凱,謝 楠,馮曉宇,劉新軼,潘彬斌,姚桂桂
(杭州市農(nóng)業(yè)科學研究院,浙江 杭州 310024)
?
三角魴肝臟EST序列微衛(wèi)星信息分析
劉 凱,謝 楠,馮曉宇,劉新軼,潘彬斌,姚桂桂
(杭州市農(nóng)業(yè)科學研究院,浙江 杭州 310024)
摘要:利用RNA-Seq技術(shù)對三角魴的肝臟進行了轉(zhuǎn)錄組測序,獲得了大量EST序列后,利用MISA軟件進行微衛(wèi)星信息分析。結(jié)果表明,通過轉(zhuǎn)錄組測序獲得三角魴EST序列62780條,長度31.9 Mb,發(fā)現(xiàn)8853個SSR,出現(xiàn)頻率為14.1%。在三角魴EST-SSR中,重復單元以1~2堿基重復為最多,并以長度小于16 bp的短重復序列為主,間隔SSR和復合SSR的EST序列RPKM均值低于單純型SSR的EST序列RPKM均值,且在單純型SSR中SSR長度越長,其RPKM均值則越低。因此,對富含SSR位點的EST序列的挖掘?qū)殚_發(fā)SSR特異性標記,并應用于三角魴生物多樣性和選育提供了參考。
關(guān)鍵詞:三角魴;表達序列標簽;微衛(wèi)星;序列分析
三角魴(Megalobramaterminalis)隸屬鯉形目(Cypriniformes)鯉科(Cyprinidae)鲌亞科(Culterinae)魴屬(Megalobrama),在我國嶺南以北各大水系均有分布。受捕撈、環(huán)境因素的影響,目前,國內(nèi)三角魴的野生自然資源量已經(jīng)相對匱乏,僅在錢塘江、長江中游、珠江、黑龍江有一定數(shù)量的分布。其中以錢塘江流域三角魴最為著名,錢塘江六和塔附近一帶的“塔鳊”以及梅城三江交匯處盛產(chǎn)的“三江鳊”均指三角魴,該品種具有生長快、病害少、養(yǎng)殖效益高、成活率高、肉質(zhì)好、經(jīng)濟價值高等優(yōu)勢[1]。目前,三角魴已成為浙江省主要特色名優(yōu)淡水養(yǎng)殖品種之一,尤其是杭州地區(qū),三角魴養(yǎng)殖已形成相當大的規(guī)模。
隨著養(yǎng)殖規(guī)模的不斷擴大,進一步保護、開發(fā)錢塘江三角魴,推動三角魴養(yǎng)殖產(chǎn)業(yè)化發(fā)展成為迫在眉睫需要開展的工作。目前,對錢塘江三角魴種質(zhì)資源的保護與研究不夠深入[2-4],因此,深入研究三角魴遺傳育種并加以利用,可進一步提升養(yǎng)殖三角魴的優(yōu)良性狀。隨著科學技術(shù)的快速發(fā)展,RNA-Seq技術(shù)的出現(xiàn)為非模式生物轉(zhuǎn)錄組研究帶來了生機,由于無需所研究物種的基因信息,即可對其進行轉(zhuǎn)錄組分析而受到廣大研究者的青睞。微衛(wèi)星(Simple Sequence Repeats,SSR)作為第二代分子標記,因其在基因組中數(shù)量眾多、分布均勻、共顯性等優(yōu)點,被越來越多地用于水生動物群體遺傳學分析。因此,本文基于RNA-Seq技術(shù)對三角魴進行轉(zhuǎn)錄組測序,獲得相關(guān)EST序列并進行SSR信息分析,以期能為三角魴的種質(zhì)資源保護和相關(guān)分子標記開發(fā)等提供參考。
1材料與方法
1.1試驗材料
試驗用三角魴采自浙江杭州國家級錢塘江三角魴原種場,體質(zhì)健康(體重≈750 g)。試驗用樣品組織為肝臟,分別采集6個三角魴的肝臟并混合后作為轉(zhuǎn)錄組建庫及測序樣本,將樣品組織先經(jīng)液氮瞬時冷凍,之后于-80 ℃低溫保存?zhèn)溆谩?/p>
1.2EST序列的獲得
從三角魴的肝臟提取mRNA構(gòu)建cDNA文庫,建好的文庫用Illumina HiSeq 2000進行測序,經(jīng)過序列拼接及去重復,得到62780個EST序列,大小為31.9 Mb,序列平均長度為531.89 bp,G、C堿基占總堿基的比例為45.7%,N50值為652,可以滿足后續(xù)數(shù)據(jù)分析要求。
1.3基因表達豐度
用拼接得到的轉(zhuǎn)錄本(≥200 bp)做庫,用序列相似性比對法求各轉(zhuǎn)錄本在各樣本中的表達豐度,豐度值采用RPKM(Reads Per Kilobase of exon model per Million mapped reads)法計算。使用軟件bwa(http://sourceforge.net/projects/bio-bwa),采用single-end的mapping方法,允許一個reads比對到多個轉(zhuǎn)錄本上,此時每個reads在每個轉(zhuǎn)錄本上計1/n,每個EST序列下面的所有轉(zhuǎn)錄本可比對上的reads均計于該EST序列下。
1.4SSR分析
以Illumina HiSeq 2000測序獲得的EST序列作為參考序列,使用SSR篩選軟件MISA(http://pgrc.ipk-gatersleben.de/misa/misa.html)進行SSR篩選。篩選標準為1個堿基重復≥10次,2個堿基重復≥6,3~6個堿基重復≥5次,兩個微衛(wèi)星之間的距離小于100 bp的時候,兩個微衛(wèi)星組成一個復合微衛(wèi)星。用SSR出現(xiàn)頻率和SSR平均分布距離來描述SSR,出現(xiàn)頻率前2位的重復單元定義為優(yōu)勢重復單元。計算公式分別為:
SSR出現(xiàn)頻率=搜索到的SSR數(shù)量/EST序列數(shù)量
SSR平均分布頻率=EST序列總堿基數(shù)/搜索到的SSR數(shù)量
利用Primer3 interface modules (http://pgrc.ipk-gatersleben.de/misa/Primer3.html)對SSR篩選結(jié)果進行預處理后,利用Primer3(http://sourceforge.net/projects/Primer3)進行SSR引物的批量設計,引物設計的參數(shù)是Tm為60 ℃,引物長度為20 bp。
2結(jié)果與分析
2.1三角魴肝臟EST序列中SSR重復單元分布
利用MISA軟件對三角魴肝臟的EST序列進行SSR特征分析,檢測的三角魴肝臟EST序列共62780條,長度為31.9 Mb,共發(fā)現(xiàn)8853個SSR,出現(xiàn)頻率為14.1%,平均每3.69 kb出現(xiàn)1個SSR。檢出的SSR包含了1、2、3、4、5、6堿基重復單元,不同重復單元出現(xiàn)頻率隨堿基數(shù)增加而明顯降低,其中最常見的是1堿基和2堿基重復單元,各重復單元SSR出現(xiàn)頻率及分布頻率信息見表1。
表1 三角魴肝臟EST序列中不同重復
注:不同重復單元SSR分布情況考慮到了堿基的互補作用。下同。
在搜索到的三角魴肝臟EST序列SSR中,共觀察到52種不同的重復單元類型,其中1堿基重復2種、2堿基重復4種、3堿基重復10種、4堿基重復16種、5堿基重復11種、6堿基重復9種。1堿基重復中,A/T類型出現(xiàn)的頻率最高,占95.42%;2堿基重復中,AC/GT出現(xiàn)的頻率最高,占60.67%;3堿基重復中,ATC/ATG出現(xiàn)的頻率最高,占28.06%;4堿基重復中,AAAG/CTTT出現(xiàn)的頻率最高,占20.45%;5堿基重復中,AAAAG/CTTTT出現(xiàn)的頻率最高,占18.42%;6堿基重復中,ACCTCC/AGGTGG出現(xiàn)的頻率最高,占97.87%,結(jié)果見表2。
2.2三角魴肝臟EST序列中SSR的長度分布
對三角魴肝臟的EST序列中所發(fā)現(xiàn)的SSR長度變化進行了分析,結(jié)果發(fā)現(xiàn)序列所含SSR在長度上存在顯著變異,SSR長度從10到217個堿基不等,SSR的加權(quán)平均長度為21.94 bp,以長度小于16 bp的短重復序列最多,其次是長度為16~20 bp的序列重復,大于40 bp的較長序列重復占比為7.57%(圖1),利用SPSS進行Pearson相關(guān)性分析表明,三角魴肝臟SSR數(shù)量和長度呈顯著負相關(guān)性,相關(guān)系數(shù)為-0.487,P=0.000<0.01具有統(tǒng)計學意義。
以SSR數(shù)量對堿基重復數(shù)量作圖(圖2),由此可知,SSR數(shù)量隨著堿基重復次數(shù)的增加而呈明顯下降趨勢,而且堿基重復次數(shù)越少,SSR數(shù)量下降的速率就越快。1堿基重復次數(shù)達到24次、2堿基重復次數(shù)達到21次、其他堿基重復次數(shù)達到12次的時候,SSR數(shù)量的下降速率降低并進入平臺期。
表2 三角魴肝臟EST序列中不同重復單元SSR的出現(xiàn)頻率
三角魴肝臟62780條EST序列中,含SSR的EST序列共有6209條,占總數(shù)的9.89%。將含SSR的EST序列與不含SSR的EST序列的RPKM均值比較,含SSR的EST序列的RPKM均值為47.86,是不含SSR的EST序列的RPKM均值22.40的2.14倍。Weber將微衛(wèi)星分為3類,即單純(Pure)SSR、復合(Compound)SSR和間隔(Interrupted)SSR[15]。本試驗發(fā)現(xiàn),三角魴肝臟中含有間隔SSR和復合SSR的EST序列的RPKM均值分別為35.92、63.04,單純型SSR的EST序列的RPKM均值為48.93,高于間隔SSR的EST序列的RPKM均值,但低于復合SSR的EST序列的RPKM均值,結(jié)果見表3。對SSR長度與相關(guān)EST序列的RPKM值進行相關(guān)性分析,SSR長度與EST序列的RPKM值相關(guān)系數(shù)為-0.007,無顯著相關(guān)性。
以三角魴肝臟的EST序列為基礎,利用Primer3軟件進行批量引物設計,14561個含SSR序列,7297條序列引物設計失敗,成功設計7264對SSR引物,成功率為49.89%。
圖1 三角魴肝臟EST序列中SSR堿基
圖2 三角魴肝臟EST序列中SSR數(shù)量
3討論
本試驗分析了三角魴肝臟EST序列中SSR的分布頻率和重復單元的特征,發(fā)現(xiàn)三角魴肝臟19.03%的EST序列中能檢出SSR,這一比例明顯高于櫛孔扇貝(1.61%)、中國對蝦(2.2%)、鯉魚(5.55%),中華鱉(7.45%)和斑點叉尾鮰(11.2%)的[5-9]。這表明基于轉(zhuǎn)錄組測序獲得EST序列后去尋找SSR標記有明顯優(yōu)點,當然SSR出現(xiàn)頻率的顯著差異也可能是由于水生動物物種特異性引起的,此外也有部分原因是篩選SSR設定參數(shù)的不同所造成的。
在三角魴肝臟EST-SSR中,重復單元以1~2堿基重復為最多,其次是3、4、5和6堿基重復,這與牙鲆、中國對蝦和凡納濱對蝦中的研究結(jié)果相似[6,10-11],而在縊蟶和大黃魚的研究中[12-13],3堿基重復比例大于2堿基重復。此外,本試驗中發(fā)現(xiàn),三角魴肝臟EST-SSR中6堿基重復比例相對于4、5堿基重復明顯要高,該結(jié)果與長牡蠣EST-SSR的研究類似[14],其中出現(xiàn)頻率最高的是ACCTCC/AGGTGG。在三角魴肝臟EST-SSR的2堿基重復單元中出現(xiàn)頻率最高的是AC/GT,這與牙鲆、鯉魚、中華鱉和斑點叉尾鮰的結(jié)果一致[7-10]。而在縊蟶中頻率最高的是AT/AT[12]、長牡蠣中AG/CT數(shù)量最多[14]。由此推測,這種SSR堿基偏倚性可能在大多數(shù)水生生物中存在,具有物種特異性,也不排除與試驗方法的差異有關(guān)。
由重復單元的重復次數(shù)不同所造成的多態(tài)性常常表現(xiàn)為復等位性,在不同的基因型間存在豐富的多態(tài)性。研究者認為這種多態(tài)性起因于復制過程中的滑動[16]。因此,SSR長度的變化反映SSR位點獲得或失去重復單元的活躍程度。越來越多的研究表明,SSR參與基因的表達調(diào)控及基因重排、變異等活動并與腫瘤發(fā)生及神經(jīng)系統(tǒng)疾病有關(guān)[17-20]。在羅非魚研究中發(fā)現(xiàn),SSR長度與基因表達強度相關(guān),在無環(huán)境脅迫的條件下SSR長度越長,基因表達水平越低,在有環(huán)境脅迫的條件下則反之[21]。本試驗發(fā)現(xiàn),三角魴肝臟測序所獲得的EST序列中,,單純型SSR的EST序列的RPKM均值,高于間隔SSR的EST序列的RPKM均值,但低于復合SSR的EST序列的RPKM均值,表明三角魴肝臟中復合SSR的EST序列表達強度較高。在單純型SSR中SSR長度越長,其RPKM均值則越低,這與羅非魚上的研究結(jié)論類似。而在楊樹和茶樹EST-SSR的研究中認為,含有SSR的基因總體表達水平偏低,這樣有利于相應基因在基因組中的保存,規(guī)避部分選擇壓力[22-23]。但本試驗中發(fā)現(xiàn),三角魴肝臟中含SSR的EST序列的RPKM均值明顯高于不含SSR的EST序列的RPKM均值,與楊樹和茶樹的研究結(jié)果不同,這也許是由于物種差異或試驗方法上的差別所造成的,但有待進一步研究。此外,本試驗中使用Primer3對轉(zhuǎn)錄本進行批量SSR引物設計,大大提高了工作效率,為下一步工作的開展奠定了基礎。
參考文獻:
[1] 馮曉宇.浙江省三角魴研究進展及示范推廣情況[J].科學養(yǎng)魚,2009(10):40-41.
[2] 李思發(fā),朱澤聞,鄒曙明,等.魴屬團頭魴、三角魴及廣東魴種間遺傳關(guān)系及種內(nèi)遺傳差異[J].動物學報,2002,48(3):339-345.
[3] 謝楠,劉新軼,馮曉宇,等.魴屬魚類細胞色素b片段序列分析[J].現(xiàn)代農(nóng)業(yè)科技,2012(1):290-292.
[4] 張倩倩,陳杰,蔣霞云,等.不同鳊魴魚類群體微衛(wèi)星DNA指紋圖譜的構(gòu)建和遺傳結(jié)構(gòu)分析[J].水產(chǎn)學報,2014,38(1):15-22.
[5] Zhan A B, Bao Z M, Hu X L. Characterization of 95 novel microsatellite markers for Zhikong scallopChlamysfareriusing FIASCO colony hybridization and EST database mining[J]. Fisheries Science, 2008, 74(3): 516-526.
[6] Wang H X, Li F H, Xiang J H. Polymorphic EST-SSR markers and their mode of inheritance inFenneropenaeuschinensis[J]. Aquaculture, 2005, 249(1/4): 107-114.
[7] Wang D, Liao X L, Cheng L, et al. Development of novel EST-SSR markers in common carp by data mining from public EST sequences[J]. Aquaculture, 2007, 271(1/4): 558-574.
[8] 許曉軍,張海琪,張超,等.中華鱉表達序列標簽資源中的微衛(wèi)星信息分析[J].經(jīng)濟動物學報,2013,17(1):5-18.
[9] Serapion J, Kucuktas H, Feng J N, et al. Bioinformatic mining of type I microsatellites from expressed sequence tags of channel catfish(Ictaluruspunctatus)[J]. Mar. Biotechnol, 2004, 6(4): 364-377.
[10] 陳松波,龔麗,劉海金.牙鲆EST資源的SSR信息分析[J].東北農(nóng)業(yè)大學學報,2010,41(10):82-86.
[11] 王艷紅,胡超群,張呂平,等.凡納濱對蝦EST微衛(wèi)星標記初步篩選[J].大連水產(chǎn)學院學報,2008,23(4):304-308.
[12] 劉博,邵艷卿,滕爽爽,等.縊蟶(Sinonovaculaconstricta)EST-SSR分布特征及引物開發(fā)利用[J].海洋與湖沼,2012,43(1):133-137.
[13] Zhang A, Wang Y, Brown B, et al. Isolation and characterization of novel microsatellite markers for yellow perch (Percaflavescens)[J]. Int Mol Sci, 2009, 10(1): 18-27.
[14] 張琳琳,李莉,張國范.長牡蠣(Crassostreagigas)EST串聯(lián)重復序列的組成和分布[J].海洋科學,2011,35(4):9-14.
[15] Weber J L. Informativeness of human (dC-dA)n·(dG-dT)n poly-morphisms[J]. Genomics, 1990, 7(4): 524-530.
[16] Sharopova N. Plant simple sequence repeats: distribution, variation, and effects on gene expression[J]. Genome, 2008, 51(2): 79-90.
[17] Thibodeau S N, Bren G, Schaid D. Microsatellite instability in cancer of the proximal colon[J]. Science, 1993, 260(5109): 816-819.
[18] Aaltonen L A, Lauri A, Leach F S, et al. Clues to the pathogenesis of familial colorctal cancer[J]. Science, 1993, 260(5109): 812-816.
[19] Yurij Ionov, Miguel A Peinado, Sergei Malkhosyan, et al. Ubiquitous somatic mutations in simple repeated sequences reveal a new mechanism for colon carcinogenesis[J]. Nature, 1993, 363(6429): 558-561.
[20] Toth G, Gaspari Z, Jurka J. Microsatellites in different eukaryotic genomes: survey and analysis[J]. Genome Research, 2000, 10(7): 967-981.
[21] Streelman J, Kocher T. Microsatellite variation associated with prolactin expression and growth of salt-challengedTilapia[J]. Physiol. Genom, 2002, 9(1): 1-4.
[22] 劉菁菁,戴曉港,王潔,等.楊樹微衛(wèi)星序列對基因表達頻率的影響及表達序列中微衛(wèi)星特征的分析[J].南京林業(yè)大學學報:自然科學版,2011,35(1):11-14.
[23] 王麗鴛,韋康,張成才,等.茶樹花轉(zhuǎn)錄組微衛(wèi)星分布特征[J].作物學報,2014,40(1):80-85.
(責任編輯:曾小軍)
Analysis of Microsatellite Information of Expressed Sequence Tags in Liver ofMegalobramaterminalis
LIU Kai, XIE Nan, FENG Xiao-yu, LIU Xin-yi, PAN Bin-bin, YAO Gui-gui
(Hangzhou Academy of Agricultural Sciences in Zhejiang Province, Hangzhou 310024, China)
Abstract:A lot of expressed sequence tags (EST) obtained from transcriptome sequencing of livers inMegalobramaterminalisbased on high-throughput RNA sequencing technology, and perform analysis of simple sequence repeats (SSR) information in EST. The results showed that, 62780 EST with 31.9 Mb length were obtained, and 8853 EST-SSR mined out by MISA, the frequency of which was 14.1%. In the EST-SSR ofMegalobramaterminalis, nucleotide and binucleotide repeats were the main types, in a short length of less than 16 bp mainly, mean RPKM of EST contain interrupted and compound SSR were lower than mean RPKM of EST contain pure SSR, and in the pure EST-SSR, the longer SSR in length, the lower mean of RPKM. These EST sequences containing SSR would facilitate the further development of specific SSR markers, as well as providing reference for applying the biodiversity ofMegalobramaterminalisand breeding.
Key words:Megalobramaterminalis; Expressed sequence tags; Microsatellite; Sequence analysis
收稿日期:2015-11-07
基金項目:國家大宗淡水魚產(chǎn)業(yè)技術(shù)體系(CARS-46-43);三角魴良種繁育及產(chǎn)業(yè)化發(fā)展項目(浙江省杭州市財政專項)“三角魴良種選育與生態(tài)養(yǎng)殖”。
作者簡介:劉凱(1982─),男,工程師,研究方向:水產(chǎn)養(yǎng)殖。
中圖分類號:Q785
文獻標志碼:A
文章編號:1001-8581(2016)06-0087-05