趙 剛,龔 全,劉 亞,賴見(jiàn)生,陳葉雨,杜 軍
(四川省農(nóng)業(yè)科學(xué)院水產(chǎn)研究所,四川 成都 611731)
?
基于Illumina高通量測(cè)序的巖原鯉轉(zhuǎn)錄組分析
趙 剛,龔 全,劉 亞,賴見(jiàn)生,陳葉雨,杜 軍*
(四川省農(nóng)業(yè)科學(xué)院水產(chǎn)研究所,四川 成都 611731)
為獲得巖原鯉轉(zhuǎn)錄組信息,發(fā)掘功能基因,本研究采用Illumina高通量測(cè)序技術(shù)對(duì)巖原鯉全組織轉(zhuǎn)錄組進(jìn)行測(cè)序。結(jié)果獲得64 257 918個(gè)EST序列,經(jīng)拼接和組裝得到83 252條單基因序列(unigene),平均長(zhǎng)度787 bp,長(zhǎng)度范圍201~16 572 bp。利用NCBI的蛋白質(zhì)非冗余數(shù)據(jù)庫(kù)(Nr)對(duì)所有unigene進(jìn)行相似性搜索,共有37 157條unigene(44.63 %)與數(shù)據(jù)庫(kù)中的已知序列同源。利用Blast2GO v2.5軟件對(duì)unigene進(jìn)行注釋,共得到29 919條(35.93 %)注釋基因,根據(jù)GO功能分類將其分為生物過(guò)程、細(xì)胞組分和分子功能3大類56亞類。經(jīng)KOG注釋及分類,共有17 869條(21.49 %)unigene成功注釋到真核直系同源組中,并將其分為26個(gè)功能組分。經(jīng)KEGG代謝通路分析可分為5大類(細(xì)胞過(guò)程、環(huán)境信息處理、遺傳信息處理、代謝和有機(jī)系統(tǒng))32小類共267個(gè)代謝通路。本研究通過(guò)高通量測(cè)序技術(shù),對(duì)巖原鯉轉(zhuǎn)錄組進(jìn)行測(cè)序,獲得了大量的轉(zhuǎn)錄組信息,為巖原鯉功能基因克隆及基因組學(xué)研究提供了基礎(chǔ)。
高通量測(cè)序;巖原鯉;轉(zhuǎn)錄組
巖原鯉(Procyprisrabaudi)隸屬鯉形目(Cypriniformes),鯉科(Cyprinidae),鯉亞科(Cyprininae),原鯉屬(Procypris),是長(zhǎng)江上游名貴土著經(jīng)濟(jì)魚(yú)類,目前主要分布于宜昌以上的四川及重慶境內(nèi)長(zhǎng)江水系的干支流中,尤其以嘉陵江和岷江盛產(chǎn)此魚(yú)[1-2]。但由于過(guò)度捕撈,下游大壩建設(shè)造成的棲息地惡化以及長(zhǎng)江水系的水污染等,使得巖原鯉野生種群數(shù)量迅速下降,目前很難在野生環(huán)境中找到野生種群的棲息地,野生資源日漸枯竭[3],已被列入《中國(guó)瀕危動(dòng)物紅皮書(shū)》,屬易危動(dòng)物[4]。巖原鯉的生長(zhǎng)速度和個(gè)體大小同普通鯉魚(yú)相似,但其體腔較小,肉質(zhì)肥嫩,味道鮮美,肌間刺少,氨基酸分析表明含有人體必需8種氨基酸中的3種(Leu、Lys、Phe),氨基酸指數(shù)高于其他魚(yú)類[5],營(yíng)養(yǎng)價(jià)值高,有重大的經(jīng)濟(jì)價(jià)值和養(yǎng)殖前景。目前對(duì)巖原鯉已經(jīng)進(jìn)行了形態(tài)分類[1-2, 6-7]、遺傳多樣性[8]、生態(tài)習(xí)性[9-10]、食性[11-12]、胚胎和胚后發(fā)育[13-14]、人工馴養(yǎng)和繁殖[15]以及魚(yú)病[16]等方面的研究,但對(duì)巖原鯉的轉(zhuǎn)錄組數(shù)據(jù)未有報(bào)道,這將限制對(duì)巖原鯉生長(zhǎng)、繁殖、免疫和性別決定等重要經(jīng)濟(jì)性狀的相關(guān)功能基因的篩選及機(jī)理的進(jìn)一步研究。
轉(zhuǎn)錄組完整記錄了細(xì)胞在特定時(shí)期或特定生理?xiàng)l件下基因的轉(zhuǎn)錄水平,提供了基因表達(dá)、調(diào)節(jié)以及蛋白質(zhì)的氨基酸組成等重要信息。因此轉(zhuǎn)錄組數(shù)據(jù)分析對(duì)揭示基因組功能元件及細(xì)胞和組織的分子構(gòu)成至關(guān)重要。轉(zhuǎn)錄組測(cè)序是研究非模式生物功能基因組的有效手段[17]。從大量的EST序列信息中可以發(fā)現(xiàn)控制重要性狀的主效基因,揭示特定調(diào)節(jié)基因的作用機(jī)制[18];研究單核苷酸多態(tài)性及重復(fù)序列鑒定,用于分子標(biāo)記的開(kāi)發(fā)及遺傳多樣性研究等[19-20]。
本研究利用Illumina 高通量測(cè)序技術(shù)對(duì)巖原鯉轉(zhuǎn)錄組進(jìn)行測(cè)序,并對(duì)EST數(shù)據(jù)進(jìn)行分析。通過(guò)對(duì)轉(zhuǎn)錄本拼接、基因功能注釋、基因表達(dá)水平分析等研究,有利于我們對(duì)巖原鯉轉(zhuǎn)錄組信息的了解,為后期解決巖原鯉抗病性、遺傳育種和資源恢復(fù)等問(wèn)題提供基礎(chǔ)。
1.1 實(shí)驗(yàn)材料
實(shí)驗(yàn)用巖原鯉來(lái)自四川省水產(chǎn)研究所養(yǎng)殖基地。取生長(zhǎng)狀態(tài)良好的健康雌雄成魚(yú)各5條,重量1.2 kg左右,分別解剖取鰓、脾、肝、腎、心、肌肉、胰腺、腸、腦、眼睛和性腺組織,將相同組織樣品各100 mg混合為一個(gè)樣品,凍于液氮中備用。
1.2 實(shí)驗(yàn)方法
將上述各組織樣品液氮研磨后各取100 mg,分別按照TRIzol試劑盒(Invitrogen, Carlsbad, CA)方法進(jìn)行總RNA的提取。利用瓊脂糖凝膠電泳分析RNA降解程度以及是否有污染,分光光度計(jì)法檢測(cè)OD260/280比值確定RNA的純度。利用Qubit熒光計(jì)及Agilent 2100生物分析儀分別對(duì)RNA進(jìn)行精確定量和完整性的精確檢測(cè)。取等量各組織總RNA樣品混勻后用于轉(zhuǎn)錄組文庫(kù)的構(gòu)建。利用NEBNext? UltraTMDirectional RNA Library Prep Kit for Illumina?構(gòu)建巖原鯉轉(zhuǎn)錄組文庫(kù)。文庫(kù)構(gòu)建完成后,使用Qubit熒光計(jì)進(jìn)行定量分析,稀釋文庫(kù)至1.5 ng/μl,Agilent 2100生物分析儀對(duì)文庫(kù)的插入片段進(jìn)行檢測(cè),Q-PCR方法對(duì)文庫(kù)的有效濃度進(jìn)行準(zhǔn)確定量。巖原鯉轉(zhuǎn)錄組文庫(kù)的測(cè)序由北京諾禾致源生物信息科技有限公司完成,測(cè)序平臺(tái)為Illumina /Hiseq2500,測(cè)序方式為PE125。
1.3 數(shù)據(jù)處理與分析
高通量測(cè)序得到的原始圖像數(shù)據(jù)經(jīng)Illumina Casava堿基識(shí)別軟件分析轉(zhuǎn)化為原始測(cè)序序列,隨后對(duì)原始序列進(jìn)行質(zhì)量評(píng)估及統(tǒng)計(jì)。質(zhì)量評(píng)估包括錯(cuò)誤率分布檢查和A/T/G/C含量分布檢查。原始測(cè)序序列(raw reads)經(jīng)過(guò)濾處理得到高質(zhì)量測(cè)序序列(clean reads)。采用Trinity軟件[21]對(duì)clean reads進(jìn)行拼接得到轉(zhuǎn)錄本序列,并以此轉(zhuǎn)錄本序列作為后續(xù)分析的參考序列。取每條基因中最長(zhǎng)的轉(zhuǎn)錄本作為unigene,以此進(jìn)行后續(xù)的分析。對(duì)轉(zhuǎn)錄本及unigene的長(zhǎng)度分別進(jìn)行統(tǒng)計(jì),利用RSEM軟件對(duì)基因表達(dá)進(jìn)行定量分析。為獲得全面的基因功能信息,本研究對(duì)巖原鯉轉(zhuǎn)錄組測(cè)序信息進(jìn)行了七大數(shù)據(jù)庫(kù)的基因功能注釋,包括:Nr(NCBI non-redundant protein sequences)、Nt(NCBI nucleotide sequences)、Pfam(Protein family)、KOG/COG(Clusters of Orthologous Groups of proteins/euKaryotic Ortholog Groups)、Swiss-prot(A manually annotated and reviewed protein sequence database)、KEGG(Kyoto Encyclopedia of Genes and Genomes)和GO(Gene Ontology)。通過(guò)與Nr數(shù)據(jù)庫(kù)進(jìn)行比對(duì)注釋,獲取巖原鯉基因序列與近緣物種基因序列的相似性以及本物種基因的功能信息。利用Blast2Go軟件對(duì)通過(guò)BLASTx比對(duì)得到的基因序列(E-value=10-5)進(jìn)行GO基因功能分類。將KOG注釋成功的基因按KOG的直系同源性進(jìn)行分類。對(duì)基因做KO注釋后,根據(jù)其參與的KEGG代謝通路進(jìn)行分類。
2.1 巖原鯉轉(zhuǎn)錄組測(cè)序質(zhì)量評(píng)估
本研究利用Illumina HiSeqTM2500測(cè)序平臺(tái)對(duì)巖原鯉轉(zhuǎn)錄組進(jìn)行測(cè)序分析。通過(guò)雙端測(cè)序法共得到8.04 G的堿基總數(shù),經(jīng)拼接后得到raw reads 67 496 848個(gè),通過(guò)去除帶接頭的、低質(zhì)量的reads后共有64 257 918個(gè)可用的EST序列。其中樣品左端測(cè)序的堿基錯(cuò)誤率為0.03 %,堿基質(zhì)量值大于20的占95.97 %,大于30的占92.06 %,GC含量為49.03 %;樣品右端測(cè)序的堿基錯(cuò)誤率為0.04 %,堿基質(zhì)量值大于20的占92.99 %,大于30的占87.40 %,GC含量為48.97 %。上述統(tǒng)計(jì)表明我們得到高質(zhì)量的轉(zhuǎn)錄組測(cè)序結(jié)果。
圖1 巖原鯉拼接轉(zhuǎn)錄本與unigene長(zhǎng)度分布Fig.1 Length distribution of assembled transcripts and unigene in P. rabaudi
2.2 轉(zhuǎn)錄組測(cè)序數(shù)據(jù)拼接和組裝
由于巖原鯉沒(méi)有基因組數(shù)據(jù),因此對(duì)于無(wú)參考基因組的轉(zhuǎn)錄組測(cè)序結(jié)果本研究利用Trinity軟件對(duì)過(guò)濾后的序列信息進(jìn)行拼接和組裝。共得到120 666條轉(zhuǎn)錄本,平均長(zhǎng)度為1 043 bp,最短為201 bp,最長(zhǎng)為16 572 bp,共125 910 021個(gè)堿基。取每條基因中最長(zhǎng)的轉(zhuǎn)錄本作為unigene,共有83 252條unigene序列,并以此數(shù)據(jù)進(jìn)行后續(xù)的分析。Unigene平均長(zhǎng)度787 bp,最短為201 bp,最長(zhǎng)為16 572 bp,共65 509 997個(gè)堿基。其中小于300 bp轉(zhuǎn)錄本和unigene的序列最多,分別有36 098和32 599條,隨長(zhǎng)度增加數(shù)量逐漸減少,轉(zhuǎn)錄本與unigene數(shù)量差距也變大(圖1)。
2.3 基因表達(dá)定量分析
利用RSEM軟件對(duì)測(cè)序序列與參考序列進(jìn)行比對(duì)。將拼接得到的64 257 918條轉(zhuǎn)錄組序列作為參考序列,將每個(gè)樣品的clean reads往參考序列上做定位,共定位了48 443 290條參考序列,定位率75.39 %。將每個(gè)樣品比對(duì)到每個(gè)基因上的數(shù)目(read count)進(jìn)行統(tǒng)計(jì),并進(jìn)行FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairs sequenced)轉(zhuǎn)換,以得到的FPKM值大小判斷基因表達(dá)水平的高低。統(tǒng)計(jì)結(jié)果顯示,F(xiàn)PKM值小于0.5的為極低表達(dá)的基因,占到5.7 %;FPKM值在0.5~5.0之間的轉(zhuǎn)錄本最多,占到65.3 %,為低表達(dá)基因;其次是中等表達(dá)基因,F(xiàn)PKM值在5~50,占到25.9 %;高表達(dá)(50~500)和極高表達(dá)(>500)的基因分別占到3.1 %和0.3 %(表1)。
表1 巖原鯉基因FPKM值密度分布
2.4 基因功能注釋
本研究選用7個(gè)數(shù)據(jù)庫(kù)對(duì)巖原鯉轉(zhuǎn)錄組測(cè)序篩選得到的unigene進(jìn)行注釋(表2)。根據(jù)不同數(shù)據(jù)庫(kù)中注釋得到的unigene數(shù)量及所占比例,可以看出不同的數(shù)據(jù)庫(kù)利用不同的篩選條件(如蛋白序列、蛋白拓?fù)浣Y(jié)構(gòu)、參與的代謝通路等)注釋成功的基因數(shù)目有所差別。其中在Nr及Nt數(shù)據(jù)庫(kù)中注釋成功的基因數(shù)目最多,分別達(dá)到44.63 %和54.03 %,這也與其是利用序列相似性比對(duì)搜索相關(guān)。
通過(guò)NCBI蛋白質(zhì)序列數(shù)據(jù)庫(kù)(Nr)的BLAST比對(duì),共注釋37 157條unigene,占到unigene總數(shù)的44.63 %,其中77.5 %的注釋unigene與斑馬魚(yú)基因相似性最高(圖2),這也與兩者都屬于鯉科魚(yú)類是一致的。
2.5 GO功能注釋及分類
利用Blast2GO v2.5軟件對(duì)unigene進(jìn)行注釋,共得到29 919條注釋基因,占到unigene總數(shù)的35.93 %。按照GO分類方式將GO注釋的unigene分為生物過(guò)程(biological process)、細(xì)胞組分(cellular component)和分子功能(molecular function)3大類56亞類(圖3)。其中在細(xì)胞組分中與細(xì)胞(12 408,41.47 %)及細(xì)胞構(gòu)件(12 405,41.46 %)相關(guān)的基因占優(yōu)勢(shì),其次是細(xì)胞器(7969,26.64 %)、細(xì)胞膜(7292,24.37 %)和細(xì)胞高分子復(fù)合物(7004,23.41 %),擬核最少,只有5個(gè)基因。與分子功能相關(guān)的基因中,結(jié)合(18 556,62.02 %)和催化活性(11 493,38.41 %)是優(yōu)勢(shì)組,而金屬伴侶活性和受體調(diào)節(jié)器活性組分最少,分別只有10個(gè)和14個(gè)。與分子功能相關(guān)的分類中,與細(xì)胞過(guò)程(18 612,62.21 %),單一生物學(xué)過(guò)程(15 991,53.45 %)和代謝過(guò)程(14 498,48.46 %)相關(guān)功能的基因數(shù)量最多,其次是與生物調(diào)節(jié)(9 801,32.76 %)和調(diào)節(jié)生理途徑(9 374,31.33 %)相關(guān)的功能基因,而與激素分泌、生物膜和細(xì)胞殺傷相關(guān)的基因最少,分別只有17、22和28個(gè)。
表2 巖原鯉基因注釋成功率
圖2 巖原鯉基因與Nr庫(kù)比對(duì)上的物種分布Fig.2 Species distribution of P. rabaudi BLAST hits from Nr sequence database
2.6 KOG 注釋及分類
為了解巖原鯉轉(zhuǎn)錄組基因的功能及分類,將搜索得到的基因進(jìn)行直系同源分類。共有17 869條基因成功注釋到真核直系同源組中,KOG分析將其分為26個(gè)功能組分(圖4),如細(xì)胞結(jié)構(gòu)、信號(hào)轉(zhuǎn)導(dǎo)、氨基酸運(yùn)輸和代謝、胞內(nèi)分子轉(zhuǎn)運(yùn)分泌和膜泡運(yùn)輸?shù)取F渲信c信號(hào)轉(zhuǎn)導(dǎo)機(jī)制相關(guān)的基因最多(4541,25.41 %),其次是通用功能(3587,20.07 %)、蛋白質(zhì)翻譯后修飾轉(zhuǎn)換和周轉(zhuǎn)(1512,8.46 %)、基因轉(zhuǎn)錄(1146,6.41 %)、細(xì)胞骨架(1124,6.29 %)、胞內(nèi)分子轉(zhuǎn)運(yùn)分泌和膜泡運(yùn)輸(1048,5.86 %)。與細(xì)胞運(yùn)動(dòng)和細(xì)胞核結(jié)構(gòu)相關(guān)功能的基因最少,分別只有71和95個(gè)。有1010個(gè)基因功能未知。
圖3 巖原鯉基因GO注釋功能分類Fig.3 Gene ontology classification of putative functions of P. rabaudi
圖4 巖原鯉基因KOG分類Fig.4 KOG classification of P. rabaudi genes
2.7 KEGG代謝通路分析
通過(guò)對(duì)巖原鯉轉(zhuǎn)錄組unigene進(jìn)行KO注釋后經(jīng)代謝途徑數(shù)據(jù)庫(kù)KEGG分析,得到巖原鯉轉(zhuǎn)錄組unigene共參與到5大類(細(xì)胞過(guò)程、環(huán)境信息處理、遺傳信息處理、代謝和有機(jī)系統(tǒng))32小類共267個(gè)代謝通路中(圖5)。其中基因數(shù)量較多的幾個(gè)信號(hào)通路分別是PI3K/Akt信號(hào)通路、鈣離子信號(hào)通路、MAPK信號(hào)通路和cAMP信號(hào)通路,每個(gè)通路都含有600個(gè)以上的基因,這幾個(gè)代謝通路與環(huán)境信息處理大類中信號(hào)轉(zhuǎn)導(dǎo)相關(guān)。
3.1 轉(zhuǎn)錄組文庫(kù)測(cè)序分析
轉(zhuǎn)錄組是指某一生理?xiàng)l件下,細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合。轉(zhuǎn)錄組測(cè)序是利用高通量測(cè)序法對(duì)組織或細(xì)胞中所有 RNA 反轉(zhuǎn)錄而成的 cDNA 文庫(kù)進(jìn)行測(cè)序。通過(guò)轉(zhuǎn)錄組分析可以幫助我們?cè)谡w水平上研究細(xì)胞中基因轉(zhuǎn)錄的情況及轉(zhuǎn)錄調(diào)控規(guī)律,是基因功能及結(jié)構(gòu)研究的基礎(chǔ)和出發(fā)點(diǎn)。和傳統(tǒng)的基因芯片技術(shù)相比,轉(zhuǎn)錄組測(cè)序技術(shù)可以在沒(méi)有研究物種基因組信息的前提下,直接對(duì)物種的轉(zhuǎn)錄組信息進(jìn)行分析,而且具有更高的檢測(cè)通量,廣泛應(yīng)用于基礎(chǔ)研究、臨床診斷和藥物研發(fā)等領(lǐng)域[17, 22]。目前高通量測(cè)序技術(shù)在多種植物和動(dòng)物的轉(zhuǎn)錄組研究中以得到廣泛應(yīng)用,其中對(duì)于魚(yú)類的轉(zhuǎn)錄組研究也有很多報(bào)道,如虹鱒(Oncorhynchusmykiss)[23],日本七鰓鰻(Lampetrajaponica)[24],歐洲鰻鱺(Anguillaanguilla)[25],大菱鲆(Scophthalmusmaximus)[26]、達(dá)氏鰉(Husodauricus)[27]等。本研究采用Illumina HiSeqTM2500測(cè)序技術(shù)對(duì)巖原鯉轉(zhuǎn)錄組進(jìn)行測(cè)序分析。左右兩端測(cè)序的錯(cuò)誤率分別只有0.03 %和0.04 %,Phred 數(shù)值大于20的堿基所占總堿基數(shù)分別為95.97 %和92.99 %,這說(shuō)明本研究的測(cè)序質(zhì)量較高,得到的數(shù)據(jù)可以用于后續(xù)分析及研究。通過(guò)信息學(xué)統(tǒng)計(jì)分析共得到8.04G的總數(shù)據(jù)量,經(jīng)拼接及去接頭處理后得到64 257 918條可用的EST序列。利用Trinity軟件對(duì)EST序列進(jìn)行拼接和組裝,得到120 666條轉(zhuǎn)錄本,平均長(zhǎng)度為1043 bp。取每條基因中最長(zhǎng)的轉(zhuǎn)錄本作為unigene,共得到83 252條unigene,平均長(zhǎng)度787 bp。新一代測(cè)序技術(shù)不僅可以得到高質(zhì)量的數(shù)據(jù),同時(shí)可以獲得更大的數(shù)據(jù)量,既豐富了巖原鯉基因序列數(shù)據(jù)資源,也為后續(xù)巖原鯉功能基因和基因組學(xué)的研究提供了可靠的資源。
A:細(xì)胞過(guò)程,B:環(huán)境信息處理,C:遺傳信息處理,D:代謝,E:有機(jī)系統(tǒng)A: Cellular processes, B: Environmental information processing, C: Genetic information processing, D: Metabolism, E: Organismal systems圖5 巖原鯉基因KEGG分類Fig.5 KEGG classification of P. rabaudi genes
3.2 轉(zhuǎn)錄組文庫(kù)功能分析
利用拼接得到的unigene序列與NCBI的蛋白數(shù)據(jù)庫(kù)進(jìn)行相似性比對(duì)搜索,有44.63 %的unigene序列與數(shù)據(jù)庫(kù)中基因同源,且注釋成功的基因數(shù)達(dá)到37 157,遠(yuǎn)高于達(dá)氏鰉[27]肌肉轉(zhuǎn)錄組的37.34 %和馬氏珠母貝(Pinctadamartensii)[28]珍珠囊轉(zhuǎn)錄組的35.99 %,這可能與本研究是利用巖原鯉全組織轉(zhuǎn)錄組測(cè)序所得的數(shù)據(jù)有關(guān)。注釋成功的基因中有77.5 %是與斑馬魚(yú)(Danio rerio)的基因相似性最高,這也與兩者同屬鯉科魚(yú)類是一致的。經(jīng)過(guò)7個(gè)數(shù)據(jù)庫(kù)(Nr,Nt,Pfam,KOG/COG,Swiss-prot,KEGG,GO)的比對(duì)搜索,54 580條unigene至少在一個(gè)數(shù)據(jù)庫(kù)中注釋成功,占到總序列數(shù)的65.55 %,還有大量基因沒(méi)有注釋成功。這些基因與數(shù)據(jù)庫(kù)中的基因序列相似性較低,有可能是非編碼RNA,或是不含功能結(jié)構(gòu)域的基因序列,也有可能是未被記錄的新基因。這些未知基因可能是巖原鯉特有的,與巖原鯉特有的性狀相關(guān),參與重要的生物學(xué)過(guò)程,值得進(jìn)一步深入研究。
GO、KOG 和 KEGG數(shù)據(jù)庫(kù)是為了了解基因功能、同源關(guān)系和代謝通路等信息而開(kāi)發(fā)的。本研究對(duì)巖原鯉unigene分別進(jìn)行GO功能分類,KO蛋白直系同源性和KEGG代謝通路分析。其中,GO注釋分析得到29 919(35.93 %)條序列與數(shù)據(jù)庫(kù)中的序列有相似性,其中與細(xì)胞過(guò)程、結(jié)合、單一生物學(xué)過(guò)程、代謝過(guò)程、細(xì)胞、細(xì)胞構(gòu)件、催化活性和生物調(diào)節(jié)過(guò)程相關(guān)的基因最多。通過(guò)KOG注釋,21.46 %的基因成功注釋到真核直系同源組中,其中與基因信號(hào)轉(zhuǎn)導(dǎo)機(jī)制功能組分相關(guān)的基因最多,其次是通用功能、蛋白質(zhì)翻譯后修飾轉(zhuǎn)換和周轉(zhuǎn)、基因轉(zhuǎn)錄、細(xì)胞骨架、胞內(nèi)分子轉(zhuǎn)運(yùn)分泌和膜泡運(yùn)輸?shù)?。KEGG代謝通路分析顯示巖原鯉轉(zhuǎn)錄組19 270條unigene共參與到5大類32小類共267個(gè)代謝通路中,其中與信號(hào)轉(zhuǎn)導(dǎo)通路相關(guān)的基因數(shù)量最多,包括PI3K/Akt、Ca2+、MAPK和cAMP信號(hào)通路。共發(fā)現(xiàn)22條與氨基酸代謝相關(guān)的通路,包括氨基酸的合成、運(yùn)輸及降解。前期研究發(fā)現(xiàn)巖原鯉含有3種(Leu、Lys、Phe) 人體必需的氨基酸,且氨基酸指數(shù)高于其他魚(yú)類[5]。這些基因序列的發(fā)現(xiàn)為后期研究巖原鯉氨基酸代謝提供了很好材料,有利于進(jìn)一步遺傳育種的研究。
本研究利用高通量測(cè)序技術(shù),對(duì)巖原鯉轉(zhuǎn)錄組進(jìn)行測(cè)序,獲得了大量的轉(zhuǎn)錄組信息,通過(guò)對(duì)基因注釋,初步了解基因的功能、參與的生物學(xué)過(guò)程和代謝通路,為后期巖原鯉功能基因克隆、基因組學(xué)和蛋白質(zhì)組學(xué)研究、抗病抗逆性研究、遺傳育種及資源恢復(fù)等提供了有價(jià)值的數(shù)據(jù)。
[1]丁瑞華. 四川魚(yú)類志[M]. 成都: 四川科學(xué)技術(shù)出版社, 1994: 411-413.
[2]伍獻(xiàn)文. 中國(guó)鯉科魚(yú)類志: 下卷[M]. 上海: 上海人民出版社, 1996: 395-438.
[3]段辛斌, 陳大慶, 劉紹平, 等. 長(zhǎng)江三峽庫(kù)區(qū)魚(yú)類資源現(xiàn)狀的研究[J]. 水生生物學(xué)報(bào), 2002, 26(6): 605-611.
[4]樂(lè)佩琦, 陳宜渝. 中國(guó)瀕危動(dòng)物紅皮書(shū): 魚(yú)類[M]. 北京: 科學(xué)出版社, 1998: 170-172.
[5]葉元土, 羅 莉. 巖原鯉消化能力和營(yíng)養(yǎng)價(jià)值的初步的研究[J]. 四川動(dòng)物, 1998, 17(1): 7-10.
[6]蔡焰值, 蔡燁強(qiáng), 何長(zhǎng)仁, 等. 巖原鯉的生物學(xué)初步研究[J]. 水利漁業(yè), 2003, 23(4): 17-19.
[7]劉思陽(yáng), 孫玉華, 楊 帆, 等. 以RDPD方法分析巖原鯉分類地位[J]. 武漢大學(xué)學(xué)報(bào): 理學(xué)版, 2004, 50 (4): 477-481.
[8]宋 君. 長(zhǎng)江合江江段巖原鯉種群遺傳多樣性的AFLP分析[J]. 四川動(dòng)物, 2005, 24(4): 495-499.
[9]李 萍, 庹 云. 巖原鯉早期行為習(xí)性的初步觀察[J]. 安徽農(nóng)業(yè)科學(xué), 2008, 36(2): 565-566.
[10]施白南. 巖原鯉的生活習(xí)性及其資源保護(hù)[J]. 西南師范學(xué)院學(xué)報(bào)(自然科學(xué)版), 1980(2): 93-103.
[11]李秀明, 于麗娟, 曹振東, 等. 力竭追趕訓(xùn)練對(duì)兩種鯉科魚(yú)類生長(zhǎng)和攝食代謝的影響[J]. 淡水漁業(yè), 2013, 43(1): 63-68.
[12]錢 前, 羅 莉, 白富瑾, 等. 巖原鯉幼魚(yú)的蛋白質(zhì)需求量[J]. 動(dòng)物營(yíng)養(yǎng)學(xué)報(bào), 2013, 25(12): 2934-2942.
[13]刁曉明, 蘇勝齊, 劉健虎, 等. 巖原鯉人工繁殖初報(bào)及胚胎發(fā)育觀察[J]. 重慶水產(chǎn), 2000(4): 29-31.
[14]刁曉明, 李 華, 蘇勝齊. 巖原鯉腦顱的研究[J]. 西南農(nóng)業(yè)大學(xué)學(xué)報(bào), 1964, 16(5): 500-502.
[15]周 劍, 杜 軍, 龍治海, 等. 巖原鯉親魚(yú)培育與人工繁殖技術(shù)研究[J]. 水利漁業(yè), 2006, 26(6): 46-47.
[16]庹 云, 張耀光, 李 萍, 等. 巖原鯉稚魚(yú)期小瓜蟲(chóng)病急性感染與治療[J]. 水產(chǎn)養(yǎng)殖, 2005, 26(6): 34-37.
[17]劉紅亮, 鄭麗明, 劉青青, 等. 非模式生物轉(zhuǎn)錄組研究[J]. 遺傳, 2013, 35(8): 955-970.
[18]Gao X G, Han J B, Lu Z C, et al. De novo assembly and characterization of spotted sealPhocalarghatranscriptome using Illumina paired-end sequencing[J]. Comparative Biochemistry and Physiology, Part D, 2013(8): 103-110.
[19]Gao Z X, Luo W, Liu H, et al. Transcriptome analysis and SSR/SNP markers information of the blunt snout bream (Megalobramaamblycephala)[J]. Public Library of Science One, 2012(7): e42637.
[20]Garg R, Patel R K, Tyagi A K, et al. De novo assembly of chickpea transcriptome using short reads for gene discovery and marker identification[J]. DNA Research, 2011, 18: 53-63.
[21]Grabherr M G, Haas B J, Yassour M, et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nature Biotechnollogy, 2011, 29: 644-652.
[22]閏紹鵬, 楊瑞華, 冷淑嬌, 等. 高通量測(cè)序技術(shù)及其在農(nóng)業(yè)科學(xué)研究中的應(yīng)用[J]. 中國(guó)農(nóng)學(xué)通報(bào), 2012, 28(30): 171-176.
[23]Salem M, Rexroad C E, Wang J, et al. Characterization of the rainbow trout transcriptome using Sanger and 454-pyrosequencing approaches[J]. BMC Genomics, 2010, 11: 564.
[24]高 琪, 逢 越, 吳 毓, 等. 日本七鰓鰻(Lampetrajaponica)口腔腺表達(dá)序列標(biāo)簽(EST)分析[J]. 遺傳學(xué)報(bào), 2005, 32(10): 1045-1052.
[25]Coppe A, Pujolar J M, Maes G E, et al. Sequencing, de novo annotation and analysis of the firstAnguillaanguillatranscriptome: EeelBase opens new perspectives for the study of the critically endangered European eel[J]. Biomed Central Genomics, 2010, 11: 635.
[26]Pereiro P, Balseiro P, Romero A, et al. High-throughput sequence analysis of turbot (Scophthalmusmaximus) transcriptome using 454-pyrosequencing for the discovery of antiviral immune genes[J]. Public Library of Science One, 2012(7): e35369.
[27]趙 文, 高峰英, 石振廣. 達(dá)氏鰉肌肉組織轉(zhuǎn)錄組測(cè)序和功能分析[J]. 水產(chǎn)學(xué)報(bào), 2014, 38(9): 1255-1262.
[28]趙曉霞. 基于RNA測(cè)序技術(shù)的馬氏珠母貝珍珠囊轉(zhuǎn)錄組及數(shù)字基因表達(dá)譜分析[D]. 廣東海洋大學(xué)碩士學(xué)位論文, 2011: 30.
(責(zé)任編輯 李 潔)
Transcriptome Analysis ofProcyprisrabaudiUsing Illumina High-throughput Sequencing Approach
ZHAO Gang, GONG Quan, LIU Ya, LAI Jian-sheng, CHEN Ye-yu, DU Jun*
(Fishery Institute of Sichuan Academy of Agricultural Sciences, Sichuan Chengdu 611731, China)
The transcriptome of theProcyprisrabaudi’ whole tissues was sequenced using Illumina high-throughput sequencing approach in order to investigate useful information ofP.rabauditranscriptome and discover functional genes. We obtained a total of 64 257 918 expressed sequence tags and 83 252 unigenes which ranged from 201 to 16 572 bp, with an average length of 787 bp. By similar searches based on Nr database, overall 37 157 unigenes (44.63 %) were found orthologous to known protein sequences. 29 919 (35.93 %) unigenes were assigned Gene Ontology (GO) functional annotations which were divided into 3 categories (biological processes, cellular components and molecular functions) with 56 branches. A total of 17 869 unigenes (21.49 %) were categorized into 26 KOG classifications and 19 270 unigenes were assigned to 267 predicted KEGG metabolic pathways which could be divided into 5 categories (cellular processes, environmental information processing, genetic information processing, metabolism and organismal systems). Using high-fluxed sequencing technology, our results would provide a rich source of data to understand transcriptome information ofP.rabaudi, discover and identify new genes, characterize gene expression and make the first step for further genomics researches.
High-throughput sequencing;Procyprisrabaudi; Transcriptome
1001-4829(2016)07-1743-07
10.16213/j.cnki.scjas.2016.07.043
2015-06-30
巖原鯉種質(zhì)資源的分子遺傳學(xué)研究(2013GXJS-010)
趙 剛(1970-),男,四川成都人,學(xué)士,研究員,主要從事魚(yú)類資源及養(yǎng)殖研究,E-mail:zgzg70@yahoo.com.cn,Tel:+86-28-86106576,*為通訊作者:杜 軍,E-mail: dujun91 00@126.com。
S917.4
A