崔凱 吳偉偉 刁其玉
(1. 中國(guó)農(nóng)業(yè)科學(xué)院飼料研究所 農(nóng)業(yè)部生物飼料重點(diǎn)實(shí)驗(yàn)室,北京 100081;2. 新疆畜牧科學(xué)院畜牧研究所,烏魯木齊 830000)
轉(zhuǎn)錄組學(xué)是從整體轉(zhuǎn)錄水平系統(tǒng)研究基因轉(zhuǎn)錄圖譜并揭示復(fù)雜生物學(xué)通路和性狀調(diào)控網(wǎng)絡(luò)分子機(jī)制的學(xué)科。在高通量測(cè)序技術(shù)發(fā)展以前,基于cDNA雜交熒光檢測(cè)的高通量基因表達(dá)芯片(Expression array)和基因表達(dá)系列分析技術(shù)(Serial analysis of gene expression,SAGE)是從整體水平研究動(dòng)植物組織中基因表達(dá)信息的主要手段。
在2008年左右,高通量測(cè)序技術(shù)開(kāi)始應(yīng)用于細(xì)胞和組織中轉(zhuǎn)錄本(主要是mRNA)的種類和表達(dá)量的研究,轉(zhuǎn)錄組測(cè)序(RNA sequencing,RNA-seq)這樣的名詞開(kāi)始出現(xiàn)并被廣泛應(yīng)用[1]。與基因表達(dá)芯片方法不同,RNA-Seq不僅能夠檢測(cè)與現(xiàn)有基因組序列相對(duì)應(yīng)的轉(zhuǎn)錄本,并能發(fā)現(xiàn)和定量新的轉(zhuǎn)錄本,對(duì)選擇性剪接事件、新基因和轉(zhuǎn)錄本以及融合轉(zhuǎn)錄本的研究更具優(yōu)勢(shì),從而能更加系統(tǒng)地研究轉(zhuǎn)錄組學(xué)。2010年前后,三代測(cè)序技術(shù)(單分子測(cè)序技術(shù))興起,因其具有測(cè)序讀長(zhǎng)較長(zhǎng)的優(yōu)點(diǎn),在研究全長(zhǎng)轉(zhuǎn)錄本上具有二代測(cè)序短reads所不能達(dá)到的優(yōu)勢(shì)。
隨著測(cè)序技術(shù)的發(fā)展和成本的降低,使得核酸的檢測(cè)與定量更加便捷和準(zhǔn)確,高通量測(cè)序在轉(zhuǎn)錄組學(xué)的研究上越來(lái)越普遍,大有替代基因表達(dá)芯片的趨勢(shì)。運(yùn)用現(xiàn)有的轉(zhuǎn)錄組研究手段系統(tǒng)、準(zhǔn)確地探究從DNA向RNA轉(zhuǎn)錄這一復(fù)雜而精細(xì)的調(diào)控層次,是揭示生物學(xué)過(guò)程中的復(fù)雜性狀和解析轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)的重要方面。
20世紀(jì)70年代,第一代測(cè)序技術(shù)(Sanger雙脫氧測(cè)序技術(shù))的出現(xiàn),實(shí)現(xiàn)了對(duì)核酸序列進(jìn)行測(cè)序。但Sanger測(cè)序法的通量較低,不能滿足大批量測(cè)序的要求,難以應(yīng)用在組學(xué)測(cè)序的研究中。后來(lái)發(fā)展的高通量測(cè)序(High-throughput sequencing)技術(shù),即二代測(cè)序(Next generation sequencing,NGS)技術(shù),實(shí)現(xiàn)了測(cè)序的高通量和自動(dòng)化,加速了轉(zhuǎn)錄組學(xué)研究的快速發(fā)展。目前,二代測(cè)序平臺(tái)主要包括454 Life Sciences公司推出的454測(cè)序技術(shù)、Illumina公司和ABI公司相繼推出的Solexa和SOLID 測(cè)序技術(shù)等,其中454測(cè)序技術(shù)平臺(tái)最早實(shí)現(xiàn)商業(yè)化。在過(guò)去10年間,Illumina公司的Solexa技術(shù),即邊合成邊測(cè)序(Sequencing by synthesis,SBS)技術(shù)發(fā)展迅速,其HiSeq系列的測(cè)序平臺(tái)逐漸成為二代測(cè)序技術(shù)中最被廣泛應(yīng)用的平臺(tái)。Illumina/Solexa的測(cè)序平臺(tái)主要是采用邊合成邊測(cè)序(SBS)的方法,此種方法是將提取的核酸片段打斷到幾百bp大小后,加上接頭和測(cè)序引物等序列,經(jīng)PCR擴(kuò)增后建成library,在含有接頭序列的芯片(Flow cell)上對(duì)文庫(kù)進(jìn)行反應(yīng),每個(gè)反應(yīng)循環(huán)中,標(biāo)記4種熒光染料的堿基通過(guò)互補(bǔ)堿基配對(duì)被加入到單分子的合成中,這樣通過(guò)CCD采集序列上的熒光信號(hào),讀取測(cè)序片段的堿基序列。Illumina現(xiàn)有桌面式和生產(chǎn)規(guī)模式兩大類測(cè)序平臺(tái)(表1),可以滿足中小實(shí)驗(yàn)室以及大規(guī)模平臺(tái)的二代測(cè)序需求。
三代測(cè)序技術(shù)也叫單分子測(cè)序技術(shù)(Single molecule sequencing),具有超長(zhǎng)讀長(zhǎng)(平均讀長(zhǎng)10-15 kb,最長(zhǎng)讀長(zhǎng)可達(dá)60 kb)、無(wú)PCR擴(kuò)增偏向性及GC偏好性的特點(diǎn),被認(rèn)為是進(jìn)行全基因組de nove組裝、全長(zhǎng)轉(zhuǎn)錄本測(cè)序及表觀遺傳學(xué)測(cè)序的理想測(cè)序平臺(tái)。PacBio公司的單分子實(shí)時(shí)測(cè)序技術(shù)(Single molecule real time sequencing,SMRT-seq)[2]和Oxford Nanopore Technologies的納米孔單分子測(cè)序平臺(tái)[3]是目前主流的三代測(cè)序平臺(tái)。由于三代測(cè)序技術(shù)由于在測(cè)序時(shí)沒(méi)有經(jīng)過(guò)模板擴(kuò)增,測(cè)序信號(hào)的檢測(cè)相對(duì)于邊合成邊測(cè)序的二代測(cè)序技術(shù)較弱,容易在堿基識(shí)別時(shí)產(chǎn)生隨機(jī)錯(cuò)誤。因而PacBio平臺(tái)的設(shè)計(jì)是對(duì)核酸分子進(jìn)行環(huán)化測(cè)序(Circular consensus sequencing,CCS),反復(fù)讀取reads后對(duì)堿基序列進(jìn)行迭代校正,從而有效提高了單分子測(cè)序的準(zhǔn)確性[2]。目前,PacBio 公司推出的 Sequel Ⅱ 測(cè)序平臺(tái),長(zhǎng)序列reads的讀取精確得到進(jìn)一步提升,平均讀長(zhǎng)13.5 kb的長(zhǎng)序列reads的讀取精度可達(dá)99.8%[4]。
表1 幾種主要測(cè)序平臺(tái)特點(diǎn)
轉(zhuǎn)錄組測(cè)序(RNA-seq)就是利用高通量測(cè)序技術(shù)將細(xì)胞或組織中全部或部分mRNA、small RNA和no-codingRNA進(jìn)行測(cè)序分析的技術(shù)。轉(zhuǎn)錄組測(cè)序和分析一般流程如圖1所示。目前最常見(jiàn)的轉(zhuǎn)錄組測(cè)序是基于二代測(cè)序技術(shù),以Illumina的NGS測(cè)序平臺(tái)為主流。這種方法需要根據(jù)實(shí)驗(yàn)?zāi)康膶?duì)RNA樣本進(jìn)行處理,將mRNA,miRNA,lncRNA其中的部分或全部反轉(zhuǎn)錄成cDNA文庫(kù),再利用高通量測(cè)序平臺(tái)進(jìn)行測(cè)序[1,5]。通常會(huì)根據(jù)測(cè)序?qū)ο箝L(zhǎng)度的不同,在測(cè)序建庫(kù)的時(shí)候會(huì)選擇建立不同大小片段的文庫(kù)。一般地,進(jìn)行mRNA 測(cè)序,建庫(kù)時(shí)通常建立幾百bp大小片段的文庫(kù),選擇雙向測(cè)序較多;進(jìn)行miRNA測(cè)序時(shí),通常將miRNA進(jìn)行分離,單獨(dú)建立小片段文庫(kù)后再進(jìn)行單向測(cè)序;而長(zhǎng)鏈非編碼 RNA(long non-coding RNA,lncRNA)存在正向轉(zhuǎn)錄和反向轉(zhuǎn)錄,所以常采用鏈特異性建庫(kù)測(cè)序。
圖1 轉(zhuǎn)錄組測(cè)序和分析流程示意圖
對(duì)于mRNA測(cè)序,利用mRNA在3′端具有poly-A的結(jié)構(gòu)特點(diǎn),富集出特定組織或細(xì)胞在特定時(shí)空條件下轉(zhuǎn)錄出來(lái)的不含內(nèi)含子序列的mRNA分子,反轉(zhuǎn)錄成cDNA建庫(kù)測(cè)序。根據(jù)測(cè)序得到的mRNA序列,可以精確地比對(duì)至參考基因組序列上,從而判斷外顯子與內(nèi)含子的邊界。對(duì)于無(wú)參考基因組的物種,通過(guò)對(duì)序列進(jìn)行從頭拼接(de noveassembly),得到轉(zhuǎn)錄本具體的序列信息。通過(guò)對(duì)不同物種、不同發(fā)育階段的不同組織中的轉(zhuǎn)錄組進(jìn)行研究,可以發(fā)現(xiàn)基因轉(zhuǎn)錄的物種特異性和時(shí)空差異的特點(diǎn),為深入理解物種和性狀的分子機(jī)理提供轉(zhuǎn)錄組水平的線索。
Small RNA是指長(zhǎng)度在20-50 nt的RNA分子,包括miRNA、siRNA、snoRNA和piRNA等,通過(guò)參與mRNA降解、抑制翻譯過(guò)程、促進(jìn)異染色質(zhì)形成和DNA表觀修飾等多種途徑來(lái)調(diào)控生物學(xué)過(guò)程。根據(jù)small RNA 的5′端磷酸基和3′端羥基的結(jié)構(gòu)特點(diǎn),鏈接測(cè)序接頭并篩選small RNA測(cè)序文庫(kù)進(jìn)行測(cè)序。miRNA在物種間的生物學(xué)功能較為保守,是small RNA測(cè)序研究中的重點(diǎn)。Hutvagner等[6]通過(guò)small RNA測(cè)序鑒定得到miRNA let-7,通過(guò)與mRNA不完全匹配發(fā)揮抑制翻譯的作用。
長(zhǎng)鏈非編碼RNA(lncRNA)是一類長(zhǎng)度在200 nt以上、無(wú)編碼蛋白質(zhì)功能的RNA分子,往往具有很強(qiáng)的物種、組織特異性。部分lncRNA位于基因的增強(qiáng)子區(qū)域,通過(guò)自身的轉(zhuǎn)錄而實(shí)現(xiàn)增強(qiáng)子的功能[7]。lncRNA調(diào)控方式多樣且廣泛存在于各類動(dòng)植物細(xì)胞中,可以通過(guò)參與染色體結(jié)構(gòu)形成以及與轉(zhuǎn)錄因子、蛋白質(zhì)、RNA前體、miRNA結(jié)合等多種方式調(diào)節(jié)各類生物學(xué)分子的功能。部分lncRNA含有ploy-A尾結(jié)構(gòu),因而在mRNA的測(cè)序結(jié)果中往往包含部分lncRNA序列信息。目前對(duì)于lncRNA的研究,以尋找差異表達(dá)的lncRNA分子入手,主要依據(jù)lncRNA與關(guān)鍵編碼基因的位置關(guān)系,進(jìn)一步預(yù)測(cè)兩者之間的調(diào)控關(guān)系。
1) 基于PID控制的參數(shù)為γ1=γ2=0.083,α1=α2=0.21,γ3=0.033,Kr=20。同時(shí)對(duì)PID控制器進(jìn)行參數(shù)整定。Kp1=0.5,Kd1=0.002 5,Kd1=8;Kp2=1,Ki2=0.2,Kd2=0。
環(huán)狀RNA(circRNA)具有特殊的穩(wěn)定性良好的成環(huán)結(jié)構(gòu),不容易被RNA酶降解,被認(rèn)為在生物體內(nèi)可以長(zhǎng)效行使轉(zhuǎn)錄調(diào)控功能。同一段基因組序列可能會(huì)產(chǎn)生多種類型的circRNA分子,外顯子和內(nèi)含子的不同剪切組合使得circRNA可能包含多個(gè)外顯子或內(nèi)含子序列[8]。circRNA具有吸附miRNA分子的“海綿”作用,介入miRNA對(duì)mRNA的調(diào)控過(guò)程。circRNA對(duì)相同基因組位置上的mRNA轉(zhuǎn)錄有競(jìng)爭(zhēng)性抑制作用[9],含有外顯子的circRNA還可能開(kāi)環(huán)并重新翻譯[10]。由于circRNA在生物體內(nèi)穩(wěn)定地行使功能,并具有組織特異性表達(dá)模式,與宿主基因表達(dá)不太相關(guān),被認(rèn)為在作為相關(guān)疾病的臨床診斷、預(yù)防的分子標(biāo)志物以及藥物治療靶點(diǎn)等方面具有極大的潛力[11]。
mRNA的轉(zhuǎn)錄水平受lncRNA、small RNA和circRNA的調(diào)控作用影響,定量分析某個(gè)時(shí)空的細(xì)胞或特定組織中的生物分子網(wǎng)絡(luò)和調(diào)控途徑時(shí),需要對(duì)整個(gè)轉(zhuǎn)錄組中全部的RNA分子進(jìn)行定量和定性的研究。全轉(zhuǎn)錄組測(cè)序(Whole transcriptome sequencing)能夠測(cè)定樣本中的全部完整的轉(zhuǎn)錄本,主要包括mRNA和非編碼RNA(lncRNA,circRNA和miRNA)。全轉(zhuǎn)錄本測(cè)序與常規(guī)RNA-seq的區(qū)別主要是建庫(kù)方式的不同。全轉(zhuǎn)錄組測(cè)序在建庫(kù)過(guò)程中需分別建立2個(gè)文庫(kù)(mRNA+lncRNA+circRNA文庫(kù)和miRNA文庫(kù))或3個(gè)文庫(kù)(mRNA+lncRNA文庫(kù)、circRNA文庫(kù)和miRNA文庫(kù))。通過(guò)全轉(zhuǎn)錄組數(shù)據(jù),不僅可以獲得全部類型轉(zhuǎn)錄本的表達(dá)圖譜,在此基礎(chǔ)之上,對(duì)不同RNA分子進(jìn)行鑒定和注釋,分析其編碼蛋白和調(diào)控功能,并對(duì)RNA分子之間的互作調(diào)控網(wǎng)絡(luò)進(jìn)行分析,從整體上全面系統(tǒng)的分析特定細(xì)胞在特定時(shí)空下的生物學(xué)特征。
Eberwine 等[12]和 Brady等[13]分別開(kāi)發(fā)了通過(guò)體外轉(zhuǎn)錄線性擴(kuò)增和PCR指數(shù)擴(kuò)增單個(gè)細(xì)胞的互補(bǔ)DNA(cDNAs)技術(shù),這類技術(shù)與高通量測(cè)序技術(shù)結(jié)合,衍生出了單個(gè)細(xì)胞內(nèi)轉(zhuǎn)錄本測(cè)序技術(shù)(single cell RNA-seq,scRNA-seq)。單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)是在單細(xì)胞水平研究整個(gè)轉(zhuǎn)錄組的技術(shù),用于評(píng)估單個(gè)細(xì)胞間基因表達(dá)的差異,能避免細(xì)胞類型混雜而引入的假陰性結(jié)果,有可能識(shí)別出無(wú)法通過(guò)混合細(xì)胞檢測(cè)到的罕見(jiàn)的細(xì)胞群體。目前常見(jiàn)的單細(xì)胞測(cè)序平臺(tái)包括Fluidigm、WaferGen、10×Genomics、和Illumina/Bio-Rad等測(cè)序平臺(tái)。與其他RNA測(cè)序技術(shù)不同,scRNA-seq需要首先分離并獲得單個(gè)細(xì)胞內(nèi)的全部轉(zhuǎn)錄組。單細(xì)胞分離是scRNA-seq的關(guān)鍵步驟,主要通過(guò)連續(xù)稀釋、顯微操作分離、熒光激活細(xì)胞分選(Fluorescence-activated cell sorting,F(xiàn)ACS)和微流控分離(Microfluidic technology)等技術(shù)實(shí)現(xiàn)。2009年,Tang等[14]首次報(bào)道利用scRNA-seq技術(shù)來(lái)鑒定早期發(fā)育階段的不同類別細(xì)胞。
進(jìn)行轉(zhuǎn)錄組測(cè)序時(shí),提取樣本中總RNA后,去除rRNA,對(duì)目標(biāo)RNA分子富集后進(jìn)行測(cè)序文庫(kù)的構(gòu)建。測(cè)序文庫(kù),分為非鏈特異性文庫(kù)(Non-strandspecific library)和鏈特異性文庫(kù)(Strand-specific library)兩種。非鏈特異性文庫(kù)是指,RNA逆轉(zhuǎn)錄成雙鏈cDNA,隨機(jī)加上接頭、不區(qū)分RNA的鏈的信息的文庫(kù)。測(cè)序時(shí)以雙鏈cDNA進(jìn)行測(cè)序,無(wú)法區(qū)分mRNA的轉(zhuǎn)錄方向(圖2-A)。鏈特異性文庫(kù)可以分為2類,一種以化學(xué)修飾標(biāo)記一條鏈,比如通過(guò)重硫酸鹽處理RNA分子(圖2-B),或者在第二鏈cDNA合成時(shí)引入dUTP(圖2-C),然后降解含有U的鏈;另一種是以不同接頭連接RNA分子或合成cDNA鏈的5′和3′末端,來(lái)區(qū)分正反義鏈(圖2DH)。Levin等[15]對(duì)不同類型的鏈特性文庫(kù)的復(fù)雜性、均勻性和覆蓋連續(xù)性進(jìn)行評(píng)價(jià),并與已知基因組注釋和表達(dá)譜的基因定量進(jìn)行比較,再結(jié)合實(shí)驗(yàn)操作和計(jì)算的簡(jiǎn)便性,認(rèn)為dUTP第二鏈標(biāo)記的方法和Illumina RNA ligation方法效果較好。
在轉(zhuǎn)錄組測(cè)序時(shí),區(qū)分RNA分子鏈的來(lái)源能夠避免基因反義鏈上的reads的干擾,能夠提高基因轉(zhuǎn)錄本鑒定和轉(zhuǎn)錄本定量的精確性。利用轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行從頭拼接時(shí),有助于劃分轉(zhuǎn)錄本的邊界,確定轉(zhuǎn)錄本的正義鏈信息。
轉(zhuǎn)錄本測(cè)序數(shù)據(jù)用于比較不同組別之間基因水平或轉(zhuǎn)錄本水平的定量差異時(shí),其分析基本流程包括原始數(shù)據(jù)預(yù)處理、reads比對(duì)、轉(zhuǎn)錄本組裝、新轉(zhuǎn)錄本預(yù)測(cè)、轉(zhuǎn)錄本表達(dá)水平分析等步驟。后續(xù)根據(jù)實(shí)驗(yàn)的目的,可進(jìn)一步分析實(shí)驗(yàn)組與對(duì)照組之間的轉(zhuǎn)錄本表達(dá)差異情況,樣本之間基因表達(dá)模式聚類,以及和其它組學(xué)數(shù)據(jù)進(jìn)行聯(lián)合分析等。其中,轉(zhuǎn)錄本組裝是根據(jù)read比對(duì)的結(jié)果來(lái)識(shí)別樣本中所有表達(dá)的轉(zhuǎn)錄本。如果沒(méi)有可用的參考基因組序列,則可以直接使用從頭組裝方法執(zhí)行此過(guò)程。一旦確定了所有轉(zhuǎn)錄本,就可以根據(jù)比對(duì)至轉(zhuǎn)錄本序列上的reads數(shù)目估計(jì)基因的表達(dá)豐度,進(jìn)而在分組樣本之間計(jì)算差異表達(dá)轉(zhuǎn)錄本并分析轉(zhuǎn)錄本表達(dá)情況與分組設(shè)計(jì)之間的生物學(xué)關(guān)聯(lián)。
獲得的二代測(cè)序原始數(shù)據(jù)后,需要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估并進(jìn)行質(zhì)量控制(Quality control,QC),評(píng)估內(nèi)容包括數(shù)據(jù)產(chǎn)出量、GC含量、rRNA含量、堿基質(zhì)量分布和重復(fù)序列等。將其中低質(zhì)量的reads和接頭序列等去除,得到質(zhì)控后的clean data用于后續(xù)分析。常用的質(zhì)控軟件有Trimmomatic[16]、RSeQC[17]、FASTX(http ://hannonlab.cshl.edu/fastx_toolkit/)、Trim Galore(https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)等。以常用的Trimmomatic軟件為例,對(duì)于雙段測(cè)序的Illumina格式的rawdata,其默認(rèn)處理參數(shù)為“ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW :4:15 MINLEN:36”,ILLUMINACLIP:TruSeq3-PE.fa:2:30:10含義是根據(jù)TruSeq3-PE.fa文件中的測(cè)序接頭序列信息過(guò)濾原始數(shù)據(jù)中的測(cè)序接頭和引物序列,允許最大錯(cuò)配堿基數(shù)為2,plindrome clip閾值為30,simple clip 閾值為10,根據(jù)這三個(gè)值的設(shè)定來(lái)判斷接頭序列與read的比對(duì)程度;LEADING:3,從序列開(kāi)頭去除堿基質(zhì)量低于3的堿基;TRAILING:3,從序列結(jié)尾去除堿基質(zhì)量低于3的堿基;SLIDINGWINDOW:4:15,設(shè)置4 bp窗口,堿基平均質(zhì)量值閾值為15;MINLEN:36,若質(zhì)控后read長(zhǎng)度小于36 bp則丟棄此條read。QC后得到的數(shù)據(jù)稱為clean data,用于后續(xù)的數(shù)據(jù)分析。
圖2 幾種類型文庫(kù)的構(gòu)建流程示意圖
轉(zhuǎn)錄組數(shù)據(jù)主要來(lái)自基因組的外顯子序列,將測(cè)序獲得的轉(zhuǎn)錄組reads比對(duì)至基因組序列上,會(huì)被內(nèi)含子序列隔斷。應(yīng)用于轉(zhuǎn)錄組數(shù)據(jù)的比對(duì)軟件, 常 用 的 有 bowtie[18],bowtie2[19],STAR[20],HISAT/HISAT2[21]等。這類軟件適用于轉(zhuǎn)錄組reads的分割并比對(duì)至參考基因組序列。BWA[22]軟件的比對(duì)算法被認(rèn)為對(duì)于分割比對(duì)不敏感,因而不適合用于RNA序列與含有內(nèi)含子序列的基因組序列之間的比對(duì)。
大多數(shù)基因有多種剪接形式,且有可能產(chǎn)生多種轉(zhuǎn)錄本,從而編碼產(chǎn)生不同的蛋白,這樣有可能造成一個(gè)基因有多種功能。對(duì)轉(zhuǎn)錄本測(cè)序數(shù)據(jù)進(jìn)行拼接和組裝后,不僅會(huì)得到已知的轉(zhuǎn)錄本信息,也會(huì)得到新的轉(zhuǎn)錄本序列,需要對(duì)新的轉(zhuǎn)錄本進(jìn)行鑒定和注釋,特別是之前研究較少的新的ncRNA轉(zhuǎn)錄本。
對(duì)于有參考基因組和轉(zhuǎn)錄本參考信息的物種,轉(zhuǎn)錄本結(jié)構(gòu)主要是根據(jù)測(cè)序得到reads進(jìn)行比對(duì),reads覆蓋了全部的轉(zhuǎn)錄本序列,依靠基因組序列組裝出完整的轉(zhuǎn)錄本信息。對(duì)于無(wú)參考基因組的物種,需要自行組裝出基因的轉(zhuǎn)錄本序列。得到的基因或轉(zhuǎn)錄本序列可以與同物種或近源物種的unigene和EST數(shù)據(jù)庫(kù)進(jìn)行比較,以判斷得到的基因或轉(zhuǎn)錄本序列的可靠性。這一過(guò)程中常用blast方法進(jìn)行比對(duì),快速鑒定序列之間的相似度。在新的lncRNA的鑒定分析中,一般是根據(jù)lncRNA分子特性,在轉(zhuǎn)錄組數(shù)據(jù)中提取外顯子總長(zhǎng)>200 nt的轉(zhuǎn)錄本,然后根據(jù)開(kāi)放閱讀框預(yù)測(cè)和與已知的蛋白數(shù)據(jù)庫(kù)進(jìn)行比較,從而進(jìn)一步將lncRNA從mRNA中分離出來(lái)。
將reads比對(duì)到相應(yīng)的基因組位置或從頭組裝出轉(zhuǎn)錄本后,得到每個(gè)基因或轉(zhuǎn)錄本上的reads數(shù)在一定程度上可以反映其表達(dá)豐度。由于樣本間的數(shù)據(jù)總產(chǎn)出量、樣本間基因表達(dá)數(shù)目、樣本內(nèi)不同基因長(zhǎng)度甚至是同一個(gè)基因內(nèi)部不同轉(zhuǎn)錄本分布都可能存在明顯差異,在不同樣本之間對(duì)于同一個(gè)基因或轉(zhuǎn)錄本的表達(dá)量進(jìn)行比較時(shí),則需要對(duì)于樣本間的數(shù)據(jù)進(jìn)行歸一化處理[29]。處理后的轉(zhuǎn)錄本表達(dá)量一般以RPKM(Reads per kilobase per million mapped reads)、FPKM(Fragments per kilobase per million mapped reads) 或 TPM(Transcripts per million) 這3類數(shù)值表示。RPKM針對(duì)早期的SE測(cè)序,F(xiàn)PKM則是在PE測(cè)序上對(duì)RPKM的校正,且應(yīng)用于雙段測(cè)序的RNA-seq分析中。對(duì)于單端測(cè)序結(jié)果,基因的RPKM與FPKM值相等。TPM以轉(zhuǎn)錄本條數(shù)代表每個(gè)轉(zhuǎn)錄本的表達(dá)量,當(dāng)樣本之間表達(dá)的基因綜述差異很大的時(shí)候,TPM值比FPKM值更能代表轉(zhuǎn)錄本的表達(dá)量。Cufflinks[30]、DESeq/DESeq2[31-32]、EDGR[33]等軟件可用來(lái)進(jìn)行表達(dá)量的確定。另外在進(jìn)行不同樣本之間的基因表達(dá)量比較分析時(shí),依據(jù)實(shí)驗(yàn)設(shè)計(jì)利用統(tǒng)計(jì)學(xué)方法檢驗(yàn)實(shí)驗(yàn)組與對(duì)照組之間的差異基因。由于同時(shí)對(duì)成千上萬(wàn)的基因進(jìn)行統(tǒng)計(jì)檢驗(yàn),因而需要考慮多重檢驗(yàn)引入的假陽(yáng)性升高,因而常用FDR等多重檢驗(yàn)校正的方法對(duì)比較分析的顯著性進(jìn)行校正。
scRNA-seq中基因表達(dá)量確定與常規(guī)RNA-seq數(shù)據(jù)處理思路一致,但由于scRNA-seq的產(chǎn)出數(shù)據(jù)中一般噪音較大,并且有大量的空值(Dropouts),在基因表達(dá)矩陣中超過(guò)50%的基因?yàn)榭罩狄埠艹R?jiàn),因而需要使用填充算法進(jìn)行數(shù)據(jù)的修正[34-35]。對(duì)于scRNA-seq空值的解釋,除部分基因本身在該單個(gè)細(xì)胞中不表達(dá),還可能是因?yàn)橐恍┗虮磉_(dá)量較低或者是測(cè)序深度不夠,導(dǎo)致在實(shí)驗(yàn)中未被檢出[34]。在數(shù)據(jù)分析中,需要謹(jǐn)慎對(duì)待空值,根據(jù)細(xì)胞-細(xì)胞、基因-基因之間關(guān)系對(duì)空值進(jìn)行推斷。推斷scRNA-seq中的技術(shù)噪聲比較困難,單個(gè)細(xì)胞之間的測(cè)序結(jié)果屬于生物學(xué)重復(fù)而不能用于推斷技術(shù)重復(fù)偏差。
分析轉(zhuǎn)錄組測(cè)序數(shù)據(jù),可以獲得樣本的全部轉(zhuǎn)錄本的序列信息,包括轉(zhuǎn)錄本上全部的SNP和Indel等突變類型。轉(zhuǎn)錄生成的RNA分子在翻譯之前可能會(huì)經(jīng)歷多種修飾[36],如A-to-I的RNA編輯過(guò)程,從而進(jìn)一步增加轉(zhuǎn)錄組的復(fù)雜性。分析轉(zhuǎn)錄本中的突變信息,可以捕獲基因從DNA向RNA轉(zhuǎn)錄中修飾過(guò)程,從而探究轉(zhuǎn)錄過(guò)程中復(fù)雜的調(diào)控機(jī)制。SAMtools[37]、BCFtools[38]和 GATK[39]等軟件可用來(lái)檢測(cè)轉(zhuǎn)錄組中相關(guān)的變異。
RNA-seq技術(shù)使得研究整個(gè)轉(zhuǎn)錄組中基因表達(dá)情況更為快速和容易,對(duì)于有參考基因組的物種或無(wú)參考基因組的物種,采取不同的分析策略,即可高效地獲得某一特定狀態(tài)下細(xì)胞或組織中的全部轉(zhuǎn)錄本信息,進(jìn)而研究不同組織器官或發(fā)育階段之間的基因表達(dá)模式差異。另外,隨著轉(zhuǎn)錄組測(cè)序數(shù)據(jù)的積累,從而建立起各類轉(zhuǎn)錄組數(shù)據(jù)庫(kù),這些信息的積累為后續(xù)進(jìn)一步研究特定生理?xiàng)l件下的轉(zhuǎn)錄本種類和表達(dá)量、轉(zhuǎn)錄本之間互作以及轉(zhuǎn)錄調(diào)控研究等提供參考。例如,基于RNA-seq數(shù)據(jù)建立起來(lái)的擬南芥的基因表達(dá)譜數(shù)據(jù)庫(kù)TraVA(http://travadb.org/),包含了79個(gè)樣本的25 706個(gè)蛋白質(zhì)編碼基因,可以提供不同器官和發(fā)育階段之間的基因表達(dá)譜和差異表達(dá)基因的研究[40]?;趍iRNA-seq建立的miRBase數(shù)據(jù)庫(kù)收錄了200多個(gè)物種的數(shù)萬(wàn)條miRNA信息,可用于進(jìn)行miRNA注釋和比較[41]。
基于NGS技術(shù)的轉(zhuǎn)錄組測(cè)序,通過(guò)拼接算法可以獲得完整的轉(zhuǎn)錄本序列,但對(duì)于存在多個(gè)可變剪接形式的基因,不同轉(zhuǎn)錄本之間的識(shí)別仍然存在困難。單分子測(cè)序技術(shù)應(yīng)用于轉(zhuǎn)錄組測(cè)序,可以用測(cè)序讀長(zhǎng)較長(zhǎng)的優(yōu)勢(shì)直接獲得完整的轉(zhuǎn)錄本序列,不再需要對(duì)于NGS短的reads進(jìn)行組裝,可以準(zhǔn)確獲得不同可變剪接的轉(zhuǎn)錄本序列和表達(dá)量[42]。Wang等[43]利用 Pacbio Isoform Sequence(Iso-seq)平臺(tái)分析鑒定玉米和高粱的異構(gòu)體,發(fā)現(xiàn)超過(guò)40%的轉(zhuǎn)錄本具有新穎和多種多樣的剪接方式。
非編碼RNA不能形成蛋白產(chǎn)物,但其在生物學(xué)過(guò)程中發(fā)揮著不可忽略的重要的調(diào)控功能。近年來(lái),通過(guò)NGS技術(shù)和RNA-seq在各種細(xì)胞和組織中發(fā)現(xiàn)了大量的ncRNA,它們的類型和表達(dá)量,往往反映了物種特征以及特定生理狀態(tài)。特別在動(dòng)植物育種、抗病和環(huán)境適應(yīng)性的研究中,ncRNA的作用越來(lái)越受到重視。在擬南芥中,病原菌侵染過(guò)程中可以激發(fā)一些小RNA,在相應(yīng)的通路中發(fā)揮作用,最終增強(qiáng)植物抗病性。Zhao 等[44]通過(guò)對(duì)擬南芥進(jìn)行轉(zhuǎn)錄組的測(cè)序,研究lncRNA表達(dá)譜,從鑒定出的6 510個(gè)lncRNA中進(jìn)一步分析了影響開(kāi)花的lncRNA及其作用機(jī)理。Ré等[45]通過(guò)對(duì)低溫環(huán)境中的擬南芥種子進(jìn)行miRNA測(cè)序,鑒定出低溫狀態(tài)下獨(dú)立于HYL1/SE產(chǎn)生的特定miRNA,分析其與低溫環(huán)境適應(yīng)性的聯(lián)系。
從單個(gè)細(xì)胞水平上進(jìn)行轉(zhuǎn)錄本研究,能夠深入分析細(xì)胞之間的異質(zhì)性,從而解析不同類型細(xì)胞的生理特點(diǎn)。對(duì)于特定組織研究其功能,必須要了解區(qū)分其細(xì)胞類型組成,不同的細(xì)胞類型可能發(fā)揮了特異的生理功能。scRNA-seq成為深入研究不同類型細(xì)胞的轉(zhuǎn)錄本的差異以及細(xì)胞之間的組合的解決方案。目前已經(jīng)有多種方法能夠?qū)崿F(xiàn)單細(xì)胞分離并進(jìn)行scRNA-seq的研究并被大量的應(yīng)用在腫瘤細(xì)胞的轉(zhuǎn)錄組研究中[46-47]。Moffitt等[48]利用 scRNA-seq技術(shù)對(duì)大腦中的不同類型細(xì)胞進(jìn)行鑒定,不僅發(fā)現(xiàn)了之前未知的神經(jīng)元亞型,結(jié)合MERFISH這樣的空間成像技術(shù),還允許對(duì)鑒定出來(lái)的不同類型細(xì)胞的空間分布進(jìn)行研究,明確不同的基因在不同類型的細(xì)胞中表達(dá)差異。
轉(zhuǎn)錄組測(cè)序技術(shù)能夠確定信使RNA(mRNA)和非編碼RNAs(ncRNA)序列和轉(zhuǎn)錄基因的結(jié)構(gòu),并定量的動(dòng)態(tài)表達(dá)每個(gè)轉(zhuǎn)錄本在不同生物學(xué)下的模式條件。隨著測(cè)序技術(shù)的進(jìn)一步發(fā)展,為轉(zhuǎn)錄組的定位和定量的研究提供了多種新的解決方法??傮w來(lái)說(shuō),目前的RNA-seq仍然以基于二代測(cè)序?yàn)橹?,基于三代測(cè)序技術(shù)進(jìn)行RNA-seq成為轉(zhuǎn)錄組學(xué)研究的一個(gè)重要方向。目前的高通量測(cè)序技術(shù)都需經(jīng)過(guò)建庫(kù)過(guò)程,即首先將大量的RNA分子富集后,轉(zhuǎn)化為cDNA測(cè)序文庫(kù),并在建庫(kù)過(guò)程中對(duì)cDNA分子的片段連接上測(cè)序引物接頭和樣本標(biāo)記序列。應(yīng)用最廣泛的Illumina二代測(cè)序平臺(tái),采用邊合成邊測(cè)序的策略,對(duì)建庫(kù)后的分子進(jìn)行雙端測(cè)序或單端測(cè)序。PacBio的單分子實(shí)時(shí)測(cè)序技術(shù),具有讀長(zhǎng)較長(zhǎng)的優(yōu)點(diǎn),能夠進(jìn)行全長(zhǎng)轉(zhuǎn)錄組的研究,特別適合用于發(fā)現(xiàn)新轉(zhuǎn)錄本。根據(jù)實(shí)驗(yàn)?zāi)康暮脱芯繉?duì)象,基于現(xiàn)有的測(cè)序平臺(tái),已經(jīng)可以在整體水平系統(tǒng)地開(kāi)展多種RNA分子的研究,除了全轉(zhuǎn)錄組和全長(zhǎng)轉(zhuǎn)錄本的研究外,單細(xì)胞轉(zhuǎn)錄組的研究是近來(lái)的研究熱點(diǎn)。隨著單細(xì)胞分離以及單分子測(cè)序技術(shù)的發(fā)展,單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)在異質(zhì)性細(xì)胞的轉(zhuǎn)錄組研究中具有廣闊的前景。RNA-seq技術(shù)的發(fā)展為從整體轉(zhuǎn)錄水平,細(xì)致精確地研究轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)與性狀之間的關(guān)系提供了有效手段。