李江 耿立召 許建平
(先正達(dá)生物科技(中國(guó))有限公司,北京 102206)
基因編輯是目前生命科學(xué)研究的一個(gè)熱點(diǎn),CRISPR/Cas9(The clustered regularly interspaced palindromic repeats/CRISPR-associated 9)是基因編輯技術(shù)中的一個(gè)重要工具。目前廣泛使用的CRISPR/Cas9是細(xì)菌和古細(xì)菌的對(duì)抗外源DNA入侵的一種防御系統(tǒng),可將入侵的噬菌體基因組DNA等外源核酸序列切除[1]。自2013年首次報(bào)道CRISPR/Cas9在生物體內(nèi)實(shí)現(xiàn)基因編輯以來(lái)[2-3],由于其操作簡(jiǎn)單,效率高,所以該系統(tǒng)廣泛應(yīng)用于動(dòng)植物,成為藥物開(kāi)發(fā)、疾病治療和農(nóng)作物品質(zhì)改良等領(lǐng)域的一個(gè)重要基因編輯工具,具有廣泛應(yīng)用前景[4]。
基因編輯中所用的CRISPR/Cas9系統(tǒng)屬細(xì)菌II型的CRISPR/Cas9,由Cas9蛋白和引導(dǎo)RNA(Guide RNA,gRNA)兩種分子組成,其中Cas9蛋白是一種依賴于引導(dǎo)RNA分子的核酸切割酶,只有裝載引導(dǎo)RNA后才能激活自身識(shí)別和切割基因組DNA的功能。而引導(dǎo)RNA除激活Cas9活性外,還含有一段與靶基因組DNA反向互補(bǔ)的20 個(gè)核苷酸序列,將Cas9蛋白/引導(dǎo)RNA復(fù)合體定靶向位于目的DNA序列[1]。目前關(guān)于CRISPR/Cas9系統(tǒng)的研究綜述多集中于工作機(jī)理、Cas9蛋白的結(jié)構(gòu)與工作模式,以及CRISPR/Cas9系統(tǒng)的應(yīng)用發(fā)展,而對(duì)CRISPR/Cas9中的引導(dǎo)RNA研究進(jìn)展還缺乏系統(tǒng)性回顧。因此,本文將從引導(dǎo)RNA的結(jié)構(gòu),產(chǎn)生方式以及對(duì)基因編輯頻率的影響這幾個(gè)方面,對(duì)CRISPR/Cas9系統(tǒng)中的引導(dǎo)RNA研究進(jìn)展進(jìn)行綜述。
在細(xì)菌中,CRISPR/Cas9的引導(dǎo)RNA由兩條RNA分子組成,CRISPR RNA(CrRNA)和trans activating CRISPR RNA(TracrRNA)( 圖 1-a)。crRNA的5′端包含20個(gè)堿基與噬菌體基因組DNA互補(bǔ),并由重復(fù)間隔序列串聯(lián)構(gòu)成,轉(zhuǎn)錄成一條長(zhǎng)的RNA分 子(Precursor crRNAs,pre-crRNAs) 后, 經(jīng) 過(guò)RNA 酶III加工過(guò)程產(chǎn)生一系列短的40 nt左右的包含間隔序列的成熟crRNA。tracrRNA 具有與crRNA互補(bǔ)的一段序列,crRNA與tracrRNA結(jié)合形成部分雙鏈互補(bǔ)的兩個(gè)RNA分子復(fù)合體[1]。Cas9蛋白首次在體外證明具有切割功能時(shí)發(fā)現(xiàn)其切割活性是由兩條引導(dǎo)RNA分子參與產(chǎn)生的,只加入CrRNA不 能使Cas9蛋白實(shí)現(xiàn)對(duì)質(zhì)粒DNA的切割,只有再加入TracrRNA時(shí)才能使Cas9體外切割質(zhì)粒DNA,獲得與CRISPR/Cas9體內(nèi)相同的生物學(xué)活性[5]。CrRNA 與TracrRNA 有兩個(gè)RNA分子組成,crRNA 5′端20個(gè)堿基與靶基因互補(bǔ),與crRNA配對(duì)結(jié)合后促進(jìn)CrRNA的成熟。雖然CrRNA與TracrRNA通過(guò)互補(bǔ)序列形成的雙鏈分子與Cas9結(jié)合后產(chǎn)生的基因編輯在原核生物中應(yīng)用較好,但在真核生物中因技術(shù)復(fù)雜難以進(jìn)行應(yīng)用。為了便于操作,科學(xué)家將CrRNA的3′端與TracrRNA的5′端通過(guò)GAAA的核苷酸序列相連,并縮短了雙鏈互補(bǔ)結(jié)合區(qū)域僅保留4個(gè)核苷酸對(duì),形成48 nt的單引導(dǎo)RNA分子(圖1-b),并通過(guò)延長(zhǎng)3′端37個(gè)堿基后(圖1-c),獲得編輯效率很高的單引導(dǎo)RNA分子結(jié)構(gòu)。目前,85nt的單引導(dǎo)RNA序列結(jié)構(gòu)是CRISPR/Cas9在基因編輯中廣泛使用的一個(gè)分子結(jié)構(gòu)[2-3,5-8]。
圖1 引導(dǎo)RNA的序列結(jié)構(gòu)變化[9]
目前關(guān)于引導(dǎo)RNA的結(jié)構(gòu)研究以是以單引導(dǎo)RNA序列為模型獲得。引導(dǎo)RNA的序列可分為兩部分,5′端1-20個(gè)堿基是與目標(biāo)DNA互補(bǔ)的Protospacer序 列, 它 與 PAM(Protospacer adjacent motif)序列共同決定Cas9蛋白目的DNA序列上的定位,在PAM上有的3-4位核苷酸之間產(chǎn)生雙鏈斷裂。Protospacer之后的核苷酸為引導(dǎo)RNA的折疊結(jié)構(gòu)(Scaffold fold),含有多個(gè)RNA二級(jí)結(jié)構(gòu)。在這些RNA二級(jí)結(jié)構(gòu)中,雙鏈互補(bǔ)區(qū)域的14個(gè)堿基由CrRNA與TracrRNA的重復(fù)序列反向互補(bǔ)形成,其中G27、G28、A41、A42、G43和U44不配對(duì)而產(chǎn)生一個(gè)突起(Bulge),突起上游的雙鏈序列稱為下位莖(Lower stem),下游的雙鏈序列成為上位莖(Upper stem)。上位莖下游含有3個(gè)莖環(huán)組成的結(jié)構(gòu),依次為 Nexus,Hairpin1 和 Hairpin2[10-11]。對(duì)引導(dǎo)RNA的二級(jí)結(jié)構(gòu)在不同文章中的命名不完全相同,但對(duì)應(yīng)的結(jié)構(gòu)是一致的。通過(guò)對(duì)Cas9蛋白結(jié)合引導(dǎo)RNA和目標(biāo)DNA序列的形成的晶體結(jié)構(gòu)解析發(fā)現(xiàn),引導(dǎo)的5′端序列與目標(biāo)DNA序列形成的復(fù)合體被Cas9蛋白包裹于充滿負(fù)電荷的多肽內(nèi)部,引導(dǎo)RNA的第10-20個(gè)核苷酸稱為種子序列(Seed region),與模板DNA互補(bǔ)形成有序而牢固的雙鏈結(jié)構(gòu),當(dāng)種子序列存在2個(gè)及以上堿基的與目的DNA序列產(chǎn)生錯(cuò)配時(shí),Cas9蛋白不能與目的DNA序列牢固結(jié)合無(wú)法對(duì)DNA序列產(chǎn)生切割[12]。引導(dǎo)RNA中的反向互補(bǔ)的雙鏈重復(fù)序列結(jié)構(gòu)被Cas9蛋白的識(shí)別結(jié)構(gòu)域(Recognition,REC)和核酸酶結(jié)構(gòu)域(Nuclease,NUC)以序列依賴的方式識(shí)別。此結(jié)構(gòu)中的非互補(bǔ)突起部分及相鄰的核苷酸是Cas9蛋白識(shí)別的核心序列,而末尾的C30∶G39和A32∶U37不被Cas9蛋白識(shí)別而突出于Cas9蛋白表面,提示此部分雙鏈互補(bǔ)序列是經(jīng)RNA酶III加工產(chǎn)生的。引導(dǎo)RNA雙鏈互補(bǔ)結(jié)構(gòu)下游的三個(gè)莖環(huán)結(jié)構(gòu)是穩(wěn)定Cas9蛋白與引導(dǎo)RNA復(fù)合體的重要序列。其中Nexus的序列中有部分核苷酸(52、53和59-61)是被Cas9蛋白的REC結(jié)構(gòu)域和NUC結(jié)構(gòu)域中的1103-1107 位的氨基酸結(jié)合,被PAM激活結(jié)構(gòu)域(PAM-interacting,PI)所識(shí)別,與雙鏈重復(fù)互補(bǔ)序列中的突起結(jié)構(gòu)共同參與激活Cas9蛋白對(duì)PAM序列的識(shí)別,引導(dǎo)RNA打開(kāi)Cas9蛋白的結(jié)構(gòu)去識(shí)別PAM序列[13]。其余兩個(gè)莖環(huán)結(jié)構(gòu)Hairpin1和Hairpin2的大部分序列暴露于Cas9蛋白表面,只有Hairpin1中的63-65、67和Hairpin2中的92位核苷酸被Cas9蛋白的NUC結(jié)構(gòu)域識(shí)別[10],這兩個(gè)莖環(huán)可以提高Cas9蛋白與引導(dǎo)RNA復(fù)合體的穩(wěn)定性,并且這段區(qū)域中的核苷酸能容忍較大范圍的改變,是改造引導(dǎo)RNA的一個(gè)可行區(qū)域[11-12,14]。可見(jiàn),引導(dǎo)RNA的雙鏈復(fù)合體和Nexus是Cas9蛋白行使功能所必需的結(jié)構(gòu),而Hairpin1和Hairpin2以及之間的5個(gè)連接堿基可幫助穩(wěn)定Cas9蛋白與引導(dǎo)RNA及目標(biāo)DAN形成的復(fù)合體,突變將影響Cas9蛋白的切割效率。
引導(dǎo)RNA的序列特征在Type II的 CRISPR-Cas9系統(tǒng)中具有保守性。在Streptococcus和Lactobacillus中分離到的41 種Cas9基因中,盡管Cas9的蛋白序列根據(jù)一致性可分為3組,但引導(dǎo)RNA中CrRNA與TracrRNA反向重復(fù)序列結(jié)合的雙鏈序列高度保守,都存在不配對(duì)的核苷酸突起結(jié)構(gòu)以及相鄰的上下位莖序列,是II型CRISPR/Cas9特有的結(jié)構(gòu)。但核苷酸組成和上下位莖的長(zhǎng)度在不同來(lái)源的Cas9中差異很大,其中較短的下位雙鏈序列長(zhǎng)度保守,較長(zhǎng)的上位雙鏈序列長(zhǎng)度在不同種類的菌中變異較大。但最為保守的部分為TracrRNA的第一個(gè)莖環(huán),甚至在不同菌中都含有高度一致的堿基,如A52和C55與Cas9蛋白的1 103-1 107 位的氨基酸結(jié)合[10]。對(duì)S. thermophiles中的兩個(gè)同源Cas9蛋白Sth1Cas9和Sth3Cas9以及對(duì)應(yīng)的引導(dǎo)RNA序列CRISPR1 sgRNA和CRISPR3 sgRNA進(jìn)行置換,未能檢測(cè)到Sth1Cas9和Sth3Cas9的切割活性。然而當(dāng)CRISPR1 sgRNA含有 CRISPR3 的Protospacer 序列后可以使Sth3 Cas9產(chǎn)生切割活性。進(jìn)一步對(duì)兩種引導(dǎo)RNA的莖環(huán)同時(shí)進(jìn)行互換后發(fā)現(xiàn),人工產(chǎn)生的引導(dǎo)RNA不能使原對(duì)應(yīng)的Cas9蛋白產(chǎn)生切割活性,但使異源的Cas9產(chǎn)生了切割活性。而只互換其中的一個(gè)莖環(huán)不足以產(chǎn)生這種效果[10]。說(shuō)明引導(dǎo)RNA的序列結(jié)構(gòu)在不同類型的CRISPR/Cas9中具有獨(dú)特性,表明CRISPR/Cas9系統(tǒng)進(jìn)化具有不同的分支;也表明引導(dǎo)RNA對(duì)CRISPR/Cas9系統(tǒng)發(fā)揮功能具有非常重要的決定作用。
引導(dǎo)RNA在細(xì)菌和古細(xì)菌中由體內(nèi)的RNA 轉(zhuǎn)錄系統(tǒng)產(chǎn)生,但在CRISPR/Cas9應(yīng)用于基因編輯技術(shù)時(shí),需要在體內(nèi)表達(dá)人工設(shè)計(jì)的引導(dǎo)RNA,引導(dǎo)RNA的5′端1-20個(gè)核苷酸對(duì)應(yīng)目的DNA序列不同而做改變,使Cas9蛋白在特定預(yù)期位點(diǎn)產(chǎn)生切割。引導(dǎo)RNA的產(chǎn)生是CRISPR/Cas9基因編輯技術(shù)中的重要過(guò)程,引導(dǎo)RNA需要滿足以下要求:(1)引導(dǎo)RNA保持在細(xì)胞核內(nèi)。(2)產(chǎn)生的引導(dǎo)RNA的5′端不能有與目的序列不配對(duì)的多個(gè)額外核苷酸。針對(duì)不同的基因編輯需求,CRISPR/Cas9的引導(dǎo)RNA有不同的產(chǎn)生方式,會(huì)對(duì)最終基因的編輯效果產(chǎn)生顯著影響。
CRISPR/Cas9人工構(gòu)建的引導(dǎo)RNA的5′端1-20核苷酸與靶DNA序列互補(bǔ),不能有額外的多個(gè)核苷酸序列,因此引導(dǎo)RNA最初都是由聚合酶III型啟動(dòng)子(Pol III promoter)轉(zhuǎn)錄產(chǎn)生。在植物過(guò)表達(dá)技術(shù)中應(yīng)用廣泛的II 型啟動(dòng)子是一類表達(dá)強(qiáng),在基因過(guò)表達(dá)中廣泛使用的一類生物體內(nèi)源啟動(dòng)子,如CaMV 35S 啟動(dòng)子、玉米泛素啟動(dòng)子(Ubiquitin)啟動(dòng)子等。但這類啟動(dòng)子轉(zhuǎn)錄的RNA是前體結(jié)構(gòu),如mRNA 前體,microRNA前體和一些小的核RNA前體等,這些非成熟的RNA前體會(huì)經(jīng)過(guò)體內(nèi)加工系統(tǒng),實(shí)現(xiàn)5′ 加帽和3′加尾,并且切除內(nèi)含子。因此II型啟動(dòng)子不能用于CRISPR/Cas9系統(tǒng)中引導(dǎo)RNA的轉(zhuǎn)錄[15]。III型啟動(dòng)子是轉(zhuǎn)錄5s RNA,tRNA和小的非編碼RNA的啟動(dòng)子。在CRISPR/Cas9中常用的Pol III啟動(dòng)子有U3和U6兩類,在哺乳動(dòng)物細(xì)胞中產(chǎn)生引導(dǎo)RNA為U6,在植物中產(chǎn)生引導(dǎo)RNA為U3和U6,U3和U6啟動(dòng)子在轉(zhuǎn)錄引導(dǎo)RNA產(chǎn)生基因編輯的頻率上沒(méi)有差別[2-3,6,16]。U3 啟動(dòng)子的轉(zhuǎn)錄產(chǎn)物第一個(gè)堿基固定是A,而U6啟動(dòng)子的轉(zhuǎn)錄產(chǎn)物第一個(gè)堿基固定是G,因此引導(dǎo)RNA的5′端序列需根據(jù)U3或U6的使用進(jìn)行調(diào)整,如5′GN(19)NGG 和 5′AN(19)NGG[17]。在使用 Pol III啟動(dòng)子轉(zhuǎn)錄產(chǎn)生引導(dǎo)RNA時(shí),通常一個(gè)U3或U6啟動(dòng)子只能產(chǎn)生一個(gè)引導(dǎo)RNA分子去實(shí)現(xiàn)一個(gè)靶位點(diǎn)的切割。當(dāng)需要產(chǎn)生多個(gè)引導(dǎo)RNA時(shí),需要將這類啟動(dòng)子重復(fù)使用去驅(qū)動(dòng)多個(gè)引導(dǎo)RNA產(chǎn)生[18]。
U3和U6啟動(dòng)子在CRISPR/Cas9基因編輯中廣泛用于引導(dǎo)RNA的轉(zhuǎn)錄,但具有一定的局限性。U3和U6啟動(dòng)子是組成型表達(dá)啟動(dòng)子,不具備組織特異性表達(dá),這導(dǎo)致引導(dǎo)RNA的產(chǎn)生無(wú)法在時(shí)空上進(jìn)行調(diào)節(jié),不能實(shí)現(xiàn)條件誘導(dǎo)性的基因編輯。生物體內(nèi)的U3和U6啟動(dòng)子分布廣、種類多,不同種屬之間序列差異大,同一物種中的啟動(dòng)子活性也不同。啟動(dòng)子的有些調(diào)控元件位于轉(zhuǎn)錄起始位點(diǎn)下游內(nèi),容易導(dǎo)致克隆的啟動(dòng)子序列不完整,影響啟動(dòng)子活性[15]。近來(lái)也有研究報(bào)道通過(guò)RNA聚合酶II型啟動(dòng)子轉(zhuǎn)錄一條包含Cas9 和引導(dǎo)RNA的轉(zhuǎn)錄本,這條轉(zhuǎn)錄本中的引導(dǎo)RNA可被RNaseIII途徑加工后,與Cas9結(jié)合在水稻中產(chǎn)生高頻率的基因編輯活性[19-20]。
當(dāng) CRISPR/Cas9要對(duì)體內(nèi)多個(gè)靶點(diǎn)實(shí)現(xiàn)基因編輯時(shí),需要產(chǎn)生多個(gè)引導(dǎo)RNA與目的序列位點(diǎn)結(jié)合。多個(gè)引導(dǎo)RNA的產(chǎn)生最早是用U3或U6啟動(dòng)子交替重復(fù)使用,每個(gè)啟動(dòng)子對(duì)自身下游的引導(dǎo)RNA序列進(jìn)行轉(zhuǎn)錄。采用此策略在水稻和擬南芥中可同時(shí)分別轉(zhuǎn)錄6個(gè)引導(dǎo)RNA產(chǎn)生,獲得16%的純和突變體的靶位點(diǎn)編輯頻率[21]。雖然這個(gè)方法可以得到多個(gè)靶位點(diǎn)的突變體,但利用U3/U6重復(fù)表達(dá)多個(gè)引導(dǎo)RNA有以下不足:(1)由于引導(dǎo)RNA長(zhǎng)度很短,并且要求引導(dǎo)RNA的5′末端為A/G,3′末端需要為5個(gè)及以上的poly(T)作為終止信號(hào),克隆構(gòu)建策略有限,無(wú)論是采用DNA合成還是多個(gè)片段拼接,引導(dǎo)RNA轉(zhuǎn)錄單元串聯(lián)的載體十分具有挑戰(zhàn)性。目前文章報(bào)道采用的策略均在Golden Gate的技術(shù)上做改進(jìn),最多可將5個(gè)引導(dǎo)RNA表達(dá)單元裝入一個(gè)載體,而6個(gè)以上的引導(dǎo)RNA表達(dá)單元組裝效率很低[16]。(2)串聯(lián)重復(fù)的引導(dǎo)RNA表達(dá)單元包含啟動(dòng)子后在300-600個(gè)堿基左右,其中只有與目的基因序列互補(bǔ)的20 個(gè)堿基作為Protospacer有變化,其余序列均為重復(fù)序列。過(guò)多的重復(fù)序列容易造成載體在細(xì)菌和農(nóng)桿菌中的不穩(wěn)定。(3)由于多引導(dǎo)RNA轉(zhuǎn)錄結(jié)構(gòu)的串聯(lián),容易在植物體內(nèi)誘發(fā)基因沉默,造成引導(dǎo)RNA的低水平或不表達(dá)。以上這些因素使U3或U6啟動(dòng)子重復(fù)使用產(chǎn)生多個(gè)引導(dǎo)RNA的基因編輯技術(shù)存在很大的挑戰(zhàn)[21]。
近年來(lái),多個(gè)引導(dǎo)RNA的產(chǎn)生是CRISPR/Cas9基因編輯技術(shù)中的一個(gè)研究熱點(diǎn)。在生物體內(nèi)存在可以從一個(gè)RNA轉(zhuǎn)錄本中產(chǎn)生多個(gè)RNA分子的機(jī)制,如多順?lè)醋觤RNA前體在轉(zhuǎn)錄后加工過(guò)程中被RNA酶剪切后可產(chǎn)生多個(gè)獨(dú)立的引導(dǎo)RNA分子。因此,可以利用生物體內(nèi)的RNA剪切加工過(guò)程從一個(gè)RNA轉(zhuǎn)錄本中同時(shí)產(chǎn)生多個(gè)引導(dǎo)RNA分子。目前報(bào)道在CRISPR/Cas9系統(tǒng)中利用3種RNA剪切過(guò)程實(shí)現(xiàn)多個(gè)引導(dǎo)RNA的產(chǎn)生:來(lái)源于Pseudomonas aeruginosa的Csy4的RNA切割酶,tRNA序列介導(dǎo)的內(nèi)源RNA酶剪切和病毒來(lái)源的核酶剪切系統(tǒng)。Csy4作為外源RNA切割酶,多個(gè)引導(dǎo)RNA被其20個(gè)核苷酸的識(shí)別序列間隔開(kāi),Csy4識(shí)別這段序列并切割間隔序列的3′末端,可釋放兩個(gè)Csy4識(shí)別序列之間的引導(dǎo)RNA分子,產(chǎn)生的引導(dǎo)RNA的5′端沒(méi)有額外核苷酸存在而3′端帶有Csy4的20nt的識(shí)別序列[22]。2017年,有研究將Csy4通過(guò)2A肽與Cas9蛋白融合表達(dá),引導(dǎo)RNA通過(guò)Csy4識(shí)別序列串聯(lián),可在體內(nèi)通過(guò)能從一個(gè)RNA轉(zhuǎn)錄本上同時(shí)產(chǎn)生12個(gè)引導(dǎo)RNA分子[23]。生物體內(nèi)還存在一類tRNA加工的RNA 剪切加工系統(tǒng),常用的是tRNAGly是一段77nt 的核苷酸形成的一個(gè)包含3個(gè)莖環(huán)結(jié)構(gòu)的一段RNA序列,其5′端含有一個(gè)RnaseP的識(shí)別切割位點(diǎn),3′端含有一個(gè)RnazeZ的識(shí)別切割位點(diǎn),在體內(nèi)通過(guò)內(nèi)源核酸酶將tRNA序列的兩個(gè)位點(diǎn)切割從而釋放引導(dǎo)RNA。當(dāng)多個(gè)引導(dǎo)RNA通過(guò)在5′和3′端連接有77 nt 的tRNA序列進(jìn)行串聯(lián)時(shí),核酸酶加工切割過(guò)程可從一個(gè)RNA分子上釋放多個(gè)引導(dǎo)RNA,產(chǎn)生的引導(dǎo)RNA的3′端經(jīng)RNaseZ切割后殘留6個(gè)tRNA序列的核苷酸而5′不含額外的核苷酸[24-25]。tRNAGly序列在動(dòng)植物中均存在,介導(dǎo)的多個(gè)引導(dǎo)RNA轉(zhuǎn)錄釋放技術(shù)在CRISPR/Cas9技術(shù)中得到了廣泛使用,通過(guò)此方法實(shí)現(xiàn)了同時(shí)對(duì)動(dòng)植物體內(nèi)多個(gè)位點(diǎn)進(jìn)行基因編輯,有報(bào)道最多可一次產(chǎn)生8個(gè)引導(dǎo)RNA分子[23]。此外,與tRNAGly序列釋放引導(dǎo)RNA的過(guò)程類似,在引導(dǎo)RNA的5′端和3′端各加上一種核酶序列,5′端是Hammerhead(HH)type ribozyme,3′端 是 Hepatitis delta virus(HDV)ribozyme,這種結(jié)構(gòu)形成的引導(dǎo)RNA分子稱為 RGR(Ribozyme-gRNA-Ribozyme,RGR)。RGR可利用核酶序列間隔,將多個(gè)引導(dǎo)RNA分子串聯(lián)轉(zhuǎn)錄后,引導(dǎo)RNA兩側(cè)的核酶序列被體內(nèi)核酸酶識(shí)別并切除,從而釋放有活性的引導(dǎo)RNA分子,但這兩種核酶的切割活性較tRNA結(jié)構(gòu)要低很多[23],并且在需要引入動(dòng)物病毒的核酶序列,在植物應(yīng)用中有很大局限。但tRNA結(jié)構(gòu)不同,這兩種核酶在SP6啟動(dòng)子介導(dǎo)的體外轉(zhuǎn)錄過(guò)程中,可被SP6 RNA聚合酶在轉(zhuǎn)錄過(guò)程中識(shí)別并切除[26]。
以上3種策略中,Csy4和tRNA介導(dǎo)的多個(gè)引導(dǎo)RNA在體內(nèi)產(chǎn)生并實(shí)現(xiàn)多靶位點(diǎn)的基因編輯頻率相當(dāng),而遠(yuǎn)遠(yuǎn)高于HH ribozyme和HDV ribozyme核酶產(chǎn)生的引導(dǎo)RNA。有報(bào)道表明Csy4核酸酶不會(huì)對(duì)植物體產(chǎn)生負(fù)表型影響,而且Csy4的識(shí)別序列只有20個(gè)核苷酸,遠(yuǎn)短于tRNA的77個(gè)核苷酸序列,有利于載體的構(gòu)建和穩(wěn)定[23]。tRNA的切割加工是生物體的一個(gè)基本活性過(guò)程,因此tRNA介導(dǎo)的多個(gè)引導(dǎo)RNA的產(chǎn)生可廣泛用于動(dòng)植的基因編輯,是多位點(diǎn)CRISPR/Cas9基因編輯的一個(gè)研究熱點(diǎn)[15,23-25]。而 HH ribozyme 和 HDV ribozyme核酶能被SP6識(shí)別并切割,因此更適用于體外轉(zhuǎn)錄產(chǎn)生多個(gè)引導(dǎo) RNA 的應(yīng)用[15,26]。
在CRISPR/Cas9基因編輯技術(shù)中,Cas9和引導(dǎo)RNA可以在體外產(chǎn)生后組裝成蛋白核酸復(fù)合體(Ribonucleoproteins,RNPs),導(dǎo)入細(xì)胞體內(nèi)實(shí)現(xiàn)靶位點(diǎn)DNA編輯。體外產(chǎn)生引導(dǎo)RNA主要由用商品化的T7體外轉(zhuǎn)錄試劑完成,引導(dǎo)RNA的DNA序列5′端含有T7啟動(dòng)子序列和轉(zhuǎn)錄起始位點(diǎn)[27-28]。體外轉(zhuǎn)錄的引導(dǎo)RNA可以是單分子形式,也可以是CrRNA和TracrRNA兩個(gè)分子。引導(dǎo)RNA也由化學(xué)合成的方法在體外產(chǎn)生,常用的方法是固相基質(zhì)上如利用 2′-silyl,2′-bis-methylther等化學(xué)合成方法。但單引導(dǎo)RNA的分子長(zhǎng)度接近100個(gè)核苷酸,合成的成本和難度大,因此通常采用CrRNA和TracrRNA兩個(gè)分子的形式[29]。
CRISPR/Cas9雖然廣泛應(yīng)用于各種動(dòng)植物體的基因編輯,但在一些生物體中仍存在效率低的問(wèn)題,如小麥等[30]。此外,同源重組介導(dǎo)的核苷酸定點(diǎn)插入和替換的效率依賴于Cas9的切割效率。群體中足夠多的雙鏈斷裂(Double strand break,DSB)是實(shí)現(xiàn)同源重組的必要條件,而引導(dǎo) RNA 5′端的序列結(jié)構(gòu)是影響同源重組效率的另一因素[31]。因此,提高CRISPR/Cas9的基因編輯效率對(duì)這項(xiàng)技術(shù)的廣泛和深入應(yīng)用有重要意義。引導(dǎo)RNA作為CRISPR/Cas9的重要組成之一,引導(dǎo)RNA的序列、高級(jí)結(jié)構(gòu)以及表達(dá)方式對(duì)CRISPR/Cas9的基因編輯效率有顯著影響[32]。
引導(dǎo)RNA的序列由與目標(biāo)DNA序列互補(bǔ)的Protospacer和Scaffold 兩部分組成。5′端的1-20個(gè)核苷酸是與目標(biāo)序列互補(bǔ)的一段序列,其中的核苷酸組成會(huì)影響基因編輯效率,當(dāng)G和C出現(xiàn)頻率高而A出現(xiàn)頻率低,尤其是GC含量高于50%時(shí),可以提高引導(dǎo)RNA序列與靶基因序列位點(diǎn)結(jié)合的穩(wěn)定性,提高Cas9的切割效率;尤其是靠近靶序列的PAM位點(diǎn)的核苷酸中,20位核苷酸偏好G而避免C,19位核苷酸避免C時(shí),可顯著提高引導(dǎo)RNA產(chǎn)生的編輯效率。此外,引導(dǎo)RNA通常由RNA聚合酶III型的U3或U6啟動(dòng)子轉(zhuǎn)錄產(chǎn)生,RNA序列中連續(xù)4個(gè)及以上的尿嘧啶將成為這類啟動(dòng)子的終止信號(hào),可導(dǎo)致轉(zhuǎn)錄的提前終止[33]。在引導(dǎo)RNA內(nèi)部位于Lower stem的第23-26位4個(gè)連續(xù)尿嘧啶序列UUUU[23,26-30]是U3或U6啟動(dòng)子潛在的終止信號(hào),當(dāng)這四個(gè)尿嘧啶分別被突變?yōu)锳,C,G時(shí),均可提高CRISPR/Cas9的基因編輯效率,尤其是突變?yōu)镃和G時(shí)較A的基因編輯效率高很多;并且第26位的尿嘧啶突變?yōu)镃時(shí),提高的編輯效率較其他3位的突變最為明顯[9]。這種優(yōu)化的引導(dǎo)RNA序列在水稻基因編輯中得到了應(yīng)用[14]。
引導(dǎo)RNA的二級(jí)結(jié)構(gòu)是被Cas9蛋白識(shí)別并產(chǎn)生功能的重要序列。利用熒光探針淬滅技術(shù)研究不同序列缺失的引導(dǎo)RNA與Cas9蛋白體外結(jié)合時(shí)發(fā)現(xiàn),缺失第一個(gè)莖環(huán)(Nexus)將導(dǎo)致Cas9蛋白不能結(jié)合引導(dǎo)RNA,這與Cas9蛋白結(jié)合引導(dǎo)RNA的晶體結(jié)構(gòu)相吻合,缺失第2個(gè)莖環(huán)(Hairpin1)和第3個(gè)莖環(huán)(Hairpin2)時(shí),Cas9蛋白結(jié)合引導(dǎo)RNA的效率要降低很多,尤其是與總RNA共同混合時(shí)尤其明顯。說(shuō)明引導(dǎo)RNA的二級(jí)結(jié)構(gòu)是CRISPR/Cas9產(chǎn)生基因編輯的重要部分,還對(duì)引導(dǎo)RNA在細(xì)胞內(nèi)特異性被Cas9蛋白識(shí)別結(jié)合有作用[34]。應(yīng)用于CRISPR/Cas9基因編輯系統(tǒng)中人工創(chuàng)造的引導(dǎo)RNA序列中,雙鏈互補(bǔ)區(qū)的序列比天然crRNA:tracrRNA的雙鏈互補(bǔ)區(qū)截短了10個(gè)堿基對(duì),目前關(guān)于引導(dǎo)RNA二級(jí)結(jié)構(gòu)優(yōu)化提高CRISRP/Cas9基因編輯效率的研究集中在這部分序列。當(dāng)延長(zhǎng)這部分序列從1、3、5、8和10個(gè)堿基對(duì)時(shí),發(fā)現(xiàn)延長(zhǎng)5個(gè)堿基對(duì)時(shí)引導(dǎo)RNA的基因編輯效率可達(dá)到最大[9,35]。在水稻中,延長(zhǎng)雙鏈結(jié)合區(qū)5個(gè)堿基對(duì)并疊加第26位的尿嘧啶突變?yōu)镃時(shí),這種類型的引導(dǎo)RNA結(jié)構(gòu)比現(xiàn)有序列的基因編輯提高13倍[14]。此外,對(duì)引導(dǎo)RNA的3′端添加G3U3或G2U1的特定核苷酸序列,通過(guò)提高引導(dǎo)RNA在體內(nèi)的穩(wěn)定性而提高CRISPR/Cas9的切割效率并降低脫靶率[36]。
在CRISPR/Cas9基因編輯中,引導(dǎo)RNA通常由RNA聚合酶III型轉(zhuǎn)錄產(chǎn)生,但由于這類啟動(dòng)子的強(qiáng)度較常用的II型啟動(dòng)子強(qiáng)度低,限制了CRISPR/Cas9的編輯效率。在多引導(dǎo)RNA產(chǎn)生中發(fā)展來(lái)的幾種多順?lè)醋覴NA切割系統(tǒng),可以使引導(dǎo)RNA的5′端不受RNA聚合酶III啟動(dòng)子限制,而是用強(qiáng)度更大的RNA聚合酶II型啟動(dòng)子轉(zhuǎn)錄引導(dǎo)RNA。在番茄原生質(zhì)體中,用CmYLCV(Cestrum Yellow Leaf Curling Virus promoter)啟動(dòng)子驅(qū)動(dòng)tRNAGly和Csy4介導(dǎo)的兩種引導(dǎo)RNA轉(zhuǎn)錄,對(duì)黃色熒光蛋白(Yellow fluorescent protein,YFP)的編輯效率比U6啟動(dòng)子驅(qū)動(dòng)的引導(dǎo)RNA要高2倍[21]。考慮到RNA聚合酶II型啟動(dòng)子的35S 和Ubiquitin啟動(dòng)子常用于驅(qū)動(dòng)Cas9表達(dá)盒,為了避免載體含有重復(fù)的大片段,目前有多個(gè)RNA聚合酶II型啟動(dòng)子以供引導(dǎo)RNA轉(zhuǎn)錄,除前文提到的植物病毒來(lái)源的CmYLCV啟動(dòng)子,還有細(xì)菌來(lái)源的M24和Nos以及植物來(lái)源的 AtUbi10,OsAct1,PvUbi1和 PvUbi2等, 甚 至有組織特異性的啟動(dòng)子如Arabidopsis Ec1.2 和YAO promoter可供引導(dǎo)RAN實(shí)現(xiàn)植物卵細(xì)胞,囊胚和花粉中的特異表達(dá)[21,37]。
CRISPR/Cas9系統(tǒng)作為基因編輯重要的一個(gè)工具,已經(jīng)廣泛用于各種生物體的特定核苷酸的缺失和改變,以及特定基因的轉(zhuǎn)錄調(diào)控等。引導(dǎo)RNA作為CRISPR/Cas9系統(tǒng)中的核心元件之一,對(duì)其序列和結(jié)構(gòu)的研究不僅加深人們認(rèn)識(shí)CRISPR/Cas9的自然分類、工作原理,而且為CRISPR/Cas9系統(tǒng)的優(yōu)化和拓展具有重要價(jià)值[38-39]。最近報(bào)道在引導(dǎo)RNA的3′端添加用于同源重組介導(dǎo)的RNA形式的供體序列,在Cas9蛋白產(chǎn)生的雙鏈斷裂缺口處完成供體RNA鏈與目的DNA序列鏈的置換,可以大幅提高核苷酸的定點(diǎn)編輯的效率[40]。此外,引導(dǎo)RNA的保守序列部分為新CRISPR-Cas系統(tǒng)的發(fā)掘提供重要的信息和證據(jù)[41]。