摘要:DNA數(shù)據(jù)存儲已成為一種利用脫氧核糖核苷酸作為存儲介質(zhì)來存儲大量數(shù)據(jù)的解決方案。與閃存和硬盤驅(qū)動器等傳統(tǒng)存儲介質(zhì)相比,DNA具有極高的存儲密度、較長的保存壽命和較低的維護成本。DNA數(shù)據(jù)存儲包括以下步驟:編碼、DNA合成(即寫入)、保存、檢索、DNA測序(即讀?。┖徒獯a。在過去的十年來,利用DNA材料存儲數(shù)據(jù)取得了快速發(fā)展,在本篇綜述中,提供了DNA數(shù)據(jù)存儲的整個過程,介紹了每個步驟的最新進展,最后,對DNA數(shù)據(jù)存儲未來發(fā)展方向進行了展望。
關(guān)鍵詞:DNA存儲;DNA納米技術(shù);DNA合成;DNA序列
中圖分類號:Q819 文獻標識碼:A
文章編號:1009-3044(2024)32-0077-03 開放科學(xué)(資源服務(wù))標識碼(OSID) :
0 引言
隨著數(shù)據(jù)生成速度的不斷加快,預(yù)計到2025年全球數(shù)字數(shù)據(jù)量將達到175澤字節(jié) (ZB)[1],在不斷變化的數(shù)據(jù)存儲需求的驅(qū)動下,到目前為止,已經(jīng)開發(fā)了從磁帶到閃存的幾代存儲介質(zhì),目的是在控制成本的同時提高性能、可靠性、耐用性和存儲容量[2]。由于當前存儲介質(zhì)的最大密度為103 GB/mm3,傳統(tǒng)存儲方法難以跟上步伐。脫氧核糖核酸(DNA)正在成為一種新的替代存儲技術(shù)。
DNA作為天然的信息載體,由四種堿基組成,分別是腺嘌呤(A) 、鳥嘌呤(G) 、胞嘧啶(C) 和胸腺嘧啶(T) 。堿基通過氫鍵配對,形成雙螺旋結(jié)構(gòu)中的堿基對,其中,A與T配對,C與G配對。DNA數(shù)據(jù)存儲有許多優(yōu)點,比如,存儲密度較高、存儲壽命長、維護成本低等。早在2013 年,理論估計就表明每克單鏈DNA可以存儲0.455ZB的數(shù)據(jù)[3],因此1千克 DNA可以存儲世界上所有的數(shù)據(jù)[4]。此外,研究表明,在合適的存儲介質(zhì)中,DNA可以保存高達200萬年[5]。隨著測序技術(shù)的爆炸式增長,目前可以以最快的速度讀取DNA序列,這使得DNA成為理想的存儲介質(zhì)。
1 DNA 存儲流程
DNA數(shù)據(jù)存儲按保存方式可以分為體內(nèi)存儲和體外存儲,體內(nèi)存儲是將數(shù)據(jù)編碼到活細胞的DNA 中,通過轉(zhuǎn)基因技術(shù)將合成的DNA片段插入到生物體(如細菌、酵母或植物等)內(nèi),這樣生物體就可以攜帶和復(fù)制這些數(shù)據(jù)。體外存儲是將數(shù)據(jù)編碼到合成的DNA片段中,并在實驗室條件下保存這些DNA序列。與體內(nèi)存儲不同,體外存儲不依賴于活細胞,而是利用合成和純化的DNA分子進行數(shù)據(jù)存儲。而如果按數(shù)據(jù)的存儲策略分,DNA數(shù)據(jù)存儲可以分為基于DNA 序列的方案和基于DNA納米技術(shù)的方案,基于DNA 序列的方案是將數(shù)字數(shù)據(jù)直接編碼到DNA的堿基序列中,通過合成和測序技術(shù)實現(xiàn)數(shù)據(jù)的存儲和讀取?;贒NA納米技術(shù)的方案是利用DNA的納米結(jié)構(gòu)和自組裝特性,將數(shù)據(jù)存儲在復(fù)雜的DNA納米結(jié)構(gòu)中,通過控制DNA分子的空間排列和相互作用來實現(xiàn)數(shù)據(jù)存儲和讀取。
1.1 編碼
編碼是DNA數(shù)據(jù)存儲最初的步驟,是指利用計算機編碼算法,將數(shù)字信息映射到DNA中的過程,不同的編碼方式直接影響DNA 數(shù)據(jù)存儲的編碼容量。2012年,Church等人提出了一種二進制轉(zhuǎn)換方法[6],將每位數(shù)據(jù)用一個堿基表示(A或C代表0,G或T代表1) ,他們的編碼方式為DNA數(shù)據(jù)存儲技術(shù)打下了堅實的基礎(chǔ),并推動了該領(lǐng)域的應(yīng)用和研究。2013年歐洲Goldman 團隊提出了三進制霍夫曼編碼[3],編碼后的文件還原率超過99.99%。2017年,哥倫比亞大學(xué)Erlich等人采用了DNA噴泉編碼方案[7],該方案可以從給定的一組源數(shù)據(jù)包中生成無限的編碼符號序列,理想情況下只需要比原始文件液滴總量稍多一點就可以恢復(fù)源數(shù)據(jù)信息,該方案實現(xiàn)了每克 DNA0.215EB極高的存儲密度。2019年,Anavy等人提出了一種使用復(fù)合DNA字母的編碼方案[8],該方案利用合成和測序信息的冗余來編碼和減少DNA合成周期,通過使用復(fù)合DNA 字母增加了DNA 存儲的邏輯密度。2020年,Yi Zhang等人開發(fā)了一種優(yōu)化后的Base64方案[9],該方案通過將一些隨機數(shù)據(jù)信息編碼成一個DNA序列,然后合成對應(yīng)的DNA分子,在轉(zhuǎn)碼過程中有效地解決了GC含量和連續(xù)堿基問題,該方案存儲密度高達1.77位/堿基。Zhi Ping等人提出了陰陽編碼方案[10],該方案使用特定的規(guī)則將2個二進制位編碼為一個堿基,實驗表明,該方案對多種數(shù)據(jù)類型都有較高的魯棒性。
DNA數(shù)據(jù)存儲在編碼的同時需要滿足生物化學(xué)約束,通常,合成DNA鏈長不超過150-300 nts長度,可以有效降低錯誤率,對于更長的序列,合成誤差呈指數(shù)增長。因此,為了減少出錯的可能性,需要將要合成的DNA序列切成短片。因此,任何DNA數(shù)據(jù)存儲編碼算法都應(yīng)當遵循生物化學(xué)約束限制,這樣可以盡可能地減少測序過程出現(xiàn)錯誤的可能。除此之外,為了實現(xiàn)可靠的解碼,還需要在編碼數(shù)據(jù)中引入一些冗余,以便進行錯誤檢測和糾正。
1.2 寫入
將數(shù)據(jù)編碼完成后,需要采用適當?shù)姆椒▽⒕幋a后的數(shù)據(jù)存儲到DNA中,目前有兩種寫入方案,一種是基于DNA序列的寫入,另外一種是基于DNA納米技術(shù)的寫入[11]。近年來,隨著DNA納米技術(shù)的快速發(fā)展,如體外DNA修飾和DNA折紙技術(shù),使得將數(shù)據(jù)存儲到DNA納米結(jié)構(gòu)中變得越來越可行。將信息寫入DNA序列可以通過DNA的合成來實現(xiàn),其中化學(xué)合成是體外最常用的方法[12]。1981年,Caruthers首次描述了寡核苷酸合成的固相亞磷酰胺方法[13]。在這種方法中,每個攜帶堿基的亞磷酰胺單體被用作合成單元,單體經(jīng)歷一系列化學(xué)反應(yīng),通過受控方式延長核苷酸鏈。到目前為止,這仍然是DNA化學(xué)合成的標準方案。
1.3 DNA 保存
數(shù)據(jù)長期存儲的可靠性與存儲介質(zhì)的壽命息息相關(guān),目前的存儲介質(zhì),包括磁性、光學(xué)和電氣存儲設(shè)備,使用壽命通常有限,從幾十年到150年不等。在理想條件下,DNA的穩(wěn)定性比傳統(tǒng)的存儲介質(zhì)高,但是,在特定因素下,DNA極易受到影響,如電離輻射、紫外線照射、DNA酶等因素,這些因素主要通過導(dǎo)致鏈斷裂、水解損傷和核堿基修飾來改變DNA的完整性。因此,設(shè)計相應(yīng)的保存方法來延長DNA 的壽命非常重要。
目前,保存DNA的方法主要有三種,脫水、封裝和體內(nèi)保存。水會加速DNA的水解,進而損害DNA的穩(wěn)定性,因此脫水會使DNA延長壽命,有研究表明,干燥下的DNA比在溶液中的DNA更穩(wěn)定[14],并且在室溫下可以穩(wěn)定保存數(shù)年[15]。然而長期存儲所需高昂成本遠遠超過了其所帶來的好處。在其他脫水方法中,比如將DNA存儲在乙醇中[10],也被證明可以長期保存DNA樣本。將DNA封裝在無機基質(zhì)中也是長期保存DNA樣本的方式之一,二氧化硅是封裝DNA最常用的材料,有研究表明,二氧化硅可以保護DNA避免受熱和氧化等環(huán)境因素影響,從而提高DNA的穩(wěn)定性,在9.4攝氏度下將帶有編碼數(shù)據(jù)的DNA封裝到二氧化硅下,DNA的壽命可延長至2000年[16]。然而,封裝對于DNA存儲也有明顯的缺點,將DNA封裝到無機基質(zhì)中,存儲密度會顯著降低。迄今為止,通過優(yōu)化組合的方式,通過二氧化硅封裝最佳的存儲密度為3.4wt%[17]。除此之外,把帶有編碼數(shù)據(jù)的DNA保存到生物體內(nèi)也是一種可行的DNA保存策略,可以將包含數(shù)據(jù)的DNA片段組裝成人工染色體,或加載到質(zhì)粒中,然后將其存儲到酵母或細菌中。由于在生物體內(nèi)具有高保真度的DNA復(fù)制,存儲有數(shù)字數(shù)據(jù)的DNA 在生物體內(nèi)擴增比其他體外擴增方法更準確、更高效。最初,在2003年,人們證明數(shù)字數(shù)據(jù)可以存儲在細菌中,盡管當時存儲的數(shù)據(jù)量比較少[18]。隨著DNA 合成技術(shù)的高速發(fā)展,有研究表明利用CIRSPR/Cas 技術(shù),可以將帶有編碼數(shù)據(jù)的DNA直接存儲在細菌群體的基因組中[19]??偠灾糜诒4鎺в袛?shù)字信息DNA的方法多種多樣,目前體內(nèi)信息存儲對于DNA 存儲來說是可行的。
1.4 隨機訪問
隨機訪問是指從大型存儲池中高效、快速地檢索請求的數(shù)據(jù),從DNA池中選擇特定DNA數(shù)據(jù)集的步驟,是存儲的系統(tǒng)的關(guān)鍵要素,在傳統(tǒng)的存儲介質(zhì)中使用尋址方案和數(shù)據(jù)索引的方式實現(xiàn)隨機訪問相對比較簡單,但是在DNA存儲系統(tǒng)中,要實現(xiàn)隨機訪問面臨著巨大的挑戰(zhàn),當在存儲系統(tǒng)中頻繁訪問數(shù)據(jù)時,隨機訪問尤為重要。目前,在DNA數(shù)據(jù)存儲系統(tǒng)中隨機訪問已取得了重大進展,對于基于DNA序列的數(shù)據(jù)存儲,已經(jīng)證明使用PCR擴增的方法可以實現(xiàn)隨機訪問。相比之下,對于基于DNA納米技術(shù)的數(shù)據(jù)存儲,隨機訪問尚未取得很好的發(fā)展。
PCR是DNA序列存儲中隨機訪問的主要方法,通過引入正交引物對,可以方便、多路復(fù)用的方式提取具有獨特引物的數(shù)據(jù)集,使用與目標序列側(cè)翼區(qū)域結(jié)合的引物,PCR只能擴增所需的目標區(qū)域,從而能夠更準確地檢索編碼數(shù)據(jù),從而減少數(shù)字信息解碼過程中的錯誤。Kashiwamura等人引入嵌套引物分子記憶(NPMM)[20],將數(shù)據(jù)分成特定的DNA序列,稱為使用引物地址位點尋址的數(shù)據(jù)塊,通過指定地址引物的順序,實現(xiàn)特定的數(shù)據(jù)訪問。SM Yazdi等人使用兩側(cè)為地址塊的1 000 bps數(shù)據(jù)塊[21],通過使用PCR選擇性的檢索信息,該方案能夠隨機訪問數(shù)據(jù)塊并重寫存儲在塊內(nèi)任意位置的信息。Organick L等人在超過1.3×107個DNA 寡核苷酸中編碼并存儲了35 個不同的文件[22],使用隨機訪問方法可以單獨恢復(fù)每一個文件,數(shù)據(jù)量超過了200 MB。
1.5 DNA 測序
數(shù)據(jù)被檢索后,就可以準確、完整地讀取。讀取技術(shù)的可靠性對于確保數(shù)據(jù)恢復(fù)得準確無誤至關(guān)重要。對于基于 DNA 序列的存儲,通常使用測序方法(包括所有三代測序技術(shù))來讀取數(shù)據(jù)。對于使用DNA納米技術(shù)存儲的數(shù)據(jù),通常采用直接可視化技術(shù)(例如熒光顯微鏡、原子力顯微鏡、電子顯微鏡和凝膠電泳)以及先進的納米孔技術(shù),根據(jù)所選的寫入策略來讀取數(shù)據(jù)。
1.6 解碼
解碼是編碼的逆過程,通過使用相應(yīng)的算法將上一步地讀出數(shù)據(jù)轉(zhuǎn)換回原始文件。理想的編解碼算法還應(yīng)包含糾錯功能,因為在DNA存儲過程中不可避免會出現(xiàn)錯誤,尤其是在寫入和讀取的過程中。為了開發(fā)糾錯方案,添加邏輯冗余是最常用的策略之一。隨著技術(shù)的不斷進步,DNA存儲每個步驟中的錯誤率可能會進一步下降。這些進步將改變開發(fā)合適的編碼/解碼算法方案。判斷好的算法的一個基本標準是確保數(shù)據(jù)準確性的同時,最大化數(shù)據(jù)存儲密度。
2 研究展望
DNA已經(jīng)成為下一代數(shù)據(jù)存儲最有潛力的材料之一,由于具有超高存儲密度、可復(fù)制性、在適宜環(huán)境下壽命長等特點,DNA分子作為新一代數(shù)字數(shù)據(jù)存儲的代表被廣泛研究。本篇綜述總結(jié)了目前的DNA存儲方法。這些方法不僅增加了DNA信息分子的穩(wěn)定性,還賦予DNA信息多種功能,如磁場信息集中、圖形索引等。
隨著高通量DNA合成與測序技術(shù)的發(fā)展,未來DNA數(shù)據(jù)存儲平臺的存儲密度和讀取速度將得到提升,數(shù)據(jù)寫入和讀取的處理時間將大大縮短。盡管過去十年來,DNA存儲取得了重大的成就,但DNA存儲領(lǐng)域仍然面臨著許多挑戰(zhàn),與傳統(tǒng)的存儲技術(shù)相比,DNA數(shù)據(jù)存儲在成本、速度和隨機訪問能力方面存在相當大的不足,這些不足阻礙了DNA數(shù)據(jù)存儲的實際商業(yè)應(yīng)用。其次,缺乏自動化,與傳統(tǒng)的存儲方法不同,DNA數(shù)據(jù)存儲所涉及的各個步驟相對脫節(jié)。例如,在基于DNA序列的數(shù)據(jù)存儲中,使用DNA合成的方法將數(shù)據(jù)信息寫入,在適當?shù)臈l件下保存,通過測序技術(shù)檢索數(shù)據(jù),最終解碼獲取原始信息,對于復(fù)雜且昂貴的儀器的需求進一步限制了DNA數(shù)據(jù)存儲在日常生活中的廣泛應(yīng)用。最后,對于存儲在DNA中的數(shù)據(jù)進行大規(guī)模計算仍然面臨著挑戰(zhàn),由于缺乏相關(guān)的軟件設(shè)備,因此需要進行DNA測序、計算機計算然后合成新的DNA,這種方法既耗時也非常昂貴。總體而言,DNA數(shù)據(jù)存儲仍面臨重大的挑戰(zhàn),需要解決這些挑戰(zhàn)才能使DNA數(shù)據(jù)存儲得到廣泛應(yīng)用。
參考文獻:
[1] GU M,LI X P,CAO Y Y.Optical storage arrays:a perspective for future big data storage[J].Light:Science & Applications,2014,3(5):e177.
[2] AN?EL A,HEIDER D,HATTAB G.The visual story of data stor?age:from storage properties to user interfaces[J].Computational and Structural Biotechnology Journal,2021,19:4904-4918.
[3] GOLDMAN N,BERTONE P,CHEN S Y,et al.Towards practical,high-capacity,low-maintenance information storage in synthe?sized DNA[J].Nature,2013,494(7435):77-80.
[4] EXTANCE A.How DNA could store all the world’s data[J].Na?ture,2016,537(7618):22-24.
[5] KJ?R K H, PEDERSEN M W, DE SANCTIS B, et al. A 2-million-year-old ecosystem in Greenland uncovered by envi?ronmental DNA[J].Nature,2022,612(7939):283-291.
[6] CHURCH G M,GAO Y,KOSURI S.Next-generation digital in?formation storage in DNA[J].Science,2012,337(6102):1628.
[7] ERLICH Y,ZIELINSKI D.DNA Fountain enables a robust and efficient storage architecture[J].Science,2017,355(6328):950-954.
[8] ANAVY L,VAKNIN I,ATAR O,et al.Data storage in DNA with fewer synthesis cycles using composite DNA letters[J].Nature Biotechnology,2019,37(10):1229-1236.
[9] ZHANG Y,KONG L L,WANG F,et al.Information stored in na?noscale:Encoding data in a single DNA strand with Base64[J].Nano Today,2020,33:100871.
[10] PING Z,CHEN S H,ZHOU G Y,et al.Towards practical and ro?bust DNA-based data archiving using the Yin-Yang codec system[J].Nature Computational Science,2022,2(4):234-242.
[11] CEZE L,NIVALA J,STRAUSS K.Molecular digital data stor?age using DNA[J].Nature Reviews Genetics,2019,20(8):456-466.
[12] HOOSE A,VELLACOTT R,STORCH M,et al.DNA synthesis technologies to close the gene writing gap[J].Nature Reviews Chemistry,2023,7(3):144-161.
[13] BEAUCAGE S L,CARUTHERS M H.Deoxynucleoside phos?phoramidites—a new class of key intermediates for deoxypoly?nucleotide synthesis[J]. Tetrahedron Letters, 1981, 22(20):1859-1862.
[14] ORGANICK L,NGUYEN B H,MCAMIS R,et al.An empirical comparison of preservation methods for synthetic DNA data storage[J].Small Methods,2021,5(5):e2001094.
[15] BONNET J,COLOTTE M,COUDY D,et al.Chain and confor?mation stability of solid-state DNA:implications for room tem?perature storage[J].Nucleic Acids Research,2010,38(5):1531-1546.
[16] GRASS R N,HECKEL R,PUDDU M,et al.Robust chemical preservation of digital information on DNA in silica with error-correcting codes[J]. Angewandte Chemie (International Ed in English),2015,54(8):2552-2555.
[17] CHEN W D,KOHLL A X,NGUYEN B H,et al.Combining data longevity with high storage capacity—layer-by-layer DNA encapsulated in magnetic nanoparticles[J]. Advanced Func?tional Materials,2019,29(28):1901672.
[18] WONG P C,WONG K K,F(xiàn)OOTE H.Organic data memory us?ing the DNA approach[J].Communications of the ACM,2003,46(1):95-98.
[19] SHIPMAN S L,NIVALA J,MACKLIS J D,et al.CRISPR-Cas encoding of a digital movie into the genomes of a population of living bacteria[J].Nature,2017,547(7663):345-349.
[20] KASHIWAMURA S,YAMAMOTO M,KAMEDA A,et al.Hier?archical DNA memory based on nested PCR[M]//Lecture Notes in Computer Science.Berlin,Heidelberg:Springer Berlin Heidelberg,2003:112-123.
[21] YAZDI S M,YUAN Y B,MA J,et al.A rewritable,randomaccess DNA-based storage system[J].Scientific Reports,2015,5:14138.
[22] ORGANICK L,ANG S D,CHEN Y J,et al.Random access in large-scale DNA data storage[J].Nature Biotechnology,2018,36(3):242-248.
【通聯(lián)編輯:李雅琪】