DNA是一種非常穩(wěn)定的分子,半衰期超過500年,低溫條件下可以保存成千上萬年。而目前的磁或光數(shù)據(jù)存儲系統(tǒng)保存數(shù)據(jù)一般不能超過一個世紀(jì)。除了穩(wěn)定性,DNA存儲數(shù)據(jù)的另一大優(yōu)點是存儲密度。DNA信息存儲密度的數(shù)量級是已知任何存儲技術(shù)的若干倍。例如,1千克DNA可以存儲2x 1024bits;相同數(shù)量的閃存需要多于109千克的硅。幾十千克的DNA就可以滿足全世界幾個世紀(jì)的需求。
不過,目前利用DNA進行信息存儲還不夠靈活,被認為更適用于存儲重要且無需經(jīng)常訪問、調(diào)用的“冷數(shù)據(jù)”。這是因為,與硅質(zhì)存儲芯片的毫秒級讀寫速度相比,DNA存儲從編碼寫入到讀取,整個過程都比較慢;另一方面,對存儲在細胞內(nèi)DNA中的數(shù)字數(shù)據(jù)進行目標(biāo)特異性重寫仍然是一個巨大的挑戰(zhàn)。
研究表明,在大腸桿菌活細胞內(nèi),文字、密碼表、圖片等信息可以被長期穩(wěn)定地存儲、修改和復(fù)制,研究人員開發(fā)了一種雙質(zhì)粒編輯系統(tǒng)用于準(zhǔn)確處理微生物載體中的數(shù)字信息。
“細胞內(nèi)存在各種酶,這決定了DNA在活細胞內(nèi)有它獨特的存在形態(tài),與其在體外進行信息存儲的方式不一樣。我們設(shè)想,利用目前熱門的基因編輯技術(shù),實現(xiàn)在活細胞內(nèi)對DNA進行編碼和寫入,同時通過Cas酶對存儲在細胞內(nèi)DNA中的數(shù)字數(shù)據(jù)靈活地進行修改。最終在活細胞內(nèi)將DNA的寫入、保存、修改、讀取快速地結(jié)合起來?!北疚牡耐ㄓ嵶髡咧弧⑶迦A大學(xué)化學(xué)系的劉凱教授說。
劉凱博士畢業(yè)于荷蘭格羅寧根大學(xué),之后在哈佛大學(xué)開展博士后研究工作?;貒螅瑘F隊于2018年承擔(dān)科技部的重點研發(fā)計劃之一,利用DNA作為基元進行編碼信息存儲。這也是目前劉凱課題組主要開展的研究工作之一。
DNA數(shù)據(jù)存儲技術(shù)一般有兩種模式,即“體外硬盤模式”和“體內(nèi)CD模式”。體內(nèi)模式的主要優(yōu)點是其通過細胞復(fù)制低成本、可靠地復(fù)制染色體DNA。由于這個特性,它可以用于快速和低成本的數(shù)據(jù)復(fù)制傳播。然而,由于某些信息的編碼DNA序列包含大量重復(fù)和均聚物的出現(xiàn),因此這些信息只能“寫入”和“讀取”,而不能準(zhǔn)確地“重寫”。
研究團隊建立的活細胞DNA信息存儲與改寫系統(tǒng)
“在傳統(tǒng)的存儲介質(zhì)如電腦、硬盤中,信息可以直接進行修改,例如,在Word文件上,我們可以輕易地修改任何一個字,且準(zhǔn)確率能夠達到100%。但是想要在細胞內(nèi)實現(xiàn)這種定點、精確的修改,涉及的技術(shù)非常重要。利用雙質(zhì)粒編輯系統(tǒng)對DNA存儲進行優(yōu)化和設(shè)計,幫助其從冷存儲轉(zhuǎn)向熱存儲,是我們整個研究團隊的初衷。”劉凱表示。
團隊通過利用CRISPR/Cas基因編輯技術(shù),在活細胞中構(gòu)建了集存儲與改寫功能于一體的雙質(zhì)粒信息存儲體系,與已有的DNA信息存儲方式相比,在降低寫入信息冗余度、提高活細胞信息存儲能力、簡化信息讀取流程、提升信息保存安全性上都有顯著提升。該研究充分探索了DNA序列的編碼能力,不需要任何尋址索引和備份序列,并兼容多種編碼算法,最高的編碼效率可達每個核苷酸4.0位。
例如:在進行小學(xué)數(shù)學(xué)的有關(guān)幾何圖形相關(guān)知識的學(xué)習(xí)過程中,老師就要對學(xué)生積極進行提問,促進學(xué)生的合作學(xué)習(xí)。比如,在為學(xué)生進行了幾何圖形的初步講解之后,老師就要對學(xué)生進行提問:“學(xué)生們進行幾何圖形的學(xué)習(xí)對我們會有什么樣的幫助?在我們的生活中又有什么樣的用處呢?”然后讓學(xué)生以小組的形式進行討論,注意每一組中都要保證組員之間的成績以及性格都有所不同。然后老師在組織學(xué)生進行幾何圖形的制作,讓他們進一步掌握相關(guān)內(nèi)容。這樣的學(xué)習(xí)方式,促進學(xué)生的個性化發(fā)展,也有利于學(xué)生的共同進步,有利于小學(xué)數(shù)學(xué)高效課堂的構(gòu)建。
值得注意的是,該研究設(shè)計的信息存儲與定點修改技術(shù),不僅可以利用活細胞對外源數(shù)字信息實現(xiàn)高密度存儲和穩(wěn)定拷貝,還能利用活細胞內(nèi)的蛋白質(zhì)工具實現(xiàn)靈活的信息處理。
利用預(yù)設(shè)并優(yōu)化的CRISPR-Cas12a體系導(dǎo)向crRNA結(jié)合序列,可以實現(xiàn)與現(xiàn)有基因編輯相媲美的編輯成功率,并完成在分子水平精準(zhǔn)靶向多種類型復(fù)雜信息的修改處理目標(biāo)。另外,創(chuàng)新性引入熒光蛋白作為“報告器”進一步使信息改寫可視化,極大地提高了改寫信息的讀取魯棒性,使分子水平信息存儲和修改的狀態(tài)直觀可見。這一研究解決了DNA作為存儲介質(zhì)無法對大數(shù)據(jù)信息進行精準(zhǔn)改寫的難點,克服了DNA基質(zhì)只能作為冷數(shù)據(jù)存儲的弊端,提升了DNA作為信息熱存儲介質(zhì)的能力。
“目前,通過這一系統(tǒng)我們能夠?qū)崿F(xiàn)90%以上的重寫準(zhǔn)確率,雖然沒有達到100%,但是已經(jīng)很高了。”
在活細胞內(nèi)對編碼的密碼表、圖片等DNA信息的存儲與改寫
“我們相信這種策略也可以應(yīng)用于具有更大基因組的活宿主,例如酵母,這將進一步為大數(shù)據(jù)存儲的實際應(yīng)用鋪平道路?!眲P說。
他進一步解釋道,這項研究選擇大腸桿菌細胞進行操作,是因為與真核細胞和人源細胞相比較,大腸桿菌的基因組非常小,相當(dāng)于做了一個小的存儲體系的數(shù)據(jù)修改和概念驗證。不過,利用大腸桿菌能夠存儲的數(shù)據(jù)量有限,針對和大數(shù)據(jù)、超大數(shù)據(jù)匹配性更強的酵母系列或者人源細胞進行研究,可能更有意義。
“而如何實現(xiàn)在更高級的活細胞的基礎(chǔ)上進行精確的數(shù)據(jù)刪除和修改,是需要進一步研究的。”
劉凱還表示,這一研究繼續(xù)展開來非常有前景且能夠真正朝著產(chǎn)業(yè)化的方向推動,對于整個領(lǐng)域的發(fā)展非常重要。
他也透露,DNA信息存儲這一部分的研究接下來可能在長三角布局。
談及不久前我國發(fā)布的國內(nèi)首部DNA 存儲行研報告《DNA 存儲藍皮書》,劉凱表示,BT和IT融合是近10年興起的新領(lǐng)域,這方面中國與西方國家的差距本來就很小,尤其是針對信息存儲這一塊。此次整個研究路線圖的發(fā)布,對于促進中國國內(nèi)BT和IT融合的快速發(fā)展非常重要。
他繼續(xù)說道,我國非常重視這一新興交叉領(lǐng)域的發(fā)展。國家科技部早在2021年就正式成立了BTIT專項,即生物技術(shù)和信息技術(shù)交叉融合專項。另外國家自然科學(xué)基金委交叉學(xué)部也支持了上海交大樊春海院士承擔(dān)的核酸信息材料的基礎(chǔ)科學(xué)中心項目。
劉凱說:“在我看來,未來的存儲形態(tài)會發(fā)生一個質(zhì)的變化,而且,我認為這也并不是一個新的學(xué)科,DNA本就是生命世界的信息存儲材料,DNA存儲不過是將外源性的大數(shù)據(jù)存儲的思路應(yīng)用于內(nèi)源性的作為遺傳物質(zhì)的信息載體的基礎(chǔ)之上。這是一脈相承的,其發(fā)展非常有價值?!?/p>
除了DNA存儲的研究,劉凱的另一個主要研究方向是稀土生物合成系統(tǒng)的創(chuàng)建和應(yīng)用,利用開發(fā)的底盤細胞進行上游的稀土尾礦綠色處理到下游的稀土高性能生物材料的設(shè)計和制備,滿足不同的應(yīng)用場景的應(yīng)用需求,這些高性能材料主要包括高性能稀土生物纖維、粘附的蛋白膠水、稀土診療材料等。
劉凱表示,團隊已經(jīng)開發(fā)出了一種針對大動脈或者說緊急救治的材料,可以實現(xiàn)在一秒內(nèi)的快速止血,該項工作尚未發(fā)表。
截至目前,團隊已經(jīng)有專利申請50項,授權(quán)24項,多項正在落地轉(zhuǎn)化。
接下來,團隊仍將重點發(fā)展合成生物學(xué)技術(shù),一方面是圍繞DNA存儲領(lǐng)域,另一方面將繼續(xù)為制備快速救治和裝備的高性能材料服務(wù)。