章江
微軟日前宣布,它和華盛頓大學研究人員合作,利用人工合成DNA作為數據存儲介質的技術,保存了大約200MB數據,其中包括《戰(zhàn)爭與和平》和另外99部經典文學作品、被譯成100多種語言的《世界人權宣言》、數字圖書館“古騰堡工程”排名前100位的電子書等。
劃時代意義的存儲技術
盡管在此之前已經有研究證明數據可以被保存在DNA之中,然而沒有任何研究者能一次性向DNA寫入如此多數據。微軟和華盛頓大學的研究團隊成功地將4個圖片文件的數據編碼為人工合成DNA片段的核苷酸序列。更重要的是,他們能實現(xiàn)逆過程——從更大的DNA池中取回正確的核苷酸序列,重建圖像,而且沒有丟失1個字節(jié)的信息。
用4個堿基開發(fā)定制代碼
DNA是染色體的主要化學成分,與此同時也是組成基因的材料,有時被稱為“遺傳微?!薄T诜敝尺^程中,父代把自己DNA的一部分復制傳遞到子代中,從而完成性狀的傳播。作為一種生物大分子,DNA可組成遺傳指令,引導生物發(fā)育與生命機能運作。它的主要功能是信息儲存,可比喻為“藍圖”或“食譜”。其中所包含的指令是建構細胞內其他的化合物如蛋白質與核糖核酸所需要的,帶有蛋白質編碼的DNA片段稱為基因。
DNA存儲技術是一項著眼于未來的具有劃時代意義的存儲技術,它利用人工合成的脫氧核糖核酸(DNA)作為存儲介質,具有高效、存儲量大、存儲時間長、容易獲取、免維護的優(yōu)點。利用DNA存儲數據的關鍵是DNA堿基,DNA這種雙螺旋結構上有4個化學基團,即核堿基,它們按照特定順序排列,組成遺傳信息,指導生物體生長發(fā)育。
研究人員開發(fā)的DNA數字存儲系統(tǒng)同樣利用這4個堿基“字母”,開發(fā)定制代碼,完全區(qū)別于生物體所用“語言”。當復制一份計算機文件時,DNA數字存儲系統(tǒng)首先把硬盤信息中的二進制數翻譯成定制代碼,然后借助標準DNA合成機器制造出相應的堿基序列。這一序列并非一個長分子,而是多個重復片段,每一個片段攜帶一些索引細節(jié),明確各自在整體序列中所處位置。這樣的系統(tǒng)雖然顯得冗余,優(yōu)點是即便某些片段遭損毀,數據也不會丟失。分子生物學實驗室用來讀取生物體DNA的標準設備可以讀取信息,當即呈現(xiàn)在電腦屏幕上。
1毫克DNA存儲美國國會圖書館藏書
DNA存儲技術作為數字存儲媒介的顯著優(yōu)點之一是容量大。DNA分子是一種令人難以置信的密集存儲介質,1克DNA能夠存儲大約2拍字節(jié),相當于大約300萬張CD。用DNA存儲數據保存時間可能長達數千年。與硬盤、磁帶等存儲介質不同的是,DNA不需要經常維護。就讀取方式而言,DNA存儲不涉及兼容問題。
微軟宣布已成功向數百萬DNA寫入了10倍于此前的數據量,每個DNA包括150個堿基,但是沒有披露DNA數據存儲項目耗費的成本,其中用到了約15億個堿基。負責合成這些DNA的Twist Bioscience通常每個堿基價格為10美分。商用合成技術的成本最低可以達到每堿基0.04美分,讀取100萬堿基的成本約為1美分。
在信息存儲上,硬盤完全不能和DNA相提并論。在人類的基因序列中,1克的重量就可以包含幾十億GB的數據,而1毫克分子的信息存儲空間就在貯存了美國國會圖書館全部的書籍之后還有剩余。美國國會圖書館建于1800年,系美國的四個官方國家圖書館之一,也是全球最重要的圖書館之一。目前藏品總數1.3億,其中0.29億書籍、0.12億照片、0.58億件手稿,包括很多稀有圖書、特色收藏、世界上最大的地圖、電影膠片和電視片等。
極具潛力的數據存儲介質
“微軟希望在未來把利用人工合成DNA作為數據存儲介質的技術和現(xiàn)有硅技術硬盤結合起來,創(chuàng)造出更安全快速的大容量硬盤。如果這一技術成熟到適合主流應用,裝備當今存儲密度最高的存儲設備,沃爾瑪超市般大小的數據中心就可能變成只有一塊方糖大小,一個鞋盒那么多的DNA就足以保存100個大型數據中心的數據?!蔽④涁撠熢撗芯宽椖康氖紫芯繂T卡林·施特勞斯表示,“目前DNA存儲技術成本昂貴,操作復雜,不過微軟希望借力生物科技行業(yè)的研究成果?!?/p>
生物芯片的核心元素
國際數據資訊公司(IDC)預計,全球范圍內保存的數字化數據到明年將達到16萬億GB,其中大部分位于大型數據中心。當前的電子存儲設備發(fā)展速度趕不上數據量的增長,無法在期望的成本內保存所有信息。由于大數據應用的爆發(fā)性增長,提高存儲密度已刻不容緩。DNA作為一種極具吸引力的潛在數據存儲介質,具有廣闊的應用前景和商業(yè)價值,是生物芯片的核心元素。
簡單說,生物芯片就是在一塊玻璃片、硅片、尼龍膜等材料上放上生物樣品,然后由一種儀器收集信號,用計算機分析數據結果。所以它就是一個載體平臺,材料則有很多種,例如硅,玻璃,膜(纖維素膜)等,還有一些三維結構的多聚體,平臺上則密密麻麻地擺滿了各種生物材料。芯片只是一個載體,做什么東西或者檢測什么,還是要靠生物學家來完成。也就是說,原來要在很大的實驗室中需要很多個試管的反應,現(xiàn)在被移至一張芯片上同時發(fā)生了。
人們可能很容易把生物芯片與電子芯片聯(lián)系起來,兩者確有一個最基本的共同點,那就是在微小尺寸上具有海量的數據信息。但它們是完全不同的兩種東西,電子芯片上布列的是一個個半導體電子單元,而生物芯片上布列的是一個個生物探針分子。生物芯片又稱蛋白芯片或基因芯片,是DNA雜交探針技術與半導體工業(yè)技術相結合的結晶。將大量探針分子固定于支持物上后與帶熒光標記的DNA或其他樣品分子(例如蛋白、因子或小分子)進行雜交,通過檢測每個探針分子的雜交信號強度進而獲取樣品分子的數量和序列信息。
生物芯片在生命科學研究及實踐、醫(yī)學科研及臨床、藥物設計、環(huán)境保護、農業(yè)、軍事等各個領域用途廣泛,將產生巨大的社會和經濟效益。生物芯片以及相關產品產值有可能超過微電子芯片,成為下一世紀最大的高新技術產業(yè),將給人類的生活帶來一場深刻的革命,對于全世界的可持續(xù)發(fā)展都會作出不可估量的貢獻。
帶來更高的存儲密度
要在DNA之中保存數據,必須把0和1數據轉換為4種核苷酸,即堿基組成的序列。哈佛大學分子生物學家喬治·切奇2012年向DNA中寫入了一本5萬個單詞、數據量不到1MB的書,隨后將其印刷在比花粉粒還小的玻璃芯片上。他在2016年報告說,已實現(xiàn)了22MB數據的DNA編碼。
同樣在研究利用DNA存儲數據的加州大學伯克利分校博士后研究員雷因哈德·赫科爾認為,微軟的成功令人關注,但是制作訂制的DNA分子成本高昂,成為阻礙DNA存儲技術大規(guī)模使用的主要障礙。如果希望人們接受這一技術,那么需要使這項技術的成本低于磁帶。
施特勞斯對讀寫DNA的成本未來幾年將會大幅下降充滿信心,因為有證據表明這一成本的下降比過去50年中晶體管制造成本降低的降速更快,而晶體管成本的下降是計算技術創(chuàng)新的動力。2007年,對人類基因組的測序耗資約1000萬美元,但到2015年這一成本已下降至1000美元。作為一種優(yōu)良的存儲介質,DNA相對于傳統(tǒng)存儲技術能帶來更高的存儲密度。
磁帶是目前用于長期存儲的標準介質,隨著生物技術的進步和DNA讀寫工具的成本下降,DNA最終有望把磁帶取而代之。DNA的耐久性極好,在干燥寒冷的情況下表現(xiàn)尤為突出。今年3月,有研究人員部分重建了古人類基因,這些古人類的骨骼保存在西班牙一處洞穴里已有超過40萬年歷史。作為對比,磁帶保存數據只有幾十年時間,隨后就會老化。
編輯:成韻 chengyunpipi@126.comendprint