當(dāng)我們談到數(shù)字化的時候,通常以硅為體系,而在講到生命的時候是以碳為體系。我認(rèn)為生命的基礎(chǔ)是碳,它也是數(shù)字化的。為什么生命是數(shù)字化的?它能夠儲存嗎?能夠編程嗎?能夠用不同的程序改變來實現(xiàn)不同的生命形式嗎?可以做克隆嗎?答案是肯定的。
生命是數(shù)字化的
現(xiàn)在沒有任何一種存儲介質(zhì)可以把信息儲存上百萬年的時間,而DNA可以。DNA也可以計算,因為計算和編程最核心的基本單位是基因,基因是生命體最基本的構(gòu)成單位。我們每個人身上蘊藏的所有信息組合就是一套生命信息基本程序,這套基本程序就是生命的語言。在最開始的時候,就像每個程序員寫出一個功能模塊希望所有人都能用上一樣,在生命體里形成的一些基因、蛋白質(zhì)、小分子也希望不斷擴(kuò)張自己,在不斷擴(kuò)張自己的同時,有時候發(fā)現(xiàn)一個基因并不夠用,可以和其他基因一起合作,當(dāng)很多基因合作更好的時候,就形成個體。
人的身上通常有2~3萬個基因,水稻有5萬多基因,不同物種有不同基因,不同的基因組合形式有不同的生命程序,不同生命程序造就了個體與周圍環(huán)境相適應(yīng)。每一套程序代表著不同的生存策略,這套不同的生存策略事實上針對于不同環(huán)境體系而來。而檢查你的這套程序是否好用的唯一標(biāo)準(zhǔn)就是這套程序能不能使你活下去,傳播更多后代。當(dāng)你選擇傳播更多后代,這套程序就可稱為可以適應(yīng)于這套環(huán)境的生命語言。
我們每個個體更像是基因信息的載體,作為一個群體,每一個人的生命程序也是不一樣的。西藏人可以高原適應(yīng),而有的人卻有很強(qiáng)的高原反應(yīng),就在于藏族人有一套特有的基因,有這個基因的人群可以適應(yīng)高原體系,在漢族人體系里就只有5%人有這個基因,而藏族人達(dá)到95%。類似的事情不僅單純存在于西藏復(fù)雜極端的環(huán)境里,還有很多跟飲食相關(guān),譬如傣族人因為其祖先經(jīng)常吃檳榔,所以體內(nèi)基因很多跟檳榔適應(yīng)等等。這是個體水平的變化。
每一代中,父母和孩子間就有100個基因突變,這些基礎(chǔ)就形成不同生存策略,環(huán)境在時時刻刻變化、基因在時時刻刻變化,基因組是預(yù)測程序,人身上的基因是祖先千萬年不斷學(xué)習(xí)、進(jìn)化,進(jìn)而對后代有可能遇到的環(huán)境的預(yù)測。人體內(nèi)的基因不會告訴你是否去高原,但是一定會告訴你去高原會有什么反應(yīng)。
這讓我想到一個很有意思的假設(shè)。如果每個人生下來就有一個盒子,這個盒子清楚地告訴你往哪去、會產(chǎn)生什么樣的影響,它將如何指導(dǎo)我們生活呢?假使人們很好地遵循基因告訴你的事情,也不可能活到150歲,因為你有可能會得各種各樣的病,這些病有的從年輕的時候開始一直到老都有關(guān)系,而這些病跟基因或者跟環(huán)境、數(shù)字化以及IT、BT有什么關(guān)系?
大數(shù)據(jù)將預(yù)知人類健康
基因里面的毛病有點像寫程序的時候出了一個bug,出了bug,基因程序運營不了,此時就出現(xiàn)很嚴(yán)重的問題,如各種各樣罕見疾病,有罕見疾病的一般生存周期都非常短。生命程序不斷試代碼、試代碼過程中不斷試錯,當(dāng)然每一個錯誤并不是代表新的往前演化的可能。對付他們我們該怎么辦?譬如有些孩子患有先天性的疾病,那么當(dāng)孩子出生之前,我們能不能做一些檢測,發(fā)現(xiàn)并控制問題。其次,我們能否先查驗父母有沒有基因突變,有多大的概率會傳給孩子。如今在人工受精前我們可以做移植前檢測,是否可以在懷孕兩到三個月之內(nèi)對孩子進(jìn)行完整基因檢測,尤其是針對非常罕見的基因性疾病,通過這些篩選可以達(dá)到出生前防控。此外,新生兒出生了,如果早一點知道他得各種各樣疾病,包括自閉癥的風(fēng)險,我們就可以提前預(yù)防和治療。我們還會有更瘋狂的想法——能不能通過大數(shù)據(jù)挖掘發(fā)現(xiàn)一些罕見病的真正解決方案呢?我們搜索了100萬人基因數(shù)據(jù)發(fā)現(xiàn),有部分人他們體內(nèi)有非常明確的致病基因,但是非常健康,原因在于他體內(nèi)有另外一套基因保護(hù)他。如果找出那一段是什么,也許就可以找出對抗罕見性疾病的藥物。此外,更重要的支持就是基因測序。
現(xiàn)代社會很多人面對腫瘤威脅,腫瘤是人們在生存過程中由于環(huán)境因素的影響,導(dǎo)致基因程序的變異,所有細(xì)胞都來源于第一個細(xì)胞——受精卵細(xì)胞,從這個細(xì)胞開始每次都會引發(fā)程序變化。不同環(huán)境影響會導(dǎo)致程序有非常大的不同,比如抽煙增加肺部細(xì)胞變異率。用IT方式來講,就是你生命程序那段代碼被黑客給黑了。而這個被黑的細(xì)胞很有可能獲得比其他細(xì)胞更強(qiáng)的適應(yīng)性,進(jìn)而不斷擴(kuò)張。從一個腫瘤細(xì)胞發(fā)生到最后被CT掃描出來,平均要15年,也就是說有至少有15年的時間我們不知道體內(nèi)有腫瘤細(xì)胞。將來我們可以利用血液中深度的基因檢測進(jìn)行早期檢查,并進(jìn)行個性化的治療。
過去30年人們所處的環(huán)境產(chǎn)生了巨變,飲食習(xí)慣也在改變,由此也引發(fā)了腸道微生物菌群失調(diào),很多疾病都與此有關(guān)。將來我們可以根據(jù)檢查的結(jié)果補(bǔ)充我們所缺的微生物,確保人體內(nèi)是符合真正健康的菌群體系。我們所做的一切最終就是為了要完成這樣的一個生命公式:輸入端是我們自己的的基因、環(huán)境因素等,輸出端是所表現(xiàn)的狀況,身高、體重、病理特征、健康與否等。我們現(xiàn)在知道了輸入端、輸出端,對中間的編程毫無所知。健康大數(shù)據(jù)的完成取決于把所有輸入端、輸出端全部計算清楚,要研究清楚至少需要100萬人,如果這些研究完成,可以在所有數(shù)據(jù)的基礎(chǔ)上,預(yù)知未來健康走向,這種預(yù)知可以促進(jìn)一些改變。
5年后基因測序或?qū)⒚赓M
當(dāng)然研究的成本是非常昂貴的,這也給數(shù)據(jù)的搜集帶來了很大的阻礙。那么,是否可以做到免費呢?免費實施的到來,事實上在于基因本身的數(shù)據(jù)價值遠(yuǎn)遠(yuǎn)大于產(chǎn)生他的數(shù)據(jù)所需要的成本。對華大基因而言,我們認(rèn)為5年左右我們可真正達(dá)到免費。
除了這種基因數(shù)據(jù)之外,把數(shù)據(jù)連接起來也很重要。未來,如果把每個人的數(shù)據(jù)都連起來,形成基因組網(wǎng)絡(luò),將是不可估量的。我們現(xiàn)在在網(wǎng)上建立了一個同病相憐社區(qū),當(dāng)所有病人聚集在上面,我們就有機(jī)會把基因和疾病之間的關(guān)系弄得更清楚,在這個上面所形成的機(jī)會、信息和知識是以前我們在沒有做甚至做個人基因組是不可想象的。最終我們還需要人工智能來學(xué)習(xí),因為這么大的量已經(jīng)不可能用一個單一模型來解決。
奧巴馬提出了一個精準(zhǔn)醫(yī)療計劃,就是要做百萬人基因組庫,當(dāng)所有人完成后,就可以對人們未來的健康走向有一個預(yù)知,根據(jù)預(yù)知“量體裁衣”,制定個性化的精確治療方案。未來,啤酒里的酵母將不再是自然界的酵母,而是由計算機(jī)寫出來的,這種酵母產(chǎn)生的啤酒味道也許比你現(xiàn)在喝的任何啤酒味道都要好。人們或許還可以通過改變干細(xì)胞重回年輕的時候。
所有如科學(xué)幻想的東西都在生命科學(xué)界飛速發(fā)展。對IT界的人士而言,對健康的追求不是感性愿望,更是理性追求。如果基于人工智能方式、大數(shù)據(jù)處理方式能管理健康、掌握預(yù)測的程序和健康關(guān)系,這將是基因科技最能夠帶給人類的福祉。
(以上內(nèi)容系根據(jù)王俊博士在“2015深圳IT領(lǐng)袖峰會”上的演講整理而成)