人工智能和大數據等技術應用于醫(yī)學領域將會推動精準醫(yī)學的發(fā)展,在疾病發(fā)生之前進行采取針對性的措施,從而改變醫(yī)療健康的概念。同時,人工智能和大數據也對研究我們遺傳信息中97%的、我們尚未了解的“暗物質信息”起到關鍵作用??傮w來看,精準醫(yī)學才剛剛上路,還存在很多的機會。
精準醫(yī)學是組學大數據跟臨床醫(yī)學的結合
第一個問題,精準醫(yī)學的本質是什么,核心是什么?我看到國內有各種各樣的評論,關于討論精準醫(yī)學的內涵,各種觀點都有,我自己覺得,精準醫(yī)學的核心其實就是一點,非常明確,就是組學大數據跟醫(yī)學的結合,說得更具體一點,就是組學大數據跟臨床醫(yī)學的結合。也就是說,把組學大數據用到臨床的醫(yī)學當中來,提高醫(yī)療診斷的準確度,提高治療的效果。這里又包括兩層含義,一個含義是組學大數據,另外一個含義是醫(yī)學。那么組學大數據又包括兩層含義,一個是組學,一個是大數據。我們知道,近年來,隨著臨床研究的發(fā)展,我們獲得了越來越以基因組為代表的分子水平的人類信息,這個是前所未有的。那么,隨著以基因組為代表的組學數據的發(fā)展,人們越來越多地積累了以遺傳密碼為代表的不僅僅是基因的信息,也包括蛋白的信息。后來,人們發(fā)現,挖掘這些信息會得到很多人類健康和疾病的信息。所以有人提出,如果把這些信息應用到臨床當中,一定會提高臨床的效果,這就是所謂精準醫(yī)學的本質含義。但是,只獲得這些遺傳密碼的信息是不夠的。
大家知道,所有遺傳密碼的信息都是非常多的大數據,這個大數據大家是很容易測得的,包括我們現在知道,在國內,一個人花一萬元就可以得到自己的遺傳密碼,但是你即使得到你的遺傳密碼,你仍舊是一點都不懂,因為密碼只有四個字(A、C、G、T),所以要讀懂他,你就要發(fā)展大數據分析的理論方法和技術。要把這些組學數據運用到大臨床當中,也就是組學數據和大數據分析方法的結合。所以一部分涉及到組學大數據,一部分是醫(yī)學,兩個領域結合起來,就構成了現在精準醫(yī)學的本質和核心,這是第一個問題。關于精準醫(yī)學,是自上世紀90年代由于組學數據用到臨床當中,發(fā)展轉化成轉化醫(yī)學,個體化醫(yī)學,從2011年又出了精準醫(yī)學的名稱,但不管怎么說,精準醫(yī)學他的本質是清楚的,就是組學大數據在臨床醫(yī)學當中的應用。
精準醫(yī)學有可能改變醫(yī)療健康的基本概念
精準醫(yī)學能夠給醫(yī)學帶來哪些本質的變化?精準醫(yī)學的內涵,一定會引起一些本質上的變化,用一句話來說,精準醫(yī)學本質上之所以能引起各國領導人的重視,是精準醫(yī)學有可能改變醫(yī)療健康的基本概念,也就是說,促使醫(yī)療的基本概念從當前的診斷治療轉變成健康保證。未來因為精準醫(yī)學的發(fā)展,由于組學大數據的介入,使得健康這一問題,不僅僅是病人要關注的,而是全民都要關注的。對任何人,我們可以在他沒有得病的時候測量他的組學數據。分析組學大數據,那么就可以對他未來健康發(fā)展的危險因素做出評估,根據評估進行適當干預,這樣有些疾病就不會發(fā)展,提高他的生活質量,把整個醫(yī)療健康體系的關口前移,在沒有病之前就提出評估與保證。
未來醫(yī)學的趨勢
根本性概念的轉變,可能導致一些新興產業(yè)的出現,有人預估,跟所謂精準醫(yī)學相關的這個概念轉變導致的新興產業(yè),也許到2018年將有2000億美元的規(guī)模,也就相當于2萬億元人民幣,對GDP就有影響。這種由精準醫(yī)學帶來的本性概念的改變由此促使的產業(yè)的發(fā)展當然會引起各國領導人的注意,這是第二個方面,關于精整醫(yī)學他可能帶來的一些本質變化的估量。
精準醫(yī)學研究已成為新一輪國家科技競爭與引領國際戰(zhàn)略的制高點。大家知道美國要測量100萬自然人的遺傳密碼,歐盟也在積極推動所謂精準醫(yī)學的研究,包括英國、法國等等,日本也在進行精準醫(yī)學相關的投入和計劃。那么精準醫(yī)學可能在哪些方面促使產業(yè)的變革和發(fā)展呢?
我想至少在四個方面: 第一,可以促進海量的生物樣本庫和數據庫的發(fā)展。由于精準醫(yī)學的推動,需要測量百萬人量級的組學信息,首先涉及到這百萬人生物樣品的獲取、保管、提取和提供給這些人使用,這當然是一個很大的產業(yè)。同時,這些樣本數據是百萬人數量級的,一定要促進相應的大規(guī)模數據庫的發(fā)展,有人估計,這個產業(yè)的規(guī)模可能是百億數量級。
第二,有了這些樣品,就要測以基因組為代表的這些組學數據,所以就要測基因組、蛋白組、轉錄組,這些測序的數據,到2018年,就可以達到117億美元的規(guī)模。
第三,在這些海量數據挖掘的基礎上,就可以促進產生大量的、新的分子診斷指標,就會增加很多跟疾病相關的信息,有很多就可以作為新的疾病的標記。同時,也可以發(fā)現很多新的藥物設計的靶點,這就促進了第三個產業(yè),也就是所謂分子診斷和藥物設計靶點的相關產業(yè)。
第四,伴隨著精準醫(yī)學概念而產生的新的醫(yī)療設施,比如說要成立一些健康源,需要一些健康師,這些產業(yè)大概是千億數量,精準醫(yī)學將帶動基因測序、分子診斷、個體化治療等市場規(guī)模的擴大。
實現精準醫(yī)學我覺得至少要具備兩個條件,第一個,要具備組學大數據的基礎,我們知道,精準醫(yī)學就是把組大數據用到臨床當中來,所以第一個你要獲取組學大數據,第二步就是組學數據的挖掘,用到大數據分析、人工智能、深度學習等等,以知識為基礎的方法用來挖掘這些組學,以獲得在分子水平上跟疾病相關的知識,這是第一個基礎。
第二個基礎,就是搭建分子水平的以基因型為代表的信息核,有效地把分子水平的信息轉化應用到疾病的診斷和治療當中,這就是要建立所謂生物信息學、生物網絡、系統(tǒng)生物學等等。有了這兩個基礎就可以更好地實現精準醫(yī)學,當然一個非常重要的條件就是精準醫(yī)學的發(fā)展,應當和當前的臨床影象學、生化檢驗等臨床知識很好地融合,精準醫(yī)學只是把新的數據應用在原有的數據上。
精準醫(yī)學才剛剛上路
精準醫(yī)學雖然本質上可能帶來變革,可能引導新的產業(yè)的發(fā)展,但是才剛剛上路。我們的創(chuàng)新和機遇在哪里,我們迎接的挑戰(zhàn)是什么?我拿組學舉一個例子,在我們的臨床密碼當中,在組學當中,目前,還存在著大量的暗信息,所謂我們自己的遺傳密碼,目前能夠從規(guī)律上分析的只有一小部分,其他還不能分析的就是基因組當中的所謂暗信息。我們一個人的遺傳密碼信息如果裝訂成冊,每3000個字符一頁,100頁裝訂成一冊,那就是一萬冊。每一冊一厘米,我們自己的基因密碼書就是一百米,大家可以想像,你自己的遺傳密碼,從地面往上排,要排到四十層樓房那么高,如果你全部讀懂了,你就精準了。我相信沒有誰能精準,集全世界科學家的智慧,包括生物醫(yī)學家的智慧也做不到。這本天書能夠從規(guī)律上了解的部分只達到遺傳密碼的3%,另外的97%實際上集目前全世界的智慧也還讀不懂。迄今為止我們的遺傳密碼97%是暗的。它是否在活動,在行使功能呢?結果100%是肯定的,這些非編碼序列和我們制造蛋白的那些基因一樣,每時每刻都在表達,每時每刻都在起作用,所以他們也是真正地完成生物學功能,而97%的密碼還不知道的情況下我們如何做到精準呢?所以離精準還差了很大的距離。endprint
(根據陳潤生院士在首屆“中國智谷大會人工智能與產業(yè)創(chuàng)新高峰論壇”上的演講整理而成,未經本人確認。)
首先從遺傳密碼來講,我們其實,我們的97%的遺傳密碼,從總體,從規(guī)律上來講,我們人類還不了解,那3%我們了解的是從中學大家就知道的,尊從中心發(fā)展的蛋白質信息,那3%就是造蛋白質的遺傳密碼,我們知道他的歸類了,也知道他的信息,但另外的97%的遺傳密碼是跟制造蛋白組無關的,這些信息,迄今為止我們不知道他做什么用的,這就是遺傳密碼當中的所謂暗物質,也是遺傳密碼當中的非編碼序列,那么這個概念,當我們測遺傳密碼,
進入21世紀科學家提出問題,說這些我們還不了解的、那么這些東西我可以舉幾個例子說明,他跟腫瘤的關系,當然,雖然我們不全部了解它,但是已經有些支離破碎的例子說明他的生物學功能。比如說有一個來自97%的這樣一個產物,它叫PCGEM1,可以導致前列腺癌,不是由于蛋白引起的。還有MALAT-1,它可以導致非小細胞肺癌,我們大家知道我們國家肺癌是增速中,我們現在臨床醫(yī)院當中,檢測腫瘤用的指標都是我講的3%,而治療的靶點你用的藥物也是對那3%,我現在告訴你,那97%,有很多例子證明,他也與腫瘤有關,但從來沒有納入到我們臨床之診斷和治療當中來,你想這個腫瘤能治得好嗎?你沒有考慮他,當然沒有想到檢測和治療他,就是說,我們還有一個97%與疾病情況有關的東西迄今沒有那么融入到我們診斷治療的視野當中,這就是精準醫(yī)學面臨著組學的所謂的暗信息的巨大挑戰(zhàn)。
長鏈非編碼MALAT-1 RNA與肺癌的關系
我們知道那個97%(的遺傳暗物質信息)是和我們疾病,和我們的健康息息相關。我們有多少這樣的編碼沒有發(fā)現呢?我們大概有25000個基因,那些97%的我們現在能不能評估一下,他有多少原件呢?因為倫理上的原因對人我們還不知道,遺傳研究所對老鼠做過研究,把所有的原件都拿來,管你是編碼還是非編碼,一共發(fā)現的18萬1千個,這是在老鼠里面真正執(zhí)行功能的原件的下限,實際上一定會比他大,在這里發(fā)現,產生意義的3%決定了兩萬個原件,換句話說我們還有16萬1千個(非編碼RNA)來自那97%,這16萬1千個據我所知,目前我們全世界科學家解析了大約1千個,換句話說,還有16萬個機會,有太多的機會有些非常重要的元件功能的發(fā)現。這些領域2016由這兩位就是在那97%研究當中,我曾經開過一個玩笑,大家算算,從1900年研究那3%大約締造了50名諾貝爾獎獲得者,現在知道了還有97%,97比3,那個大約是1300左右,所以我們有一千多個機會在這個領域做出諾貝爾獎級別的原創(chuàng)性特殊貢獻,而只有一個位置被占據,所以我們還有巨大的機會。
大量非編碼RNA蘊含大量的機會
因此,我們從精準醫(yī)學來講,我們現在其實不能做的精準是因為有一個巨大的大數據,只是指他的內涵并沒有被挖掘,但是另一方面,他可以給我們提供一個全新的機會,不管對技術研究還是產業(yè)發(fā)展都有巨大研究,所以對非編碼的研究無疑會對疾病的診斷治療提供全新的診斷方向,或者對藥物的設計研發(fā)提供新的平臺,對新的物種,新的性狀的培育提供一個新的基礎,對于組學的方向有很多,精準醫(yī)學其實才剛剛開始。
對大數據的分析,依然存在著有些核心的挑戰(zhàn),第一個數據量大,大家知道,現在的測序儀一個普通的一次運行就可以到1T的數據,全世界有成千上萬個這樣的儀器,包括我的組里就有所謂的得到一個T的數據,所以這些數據量是非常大的。那么每個人有3×10的九次方。這個數據告訴大家,從數據質量來講,他的噪音很高,同時又大量缺失值的這樣一個數據源。第二個樣本很小,我們要解決腫瘤的問題,但是我們知道腫瘤的變量,自變量可能成千上萬,但是我們取樣本只有百數量級,因此我們?yōu)槭裁匆獪y,比方要研究腫瘤或者是心腦血管病,他的自身變量千數量級,我們的百萬級,就像政府,測一百萬人總夠了,第二個,我們建立合適的數學模型,借助人工智能和機器學習等方法,使得我們能夠相匹配。大家知道不僅僅是組學數據,也還有生物學數據,更需要我們不僅僅是科技界,企業(yè)界,我們知道我們國內數據共享存在基本一個重要的問題,如果一個數據共享問題不解決,我們就是在大數據時代做小數據的工作,發(fā)表小數據的企業(yè),顯然不能適應國際競爭的態(tài)勢。
2016年11月1日,在 由新華網與南京市經濟和信息化委員會主辦的首屆“國智谷大會人工智能與產業(yè)創(chuàng)新高峰論壇”中上,生物信息學家、中科院院士陳潤生做了了題為《大數據與精準醫(yī)學》的演講。endprint