霍俊宇 單其俊
2017年5月23~27日,谷歌公司圍棋人工智能AlphaGo與世界排名第一的圍棋手柯潔激戰(zhàn)3場(chǎng),以3∶0大比分取勝,震撼科技界。人工智能(artificial intelligence,AI)忽然成為討論的焦點(diǎn)。近年來,人工智能在人類社會(huì)影響深遠(yuǎn),甚至早已成為各個(gè)發(fā)達(dá)國家的發(fā)展戰(zhàn)略[1],這種技術(shù)如今在語言識(shí)別、機(jī)器人以及軍事刑偵等各個(gè)方面提供了新的發(fā)展機(jī)遇[2]。對(duì)于這種快速發(fā)展的趨勢(shì),我國國務(wù)院也在2017年7月印發(fā)《新一代人工智能發(fā)展規(guī)劃》,此為人工智能的發(fā)展提供了一系列保障措施。
人工智能,顧名思義是就是人為制造的智能,其主要目標(biāo)在于研究用機(jī)器來模仿和執(zhí)行人腦的某些功能,并開發(fā)相關(guān)理論和技術(shù)[3],即利用機(jī)器來實(shí)現(xiàn)人的推理功能。人工智能技術(shù)是相對(duì)于傳統(tǒng)計(jì)算機(jī)技術(shù)而言的,傳統(tǒng)計(jì)算機(jī)技術(shù)的所能勝任的范圍,永遠(yuǎn)局限于對(duì)其已輸入的知識(shí)范圍,而人工智能則可以在其基礎(chǔ)上進(jìn)一步模擬人類的學(xué)習(xí)過程,利用計(jì)算機(jī)高效的信息處理系統(tǒng),從已有的命題知識(shí)出發(fā)產(chǎn)生新的命題知識(shí),不斷進(jìn)行著自身學(xué)習(xí),再整合輸出,最后對(duì)新知識(shí)加以利用。這種思想自1956年提出之后,隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步,在近20年已經(jīng)逐漸應(yīng)用于多個(gè)領(lǐng)域。而近些年在醫(yī)學(xué)領(lǐng)域,基于人工智能原理的相關(guān)技術(shù),也開始嘗試應(yīng)用。最有名的就是IBM公司于2007年研發(fā)的人工智能系統(tǒng)Watson,它以200本教科書、290種醫(yī)學(xué)期刊、120 000頁論文為基礎(chǔ),通過不斷地自身學(xué)習(xí)與修正,最終在2013年10月18日正式上線,成為腫瘤診斷專家系統(tǒng)。在2016年,這個(gè)學(xué)習(xí)了海量醫(yī)學(xué)臨床知識(shí)的人工智能系統(tǒng)Watson僅用10 min左右就成功為一名60歲女性患者診斷出了很難判斷的白血病類型,并向東京大學(xué)醫(yī)學(xué)研究所提出了適當(dāng)?shù)闹委煼桨浮?/p>
2.1大數(shù)據(jù)為基礎(chǔ)的精準(zhǔn)醫(yī)療 在人工智能技術(shù)飛速發(fā)展的同時(shí),目前在醫(yī)學(xué)領(lǐng)域,醫(yī)學(xué)模式也在逐漸由傳統(tǒng)醫(yī)學(xué)向精準(zhǔn)醫(yī)學(xué)(precision medicine)轉(zhuǎn)變[4],在治療中逐漸將個(gè)體基因的變異性、個(gè)人生活方式和環(huán)境都考慮在內(nèi),來進(jìn)行疾病治療和預(yù)防[5]。這種新興的診療方法是相對(duì)于傳統(tǒng)的常規(guī)醫(yī)療模式而言的。對(duì)于心血管疾病,如冠心病、心律失常等的常規(guī)治療中,傳統(tǒng)醫(yī)療模式下的臨床醫(yī)生往往在分析患者現(xiàn)有病情后,參考現(xiàn)有臨床治療指南,作出相對(duì)正確的診斷,繼而選擇出相對(duì)應(yīng)的治療方式,后期再根據(jù)患者的病情變化更換治療方案或調(diào)整藥物劑量。而在精準(zhǔn)醫(yī)學(xué)指導(dǎo)下,則可以通過對(duì)特定患者現(xiàn)有檢查數(shù)據(jù)、本人生活環(huán)境和生活方式,以及相關(guān)人群的基因進(jìn)行綜合分析[6],來形成準(zhǔn)確的心肌、血管甚至分子層面的病因病理診斷,再形成有針對(duì)性的高效化治療方案,從而更加有效地治療疾病。
在這種診療思維的指導(dǎo)下,大樣本的病人相關(guān)信息,以及一系列組學(xué)數(shù)據(jù)將成為其診斷與治療的重要依據(jù),而這種大數(shù)據(jù)(big data)與醫(yī)學(xué)的結(jié)合也正是精準(zhǔn)醫(yī)學(xué)發(fā)展的核心動(dòng)力。通過整合分析患者完整的臨床信息、生物信息、分子生物學(xué)信息,可以形成精準(zhǔn)的診斷;通過對(duì)大樣本人群的組學(xué)大數(shù)據(jù)與疾病類型進(jìn)行分類篩選,可以形成精準(zhǔn)的病因與治療靶點(diǎn);通過對(duì)患者個(gè)體化基因組的分析,則可以指導(dǎo)精準(zhǔn)用藥與相關(guān)風(fēng)險(xiǎn)預(yù)測(cè)[7]。在心血管疾病防治領(lǐng)域,也已有通過分析潛在數(shù)據(jù)模式,得出有效結(jié)論來提高醫(yī)療效果的應(yīng)用。如利用髓過氧化物酶(MPO)早期識(shí)別心血管疾病高?;颊?,指導(dǎo)早期診斷冠狀動(dòng)脈相關(guān)疾病[8];服用華法林抗凝預(yù)防血栓形成前,通過檢測(cè)CYP2C9、VKORC1基因多態(tài)性,判斷療效與不良反應(yīng)風(fēng)險(xiǎn)[9]。這些正是基于分析樣本人群的臨床信息與分子生物學(xué)信息大數(shù)據(jù),從而產(chǎn)生的相關(guān)臨床實(shí)踐。
2.2人工智能技術(shù)的價(jià)值 對(duì)于醫(yī)學(xué)大數(shù)據(jù),數(shù)據(jù)資料的價(jià)值體現(xiàn),需要通過整合分析來產(chǎn)生新知識(shí)[10]。但目前,無論是人腦學(xué)習(xí),還是利用傳統(tǒng)計(jì)算機(jī)技術(shù),臨床工作者對(duì)這些醫(yī)療大數(shù)據(jù)的利用還十分有限。由于醫(yī)療大數(shù)據(jù)往往包括了大樣本人群有關(guān)社會(huì)人口統(tǒng)計(jì)學(xué)、醫(yī)療狀況、遺傳學(xué)和治療等各種相關(guān)信息,數(shù)據(jù)量和信息量都無比龐大。而這些具有規(guī)模性、多樣性、高速性和價(jià)值性[11]的龐大數(shù)據(jù)集合常常也超過了典型數(shù)據(jù)庫軟件工具捕獲、存儲(chǔ)、管理和分析數(shù)據(jù)能力[12],更是人腦的分析推理所無法勝任的。而人工智能則正為這些分析難度大的醫(yī)學(xué)大數(shù)據(jù)提供了分析與處理方式,它可以模擬人腦的思維和推理過程,借助計(jì)算機(jī)的高效處理能力,來幫助臨床工作者組織數(shù)據(jù)、識(shí)別模式、解釋結(jié)果,通過對(duì)醫(yī)療大數(shù)據(jù)的分析整合,產(chǎn)生新知識(shí),進(jìn)一步指導(dǎo)臨床實(shí)踐。而且在心血管病領(lǐng)域,疾病的診斷或是病情的轉(zhuǎn)歸原本就十分復(fù)雜,人工智能技術(shù)就更可以有其用武之地。運(yùn)用這項(xiàng)技術(shù),可以精確分析復(fù)雜的心血管圖像數(shù)據(jù),對(duì)某些不易識(shí)別的冠心病或心律失常形成準(zhǔn)確的診斷;或是通過已有的患者實(shí)驗(yàn)室檢查結(jié)果,對(duì)心血管疾病的患病風(fēng)險(xiǎn)與結(jié)局進(jìn)行更準(zhǔn)確評(píng)估和預(yù)測(cè)[13]??梢哉f,基于人工智能技術(shù)的大數(shù)據(jù)分析,能幫助心內(nèi)科醫(yī)生事半功倍,并不斷縮短與精準(zhǔn)醫(yī)療之間的距離。
目前人工智能的核心是機(jī)器學(xué)習(xí)(machine learning, ML),這是使計(jì)算機(jī)具有智能的根本途徑。它通過使用歸納、綜合而非演繹的辦法,重新組織已有的知識(shí)結(jié)構(gòu),以獲取新的知識(shí)或技能,使之不斷改善自身的性能[14]。對(duì)于成功的機(jī)器學(xué)習(xí)來說,通常需要具有四個(gè)要素,即數(shù)據(jù)(可以包括文本、圖片或是機(jī)構(gòu)數(shù)據(jù)等)、轉(zhuǎn)換數(shù)據(jù)模型、衡量模型好壞的損失函數(shù),以及調(diào)整模型權(quán)重來最小化損失函數(shù)的算法。而由于其模型和相應(yīng)算法的不同,往往又可以將機(jī)器學(xué)習(xí)分監(jiān)督學(xué)習(xí)(supervised learning)、無監(jiān)督學(xué)習(xí)(unsupervised learning)以及深度學(xué)習(xí)(deep learning)。
3.1監(jiān)督學(xué)習(xí) 監(jiān)督學(xué)習(xí)的原理就是通過已有標(biāo)記的訓(xùn)練樣本(即已知數(shù)據(jù)以及其對(duì)應(yīng)的輸出)去訓(xùn)練得到一個(gè)最優(yōu)模型(這個(gè)模型屬于某個(gè)函數(shù)的集合,最優(yōu)則表示在某個(gè)評(píng)價(jià)準(zhǔn)則下是最佳的),再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出,對(duì)輸出進(jìn)行簡(jiǎn)單的分析與判斷。在臨床工作中,這種方法可應(yīng)用于心血管疾病的診斷與預(yù)測(cè)。比如,我們可以將血壓、血脂、心肌酶譜、腦鈉素、心電圖QT間期等心血管疾病相關(guān)檢查指標(biāo)作為樣本(已知相應(yīng)生存、死亡或患病的結(jié)局),利用決策樹(Decision Tree Model)[15]、樸素貝葉斯(Naive Bayesian Model,NBC)[16]等算法,最終,我們通過不斷訓(xùn)練就可形成一個(gè)基于這些檢查指標(biāo)的預(yù)測(cè)最終結(jié)局是生存、患病或是死亡的計(jì)算模型。利用該模型,我們就可以反過來針對(duì)某一患者的相應(yīng)危險(xiǎn)因素指標(biāo),得到個(gè)體化的風(fēng)險(xiǎn)評(píng)估[17-18],來進(jìn)一步有針對(duì)性的指導(dǎo)該患者的臨床治療。通過這種學(xué)習(xí)方式,可以利用最優(yōu)模型很方便地實(shí)現(xiàn)對(duì)患者最終結(jié)局的推測(cè),但這種對(duì)最優(yōu)模型的依賴也會(huì)成為其限制所在。在監(jiān)督學(xué)習(xí)中,小的訓(xùn)練數(shù)據(jù)集合訓(xùn)練往往會(huì)得到有偏差的模型,因此,要想利用這種辦法進(jìn)行精準(zhǔn)的風(fēng)險(xiǎn)評(píng)估,需要大量臨床數(shù)據(jù)資料為基礎(chǔ),不斷提高其準(zhǔn)確性。
3.2無監(jiān)督學(xué)習(xí) 無監(jiān)督學(xué)習(xí)則是另一種研究比較多的學(xué)習(xí)方法,它與監(jiān)督學(xué)習(xí)的不同之處,在于訓(xùn)練樣本并未被標(biāo)記,而直接對(duì)數(shù)據(jù)進(jìn)行建模。無監(jiān)督學(xué)習(xí)里典型的例子就是聚類。聚類的目的在于把相似的東西聚在一起,而我們并不關(guān)心這一類是什么。因此,一個(gè)無監(jiān)督學(xué)習(xí)算法通常需要學(xué)習(xí)的是如何計(jì)算相似度,從而實(shí)現(xiàn)后續(xù)的對(duì)一個(gè)群體的內(nèi)在模式進(jìn)行分析。這種方法對(duì)于精準(zhǔn)分析原發(fā)性疾病的病因病理機(jī)制有著重要作用。例如對(duì)于心肌炎這類機(jī)制不明的疾病,如果很多臨床患者具有相似的急性收縮性心力衰竭,我們可以分別做心肌活檢,并通過免疫組化等技術(shù)描述其細(xì)胞組成,如分別計(jì)數(shù)T淋巴細(xì)胞、中性粒細(xì)胞、巨噬細(xì)胞、嗜酸性粒細(xì)胞等不同細(xì)胞,再通過無監(jiān)督學(xué)習(xí)的方法得到其是否具有相似的細(xì)胞組成模式,從而在病理生理學(xué)層面分析其可能的發(fā)病機(jī)制,并指導(dǎo)與之對(duì)應(yīng)的臨床治療[19]。 而經(jīng)過無監(jiān)督學(xué)習(xí)形成的分組,其后續(xù)價(jià)值及意義往往又可以利用有監(jiān)督學(xué)習(xí)的方式進(jìn)一步研究。相比之下,若僅僅只用有監(jiān)督學(xué)習(xí)的方式對(duì)某一群體進(jìn)行研究,則可能會(huì)完全忽略這種內(nèi)在可能有關(guān)聯(lián)的亞群。如Shah等[20]預(yù)測(cè)射血分?jǐn)?shù)保留的心力衰竭患者的生存情況時(shí),就是通過無監(jiān)督學(xué)習(xí)的辦法建模,利用46個(gè)可變因素將患者分為3個(gè)不同組,再用有監(jiān)督學(xué)習(xí)的方式預(yù)測(cè)最終結(jié)局,并取得良好結(jié)果。這種學(xué)習(xí)模式的不足也顯而易見,即對(duì)于結(jié)構(gòu)復(fù)雜的數(shù)據(jù)資料,在未對(duì)樣本進(jìn)行標(biāo)記的條件下,往往對(duì)初始群集的模式識(shí)別存在困難,而這也最終可能會(huì)導(dǎo)致聚類結(jié)果的偏差,因此在實(shí)際操作中常常還需要手動(dòng)標(biāo)記部分?jǐn)?shù)據(jù)來優(yōu)化算法。
3.3深度學(xué)習(xí) 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域[21],也是目前的研究熱點(diǎn)。其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),并模仿人腦的機(jī)制來解釋數(shù)據(jù),尤其是圖像數(shù)據(jù)。人腦的視覺系統(tǒng)的信息處理是分級(jí)的,從瞳孔攝入原始像素后,大腦皮層的一些細(xì)胞會(huì)做初步的處理,例如發(fā)現(xiàn)輸入信號(hào)的邊緣信息等,然后大腦就會(huì)根據(jù)這些邊緣信息對(duì)整個(gè)輸入像素信息進(jìn)行抽象處理,進(jìn)一步判斷這些像素信息所組成的物體的形狀等其他信息,完成后大腦皮層會(huì)對(duì)得到的信息進(jìn)行更高層次的抽象處理,就可判斷出眼前的物體具體是什么東西。深度學(xué)習(xí)就是通過模擬人腦視覺系統(tǒng)的分級(jí)處理,利用計(jì)算機(jī)通過深度信念網(wǎng)絡(luò)(deep belief networks,DBN)[22]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[23]等算法實(shí)現(xiàn)這個(gè)過程的建模,即從原始的輸入圖像出發(fā),從原始的像素開始逐層學(xué)習(xí)特征,并在相關(guān)紋理特征、顏色特征、局部特征基礎(chǔ)上進(jìn)行統(tǒng)計(jì)、量化、編碼或其它方法得出有意義的特征表示模型,來用于后續(xù)的圖像識(shí)別。
這種技術(shù)目前在人臉識(shí)別領(lǐng)域已取得了巨大的成功。傳統(tǒng)的基于機(jī)器視覺的人臉識(shí)別方法,往往受到表情、姿態(tài)及光照、背景等因素影響,而基于深度學(xué)習(xí)的人工智能技術(shù),如FaceNet算法,就通過從海量的圖像數(shù)據(jù)中學(xué)習(xí)到關(guān)于光照、表情、角度等不同的特性,最終在LFW(labeled face in the wild) 數(shù)據(jù)庫的人臉識(shí)別中達(dá)到了99.63% 的準(zhǔn)確率,甚至超過了人眼識(shí)別的結(jié)果[24]。
與人臉識(shí)別相類似的,這種基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)也完全可以在心內(nèi)科的影像學(xué)診斷方面發(fā)揮巨大作用,尤其是心電圖的診斷。對(duì)于心律失常以及其他很多心臟疾病的診斷,心電圖的解讀無疑是十分重要的[25],但目前現(xiàn)有的心電圖自動(dòng)識(shí)別技術(shù),對(duì)于現(xiàn)實(shí)中情況多變的心電圖讀取往往存在巨大的限制,如難以識(shí)別干擾波形、易誤讀起搏器節(jié)律、無法區(qū)分早期復(fù)極與ST段抬高的心肌梗死,以及QT間期測(cè)量的可靠性有限等[26],很難達(dá)到人工讀圖的效果。對(duì)于上述這些缺陷,我們就可以類似的用深度學(xué)習(xí)的辦法進(jìn)行彌補(bǔ), 即通過建模對(duì)大量臨床心電圖數(shù)據(jù)進(jìn)行學(xué)習(xí),從而識(shí)別干擾波、起搏器節(jié)律等種種富于變化的波形數(shù)據(jù),最終實(shí)現(xiàn)模擬人腦的智能讀圖。如吳恩達(dá)的斯坦福大學(xué)機(jī)器學(xué)習(xí)小組就通過這種辦法,用深度學(xué)習(xí)的方法訓(xùn)練建模,利用人工智能精確區(qū)分肉眼易混淆的波形數(shù)據(jù),從而準(zhǔn)確診斷14種類型的心律失常。除了心電圖外,這種技術(shù)在其他心血管疾病的影像學(xué)診斷方面也同樣可以有著巨大的應(yīng)用前景,可大大改善目前影像數(shù)據(jù)依賴專家讀取且易受干擾的現(xiàn)狀。例如2013年,Carneiro等[27]就曾使用定制深度模型從超聲波數(shù)據(jù)中準(zhǔn)確追蹤左心室心內(nèi)膜,在超聲波數(shù)據(jù)的自動(dòng)分析應(yīng)用方面取得良好的結(jié)果。在冠狀動(dòng)脈硬化性疾病診斷方面,我國的人工智能系統(tǒng)Airdoc在大量專家醫(yī)生標(biāo)注的胸部CT數(shù)據(jù)基礎(chǔ)上,利用深度學(xué)習(xí)技術(shù)和圖像處理技術(shù),設(shè)計(jì)特定的深度神經(jīng)網(wǎng)絡(luò)和圖像算法,可以從胸部CT數(shù)據(jù)中推導(dǎo)出冠狀動(dòng)脈硬化評(píng)分,為冠心病的診斷提供依據(jù)。
這種學(xué)習(xí)方法在實(shí)際操作中也存在一定挑戰(zhàn),由于深度學(xué)習(xí)通常是非線性的分析和多參數(shù)、多層次的分析,因此也與監(jiān)督學(xué)習(xí)一樣,需要更加大量的訓(xùn)練數(shù)據(jù)集合,這就需要多機(jī)構(gòu)的數(shù)據(jù)共享,并與電子醫(yī)療檔案相聯(lián)系,利用所獲得的龐大的醫(yī)學(xué)圖像大數(shù)據(jù),避免訓(xùn)練模型的誤差,提高精確度。
現(xiàn)今,人工智能技術(shù)飛速發(fā)展,在部分醫(yī)學(xué)領(lǐng)域也有所突破,這種技術(shù)為心內(nèi)科醫(yī)生整合和分析龐大的醫(yī)學(xué)大數(shù)據(jù),并指導(dǎo)臨床治療提供了可行的辦法(圖1)。這種新技術(shù)的應(yīng)用將幫助人類在已有線索的基礎(chǔ)上揭開新的知識(shí),也將幫助臨床醫(yī)生更高效準(zhǔn)確地完成臨床實(shí)踐工作,而這些都有望縮短我們與精準(zhǔn)醫(yī)學(xué)之間的距離。與此同時(shí),隨著人口老齡化及城鎮(zhèn)化進(jìn)程的加速,中國心血管病危險(xiǎn)因素流行趨勢(shì)呈明顯上升態(tài)勢(shì),導(dǎo)致了高血壓、冠心病等心血管病的發(fā)病人數(shù)持續(xù)增加[28]。而在我國打造健康中國的大時(shí)代背景下,龐大心血管疾病患病人群的診斷與治療,越來越依賴數(shù)量眾多的基層醫(yī)院。但目前與大型醫(yī)院相比,基層醫(yī)院服務(wù)能力仍顯單薄,難以滿足廣大患者的基本醫(yī)療需求。而人工智能技術(shù)也正可以幫助醫(yī)生,很好地解決基層醫(yī)院醫(yī)生數(shù)量以及經(jīng)驗(yàn)不足的問題。這項(xiàng)技術(shù)通過學(xué)習(xí)海量的專家經(jīng)驗(yàn)和醫(yī)學(xué)知識(shí),建立深度神經(jīng)網(wǎng)絡(luò),在臨床中不斷完善,就可以協(xié)助基層醫(yī)生擁有專家的診斷能力,在未來為心血管疾病的高效化、精準(zhǔn)化防治帶來巨大幫助。
圖1