潘曉英,王 佳,劉 妮,劉星星,余慧敏,許康玲
(1.西安郵電大學 計算機學院,陜西 西安 710121;2.西安郵電大學 陜西省網絡數據分析與智能處理重點實驗室,陜西 西安 710121;3.美國德州大學 西南醫(yī)學中心,美國 達拉斯 75390)
隨著機器學習和深度學習技術發(fā)展的普及,已經為人們開辟了一個全新的研究時代,越來越多的數據和越來越強大的計算能力使得機器學習已經在不同領域得到了普及應用[1-3]。醫(yī)療健康領域對人工智能的需求也在不斷增加,目前,已經看到了智能應用在醫(yī)療健康領域的潛在好處,例如幫助臨床診斷疾病、確定癌癥部位、個性化治療,傳染病高發(fā)概率預測等方面[4-6]。尤其是最近幾年,機器學習及其在用于醫(yī)療大數據領域的應用引起眾多學者的極大關注,已成為大數據應用領域中非常重要的研究熱點之一,并取得了一系列重要進展。本文擬介紹醫(yī)療大數據的概念、來源及特點,探討機器學習及其用于醫(yī)療大數據在臨床及醫(yī)生決策中的應用,特別是在基因組學、電子病歷(electronic medical record,EMRE)、醫(yī)療影像數據分析、疾病預測和個性化醫(yī)療方面的研究成果進行深入的總結,并分析機器學習在臨床醫(yī)療中的局限性和面臨的挑戰(zhàn)。
近些年,隨著大數據概念的廣泛興起及應用,大數據與健康醫(yī)療相融合形成以醫(yī)療大數據為主要增長點的醫(yī)療新業(yè)態(tài),為醫(yī)療衛(wèi)生體制改革和完善起到重要促進作用,同時相關方面的應用也不斷改善著普通大眾醫(yī)療服務質量和水平。
醫(yī)療大數據的概念并沒有明確的表述和定義,其含義可以理解為醫(yī)生對患者診療和治療過程中產生的數據,包括患者的基本數據、電子病歷、診療數據、醫(yī)學影像數據、醫(yī)學管理、經濟數據、醫(yī)療設備和儀器數據等,這些數據大都是以患者為中心而得來的,同時通過分析這些數據被應用于臨床預測診斷、藥企藥物研發(fā)、公眾衛(wèi)生監(jiān)測、個人健康管理等方面服務于患者乃至全體民眾。針對醫(yī)療大數據的研究已成為當前大數據應用方面的重要熱點領域。
醫(yī)療大數據來源十分廣泛,任何與醫(yī)療相關的行為都可能產生相應的數據??偟膩碚f,當前的醫(yī)療大數據可以歸檔在以下4個框架中。
1)醫(yī)院內產生的信息
現代醫(yī)院基本實現了信息化,醫(yī)療大數據來源于醫(yī)療機構是最原始最基礎的醫(yī)療數據,包括患者院內掛號就醫(yī)過程中的個人信息、病患進行各種檢查的數據、圖像等信息,以及醫(yī)生對患者的診斷、開具處方、用藥記錄、病歷等信息,還有各種手術患者的手術記錄、住院信息、醫(yī)保數據等[7]。同時,醫(yī)院進行醫(yī)療研究和實驗室進行臨床驗證的一些數據,都是醫(yī)療大數據的重要來源。
2)制藥企業(yè)和藥物研發(fā)信息
制藥企業(yè)在藥物研發(fā)方面會產生大量的數據,從藥物靶點選取、化合物篩選、動物試驗,到臨床一期、二期、和三期試驗[8],制藥企業(yè)產生的用藥量、用藥時間、用藥成分、實驗對象反應時間、癥狀改善表象等大量數據。
3)臨床醫(yī)療研究和實驗室數據
國內外進行的臨床醫(yī)療研究在項目進行過程中會產生大量關于患者用藥時間、安全性、有效性等臨床數據,同時,各大醫(yī)學院高校實驗室在實驗中產生的數據,臨床和實驗數據整合在一起,構成了醫(yī)療大數據的一個主要來源[9]。
4)智能穿戴設備信息
隨著智能移動終端設備和移動互聯(lián)網的高速發(fā)展,便攜式的各種健康可穿戴設備逐漸進入人們的生活,各種健康設備通過“云+端”的方式收集用戶的生命體征信息,比如心率、呼吸、血壓、體溫、運動量等[10]。這些數據有利于用戶隨時了解自己的身體狀況,同時,這些數據也成了醫(yī)療大數據的重要組成部分[11]。
醫(yī)療大數據歸根結底也是大數據的一種,因此,具備大數據普遍所具有的大量、高速、多樣、價值(volume、velocity、variety value,4 V)即4 V特點[12]。除此之外,醫(yī)療大數據還具有如下幾個特點[13]。
1)多態(tài)性
醫(yī)療大數據具有形態(tài)多樣性,不僅包括類似體檢、化驗結果一樣的純數據,還包括如腦電信號、心電圖等信號,同時還有像B超、X線等的醫(yī)學圖像,甚至患者的病情描述的病例等文本也屬于大數據[14],這些都是醫(yī)療數據區(qū)別于其他領域數據的顯著特征。
2)不完整性
雖然醫(yī)院多數已經實現信息化,但在某些環(huán)節(jié),大量數據依然依賴于人工記錄,這就會導致數據中包含大量的缺失和偏差,另外,患者轉診或出院之后缺乏記錄和繼續(xù)跟蹤,使得數據變得不完整。
3)時間性
醫(yī)療大數據的時間性指的是患者的發(fā)病、就醫(yī)的過程是隨時間變化的,這些事件的發(fā)生有一個時間上的進度,另外,醫(yī)學檢測的心電圖等圖形圖像都是關于時間的函數,這些都屬于時間性的特點。
4)冗余性
冗余性指的是很多無關的、重復的數據,患者可能會到多個科室做多種檢查,就診和檢查過程所敘述的都是相似或者相同的話語,這些都會被記錄下來,這就造成了冗余性的特點。
醫(yī)療大數據本身是枯燥無用的,為了使數據有用,需要對數據進行分析、解釋和處理。因此,算法本身比數據更具有變革性,機器學習更適合于醫(yī)療大數據的應用。
機器學習是研究使計算機模仿人類的學習思考方式,讓計算機擁有自學習的能力,并將所提供的數據提供給各類算法訓練出模型,然后使用模型預測的一種方法。通過學習使計算機不斷更新和重組現有的認知方式,使其性能不斷改善提高[15-16],目前已在人工智能的各個領域取得很好的研究成果。機器學習放棄過去追求數據間因果的分析方式,主要使用歸納、綜合的方法,而不是演繹。
機器學習按照學習任務的不同可以分為有監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習和強化學習。
1)監(jiān)督學習
典型的有監(jiān)督學習[17]過程通過學習已標注的數據集的特征和結果建立模型,利用訓練完的模型對未知的數據進行預測。利用數據對象中提供訓練數據對網絡參數進行訓練,旨在找到一組合適的參數能使模型很好的擬合數據。
2)無監(jiān)督學習
無監(jiān)督學習[18]是對無標注的樣本信息進行學習。由于無法預先知道樣本的標簽,因而只能從原先沒有標簽的樣本集開始學習分類器設計。
3)半監(jiān)督學習
半監(jiān)督學習[19-20]的主要思想是利用標記的數據和未標記的數據所提供的信息,在標注數據較少的情況下,如何集合大量未標注數據來改善學習性能。其中,標記數據提供數據和標簽聯(lián)合分布信息,未標注數據提供數據分布信息。
4)強化學習
強化學習[21]源于最優(yōu)控制領域研究,考慮在主體與環(huán)境相互作用過程中,如何從獎勵/懲罰(稱為強化信號)中學習,構造主體最優(yōu)行動策略。例如利用強化學習將識別算法的結果反饋到分割中,評價分割效果,繼而實現圖像的智能分割。
通常簡單的預測任務可以用傳統(tǒng)模型例如logistic回歸來完成,而復雜的任務需要更復雜的模型如神經網絡等。復雜模型的訓練通常需要更多的例子。沒有預先確定的例子數量,但是,構建復雜模型至少需要成千上萬個例子。預測任務越復雜,通常需要的數據就越多。也有專門的方法如轉移學習來減少構建精確模型所需的訓練示例的數量。
2.3.1 決策樹
決策樹方法[22-23]是機器學習中的經典算法,也是數據挖掘的重要方法之一,該方法是利用樹形結構的特性來對數據進行分類的一種方法。決策樹的最大優(yōu)點是直觀,以樹狀圖的形式表現預測結果,而且這個結果可以進行解釋,決策樹主要用于聚類和分類方面的應用。
2.3.2 貝葉斯網絡
貝葉斯網絡(Bayesian network)[24-25]又稱信度網絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最有效的理論模型之一。適用于表達和分析不確定性和概率性的事件,應用于有條件地依賴多種控制因素的決策,可以從不完全、不精確或不確定的知識或信息中做出推理。
2.3.3 支持向量機
支持向量機(support vector machine,SVM)[26]是一種二類分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,即支持向量機的學習策略便是間隔最大化,最終可轉化為一個凸二次規(guī)劃問題的求解。主要用于解決模式識別領域中的數據分類問題,屬于有監(jiān)督學習算法的一種。
2.3.4 神經網絡
深層神經網絡至少具有兩個以上的隱藏層,而神經網絡提取信息的能力通常與神經網絡的層數有關,層數越多,神經網絡提取信息的能力越強,學習能力越強。因此,目前應用最廣、功能最強的神經網絡都是深層神經網絡,與之對應的是深度學習。復雜模型有多層感知器、卷積神經網絡(convolutional neural networks,CNN)和循環(huán)神經網絡(recurrent neural network,RNN)等。
1)多層感知器
神經網絡模型通常分為輸入層、隱藏層和輸出層3個部分,如圖1所示,多層感知器的重要特點就是根據各自需求來確定隱藏層所需層數,并且對于神經元的個數也沒有限制,是最基本的深度學習網絡結構。多層感知器由若干層組成,每一層包含若干個神經元。激活函數采用徑向基函數的多層感知器被稱為徑向基網絡。層與層通過神經元組成,不同層之間的神經元以通過訓練得到的“權重”形式相互連接。神經網絡模型的輸入層用于接收輸入數據;隱藏層則用于提取數據中的規(guī)律或特定的模式,這個過程稱為“學習”;輸出層則用于輸出神經網絡的計算結果。
圖1 多層感知器處理流程
2)卷積神經網絡
卷積神經網絡是多層感知器的變種,CNN的設計思想受到了視覺神經科學的啟發(fā),主要由輸入層、卷積層、池化層、全連接層和輸入層組成[27],如圖2所示。在進行圖像的特征提取時,先從原始圖像中選取合適的小塊區(qū)域作為訓練樣本,模型可以從小塊樣本中學習到一些特征,然后將這些特征作為濾波器與原始的圖像做卷積運算,從而得到原始圖像中不同特征的激活值[28]。卷積層能夠保持圖像的空間連續(xù)性并且可以降低網絡模型的復雜度,卷積核是卷積層的重要組成部分,主要用于自動提取輸入圖像的深層信息。對圖像的一個局部中不同位置的特征進行聚合統(tǒng)計稱為池化作用,其主要的作用就是下采樣,通過去掉Feature Map中不重要的樣本,池化的方法很多,如圖3所示,最常用的是最大池采樣和平均池采樣。最大池采樣就是在n×n的樣本中取最大值,作為采樣后樣本值,而平均采樣是選取樣本的平均值作為最后的樣本,與直接使用卷積后的特征相比,這些統(tǒng)計特征不僅可以降低特征向量的維度,減少分類的計算量,還可以擴充訓練數據,防止過擬合[29]。
圖2 卷積神經網絡示意圖
圖3 池化方法
3)循環(huán)神經網絡
在傳統(tǒng)的神經網絡模型中,從輸入層到隱含層再到輸出層,層與層之間是全連接,但是每個層內的節(jié)點無連接,這就導致其無法對時間序列上的變化進行建模。循環(huán)神經網絡的網絡則會對前面的信息進行記憶并應用于當前的輸出計算中,即隱含層之間的節(jié)點不再是無連接,并且隱含層的輸入不僅包括輸入層的輸出,還包括上一時刻隱藏層的輸出。此外,有別于傳統(tǒng)的機器學習模型中隱含層單元彼此之間對等,RNN中的隱含層從左向右是有時序的[30]。一條單向流動的信息從輸入層到達隱含層,與此同時,另一條單向流動的信息從隱含層到達輸出層,特殊情況下RNN會打破后者的限制,引導信息從輸出單元返回隱含單元,并且隱含層的輸入還包括上一隱含層的狀態(tài),即所謂的隱含層內的節(jié)點可以自連也可以互連[31]。
機器學習在醫(yī)療大數據中的應用非常廣泛,已經涉及到了診斷、治療及研究的方方面面,本文著重探討機器學習在基因組學、病歷、影像數據分析、疾病預測和個性化醫(yī)療方面的應用。
基因組學[32-33]是分子生物學的一個分支,主要研究包括以全基因組測序為目標的結構基因組學和以基因功能鑒定為目標的功能基因組學兩方面的內容。基因組學最終是為精準醫(yī)療服務的,目標是實施患者或特定人群的治療干預。即發(fā)現個體脫氧核糖核酸(deoxyribo nucleic acid,DNA)的變化是如何影響疾病風險的,并試圖找到背后的致病機理以便于研制出相應的靶向治療方案。目前,人工神經網絡在基因組信息學中的應用包括基因組序列分析、蛋白質的結構預測兩個層次。
3.1.1 蛋白質結構預測
神經網絡可以有效地學習蛋白質二級結構形成的復雜規(guī)律或模式,進而提取更多的信息,并將所得到的信息進行有效的預測。
Wang等人[34]在蛋白質二級結構預測中利用條件隨機場與淺層神經網絡結合的方式對蛋白質結構和功能進行研究。所得的模型框架不僅可以解決復雜的序列結構關系和相鄰二級結構之間的依賴性,而且可以作為通用模型框架來預測蛋白質的其他結構特性。實驗結果證明該方法大大優(yōu)于目前流行的預測因子。
Zeng等人[35]提出通過改變CNN的寬度、深度、池化層的結構來預測轉錄因子數據集中的DNA序列結合位點。結果表明改變CNN方法在學習豐富的高階序列特征(如二級基序和局部序列上下文)方面的優(yōu)勢。不僅演示了如何謹慎地構建序列基準數據集,使用控制潛在混淆效果的方法,這對于在競爭方法之間進行公平比較是至關重要的。而且,還探索了如何為這些學習任務建立足夠的訓練數據,創(chuàng)建了一個靈活的基于云的框架的方法。
Zhu等人[36]構造了一個新的深度神經網絡(deep neural networks,DNN)RDense模型,利用已有的核糖核酸(Ribonucleic Acid,RNA)序列和二級結構信息,引入從RNA二級結構中提取的成對概率特征作為輸入,然后將雙向長短期記憶(long short-term memory,LSTM)網絡和密集連接的卷積神經網絡相結合,學習蛋白質-RNA結合的偏好。對體外結合的預測優(yōu)于所有現有的其他方法,模型的準確性有顯著提高,具有更好地預測精度和可擴展性。
Zhang等人[37]提出了一種新穎的深度學習架構,該架構利用卷積神經網絡、殘差網絡和雙向遞歸神經網絡的整合協(xié)同作用來提高蛋白質二級結構預測的性能。由卷積濾波器和原始輸入組成的局部塊旨在捕獲局部序列特征。由門控遞歸單元組成的后續(xù)雙向循環(huán)神經網絡可以捕獲全局特征。所提出的深度網絡在基準CB513數據集上進行8態(tài)預測時,其準確度達到71.4%;并且通過這個模型進行的集成學習達到了74%的準確率,還在其他3個獨立數據集CASP10、CASP11和CASP12上評估了模型的泛化能力。這些預測性能優(yōu)于最新的其他方法。
經典的機器學習方法在處理復雜數據和捕獲特征之間的內在聯(lián)系方面有很大困難。最近的深度學習方法加快了計算速度并提高了預測精度,深度學習中的神經網絡可以挖掘數據上下文之間的關系以提取有效信息,在蛋白質結構預測這些研究領域取得了良好的成果。
3.1.2 基因組序列分析
Shiraishi等人[38]提出一種新的檢測體細胞突變的方法,該方法基于經驗貝葉斯框架來區(qū)分體細胞突變和測序錯誤,其使用來自多個非配對正常樣本的測序數據來估計模型參數。實驗證明該方法不僅在調用中等等位基因頻率的突變方面優(yōu)于現有的幾種方法,而且能夠準確調用微小腫瘤亞群內的低等位基因頻率(≤10%)的突變,從而可以破譯腫瘤標本中的精細亞結構。
Neda Tavakoli[39]提出將雙向深度LSTM網絡用于序列建模,作為一種執(zhí)行基于位置敏感散列(locality-sensitive hashing ,LSH),序列比對的方法。特別是使用深度雙向LSTM網絡來學習LSH的功能,然后可以將獲得的LSH用于執(zhí)行序列比對。通過比對參考基因組上的短閱讀查詢,所提出的基于LSTM的模型證明了建模序列的可行性。使用引入的基于LSTM的模型,可以達到更高的精確度。
基因測序隨著成本的降低,用戶不斷增加,測序過程將產生大量的數據和樣本庫,通過機器學習高級算法能夠加速分析過程,使得測序更容易、更快捷、更準確,這些進展推動基因測序進入臨床過程,輔助醫(yī)生診斷疾病。
通過基因組學和蛋白質組學等組學分析技術測定個體疾病患者的遺傳學信息,并將其用于指導疾病的預防、診斷和治療過程,是精準醫(yī)學在臨床上最直接的應用。
電子病歷,也稱為計算機化的病案系統(tǒng)或稱基于計算機的病人記錄(computer-based patient record,CPR),是用電子設備(計算機、健康卡等)保存、管理、傳輸和重現的數字化的病人的醫(yī)療記錄,取代手寫紙張病歷。其內容包括紙張病歷的所有信息。電子病歷一般包括圖像和文字信息,而文字信息以半結構化文本或自由文本的形式存在。以電子病歷為基礎的醫(yī)療數據研究,具有重要的意義[40-41]。
電子病歷是結構化文本和非結構化文本相結合的一種知識數據,因此,可以通過自然語言處理的方法,對其進行信息的抽取,以得到有用的醫(yī)療知識。電子病例中的一些專業(yè)概念,在自然語言處理中可稱為實體,例如藥品名稱、治療名稱。實體和實體之間存在著語義關系,當兩個實體出現在一個句子中時,實體以及其對應的上下文就決定了這兩個實體之間的關系。實體關系抽取任務可以完成對給定的實體關系類型的判斷,針對電子病歷中的數據,就可以選擇合理的特征來對實體之間的關系實現有效的甄別。
Cui等人[42]提出了一種使用預測任務指導的健康記錄的聚合方法,構建各種表征學習模型的訓練語料庫,和無監(jiān)督的方法相比,尤其是在有限的訓練樣本情況下,有更好的預測能力。
Li等人[43]提出了一種將雙向長-短時記憶網絡和注意力機制相結合的深層神經模型。利用該模型從2018年中國知識圖譜和語義計算會議中文電子病歷語料庫中識別出了5種類型的臨床實體,雙向長-短時記憶網絡和注意力機制相結合的深層神經模型最終獲得了比其他廣泛使用的模型更好的性能,F-分值為85.79%。
Zhang等人[44]利用支持向量機模型對紐約市診所獲得的電子病歷進行癌癥數據的分類。從EHRs中提取的醫(yī)療記錄利用訓練支持向量機模型來進行癌癥分類。該模型以每例100份病歷為訓練樣本,對10種不同類型的癌癥數據的預測準確率為86.2%,對3種癌癥的預測準確率為97.33%,對每種癌癥的預測準確率采用病歷均為400份。
Ling等人[45]將半監(jiān)督學習框架應用于EMR-California cancer Registry(CCR)數據。從患者病例中提取出轉移性疾病的信息來推斷類別標簽,訓練一個用于檢測轉移性乳腺癌的邏輯回歸模型,總體達到了0.87%的準確率。實驗結果表明,通過機器學習,對電子病例搜集到的患者信息進行特征選擇或融合,能有效提高病情預測的準確率。
電子病歷中蘊含著海量的有價值信息,對電子病歷的挖掘可以極大地提高醫(yī)療診斷效率,提高臨床診斷的及時性、準確性,還可以改善預后、降低醫(yī)療成本,為互聯(lián)網醫(yī)療提供便利。
目前,醫(yī)學影像[46]的研究主要集中在兩個方面,一是醫(yī)學影像處理研究包括醫(yī)學影像的增強、分割、配準、融合以及3維(3-dimensions,3D)重建等,這些技術為醫(yī)學影像數據應用提供技術支撐。二是醫(yī)學圖像的分析,通過對醫(yī)學影像的模式識別與分類,實現對醫(yī)學圖像的自動標注,并根據圖像的特征及標簽為圖像建立索引,以實現后期用戶的圖像檢索任務。
3.3.1 圖像分割
醫(yī)學圖像分割是醫(yī)療影像數據處理和分析的重要步驟,由于醫(yī)學影像其本身的復雜性和特殊性,一般的圖像分割難以直接用于醫(yī)學影像,并且醫(yī)療圖像分割技術的準確性能夠為醫(yī)生在臨床上提供輔助,其重要性不言而喻。
為了提高醫(yī)學圖像分割的精確性和魯棒性,劉辰等人[47]提出了一種基于改進卷積神經網絡的醫(yī)學圖像分割方法,解決了現有3D卷積網絡計算量大的問題,利用2維(2-dimensions,2D)序列在MRI圖像中實現三維醫(yī)學圖像精確分割。該方法首先使用非對稱卷積層和空洞卷積對圖片進行編碼,獲取多尺度信息,再采用雙向卷積LSTM網絡對冠狀面、矢狀面和橫斷面3個視圖下分別對2D切片序列進行分割,然后將3個視圖的分割結果進行集成,在編、解碼部分之間使用采用雙向LSTM網絡,對單視圖切片序列間的空間信息進行充分挖掘,提高了分割精準度,得到最終的結果。
Opbroek等人[48]提出了一種圖像分割的轉移學習方法,該方法可以對使用不同MRI掃描儀和/或成像協(xié)議獲取的圖像進行監(jiān)督分割。當只有少量的訓練數據時,遷移學習大大優(yōu)于常規(guī)的有監(jiān)督學習方法,最大程度地減少分類錯誤達60%。
Opbroek等人[49]之后研究內核學習減少訓練數據與測試數據之間差異,并探索內核學習對圖像加權的附加價值。提出了一種新的圖像加權方法,將訓練數據與測試數據之間的最大平均差異降至最低,從而實現圖像權重和內核的聯(lián)合優(yōu)化。通過內核學習將圖像加權和特征表示轉移相結合,該方法使用不同于測試數據集的異構訓練數據進行監(jiān)督分割,所提出的方法可以應用于廣泛的醫(yī)學圖像分割任務。
Ronneberger等人[50]提出了一個CNN框架U-net。其中U-net是上采樣和下采樣層體系結構的組合。U-net能夠支持少量的數據訓練模型,并且通過對每個像素點進行分類,最終的實驗結果表明能夠獲得更高的分割準確率,速度更快。隨后?i?ek等人[51]提出從稀疏注釋的立體數據中學習3D分割的網絡,使用的網絡通過使用3D操作替換2D操作擴展了之前的U-net框架。該實現執(zhí)行動態(tài)彈性形變,可以在訓練期間對數據進行有效的增強,且該網絡不需要進行預訓練。
Milletari等人[52]提出了一種由U-net而來的全卷積神經網絡的3D圖像分割方法V-Net,并且引入了一個新的目標函數,當背景像素和前景像素的數量嚴重不平衡時,使用Dice損失層不需要重新采樣,可以用于二進制分割任務。
Drozdzal等人[53]使用了殘差塊,研究了長跳連接和短跳連接與全卷積網絡(fully convolutional networks,FCN)圖像分割的影響。采用一種更高級的U-net變體進行分割。在網絡中長跳躍可以在網絡淺層給梯度流動提供短路經,加上短跳躍連接,能夠增加收斂速度,可以訓練更深的網絡。
Andermatt等人[54]提出了一種監(jiān)督式深度學習方法,以自動分割3D體積的生物醫(yī)學圖像數據。其中RNN神經網絡的主要層由多維門控循環(huán)單元組成,進而進行MRI圖像分割。實驗結果表明該技術在速度、準確性和記憶效率方面對流行的腦部分割挑戰(zhàn)數據集都處于領先地位。
Poudel等人[55]提出了一個遞歸全卷積網絡,該遞歸全卷積網絡可以從整個2D切片堆棧中學習圖像表示,并且能夠通過內部存儲單元利用切片間的空間依賴性。簡化了分割流程,從而大大減少了計算時間。研究表明,該遞歸全卷積網絡可以產生最先進的結果,并且可以大大改善心臟頂點附近的輪廓。
將深度學習應用到醫(yī)療圖像分割領域,采用改進的CNN方法、FCN、U-net、RNN方法都有效地提高了圖像分割的準確率。雖然目前醫(yī)療圖像分割的效果良好,但醫(yī)學這個特殊的領域對圖像分割的要求仍需要向更自動、精確、快速方向發(fā)展的。隨著計算機視覺領域的研究以及生物醫(yī)學工程發(fā)展,這些領域的研究結果也將促進分割算法的研究。
3.3.2 圖像識別
醫(yī)學圖像中包含著大量的反映人體健康水平的信息,目前這部分數據主要依靠人工進行分析,易受主觀因素的干擾且效率不高,容易造成數據資源的浪費。深度學習通過多層非線性變化,從海量數據中自動提取抽象特征,既消除了主觀因素的影響又能提取到更加高級的抽象特征。
Sarraf等人[56]采用CNN和LeNet-5網絡,對阿爾茨海默病腦與正常健康腦進行了分類,并且成功地將阿爾茨海默病患者的功能性MRI數據從正常對照組中分類,訓練數據的測試數據準確率達到96.85%,這種方法還能夠擴展到更復雜的系統(tǒng)。
Yan等人[57]提出一種深度學習框架,通過CNN模型在圖像上自動挖掘局部信息,無需手動增加標簽,主要應用于電子計算機斷層掃描(computed tomography,CT)等,即二維圖像識別,在增強學習階段,具有良好的魯棒性,準確度達到92.23%。此框架也可以擴展至三維卷積神經網絡中,應用于復雜的3D建模。
Setio等人[58]提出了一種使用多視圖卷積網絡的新型肺結節(jié)檢測CAD系統(tǒng),利用多流CNN,使用專用的融合方法對其輸出進行組合以獲得最終分類,避免了在降低假正率階段的人工提取特征和分類。
Li等人[59]提出基于CNN的轉移學習,將不同的預訓練CNN模型的參數植入到域轉移的CNN中進行訓練,將經過預訓練的CNN模型用作特征提取器,將最后一個完全連接層的輸出與支持向量機結合用作特征,以解決分類任務。結果表明轉移學習在數據有限的情況下促進醫(yī)學領域使用CNN。
Li等人[60]提出了一種新型的基于多層隱藏條件隨機場的宮頸組織病理學圖像分類模型,以使用弱監(jiān)督學習策略對宮頸癌的良好、中度和差度分化階段進行分類。實驗結果表明該模型不僅具有較高的準確性,且一張圖像的平均測試時間為1.64 s,顯示了基于多層隱藏條件隨機場的宮頸組織病理學圖像分類模型和方法在實際臨床領域中的可行性。
Codella[61]提出了一種識別黑素瘤的方法,主要利用卷積神經系統(tǒng)和SVM來進行識別。所提出的方法能夠在域內進行無監(jiān)督學習,以及從自然照片域進行特征轉移,從而消除了目標任務中需要注釋數據來學習良好特征的需求。
Cheng和Li等人[62]提出了一種基于多模型3D卷積網絡相結合的分類方法,建立了深度3D卷積CNN,構建多尺度3D卷積自動編碼器,與上層全連接層相結合,用于阿爾茨海默病診斷中的圖像分類。提出的多模型卷積神經網絡在預處理中不需要分割,實驗結果表明,與單個卷積網絡相比,所提出的方法分類的準確性更高。
目前,對醫(yī)學圖像進行識別主要的研究領域集中在特征提取與識別方法兩個方面。神經網絡依然是主流的醫(yī)學圖像識別方法,其在自適應、容錯率、學習能力以及魯棒性方面有著良好的表現,在處理多維圖像時依然有進一步研究價值。
3.3.3 圖像配準
在影像分析中,經常需要比較不同患者的影像,或將同一患者在不同時間、不同影像設備上取得的醫(yī)學影像進行疊加和比較。這就需要圖像配準把不同影像映射到同一個空間,使得影像里的每個像素都一一對應起來。
在傳統(tǒng)的圖像配準方法中,首先要定義圖像相似性的測量方法,再選擇一個空間變換的函數或模型,然后,用優(yōu)化方法計算空間變換的參數,使變換后的源圖像和目標圖像之間相似度最大?;谟跋耦愋?,圖像配準包括單模態(tài)和多模態(tài)配準?;诳臻g變換的方法,圖像配準分線性配準和非線性配準。對于非線性變換,由于要優(yōu)化的參數非常多,配準一組3D影像往往非常耗時?;谏疃葘W習強大的學習能力,不同的深度學習模型被用于解決圖像配準的問題。
Cao等人[63]提出一種CNN的回歸模型,直接在輸入的源圖像通過插值算法計算圖像空間點的位移,輸出區(qū)域中心點配準后的位移。
卷積神經網絡可以根據輸入的源圖像和目標圖像對應的區(qū)域,輸出區(qū)域中心點配準后的位移。通過計算眾多圖像空間點的位移,整幅圖像的空間變換就可以通過插值計算出來。
Li和Fan[64]提出了一種全卷積網絡的圖像配準算法,通過自監(jiān)督學習框架匹配圖像之間的空間變換,進行圖像快速、精準匹配。該方法可用于3D結構MRI圖像的配準。
Yang等人[65]介紹了Quicksilver,一種快速變形的圖像配準方法,將重點放在大變形二形度量映射模型的預測上。該方法不僅預測變形二形度量映射模型的的動量參數化,而且,在保持變形二形度量映射模型的理論特性的同時能夠逐塊預測策略。其中引入了一個新的校正網絡,可以大大提高現有預測網絡的預測精度。
Miao等人[66]提出了用于實時2D/3D配準的CNN)回歸PEHL方法,引入了3種算法策略LIR、HPR和PSP等3種算法。對所提出的方法進行定量評估,表明與基于強度的方法相比,該方法在提供高度精確的實時2D/3D配準和擴大的捕獲范圍方面均具有明顯的優(yōu)勢。
圖像配準的發(fā)展趨勢從部分依靠深度學習到完全依靠深度學習,可看出深度學習在圖像配準任務上有巨大的作用與潛能,但是,數據訓練集匱乏依然是影響配準方法研究的一個問題。雖然在配準方法研究上已經取得了一些成就,但醫(yī)學圖像配準依然是目前尚未解決的經典問題,還有很大的研究空間。
隨著機器學習技術的發(fā)展和機器學習算法的不斷改進,結合醫(yī)療大數據對于疾病的輔助預測和診斷越來越準確,對于醫(yī)生早期發(fā)現和診斷疾病具有極其重要的意義。
Weng等人[67]將隨機森林、邏輯回歸、梯度增強機、神經網絡等4種機器學習算法對來自英國家庭的378 256名無心血管疾病患者的常規(guī)臨床數據進行10年來首次心血管事件預測,結果發(fā)生了24 970例心血管事件,占比6.6%。與已建立的風險預測算法相比,機器學習算法改進了預測準確率,其中隨機森林算法提高了1.7%,邏輯回歸算法提高了3.2%,梯度增算法強提高了3.3%,神經網絡提高了3.6%。神經網絡算法還預測了4 998/7 404例和53 458/75 585例非病例,與現有其他算法相比,正確預測了355名,準確率提高了7.6%患心血管疾病的患者。機器學習顯著提高了心血管風險預測的準確性,增加了確定哪些患者可以從預防性治療中受益,同時避免了不必要的其他治療。
Ho等人[68]利用神經網絡模型對肝癌患者行切除手術后1年、3年、5年無疾病生存史的80%的患者數據進行預測,同時驗證組邏輯回歸采用和Dlaunay triangulation,DT)模型對剩余20%的病例進行預測,以區(qū)域受試者工作特性曲線作為評價3種模型的性能指標,結果表明,與傳統(tǒng)方法相比,人工神經網絡提供了準確的預測。
Shi等人[69]以1 271例主要顱腦損傷患者的格拉斯哥昏迷指數、氣管插管情況、年齡、收縮壓、呼吸頻率、脈搏率、損傷嚴重程度評分及預后為基礎,采用邏輯回歸和人工神經網絡模型進行比較。分別采用配對T檢驗計算和比較接收者工作特性曲線下面積、Hosmer-Lemeshow(HL)統(tǒng)計量和準確率。實驗結果表明,人工神經網絡在識別和校正兩個方面都明顯優(yōu)于邏輯模型,但在精度上表現欠佳。
Sangwon等[70]提出優(yōu)化深度學習算法的參數來預測傳染病,通過比較DNN和長短時記憶學習模型與自回歸綜合移動平均學習模型在預測未來一周3種傳染病時的性能。實驗結果表明,深度神經網絡和LSTM模型的性能優(yōu)于回歸綜合移動平均學習模型模型。在預測水痘時,前10名的深度神經網絡和LSTM模型的平均性能分別提高了24%和19%。當傳染病傳播時,DNN模型穩(wěn)定,LSTM模型更準確。
Edward等[71]提出利用深度學習對電子健康檔案中事件間(某些時間標記時間如疾病診斷、藥物訂單、程序訂單等的時間關系進行建模,觀察模型是否能夠提高預測心力衰竭的初始診斷性能,通過對3 884例心力衰竭病例和28 903例作為初級護理患者的對照預測。使用門控遞歸單元的遞歸神經RNN模型經過12~18個月的病例和對照觀察窗口,將模型性能指標與正則化邏輯回歸、神經網絡、支持向量機和k近鄰分類器方法進行比較。RNN模型的曲線下面積優(yōu)于其他方法,當使用18個月的觀察窗口時,RNN模型的的曲線下面積顯著高于基線方法。因此,利用時間關系建立的深度學習模型在12~18個月的短觀察窗口內可提高模型的檢測效果。
Esteban等[72]提出了一種基于遞歸神經網絡(RNNs)的方法,對柏林Charite醫(yī)院收集的關于接受腎移植患者的完整信息數據庫進行預測,預測其在6~12個月內是否會出現腎臟排斥、腎臟丟失和患者死亡等3個終末點。實驗結果證明基于門控循環(huán)單元開發(fā)的RNN為這項任務提供了最佳的性能,優(yōu)于其他模型。
綜上所述,可以看出,機器學習利用醫(yī)療大數據用于疾病預測與其他算法相比,有較為顯著的優(yōu)勢和較高的準確率,基于機器學習建立的預測模型也優(yōu)于其他模型,在疾病預測方面,是值得進一步研究和推廣應用領域。
精準醫(yī)療是通過基因組、蛋白質組等組學技術和其他前沿技術,依據患者內在生物學信息及臨床特點,在分子學水平為疾病提供更加精細的分類及診斷,從而對患者進行個性化精準醫(yī)療的一種新型醫(yī)療模式。
對于個體而言,大數據就是全數據,通過集中全部診療信息、體檢信息形成個體的全健康檔案,可以使患者得到更有針對性的治療方案。
Parisa等[73]提出一種在智能手機上能夠運行的輔助卡路里測量系統(tǒng),該系統(tǒng)可以通過對食物拍照自動測量卡路里攝入量,同時采用深度卷積神經網絡對10 000幅高分辨率食物圖像進行分類,經過系統(tǒng)訓練,實驗結果表明,該方法對單個食物分量的識別正確率為99%,這一系統(tǒng)能夠有效幫助患者和醫(yī)生在同與飲食相關的疾病中得到好的建議。
Shirin等[74]提出一個用于對癡呆癥患者持續(xù)監(jiān)測的技術輔助監(jiān)測系統(tǒng),同時開發(fā)了機器學習算法用于分析系統(tǒng)監(jiān)測的環(huán)境數據之間的相關性,以便監(jiān)測和促進癡呆患者的身體健康,使用從癡呆患者家中收集的感官數據進行評估,用于檢測患者日常生活的任何變化,同時結合一種分層信息融合方法進行健康管理,實驗證明,所提出的技術能夠識別激動等不尋常模式,準確率高達80%。
Georgios[75]分析了個性化/精確醫(yī)學需要考慮多種異質性參數,如社會人口統(tǒng)計學、基因變異性、環(huán)境和生活方式等因素。提出利用深度學習獲得或開發(fā)高精度、多模式的預測模型,并將模型應用于大型、多模態(tài)數據將其轉換為決策支持工具,實驗證明,基于深度粗惡習的模型可以帶來前所未有的結果,匹配甚至提高基于直觀和非直觀疾病描述的最新預測/檢測率。這些結果為深度學習在個性化醫(yī)療的方面應用帶來了巨大的社會經濟效益。
Xiang等[76]提出利用公共數據庫中200多名肺腺癌(LUAD)患者的總生存時間和多個特征信息,采取支持向量機來預測多組患者特征的癌癥預后,用以指導個性化醫(yī)療,實驗結果量化了各種患者特征在預測癌癥預后中的重要性和貢獻,顯示了深度學習在個性化醫(yī)療中的潛在重要性。這些觀察結果鼓勵為更多的特定特征集患者收集進一步的數據,以提供更準確的癌癥預后估計和個性化治療。
因此,針對不同人所患不同疾病,機器學習對個人所收集到的醫(yī)療大數據進行建模和處理,能夠提出針對個人有效的精準醫(yī)療和個性化醫(yī)療措施與建議,同時對個人進行健康管理有重要的參考價值。
目前,醫(yī)療數據的來源主要為醫(yī)療機構和互聯(lián)網。由于大數據不針對特定的問題而且采集的數據范圍廣、維度高、類型繁多,所以,醫(yī)療大數據技術的應用還面臨著很多問題。
1)數據質量
隨著醫(yī)療行業(yè)的快速發(fā)展導致其數據量的急劇擴增,而數據質量問題也隨之被重視,主要表現在數據不正確、數據不完整、數據不一致等方面[77]。醫(yī)療數據質量的高低,直接影響和決定著醫(yī)療數據和統(tǒng)計信息的使用價值[78]。
由于負責采集醫(yī)療數據的工作人員的主觀錯誤或者系統(tǒng)本身的設計問題,加之缺乏收集數據的統(tǒng)一標準,造成了許多不確定性。統(tǒng)計數據的分布在統(tǒng)計過程中可能會人為改變,從而導致估計出數據的分布扭曲或無法實現實際數據分布。這導致最終統(tǒng)計學習模式缺乏可靠性。
2)不確定的度量問題
目前,大數據模型本身還存在一定的誤差,精度不是很高,而醫(yī)院和醫(yī)生的要求卻非常精確,因此會導致其實用價值非常有限。同時,這種誤差的度量準則是否具有統(tǒng)計學理論的支持也值得商榷。
在傳統(tǒng)的生物統(tǒng)計學中,如果人們能夠在完整的統(tǒng)計理論的基礎上編制統(tǒng)計數據來準確地描述模型,那么該模型在小樣本情況下也能達到很高的置信度,因此,需要一種新的誤差測量準則。
3)數據共享及隱私問題
在醫(yī)療領域中使用機器學習和人工智能前需要具備大量的數據,最好擁有專業(yè)的數據庫,才能對數據進行預處理和模型的訓練,但是,往往由于隱私問題、記錄識別問題以及健康保險流通與責任法案的存在,很難實現專業(yè)的數據庫進行訓練學習[79]。
由于醫(yī)療健康數據不同于其他數據,這些數據的高度機密性就決定了一旦泄露,會有損患者的尊嚴和人格,而且無法彌補這些錯誤,其中基因遺傳數據是最重要的。其隱私保護需要每個從業(yè)人員的高度重視。
本文首先闡述了醫(yī)療大數據的基本概念,描述了其來源和特性,在此基礎上,探討了機器學習及類別,介紹了機器學習的模型,重點分析了機器學習在醫(yī)療大數據中的應用,包括基因組學、電子病歷、醫(yī)學圖像、疾病預測等,研究表明,深度學習的應用優(yōu)于傳統(tǒng)算法和人工判斷,具有廣泛深入的應用前景。
機器學習在醫(yī)療大數據中的應用優(yōu)勢明顯,但也存在著各種挑戰(zhàn),隨著機器學習算法的不斷改進,醫(yī)療大數據與其融合越來越密切,因此,挖掘醫(yī)療大數據中的有價值信息對于醫(yī)療領域發(fā)展特別重要,機器學習提供了另一種解決方式,有理由相信,隨著技術的發(fā)展,機遇將大于挑戰(zhàn),機器學習在醫(yī)療大數據中的應用必將前途光明。