王媛媛,周 濤,吳翠穎
(寧夏醫(yī)科大學 a.公共衛(wèi)生與管理學院; b.理學院,寧夏 銀川 750004)
?
深度學習及其在醫(yī)學圖像分析中的應用研究
王媛媛a,周濤b,吳翠穎a
(寧夏醫(yī)科大學 a.公共衛(wèi)生與管理學院; b.理學院,寧夏 銀川 750004)
深度學習被引入機器學習領域與大數(shù)據(jù)的完美結合加快了人工智能實現(xiàn)的步伐,近年來備受學術界和工業(yè)界的廣泛關注。從深度學習的3種經典模型出發(fā),主要做了5方面的工作:第一,針對深度信念網(wǎng)絡,從網(wǎng)絡結構(隱含層數(shù)、RBM結構、DBN級聯(lián)),學習算法(基本算法、優(yōu)化算法與其他方法結合),硬件系統(tǒng)(GPU,F(xiàn)PGA)三個方面進行總結;第二,針對卷積神經網(wǎng)絡,從網(wǎng)絡結構(輸入層、隱含層、CNN個數(shù)),學習算法,硬件系統(tǒng)三個方面進行歸納;第三,針對堆棧自編碼器,以時間為軸對其發(fā)展進行梳理,闡述相應自編碼器的方法改進;第四,從醫(yī)學圖像分割、醫(yī)學圖像識別和計算機輔助診斷3個方面詳細探討深度學習在醫(yī)學圖像分析領域中的應用;最后從大數(shù)據(jù)浪潮、模型構建、特征學習、應用拓展4個方面對深度學習的發(fā)展進行展望。
深度學習;深度信念網(wǎng)絡;卷積神經網(wǎng)絡;堆棧自編碼器;醫(yī)學圖像
深度學習是機器學習領域中一系列試圖使用多重非線性變換對數(shù)據(jù)進行多層抽象的算法,不僅學習輸入和輸出之間的非線性映射,還學習輸入數(shù)據(jù)向量的隱藏結構[1],以用來對新的樣本進行智能識別或預測。20世紀80年代末期,用于人工神經網(wǎng)絡的反向傳播算法的發(fā)明掀起了基于統(tǒng)計模型的機器學習熱潮,20世紀90年代,淺層學習掀起機器學習的第一次浪潮,這些淺層結構雖然相比于過去基于人工規(guī)則的系統(tǒng)展現(xiàn)了很大的優(yōu)越性,但對于處理復雜的問題,表現(xiàn)出特征學習能力不足、維數(shù)災難、易陷入局部最優(yōu)等缺點。針對上述問題,2006年,Hinton在《Science》上首次提出“深度學習”并掀起了機器學習的第二次浪潮,多隱層的網(wǎng)絡具有優(yōu)異的特征學習能力,學習得到的特征對數(shù)據(jù)有更本質的刻畫。2012年《紐約時報》披露了Google Brain項目,該項目用16 000個CPU Core的并行計算平臺訓練“深度神經網(wǎng)絡”,在語音識別和圖像識別中得到成功應用;2013年機器學習國際會議就音頻、語音和視覺信息處理的學習結構、表示和最優(yōu)化等方面進行討論[2];4月,《MIT Technology Review》雜志將深度學習列為2013年十大突破性技術之首;2013年百度成立了深度學習研究院,并實施“百度大腦”計劃;2015年,中科曙光推出深度學習一體機,并聯(lián)合中科院計算技術研究所和NVIDIA公司成立深度學習實驗室;深度學習在神經影像學[3]方面的突破對于醫(yī)學領域的發(fā)展至關重要。
鑒于深度學習優(yōu)異的特征學習能力和實際應用價值,本文主要總結了深度學習的三種模型:深度信念網(wǎng)絡(Deep Belief Network,DBN)、卷積神經網(wǎng)絡(Convolutional Neural Network,CNN)、堆棧自編碼器(Stacked Autoencoder,SAE)。針對DBN,CNN主要從網(wǎng)絡結構、學習算法和硬件系統(tǒng)三方面綜述研究進展,針對SAE以時間為軸梳理發(fā)展過程;然后對深度學習在醫(yī)學圖像分析領域中的應用進行詳細總結,最后從大數(shù)據(jù)浪潮、模型構建、特征學習、應用拓展四個方面對深度學習未來的發(fā)展進行展望。
1.1基本原理
DBN是無監(jiān)督學習下的深度結構概率生成模型,由多層神經元構成,顯性神經元用于接受輸入,隱性神經元用于提取特征,每一層從前一層的隱含單元捕獲高階數(shù)據(jù)的相關性。DBN的基本組成塊是受限玻爾茲曼機(RBM),層間單元是全連接關系,層內單元之間沒有連接關系。
RBM在給定模型參數(shù)θ條件下,可以使用能量函數(shù)來表示RBM中的可視單元v和隱層單元h的聯(lián)合分布
P(v,h;θ)=exp(-E(v,h;θ))/z(θ)
(1)
(2)
式中:P(v,h;θ)為玻爾茲曼分布函數(shù);z(θ)是一個歸一化因子;θ={ωij,bi,aj}。對于一個伯努利(可視)-伯努利(隱藏)RBM,其能量函數(shù)可定義為
(3)
條件概率可以表示為
(4)
(5)
其中:ωij為可視單元和隱單元的連接權值;bi和aj分別是對應偏置量,i和j為可視單元和隱層單元的數(shù)目;激勵函數(shù)一般是sigmoid函數(shù)。
1.2DBN改進
DBN作為一種無監(jiān)督特征學習復雜層次概率模型的方法,目前主要集中在網(wǎng)絡結構、學習算法、硬件系統(tǒng)3個方面的改進研究,如圖1所示。
圖1 深度信念網(wǎng)絡的改進
1.2.1網(wǎng)絡結構
深度信念網(wǎng)絡是由RBM堆疊而成,那么RBM的堆疊個數(shù)和結構的改變會構建不同的DBN,并且多個DBN級聯(lián)也會影響其性能。
1) 在DBN隱含層數(shù)的確定方面,目前主要依賴于先驗知識,其缺點是主觀性大,時間復雜度高。李晉徽提出瓶頸深度信念網(wǎng)絡[4],設定一個奇數(shù)層的多層神經網(wǎng)絡且最中間的神經元個數(shù)最少的一層作為瓶頸層,然后去除瓶頸層之后的網(wǎng)絡,原來的瓶頸層作為輸出層;潘光源[5]證明了RBM重構誤差與網(wǎng)絡能量的正相關定理,根據(jù)隱含層和誤差的關系,提出一種基于重構誤差的網(wǎng)絡深度判斷方法。
2)在DBN模型結構方面的研究主要是基于RBM結構的改進。期望能量受限波爾茲曼機[6]是將RBM函數(shù)逼近的學習性能通過負預期能量代替負自由能量計算輸出;數(shù)值屬性的DBN是在sigmoid單元中增加噪聲將輸入縮放到[0,1]區(qū)間,避免一般的輸入二值向量造成的信息丟失使分類效果降低的現(xiàn)象;卷積深度信念網(wǎng)絡是引入局部感受野和卷積操作,具有平移不變性并支持高效的自下而上和自上而下的概率推理;因素四通道條件限制玻爾茲曼機[7]即一個新標簽層和來自不同層的神經元結合建立四通道,實現(xiàn)回歸和分類。
3)在DBN級聯(lián)方面,深度信念網(wǎng)絡和級聯(lián)去噪自編碼器結合,即前兩層用去噪自編碼實現(xiàn),中間兩層用受限玻爾茲曼機來實現(xiàn),最后用邏輯斯特層作為分類層;Ping Liu提出由一組DBN構成的BDBN(Boosted DBN)[8]框架使得特征學習、特征選擇和分類器重建統(tǒng)一成一個循環(huán)的過程,特征被聯(lián)合微調同時被選擇形成一個強大的分類器。
1.2.2學習算法
DBN的學習過程包括無監(jiān)督預訓練和有監(jiān)督微調,學習算法是實現(xiàn)特定目標任務的基礎,本文從DBN基本學習算法、優(yōu)化算法和與其他算法的結合三方面進行闡述:
1)在基本學習算法方面,2006年,Hinton教授提出高效的RBM近似學習算法(CD)[9],即將原始RBM的學習算法中的概率分布差異度量用一個近似的概率分布差異度量取代;2008年Tijmen Tieleman[10]提出了PCD學習算法,既保持了CD的學習效率又具備更強的模式生成能力,隨后提出的快速持續(xù)對比散度算法,加快了運行速度;2009年開始出現(xiàn)了一系列基于回火的馬爾科夫鏈蒙特卡羅采樣算法的RBM學習算法,為學習率和無監(jiān)督訓練提供了高可靠性和強魯棒性;趙彩光[11]結合指數(shù)平均數(shù)指標算法和并行回火的思想改進CD訓練算法;Noel Lopes[12]提出了一種自適應步長技術以提高對比發(fā)散算法的收斂性。
2)對于優(yōu)化算法,其目的在于提高DBN的整體性能。L1和L2兩個不同正則項的選擇性應用[13]可確保表示的稀疏性和泛化能力;經粒子群優(yōu)化的DBNs模型可獲得更好的函數(shù)逼近效果;加入共軛梯度算法可加速訓練;基于連續(xù)判別訓練準則優(yōu)化DBN權值、狀態(tài)變換參數(shù)及語言模型分數(shù),使得DBN性能優(yōu)于基于框架準則的DBN;稀疏響應DBN[14]即數(shù)據(jù)的分布和由DBN的構建塊中定義的平衡分布之間的Kullback-Leibler散度(相對熵)被視為失真函數(shù),并且稀疏響應正則化誘導L1范數(shù)代碼被用來實現(xiàn)一個小代碼率進行多層次的抽象特征提取。
3) DBN與其他方法的結合表現(xiàn)在結合預處理方法、特征提取方法和分類器。對圖像進行歸一化處理輸入模型中;對圖像提取特征如LBP或進行Gabor小波變換并編碼作為輸入,從而學習數(shù)據(jù)更本質的特征;輸出層與其他分類器結合達到良好的識別效果。有判別力的限制玻爾茲曼機與線性變換結合[15]用于不變模式的識別,特征提取和模式分類同時實現(xiàn);極限學習機(ELM)[16]運用到 DBN 模型的訓練中,既保證學習準確性又提高學習速度。
1.2.3硬件系統(tǒng)
深度學習模型結構的復雜化必須以計算機硬件為基礎。高度可擴展的圖形處理單元(GPU)[12]并行執(zhí)行CD-K算法,加快了訓練速度;面向計算機集群的分布式內存計算方法[17]提升深度學習技術并行化學習效率;以多個副本異步并行計算的方式進行深度信念網(wǎng)絡模型訓練,明顯提高深度神經網(wǎng)絡的訓練效率,并具備良好的可擴展性。
2.1基本原理
CNN是一種有監(jiān)督學習的深度學習模型(如圖2所示),包含卷積層和子采樣層兩種特殊的結構層,通過結合局部感受野、權值共享、時間或空間亞采樣來實現(xiàn)對輸入數(shù)據(jù)的位移變化、尺度變化、形變變化的不變性。
圖2 卷積神經網(wǎng)絡的整體結構
卷積神經網(wǎng)絡的隱藏層是特征提取的核心,在卷積層,每個神經元的輸入與前一層的局部感受野相連,并提取該局部的特征。卷積層的形式
(6)
其中:I代表層數(shù);Mj代表輸入層的感受野;b代表偏置。在下采樣層,輸入的特征圖經過池化后其個數(shù)不變,輸出特征圖大小為原圖一半,下采樣層的形式
(7)
其中:p(·)為下采樣函數(shù);β為權重系數(shù);b為偏置系數(shù)。
2.2CNN改進
卷積神經網(wǎng)絡在二維圖像識別中展現(xiàn)了良好的容錯能力、并行處理能力和自學習能力,但其訓練時間過長,訓練速度過慢,本文從網(wǎng)絡結構、學習算法和硬件系統(tǒng)3個方面對CNN的改進進行總結(如圖3所示)。
圖3 卷積神經網(wǎng)絡的改進
2.2.1網(wǎng)絡結構
多輸入卷積神經網(wǎng)絡結構[18]將原數(shù)據(jù)樣本梯度信息(水平梯度、垂直梯度、兩個對角梯度)同時輸入卷積神經網(wǎng)絡,能更充分利用原始數(shù)據(jù)中隱含的特征表達;漸進式網(wǎng)絡擴展結構通過不斷調整訓練集來改變網(wǎng)絡結構,尤其加強訓練分類錯誤的數(shù)據(jù)集,從而提高分類精度;自適應級聯(lián)卷積深層神經網(wǎng)絡[19]用高斯分布來表示預測位置和真實位置的距離達到人臉校準,降低了復雜性、增加了穩(wěn)健性;三維卷積神經網(wǎng)絡模型[20]通過在空間和時序上運用三維卷積提取特征,基于輸入幀生成多個特征圖通道,將所有通道的信息結合獲得最后的特征表示;多重卷積神經網(wǎng)絡是由多個高識別率的小卷積神經網(wǎng)絡組成,易于調節(jié)參數(shù),可擴展性強。
2.2.2學習算法
對于優(yōu)化算法,在CNN的全連接層引入Dropout或DropConnect防止過擬合現(xiàn)象;采用糾正線性單元(Relu)[21]函數(shù)代替常用的sigmoid、使用隨機對角算法優(yōu)化訓練提高網(wǎng)絡收斂速度;基于Fisher準則[22]的深度學習算法在保持樣本類內距離小、類間距離大的同時也考慮誤差的最小化,使權值能更加快速地逼近有利于分類的最優(yōu)值,降低了時間復雜度并達到較好的識別效果。CNN在分類識別過程中與視覺注意模型、多尺度滑動窗口有效結合先對物體定位;與SVM[23]、隨機森林、徑向基網(wǎng)絡、Softmax分類器結合,挖掘本質信息再直接智能識別;在CNN中引入了遞歸神經網(wǎng)絡,先通過一級卷積神經網(wǎng)絡學習原始圖像的組合特征,再通過一級卷積和一級遞歸神經網(wǎng)絡分層提取特征,最后對特征向量進行分類。
2.2.3硬件系統(tǒng)
深度學習性能的提升,需要高計算密度的硬件設備支持。CPU由于其自身特點無法充分地挖掘 CNN內部的并行性;GPU可通過其巨型并行結構以相對低的代價實現(xiàn)高計算量;FPGA即現(xiàn)場可編程門陣列作為一種計算密集型加速部件,通過將算法映射到FPGA上的并行硬件進行加速;將一個深層CNN轉換成一個脈沖神經網(wǎng)絡(SNN)映射CNN到一個基于Spike的硬件架構[24]比基于FPGA硬件的CNN實施達到兩個數(shù)量級以上的高效率。
本文將堆棧自編碼器映射在一個二維空間中,縱軸以時間為序探索發(fā)展歷程,橫軸以方法改進作為指針綜述相應編碼器的進展,具體如圖4所示。縱觀時間軸的進程:以1986年Rumelhart提出的自動編碼器作為起點,2006年Hinton提出堆棧自編碼器則是轉折點,隨后提出稀疏自編碼器、降噪自編碼器、收縮自編碼器、卷積自編碼器、拉普拉斯自編碼器,每一種編碼器又以橫軸為向進行改進。
圖4 自編碼器的改進
2006年Hinton提出堆棧自編碼器,它是一種從無類標數(shù)據(jù)中分層提取輸入數(shù)據(jù)高維復雜的特征,得到原始數(shù)據(jù)的分布式特征表示并利用無監(jiān)督逐層貪心預訓練和系統(tǒng)性參數(shù)優(yōu)化的多層非線性網(wǎng)絡,根據(jù)不同任務的需要來調整參數(shù),穩(wěn)定性、可控性強,具有大規(guī)模并行、分布式處理、自組織和自學習的特點。
2007年,Benjio提出稀疏自動編碼器,即在自編碼的基礎上增加稀疏性約束條件,提高表示學習算法的魯棒性,增強數(shù)據(jù)的線性可分性,使得信息表述的全面性和準確率得到提高。稀疏自編碼器引入卷積神經網(wǎng)絡和池操作[25],降低計算成本,減少訓練復雜性;在SAE進行無監(jiān)督特征預訓練時引入散射小波變換[26]作為初始信號表示,計算出多階調制頻譜系數(shù),經過預訓練、有監(jiān)督微調進行識別。
2008年,Vincent提出降噪自動編碼器,在訓練數(shù)據(jù)中添加腐壞向量,通過最小化降噪重構誤差,從含隨機噪聲的數(shù)據(jù)中重構真實的原始輸入。將加權重建損失函數(shù)引入到去噪自動編碼器中,構造一種加權去噪自動編碼器(WDA)[27]和噪聲分類的語音增強的方法;多層降噪自編碼器與欠采樣局部更新的元代價算法結合[28],有效利用無標簽樣本、抗噪聲的特性,使組合模型具有代價敏感、降低不均衡性。
2010年,Salah提出收縮自動編碼器,對升維和降維的過程加以限制,其代價函數(shù)為
(8)
其中:λ是反映矩陣正規(guī)化程度的活躍參數(shù)。收縮自編碼模型試圖利用隱單元構建一些復雜非線性流形模型,由于原理復雜,構建和訓練模型難度較大,近年來對其研究較少。
2011年,Masci J提出卷積自動編碼器,學習圖像局部特征,通過權重實現(xiàn)共享,并添加卷積和池化操作,保留數(shù)據(jù)的空間位置信息。在堆疊卷積自動編碼器中引入自引導學習[29]并結合強大的時間緩慢約束從大量序列圖像塊中學習恒定表示以提高學習表示能力;堆疊的局部卷積自編碼器[30]利用貪婪逐層策略訓練堆疊的局部卷積自編碼器,梯度下降法用于訓練各個層,輸入數(shù)據(jù)的表示視為對象特征,從而提高了3D對象檢索性能。
2012年,Taylor深入探討了SAE與無監(jiān)督特征學習之間的聯(lián)系,闡述如何利用自動編碼器來構建不同類型深度結構。2013年Telmo研究了用不同代價函數(shù)訓練SAE的性能,為代價函數(shù)優(yōu)化策略的發(fā)展指明方向。2015年,Kui Jia提出一種新的無監(jiān)督流形學習方法—拉普拉斯自動編碼器(LAE)[31],從正則函數(shù)的學習框架出發(fā),使學到的編碼功能在數(shù)據(jù)點的局部有防腐性能,具有更好的泛化能力,當訓練樣本稀缺時,LAE優(yōu)于其他自編碼器。
基于深度學習模型結構和學習算法的不斷優(yōu)化,深度學習醫(yī)學圖像分析方面應用廣泛,本文主要從醫(yī)學圖像分割、識別、計算機輔助診斷三方面進行總結,以期為臨床醫(yī)護人員提供參考和幫助,也為輔助醫(yī)療和智慧醫(yī)療提供便利。
4.1醫(yī)學圖像分割
在醫(yī)學圖像分割方面,將深度學習算法與其他算法結合使用,CNN和連通分量算法結合用于掃描電鏡圖像分割,與隨機森林結合用于神經細胞圖像分割,基于超像素和卷積神經網(wǎng)絡的方法用于宮頸癌細胞的分割;基于導數(shù)和深度學習架構的檢索方法對心臟超聲圖像的左心室分割進行研究。深度卷積神經網(wǎng)絡用于多模態(tài)同強度的嬰兒腦部圖像的分割[32],三維CNNs對多模態(tài)圖像特征提取后對MRI腦腫瘤、膝關節(jié)軟骨進行分割都取得了進步,作用于MR圖像的前列腺分割對于診斷前列腺癌和前列腺癌的放射治療意義重大。
4.2醫(yī)學圖像識別
在醫(yī)學圖像分類識別中,將深度信念網(wǎng)絡用于腦電圖數(shù)據(jù)表現(xiàn)的積極和消極的情感分類;利用深度學習對基于超聲造影的良性和惡性肝臟局灶性病變進行分類[33],展現(xiàn)了準確性、敏感性和特異性上的優(yōu)越性;基于子集[34]的深度學習用于RGB-D對象識別,原始RGB-D圖像劃分為若干子集,從中學習更高級別的特征被級聯(lián)為最終特征進行分類,其精度顯著提高。限制玻爾茲曼機[35]的概率模型用于神經影像學的檢查以此來識別固有網(wǎng)絡,適用于分層和多模態(tài)的擴展數(shù)據(jù),為今后的神經影像學研究提供了前景;卷積深度信念網(wǎng)絡考慮到頻域空間變換數(shù)量的最小化[36],開辟了深度學習在三維圖像分析領域新的方向。
4.3計算機輔助診斷
在計算機輔助診斷方面,利用深度學習算法對前列腺病理圖像組織來源進行判斷、根據(jù)X光片和胸片的集群微鈣化表現(xiàn)檢測乳腺癌、利用卷積神經網(wǎng)絡對小細胞型肺癌輔助檢測都取得了較高的檢測率。利用深度玻爾茲曼機從PET/MRI多模態(tài)融合圖像中挖掘高層次潛在特征,對AD和MCI的診斷準確率可高達95.35%,85.67%[37];CNN用于胸片中胸管的檢測,得到了99.99%的準確度和特異性,開啟了深度學習用于人造物體檢測的先例[38];將降噪自編碼器用于從不完整的腦電圖EEG進行特征學習,使用Lomb-Scargle周期圖對不完整EEG頻譜能量進行評估[39];中科院金林鵬[40]提出導聯(lián)卷積神經網(wǎng)絡,并利用“平移起始點”和“加噪”增加訓練樣本數(shù),構造了心電圖分類模型,并取得83.66%的準確率。
1)大數(shù)據(jù)潮流。隨著大數(shù)據(jù)時代的來臨和存儲技術的發(fā)展,如何從海量數(shù)據(jù)中挖掘信息至關重要,所以充分利用大量的無標記數(shù)據(jù)、無監(jiān)督地進行特征學習賦予了深度學習無限的發(fā)展?jié)摿?,“大?shù)據(jù)+深度模型”將成為未來的研究方向。
2)模型構建。深度學習模型是具有多層隱含層的人工神經網(wǎng)絡,但并不是隱含層越多越好,網(wǎng)絡層數(shù)的確定和激活函數(shù)的選擇值得探討,并且隨著模型復雜度的不斷增加,如何衡量訓練復雜度和任務復雜度的關系、如何權衡模型規(guī)模與訓練速度、訓練精度之間的關系都是深度學習研究的方向。
3)特征學習。深度學習的“深度模型”是手段,“特征學習”則是目的,有效的訓練算法和連續(xù)的優(yōu)化策略、網(wǎng)絡結構參數(shù)設定和優(yōu)化對于特征選擇極其重要,算法自身和硬件系統(tǒng)的改進、與其他方法的融合、結合復雜推理表示學習系統(tǒng)、操作大量向量的新范式來代替基于規(guī)則的字符表達式操作等,都是特征學習能力提升的表現(xiàn)。
4)應用拓展。深度學習的廣泛應用將催生出多個領域的變革和跨越式發(fā)展,作為新一代信息科學的主流方法,在圖像識別、語音識別、計算機視覺等方面取得進步的同時更應拓寬應用范圍,對于智能設備、無人駕駛汽車、機器人等領域具有非常廣闊的應用前景,尤其對于醫(yī)學圖像的分析和計算機輔助診斷具有直接的現(xiàn)實意義。
深度學習已引起了各領域研究人員的廣泛關注,本文從深度學習的基本理論和醫(yī)學領域的應用出發(fā),詳細闡述了深度信念網(wǎng)絡、卷積神經網(wǎng)絡在網(wǎng)絡結構、學習算法和硬件系統(tǒng)3方面的研究進展和堆棧自編碼器隨時間發(fā)展的不斷改進,并從醫(yī)學圖像的分割、識別和計算機輔助診斷3方面總結了深度學習在醫(yī)學圖像分析領域中的廣泛應用,最后從大數(shù)據(jù)浪潮、深度模型構建、特征學習能力提升、應用拓展4個方面對深度學習未來的發(fā)展進行展望??傊?,借助大數(shù)據(jù)的潮流,結合深度學習自身潛力,爭取在醫(yī)學領域取得更大的進步并早日實現(xiàn)人工智能的初衷。
[1]AREL I,ROSE D C, KARNOWSKI T P. Deep machine learning-A new frontier in artificial intelligence research[J].Computational intelligence magazine,2010,5(4):13-18.
[2]MARKOFF J. Scientists see promise in deep-learning programs[N].The New York Times,2012-11-23.
[3]PLIS S M ,HJELM D R,SALAKHUTDINOV R,et al. Deep learning for neuroimaging: a validation study[J].Frontiers in neuroscience,2014(8):229.
[4]李晉徽,楊俊安,王一.一種新的基于瓶頸深度信念網(wǎng)絡的特征提取方法及其在語種識別中的應用[J].計算機科學,2014,41(3):263-266.
[5]潘廣源,柴偉,喬俊飛. DBN網(wǎng)絡的深度確定方法[J].控制與決策,2015,30(2):256-260.
[6]ELFWING S,UCHIBE E,DOYA K.Expected energy-based restricted Boltzmann machine for classification[J]. Neural networks,2015(64):29-38.
[7]MOCANU D C,AMMAR H B.Factored four way conditional restricted Boltzmann machines for activity recognition[J].Pattern recognition letters,2015(66):100-108.
[8]LIU P,HAN S Z,MENG Z B,et al. Facial expression recognition via a boosted deep belief network[C]//Proc. the 2014 IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2014:1805-1812.
[9]HINTON G. Training products of experts by minimizing contrastive divergence[J].Neural computation,2006,14(8):1771-1800.
[10]TIELEMAN T.Training restricted Boltzmann machines using approximations to the likelihood gradient[C]//Proc. the 25th International Conference on Machine learning. [S.l.]:IEEE,2008:1064-1071.
[11]趙彩光,張樹群,雷兆宜. 基于改進對比散度的GRBM語音識別[J].計算機工程,2015,41(5):213-218.
[12]LOPES N,RIBEIRO B.Towards adaptive learning with improved convergence of deep belief networks on graphics processing units[J].Pattern recognition,2014,47(1):114-127.
[13]MANSANET J,ALBIOL A,PAREDES R,et al. Mask selective regularization for restricted Boltzmann machines[J]. Neurocomputing,2015,165:375-383.
[14]JI N N,ZHANG J S,ZHANG C X. A sparse-response deep belief network based on rate distortion theory[J]. Pattern recognition,2014,47(9):3179-3191.
[15]JI N N,ZHANG J S,ZHANG C X,et al. Discriminative restricted Boltzmann machine for invariant pattern recognition with linear transformations[J].Pattern recognition letters,2014,45(1):172-180.
[16]YU W C,ZHUANG F Z,HE Q, et al. Learning deep representations via extreme learning machines[J]. Neurocomputing,2015,149:308-315.
[17]李抵非,田地,胡雄偉. 基于分布式內存計算的深度學習方法[J].吉林大學學報(工學版),2015,45(3):921-925.
[18]費建超,芮挺,周遊,等.基于梯度的多輸入卷積神經網(wǎng)絡[J].光電工程,2015,42(3):33-38.
[19]DONG Y,WU Y. Adaptive cascade deep convolutional neural networks for face alignment [J]. Computer standards & interfaces,2015(42):105-112.
[20]JI S,XU W,YANG M,et al. 3D convolutional neural networks for human action recognition[J]. Pattern analysis and machine intelligence,2013,35(1):221-231.
[21]SAINATH T N ,KINGSBURY B. Deep convolutional neural networks for large-scale speech tasks[J]. Neural networks,2015(64):39-48.
[22]孫艷豐,齊光磊,胡永利,等.基于改進Fisher準則的深度卷積神經網(wǎng)絡識別算法[J].北京工業(yè)大學學報,2015,41(6):835-841.
[23]NIU X X,SUEN C Y. A novel hybrid CNN-SVM classifier for recognizing handwritten digits[J].Pattern recognition,2012,45(4):1318-1325.
[24]CAO Y Q,CHEN Y,KHOSLA D.Spiking deep convolutional neural networks for energy-efficient object recognition[J].International journal of computer vision,2015,113(1):54-66.
[25]SU S Z,LIU Z H,XU S P,et al. Sparse auto-encoder based feature learning for human body detection in depth image[J].Signal processing,2015(112):43-52.
[26]LI S Z,YU B,WU W,et al.Feature learning based on SAE-PCA network for human gesture recognition in RGBD images[J]. Neurocomputing,2015(151):565-573.
[27]XIA B Y,BAO C C.Wiener filtering based speech enhancement with weighted denoising auto-encoder and noise classification[J].Speech communication,2014,60(2):13-29.
[28]胡帥,袁志勇,肖玲,等. 基于改進的多層降噪自編碼算法臨床分類診斷研究[J].計算機應用研究,2015,5(32):1417-1420.
[29]KUEN J,LIM K M,LEE C P. Self-taught learning of a deep invariant representation for visual tracking via temporal slowness principle[J].Pattern recognition,2015,48(10):2964-2982.
[30]LENG B,GUO S,ZHANG X Y,et al. 3D object retrieval with stacked local convolutional autoencoder[J]. Signal processing,2015(112):119-128.
[31]JIA K,SUN L,GAO S H,et al. Laplacian auto-encoders: an explicit learning of nonlinear data manifold[J]. Neurocomputing,2015(160):250-260.
[32]ZHANG W L,LI R J,DENG H T,et al. Deep convolutional neural networks for multi-modality isointense infant brain image segmentation[J]. NeuroImage,2015(108):214-224.
[33]WU K Z,CHEN X,DING M Y. Deep learning based classification of focal liver lesions with contrast-enhanced ultrasound[J].Optik-international journal for light and electron optics,2014,125(15):4057-4063.
[34]BAI J,WU Y,ZHANG J M,et al. Subset based deep learning for RGB-D object recognition[J]. Neurocomputing,2015(165):280-292.
[35]HJELM R D,CALHOUN V D,SALAKHUTDINOV R,et al. Restricted Boltzmann machines for neuroimaging:an application in identifying intrinsic networks[J]. NeuroImage,2014,96(8):245-260.
[36]BROSCH T,TAM R. Efficient training of convolutional deep belief networks in the frequency domain for application to high-resolution 2d and 3d images[J].Neural computation,2015,27(1):211-227.
[37]SUK H-I,LEE S-W,SHEN D G. Hierarchical feature representation and multimodal fusion with deep learning for AD/MCI diagnosis[J]. NeuroImage,2014(101):569-582.
[38]MERCAN C A,CELEBI M S. An approach for chest tube detection in chest radiographs[J]. Image processing,2014,8(2):122-129.
[39]LIA J H, STRUZIKA Z,ZHANGB L,et al. Feature learning from incomplete EEG with denoising autoencoder[J]. Neurocomputing,2015(165):23-31.
[40]金林鵬,董軍. 面向臨床心電圖分析的深層學習算法[J].中國科學:信息科學,2015,45(3):398-416.
責任編輯:閆雯雯
Research on deep learning and application on medical image
WANG Yuanyuana, ZHOU Taob, WU Cuiyinga
(a.SchoolofPublicHealthandManagement;b.SchoolofScience,NingxiaMedicalUniversity,Yinchuan750004,China)
Deep learning is introduced to the machine learning field and made it more close to artificial intelligence with the big data,in recent years it receives extensive attention from academia to the industry.In this paper, five aspects of work about deep learning are done. Firstly,it describes three parts including model structure(hidden layer,the structure of RBM,the number of DBN),learning algorithms(basic algorithms,optimization algorithm, methods combination)and hardware(GPU,F(xiàn)PGA) about deep belief network. Secondly, it also reviewes model structure(input layer,hidden layer,output layer),learning algorithms and hardware about convolutional neural network.Thirdly, it introduces the development of stacked autoencoder according to the timeline.Fourthly, application of deep learning focused on medical image analysis is discussed,including medical image segmentation,recognition and computer aided diagnosis.Finally,the development orientation is forecasted concentrated on big data,model building,feature extraction and application extension.
deep learning;deep belief network;convolutional neural network;stacked autoencoder;medical image
TN911.73
ADOI: 10.16280/j.videoe.2016.10.024
國家自然科學基金項目(81160183;61561040);寧夏自然科學基金項目(NZ12179;NZ14085);寧夏高等學校科研項目(NGY2013062)
2015-11-26
文獻引用格式:王媛媛,周濤,吳翠穎. 深度學習及其在醫(yī)學圖像分析中的應用研究[J].電視技術,2016,40(10):118-126.
WANG Y Y,ZHOU T,WU C Y. Research on deep learning and application on medical image [J]. Video engineering,2016,40(10):118-126.