任曉麗
(山西醫(yī)科大學 汾陽學院,山西 汾陽 032200)
醫(yī)學影像圖像是醫(yī)學概念的實體[1].近年來隨著硬件技術的創(chuàng)新(如MR、CT 等)、深度學習算法的出現(xiàn)及隨之而來的計算能力的指數級增長,醫(yī)學圖像處理取得了前所未有的進展.源于人工神經網絡的深度學習,主要通過建構大量的抽象層,將一些輸入的訊號映射到更高層,以模擬更高層次的抽象思維,其中較成熟的模型是卷積神經網絡(CNN)[2].圖像分割是醫(yī)學圖像定量分析及三維重構等處理中的關鍵步驟,是臨床診斷、圖像引導的外科手術和放射治療等的重要技術前提[3-4].得益于人工智能在醫(yī)學影像中的量化審查應用,目前醫(yī)學圖像的分割可大大減少傳統(tǒng)分割中的醫(yī)生繁重的工作量,同時也降低了基于傳統(tǒng)臨床醫(yī)學指標(如腫瘤大小、邊緣等)分割所產生的人為誤差,提高了分割效果.筆者根據醫(yī)學圖像特征及其分割的特殊性,分析CNN 的結構及變體的應用.
當今醫(yī)療領域圖像大幅增多(有輻射成像、基因序列、病理圖像等),已形成了“大數據”體量.不同圖像的優(yōu)缺點各異:有側重于機體形態(tài)結構展示的,有基于功能顯像的,后者可體現(xiàn)生物有機代謝的情況以及反映功能性的疾病,但一般來講功能性圖像的空間解析度要差.就模態(tài)而言,常見醫(yī)學圖像有二維X 射線圖像、X-CT、MR、PET、超聲以及病理圖像.基于功能性的臨床PET 圖像的信噪比低,空間分辨力不及其他結構性圖像,其自動分割具有一定挑戰(zhàn)性.
一個臨床結果變量往往對應高維度的特征變量.基于機器學習的醫(yī)學圖像分割方法以特征提取和分類器訓練為框架[5].圖像特征有多種:有各種形態(tài)特征(如器官、病灶等);有很多個一階灰度特征(如灰度直方圖等);以及灰度共生矩陣等.在不同機型、不同參數條件下所生成的醫(yī)學圖像特征有很大的區(qū)別,故需要通過標準化以減少圖像的維度上的差異.特征的提取反映了人們對圖像的相關特征的期望,對分割精度有很大的影響[6].早期的算法主要針對低層特征的提取:形態(tài)、幾何及形狀等,而圖像的中層特征能夠表達其較為全局的信息.神經網絡從原始圖像中學習得到低層特征,再通過線性或者非線性的組合學習到中層特征[7].特征選取后,一般需要進行歸一化處理,以均衡特征的權重,避免一些特征值很大的特征占據過大的權重,小值的特征占據過小的權重.
醫(yī)學圖像分割被看作是進行高通量圖像特征提取、數據分析及臨床決策的基礎[8].分割即把圖像分割成多個區(qū)域,每個區(qū)域內部有類似的性質(如灰度、顏色、紋理、亮度、對比度等).由于圖像像素比較單一,病變的部位、界限、大小、形狀等信息較模糊,醫(yī)學圖像分割是圖像分割領域的難題.分割目標有用于感興趣區(qū)域的提取,如研究解剖結構;用于人體器官、組織或病灶的尺寸、體積或容積的測量等.相對于自然圖像,醫(yī)學圖像的語義相對簡單、結構固定,如腦部CT、腦MRI 等都是一個固定的器官成像,分割中一般不涉及像素點的多分類信息,但是對器官或病變組織的特異和準確的分割精度卻至關重要[8].如對心臟的內包膜和外包膜進行分割,不正確或是不穩(wěn)定的分割將會直接影響心臟射血量的定量計算.另外醫(yī)學圖像缺少簡單的線性特征、具有較高的復雜性;及不可避免地存在隨機噪聲、信噪比相對較低;像素灰度分類具有不確定性及灰度的非均衡性.圖像中單一組織對應的圖像區(qū)域包含有限的像素,且往往伴有部分容積效應等,這些都會影響分割的精度.
人工神經網絡是生物神經網絡的一種模擬、近似:是基于信息的角度對人腦中神經元網絡進行抽象處理,構建不同的的網絡模式:依據人的大腦可視皮層分級存在,模擬人的視覺系統(tǒng)進行反復抽象和迭代[9].人體組織、病灶的復雜性使其相關信息數據的表達、分析及決策等具有復雜的非線性特征[9].多隱層的人工神經網絡對此具備強大的特征學習能力,當網絡的隱藏層為多層時即為深度學習,是機器學習的一大類算法[1].深度學習與圖像處理融合逐步形成了圖像處理領域的代表性學習網絡——卷積神經網絡(CNN)模型.
相對于一些傳統(tǒng)的醫(yī)學圖像分割方法,源于人工神經網絡的CNN 表現(xiàn)出以下優(yōu)勢.(1)非線性:非線性是自然界事物的普遍特征. CNN 使用一系列多重非線性變換對數據進行多重抽象,學習輸入和輸出之間的非線性映射,以及學習輸入數據向量的隱藏結構,以用來對新的樣本進行智能識別或預測.(2)全局性:作為一種多階段的、全局可訓練的人工神經網絡模型,CNN 網絡中不同的神經元進行廣泛鏈接、相互作用,而神經元的特征又影響整個系統(tǒng)的行為,利用不同單元間大量的鏈接可以模擬分析系統(tǒng)的整體性.(3)自學習能力:以層次化、級聯(lián)化的方式,對輸入的圖像矩陣從最低級的像素信息開始,逐層提取出重要的特征信息,同時抑制無關背景信息,再以上一層的抽象結果作為下一層的直接輸入,以獲得更高層次、更為抽象的特征,通過如此迭代分析系統(tǒng)的非線性、多樣性演化以及達到不同的穩(wěn)定平衡狀態(tài),進而實現(xiàn)自組織、自適應學習.
CNN 基本組成:輸入層、卷積層(包含特征圖和卷積核)和池化層(或取樣層)的組合、全連接層及輸出層,即構成了“輸入-隱藏處理-輸出”.其首要任務是特征提取.通過局部連接、權值共享,大大減少了計算的參數[10].一般每個神經元只需對局部感知:基于圖像的空間聯(lián)系,局部感知的像素聯(lián)系較為緊密,而距離較遠的像素則相關性較弱.共享權值(卷積核)的依據,是在圖像的一部分中學習到的特征可以與圖像的其他部分共享,其好處是可以減少網絡各層間的連接.卷積核可認為是局部視野,局部視野是CNN的最大優(yōu)點. CNN 對輸入數據進行前向傳播預測,執(zhí)行反向傳播算法進行網絡訓練,訓練過程中網絡參數沿判定結果誤差減小方向調整,卷積核權值調整過程就是圖像特征提取過程.卷積核的使用使得CNN 能夠提取較多維度和有代表性的特征.不同的卷積層提取輸入的不同特征:第一、二層主要提取邊緣、顏色等低層特征,之后每一層卷積將具體信息進行抽象,多個卷積層串聯(lián)操作,依次將上一層的抽象結果做抽象處理,因此每一個中間層都是一個更高層次的抽象,不斷提取高維度特征[10-11].
池化層在語義上把相似的特征予以合并,即通過聚合統(tǒng)計圖像中不同位置的特征,逐漸縮減輸入數據的空間維度,通過降低特征圖的分辨率來獲得空間不變性的特征,同時減少了卷積層間的連接數量,使神經元數量隨之減少,降低了網絡模型的計算量,使得對輸入空間的平移不變性特征對噪聲和變形具有魯棒性.全連接層則把前面卷積后抽象出來的特征整合,將全部特征圖組成特征向量,輸出為一個值以進行歸一,輸出層依據全連接層輸出的特征向量判定結果.
CNN 可從3 種維度進行分析:深度(網絡層數)、寬度(卷積層的通道數)以及分辨率.其中各層從不同角度以增強的方式表現(xiàn)原始圖像,層數愈多,表現(xiàn)形式愈抽象.一般來講網絡的深度所起的作用要大一些,網絡層數越多,特征表達能力越強[12].具體網絡要多深,這是個比較靈活的問題.并且網絡深度、特征圖數目、卷積核的大小需要選擇合適,網絡才易于訓練,同時也可避免過擬合,增加網絡的泛化能力.文獻[13]借助復合縮放的方法,將網絡深度、寬度和分辨率的關系量化平衡,提高了目標識別的準確性與效率.
CNN 的全連接層整合了前面卷積抽象出的諸特征,大大減少了特征位置對分類的影響,但同時也忽略了空間結構特性,由此Long 等提出了全卷積神經網絡(FCN),將全連接層改為全卷積層,在卷積神經網絡中保留了圖像特征原始位置,即保存了分割的位置信息[14]. CNN 結構的可拓展性很強.為改善醫(yī)學圖像分割的效果,CNN 的多數變體及組合是基于“信息共享”,擴大參與計算的圖像信息量,提高圖像的分割精度.
用低層細節(jié)信息補充深層抽象信息,完善分割細節(jié).Ronneberger 等提出了U 型語義分割網絡(U-Net):呈U 型對稱結構,思路與FCN 相似,使用編碼和解碼[15].同時U-Net 結構采用跳躍鏈接以共享底層與深層的信息.其流程簡單而言,輸入一幅圖,經過編碼(或下采樣),將圖像分解為不同層次的更小特征的組合,相應的操作類似于壓縮,之后再經過解碼(或上采樣),還原各層的特征圖,其中包含大量的通道特征,可向高分辨率層傳遞圖像上下文信息,以盡量還原出原來的圖像.
U-Net 拓撲結構一定程度上解決了醫(yī)學圖像數據量較少、邊界不清晰、灰度范圍大等問題,在醫(yī)學圖像分割中廣受歡迎,其編碼器模塊可提取圖像淺層的、低級的、細粒度等特征,以捕獲圖像上下文信息;而解碼模塊能表達圖像深層的、語義的、粗粒度特征,可預測目標位置及區(qū)域概率圖;通過跳躍連接將來自解碼器的高級語義特征圖和來自編碼器的相應尺度的低級語義特征圖結合,這樣通過合并共享低層、深層信息使得分割圖恢復邊緣等細節(jié)尤為精細.
U-Net 擅于細胞圖像和肝臟CT 圖像的分割.鑒于低層進行像素定位,高層進行像素分類,深入探究底層與高層間的特征關聯(lián)將大幅提升分割的精度.文獻[16]進一步強化了空間關系,通過在卷積層前邊添加雙邊濾波,有機結合空間域與像素值域的信息,精細地檢測圖像真實邊緣及細節(jié).
U-Net 中的跳躍連接直接將編碼的高分辨率特征與解碼的上采樣特征融合在一起,這僅僅是淺層信息的簡單整合,未充分利用更深層的信息,在高級與低級特征之間不可避免地產生了語義鴻溝.在保持U-Net 結構基礎上,U-Net++改進編碼器與解碼器之間的連接方式,在跳躍鏈接上添加卷積層,將深層特征信息進行上采樣引入淺層特征或者將淺層特征信息進行下采樣引入深層特征,以填壑編碼、解碼間的語義鴻溝.跳躍連接有短連接和長連接,前者的作用是實現(xiàn)整個網絡的反算,讓訓練得以進行,后者是基于U-Net 本身的長連接優(yōu)勢輸入圖像的至多信息,有助于彌補降采樣所帶來的信息損失.
U-Net++還將直接跳躍連接改進為嵌套的密集跳躍連接,以信息疊加的方式整合不同層次的特征,且最后一層特征圖含有豐富的空間和語義信息,文獻[17]以U-Net ++結構為基礎,結合最后一層特征,提取超聲胎兒頭部圖像特征,這一方法克服了之前的不足:利用卷積神經網絡直接提取胎兒頭部邊界像素關鍵點,因聲影等造成的頭部邊緣檢測不完整.
在醫(yī)學圖像分割中,不同尺度的特征圖顯示不同的信息.多尺度特征的結合是影響精度的重要因素之一.傳統(tǒng)的層疊式網絡基于一個個卷積層的堆疊,基本上每層只用一個尺寸的卷積核.實際上同一層的特征圖可以使用多個不同尺寸的卷積核以提取到不同尺度的特征,再進行融合,這樣挖掘到的信息尤為全面.醫(yī)學圖像分割對精度的要求頗高,故需充分利用多尺度特征信息.在U-Net3+結構中,編碼器和解碼器通過全尺度的跳躍鏈接,同時每個解碼層融合了來自編碼器中的小尺度、同尺度的特征、以及來自解碼器的大尺度的特征,可從全尺度范圍將不同尺度特征圖中的高級、低級語義相結合,即全尺度捕獲細粒度和粗粒度的語義、全尺度挖掘足夠的信息以進行更精確的分割[18].文獻[19]為克服深度卷積網絡分割對對抗性樣本的脆弱性.通過全局空間依賴關系和全局上下文信息,在CNN 基礎上,增加魯棒模塊,提高了肺和皮膚病變分割的穩(wěn)健性.
深度學習模式下,醫(yī)學圖像領域中CNN 模塊基于實驗架構,從大數據中學習識別圖像并預測結果的特定特征.一般是不同變體形式的CNN 可以很好地提取不同維度的特殊信息,進而在適宜的圖像目標分割中表現(xiàn)優(yōu)異,故現(xiàn)有的CNN 僅滿足于一些特定的醫(yī)學圖像分割項目.未來應考慮:(1)基于模型的架構、拓撲的結構及特殊的加成層,如何將CNN 與不同類型的機器學習模型進行比較或結合,以便于將特定結論推廣到各種成像模態(tài)和患者群體上[20];(2)以臨床需求為導向,選擇合適的臨床特征變量、模型算法,優(yōu)化參數以找出更好的有效特征,發(fā)揮醫(yī)學影像深度學習的很大潛力,以取得更好的評估效果[21].