孔令軍,王茜雯,包云超,李華康
(1.金陵科技學院,江蘇 南京 211169;2.南京郵電大學,江蘇 南京 210003;3.西交利物浦大學,江蘇 蘇州 215123)
作為機器學習的子領(lǐng)域,深度學習由于其高效的計算和處理高維非線性數(shù)據(jù)的能力已經(jīng)被廣泛應用于圖像處理領(lǐng)域[1]。截至今日,深度學習已經(jīng)在計算機視覺領(lǐng)域(Computer Vision,CV)做出了巨大的貢獻,CV的發(fā)展同時促進了醫(yī)學圖像分析的進步。通過運用神經(jīng)網(wǎng)絡,計算機設備可以高效地處理大量圖片信息,以輔助專科醫(yī)生進行診斷,從而可以緩解放射科醫(yī)生的壓力,減少誤診漏診概率,提高診斷效率,在醫(yī)療領(lǐng)域具有良好的發(fā)展前景[2]。
深度學習有別于其他編程算法的主要特點是通過神經(jīng)網(wǎng)絡對輸入數(shù)據(jù)進行特征提取,而不需要過多的人為參與。傳統(tǒng)的機器學習系統(tǒng)通常要通過專業(yè)人員對輸入數(shù)據(jù)進行人工特征提取,將原始的輸入數(shù)據(jù)轉(zhuǎn)化為系統(tǒng)能夠識別的形式,而深度學習減弱了對人工提取特征的要求,原始數(shù)據(jù)在通過神經(jīng)網(wǎng)絡之后,可以自主學習到有用的信息,使得系統(tǒng)可以得到最優(yōu)的輸出。
目前,醫(yī)學影像處理深受國內(nèi)外的重視。作為醫(yī)療影像處理過程中一個重點的研究方向,圖像分割可以有效分割出影像中的異常組織和結(jié)構(gòu),是進行合理評估以及給予病患恰當治療方案的條件,逐漸在醫(yī)學界發(fā)揮著越來越大的作用。圖像分割可以提取出影像圖像中的特定組織或結(jié)構(gòu),給醫(yī)生提供特殊組織的定量信息。圖像經(jīng)過分割,可以應用于各種場合,例如定位病變組織、實現(xiàn)精準注射以及組織結(jié)構(gòu)清晰化呈現(xiàn)等。
在醫(yī)生做診斷時,只需要對醫(yī)學影像中的部分組織或結(jié)構(gòu)進行分析,這部分圖像被稱為感興趣區(qū)域(Region of Interest,ROI),這些ROI通常對應于不同的器官、病理或者是其他的某些生物學結(jié)構(gòu)。醫(yī)療圖像分割的目的即為分割出影像圖片中的ROI,除去無用信息。到目前為止,國內(nèi)外已經(jīng)提出了很多醫(yī)學圖像分割方法,分割方法經(jīng)歷了從傳統(tǒng)的圖像分割法到基于深度學習的醫(yī)療圖像分割法的演變。
閾值分割法是傳統(tǒng)圖像分割方法中最基本的圖像分割法,因其計算復雜度小,易于實現(xiàn),且分割結(jié)果直觀而成為圖像分割方法中最為廣泛應用的分割法,圖像二值化分割公式如式(1)所示。閾值分割法中,如何選擇最佳閾值是該技術(shù)的核心所在。最廣泛使用也最具有代表性的閾值選擇法是1979年提出的OTSU方法[3],它是針對灰度圖像分割而提出的方法,通過最大類間方差自動計算閾值。
(1)
2008年,Moltz等人[4]通過閾值法對CT圖像中的肝臟腫瘤部分進行分割,其方法為:通過分析給定區(qū)域內(nèi)的灰度值,描繪出灰度值分布圖,根據(jù)該分布圖采用自適應閾值法[5]對圖像進行粗略的分割,隨后通過形態(tài)學對分割結(jié)果進行進一步的處理。閾值分割法沒有很好地利用好像素的空間信息,使得分割結(jié)果容易受到圖片內(nèi)噪點的影響,因此只適用于目標的類內(nèi)方差較小的圖像處理,比如指紋。
區(qū)域生長法是利用圖像灰度值的相似性,將相似像素或者相似子區(qū)域集合起來形成更大區(qū)域。區(qū)域生長法中較為著名的是分水嶺算法[6]。分水嶺算法由Vincent于1991年提出,該方法模擬地質(zhì)學中的地貌,將圖像中像素點的灰度值模擬為海拔高度,像素灰度值中的局部極小值模擬為谷底,局部極大值模擬為頂峰,谷底之間的邊界即為分水嶺。
區(qū)域分割法實現(xiàn)簡單,可以保證分割后的圖像在空間上的連續(xù)性,適用于分割連續(xù)的均勻小目標。其缺點是需要人為參與來選擇每個區(qū)域合適的種子點,且該算法對噪聲敏感,不適用于大區(qū)域的分割,可能導致過分割或者欠分割。
圖割法是一種基于圖論的圖像分割方法,通過建立一種概率無向圖模型來實現(xiàn)圖像分割。這種概率無向圖模型又被稱馬爾可夫隨機場。在傳統(tǒng)圖像分割法中,圖割法因其具有很好的魯棒性而被廣泛應用在醫(yī)學圖像分割中。圖割法中比較有代表性的方法是graphcut法[7],基本思路為建立一張加權(quán)圖,通過盡可能移除較小權(quán)重的邊,使得最終被劃分出的各個子圖不相連。
圖割方法魯棒性高,分割較為復雜的圖像也能得到很好的效果,但其具有較高的時間復雜度和空間復雜度,通常與其他傳統(tǒng)分割方法搭配使用。
傳統(tǒng)的圖像分割方法都需要分析待分割圖像前景與背景之間的差異,從而人為地從圖像的灰度、對比度及紋理等信息中的設計特征來進行分割,且分割過程會丟失掉圖像的語義信息,而深度學習技術(shù)解決了傳統(tǒng)圖像分割方法的局限性?;谏疃葘W習的醫(yī)療圖像分割法主要有基于全卷積網(wǎng)絡(Fully Convolutional Networks,F(xiàn)CN)的圖像分割方法、基于U-Net網(wǎng)絡的圖像分割方法以及基于U-Net++網(wǎng)絡的圖像分割等方法。
2.1.1 FCN
早期的深度學習圖像分割算法主要通過滑動窗口法進行目標的分割,滑動窗口法會產(chǎn)生大量的冗余候選區(qū)域,計算量大且很多計算是重復的計算,效率低下,且圖像塊的大小會直接影響分割的精度,具有一定的局限性。2015年Long等人[8]提出了FCN,由此,F(xiàn)CN代替了傳統(tǒng)的滑動窗口法,被廣泛應用到圖像分割領(lǐng)域。
FCN主要思想是搭建一個只包含卷積操作的網(wǎng)絡,輸入任意尺寸的圖像,經(jīng)過有效推理和學習可以得到相同尺寸的輸出。FCN的網(wǎng)絡結(jié)構(gòu)是一種編碼—解碼的網(wǎng)絡結(jié)構(gòu)模式,將經(jīng)典卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)中的全連接層替換為卷積層,從而使整個網(wǎng)絡主要由卷積層和池化層組成,因此稱為FCN。另外,網(wǎng)絡中設計了跳躍連接將深層網(wǎng)絡的全局信息和淺層網(wǎng)絡的局部信息連接起來,相互補償,如圖1所示。網(wǎng)絡結(jié)構(gòu)中,編碼器部分主要作用是提取圖像中的高維特征,圖像經(jīng)過卷積層和池化層后空間維度降低,而解碼器部分則對該輸出特征圖進行上采樣,將該特征圖恢復到與輸入圖像相同的尺寸,同時將提取到的高維特征映射到最終特征圖的每個像素,從而可以實現(xiàn)像素級別的圖像分割。
圖1 FCN結(jié)構(gòu)Fig.1 Architecture of FCN
相對于經(jīng)典的CNN網(wǎng)絡,F(xiàn)CN的優(yōu)點是對輸入網(wǎng)絡的圖像尺寸沒有限制,但其缺點也是不可忽視的,F(xiàn)CN采用的逐像素進行分類忽視了各個像素之間的聯(lián)系,沒有考慮全局上下文信息,且上采樣部分是進行了一次上采樣操作,直接將特征圖進行8倍、16倍、32倍擴大會忽視圖像中的細節(jié)信息,使結(jié)果較為模糊。
2.1.2 U-Net
除了FCN,醫(yī)學圖像分割領(lǐng)域中另一個經(jīng)典網(wǎng)絡為Ronneberger 等人[9]提出的 U-Net 網(wǎng)絡,也是醫(yī)學圖像分割任務中應用最為廣泛的網(wǎng)絡。U-Net網(wǎng)絡是在FCN基礎(chǔ)上做了改進的版本,其網(wǎng)絡結(jié)構(gòu)與FCN的結(jié)構(gòu)相似,沒有全連接層,由卷積層和池化層構(gòu)成,同樣是分為編碼器階段和解碼器階段。U-Net結(jié)構(gòu)如圖2所示,網(wǎng)絡結(jié)構(gòu)主要包括下采樣部分、上采樣部分以及跳躍連接部分,上采樣和下采樣部分對稱,網(wǎng)絡整體形成U型結(jié)構(gòu)。下采樣部分主要作用為提取圖像中的簡單特征,而上采樣部分經(jīng)過了更多的卷積層,感受野更大,提取到的特征是更為抽象的特征,跳躍連接融合了下采樣結(jié)構(gòu)中的底層信息與上采樣結(jié)構(gòu)中的高層信息,以此來提高分割精度。
圖2 U-Net結(jié)構(gòu)Fig.2 Architecture of U-Net
2.1.3 U-Net++
Zhou等人[10]提出的U-Net++是在U-Net基礎(chǔ)上針對原始結(jié)構(gòu)中的跳躍連接部分做了進一步的改進。其結(jié)構(gòu)如圖3所示,X定義為卷積操作。原始U-Net結(jié)構(gòu)中的跳躍連接用的是直接串聯(lián)方式,而U-Net++的跳躍連接改用密集連接方式。采用密集連接方式,網(wǎng)絡得以在訓練過程中自動學習不同深度特征的重要性,從而可以根據(jù)需要選擇合適的下采樣層數(shù),在保證網(wǎng)絡性能的條件下減少了網(wǎng)絡參數(shù)。傳統(tǒng)U-Net結(jié)構(gòu)上采樣部分只疊加了同層下采樣部分的特征圖,這兩層的語義信息相差較大,不利于網(wǎng)絡的優(yōu)化。而U-Net++采用密集連接,網(wǎng)絡可以將來自不同層的特征進行特征疊加,減小了下采樣階段特征和上采樣階段特征之間的語義差異,更利于網(wǎng)絡的優(yōu)化。更多的特征信息也有效地避免了原始圖像中的小目標和大目標邊緣等信息隨網(wǎng)絡層數(shù)增加而丟失的現(xiàn)象。
圖3 U-Net++結(jié)構(gòu)Fig.3 Architecture of U-Net++
U-Net++的另一個特點為網(wǎng)絡共享了同一個下采樣部分,使得訓練過程只需要訓練一次下采樣網(wǎng)絡,不同深度的特征由對應的下采樣層以對稱方式還原。除了在跳躍連接上做改進之外,U-Net++還增加了深監(jiān)督,將網(wǎng)絡結(jié)構(gòu)各層的輸出也連接到最終輸出。
2.1.4 SegNet
SegNet[11]的編碼網(wǎng)絡和VGG-16的卷積層部分相同,同樣不含全連接層,主要作用是進行特征提取,網(wǎng)絡結(jié)構(gòu)如圖4所示。整個網(wǎng)絡的新穎之處在于,解碼器對較低分辨率的輸入特征圖進行上采樣。具體地說,解碼器使用從相應的編碼器接收的最大池化索引來進行對輸入特征圖的非線性上采樣。這種方法減少了對上采樣的學習,改善了邊界劃分,減少了端到端訓練的參數(shù)量。由于上采樣而變得稀疏的特征圖隨后經(jīng)過可訓練的卷積操作生成密集的特征圖。最后由網(wǎng)絡的最后一層softmax層來求出圖像的每一個像素在所有類別中最大的概率,從而完成圖像的像素級別分類。SegNet只存儲最大池化索引,并將其應用于解碼網(wǎng)絡,以此來得到更好的表現(xiàn)。因此相比于其他分割網(wǎng)絡,SegNet的突出優(yōu)點是更加高效。
圖4 SegNet結(jié)構(gòu)Fig.4 Architecture of SegNet
2.1.5 DeepLab系列
DeepLab-v1[12]網(wǎng)絡,將FCN與條件隨機場(Conditional Random Field,CRF)模型相結(jié)合,解決了FCN分割不夠精確的問題。其主要結(jié)構(gòu)為在FCN之后串聯(lián)完全連接的CRF模型。CRF將來自FCN的粗糙分割結(jié)果圖進行處理,在圖中的每個像素點均構(gòu)建一個CRF模型,以此獲得圖像更為精細的分割結(jié)果。同時,DeepLab-v1中加入帶孔算法來擴展感受野,感受野越大則可以獲得圖像更多的上下文信息,也避免了FCN在一步步卷積和池化過程中特征圖分辨率逐漸下降的問題。DeepLab-v1的另一個改進點為添加了空洞卷積,大大提高了運行速度。DeepLab-v1模型分割流程如圖5所示。
圖5 DeepLab-v1模型分割流程Fig.5 DeepLab-v1 model for the split process
DeepLab-v2網(wǎng)絡結(jié)構(gòu)與DeepLab-v1結(jié)構(gòu)類似,同樣使用了CRF模型來提高分割精度,同時使用了帶孔算法來擴展感受野。該網(wǎng)絡使用了空洞空間卷積池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)模塊,采用不同采樣率的空洞卷積對特征圖進行并行采樣,并將輸出結(jié)果進行融合,以此可以獲得更多的空間信息。另外,該網(wǎng)絡將傳統(tǒng)的VGG-16模塊替換為ResNet模塊,進一步提升了分割效果。
DeepLab-v3[13]對之前的DeepLab做了進一步的改進。該網(wǎng)絡重點研究了網(wǎng)絡中空洞卷積的使用,提出將級聯(lián)模塊采樣率逐步翻倍,同時擴充了DeepLab-v2模型中的ASPP模塊,增強了其性能。該網(wǎng)絡在PASCAL VOC 2012數(shù)據(jù)集上獲得了比之前的DeepLab更好的分割結(jié)果。
2.1.6 其他
自從U-Net網(wǎng)絡提出后,其良好的分割效果激起了許多研究者的興趣,各種基于傳統(tǒng)U-Net網(wǎng)絡的新方法開始被提了出來。在醫(yī)學影像領(lǐng)域,部分醫(yī)療影像器械生成的影像是三維的,針對三維影像的分割任務,?i?ek等人[14]提出了3D U-net網(wǎng)絡結(jié)構(gòu),更改下采樣層數(shù)為3層,每個卷積層后添加了批歸一化(Batch Normalization,BN)。Milletari等人[15]提出了V-net網(wǎng)絡結(jié)構(gòu)。V-Net結(jié)構(gòu)是U-Net網(wǎng)絡結(jié)構(gòu)的一種3D變形,使用三維卷積核對圖像進行卷積操作,利用1×1×1的卷積來減少通道維度。該結(jié)構(gòu)在模型訓練中引入了一個新的目標函數(shù),能夠解決圖像中的類別不平衡的問題。Drozdzal等人[16]提出,U-Net網(wǎng)絡結(jié)構(gòu)中的長跳躍連接結(jié)構(gòu)也可以用短跳躍連接結(jié)構(gòu)代替。
對于FCN網(wǎng)絡結(jié)構(gòu)存在的缺陷,不少研究者對其進行了調(diào)整改進。對FCN解碼器部分做出改進的有上面提到的SegNet網(wǎng)絡和DeepLab系列網(wǎng)絡,除此之外,F(xiàn)CN的編碼器結(jié)構(gòu)通常為經(jīng)典分類網(wǎng)絡,如VGG[17]、ResNet[18]及DenseNet[19]等。
由于FCN和SegNet等分割網(wǎng)絡大多基于VGG架構(gòu),對于多分類任務其模型參數(shù)眾多、推理時間過長。為了讓分割模型更加輕便且精準,2016年P(guān)aszke等人[20]提出了高效神經(jīng)網(wǎng)絡(Efficient Neural Network,ENet),使其具備了進行實時逐像素語義分割的能力。具體來說,ENet的執(zhí)行速度快了18倍,且需要的浮點運算次數(shù)少為1/75,同時參數(shù)減少為1/79,并且提供了與當時現(xiàn)有模型對比相似或更高的精度。在結(jié)構(gòu)上,ENet通過保留編碼網(wǎng)絡中最大池化過程中最大值的索引,并借此在解碼網(wǎng)絡中生成稀疏的上采樣特征圖來降低下采樣和上采樣過程的分割精度丟失。
為了緩解語義分割模型為獲得豐富的特征而過度依賴預訓練網(wǎng)絡導致定位精度降低的問題,Pohlen等人[21]創(chuàng)新性地提出了一個類似于ResNet的網(wǎng)絡架構(gòu)FRRN,使用兩條支路將多尺度上下文信息和像素級識別的精度結(jié)合。一條支路攜帶全分辨率信息,用于實現(xiàn)邊界的精準分割;而另一條支路經(jīng)過一系列池化層獲取用于識別的豐富特征,最后兩條支路使用FRRNs單元做耦合。
要想在復雜場景中實現(xiàn)高精度的分割,往往需要使用空間金字塔池化來獲得全局圖像級特征。為了結(jié)合適當?shù)娜痔卣?,Zhao等人[22]提出了金字塔場景解析網(wǎng)絡(Pyramid Scene Parsing Network,PSPNet)。通過金字塔池模塊和PSPNet,聚合基于不同區(qū)域的上下文信息,從而提高網(wǎng)絡在全局挖掘上下文信息的能力。為了解決全分辨率殘差網(wǎng)絡計算密集導致其在全尺度圖像上推理速度緩慢的問題,PSPNet采用了4種不同的最大池化操作,這些操作分別對應4種不同的窗口大小和步長。
基于深度學習的圖像分割方法的技術(shù)特點和優(yōu)缺點如表1所示。
表1 圖像語義分割方法優(yōu)劣比較Tab.2 Comparison of image semantic segmentation methods
針對算法的性能方面,在PASCAL VOC 2012數(shù)據(jù)集上,F(xiàn)CN、DeepLab-v1、DeepLab-v2、DeepLab-v3和PSPNet評估的mIoU值分別為62.2%、72.6%、79.7%、86.9%和85.4%。在CityScapes數(shù)據(jù)集上,F(xiàn)CN、DeepLab-v1、DeepLab-v2、ENet、FRRN和PSPNet評估的mIoU值分別為65.3%、63.1%、70.4%、58.3%、71.8%和81.2%。在PASCAL-CONTEXT數(shù)據(jù)集上,F(xiàn)CN和DeepLab-v2評估的mIoU值可達到35.1%和45.7%。在CamVid數(shù)據(jù)集上,SegNet和ENet評估的mIoU值為55.6%和51.3%。目前對靜態(tài)圖像進行語義分割時,大部分算法選用PASCAL VOC 2012作為測試數(shù)據(jù)集,當對動態(tài)場景進行解析或?qū)崟r圖像語義分割時,很多算法選用CityScapes作為測試數(shù)據(jù)集。基于PAS CAL VOC 2012測試數(shù)據(jù)集,DeepLab V3和PSPNet算法的mIoU值都超過了80%,對圖像數(shù)據(jù)中不同尺度物體有較好的識別率,目標分割結(jié)果的邊界比較接近真實分割邊。
醫(yī)學圖像具有的一些獨特的特點,使得醫(yī)學圖像的分割比自然影像的分割更為復雜。具體表現(xiàn)為:
① 數(shù)據(jù)量少。精細標注的自然圖像數(shù)據(jù)規(guī)模很大,相對而言,醫(yī)學影像數(shù)據(jù)由于標注復雜、涉及隱私問題等限制,獲取比較困難。數(shù)據(jù)量多時,模型不需要有很好的可解釋性,訓練一個好的模型相對容易。而數(shù)據(jù)量很少時,需要給模型提供足夠多的先驗知識來保證模型能夠?qū)W到關(guān)鍵特征,同時要控制參數(shù)量來防止過擬合。
② 目標較小。大部分醫(yī)學圖像中的目標非常小,且形狀不規(guī)則、邊界模糊、梯度復雜,而醫(yī)學圖像的分割要求高精度,因此需要給模型輸入較多的高分辨率信息來保證精準分割。
③ 圖像語義簡單。醫(yī)學圖像的上下文信息對于人體疾病的診斷非常重要,而由于器官的結(jié)構(gòu)都較為固定,圖像中的語義信息不夠豐富,因此要求模型在訓練過程中充分利用低分辨率信息來保證對目標的精確識別。
④ 多維圖像。自然圖像均為二維數(shù)據(jù),而醫(yī)學圖像大多為三維數(shù)據(jù),需要三維卷積來提取數(shù)據(jù)中的三維信息,增加了參數(shù)量,易過擬合。
⑤ 多模態(tài)。相比于自然圖像,醫(yī)學圖像具有多種模態(tài)的數(shù)據(jù),如OASIS-3數(shù)據(jù)集中,既有MRI圖像,也有PET圖像。不同模態(tài)的數(shù)據(jù)具有其獨特的特點,在某一類數(shù)據(jù)上訓練得到的模型,不一定適用于其他數(shù)據(jù),這就要求模型能夠提取不同模態(tài)的特征,從而提高模型的泛化能力。
醫(yī)學圖像的這些特點,決定了醫(yī)學圖像分割必須使用編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡模型。醫(yī)學圖像分割技術(shù)的高難度、高復雜度,是使醫(yī)學圖像分割在圖像分割領(lǐng)域中受到特別關(guān)注的主要原因。
Zaho等人[23]在2018年在腦腫瘤分割任務中提出一種新的分割框架,該框架將FCN和CRF組合,可以實現(xiàn)具有外觀和空間一致性的分割。首先將圖像補丁輸入到FCN中進行訓練,再將圖像切片輸入到CRF中用遞歸神經(jīng)網(wǎng)絡(CRF-RNN)對其進行訓練,最后將圖像切片送入FCN和CRF集合框架中,對FCN和CRF-RNN的參數(shù)進行聯(lián)合微調(diào)。
Lessmann等人[24]提出了一種基于FCN的迭代實例分割方法,用于CT圖像中的自動椎骨分割。提出的分段網(wǎng)絡體系結(jié)構(gòu)受U-Net體系結(jié)構(gòu)的啟發(fā),即網(wǎng)絡由壓縮、擴展路徑和中間跳躍連接組成。
多器官分割任務中,Tong等人[25]提出了一種新的分割模型,將形狀表示模型集成到FCN中。在另一項多器官分割任務中,Roth等人[26]針對3D圖像的語義分割提出一種3D FCN模型,在腹部CT圖像中的器官分割任務中取得了不錯的成績。
Brosch等人[27]提出一種深3D卷積編碼網(wǎng)絡,該網(wǎng)絡具有捷徑連接,將U-Net網(wǎng)絡的第一層卷積和最后一層反卷積連接,并將該網(wǎng)絡應用于腦部MRI中的腦白質(zhì)病灶分割,實驗證明該網(wǎng)絡在小規(guī)模訓練數(shù)據(jù)集上仍能訓練出較好的模型。
Bai等人[28]在MR圖像中主動脈序列的像素分割任務提出一種將U-Net和CRF-RNN相結(jié)合的圖像序列分割算法,將空間和時間信息結(jié)合到分割任務中,通過在注釋上執(zhí)行非剛性標簽傳播和引入指數(shù)加權(quán)損失函數(shù)來實現(xiàn)對模型的端對端訓練,其結(jié)構(gòu)如圖6所示。
對于圖像配準任務,Lv等人[29]在U-Net網(wǎng)絡基礎(chǔ)上提出一種完全自動化的框架,用以解決腎臟器官由于呼吸運動效應產(chǎn)生偽影造成誤差大的問題。首先采用U-Net網(wǎng)絡對腎臟圖像進行分割,獲取腎臟輪廓,再將分割后的圖像標記為注冊方法的感興趣區(qū)域。
圖6 U-Net與RNN結(jié)合結(jié)構(gòu)Fig.6 Combined architecture of U-Net and RNN
Oktay等人[30]提出一種專門用于醫(yī)療圖像的注意門(Attention Gate,AG)模型,該模型主要對形狀和大小不同的目標結(jié)構(gòu)進行自動學習。AG模型在訓練過程中隱式地學習到了圖像的顯著特征,因此可以不使用基于卷積神經(jīng)網(wǎng)絡的顯式外部組織/器官定位模塊。Kamnitsas等人[31]采用一種雙通道結(jié)構(gòu)來合并局部信息和全局信息,該結(jié)構(gòu)可以同時在多個尺度上處理輸入圖像,該方法提高了圖像分割的精度。Wang等人[32]提出一個對傷口圖像進行處理的系統(tǒng),可以實現(xiàn)對圖像中的傷口區(qū)域自動分割并分析傷口狀況。傷口圖像輸入深卷積神經(jīng)網(wǎng)絡(ConvNet),自動分割出輸入圖像中的傷口區(qū)域,得到的分割圖像送入SVM分類器中進行判斷傷口是否感染,并通過高斯過程回歸算法對傷口的愈合進程進行預測。ConvNet架構(gòu)如圖7所示。
圖7 ConvNet結(jié)構(gòu)Fig.7 Architecture of ConvNet
常見的深度學習分割網(wǎng)絡屬于有監(jiān)督學習算法,在訓練時需要使用大量帶標簽的數(shù)據(jù)。由于醫(yī)學圖像的注釋一般需要醫(yī)學專家或有專業(yè)知識的人士參與,這加劇了圖像標注的難度。而且,與一般計算機視覺任務的數(shù)據(jù)集(通常是幾十萬到數(shù)百萬個帶注釋的圖像)相比,當前可用于醫(yī)學圖像分割任務的公共數(shù)據(jù)集規(guī)模都很小。
想要充分了解圖像分割,首先需要了解圖像分割任務中那些質(zhì)量最好的各種數(shù)據(jù)集。以公共數(shù)據(jù)集作為基準,可比較各種醫(yī)學圖像分割模型的性能與精度,從而公平地評價模型的好壞。本節(jié)整理了目前醫(yī)學圖像分割任務中常用的數(shù)據(jù)集,如表2所示。
表2 醫(yī)學圖像分割數(shù)據(jù)集Tab.2 Datasets of medical image segmentation
醫(yī)學圖像分割常用的損失函數(shù):
① 交叉熵損失函數(shù)
(2)
式中,M表示類別數(shù);yc只有0和1兩種取值,如果該類別和樣本的類別相同,yc取1,否則取0;pc表示預測樣本屬于c的概率。
交叉熵損失函數(shù)可以用在大多數(shù)語義分割場景中,其明顯缺點為:對于二分類問題,當前景像素的數(shù)量遠遠小于背景像素的數(shù)量時,即此時yc=0的數(shù)量遠大于yc=1的數(shù)量,損失函數(shù)中yc=0的成分就會占據(jù)主導,使得模型嚴重偏向背景,導致效果不好,不適用于醫(yī)學圖像中小目標分割任務。
② 帶權(quán)重交叉熵損失函數(shù)
(3)
③ Focal損失函數(shù)
Focal損失函數(shù)是為了解決目標檢測中正負樣本比例嚴重失衡的問題而提出,如今廣泛應用于醫(yī)療圖像分割領(lǐng)域。二分類Focal損失函數(shù)為:
(4)
式中,γ>0,減少易分樣本的損失,使網(wǎng)絡更關(guān)注困難、錯分的樣本。平衡因子α用來平衡正負樣本比例不均衡的問題。該損失函數(shù)降低了大量簡單負樣本在訓練中所占的權(quán)重,實現(xiàn)了困難樣本挖掘。
④ Dice損失函數(shù)
Dice系數(shù)是一種衡量集合相似度的指標,通常用于計算兩個樣本的相似度,值范圍為[0,1],計算公式為:
(5)
式中,|X∩Y|為X和Y之間的交集,|X|和|Y|分別表示X和Y的元素個數(shù)。對于圖像分割任務,X和Y分別表示真實分割圖和預測分割圖。
Dice損失函數(shù)定義為:
(6)
Dice損失函數(shù)適用于正負樣本極度不均衡的情況,一般情況下使用Dice損失函數(shù)會對反向傳播產(chǎn)生不利的影響,使得訓練變得不穩(wěn)定。
⑤ Jaccard損失函數(shù)
Jaccard系數(shù)用于比較樣本之間的相似性與差異性,值范圍為[0,1]。類似Dice,其計算公式為:
(7)
式中,|X∩Y|與|X∪Y|分別表示X和Y之間的交集與并集。Jaccard損失函數(shù)定義為:
(8)
與Dice函數(shù)一樣,存在不穩(wěn)定的問題。
⑥ Tversky損失函數(shù)
Tversky系數(shù)是Dice系數(shù)和Jaccard系數(shù)的廣義系數(shù),計算公式為:
(9)
對于圖像分割任務,X表示真實分割圖,Y表示預測分割圖。Dice系數(shù)是Tversky系數(shù)中α與β都等于0.5的特殊情況,而Jaccard系數(shù)是Tversky系數(shù)中α與β都等于1的特殊情況。其中|Y-X|代表假陽性,|X-Y|代表假陰性,通過調(diào)整α與β超參數(shù)來控制二者間的平衡,進而影響召回率等指標。
相對于傳統(tǒng)的醫(yī)學圖像分割方法,基于深度學習的分割方法消除了人為參與,在醫(yī)學圖像處理領(lǐng)域扮演著越來越重要的角色。但通過對比各深度學習分割相關(guān)的文獻可以發(fā)現(xiàn),現(xiàn)階段的深度學習分割網(wǎng)絡的發(fā)展演進存在一定的困難和挑戰(zhàn)。
① 如今醫(yī)學圖像的分辨率越來越高,而目前的計算機硬件設備很難支持對高分辨率圖像的處理,通常需要對圖像進行裁剪,分塊送入網(wǎng)絡進行訓練,這就限制了網(wǎng)絡提取更多的空間信息。
② 醫(yī)療影像數(shù)據(jù)集較難獲得。醫(yī)學圖像分析中的不同任務對數(shù)據(jù)的標注要求不同,適用于深度學習模型的數(shù)據(jù)集很少,且醫(yī)學圖像數(shù)據(jù)集通常規(guī)模較小,而訓練數(shù)據(jù)的規(guī)模直接影響了深度學習模型的訓練效果,過少的訓練數(shù)據(jù)容易造成過度擬合,使得模型在其他數(shù)據(jù)集上表現(xiàn)很差。
③ 醫(yī)學圖像數(shù)據(jù)集通常都有樣本不平衡問題。如臂叢神經(jīng)分割數(shù)據(jù)集,神經(jīng)元目標較小,整張圖像中含有大部分的背景,用不平衡的數(shù)據(jù)訓練深層網(wǎng)絡可能會導致模型產(chǎn)生偏差。
深度學習下的醫(yī)學圖像分割對于疾病的診斷治療具有重大意義,為了應對上述挑戰(zhàn),越來越多的研究者投入到醫(yī)學圖像處理領(lǐng)域,開始著力于探索新的創(chuàng)新。
① 半監(jiān)督或無監(jiān)督條件下的圖像分割。有監(jiān)督訓練下的模型對于某些需要大量訓練數(shù)據(jù)的模型很難發(fā)揮其效能。在缺乏標注數(shù)據(jù)的問題下,半監(jiān)督或無監(jiān)督條件下的圖像分割將是未來的主要研究方向之一。
② 生成式對抗網(wǎng)絡生成數(shù)據(jù)集。將GAN框架生成的圖像數(shù)據(jù)與原始數(shù)據(jù)進行結(jié)合共同參與模型訓練可以提高模型性能,這一特性對于醫(yī)學圖像分析尤為重要。如何對原始數(shù)據(jù)和生成數(shù)據(jù)進行合理分工以使訓練模型達到最優(yōu)性能是當下及未來需要解決的一個重要問題。
圖像語義分割應用廣泛,深度學習在醫(yī)學成像方面的進展吸引了計算機視覺領(lǐng)域的專家參與解決醫(yī)學圖像分割任務。面對醫(yī)學圖像分割領(lǐng)域的重重困難,醫(yī)學影像界正在付出更多努力,不斷開發(fā)新理論和新技術(shù)來開拓應用前景。深度學習在醫(yī)學圖像分割方面的突破,將對醫(yī)療領(lǐng)域的發(fā)展做出巨大的貢獻。