于 營 趙芝鶴 楊婷婷
(1.三亞學(xué)院信息與智能工程學(xué)院,海南 三亞 572000;2.三亞學(xué)院陳國良院士團(tuán)隊(duì)創(chuàng)新中心,海南 三亞 572000;3.空軍軍醫(yī)大學(xué)第三附屬醫(yī)院顱頜面整形與美容外科,陜西 西安 710000)
醫(yī)學(xué)圖像分割是計(jì)算機(jī)視覺技術(shù)在智慧醫(yī)療中的重要應(yīng)用,用于識(shí)別和提取醫(yī)學(xué)圖像中的特定結(jié)構(gòu)或區(qū)域。醫(yī)學(xué)圖像分割通過自動(dòng)或半自動(dòng)地對(duì)醫(yī)學(xué)圖像中的像素進(jìn)行分類,將圖像分割成不同的有意義的區(qū)域,從而能夠識(shí)別出圖像中的器官、組織或病灶,在診斷和治療過程中起著舉足輕重的作用。常用的醫(yī)學(xué)成像技術(shù)包括磁共振成像(Magnetic Resonance Imaging,MRI),計(jì)算機(jī)斷層掃描成像(Computed Tomography,CT),X光檢查(X-ray),皮膚鏡成像(Dermoscopy)等,圖1為不同成像方式得到的醫(yī)學(xué)圖像。由于成像原理和組織本身特性的不同,并且成像容易受到場偏移效應(yīng)、局部體積效應(yīng)、組織運(yùn)動(dòng)和噪聲的影響,醫(yī)學(xué)圖像分割存在許多挑戰(zhàn)。
圖1 不同成像方式的醫(yī)學(xué)圖像
器官分割和病灶分割是醫(yī)學(xué)圖像分割的兩個(gè)主要應(yīng)用。器官分割即識(shí)別器官的曲率或其內(nèi)部ROI區(qū)域,以便定量地分析其狀態(tài),例如心臟分割和腦部分割;病灶分割的目的是通過精確地識(shí)別和定位病灶,為疾病的早期診斷、隨訪和治療提供有效依據(jù),如腦腫瘤分割等。針對(duì)醫(yī)學(xué)圖像中目標(biāo)形狀、位置和尺寸多變,部分組織結(jié)構(gòu)成像差異小,以及部分組織邊界模糊的難題,最新的解決方案通常為改進(jìn)或優(yōu)化已有的深度學(xué)習(xí)模型。在相關(guān)文獻(xiàn)中,一些常用的CNN模型作為基礎(chǔ)網(wǎng)絡(luò)已經(jīng)證明了其在醫(yī)學(xué)圖像分割上的有效性,如VGG[1]、ResNet[2]、U-Net[3]和Transformer[4]。另外,在相關(guān)數(shù)據(jù)較少的情況下可以使用遷移學(xué)習(xí)。
數(shù)據(jù)集是深度學(xué)習(xí)系統(tǒng)中最重要的部分之一。一個(gè)適當(dāng)?shù)臄?shù)據(jù)集,首先應(yīng)具有足夠大的規(guī)模,樣本均衡,具有細(xì)粒度標(biāo)注,可以準(zhǔn)確地表示系統(tǒng)的用例。數(shù)據(jù)采集往往需要專業(yè)的設(shè)備獲取數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行選擇和標(biāo)注,這需要領(lǐng)域?qū)I(yè)知識(shí)和大量時(shí)間。在研究中,通常使用現(xiàn)有的標(biāo)準(zhǔn)數(shù)據(jù)集,標(biāo)準(zhǔn)數(shù)據(jù)集對(duì)問題的領(lǐng)域有足夠的代表性,方便在系統(tǒng)之間進(jìn)行公平地比較。本節(jié)將介紹目前用于醫(yī)學(xué)圖像語義分割的最流行的大規(guī)模數(shù)據(jù)集,所有這些臨床數(shù)據(jù)均為匿名并獲得機(jī)構(gòu)倫理批準(zhǔn)。
BraTS數(shù)據(jù)來自19家機(jī)構(gòu),使用不同的MRI掃描儀采集,是MICCAI腦腫瘤分割比賽指定的多模態(tài)3D顱腦MRI數(shù)據(jù)集,每個(gè)病例包含4種MRI模式,分別為T1、T1c、T2和FLAIR,標(biāo)注為3個(gè)嵌套的腫瘤亞區(qū),分別為WT(全瘤)、ET和TC(腫瘤核心)。訓(xùn)練集劃分為低級(jí)別膠質(zhì)瘤(Low-grade glioma,LGG)和高級(jí)別膠質(zhì)瘤(high-grade glioma,HGG),每個(gè)病例是一個(gè)MR序列,包含155張圖片,圖片大小為240×240像素。
MM-WHS(Heart Segmentation on Multi-Modality Whole Heart Segmentation Challenge)2017數(shù)據(jù)來自多個(gè)機(jī)構(gòu)的120例多模態(tài)全心臟圖像,包括60例心臟CT/CTA和60例覆蓋整個(gè)心臟亞結(jié)構(gòu)的3D心臟MRI。數(shù)據(jù)涵蓋上腹部到主動(dòng)脈弓的整個(gè)心臟區(qū)域,在軸向視圖獲取切片。其中,訓(xùn)練集包含20例CT和20例MRI圖像,測試集包含40例CT和40例MRI圖像。對(duì)于訓(xùn)練集,提供了7個(gè)全心臟子結(jié)構(gòu)的手動(dòng)標(biāo)注,分別為:左心室血腔,標(biāo)簽值為500;左心室心肌,標(biāo)簽值為205;右心室血腔,標(biāo)簽值為600;左心房血腔,標(biāo)簽值為420;右心房血腔,標(biāo)簽值為550;升主動(dòng)脈,標(biāo)簽值為820,肺動(dòng)脈,標(biāo)簽值為850。由于視野的不同,升主動(dòng)脈和肺動(dòng)脈的范圍在不同的掃描中會(huì)有所差別。
ACDC(Automated Cardiac Diagnosis Challenge,自動(dòng)心臟診斷挑戰(zhàn)賽)的目標(biāo)是,比較自動(dòng)分割左心室心內(nèi)膜和心外膜作為右心室心內(nèi)膜在舒張末期和收縮末期情況下的性能,以及比較自動(dòng)分類方法對(duì)正常、心力衰竭伴梗死、擴(kuò)張型心肌病、肥厚型心肌病、右心室異常5類檢查的分類性能。ACDC數(shù)據(jù)集是根據(jù)法國第戎大學(xué)醫(yī)院(Hospital of Dijon)獲得的真實(shí)臨床檢查創(chuàng)建的,數(shù)據(jù)來自150個(gè)病例,平均分為5個(gè)亞組(4個(gè)病理組與1個(gè)健康組),此外,病例數(shù)據(jù)還包含體重、身高以及舒張期和收縮期等附加信息。ACDC涵蓋了幾個(gè)定義明確的病理,有足夠的病例,能夠滿足機(jī)器學(xué)習(xí)模型本地訓(xùn)練,也可以清楚地評(píng)估從MRI影像中獲得的主要生理參數(shù)的變化,特別是舒張容積和射血分?jǐn)?shù)。
CHAOS(Combined(CT-MR)Healthy Abdominal Organ Segmentation)挑戰(zhàn)旨在從CT和MRI數(shù)據(jù)中分割腹部器官(如肝、腎和脾)。第一個(gè)任務(wù)為利用計(jì)算機(jī)斷層掃描(CT)數(shù)據(jù)集對(duì)注射造影劑后門靜脈期采集的肝臟圖像進(jìn)行分割,用于活體肝移植供者的預(yù)評(píng)估,采用的數(shù)據(jù)為包含40例不同患者的CT圖像;第二個(gè)任務(wù)為從兩種不同序列(T1-DUAL和T2-SPIR)獲得的磁共振成像(MRI)數(shù)據(jù)集中分割腹部四個(gè)器官(即肝、脾、右腎和左腎),采用的數(shù)據(jù)包括來自兩種不同MRI序列的120個(gè)DICOM數(shù)據(jù)集,其中,T1-DUAL序列有40個(gè)相位數(shù)據(jù)集,out序列有40個(gè)相位數(shù)據(jù)集,T2-SPIR序列有40個(gè)數(shù)據(jù)集,每一種序列均使用不同的射頻脈沖和梯度組合掃描腹部。
ISIC是常用的皮膚病或皮膚損傷數(shù)據(jù)集,包含惡性和良性的實(shí)例,每個(gè)實(shí)例均包含病變的圖像,有關(guān)病變的元數(shù)據(jù)(包括分類和分割)以及相關(guān)患者的元數(shù)據(jù)。ISIC 2018和2019挑戰(zhàn)賽的主要任務(wù)為對(duì)數(shù)千張皮膚鏡圖像的病灶分割、病灶歸因檢測和病灶分類。ISIC 2018包括2594張訓(xùn)練集圖像(黑色素瘤占20.0%,痣占72.0%,脂油溢出性角化病占8.0%)、100張驗(yàn)證集圖像和1000張測試集圖像,用于特征提取和圖像分割任務(wù),以及10015張訓(xùn)練集圖像和1512張測試圖像用于分類任務(wù),均為600×450像素。ISIC 2020對(duì)黑色素瘤分類,含2000多例患者進(jìn)行33126次掃描的圖像,以更好地支持皮膚科臨床工作。
分割效果常用Dice系數(shù)、豪斯多夫距離、Jaccard系數(shù)、靈敏性或特異性等指標(biāo)來度量和評(píng)價(jià)[5]。
Dice系數(shù)(Dice Similarity Coefficient,DSC)是一種集合相似度度量,定義為預(yù)測區(qū)域A與標(biāo)注區(qū)域B(ground truth)的重疊面積的兩倍除以兩幅圖像的總像素?cái)?shù)。公式如下:
豪斯多夫距離(Hausdorff Distance,HD)也稱為最大對(duì)稱表面距離(Maximum Symmetric Surface Distance,MSD),描述圖像邊緣點(diǎn)與最近的邊緣點(diǎn)之間的最大距離。兩個(gè)樣本集合A和B的豪斯多夫距離定義為:
其中,h(A,B)是A到B的單向豪斯多夫距離,h(B,A)是B到A的單向豪斯多夫距離。
‖?‖是A和B之間的距離范式,如歐式距離、街區(qū)距離、棋盤距離等。雙向豪斯多夫距離度量兩個(gè)點(diǎn)集之間的最大不匹配程度,在語義分割任務(wù)中主要描述分割邊界與實(shí)際標(biāo)定邊界的差異性。
Jaccard系數(shù)(Jaccard Index,or Jaccard Similarity Coefficient,JSC),又稱交并比(Intersection over Union,IoU),在語義分割任務(wù)中表示預(yù)測掩碼與真實(shí)標(biāo)記像素的交疊率。平均交并比(mean-IoU,mIoU)是計(jì)算每個(gè)類別中IoU值的算術(shù)平均值,用于描述總體數(shù)據(jù)集的像素重疊情況。計(jì)算公式分別如下:
敏感性(Sensitivity),即真陽性率(True Positive Rate,TPR),表示系統(tǒng)對(duì)陽性樣本的敏感度。特異性(Specificity),即真陰性率(True Negative Rate,TNR),表示非目標(biāo)元素(背景)被正確地識(shí)別出來的能力。
此外,在一些醫(yī)學(xué)圖像挑戰(zhàn)賽中使用其他指標(biāo)來度量預(yù)測結(jié)果與真實(shí)值之間的差異,如平均表面距離(Average Surface Distance,ASD)和體積距離(Volumetric Distance),它們是醫(yī)學(xué)圖像分割競賽CHAOS(Combined Healthy Abdominal Organ Segmentation)中的指定的評(píng)估指標(biāo)。
根據(jù)分割原理的不同,醫(yī)學(xué)圖像分割方法可以分為四代,如圖2所示。
圖2 圖像分割方法分類
全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)[6]首次將深度學(xué)習(xí)方法用于圖像分割,作為深度學(xué)習(xí)語義分割的開山之作,以端到端的工作方式,依據(jù)卷積運(yùn)算的稀疏連接性、參數(shù)共享以及平移不變性實(shí)現(xiàn)了自動(dòng)、快速的特征提取,成功應(yīng)用于醫(yī)學(xué)圖像分割、病灶區(qū)域定位、細(xì)胞檢測、異常檢測等方面。
采用全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行醫(yī)學(xué)圖像分割的主要思想是基于“編碼——解碼(Encoder-Decoder)”架構(gòu)設(shè)計(jì)分割網(wǎng)絡(luò),如圖3所示。
圖3 “編碼——解碼”架構(gòu)
“編碼——解碼”結(jié)構(gòu)在U-Net[3]網(wǎng)絡(luò)中提出,它在下采樣過程中學(xué)習(xí)醫(yī)學(xué)影像數(shù)據(jù)集中高級(jí)語義信息,然后對(duì)圖像的每個(gè)像素進(jìn)行分類預(yù)測。SegNet[7]采用最大池化索引(maxpooling indices)進(jìn)行上采樣,減少了端到端訓(xùn)練的參數(shù)量,在減少內(nèi)存和提高計(jì)算效率的同時(shí),改善了邊界劃分質(zhì)量。全卷積神經(jīng)網(wǎng)絡(luò)不受圖像大小限制,不需要對(duì)圖像進(jìn)行切塊處理,可以單階段地直接獲得整個(gè)分割結(jié)果。
空洞卷積(Atrous Convolution),也稱膨脹卷積或擴(kuò)張卷積(Dilated Convolution),簡單來說就是在卷積核元素之間加入一些空格(零值)來擴(kuò)大卷積核的感受野(Receptive Field)且不改變圖像輸出特征圖的尺寸。
DeepLab v3+[8]是一種基于Encoder-Decoder結(jié)構(gòu)的改進(jìn)模型,采用了可分離卷積和空洞卷積來提高分割性能??煞蛛x卷積可將傳統(tǒng)的卷積操作分解為深度卷積和逐點(diǎn)卷積兩個(gè)步驟,以減少參數(shù)數(shù)量和計(jì)算量??斩淳矸e則可擴(kuò)大感受野并保留圖像的空間分辨率。這兩種技術(shù)的結(jié)合使得Deep-Lab v3+能夠在保持高分辨率的同時(shí)具有更大的感受野和更強(qiáng)的上下文信息。
注意力機(jī)制(Attention Mechanism)這一概念源于人的視覺機(jī)制。在觀察目標(biāo)時(shí),人們通常有選擇性地關(guān)注某些區(qū)域。在視覺任務(wù)中,對(duì)一張圖像K使用注意力機(jī)制計(jì)算其中的重點(diǎn)關(guān)注區(qū)域,需要一個(gè)查詢向量q,通過一個(gè)打分函數(shù)計(jì)算q和每個(gè)像素的值ki之間的相關(guān)性,得到一個(gè)分?jǐn)?shù)。接下來對(duì)這些分?jǐn)?shù)進(jìn)行歸一化處理,歸一化后的結(jié)果即為q在每個(gè)ki上的注意力分布,根據(jù)這些注意力分布可以去有選擇性地從圖像中提取特征信息。
U-Net++[9]是一種基于U-Net架構(gòu)的改進(jìn)模型,通過引入嵌套的U-Net(Nested U-Net)結(jié)構(gòu)和注意力門控(Attention Gates)來提高分割性能。具體來說,嵌套U-Net結(jié)構(gòu)在編碼器和解碼器中分別增加了多個(gè)U-Net模塊,使模型具有更強(qiáng)的多尺度信息處理能力。同時(shí),注意力機(jī)制可用于自適應(yīng)地選擇重要的特征圖以提高模型的精度和效率。
Attention U-Net[10]是一種基于U-Net架構(gòu)的改進(jìn)模型,通過引入注意力機(jī)制來提高胰腺分割性能。該模型在編碼器和解碼器的每個(gè)U-Net模塊中都增加了一個(gè)注意力門控單元,以使模型能夠自適應(yīng)地選擇關(guān)鍵的特征圖。此外,該模型還采用了一種漸進(jìn)的訓(xùn)練策略,以緩解數(shù)據(jù)不平衡和樣本噪聲的問題。
殘差連接(Residual Connections)是在ResNet[2]中提出的一種用于編碼器內(nèi)部的跳躍連接,可以有效地緩解深度神經(jīng)網(wǎng)絡(luò)隨著深度增加而帶來的退化問題。
MultiResUNet[11]是一種基于U-Net架構(gòu)的改進(jìn)模型,通過引入多分辨率分支以及殘差連接來提高分割性能。該模型將輸入圖像分別縮放為不同的分辨率并在編碼器和解碼器中分別使用多個(gè)U-Net模塊來處理不同分辨率的特征圖。此外,殘差連接可以加速梯度收斂效率,以提高模型的穩(wěn)定性和收斂性。
從同一領(lǐng)域(甚至其他領(lǐng)域)中已驗(yàn)證的性能較好的模型中進(jìn)行遷移學(xué)習(xí)(Transfer Learning),通過刪除某些層或增加某些層,可以在訓(xùn)練樣本不足的情況下獲得更好的分類效果。Tajbakhsh等人[12]通過對(duì)放射學(xué)、心臟病學(xué)和消化病學(xué)中四個(gè)不同的醫(yī)學(xué)成像應(yīng)用,涉及來自三種不同成像模式(CT、超聲、光學(xué)內(nèi)鏡)醫(yī)學(xué)圖像的分類、檢測和分割,并研究了從頭訓(xùn)練的深度CNN與以分層方式微調(diào)的預(yù)訓(xùn)練CNN的性能的差異性。被遷移的模型可以是在一般圖像上預(yù)訓(xùn)練的網(wǎng)絡(luò),也可以是在醫(yī)學(xué)圖像上預(yù)訓(xùn)練的網(wǎng)絡(luò),對(duì)這些網(wǎng)絡(luò)進(jìn)行微調(diào),以適應(yīng)不同的目標(biāo)分割或分類任務(wù)。在源網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的任務(wù)比較相似時(shí),遷移學(xué)習(xí)可以獲得更好的性能。
表1中總結(jié)了近年來醫(yī)學(xué)圖像分割領(lǐng)域中使用全卷積神經(jīng)網(wǎng)絡(luò)及其變體的相關(guān)研究。
表1 醫(yī)學(xué)圖像分割研究總結(jié)與比較
雖然醫(yī)學(xué)圖像分割這一領(lǐng)域已經(jīng)取得了顯著的進(jìn)展,但仍然存在一些尚未解決的問題。
在許多應(yīng)用中,需要將不同類型的醫(yī)學(xué)圖像(如CT、MRI、PET等)融合在一起進(jìn)行分析,以獲得更加準(zhǔn)確、豐富的特征。融合這些圖像的特征,在它們之間保持準(zhǔn)確的空間對(duì)應(yīng)關(guān)系仍然是一個(gè)挑戰(zhàn)。
組織和病變可能具有顯著的形態(tài)學(xué)和信號(hào)強(qiáng)度變異性,這使得基于圖像特征的分割方法變得復(fù)雜。采用多時(shí)相數(shù)據(jù)融合的特征提取方法,可以有效地解決這個(gè)問題。但是,由于目前開源的多時(shí)相數(shù)據(jù)集較少,相關(guān)研究仍處于早期階段。
目前醫(yī)學(xué)圖像的標(biāo)注往往依賴于醫(yī)學(xué)專家的認(rèn)知和經(jīng)驗(yàn),這種方式不可避免地帶來一些主觀因素導(dǎo)致的誤差。因此,使用深度學(xué)習(xí)算法輔助或替代醫(yī)學(xué)專家做出診斷付諸實(shí)踐的過程中還存在很多風(fēng)險(xiǎn),現(xiàn)有的方法也遠(yuǎn)遠(yuǎn)無法勝任醫(yī)學(xué)圖像分割中存在的復(fù)雜情況。弱監(jiān)督、無監(jiān)督方法的不斷完善和優(yōu)化可以很好地彌補(bǔ)這個(gè)問題。
對(duì)于一些罕見疾病或特定場景,可能缺乏足夠的帶有標(biāo)注的醫(yī)學(xué)圖像數(shù)據(jù)來訓(xùn)練高效的分割模型。此外,數(shù)據(jù)不平衡也可能導(dǎo)致模型在某些類別上的性能不佳。這個(gè)問題的解決方案之一是對(duì)樣本進(jìn)行加權(quán),在訓(xùn)練時(shí)對(duì)前景對(duì)象應(yīng)用更高的權(quán)重;或者利用Dice損失和Dice系數(shù),實(shí)現(xiàn)對(duì)樣本加權(quán)的自動(dòng)修正。然而,在樣本極端階級(jí)不平衡的情況下,這些方法所帶來的優(yōu)化效果并不明顯。圖像分割中的數(shù)據(jù)不足和不平衡問題仍是一個(gè)有價(jià)值的研究課題。
許多醫(yī)學(xué)圖像是三維的,處理這些大規(guī)模數(shù)據(jù)會(huì)帶來計(jì)算和存儲(chǔ)方面的挑戰(zhàn)。不可否認(rèn),較長的推理時(shí)間以及高昂的計(jì)算成本是三維圖像處理研究和應(yīng)用的重大阻礙。使用排除策略剔除不太可能包含目標(biāo)器官的區(qū)域,可以有效縮小搜索空間,從而實(shí)現(xiàn)更快的推理。
在某些應(yīng)用場景中,如手術(shù)導(dǎo)航和實(shí)時(shí)診斷,需要實(shí)時(shí)的圖像分割。提高分割方法的計(jì)算效率仍然是一個(gè)關(guān)鍵問題。輕量化語義分割網(wǎng)絡(luò)研究致力于減少模型參數(shù),減少內(nèi)存和訓(xùn)練時(shí)間,但模型參數(shù)和準(zhǔn)確性之間的平衡需要更多的研究去驗(yàn)證。