王傳濤,劉思宇,張錦華,蔡昊軒
(1.北京建筑大學(xué) 機(jī)電與車輛工程學(xué)院,北京 102616;2.北京建筑安全監(jiān)測(cè)工程技術(shù)研究中心,北京 102616)
臂叢神經(jīng)阻滯麻醉的關(guān)鍵步驟在于識(shí)別臂叢神經(jīng)結(jié)構(gòu),準(zhǔn)確地分割臂叢神經(jīng)不僅可以在臨床手術(shù)中輔助醫(yī)生對(duì)病人進(jìn)行快速準(zhǔn)確的區(qū)域麻醉,降低對(duì)醫(yī)生的臨床經(jīng)驗(yàn)要求,減輕醫(yī)生的工作量,而且具有減輕患者術(shù)后疼痛,加快患者術(shù)后恢復(fù)等優(yōu)勢(shì)。超聲(Ultrasound,US)因其無創(chuàng)、實(shí)時(shí)、無放射性損害和低價(jià)等特點(diǎn),已經(jīng)成為臨床上識(shí)別臂叢神經(jīng)結(jié)構(gòu)的重要手段。在超聲圖像采集過程中,由于成像原理的局限性以及設(shè)備的擾動(dòng)性,圖像中容易產(chǎn)生大量噪聲,從而造成醫(yī)生對(duì)神經(jīng)結(jié)構(gòu)的位置信息不敏感。因此,準(zhǔn)確地分割臂叢神經(jīng)超聲圖像有助于提高醫(yī)生的工作效率。傳統(tǒng)的分割方法大多通過圖像間的灰度值差異、邊緣信息的連續(xù)性等特征進(jìn)行分割,針對(duì)超聲圖像中的神經(jīng)分割問題,García等[1]提出了一種基于斑點(diǎn)去除和貝葉斯形狀模型的分割方法,非局部均值濾波器能夠在保留神經(jīng)結(jié)構(gòu)邊緣信息的同時(shí)去除噪聲。Giraldo等[2]提出一種基于非參數(shù)貝葉斯分層聚類的神經(jīng)分割方法,該方法將無限高斯混合模型(iGMM)和層次聚類(HC)相結(jié)合,起到重點(diǎn)分割感興趣區(qū)域和提高信息可理解性的作用。González等[3]提出了一種用于神經(jīng)結(jié)構(gòu)的半自動(dòng)分割方法,其中非線性小波變換用于特征提取,分類階段采用高斯過程分類器。上述傳統(tǒng)分割方法大多需要醫(yī)生手動(dòng)干預(yù),且針對(duì)含有大量噪聲、神經(jīng)結(jié)構(gòu)形態(tài)不一的臂叢神經(jīng)超聲圖像容易出現(xiàn)過分割、欠分割的現(xiàn)象。
近年來,基于深度學(xué)習(xí)的圖像分割方法以其省時(shí)、省力且具有較高普適性的特點(diǎn)被廣泛關(guān)注[4-6],其中Ronneberger等[7]提出的U-net網(wǎng)絡(luò)模型因其獨(dú)特的編碼器—解碼器結(jié)構(gòu)在醫(yī)學(xué)圖像分割領(lǐng)域取得了不錯(cuò)的效果。相較于傳統(tǒng)的圖像分割方法,基于深度學(xué)習(xí)的方法通過對(duì)圖像不斷進(jìn)行卷積操作以達(dá)到有效提取圖像中多層次特征信息的目的,從而提高分割精度,且將圖片輸入訓(xùn)練好的模型中可直接得到分割結(jié)果,不需要耗費(fèi)醫(yī)生大量的精力。為了進(jìn)一步提升分割精度,大量學(xué)者基于U-net網(wǎng)絡(luò)模型設(shè)計(jì)出了新的架構(gòu),Zhou等[8]為了減少編碼器與解碼器之間的特征圖差異,提出了U-net++網(wǎng)絡(luò)模型,在網(wǎng)絡(luò)中重新設(shè)計(jì)了跳躍連接結(jié)構(gòu),并增加了可對(duì)不同分割任務(wù)進(jìn)行剪枝的深度監(jiān)督,實(shí)驗(yàn)結(jié)果表明其分割效果確實(shí)優(yōu)于U-net。Oktay等[9]提出的Attention U-net在U-net的編碼器和解碼器之間添加了集成注意力門(AGs),其可以在突出局部區(qū)域特征的同時(shí)抑制不相關(guān)區(qū)域的特征信息,有效地提升了分割精度。Ibtehaz等[10]通過將ResNet中的殘差思想與U-net相結(jié)合提出了MultiResUNet,為了增強(qiáng)U-net的多分辨率分析能力,使用MultiRes模塊替代了卷積操作,取得了不錯(cuò)的分割效果。Chen等[11]提出的TransUNet將Transformer和U-Net的優(yōu)點(diǎn)相結(jié)合,不僅可以較好地提取全局語義信息,還可以有效利用CNN獲取到的低層細(xì)節(jié)信息進(jìn)行精確定位。上述基于U-net網(wǎng)絡(luò)模型改進(jìn)的深度學(xué)習(xí)分割方法雖然在特定訓(xùn)練任務(wù)中提升了分割精度,但是普遍存在模型復(fù)雜度高、訓(xùn)練速度慢的問題,同時(shí)臂叢神經(jīng)結(jié)構(gòu)在超聲圖像中具有占比較小、位置信息不同和形態(tài)不一的特征,進(jìn)一步增加了分割的難度。因此,筆者基于注意力機(jī)制和空洞卷積對(duì)U-net網(wǎng)絡(luò)模型進(jìn)行改進(jìn),提出了一種新的網(wǎng)絡(luò)模型用于自動(dòng)分割臂叢神經(jīng)超聲圖像,該模型主要有3個(gè)創(chuàng)新點(diǎn):1) 在U-net編碼器的卷積和下采樣操作連接中引入通道注意力機(jī)制,賦予分割目標(biāo)更高的權(quán)重,增強(qiáng)網(wǎng)絡(luò)對(duì)淺層特征的提取能力;2) 在編碼器與解碼器之間的跳躍連接中引入空洞空間金字塔池化模塊,使網(wǎng)絡(luò)可以有效提取神經(jīng)結(jié)構(gòu)的多尺度特征信息,提高模型的分割精度;3) 在不顯著增加參數(shù)量的情況下,模型的復(fù)雜度和推測(cè)時(shí)間都得到了提升。
針對(duì)臂叢神經(jīng)超聲圖像分割目標(biāo)不明顯、噪聲多和邊緣不清晰的難題,提出了一種基于注意力機(jī)制和空洞空間金字塔池化模塊的深度卷積神經(jīng)網(wǎng)絡(luò)模型,圖1給出了該模型的整體框架,該模型以U-net為主干網(wǎng)絡(luò),包含編碼器、注意力模塊、空洞空間金字塔池化模塊和解碼器4個(gè)部分。在得到臂叢神經(jīng)超聲圖像后先對(duì)其進(jìn)行數(shù)據(jù)增強(qiáng)操作,避免因數(shù)據(jù)量少限制分割精度的提升,在不失真的情況下將超聲圖像尺寸統(tǒng)一改為256×256,并將灰度圖像輸入到模型中。在編碼器中先對(duì)圖像進(jìn)行兩次卷積,再將卷積得到的特征圖輸入到注意力機(jī)制模塊中,以增加分割目標(biāo)的權(quán)重,經(jīng)過注意力模塊后進(jìn)行下采樣操作,起到縮小圖像分辨率并保留關(guān)鍵信息的作用。在模型本身的跳躍連接中,首先把經(jīng)過注意力模塊后得到的特征圖輸入空洞空間金字塔池化(ASPP)模塊,再將輸出得到的特征圖復(fù)制到對(duì)應(yīng)的解碼器中進(jìn)行通道上的拼接,這樣可以有效地將編碼器中的淺層特征和解碼器中的深層特征結(jié)合并融合神經(jīng)結(jié)構(gòu)的多尺度信息。在解碼器中先對(duì)卷積后輸出的特征圖采取上采樣操作以恢復(fù)圖像分辨率,然后將經(jīng)過上采樣和改進(jìn)后跳躍連接得到的拼接圖進(jìn)行兩次卷積操作,在解碼器的最后一步利用1×1的卷積調(diào)整特征圖的通道數(shù),通過Sigmoid激活函數(shù)轉(zhuǎn)換特征圖中的像素值,最終通過Dice損失函數(shù)實(shí)現(xiàn)臂叢神經(jīng)超聲圖像的掩膜分割。
圖1 基于U-net改進(jìn)的網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.1 Structure diagram of the improved network model based on U-net
為了解決U-Net網(wǎng)絡(luò)模型在卷積層提取特征信息時(shí)將超聲圖片中的噪聲和無用信息傳遞到下一個(gè)卷積層的問題,筆者在模型中引入了通道注意力機(jī)制模塊。隨著SENet[12]的提出,近年來有不少學(xué)者將注意力模塊添加到所設(shè)計(jì)的主干網(wǎng)絡(luò)中。實(shí)驗(yàn)證明:添加注意力模塊確實(shí)可以顯著提升模型的精度,然而不可避免地會(huì)增加網(wǎng)絡(luò)模型的參數(shù)量及復(fù)雜度。因此,筆者將Wang等[13]提出的高效通道注意力網(wǎng)絡(luò)(ECA-Net)作為注意力模塊,ECA-Net可以看作是對(duì)SENet的一種改進(jìn),該方法提出了一種不降維的局部跨通道交互策略,利用一維卷積進(jìn)行適當(dāng)?shù)目缤ǖ澜换タ梢栽诒3中阅艿耐瑫r(shí)降低模型的復(fù)雜度。圖2為ECA-Net通道注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖,其中H為特征張量的高,W為特征張量的寬,C為特征張量的通道數(shù)。首先,基于每個(gè)通道對(duì)輸入的特征張量進(jìn)行全局平均池化;然后,利用1D卷積提取池化得到特征序列,特征序列經(jīng)過sigmoid激活函數(shù)得到每個(gè)通道的權(quán)值;最后,與輸入的特征張量相乘,得到通道注意力模塊的輸出。在ECA-Net中獲取所有通道的依賴關(guān)系是低效和不必要的,而卷積具有良好的跨通道信息獲取能力,因此ECA模塊用1D卷積替換了SENet中的兩次全連接。實(shí)驗(yàn)結(jié)果表明:在嵌入U(xiǎn)-net網(wǎng)絡(luò)模型后,ECA模塊的性能得到了顯著提升。
圖2 高效通道注意力模塊Fig.2 Efficient channel attention module
由于超聲設(shè)備在圖像采集過程中設(shè)置的參數(shù)不同、手法不同,且根據(jù)臂叢神經(jīng)超聲圖像的標(biāo)簽數(shù)據(jù)可以看出臂叢神經(jīng)結(jié)構(gòu)的大小不一,形態(tài)各異,這導(dǎo)致網(wǎng)絡(luò)模型不能有效地提取特征信息,進(jìn)而不能達(dá)到理想的分割精度。為了解決上述問題,筆者在模型中加入了空洞空間金字塔池化(Atrous spatial pyramid pooling,ASPP)[14]模塊,該模塊通過不同膨脹率的空洞卷積和全局平均池化來實(shí)現(xiàn)超聲圖像中不同尺度的特征信息提取,能有效地提升分割性能,圖3為ASPP模塊的結(jié)構(gòu)示意圖。由圖3可知ASPP模塊的第1步需要由5個(gè)卷積層并行操作:第1個(gè)卷積層使用1×1的卷積核對(duì)輸入的特征圖進(jìn)行卷積運(yùn)算,經(jīng)過批量歸一化處理后得到輸出特征圖;第2~4個(gè)卷積層讓輸入的特征圖分別通過膨脹率為6,12,18且卷積核大小為3×3的空洞卷積,空洞卷積可以在不改變卷積核大小的情況下擴(kuò)大感受野,從而對(duì)特征信息進(jìn)行更多的提取,經(jīng)過批量歸一化處理得到輸出特征圖;第5個(gè)卷積層首先要縮小原始圖像的尺寸,以便獲得全局的上下文信息,然后對(duì)輸入特征圖的各個(gè)通道進(jìn)行全局平均池化,接著通過1×1的卷積構(gòu)成新的特征圖,卷積后同樣進(jìn)行批量歸一化處理,最后利用雙線性插值法對(duì)圖像尺寸進(jìn)行還原。在5個(gè)并行卷積層操作完成后,首先對(duì)每個(gè)卷積層得到的輸出特征圖進(jìn)行拼接,以增加不同尺度特征圖之間的相關(guān)性,因?yàn)槭窃谕ǖ谰S度上對(duì)特征圖進(jìn)行拼接,所以得到的通道維數(shù)是原特征圖的5倍;然后利用1×1的卷積對(duì)得到的特征圖進(jìn)行降維;最后經(jīng)過批量歸一化操作得到ASPP模塊輸出的特征圖。
圖3 空洞空間金字塔池化模塊Fig.3 Atrous spatial pyramid pooling module
使用超聲神經(jīng)分割競(jìng)賽中的臂叢神經(jīng)超聲圖像作為數(shù)據(jù)集,該競(jìng)賽在2016年由Kaggle平臺(tái)發(fā)布[15],共有5 635張超聲圖像原圖及5 635張專家標(biāo)注的標(biāo)簽圖像,將數(shù)據(jù)集按照9∶1的比例劃分為訓(xùn)練集和測(cè)試集。由于樣本數(shù)量受到限制,為了使訓(xùn)練樣本覆蓋更多的目標(biāo)特征,筆者采用數(shù)據(jù)增強(qiáng)技術(shù),包括水平、垂直翻轉(zhuǎn)和隨機(jī)縮放。
本實(shí)驗(yàn)的硬件環(huán)境為NVIDIA GeForce RTX 3090顯卡,操作系統(tǒng)為Windows 11,編程語言為Python 3.8,所有程序均在Pytorch框架下實(shí)現(xiàn),實(shí)驗(yàn)中所有的配置都相同,具體的網(wǎng)絡(luò)參數(shù)設(shè)置如下:輸入的圖像尺寸為256×256,迭代次數(shù)為100,Batch_size大小為8,初始學(xué)習(xí)率為0.000 1,優(yōu)化器選用Adam(Adaptive moment estimation)。
本實(shí)驗(yàn)采用戴斯相似性系數(shù)(Dice similarity coefficient,Dice),交并比(Intersection over union,IoU)、精確率(Precision)和召回率(Recall)作為臂叢神經(jīng)超聲圖像分割方法的評(píng)價(jià)指標(biāo),并與SegNet[16],U-Net,U-net++進(jìn)行比較。評(píng)價(jià)指標(biāo)的具體定義如下:
對(duì)于超聲圖像的分割問題,最終分割結(jié)果是把目標(biāo)區(qū)域和背景區(qū)域進(jìn)行劃分,也可以看作是二分類問題,其中,被正確預(yù)測(cè)為神經(jīng)結(jié)構(gòu)的像素個(gè)數(shù)稱為真陽性(True positive,TP),被正確預(yù)測(cè)為背景區(qū)域的像素個(gè)數(shù)稱為真陰性(True negative,TN),被錯(cuò)誤預(yù)測(cè)為神經(jīng)結(jié)構(gòu)的像素個(gè)數(shù)稱為假陽性(False positive,FP),被錯(cuò)誤預(yù)測(cè)為背景區(qū)域的像素個(gè)數(shù)稱為假陰性(False negative,FN)。
1) 精確率(Precision,P)。精確率是指預(yù)測(cè)為神經(jīng)結(jié)構(gòu)的像素個(gè)數(shù)中有多少被正確預(yù)測(cè),其計(jì)算式為
(1)
2) 召回率(Recall,R)。召回率是指原始神經(jīng)結(jié)構(gòu)的像素個(gè)數(shù)中有多少被預(yù)測(cè)正確,其計(jì)算式為
(2)
3) 戴斯相似性系數(shù)(Dice similarity coefficient,Dice)。Dice是評(píng)估兩個(gè)區(qū)域相似度的函數(shù),在本實(shí)驗(yàn)中,表示模型分割的區(qū)域與專家標(biāo)注區(qū)域的重疊率,其范圍為[0,1],其計(jì)算式為
(3)
4) 交并比(Intersection over union,IoU)。IoU通過神經(jīng)結(jié)構(gòu)像素的真實(shí)值和預(yù)測(cè)值的交集與并集的比值來評(píng)估模型的分割性能,其范圍為[0,1],其計(jì)算式為
(4)
式中:Vseg為預(yù)測(cè)區(qū)域;Vgt為真實(shí)區(qū)域。
為了驗(yàn)證筆者模型的分割性能,與當(dāng)下主流的Segnet,U-net和U-net++網(wǎng)絡(luò)模型進(jìn)行比較,圖4展示了4種網(wǎng)絡(luò)模型得到的分割結(jié)果,其中圖4(a)為臂叢神經(jīng)超聲圖像的原圖,圖4(b)為專家標(biāo)注的金標(biāo)準(zhǔn)圖,圖4(c)為筆者模型得到的預(yù)測(cè)圖,圖4(d~f)依次為Segnet,U-net和U-net++網(wǎng)絡(luò)模型得到的預(yù)測(cè)圖。由圖4可知:Segnet網(wǎng)絡(luò)模型預(yù)測(cè)圖的邊緣較粗糙,U-net和U-net++網(wǎng)絡(luò)模型預(yù)測(cè)圖都出現(xiàn)了嚴(yán)重的過分割、欠分割現(xiàn)象,而筆者模型得到的預(yù)測(cè)圖與專家標(biāo)注的金標(biāo)準(zhǔn)中神經(jīng)結(jié)構(gòu)的形狀更加類似且邊緣更加平滑。這說明在編碼器中加入注意力模塊可以有效地抑制隨著網(wǎng)絡(luò)深度的增加而造成的信息丟失,并且對(duì)網(wǎng)絡(luò)淺層提取到的邊緣信息賦予更高的權(quán)重。此外,臂叢神經(jīng)結(jié)構(gòu)在位置信息、尺寸上都存在著差異,而U-net,U-net++和Segnet網(wǎng)絡(luò)模型中僅使用了單一尺寸的卷積核對(duì)特征圖進(jìn)行卷積操作,這樣無法獲得分割目標(biāo)的多尺度信息。因此,筆者在U-net網(wǎng)絡(luò)模型的跳躍連接中添加了ASPP模塊,通過設(shè)置不同膨脹率的空洞卷積實(shí)現(xiàn)對(duì)臂叢神經(jīng)結(jié)構(gòu)不同尺寸特征的信息提取,并將融合的特征圖傳遞到解碼器部分,與解碼器上采樣后得到的特征圖進(jìn)行拼接。
圖4 不同模型分割效果圖Fig.4 Segmentation effect diagram of different models
為了證實(shí)筆者模型確實(shí)存在最優(yōu)的效果,使用不同的評(píng)價(jià)指標(biāo)與Segnet,U-net和U-net++網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn),分割結(jié)果如表1所示。
表1 不同模型的分割結(jié)果對(duì)比
由表1可知:筆者模型在精確率、召回率、Dice和IoU這4個(gè)評(píng)價(jià)指標(biāo)上的分割結(jié)果均優(yōu)于Segnet,U-net和U-net++。與本實(shí)驗(yàn)所用的主干網(wǎng)絡(luò)U-net相比,筆者模型在精確率上提高了11.27%,召回率上提高了5.61%,Dice上提高了9.72%,IoU上提高了9.03%。一方面,說明在U-net網(wǎng)絡(luò)模型編碼器部分引入ECA-Net通道注意力模塊,可以在卷積操作提取特征的基礎(chǔ)上進(jìn)一步加強(qiáng)模型對(duì)邊緣特征的學(xué)習(xí)能力并賦予分割目標(biāo)更高的權(quán)重;另一方面,對(duì)比U-net和U-net++網(wǎng)絡(luò)模型可知,單純的跳躍連接操作并不能顯著提升模型的分割性能,筆者在跳躍連接中引入ASPP模塊,能將深層特征與淺層特征有效地拼接,并融合多尺度信息,從分割結(jié)果來看,分割精度得到了進(jìn)一步提升。
為進(jìn)一步證明筆者模型相較于其他主流的網(wǎng)絡(luò)模型更具有優(yōu)勢(shì)性,選用單張圖片的預(yù)測(cè)時(shí)間作為衡量模型實(shí)時(shí)性的指標(biāo),參數(shù)量和計(jì)算量作為衡量模型復(fù)雜度的指標(biāo),結(jié)果如表2所示。由表2可知:筆者模型對(duì)于單張圖像的平均預(yù)測(cè)時(shí)間為25 ms,僅比U-net增加2 ms,雖然模型的復(fù)雜度高于U-net,但是模型的精度得到了較大提升;與另外兩種分割網(wǎng)絡(luò)模型相比,筆者模型的實(shí)時(shí)性和復(fù)雜度均相對(duì)較優(yōu)。
表2 不同模型的實(shí)時(shí)性和復(fù)雜度對(duì)比
提出了一種基于U-net改進(jìn)的臂叢神經(jīng)超聲圖像分割方法,其利用高效通道注意力(ECA-Net)機(jī)制抑制U-net編碼器中的無關(guān)信息并且增加目標(biāo)通道的權(quán)重,通過與空洞空間金字塔池化(ASPP)模塊相結(jié)合,提高分割網(wǎng)絡(luò)對(duì)不同尺寸臂叢神經(jīng)結(jié)構(gòu)的特征提取能力。實(shí)驗(yàn)結(jié)果表明:筆者模型較其他方法在神經(jīng)結(jié)構(gòu)的欠分割和過分割處理方面的綜合能力更強(qiáng),與基于U-net改進(jìn)的模型U-net++相比,不僅能夠降低模型的復(fù)雜度,而且具有更優(yōu)的分割精度和實(shí)時(shí)性。如何在不降低模型分割精度的情況下減少模型中的網(wǎng)絡(luò)參數(shù),使其能夠真正應(yīng)用到實(shí)踐中輔助醫(yī)生診斷是下一步的研究方向。