改進Segformer的前列腺超聲圖像語義分割算法

2024-09-15 00:00:00石勇濤柳迪高超杜威邱康齊

現(xiàn)代電子技術(shù) 2024年15期

摘 "要：前列腺超聲圖像在臨床中的準(zhǔn)確分割對后續(xù)診斷具有重要影響。因此，通過深度學(xué)習(xí)輔助實現(xiàn)前列腺邊界的快速、準(zhǔn)確分割非常必要。為此，文中提出了一種改進的前列腺分割網(wǎng)絡(luò)（DA?Segformer）。利用Transformer、深監(jiān)督和注意力機制，快速準(zhǔn)確地分割前列腺超聲圖像。引入MAG模塊提高網(wǎng)絡(luò)對特征圖和像素關(guān)聯(lián)性的理解能力，以及對前景像素的敏感度。采用深監(jiān)督策略，在解碼過程中引入損失函數(shù)，優(yōu)化梯度傳播，增強網(wǎng)絡(luò)對關(guān)鍵特征的學(xué)習(xí)表征能力。實驗結(jié)果顯示，在前列腺超聲圖像數(shù)據(jù)集上，DA?Segformer模型的mIoU、Dice系數(shù)、準(zhǔn)確率和召回率等指標(biāo)均優(yōu)于其他主流語義分割模型。該方法有效解決了前列腺超聲圖像手工分割的難題，為臨床診斷提供了有價值的計算機輔助工具。

關(guān)鍵詞：醫(yī)學(xué)圖像分割；超聲圖像分割； Transformer；門控注意力；深監(jiān)督；擴張卷積；梯度下降；多尺度特征

中圖分類號： TN911.73?34； TP391.41 " " " " " " " "文獻標(biāo)識碼： A " " " " " " " " 文章編號： 1004?373X（2024）15?0065?08

Prostate ultrasound image semantic segmentation algorithm

based on improved Segformer

SHI Yongtao1， 2， LIU Di1， 2， GAO Chao1， 2， DU Wei1， 2， QIU Kangqi1， 2

（1. College of Computer and Information Technology， China Three Gorges University， Yichang 443002， China;

2. Hubei Key Laboratory of Intelligent Vision Monitoring for Hydroelectric Engineering， China Three Gorges University， Yichang 443002， China）

Abstract： Accurate segmentation of prostate ultrasound images in clinical settings plays a significant role in subsequent diagnosis. Therefore， it is essential to rapidly and accurately segment the prostate boundary with deep learning assistance. To this end， a novel prostate segmentation network named DA?Segformer is proposed. In this network， the Transformer， deep supervision and attention mechanism are utilized to segment prostate ultrasound images rapidly and accurately. Additionally， the MAG module is introduced to enhance the network′s understanding of feature maps and pixel correlations， so as to improve its sensitivity to foreground pixels. A deep supervision strategy is employed. A loss function is introduced into the decoding process to optimize gradient propagation， so as to enhance the network′s ability to learn and represent the key features. Experimental results demonstrate that the mIoU （mean intersection over union）， Dice coefficient， accuracy rate and recall rate of the DA?Segformer model on the prostate ultrasound image dataset are superior to those of the other mainstream semantic segmentation models. The proposed method effectively addresses the challenge of manual segmentation of prostate ultrasound images， and provides valuable computer?aided tools for clinical diagnosis.

Keywords： medical image segmentation; ultrasound image segmentation; Transformer; gated attention; deep supervision; dilated convolution; gradient descent; multi?scale feature

0 "引 "言

前列腺位于男性膀胱下方和直腸前方，是男性生殖系統(tǒng)的重要組成部分。近年來，隨著城市化進程和社會節(jié)奏的加快，不良生活習(xí)慣導(dǎo)致前列腺相關(guān)疾病發(fā)病率迅速上升[1]。醫(yī)學(xué)成像是醫(yī)生進行疾病診斷的重要手段之一，利用專業(yè)儀器對病人進行掃描以獲取病變位置信息。醫(yī)學(xué)圖像的解讀主要依賴于放射科醫(yī)生的經(jīng)驗和主觀判斷。然而，這種方式既費時費力，又存在不同醫(yī)生經(jīng)驗差異導(dǎo)致同一圖像可能得出不同解讀的問題。鑒于此，利用計算機輔助醫(yī)生進行圖像處理顯得尤為必要[2]。但是目前實現(xiàn)前列腺邊緣輪廓的精準(zhǔn)分割還存在不少困難。前列腺邊界存在大量的陰影、偽音等噪聲點，給分割帶來極大的困難[3]。因此，通過計算機技術(shù)實現(xiàn)對前列腺邊界的精準(zhǔn)分割十分迫切和必要，不僅能夠協(xié)助醫(yī)生提高分割精度，還能幫助醫(yī)生從繁瑣的手工標(biāo)注任務(wù)中解放出來，釋放醫(yī)療資源，提升醫(yī)院整體的醫(yī)療效率。

醫(yī)學(xué)圖像相對于自然圖像而言，背景環(huán)境更為復(fù)雜，具體表現(xiàn)為形狀更為多變，邊緣結(jié)構(gòu)更為模糊，紋理結(jié)構(gòu)更為豐富，這極大地提升了醫(yī)學(xué)圖像分割的挑戰(zhàn)性[4]?；诰矸e神經(jīng)網(wǎng)絡(luò)（CNN）的分割模型已經(jīng)成功地應(yīng)用在醫(yī)學(xué)圖像分割任務(wù)中。例如前列腺分割、腦腫瘤分割、肺分割、視網(wǎng)膜血管分割等。文獻[5]提出U?Net網(wǎng)絡(luò)，改善了醫(yī)學(xué)圖像分割的性能，采用編碼器?解碼器的結(jié)構(gòu)和跳躍連接的設(shè)計模式，將淺層特征和深層特征進行了融合，能夠在保留完整特征的同時定位清晰邊界，解決因為語義相似引起的分割問題，獲得良好的分割性能，隨后一系列基于Unet的改進網(wǎng)絡(luò)模型被提出。文獻[6]提出了Attention Unet，將Attention Gate（AG，門控注意力）機制與Unet相結(jié)合，注意力機制根據(jù)解碼器中的上一層特征圖和編碼器中對應(yīng)層特征圖之間的相似度，為編碼器特征圖分配不同的權(quán)重，使解碼器更加關(guān)注于當(dāng)前分割任務(wù)相關(guān)的特征，從而更好地利用特征信息，提高分割的準(zhǔn)確性。之后XIAO等人針對視網(wǎng)膜血管本身成像的限制以及光源干擾問題，提出了Res?Unet，該模型將殘差網(wǎng)絡(luò)Res?net和Unet進行了融合，通過增加網(wǎng)絡(luò)的深度防止過擬合，提高了模型的準(zhǔn)確度[7]。文獻[8]受到DenseNet[9]的啟發(fā)，提出了Unet++模型，使用密集的跳躍連接，通過特征疊加的方式整合不同的特征，并且引入輔助損失函數(shù)，衡量該層級的預(yù)測結(jié)果與真實標(biāo)簽之間的差異，是一種深度監(jiān)督的編碼器?解碼器網(wǎng)絡(luò)。文獻[10]提出了Unet3+，表示U?net++雖然使用了密集的跳層連接，但未充分利用多尺度的特征圖提取到足夠的信息，因此Unet3+中提出了全尺度跳層連接，精度較U?net++有一定的提升。雖然這些方法在一定程度上提高了醫(yī)學(xué)圖像的分割精度，但是因卷積運算固有的局限性，CNN在局部建模方面存在歸納偏差，缺乏對圖像長期相關(guān)性的解釋，無法建立上下文信息連貫的全局建模，全局信息提取不足等問題。

文獻[11]提出的Transformer模型集成了全局注意力機制，可捕獲長距離的依賴特征，在自然語言處理方面取得了廣泛的成功。文獻[12]將Transformer應(yīng)用到了CV領(lǐng)域，提出ViT（Vision Transformer）用于分類，但是ViT模型通常需要大量的計算資源和參數(shù)量來處理輸入圖像，這對于尺寸較大的圖像分割任務(wù)來說，可能會導(dǎo)致非常高的計算成本。文獻[13]提出了Swing Transformer，通過設(shè)計一種滑動窗口機制、層級下采樣的操作，并引入局部注意力機制，有效地減少了模型的計算復(fù)雜度，可以更有效地處理大尺寸圖像，同時降低計算成本。文獻[14]提出的TransUnet在圖片輸入階段大幅降低圖片尺寸，對于醫(yī)學(xué)圖像數(shù)據(jù)集來說，這丟失了太多的語義信息，導(dǎo)致分割效果不理想。隨后，產(chǎn)生了一系列基于Transformer Block的輕量化語義分割網(wǎng)絡(luò)，如Seaformer[15]、Topformer[16]、Segmenter[17]等。

基于Transformer架構(gòu)的語義分割模型在目前的研究中尚存若干問題：

1）多層感知器（MLP）在不借助預(yù)訓(xùn)練模型的情況下，由于缺乏針對視覺任務(wù)的先驗知識，對于復(fù)雜醫(yī)學(xué)影像數(shù)據(jù)集的分割性能不盡如人意。特別是在邊緣信息的特征提取上表現(xiàn)欠佳，實驗結(jié)果表明，前列腺邊緣區(qū)域的分割結(jié)果顯著不規(guī)則，頻繁出現(xiàn)邊緣區(qū)域的欠分割和誤分割現(xiàn)象。

2） Transformer模型在各個處理階段主要關(guān)注全局上下文信息的建模，忽視了精確定位信息，這導(dǎo)致在低分辨率特征中缺少細(xì)節(jié)，并且這些低分辨率特征無法通過直接上采樣恢復(fù)到全分辨率，從而導(dǎo)致邊界信息的丟失。

為了應(yīng)對上述挑戰(zhàn)，本文首先針對多層感知器（MLP）在邊緣區(qū)域因缺乏先驗知識而出現(xiàn)的明顯欠分割與誤分割現(xiàn)象，提出了一種結(jié)合MLP與門控注意力的多尺度線性特征融合機制（MAG），結(jié)合了MLP優(yōu)異的學(xué)習(xí)能力和門控注意力的局部增強能力，專注于分割目標(biāo)區(qū)域，增強了局部信息的表征，考慮到更多的語境和相關(guān)信息，提高了分割的準(zhǔn)確性，改善了在前列腺超聲圖像上邊緣分割效果不佳的問題?？紤]到本網(wǎng)絡(luò)模型有四層架構(gòu)，并且針對解碼器中使用了上采樣操作從而導(dǎo)致的語義信息丟失的問題，本文引入了改進的深監(jiān)督策略，通過對編碼過程中得到的多尺度特征圖采用不同擴張率的深度可分離卷積以及上采樣操作，對中間層的特征引入損失函數(shù)，使梯度更好地進行反向傳播，提高了對特征的利用率，減少了解碼過程中的語義信息丟失問題，提高了分割精度，同時加快了模型的收斂速度。

通過在前列腺超聲圖像數(shù)據(jù)集上進行測試驗證，實驗結(jié)果表明，相比于經(jīng)典的CNN分割模型Unet、Attention Unet、Unet++，以及以Transformer Block為主的輕量化語義分割模型Seaformer、Topformer、Segmenter，本文所提出的DA?Segformer模型取得了最佳的實驗結(jié)果。

1 "方 "法

1.1 "基本原理

針對前列腺超聲圖像分割，本文結(jié)合Transformer、MLP、深監(jiān)督（Deep Supervision）和門控注意力，提出了一種基于Segformer改進的分割模型（DA?Segformer），其模型結(jié)構(gòu)如圖1所示。

該網(wǎng)絡(luò)結(jié)構(gòu)以Transformer Block和CNN作為主體，并嵌入了MAG（多尺度線性特征融合）模塊和深監(jiān)督模塊。MAG模塊的設(shè)計是為了幫助網(wǎng)絡(luò)更好地理解特征圖的特征以及像素之間的相關(guān)性，增加了模型對前景像素的敏感度。在用該模型進行訓(xùn)練時，通過抑制模型學(xué)習(xí)與任務(wù)無關(guān)的部分，減少網(wǎng)絡(luò)對噪聲和不相關(guān)信息的關(guān)注，同時加重學(xué)習(xí)與任務(wù)有關(guān)的特征，從而提高模型的性能和效率。深監(jiān)督模塊則對MAG模塊得到的特征圖進行損失計算，幫助梯度更好地傳播，使網(wǎng)絡(luò)能夠更快地學(xué)習(xí)更豐富、更有用的特征表示，提高了模型的泛化能力，加快了模型的收斂速度。最后模型會融合不同層次的邊界信息，為最終的分割效果提供大量的邊界補充信息，使分割精度提升明顯，模型的詳細(xì)信息如下所述。

1.2 "Transformer Block編碼器

如圖2所示，在編碼器部分采用了高效的多頭自注意力模塊，自注意力估計為：

[Attention（Q，K，V）=SoftmaxQKTdheadV] （1）

式中[Q]、[K]、[V]具有同樣的大小。在自注意力的基礎(chǔ)上，通過Reshape和Linear層減小了[N]（特征）的長度，這樣做的好處是減小了計算復(fù)雜度，通過如下公式實現(xiàn)：

[K=ReshapeNR，C?R（K）] （2）

[K=Linear（C?R，C）（K）] （3）

Mix?FFN通過引入一種不同的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，提供了一種更加靈活的特征提取方式。傳統(tǒng)的FFN在每個位置上都采用相同的非線性變換，而Mix?FFN則允許在不同位置使用不同的非線性變換，從而增加了模型的表達能力。具體來說，Mix?FFN使用了兩種不同的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：全局前饋神經(jīng)網(wǎng)絡(luò)和局部前饋神經(jīng)網(wǎng)絡(luò)。全局FFN是一個具有較大感受野的前饋神經(jīng)網(wǎng)絡(luò)，能夠更好地捕捉全局上下文信息。而局部FFN是一個具有較小感受野的前饋神經(jīng)網(wǎng)絡(luò)，能夠更好地捕捉局部細(xì)節(jié)信息。通過同時使用全局FFN和局部FFN，Mix?FFN能夠在處理不同位置的特征時更加靈活和準(zhǔn)確。全局FFN可以幫助模型捕捉到更長范圍的依賴關(guān)系和語義信息，而局部FFN則可以更好地處理局部細(xì)節(jié)和細(xì)微變化。Mix?FFN可以表示為：

[Xout=MLP（GeLU（Conv3×3（MLP（Xin））））+Xin] （4）

式中[Xin]是來自自注意力模塊的特征。

1.3 "解碼器

Segformer網(wǎng)絡(luò)整合了一個主要由MLP結(jié)構(gòu)組成的解碼器部分。首先，不同層的特征圖通過一個線性層使它們的通道維度一致化。然后，這些特征圖被上采樣至[14]分辨率，4張?zhí)卣鲌D通過Concat操作融為一體，并分別通過兩個線性層用于融合特征圖和預(yù)測結(jié)果。這種設(shè)計簡化了整個解碼結(jié)構(gòu)，只使用了線性層，避免引入復(fù)雜操作。然而，在噪聲大、數(shù)據(jù)少的前列腺超聲圖像數(shù)據(jù)集上訓(xùn)練變得異常困難，為了改善分割效果，對此提出了如下改進方法。

1.3.1 "多尺度線性特征融合模塊（MAG）

在編碼器中得到了4個不同尺度的特征圖像[X1]，其尺寸分別為輸入特征圖的[14]、[18]、[116]、[132]，淺層特征具有豐富的細(xì)節(jié)特征，紋理特征更為豐富，高層特征則具有更多的語義信息，Segformer的解碼器全部由MLP層組成，由于沒有先驗知識，考慮到前列腺超聲圖像數(shù)據(jù)集噪聲大、體量小的特殊性，這樣的解碼器很可能會導(dǎo)致模型收斂慢、精度差、擬合不好數(shù)據(jù)，而卷積神經(jīng)網(wǎng)絡(luò)加了偏置項，在小數(shù)據(jù)集上擬合能力更好。因此，提出了MAG模塊，如圖3所示。該模塊首先通過多層感知機（MLP）對輸入的特征圖[Xi]和[Xi-1]進行線性化，使其從四維變成一維的數(shù)據(jù)，然后通過Reshape將其變?yōu)閏hannel都為256的多尺度特征圖[X′i]、[X′i-1]，一方面能使多尺度特征圖的通道數(shù)對齊，其次可以學(xué)習(xí)到更加抽象的特征。通過將[X′i]使用雙線性插值方法進行上采樣，使其與[Xi-1]具有相同的尺寸，將[X′i]與[X′i-1]進行并行處理，分別使用1×1的卷積及批歸一化（BN）操作，再將其對應(yīng)的元素相加進行特征融合，得到更為豐富的語義特征圖。之后進行ReLU（Rectified Linear Unit）操作以及1×1的卷積操作，再使用BN、Sigmoid激活函數(shù)得到通道數(shù)為1的注意力權(quán)重[α]，令其與[X′i-1]相乘，得到channel數(shù)為256的注意力特征圖，再將其與[X′i]進行Concat操作，通過一個CBL（Conv、BN、ReLU）模塊將通道數(shù)從512還原成256，并得到具有豐富語義信息的特征圖[Y]。上述過程可由式（5）～式（10）表示。

[X=Reshape（MLP（X））] （5）

[Attention_Weights=σ（Wa*X+ba）] （6）

[Adjusted_Context=Attention_Weights*C] （7）

[Y=ReLU（Wy*（Adjusted_Context⊕X）+by）] （8）

[Y=Y?X] （9）

[Y=ReLU（BN（Conv（Y）））] （10）

式中：[X]表示輸入特征圖；[Wa]代表注意力權(quán)重矩陣；[ba]代表注意力偏置；[σ]表示Sigmoid激活函數(shù)；“*”表示乘法；[Wy]是輸出權(quán)重矩陣；[by]是輸出偏置；“[⊕]”表示逐元素相加；“[?]”為逐元素相乘（Element?wise Multiplication）；[Y]為最終的輸出圖。

1.3.2 "深監(jiān)督模塊

本文在解碼器中考慮到前列腺超聲圖像的數(shù)據(jù)量較小以及醫(yī)學(xué)圖像本身的復(fù)雜性，引入了深監(jiān)督策略，如圖4所示。在解碼過程中，針對不同階段的特征圖[Y]，引入損失函數(shù)，在訓(xùn)練期間，這些輔助分支與主要分支共同生成預(yù)測結(jié)果，并與真實標(biāo)簽計算損失，將與標(biāo)簽做損失得到的梯度直接回傳到中間層，這樣一來，網(wǎng)絡(luò)在不同深度處都可以接收來自損失函數(shù)的梯度信號，從而更好地學(xué)習(xí)特征，減少模型的過擬合現(xiàn)象，并提高分割精度，加快網(wǎng)絡(luò)的收斂速度。首先將解碼階段得到的中間層特征圖[Y]進行上采樣操作，與Mask的尺寸進行對齊，其次本文在進行深監(jiān)督時，同時注意到了高級特征和低級特征，采用不同擴張率的深度可分離卷積獲取不同的特征信息。通過擴張率為1和3的卷積獲得局部特征信息，擴張率為5和7的卷積獲得全局特征信息。將取得的局部特征信息和全局特征信息相加，進行特征提取，并將通道數(shù)調(diào)整為2，通道數(shù)和尺寸都與mask對齊，通過損失函數(shù)計算損失，并且將梯度數(shù)據(jù)回傳，監(jiān)督每個分支的輸出。本文高效地利用了中間層的特征，保留更多的多尺度特征信息。實驗表明，深監(jiān)督策略使網(wǎng)絡(luò)可以更好地理解數(shù)據(jù)，從而學(xué)習(xí)更復(fù)雜的特征表示，加快模型的收斂速度，從而改進模型的性能。

2 "實 "驗

2.1 "數(shù)據(jù)集及其預(yù)處理

為了驗證本文方法的可靠性，本次實驗所采用的超聲圖像全部來自某家醫(yī)院的前列腺檢查數(shù)據(jù)，一共133張。在去除掉病人的隱私后，圖片的分辨率為512×512 pixel，其中訓(xùn)練集有80張圖片，驗證集有27張圖片，測試集有26張圖片。為了方便訓(xùn)練，在訓(xùn)練的時候縮放成256×256 pixel，并且由經(jīng)驗豐富的放射科醫(yī)生為每幅圖像手工標(biāo)注分割標(biāo)簽，方便對后續(xù)的實驗結(jié)果進行性能評估。

2.2 "實驗環(huán)境

實驗是基于Windows 11專業(yè)版的操作系統(tǒng)，使用1塊NVIDIA GeForce GTX 1660s的設(shè)備對上述數(shù)據(jù)集進行訓(xùn)練，使用Python 3.8作為開發(fā)語言，開發(fā)框架為PaddlePaddle 2.9。實驗的batch size設(shè)為4，epoch設(shè)為50，選擇AdamW作為優(yōu)化器，權(quán)重衰減系數(shù)（weight_decay）設(shè)為0.01，初始學(xué)習(xí)率（learning_rate）設(shè)為0.001，學(xué)習(xí)率調(diào)度器為PolynomialDecay，指數(shù)衰減率為1，根據(jù)epoch和learning_rate之間的關(guān)系，線性下降學(xué)習(xí)率。本文采用CrossEntropyLoss作為損失函數(shù)，損失函數(shù)權(quán)重coef設(shè)為1。

2.3 "評價指標(biāo)

本文主要采用Dice相似系數(shù)（Dice Similarity Coefficient， DSC）、平均交并比（Mean Intersection over Union， mIoU）、準(zhǔn)確率（Precision）、召回率（Recall）作為評價指標(biāo)來評估模型對前列腺超聲圖像分割性能。

mIoU通過計算兩個集合的交集及其并集的重合比來表征模型性能，定義如下：

[mIoU=TPFN+TP+FP] （11）

Dice系數(shù)用于衡量類別真實值與預(yù)測結(jié)果之間的相似度，定義如下：

[Dice=2TPFN+2TP+FP] （12）

準(zhǔn)確率（Precision）是指分類器在預(yù)測為正例的樣本中，真正為正例的比例，定義如下：

[Precision=TPTP+FP] （13）

召回率（Recall）是在所有真正為正例的樣本中成功預(yù)測為正例的比例，定義如下：

[Recall=TPTP+FN] （14）

式中：FN為分類器預(yù)測結(jié)果為負(fù)樣本，實際為正樣本，即漏報的正樣本數(shù)量；TP為分類器預(yù)測結(jié)果為正樣本，實際也為正樣本，即正樣本被正確識別的數(shù)量；FP為分類器預(yù)測結(jié)果為正樣本，實際為負(fù)樣本，即被誤報的負(fù)樣本數(shù)量。

2.4 "對比實驗

為了客觀評估本文所提出方法的性能，在相同實驗環(huán)境及數(shù)據(jù)集下，將本文提出的模型DA?Segformer與優(yōu)秀的CNN醫(yī)學(xué)圖像分割網(wǎng)絡(luò)Unet、Attention Unet、Unet++，以及以Transformer為骨干的模型Segmenter、Topformer、Seaformer的測試結(jié)果進行對比，實驗結(jié)果如表1所示。

由表1可見，本文以Unet前列腺分割模型作為對比模型，其余的模型較此均有一定的提升。其中Attention Unet相比Unet模型，Recall系數(shù)提升最為顯著，提升了1.81%。而Unet++在Unet的基礎(chǔ)上融合了深監(jiān)督策略，精度提升明顯，mIoU提升了2.91%。實驗數(shù)據(jù)表明，在加入AG和深監(jiān)督策略之后，模型的性能得到了顯著的提升，因此在本文的模型設(shè)計過程中考慮到了AG和深監(jiān)督的融入，并加以改進，提出了MAG模塊和深監(jiān)督模塊。本文提出的DA?Segformer在mIoU、Dice系數(shù)、Recall這三個指標(biāo)上都取得了最優(yōu)的結(jié)果，其中相比同樣以Transformer為骨干的輕量化網(wǎng)絡(luò)Segmenter、Topformer、Seaformer，mIoU分別提高了1.56%、2.8%、0.52%，DA?Segformer的前景分割平均交并比達到了0.952 5，表明本文模型的分割結(jié)果與真實值高度相似。Recall系數(shù)達到了0.975 7，相比Segmenter、Topformer模型提升了1.05%、2.05%，表明DA?Segformer模型能夠較準(zhǔn)確地識別前景部分，同時Dice系數(shù)達到了0.983 0，Precision達到了0.975 6。綜上所述，本文提出的分割模型的分割精度與真實值相似度較高，能夠較好地分割前景和背景，分割性能優(yōu)于以上提出的6種模型，有效地提升了前列腺超聲圖像的分割精度。

將本文模型與表1的其他6種分割模型結(jié)果進行了更為直觀的對比和展示，用訓(xùn)練好的模型對測試集進行測試。選取部分?jǐn)?shù)據(jù)，將其結(jié)果同輸入圖像及標(biāo)簽進行對比，如圖5所示。

從圖5的分割結(jié)果來看，其他6種模型均存在分割效果不足的問題，特別是實線方框內(nèi)部的區(qū)域，在分割細(xì)節(jié)上缺乏一定的敏感度，未能有效地提取圖像的全局信息，對圖像邊緣信息的忽略導(dǎo)致前列腺邊緣區(qū)域模糊、前列腺邊界極其不規(guī)則。

具體的分割細(xì)節(jié)如圖6所示。

圖6中，序號為1的箭頭指向為Ground Truth，序號為2的箭頭指向為原版的Segformer所得到的邊緣分割信息，序號為3的箭頭指向則為本文提出的DA?Segformer模型的分割效果圖?？梢郧逦乜吹剑瑘D6a）原本的Segformer模型存在明顯的欠分割現(xiàn)象，對本是前列腺的區(qū)域未能識別出來；圖6b）則存在誤分割現(xiàn)象，在真值邊緣信息不規(guī)則的情況下，錯誤地將本不屬于前列腺的區(qū)域劃分為了前列腺區(qū)域；而在本文提出的模型的分割結(jié)果上顯示，在添加了MAG模塊和深監(jiān)督策略之后，加強了對前列腺區(qū)域的識別能力，在解碼過程中的語義信息和紋理信息得到了很好的保留，欠分割問題和誤分割問題大大減少，Recall系數(shù)和Precision系數(shù)要優(yōu)于原本的Segformer模型，分割結(jié)果更接近標(biāo)簽，分割性能更好。

2.5 "基于Segformer的消融實驗

由表1可知，本研究引入的MAG模塊和深監(jiān)督模塊都在不同程度上對原本的Segformer模型進行了優(yōu)化，分割精度上漲明顯，為了具體地了解MAG和深監(jiān)督對模型的影響程度，以Segformer為基準(zhǔn)，設(shè)置了相應(yīng)的消融實驗，實驗結(jié)果如表2所示。

本實驗分別對原版的Segformer，以及分別添加MAG、深監(jiān)督以及預(yù)訓(xùn)練的模型進行了實驗結(jié)果對比，實驗結(jié)果表明，Segformer的mIoU為0.922 9，Dice系數(shù)為0.972 0，召回率為0.955 5。在添加了深監(jiān)督策略以后，分割精度上漲了0.83%，Dice系數(shù)、Precision指標(biāo)、召回率分別上漲了0.31%、0.81%、0.10%。隨后又對只添加MAG模塊的Segformer網(wǎng)絡(luò)進行了測試，mIoU上漲了1.34%，Dice系數(shù)、Precision指標(biāo)、召回率分別上漲了0.5%、0.7%、0.74%。實驗結(jié)果表明，在分別加入AG和深監(jiān)督策略之后，精度上都有1%左右的提升，所以將MAG和深監(jiān)督同時添加到本文的解碼器之中，將兩種策略的結(jié)果進行融合得出最后表2中DA?Segformer的實驗結(jié)果。mIoU分割精度有較大的提升，相比于原本的Segformer模型提升了2.96%，相比分別添加深監(jiān)督和MAG網(wǎng)絡(luò)的分割精度分別提升了2.13%、1.62%，而且在其他所有指標(biāo)上也都有一定的提升，可知在加入MAG和深監(jiān)督的模塊之后，增強了對顯著特征的提取能力，分割性能得到了明顯的提升，并且相對于添加預(yù)訓(xùn)練模型的Segformer，DA?Segformer的mIoU也提升了0.32%，Dice系數(shù)、召回率也分別提升了0.12%、0.61%，說明DA?Segformer的魯棒性較強，也不需要大量的數(shù)據(jù)來訓(xùn)練，正好契合醫(yī)學(xué)圖像數(shù)據(jù)集的特性。

2.6 "損失函數(shù)對比實驗

本文采用深監(jiān)督策略用于解決前列腺超聲圖像特征復(fù)雜、數(shù)據(jù)量小的問題，通過在解碼器中間層引入損失函數(shù)，將梯度及時回傳，增強了對特征的提取能力，同時提高了精度，因此損失函數(shù)的選擇至關(guān)重要。為了進一步測試損失函數(shù)的重要性，本文在同樣的權(quán)重參數(shù)下，設(shè)置了相應(yīng)的消融實驗，經(jīng)過實驗表明，CrossEntropyLoss為最佳損失函數(shù)，性能效果最好，實驗結(jié)果如表3所示。

2.7 "深監(jiān)督對模型性能的影響

圖7為本文模型有無深監(jiān)督模塊的訓(xùn)練曲線圖。

從圖7可知，針對數(shù)據(jù)量較小的前列腺超聲圖像數(shù)據(jù)集，沒有嵌入深監(jiān)督策略的模型收斂速度較慢，且由于上采樣過程中語義信息的丟失，精度也不如DA?Segformer。本文的深監(jiān)督策略起到了不錯的效果，對上采樣語義信息的丟失問題進行了改善，很好地保留了前列腺邊緣特征，提高了分割精度，同時加快了模型的收斂速度。

3 "結(jié) "論

本文結(jié)合Segformer、MAG和深監(jiān)督策略，提出了一種基于Segformer的改進分割模型DA?Segformer，實現(xiàn)了對前列腺超聲圖像的全自動分割。DA?Segformer使用Transformer作為骨干的編碼器，原本以MLP架構(gòu)為主的解碼器精度不足，僅僅通過一個以MLP為主的解碼器模塊對多層次特征圖進行邊緣特征提取，這種解碼方式在醫(yī)學(xué)圖像小數(shù)據(jù)集上存在分割效果不佳的問題。本文改變了其解碼架構(gòu)，在解碼器中嵌入了MAG模塊，加強對顯著目標(biāo)區(qū)域的特征提取，并且抑制無關(guān)區(qū)域；再對多級特征圖在解碼時引入深監(jiān)督策略，對淺層特征也進行分類，并計算損失，使梯度能夠及時回傳。實驗結(jié)果表明，本文模型相較于其他6種模型，取得了最高的分割精度，有效地提高了對前列腺超聲圖像的分割效果。緩解了目前前列腺超聲圖像需要大量醫(yī)生進行手工分割的難題。

原版的Segformer以及本文提出的模型在少數(shù)前列腺超聲圖像分析中均出現(xiàn)了對于肉眼可明顯識別為非目標(biāo)區(qū)域的噪聲進行錯誤分割的現(xiàn)象，將這些噪聲誤判為前列腺目標(biāo)區(qū)域并對其執(zhí)行了分割。此現(xiàn)象表明，現(xiàn)有模型設(shè)計尚存在改善空間，針對此問題的優(yōu)化將成為后續(xù)研究的焦點。

注：本文通訊作者為石勇濤。

參考文獻

[1] 司明俊.磁共振彌散峰度成像鑒別診斷前列腺癌與良性前列腺增生的臨床價值及參數(shù)分析[J].影像研究與醫(yī)學(xué)應(yīng)用，2023，7（24）：25?27.

[2] MERJULAH R， CHANDRA J. Segmentation technique for medical image processing： A survey [C]// International Conference on Inventive Computing and Informatics. New York： IEEE， 2017： 1055?1061.

[3] 石勇濤，高超，李偉，等.雙態(tài)形狀重構(gòu)及其在前列腺超聲圖像分割中的應(yīng)用[J].計算機應(yīng)用研究，2023，40（3）：954?960.

[4] 胡帥，李華玲，郝德琛.改進UNet的多級邊緣增強醫(yī)學(xué)圖像分割網(wǎng)絡(luò)[J].計算機工程，2024，50（4）：286?293.

[5] RONNEBERGER O， FISCHER P， BROX T. U?Net： Convolutional networks for biomedical image segmentation [C]// Proceedings of 18th International Conference on Medical Image Computing and Computer?assisted Intervention. Heidelberg， Germany： Springer， 2015： 234?241.

[6] OKTAY O， SCHLEMPER J， FOLGOC L L， et al. Attention U?Net： Learning where to look for the pancreas [EB/OL]. [2018?05?20]. https：//arxiv.org/abs/1804.03999.

[7] DIAKOGIANNIS F I， WALDNER F， CACCETTA P， et al. ResUNet?a： A deep learning framework for semantic segmentation of remotely sensed data [EB/OL]. [2019?04?24]. http：//arxiv.org/abs/1904.00592.

[8] ZHOU Z W， SIDDIQUEE M M R， TAJBAKHSH N， et al. UNet++： A nested U?Net architecture for medical image segmentation [C]// 2018 4th International Workshop on Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Heidelberg， Germany： Springer， 2018： 3?11.

[9] HUANG G， LIU Z， VAN DER MAATEN L， et al. Densely connected convolutional networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2017： 2261?2269.

[10] HUANG H M， LIN L F， TONG R F， et al. UNet 3+： A full?scale connected UNet for medical image segmentation [C]// 2020 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）. New York： IEEE， 2020： 1055?1059.

[11] VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need [C]// Advances in Neural Information Processing Systems 30： Annual Conference on Neural Information Processing Systems 2017. [S.l.： s.n.]， 2017： 5998?6008.

[12] DOSOVITSKIY A， BEYER L， KOLESNIKOV A， et al. An image is worth 16x16 words： Transformers for image recognition at scale [EB/OL]. [2021?01?12]. https：//openreview.net/forum？id=YicbFdNTTy.

[13] LIU Z， LIN Y T， CAO Y， et al. Swin Transformer： Hierarchical vision Transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York： IEEE， 2021： 9992?10002.

[14] CHEN J N， LU Y Y， YU Q H， et al. TransUNet： Transformers make strong encoders for medical image segmentation [EB/OL]. [2021?04?12]. https：//arxiv.org/abs/2102.04306.

[15] WAN Q， HUANG Z L， LU J C， et al. SeaFormer： Squeeze?enhanced axial Transformer for mobile semantic segmentation [EB/OL]. [2023?10?27]. https：//openreview.net/pdf？id=?qg8MQNrxZw.

[16] ZHANG W Q， HUANG Z L， LUO G Z， et al. TopFormer： Token pyramid Transformer for mobile semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2022： 12073?12083.

[17] STRUDEL R， PINEL R G， LAPTEV I， et al. Segmenter： Transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York： IEEE， 2021： 7242?7252.

作者簡介：石勇濤（1978—），男，湖北天門人，博士，教授，碩士生導(dǎo)師，主要研究方向為醫(yī)學(xué)圖像處理、模式識別、最優(yōu)化方法。

柳 "迪（1997—），男，湖北宜昌人，碩士研究生，主要研究方向為深度學(xué)習(xí)、醫(yī)學(xué)圖像分割。

高 "超（1995—），男，廣東深圳人，碩士研究生，主要研究方向為深度學(xué)習(xí)、醫(yī)學(xué)圖像處理。

杜 "威（1998—），女，遼寧本溪人，碩士研究生，主要研究方向為機器學(xué)習(xí)、圖像處理。

邱康齊（1998—），男，湖北孝感人，碩士研究生，主要研究方向為醫(yī)學(xué)圖像處理。