夏平, 張光一, 雷幫軍*, 鄒耀斌, 唐庭龍
(1.三峽大學 水電工程智能視覺監(jiān)測湖北省重點實驗室,湖北 宜昌 443002;2.三峽大學 計算機與信息學院,湖北 宜昌 443002)
結(jié)直腸癌是現(xiàn)今發(fā)病率排第三的癌癥[1-2],而大腸息肉是結(jié)直腸癌的早期病變特征,早期診斷是預防結(jié)直腸癌的重要手段。研究表明[3],定期進行結(jié)腸鏡檢查能減少30%的結(jié)直腸癌發(fā)病率,臨床中結(jié)腸息肉的判斷往往需要經(jīng)驗豐富的醫(yī)生進行定位,存在一定的誤診概率;因此,對結(jié)直腸息肉圖像分割是為提高醫(yī)生充分利用結(jié)腸鏡影像來發(fā)掘影像中所反映的解剖及病例信息,便于醫(yī)生的診斷及病情評估。由于息肉的形狀、顏色、大小往往各不相同;此外,息肉與周圍黏膜的邊界不清晰,影響醫(yī)生對息肉的判斷,因此,息肉圖像的分割和定位存在一定困難。由于大腸息肉圖像的復雜性,傳統(tǒng)方法對大腸息肉圖像分割效果不理想,隨著醫(yī)學圖像處理技術(shù)的發(fā)展,深度學習技術(shù)在醫(yī)學圖像處理中的應用大放異彩[4-5],基于全卷積網(wǎng)絡的醫(yī)學圖像分割算法逐漸取代了傳統(tǒng)的基于顏色、紋理、外觀及形狀等特征組合的息肉分割方法[6-7],分割的效果大幅提高。
作為FCN(Fully Convolutional Networks)[8]網(wǎng)絡的變體,U-Net[9]使用編碼-解碼模型實現(xiàn)全卷積醫(yī)學圖像分割,使用跳躍連接保留淺層細節(jié)信息和深層空間信息,并融合不同深度的特征信息,在醫(yī)學圖像分割中取得了很好效果;但當圖像特征較復雜時,其編碼結(jié)構(gòu)無法有效地提取其特征信息,因而,基于U-Net的息肉圖像分割效果不佳。U-Net++[10],ResUNet++[11]等網(wǎng)絡用于息肉圖像的分割,分割效果有了較大提升,但這些網(wǎng)絡與U-Net存在同樣的問題,無法清晰地分割病變邊緣,且對微小病變存在完全漏檢的情況。
研究者提出了其他一些大腸息肉圖像分割方法,如,采用PraNet(Parallel reverse attention Network)[12],DoubleUNet[13]網(wǎng)絡等,網(wǎng)絡中均采用了多尺度感受野模塊,提升了息肉圖像分割的效果,從而說明了采用多尺度感受野對提高息肉分割效果是一種有效的方式。ABCNet(Area-Boundary Constraint Network)[14],ACSNet(Adaptive Context Selection Network)[15]網(wǎng)絡在提高息肉分割精度的同時關(guān)注了網(wǎng)絡的泛化能力,隨后提出的改進型雙U型網(wǎng)絡[16]引入多尺度選擇核心通道注意力和空間注意力等方式提升網(wǎng)絡的分割精度;結(jié)合HarDNet和反向注意力的息肉分割[17]一文中提出了用HarDNet來提高預測速度;這些都取得了較好的分割效果。
注意力機制在網(wǎng)絡構(gòu)建中被廣泛應用。ResNet[18]網(wǎng)絡加入SE通道注意力模塊形成SENet[19],SE-Net通過自適應重新校準通道特征響應來引入通道注意力機制;SK-Net[20]則利用兩個網(wǎng)絡分支引入特征圖注意力,自適應調(diào)整自身感受野; ResNeXt[21]則在瓶頸層(ResNet bottle)中采用組卷積,將多通道結(jié)構(gòu)變?yōu)榻y(tǒng)一操作。ResNeSt[22]借鑒了ResNeXt[21]網(wǎng)絡思想,在ResNet中加入拆分注意力模塊[22-23],跨不同的特征圖組實現(xiàn)特征圖注意力。
針對息肉圖像特點,本文提出了多尺度ResNeSt- 50聚合網(wǎng)絡與順序樹重加權(quán)置信度傳播(Tree-reweighted message passing,TRW-S)的息肉圖像分割方法。為定位和分割輪廓模糊的息肉圖像,通過構(gòu)建的多尺度ResNeSt-50聚合網(wǎng)絡獲取圖像的弱特征信息,該網(wǎng)絡架構(gòu)由編碼、解碼兩部分組成,編碼部分用卷積模塊和ResNeSt模塊構(gòu)建ResNeSt-50骨干網(wǎng)絡,解碼部分由多層分支感受野(Receptive Field Block,RFB)模塊和密集聚合(Dense Aggregation)模塊構(gòu)成,以提高網(wǎng)絡的表達能力與微小病變檢測能力。網(wǎng)絡輸出的息肉分割圖像經(jīng)測試時數(shù)據(jù)增強(Test Time Augmentation, TTA)模塊及構(gòu)建的順序樹重加權(quán)置信度傳播(TRW-S)算法強化分割邊緣,增強息肉圖像內(nèi)部分割的連貫性,提升模型的泛化能力,實現(xiàn)了息肉圖像的有效分割。
本文構(gòu)建的息肉圖像分割模型由編碼-解碼器、TTA、及TRW-S等三部分組成。為提升模型的表達能力與泛化能力,編碼網(wǎng)絡采用一級卷積模塊和四級ResNeSt模塊[22]級聯(lián)構(gòu)建ResNeSt-50骨干網(wǎng)絡;解碼部分采用多層分支感受野(RFB)[24]模塊和密集聚合(Dense Aggregation)模塊[25]構(gòu)建而成,以融合上下文信息,并采用8倍上采樣跳過最上兩層信息實現(xiàn)快速解碼輸出。
采用測試時數(shù)據(jù)增強(TTA)模塊[26]對訓練后的模型采用水平和豎直翻轉(zhuǎn)兩種方式實現(xiàn)數(shù)據(jù)增強,并將增強的結(jié)果與原圖預測結(jié)果取均值得到最終預測圖,以此提升本文模型的預測及泛化能力。
模型最后在TTA輸出的預測圖中構(gòu)建馬爾科夫隨機場的順序樹加權(quán)置信度傳播(TRWS)算法,結(jié)合全局信息對分割圖進行平滑,以提高分割圖像邊緣的連續(xù)性和分割區(qū)域內(nèi)部的一致性。TRW-S采用動態(tài)規(guī)劃方法,正反向遍歷節(jié)點來迭代傳播樹的信息并更新結(jié)點權(quán)重,以此實現(xiàn)其全局收斂;相對于樹加權(quán)信息傳遞算法,本文TRW-S算法收斂性更好[27-28]。如圖1所示。
圖1 本文模型Fig.1 Model of this paper
ResNeSt網(wǎng)絡將輸入分成k個基數(shù)組(Cardinal),每個記為Cardinali,每個基數(shù)組拆分為r個部分組成,每部分內(nèi)部通過卷積核分別為1×1,3×3兩級卷積運算,提取特征信息后,將拆分的r個部分模塊信息輸入拆分注意力模塊中,實現(xiàn)基數(shù)組信息輸出。將k個基數(shù)組信息全連接,經(jīng)1×1模塊卷積運算輸出,特征圖組數(shù)量取決于基數(shù)超參數(shù)k,引入基數(shù)超參數(shù)r指示基數(shù)組內(nèi)的拆分數(shù),共有G=k×r組。拆分注意力思想借鑒了SE-Net[19]與SK-Net[20]中通道選擇模塊和感受野選擇模塊的思路,由特征圖組和分割注意力操作組成;如圖2所示。基數(shù)組通過求權(quán)重再融合的方式實現(xiàn)了特征通道間權(quán)重分配;在其上進行全局平均池化,得到c(C/K)維特征向量,表示各通道權(quán)重。第k個基數(shù)群表示[22]:
圖2 ResNeSt中拆分注意力模塊Fig.2 Split-attention in ResNeSt Block
其中:∈Rh×w×c/k,h,w與c表示塊輸出特征圖大小。
全局上下文信息[22]:
基數(shù)群加權(quán)融合實現(xiàn)通道注意力聚合,經(jīng)兩個全連接層權(quán)重重新分配;由于全連接或卷積層的輸出為對稱、非稀疏分布,對其使用BN與Re-LU能產(chǎn)生更加穩(wěn)定的分布,因此,BN層和Re-LU位于線性單元之后,并用softmax操作保證基數(shù)組間特征層拆分權(quán)重獨立分布,有[22]:
其中:aki(c)表示通過softmax函數(shù)分配的權(quán)重,映射Gi根據(jù)全局上下文表示sk確定第c個通道的權(quán)重。
最后與原始特征組相乘后按式(4)得基數(shù)組輸出。
本文采用一級卷積模塊和四級ResNeSt模塊[22]級聯(lián)構(gòu)建ResNeSt-50的骨干網(wǎng)絡如圖3所示。文后的消融實驗驗證了本文構(gòu)建的ResNeSt-50骨干網(wǎng)絡對模型的泛化能力有較明顯地提升。
圖3 本文ResNeSt-50編碼結(jié)構(gòu)Fig.3 ResNeSt-50 encoding structure of this paper
本文并行解碼模塊由多層分支感受野(RFB)[24]模塊和密集聚合模塊[25]融合上下文信息構(gòu)成。解碼器的三層RFB模塊與編碼模塊中第三、第四、第五級級聯(lián),編碼輸出的特性信息分別輸入解碼器的各層RFB中。RFB[24]模塊采用并行的多尺度感受野,前三個分支先用大小分別為1×3,1×5,1×7卷積核進行卷積運算,再采用大小分別為3×1,5×1,7×1的卷積核進行卷積運算,最后用3×3的空洞卷積進行運算,膨脹系數(shù)分別為3,5,7;第四個分支采用1×1的卷積運算,實現(xiàn)輸入、輸出特征圖長寬比例的同時獲得不同尺度的感受野,因此,本文使用多尺度感受野模塊提升小病變區(qū)域的分割能力。
RFB模塊每一層包含不同尺度的膨脹卷積,有利于增大分割網(wǎng)絡的感受野,且不會引入過多的計算量和增加網(wǎng)絡深度,本文RFB模塊輸出通道數(shù)均為32,這也減少了網(wǎng)絡的參數(shù)量。文后的消融實驗說明,加入RFB模塊有利于提升模型的泛化能力。文獻[12]亦證明,該模塊有利于改善大腸息肉分割的效果。如圖4(a)所示。
圖4 RFB與密集聚合模塊Fig.4 RFB and dense aggregation module
密集聚合模塊采用逐元素相乘與上采樣的方式連接不同尺度的特征圖信息,經(jīng)通道級聯(lián),將特征圖信息合并輸出。本文模型改變了U-Net中跳躍連接的線性信息傳播方式,使用聚合方式實現(xiàn)不同階段的信息融合,通過聚合與短連接形成的密集網(wǎng)絡加強了新信息的傳遞,對特征圖信息的反復利用強化了網(wǎng)絡的理解能力,減少了網(wǎng)絡參數(shù)量。RFB模塊之后通道數(shù)均降至32,密集聚合后的網(wǎng)絡達到了較理想的分割效果。若采用U-Net的對稱解碼結(jié)構(gòu),網(wǎng)絡參數(shù)量會大大增加。文獻[29]已證明,最上兩層的跳躍連接對模型整體準確度貢獻小,但參數(shù)數(shù)目大量增加,因此,本文采用8倍上采樣跳過最上兩層信息實現(xiàn)快速解碼輸出。如圖4(b)所示。
本文構(gòu)建的TRW-S算法中,節(jié)點概率分布狀態(tài)以消息傳播方式傳遞給相鄰節(jié)點,經(jīng)多次迭代后,每個節(jié)點的置信度收斂到穩(wěn)態(tài)。如圖5(a)中,節(jié)點i對應狀態(tài)值xi,觀測值yi為其像素值,二者統(tǒng)計依賴性用似然函數(shù)?(xi,yi)=P(yi|xi)描述;相鄰節(jié)點i,j間相互作用以勢能量ψ(xi,xj)表示,其聯(lián)合概率:
圖5 置信度的消息傳播Fig.5 Message propagation of confidence level
其中,Z為歸一化常數(shù)。
由圖5(b),所有傳入節(jié)點i消息:
其中:k為歸一化常數(shù),消息mji表示節(jié)點j對節(jié)點i當前標記的影響。
相鄰節(jié)點i,j消息更新時,由節(jié)點j向節(jié)點i發(fā)送消息為mji,其滿足:
其中:N(j)i表示節(jié)點j四鄰域系統(tǒng)中不含節(jié)點i;向量mji(xi)每一維元素描述節(jié)點j在相應標記xj(xj∈L)對節(jié)點i狀態(tài)的影響。mji(xi)為:
由式(6)和式(7)可知,節(jié)點i、節(jié)點j的聯(lián)合概率:
結(jié)合式(6)和式(9),節(jié)點i的邊緣概率:
TRW-S算法利用節(jié)點間相互傳遞信息來更新當前MRF標記的狀態(tài),并依據(jù)傳遞后的信息更新節(jié)點的置信度。
定義標記場能量[30-31]:
定義特征場能量:
后驗概率P(xi|yi,xN(i))最大對應的最優(yōu)標記:
其中:P(xi|xN(i))為標記局部概率,N(i)為節(jié)點i鄰域.
式(13)等價于能量最小,即:
樹加權(quán)置信度傳播算法:mtji為在t次迭代時節(jié)點j向節(jié)點i傳遞信息,cji為ρjiρj,即在ρ中任一顆樹,給定包含節(jié)點j的條件下,包含邊(j,i)的可能性;信息更新規(guī)則[27]:
經(jīng)t次迭代后,節(jié)點i的置信度:
由最大置信度計算節(jié)點i的邊緣概率最大時對應的標記:
TRW-S[22]算法中消息的迭代從正反向遍歷整個隨機場內(nèi)節(jié)點,節(jié)點按掃描線遍歷,實現(xiàn)正反向傳遞消息;正向遍歷時,每個節(jié)點向其右下鄰域節(jié)點傳遞消息,后向則向其左下鄰域傳遞消息,直至達到最終的收斂狀態(tài)。
采用第2部分構(gòu)建的模型對息肉圖像進行分割。具體步驟:
Step1.數(shù)據(jù)集。用公開數(shù)據(jù)集CVC-ClinicDB[33]、Kvasir-SEG[34]作為訓練樣本;CVC-ClinicDB包含612幅大小為384×288的息肉圖像及其人工標注,數(shù)據(jù)集Kvasir-SEG包含1000幅大小不一的息肉圖像與人工標注;兩數(shù)據(jù)集均用9:1比例分割成訓練集與測試集,分別在Kvasir-SEG[34],CVC-ClinicDB[33],ColonDB[35],ETISLaribPolypDB[1],CVC-300[36]等五個數(shù)據(jù)集上對分割模型進行測試;其中, ColonDB、ETIS-LaribPolypDB,CVC-300三個數(shù)據(jù)集對訓練樣本而言為未知數(shù)據(jù)集,采用該三個數(shù)據(jù)集測試和檢驗本文模型的泛化能力。如表1~表2所示;
表1 本文使用的五個數(shù)據(jù)集Tab.1 Five datasets used in this paper
Step2.模型訓練。本文未采用傳統(tǒng)數(shù)據(jù)增強方法,而使用多尺度訓練方式,將數(shù)據(jù)分別以352×352大小的0.75倍、1倍、1.25倍輸入模型進行訓練,既達到數(shù)據(jù)增強目的,又縮短了訓練時間。優(yōu)化函數(shù)采用RAdam[38],學習率為1×10-4,訓練30輪后收斂;
Step3.息肉圖像分割。將數(shù)據(jù)集Kvasir-SEG,CVC-ClinicDB,ColonDB,ETIS-Larib-PolypDB,CVC-300的測試圖像輸入模型得到分割結(jié)果,使用測試時圖像增強(TTA)提升模型預測及泛化能力;
Step4.分割圖像后處理。采用構(gòu)建的TRW-S算法對TTA模型輸出結(jié)果進行后處理,提高分割圖像邊緣的連續(xù)性和分割區(qū)域內(nèi)部的一致性;
Step5.模型評價。
實驗環(huán)境:Ubuntu18.04LTS,Python3.6.5,pytorch2.1.0, CPU為Intel(R) Core(TM) i7-8 700 K,頻率為3.70 GHz,GPU為GeForce GTX 1080。
將本文模型與U-Net[9],U-Net++[10],SFA[38],ResUnet++[11],PraNet[12]等模型進行對比實驗,從定性和定量分析兩方面評價算法的分割效果;并將本文模型與本文編碼-解碼模型、本文編碼-解碼+TTA模型進行對比實驗驗證模型構(gòu)建的合理性。
本文引入組合損失函數(shù)進行模型訓練,該損失函數(shù)Lseg由加權(quán)交并比(LwIoU)[39]和加權(quán)二元交叉熵(LwBCE)[40]組成:
其中,λ表示權(quán)重,本文設為1。
采用平均交并比(mIoU)、平均置信度(mDice)、結(jié)構(gòu)性度量(Smeasure)[41]及平均絕對誤差(MAE)作為客觀評價指標;用平均交并比(mIoU)衡量算法分割的目標區(qū)域與人工分割的目標區(qū)域交疊率,mIoU為每一類IoU結(jié)果的累加平均,實現(xiàn)基于全局分割效果評價;mIoU∈[0,1],值越大則分割效果越好。定義:
其中:L為圖像分類數(shù),TP,F(xiàn)P,TN,F(xiàn)N分別表示真陽性、假陽性、真陰性、假陰性。
用平均置信度(mDice)系數(shù)度量算法分割圖像與人工分割的相似性;mDice為每類置信度(Dice)累加平均,mDice∈[0,1],值越大分割效果越好。定義:
Smeasure[41]是結(jié)合圖像結(jié)構(gòu)相似性度量與區(qū)域結(jié)構(gòu)相似性度量的分割評價指標,S0為圖像結(jié)構(gòu)相似性度量,Sr為面向區(qū)域的結(jié)構(gòu)相似性度量,α取值為0.5。Smeasure∈[0,1],值越大分割效果越好。
采用平均絕對誤差(MAE)度量分割的偏差。MAE為算法分割區(qū)域和人工分割區(qū)域值間絕對誤差的平均值,范圍為[0,+∞),算法分割區(qū)域與人工分割區(qū)域重合時為0,MAE值越接近0表示分割效果越好。
式中,分別為算法分割區(qū)域和人工分割區(qū)域。
4.2.1 模型的單元模塊對分割效果影響
4.2.1.1 ResNeSt-50與RFB模塊的消融實驗
為討論ResNeSt-50與RFB模塊對整體分割性能的影響,本文在ColonDB與ETIS-Larib-PolypDB數(shù)據(jù)集中進行消融實驗。其中,模型a為UNet模型;模型b是將模型a的編碼器改為ResNeSt-50;模型c為在模型a基礎上加入RFB模塊;模型d為圖1中TTA前的分割模型。實驗結(jié)果如表3所示。模型b分割效果相比于模型a,mDice及mIoU結(jié)果均有所提升;模型d實驗結(jié)果最好。如此實驗效果得益于ResNeSt-50中拆分注意力結(jié)構(gòu)能有效地聚焦不同分組,RFB模塊通過不同空洞感受野分支獲取多尺度上下文信息,提升了模型的mIoU值。消融實驗驗證了本文采用模塊的有效性和方法的合理性。
表3 ResNeSt-50模塊的消融實驗(訓練集為Kvasir-SEG,ClinicDB)Tab.3 Ablation experiment of ResNeSt-50 module(training on Kvasir-SEG and ClinicDB dataset)
4.2.1.2 多尺度訓練及RAdam優(yōu)化對模型分割影響
本文網(wǎng)絡的特征圖被縮小至原圖的1/32,因此, 識別息肉圖像中微小病變的特征存在一定困難;為此,通過輸入更大、多尺度圖像進行訓練,能在一定程度上解決這一問題,提高模型對息肉圖像中微小病變分割的魯棒性; 表4的結(jié)果表明,多尺度訓練對提升本文模型分割精度是一種有效的途徑。
表4 多尺度訓練對模型分割的影響Tab.4 Effect of multi-scale training on model segmentation
數(shù)據(jù)集較小時,自適應學習率優(yōu)化器Adam在訓練開始時學習率方差偏大,此時其波動較大,易使啟動時因過度跳躍導致模型收斂至局部極小。RAdam[38]為防止在迭代早期學習率劇烈變化采用了整流器函數(shù),動態(tài)地開啟或關(guān)閉自適應動量,阻止其全速跳躍,直至數(shù)據(jù)方差變化穩(wěn)定。
由表5,使用RAdam優(yōu)化盡管比Adam收斂稍慢,但有利于模型收斂到一個合理值, 實驗結(jié)果的mDice,mIoU,Smeasure,MAE等評價指標均有所改善。
表5 RAdam優(yōu)化對模型分割的影響Tab.5 Effect of RAdam optimizer on model segmentation
4.2.1.3 TTA增強與TRW-S后處理對模型分割影響
圖6給出在CVC-ClinicDB[33],Kvasir-SEG[34]數(shù)據(jù)集上對本文編碼-解碼模型、本文編碼-解碼+TTA模型及本文模型訓練后,在ETIS-Larib-PolypDB[1]數(shù)據(jù)集上分割結(jié)果比較。本文模型采用數(shù)據(jù)增強和TRW-S后處理,使得模型對微小病變十分敏感,對微小病變定位準確性更高,分割圖像區(qū)域一致性更好,在未知數(shù)據(jù)集中檢測微小病變的效果較好;此外,本文模型對大病變組織的分割邊緣亦較清晰;由此說明,模型中加入TTA模塊及構(gòu)建TRW-S算法,有利于提升模型檢測微小病變的能力以及模型泛化能力。
圖6 在ETIS-LaribPolypDB[1]數(shù)據(jù)集下測試的分割結(jié)果Fig.6 Segmentation result of testing on the ETIS-LaribPolypDB dataset
由表6,模型加入TTA模塊后,在已知數(shù)據(jù)集中的mDice提高了2%,mIoU提升了3%;因此,TTA的加入有利于提升模型的預測準確率。相對于本文編碼-解碼模型和編碼-解碼+TTA模型,本文模型的mDice提高1%以上,mIoU提高2%以上;MAE值與另兩種算法一致,盡管Smeasure值有所降低,但仍高達0.921,反映了本文模型采用TRW-S處理后,分割效果整體優(yōu)于本文編碼-解碼模型和編碼-解碼+TTA模型。
表6 在CVC-ClinicDB[33],Kvasir-SEG[34]數(shù)據(jù)集中訓練,Kvasir-SEG[34]數(shù)據(jù)集中測試效果比較Tab.6 Trained on CVC-ClinicDB[33],Kvasir-SEG[34] dataset, compare the test results on Kvasir-SEG[34] dataset
表7比較了三種模型在未知數(shù)據(jù)集上的表現(xiàn)。加入TTA模塊后,mDice提高了1.1%以上,mIoU提高了1.6%以上,其中,在數(shù)據(jù)集ETIS-LaribPolypDB[1]上提升最多,相比于編碼-解碼模型,mDice和mIoU分別提升了5.8%,5.8%;從而說明TTA模塊對提升模型的泛化能力的有效性。本文模型在三個未知數(shù)據(jù)集上性能指標均有提升,在ETIS-LaribPolypDB[1]數(shù)據(jù)集上,相比于本文編碼-解碼模型,mDice提高了6.4%以上,mIoU提高了6.3%;相比于本文編碼-解碼+TTA模型,本文算法的mDice提高了0.6%,mIoU提高了0.7%;在未知數(shù)據(jù)集ColonDB上,本文算法的mDice與mIoU均提高了0.3%以上;在未知數(shù)據(jù)集CVC-300上,mDice與mIoU值亦均有不同程度的提升;結(jié)果表明,本文模型加入TRW-S后處理有利于提升模型的泛化能力。
表7 在CVC-ClinicDB[33]、Kvasir-SEG[34]數(shù)據(jù)集下訓練,分別在ColonDB[35],ETIS-LaribPolypDB[1],CVC-300[36]數(shù)據(jù)集中測試結(jié)果比較Tab.7 Trained on the CVC-ClinicDB[33],Kvasir-SEG[34]dataset, respectively compare the test results on ColonDB[35],ETIS-LaribPolypDB[1],CVC-300[36]
4.2.2 已知數(shù)據(jù)集中模型分割效果比較
對比實驗的訓練集采用CVC-ClinicDB[33],Kvasir-SEG[34]數(shù)據(jù)集,測試集采用Kvasir-SEG數(shù)據(jù)集,分割效果如圖7所示。
圖7 在Kvasir-SEG[34]數(shù)據(jù)集下測試的分割結(jié)果Fig.7 Segmentation result of testing on the Kvasir-SEG[34] dataset
圖7給出采用U-Net[9],U-Net++[10],PraNet[12],ResUnet++[11],SFA[38]以及本文模型的分割結(jié)果。從分割效果看,息肉圖像經(jīng)編碼-解碼模塊分割、TTA處理、TRW-S處理后,輸出較理想的分割圖像;由圖7知,本文算法不僅對大范圍息肉病變有很好的分割效果,對小面積息肉病變分割效果亦較理想。本文算法分割圖像的邊緣清晰,且分割區(qū)域內(nèi)部連貫、區(qū)域內(nèi)部一致性較好,分割圖像邊緣與輪廓清晰度、細節(jié)信息捕捉能力等方面均好于其他五種模型。
表8結(jié)果表明,本文算法相比于基準PraNet[12]算法,mDice提高了1.8%,mIoU提高了2.3%;Smeasure提高了0.6%,MAE降低了0.7%,因此,本文算法的四種評價指標均有不同程度改善。相比于U-Net[9],U-Net++[10],ResUnet++[11],SFA[38]等算法,本文模型分割效果的評價指標提高更多;從而說明了本文算法對息肉圖像分割的可行性和優(yōu)勢。
表8 在CVC-ClinicDB[33],Kvasir-SEG[34]數(shù)據(jù)集中訓練,Kvasir-SEG[34]數(shù)據(jù)集中測試效果比較Tab.8 Trained on CVC-ClinicDB[33],Kvasir-SEG[34] dataset, compare the test results on Kvasir-SEG[34] dataset
4.2.3 模型檢測微小病變能力比較
為驗證本文模型檢測微小病變的能力,在550幅CVC-ClinicDB[33]圖像、900幅Kvasir-SEG[34]圖像中對U-Net[9],U-Net++[10],ResU-net++[11],SFA[38],PraNet[12]及本文模型進行訓練后,在數(shù)據(jù)集ETIS-LaribPolypDB[1]中進行測試;由圖8知,本文算法對于微小病變具有較高的檢出能力。
圖8 ETIS-LaribPolypDB[1]數(shù)據(jù)集中測試微小病變的分割結(jié)果Fig.8 Segmentation result of testing small lesion on ETIS-LaribPolypDB[1]dataset
由圖8和表9,對微小病變而言,本文模型定位準確,而PraNet[12]等模型幾乎無法找到微小病變位置,分割效果也差強人意;此外,采用本文模型分割的各項指標均優(yōu)于其他5種模型,病變邊緣的分割亦十分清晰。
表9 在CVC-ClinicDB[33],Kvasir-SEG[34]數(shù)據(jù)集下訓練,在ETIS-LaribPolypDB[1]數(shù)據(jù)集中測試效果比較Tab.9 Trained on CVC-ClinicDB,Kvasir-SEG dataset, compare the test results on ETIS-LaribPolypDB dataset
圖9采用箱線圖比較8組數(shù)據(jù)中,本文模型與PraNet模型分割微小病變的置信度(Dice)性能;8組數(shù)據(jù)按照病變由小到大進行分組,由圖可知,本文模型的分割效果整體優(yōu)于PraNet模型,且病變組織越大檢測效果越好。
圖9 本文模型與PraNet模型分割微小病變的效果比較Fig.9 Comparison of the effect of the model used in this paper and PraNet model in segmenting minimal lesions
4.2.4 模型的泛化能力比較
在U-Net[9],SFA[38],U-Net++[10],ResU-net++[11],PraNet[12]以及本文模型中采用在1 450幅Kvasir-SEG[34]和CVC-ClinicDB[33]數(shù)據(jù)集組合而成的訓練集上進行訓練,訓練后模型分別用380幅ColonDB[35]圖像、196幅ETIS-Larib-PolypDB[1]圖像、以及60幅CVC-300[36]圖像等未知數(shù)據(jù)集進行測試,檢驗本文模型的泛化能力。如圖10和表10所示。
表10 在CVC-ClinicDB[33],Kvasir-SEG[34]數(shù)據(jù)集下訓練,分別在ColonDB[35]、ETIS-LaribPolypDB[1],CVC-300[36]數(shù)據(jù)集下測試結(jié)果比較Tab.10 Trained on the CVC-ClinicDB[33],Kvasir-SEG[34]dataset, respectively compare the test results on ColonDB[35],ETIS-LaribPolypDB[1],CVC-300[36]dataset
圖10 ETIS-LaribPolypDB[1]數(shù)據(jù)集中測試的分割結(jié)果Fig.10 Segmentation result of testing on the ETIS-LaribPolypDB[1]dataset
測試結(jié)果的定性和定量評價表明,本文算法在這三個未知數(shù)據(jù)集上分割效果均有提升,特別是在ETIS-LaribPolypDB[1]數(shù)據(jù)集上,相比于PraNet[12]基準算法,本文模型的mDice提高了16.4%,mIoU提高了14.5%;說明,本文模型具有很好的泛化能力,并具有較強的分割微小病變的能力。
本文提出了多尺度ResNeSt-50聚合網(wǎng)絡進行粗分割與馬爾科夫隨機場的TRW-S算法進行再分割的兩階段息肉圖像分割方法。針對病變區(qū)域與正常組織間邊界區(qū)分度不高的問題,構(gòu)建編、解碼多尺度聚合網(wǎng)絡提升骨干網(wǎng)絡的表達能力,捕捉和提取息肉圖像的弱特征信息,網(wǎng)絡中密集聚合模塊融合不同尺度的特征圖信息,實現(xiàn)上下文信息的關(guān)聯(lián),采用TTA模塊提升模型預測及泛化能力,最后,構(gòu)建馬爾科夫隨機場的TRW-S算法強化分割邊緣,增強息肉內(nèi)部分割區(qū)域內(nèi)部的一致性和邊緣的連續(xù)性,實現(xiàn)息肉圖像的有效分割。
理論推導和對比實驗驗證了本文模型在息肉圖像分割的有效性,本文模型能夠有效地和精確地實現(xiàn)息肉病灶區(qū)域的分割,且具有的良好泛化能力和檢測微小病變的能力,有助于提升醫(yī)生臨床診斷中診斷的準確度和精確率。后續(xù)研究將在降低模型的參數(shù)量、提高模型的推理速度等方面進一步優(yōu)化,并進一步關(guān)注模型的泛化能力,提升模型的分割性能。