• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Transformer的U型醫(yī)學(xué)圖像分割網(wǎng)絡(luò)綜述

      2023-05-24 03:19:10傅勵(lì)瑤尹夢(mèng)曉
      計(jì)算機(jī)應(yīng)用 2023年5期
      關(guān)鍵詞:解碼器編碼器注意力

      傅勵(lì)瑤,尹夢(mèng)曉,2,楊 鋒,2*

      (1.廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧 530004;2.廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室(廣西大學(xué)),南寧 530004)

      0 引言

      相較于傳統(tǒng)的學(xué)習(xí)方法需要手動(dòng)優(yōu)化特征表示,神經(jīng)網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)特征表示,并利用梯度下降迭代優(yōu)化模型,從而得以迅速發(fā)展。在計(jì)算機(jī)視覺(jué)領(lǐng)域,近年來(lái)大熱的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在各下游任務(wù)中表現(xiàn)出其自動(dòng)學(xué)習(xí)表示的巨大潛能。隨著CNN 所含層數(shù)的增加,促進(jìn)了處理各種任務(wù)的深度神經(jīng)網(wǎng)絡(luò)的提出。如今,深度學(xué)習(xí)被應(yīng)用到更多領(lǐng)域解決各類復(fù)雜問(wèn)題,比如專家系統(tǒng)、自然語(yǔ)言處理(Natural Language Processing,NLP)、語(yǔ)音識(shí)別和智能醫(yī)療等。首個(gè)基于全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[1]的U 型網(wǎng)絡(luò)(U-shaped Network,U-Net)由文獻(xiàn)[2]提出,作為經(jīng)典的CNN,文獻(xiàn)[2]中利用跳躍連接(Skip-Connection)同時(shí)保留在下采樣中丟失的細(xì)節(jié)信息和在低分辨率圖像中獲取到的全局特征,這種融合不同尺度特征的編碼器-解碼器結(jié)構(gòu)設(shè)計(jì)大幅提升了分割模型的性能。所以,U 型網(wǎng)絡(luò)是目前醫(yī)學(xué)圖像分割任務(wù)中應(yīng)用最廣泛的模型之一。自U 型網(wǎng)絡(luò)被提出之后,各種改進(jìn)版的U 型網(wǎng)絡(luò)在許多醫(yī)學(xué)圖像分割任務(wù)中都有著出色的表現(xiàn),這足以證明U 型網(wǎng)絡(luò)中的殘差多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu)有利于處理醫(yī)學(xué)圖像分割任務(wù)。盡管如此,卷積與生俱來(lái)的歸納偏置特點(diǎn)阻礙了分割網(wǎng)絡(luò)性能的進(jìn)一步提升,而利用自注意力機(jī)制獲取全局特征的Transformer[3]模型利用它捕捉長(zhǎng)距離依賴的優(yōu)勢(shì)能彌補(bǔ)CNN 的不足。在計(jì)算機(jī)視覺(jué)領(lǐng)域,ViT(Vision Transformer)[4]打開了Transformer 進(jìn)入該領(lǐng)域的大門。Transformer 應(yīng)用于圖像分類任務(wù)中的優(yōu)秀表現(xiàn)展現(xiàn)了它在圖像處理領(lǐng)域的發(fā)展前景。在ViT 中,主要工作是把原始圖像分割成16×16 的二維圖像塊,然后把圖像塊映射為一維的二維圖像塊序列以模仿NLP 任務(wù)的輸入。這樣的變換既能避免在每個(gè)像素之間計(jì)算注意力會(huì)大幅增加計(jì)算和存儲(chǔ)負(fù)擔(dān),又能在不改變NLP 任務(wù)中的Transformer 模型主體結(jié)構(gòu)的前提下將它應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域中。ViT 提出之后,在圖像分割領(lǐng)域,文獻(xiàn)[5]中提出了基于純Transformer 編碼器的圖像分割模型——SETR(SEgmentation TRansformer);在目標(biāo)檢測(cè)任務(wù)中,文獻(xiàn)[6]中引入了一個(gè)端到端Transformer 編碼器-解碼器網(wǎng)絡(luò)——DETR(DEtection TRansformer)。

      醫(yī)學(xué)圖像難標(biāo)注、目標(biāo)和背景比例極不平衡和對(duì)比度低以及邊界模糊等問(wèn)題加大了將Transformer 應(yīng)用到醫(yī)學(xué)圖像分割任務(wù)中的難度;同時(shí),醫(yī)學(xué)圖像大多是小數(shù)據(jù)集,難以預(yù)訓(xùn)練出專用于醫(yī)學(xué)圖像處理的Transformer 模型。所以,Transformer 在醫(yī)學(xué)圖像分割模型中的潛能還有待進(jìn)一步挖掘。雖然U 型網(wǎng)絡(luò)在醫(yī)學(xué)圖像任務(wù)中被廣泛應(yīng)用,但是下采樣過(guò)程中細(xì)節(jié)特征的損失和卷積神經(jīng)不擅長(zhǎng)捕捉長(zhǎng)距離依賴的缺點(diǎn)限制了U 型網(wǎng)絡(luò)的發(fā)展。為了進(jìn)一步挖掘Transformer 和U 型網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割任務(wù)中的潛能,本文從兩者各自的優(yōu)勢(shì)出發(fā),討論基于Transformer 的U 型網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割任務(wù)中的研究進(jìn)展,并對(duì)相關(guān)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行全面的研究和分析,有助于讀者深入了解Transformer應(yīng)用于U 型網(wǎng)絡(luò)的優(yōu)點(diǎn)。在本文最后討論了兩者結(jié)合在未來(lái)更有潛力的發(fā)展建議。

      1 醫(yī)學(xué)圖像分割

      醫(yī)學(xué)圖像分割是計(jì)算機(jī)視覺(jué)領(lǐng)域重要的研究方向,目標(biāo)是在醫(yī)學(xué)圖像上進(jìn)行像素級(jí)別的分類,進(jìn)而準(zhǔn)確地分割目標(biāo)對(duì)象。分割數(shù)據(jù)集來(lái)自專業(yè)醫(yī)學(xué)設(shè)備所采集到的單模態(tài)或者多模態(tài)圖像,比如核磁共振成像(Magnetic Resonance Imaging,MRI)、計(jì)算機(jī)斷層掃描技術(shù)(Computed Tomography,CT)、超聲(UltraSound,US)等。傳統(tǒng)的非深度學(xué)習(xí)醫(yī)學(xué)圖像分割技術(shù)主要依賴于基于閾值、區(qū)域生長(zhǎng)、邊界檢測(cè)等方法。雖然傳統(tǒng)的分割方法速度快且簡(jiǎn)單,對(duì)于硬件要求不高,但是需要人工參與才能得到好的特征表示;而基于深度學(xué)習(xí)的分割網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)特征表示,幾乎不需要人工參與,但需要高性能計(jì)算機(jī)花較長(zhǎng)時(shí)間訓(xùn)練網(wǎng)絡(luò)。隨著圖像處理單元(Graphic Processing Unit,GPU)和內(nèi)存的發(fā)展,訓(xùn)練大多數(shù)基于深度學(xué)習(xí)的網(wǎng)絡(luò)已不是難題,深度學(xué)習(xí)隨之被應(yīng)用到各領(lǐng)域完成自動(dòng)學(xué)習(xí)目標(biāo)任務(wù)的特征表示。如今,基于CNN的分割模型廣泛用于許多分割任務(wù)當(dāng)中,比如腫瘤分割、皮膚病變區(qū)域分割、左右心室分割以及眼底血管分割等。訓(xùn)練這些模型的方法中,除了很少一部分是基于無(wú)監(jiān)督[7-9]和半監(jiān)督[10-14]的方法,其余則是基于全監(jiān)督[15-19]的方法,其中最經(jīng)典的模型便是U 型網(wǎng)絡(luò)。醫(yī)學(xué)圖像分割技術(shù)的發(fā)展對(duì)計(jì)算機(jī)輔助診斷、智能醫(yī)療和臨床應(yīng)用等領(lǐng)域的研究有著極其重要的作用。但CNN 由于感受野受限,只擅長(zhǎng)獲取局部特征,而缺乏捕捉長(zhǎng)距離依賴的能力,而且卷積核的大小和形狀固定,不能有效適應(yīng)輸入圖像類型,限制了卷積的應(yīng)用范圍,也降低了分割模型的泛化性;同時(shí),醫(yī)學(xué)圖像也存在邊界模糊、對(duì)比度低、目標(biāo)大小不一以及模態(tài)多樣等問(wèn)題。要有效解決上述問(wèn)題,獲取關(guān)鍵的全局上下文信息是必要的。因此,來(lái)自NLP 領(lǐng)域的利用自注意力機(jī)制獲取全局特征的Transformer 被用于優(yōu)化醫(yī)學(xué)圖像自動(dòng)分割技術(shù)。在NLP 任務(wù)中使用的Transformer 大多經(jīng)過(guò)在大規(guī)模的文本數(shù)據(jù)集上預(yù)訓(xùn)練得到。因?yàn)樽宰⒁饬Σ糠值挠?jì)算量太大,預(yù)訓(xùn)練模型很大程度上能防止模型過(guò)擬合。但二維醫(yī)學(xué)圖像數(shù)據(jù)集通常規(guī)模較小,難以用于預(yù)訓(xùn)練原始的Transformer 模塊;三維醫(yī)學(xué)圖像數(shù)據(jù)集不僅規(guī)模小,而且樣本體素多,將它們直接放進(jìn)Transformer 訓(xùn)練會(huì)大幅增加模型復(fù)雜度,增加過(guò)擬合的風(fēng)險(xiǎn),反而可能降低模型性能。而ViT[4]中將圖像切成多個(gè)圖像塊的做法,不僅可以降低單個(gè)樣本的計(jì)算量和內(nèi)存消耗,還可以增加數(shù)據(jù)的多樣性,降低模型過(guò)擬合的概率,使模型的訓(xùn)練相對(duì)容易。借鑒ViT 的設(shè)計(jì)理念,Transformer 被應(yīng)用到醫(yī)學(xué)圖像分割網(wǎng)絡(luò)[20-22]。

      2 U型網(wǎng)絡(luò)

      醫(yī)學(xué)圖像分割是計(jì)算機(jī)視覺(jué)領(lǐng)域重要的研究方向之一,而對(duì)準(zhǔn)確的分割結(jié)果而言,細(xì)節(jié)信息和全局信息都很重要。如何在全局信息和局部信息之間找到完美的平衡,是提升分割模型性能的重要問(wèn)題之一。此外,由于大多數(shù)醫(yī)學(xué)圖像數(shù)據(jù)集都很小,使訓(xùn)練出兼顧全局和局部特征的分割模型更具有挑戰(zhàn)性。為了解決上述問(wèn)題,U 型網(wǎng)絡(luò)利用它特殊的對(duì)稱結(jié)構(gòu)在高分辨率圖像中獲取局部特征,在低分辨率圖像中捕捉全局特征,實(shí)現(xiàn)端到端的分割。經(jīng)典U 型網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

      圖1 經(jīng)典U型網(wǎng)絡(luò)總體結(jié)構(gòu)Fig.1 Overall structure of classic U-Net

      2.1 二維圖像應(yīng)用

      U 型網(wǎng)絡(luò)在編碼器-解碼器結(jié)構(gòu)中,結(jié)合上下采樣和跳躍連接,融合多尺度特征信息,為分割模型提供了粗細(xì)粒度特征圖的同時(shí)還能加速模型收斂,對(duì)于處理醫(yī)學(xué)圖像分割任務(wù)極其有效。不僅如此,文獻(xiàn)[2]提出的U 型網(wǎng)絡(luò)結(jié)構(gòu)不包含全連接層,而是使用參數(shù)量少的全卷積層代替。基于U 型網(wǎng)絡(luò)的獨(dú)特設(shè)計(jì),U 型網(wǎng)絡(luò)的分割精度幾乎好于當(dāng)時(shí)的所有優(yōu)秀分割模型。U-Net++[23]為了能夠減小編碼器和解碼器特征圖之間的差異,進(jìn)一步改進(jìn)了U 型網(wǎng)絡(luò)。U-Net++在跳躍連接上加上了若干卷積層,并在各卷積層之間使用密集連接(Dense Connection)[24],以減小兩邊網(wǎng)絡(luò)特征表達(dá)的差異。此外,文獻(xiàn)[23]中把編碼器中產(chǎn)生的不同尺度的特征圖通過(guò)上采樣至原圖大小,然后和標(biāo)簽計(jì)算損失,監(jiān)督特征融合操作。受文獻(xiàn)[2]的啟發(fā),ResUNet(Residual and U-Net)[25]把文獻(xiàn)[2]所提出模型的骨干網(wǎng)絡(luò)的卷積部分用殘差網(wǎng)絡(luò)(Residual Network,ResNet)[26]代 替,在此基礎(chǔ)上,ResUNet++[27]在ResUNet 編碼器中的每個(gè)殘差塊之后添加壓縮提取模塊(Squeeze and Extraction Block,SE Block)[28],不僅把編碼器中不同尺度的特征圖傳遞給解碼器,還傳遞了通道注意力權(quán)重。模型利用權(quán)重信息過(guò)濾掉解碼器特征圖的多余信息,再將它輸入到后面的網(wǎng)絡(luò)中。實(shí)驗(yàn)表明,這種融合兩邊網(wǎng)絡(luò)特征的方式比起一次性串聯(lián)的融合方式更加有效。

      2.2 三維圖像應(yīng)用

      V-Net(Network for Volumetric medical image segmentation)[29]把三維卷積層應(yīng)用到U 型分割網(wǎng)絡(luò)中,用于分割三維醫(yī)學(xué)圖像。針對(duì)醫(yī)學(xué)圖像中常出現(xiàn)的前景和背景極不平衡的情況,文獻(xiàn)[29]中提出了Dice 損失函數(shù),進(jìn)一步優(yōu)化醫(yī)學(xué)圖像分割模型。三維U 型網(wǎng)絡(luò)(3D U-Net)[30]將原U 型網(wǎng)絡(luò)中的二維卷積用三維卷積替換,用于從粗標(biāo)記中半自動(dòng)或者全自動(dòng)地進(jìn)行三維醫(yī)學(xué)圖像分割。從以上網(wǎng)絡(luò)可知,U 型網(wǎng)絡(luò)變體大多側(cè)重于修改U 型網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),而Isensee 等[31]更加關(guān)注目標(biāo)任務(wù)對(duì)U 型分割模型的影響,從而設(shè)計(jì)了自適應(yīng)分割任務(wù)的網(wǎng)絡(luò)——nnU-Net(no new U-Net)。nnU-Net 把重心放到數(shù)據(jù)的預(yù)處理和后處理,以及對(duì)模型訓(xùn)練超參數(shù)的設(shè)置,從而提升模型完成分割任務(wù)的效率。由于nnU-Net 在醫(yī)學(xué)圖像分割任務(wù)中的表現(xiàn)不錯(cuò),所以該領(lǐng)域的研究者通常會(huì)考慮將nnU-NeT 的分割效果作為參考,同時(shí),它也給非該領(lǐng)域使用者提供了快捷便利的分割工具。

      如今,U 型網(wǎng)絡(luò)不僅被頻繁用于圖像分割領(lǐng)域,還出現(xiàn)在道路提取、天氣預(yù)測(cè)和圖像分類等領(lǐng)域。各種U 型網(wǎng)絡(luò)的變體在深度學(xué)習(xí)任務(wù)中有著不錯(cuò)的表現(xiàn),特別是在醫(yī)學(xué)圖像分割領(lǐng)域,U 型網(wǎng)絡(luò)更是勝過(guò)多數(shù)CNN。所以,即使自首個(gè)U 型網(wǎng)絡(luò)被提出已過(guò)了七年之久,U 型網(wǎng)絡(luò)處理醫(yī)學(xué)圖像分割的應(yīng)用仍然隨處可見,研究者們也依然在不斷拓展U 型網(wǎng)絡(luò)和其他高性能模塊的結(jié)合應(yīng)用,充分挖掘U型網(wǎng)絡(luò)的潛力。

      3 Transformer

      Vaswani 等[3]首次提出Transformer,因其獨(dú)特的設(shè)計(jì)賦予了Transformer 能處理不定長(zhǎng)輸入、捕捉長(zhǎng)距離依賴和序列到序列(seq2seq)任務(wù)的特性。Transformer 主要包含解碼器和編碼器,每個(gè)編碼器包括位置編碼、多頭注意力機(jī)制、層正則化(Layer Normalization,LN)[32]、前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Network,F(xiàn)FN)和跳躍連接,而解碼器除在輸入層增加了一個(gè)掩碼多頭注意力機(jī)制以外,其余部分與編碼器相同。Transformer 結(jié)構(gòu)如圖2 所示。

      圖2 Transformer總體結(jié)構(gòu)Fig.2 Overall structure of Transformer

      3.1 主要模塊

      3.1.1 注意力機(jī)制

      1)自注意力機(jī)制:自注意力機(jī)制是Transformer 的關(guān)鍵組成部分,Transformer 能夠獲取長(zhǎng)距離依賴主要?dú)w功于它。自注意力公式如下:

      其中:q、k和v是輸入X經(jīng)線性層映射后的向量;dk是向量k的維度。

      2)注意力機(jī)制:多頭注意力機(jī)制中多個(gè)q、k和v向量分別組成矩陣Q、K和V,將每個(gè)組合并行計(jì)算后在通道維度進(jìn)行拼接。在該注意力中,不同的頭能夠從不同位置的子空間中學(xué)習(xí)到不同種類的特征表示。下面是多頭注意力的公式:

      3)掩碼多頭注意力機(jī)制:為了避免解碼器位置i依賴位置i后的數(shù)據(jù),確保當(dāng)前輸出只依賴于i前的預(yù)測(cè),后面的“未知”信息有必要被隱藏,即只用當(dāng)前位置之前的信息推測(cè)結(jié)果。

      3.1.2 位置編碼

      因?yàn)門ransformer 不含循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和CNN,所以依賴于缺乏序列信息的注意力機(jī)制。但對(duì)于NLP 和圖像處理任務(wù),位置信息發(fā)揮著重要作用,所以,Transformer 需要自動(dòng)學(xué)習(xí)位置信息。經(jīng)典的Transformer 利用正弦和余弦函數(shù)學(xué)習(xí)位置信息,公式如下:

      其中:pos是當(dāng)前對(duì)象在當(dāng)前維度的序列所處位置;dpos是位置pos所在維度;100 002dpos/dmodel表示頻率。

      3.1.3 層正則化

      層正則化(LN)克服了批量正則化(Batch Normalization,BN)[33]難以處理變長(zhǎng)輸入的序列任務(wù)的缺點(diǎn),把正則化的范圍從樣本外部轉(zhuǎn)移到樣本內(nèi)部,這樣的正則化就不會(huì)依賴于輸入大小,非常適用于NLP 任務(wù)。詳情見文獻(xiàn)[32]。

      3.1.4 前饋神經(jīng)網(wǎng)絡(luò)

      前饋神經(jīng)網(wǎng)絡(luò)(FFN)由兩個(gè)線性層加上ReLU 激活函數(shù)(max(0,input))組成,公式如下:

      其中:X是輸入圖像矩陣;Wi是和X相同大小的矩陣;bi是長(zhǎng)度等于X的通道數(shù)的一維向量。

      3.2 Swin Transformer

      相較于處理文字樣本,用Transformer 訓(xùn)練處理圖像或視覺(jué)的模型更具有挑戰(zhàn)性。因?yàn)閳D像比文本更多樣,且分辨率高。Swin Transformer(Shifted-window Transformer)[34]中提出的窗口多頭自注意力(Window Multi-head Self Attention,W-MSA)模塊和滑動(dòng)窗口多頭自注意力(Shifted Window Multi-head Self Attention,SW-MSA)模塊緩解了Transformer在視覺(jué)領(lǐng)域中應(yīng)用的困難。在W-MSA 中,圖像被分成若干個(gè)由若干圖像塊組成的窗口,計(jì)算注意力權(quán)重只在窗口內(nèi)部。在SW-MSA 中,利用滑動(dòng)設(shè)計(jì)計(jì)算各窗口之間注意力分?jǐn)?shù),以此建立窗口之間的聯(lián)系。相鄰的W-MSA 和SW-MSA構(gòu)成了Swin Transformer 模塊。相鄰Swin Transformer 塊的計(jì)算方法如下:

      其中:zi表示第i層的輸出表示第i層的中間結(jié)果;LN()表示層正則化;W-MSA()表示窗口自注意力機(jī)制;SW-MSA()表示滑動(dòng)窗口自注意力機(jī)制;MLP()表示多層感知機(jī)層。

      Transformer 的提出對(duì)深度學(xué)習(xí)框架產(chǎn)生了極大的影響。因?yàn)镃NN 的歸納偏好,導(dǎo)致CNN 獲得長(zhǎng)距離信息的成本過(guò)高,而Transformer 剛好可以彌補(bǔ)CNN 的不足。但Transformer獲取全局信息的優(yōu)勢(shì),不僅限于輪廓表示、形狀描述和根據(jù)長(zhǎng)距離依賴獲取的目標(biāo)類型先驗(yàn),更重要的是局部和全局信息需要不同的感受野,跟CNN 相比,Transformer 中的注意力機(jī)制把握長(zhǎng)距離相關(guān)信息則更加直接有效??墒?,來(lái)自NLP領(lǐng)域的Transformer 并沒(méi)有考慮計(jì)算機(jī)視覺(jué)任務(wù)分辨率高、目標(biāo)形狀和小大差異大等特點(diǎn),限制了Transformer 在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用。Swin Transformer 的出現(xiàn)無(wú)疑給Transformer處理圖像或視頻的應(yīng)用開啟了一扇新的大門。如今,計(jì)算機(jī)視覺(jué)領(lǐng)域中的Transformer 變體也不僅限于Swin Transformer,還有通過(guò)改進(jìn)原始Transformer 子結(jié)構(gòu)使其適用于視覺(jué)任務(wù)的其他模型,又或者是通過(guò)遷移學(xué)習(xí)和對(duì)抗學(xué)習(xí)方法引入Transformer 的模型。即使如此,已存在的基于Transformer 的模型會(huì)借助CNN 的歸納偏置更好地發(fā)揮作用。所以,探索Transformer 結(jié)合CNN 的模型有著很大的發(fā)展前景。

      4 基于Transformer的U型分割網(wǎng)絡(luò)

      ViT[9]將Transformer 應(yīng)用到圖像分類任務(wù)中并取得成功之后,Chen 等[20]提出了TransUNet(Transformers and U-Net)。TransUNet 的提出開啟了Transformer 在醫(yī)學(xué)圖像分割領(lǐng)域中的應(yīng)用。由于Transformer 在大規(guī)模數(shù)據(jù)集上才能更好地發(fā)揮其優(yōu)勢(shì),而大多數(shù)醫(yī)學(xué)圖像數(shù)據(jù)屬于小規(guī)模數(shù)據(jù)集,因此,研究進(jìn)一步改進(jìn)Transformer 模塊使其適用于醫(yī)學(xué)圖像處理便成了熱門的研究方向之一。其中,最為有效的方法之一就是結(jié)合Transformer 與U 型網(wǎng)絡(luò),利用U 型網(wǎng)絡(luò)盡可能減小計(jì)算量的同時(shí)也能有效捕捉重要信息的特點(diǎn),充分挖掘Transformer 和U 型網(wǎng)絡(luò)的潛力。接下來(lái),本文從Transformer在U 型網(wǎng)絡(luò)中所處的不同位置對(duì)相關(guān)研究工作進(jìn)行分類討論。

      4.1 僅編碼器

      TransUNet 是首個(gè)將Transformer 應(yīng)用到醫(yī)學(xué)圖像分割領(lǐng)域的U型網(wǎng)絡(luò),如圖3所示。

      圖3 TransUNet總體框架Fig.3 Overall framework of TransUNet

      該模型直接將編碼器中下采樣之后的圖像序列化,然后套用最原始的Transformer 模塊進(jìn)行訓(xùn)練,利用Transformer 在低分辨率圖像中獲取長(zhǎng)距離依賴的優(yōu)勢(shì)和對(duì)稱的編碼器-解碼器結(jié)構(gòu),提升了模型自動(dòng)分割的性能。也因?yàn)門ransUNet直接使用了NLP的Transformer模型,序列中的圖像塊大小固定,注意力計(jì)算量大,所以TransUNet的分割效率還有待進(jìn)一步提升。文 獻(xiàn)[22]結(jié)合文 獻(xiàn)[35-36]提出了MedT(Medical Transformer),該網(wǎng)絡(luò)在位置嵌入中加入門控機(jī)制,使模型在訓(xùn)練不同大小的數(shù)據(jù)集時(shí)能夠自動(dòng)調(diào)節(jié)門控參數(shù),獲得適合當(dāng)前數(shù)據(jù)集的位置嵌入權(quán)重。實(shí)驗(yàn)結(jié)果表明基于MedT 的U型網(wǎng)絡(luò)能適應(yīng)不同大小的數(shù)據(jù)集?;陔p編碼器-解碼器的X-Net(X-shaped Network)[37]把Transformer 作為主干分割網(wǎng)絡(luò)的編碼器,并通過(guò)跳躍連接建立基于卷積的輔助網(wǎng)絡(luò)的編碼器和解碼器特征圖的聯(lián)系。X-Net 中的輔助網(wǎng)絡(luò)的解碼器把重建圖像任務(wù)作為代理任務(wù),在約束用于分割任務(wù)的編碼器的同時(shí),也能讓編碼器學(xué)習(xí)到表達(dá)能力更強(qiáng)的特征。相較于TransUNet 只有編碼器和解碼器分支的U 型對(duì)稱結(jié)構(gòu),TransClaw(Claw U-Net with Transformers)[21]設(shè)計(jì)了編碼器、上采樣和解碼器三分支的網(wǎng)絡(luò)結(jié)構(gòu),利用跳躍連接將各部分的多尺度特征圖相連。文獻(xiàn)[21]中通過(guò)融合上采樣的特征圖、Transformer 在深層網(wǎng)絡(luò)獲取到的全局上下文信息以及卷積捕捉到的局部特征,使模型得到進(jìn)一步優(yōu)化。雖然實(shí)驗(yàn)結(jié)果顯示模型在Dice 指標(biāo)上沒(méi)有明顯提升,但在豪斯多夫距離(Hausdorff Distance,HD)指標(biāo)上有著不錯(cuò)的表現(xiàn)。受GoogLeNet[38]和 Swin Transformer 的啟發(fā),TransConver(Transformer and Convolution parallel network)[39]用Transformer模塊和卷積模塊替換GoogLeNet 中的多分支結(jié)構(gòu),利用基于交叉注意力機(jī)制交互全局和局部特征(Cross-Attention Fusion with Global and Local features,CAFGL)模塊替換GoogLeNet 的過(guò)濾器拼接層得到TC-Inception(Transformer Convolution Inception),再放到U 型網(wǎng)絡(luò)的編碼器中。CNN 和Swin Transformer 通過(guò)交叉注意力模塊交換三維腦部圖像的細(xì)節(jié)特征和全局背景信息,在提高腫瘤分割精度的同時(shí),還降低了模型的計(jì)算負(fù)載,提升了模型訓(xùn)練效率。以上提到的大多數(shù)網(wǎng)絡(luò)側(cè)重于提升模型精度,在一定程度上忽略了模型的效率。為了同時(shí)權(quán)衡分割模型的速度和準(zhǔn)確度,LeViT-UNet(Vision Transformer based U-Net)[15]嵌入了快速推理網(wǎng)絡(luò)——LeViT(Vision Transformer)[40]。由于LeViT 既能提高模型推理速度又能有效地從特征圖中提取全局上下文信息,將LeViT 置于U 型結(jié)構(gòu)的編碼器中,有利于模型從經(jīng)卷積之后得到的具有空間先驗(yàn)的特征圖中獲取全局特征。LeViT-UNet 在Synapse數(shù)據(jù)集上的分割精度超過(guò)了大多數(shù)模型,特別值得注意的是,LeViT-UNet 在當(dāng)時(shí)的快速分割網(wǎng)絡(luò)中分割性能最好。為了降低模型復(fù)雜度,TransFuse(Fusing Transformer and CNNs)[41]使用在ImageNet 數(shù)據(jù)集 上預(yù)訓(xùn) 練之后 的DeiT(Dataefficient image Transformers)[42]減少模型參數(shù),并且設(shè)計(jì)了并行的CNN 模塊和Transformer 特征提取模塊。為了充分利用兩者優(yōu)勢(shì),作者在并行的U 型網(wǎng)絡(luò)中設(shè)計(jì)新的跳躍連接——BiFusion Block,該模塊從Transformer 的特征圖中提取通道特征,從CNN 的特征圖中提取空間特征,然后有效地融合兩者,以便引導(dǎo)后面的特征提取網(wǎng)絡(luò)。Swin UNETR(Swin UNEt TRansformers)[43]是基于Swin Transformer 提出的一個(gè)自監(jiān)督預(yù)訓(xùn)練分割模型。該模型在5 050 張非目標(biāo)CT 圖像中分別在對(duì)比學(xué)習(xí)、掩碼體素塊和隨機(jī)數(shù)據(jù)增強(qiáng)三個(gè)代理任務(wù)上預(yù)訓(xùn)練Swin Transformer 模塊。這三個(gè)代理任務(wù)能夠幫助預(yù)訓(xùn)練模型學(xué)習(xí)到感興趣區(qū)域(Region Of Interest,ROI)信息、鄰近體素信息和結(jié)構(gòu)先驗(yàn)知識(shí)。在目標(biāo)任務(wù)中,微調(diào)之后的Swin Transformer 模塊結(jié)合卷積層在三維醫(yī)學(xué)圖像分割任務(wù)中有著出色的表現(xiàn)。

      4.2 僅解碼器

      Li 等[44]提出了基于壓縮-擴(kuò)展Transformer 的 解碼器Segtran。其中,壓縮注意力模塊來(lái)自于專門處理無(wú)序集合特征的Set Transformer[45]中的ISAB(Induced Squeezed Attention Block)。ISAB 通過(guò)過(guò)渡特征圖I(形為m×d的矩陣)濃縮X(形為n×d的矩陣)(n?m)的關(guān)鍵信息,這樣做可以大幅降低注意力模塊的復(fù)雜度。對(duì)于擴(kuò)展注意力模塊,作者從混合高斯分布好于單一高斯分布的事實(shí)出發(fā),提出了用多個(gè)單頭Transformer 代替多頭注意力機(jī)制的策略,以適應(yīng)數(shù)據(jù)的多樣性,獲取更有區(qū)分度的樣本特征。在位置編碼部分,為了能夠獲得像素的局部性和語(yǔ)義的連續(xù)性,文獻(xiàn)[44]基于原Transformer 中的正弦位置編碼,提出了可學(xué)習(xí)的正弦位置編碼。實(shí)驗(yàn)結(jié)果表明可學(xué)習(xí)的位置編碼以及多個(gè)Transformer提取的特征都能給模型性能帶來(lái)一定的提升。

      4.3 編碼器和解碼器

      前面所介紹的工作將Transformer 單獨(dú)放在編碼器或解碼器中,接下來(lái)將討論把Transformer 同時(shí)放在編碼器和解碼器中的分割模型。nnFormer(not another transFormer)[46]在網(wǎng)絡(luò)中交替使用Transformer 和CNN,并提取每一尺度的特征信息進(jìn)行多尺度監(jiān)督學(xué)習(xí),保證多尺度的特征表達(dá)盡可能準(zhǔn)確;但引入多個(gè)Transformer 會(huì)大幅增加計(jì)算負(fù)載,于是文獻(xiàn)[46]將Transformer 提前在ImageNet 中預(yù)訓(xùn)練之后,固定注意力模塊和多層感知機(jī)(Multi-Layer Perceptron,MLP)層參數(shù),其他部分根據(jù)目標(biāo)任務(wù)進(jìn)行新的學(xué)習(xí)。另外,受Swin Transformer 啟發(fā),文獻(xiàn)[46]還用三維窗口替換原來(lái)的二維窗口,在窗口內(nèi)進(jìn)行自注意力計(jì)算,相較于原始的三維多頭注意力機(jī)制,計(jì)算量減少了90%以上。為了避免三維窗口和三維圖像不匹配而導(dǎo)致計(jì)算時(shí)填充冗余信息,三維窗口大小根據(jù)三維圖像專門設(shè)定。不僅如此,作者提出用連續(xù)的、小的卷積層比ViT 中直接用單個(gè)的、大的卷積層學(xué)到的嵌入層有著更豐富的位置信息,還有助于降低模型復(fù)雜度。與模型nnFormer 用于處理三維醫(yī)學(xué)圖像一樣,D-Former(Dilated transFormer)[47]借鑒空洞卷積提出了由局部處理模塊(Local Scope Module,LSM)和全局處理模塊(Global Scope Module,GSM)組成的空洞Transformer。其中,鄰近的若干圖像塊組成的單元構(gòu)成了LSM 的作用范圍,GSM 的作用范圍則是從整個(gè)特征圖中選擇間隔為g的圖像塊組成的單元。LSM 和GSM 模塊的聯(lián)合能夠提取出區(qū)分度很強(qiáng)的局部和全局上下文聯(lián)系。該模塊在Synapse 數(shù)據(jù)集上的分割Dice 值高達(dá)88.93%,超過(guò)了許多高表現(xiàn)的分割模型。

      Huang 等[16]設(shè)計(jì)了 高效的 分割模 型MISSFormer(Medical Image Segmentation tranSFormer)。在注意力模塊,K和V被調(diào)整為(N/S,C×S),以減小序列長(zhǎng)度,再用于計(jì)算注意力,然后用線性層將結(jié)果的通道恢復(fù)到C:

      其 中:W(a,b) 代表輸 出形式 為(a,b) 的二維 權(quán)重矩 陣;Reshape()代表重塑矩陣的函數(shù);N=h×w(h和w分別輸入圖像長(zhǎng)和寬);S是壓縮率。這樣自注意力模塊的計(jì)算復(fù)雜度從O(N2)降低到O(N2/S),即使處理高分辨率的圖像也容易了許多。作者還用卷積層、跳躍連接和層正則化的組合替換感知機(jī)層,進(jìn)而再減少計(jì)算量。值得一提的是,作者所用的跳躍連接是一個(gè)全新的設(shè)計(jì),作者稱為增強(qiáng)上下文聯(lián)系的Transformer 過(guò)渡連接(Enhanced Transformer Context Bridge)。該模塊將編碼器得到的多尺度特征圖整合之后拉成一個(gè)大的序列放入Transformer 模塊。文獻(xiàn)[16]中提出的跳躍連接不僅能從低分辨圖像中習(xí)得全局特征和從高分辨率圖像中獲得有辨別性的局部信息,還能有效獲取兩種表示之間的聯(lián)系。實(shí)驗(yàn)表明MISSFormer[16]在多器官分割數(shù)據(jù)集上的表現(xiàn)好于Swin UNet[48]。針對(duì)自注意力機(jī)制只關(guān)注單個(gè)樣本內(nèi)部的聯(lián)系,而忽略了樣本之間的聯(lián)系的問(wèn)題,MT Net(Mixed Transformer U-Net)[49]將外部注意力(External Attention)[50]機(jī)制應(yīng)用到改進(jìn)后的Transformer 模塊,并稱為混合Transformer模塊(Mixed Transformer Module,MTM)。該模塊由三種不同的注意力模塊連接而成,分別是局部、全局和外部注意機(jī)制。局部和全局注意力模塊用于提取樣本內(nèi)的特征表達(dá),外部注意力機(jī)制則用于建立樣本之間的聯(lián)系。整個(gè)U 型網(wǎng)絡(luò)中包含4 個(gè)MTM 和4 個(gè)卷積塊。實(shí)驗(yàn)結(jié)果表明建立樣本之間的聯(lián)系有助于提升模型分割精度。

      類似于MTM 中的局部和全局注意力的設(shè)計(jì)理念,PCATUNet(Patches Convolution Attention based Transformer U-Net)[51]提出了圖像塊間的卷積自注意力(Cross Patches Convolutional self-Attention,CPCA)塊和圖像塊內(nèi)的卷積自注意力(Inner Patches Convolution self-Attention,IPCA)塊分別用于提取圖像塊之間和內(nèi)部像素之間的全局特征。但是與傳統(tǒng)的Transformer 不同,PCAT 中的注意力機(jī)制基于CNN 構(gòu)成。為了減小編碼器和解碼器特征表示之間的區(qū)別,PCAT通過(guò)特征分組注意力模塊(Feature Grouping Attention Module,F(xiàn)GAM)中的平均池化層進(jìn)行下采樣,并將每次得到的特征圖在通道維度均分成n份再放到m個(gè)卷積層中,以在不同的通道組合中提取詳細(xì)且多樣的特征。

      Luo 等[52]提出了由U 型網(wǎng)絡(luò)和Swin Transformer 共同作為主干網(wǎng)絡(luò)的半監(jiān)督模型。該模型通過(guò)CNN 和Transformer之間的相互學(xué)習(xí)(CNN 的偽標(biāo)簽監(jiān)督Transformer 預(yù)測(cè)結(jié)果,Transformer 偽標(biāo)簽監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果)得到高質(zhì)量偽標(biāo)簽。這種方法類似于“老師學(xué)生”網(wǎng)絡(luò),但與之不同的是,模型中的兩個(gè)網(wǎng)絡(luò)處于平等的地位,且骨干結(jié)構(gòu)類型不同,這樣的組合能夠使模型學(xué)習(xí)到更豐富的特征表達(dá)。Swin Unet 是基于純Transformer 的U 型分割網(wǎng)絡(luò),它完全拋棄了CNN,整個(gè)模型由Swin Transformer 和線性層組成,如圖4所示。

      圖4 Swin UNet總體框架Fig.4 Overall framework of Swin UNet

      文獻(xiàn)[52]用圖像切片融合實(shí)現(xiàn)下采樣,用圖像切片擴(kuò)展塊實(shí)現(xiàn)上采樣。實(shí)現(xiàn)結(jié)果顯示,純Transformer 模型分割結(jié)果好于文獻(xiàn)中提到的FCN 或者Transformer 和卷積混合的神經(jīng)網(wǎng)絡(luò)。另一個(gè)基于Swin Transformer 的U 型網(wǎng)絡(luò)是DSTransUNet(Dual Swin Transformer U-Net)[53],它在編碼器中采用了雙Swin Transformer 分支,為得到更多樣的多尺度特征,每條分支的圖像切片大小不同。又為了進(jìn)一步豐富多尺度特征,基于Transformer 的交互融合模塊(Transformer Interactive Fusion module,TIF)被用來(lái)融合兩條分支產(chǎn)生的不同大小的特征圖,同時(shí)充當(dāng)跳躍連接的角色去連通編碼器和解碼器。以上模型展現(xiàn)了Swin Transformer 應(yīng)用于醫(yī)學(xué)圖像數(shù)據(jù)集的潛能。比起在NLP 中需要大量數(shù)據(jù)預(yù)訓(xùn)練的Transformer 來(lái)說(shuō),Swin Transformer 更輕量,更適合醫(yī)學(xué)圖像分割任務(wù)。

      4.4 過(guò)渡連接

      為了處理各向異性的三維醫(yī)學(xué)圖像,Guo 等[54]利用單頭Transformer 計(jì)算相鄰切片之間的相似性,建立切片之間的信息編碼,提出了新的分割模型。該模型只在切片內(nèi)部進(jìn)行卷積操作,在z軸不使用卷積,選擇二維U 型網(wǎng)絡(luò)作為主要結(jié)構(gòu),在降低計(jì)算復(fù)雜度的同時(shí),也提升了分割精度。但利用簡(jiǎn)單的注意力機(jī)制去建立切片之間的聯(lián)系,缺乏細(xì)節(jié)特征之間的聯(lián)系。類似于文獻(xiàn)[54],UCATR(TransUNet and Multihead Cross-Attention)[55]和 TransBTSv1(multimodal Brain Tumor Segmentation using Transformer)[56]在U 型網(wǎng)絡(luò)底部直接套用ViT 的Transformer 模塊從低分辨率圖像中提取全局上下文。為了解決特征融合不足的問(wèn)題,UCATR 在跳躍連接上插入了交叉注意力機(jī)制,其中Q和K來(lái)自解碼器提取的特征表示,V來(lái)自編碼器中的CNN。Q和K得到的注意力權(quán)重能夠過(guò)濾掉后者的圖像噪聲和不相關(guān)信息,還能夠?qū)⒛P妥⒁饬械疥P(guān)鍵體素。而TransBTSv1 在三維CNN 中僅僅使用一次串聯(lián)跳躍連接實(shí)現(xiàn)多尺度融合,如圖5 所示。在底部使用了L層Transformer 建立三維多模態(tài)腦部醫(yī)學(xué)圖像體素之間的關(guān)系。雖然兩者都使用Transformer 學(xué)習(xí)全局相關(guān)性,加上CNN 善于提取局部空間特征,比起純CNN 模型分割精度確實(shí)有所提升,但是,由于兩者使用的Transformer 和ViT相同,圖像切塊固定,注意力矩陣的計(jì)算量大,所以從頭訓(xùn)練處理三維圖像或者長(zhǎng)序列任務(wù)仍然很吃力。為了減小三維醫(yī)學(xué)圖像在注意力模塊中的計(jì)算和空間復(fù)雜度,MS(MultiScale)-TransUNet++[57]同樣利用deep-wise 卷積層減小K和V的特征空間,減小計(jì)算注意力分?jǐn)?shù)的成本,作者稱其為高效Transformer,并在模型底部疊加了多個(gè)該模塊。除此之外,在多尺度特征融合模塊,引入網(wǎng)連接和密集連接加強(qiáng)編碼器和解碼器之間特征的聯(lián)系,更好地恢復(fù)在下采樣中損失的細(xì)節(jié)表示。與大多數(shù)醫(yī)學(xué)圖像分割模型使用Dice 加多分類交叉損失或二值交叉損失作為網(wǎng)絡(luò)損失函數(shù)不同,MSTransUNet++使 用Focal[58]、MS-SSIM(MultiScale Structural SIMilarity)[59]和Jaccard[60]構(gòu)成全局損失,監(jiān)督分割結(jié)果。實(shí)驗(yàn)結(jié)果表明MS-TransUNet++的損失函數(shù)組合有助于提升該模型的分割精度。與MS-TransUNet++減小注意力模塊特征空間的方法不同,TransBTSv2[61]把Transformer 從更深改到更寬,即擴(kuò)大K和V特征空間,用更大的注意力范圍代替堆疊多個(gè)Transformer 模塊:

      圖5 TransBTSv1總體框架Fig.5 Overall framework of TransBTSv1

      其中:dm=Edinput,E是膨脹率,dm是膨脹之后的維度;WQ、WK和WV分別是 形式為(dinput,dm)、(dinput,dm)和(dinput,dinput)的 矩陣,dinput是輸入維度;Xinput是形式為(N,dinput)的矩陣;Q、K和V分別是形式為(N,dm)、(N,dm)和(N,dinput)的矩陣;Softmax()是激活函數(shù)。為了獲取形狀先驗(yàn)知識(shí)和清晰的邊界特征,各尺度的跳躍連接中嵌入由三維CNN 構(gòu)成的DBM(Deformable Bottle Module)。為了減小DBM 的計(jì)算復(fù)雜度,分別在該模塊的前面和后面都加上了1×1×1 卷積分別用于壓縮通道和恢復(fù)通道數(shù)。

      文獻(xiàn)[62]在跳躍連接中添加了門控注意力機(jī)制[63],用來(lái)過(guò)濾掉編碼器中各層輸出的冗余信息。為進(jìn)一步優(yōu)化分割網(wǎng)絡(luò),該模型不是改變損失函數(shù)組成成分,而是同時(shí)監(jiān)督中間特征和最后結(jié)果,保證模型各部分之間的特征一致性。MBT-Net(Multi-Branch hybrid Transformer Network)[64]為了分割邊界密集的角膜內(nèi)皮細(xì)胞分割數(shù)據(jù)集,在細(xì)胞邊界、細(xì)胞體和整個(gè)細(xì)胞分別設(shè)置了損失函數(shù),以提升模型處理邊界模糊以及密集分割的能力。其中,細(xì)胞邊界標(biāo)簽通過(guò)坎尼算子(Canny Operator)從整個(gè)分割標(biāo)簽中提取而來(lái),細(xì)胞體標(biāo)簽則先將分割標(biāo)簽翻轉(zhuǎn)(0→1,1→0),再在邊界上進(jìn)行高斯模糊(Gaussian Blurring)操作。通過(guò)使用對(duì)位置敏感的軸注意力機(jī)制把握全局信息和監(jiān)督細(xì)胞各部分的分割結(jié)果,模型的性能得到進(jìn)一步提升。采用與軸注意力方法類似的AFTer-UNet(Axial Fusion Transformer UNet)[65]將軸注意力轉(zhuǎn)移到z軸,即只在同一位置(i,j)(i=1,2,…,h,j=1,2,…,w)沿z軸計(jì)算像素之間的相似度,而不是在整個(gè)三維體素上計(jì)算。這樣使三維注意力模塊復(fù)雜度從O(hw×Ns)(h和w分別是輸入的長(zhǎng)和寬,Ns是鄰近切片數(shù))降低到O(hw+Ns)。雖然這樣能夠大幅減輕模型訓(xùn)練負(fù)載,但切片之間處于不同坐標(biāo)的體素聯(lián)系被忽略,在一定程度上會(huì)影響分割結(jié)果。CoTr(Convolutional neural network and a Transformer)[66]將 編碼器中的多尺度特征圖拉成一個(gè)大的圖像序列,丟進(jìn)基于三維可變形Transformer 的橋模塊,然后傳遞給解碼器。歸功于可變形注意力機(jī)制[67]能夠通過(guò)學(xué)習(xí)從整個(gè)K集合中挑選出關(guān)鍵鍵值形成目標(biāo)K集合,然后用目標(biāo)K集合和當(dāng)前Q計(jì)算注意力權(quán)重,既能減少計(jì)算量也能避免噪聲的干擾。同樣用可變形Transformer 提升模型效率的MCTrans(Multi-Compound Transformer)[68]在過(guò)渡 模塊上 嵌入了TSA(Transformer Self Attention)和 TCA(Transformer Cross Attention),用可變形注意力機(jī)制促進(jìn)TSA 獲取CNN 輸出特征圖;而對(duì)于整個(gè)TCA 模塊,添加的可學(xué)習(xí)的輔助嵌入矩陣作為Q,將來(lái)自TSA 的特征表示映射為K和V。在TCA 模塊最后,通過(guò)線性映射得到暫時(shí)的多分類結(jié)果,并用標(biāo)簽計(jì)算該輔助損失,引導(dǎo)TSA 學(xué)習(xí)不同類之間特征表示的區(qū)別和同類之間特征表達(dá)的聯(lián)系,保證類內(nèi)一致性和類間的區(qū)分度。上述分割模型絕大部分使用一次性跳躍連接,而在TransAttUnet(multi-level Attention guided U-Net with Transformer)[69]中,作者設(shè)計(jì)了三種不同的多級(jí)跳躍連接,并結(jié)合基于CNN 的全局空間注意力模塊和基于多頭注意力機(jī)制的Transformer 模塊,篩選出關(guān)鍵特征傳遞給解碼器,增強(qiáng)了模型的泛化性。實(shí)驗(yàn)中,模型在5 個(gè)分割數(shù)據(jù)集上都能產(chǎn)生優(yōu)秀的分割結(jié)果。

      4.5 其他位置

      4.5.1 跳躍連接

      Ma 等[70]把Transformer 放到U 型網(wǎng)絡(luò)的跳躍連接上學(xué)習(xí)不同尺度的全局像素交互,提出了HTNet(Hierarchical context-attention Transformer Network)。每個(gè)跳躍連接有RAPP(Residual Atrous spatial Pyramid Pooling)、PAA(Positionsensitive Axial Attention)和 HCA(Hierarchical Context-Attention)三個(gè)模塊。RAPP 是ASPP[71]和殘差連接的組合,能夠從不同大小的卷積核和高分辨率的原圖像中捕捉到豐富的多尺度特征和細(xì)節(jié)特征;PAA 則是基于對(duì)位置敏感的軸注意力機(jī)制,該注意力機(jī)制在減少計(jì)算注意力矩陣的計(jì)算量的同時(shí),也能獲取全局上下文;HCA 通過(guò)模仿Transformer 結(jié)構(gòu)計(jì)算特征之間的關(guān)聯(lián)性。與常見的注意力機(jī)制最大的不同在于,HCA 中的Q、K和V來(lái)自U 型網(wǎng)絡(luò)中不同尺度的特征圖。由于特征圖之間的大小不同,所以利用上下采樣操作完成圖像塊之間相似性的計(jì)算,實(shí)現(xiàn)多尺度特征之間的聯(lián)系。

      4.5.2 輸出塊

      RTNet(Relation Transformer Network)[72]用于分割糖尿病視網(wǎng)膜病變多病灶,該模型主要由基于卷積的全局Transformer 模塊(Global Transformer Block,GTB)和關(guān)系Transformer 模塊(Relation Transformer Block,RTB)組 成。GTB 利用血管分支分割出血管域,利用病變分支并行分割病變域,然后將各自得到的特征圖傳給關(guān)系Transformer。RTB中的自注意力模塊所用的Q、K和V全部來(lái)自病變分支輸出,目的是提取各病變域之間的聯(lián)系;交叉注意力模塊則用于獲取病變域和血管域特征的異同,其中的Q來(lái)自病變分支,K和V來(lái)自血管分支。該模型的分割結(jié)果好于基準(zhǔn)網(wǎng)絡(luò),但模型中的多個(gè)注意力模塊增加了較多計(jì)算量和空間占用量。

      4.6 討論

      從上述工作可以看出,選擇將Transformer 置于編碼器的分割模型明顯多于將Transformer 置于解碼器的分割模型。這一現(xiàn)象很大原因是處于解碼器的模塊的主要任務(wù)是融合來(lái)自編碼器的特征,而編碼器的主要任務(wù)是提取特征。只將Transformer 置于解碼器不能充分發(fā)揮其從低表達(dá)能力的特征圖中捕捉上下文聯(lián)系的優(yōu)勢(shì),從而降低其優(yōu)化模型的能力。為了更好地將全局和局部信息有效融合,利用位于編碼器中的Transformer 提取信息,利用位于解碼器中的Transformer 融合信息,再結(jié)合卷積網(wǎng)絡(luò)獲取細(xì)節(jié)特征的優(yōu)勢(shì),進(jìn)一步增強(qiáng)模型對(duì)特征的表達(dá)能力。但是兩邊都插入Transformer 的模型會(huì)因注意力機(jī)制的計(jì)算復(fù)雜度而變得低效,所以探索高效的注意力模塊有助于提升該類模型的效率。為了使Transformer 提取和融合全局特征的能力保持較好的平衡,將Transformer 放在過(guò)渡連接處是個(gè)不錯(cuò)的選擇,既能從具有較低表達(dá)能力的特征中獲取聯(lián)系又能依靠全局特征引導(dǎo)后面的融合器。更值得一提的是,在過(guò)渡連接處特征圖的分辨率是U 型網(wǎng)絡(luò)所有特征圖中最低的,即使使用多層疊加的Transformer 模塊,也不會(huì)給模型帶來(lái)很大的負(fù)載。但相較于將Transformer 置于編碼器或解碼器的方式,將Transformer 置于過(guò)渡連接處的方式在特征提取和融合方面的能力有限,需要花費(fèi)更大的成本去權(quán)衡過(guò)渡連接處提取和融合的能力。

      將Transformer 放到跳躍連接的位置是個(gè)不錯(cuò)的嘗試工作。Transformer 在處理多模態(tài)信息的融合比CNN 更具有優(yōu)勢(shì)。在跳躍連接兩邊的特征雖然屬于同一尺度,但由于所在網(wǎng)絡(luò)的深度不同,會(huì)導(dǎo)致同尺度的特征圖存在較大的差異。借助于Transformer,可以更好地拉近兩者距離,降低因特征差異太大對(duì)后續(xù)融合部分的影響。但在U 型網(wǎng)絡(luò)中處理高分辨率特征圖時(shí),Transformer 不一定能夠提升模型效率。

      總的來(lái)說(shuō),Transformer 處于不同位置有著不同的優(yōu)缺點(diǎn),讀者應(yīng)該從具體任務(wù)出發(fā),選擇合適的位置。比如,若任務(wù)更側(cè)重于數(shù)據(jù)提取,可以考慮把Transformer 嵌入編碼器中;當(dāng)任務(wù)更側(cè)重于數(shù)據(jù)融合,可以考慮把Transformer 插入編碼器中。

      4.7 分割數(shù)據(jù)集

      上述分割模型所用數(shù)據(jù)集包括BCV(multi-atlas labeling Beyond the Cranial Vault)[73]、ACDC(Automated Cardiac Diagnosis Challenge)[74]、Brain US[75]、GLAS(GLAnd Segmentation in colon histology images)[76]、DSB18(2018 Data Science Bowl)[77]、TNBC(Triple Negative Breast Cancer)[78]、BraTS(Brain Tumor Segmentation)[79-80]、Kvasir[81]、ISIC(International Skin Imaging Collaboration)2017[82]、DRIVE(Digital Retinal Images for Vessel Extraction)[83]、STARE(STructured Analysis of the REtina)[84]、CHASE_DB1[85]、ISIC2018[86]、The Segmentation Decathlon[87]、PROMISE12[88]、LiTS(Liver Tumor Segmentation benchmark)[89]、Alizarine[90]、Thorax-85[91]、PanNuke(open Pan-cancer histology dataset for Nuclei instance segmentation and classification)[92]、KiTS19(Kidney and Kidney Tumor Segmentation)[93]、IDRiD(Indian Diabetic Retinopathy image Dataset)[94]、DDR(Dataset for Diabetic Retinopathy)[95]等,還有作者自己收集的數(shù)據(jù)集,如ABVS(Automated Breast Volume Scanner),詳情見表1。

      表1 基于Transformer的醫(yī)學(xué)圖像分割模型概覽Tab.1 Overview of Transformer-based medical image segmentation models

      5 挑戰(zhàn)與展望

      5.1 挑戰(zhàn)

      目前Transformer 已成為深度學(xué)習(xí)各領(lǐng)域研究的熱點(diǎn)之一,尤其是在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域,在各下游任務(wù)中都可見其身影。在醫(yī)學(xué)圖像分割任務(wù)中,U 型網(wǎng)絡(luò)和Transformer 的混合模型展現(xiàn)出較好的分割效果。但即使如此,利用Transformer 處理醫(yī)學(xué)圖像仍然面臨巨大挑戰(zhàn):

      1)醫(yī)學(xué)圖像數(shù)據(jù)集偏?。簶?biāo)注醫(yī)學(xué)圖像需要具有專業(yè)適合和豐富經(jīng)驗(yàn)的醫(yī)生,且醫(yī)學(xué)圖像的分辨率普遍很高,以至于醫(yī)學(xué)圖像的標(biāo)注費(fèi)時(shí)費(fèi)力,成本很高,所以較少有大的醫(yī)學(xué)圖像數(shù)據(jù)集。充分發(fā)揮Transformer 捕捉長(zhǎng)距離依賴的優(yōu)勢(shì)需要一定的樣本量,而大多數(shù)醫(yī)學(xué)圖像數(shù)據(jù)集都不能滿足該需求。

      2)醫(yī)學(xué)圖像分辨率高:Transformer 原用于處理自然語(yǔ)言中的序列任務(wù),若用于處理圖像任務(wù)需要將圖像序列化。但醫(yī)學(xué)圖像分辨率高,像素點(diǎn)多,序列化之后會(huì)形成過(guò)長(zhǎng)的序列。雖然ViT 提出了圖像塊序列,但切割高分辨率的醫(yī)學(xué)圖像之后的序列仍然會(huì)導(dǎo)致計(jì)算量較大。

      3)Transformer 缺乏位置信息:在醫(yī)學(xué)圖像分割任務(wù)中,目標(biāo)位置信息對(duì)于分割結(jié)果非常重要。由于Transformer 不含位置信息,只能通過(guò)學(xué)習(xí)嵌入位置信息。但對(duì)于不同的數(shù)據(jù)集位置信息不同,對(duì)位置信息的要求也不同,那么學(xué)習(xí)位置的方式也不同,嚴(yán)重影響了模型的泛化性。

      4)自注意力機(jī)制只在圖像塊之間進(jìn)行:為減少Transformer 處理圖像的計(jì)算量,圖像被序列化之后,注意力權(quán)重的計(jì)算只在圖像塊之間進(jìn)行,而忽略了圖像塊內(nèi)部像素之間的聯(lián)系。當(dāng)分割、識(shí)別或檢測(cè)小目標(biāo)以及邊界模糊的任務(wù)時(shí),像素之間的關(guān)鍵信息會(huì)影響模型精度。

      5.2 展望

      結(jié)合目前Transformer 和U 型網(wǎng)絡(luò)的混合網(wǎng)絡(luò)發(fā)展現(xiàn)狀和所面臨的挑戰(zhàn),對(duì)未來(lái)研究提出了以下幾點(diǎn)建議和展望:

      1)半監(jiān)督或無(wú)監(jiān)督學(xué)習(xí):利用Transformer 能夠從大數(shù)據(jù)集上提取出全局關(guān)鍵特征的優(yōu)勢(shì),用它在大數(shù)據(jù)集上用輔助任務(wù)進(jìn)行訓(xùn)練或?qū)W習(xí)已有標(biāo)記圖像特征進(jìn)而自動(dòng)生成高置信度的偽標(biāo)簽。兩者可以緩解醫(yī)學(xué)圖像數(shù)據(jù)集規(guī)模普遍偏小的問(wèn)題。

      2)加入先驗(yàn)知識(shí):先驗(yàn)知識(shí)能夠幫助模型關(guān)注目標(biāo)任務(wù)的關(guān)鍵特征,降低模型擬合冗余信息的概率。通常醫(yī)學(xué)圖像中的先驗(yàn)知識(shí)包括形狀先驗(yàn)和位置先驗(yàn)等。

      3)多模態(tài)圖像融合:不同模態(tài)的醫(yī)學(xué)圖像提供不同的圖像信息,融合多模態(tài)的圖像特征能夠幫助模型學(xué)習(xí)有利于分割的表示。比如T1 用于觀察解剖結(jié)構(gòu),T2 用于確定病灶部位。

      4)提出高效的采樣操作:在U 型網(wǎng)絡(luò)下采樣和上采樣操作不可避免地會(huì)導(dǎo)致細(xì)節(jié)特征的缺失和冗余數(shù)據(jù)的產(chǎn)生。提出高效采樣方法既能降低模型復(fù)雜度,也能保留重要特征信息。

      6 結(jié)語(yǔ)

      Transformer 是近兩年深度學(xué)習(xí)領(lǐng)域研究的熱門框架之一。得益于其獲取全局上下文的優(yōu)勢(shì),在醫(yī)學(xué)圖像分割任務(wù)中能夠緩解目標(biāo)區(qū)域分散、形狀差異大等問(wèn)題。但對(duì)于規(guī)模不大的醫(yī)學(xué)圖像數(shù)據(jù)集,Transformer 難以充分發(fā)揮其優(yōu)勢(shì)。所以,借助于U 型網(wǎng)絡(luò)結(jié)構(gòu)能夠充分利用樣本信息提取多尺度局部空間特征,使模型的全局信息和局部信息達(dá)到較好的平衡,提高模型性能。本文從U 型網(wǎng)絡(luò)中Transformer 所處位置的角度,歸納了結(jié)合兩者的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)。從文中分割網(wǎng)絡(luò)的表現(xiàn)可以看出,混合使用U 型網(wǎng)絡(luò)和Transformer 模塊有不錯(cuò)的發(fā)展前景和很大的研究意義。

      猜你喜歡
      解碼器編碼器注意力
      讓注意力“飛”回來(lái)
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      基于FPGA的同步機(jī)軸角編碼器
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      A Beautiful Way Of Looking At Things
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      金寨县| 黄石市| 金山区| 泸定县| 新平| 叶城县| 漳浦县| 剑川县| 米泉市| 邯郸市| 吉木萨尔县| 睢宁县| 宁阳县| 永登县| 遂溪县| 张家川| 藁城市| 司法| 巧家县| 平塘县| 叙永县| 涪陵区| 麻栗坡县| 天柱县| 溆浦县| 台山市| 东安县| 南漳县| 宝丰县| 贵溪市| 景东| 安庆市| 南涧| 枞阳县| 府谷县| 菏泽市| 丹东市| 广元市| 阿巴嘎旗| 剑阁县| 临汾市|