摘要:視網(wǎng)膜血管的形態(tài)學變化對早期眼科疾病的診斷具有重要意義,除眼科疾病外,糖尿病、心血管疾病等同樣可以通過視網(wǎng)膜血管的形態(tài)判別疾病進展。然而,視網(wǎng)膜血管本身具有復雜的組織結構,且易受到光線等因素的影響,對其準確分割并不容易。針對上述問題,提出了一種視網(wǎng)膜血管分割網(wǎng)絡。該網(wǎng)絡中首先設計了粗糙注意力融合模塊(rough attention fusion module,RAFM),該模塊基于粗糙集上下近似理論,利用全局最大池化與全局平均池化對注意力系數(shù)進行上下限描述,并串行融合通道注意力機制與空間注意力機制;然后,將粗糙注意力融合模塊融入Group Transformer U network (GT U-Net),構建一種基于粗糙注意力融合機制與Group Transformer的視網(wǎng)膜血管分割網(wǎng)絡;最后,基于公開DRIVE彩色眼底圖像數(shù)據(jù)集進行對比實驗,該網(wǎng)絡結構在測試集上的準確率、F1分數(shù)、AUC值分別達到了0.963 1、0.848 8和0.981 2,與GT U-Net模型相比,F(xiàn)1分數(shù)、AUC值分別提升了0.35%、0.21%;與其他當前主流的視網(wǎng)膜血管分割網(wǎng)絡進行對比,具有一定優(yōu)勢。
關鍵詞:粗糙集;注意力機制;眼底視網(wǎng)膜血管;圖像分割;Transformer
中圖分類號: TP181" " " " " " " " " " " " " 文獻標志碼: A文章編號: 1673-2340(2024)01-0028-10
Abstract: The morphological changes in retinal vessels play a crucial role in the diagnosis of early ophthalmic diseases. Beyond eye diseases, conditions such as diabetes and cardiovascular diseases can also be identified through the morphology of retinal vessels. However, retinal vessels possess a complex tissue structure and are easily influenced by factors such as lighting, making their accurate segmentation challenging. To address these issues, a retinal vessel segmentation network that initially incorporates a rough attention fusion module (RAFM) is proposed. This module is based on the theory of rough set upper and lower approximations, employing global max pooling and global average pooling to describe the upper and lower bounds of attention coefficients, and sequentially integrates channel attention mechanisms with spatial attention mechanisms. Subsequently, the RAFM is integrated into the Group Transformer U network (GT U-Net), constructing a retinal vessel segmentation network based on the rough attention fusion mechanism and Group Transformer. Finally, comparative experiments conducted on the publicly available DRIVE color fundus image dataset demonstrate that the network achieves an accuracy, F1 score, and AUC of 0.963 1, 0.848 8, and 0.981 2, respectively, on the test set. Compared to the GT U-Net model, the F1 score and AUC were improved by 0.35% and 0.21%, respectively; and when compared to other contemporary mainstream retinal vessel segmentation networks, it exhibits certain advantages.
Key words: rough set; attention mechanism; fundus retinal blood vessels; image segmentation; Transformer
視網(wǎng)膜血管的形態(tài)結構變化是診斷高血壓、動脈硬化、冠心病等疾病的重要指標之一。視網(wǎng)膜血管作為人體內唯一可以通過無創(chuàng)手段觀察到的清晰血管,其檢測與分析對預測和診斷上述疾病有非常重要的應用價值[1]。由于視網(wǎng)膜血管復雜的樹狀結構,以人工進行視網(wǎng)膜血管分割存在判錯率高、耗時長及操作繁瑣等問題[2]。基于深度學習的圖像分割算法可以幫助醫(yī)生處理并分析復雜的眼底圖像,進一步提高計算機圖像分割的速率與準確度,其優(yōu)化方法受到學者們越來越多的關注[3]。
隨著近年來深度學習的進步,基于深度卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)的方法已成功地打破傳統(tǒng)手工提取特征方法的瓶頸[4],逐漸成為一種主流的圖像處理方法。Ronneberger等[5]在全卷積神經(jīng)網(wǎng)絡的編解碼結構基礎上,構建了一種U型對稱網(wǎng)絡(U-Net),并在對應層之間添加跳躍連接,實現(xiàn)低層特征和高層特征的拼接和融合。Xiao等[6]在U-Net模型的基礎上進行了改進,在每層卷積處加入了殘差連接,緩解了模型訓練中的梯度爆炸和消失現(xiàn)象,同時加速了收斂。吳晨玥等[7]提出了一種改進卷積神經(jīng)網(wǎng)絡,在編碼器-解碼器結構的網(wǎng)絡中加入了空洞卷積,在不增加參數(shù)的情況下增加了感受野。
隨著研究的推進,用于自然語言處理的Transformer[8]跨領域地被引入到計算機視覺任務中。利用Transformer在特征圖中捕捉長距離依賴的優(yōu)勢,解決CNN因局部偏置和權值共享對全局信息把握不足的缺點[9]。Dosovitskiy等[10]提出視覺轉換器(vision Transformer,ViT)模型,利用Transformer全局感受野特性得到比CNN更好的性能,但ViT只使用全局特征,忽視了局部特征。結合兩者優(yōu)勢的CNN與Transformer融合網(wǎng)絡模型在目前的圖像分割任務中比較流行,并在醫(yī)學圖像分割領域獲得了較好的效果。Zhang等[11]提出了一個Transformer與ResNet的并行特征提取與融合網(wǎng)絡;Chen等[12]基于U-Net的架構,構建了一個聯(lián)合CNN-Transformer的結構作為編碼器,并在解碼器中加入可以獲得精確位置信息的級聯(lián)上采樣操作。上述方法將卷積神經(jīng)網(wǎng)絡與Transformer模型進行合理融合,取得了不錯的圖像分割效果。然而Transformer通常需要較大的計算資源與較大的內存資源,將CNN與ViT模型直接融合具有較高的計算復雜度。
注意力機制是一種在深度學習中常用的技術,它可以讓模型在處理序列數(shù)據(jù)時,更加關注當前處理的元素,將注意力機制與深度學習模型結合可以使模型更好地在圖像中識別需要關注的部分。Oktay等[13]提出了用于醫(yī)學成像的新型注意力門模型,抑制輸入圖像中的不相關區(qū)域,突出有價值的顯著特征。Gu等[14]提出了一種聯(lián)合空間注意力模塊和一種新穎的通道注意模塊:空間注意力模塊使網(wǎng)絡更加關注前景區(qū)域;通道注意力模塊自適應地重新校準通道特征響應,并突出最相關的特征通道。Yuan等[15]提出了多級注意力網(wǎng)絡以整合從擴展路徑中提取的多層次特征,充分利用了低級別的詳細信息和不同層中編碼的補充信息。
本文提出的視網(wǎng)膜血管分割網(wǎng)絡使用Li等[16]提出的Group transformer U network(GT U-Net)為基礎框架,將GT U-Net中每層準備跳躍連接的特征圖先通過粗糙注意力融合模塊(rough attention fusion module,RAFM),再與擴展路徑的特征圖相拼接,進而減少冗余特征的數(shù)量,提升模型的分割效果。
本文主要貢獻如下:
1)為了解決ViT模型計算量大、消耗資源多等問題,本文使用GT U-Net為基礎框架,其Group Transformer結構有效減少了Transformer的計算復雜度。
2)為了解決視網(wǎng)膜血管分布密集雜亂、血管邊界不清晰等問題,本文基于粗糙集上下近似理論,構建了粗糙空間注意力模塊(rough spatial attention module,RSAM)和粗糙通道注意力模塊(rough channel attention module,RCAM),得到更加合理的注意力系數(shù)。
3)為融合粗糙空間注意力模塊與粗糙通道注意力模塊,本文提出一種粗糙注意力融合機制RAFM,將空間注意力模塊和通道注意力模塊串行結合,以提高模型的表達能力。
1" "相關工作
1.1" "粗糙集的上下近似理論
粗糙集[17-19]理論用于對不精確、不一致、不完整信息進行分析與處理,是一種在不確定環(huán)境中廣泛使用的數(shù)學工具。它使用近似空間、集合的上下近似運算來處理模糊性和不確定性,通過上下界逼近的方式來刻畫不可定義集,這就是粗糙集理論中的上下近似算子。
假設信息表R = {U,At,{Vα∈At}},{Iα∈At},其中:U = {x,x,…,x}是有限非空對象的集合,n為對象的個數(shù);At為有限非空屬性集合;V表示屬性α∈At的屬性值的范圍;I為對象屬性關系函數(shù),若A?哿At,則I(x)表示論域U中的對象x的屬性值。
在信息表R中,稱子集X?哿U是可以被屬性子集A?哿At定義的,當且僅當由屬性子集A定義的邏輯決策語言L(A)中存在一個公式φ使得X = g(φ);否則X稱為不可定義的。其中φ為一個對象屬性關系對;g(φ)為具有公式φ性質的對象的全體。針對不可定義集,只能通過上、下界對其進行逼近,即粗糙集理論中的上下近似算子。上近似算子(X)是包含X的最小可定義集,下近似算子(X)是包含在X中的最大可定義集。
對于子集X?哿U,論域U將被劃分為正域POS(X)、負域NEG(X)與邊界域BND(X) 3個區(qū)域,分別定義為
POS(X) = (X),(1)
NEG(X) = POS(~X) = U - (X),(2)
BND(X) = (X) - (X)。(3)
若BND(X) = ,說明集合X是精確的;若BND(X)≠,說明集合X是粗糙的。
1.2" "Group Transformer
Transformer起初在自然語言處理領域取得了很好的效果。近年來,以ViT為代表的Transformer模型在計算機視覺領域得到迅速發(fā)展,并表現(xiàn)出優(yōu)異的效果。多頭自注意力機制(multi-head self attention,MHSA)是Transformer的核心結構,MHSA的輸出為
MHSA(Q,K,V) = Concat(head,…,head)W,(4)
其中:h是頭的數(shù)量;head表示第i個頭部的輸出;W是輸出線性變換的權重矩陣。
對于MHSA中的一個頭部,注意力權重為
Attention(Q,K,V) = soft max()V,(5)
其中:Q是查詢向量序列;K是鍵向量序列;V是值向量序列;d是鍵向量序列中每個向量的維度。
然而,ViT模型往往需要較大的計算資源與較大的內存資源,且依賴于由大型圖像數(shù)據(jù)庫預訓練的權重,這導致其在數(shù)量不足的數(shù)據(jù)集上表現(xiàn)不佳。Jiang等[20]提出了一種瓶頸結構將維度為d的嵌入特征投影到維數(shù)為d/r的較小空間,其中r為縮放比例。這在很大程度上節(jié)省了自我注意力的計算成本,并使得注意力頭部產(chǎn)生更緊湊和有用的注意力信息。
結合醫(yī)學圖像的特點,Li等[16]設計了Group Transformer模塊,并構造了GT U-Net網(wǎng)絡。如圖1所示,Group Transformer模塊由跳過連接、分組模塊、3 × 3卷積、多頭自注意力模塊和合并模塊組成。其設計的分組模塊和3 × 3卷積減少了MHSA的計算量,同時3 × 3卷積彌補了Transformer缺少局部性和全局不變性的劣勢。
假設原始特征圖大小為H × W × C,MHSA的頭部個數(shù)為 4,通過分組結構和瓶頸結構,MHSA的計算量將大大減少。改進前的MHSA[21]計算量和Group Transformer(GT)的計算量分別為
Ω(MHSA) = 4HWC + 2(HW)C,(6)
Ω(GT) = HWC + (HW)C,(7)
其中:φ是瓶頸結構的通道縮放因子;h × w是每個Group Transformer單元的大小。
2" "粗糙注意力及融合機制
圖像信息包含大量的隨機性、粗糙性等不確定性信息,比如眼底視網(wǎng)膜血管的分布雜亂、形狀不規(guī)則、邊緣粗糙不清。這些不確定性信息使得深度神經(jīng)網(wǎng)絡難以取得較好分割的效果。在本節(jié)中,將完整地介紹所提出RAGT-Net模型,該模型能夠很好地適應視網(wǎng)膜血管的形態(tài)特性,處理不確定性信息,獲得精確的分割結果。
2.1" "粗糙通道注意力
通道注意力機制[22]主要用于捕捉卷積層中通道間的相關性。具體來說,假設特征圖F∈R,首先對特征圖分別進行全局平均池化,將特征圖F壓縮為維度為1 × 1 × C的特征圖;然后將壓縮后的特征圖通過2個全連接層映射成每個通道的權重,2個全連接層之間使用ReLU激活函數(shù),增強了模型的非線性特征并且降低了梯度消失的概率,使用Sigmoid激活函數(shù)對每個通道的特征權值進行歸一化操作;最后將最終得到的特征圖與原先的特征圖相乘,對原特征圖進行通道特征重標定,并作為下一級的輸入數(shù)據(jù)。
一般而言。全局平均池化在一定程度上具有全局感受野,全局最大池化在一定程度上具有局部感受野。如圖2所示,粗糙通道注意力依據(jù)粗糙集的上下近似理論,使用全局最大池化和全局平均池化對特征通道重要性進行上下限描述,使得注意力系數(shù)值兼具全局信息和局部細節(jié)信息。在此基礎上進行特征重標定,得到新的視網(wǎng)膜血管特征圖。
首先,采用全局平均池化層建立通道之間的依賴關系,并保留全局信息;用全局最大池化層建立通道之間的依賴關系,并保留局部信息??杀硎緸?/p>
F = max(F(m,n)),(8)
F = ∑∑F(m,n),(9)
其中:0 lt; m≤H;0 lt; n≤W;F,F(xiàn)∈R。
其次,將得到的2張維度為1 × 1 × C的特征圖分別通過2個全連接層映射成每個通道的權重,表示為
F = Sigmoid(W·δ(W·F)),(10)
F = Sigmoid(W·δ(W·F)),(11)
其中:δ表示ReLU激活函數(shù);W∈R,W∈R分別表示2個全連接層的權重矩陣;r為壓縮的比例,本文設置r = 16。
然后,對所得到的通道重要性值的上下限進行加權操作,得到更合理的通道依賴關系,表示為
F = α·F + β·F,(12)
其中,α和β分別表示上下神經(jīng)元的權重信息。
最后,將得到的通道權重特征圖與原先的特征圖相乘,對原特征圖進行通道特征重標定,并作為下一級的輸入數(shù)據(jù),表示為
F = F·F。(13)
2.2" "粗糙空間注意力
空間注意力機制[23]是通過一個空間權重矩陣賦予每層像素點不同的權重。具體來說,假設特征圖F∈R,首先對特征圖分別進行全局最大池化與全局平均池化,將特征圖F壓縮為2張維度為H × W × 1的特征圖;其次將得到的特征圖進行堆疊,得到維度為H × W × 2的特征圖;然后通過一個卷積層,最終得到的特征圖維度從H × W × 2變?yōu)镠 × W × 1,特征圖上每個像素點的數(shù)值大小代表其重要程度,使用Sigmoid激活函數(shù)對每個通道的特征權值進行歸一化操作;最后將最終得到的特征圖與原先的特征圖相乘,對原特征圖進行像素點特征重標定,并作為下一級的輸入數(shù)據(jù)。
如圖3所示,粗糙空間注意力機制同樣是通過全局最大池化和全局平均池化對各通道像素點的重要性進行上下限描述。
首先,利用全局平均池化層建立空間之間的依賴關系,并保留全局信息;利用全局最大池化層建立空間之間的依賴關系,并保留局部信息。可表示為
F = max(F(k)),(14)
F = ∑F(k),(15)
其中:0 lt; k≤C;F,F(xiàn)∈R。
其次,將得到的2張維度為H × W × 1的特征圖分別通過一個卷積層,表示為
F = Up(δ(Conv(F))),(16)
F = Up(δ(Conv(F))),(17)
其中:Conv表示一個卷積核大小為7 × 7的卷積運算;δ表示ReLU激活函數(shù);Up表示采用雙線性插值法的上采樣操作。
然后,對所得到的空間重要性值的上下限進行加權操作,得到更合理的空間依賴關系,表示為
F = αF + βF,(18)
其中,α和β分別表示上下神經(jīng)元的權重信息。
最后,將得到的空間權重特征圖與原先的特征圖相乘,對原特征圖進行空間特征重標定,并作為下一級的輸入數(shù)據(jù),表示為
F = F·F。(19)
2.3" "粗糙注意力融合模塊
Fu等[24]提出了一種雙注意力網(wǎng)絡(dual attention networks,DANet),實現(xiàn)了自適應集成場景分割任務中局部特征及全局依賴關系。Mei等[25]提出了自我注意融合模塊(self-attention fusion,SAF),該模塊將空間注意力和通道注意力并行結合,提高了經(jīng)典模型對單圖像超分辨率的全局特征表征能力。受此啟發(fā),本文引入了粗糙注意力融合模塊RAFM。
如圖4所示,整個模塊將空間注意力模塊和通道注意力模塊串行結合??臻g注意力單元主要在不同圖像區(qū)域之間建立長程相關性,使模型具有全局特征的學習能力;通道注意力單元主要對有效通道進行加權,對無用通道進行弱化,以提高模型的表達能力。經(jīng)過粗糙化的空間注意力機制與通道注意力機制,對全局平均池化與全局最大池化得到的全局信息和局部信息粗糙化,對確定性的數(shù)值進行重標定,得到了更為合理且準確的空間與通道注意系數(shù)。融合模塊表示為
F ′ = RSA(RCA(F)),(20)
其中:RCA表示粗糙通道注意力機制;RSA表示粗糙空間注意力機制。
通過結合Group Transformer與粗糙注意力融合機制,本文提出rough attention Group Transfomer網(wǎng)絡(RAGT-Net)模型,網(wǎng)絡結構如圖5所示。該模型以GT U-Net為基礎框架,將GT U-Net中收縮路徑的特征圖通過粗糙注意力融合模塊后,再與擴展路徑的特征圖相拼接。在組合模型中引入粗糙注意力融合機制有利于提升圖像邊緣的權重,抑制不相關區(qū)域中的激活,進而減少冗余特征的數(shù)量,提升模型的分割效果。RAGT-Net模型的算法偽代碼如表1所示。
3" "實驗部分
3.1" "數(shù)據(jù)集
DRIVE數(shù)據(jù)集[26]是2004年發(fā)布的用于視網(wǎng)膜血管分割的數(shù)據(jù)集,它由40張彩色眼底圖像組成,其中病理異常圖像7張,每張圖像分辨率為584 × 565,一般情況下,40張圖像被平均分為20張訓練集和20張測試集。
鑒于單通道灰度圖像比RGB圖像能更好地顯示血管與背景之間的對比度,同時視網(wǎng)膜圖像是小樣本數(shù)據(jù),本文對數(shù)據(jù)進行了預處理操作。首先,將RGB圖像轉換為灰度圖像,并對視網(wǎng)膜血管灰度圖像進行歸一化;其次,采用對比度受限的自適應直方圖均衡化,增強視網(wǎng)膜血管與背景之間的對比度,以使眼底圖像中血管的結構和特征更易受到關注;最后,使用Gamma變換進行圖像增強,對漂白或者過暗的圖像區(qū)域進行校正。同時,采用對原圖進行分塊的方式進行數(shù)據(jù)擴充,將訓練圖像和相應的掩碼圖劃分成大小為48 × 48的圖像子塊,從中隨機選取一定數(shù)量的圖像子塊進行訓練,部分的圖像子塊隨機整合圖像如圖6所示。
3.2" "實驗參數(shù)設置
本文的實驗在Python 3.9,Pytorch 1.11.0和NVIDIA TITAN RTX GPU上完成。在模型的訓練過程中,采用交叉熵損失函數(shù)作為訓練的損失函數(shù),批大小設置為64,模型迭代的次數(shù)設置為120,模型初始學習率設為0.000 5,選擇Adam優(yōu)化器對模型的參數(shù)進行更新。
3.3" "評價指標
視網(wǎng)膜血管分割任務就是將像素點分類為血管類或非血管類。血管類是分割的目標,叫做正類,其他部位是負類。通過對比分割算法的結果與真實值,可以得到混淆矩陣中的真陽性N,即正確預測血管類為血管類;假陽性N,即誤判非血管類為血管類;真陰性N,即正確預測非血管類為非血管類;假陰性N,即誤判血管類為非血管類。
為了評價視網(wǎng)膜血管分割算法的好壞,本文引入準確率Acc、靈敏度Sen、特異性Spe和F分數(shù)這4個評價指標,各評價指標公式分別表示為
Acc = ,(21)
Sen = ,(22)
Spe = ,(23)
F = 2 × 。(24)
同時,也引入ROC與PR的曲線面積評價模型,ROC曲線綜合考慮了敏感度和精確性,PR曲線綜合考慮了召回率和精確率,ROC與PR的曲線面積越大,表明模型具有更好的性能。
3.4" "實驗結果分析
表2是本文提出的視網(wǎng)膜血管分割網(wǎng)絡和其他5種當前流行的方法在DRIVE數(shù)據(jù)集上的分割性能對比。由表2可知,本文提出的RAGT-Net模型在準確率、靈敏度、特異性及F分數(shù)指標上都表現(xiàn)出良好的分割結果。與其他分割網(wǎng)絡對比,準確率提升了0.52%~0.98%,靈敏度提升了4.85%~11.46%,F(xiàn)分數(shù)提升了2.18%~5.20%。
同時,為驗證本文提出的粗糙注意力融合機制的有效性,將RAGT-Net與GT U-Net、CBAM[23] + GT U-Net網(wǎng)絡在DRIVE數(shù)據(jù)集上的分割性能進行對比。如表3所示,RAGT-Net相比于GT U-Net,在總體性能上獲得了提升,準確率保持不變,靈敏度、F分數(shù)分別提升了2.39%、0.35%;CBAM + GT U-Net相比于GT U-Net,在總體性能上無明顯變化。
如圖7與圖8所示,RAGT-Net模型在DRIVE數(shù)據(jù)集上的ROC曲線面積,即AUC值為0.981 2,相比GT U-Net與CBAM + GT U-Net模型分別提升了0.28%和0.21%;RAGT-Net模型的PR曲線AUC值為0.924 8,相比于GT U-Net與CBAM + GT U-Net模型分別提升了0.32%和0.12%,證明了本文提出的粗糙注意力融合機制的有效性。
如圖9所示,本文提出的RAGT-Net模型的分割結果和金標準基本一致,其在矩形區(qū)域內的細小血管分割上比GT U-Net和CBAM+GT U-Net兩個模型效果更好。
如圖10所示,對圖9中部分矩形區(qū)域內的分割結果進行局部放大。可以更加直觀地看出,在第Ⅰ行的效果對比中,RAGT-Net模型處理背景噪聲的干擾擁有更好的效果,誤檢率更低;在第Ⅱ行、第Ⅲ行及第Ⅳ行的效果對比中,RAGT-Net模型在矩形區(qū)域內對細小血管的分割更加精細、漏檢率更低。
為了展示本文模型對于存在病灶的眼底圖像的分割效果,圖9中第Ⅳ行的選用的眼底圖像存在視網(wǎng)膜病變現(xiàn)象,如色素上皮變化、中央凹色素型瘢痕等。如圖11所示,對圖9中第Ⅳ行的眼底圖像的病灶區(qū)域進行局部放大,可以直觀地看出,本文提出的模型能夠精確地檢測血管,但是在病變嚴重的視網(wǎng)膜上,分割結果會受其影響。
綜上所述,本文提出的視網(wǎng)膜血管分割方法與U-Net、R2U-Net等主流方法相比,具有更好的分割效果。同時,本文提出的粗糙注意力融合機制有效提升了GT U-Net網(wǎng)絡對視網(wǎng)膜血管的分割精度。其主要原因在于,RAGT-Net選用GT U-Net為基礎框架,在減少Transformer計算量的同時使用卷積彌補了Transformer缺少局部性和全局不變性的劣勢。同時,RAGT-Net合理使用粗糙集上下限的概念,合理融合全局最大池化與全局平均池化得到的局部信息和全局信息,通過加權操作,得到更合理的通道與空間注意力系數(shù),并串行融合了通道注意力與空間注意力。
4" "結論
本文提出了一種基于粗糙注意力融合機制和Group Transformer的視網(wǎng)膜血管分割網(wǎng)絡。由于視網(wǎng)膜血管的結構復雜且邊界模糊,因此,我們在編碼器中添加粗糙注意力融合機制,并串行連接粗糙通道注意力和粗糙空間注意力,以此提升圖像邊緣的權重,抑制不相關區(qū)域中的激活。同時,本文選用GT U-Net為基礎框架,該網(wǎng)絡在融合卷積和Transformer的優(yōu)勢基礎上,減少了Transformer計算量。從評價指標上看,本文方法與目前流行的方法相比,整體上取得了更精確的分割性能,同時通過與GT U-Net的對比,證明了所提出的粗糙注意力融合機制的有效性;從可視化結果上看,本文方法的分割結果也更加完整。今后,我們會進一步研究將Transformer輕量化的方法,以及將粗糙集相關理論與神經(jīng)網(wǎng)絡相結合,來處理圖像特征中不確定性信息。
參考文獻:
[ 1 ] 梅旭璋, 江紅, 孫軍. 基于密集注意力網(wǎng)絡的視網(wǎng)膜血管圖像分割[J]. 計算機工程, 2020, 46(3):267-272.
MEI X Z, JIANG H, SUN J. Retinal vessel image segmentation based on dense attention network[J]. Computer Engineering, 2020, 46(3):267-272. (in Chinese)
[ 2 ] JIN Q G, MENG Z P, PHAM T D, et al. DUNet:a deformable network for retinal vessel segmentation[J]. Knowledge-Based Systems, 2019, 178:149-162.
[ 3 ] LI X, JIANG Y C, LI M L, et al. Lightweight attention convolutional neural network for retinal vessel image segmentation[J]. IEEE Transactions on Industrial Informatics, 2021, 17(3):1958-1967.
[ 4 ] 蔣蕓, 劉文歡, 梁菁. 聯(lián)合注意力和Transformer的視網(wǎng)膜血管分割網(wǎng)絡[J]. 計算機工程與科學, 2022, 44(11):2037-2047.
JIANG Y, LIU W H, LIANG J. Retinal vessel segmentation network with joint attention and Transformer[J]. Computer Engineering amp; Science, 2022, 44(11):2037-2047. (in Chinese)
[ 5 ] RONNEBERGER O, FISCHER P, BROX T. U-net:convolutional networks for biomedical image segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, October 5-9, 2015, Munich, Germany. Cham:Springer, 2015:234-241.
[ 6 ] XIAO X, LIAN S, LUO Z M, et al. Weighted res-U Net for high-quality retina vessel segmentation[C]//Proceedings of the 2018 9th International Conference on Information Technology in Medicine and Education (ITME), October 19-21, 2018, Hangzhou, China. New York:IEEE Xplore, 2018:327-331.
[ 7 ] 吳晨玥, 易本順, 章云港, 等. 基于改進卷積神經(jīng)網(wǎng)絡的視網(wǎng)膜血管圖像分割[J]. 光學學報, 2018, 38(11):1111004.
WU C Y, YI B S, ZHANG Y G, et al. Retinal vessel image segmentation based on improved convolutional neural network[J]. Acta Optica Sinica, 2018, 38(11):1111004. (in Chinese)
[ 8 ] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. (2017-12-06)[2023-02-21]. https://arxiv. org/abs/1706. 03762v4.
[ 9 ] 傅勵瑤, 尹夢曉, 楊鋒. 基于Transformer的U型醫(yī)學圖像分割網(wǎng)絡綜述[J/OL]. (2022-07-12)[2023-02-21]. https://kns.cnki.net/kcms/detail/51.1307.TP.20220711.1509. 012.html.DOI:10.11772/j.issn.1001-9081.202204 0530.
[10] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16 × 16 words:Transformers for image recognition at scale[EB/OL]. (2021-06-03)[2023-02-21]. https://arxiv.org/abs/2010.11929.
[11] ZHANG Y D, LIU H Y, HU Q. TransFuse:fusing transformers and CNNs for medical image segmentation[C]// Proceedings of the 24th International Conference on Medical Image Computing and Computer-Assisted Intervention, September 27-October 1, 2021, Strasbourg, France. Cham:Springer, 2021:14-24.
[12] CHEN J N, LU Y Y, YU Q H, et al. TransUNet:Transformers make strong encoders for medical image segmentation[EB/OL]. (2021-02-08)[2023-02-21]. https://arxiv.org/abs/2102.04306.
[13] OKTAY O, SCHLEMPER J, LE FOLGOC L, et al. Attention U-net:learning where to look for the pancreas[EB/OL]. (2018-05-20)[2023-02-21]. https://arxiv.org/abs/1804. 03999.
[14] GU R, WANG G T, SONG T, et al. CA-net:comprehensive attention convolutional neural networks for explainable medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2021, 40(2):699-711.
[15] YUAN Y C, ZHANG L, WANG L T, et al. Multi-level attention network for retinal vessel segmentation[J]. IEEE Journal of Biomedical and Health Informatics, 2022, 26(1):312-323.
[16] LI Y X, WANG S, WANG J, et al. GT U-net:a U-net like group transformer network for tooth root segmentation[C]//Proceedings of the 12th International Workshop on Machine Learning in Medical Imaging, MLMI 2021, September 27, 2021, Strasbourg, France. Cham:Springer, 2021:386-395.
[17] 王國胤, 姚一豫, 于洪. 粗糙集理論與應用研究綜述[J]. 計算機學報, 2009, 32(7):1229-1246.
WANG G Y, YAO Y Y, YU H. A survey on rough set theory and applications[J]. Chinese Journal of Computers, 2009, 32(7):1229-1246. (in Chinese)
[18] PAWLAK Z. Rough sets[J]. International Journal of Computer amp; Information Sciences, 1982, 11(5):341-356.
[19] 胡可云, 陸玉昌, 石純一. 粗糙集理論及其應用進展[J]. 清華大學學報(自然科學版), 2001, 41(1):64-68.
HU K Y, LU Y C, SHI C Y. Advances in rough set theory and its appliations[J]. Journal of Tsinghua University (Science and Technology), 2001, 41(1):64-68. (in Chinese)
[20] JIANG Z H, YU W H, ZHOU D Q, et al. ConvBERT:improving BERT with span-based dynamic convolution[EB/OL]. (2020-08-06)[2023-02-21]. https://arxiv.org/abs/2008. 02496.
[21] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer:hierarchical Vision Transformer using Shifted Windows[C]//Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV), October 10-17, 2021,Montreal, QC, Canada. New York:IEEE Xplore, 2021:9992-10002.
[22] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8):2011-2023.
[23] WOO S, PARK J, LEE J Y, et al. CBAM:convolutional block attention module[C]// Proceedings of the European Conference on Computer Vision, September 8-14, 2018, Munich, Germany. Cham:Springer, 2018:3-19.
[24] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York:IEEE Xplore, 2019:3141-3149.
[25] MEI H, ZHANG H, JIANG Z. Self-attention fusion module for single remote sensing image super-resolution[C]// Proceedings of the 2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS, July 11-16, Brussels, Belgium. New York:IEEE Xplore, 2021:2883-2886.
[26] STAAL J, ABR?魥MOFF M D, NIEMEIJER M, et al. Ridge-based vessel segmentation in color images of the retina[J]. IEEE Transactions on Medical Imaging, 2004, 23(4):501-509.
[27] ALOM M Z, HASAN M, YAKOPCIC C, et al. Recurrent residual convolutional neural network based on U-Net (R2U-Net) for medical image segmentation[EB/OL]. (2018-05-29)[2023-02-21]. https://arxiv.org/abs/1802.06955.
[28] AZAD R, ASADI-AGHBOLAGHI M, FATHY M, et al. Bi-directional ConvLSTM U-net with densley connected convolutions[C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), October 27-28, 2019, Seoul, Korea (South). New York:IEEE Xplore, 2019:406-415.
[29] 孫穎, 丁衛(wèi)平, 黃嘉爽, 等. RCAR-UNet:基于粗糙通道注意力機制的視網(wǎng)膜血管分割網(wǎng)絡[J]. 計算機研究與發(fā)展, 2023, 60(4):947-961.
SUN Y, DING W P, HUANG J S, et al. RCAR-U Net: retinal vessels segmentation network based on rough channel attention mechanism[J]. Journal of Computer Research and Development, 2023, 64(4):947-961. (in Chinese)
(責任編輯:仇慧)
收稿日期: 2023-03-06 接受日期: 2023-04-13
基金項目: 國家自然科學基金面上項目(61976120);江蘇省自然科學基金面上項目(BK20231337);江蘇省高校重大自然科學基金項目(21KJA510004);江蘇省研究生科研與實踐創(chuàng)新計劃項目(SJCX22_1615);國家級大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(202210304030Z)
第一作者簡介: 王海鵬(1999— ), 男, 碩士研究生。
* 通信聯(lián)系人: 丁衛(wèi)平(1979— ), 男, 教授, 博士, 博士生導師, 主要研究方向為數(shù)據(jù)挖掘、機器學習、粒計算、演化計算和大數(shù)據(jù)分析等。
E-mail:dwp9988@163.com