張榮芬 宋鑫 蔡乾宏 劉宇紅
摘 要:為了對(duì)糖尿病視網(wǎng)膜病變的嚴(yán)重程度進(jìn)行更準(zhǔn)確的分類,提出了一種基于深度學(xué)習(xí)的糖尿病視網(wǎng)膜病變(diabetic retinopathy, DR)程度分級(jí)模型SERA-Net。首先,對(duì)輸入的眼底圖像使用主干網(wǎng)絡(luò)SE-ResNeXt-50進(jìn)行特征提取,避免了網(wǎng)絡(luò)深度和寬度不斷增加所導(dǎo)致的模型收益遞減,在保證網(wǎng)絡(luò)參數(shù)的情況下增加了模型的準(zhǔn)確率。其次,將提取到的特征圖輸入Attention-Net,利用通道注意力和空間注意力相互促進(jìn),讓網(wǎng)絡(luò)在關(guān)注有用特征信息的同時(shí)忽略無(wú)用的背景噪音信息,使得DR分級(jí)結(jié)果更準(zhǔn)確。再次,將特征圖和注意力圖通過(guò)乘法操作進(jìn)行融合得到掩膜,進(jìn)一步將注意力圖和掩膜各自全局平均池化后再將兩者的池化結(jié)果相除。最后,通過(guò)Softmax函數(shù)對(duì)結(jié)果進(jìn)行五分類。實(shí)驗(yàn)結(jié)果表明:所得模型在EyePACE數(shù)據(jù)集上測(cè)試的二次加權(quán)Kappa分?jǐn)?shù)為0.760 6、分類準(zhǔn)確度的平均值(average of classification accuracy, ACA)為0.557 4、平均ROC曲線下的面積(area under curve, AUC)為0.871 9,在糖尿病視網(wǎng)膜病變五分類任務(wù)里擁有較好的分類性能。
關(guān)鍵詞:糖尿病視網(wǎng)膜病變分級(jí);深度學(xué)習(xí);注意力機(jī)制
中圖分類號(hào):TP391? 文獻(xiàn)標(biāo)志碼:A
隨著信息技術(shù)和經(jīng)濟(jì)的快速發(fā)展,人們的生活水平越來(lái)越高,生活方式也發(fā)生了很大的變化。近年來(lái),電子產(chǎn)品已經(jīng)成為現(xiàn)代人生活中不可分割的一部分,通過(guò)手機(jī)可以點(diǎn)外賣、打車、看電視,通過(guò)平板電腦可以進(jìn)行線上學(xué)習(xí),通過(guò)筆記本電腦可以線上辦公,可以說(shuō)人們每天都會(huì)花大量時(shí)間來(lái)與電子產(chǎn)品打交道。但是這種長(zhǎng)時(shí)間與手機(jī)電腦做伴的現(xiàn)代生活方式,導(dǎo)致長(zhǎng)期運(yùn)動(dòng)量不足,加之高糖分、高熱量的飲食習(xí)慣,導(dǎo)致糖尿病患病率逐年上升。糖尿病會(huì)引起多種并發(fā)癥,糖尿病視網(wǎng)膜病變(diabetic retinopathy, DR)又稱糖網(wǎng)病即為其中之一。它是糖尿病常見(jiàn)的微血管并發(fā)癥,是指由糖尿病導(dǎo)致視網(wǎng)膜微血管損害所引起的一系列病變,嚴(yán)重會(huì)造成人視力低下及失明[1-2]。一個(gè)人患糖尿病時(shí)間越長(zhǎng),引發(fā)糖網(wǎng)病的幾率就越大。研究發(fā)現(xiàn),提前發(fā)現(xiàn)和早期預(yù)防是防止糖尿病視網(wǎng)膜病變?cè)斐梢暳φ系K和失明的主要方法[3]。
糖網(wǎng)病患者視網(wǎng)膜上的病變包括視網(wǎng)膜出血、滲出物、糖尿病性黃斑水腫、棉絮斑、靜脈或動(dòng)脈病變等[4]。一般根據(jù)病變特征的大小、位置、類型等進(jìn)行糖網(wǎng)病病變等級(jí)的劃分,按其嚴(yán)重程度劃分為正常、輕度、中度、重度和增殖型糖網(wǎng)病[5]。輕度糖網(wǎng)病僅能在眼底圖像上觀察到微血管瘤,中度糖網(wǎng)病患者的眼底圖像上會(huì)觀察到滲出和輕微出血。到了重度糖網(wǎng)病時(shí)期,視網(wǎng)膜上出現(xiàn)棉絮斑,微血管瘤增多,不久之后就會(huì)發(fā)展為增殖型糖網(wǎng)病,導(dǎo)致弱視及失明。目前,臨床的糖網(wǎng)病篩查主要是依靠有經(jīng)驗(yàn)的眼科專家對(duì)病變圖像進(jìn)行人工篩查,其檢測(cè)流程復(fù)雜,對(duì)醫(yī)生臨床經(jīng)驗(yàn)和專業(yè)素養(yǎng)要求較高。我國(guó)糖尿病患者群體龐大,給有限的醫(yī)療資源帶來(lái)極大的壓力。若能在早期對(duì)眼底圖像進(jìn)行自動(dòng)化分析與病變分級(jí)檢測(cè),則可以為患者節(jié)省大量的時(shí)間,還可以減輕醫(yī)療體系的負(fù)擔(dān),具有重大的研究意義。
近年來(lái),隨著機(jī)器學(xué)習(xí)[6]及深度學(xué)習(xí)在醫(yī)療圖像分類任務(wù)中取得顯著成果,基于深度學(xué)習(xí)方法的糖尿病視網(wǎng)膜病變檢測(cè)方法被不同學(xué)者相繼提出。主流方法有兩類:第一類是使用局部病變特征(如微動(dòng)脈瘤、出血等)的位置信息來(lái)確定糖網(wǎng)病的等級(jí)。例如PRATT等[7]搭建了具有數(shù)據(jù)增強(qiáng)功能的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)網(wǎng)絡(luò)結(jié)構(gòu),能夠在分類過(guò)程中識(shí)別微動(dòng)脈瘤、滲出液及出血等復(fù)雜病變特征,從而實(shí)現(xiàn)自動(dòng)診斷分類。VAN GRINSVEN等[8]通過(guò)動(dòng)態(tài)選擇錯(cuò)誤分類的陰性樣本進(jìn)行出血檢測(cè),加快了模型訓(xùn)練的速度。DAI等[9]利用文本報(bào)告和彩色眼底圖像的專業(yè)知識(shí),提出了一種用于微動(dòng)脈瘤檢測(cè)的多模式框架。YANG等[10]使用微動(dòng)脈瘤出血和滲出液的位置信息,設(shè)計(jì)了一個(gè)兩階段病變檢測(cè)與分類框架。LIN等[11]提出了一種先提取病變特征信息,然后將提取的特征信息與原始圖像融合的DR分級(jí)網(wǎng)絡(luò)。第二類則是基于全局圖像的監(jiān)督訓(xùn)練分類模型來(lái)對(duì)DR進(jìn)行分級(jí)。GULSHAN等[12]提出了使用Inception-V3網(wǎng)絡(luò)對(duì)DR進(jìn)行分級(jí)。BRAVO等[13]使用了VGG16和Inception-V4預(yù)訓(xùn)練模型,并對(duì)糖網(wǎng)病分類。GARGEYA等[14]設(shè)計(jì)了基于CNN的DR嚴(yán)重性檢測(cè)模型。WANG等[15]使用注意力機(jī)制著重關(guān)注可疑區(qū)域,并根據(jù)整幅圖像以及可疑的病變斑塊準(zhǔn)確預(yù)測(cè)疾病等級(jí)。連先峰等[16]提出一種基于多特征融合的深度學(xué)習(xí)視網(wǎng)膜病變圖像識(shí)別方法,增強(qiáng)模型的特征提取能力??偟膩?lái)說(shuō),基于局部病變特征的深度學(xué)習(xí)分類方法需要提取眼底圖像中的病變特征,能為DR分級(jí)提供合理的依據(jù)。而全局圖像的深度學(xué)習(xí)分類方法省去了復(fù)雜的特征提取步驟,使得模型的泛化能力更強(qiáng),分類效果更好。
本文提出了一種新穎的DR五分類SERA-Net模型。該模型通過(guò)將ResNeXt-50、SE-Net和Attention-Net結(jié)合,實(shí)現(xiàn)了空間注意力機(jī)制和通道注意力機(jī)制的相互促進(jìn),使網(wǎng)絡(luò)更加關(guān)注眼底圖像的病變特征而忽略背景噪音,分級(jí)結(jié)果更準(zhǔn)確。
1 病變分類的網(wǎng)絡(luò)模型設(shè)計(jì)
1.1 整體結(jié)構(gòu)設(shè)計(jì)
本文DR病變檢測(cè)的五分類SERA-Net模型選用SE-ResNeXt-50為主干網(wǎng)絡(luò)。SERA-Net模型網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
SE-ResNeXt-50結(jié)構(gòu)是在每個(gè)殘差ResNeXt單元都結(jié)合了SE-Net模塊的一種結(jié)構(gòu)。對(duì)輸入眼底圖像預(yù)處理,用SE-ResNeXt-50結(jié)構(gòu)提取圖像的特征得到特征圖F,之后將特征圖F輸入到Attention-Net模塊中生成注意力圖A。接著將特征圖F和注意力圖A逐元素相乘得到掩膜M,將注意力圖A和掩膜M分別進(jìn)行全局平均池化(global average pooling, GPA)操作,并將池化結(jié)果進(jìn)行逐元素相除。最后逐元素相除的結(jié)果通過(guò)Softmax層輸出分類的結(jié)果。整個(gè)模型可以用公式表示為
當(dāng)網(wǎng)絡(luò)深度逐漸增加時(shí),分類結(jié)果的準(zhǔn)確率會(huì)隨之提升;但是當(dāng)網(wǎng)絡(luò)深度達(dá)到一定的程度,網(wǎng)絡(luò)深度的繼續(xù)增加可能會(huì)導(dǎo)致在反向傳播過(guò)程中出現(xiàn)梯度消失與梯度爆炸等問(wèn)題,引發(fā)準(zhǔn)確率的下降。這種問(wèn)題稱為網(wǎng)絡(luò)的退化。為了解決網(wǎng)絡(luò)退化的問(wèn)題,何凱明等在2015年提出了ResNet[17]的網(wǎng)絡(luò)結(jié)構(gòu)。ResNet引入了恒等映射的思想,將淺層的特征與更深層的特征進(jìn)行特征融合,可以有效解決網(wǎng)絡(luò)退化等問(wèn)題。
多分支聚合轉(zhuǎn)換殘差網(wǎng)絡(luò)ResNeXt[18]與ResNet結(jié)構(gòu)相似,使用了ResNet最經(jīng)典的恒等映射結(jié)構(gòu),并且以可擴(kuò)展的方式使用了split-transform-merge策略,可在不增加參數(shù)的情況下提升模型準(zhǔn)確率。ResNeXt結(jié)構(gòu)如圖2所示。
首先,將輸入特征分為32個(gè)分支,每個(gè)分支先經(jīng)過(guò)一個(gè)1×1的卷積層來(lái)使特征圖通道數(shù)變?yōu)?;其次,每個(gè)分支都通過(guò)一個(gè)3×3的卷積,再通過(guò)一個(gè)1×1的卷積層來(lái)使特征圖通道數(shù)變回原來(lái)的256;再次,將這32個(gè)分支的特征圖進(jìn)行融合,并用恒等映射將輸入特征與融合之后的輸出特征進(jìn)行進(jìn)一步融合,融合的結(jié)果作為最后的輸出。
1.3 SE-Net
SE-Net(Squeeze-and-Excitation Networks)是由HU等 [19]在2018年首次提出。它不是一個(gè)單獨(dú)完整的神經(jīng)網(wǎng)絡(luò)模型,而是一種插入式的模塊,可以方便地與各個(gè)基礎(chǔ)網(wǎng)絡(luò)相結(jié)合。SE-Net模塊結(jié)構(gòu)如圖3所示。
SE-Net模塊主要包含Squeeze、Excitation和融合3個(gè)操作。Squeeze利用全局池化操作,將大小為W×H×C(W、H和C分別表示寬度、高度和通道)的特征壓縮為1×1×C的特征向量。Excitation包含2個(gè)全連接層、1個(gè)ReLU激活函數(shù)和1個(gè)Sigmoid激活函數(shù)。Squeeze操作得到的特征向量通過(guò)該網(wǎng)絡(luò)結(jié)構(gòu)后,得到每個(gè)通道的權(quán)重。融合操作將經(jīng)過(guò)Excitation操作的權(quán)重與沒(méi)有經(jīng)過(guò)Squeeze和Excitation操作的輸入特征圖進(jìn)行逐通道相乘,得到最后的輸出。對(duì)于輸入為W×H×C的輸入特征圖,經(jīng)過(guò)3個(gè)操作之后依舊得到W×H×C的輸出。
另外,SE-Net引入了注意力的思想,構(gòu)造了特征通道之間的依賴關(guān)系,可以重視我們關(guān)注的有用特征信息而忽略無(wú)用的背景噪音。
1.4 SE-ResNeXt
為了使糖尿病視網(wǎng)膜病變分級(jí)結(jié)果更準(zhǔn)確,本文將ResNeXt結(jié)構(gòu)與SE-Net結(jié)構(gòu)相結(jié)合,對(duì)其進(jìn)行改進(jìn)得到SE-ResNeXt。SE-ResNeXt結(jié)構(gòu)如圖4所示。
本文整體網(wǎng)絡(luò)主干結(jié)構(gòu)SE-ResNeXt-50采用了文獻(xiàn)[18]中的ResNeXt-50網(wǎng)絡(luò),在每個(gè)基本ResNeXt單元都加入了SE-Net模塊。SE-ResNeXt-50網(wǎng)絡(luò)結(jié)構(gòu)由16個(gè)基本模塊組成,其與原始ResNeXt-50的對(duì)比見(jiàn)表1。
1.5 Attention-Net
由于眼底視網(wǎng)膜圖像結(jié)構(gòu)復(fù)雜,包括黃斑、正常的血管等結(jié)構(gòu),因此,細(xì)粒度對(duì)眼底圖像的病變特征提取非常重要。本文引入了注意力模塊,讓網(wǎng)絡(luò)在關(guān)注有用特征信息的同時(shí)忽略無(wú)用的背景噪音信息,從而提高結(jié)果的準(zhǔn)確性。
本文的注意力模塊如圖5所示。輸入圖片先經(jīng)過(guò)1個(gè)Batch Norm層正則化,再經(jīng)過(guò)5個(gè)大小為1×1的卷積層輸出,其中前4個(gè)1×1卷積層后面連接1個(gè)ReLU激活函數(shù)。通過(guò)Attention-Net和SE-Net的融合,實(shí)現(xiàn)了空間注意力和通道注意力的相互促進(jìn),將網(wǎng)絡(luò)訓(xùn)練的重點(diǎn)集中在眼底圖像的病變區(qū)域,可以更好地學(xué)習(xí)DR的病變特征,從而提升網(wǎng)絡(luò)的分類性能。
2 設(shè)計(jì)損失函數(shù)
將上述網(wǎng)絡(luò)模型提取出的特征圖輸入Softmax函數(shù),數(shù)據(jù)被分為5類。由于DR數(shù)據(jù)集間分布極其不平衡(表2),沒(méi)有病的眼底圖像要遠(yuǎn)多于患有糖尿病視網(wǎng)膜病變的眼底圖像,因此,以往的損失函數(shù)如交叉熵?fù)p失函數(shù)不能區(qū)分類別之間的距離,而各個(gè)樣本的權(quán)重是一樣的,這使得DR圖像分級(jí)結(jié)果不理想。
為了緩解數(shù)據(jù)失衡問(wèn)題以及減少精度損失,本文選用分級(jí)損失函數(shù)[20],這是一種為softmax函數(shù)增加權(quán)重的損失函數(shù)設(shè)計(jì)方法。分級(jí)損失函數(shù)公式如下:
式中:L為DR分級(jí)的損失函數(shù);weighty通過(guò)除以S對(duì)權(quán)重進(jìn)行歸一化;L為經(jīng)過(guò)Softmax層之后的損失函數(shù); S為所有類別中樣本的總和;x為訓(xùn)練樣本的類別;y為預(yù)測(cè)值(y∈[0,C-1]);N為類別數(shù)量。分級(jí)損失函數(shù)通過(guò)預(yù)測(cè)x和y之間的最大差值來(lái)計(jì)算類別之間的距離。在DR分級(jí)任務(wù)中,病變等級(jí)分為0~4這5個(gè)等級(jí),采用上述增加權(quán)重的分級(jí)損失函數(shù)時(shí),將第0級(jí)錯(cuò)誤地歸類為第4級(jí)會(huì)比歸類為第1級(jí)付出更大的代價(jià)(錯(cuò)誤權(quán)重分別為5/15和1/15)。
3 數(shù)據(jù)集與圖像預(yù)處理
3.1 數(shù)據(jù)集
本文使用的EyePACE數(shù)據(jù)集來(lái)自Kaggle中的“糖尿病視網(wǎng)膜病變檢測(cè)競(jìng)賽”,https://www.kaggle.com/c/diabeticretinopathy-detection。該數(shù)據(jù)集包含了2組數(shù)量非常多且在不同成像條件下拍攝的高分辨率視網(wǎng)膜眼底圖像。其中,有35 126張公開(kāi)評(píng)級(jí)的訓(xùn)練眼底圖像和53 576張未公開(kāi)評(píng)級(jí)的測(cè)試圖片,并且數(shù)據(jù)集中每一張右眼圖像都有一張相對(duì)應(yīng)的左眼圖像;這些圖像尺寸從289×433像素到3 456×5 184像素;每一張眼底圖像都給出了病變等級(jí)標(biāo)簽,其標(biāo)簽值為{0,1,2,3,4},病變嚴(yán)重程度從0(正常)到4(增殖性DR)依次加重。EyePACE數(shù)據(jù)集訓(xùn)練集的數(shù)據(jù)分布情況見(jiàn)表2。從表2可以看出,EyePACE數(shù)據(jù)集的確高度不平衡,其中大多數(shù)圖像都屬于第一類(無(wú)DR)。
本文的訓(xùn)練、驗(yàn)證和測(cè)試使用EyePACE公開(kāi)的35 126張圖像數(shù)據(jù)集,包含0級(jí)圖片25 810張,1級(jí)圖片2 443張,2級(jí)圖片5 292張,3級(jí)圖片873張,4級(jí)圖片708張。圖像數(shù)據(jù)集按照3∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中測(cè)試集不參與訓(xùn)練。每張圖片根據(jù)糖網(wǎng)病的嚴(yán)重程度標(biāo)記為{0,1,2,3,4}5個(gè)等級(jí),如圖6所示。
3.2 圖像預(yù)處理
在糖尿病視網(wǎng)膜圖片的采集過(guò)程中,由于成像環(huán)境、圖片采集設(shè)備以及操作人員的技術(shù)差距等客觀因素的影響,獲取到的眼底圖像在亮度、對(duì)比度以及分辨率大小上會(huì)有較大的差距。因此,在將彩色眼底圖像輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練之前,應(yīng)該先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理操作。
EyePACE數(shù)據(jù)集圖像分辨率不一樣,先裁剪原始圖片周圍的黑色邊框來(lái)縮小圖片寬度,將圖片分辨率調(diào)整為512×512;然后對(duì)所有圖片進(jìn)行減去均值后除以標(biāo)準(zhǔn)差的操作,實(shí)現(xiàn)RGB三個(gè)通道上的標(biāo)準(zhǔn)化;最后使用CLAHE[21]增強(qiáng)病理特征與背景之間的對(duì)比度。如圖7所示,(a)是分辨率為1 520×960的原始眼底圖像,(b)為裁剪掉黑色邊框后尺寸為512×512的圖像,(c)為標(biāo)準(zhǔn)化后的眼底圖像,(d)為經(jīng)過(guò)CLAHE操作后的眼底圖像。由圖7可見(jiàn),經(jīng)過(guò)預(yù)處理之后的眼底圖像,病變特征更為明顯。
同時(shí),為了防止有限訓(xùn)練數(shù)據(jù)帶來(lái)的過(guò)擬合,還需對(duì)實(shí)驗(yàn)中每個(gè)epoch的所有訓(xùn)練圖片進(jìn)行水平翻轉(zhuǎn)、隨機(jī)裁剪,加入隨機(jī)高斯噪聲等即時(shí)數(shù)據(jù)增強(qiáng),提升深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
本文采用與Kaggle糖尿病視網(wǎng)膜檢測(cè)競(jìng)賽相同的二次加權(quán)Kappa[22](quadratic weighted Kappa)分?jǐn)?shù)作為DR分級(jí)的主要評(píng)價(jià)指標(biāo)。為評(píng)價(jià)其相關(guān)性,進(jìn)一步使用歸一化混淆矩陣和對(duì)角線的平均值,即分類準(zhǔn)確度的平均值(average of classification accuracy, ACA)作為評(píng)價(jià)指標(biāo)。本文繪制了受試者工作特征(receiver operating characteristic, ROC)曲線,計(jì)算了ROC曲線下的面積(area under curve, AUC),分別用來(lái)評(píng)判分類器成功區(qū)分不同病患類別的能力和分類器的可分離性。
4.2 實(shí)驗(yàn)的環(huán)境及參數(shù)設(shè)置
本文實(shí)驗(yàn)使用Linux操作系統(tǒng),系統(tǒng)版本為Ubuntu 16.04.4,CPU使用Intel-core i9-9900k,GPU使用Nvidia GTX1080*2,內(nèi)存大小為64 GB,Disk大小為8 TB。訓(xùn)練時(shí)使用隨機(jī)梯度下降法(stochastic gradient descent, SGD),設(shè)置batch-size為32,初始學(xué)習(xí)率為0.01。模型權(quán)重采用正太分布隨機(jī)初始化,并使用驗(yàn)證集的二次加權(quán)Kappa分?jǐn)?shù)來(lái)檢測(cè)網(wǎng)絡(luò)的實(shí)時(shí)性能。
4.3 實(shí)驗(yàn)結(jié)果
網(wǎng)絡(luò)訓(xùn)練時(shí),在訓(xùn)練集和驗(yàn)證集上得到的二次加權(quán)Kappa分?jǐn)?shù),如圖8所示。圖中藍(lán)色實(shí)線為訓(xùn)練集上的二次加權(quán)Kappa值,最大值為0.868 0;綠色虛線為驗(yàn)證集上的二次加權(quán)Kappa值,最大值為0.791 3。最后在測(cè)試數(shù)據(jù)集上得到的二次加權(quán)Kappa值為0.760 6。
雖然ROC曲線通常只適用于二分類問(wèn)題,但是可通過(guò)一對(duì)多的方式將其拓展到多分類問(wèn)題中。DR病變等級(jí)分為5個(gè)類別,當(dāng)需要生成0類別的ROC曲線時(shí),可以將0類視為正類,其他4個(gè)類別視為負(fù)類,這樣每個(gè)病變類別都能得到一條ROC曲線和AUC值。DR五分類的AUROC如圖9所示。對(duì)圖9中5條ROC曲線下的面積求平均值得到最終的AUC,其值為0.871 9。
本文模型應(yīng)用在DR分級(jí)任務(wù)時(shí)的歸一化混淆矩陣如圖10所示。圖中橫軸代表預(yù)測(cè)值,縱軸對(duì)應(yīng)真實(shí)標(biāo)簽?;煜仃囍?,主對(duì)角線上的值表示預(yù)測(cè)正確的圖片數(shù)量在該類所有真實(shí)圖像數(shù)量中的占比。將主對(duì)角線上所有值的總和求均值就能得到ACA,其值為0.557 4。
從圖10可以看出:除了DR1類容易被預(yù)測(cè)為DR0類外,每一類大部分都預(yù)測(cè)到了正確的位置;DR0類是最容易檢測(cè)的類別,DR1類是最難區(qū)分的類別。此外,相鄰類別比較容易發(fā)生誤判,差別較大的類別發(fā)生誤判的概率較低。
4.4 不同算法的評(píng)估指標(biāo)對(duì)比
本文提出的糖網(wǎng)病五分類網(wǎng)絡(luò)模型在EyePACE測(cè)試數(shù)據(jù)集的二次加權(quán)Kappa值為0.760 6、ACA值為0.557 4,平均AUC值為0.871 9。為了更直觀的衡量模型的表現(xiàn),實(shí)驗(yàn)最后同其他一些現(xiàn)有的方法進(jìn)行了測(cè)試與對(duì)比,結(jié)果見(jiàn)表3。
由表3可見(jiàn),本文方法的二次加權(quán)Kappa和ACA值均為最佳,說(shuō)明本文提出的SERA-Net模型在糖尿病視網(wǎng)膜病變分類任務(wù)里擁有較好的分類性能。
5 結(jié)論
本文提出了一種有效的SERA-Net深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),用于糖尿病視網(wǎng)膜病變程度分級(jí)。其中,ResNeXt繼承了ResNet網(wǎng)絡(luò)的優(yōu)點(diǎn),在不增加參數(shù)的情況下提升了模型的準(zhǔn)確率;同時(shí),通過(guò)SE-Net和Attention-Net的融合,實(shí)現(xiàn)了空間注意力和通道注意力的相互促進(jìn),使得網(wǎng)絡(luò)訓(xùn)練的重點(diǎn)更好地集中在眼底圖像的病變區(qū)域,可以更好地學(xué)習(xí)DR的病變特征,從而提升了網(wǎng)絡(luò)的分類性能。參考文獻(xiàn):
[1]ZHENG Y F, HE M G, CONGDON N. The worldwide epidemic of diabetic retinopathy[J]. Indian Journal of Ophthalmology, 2012, 60(5): 428-431.
[2] TARR J M, KAUL K, CHOPRA M, et al. Pathophysiology of diabetic retinopathy[J]. ISRN Ophthalmology, 2013, 2013: 343560.1-343560.13.
[3] LOOKER H C, NYANGOMA S O, CROMIE D, et al. Diabetic retinopathy at diagnosis of type 2 diabetes in Scotland[J]. Diabetologia, 2012, 55(9): 2335-2342.
[4] HANEDA S, YAMASHITA H. International clinical diabetic retinopathy disease severity scale[J]. Nihon Rinsho, 2010, 68: 228-235.
[5] NAYAK J, BHAT P S, ACHARYA R, et al. Automated identification of diabetic retinopathy stages using digital fundus images[J]. Journal of Medical Systems, 2008, 32(2): 107-115.
[6] 賀其, 趙崗, 菊云霞, 等. 機(jī)器學(xué)習(xí)算法在糖尿病預(yù)測(cè)中的應(yīng)用[J]. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 36(2): 65-68.
[7] PRATT H, COENEN F, BROADBENT D M, et al. Convolutional neural networks for diabetic retinopathy[J]. Procedia Computer Science, 2016, 90: 200-205.
[8] VAN GRINSVEN M J J P, VAN GINNEKEN B, HOYNG C B, et al. Fast convolutional neural network training using selective data sampling: application to hemorrhage detection in color fundus images[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1273-1284.
[9] DAI L, SHENG B, WU Q, et al. Retinal microaneurysm detection using clinical report guided multi-sieving CNN[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2017: 525-532.
[10]YANG Y H, LI T, LI W S, et al. Lesion detection and grading of diabetic retinopathy via two-stages deep convolutional neural networks[C]//International Conference on medical Image Computing and Computer-assisted Intervention. Cham: Springer, 2017: 533-540.
[11]LIN Z W, GUO R Q, WANG Y J, et al. A framework for identifying diabetic retinopathy based on anti-noise detection and attention-based fusion[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2018: 74-82.
[12]GULSHAN V, PENG L, CORAM M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs[J]. The Journal of the American Medical Association, 2016, 316(22): 2402-2410.
[13]BRAVO M A, ARBELEZ P A. Automatic diabetic retinopathy classification[C]//13th International Conference on Medical Information Processing and Analysis. San Andres Island(CO): International Society for Optics and Photonics, 2017: 105721E.1-105721E.10.
[14]GARGEYA RISHAB, LENG T D. Automated identification of diabetic retinopathy using deep learning[J]. Ophthalmology, 2017, 124(7): 962-969.
[15]WANG Z, YIN Y X, SHI J P, et al. Zoom-in-net: Deep mining lesions for diabetic retinopathy detection[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2017: 267-275.
[16]連先峰, 劉志勇, 張琳, 等. 一種基于深度學(xué)習(xí)的視網(wǎng)膜病變圖像識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2021, 38(1): 179-185.
[17]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// IEEE Conference on Computer Vision & Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778
[18]LIN T Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 1492-1500.
[19]HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 7132-7141.
[20]ZHAO Z Y, ZHANG K R, HAO X J, et al. Bira-net: bilinear attention net for diabetic retinopathy grading[C]//2019 IEEE International Conference on Image Processing (ICIP 2019). USA: IEEE, 2019: 1385-1389.
[21]REZA A M. Realization of the contrast limited adaptive histogram equalization (CLAHE) for real-time image enhancement[J]. Journal of VLSI Signal Processing Systems for Signal Image & Video Technology, 2004, 38(1):35-44.
[22]BEN-DAVID A. Comparison of classification accuracy using Cohen’s Weighted Kappa[J]. Expert Systems with Applications, 2008, 34(2): 825-832.
[23]ARA U′JO T, ARESTA G, MENDONA L, et al. DR| GRADUATE: Uncertainty-aware deep learning-based diabetic retinopathy grading in eye fundus images[J]. Medical Image Analysis, 2020, 63: 101715.
[24]DE LA TORRE J, PUIG D, VALLS A. Weighted kappa loss function for multi-class classification of ordinal data in deep learning[J]. Pattern Recognition Letters, 2018, 105: 144-154.
(責(zé)任編輯:周曉南)
Diabetic Retinopathy Detection Model Based on SERA-Net
ZHANG Rongfen ?SONG Xin CAI Qianhong LIU Yuhong
(College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China)
Abstract: In this paper, in order to classify the severity of diabetic retinopathy more accurately, we propose a degree grading model of diabetic retinopathy(DR) based on deep learning, which is named SERA-Net. First of all, the main network SE-ResNeXt-50 is used to extract the feature of the input image, which avoids the decreasing model revenue caused by the increasing depth and width of the network and increases the accuracy of the model while guaranteeing the network parameters. Furthermore, the extracted feature map is input to Attention-Net to make the channel attention and spatial attention in mutual promotion and pay more attention to useful feature information meanwhile ignoring useless, noisy background information, which obtains a more accurate classification result. Then, the feature map and attention map are fused by multiplication to obtain the mask, the global average pooling are followed to attention map and mask, and the results are divided latterly. Finally, the results are classified into five cagegories through Softmax function. The experimental results show that the quadratic weighted Kappa score on the EyePACE test dataset is 0.760 6, the ACA is 0.557 4, and the average AUC value is 0.871 9, which has great classification performance on DR severity classification task.
Key words: diabetic retinopathy classification; deep learning; attention mechanism