基于卷積神經(jīng)網(wǎng)絡的糖尿病視網(wǎng)膜病變圖像分類模型研究

2024-12-31 00:00:00周凱陳清輝代壯壯

無線互聯(lián)科技 2024年15期

摘要：針對糖尿病視網(wǎng)膜病變自動分級問題，文章提出了一種基于卷積神經(jīng)網(wǎng)絡的糖尿病視網(wǎng)膜病變圖像分類模型。該模型采用MobileNet和DenseNet 2種結構作為主干網(wǎng)絡，并在此基礎上引入類別權重函數(shù)和注意力機制進行改進。Aptos-2019數(shù)據(jù)集上的五分類實驗結果表明，文章設計的糖尿病視網(wǎng)膜分類模型能夠對病變圖像進行有效檢測，在五分類任務中的準確率達到了0.8310。

關鍵詞：糖尿病視網(wǎng)膜病變檢測；圖像分類；MobileNet；DenseNet；注意力機制

中圖分類號：R587.2；R774.1；TP391.41；TP183" 文獻標志碼：A文獻標志碼

作者簡介：周凱（2001— ），男，本科生；研究方向：醫(yī)學影像處理。

0" 引言

根據(jù)國際糖尿病聯(lián)盟（International Diabetes Federation， IDF）的最新報告［1］，截至2021年，全球范圍內大約有5.37億人被診斷出患有糖尿病，到2045年這一數(shù)據(jù)預計將增長至7.83億。由此看來，糖尿病已成了一個全球性的健康問題［2］。

糖尿病視網(wǎng)膜病變（Diabetic Retinopathy，DR）是一種由糖尿病引發(fā)的影響眼睛視網(wǎng)膜血管的慢性疾病。傳統(tǒng)的DR診斷方法依賴于眼科醫(yī)生對視網(wǎng)膜圖像的手動檢查，而深度學習技術的發(fā)展為醫(yī)學影像分析開辟了新天地。

1" DR數(shù)據(jù)集及分級

DR會在視網(wǎng)膜上引發(fā)多種病癥，正常視網(wǎng)膜圖像和DR圖像對比如圖1所示。依據(jù)DR病變嚴重程度可以將DR分為5個階段，分別為無病變（NO-DR）、輕度非增殖性病變（Mild NPDR）、中度非增殖性病變（Moderate NPDR）、重度非增殖性病變（Severe NPDR）、增殖性病變（PDR）［3］。

糖尿病視網(wǎng)膜病變等級劃分及臨床表現(xiàn)和5種不同糖尿病視網(wǎng)膜病變程度的圖像分別如表1和圖2所示。

本文所采用的數(shù)據(jù)集來源于Kaggle競賽官網(wǎng)的APTOS-2019失明檢測的公開數(shù)據(jù)集，包含從印度農(nóng)村許多參與者收集的3662個樣本，按照5個類別進行分類，其中1805張圖像是無病變特征的，370張圖像是輕度非增殖性病變，999張圖像是中度非增殖性病變，193張圖像具有嚴重非增殖性病變特征，295張圖像是增殖性病變。

2" 基于注意力機制和權重類別函數(shù)的DR分級模型

2.1" 圖像預處理

在醫(yī)學影像分析領域，尤其是在眼科影像數(shù)據(jù)分析這樣要求高精度的領域，圖像預處理對模型分類的效果有著很大的影響。因此，原數(shù)據(jù)集將按照以下步驟進行圖像預處理。

（1）調整圖像大?。赫{整圖像大小可以確保所有圖像具有相同的尺寸。

（2）剪黑邊：剪黑邊是指在圖像處理中去除圖像邊緣不需要的部分。

（3）歸一化：歸一化是將圖像像素值從原始的范圍（通常是0～255）轉換到一個標準化的范圍（通常是0～1）。

（4）中值濾波：中值濾波是基于排序統(tǒng)計理論，主要用于消除圖像中的噪點。

（5）數(shù)據(jù)增強：該過程利用ImageDataGenerator類對圖像進行一些變化操作來增加圖像數(shù)據(jù)的多樣性。

2.2" DR分級模型

2.2.1" 注意力機制

注意力機制的概念最初源于20世紀90年代計算機視覺的研究［4］。該方法借鑒了人類對信息的選擇性關注，專注于數(shù)據(jù)的關鍵信息，以提升模型的效率和性能。在分析醫(yī)學圖像時，模型會優(yōu)先處理關鍵元素。與傳統(tǒng)的CNN相比，注意力機制能夠有效提高模型性能。

2.2.2" 類別權重訓練

類別權重訓練給予在數(shù)據(jù)集中較少出現(xiàn)的類別

更高的權重，以此來強化模型對這些少數(shù)類別的學習。通過強化對少數(shù)類別的學習，模型可以在各種類別上都獲得更好的預測性能，并緩解過擬合問題。

如圖3所示，從輸入層開始，主干網(wǎng)絡選擇MobileNet和DenseNet模型，后續(xù)引入注意力機制和類別權重函數(shù)進行DR五分類。

2.3" 評估指標

（1）準確率的計算公式如下：

Accuracy=TP+TNTP+TN+FP+FN（1）

TP表示真正例（True Positives），TN表示真負例（True Negatives），F(xiàn)P表示假正例（False Positives），F(xiàn)N表示假負例（False Negatives）。

（2）精確度的計算公式如下：

Precision=TPTP+FP（2）

（3）召回率計算公式如下：

Recall=TPTP+FN（3）

（4）F1分數(shù)計算公示如下：

F1=2×Precision×RecallPrecision+Recall（4）

（5）Kappa系數(shù)：其計算公式為：

κ=Po-Pe1-Pe（5）

其中，Po是準確率，Pe是隨機一致性的預期概率。

2.4" DR五分類

在DR五分類任務中，討論2種模型的不同結構測試結果，通過對比表2可以得出在DR五分類任務中DenseNet系列模型分類性能和MobileNet系列差別不大，其中MobileNet的分類效果最好，準確率達到了0.7657。DenseNet169和DenseNet201 2個結構的分類性能差距不大，僅次于MobileNet，MobileNetV2和DenseNet121的分類效果較差。

在引入類別權重函數(shù)之后，不同層數(shù)的2種模型分類性能都有了新的提升，分析表3的測試結果可以得出，DenseNet201的分類性能最好，優(yōu)于MobileNet，準確率達到了0.7902。

在引入類別權重函數(shù)的基礎上再引入注意力機制，如表4所示，所有結構的測試指標值均有所提升，其中提升最大的為DenseNet121結構，此時DenseNet201的分類性能依舊是最好的，準確率達到了0.8310。

3" 結語

本文通過引入注意力機制和類別權重函數(shù)，提出了一種改進的卷積神經(jīng)網(wǎng)絡的糖尿病視網(wǎng)膜病變圖像分類模型，提升了模型的分類性能。通過改進后的模型對糖尿病視網(wǎng)膜病變五分類任務進行對比分析，實驗結果表明，在現(xiàn)有模型中加入類別權重函數(shù)和注意力機制，能夠顯著提高模型在糖尿病視網(wǎng)膜病變分類任務中的準確率。

參考文獻

［1］鄧華杏.腸道菌群與2型糖尿病并骨質疏松的相關性［D］.桂林：桂林醫(yī)學院，2021.

［2］張志強，趙可輝，?；莘?，等.深度學習在糖尿病視網(wǎng)膜病變分級中的應用［J］.計算機系統(tǒng)應用，2024（1）：231-244.

［3］WILKINSON C P，F(xiàn)ERRIS F L，KLEIN R E，et al.Proposedinternational clinical diabetic retinopathy and diabetic macular edema disease severity scales［J］.Ophthalmology，2003（9）：1677-1682.

［4］KELES F D，WIJEWARDENA P M，HEGDE C.On the computational complexity of self-attention［C］//International Conference on Algorithmic Learning Theory，PMLR，2023：597-619.

（編輯" 王雪芬）

Research on diabetic retinopathy image classification model based on convolutional neural network

ZHOU" Kai， CHEN" Qinghui， DAI" Zhuangzhuang

（School of Information Engineering， Jiangxi University of Science and Technology， Ganzhou 341000， China）

Abstract： Aiming to address the issue of automatic classification of diabetic retinopathy， this paper introduces model for classifying diabetic retinopathy images based on convolutional neural network. The model utilizes two structures， MobileNet and DenseNet， as the backbone networks， and incorporates a category weight function and attention mechanism for enhancement. The experimental results on the Aptos-2019 dataset， which consists of five categories， demonstrate that the diabetic retinopathy classification model proposed in this paper can efficiently identify lesion images， achieving an accuracy of 0.8310 in the five-category task.

Key words： diabetic retinopathy detection; image classification; MobileNet; DenseNet; attention mechanism