摘 要:在醫(yī)學(xué)圖像診斷領(lǐng)域,計(jì)算機(jī)輔助診斷技術(shù)已提升了圖像診斷的準(zhǔn)確性,但針對(duì)聲帶疾病的喉鏡圖像深度學(xué)習(xí)模型仍相對(duì)稀缺,這在一定程度上限制了聲帶疾病識(shí)別領(lǐng)域的發(fā)展。文章采用經(jīng)典的VGG-Net算法和一種引入注意力機(jī)制的算法來對(duì)喉鏡圖像進(jìn)行分類。通過比較這兩種算法在準(zhǔn)確率、召回率/靈敏率和特異率方面的表現(xiàn),評(píng)估它們?cè)卺t(yī)學(xué)圖像分類性能上的優(yōu)劣。實(shí)驗(yàn)結(jié)果表明,引入注意力機(jī)制的SA、SE-Net、CBAM和ECA-Net算法在性能上明顯優(yōu)于VGG-Net算法。結(jié)合深度學(xué)習(xí)和注意力機(jī)制可顯著提升聲帶疾病喉鏡圖像診斷的準(zhǔn)確性和效率,這對(duì)未來醫(yī)療行業(yè)的健康發(fā)展有著極其重要的意義。
關(guān)鍵詞:醫(yī)學(xué)圖像診斷;聲帶疾??;喉鏡圖像;VGG-Net算法;注意力機(jī)制
中圖分類號(hào):TP391.4;TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)08-0111-05
DOI:10.19850/j.cnki.2096-4706.2024.08.025
0 引 言
聲帶疾病主要是因?yàn)槁晭艿郊毙詣?chuàng)傷或慢性刺激,導(dǎo)致聲帶新生物的出現(xiàn),引發(fā)聲帶息肉、小結(jié)、聲帶接觸性肉芽腫、聲帶白斑以及喉癌惡性腫瘤等病變。在臨床診斷中,對(duì)喉部進(jìn)行不同角度的圖像取樣,是發(fā)現(xiàn)喉部新生物的重要手段之一[1]。耳鼻喉科醫(yī)生主要依靠電子喉鏡對(duì)聲帶新生物進(jìn)行不同角度的圖像取樣,觀察聲帶病變部位形態(tài),如大小、顏色、不規(guī)則性、粗糙度和對(duì)比度等,通過視覺來識(shí)別可疑的病灶,進(jìn)而診斷出患者病情[2-4]。圖1給出了正常聲帶喉鏡圖像和病態(tài)聲帶喉鏡圖像,其中,圖1(a)至圖1(e)分別為正常聲帶、聲帶息肉、聲帶小結(jié)、聲帶囊腫和聲帶白斑。然而,對(duì)聲帶疾病的人工檢測(cè)有賴于醫(yī)生的水平和經(jīng)驗(yàn),易受醫(yī)生對(duì)病變形態(tài)的片面認(rèn)識(shí)和把握能力等主觀因素的影響。同時(shí),大量閱片增加了醫(yī)生的工作量,難免會(huì)產(chǎn)生漏診誤診,最終導(dǎo)致患者不能獲得及時(shí)有效的治療。
基于此,計(jì)算機(jī)輔助診斷技術(shù)開始應(yīng)用在臨床中,可輔助醫(yī)生對(duì)醫(yī)學(xué)圖像進(jìn)行分析診斷,極大地提高了診斷的效率和準(zhǔn)確性。由于深度學(xué)習(xí)技術(shù)在自然圖像分類及識(shí)別領(lǐng)域取得了較好的成效,相關(guān)學(xué)者開始將深度學(xué)習(xí)技術(shù)應(yīng)用到醫(yī)學(xué)圖像診斷研究中。深度學(xué)習(xí)的一個(gè)較為重要的應(yīng)用領(lǐng)域是圖像分類,目前已推出一些優(yōu)秀的深度學(xué)習(xí)模型。Simonyan等人提出了VGG-Net [5],通過采用多層3×3的卷積核和2×2的池化核不斷加深網(wǎng)絡(luò)結(jié)構(gòu)來提升分類性能。Sasikanth等人[6]采用融合最優(yōu)特征級(jí)的ANFIS分類器進(jìn)行腦MRI圖像的分類,取得了較好的分類精度。Esteva等人[7]使用CNN網(wǎng)絡(luò)診斷皮膚疾病,基于2 032種不同疾病類型和129 450張圖片的皮膚病數(shù)據(jù)集訓(xùn)練CNN網(wǎng)絡(luò),取得了與測(cè)試專家等同的成效。
深度學(xué)習(xí)在各類疾病診斷中的成功應(yīng)用,促使眾多學(xué)者紛紛嘗試運(yùn)用深度學(xué)習(xí)技術(shù)來處理喉鏡醫(yī)學(xué)圖像,輔助檢測(cè)和診斷聲帶疾病。Matava等人[8]使用ResNet、Inception和MobileNet三種卷積神經(jīng)網(wǎng)絡(luò)對(duì)聲帶和氣管進(jìn)行分類、識(shí)別和標(biāo)記,以在喉內(nèi)鏡視頻的傳輸中識(shí)別聲帶和氣管環(huán)。Xiong等人[9]驗(yàn)證了深度卷積神經(jīng)網(wǎng)絡(luò)在喉癌診斷方面的可行性。Cho等人[10]驗(yàn)證了CNN6、VGG16、Inception V3和Xception在基于喉鏡圖像分析進(jìn)行聲帶疾病診斷方面的成效。Laves等人[11]比較了SegNet、UNet、ENet、ErfNet四種語義分割網(wǎng)絡(luò)在喉內(nèi)鏡圖像分割中的成效。Yin [12]等人通過訓(xùn)練CNN模型來對(duì)喉部圖像進(jìn)行分類。
然而,與其他醫(yī)學(xué)圖像相比,學(xué)者們對(duì)于應(yīng)用于喉鏡圖像的深度學(xué)習(xí)模型的研究還是十分有限的,這是因?yàn)樵谡麄€(gè)喉鏡圖像中聲帶區(qū)域所占比重較小而無關(guān)區(qū)域過多。本文將選取正常聲帶喉鏡圖像和病態(tài)聲帶喉鏡圖像(聲帶息肉、小結(jié)、聲帶接觸性肉芽腫和聲帶白斑等)作為圖像集,對(duì)比經(jīng)典算法VGG-Net和引入注意力機(jī)制算法的識(shí)別效果,對(duì)喉鏡聲帶圖像進(jìn)行聲帶病變二分類(正常、病變),以期發(fā)現(xiàn)符合基于喉鏡圖像的聲帶病變分類識(shí)別模型。
1 模型引入
本文將引入已被用于提高各種圖像分類性能的引入注意力機(jī)制的SE-Net [13]、CBAM [14]、ECA-Net算法,與經(jīng)典VGG-Net [15]及引入Spatial Attention的VGG算法(SA)進(jìn)行比較分析。Simonyan等人提出了VGG-Net網(wǎng)絡(luò)結(jié)構(gòu),探索了卷積神經(jīng)網(wǎng)絡(luò)深度與其性能的關(guān)系。VGG-Net是傳統(tǒng)的經(jīng)典神經(jīng)網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)采用3×3的卷積核和2×2的最大池化層。其中19層的VGG-Net19網(wǎng)絡(luò)結(jié)構(gòu)最佳,包含16個(gè)卷積層和3個(gè)全連接層,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
如圖3(a)所示,SE-Net是在通道中增加注意力機(jī)制,其核心是SE模塊。SE模塊通過學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征通道的重要程度,依據(jù)重要程度讓網(wǎng)絡(luò)有選擇地增強(qiáng)有用的特征,提升網(wǎng)絡(luò)的準(zhǔn)確性。對(duì)輸入圖像特征進(jìn)行全局平均池化(Global Average Pooling, GAP),通過兩個(gè)全連接層(Full-connected Layer, FC)和非線性層(ReLU和sigmoid激活函數(shù))生成每個(gè)特征通道可以學(xué)習(xí)的權(quán)重,再通過乘法將權(quán)重加權(quán)到原來的通道對(duì)應(yīng)特征上,獲得具有通道注意力的特征。
SA(Spatial Attention)算法在VGG通道方向添加了空間注意力機(jī)制SA。空間注意力機(jī)制SA結(jié)構(gòu)如圖3(b)所示,輸入尺寸為W×H×C(W、H、C分別為特征圖的高度、寬度和通道數(shù))的X圖像,其經(jīng)過平均池化、卷積層和Sigmoid激活函數(shù)變換為空間權(quán)重。輸入X圖像與空間權(quán)重相乘輸出提取特征后的圖像Y??臻g注意力機(jī)制可通過網(wǎng)絡(luò)計(jì)算出輸入圖像各個(gè)通道的權(quán)重,從而集中關(guān)注重要的特征信息,減少對(duì)非重要特征信息的關(guān)注。
ECA-Net的核心是ECA模塊,如圖3(c)所示。ECA-Net是在SE模塊的基礎(chǔ)上經(jīng)過改進(jìn)而形成的,ECA可增加通道間的信息交互并且避免特征維度的減少,在降低模型復(fù)雜度的同時(shí)提升模型的性能。ECA模塊的工作原理是對(duì)輸入圖像的特征進(jìn)行全局平均池化(Global Average Pooling, GAP),通過一維卷積進(jìn)行跨通道間的交互,sigmoid激活函數(shù)生成每個(gè)特征通道可學(xué)習(xí)的權(quán)重,之后將原始圖像的特征與權(quán)重加權(quán)相結(jié)合獲得具有注意力的特征。CBAM(Convolutional Block Attention)是一種卷積注意力模塊,可無縫集成到任何CNN架構(gòu)中,進(jìn)行端到端訓(xùn)練,如圖3(d)所示。CBAM是結(jié)合了通道注意力模塊和空間注意力模塊。其原理是通過通道注意力模塊,得到加權(quán)結(jié)果之后,再通過空間注意力模塊后,進(jìn)行加權(quán)獲得結(jié)果。CBAM既關(guān)注重要特征,又利用有意義的局部區(qū)域,將跨通道信息和空間信息混合在一起來提取信息特征,提高網(wǎng)絡(luò)的性能。
2 實(shí)驗(yàn)分析
本文通過Olympus電子喉鏡收集了541張聲帶病變(聲帶息肉、聲帶小結(jié)和聲帶白斑等)的喉鏡圖像和329張正常聲帶的喉鏡圖像。喉鏡圖像的原始像素為720×576,需將其像素調(diào)整為深度學(xué)習(xí)圖像分類研究中較多使用的224×224模式。
由于聲帶喉鏡圖像存在數(shù)量少且不均衡的問題,這將會(huì)導(dǎo)致模型性能差,結(jié)果出現(xiàn)偏差。為了消除圖像數(shù)量不均衡產(chǎn)生的不良影響,使用K折交叉驗(yàn)證法可更好地確保系統(tǒng)中的模型無過擬合現(xiàn)象,使模型的泛化性得到一定的提高。研究表明,當(dāng)K為5或10時(shí)為最優(yōu),其中10折交叉驗(yàn)證被廣泛應(yīng)用到醫(yī)學(xué)領(lǐng)域的深度學(xué)習(xí)之中,根據(jù)數(shù)據(jù)總量的大小本文選擇K為10。本文10折交叉驗(yàn)證步驟:首先將圖像集隨機(jī)劃分為10個(gè)大小相同的子集,每個(gè)子集由87張隨機(jī)選擇的聲帶圖像(聲帶病變圖像和正常聲帶圖像)組成;再將10個(gè)子集的訓(xùn)練集和測(cè)試集的比例設(shè)為80:20;針對(duì)每子集進(jìn)行10次實(shí)驗(yàn),計(jì)算各評(píng)價(jià)指標(biāo)的平均值作為最終結(jié)果。
對(duì)于醫(yī)學(xué)圖像識(shí)別模型,關(guān)注準(zhǔn)確率A(Accuracy)、召回率R(Recall)/靈敏率(Sensitivity)和特異率S(Specificity)3個(gè)指標(biāo),用于對(duì)聲帶病理二分類識(shí)別結(jié)果進(jìn)行評(píng)估,計(jì)算式如下:
(1)
其中,真正例(TP)為聲帶病變圖像被正確識(shí)別數(shù);真反例(TN)為正常聲帶圖像被正確識(shí)別數(shù);假反例(FP)為正常聲帶圖像被識(shí)別為聲帶病變圖像數(shù);假正例(FN)為聲帶病變圖像被識(shí)別為正常聲帶圖像數(shù)。
本文采用經(jīng)典算法VGG-Net和引入注意力機(jī)制的SA、SE-Net、CBAM和ECA-Net算法進(jìn)行比較研究。本文將喉鏡圖像作為分類網(wǎng)絡(luò)輸入,實(shí)驗(yàn)結(jié)果如表1所示。
通過對(duì)準(zhǔn)確率、召回率/靈敏率以及特異率這三個(gè)評(píng)估指標(biāo)進(jìn)行分析,得出CBAM模型的性能最好,其三個(gè)指標(biāo)分別達(dá)到了90.07%、87.56%以及91.77%,如表1、圖4、圖5和圖6所示。引入注意力機(jī)制的其他算法SA、SE-Net及ECA-Net,與CBAM模型的性能差距并不明顯。相比之下,經(jīng)典VGG-Net算法的表現(xiàn)相對(duì)較差。從實(shí)驗(yàn)結(jié)果可以看出,當(dāng)評(píng)估指標(biāo)為準(zhǔn)確率、召回率/靈敏率和特異率時(shí),引入注意力機(jī)制的SA、SE-Net、CBAM和ECA-Net算法明顯優(yōu)于經(jīng)典的VGG-Net算法;在VGG通道中引入注意力機(jī)制的SA算法明顯優(yōu)于VGG-Net算法。在所有引入了注意力機(jī)制的算法(如SA、SE-Net、CBAM和ECA-Net)中,CBAM的表現(xiàn)最佳。
由圖1可知,白色框框選的區(qū)域是聲帶部位,是診斷聲帶疾病的關(guān)鍵部位,其在整個(gè)喉鏡圖像中所占區(qū)域較小,喉鏡圖像中的無關(guān)區(qū)域過多。而借鑒人類視覺選擇性感知機(jī)制的注意力機(jī)制能將注意力集中在圖像中最重要的區(qū)域,給予聲帶區(qū)域更高的關(guān)注,同時(shí)降低對(duì)聲帶區(qū)域不相關(guān)部分的關(guān)注度。然而,經(jīng)典的VGG-Net算法是基于整個(gè)喉鏡圖像進(jìn)行分析,賦予各個(gè)區(qū)域相同的重要性,沒有特別關(guān)注聲帶區(qū)域。而注意力機(jī)制算法(如CBAM)則能夠更好地關(guān)注和捕獲圖像中的重要信息,集中關(guān)注重要的局部區(qū)域,這符合聲帶圖像在喉鏡圖像中的特性,因此在所有使用的算法中,其性能表現(xiàn)最佳。以上結(jié)果表明,相比經(jīng)典的VGG算法,引入注意力機(jī)制的算法在識(shí)別效果上有顯著的提升,將注意力機(jī)制應(yīng)用于喉鏡聲帶圖像的聲帶病變二分類,可有效提升識(shí)別率。
3 結(jié) 論
相較于其他類型的醫(yī)學(xué)圖像,喉鏡圖像中聲帶所占比例微小,而非聲帶區(qū)域的豐富紋理和顏色可能對(duì)識(shí)別準(zhǔn)確性產(chǎn)生較大干擾。為了提高喉鏡圖像的特性,本研究引入這些使用了注意力機(jī)制的算法,對(duì)喉鏡聲帶圖像進(jìn)行聲帶病變的二分類(即正?;虿∽儯?,并進(jìn)行了模型的對(duì)比分析。SE-Net、CBAM、ECA-Net等引入了注意力機(jī)制的算法在圖像分類任務(wù)中表現(xiàn)出顯著的優(yōu)越性,這些算法能夠通過增強(qiáng)有用的特征并將注意力集中于重要的信息來提高網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率。在未來的研究中,打算嘗試對(duì)聲帶區(qū)域進(jìn)行精確分割,使用深度學(xué)習(xí)算法進(jìn)行進(jìn)一步的比較,以期發(fā)現(xiàn)更適合喉鏡圖像聲帶病變分類識(shí)別的模型。
參考文獻(xiàn):
[1] 付嘉,李麗娟,閆燕,等.深度學(xué)習(xí)輔助電子喉鏡診斷喉白斑的應(yīng)用研究 [J].臨床耳鼻咽喉頭頸外科雜志,2021,35(5):464-467.
[2] HSIUNG M W,HSIAO Y C. The Characteristic Features of Muscle Tension Dysphonia before and after Surgery in Benign Lesions of the Vocal Fold [EB/OL].[2023-06-05].https://sci.bban.top/pdf/10.1159/000081121.pdf.
[3] COUREY M S,SCOTT M A,SHOHET J A,et al. Immunohistochemical Characterization of Benign Laryngeal Lesions [EB/OL].[2023-07-06].https://sci.bban.top/pdf/10.1177/000348949610500706.pdf.
[4] 韓勇,王家順,李小蘭,等.電子喉鏡下聲帶良性增生性病變的治療 [J].中國(guó)耳鼻咽喉顱底外科雜志,2008(2):143-144.
[5] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556 [cs.CV].[2023-06-15].https://doi.org/10.48550/arXiv.1409.1556.
[6] SASIKANTH S,KUMAR S. Glioma Tumor Detection in Brain Mri Image Using Anfis-Based Normalized Graph Cut Approach [J].International Journal of Imaging Systems and Technology,2018,28(1):64-71.
[7] ESTEVA A,KUPREL B,NOVOA R A,et al. Dermatologist-Level Classification of Skin Cancer with Deep Neural Networks [J].Nature,2017,542(7639):115-118.
[8] MATAVA C,PANKIV E,RAISBECK S,et al. A Convolutional Neural Network for Real Time Classification, Identification, and Labelling of Vocal Cord and Tracheal Using Laryngoscopy and Bronchoscopy Video [J].Journal of Medical Systems,2020,44(2):1-10.
[9] XIONG H,LIN P L,YU J G,et al. Computer-Aided Diagnosis of Laryngeal Cancer via Deep Learning Based on Laryngoscopic Images [J].Ebiomedicine,2019,48:92-99.
[10] CHO W K,CHOI S H. Comparison of Convolutional Neural Network Models for Determination of Vocal Fold Normality in Laryngoscopic Images [J].Journal of Voice,2020,33:634-641.
[11] LAVES M H,BICKER J,KAHRS L A,et al. A Datasets of Laryngeal Endoscopic Images with Comparative Study on Convolution Neural Network-Based Semantic Segmentation [J/OL].arXiv:1807.06081v4 [cs.CV].[2023-06-19].http://arxiv.org/abs/1807.06081.
[12] YIN L,YANG L,PEI M,et al. Laryngoscope8: Laryngeal Image Datasets and Classification of Laryngeal Disease Based on Attention Mechanism [J].Pattern Recognition Letters,2021,150(6):207-213.
[13] FAN Y Q,LIU J H,YAO R X,et al. COVID-19 Detection from X-ray Images Using Multi-Kernel-Size Spatial-Channel Attention Network [J/OL].https://doi.org/10.1016/j.patcog.2021.108055Get rights and content.
[14] HU J,SHEN L,ALBANIE S,et al.“Squeeze-and-Excitation Networks”[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[15] WANG Q L,WU B G,ZHU P F,et al. “ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle:IEEE,2020:11531-11539.
作者簡(jiǎn)介:鄒鋒(1976—),男,漢族,廣東河源人,高級(jí)工程師,碩士,研究方向:生物醫(yī)學(xué)工程;通訊作者:郭珊珊(1988—),女,漢族,湖北襄陽人,主治醫(yī)師,碩士,研究方向:耳鼻咽喉頭頸外科;樊玉琦(1976—),男,漢族,安徽合肥人,副教授,博士,研究方向:人工智能。
收稿日期:2023-08-17
基金項(xiàng)目:浙江省醫(yī)藥衛(wèi)生科技計(jì)劃項(xiàng)目(2022PY090);浙江省教育廳科研項(xiàng)目(Y202147891);2020年寧波市鄞州區(qū)農(nóng)業(yè)與社會(huì)發(fā)展科技項(xiàng)目
Comparative Study on Diagnosis and Recognition Methods of Vocal Cord Diseases Based on Deep Learning
ZOU Feng1, GUO Shanshan2, FAN Yuqi3
(1.Zhejiang Pharmaceutical University, Ningbo 315100, China; 2.Ningbo Yinzhou No.2 Hospital, Ningbo 315192, China; 3.Hefei University of Technology, Hefei 230009, China)
Abstract: In the field of medical image diagnosis, computer-aided diagnostic technology has improved the accuracy of image diagnosis, but laryngoscope image Deep Learning models for vocal cord disease are still relatively scarce, which to some extent limits the development of the field of vocal cord disease recognition. This paper uses the classic VGG-Net algorithm and an algorithm that introduces Attention Mechanism to classify laryngoscope images. Evaluate the performance of these two algorithms in medical image classification by comparing their accuracy, recall/sensitivity, and specificity. The experimental results show that the SA, SE-Net, CBAM, and ECA-Net algorithms that introduce Attention Mechanisms have significantly better performance than the VGG-Net algorithm. The combination of Deep Learning and Attention Mechanisms can significantly improve the accuracy and efficiency of laryngoscopy image diagnosis for vocal cord disease, which is of great significance for the healthy development of the future medical industry.
Keywords: medical image diagnosis; vocal cord disease; laryngoscope image; VGG-Net algorithm; Attention Mechanism