劉爽,田兆星,李浩然,常穎,吳思蓓,薛林雁
(1.河北大學(xué) 質(zhì)量技術(shù)監(jiān)督學(xué)院,計(jì)量儀器與系統(tǒng)國家地方聯(lián)合工程研究中心,河北 保定 071002;2.河北大學(xué)附屬醫(yī)院 消化內(nèi)科,河北 保定 071000)
結(jié)直腸癌(colorectal cancer,CRC)是消化道系統(tǒng)常見的惡性腫瘤,亦被稱為大腸癌,是發(fā)生于結(jié)腸和直腸的腫瘤的總稱.根據(jù)2020年全球癌癥統(tǒng)計(jì)報(bào)告[1],在全球范圍內(nèi),結(jié)直腸癌的發(fā)病率和死亡率在各類惡性腫瘤中高居第3位和第2位.在中國,2020年結(jié)直腸癌的新發(fā)病例約為55.5萬例,死亡病例約為28.6萬例,發(fā)病率和死亡率分別位列第2位和第5位,嚴(yán)重威脅中國居民健康.大部分結(jié)直腸癌由結(jié)直腸腺瘤演變而來,這一過程被稱作結(jié)直腸腺瘤-癌序列[2].因此,早期發(fā)現(xiàn)并切除腺瘤性息肉,對預(yù)防或根治結(jié)直腸癌具有重要的臨床意義[3].
結(jié)腸鏡檢查是診斷結(jié)直腸癌的金標(biāo)準(zhǔn).衡量結(jié)腸鏡檢查質(zhì)量的重要評價(jià)指標(biāo)是腺瘤檢出率(adenoma detection rate,ADR),指一名內(nèi)鏡醫(yī)師在進(jìn)行以篩查為目的的腸鏡檢查中發(fā)現(xiàn)病理學(xué)確診的腺瘤或腺癌的平均比例[4].循證醫(yī)學(xué)證據(jù)表明,腺瘤檢出率每增加1%,間期結(jié)直腸癌的發(fā)病率降低3%~6%[5].因此,有效地提高腺瘤檢出率可以潛在地降低結(jié)直腸癌的發(fā)病率.
隨著人工智能技術(shù)的發(fā)展和計(jì)算機(jī)算力的提升,基于深度學(xué)習(xí)的計(jì)算機(jī)輔助診斷系統(tǒng)(computer aided diagnosis,CAD)表現(xiàn)出良好的性能,目前已應(yīng)用于乳腺癌[6-7]、肺癌[8-9]、胰腺癌[10]等疾病的臨床輔助診斷中.基于人工智能的結(jié)直腸息肉CAD系統(tǒng)能夠提升息肉檢測的準(zhǔn)確率,降低漏檢率和誤檢率.在早期的研究中,Karkanis等[11]利用傳統(tǒng)的機(jī)器學(xué)習(xí)算法提取腸鏡圖像中腺瘤性息肉的顏色和紋理特征,模型的靈敏度達(dá)到90%,準(zhǔn)確率達(dá)到95%.隨后,由于深度學(xué)習(xí)算法能夠自動(dòng)提取目標(biāo)特征,當(dāng)前已有多個(gè)深度學(xué)習(xí)模型基于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[12]進(jìn)行結(jié)直腸腺瘤的實(shí)時(shí)檢測.如Qadir等[13]使用從公開數(shù)據(jù)集CVC-Clinic中獲取的20段結(jié)腸鏡視頻來驗(yàn)證他們的方法,在處理視頻的當(dāng)前幀時(shí),利用前后幀的信息綜合分析連續(xù)幀之間的時(shí)間依賴性,判別當(dāng)前幀中是否存在真陽性結(jié)果,最終結(jié)果表明,該模型的準(zhǔn)確率和召回率在原網(wǎng)絡(luò)的基礎(chǔ)上分別提升了16%和10%.Zhang等[14]利用深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對腺瘤性及增生性息肉的實(shí)時(shí)檢測,在隨機(jī)光照、變焦和光學(xué)放大條件下采集包含1 930張圖像的實(shí)驗(yàn)數(shù)據(jù)集,其中非息肉、增生性息肉、腺瘤性息肉圖像分別為1 104、263、563張,實(shí)驗(yàn)后得到準(zhǔn)確率、召回率及平均精度分別為87.3%、87.6%和85.9%.Ma等[15]通過修改網(wǎng)絡(luò)模型中將原網(wǎng)絡(luò)中識(shí)別出來的假陽性再次輸入反復(fù)學(xué)習(xí)并輸出結(jié)果,經(jīng)過幾次迭代后可以將假陽率大幅減小.模型通過在CVC-Clinic Video DB數(shù)據(jù)集的11 954個(gè)結(jié)腸鏡視頻幀上進(jìn)行評估,該模型準(zhǔn)確度在原網(wǎng)絡(luò)基礎(chǔ)上能提升約2%.
然而,上述研究仍然有一定的局限性:1)為了提升檢測精度而不斷加深網(wǎng)絡(luò),增加識(shí)別步驟,導(dǎo)致檢測速度大幅下降,因此影響了檢測的實(shí)時(shí)性[16];2) 目前的研究大都采用靜態(tài)的圖像或者精選的結(jié)腸鏡視頻作為數(shù)據(jù)集對深度學(xué)習(xí)模型進(jìn)行訓(xùn)練和驗(yàn)證,而實(shí)際臨床診斷中有許多如腸道準(zhǔn)備情況、退鏡時(shí)間、結(jié)腸鏡檢查設(shè)備等不確定因素,這些因素可能導(dǎo)致計(jì)算機(jī)輔助系統(tǒng)的性能會(huì)有所下降.
本研究使用融入了通道注意力機(jī)制和改進(jìn)了損失函數(shù)的YOLO(you only look once)v5s網(wǎng)絡(luò)來對結(jié)腸鏡視頻中的腺瘤性息肉做實(shí)時(shí)檢測,使用公開數(shù)據(jù)集和自建數(shù)據(jù)集訓(xùn)練并評估模型性能.最終實(shí)驗(yàn)表明,與原網(wǎng)絡(luò)YOLOv5s相比,改進(jìn)后的網(wǎng)絡(luò)在準(zhǔn)確率、召回率和平均精度上分別提升了3.4%、0.9%和1.0%,且識(shí)別速度基本沒有影響,完全滿足實(shí)時(shí)檢測的需求.
傳統(tǒng)的目標(biāo)檢測網(wǎng)絡(luò)分為單階段和雙階段2種.雙階段目標(biāo)檢測器如Mask R-CNN[17]、Faster R-CNN[18]采用了2段式結(jié)構(gòu)采樣來處理類別不均衡的問題,第1階段粗略回歸,第2階段精確調(diào)整,且RPN使正負(fù)樣本更加均衡,因此網(wǎng)絡(luò)的準(zhǔn)確率更高,但目標(biāo)檢測的速度較慢.單階段目標(biāo)檢測網(wǎng)絡(luò)如SSD[19]在檢測過程中對特征圖的每個(gè)位置都設(shè)置多個(gè)先驗(yàn)框(anchors),每個(gè)先驗(yàn)框?qū)?yīng)一個(gè)特定的位置,再利用非極大值抑制[20](NMS)消除多余的先驗(yàn)框,最終將目標(biāo)檢測結(jié)果呈現(xiàn)出來.相比于雙階段網(wǎng)絡(luò),單階段的目標(biāo)檢測網(wǎng)絡(luò)檢測速度快,但對太近距離或太小目標(biāo)進(jìn)行檢測時(shí)易漏檢,因此網(wǎng)絡(luò)的準(zhǔn)確率較低.
考慮到結(jié)腸鏡檢查對實(shí)時(shí)性和準(zhǔn)確性的要求,本研究選擇YOLOv5s[21]這一單階段目標(biāo)檢測網(wǎng)絡(luò)中性能較好的模型.其主干網(wǎng)使用CSP瓶頸結(jié)構(gòu)[22],可以從輸入的腸鏡視頻中提取豐富的腺瘤特征,且解決了網(wǎng)絡(luò)優(yōu)化的梯度信息重復(fù)問題,因此檢測的準(zhǔn)確率較高.與此同時(shí),該模型的參數(shù)量較小,因此具有較快的檢測速度.
為了使目標(biāo)特征提取更準(zhǔn)確,在模型中增加了注意力機(jī)制.在實(shí)驗(yàn)過程中對比分析了通道注意力機(jī)制(squeeze-and-excitation networks,SE)[23]和基于空間和通道混合域的卷積模塊注意力機(jī)制(convolutional block attention module,CBAM)[24-25].
SE模型如圖1a所示.先對通道總數(shù)為C且尺寸為H×W的特征圖進(jìn)行全局平均池化,得到各通道的統(tǒng)計(jì)量1×1×C;再經(jīng)過兩級全連接操作來組建通道之間的相關(guān)性,并輸出同樣數(shù)目的權(quán)重,由此可以更好地?cái)M合通道間復(fù)雜的相關(guān)性,得到不同的權(quán)重比例;最后將通道權(quán)重作歸一化處理,并作為通道比例與輸入圖像的通道分別相乘,作為下一級的輸入數(shù)據(jù).SE模型通過控制通道比例的大小增強(qiáng)重要的特征,減弱不重要的特征,從而使提取的特征指向性更強(qiáng).
CBAM模型如圖1b所示.輸入的特征圖F先經(jīng)過通道注意力提取模塊提取特征圖的通道信息,再將融合了通道信息的特征圖輸入到空間注意力模塊中,提取空間敏感信息,最后再將通道特征、空間特征與原始特征圖三者融合得到輸出的特征圖F″.
a.SE模型;b.CBAM模型.圖1 注意力機(jī)制模型Fig.1 Aattention mechanism model diagram
融合了SE模塊的網(wǎng)絡(luò)構(gòu)架如圖2a所示.為了使圖像的特征提取更加充分,尺寸為608×608×3的特征圖先經(jīng)過臨近下采樣模塊對特征圖做切片操作,每隔1個(gè)像素點(diǎn)獲取1個(gè)值,由此得到輸出尺寸均為304×304×12的4張相似圖片.這些圖片通過瓶頸層做卷積操作后得到1張304×304×64的特征圖,瓶頸層的處理過程如圖2b所示.在進(jìn)行1×1卷積和3×3卷積操作后加入新的SE模塊,SE模塊先對輸入特征圖進(jìn)行全局池化,然后經(jīng)過2層的全連接結(jié)構(gòu),可以組建復(fù)雜通道之間的相關(guān)性,通過權(quán)重歸一化和通道加權(quán)處理,讓權(quán)重占比高的通道得到更多關(guān)注,達(dá)到提升通道關(guān)注度的目的.從瓶頸層輸出的特征圖進(jìn)一步輸入網(wǎng)絡(luò)的頸部,頸部構(gòu)造為金字塔網(wǎng)絡(luò)結(jié)構(gòu),作用是在保證底層信息不丟失的同時(shí),將檢測器頭部分為大、中、小3種不同的尺寸,使該網(wǎng)絡(luò)能夠?qū)Σ煌叽绲哪繕?biāo)都有很好的檢測效果.頸部中包含多個(gè)CSP瓶頸層,每個(gè)CSP瓶頸層都包含若干個(gè)加入了SE模塊的瓶頸層,如圖2c,因此CSP瓶頸層豐富了架構(gòu)的梯度組合,在減少網(wǎng)絡(luò)的計(jì)算量和降低計(jì)算成本的同時(shí)提高推理速度和準(zhǔn)確性.
a.網(wǎng)絡(luò)整體結(jié)構(gòu)示意;b.瓶頸層結(jié)構(gòu);c.CSP瓶頸層結(jié)構(gòu).圖2 融入了SE的YOLOv5s結(jié)構(gòu)示意Fig.2 Schematic diagram of the structure of YOLOv5s incorporating the SE
由于YOLOv5s網(wǎng)絡(luò)的滑動(dòng)窗口機(jī)制,1個(gè)目標(biāo)可能會(huì)生成多個(gè)檢測框.為了使檢測結(jié)果更加精確,可以應(yīng)用非極大值抑制先找到概率最大的檢測框,然后分別判斷其他檢測框與該檢測框的交并比是否大于設(shè)定的閾值.若大于該閾值,則去掉該檢測框;若小于該閾值,則保留該檢測框并與原檢測框取并集最后做矩形化處理.隨機(jī)選取1張內(nèi)鏡圖片,圖3a標(biāo)出了真實(shí)的腺瘤標(biāo)注信息.將圖片送入訓(xùn)練后的目標(biāo)檢測網(wǎng)絡(luò)中,改進(jìn)后的YOLOv5s網(wǎng)絡(luò)會(huì)對圖片進(jìn)行特征提取、注意力機(jī)制關(guān)注感興趣區(qū)域等操作,然后會(huì)在目標(biāo)上生成多個(gè)預(yù)測框并判別該預(yù)測框中是否有目標(biāo),具體識(shí)別的結(jié)果如圖3b所示,對1個(gè)目標(biāo)生成多個(gè)預(yù)測框且各預(yù)測框之間無任何關(guān)系.因此需要在圖片可視化之前做NMS處理,將同一目標(biāo)的多個(gè)預(yù)測框做非極大值抑制,最終只保留1個(gè)預(yù)測框,并給出預(yù)測目標(biāo)的置信度,如圖3c所示,在經(jīng)過NMS處理后的網(wǎng)絡(luò)識(shí)別結(jié)果只有1個(gè)預(yù)測框,且置信度為1,與標(biāo)注結(jié)果完全相符.
a.腺瘤的真實(shí)標(biāo)注;b.NMS處理前網(wǎng)絡(luò)預(yù)測值;c.NMS處理后腺瘤識(shí)別結(jié)果.圖3 NMS效果Fig.3 NMS renderings
YOLOv5使用交叉熵?fù)p失函數(shù)(BCELogits)來計(jì)算目標(biāo)損失,該損失函數(shù)將損失和歸一化分開計(jì)算,在一定程度上造成計(jì)算冗余,增加了計(jì)算時(shí)間.與之相反,歸一化交叉熵?fù)p失函數(shù)(BCEWithLogitsLoss)[26]將交叉熵?fù)p失和歸一化二者融合,相當(dāng)于在計(jì)算過程中省略了歸一化這一步驟,可以在一定程度上加快計(jì)算速度.
BCEWithLogitsLoss計(jì)算的目標(biāo)損失L主要包括目標(biāo)定位損失Lloc和目標(biāo)置信度損失Lconf,如式(1).
L=Lloc+Lconf.
(1)
目標(biāo)定位損失Lloc采用GIoU損失.GIoU直接把交并比設(shè)為回歸的損失,如式(2).
(2)
對于任意2個(gè)先驗(yàn)框A和B,存在找到一個(gè)最小的封閉框C,使C可以把A、B包含在內(nèi).然后計(jì)算C中除A和B之外的面積占C總面積的比值.再用A、B的交并比減去這個(gè)值最后得到的值就是GIoU.因此,GIoU損失可以表示為式(3).
Lloc=LGIoU=1-GIoU.
(3)
目標(biāo)置信度損失Lconf包括正樣本目標(biāo)置信度損失Lp和負(fù)樣本目標(biāo)置信度損失Ln,如式(4).
Lconf=Lp+Ln,
(4)
其中
(5)
(6)
本實(shí)驗(yàn)在操作系統(tǒng)為Ubuntu 18.04的工作站(戴爾Precision5820高性能深度學(xué)習(xí)塔式工作站)上運(yùn)行,其核心配置為Inter Core i7-7800*1,NVIDIA RTX 2080Ti*2以及128G的DDR4運(yùn)行內(nèi)存.顯示器為冠捷盧瓦爾系列4K醫(yī)學(xué)圖像顯示器.深度學(xué)習(xí)框架為Python3.8.5和Pytorch1.6.0.在訓(xùn)練過程中的初始參數(shù)設(shè)置如下:批處理大小(Batchsize)為32,學(xué)習(xí)率為0.01,訓(xùn)練周期(epoch)設(shè)置為200,每隔100學(xué)習(xí)率減半,ADAM[27]優(yōu)化器的動(dòng)量參數(shù),β1、β2和ε分別設(shè)置為0.5、0.999和0.001,
實(shí)驗(yàn)所用的數(shù)據(jù)分別來自河北大學(xué)附屬醫(yī)院消化內(nèi)科和公開數(shù)據(jù)集CVC-Clinic Video.實(shí)驗(yàn)數(shù)據(jù)來自于2016年6月至2019年3月在河北大學(xué)附屬醫(yī)院進(jìn)行結(jié)腸鏡檢查的1 197例患者,每例患者的結(jié)腸鏡報(bào)告中至少存在1枚腺瘤性息肉.本文共收集了50 230張結(jié)腸鏡圖像,其中的2 074張至少有1個(gè)腺瘤性息肉(占圖像總數(shù)的4.13%);其余均不含腺瘤性息肉,或存在拍攝模糊、腸道處理不佳等情況(占圖像總數(shù)的95.87%).2位經(jīng)驗(yàn)豐富的消化道內(nèi)科醫(yī)師根據(jù)病理結(jié)果對含有腺瘤性息肉的2 074張圖像通過labelImg圖像標(biāo)注軟件進(jìn)行手動(dòng)標(biāo)記,確保腺瘤位置準(zhǔn)確無誤.將其中的1 566張圖片作為訓(xùn)練集,用于對網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練和優(yōu)化;其余508張圖片作為測試集,用于評估經(jīng)過訓(xùn)練后的算法的實(shí)際學(xué)習(xí)能力是否達(dá)到預(yù)期要求.除此之外,還從CVC-Clinic Video獲得了20段共19 700幀結(jié)腸鏡檢測視頻,用于驗(yàn)證該算法對視頻的實(shí)時(shí)檢測能力.
在結(jié)直腸鏡的檢查中,檢測的精度十分重要.為了最大限度地體現(xiàn)網(wǎng)絡(luò)的精度,降低檢測期間的誤檢率和漏檢率,本文選擇使用精確率(precision,P)、召回率(recall,R)、F1分?jǐn)?shù)、F2分?jǐn)?shù),mAP@0.5(IoU為0.5時(shí)的平均精度值)和每秒的處理幀數(shù)(幀/s)作為網(wǎng)絡(luò)性能的評價(jià)指標(biāo).精確率和召回率的定義如下:
(7)
(8)
其中,TP為真陽性,表示正確檢測出的腺瘤數(shù)量;FP為假陽性,表示錯(cuò)誤地把非腺瘤組織識(shí)別成腺瘤的數(shù);FN為假陰性,表示未被正確識(shí)別的腺瘤數(shù)量.然而在實(shí)際檢測過程中,精確率和召回率不足以證明網(wǎng)絡(luò)性能達(dá)到最優(yōu),因此需要將二者結(jié)合起來,計(jì)算F1分?jǐn)?shù)和F2分?jǐn)?shù),來驗(yàn)證網(wǎng)絡(luò)的綜合性能.
(9)
(10)
平均精度的計(jì)算方法為:在坐標(biāo)軸上繪制IoU=0.5的R-P曲線,計(jì)算出的曲線下面積即為mAP@0.5.
使用改進(jìn)后網(wǎng)絡(luò)對圖像和視頻的具體檢測過程如圖4所示.改進(jìn)后的YOLOv5s先對輸入圖像幀進(jìn)行特征提取,再將提取到的特征進(jìn)行多尺度融合.融合后的特征圖同時(shí)進(jìn)行注意力感興趣區(qū)域信息提取和生成預(yù)測目標(biāo)框并判別的操作,最后輸出腺瘤的個(gè)數(shù)和位置.若輸入數(shù)據(jù)集中仍存在下一幀圖像,則進(jìn)入下一幀的檢測;若無下一幀存在,則輸出最終結(jié)果.
圖4 實(shí)驗(yàn)流程Fig.4 Experimental flowchart
首先對比了單階段目標(biāo)檢測網(wǎng)絡(luò)YOLOv5s、YOLOv5x和雙階段目標(biāo)檢測網(wǎng)絡(luò)Faster R-CNN.表1顯示了3種網(wǎng)絡(luò)的各種性能指標(biāo).
表1 YOLOv5s、YOLOv5x、Faster R-CNN網(wǎng)絡(luò)性能對比Tab.1 YOLOv5s,YOLOv5x,Faster R-CNN network performance comparison
由表1可知,雙階段目標(biāo)檢測網(wǎng)絡(luò)Faster R-CNN的精確率略高于單階段目標(biāo)檢測網(wǎng)絡(luò)YOLOv5s(0.905 vs 0.881)和YOLOv5x(0.905 vs 0.887),但其召回率低于單階段目標(biāo)檢測網(wǎng)絡(luò)YOLOv5x(0.931 vs 0.934),因此在F1分?jǐn)?shù)(+0.8%)、F2分?jǐn)?shù)(+0.2%)和mAP@0.5(+0.2%)等評價(jià)指標(biāo)上與YOLOv5x沒有顯著性差異.對目標(biāo)進(jìn)行實(shí)時(shí)檢測時(shí)檢測速度須達(dá)到40幀/s以上,而實(shí)驗(yàn)中Faster R-CNN的響應(yīng)速度只有37幀/s,因此雙階段目標(biāo)檢測網(wǎng)絡(luò)不能達(dá)到實(shí)時(shí)檢測的標(biāo)準(zhǔn).
對于YOLOv5的2個(gè)單階段目標(biāo)檢測網(wǎng)絡(luò),由于YOLOv5x的預(yù)訓(xùn)練權(quán)重更大,因此在精確率、召回率、F1分?jǐn)?shù)、F2分?jǐn)?shù)和mAP@0.5等檢測精度指標(biāo)上表現(xiàn)更好.然而實(shí)時(shí)檢測任務(wù)對檢測速度和檢測精度的要求均較高,更快的網(wǎng)絡(luò)可以更有效地降低檢測延遲,從而降低檢測過程中的漏檢率.由表1可知,YOLOv5s的檢測速度遠(yuǎn)高于YOLOv5x(98幀/s vs 55幀/s),因此選擇速度更快的YOLOv5s網(wǎng)絡(luò),并進(jìn)一步改進(jìn)其網(wǎng)絡(luò)架構(gòu)以提高系統(tǒng)的檢測精度.
由于注意力機(jī)制可以更好地?cái)M合通道間復(fù)雜的相關(guān)性,使網(wǎng)絡(luò)更加關(guān)注權(quán)重較高的通道和目標(biāo)位置,因此本實(shí)驗(yàn)對比分析了在YOLOv5s中分別加入SE模塊和CBAM模塊后網(wǎng)絡(luò)性能改進(jìn)的效果.
如表2所示,與原網(wǎng)絡(luò)YOLOv5s相比,融合了SE模塊和CBAM模塊后的網(wǎng)絡(luò)性能均有提升,但前者對網(wǎng)絡(luò)性能的提升更顯著.其中精確率的提升達(dá)到3.4%,而加入CBAM的精確率只提升了0.6%.此外,由于CBAM在計(jì)算復(fù)雜程度上高于SE,因而網(wǎng)絡(luò)的檢測速度較慢(77幀/s vs 82幀/s).總之,在單階段網(wǎng)絡(luò)中加入SE機(jī)制后能夠有效提高檢測各項(xiàng)的精度指標(biāo).
表2 融入注意力機(jī)制前后網(wǎng)絡(luò)性能對比Tab.2 Comparison of network performance before and after incorporating the attention mechanism
雖然加入注意力機(jī)制可以提升網(wǎng)絡(luò)的檢測精度,但同時(shí)也在一定程度上損失了網(wǎng)絡(luò)的響應(yīng)速度.為了在提高精度的同時(shí)不影響網(wǎng)絡(luò)的檢測速度,本文將原網(wǎng)絡(luò)YOLOv5s中的交叉熵?fù)p失函數(shù)替換為BCEWithLogitsLoss損失函數(shù).BCEWithLogitsLoss省略了原損失函數(shù)的歸一化步驟,因此在檢測速度方面可以得到一定的改善.表3所示為損失函數(shù)的改進(jìn)對網(wǎng)絡(luò)性能的影響.在幾乎不影響精確率、召回率、F1分?jǐn)?shù)、F2分?jǐn)?shù)和mAP@0.5等精度指標(biāo)的情況下,響應(yīng)速度由原來的98幀/s提升到了110幀/s.優(yōu)化損失函數(shù)后的網(wǎng)絡(luò),每秒可以多檢測12幀圖片,更加保證了檢測的實(shí)時(shí)性.
表3 改進(jìn)損失函數(shù)前后網(wǎng)絡(luò)性能對比Tab.3 Comparison of network performance before and after improving the loss function
Faster R-CNN、YOLOv5s原網(wǎng)絡(luò)與改進(jìn)之后的網(wǎng)絡(luò)性能對比如表4所示.與原網(wǎng)絡(luò)YOLOv5s相比,增加了SE模塊并改進(jìn)了損失函數(shù)后的網(wǎng)絡(luò)在各項(xiàng)精度指標(biāo)上均有提升,其中精確率提升了3.4% (0.915 vs 0.881),召回率提升了0.9% (0.934 vs 0.925),F(xiàn)1分?jǐn)?shù)提升了2.2% (0.924 vs 0.902),F(xiàn)2分?jǐn)?shù)提升了1.4% (0.930 vs 0.916),mAP@0.5 提升了1.0% (0.936 vs 0.926).檢測速度由原來的98幀/s變?yōu)榱?3幀/s,基本保留了原網(wǎng)絡(luò)較快的檢測速度.此外,改進(jìn)后網(wǎng)絡(luò)在精度和速度的表現(xiàn)均超過了雙階段目標(biāo)檢測網(wǎng)絡(luò)Faster R-CNN.由此,改進(jìn)后的網(wǎng)絡(luò)在不影響檢測速度的同時(shí),提高了檢測精度,增強(qiáng)了網(wǎng)絡(luò)對結(jié)直腸鏡下腺瘤的捕捉能力,可以輔助醫(yī)師進(jìn)行診斷,降低由主觀因素導(dǎo)致的誤檢率和漏檢率.
表4 改進(jìn)前后網(wǎng)絡(luò)性能對比Tab.4 Comparison of network performance before and after improvement
為了更直觀地對比網(wǎng)絡(luò)改進(jìn)的效果,隨機(jī)選取了2張經(jīng)內(nèi)鏡醫(yī)師標(biāo)注的內(nèi)鏡圖片,每張圖片各包含1個(gè)腺瘤,其位置分別如圖5a和圖5d中矩形框所示.對比YOLOv5s和改進(jìn)后的網(wǎng)絡(luò),原網(wǎng)絡(luò)的識(shí)別結(jié)果如圖5b和5e所示,改進(jìn)后的網(wǎng)絡(luò)識(shí)別結(jié)果如圖5c和5f所示.對于圖5a的輸入圖像,原網(wǎng)絡(luò)YOLOv5s 并未識(shí)別出扁平狀細(xì)小腺瘤,即出現(xiàn)漏檢情況(圖5b),而改進(jìn)后的網(wǎng)絡(luò)可以將其有效地捕捉到,且置信度為0.9(圖5c).對于圖5d的輸入圖像,原網(wǎng)絡(luò)將形狀類似腺瘤的正常腸道組織也識(shí)別成腺瘤,且置信度為0.7(圖5e),而改進(jìn)后的網(wǎng)絡(luò)并未將其錯(cuò)誤識(shí)別(圖5f).因此,改進(jìn)后網(wǎng)絡(luò)檢測性能優(yōu)于原始的YOLOv5s.
a.腺瘤的真實(shí)標(biāo)注;b.YOLOv5識(shí)別結(jié)果;c.YOLOv5s+SE識(shí)別結(jié)果;d.腺瘤的真實(shí)標(biāo)注;e.YOLOv5識(shí)別結(jié)果;f.YOLOv5s+SE識(shí)別結(jié)果.圖5 YOLOv5s+SE與原網(wǎng)絡(luò)圖片測試結(jié)果對比Fig.5 Comparison of YOLOv5s+SE and original network picture test results
為了對結(jié)直腸鏡下的腺瘤進(jìn)行實(shí)時(shí)檢測,本文改進(jìn)了單階段目標(biāo)檢測網(wǎng)絡(luò)YOLOv5s,在其主干網(wǎng)中加入了通道注意力機(jī)制.由于腺瘤性息肉具有獨(dú)特的顏色和紋理,因此,用通道注意力中的通道加權(quán)代替原網(wǎng)絡(luò)中的全局池化,可以更大限度地保留腺瘤性息肉的特征,降低漏檢率和誤檢率.除此之外,本文還對損失函數(shù)做了調(diào)整,用BCEWithLogitsLoss替換原網(wǎng)絡(luò)的交叉熵?fù)p失函數(shù),以此提升檢測速度.通過實(shí)驗(yàn)驗(yàn)證后發(fā)現(xiàn),改進(jìn)后的網(wǎng)絡(luò)在精確率和召回率等精度指標(biāo)上比其他對比網(wǎng)絡(luò)表現(xiàn)更好,并且在提升檢測精度的同時(shí),并未影響檢測的實(shí)時(shí)性,檢測速度只從原始的98幀/s變?yōu)?3幀/s,完全可以滿足實(shí)時(shí)檢測,因此改進(jìn)后的網(wǎng)絡(luò)具有潛在的臨床應(yīng)用價(jià)值和良好的應(yīng)用前景.
視頻中上下文之間信息的重復(fù)導(dǎo)致網(wǎng)絡(luò)對視頻的目標(biāo)檢測識(shí)別精度和召回率會(huì)略高于圖片,但相鄰幀之間的重復(fù)目標(biāo)也存在著大量的冗余信息,這些冗余信息在本文中并未被發(fā)掘,如果能通過一些辦法過濾掉冗余信息而不損害網(wǎng)絡(luò)性能,那么檢測速度還可以獲得一定的提升;另外,對重復(fù)信息提供更多的關(guān)注度,也可以解決視頻中單幀圖片檢測中由于運(yùn)動(dòng)模糊等問題造成的漏檢問題,從而提升網(wǎng)絡(luò)性能.這是下一步改進(jìn)工作的研究方向.