梁禮明,盛校棋,熊 文,郭 凱
(江西理工大學 電氣工程與自動化學院,江西 贛州 341000)
青光眼一種慢性且不可逆的神經(jīng)退行性眼科疾病,會使視神經(jīng)逐漸受損,導致視力和生活質(zhì)量下降[1-3]。眼科醫(yī)生通過對視盤的形狀、面積、大小和深度等參數(shù)的觀察[4],可以診斷視網(wǎng)膜眼底病變情況,但是存在主觀性強和費時等缺陷,因此利用自動診斷技術準確迅速的分割視盤成為現(xiàn)代醫(yī)學診斷疾病和特征識別的重要步驟[5]。
目前現(xiàn)有的主要分割技術包括基于視盤顏色和對比度閾值、邊界檢測和區(qū)域的分割方法、活動輪廓和可變模型、基于形狀和匹配模板以及基于傳統(tǒng)機器學習和深度學習方法等[6,7]。其中,文獻[8]提出一種雙閾值的方法提取視盤,一閾值用于去除血管和背景,另一閾值分割出視盤等包含的超像素;文獻[9]利用主動輪廓方法將視盤分割問題轉(zhuǎn)化為能量最小化問題的可變形模型,以不同的能量項來反映圖像中的特征信息;文獻[10]將視盤區(qū)域建模為圓形或橢圓形,并利用霍夫圓變換擬合圓進行視盤分割;文獻[11]采用傳統(tǒng)機器學習算法,該類方法高度依賴于所提取的特征類型,這些特征可能僅代表特定的數(shù)據(jù)集,泛化性較弱。
目前深度學習技術已被證實對醫(yī)療圖像具有較高的分辨能力。Fu等[12]提出一種多標簽卷積神經(jīng)網(wǎng)絡與極坐標變換的視盤與視杯同時提取的算法。Maninis等[13]利用基于VGG-16的全連接神經(jīng)網(wǎng)絡分割視盤,但存在參數(shù)冗余度高的特點。Al-Bander等[14]融合Dense Block與CNN結(jié)合的視盤分割方法,較好地解決了參數(shù)冗余度高的特點。
針對現(xiàn)有算法的經(jīng)驗和視盤分割存在的難點,提出一種融合注意門(attention gates,AGs)[15]與U型卷積神經(jīng)網(wǎng)絡的視盤分割方法,將底層特征信息和高層特征信息相結(jié)合,同時Attention模型根據(jù)金標準特征動態(tài)增加視盤部分的權(quán)重比,并且為了進一步提高網(wǎng)絡的感受野而不增加算法復雜度,將部分卷積層替換為空洞卷積,從而降低編碼部分的信息損失。
本文通過在DRIONS-DB公共彩色眼底圖像數(shù)據(jù)集上進行視盤分割仿真實驗。DRIONS-DB數(shù)據(jù)集包含110張600×400的眼底圖像,每張圖片均有由兩位眼科專家標記的金標準視盤圖像。
通過選取DRIONS-DB前90張眼底圖片作為訓練集,剩下20張眼底圖片作為測試集。為了進一步防止實驗過程發(fā)生過擬合,本文將DRIONS-DB數(shù)據(jù)集通過旋轉(zhuǎn)180°、上下對換、左右對換的方法,將訓練集擴充到原來的4倍,即將旋轉(zhuǎn)后的圖像與原圖像合并后共計360張圖像。通過翻轉(zhuǎn)圖像,可使得最終訓練得到的模型具有更強的泛化性,能識別不同角度的實體。
考慮到采集的視網(wǎng)膜圖像存在畸變和視盤周圍血管噪音的影響,本文采用RGB三通道的線性組合轉(zhuǎn)換成單個強度通道,相比其它文獻僅采取單一顏色通道能更多地提取視盤的特征信息,其公式定義如下
Ipre=0.3Ig+0.12Ir+0.58Ib
(1)
其中,Ipre表示三通道轉(zhuǎn)換為單個通道圖像;Ig,Ir,Ib分別為圖像綠色、紅色以及藍色通道。本文給藍色通道更多的權(quán)重,由于視網(wǎng)膜圖像藍色通道信息有助于區(qū)分較深的黃斑區(qū)和明亮的視盤區(qū),而且將一定比例分給其它兩個通道解決了單一藍色通道圖像過暗的現(xiàn)象。
為了進一步移除視網(wǎng)膜圖像的血管信息,利用尺寸與圖像的寬度和高度之間的二次平均成比例的方形元素進行閉合形態(tài)學操作得到圖像Ic。 最后,利用多尺度形態(tài)學濾波[16],能在抑制噪聲的同時提升局部像素極值,保證圖像相位一致性信息。利用其圖像邊緣梯度信息控制因子控制血管像素與視盤像素差值,圖像控制因子定義請參見文獻[16],預處理圖像如圖1所示。
圖1 預處理效果
考慮到現(xiàn)有的基于編碼器與解碼器的全連接卷積神經(jīng)網(wǎng)絡(FCN)存在“權(quán)重分散”和解碼結(jié)構(gòu)不能充分地恢復圖像細節(jié)信息等弊端,于是本文在U-Net[17]卷積神經(jīng)網(wǎng)絡的框架下,首先在編碼部分引入了空洞卷積增大局部感受野,從而提取更多視盤特征圖信息,然后在解碼部分引入AGs使其在恢復圖像信息時進一步提取視盤特征,并且降低背景等噪音的權(quán)重信息,從而去除孤立的假陽性,提高對目標邊界的預測。
現(xiàn)有圖像分割方法在卷積神經(jīng)網(wǎng)絡編碼部分采用池化操作降低圖像尺寸同時增大局部感受野,由于在視盤分割結(jié)果是基于像素的輸出,故在解碼部分需經(jīng)上采樣恢復原始圖像尺寸,但解碼結(jié)構(gòu)并不能較好地恢復圖像細節(jié)信息,從而導致視網(wǎng)膜圖像分辨率降低,以及圖像中的細節(jié)和局部特征的丟失。為了降低這種圖像信息損失,本文在U-Net編碼部分,去掉部分池化層,并將卷積層替換為空洞卷積(dilated convolution)[18],在預訓練網(wǎng)絡編碼部分,采用空洞卷積方法提取局部區(qū)域的多尺度特征映射,而不使用池化操作。更重要的是空洞卷積能以不增加算法參數(shù)復雜度的情況下增大網(wǎng)絡層的感受野。
設網(wǎng)絡的擴張率r, 輸入x[i] 與濾波器w[i] 的空洞卷積的輸出y[i] 定義如下
(2)
其中,m是w[k] 的長度;k是卷積核的大小,擴大后的卷積核大小為k′=k+(k-1)(r-1)。 如圖2所示,設一個卷積核為3×3即k=3, 當r=1時為3×3空洞卷積核;當r=4時為一個9×9空洞卷積核。當使用具有較大擴張率r來擴大感受野會導致空洞卷積在連續(xù)濾波器之間引入零的位置處丟失上下文信息,并且多層單一擴張率的空洞卷積存在空間信息不連續(xù)的現(xiàn)象,故本文采取小擴張率多尺度的策略,利用小空洞卷積提高對視盤特征定位性能,較大的空洞卷積能捕捉更大的上下文特征圖信息。
圖2 多尺度空洞卷積特征傳播
(3)
其中,xi為輸入視盤特征圖,c為常數(shù)項,i為元素個數(shù)。
AGs的門注意系數(shù)ai包含上下層的視盤結(jié)構(gòu)信息,用來修剪較低級別的特征響應,通過加性注意公式matt來得到門注意系數(shù)ai,matt定義如下
(4)
αi=σ2(matt(xi,gi;att))
(5)
其中,gi為選通信號,η為視盤特征學習參數(shù);Wx,Wg分別為輸入特征圖和選通信號權(quán)重,bg和bη為偏置項;σ1和σ2(xi,c) 分別為ReLU激活函數(shù)和sigmoid激活函數(shù);AGs提取的視盤特征包含在參數(shù)att中。通過對gi的分析決定AGs網(wǎng)絡結(jié)構(gòu)聚焦的感興趣區(qū)域,剔除與視網(wǎng)膜圖像病灶相關的噪音影響,AGs模型如圖3所示。
圖3 AGs原理
U-net卷積神經(jīng)網(wǎng)絡(CNN)的核心思想是利用較少的訓練集進行端對端的訓練,并且能有較好的預測結(jié)果。U-net模型本身具有遠程連接方式,能夠同時結(jié)合底層信息和高層信息,底層信息有助于提高訓練精度,高層信息用來提取復雜特征,使得較淺層網(wǎng)絡可以完成深層網(wǎng)絡的預測效果,且能更有效率的利用GPU內(nèi)存,從而能夠高效準確分割視網(wǎng)膜眼底視盤圖像。本文將傳統(tǒng)U-net網(wǎng)絡的編碼部分去掉部分池化層并將卷積層以空洞卷積替代,同時在編碼結(jié)構(gòu)部分輸出層加入池化層,從而降低圖片維數(shù),提高解碼計算效率;在解碼部分引入AGs模型能夠利用 U-net 結(jié)構(gòu)的遠程連接得到粗尺度特征映射,并突出前景對象的類別和位置,并將粗尺度中提取的視盤特征信息用于門限。由多尺度空洞卷積和遠程連接提取的特征圖,組成多尺度特征圖;隨后通過跳過連接合并特征信息,以結(jié)合粗級和細級特征圖的進行預測,并消除無關的噪聲響應,將背景區(qū)域的梯度經(jīng)后向傳播過程向下加權(quán),使得較淺層的模型參數(shù)主要基于與給定任務相關的空間區(qū)域更新,從而可以抑制分割結(jié)果的假陽性率。本文U-net視盤分割模型如圖4所示。
圖4 集成的U-Net視盤分割模型
圖4中,Cov為3×3卷積層;Maxpooling為2×2池化層,用來壓縮特征圖,降低復雜度;DC為空洞卷積,通過去掉池化層以降低像素損失,同時在同等參數(shù)復雜度情況下增加局部感受野;Upsampling為2×2上采樣層;在每個AGs中通過跳過上采樣層直接級聯(lián)到下一卷積層以提取和融合互補信息,同時為了降低AGs的參數(shù)與計算的復雜度,利用1×1×1卷積進行線性變換,相應的線性變換將特征信息解耦并映射到低維空間以進行選通操作;每個卷積層均采用指數(shù)線性單元(exponential linear unit,ELU)[19]進行特征提取,其定義如下
(6)
其中, ?為可變參數(shù),控制ELU賦值部分飽和。ELU不僅可以解決ReLU梯度消失的問題,而且在負值部分還可以減少不必要的偏移效應,進而減少計算量。訓練時通過隨機梯度下降法(stochastic gradient descent,SGD)優(yōu)化交叉驗證最小化像素分割錯誤率,最終由SoftMax激活函數(shù)將背景與視盤進行二分類。
本實驗的仿真平臺為PyCharm,使用keras及其TensorFlow端口,計算機配置為Intel?CoreTMi7-6700H CPU,16G內(nèi)存,Nvidia GeForce GTX 2070 GPU,采用64-bit Win10 operating System。
為了系統(tǒng)定量地分析本文算法視盤分割結(jié)果的性能,采取以下5個指標作為衡量標準
(7)
(8)
(9)
(10)
(11)
其中,Tp,Tn,Fp,Fn分別為真陽性、假陽性、真陰性和假陽性;敏感度(Sensitivity),表示正確分類視盤像素占真實視盤像素的百分比;特異性(Specificity)表示正確分類的非血管像素占真實非血管像素的百分比;準確率(Accuracy)表示正確分類視盤和非視盤像素占整個圖像總像素的百分比;Dice又稱精確率,即F-measurement;相似系數(shù)(Jaccard)用于比較分割結(jié)果與專家分割結(jié)果之間的相似性與差異性,即視盤重合率。
圖5展示了本文算法與傳統(tǒng)U-net模型在DRIONS-DB數(shù)據(jù)集上的部分圖像視盤分割效果圖。其中圖5中分別給出病變視網(wǎng)膜圖像與健康視網(wǎng)膜圖的視盤分割圖。圖5(a)為視網(wǎng)膜原始圖像,圖5(b)是專家金標準圖像,圖5(c) 為文獻[20]采用深度卷積神經(jīng)網(wǎng)絡框架的DRIVE算法,圖5(d)為本文算法視盤分割結(jié)果,圖5(e)為傳統(tǒng)U-net網(wǎng)絡的分割結(jié)果。
圖5 不同算法視盤分割圖像
觀察圖5第1行與第2行的病變圖像可知,本文算法與傳統(tǒng)U-net模型都能較好地定位視盤基本位置信息,但從第1行分割效果可以看出,由于視盤位于主血管較突出處,傳統(tǒng)U-net出現(xiàn)視盤分割失敗的現(xiàn)象。然而,本文算法在第1行與第2行視網(wǎng)膜圖像中均得到較成功的分割結(jié)果,分割的視盤邊界較清晰,同時未出現(xiàn)由血管與病理信息等因素的影響導致視盤分割斷裂的現(xiàn)象。
由圖5第3行健康視網(wǎng)膜圖像可知,傳統(tǒng)U-net模型內(nèi)部出現(xiàn)少許視盤分割斷裂的情況,說明傳統(tǒng)U-net模型無論是病變視網(wǎng)膜圖像還是健康視網(wǎng)膜圖像的視盤分割結(jié)果均易受到周圍血管影響,同時文獻[20]的算法同樣出現(xiàn)視盤分割不均勻的現(xiàn)象,但本文算法在健康視網(wǎng)膜圖上視盤分割結(jié)果與金標準接近一致。又由圖5第4行圖像可知,該視網(wǎng)膜圖像總體亮度較高,存在偽影的干擾,文獻[20] 和U-net方法視盤周圍出現(xiàn)過分割的現(xiàn)象,然而本文算法在視盤邊界處較圓滑,并沒有出現(xiàn)傳統(tǒng)U-net網(wǎng)絡的鋸齒和缺口現(xiàn)象。
綜上,本文算法不僅能在健康視網(wǎng)膜圖像上具有較好的分割性能,而且不易受到光照、病理信息和血管等噪音的影響,故本文視盤分割算法具有較強的魯棒性和泛化能力。對于周圍存在病灶和血管突出的圖像分割結(jié)果具有很好的完整性與連通性,進而可以提高專家對青光眼等眼科疾病分析的效率,具有良好的臨床應用價值。
為了定量地表現(xiàn)出本文算法視盤分割性能,給出如表1所示與不同文獻算法在靈敏度、特異性、準確率、精確率和重合率之間的性能對比表,其中加粗部分為本文算法視盤分割數(shù)據(jù)。
表1 不同算法在DRIONS-DB數(shù)據(jù)集視盤分割性能
由表1數(shù)據(jù)可知現(xiàn)有的算法在DRIONS-DB數(shù)據(jù)集上視盤分割結(jié)果所得到的靈敏度、精確率和重合率均低于本文算法,說明本文在此數(shù)據(jù)集上具有較強的魯棒性。其中,文獻[9,10]為傳統(tǒng)活動輪廓模型與霍夫變換橢圓區(qū)域擬合的方法,文獻[11]為傳統(tǒng)機器學習算法,該類算法的分割結(jié)果在本文評估的5個方面均未超過文獻[14]與本文算法所使用的深度學習方法,即使文獻[20]利用霍夫圓變換構(gòu)造多圓視盤分割方法在視盤覆蓋率、精確度和特異性等方面達到了較好的分割效果,但Dice系數(shù)偏低且存在過多的人為干預因素。文獻[14]使用DenseNet全連接神經(jīng)網(wǎng)絡在特異性與準確率方面略高于本文算法,但差距甚微。然而,本文算法在精確率和重合率上均高于文獻[14] 1%左右,說明本文引入AGs與空洞卷積網(wǎng)絡的有效性。
為了更好地體現(xiàn)本文算法總體性能的穩(wěn)定性,給出測試集每個圖片的精確率曲線,如圖6所示。本文分割結(jié)果的精確率曲線非常平滑,且平均精確率高達97.35%,而文獻[14]算法精確率曲線抖動較大,說明本文算法泛化性能優(yōu)越,基本能達到可以輔助醫(yī)療診斷的水平。
圖6 算法精確率曲線
從上述實驗結(jié)果與數(shù)據(jù)已經(jīng)表明,本研究提出的算法已經(jīng)超過或者達到競爭方法的結(jié)果,同時也反映了融合空洞卷積與AGs的U型卷積神經(jīng)網(wǎng)絡對視盤分割的有效性與實用性,得到的結(jié)果精確率和重合率達97.35%和94.84%,并且該方法在特征提取與分割階段不需要人工干預,算法本身可自動從視網(wǎng)膜圖像中提取復雜的視盤特征,來實現(xiàn)視盤分割。
此外,本研究的整個過程適合GPU并行化處理,并且已經(jīng)達到令人滿意的計算效率。為了體現(xiàn)本文算法的高效性,給出時間復雜度對比見表2。
表2 時間復雜度
由表2可知,深度學習在訓練階段總體耗時較長,但測試階段效率相比傳統(tǒng)機器學習方法具有顯著提升,文獻[14]與本文算法分割視盤均低于1 s,且本文算法平均每張圖僅用時0.3 s左右,說明本文的深度學習方法不僅分割效果優(yōu)越,在時間復雜度方面控制良好。
為了說明本研究引入空洞卷積與注意門的有效性,對網(wǎng)絡分別進行以下調(diào)整:①去除空洞卷積層,保留Attention模型與U-net模型,該網(wǎng)絡記為Net1;②去除Attention模塊保留空洞卷積模塊與U-net模塊,該網(wǎng)絡記為Net2;③去除空洞卷積與Attention模塊,僅保留原始U-net網(wǎng)絡,該網(wǎng)絡記為Net3。
將上述改動網(wǎng)絡與本文算法在靈敏度、精確率、重合率3個指標上進行對比,見表3。
由表3知,僅保留注意模型與U-net網(wǎng)絡結(jié)構(gòu)和空洞卷積與U-net網(wǎng)絡結(jié)構(gòu),均比傳統(tǒng)U-net模型總體分割效果優(yōu)越,尤其是引入的Attention模型對原始U-net網(wǎng)絡總體性能提升約1%;使用注意模型可解決卷積神經(jīng)網(wǎng)絡“權(quán)重分散”現(xiàn)象,在精確率方面和視盤重合率方面均高于僅引入空洞卷積方法,但靈敏度方面由于空洞卷積增大局部感受野,降低眼底圖像像素損失率,略高于引入的注意模型,說明空洞卷積可提高網(wǎng)絡泛化性;本文所提出的算法將空洞卷積與Attention同時引入到U-net模型中,均比單獨引入或未引入效果優(yōu)越,而且比原始U-Net網(wǎng)絡總體性能均高出1%到2%,從而說明本文在U-Net網(wǎng)絡中融合空洞卷積和注意模型的有效性和實用性。
表3 不同網(wǎng)絡結(jié)構(gòu)性能對比
為了解決現(xiàn)有算法由于光照不均勻、血管信息和相關的病理信息導致視盤分割斷裂和視盤邊界誤分割的現(xiàn)象,本文提出一種融合空洞卷積與注意模型的U型卷積神經(jīng)網(wǎng)絡。在預處理階段,通過RGB三通道以不同比例的線性組合來解決單一通道信息丟失等問題,并利用新型多尺度濾波算法在抑制噪聲,同時增強視盤邊界紋理信息。在視盤特征提取與分割階段,本文引入空洞卷積擴大感受野同時降低池化層帶來的圖片損失,引入AGs解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡“注意分散”的現(xiàn)象,提高最終視盤分割的準確率。本文算法在DRIONS-DB數(shù)據(jù)集上仿真,其測試階段僅耗時0.3 s,視盤精確率和重合率97.35%和94.84%,從而說明本文算法具有模型簡單、分割高效和結(jié)果性能優(yōu)越的特點,但本文算法在訓練階段的耗時和數(shù)據(jù)庫規(guī)模上仍需進一步改進。