謝雪嬌,陸 楓,李書展,周 到
(1.華中科技大學(xué)同濟醫(yī)學(xué)院附屬同濟醫(yī)院,湖北 武漢 430030;(2.華中科技大學(xué)計算機學(xué)院大數(shù)據(jù)技術(shù)與系統(tǒng)國家工程研究中心,湖北 武漢 430074;3.中南民族大學(xué)生物醫(yī)學(xué)工程學(xué)院認(rèn)知科學(xué)國家民委重點實驗室,湖北 武漢 430074)
全球最新的癌癥調(diào)查報告中顯示,癌癥在胃部、直腸、食道的發(fā)病率分別高達5.7%,3.9%,3.2%,在所有癌癥發(fā)病率中分別排第6,8,9位,3種癌癥的致死率加起來達到16.7%[1]。顯而易見,對消化道疾病的早期發(fā)現(xiàn)與及時治療是有效防止病變惡化的關(guān)鍵。近年來,無線膠囊內(nèi)窺鏡WCE(Wireless Capsule Endoscopy)已被廣泛應(yīng)用于消化道檢查,相對于傳統(tǒng)的侵襲性方法PE(Push Enteroscopy)和利用放射學(xué)檢查的CT、鋇餐等方法,WCE不僅對人體的傷害小,還具有更高的病變檢出率,在消化道疾病的診療方面做出了巨大貢獻[2]。醫(yī)生可以通過內(nèi)窺鏡膠囊拍攝的WCE圖像進行分析和診斷,以判斷受檢者的消化道內(nèi)是否存在病變。一般膠囊內(nèi)鏡每秒拍攝2幅圖像,一個受檢者的整個檢測過程需要6~8 h,共產(chǎn)生50 000~70 000幅WCE圖像數(shù)據(jù)。這些海量WCE圖像為醫(yī)生診斷帶來了沉重負(fù)擔(dān)。按照一秒鐘讀一幅圖像來算,讀完60 000幅圖像大約需要15 h左右。即便是專業(yè)經(jīng)驗豐富的醫(yī)生也至少需要2~3 h的時間來完成閱片。此外,包含病變的圖像通常只占所有WCE圖像中的小部分,很容易被忽略。且有些病癥由于微小或被遮擋而難以識別,使得漏診、誤診的情況依然存在??梢?,快速、準(zhǔn)確地辨識WCE圖像病癥是受檢患者與醫(yī)護人員的迫切需求。
目前已有利用人工智能方法分析WCE圖像實施輔助影像病灶識別的研究[3],主要分為2類,一類是基于傳統(tǒng)機器學(xué)習(xí)方法的WCE圖像病灶識別,另一類是基于深度學(xué)習(xí)方法的識別。
傳統(tǒng)的機器學(xué)習(xí)方法可以大致分為2個步驟[4 - 7],先是使用傳統(tǒng)的特征提取方式提取WCE圖像的顏色、紋理或形狀等特征[7];然后依據(jù)提取的特征采用線性回歸或者支持向量機SVM(Support Vector Machine)等傳統(tǒng)機器學(xué)習(xí)方法構(gòu)造相應(yīng)的分類器進行分類。研究的重點主要集中在使用何種方法提取圖像的何種特征以及分類器的選擇上。這些實驗通常涉及的樣本數(shù)量較少,參與實驗的醫(yī)學(xué)影像數(shù)據(jù)大多經(jīng)過去噪、正則化和圖像增強等預(yù)處理,以及對感興趣的區(qū)域ROI(Region of Interest)進行手工標(biāo)注。這類方法在處理原始質(zhì)量不高的大規(guī)模數(shù)據(jù)時,普適性往往受限。
以卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)為基礎(chǔ)的WCE圖像病灶識別研究目前也已經(jīng)陸續(xù)展開[8 - 11]。Li等人[8]針對出血圖像數(shù)量與正常圖像數(shù)量不平衡及WCE圖像的顏色、紋理和亮度的變化等問題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的腸道出血識別模型。針對大約1 300幅出血圖像和40 000幅正常圖像識別,其F1值達到了98.87%。Coelho等人[9]基于U-Net網(wǎng)絡(luò)對小腸出血點進行識別。Fan等人[10]采用AlexNet進行WCE圖像小腸潰瘍和糜爛識別,準(zhǔn)確率高達95%。Aoki等人[11]使用5 360幅含潰瘍病癥的WCE圖像,訓(xùn)練了一個基于SSD(Single Shot multibox Detector)模型的神經(jīng)網(wǎng)絡(luò),經(jīng)過包含10 440幅小腸圖像(440幅圖像含潰瘍)的獨立測試集的測試,靈敏度、特異度和準(zhǔn)確率分別為88.2%,90.9%和90.8%。這些方法大多使用了現(xiàn)成的網(wǎng)絡(luò)結(jié)構(gòu),未對網(wǎng)絡(luò)結(jié)構(gòu)進行個性化修改。
然而,作為醫(yī)學(xué)影像的WCE圖像具有一些嚴(yán)重影響識別分類效果的特征,比如,陰性與陽性樣本的顏色和紋理特征非常不明顯,消化道殘留物對識別影響較大等[12];又如,針對同一種病灶,有的病灶尺寸非常微小,只占幾個像素點;而有的病灶,如潰瘍或者糜爛,尺寸又很大?,F(xiàn)成的網(wǎng)絡(luò)不能很好地處理這些問題,致使在實際應(yīng)用時準(zhǔn)確率大幅度下降。為了提高判斷與預(yù)測的準(zhǔn)確性,現(xiàn)有神經(jīng)網(wǎng)絡(luò)不斷以幾乎恒定的計算開銷增加網(wǎng)絡(luò)的深度和寬度[13,14]。為了使WCE出血點的識別能夠安裝到可移動設(shè)備上實現(xiàn)邊檢查邊識別,還需要在保證準(zhǔn)確率的同時,降低網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,確保WCE圖像的快速識別,以便及時發(fā)現(xiàn)病灶點,減輕醫(yī)生負(fù)擔(dān)。
本文分析了WCE圖像中現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)對出血點進行識別可能存在的問題,提出了殘差多尺度全卷積神經(jīng)網(wǎng)絡(luò),結(jié)合殘差的思想提取和保留圖像的淺層特征,采用多尺度卷積核對不同尺度出血點特征進行有效提取。實驗表明,該網(wǎng)絡(luò)可以對出血點細(xì)節(jié)特征進行像素級的有效識別,準(zhǔn)確率、靈敏度、特異度分別達到97.87%,98.05%,97.67%,優(yōu)于經(jīng)典深度殘差網(wǎng)絡(luò)ResNet50[13]和經(jīng)典多尺度Inception-v4網(wǎng)絡(luò)[14],且計算復(fù)雜度更小,收斂更快。
WCE圖像與自然景物圖像有很大的不同,首先,它來源于膠囊內(nèi)窺鏡在體內(nèi)的拍攝,需要通過無線發(fā)射裝置向體外傳輸??紤]到能耗等問題,其分辨率只有480×480像素。此外,WCE圖像通常還受到如下3種情況影響。
首先,如圖1所示,由于無線膠囊內(nèi)窺鏡是在人體器官腔內(nèi)部近距離拍攝,并且拍攝的對象是人體的器官組織,所以圖像的色彩變化很小,圖像的顏色和紋理變化也十分不明顯。這需要網(wǎng)絡(luò)對細(xì)節(jié)和易混淆的特征進行靈敏度很高的捕捉,本文稱之為像素級特征的提取。
Figure 1 WCE images of the bleeding parts not much different from the texture of the organ tissues圖1 出血部分與器官組織紋理區(qū)別不大的WCE圖像
其次,WCE圖像中病灶的尺寸差別會非常大。其原因有2:
(1)很多出血點的尺寸非常微小,只占幾個像素點,而有的出血點又很大,比如潰瘍或者糜爛,如圖2所示;
Figure 2 WCE images with different bleeding sizes圖2 含尺寸大小不一出血點的WCE圖像
(2)由于WCE圖像是近距離拍攝的,同樣的病灶從不同的角度拍攝會引起較大尺寸變化。此時,需要網(wǎng)絡(luò)既能對像素級特征進行判別,又能對大塊特征進行抽象和提取。
最后,如圖3所示,WCE圖像中不可避免地會存在各類氣泡或者食物殘渣等消化道雜質(zhì),并且這些雜質(zhì)還極易附著在鏡頭上,影響神經(jīng)網(wǎng)絡(luò)對特征的抽取和識別。
Figure 3 WCE images containing food debris and air bubbles圖3 包含食物殘渣和氣泡的WCE圖像
一般而言,隨著卷積層次的加深[13,15],得到的特征抽象程度越高。淺層特征屬于細(xì)粒度特征,語義信息較少,上下文信息豐富,不容易丟失特征且目標(biāo)位置更加準(zhǔn)確。對于微小出血病灶而言,淺層特征是非常重要的特征。與之相反,深層特征屬于粗粒度特征,抽象程度更高,語義信息豐富,上下文信息較少,適于識別大病灶區(qū)域,然而不利于識別目標(biāo)的精確定位。如果加寬網(wǎng)絡(luò)對多尺度特征進行辨識[14],則往往會帶來計算量的急劇增加,同時降低對細(xì)粒度特征的辨識率。據(jù)此,利用CNN辨識WCE出血點需要在一定計算參數(shù)訓(xùn)練復(fù)雜度的約束下考慮模型細(xì)粒度和粗粒度等不同尺寸特征的有效提取。對此,本文采用Long等人[15]提出的全卷積網(wǎng)絡(luò)FCN(Fully Convolutional Network)為主干網(wǎng),以確保像素級特征的提取效果。FCN擅于從抽象的特征中恢復(fù)出每個像素所屬的類別,即從圖像級別的分類延伸到像素級別的分類。進而,將殘差思想運用至FCN,使得網(wǎng)絡(luò)可以提取和保留WCE圖像的淺層特征,在與多尺度卷積得到的高級特征級聯(lián)后,輸入至網(wǎng)絡(luò)下層。最后,采用了類似于Inception網(wǎng)絡(luò)的多尺度卷積核,加強網(wǎng)絡(luò)對不同尺度出血點特征的有效提取。
本文以全卷積神經(jīng)網(wǎng)絡(luò)為主干,設(shè)計了一種基于殘差思想的多尺度全卷積神經(jīng)網(wǎng)絡(luò),整個網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)主要由5個多尺度卷積-跳躍連接模塊組成,網(wǎng)絡(luò)的最后一層使用了Softmax函數(shù),用作輸出。
Figure 4 A multi-scale fully convolutional neural network structure based on residuals圖4 基于殘差思想的多尺度全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
多尺度卷積-跳躍連接模塊主要由多尺度卷積模塊與跳躍連接模塊組成。多尺度卷積模塊是一個包含5層卷積運算的小型卷積神經(jīng)網(wǎng)絡(luò)。
如圖5所示,輸入首先經(jīng)過1×1的卷積運算(192個濾波器)處理后輸入至下面3個并排的卷積層。這3個卷積層的濾波器數(shù)目都為64個,分別執(zhí)行2×2,4×4和8×8的卷積運算,能捕獲小、中、大3類不同尺度的特征。3個并行卷積層的輸出特征圖(Feature Map)連接在一起,經(jīng)過1×1的卷積(192個)過濾后得到多尺度卷積模塊的輸出。跳躍連接模塊將輸入經(jīng)過1×1卷積后,與多尺度卷積模塊的輸出疊加,再執(zhí)行池化操作。該池化操作由過濾器大小為1×1、步長為2的卷積層執(zhí)行。這里使用卷積層而不是傳統(tǒng)的最大池化層,是為了讓網(wǎng)絡(luò)從訓(xùn)練數(shù)據(jù)中自動學(xué)習(xí)出最合適的降采樣方法。跳躍連接模塊采用與多尺度卷積模塊相同的1×1卷積操作有2個作用:(1)有助于減少網(wǎng)絡(luò)的參數(shù)總數(shù);(2)能保證跳躍連接的輸出維度與多尺度卷積模塊的輸出維度相同,可以執(zhí)行疊加操作。
所有的卷積層在經(jīng)過ReLU激活函數(shù)后都會進行批正則化BN(Batch Normalization)處理。批正則化使網(wǎng)絡(luò)的輸出均值為0,標(biāo)準(zhǔn)差為1。實驗表明,批正則化處理有助于加快網(wǎng)絡(luò)收斂,也有助于限制過擬合的現(xiàn)象。
Figure 5 Multi-scale convolution-jump connection module structure圖5 多尺度卷積-跳躍連接模塊結(jié)構(gòu)
從志愿者膠囊內(nèi)鏡圖像中選取了胃部和小腸出血點圖像8 624幅,出血點附近的陰性圖像23 988幅,共32 612幅。為了平衡陽性樣本和陰性樣本的數(shù)量,對陽性樣本進行旋轉(zhuǎn)和鏡像翻轉(zhuǎn)處理。再分別隨機挑出胃部陽性、陰性樣本,以及小腸陽性、陰性樣本各2 000幅。最后按照3∶1的比例制作了訓(xùn)練集和測試集。
實驗使用的計算機,CPU為Intel酷睿i7 6700HQ,內(nèi)存大小8 GB,GPU為NVIDIA GeForce GTX 960M。實驗使用前向均方根梯度下降算法(Root Mean Square Propagation)進行優(yōu)化,初始學(xué)習(xí)速率為0.01。使用TensorFlow與Keras框架實現(xiàn),CUDA的版本為9.0,cuDNN的版本為6.0。對比網(wǎng)絡(luò)為應(yīng)用廣泛的深度殘差網(wǎng)絡(luò)ResNet50[13]和多尺度Inception-v4[14]。
實驗使用評估分類性能的指標(biāo)包括準(zhǔn)確率ACC(Accuracy)、靈敏度SEN(Sensitivity)和特異度SPC(Specificity),計算方法如式(1)~式(3)所示:
(1)
(2)
(3)
其中,TP表示預(yù)測正確的陽性樣本數(shù)量,F(xiàn)P表示預(yù)測錯誤的陽性樣本數(shù)量,TN表示預(yù)測正確的陰性樣本數(shù)量,F(xiàn)N表示預(yù)測錯誤的陰性樣本數(shù)量。本文還使用了ROC曲線以及曲線下面積(AUC)來衡量網(wǎng)絡(luò)的性能。
最后,為了比較各網(wǎng)絡(luò)的收斂速率和計算性能,繪制了迭代次數(shù)與損失的關(guān)系曲線圖,直觀地比較各網(wǎng)絡(luò)的收斂速度。
在同一數(shù)據(jù)集上,本文提出的網(wǎng)絡(luò)與ResNet50和Inception-v4網(wǎng)絡(luò)的測試結(jié)果對比如圖6所示。實驗結(jié)果表明,本文提出網(wǎng)絡(luò)的準(zhǔn)確率ACC達到97.84%,靈敏度SEN達到98.05%,特異度SPC達到97.67%。
從圖6可以看到,本文提出網(wǎng)絡(luò)對WCE圖像出血點分類的各項指標(biāo)均優(yōu)于Inception-v4和ResNet50 網(wǎng)絡(luò)的,兼顧了靈敏度和特異度,在確保漏檢率的條件下保證了識別的準(zhǔn)確率。與Inception-v4網(wǎng)絡(luò)相比,本文的網(wǎng)絡(luò)具有跳躍連接的結(jié)構(gòu),可以更好地保留WCE圖像的初始特征。因此,在靈敏度上比Inception-v4提高了3.6%。
Figure 6 Performance comparison with ResNet50 and Inception-v4圖6 本文網(wǎng)絡(luò)與ResNet50、Inception-v4網(wǎng)絡(luò)的性能對比
本文網(wǎng)絡(luò)在四重交叉驗證下,得到的平均AUC值為99.72%,其ROC曲線如圖7所示。
Figure 7 Average ROC curve under the quadruple cross validation set (where the grey part represents the confidence interval)圖7 四重交叉驗證集下平均ROC曲線(其中灰色部分代表置信區(qū)間)
從網(wǎng)絡(luò)結(jié)構(gòu)上看,如表1所示,本文提出的網(wǎng)絡(luò)層數(shù)最少,參數(shù)約9×106個;ResNet50層數(shù)居中,參數(shù)約2.5×107;Inception-v4最深,參數(shù)量也最大,約4.3×107個。
Table 1 Comparison of accuracies and the number of parameters表1 各網(wǎng)絡(luò)準(zhǔn)確率和參數(shù)量對比
從計算復(fù)雜度上看,本文網(wǎng)絡(luò)將浮點運算的數(shù)量降低了一個數(shù)量級。訓(xùn)練的時間也減少了一大半,整個網(wǎng)絡(luò)訓(xùn)練的過程大約需要2 h。
迭代次數(shù)與損失關(guān)系曲線圖如圖8所示,當(dāng)?shù)螖?shù)超過10 000次時,網(wǎng)絡(luò)其實已經(jīng)趨于穩(wěn)定收斂,測試過程中的損失值小于0.05,最終的準(zhǔn)確率穩(wěn)定在0.989。從損失曲線和準(zhǔn)確率變化趨勢可以看出,本文網(wǎng)絡(luò)的收斂性能非常好,收斂速度和最終的準(zhǔn)確率都優(yōu)于RestNet50和Inception-v4。
Figure 8 Relationship between the loss and the number of iterations圖8 損失與迭代次數(shù)的關(guān)系
從具體實例來看,ResNet50對含有多個不同尺度病灶的圖像進行辨識時,往往易發(fā)生漏檢,如圖9a所示。而本文網(wǎng)絡(luò)具有多個尺度的卷積核,對含有多個不同尺度病灶的圖像辨識具有較明顯的優(yōu)勢,如圖9b所示。
Figure 9 Bleeding parts recognized by ResNet50 and our network圖9 同一WCE圖中多個出血點的識別
現(xiàn)代人患腸胃疾病的概率日益上升,利用人工智能對WCE中的病灶進行有效的自動識別,能夠保證腸胃疾病的早發(fā)現(xiàn)和早治療。本文在分析現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,提出了一種由多尺度卷積-跳躍連接模塊構(gòu)成的簡單全卷積神經(jīng)網(wǎng)絡(luò)。首先,引入了殘差學(xué)習(xí)網(wǎng)絡(luò)中跳躍連接的思想,使網(wǎng)絡(luò)能夠有效保存輸入圖像的初始特征。實驗結(jié)果表明,與沒有這種結(jié)構(gòu)的Inception-v4網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)在結(jié)構(gòu)上降低了復(fù)雜度,在參數(shù)和計算量上有大幅減少,在對WCE圖像做出血點的分類識別時,靈敏度有所提升;其次,本文網(wǎng)絡(luò)的收斂速度快,訓(xùn)練時間短,計算性能明顯高于Inception-v4和ResNet50,有較強的實用性。
從總體看,文中實驗選取的數(shù)據(jù)集相比實際患者產(chǎn)生的WCE圖像數(shù)量要少很多,還需要采用更多數(shù)據(jù)進行驗證和優(yōu)化。殘差多尺度卷積神經(jīng)網(wǎng)絡(luò)本身也還存在一些待改進的地方,例如病灶定位等。此外,是否存在更好的網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)參數(shù)如何優(yōu)化、網(wǎng)絡(luò)性能能否提升等方面,依然需要不斷地探索與嘗試。
本文感謝安翰公司長期以來的合作和支持。