趙京霞,錢育蓉,南方哲,張 晗,行艷妮
新疆大學(xué) 軟件學(xué)院,烏魯木齊830046
乳腺癌是全世界婦女中發(fā)病率最高的一種惡性腫瘤,嚴(yán)重影響女性的身體健康。根據(jù)世界衛(wèi)生組織報道,早期發(fā)現(xiàn)乳腺癌極大地增加了制定成功治療計劃和延長生命的機(jī)會[1]。當(dāng)前醫(yī)學(xué)圖像的診斷主要依賴人工閱片完成,然而醫(yī)學(xué)圖像的急劇增加給人工閱片帶來了極大挑戰(zhàn)。計算機(jī)輔助診斷主要是對乳腺癌進(jìn)行早期監(jiān)測,更加快速、準(zhǔn)確地進(jìn)行乳腺癌的診斷,對乳腺癌的治療具有重要的意義。
目前國內(nèi)外學(xué)者已經(jīng)在乳腺疾病診斷方面做了大量研究。文獻(xiàn)[2]利用灰度共生矩陣從乳腺X光照片中提取了大量紋理特征,并結(jié)合支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行診斷。Ponraj等人分別使用LBP(Local Binary Pattern)和LDP(Local Directional Pattern)特征來表達(dá)乳腺圖像特征,并結(jié)合SVM進(jìn)行乳腺疾病診斷。以上研究方法高度依賴人工特征選擇,獲取的特征往往是淺層的,不能有效地描述樣本的結(jié)構(gòu)信息,難以區(qū)分高維特征間的關(guān)系,導(dǎo)致輔助診斷的準(zhǔn)確度較低[3]。隨著深度學(xué)習(xí)的興起,在計算機(jī)輔助乳腺診斷領(lǐng)域越來越多的研究者青睞于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[4]。Arevalo等人將CNN和SVM分別作為特征提取器和分類器來對乳腺腫塊進(jìn)行診斷,可達(dá)到86%的準(zhǔn)確率,但在分類時僅考慮了最后一層的特征圖,沒有充分挖掘CNN不同層特征的多樣性和區(qū)分性[5]。Jiao等人分別用CNN中提取的中層特征和深層特征訓(xùn)練兩個SVM分類器,然后根據(jù)兩個分類結(jié)果的相似性來確定診斷結(jié)果[6],其僅僅是針對良惡二分類問題取得了不錯的效果,但乳腺疾病診斷通常分為正常、良性以及惡性三大類。此外,SVM雖然具有良好的分類效果,但當(dāng)特征維數(shù)較高時,SVM分類器會由于參數(shù)調(diào)整復(fù)雜使得分類準(zhǔn)確率降低。因此,尋求一種理想的分類器會對診斷的準(zhǔn)確度和效率產(chǎn)生影響。文獻(xiàn)[7]中Wang等人分別提取了形態(tài)特征和語義特征,用ELM分類器進(jìn)行分類獲得了比SVM更好的效果。
針對以上問題,本文提出一種CNN多層特征融合(Multiple Feature Fusion,MFF)與極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)結(jié)合的CNN-MFF-ELM乳腺疾病診斷方法。首先利用CNN從乳腺X光圖像中提取多層特征圖,充分利用多層網(wǎng)絡(luò)的區(qū)分性特征;考慮到多層特征的多尺度問題,聯(lián)合從多尺度池化操作提取到的多層特征向量,形成一個具有多尺度多屬性的特征向量;構(gòu)建ELM分類器,實現(xiàn)乳腺疾病的診斷。
分類準(zhǔn)確率和效率是評價醫(yī)學(xué)圖像分類模型的兩個重要指標(biāo)[8],能否有效地提取到圖像特征是影響這兩個指標(biāo)的最大因素。CNN每層學(xué)習(xí)到的特征是不同的,淺層網(wǎng)絡(luò)包含更多層次信息,如紋理、邊緣等局部信息,而深層網(wǎng)絡(luò)包含抽象的語義、結(jié)構(gòu)等全局信息[9-10]。此類特征融合可以充分利用圖像多層特征屬性,并且ELM的優(yōu)勢在于,訓(xùn)練過程中參數(shù)相比CNN少,可縮短訓(xùn)練時間[11]。因此,使用CNN多層特征融合,并結(jié)合ELM分類器模型,前者可充分提取圖像各層特征,提高對模型診斷的準(zhǔn)確率,后者可以在高準(zhǔn)確率的基礎(chǔ)上縮短模型的訓(xùn)練時間。
因此,為了充分利用CNN的特征提取的高效性、多層特征融合的全面性以及ELM訓(xùn)練過程的時效性,本文提出CNN-MFF-ELM的算法結(jié)構(gòu)??傮w結(jié)構(gòu)包括數(shù)據(jù)預(yù)處理、CNN特征提取、多特征融合以及ELM分類。本文框架如圖1所示。其中CNN-MFF-ELM的算法結(jié)構(gòu)如圖2所示。
圖2 CNN-MFF-ELM結(jié)構(gòu)圖
本實驗所使用的乳腺X光圖像來源于MIAS[12]數(shù)據(jù)集。該數(shù)據(jù)集共包含322幅大小為1 024像素×1 024像素的乳腺X光圖像,分為正常、良性和惡性三大類。正常圖像208幅,非正常圖像114幅,其中63幅代表良性,51幅代表惡性。
2.1.1 數(shù)據(jù)裁剪
MIAS數(shù)據(jù)集中的乳腺X光圖像均包含大量黑色的邊界區(qū)域,該部分不僅不包含有用的特征信息,還會造成實驗過程中的資源浪費。因此,將原始圖像裁剪為1 024像素×512像素后作為CNN的輸入。
2.1.2 數(shù)據(jù)增強(qiáng)
目前大量的實驗均證明了數(shù)據(jù)量的大小直接影響深度學(xué)習(xí)的性能。數(shù)據(jù)量不足時,容易產(chǎn)生過擬合現(xiàn)象。為了獲取足夠的樣本,通常采用數(shù)據(jù)增強(qiáng)的方式來擴(kuò)充數(shù)據(jù)集的樣本量。常見數(shù)據(jù)增強(qiáng)方式有PCA白化、平移變換、隨機(jī)裁剪、旋轉(zhuǎn)變換和尺度變換等。本文采用旋轉(zhuǎn)的方式來實現(xiàn)數(shù)據(jù)集的擴(kuò)充。該方式僅僅是圖像平面上的像素重排而沒有改變圖像的像素值,可以保留更多原始圖像的信息。將每個圖像以原點為中心分別旋轉(zhuǎn)θ角度。圖像旋轉(zhuǎn)的算法如算法1所示。
算法1圖像以原點為中心實現(xiàn)旋轉(zhuǎn)
輸入:原始的乳腺X光圖像。
輸出:更新后的乳腺X光圖像。
(1)定義變量w和h分別為原始圖像的寬和高;
(2)將角度變換成弧度;
(3)計算新圖像的寬度和高度;
(4)通過OpenCV得到旋轉(zhuǎn)矩陣;
(5)計算得到更新后的圖像。
經(jīng)過旋轉(zhuǎn)變換后像素的坐標(biāo)式為:
經(jīng)過上述的數(shù)據(jù)增強(qiáng)處理后,原始的數(shù)據(jù)集規(guī)模得以擴(kuò)充。由于每個圖像分別被旋轉(zhuǎn)了90°、180°和270°,現(xiàn)有數(shù)據(jù)集擴(kuò)充為原始數(shù)據(jù)集的3倍,共包含966幅乳腺X光圖像。從數(shù)據(jù)集中隨機(jī)抽取70%的樣本作為訓(xùn)練集數(shù)據(jù),其余30%的樣本作為測試集數(shù)據(jù)。實驗數(shù)據(jù)集的分布如表1所示。
表1 實驗數(shù)據(jù)集分布
卷積神經(jīng)網(wǎng)絡(luò)是一種受生物啟發(fā)的前饋網(wǎng)絡(luò),其特征是稀疏的局部連通性和神經(jīng)元間的權(quán)值共享性。CNN通常由輸入層、若干個交替的卷積層和池化層、全連接層以及輸出層構(gòu)成,卷積和池化操作可以自動提取圖像中的特征。本文所提出的模型結(jié)構(gòu)包括3個卷積層,分別用C1、C3和C5表示,3個池化層,分別用P2、P4和P6表示,以及1個全連接層F7。該模型中各層的參數(shù)如表2所示。
表2 模型的參數(shù)說明
CNN的卷積操作會對特征進(jìn)行篩選與過濾,如果過濾掉的特征是有價值的信息,則會導(dǎo)致整個網(wǎng)絡(luò)的性能下降。文獻(xiàn)[13]對CNN的特征進(jìn)行了可視化處理,表明了CNN不同層次的表征對應(yīng)識別對象的不同特征。充分利用乳腺X光圖像的多層特征才能有效地提高診斷準(zhǔn)確率?;诖耍疚奶岢龆嗵卣魅诤系姆绞?,將多層特征融合成一個特征向量來表達(dá)乳腺X光圖像的多個特征。
文獻(xiàn)[14]利用CNN的最后三層特征進(jìn)行肝癌的診斷識別,并獲得了較高的準(zhǔn)確率,表明此三層包含了豐富的特征信息。受益于此,本文也選擇CNN的最后三層特征來表達(dá)乳腺X光圖像中的多層次特征,然后利用多尺度池化操作將其融合成一個特征向量。
文獻(xiàn)[9]提到的空間金字塔池化是將多個池化操作得到的特征向量拼接成一個固定維度的特征向量,不僅可以保留圖像的空間位置信息,還可以使圖像特征具有多尺度性。本文提出的多尺度池化算法是基于空間金字塔池化的改進(jìn),每一層經(jīng)多尺度池化操作后輸出4個不同尺度的特征矩陣,分別是1×1×m、2×2×m、3×3×m和4×4×m,其中m表示特征圖的數(shù)量,4個特征矩陣按列形成(30×m)×1的列向量作為ELM分類器的輸入。多尺度池化操作的示意圖如圖3所示。
圖3 多尺度池化操作示意圖
CNN的生成包括數(shù)據(jù)的前向傳播和誤差的反向傳播兩個過程。這兩個過程均需要使用大量樣本在反復(fù)迭代的過程中才能獲得較理想的網(wǎng)絡(luò)參數(shù),且梯度下降算法需要調(diào)整所有參數(shù),導(dǎo)致模型的訓(xùn)練時間長。ELM算法通過隨機(jī)生成連接權(quán)重和偏差,避免了復(fù)雜的迭代訓(xùn)練過程,因而縮短了模型的訓(xùn)練時間,減少了計算量。
2.4.1 ELM分類器介紹
ELM是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,一般由輸入層、隱含層和輸出層構(gòu)成。輸入向量的維數(shù)決定輸入層神經(jīng)元的個數(shù),樣本類別決定輸出神經(jīng)元的個數(shù)。相鄰層間的神經(jīng)元全連接,每層內(nèi)的神經(jīng)元互不相連。ELM分類器的結(jié)構(gòu)模型如圖4所示。
圖4 ELM分類器模型
輸入層輸入的是乳腺X光圖像的多屬性特征x,特征維數(shù)是P。隱藏層共有L個神經(jīng)元,第i個神經(jīng)元的輸出為:
其中,g代表激活函數(shù),本文采用ReLU函數(shù),wi表示第i個神經(jīng)元和所有輸入節(jié)點間的連接權(quán)重,bi表示第i個神經(jīng)元的偏置。輸入層和隱藏層的連接實際上是將P維空間特征映射到L維空間,則輸入一個特征向量x,其映射特征向量表示為:
輸出層輸出節(jié)點的個數(shù)為3,表示3種不同診斷結(jié)果,每一個輸出節(jié)點對應(yīng)一種診斷結(jié)果。βi,j表示第i個神經(jīng)元與第j個輸出節(jié)點之間的輸出權(quán)重,則第j個輸出節(jié)點的值表示為:
那么,輸入樣本x在隱藏層的輸出向量可表示為:
其中
則在檢測階段,當(dāng)輸入樣本為x時,對應(yīng)的診斷結(jié)果為:
2.4.2 ELM分類器訓(xùn)練
ELM可以隨機(jī)初始化輸入的權(quán)重的偏置,因此在訓(xùn)練過程中只需訓(xùn)練輸出權(quán)重β。
假設(shè)有N個不同的輸入樣本(xk,tk),其中tk表示乳腺X圖像多個屬性特征向量xk對應(yīng)的二進(jìn)制乳腺疾病類別。那么訓(xùn)練樣本的線性表達(dá)式為:
其中Y表示訓(xùn)練樣本的實際輸出向量,表示為:
H表示訓(xùn)練樣本的實際輸出向量,表示為:
則β可以表示為:
其中,HT是H的廣義逆矩陣。
綜上所述,ELM的訓(xùn)練過程可用如下算法表示:
算法2 ELM分類器的訓(xùn)練
輸入:原N個不同的輸入樣本,激活函數(shù)g,隱藏層節(jié)點數(shù)目L。
輸出:輸出節(jié)點的輸出向量yk。
(1)隨機(jī)生成隱藏層節(jié)點的參數(shù)ω和b;
(2)計算隱藏層的輸出矩陣H;
(3)計算隱藏層輸出權(quán)重β。
為了驗證本文算法的有效性,以MIAS數(shù)據(jù)集作為實驗數(shù)據(jù),該數(shù)據(jù)集在2.1節(jié)已做過詳細(xì)介紹。
本文的實驗在CPU Intel Xeon 2.10 GHz,32 GB內(nèi)存,Ubuntu 14.04系統(tǒng)下搭建的Caffe環(huán)境中進(jìn)行。實驗環(huán)境的配置參數(shù)如表3所示。
表3 實驗環(huán)境的配置參數(shù)
為了驗證多層特征對乳腺疾病具有很好的診斷效果,對比了單層特征和多層特征在ELM分類器下的診斷準(zhǔn)確率。此處的單層特征是通過CNN提取的斷層特征,多層特征是CNN的最后三層特征的融合。該實驗中隱藏層節(jié)點的個數(shù)L是影響診斷準(zhǔn)確率的一個重要參數(shù),隨著隱藏層節(jié)點數(shù)目增加,乳腺疾病診斷的準(zhǔn)確率會提高,但訓(xùn)練時間也會增加。綜合考慮準(zhǔn)確率和時間,本文選取隱藏層節(jié)點數(shù)量L為10 000。實驗結(jié)果如圖5所示,利用多層特征融合的診斷準(zhǔn)確率明顯高于單層特征下的診斷準(zhǔn)確率,平均高出兩個百分點。
圖5 不同隱藏層數(shù)目下多特征與單特征準(zhǔn)確率對比
此外,當(dāng)隱藏層數(shù)量L<10 000時,準(zhǔn)確率迅速提升,當(dāng)L>10 000時,準(zhǔn)確率增加緩慢。由圖中的實驗數(shù)據(jù)得知,當(dāng)隱藏層節(jié)點數(shù)量L=10000時,多特征融合下的平均診斷準(zhǔn)確率為97.13%,單特征下的平均診斷準(zhǔn)確率為95.07%。多層特征充分展現(xiàn)了特征的全面性和多屬性,因而達(dá)到了理想的診斷準(zhǔn)確率,而單層特征沒有充分利用圖像中的多特征,導(dǎo)致診斷準(zhǔn)確率不理想。
為了進(jìn)一步驗證算法的魯棒性,對有噪聲環(huán)境下的乳腺X圖像進(jìn)行測試。在上述實驗的基礎(chǔ)上添加了隨機(jī)椒鹽噪聲后,分別在隱藏層數(shù)量為8 000、10 000和12 000時,進(jìn)行了重復(fù)實驗,實驗結(jié)果對比如表4所示。
表4 不同參數(shù)下平均準(zhǔn)確率對比
實驗結(jié)果顯示,在有噪聲環(huán)境下診斷準(zhǔn)確率下降并不明顯,因此該模型具有較好的魯棒性。
為了驗證本文所使用的ELM分類器的優(yōu)勢,將ELM分類器從診斷準(zhǔn)確率、訓(xùn)練時間和診斷時間三個層面分別與Softmax分類器和SVM進(jìn)行對比,實驗結(jié)果如表5所示。
表5 不同分類器性能比較
從表5可知,ELM分類器的平均分類準(zhǔn)確率高達(dá)97.13%,優(yōu)于Softmax的95.51%以及SVM的95.90%。此外,ELM算法通過隨機(jī)生成連接權(quán)值和偏置,避免了復(fù)雜的迭代過程,訓(xùn)練過程中需要調(diào)整的參數(shù)少,計算成本低,因此訓(xùn)練時間也遠(yuǎn)低于其他兩類分類器。而且ELM分類器的識別時間也縮短到了6.43 ms,達(dá)到了實時識別的應(yīng)用要求。
深度學(xué)習(xí)算法最重要的特征之一就是具有較強(qiáng)的泛化能力。為了驗證本文所提出的方法是否具有較強(qiáng)的泛化能力,將該方法應(yīng)用于新數(shù)據(jù)集進(jìn)行驗證實驗。新的數(shù)據(jù)集選用DDSM(Digital Database of Screening Mammography)[15]的子集,共包含9 856幅乳腺X光圖像,其中正常圖像有2 780幅,良性圖像有3 420幅,惡性圖像有3 656幅。從該數(shù)據(jù)集隨機(jī)選取70%作為訓(xùn)練集,其余30%作為測試集進(jìn)行驗證實驗。實驗結(jié)果顯示,本文方法在DDSM數(shù)據(jù)集下的診斷平均準(zhǔn)確率為96.15%,平均診斷時間為8.21 ms,表明本文方法具有良好的泛化能力。
為了說明本文方法的有效性,將本文提出的CNNMFF-ELM方法與實驗數(shù)據(jù)集是MIAS或者DDSM的其他乳腺疾病診斷方法進(jìn)行對比。不同檢測方法下乳腺疾病檢測準(zhǔn)確率對比實驗結(jié)果如表6所示。
表6 不同檢測方法下乳腺疾病檢測準(zhǔn)確率對比
實驗結(jié)果顯示本文方法在MIAS數(shù)據(jù)集和DDSM數(shù)據(jù)集下的診斷平均準(zhǔn)確率均略高于其他方法。表明本文提出的方法能夠?qū)⒍喑叨榷鄬傩缘奶卣鬟M(jìn)行融合,從而有效地描述樣本的結(jié)構(gòu)信息,獲得更多區(qū)分性的特征,提高了計算機(jī)輔助診斷的準(zhǔn)確率。
為了充分利用卷積神經(jīng)網(wǎng)絡(luò)多層特征的全面性和區(qū)分性,同時減少計算成本和訓(xùn)練時間,本文提出了一種CNN多層特征融合和極限學(xué)習(xí)機(jī)結(jié)合的CNN-MFFELM乳腺疾病診斷方法。利用CNN從乳腺X光圖像中提取多層特征,避免了傳統(tǒng)CNN利用單特征進(jìn)行分類導(dǎo)致特征缺失的問題;然后利用多尺度池化操作將最后三層的特征向量融合成一個具有多屬性多特征的特征向量,豐富了圖像的特征表達(dá);使用ELM分類器進(jìn)行乳腺疾病的診斷,在保證診斷準(zhǔn)確率的同時,降低訓(xùn)練和診斷時間。實驗結(jié)果表明,本文提出的方法能夠有效提高乳腺疾病診斷的準(zhǔn)確率,縮短訓(xùn)練和診斷時間,滿足實際應(yīng)用的要求。
下一步研究工作將著眼于:(1)嘗試構(gòu)建深度學(xué)習(xí)模型的并行化框架,來進(jìn)一步提升訓(xùn)練速度;(2)繼續(xù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),來進(jìn)一步提升乳腺疾病診斷準(zhǔn)確率,并嘗試將其應(yīng)用于其他模式識別場景中。