周孟然 卞 凱* 劉衛(wèi)勇 陳焱焱 胡 鋒 來(lái)文豪 閆鵬程
1(安徽理工大學(xué)電氣與信息工程學(xué)院 安徽 淮南 232001)2(中國(guó)科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院(安徽省立醫(yī)院) 安徽 合肥 230001)3(合肥博諧電子科技有限公司 安徽 合肥 230088)
癌癥是嚴(yán)重威脅人類(lèi)身體健康的疾病之一,癌癥的出現(xiàn)率與死亡率一直居高不下[1],這不但影響著人們的正常生活,而且高額的醫(yī)療費(fèi)用還會(huì)給人們帶來(lái)了巨大的經(jīng)濟(jì)負(fù)擔(dān),為此,越來(lái)越多的研究者開(kāi)始致力于癌癥的診斷與治療方法的研究[2]。其中,乳腺癌的發(fā)病率僅次于肺癌,位于全球癌癥發(fā)病率的第二位[3],對(duì)于惡性腫瘤能夠做到早察覺(jué)、早診斷、提前醫(yī)治,可有效避免癌癥晚期由于癌細(xì)胞擴(kuò)散和轉(zhuǎn)移,而錯(cuò)過(guò)最佳的治療時(shí)期,減少疾病和化療所帶來(lái)的痛苦。
傳統(tǒng)的乳腺癌診斷方法主要是細(xì)針穿刺細(xì)胞法[4],通過(guò)觀察所采集組織切片的異常細(xì)胞來(lái)判斷癌變程度,這種方法需要有資深臨床經(jīng)驗(yàn)的專家進(jìn)行操作,但可能會(huì)由于各種不確定性因素造成錯(cuò)誤診斷的情況時(shí)有發(fā)生。近幾年來(lái),模式識(shí)別的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)知識(shí)已廣泛應(yīng)用于癌癥等醫(yī)療健康的診斷與發(fā)病預(yù)測(cè)[5],并取得了不少的研究成果。如周華平等[6]將分別改進(jìn)視野范圍和移動(dòng)步長(zhǎng)的魚(yú)群算法對(duì)極限學(xué)習(xí)機(jī)進(jìn)行優(yōu)化,建立乳腺腫瘤數(shù)據(jù)學(xué)習(xí)模型,實(shí)現(xiàn)了乳腺腫瘤的快速識(shí)別。該方法雖然識(shí)別速度快,但選取的是所有特征,未能排除低關(guān)聯(lián)性冗余特征及隨機(jī)噪聲的干擾。王平等[7]則利用改進(jìn)的隨機(jī)森林算法搭建乳腺腫瘤診斷模型對(duì)惡性腫瘤進(jìn)行識(shí)別。該方法雖然解決了誤差代價(jià)敏感的不平衡分類(lèi)問(wèn)題,但調(diào)參過(guò)程無(wú)法精確控制模型內(nèi)部的運(yùn)行。林俊等[8]將提取特征后的乳腺癌數(shù)據(jù)用BPSO搜索最優(yōu)子集,支持向量機(jī)建模。該方法雖然達(dá)到了預(yù)期的識(shí)別精度,但耗時(shí)較長(zhǎng)。
SVM-RFE是一種特征提取方法,它可以消除多特征屬性中重要度低的變量信息,減少噪聲的干擾,有利于訓(xùn)練模型的搭建。SVM-RFE已用于網(wǎng)絡(luò)安全、精準(zhǔn)農(nóng)業(yè)、醫(yī)學(xué)等領(lǐng)域的研究,如Sahran[9]將SVM-RFE嵌入過(guò)程與絕對(duì)余弦濾波方法相結(jié)合,對(duì)前列腺組織病理進(jìn)行分級(jí)。王婷[10]利用SVM-RFE對(duì)釣魚(yú)詐騙網(wǎng)站進(jìn)行檢測(cè),預(yù)防網(wǎng)頁(yè)攻擊。陳輝煌[11]采用SVM-RFE對(duì)鮮茶葉的高光譜數(shù)據(jù)進(jìn)行特征波段提取,實(shí)現(xiàn)了鮮茶葉分類(lèi)與識(shí)別。
GWO屬于新型群智能優(yōu)化算法,它主要用于優(yōu)化函數(shù)和聚類(lèi)等問(wèn)題,以提高訓(xùn)練模型的性能,如Abdelshafy[12]采用混合PSO-GWO方法對(duì)可再生能源驅(qū)動(dòng)的并網(wǎng)海水淡化裝置進(jìn)行優(yōu)化設(shè)計(jì)。孫俊[13]將迭代保留信息變量法與GWO優(yōu)化的支持向量回歸模型相結(jié)合,用于檢測(cè)番茄葉片的含水量。劉二輝[14]把改進(jìn)的GWO算法用于小車(chē)的路徑規(guī)劃問(wèn)題研究,實(shí)現(xiàn)了更優(yōu)的路徑自動(dòng)引導(dǎo)機(jī)制。
本文采用SVM-RFE算法先對(duì)乳腺癌數(shù)據(jù)的屬性進(jìn)行特征提取和降維處理,減少了冗余特征及隨機(jī)噪聲的干擾。將GWO與SVC結(jié)合的GWO-SVC優(yōu)化分類(lèi)模型建模用于乳腺癌的預(yù)測(cè)診斷,識(shí)別精度高、模型簡(jiǎn)單,具有應(yīng)用的可行性與實(shí)際推廣價(jià)值。
SVM-RFE是由Isabelle Guyon等提出的數(shù)據(jù)特征提取降維方法[15]。SVM-RFE屬于需要通過(guò)模型的性能進(jìn)行評(píng)價(jià)特征優(yōu)勢(shì)的Wrapper法,RFE算法采取貪心原理先優(yōu)先保留特征集合,利用SVM的最大間隔原理進(jìn)行序列后向選擇,根據(jù)分類(lèi)器權(quán)值ω作為特征排序評(píng)判標(biāo)準(zhǔn)刪選出保留大量重要度高的特征屬性信息。
SVM-RFE消去低重要度特征屬性的步驟如下:
(1) 輸入訓(xùn)練樣本數(shù)據(jù)A={α1,α2,…,αn}T及類(lèi)別標(biāo)簽l={l1,l2,…,ln}T。
(2) 初始化特征屬性集合W={W1,W2,…,Wn}及重新排序的特征屬性集合W*={}。
(3) 用目前的SVM分類(lèi)器對(duì)輸入數(shù)據(jù)進(jìn)行訓(xùn)練,獲取特征屬性的有關(guān)參量信息。
(4) 計(jì)算特征代價(jià)函數(shù):
h(x)=-0.5ATI(-x)A+0.5ATI(x)
(1)
式中:I是一個(gè)具有元素lijK(xi,xj)的矩陣,I(-x)為消除x個(gè)特征后的矩陣,K表示的是xi與xj之間相關(guān)性的核函數(shù)。
(5) 根據(jù)權(quán)值向量ω作為特征重要度排序標(biāo)準(zhǔn),重新排序特征屬性集合。獲得特征屬性排序集合:
(6) 根據(jù)SVM分類(lèi)器訓(xùn)練好的分類(lèi)精度大小對(duì)最終特征屬性進(jìn)行選取,得到消除后的特征屬性集合:
灰狼優(yōu)化(Grey Wolf Optimization, GWO)是由Mirjalili等于2014年提出的一種先進(jìn)的啟發(fā)式群智能優(yōu)化算法[16],主要是仿照灰狼社會(huì)等級(jí)制度及其捕食行為方式所研究出的算法[17]。在訓(xùn)練模型搭建的過(guò)程中,用灰狼優(yōu)化算法優(yōu)化支持向量分類(lèi)(support vector classification, SVC)算法的懲罰系數(shù)c和核函數(shù)參數(shù)g,改變模型性能,得到比較理想的分類(lèi)準(zhǔn)確率。
GWO尋優(yōu)SVC參數(shù)的步驟如下:
(1) 由可行域X={x1,x2,…,xn}生成父代灰狼、突變灰狼和子代灰狼三種規(guī)模相同的原始群體。
(2) 初始化原始狼群的位置,獲取種群中灰狼個(gè)體的適應(yīng)度η,狼群個(gè)體位置由懲罰系數(shù)c和核函數(shù)參數(shù)g組成。
(3) 搜索父代灰狼排名順序前三位的個(gè)體,不斷更新灰狼捕食獵物時(shí)所處位置,可由如下公式計(jì)算:
Q(t+1)=[(Qα-K1|Q-H1Xα|)+(Qβ-K2|Q-
H2Xβ|)+(Qγ-K3|Q-H3Qγ|)]/3
(4)
式中:Qα、Qβ、Qγ表示為灰狼所在位置,K1、K2、K3、H1、H2、H3表示為比例系數(shù)。
(4) 更新參數(shù)Z、V、a的值:
Z=2l2
(5)
V=2cl1-c
(6)
(7)
(5) 輸出的全局最優(yōu)位置即為SVC中的c和g的最優(yōu)值,如果沒(méi)有達(dá)到迭代次數(shù),則返回步驟(3)。
(6) 利用優(yōu)化后的c、g建立SVC模型進(jìn)行分類(lèi)。
為了驗(yàn)證本文所敘述方法的有效性與可行性,采用UCI數(shù)據(jù)庫(kù)中威斯康辛大學(xué)569個(gè)病例的乳腺癌數(shù)據(jù)集,其中有357個(gè)良性腫瘤病例、212個(gè)惡性腫瘤病例。本研究工作選取560個(gè)病例作為研究對(duì)象,其中有350個(gè)良性病例、210個(gè)惡性病例,該數(shù)據(jù)前兩條屬性為病例編號(hào)和診斷結(jié)果,第3~12條屬性特征為乳腺腫瘤病灶組織的細(xì)胞核顯微圖像的量化特征,分別是半徑大小、紋理、周長(zhǎng)、面積、平滑程度、密實(shí)度、凹度、凹點(diǎn)數(shù)、對(duì)稱性、分形維數(shù),其他各屬性依次是量化特征的平均值、標(biāo)準(zhǔn)差、最壞值。仿真實(shí)驗(yàn)針對(duì)后30條特征屬性,診斷結(jié)果作為標(biāo)簽進(jìn)行,最后可以根據(jù)細(xì)胞核顯微圖像的量化特征診斷乳腺癌腫瘤是良性或者是惡性的。
按4∶1的比例把乳腺癌數(shù)據(jù)集560個(gè)病例隨機(jī)劃分成訓(xùn)練集和測(cè)試集,采用順序劃分法,隨機(jī)選取448個(gè)病例樣本作為訓(xùn)練集(良性病例280個(gè)、惡性病例168個(gè)),剩余112個(gè)病例樣本作為測(cè)試集(良性病例70個(gè)、惡性病例42個(gè))。仿真測(cè)試將采用劃分好的訓(xùn)練集和測(cè)試集進(jìn)行數(shù)據(jù)建模實(shí)驗(yàn)。實(shí)驗(yàn)所用電腦的硬件條件為英特爾酷睿i7處理器,4 GB內(nèi)存,Win7系統(tǒng),在軟件MATLAB R2016b環(huán)境下利用算法對(duì)數(shù)據(jù)進(jìn)行仿真測(cè)試,支持向量機(jī)選擇libsvm-mat-3.0工具包運(yùn)行。
SVM模型的默認(rèn)初始懲罰系數(shù)c取值為2,核函數(shù)參數(shù)g取值為1,核函數(shù)類(lèi)型選擇徑向基(RBF)核函數(shù)。為了避免特征屬性數(shù)據(jù)值的差異過(guò)大,對(duì)訓(xùn)練速率和結(jié)果的影響,將數(shù)據(jù)按比例歸一化到[0,1]區(qū)間范圍內(nèi)。現(xiàn)采用SVM-RFE 算法將560個(gè)病例(良性350例、惡性370例)數(shù)據(jù)進(jìn)行次要屬性約簡(jiǎn)工作,如圖1所示,橫坐標(biāo)為屬性條數(shù),縱坐標(biāo)為權(quán)值大小。該統(tǒng)計(jì)圖依據(jù)SVM-RFE算法的訓(xùn)練結(jié)果展現(xiàn)了乳腺癌數(shù)據(jù)30條屬性特征的權(quán)重ω大小,充分反映出乳腺癌各條屬性之間的重要程度存在著明顯差異。可以清楚看到第22條屬性的權(quán)值最大,達(dá)到4.87,重要程度較高的區(qū)域主要集中在第21至25條屬性范圍和28、29條屬性,值都達(dá)到2.5以上,說(shuō)明細(xì)胞核顯微圖像量化特征部分標(biāo)準(zhǔn)差及最壞值涵蓋了數(shù)據(jù)的大量重要信息。而第17至19條屬性和第26條屬性的權(quán)值都在0.1以下,則這些屬性特征重要程度很低。由不同屬性的權(quán)值大小按從大到小排序的方式可得到新的重要度屬性排序?yàn)閧22,21,23,25,28,29,24,2,8,11,1,3,4,7,27,13,10,14,16,15,6,9,5,20,30,12,17,18,19,26}。
圖1 權(quán)值條形統(tǒng)計(jì)圖
因?yàn)榈谝粭l屬性為最后一個(gè)被消去的屬性,也是最重要的屬性,所以要以特征排序中第一條屬性特征為基準(zhǔn),每次按一條屬性特征的量依次增加和擴(kuò)展,組成不同屬性的特征集合。特征屬性與分類(lèi)準(zhǔn)確率關(guān)系如圖2所示,橫坐標(biāo)為屬性條數(shù),縱坐標(biāo)為支持向量機(jī)分類(lèi)準(zhǔn)確率。當(dāng)選擇的屬性集合從1條增廣到4條特征時(shí),訓(xùn)練集和測(cè)試集的準(zhǔn)確率迅速增加且增幅很大。再由4條擴(kuò)展到6條屬性特征時(shí),訓(xùn)練集和測(cè)試集的準(zhǔn)確率發(fā)生輕微下降的現(xiàn)象。最后當(dāng)由6條屬性特征擴(kuò)展到18條屬性特征時(shí),訓(xùn)練集和測(cè)試集的準(zhǔn)確率達(dá)到最大值,后面屬性特征的準(zhǔn)確率都開(kāi)始慢慢趨于穩(wěn)定。
圖2 特征屬性與分類(lèi)準(zhǔn)確率關(guān)系
觀察到前18條屬性特征的分類(lèi)準(zhǔn)確率結(jié)果值整體呈上升趨勢(shì),當(dāng)訓(xùn)練集的準(zhǔn)確率在嵌套特征屬性集合為{22,21,23,25,28,29,24,2,8}時(shí)首次增長(zhǎng)到最大值98.21%,其中有8個(gè)病例誤判,而測(cè)試集的準(zhǔn)確率在屬性集合選擇為{22,21,23}時(shí),首次達(dá)到最大值98.21%,其中有2個(gè)病例誤判,之后在選擇屬性集合為{22,21,23,25,28,29,24,2,8,11,1,3,4,7,27,13,10,14}時(shí),測(cè)試集準(zhǔn)確率第二次達(dá)到最大值98.21%。從提高預(yù)測(cè)精度角度來(lái)看,特征提取就是要選擇特征子集來(lái)增加分類(lèi)精度,或者在不降低分類(lèi)精度的條件下降低特征集維數(shù)的過(guò)程[18]。因此,最高預(yù)測(cè)精度對(duì)應(yīng)的最小特征子集,即為該特征排序的最優(yōu)特征子集,并根據(jù)奧卡姆剃刀原則(使訓(xùn)練模型不太復(fù)雜)[19],最終選取包含18條屬性的集合作為SVM-RFE所約簡(jiǎn)出的最優(yōu)特征子集,較全部屬性減少了12個(gè)。
利用上述SVM-RFE所約簡(jiǎn)出的18條屬性特征乳腺癌數(shù)據(jù)作為輸入,診斷結(jié)果作為標(biāo)簽,搭建GWO-SVC模型,分析乳腺癌診斷判別結(jié)果。GWO中的初始狼群數(shù)量設(shè)為10,最大迭代次數(shù)設(shè)為20代,懲罰系數(shù)c和核函數(shù)參數(shù)g搜索區(qū)間為[0,100]。最后CV意義下的最佳交叉驗(yàn)證精度為89.28%,訓(xùn)練集的分類(lèi)結(jié)果如圖3所示,診斷類(lèi)別標(biāo)號(hào)0代表良性,1代表惡性,訓(xùn)練集分類(lèi)準(zhǔn)確率為99.33%,3個(gè)病例識(shí)別錯(cuò)誤。測(cè)試集的分類(lèi)結(jié)果如圖4所示,可以看出測(cè)試集僅有一個(gè)病例識(shí)別錯(cuò)誤,為第73個(gè)病人,測(cè)試集分類(lèi)準(zhǔn)確率高達(dá)99.11%,表明該方法很好地適用于乳腺惡性腫瘤識(shí)別檢測(cè)。
圖3 訓(xùn)練集分類(lèi)結(jié)果圖
圖4 測(cè)試集分類(lèi)結(jié)果圖
為了驗(yàn)證GWO-SVC模型結(jié)合RFE-SVM算法用于乳腺腫瘤診斷的識(shí)別精度與診斷效果,本文將與特征提取18條屬性的未優(yōu)化支持向量機(jī)分類(lèi)結(jié)果進(jìn)行縱向?qū)Ρ?,與布谷鳥(niǎo)(CS)、人工蜂群(ABC)、螢火蟲(chóng)(FA)、粒子群(PSO)、遺傳算法(GA)這幾種群智能算法優(yōu)化的支持向量機(jī)分類(lèi)結(jié)果進(jìn)行橫向?qū)Ρ?,利用MATLAB R2016b軟件對(duì)UCI數(shù)據(jù)集中乳腺癌數(shù)據(jù)提取18條屬性后的數(shù)據(jù)進(jìn)行算法仿真測(cè)試。為了保證條件統(tǒng)一,初始種群數(shù)量都設(shè)置為10,迭代次數(shù)都設(shè)置為20。數(shù)據(jù)未歸一化的對(duì)比分類(lèi)結(jié)果如表1所示,雖然各建模方法訓(xùn)練集的準(zhǔn)確率達(dá)到100%,但是測(cè)試集的準(zhǔn)確率很低,平均準(zhǔn)確率僅有63.01%,因?yàn)槿橄倌[瘤顯微圖像半徑大小、紋理、周長(zhǎng)、面積,這4個(gè)量化特征數(shù)據(jù)值都遠(yuǎn)大于其他量化特征值,造成訓(xùn)練時(shí)間增大,也導(dǎo)致最終無(wú)法收斂,識(shí)別精度不高。
表1 未歸一化的對(duì)比分類(lèi)結(jié)果
表2為歸一化到[0,1]區(qū)間的對(duì)比分類(lèi)結(jié)果表,可以看到雖然ABC算法能使訓(xùn)練集分類(lèi)準(zhǔn)確率達(dá)到100%,但測(cè)試集分類(lèi)準(zhǔn)確率要小于GWO和CS,且訓(xùn)練時(shí)間較長(zhǎng)。GWO和CS算法在測(cè)試集建模中準(zhǔn)確率最高,都僅有一個(gè)病例識(shí)別錯(cuò)誤,模型的預(yù)測(cè)性能得到提升,但GWO-SVC模型的訓(xùn)練時(shí)間要明顯快于CS-SVC。綜合分類(lèi)準(zhǔn)確率和時(shí)間來(lái)看,最終的GWO-SVC模型用于乳腺腫瘤的診斷是可靠且有效的。通過(guò)比較表2和表3可以看出,經(jīng)過(guò)[0,1]歸一化后數(shù)據(jù)所建立模型在訓(xùn)練速度及精度上都有所提高。
表2 歸一化的對(duì)比分類(lèi)結(jié)果
良好的泛化性能可保證訓(xùn)練模型的可靠性,本文所用算法如果對(duì)于不同數(shù)據(jù)集都能取得良好的分類(lèi)效果,則可體現(xiàn)出該算法有較強(qiáng)的適應(yīng)能力與泛化性能?,F(xiàn)采用UCI數(shù)據(jù)庫(kù)中的106個(gè)乳腺樣本的電阻抗特性數(shù)據(jù)進(jìn)行算法泛化性能的驗(yàn)證,樣本分為病變組織和正常組織,隨機(jī)劃分成80個(gè)訓(xùn)練集(正常40個(gè)、病變40個(gè))和26個(gè)測(cè)試集(正常12個(gè)、病變14個(gè)),使用MATLAB R2016b軟件將劃分好的樣本先進(jìn)行SVM-RFE屬性約簡(jiǎn),再利用GWO-SVC建模(統(tǒng)一采用[0,1]歸一化處理),與未經(jīng)優(yōu)化的SVC對(duì)比分類(lèi)結(jié)果如表3所示。不管是訓(xùn)練集還是測(cè)試集的準(zhǔn)確率都高于普通SVC,訓(xùn)練集準(zhǔn)確率提升了18.75%,全部分類(lèi)正確,測(cè)試集準(zhǔn)確率提升了11.53%,僅一個(gè)樣本錯(cuò)分,耗時(shí)僅需約0.79 s,滿足癌癥診斷的分類(lèi)精度和時(shí)間,而未經(jīng)參數(shù)優(yōu)化的SVC分類(lèi)準(zhǔn)確率都不高,可能發(fā)生了欠擬合。
表3 對(duì)比分類(lèi)結(jié)果
本文先通過(guò)SVM-RFE對(duì)乳腺癌數(shù)據(jù)集的30條屬性進(jìn)行重要特征提取,并結(jié)合GWO-SVC算法建立乳腺腫瘤診斷模型,最后對(duì)比不同種建模方法下分類(lèi)結(jié)果不難發(fā)現(xiàn):
(1) 利用SVM-RFE法所約簡(jiǎn)出18條屬性就可以代表30條屬性信息的重要特征,排除了次要屬性數(shù)據(jù)干擾,簡(jiǎn)化了模型的復(fù)雜程度,增強(qiáng)了學(xué)習(xí)效率。
(2) 在訓(xùn)練過(guò)程中,GWO優(yōu)化的c、g參數(shù)用于SVC的乳腺腫瘤診斷建模不僅擁有很高的識(shí)別精度,避免過(guò)擬合及欠擬合的發(fā)生,還保證了高精度下的快速診斷,節(jié)省了時(shí)間。歸一化后的數(shù)據(jù)擺脫了樣本數(shù)據(jù)差異過(guò)大的影響,加快了最優(yōu)解速度,提高了分類(lèi)精度。
(3) GWO-SVC模型適應(yīng)能力、可靠性強(qiáng),泛化性能和魯棒性好,不僅適用于乳腺腫瘤的惡性識(shí)別,還適用于乳腺病變組織等其他癌癥疾病的識(shí)別。
(4) SVM-RFE結(jié)合GWO-SVC算法應(yīng)用于乳腺腫瘤診斷是可行的,使惡性腫瘤做到早發(fā)現(xiàn)、早診斷、早治療,對(duì)于癌癥能取得良好的醫(yī)治效果。