張 瓊 丁衛(wèi)平 景 煒 余利國
(南通大學(xué)計算機科學(xué)與技術(shù)學(xué)院 南通 226019)
據(jù)國家衛(wèi)生局不完全統(tǒng)計,帕金森疾病已成為繼腫瘤、心腦血管疾病之后影響中老年人健康的第三大高危疾病,且患病人數(shù)比例正逐年增加。帕金森疾病[1]是由于中腦黑質(zhì)多巴胺神經(jīng)元的死亡,紋狀體DA含量顯著性減少以及黑質(zhì)殘存神經(jīng)元胞質(zhì)內(nèi)出現(xiàn)嗜酸性包涵體導(dǎo)致的一種神經(jīng)性系統(tǒng)疾病。目前,根據(jù)中國帕金森疾病的診斷標(biāo)準(zhǔn)[2],這類疾病的診斷方法主要包括以下幾類:傳統(tǒng)方法是醫(yī)生直接通過判斷病人臨床表現(xiàn)出的靜止性震顫[3]、運動遲緩、肌強直[4]和姿勢步態(tài)障礙[5]等特征來得出診斷結(jié)果。但由于輕癥患者初期臨床表現(xiàn)不明顯,醫(yī)生僅通過行為特性不能夠作出準(zhǔn)確的判斷,容易導(dǎo)致漏診、誤診的發(fā)生。為了提高診斷的精準(zhǔn)度,現(xiàn)階段醫(yī)院采用影像技術(shù)[6]來作為醫(yī)生診斷的輔助手段。影像診斷技術(shù)主要通過腦血流、神經(jīng)遞質(zhì)、轉(zhuǎn)運體、黑質(zhì)回聲改變的影像來辨別病人是否患病。雖然影像技術(shù)提高了帕金森疾病的診斷精準(zhǔn)度,但是卻帶來了高昂的醫(yī)療成本。隨著機器學(xué)習(xí)[7]的發(fā)展,研究者們針對以上傳統(tǒng)診斷方法出現(xiàn)的問題,提出了一種將計算機技術(shù)與醫(yī)療數(shù)據(jù)相結(jié)合的分析方法,來提高帕金森疾病的診斷正確率以及降低醫(yī)療成本。如雷少正等[8]針對醫(yī)生診斷效率不高的問題,提出了基于主成分分析的帕金森量表優(yōu)化算法來診斷帕金森病。該算法采用主成分分析方法減少大量交叉重復(fù)的量表,再通過支持向量機來進行分類,以此提高醫(yī)生的診斷效率。但是此方法只對醫(yī)生初次診斷帕金森病有幫助,如果想更詳細地確定癥狀的輕重,則需要采用傳統(tǒng)的量表方法。如李勇明等[9]提出了基于語音樣本重復(fù)剪輯和隨機森林的帕金森病診斷算法研究。該算法對剪輯優(yōu)化后的樣本采用隨機森林算法對帕金森數(shù)據(jù)樣本進行分類診斷,達到了較好的分類準(zhǔn)確度,但該方法語音特征較多,效率低下。如王金甲等[10]提出的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的帕金森步態(tài)識別方法,通過捕捉行動人的步態(tài)信息,經(jīng)過深度卷積神經(jīng)網(wǎng)絡(luò),來匹配帕金森患者信息,但由于人的形體姿勢多樣,存在較大的噪聲干擾。
針對上述問題,本文則提出一種基于改進的PSO-SVM算法,將該算法應(yīng)用在帕金森疾病中,并與 GA-SVM[11]算法和 PSO-SVM[12]算法在帕金森數(shù)據(jù)上的結(jié)果進行對比,證明IMPSO-SVM算法能對帕金森疾病進行快速有效地判斷,提高了醫(yī)生對帕金森疾病的診斷準(zhǔn)確性,降低誤判的發(fā)生。
粒子群優(yōu)化的支持向量機算法是通過粒子群優(yōu)化算法[13]對支持向量機[14]參數(shù)進行優(yōu)化并尋得最優(yōu)組合的過程。該算法描述如下:對于給定的N個種群,在M維度的探索空間里,其中第i(i∈N)i個種群中粒子的坐標(biāo)為 Xi=(xi1,xi2,…,xim),移動的速度為 Vi=(vi1,vi2,…,vim),個體的極值為 Pi=(pi1,pi2,…,pim),全局的極值為 Pg=(pg1,pg2,…,pgm),則粒子的速度計算公式如下:
其中,w為慣性權(quán)重,在傳統(tǒng)的粒子群優(yōu)化算法中是固定不變的,k為當(dāng)前迭代次數(shù),c1和c2是學(xué)習(xí)因子,pgm代表整個種群中全局最優(yōu)位置,pim代表著當(dāng)前粒子的最佳位置,在兩個不同的 pgm之間,局部粒子的最佳位置會隨著全局最優(yōu)位置來進行改變。類似的,在當(dāng)前不同的位置 pim之間,全局位置的粒子也隨著當(dāng)前種群的最佳位置改變而改變。當(dāng)前粒子的位置被調(diào)整通過下面的公式:
將優(yōu)化后尋得的局部最優(yōu)解和全局最優(yōu)解作為支持向量機的核函數(shù),懲罰系數(shù),代入到支持向量機的目標(biāo)函數(shù)中:
針對上述粒子群優(yōu)化的支持向量機算法中式(1)的慣性權(quán)重w和學(xué)習(xí)因子c1和c2都是人憑借主觀經(jīng)驗來設(shè)定的,而根據(jù)不同的數(shù)據(jù)集,數(shù)據(jù)之間的多樣性,不可能每次的參數(shù)都是最優(yōu)的,并且不當(dāng)?shù)膮?shù)容易導(dǎo)致粒子群優(yōu)化算法對支持向量機優(yōu)化過程中粒子過早成熟陷入局部最優(yōu)解的問題。因此本文提出的改進算法是通過改變粒子的慣性權(quán)重和學(xué)習(xí)因子來提高算法的性能。
本文的主要改進思想是對不同性能的粒子分配不同的慣性權(quán)重,對性能較好的粒子采用較大的慣性權(quán)值,讓其主要負責(zé)更優(yōu)區(qū)域的探索,不斷更新 pg,來探索全局中最優(yōu)的解;而對性能較差的粒子則采用較小的慣性權(quán)值,讓其迅速收斂致局部最優(yōu)解附近。該改進算法的具體做法是:將粒子按其個體最優(yōu)位置從最優(yōu)到劣進行排序,其中排在第i位粒子的慣性權(quán)重及相應(yīng)學(xué)習(xí)因子的表達式如下:
其中,wmax和wmin分別為預(yù)定義的最大與最小慣性權(quán)重,m為種群規(guī)模,學(xué)習(xí)因子c1i和c2i根據(jù)慣性權(quán)重wi動態(tài)的調(diào)整。該方法可以在每一步進化中都較好地平衡全局與局部探索能力。通過把優(yōu)化后的局部最優(yōu)位置和全局最優(yōu)位置來作為最優(yōu)的懲罰系數(shù)C和核函數(shù)γ,并通過適應(yīng)度來評價粒子的性能,適應(yīng)度越高代表粒子探索能力越強。適應(yīng)度函數(shù)如下所示:
其中accurary是支持向量機的預(yù)測模型精度,是通過對訓(xùn)練數(shù)據(jù),訓(xùn)練標(biāo)簽進行建模,其中交互驗證模式的系數(shù)為3,懲罰系數(shù)為,核函數(shù)為。
因此改進后的粒子群速度計算公式如下所示:
其中 wi和 c1i,c2i分別如式(5)和式(6)表示。
隨機將帕金森數(shù)據(jù)的三分之二分為訓(xùn)練數(shù)據(jù)集Train,三分之一的分為測試數(shù)據(jù)集Test。
輸出:預(yù)測的精確度,算法的執(zhí)行時間。
Step1:根據(jù)min-max標(biāo)準(zhǔn)化對Train和Test數(shù)據(jù)進行歸一化處理,并標(biāo)記為訓(xùn)練集和測試集;
Step2:初始化粒子群算法的位置和速度;
Step3:根據(jù)式(7)計算粒子群算法的適應(yīng)度函數(shù)值;
Step4:通過式(5)和式(6)來對每個帕金森粒子的慣性權(quán)重和學(xué)習(xí)因子進行改進;
Step5:當(dāng)獲得滿足的優(yōu)化條件或達到最大迭代次數(shù)時,終止該過程,得出懲罰系數(shù)C和核函數(shù)γ的最優(yōu)解,執(zhí)行Step7,否則執(zhí)行Step6;
Step6:更新當(dāng)前粒子的速度和位置,跳轉(zhuǎn)到Step3,重新計算適應(yīng)度值;
Step8:將Step1中的訓(xùn)練數(shù)據(jù)集D1和支持向量機最優(yōu)參數(shù)組合,構(gòu)建支持向量機模型;
Step9:通過支持向量機模型預(yù)測測試數(shù)據(jù)集D2的預(yù)測精度;
下面是該算法的詳細流程圖:
圖1 IMPSO-SVM算法流程圖
本文所使用的數(shù)據(jù)是由 Little[15~16]等提供的一組帕金森疾病語音數(shù)據(jù)集,是通過觀察帕金森患者的語音臨床表現(xiàn)特征提取而來。該數(shù)據(jù)獲取了31個人的195份語音樣本并從中提取23個語音特征,其中23人為帕金森患者,8人為健康患者。如表1詳細地描述了帕金森數(shù)據(jù)的數(shù)據(jù)屬性。
為了證明IMPSO-SVM算法能更好地識別帕金森病的效果,本文引入了兩種經(jīng)典機器學(xué)習(xí)算法作為對照實驗:一種是采用原始的粒子群優(yōu)化的支持向量機(PSO-SVM),另一種是采用遺傳算法優(yōu)化的支持向量機(GA-SVM)。將這三種算法分別的運用在帕金森數(shù)據(jù)上,實驗結(jié)果如圖2所示。
表1 提取的主要語音特征及描述
圖2 三種算法對帕金森數(shù)據(jù)的平均適應(yīng)度圖
適應(yīng)度的大小決定了群體內(nèi)基因型機體存活并將其基因傳遞至下一代的相對能力。適應(yīng)度越大,存活和生殖機會也就越高,越不容易過早的成熟。由圖2可知,改進算法的平均適應(yīng)度值整體優(yōu)于另外兩種對比算法的平均適應(yīng)度值,表明改進算法在帕金森數(shù)據(jù)中,粒子繁殖能力更強,越不容易成熟收斂。
圖3 三種算法對帕金森數(shù)據(jù)的最佳適應(yīng)度圖
最佳適應(yīng)度值表示在粒子群優(yōu)化過程中,得出的最佳粒子的適應(yīng)度值。最佳適應(yīng)度值越高代表對支持向量機參數(shù)優(yōu)化的效果越好,越有利于支持向量機對帕金森數(shù)據(jù)做出準(zhǔn)確的預(yù)測。如圖3所示,IMPSO-SVM算法在一開始時就表現(xiàn)出很強的探索能力,經(jīng)過數(shù)次進化后,明顯地高于另外兩組算法,表明該改進算法對帕金森數(shù)據(jù)的預(yù)測值更加準(zhǔn)確。通過表2,可以看出三種算法在帕金森數(shù)據(jù)上的性能優(yōu)劣。
表2 三種算法對帕金森數(shù)據(jù)集的實驗結(jié)果對比
通過不同的試驗方法在對帕金森數(shù)據(jù)的應(yīng)用中可以看出,在預(yù)測精確度上,IMPSO-SVM相比PSO-SVM高出13.51%,比GA-SVM高出10.81%;在執(zhí)行效率上,IMPSO-SVM相比PSO-SVM節(jié)省了1.67s,比GA-SVM節(jié)省了1.81s。出現(xiàn)這種實驗結(jié)果的原因是由于對性能較好的粒子分配較大的慣性權(quán)重,有利于探索出全局最優(yōu)解,避免了過早成熟,提高了支持向量機的準(zhǔn)確度;對性能較差的粒子分配較小的慣性權(quán)重,使其快速收斂到局部最優(yōu)解,節(jié)省了優(yōu)化時間,提高了算法的執(zhí)行效率。
帕金森疾病在中老年人群中的比例正逐年增加,對患者及家庭造成了嚴(yán)重的影響。如何做到早發(fā)現(xiàn)早治療,對患者的康復(fù)起到關(guān)鍵性的的作用。而本文則針對目前醫(yī)生對帕金森疾病診斷出現(xiàn)的誤診、漏診等問題,提出了一種基于改進的PSO-SVM算法對帕金森疾病診斷,用以提高對帕金森疾病的準(zhǔn)確識別精度。該算法對不同性能的粒子動態(tài)分配慣性權(quán)重和學(xué)習(xí)因子,來提高支持向量機模型的學(xué)習(xí)能力和泛化能力。并通過實驗表明,IMPSO-SVM算法在對帕金森疾病診斷方面,與另外兩組算法相比,無論在預(yù)測精度,還是在執(zhí)行效率上都有了很大提高,證明IMPSO-SVM算法可作為輔助醫(yī)生診斷帕金森疾病的有效方法。由于帕金森臨床數(shù)據(jù)表現(xiàn)多樣,而本文只是針對帕金森語音臨床數(shù)據(jù)進行的分析,為進一步提高帕金森診斷精確,下一步將針對帕金森綜合臨床數(shù)據(jù)來進行診斷研究。