牛向陽
(阜陽師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,安徽阜陽 236037)
基于PCA算法和GA-BP算法的混合算法
牛向陽
(阜陽師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,安徽阜陽 236037)
研究PCA算法、GA和BP算法的機理,分析三種算法的優(yōu)缺點,結(jié)合PCA算法降維優(yōu)點及GA全局尋優(yōu)與BP算法快速收斂的特點,將主成分進(jìn)行實數(shù)編碼,將網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行二進(jìn)制編碼,并在遺傳操作中嵌入BP算子,將三種算法進(jìn)行耦合,提出一種新的混合算法,就財政能力綜合評價問題進(jìn)行實驗,實驗結(jié)果表明混合算法明顯優(yōu)于GA和BP算法。
PCA算法;GA;BP算法;財政能力評價
隨著信息技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計算技術(shù)的不斷發(fā)展,統(tǒng)計手段已經(jīng)發(fā)生了重大變化,如何創(chuàng)新統(tǒng)計理論方法是近年來統(tǒng)計工作研究的一個重點。統(tǒng)計算法有經(jīng)典統(tǒng)計算法及現(xiàn)代統(tǒng)計算法,統(tǒng)計算法具有直觀性、可操作性、擬合性的優(yōu)點,能實現(xiàn)抽樣分布的動態(tài)模擬,應(yīng)用范圍廣泛。但由于科技的發(fā)展及人類收集數(shù)據(jù)能力的提高,越來越復(fù)雜的數(shù)據(jù)處理問題給統(tǒng)計算法提出越來越高的要求,統(tǒng)計能力的提升、數(shù)據(jù)質(zhì)量的提高、應(yīng)用范圍的拓廣需要新統(tǒng)計算法的產(chǎn)生。仿生智能算法是一類新型的仿生類進(jìn)化算法,仿生智能算法主要包括遺傳算法、神經(jīng)網(wǎng)絡(luò)、蟻群算法、粒子群算法等,仿生智能算法具有較強的魯棒性,采用分步計算機制,易于實現(xiàn)。為提升統(tǒng)計能力、促進(jìn)統(tǒng)計工作的科學(xué)發(fā)展,本文在研究統(tǒng)計算法中的主成分分析法與仿生智能算法中的遺傳算法、BP算法的基礎(chǔ)上,剖析三類算法各自的優(yōu)點與缺陷,研究算法的耦合策略,提出一種新的混合算法。
主成分分析法又稱主分量分析法,其原理主要通過降維,將多個有著一定關(guān)聯(lián)的指標(biāo)化為少數(shù)相對獨立的綜合指標(biāo)的現(xiàn)代統(tǒng)計方法。主成分分析法是一種多變量分析法,能將多個具有錯綜復(fù)雜關(guān)系的指標(biāo)歸結(jié)為少數(shù)幾個主成分,每個主成分既綜合了原來指標(biāo)的信息,舍去重疊的部分,又能凸顯出原始指標(biāo)間的差異,便于對研究對象進(jìn)行直觀的分析與討論。其計算步驟如下:
Step1構(gòu)建原始樣本數(shù)據(jù)矩陣 (xij)(n×m);
Step2對原始樣本數(shù)據(jù)標(biāo)準(zhǔn)化得 (yij)(n×m);
Step3計算相關(guān)系數(shù)矩陣及相應(yīng)的主成分λi;
Step5應(yīng)用主成分進(jìn)行綜合評價與分析。
主成分分析法具有降低維數(shù)的優(yōu)點,缺陷在于當(dāng)數(shù)據(jù)過多或者當(dāng)變量的相關(guān)系數(shù)較大時,存在評價意義不明確的缺陷[1-3]。
GA是模擬生物進(jìn)化得到的啟發(fā)式優(yōu)化算法,是一種近代智能算法,遺傳算法主要借用“遺傳變異”、“適者生存”等思想,將優(yōu)化問題的解編碼為染色體,染色體的元素稱為基因,由隨機產(chǎn)生的染色體組成種群,再構(gòu)造出相應(yīng)的適應(yīng)度函數(shù),運用遺傳交叉變異操作得到新的種群,循環(huán)上述過程,不斷進(jìn)行迭代,最后通過解碼,使得最優(yōu)的染色體成為優(yōu)化問題的解,其計算步驟如下:
Step1對研究對象進(jìn)行編碼:對結(jié)構(gòu)進(jìn)行0/1編碼,對網(wǎng)絡(luò)權(quán)值進(jìn)行實數(shù)編碼;
Step2適應(yīng)度函數(shù):采用染色體與其編碼的歐拉距離平方和即誤差平方和的倒數(shù)作為適應(yīng)度函數(shù),誤差平方和越小越精確;
Step3交叉:對染色體結(jié)構(gòu)進(jìn)行交叉時主要采用0位與1位互換,對染色體權(quán)值進(jìn)行交叉時,主要采用連接兩點x1,x2的隨機線性變換kx1+(1-k)x2,0<k<1;
Step4變異:對染色體結(jié)構(gòu)部分采用二進(jìn)制變異算子,對染色體權(quán)值部分采用均勻變異算子;
Step5返回Step3,直到滿足給定的中止條件。
GA具有全局尋優(yōu)和隱含并行的優(yōu)點,但收效速度相對較慢,當(dāng)原始變量較多時,編碼與解碼較為困難[4-5]。
BP算法是把輸出層的誤差向輸入層反向傳播,以調(diào)整權(quán)值、優(yōu)化結(jié)構(gòu)的誤差修正方法。BP算法主要依據(jù)BP神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)主要有輸入層、隱層和輸出層。學(xué)習(xí)規(guī)則是最速下降法,基本思想是當(dāng)輸出層的實際輸出與期望的輸出不符時,將誤差由輸出層通過隱層向輸入層逐層反向傳播,依據(jù)分?jǐn)偨o各層所有單元的誤差信號,修正各單元權(quán)值,正向傳播與反向傳播不斷往復(fù),不斷調(diào)整結(jié)構(gòu),直到輸出的誤差達(dá)到預(yù)定的精度。其計算步驟如下:
Step1對目標(biāo)進(jìn)行初始化;
Step2計算輸入層、隱層、輸出層權(quán)值與閾值;
Step3計算網(wǎng)絡(luò)輸出誤差;
Step4調(diào)整各層權(quán)值;
Step5計算網(wǎng)絡(luò)總誤差;
Step6總誤差達(dá)到精度時訓(xùn)練結(jié)束,總誤差達(dá)不到精度返回Step2。
BP算法收斂速度較快,但容易陷入局部極小值,當(dāng)網(wǎng)絡(luò)的規(guī)模增大到一定的程度時,學(xué)習(xí)時間增加幅度較大,此時網(wǎng)絡(luò)的在線適應(yīng)性較差[6-7]。
針對PCA算法的多樣本評價意義不明確、GA的收斂速度相對較慢、BP算法的易于陷入局部極值的缺陷,本文利用GA隱含并行的特點,汲取三種算法的優(yōu)點,將三種算法進(jìn)行耦合,提出一種新的混合算法。具體計算步驟如下:
Step1用主成分分析法對原始數(shù)據(jù)進(jìn)行優(yōu)化;
Step2取累計貢獻(xiàn)率大于80%的前面幾個主成分進(jìn)行編碼;
Step3利用交叉、變異等遺傳算子進(jìn)行訓(xùn)練得到新的種群;
Step4利用BP算法優(yōu)化新的種群;
Step5計算網(wǎng)絡(luò)平均誤差,若達(dá)到訓(xùn)練進(jìn)度,迭代結(jié)束,不然返回Step3。
混合算法先利用主成分分析法對原始數(shù)據(jù)進(jìn)行優(yōu)化,汲取其降維的優(yōu)點,將多個有一定關(guān)聯(lián)的指標(biāo)優(yōu)化為少數(shù)的幾個主成分,降低了輸入的維數(shù)。再利用遺傳算法進(jìn)行訓(xùn)練,為了能夠很好地結(jié)合BP算法快速收斂的特點,我們將權(quán)值與結(jié)構(gòu)混合編碼到串中,使得優(yōu)化問題既能夠向著全局最優(yōu)的方向進(jìn)行迭代,又能在逼近權(quán)值時,得到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。最后利用優(yōu)化后的BP網(wǎng)絡(luò)結(jié)合遺傳算子進(jìn)行迭代,不僅能夠跳出局部極值,而且收斂速度會更加迅速,這樣往復(fù)進(jìn)行,以達(dá)到最優(yōu)結(jié)果。
財政能力是評價某地區(qū)財政狀況一個重要的依據(jù)。財政能力涉及因素很多,各因素間往往又存在一定聯(lián)系,因此對其進(jìn)行科學(xué)評價比較困難,目前常用的評價方法有模糊評價法、BP算法、主成分分析法。模糊評價法采取模糊評判規(guī)則,存在著信息遺失的缺陷;BP算法是誤差修正的反向傳播法,存在著陷入?yún)^(qū)域極值的缺陷;主成分分析法采用降維的思想,存在著評價意義不明確的缺陷[2,6,8-11]。應(yīng)用我們提出的混合算法,先利用主成分分析法求出累計貢獻(xiàn)率如表1(原始數(shù)據(jù)及相關(guān)系數(shù)矩陣見文[3])。
表1 前10個主成分的累積貢獻(xiàn)率
從表1得知前三個主成分的累計貢獻(xiàn)率已經(jīng)超過80%,我們可以選擇前三個主成分作為神經(jīng)網(wǎng)絡(luò)的輸出變量。輸入層為51個神經(jīng)元,隱層節(jié)點數(shù)為12,輸出層為1個神經(jīng)元,交叉概率為0.85,變異概率為0.05,精度為0.006,利用本文提出的混合算法進(jìn)行計算,計算結(jié)果與GA及BP算法比較如表2。
表2 三種算法運行結(jié)果比較
從表2得知混合算法因首先用了主成分分析法,因此輸入變量個數(shù)得到了減少,由于混合算法將結(jié)構(gòu)及權(quán)值混合編碼到串中,所以在逼近最優(yōu)權(quán)值的同時,網(wǎng)絡(luò)結(jié)構(gòu)得到了優(yōu)化,混合算法的運行時間、平均誤差均小于GA和BP算法,因此在進(jìn)行財政能力評價時優(yōu)于GA和BP算法,特別當(dāng)評價的地區(qū)較多及影響地區(qū)財政能力相關(guān)因素個數(shù)較多時,即對于多變量大樣本事件,混合算法會起到好的效果,但本文僅僅對于財政能力評價問題的個案進(jìn)行研究,比較參數(shù)也只是選擇運行時間,網(wǎng)絡(luò)結(jié)構(gòu)及誤差精度,對于泛化能力的探討,復(fù)雜度的計算,數(shù)學(xué)原理的推導(dǎo),以及其他優(yōu)化問題的編碼方案,適應(yīng)度函數(shù)的構(gòu)造,三種算法的耦合方式等方面仍有待研究。
[1]李玉珍,王宜懷.主成分分析及算法[J].蘇州大學(xué)學(xué)報:自然科學(xué)版,2005,21(1):32-36.
[2]羅 毅,劉 峰,劉向杰.基于主成分-遺傳神經(jīng)網(wǎng)絡(luò)的短期風(fēng)電功率預(yù)測[J].電力系統(tǒng)保護與控制,2012,40(23):47-53.
[3]蔣 浩,洪 麗,張國江.主成分分析結(jié)合神經(jīng)網(wǎng)絡(luò)的光伏發(fā)電量預(yù)測[J].電力系統(tǒng)及其自動化學(xué)報,2013,25(6):101-105.
[4]江 勇,徐 瓊,王艷紅,等.求解多目標(biāo)TSP的降冪編碼遺傳算法[J].計算機工程與設(shè)計,2014,35(6): 1988-1993,2003.
[5]李炯城,王陽洋,李桂愉,等.快速收斂的混合遺傳算法[J].計算機工程與設(shè)計,2014,35(2):686-689,699.
[6]倪前月,牛向陽.基于遺傳算法和BP算法的混合算法[J].阜陽師范學(xué)院學(xué)報(自然科學(xué)版),2002,19 (1):19-19,25.
[7]姚明海.改進(jìn)的遺傳算法在優(yōu)化BP網(wǎng)絡(luò)權(quán)值中的應(yīng)用[J].計算機工程與應(yīng)用,2012,49(24):49-54.
[8]牛向陽,倪前月.安徽各市財政能力的統(tǒng)計比較分析[J].統(tǒng)計教育,2008(5):51-52.
[9]張永利.主成分分析和因子分析在省域經(jīng)濟綜合競爭力排序中的應(yīng)用[J].牡丹江師范學(xué)院學(xué)報(自然科學(xué)版),2012(3):9-10.
[10]姚 磊.基于主成分分析的中部六省地區(qū)經(jīng)濟發(fā)展?fàn)顩r分析[J].商場現(xiàn)代化,2012(26):80-81.
[11]劉 歌.我國沿海省市經(jīng)濟發(fā)展綜合實力的主成分分析[J].科技視界,2014(1):139-140.
A hybrid algorithm based on PCA algorithm and GA-BP algorithm
NIU Xiang-yang
(School of Mathematics and Statistics,F(xiàn)uyang Teachers College,F(xiàn)uyang236037,China)
The mechanisms and advantages and disadvantages of PCA and GA and BP algorithm have been researched.The characteristics of PCA to reduce the dimension and the characteristic of GA to optimize the whole and the characteristic of BP algorithm to converge quickly have been combined.By embedding BP operator into GA,a new hybrid algorithm is put forward.The comprehensive evaluation of the fiscal capacity has been experimented.The results show that the hybrid algorithm is superior to GA and BP algorithm.
PCA algorithm;GA;BP algorithm;fiscal capacity evaluation
O221.1
:A
:1004-4329(2015)01-013-03
2014-11-10
全國統(tǒng)計科學(xué)計劃項目(2012LY190,2013LY093)資助。
牛向陽(1976-),男,碩士,副教授。研究方向:概率統(tǒng)計。