林勵(lì)莉,王 濤,林 拉
(華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州 510631)
基于推進(jìn)學(xué)習(xí)策略的對(duì)傳神經(jīng)網(wǎng)絡(luò)
林勵(lì)莉,王 濤,林 拉*
(華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州 510631)
結(jié)合Adaboost算法的加權(quán)投票機(jī)制,提高對(duì)傳神經(jīng)網(wǎng)絡(luò)CPN(Counterpropagation Networks)的學(xué)習(xí)效率,提出新型快速分類算法(簡(jiǎn)稱為ACPN).實(shí)驗(yàn)證明,新算法的學(xué)習(xí)最小誤差比傳統(tǒng)CPN算法下降了96%,訓(xùn)練時(shí)間同比下降44%,網(wǎng)絡(luò)訓(xùn)練階段誤差下降趨勢(shì)明顯穩(wěn)定.
對(duì)傳神經(jīng)網(wǎng)絡(luò); 分類算法; 推進(jìn)學(xué)習(xí); 預(yù)測(cè)波動(dòng)性
對(duì)傳神經(jīng)網(wǎng)絡(luò)CPN是集成了自組織映射結(jié)構(gòu)Kohonen和外星結(jié)構(gòu)Grossberg的一種混合神經(jīng)網(wǎng)絡(luò)算法.簡(jiǎn)單的拓?fù)浣Y(jié)構(gòu)和有效的學(xué)習(xí)算法,使CPN在模式識(shí)別和預(yù)測(cè)模型建模應(yīng)用領(lǐng)域中與同時(shí)期的其他神經(jīng)網(wǎng)絡(luò)相比(如Rumelhart & McClelland提出的BP網(wǎng)),在運(yùn)行效率上有更大的優(yōu)勢(shì).
預(yù)測(cè)模型的目標(biāo)是挖掘輸入樣本與目標(biāo)數(shù)據(jù)的映射規(guī)律,利用映射規(guī)律分析新數(shù)據(jù),給出正確率較高的預(yù)測(cè)結(jié)果.因此,一個(gè)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果正確率直接體現(xiàn)模型的實(shí)用價(jià)值.目前提高CPN預(yù)測(cè)精度的優(yōu)化主要在于樣本預(yù)處理和算法過程改進(jìn).NIELSEN[1]曾提供一種思路,每次競(jìng)爭(zhēng)允許多個(gè)神經(jīng)元同時(shí)獲勝,并指派獲勝系數(shù)ρ給每個(gè)獲勝神經(jīng)元以區(qū)分獲勝等級(jí),訓(xùn)練樣本和神經(jīng)元的距離Dxk與ρ成反比,所有獲勝系數(shù)之和為1.但隨后在證明上面這種思路的預(yù)測(cè)精度不及傳統(tǒng)CPN算法[2].WU等[3]則專注于樣本優(yōu)化問題的研究,提出應(yīng)區(qū)分訓(xùn)練集和測(cè)試集,避免實(shí)驗(yàn)結(jié)果過度擬合(overfit),并在CPN中成功運(yùn)用Kennard-Stone算法和D-Optiaml思想實(shí)現(xiàn)訓(xùn)練集和測(cè)試集的合理分割,實(shí)驗(yàn)結(jié)果Kennard-Stone效果比D-Optiaml更優(yōu).文獻(xiàn)[4]-[6]利用Kohonen網(wǎng)絡(luò)特性,將N組樣本按壓縮比例σ,輸入m*m的Kohonen神經(jīng)網(wǎng)絡(luò),其中m、σ滿足關(guān)系m*m≈σ*N.保留訓(xùn)練中被激活的神經(jīng)元及其權(quán)值作為預(yù)測(cè)模型建模的輸入,實(shí)現(xiàn)任意σ比例的學(xué)習(xí)樣本壓縮.從而降低噪聲數(shù)據(jù)在訓(xùn)練時(shí)對(duì)預(yù)測(cè)模型的影響,有利于改善預(yù)測(cè)模型的預(yù)測(cè)精度.
此外,在算法過程優(yōu)化方面,CHANG[7]結(jié)合CPN和Fuzzy模糊邏輯控制思想提出對(duì)傳模糊神經(jīng)網(wǎng)絡(luò)CFNN,該算法建模階段采用CPN算法,預(yù)測(cè)模型應(yīng)用階段對(duì)最大類間距Δ加入模糊自動(dòng)放大調(diào)整,擴(kuò)大了CFNN模型在降雨徑流量估算上的實(shí)用性,尤其對(duì)未知因素的處理.而LIU等[8]利用自適應(yīng)共振理論ART,從輸入樣本的自相似度自動(dòng)生成Kohonen層神經(jīng)元,并根據(jù)最新的訓(xùn)練數(shù)據(jù)動(dòng)態(tài)調(diào)整,解決Kohonen層神經(jīng)元數(shù)量和輸入權(quán)重的初始化問題.宋曉華等[9]通過改進(jìn)CPN算法的初始權(quán)重設(shè)置規(guī)則,克服了對(duì)輸入向量限制過于嚴(yán)格的不足.上述文獻(xiàn)大部分是由于特定領(lǐng)域數(shù)據(jù)處理的需要,而對(duì)CPN進(jìn)行擴(kuò)充.本文關(guān)注在時(shí)間權(quán)衡下如何提高CPN預(yù)測(cè)模型的預(yù)測(cè)精度,結(jié)合Adaboost算法的加權(quán)投票機(jī)制,提出了一種新型快速分類算法(ACPN).
CPN應(yīng)用有2種類型:一類是純粹挖掘樣本之間的潛在關(guān)系,則不需要提供測(cè)試樣本YM,即結(jié)果完全由輸入樣本特征決定;另一類是發(fā)現(xiàn)輸入樣本與期望結(jié)果之間的關(guān)系,則需要提供YM在預(yù)測(cè)模型建模時(shí)指導(dǎo)學(xué)習(xí),本文討論后者.
圖1 傳統(tǒng)CPN網(wǎng)絡(luò)結(jié)構(gòu)
(1)
(2)
有教師指導(dǎo)學(xué)習(xí)階段:Kohonen層獲勝神經(jīng)元kg確定后,Grossberg層將這一結(jié)果映射到輸出層,即將kg與Grossberg輸入權(quán)向量vg作為第k組目標(biāo)輸出(見式(3)).式(4)是Grossberg層輸入權(quán)向量vg的調(diào)整公式,由等式可見調(diào)整是以期望輸出yk作為參考,體現(xiàn)了期望值的指導(dǎo)作用.經(jīng)過足夠多的調(diào)整后,輸入權(quán)向量vg將接近期望值yk.由文獻(xiàn)[10]可知,學(xué)習(xí)率β取值范圍取[0.01,0.5],在初始階段可取較大值加快學(xué)習(xí)速度,后期逐步下調(diào)學(xué)習(xí)率至0.01或更少,以提高訓(xùn)練精度.
(3)
(4)
NIELSEN[2]證明在足夠多的神經(jīng)元經(jīng)過有教師訓(xùn)練后,能找到Kohonen層聚類結(jié)果wg=φ(xk)與目標(biāo)向量yk之間的線性映射關(guān)系yk≈φ(wg),使每個(gè)輸入向量x對(duì)應(yīng)唯一一個(gè)輸出向量y,若實(shí)際輸出向量與目標(biāo)輸出向量一致,則訓(xùn)練效果最佳,當(dāng)然要注意是否有過度擬合問題.
對(duì)傳神經(jīng)網(wǎng)絡(luò)CPN的指導(dǎo)學(xué)習(xí)方式是模仿人類的反復(fù)識(shí)記法,將樣本反復(fù)地輸入CPN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使預(yù)測(cè)模型能識(shí)別訓(xùn)練樣本與目標(biāo)數(shù)據(jù)的關(guān)系,學(xué)習(xí)效率不高,識(shí)別能力有限.由式(2)、(4)可以看到調(diào)整學(xué)習(xí)率可以加快學(xué)習(xí)速度,若單純通過加大學(xué)習(xí)率加快學(xué)習(xí)速度,容易“欲速不達(dá)”(如學(xué)習(xí)過程中漏掉潛在的弱映射關(guān)系).本文第2節(jié)結(jié)合Adaboost的投票機(jī)制為CPN提供一套新的學(xué)習(xí)方案.
NIELSEN[2]的CPN算法給后人一個(gè)啟示,基礎(chǔ)神經(jīng)網(wǎng)絡(luò)算法的合理組合應(yīng)用,也許會(huì)產(chǎn)生意想不到的效果,本節(jié)描述的改進(jìn)算法(ACPN)是在CPN上集成Adaboost特點(diǎn)的混合神經(jīng)網(wǎng)絡(luò).新算法的改進(jìn)體現(xiàn)在2個(gè)方面:算法執(zhí)行流程的調(diào)整和新型快速學(xué)習(xí)策略.
2.1算法執(zhí)行流程調(diào)整
目前CPN的優(yōu)化方案集中在樣本預(yù)處理上,大部分保留了傳統(tǒng)的Kohonen訓(xùn)練機(jī)制.傳統(tǒng)CPN算法每輪訓(xùn)練是相對(duì)獨(dú)立的,上一次訓(xùn)練的情況無法傳遞給下一輪,導(dǎo)致訓(xùn)練工作不斷重復(fù),預(yù)測(cè)精度也十分受限.為了打破這種局限,ACPN將預(yù)測(cè)模型的訓(xùn)練分為若干個(gè)弱預(yù)測(cè)模型同時(shí)進(jìn)行,最終將所有弱預(yù)測(cè)模型整合為一個(gè)強(qiáng)預(yù)測(cè)模型.
2.2快速學(xué)習(xí)策略
一個(gè)好的學(xué)習(xí)策略是決定算法應(yīng)用價(jià)值的關(guān)鍵因素.傳統(tǒng)CPN網(wǎng)絡(luò)采用的迭代學(xué)習(xí)方式,學(xué)習(xí)效率低,不利于CPN網(wǎng)絡(luò)在高維或大訓(xùn)練樣本中的應(yīng)用.ACPN利用Adaboost強(qiáng)弱均衡的投票機(jī)制[11-12],在學(xué)習(xí)階段添加2個(gè)學(xué)習(xí)變量:樣本錯(cuò)誤率uw和預(yù)測(cè)模型正確率cw.
訓(xùn)練樣本錯(cuò)誤率uw是記錄每個(gè)樣本在當(dāng)前的弱預(yù)測(cè)模型訓(xùn)練中的表現(xiàn),隨著訓(xùn)練次數(shù)的增多,識(shí)別出錯(cuò)率越高的樣本uw值將越大,表示該樣本的識(shí)別難度大,而成功識(shí)別的樣本則相反.進(jìn)入下一個(gè)弱預(yù)測(cè)模型訓(xùn)練時(shí),訓(xùn)練重點(diǎn)將放在難識(shí)別的樣本上,從而縮短學(xué)習(xí)訓(xùn)練時(shí)間.
預(yù)測(cè)模型正確率cw是模型訓(xùn)練輸出與預(yù)期輸出的匹配數(shù)與訓(xùn)練樣本數(shù)的比例,反映預(yù)測(cè)模型的預(yù)測(cè)精度.最終強(qiáng)預(yù)測(cè)模型的整合運(yùn)用輸出帶權(quán)求和的方式,使預(yù)測(cè)精度高的弱預(yù)測(cè)模型有較大的影響力[13],算法具體執(zhí)行流程見2.3節(jié).
2.3ACPN算法
ACPN重點(diǎn)是改善傳統(tǒng)CPN學(xué)習(xí)策略、加快學(xué)習(xí)速度和提高CPN建模的預(yù)測(cè)能力,為了避免噪聲數(shù)據(jù)對(duì)模型訓(xùn)練的影響,樣本預(yù)處理階段采用Kennard-Stone設(shè)計(jì),算法執(zhí)行步驟具體描述如下:
(2)樣本預(yù)處理:采用Kennard-Stone劃分樣本訓(xùn)練集和測(cè)試集,預(yù)處理過程如下:
end while
(4)若t (6)驗(yàn)證預(yù)測(cè)模型:驗(yàn)證過程與測(cè)試過程類似,這里不再重復(fù)描述. 本節(jié)通過在蘭花類型預(yù)測(cè)上的應(yīng)用,展示ACPN算法在學(xué)習(xí)時(shí)間和預(yù)測(cè)精度上的優(yōu)勢(shì),實(shí)驗(yàn)所有數(shù)據(jù)均來源于UCI Machine Learning Repository數(shù)據(jù)庫( http:∥archive.ics.uci.edu/ml/). 蘭花預(yù)測(cè)模型是解決蘭花類型的識(shí)別問題,所使用的蘭花特征數(shù)據(jù)集由現(xiàn)代統(tǒng)計(jì)學(xué)與現(xiàn)代演化論的奠基者FISHER R A創(chuàng)建,樣本屬性4個(gè)分為3類,每類50個(gè)樣本,無噪聲數(shù)據(jù).后期被大量模式識(shí)別研究文獻(xiàn)所引用,并成為檢測(cè)分類模型分類能力的一個(gè)基準(zhǔn). 關(guān)于訓(xùn)練集和測(cè)試集:為了保證實(shí)驗(yàn)結(jié)果的可比性,2個(gè)算法均使用相同的訓(xùn)練集、測(cè)試集. 關(guān)于競(jìng)爭(zhēng)層神經(jīng)元的選擇:由于ACPN的競(jìng)爭(zhēng)階段和傳統(tǒng)CPN一致,因此相同神經(jīng)元數(shù)對(duì)2個(gè)網(wǎng)絡(luò)的影響是一樣的.MAREN等[14]建議神經(jīng)元個(gè)數(shù)取值區(qū)間[x+1,y*(x+1)],其中x是輸入樣本的維數(shù),y是輸出結(jié)果的維數(shù),本實(shí)驗(yàn)折中均取10個(gè). 關(guān)于測(cè)試樣本的選擇:由于數(shù)據(jù)集結(jié)構(gòu)層次清晰,本次實(shí)驗(yàn)省略樣本的優(yōu)化處理,測(cè)試樣本(共30個(gè))由每類數(shù)據(jù)隨機(jī)選出1/5的樣本組成. 表1通過比較2種網(wǎng)絡(luò)建模的訓(xùn)練誤差和測(cè)試誤差,可見改進(jìn)算法ACPN的預(yù)測(cè)效果遠(yuǎn)比CPN要好.同時(shí),傳統(tǒng)CPN算法的預(yù)測(cè)精度還是有限的,即使增多訓(xùn)練次數(shù),無法達(dá)到ACPN的效果.從而驗(yàn)證了在改進(jìn)算法下的預(yù)測(cè)模型的預(yù)測(cè)能力. 表1 ACPN算法和傳統(tǒng)CPN算法的對(duì)比Table 1 Contrast between ACPN and CPN 圖2 傳統(tǒng)CPN蘭花預(yù)測(cè)模型 圖3 ACPN蘭花預(yù)測(cè)模型 對(duì)傳統(tǒng)CPN算法、CPN-S[9]算法、添加Kenstone樣本優(yōu)化的CPN算法以及本文改進(jìn)算法ACPN進(jìn)行對(duì)比,結(jié)果表明,前3個(gè)算法隨著訓(xùn)練次數(shù)的增多,訓(xùn)練誤差有所下降,但預(yù)測(cè)誤差無明顯變化,改進(jìn)算法預(yù)測(cè)精度明顯比其他算法要高. 預(yù)測(cè)模型的目標(biāo)是從樣本數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,利用數(shù)據(jù)中的規(guī)律分析新數(shù)據(jù),給出正確率較高的預(yù)測(cè)結(jié)果,因此一個(gè)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果正確率直接體現(xiàn)模型的實(shí)用價(jià)值;同時(shí),運(yùn)行時(shí)間也是評(píng)價(jià)一個(gè)預(yù)測(cè)模型的重要因素. 表2 CPN、CPN-S、CPN-K和ACPN算法比較Table 2 The comparison among CPN、CPN-S、CPN-K and ACPN 注:訓(xùn)練出錯(cuò)率=訓(xùn)練樣本預(yù)測(cè)出錯(cuò)數(shù)/訓(xùn)練樣本總數(shù),測(cè)試出錯(cuò)率=測(cè)試樣本預(yù)測(cè)出錯(cuò)數(shù)/測(cè)試樣本總數(shù),運(yùn)行時(shí)間=訓(xùn)練時(shí)間+測(cè)試時(shí)間. 本文提出了基于Adaboost算法的加權(quán)投票機(jī)制的新型對(duì)向傳播神經(jīng)網(wǎng)絡(luò)ACPN,該算法在考慮時(shí)間的權(quán)衡下,通過改善學(xué)習(xí)策略提高CPN網(wǎng)絡(luò)學(xué)習(xí)效率.實(shí)驗(yàn)結(jié)果證明,新算法預(yù)測(cè)誤差下降趨勢(shì)的波動(dòng)性明顯比傳統(tǒng)CPN算法小,保證預(yù)測(cè)精度的穩(wěn)定性,提高預(yù)測(cè)模型的實(shí)用價(jià)值. [1] NIELSEN R H.Applications of counterpropagation networks[J].Neural Networks,1988,1(2):131-139. [2] NIELSEN R H.Neurocomputing[M].USA:Addison Wesley Publishing Company,1990:147-155. [3] WU W,WALCZAK B,MASSART D L,et al.Artificial neural networks in classification of NIR spectral data:Design of the training set[J].Chemometrics and Intelligent Laboratory Systems,1996,33(1):35-46. [4] ZUPAN J,NOVI M,RUISNCHEZ I.Kohonen and counterpropagation artificial neural networks in analytical chemistry[J].Chemometrics and Intelligent Laboratory Systems,1997,38(1):1-23. [5] ZUPAN J,GASTEIGER J.Neural networks in chemistry and drug design[M].New York:Weinheim,1999:44-46. [6] KANDU R K,ZUPAN J,MAJCEN N.Separation of data on the training and test set for modelling:a case study for modelling of five colour properties of a white pigment[J].Chemometrics and Intelligent Laboratory Systems,2003,65(2):221-229. [7] CHANG F J,CHEN Y C.A counterpropagation fuzzy-neural network modeling approach to real time streamflow prediction[J].Journal of Hydrology,2001,245:153-164. [8] LIU T C,LI R K.A new ART-counterpropagation neural network for solving a forecasting problem[J].Expert Systems with Applications,2005,28(1):21-27. [9] 宋曉華,李彥斌,韓金山,等.對(duì)傳神經(jīng)網(wǎng)絡(luò)算法的改進(jìn)及其應(yīng)用[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2008,39(5):1059-1063. SONG Xiaohua,LI Yanbin,HAN Jinshan,et al.An improved counter propagation networks and its application[J].Journal of Central South University:Science and Technology,2008,39(5):1059-1063. [10] VRACKO M,MILLS D,BASAK C S.Structure-mutagenicity modelling using counter propagation neural networks[J].Environmental Toxicology and Pharmacology,2004,16:25-36. [11] FREUND Y,SCHAPIRE R E.A short introduction to boosting[J].Joural of Japanese Society for Artificial Intelligence,1999,14(5):771-780. [12] 賈慧星,章毓晉.基于動(dòng)態(tài)權(quán)重裁剪的快速Adaboost訓(xùn)練算法[J].計(jì)算機(jī)學(xué)報(bào),2009,32(2):336-341. JIA Huixing,ZHANG Yujin.Fast adaboost training algorithm by dynamic weight trimming[J].Chinese Journal of Computers,2009,32(2):336-341. [13] FREUND Y,SCHAPIRE E R.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55:119-139. [14] MAREN A J,HARSTON C T,PAP R M.Handbook of neural computing applications[M].San Diego:Academic Press,1990:240-243. Keywords: Counterpropagation Neural Network; classified algorithm;adaptive improved learning; forecasting volatility 【責(zé)任編輯 莊曉瓊】 IMPROVEDCOUNTERPROPAGATIONNETWORKSWITHADAPTIVELEARNINGSTRATEGY LIN Lili, WANG Tao, LIN La* (School of Computer, South China Normal University, Guangzhou 510631, China) A novel adaptive boosting theory-Counterpropagation Neural Network(ACPN) for solving forecasting problems is presented.The boosting concept is integrated into the CPN learning algorithm for learning effectively. Compared with traditional CPN,the minimal training error and learning time in ACPN network fell about 96% and 44%,respectively.Furthermore,the curve of trainning error in ACPN presents downtrend basically and has less fluctuation. 2010-09-13 *通訊作者,linla@scnu.edu.cn 1000-5463(2011)02-0060-05 TP 39 A3 實(shí)驗(yàn)結(jié)果
4 結(jié)論