王 杰,萇群康,彭金柱
(鄭州大學(xué) 電氣工程學(xué)院,河南 鄭州 450001)
?
極限學(xué)習(xí)機(jī)優(yōu)化及其擬合性分析
王杰,萇群康,彭金柱
(鄭州大學(xué) 電氣工程學(xué)院,河南 鄭州 450001)
摘要:運(yùn)用煙花算法(fireworks algorithm, FWA)優(yōu)化極限學(xué)習(xí)機(jī)(extreme learning machine, ELM).首先煙花算法經(jīng)過多次的迭代,確定M個(gè)最優(yōu)的煙花,并且以極限學(xué)習(xí)機(jī)測試樣本的RMSE作為煙花算法每次迭代的適應(yīng)度函數(shù),達(dá)到優(yōu)化極限學(xué)習(xí)機(jī)的輸入權(quán)值矩陣和隱含層偏差的效果.最后根據(jù)廣義逆求出輸出矩陣.通過對一維sinC函數(shù)的測試結(jié)果表明,煙花算法優(yōu)化極限學(xué)習(xí)機(jī)能夠以較少的隱含層節(jié)點(diǎn)數(shù)目達(dá)到更高的精度,比極限學(xué)習(xí)機(jī)的測試誤差降低了29.58%.在以上基礎(chǔ)上又做了對高斯正態(tài)分布函數(shù)的擬合實(shí)驗(yàn),驗(yàn)證了煙花算法優(yōu)化極限學(xué)習(xí)機(jī)比極限學(xué)習(xí)機(jī)擁有更好的擬合性能.
關(guān)鍵詞:煙花算法;ELM;測試誤差;隱含層節(jié)點(diǎn);FWAELM;擬合性
0引言
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的非線性擬合能力、很強(qiáng)的魯棒性和記憶能力被廣泛地應(yīng)用于很多領(lǐng)域.極限學(xué)習(xí)機(jī)是一種先進(jìn)的神經(jīng)網(wǎng)絡(luò).輸入權(quán)值和隱含層偏差根據(jù)輸入神經(jīng)元和隱含層節(jié)點(diǎn)數(shù)隨機(jī)生成,輸出權(quán)值矩陣根據(jù)隱含層輸出矩陣的Moore-Penrose廣義逆計(jì)算得到[1].盡管極限學(xué)習(xí)機(jī)相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)有很多優(yōu)點(diǎn),但是并不能滿足人們對更高精度和更快速度的追求,因此相繼出現(xiàn)了很多優(yōu)化極限學(xué)習(xí)機(jī)算法.例如粒子群優(yōu)化極限學(xué)習(xí)機(jī)和小波核極限學(xué)習(xí)機(jī)等,分別優(yōu)化了極限學(xué)習(xí)機(jī)的隱含層節(jié)點(diǎn)數(shù)和極限學(xué)習(xí)機(jī)的分類性能.
煙花算法研究的開創(chuàng)性論文是由譚營發(fā)表于首屆國際群體智能大會(huì)(ICSI2010).該論文首次提出了受煙花爆炸啟發(fā)的群體協(xié)同優(yōu)化算法,即煙花算法.煙花算法希望尋求一種求解復(fù)雜問題全局最優(yōu)解的高效方法.它具有求解復(fù)雜問題全局最優(yōu)解的能力,故煙花算法可以運(yùn)用到許多實(shí)際應(yīng)用領(lǐng)域[2-3].
為了獲得更高的精度和更好的擬合效果,筆者提出了用煙花算法優(yōu)化極限學(xué)習(xí)機(jī)的方法.并通過實(shí)驗(yàn)證明,煙花極限學(xué)習(xí)機(jī)(fireworks algorithm extreme learning machine, FWAELM)能夠達(dá)到更高的精度,并且所用的隱含層節(jié)點(diǎn)數(shù)目更少,對函數(shù)的擬合效果更好.
1極限學(xué)習(xí)機(jī)(ELM)
對于N個(gè)不相同的樣本(xi,yi),其中,yi=[yi1,yi2,…,yin]T∈Rnyi=[yi1,yi2,…,yin]T∈Rn具有L個(gè)隱含層節(jié)點(diǎn),激勵(lì)函數(shù)G(x)的前饋神經(jīng)網(wǎng)絡(luò)的輸出可以表示為[4]:
xi∈Rn,βi∈Rn,
(1)
式中:αi=[αi1,αi2,…,αin]T∈Rn為輸入權(quán)值,θi=[θi1,θi2,…,θin]T∈Rn為輸出權(quán)值;βi是第i個(gè)隱含層單元的偏置;αi·xi是向量αi和向量xi的內(nèi)積;G為隱含層激勵(lì)函數(shù).
若具有L個(gè)隱含層節(jié)點(diǎn)的前饋神經(jīng)網(wǎng)絡(luò)以零誤差逼近N個(gè)樣本,有∑‖ti-yi‖=0,則存在αi、θi、βi使得
i=1,2,…,L.
(2)
由矩陣表示為:
Hθ=Y.
(3)
式中:H為網(wǎng)絡(luò)隱含層的輸出矩陣.
若前饋神經(jīng)網(wǎng)絡(luò)的輸入權(quán)值和隱含層偏置是隨機(jī)產(chǎn)生的,則根據(jù)Moore-Penrose廣義逆計(jì)算可求得唯一的解
(4)
求輸出權(quán)值矩陣就變成了求最小二乘解的問題,只需要求出輸入權(quán)值的最小二乘解就能完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練.
2煙花算法(FWA)
煙花算法是一種群體智能算法,和粒子群算法相似,通過多次迭代尋求最優(yōu)解,其過程描述參照文獻(xiàn)[2].
煙花算法主要有爆炸算子、變異操作、映射規(guī)則和選擇策略四大部分組成,其中爆炸算子包括爆炸強(qiáng)度、爆炸幅度、位移變異等操作;變異主要包括高斯變異操作[5-8];選擇策略包括有基于距離的選擇和隨機(jī)選擇等操作.初始化的每個(gè)火花個(gè)數(shù)由式(5)計(jì)算出.在煙花算法中,產(chǎn)生火花個(gè)數(shù)的公式如下
(5)
式中:wi表示第i個(gè)煙花產(chǎn)生的火花個(gè)數(shù),參數(shù)i的取值范圍為1~N;m是常數(shù),用來限制產(chǎn)生的火花總數(shù);ymax是當(dāng)前種群中適應(yīng)度值最差個(gè)體的適應(yīng)度值;f(xi) 表示個(gè)體xi的適應(yīng)度值;參數(shù)ε是一個(gè)極小的常數(shù),以避免出現(xiàn)分母為零的情況[5-7].
為了限制煙花爆炸產(chǎn)生火花的數(shù)目太多或太少,我為每一個(gè)煙花設(shè)定了如下的產(chǎn)生火花數(shù)量的限制公式
(6)
3煙花極限學(xué)習(xí)機(jī)(FWAELM)
ELM的輸入權(quán)值和隱含層偏差是根據(jù)隱含層節(jié)點(diǎn)和神經(jīng)元個(gè)數(shù)隨機(jī)產(chǎn)生的,然后計(jì)算出輸出權(quán)值矩陣.隨機(jī)產(chǎn)生的輸入權(quán)值和隱含層偏差只有少部分是比較優(yōu)越的,其它偏差可能會(huì)造成誤差偏大,甚至部分輸入權(quán)值和隱含層偏差值為0,直接導(dǎo)致隱含層節(jié)點(diǎn)無效.
為解決ELM存在的以上問題,筆者提出了煙花極限學(xué)習(xí)機(jī)算法.FWA是一種新型的進(jìn)化算法,在結(jié)果精度和收斂性能上具有很強(qiáng)的優(yōu)勢.FWA通過爆炸煙花的方式多次迭代選擇出最優(yōu)越的輸入權(quán)值和隱含層偏差矩陣,把最適應(yīng)輸入權(quán)值和隱含層偏差組成新的矩陣,然后計(jì)算出輸出權(quán)值矩陣.
3.1優(yōu)化操作
在實(shí)現(xiàn)的過程中對算法進(jìn)行了諸多的限制操作和變異操作.煙花爆炸范圍的計(jì)算公式如下
(7)
式中:Si表示第i個(gè)煙花的爆炸范圍,即爆炸的火花將在這個(gè)范圍內(nèi)隨機(jī)產(chǎn)生位移,但不能超過這個(gè)范圍;Z是常數(shù),表示最大的爆炸幅度;參數(shù)ymax是當(dāng)前種群中適應(yīng)度值最好個(gè)體的適應(yīng)度值;f(xi)和參數(shù)ε的意義與公式(5)相同.
位移操作是對煙花的每一維進(jìn)行位移,其公式如下
(8)
式中:random(0,Ai)表示在幅度Ai內(nèi)生成的均勻隨機(jī)數(shù).
高斯變異增加了算法的突變性和多樣性,表示第i個(gè)個(gè)體在第k維上的位置,此時(shí)高斯變異的計(jì)算方式如下
(9)
式中:g是服從均值為1,方差為1的高斯分布的隨機(jī)數(shù),g=N(1,1).
3.2算法步驟
算法維度大小為k=p(d+1),d為輸入神經(jīng)元的個(gè)數(shù),p為隱含層節(jié)點(diǎn)數(shù).利用極限學(xué)習(xí)機(jī)計(jì)算出輸出權(quán)值(激勵(lì)函數(shù)選為‘sigmoid’),將訓(xùn)練樣本計(jì)算出的均方根誤差(RMSE)作為煙花算法的適應(yīng)度值函數(shù).煙花算法的參數(shù)設(shè)置為m=64,a=0.04,b=0.8,Z=40.FWAELM的算法實(shí)現(xiàn)步驟如下所示.
①初始化N個(gè)煙花,確定煙花位置Hi,并根據(jù)適應(yīng)函數(shù)計(jì)算出最優(yōu)適應(yīng)值B.
②設(shè)置初次迭代次數(shù)i=1.
③根據(jù)公式(5)和(6)計(jì)算每一個(gè)煙花產(chǎn)生子代火花的個(gè)數(shù)wi(i=1,2,…,N).
④根據(jù)公式(7)計(jì)算出每一個(gè)煙花的爆炸范圍Gi.
⑤根據(jù)公式(8)對子代火花進(jìn)行位移變異,對從k維中隨機(jī)選擇一定維度進(jìn)行維度變異,在變異后的火花通過適應(yīng)度值函數(shù)選擇最優(yōu)的火花Qi.
⑥隨機(jī)選擇m個(gè)煙花根據(jù)公式(9)進(jìn)行高斯變異,并根據(jù)評(píng)價(jià)函數(shù)選出最優(yōu)的火花Mi,把超出爆炸范圍的火花通過公式(10)映射到范圍之內(nèi).
⑦從Hi、Qi、Mi中選擇最優(yōu)的N個(gè)火花位置作為下一代火花爆炸位置.
⑧i=i+1;判斷i=K(K為最大迭代次數(shù))是否成立,不成立跳轉(zhuǎn)到式(3)繼續(xù)循環(huán).
根據(jù)上述算法得到最優(yōu)的火花位置,也就是最優(yōu)的輸入權(quán)值矩陣和隱含層偏差,然后根據(jù)極限學(xué)習(xí)機(jī)的廣義逆求出輸出權(quán)值矩陣.
4仿真實(shí)驗(yàn)
在論文中采用一維的sinC函數(shù)擬合實(shí)驗(yàn)來檢驗(yàn)FWAELM的效果,sinC函數(shù)的表達(dá)式為.
(10)
各選取5 000個(gè)訓(xùn)練樣本集合{xi,yi}和測試樣本集合{xi,yi},訓(xùn)練樣本和測試樣本的xi都服從(-10,10)區(qū)間的均勻隨機(jī)分布.為了能夠使得線性回歸擬合問題更真實(shí),在訓(xùn)練樣本中加入[-0.2,0.2]的白噪音,則訓(xùn)練樣本集合為{xi,yi+ξi}.而測試樣本集合為{xi,yi}.
4.1隱含層節(jié)點(diǎn)數(shù)目的影響
原理上,當(dāng)?shù)螖?shù)逐漸增加時(shí)測試誤差減小幅度非常小,訓(xùn)練時(shí)間會(huì)增大.所以迭代次數(shù)不宜過大,適中即可.設(shè)置FWAELM的迭代次數(shù)為25,取20次試驗(yàn)結(jié)果的平均值(下同).測試隱含層節(jié)點(diǎn)數(shù)目對ELM和FWAELM的影響,其結(jié)果如圖1所示.
從圖1可知,當(dāng)?shù)螖?shù)都相同時(shí),F(xiàn)WAELM比ELM測試誤差先達(dá)到最小值,且FWAELM在隱含層節(jié)點(diǎn)數(shù)為10的時(shí)候RMSE達(dá)到最小值,而ELM在隱含層節(jié)點(diǎn)數(shù)目為17的時(shí)候RMSE達(dá)到最小值.由此說明FWAELM在測試誤差最小時(shí)所用到的隱含層節(jié)點(diǎn)數(shù)目比ELM少用了7個(gè).并且FWAELM比ELM最大的優(yōu)點(diǎn)是前者所能達(dá)到的最小RMSE比ELM所能達(dá)到的RMSE降低了29.58%.當(dāng)隱含層節(jié)點(diǎn)數(shù)逐漸增加到50的過程中,ELM的RMSE先減小后逐漸穩(wěn)定.而FWAELM在隱含層節(jié)點(diǎn)數(shù)為10時(shí)達(dá)到最小,到50的過程中基本是穩(wěn)定的.
圖1 隱含層節(jié)點(diǎn)數(shù)目對FWAELM和ELM影響
本實(shí)驗(yàn)還做了相同時(shí)間情況下的運(yùn)行結(jié)果分析,分析表明,ELM在長的訓(xùn)練時(shí)間情況下反復(fù)運(yùn)行,它的最優(yōu)誤差基本保持不變.
4.2迭代次數(shù)的影響
設(shè)定FWAELM的隱含層節(jié)點(diǎn)數(shù)為10,迭代次數(shù)i=1,3,…,29.測試迭代次數(shù)對FWAELM的影響,其結(jié)果如圖2和圖3所示.從圖可知,隨著迭代次數(shù)增加,F(xiàn)WAELM的測試誤差和訓(xùn)練誤差逐漸減小,當(dāng)達(dá)到一定的迭代次數(shù)后,測試誤差緩慢減小,直到趨于平穩(wěn).
圖2 迭代次數(shù)對FAELM誤差的影響
另外,迭代次數(shù)增加也帶來訓(xùn)練時(shí)間的增加.考慮到在測試誤差減小不明顯的情況下多次迭代增加訓(xùn)練時(shí)間,所以設(shè)置23為煙花極限學(xué)習(xí)機(jī)的最優(yōu)迭代次數(shù),即FWAELM的隱含層節(jié)點(diǎn)為10,迭代次數(shù)為23.
4.3函數(shù)擬合性分析
基于上述分析本實(shí)驗(yàn)做了FWAELM和ELM對sinC函數(shù)的擬合實(shí)驗(yàn),ELM的結(jié)果如圖3所示,FWAELM的結(jié)果如圖4所示.
圖3 ELM擬合sinC函數(shù)
圖4 FWAELM擬合sinC函數(shù)
從圖3中可知,ELM在[-10,10]擬合過程中,分別在0附近及[-10,-6]和[8,10]中間出現(xiàn)了擬合誤差較大的情況.圖4中,FWAELM在整個(gè)擬合過程都比較平穩(wěn),出現(xiàn)的誤差很小.由此可知,F(xiàn)WAELM的數(shù)據(jù)擬合效果明顯優(yōu)于ELM的,這也說明FWAELM的預(yù)測精度比ELM更高.
各選取5 000個(gè)訓(xùn)練樣本集合{xj,yj}和測試樣本{xj,yj},訓(xùn)練樣本和測試樣本都服從(-10,10)區(qū)間的均勻隨機(jī)分布.為了使回歸擬合問題更真實(shí),在訓(xùn)練樣本中加入[-0.2,0.2]的白噪音,則訓(xùn)練樣本集合為{xj,yj+ξj},而測試樣本集為{xj,yj}.
設(shè)置FWAELM的隱含層節(jié)點(diǎn)數(shù)目為10,迭代次數(shù)為25,ELM的隱含層節(jié)點(diǎn)數(shù)目為50,結(jié)果如圖5和圖6所示.
從圖5和圖6的對比效果看,F(xiàn)WAELM的整個(gè)擬合過程相對平穩(wěn),而ELM在整個(gè)擬合過程中出現(xiàn)的誤差相對較大;且FWAELM的擬合效果明顯比ELM的擬合效果優(yōu)越,因此,F(xiàn)WAELM比ELM具有更好的擬合效果.
圖5 FWAELM擬合高斯函數(shù)實(shí)驗(yàn)
圖6 ELM擬合高斯函數(shù)實(shí)驗(yàn)
4.4算法性能對比
在以上分析的基礎(chǔ)上,筆者還做了FWAELM和ELM、支持向量機(jī)(SVM)及粒子群優(yōu)化極限學(xué)習(xí)機(jī)(PSOELM)性能對比.設(shè)置FWAELM的隱含層節(jié)點(diǎn)數(shù)為10,設(shè)定迭代次數(shù)為23.設(shè)置ELM的隱含層節(jié)點(diǎn)為50個(gè),100次重復(fù)運(yùn)行后,求最優(yōu)值.采用‘sigmoid’作為ELM的激勵(lì)函數(shù),迭代次數(shù)為25.PSOELM的隱含層節(jié)點(diǎn)設(shè)置為10,最大迭代次數(shù)設(shè)置為20. SVM采用libsvm工具包,其SVM的參數(shù)采用交叉驗(yàn)證來完成[8-10],結(jié)果如表1所示.
表1 算法性能對比
從表1中可知,F(xiàn)WAELM的測試誤差是最小的,表明運(yùn)用煙花算法能夠降低ELM的測試誤差,在4種算法的性能對比中,FWAELM最優(yōu).FWAELM只需要10個(gè)隱含層節(jié)點(diǎn)數(shù)目就能達(dá)到50個(gè)ELM隱含層數(shù)目的效果.
5結(jié)論
筆者提出運(yùn)用煙花算法優(yōu)化極限學(xué)習(xí)機(jī)的方法,采用煙花算法優(yōu)化ELM的輸入權(quán)值矩陣和隱含層偏差,結(jié)合了FWA和ELM的優(yōu)點(diǎn),給出了FWAELM的算法實(shí)現(xiàn)步驟.通過實(shí)驗(yàn)得出如下結(jié)論.
(1)當(dāng)隱含層節(jié)點(diǎn)數(shù)目逐漸增加的時(shí)候,F(xiàn)WAELM比ELM以更少的隱含層節(jié)點(diǎn)達(dá)到最小測試誤差,而且FWAELM的測試誤差要比ELM的小.前者的訓(xùn)練時(shí)間相對后者要長,但是在追求更高精度的情況下,F(xiàn)WAELM比ELM有更高的優(yōu)越性.
(2)隨著迭代次數(shù)增加,F(xiàn)WAELM的訓(xùn)練誤差和測試誤差都會(huì)減小,當(dāng)達(dá)到一定迭代次數(shù)的時(shí)候兩者不再減小并趨于平穩(wěn),隨著迭代次數(shù)的增加訓(xùn)練時(shí)間也會(huì)增加.
(3)運(yùn)用兩種算法分別對一維sin C函數(shù)和高斯正態(tài)分布函數(shù)進(jìn)行擬合分析,表明FWAELM比ELM擁有更好的擬合性能.
(4)最后通過4種同類算法的最優(yōu)誤差進(jìn)行性能對比,顯示FWAELM的測試誤差最小.
參考文獻(xiàn):
[1]HUANG G B, ZHU Q Y, Siew Cheekheong .Extreme learning machine: theory and applications [J]. Neurocomputing,2006,70(1):489-501.
[2]譚營,煙花算法引論[M]. 北京:科學(xué)出版社. 2015: 4.
[3]HE W R, MI G Y, TAN Y. Parameter optimization of local-concentration model for spam detection by using fireworks algorithm[C]. Lecture Notes in Computer Science,2013:439-450.
[4]DING K, ZHENG S Q, TAN Y. A GPU-based parallel fireworks algorithm for optimization[C]. Proceedings of the 2013 Genetic and Evolutionary Computation Conference,2013: 9-16.
[5]TAN Y, ZHU Y C. Fireworks algorithm for optimization [C].Lecture notes in computer science, 2010: 355-364.
[6]ZHENG S Q, ANDREAS J, TAN Y. Enhanced fireworks algorithm[C]. IEEE congress on evolutionary computation,2013: 2069-2077.
[7]閻新芳,張永坤,李騰,等. WSN中基于非均勻梯度的分簇拓?fù)渌惴╗J].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2014,35(6): 47-51.
[8]王杰,畢浩洋. 一種基于粒子群優(yōu)化的極限學(xué)習(xí)機(jī)[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2013,45(1): 100-104.
[9]陳其松.智能優(yōu)化支持向量機(jī)預(yù)測算法及應(yīng)用研究[D].貴陽:貴州大學(xué)信息學(xué)院, 2009.
[10]CHANG C C, LIN C J. LIBSVM: A library for support vector machines [J]. ACM Transactions on intelligent systems and technology, 2011, 2(3): 27.
The Optimization of the Extreme Learning Machine and Fitting Analysis
WANG Jie, CHANG Qunkang, PENG Jinzhu
(School of Electrical Engineering, Zhengzhou University, Zhengzhou 450001, China)
Abstract:The fireworks algorithm (FWA) is used to optimize the extreme learning machine (ELM) in this paper. Firstly, the FWA gain the M optimal fireworks through many iterations,and the RMSE of the extreme learning machine’s test samples is used as the fitness function in each iteration. Secondly, the optimization of the input weights and hidden layer deviation matrix of the extreme learning machine is achieved. Finally, the matrix output is obtained based on the generalized inverse. The test experiment of one-dimensional sinC function is conducted. The experimental results show that the fireworks algorithm extreme learning machine achieves higher accuracy with less number of hidden layer nodes, and the test error decreases 29.58% compared with the extreme learning machine. The fitting experiment of Gauss normal distribution function is conducted, and the experiment results further demonstrate that the FWAELM achieves a better fitting effect than the ELM.
Key words:fireworks algorithm; ELM; test error; node in hidden layer; FWAELM; fitting
中圖分類號(hào):TP183
文獻(xiàn)標(biāo)志碼:A
doi:10.3969/j.issn.1671-6833.201505001
作者簡介:王杰(1959—),男,河南鄭州人,鄭州大學(xué)教授,博士,主要從事模式識(shí)別與智能控制研究,E-mail:wj@zzu.edu.cn.
基金項(xiàng)目:教育部高等學(xué)校博士學(xué)科點(diǎn)科研基金資助項(xiàng)目(20124101120001);河南省教育廳科學(xué)技術(shù)研究重點(diǎn)資助項(xiàng)目(14A41300);中國博士后科學(xué)基金面上資助項(xiàng)目(2014T70685;2013M541992)
收稿日期:2015-05-04;
修訂日期:2015-08-20
文章編號(hào):1671-6833(2016)02-0020-05
引用本文:王杰,萇群康,彭金柱.極限學(xué)習(xí)機(jī)優(yōu)化及其擬合性分析[J].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2016,37(2):20-24.