王宇
摘要:該文基于誤差漸減在線序列 ELM和正則化ELM算法,借鑒正則化ELM算法中計算輸出權(quán)重向量的方法,即引入正則化因子用以計算權(quán)重向量的方法以更新誤差漸減在線序列算法中輸出權(quán)重向量和實際輸出,進而提出正則化誤差漸減在線序列ELM算法,數(shù)值實驗表明該算法的優(yōu)勢在學(xué)習速度、算法穩(wěn)定性以及泛化性能方面均有所體現(xiàn)。
關(guān)鍵詞:在線序列;誤差漸減;正則化
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)11-0273-03
為克服單隱層前向網(wǎng)(SLFN)的學(xué)習缺陷,黃廣斌于2004年而提出ELM算法[1]。有別于傳統(tǒng)算法,ELM算法隨機為隱層設(shè)定參數(shù),且用最小范數(shù)最小二乘法計算算法的輸出權(quán)重向量。基于ELM算法優(yōu)勢,即學(xué)習速度快,泛化能力好,使其得到進一步推廣[2-5]。同時,為克服其學(xué)習模式的弊端,梁提出在線序列ELM算法(OS-ELM)[6]。由于正則化ELM算法引入正則化因子計算輸出權(quán)重向量,不僅降低算法復(fù)雜度而且提高了算法泛化性能和穩(wěn)定性,故將其引入OS-ELM系列算法中。
1 預(yù)備知識
1.1 正則化ELM算法
正則化ELM算法主體思想如下:
一般而言,所學(xué)習的訓(xùn)練樣本集
[xi,tiNi=1,xi∈Rd,ti∈-1,1]
包含的輸入數(shù)據(jù)集是可非線性劃分的,故通過非線性映射[Φ:xi→Φ(xi)]把樣本集中的輸入數(shù)據(jù)集[xi]投射到特征空間[Ζ]中。用[2ω]表示兩類數(shù)據(jù)的間距,并求誤差最小時兩類數(shù)據(jù)集間距的最大值,即
[minω,b,ξ:LPSVM=12ω2+Ci=1Nξi] (1.1)
[s,t:ti(W?Φ(xi)+b)≥1-ξi, i=1,…,N] (1.2) [ξi≥0,i=1,…,N] (1.3)
其中C是需人工設(shè)定的正則化因子,用于平衡兩類數(shù)據(jù)集間距和誤差。由文獻[7]中相關(guān)KKT理論知識可知,上述優(yōu)化問題可轉(zhuǎn)化為如下對偶優(yōu)化問題。
[minω,b,ξ:LPSVM=12i=1Nj=1NtitjαiαjΦ(xi)Φ(xj)-i=1Nαi] (1.4) [s.t:i=1Ntiαi=0] (1.5)
[0≤αi≤C,i=1,…,N ] (1.6)
當有新訓(xùn)練樣本輸入數(shù)據(jù)[x]添加到網(wǎng)絡(luò)進行學(xué)習時,SVM最終的決策函數(shù)可表示為:
[f(x)=sign(s=1NSαstsK(x,xs)+b)] (1.7)
其中[NS]表示支持向量[Xs]的數(shù)量。
ELM不僅能逼近任意連續(xù)的目標函數(shù)而且ELM分類器的實際輸出能以最小誤差接近對應(yīng)區(qū)域的類標簽,將上述思想應(yīng)用于ELM算法,可表述為:
[minβ,ξ:LSVM=12β2+C12i=1Nξ2i] (1.8)
[s,t:h(xi)β=ti-ξi, i=1,…,N] (1.9)
由KKT理論知識,可將上述問題等價轉(zhuǎn)化為:
[LDELM=12β2+C12i=1Nξ2i-i=1Nαi(h(xi)β-ti+ξi)] (1.10)
其中參數(shù)C表示訓(xùn)練樣本集中輸入數(shù)據(jù)對應(yīng)的拉格朗日乘子向量,上述問題的最優(yōu)解可從符合下述條件的解中遴選。
其中[α=α1,…,αNT]。
就多元分類問題而言,僅需將每個訓(xùn)練集的輸出數(shù)據(jù)轉(zhuǎn)化為n維向量,如果原始訓(xùn)練樣本的輸出類標簽為p,則期望輸出為:[0,…,0,1p,0,…,0T]。所以[ti=ti,1,…,ti,n]中僅第p個元素是1,其余元素均為0,由此上述多元分類問題可描述為:
[minβ,ξ:LPELM=12β2+C12i=1Nξi2] (1.14)
[s,t:h(xi)β=tTi-ξTi, i=1,…,N] (1.15)
其中[ξi=ξi,1,…,ξi,nT]表示第n個期望輸出關(guān)于訓(xùn)練樣本輸入數(shù)據(jù)[xi]的誤差向量。由KKT理論可知上述問題的解等價于解決下述對偶問題:
[LDELM=12β2+C12i=1Nξi2-i=1Nαi,j(h(xi)βj-ti,j+ξi,j) ]
(1.16)
其中[βj]為連接輸出層第j個隱單元與隱層的權(quán)重向量。 故尋求上述問題的最優(yōu)解可從符合以下條件的解中篩選:
其中[αi=αi,1,…,αi,nT],[α=α1,…,αNT]。
把(1.17)式和(1.18)式代入(1.19)式,整理可得
[][(IC+HHT)α=T] (1.20)
其中[T=tT1...?TTN]。
結(jié)合(1.17)式和(1.20)式可得
[β=HT(IC+HHT)-1T] (1.21)
則ELM分類器的輸出函數(shù)為:
[f(x)=h(x)β=h(x)HT(IC+HHT)-1T] (1.22)
其中C為正則化因子,數(shù)值實驗結(jié)果表明,將正則化因子引入算法后,泛化性能和穩(wěn)定性均有所提高。
2 正則化誤差漸減在線序列ELM算法
一方面,隨機從所給訓(xùn)練樣本集
1 初始化階段
(1) 隨機為網(wǎng)絡(luò)選取參數(shù)[(ai,bi),i=1,2,…,L0]。
(2) 計算網(wǎng)絡(luò)隱層輸出矩陣[H0]。
(3)計算網(wǎng)絡(luò)的權(quán)重向量[β0=HT0(IC+H0HT0)-1T0],其中 [T0=t1…tN0T],以及該網(wǎng)絡(luò)對應(yīng)的實際輸出和誤差分別為:
2 序列學(xué)習階段
為數(shù)據(jù)塊
令 [k=Ln-1:S S=Ln-1+NnNn+1×Ln-1]
(1) 隨機為網(wǎng)絡(luò)選取參數(shù)[a1n,b1n,a2n,b2n,…,aLn-1-1n,bLn-1-1],為避免產(chǎn)生網(wǎng)絡(luò)過程中重復(fù)計算隱層關(guān)于已學(xué)習數(shù)據(jù)的輸出而造成時間浪費,故僅計算該數(shù)據(jù)塊關(guān)于新增隱節(jié)點的隱層輸出即可。
1) 隨機產(chǎn)生參數(shù)[aLn-1n,bLn-1n]。
2)計算網(wǎng)絡(luò)實際輸出[ykn]及誤差[ekn]。
其中
3) 比較[Yn-1]和[ykn],如果[ekn≤En-1],則停。否則,令[k=k+1]返回序列學(xué)習階段(1)。 [Φn]表示第[n]步獲得最終網(wǎng)絡(luò)。
[Yn-1=ykn,k
2 令[n=n+1]返回序列學(xué)習階段,直到所有數(shù)據(jù)全部被學(xué)完。
3 數(shù)值實驗
數(shù)值實驗是衡量算法優(yōu)劣的常用工具,因此此實驗重點設(shè)計比較誤差漸減在線序列ELM算法(EOS-ELM)和正則化誤差漸減在線序列ELM算法(ReEOS-ELM)的學(xué)習時間和泛化性能。本次實驗所選基準數(shù)據(jù)集及所需人工設(shè)定參數(shù)詳見表1。本次實驗在CPU 2.4.0GHz、4GB RAM 及Matlab 7.6.0環(huán)境中運行所得。所選激活函數(shù)類型為:Sigmoid(Sig)激活函數(shù)[G(a,b,x)=(1)1+exp(-(a+b))]和高斯RBF(RBF)激活函數(shù)[G(a,b,x)=exp(-bx-a2)]。
EOS-ELM和ReEOS-ELM實驗結(jié)果詳見表2、表3、表4、表5。由于ReEOS-ELM引入正則化因子計算輸出權(quán)重向量,相比較于EOS-ELM利用廣義逆計算輸出權(quán)重向量,不僅降低算法復(fù)雜度,而且提高算法泛化性能與穩(wěn)定性,所以ReEOS-ELM學(xué)習時間比EOS-ELM少。表2、表3、表4、表5均顯示,ReEOS-ELM擁有比EOS-ELM更緊湊的網(wǎng)絡(luò)結(jié)構(gòu),同時該算法的學(xué)習速度和泛化性能也稍優(yōu)于EOS-ELM。
4 總結(jié)
EOS-ELM采用廣義逆計算輸出權(quán)重以及網(wǎng)絡(luò)的實際輸出,本文通過引入正則化因子計算輸出權(quán)重和實際輸出的方法替代EOS-ELM原有計算權(quán)重向量及實際輸出的方法,不僅通過降低算法復(fù)雜度達到學(xué)習速度快的目的,而且進一步提高了算法泛化性能和穩(wěn)定性。實驗證明該ReEOS-ELM算法的確優(yōu)于EOS-ELM算法。
參考文獻:
[1] G.B.Huang,Q.Y.Zhu,C.K.Siew,Extreme learning machine:theory and applications[J].Neural Computing,2006,70(1-3):489-501.
[2] G.B.Huang,Zhu Q.Y,Mao K.Z,Siew C.K,Can Threshold Networks be Trained Directly[J].IEEE Transactions On Circuits and Systems-II:Express Briefs,2006,53(3):187-191.
[3] G.B.Huang,Chen L.C.K.Siew.Universal approximation using incremental constructive feedforward networks with random hidden nodes[J].IEEE Transactions on Neural Networks,2006,17(4):879-892.
[4] G.B.Huang,Chen.L.Convex incremental extreme learning machine[J].Neurocomputing,2007,70(16-18):3056-3062.
[5] J.Wu,S.Wang,F(xiàn).L.Chung,Positive and negative fuzzy rule system extreme learning machine and image classification[J].International Journal of Machine and Cybernetics,2011,2(4):261-271.
[6] N.Y.Liang,G.B.Huang,P.Sarathandran and N.Sundarajan,A fast and accurate online sequential learning algorithm for feedforward networks[J].IEEE Transactions on Neural Networks,2006,17(6):1411-1423.