季洋洋, 王士同
(江南大學(xué)人工智能與計算機學(xué)院, 江蘇 無錫 214122)
神經(jīng)網(wǎng)絡(luò)訓(xùn)練通常采用反向傳播算法(back propagation, BP), 易出現(xiàn)陷入局部最小值、對學(xué)習(xí)率敏感以及收斂速度較慢等問題.為了解決這些問題, 隨機向量函數(shù)鏈接網(wǎng)絡(luò)[1](random vector functional link network, RVFLN)應(yīng)運而生.RVFLN是一種單層前饋神經(jīng)網(wǎng)絡(luò), 其隱藏神經(jīng)元參數(shù)(輸入權(quán)重和偏置)是在一個合適的區(qū)間內(nèi)隨機生成, 而輸出權(quán)重則是通過簡單的閉式解得出.RVFLN通過特征復(fù)用或直接鏈接將原始數(shù)據(jù)傳到輸出層, 修正正則化參數(shù), 故比其他同類網(wǎng)絡(luò)更加輕量化和簡單化.
傳統(tǒng)RVFLN中的直接鏈接僅作簡單線性變換, 即使存在隨機權(quán)重,單個RVFLN之間的多樣性差異也很小.而神經(jīng)網(wǎng)絡(luò)為不穩(wěn)定算法, 訓(xùn)練過程中包含多個隨機化操作, 即使隨機種子變化很小, 其性能差異也可能較大, 從而形成了單個神經(jīng)網(wǎng)絡(luò)之間的多樣性.通過使用不同的超參數(shù)和直接鏈接模型, 再利用相對投票法、加權(quán)投票法和學(xué)習(xí)法進行集成, 可有效降低錯誤率.
集成學(xué)習(xí)通常分為同質(zhì)集成和異質(zhì)集成, 每個基分類器之間具有一定的差異性.常見的集成算法有Bagging、 Boosting以及Stacking等, 在實際應(yīng)用中備受關(guān)注.Yu等[2]使用Bagging算法集成RVFLN, 完成石油價格的預(yù)測; Zhang等[3]利用Boosting加速集成RVFLN, 建立溫度預(yù)測模型; Tahir等[4]提出了一種Stacking集成RVFLN的新型算法, 用于多通道跌落檢測.上述方法可在一定程度上提升RVFLN的預(yù)測能力, 但由于神經(jīng)網(wǎng)絡(luò)中直接鏈接逆矩陣的計算復(fù)雜, 隨機權(quán)重的簡單初始化使得各神經(jīng)網(wǎng)絡(luò)之間的差異性較小, 導(dǎo)致RVFLN的訓(xùn)練速度和集成多樣性有限, 進而影響模型的泛化能力及預(yù)測精度.針對以上問題,本文擬提出一種以改進隨機向量函數(shù)鏈接網(wǎng)絡(luò)為基分類器的集成模型,采用6種簡單回歸替換傳統(tǒng)RVFLN中計算復(fù)雜的直接鏈接, 并利用高斯過程回歸(Gaussian process regression, GPR)方法初始化隱含層參數(shù), 優(yōu)化隱含層隨機權(quán)重, 增加單個基學(xué)習(xí)器之間的多樣性, 最終集成6個具有差異性的基分類器得到預(yù)測模型, 旨在提高預(yù)測精度的同時增強模型的魯棒性和泛化能力.
RVFLN的基本網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.RVFLN中輸出層由隱藏層的非線性變換H和原始輸入特征X組成.由于隱藏層參數(shù)μk和σk是隨機生成并在訓(xùn)練過程中保持不變, 因此僅計算輸出權(quán)重矩陣βk, 其優(yōu)化問題可表示為arg min(‖Dβk-Y‖2+λ‖βk‖2),其中D為隱藏特征和原始特征的級聯(lián)矩陣,D=[HX];λ為正則化參數(shù);Y為標(biāo)簽矩陣.通常采用Moore-Penrose偽逆(λ=0)或嶺回歸(λ≠0)的閉式解求得輸出權(quán)重.Moore-Penrose偽逆方法中,βk=D?Y; 使用正則化的最小二乘法(即嶺回歸)時, 原始空間βk=(DTD+λI)-1DTY, 對偶空間βk=DT(DDT+λI)-1Y, 其中I為單位矩陣.
圖1 RVFLN網(wǎng)絡(luò)架構(gòu)
假設(shè)數(shù)據(jù)集(yi,xi),i=1,2,…,n, 其中xi=(xi1,…,xip)是p維的預(yù)測變量,yi是對第i個觀察值的響應(yīng).回歸模型f對輸入向量x進行預(yù)測,得到預(yù)測值
(1)
本文采用簡單回歸模型
(2)
替換傳統(tǒng)RVFLN中的直接鏈接, 其中αj為啟發(fā)式選擇權(quán)重, 獨立于位置參數(shù)β0和比例參數(shù)γ.預(yù)測變量的組合或選擇取決于加權(quán)和, 參數(shù)β0和γ分別確定了加權(quán)和的位置和尺度.
2.1.1 平均預(yù)測模型
平均預(yù)測模型是最簡單的線性模型, 常用于預(yù)測訓(xùn)練集響應(yīng)變量的平均值.模型預(yù)測公式為
(3)
此模型通常用于無法取得響應(yīng)變量的數(shù)據(jù)集, 并不適合監(jiān)督學(xué)習(xí), 但仍可作為一個基準(zhǔn).
2.1.2 隨機權(quán)重模型
當(dāng)數(shù)據(jù)進行標(biāo)準(zhǔn)化和定向后, 每個預(yù)測變量會與一個隨機權(quán)重相乘, 該隨機權(quán)重從某一均勻分布的數(shù)據(jù)中取得.模型可表示為
(4)
其中輸入向量權(quán)重ωj~u(a,b),a和b的取值不固定, 本文令a=0,b=1.
2.1.3 等權(quán)模型
等權(quán)模型將所有標(biāo)準(zhǔn)化預(yù)測標(biāo)量進行同等加權(quán), 即
(5)
在所有預(yù)測變量都是有向的假設(shè)下, 等權(quán)模型只有位置和尺度兩個自由參數(shù).
2.1.4 關(guān)聯(lián)權(quán)重模型
關(guān)聯(lián)權(quán)重模型通過計算預(yù)測變量和響應(yīng)變量的相關(guān)性,對所有預(yù)測變量進行加權(quán), 即
(6)
其中ryxj為預(yù)測變量xj與響應(yīng)變量y之間的關(guān)聯(lián)系數(shù), 關(guān)聯(lián)權(quán)重須估計p+2個參數(shù).
2.1.5 單線索回歸模型
單線索回歸模型僅考慮與所有預(yù)測變量擁有最高相關(guān)性的預(yù)測變量.模型表達(dá)式為
(7)
其中x1為與響應(yīng)變量y具有最高關(guān)聯(lián)度的預(yù)測變量, 計算所有預(yù)測變量和響應(yīng)變量之間的相關(guān)性, 取最大絕對值.
2.1.6 關(guān)聯(lián)等級排名模型
關(guān)聯(lián)等級排名模型無須確定關(guān)聯(lián)程度的確切值, 只計算等級排名, 即相對順序.模型公式為
(8)
其中ρj=rank(ryxj).預(yù)測變量中, 關(guān)聯(lián)程度最低的等級為1, 最高等級為p, 相同關(guān)聯(lián)性使用平均排名, 例如向量(7,4,4,2)的等級排名為(4,2.5,2.5,1).關(guān)聯(lián)程度排名比關(guān)聯(lián)權(quán)重更易于估計, 且魯棒性更強.
為保證投影后的信息損失最小, 采用GPR方法[5]初始化隱含層參數(shù).隱含層權(quán)重
(9)
傳統(tǒng)RVFLN表達(dá)式可改寫為
(10)
其中參數(shù)βk通過訓(xùn)練集的訓(xùn)練得出,
βk=H?Y,
(11)
圖2 集成PE-RVFLN
在改進的隨機向量函數(shù)鏈接網(wǎng)絡(luò)PE-RVFLN中, GPR方法的時間復(fù)雜度為O(N), 隱含層輸出的復(fù)雜度為O(Nzn), 其中n為隱含層節(jié)點數(shù)量,z為屬性數(shù)量, 最后利用偽逆矩陣計算出參數(shù)βk的復(fù)雜度O(z3).
選取UCI和KEEL數(shù)據(jù)庫[8]中16個不同領(lǐng)域的數(shù)據(jù)集進行測試實驗, 所選數(shù)據(jù)集的基本信息如表1所示, 其涵蓋了大、中、小規(guī)模的二分類以及多分類任務(wù).實驗硬件環(huán)境為AMD Ryzen 9 5900HX@ 3.3 GHz, 運行內(nèi)存為16 GB, 集成開發(fā)環(huán)境為PyCharm 2021.2.4.
表1 數(shù)據(jù)集基本信息
表2為集成隨機向量函數(shù)鏈接網(wǎng)絡(luò)與其他5種算法在16個數(shù)據(jù)集上的準(zhǔn)確率和標(biāo)準(zhǔn)差.由表2可知, 本文所提集成模型的準(zhǔn)確率比基分類器BaseClassifier高4.80%,比傳統(tǒng)算法SVM高4.17%, 比集成模型RandomForest和Bagging分別高2.46%和2.60%,比傳統(tǒng)RVFLN高1.73%; PE-RVFLN的標(biāo)準(zhǔn)差比基分類器BaseClassifier低3.97%,比傳統(tǒng)算法SVM低22.91%,比集成模型RandomForest和Bagging分別低23.06%和20.86%,比傳統(tǒng)RVFLN低11.24%.綜上得出,改進的隨機向量函數(shù)鏈接網(wǎng)絡(luò)具有明顯優(yōu)勢, 較傳統(tǒng)集成算法和RVFLN的精確度和穩(wěn)定性均有所提升,同時具有良好的泛化性能.
表2 各算法在不同數(shù)據(jù)集上的準(zhǔn)確率和標(biāo)準(zhǔn)差
本文提出了一種改進的隨機向量函數(shù)鏈接網(wǎng)絡(luò)集成模型,采用6種不同的簡單回歸模型代替?zhèn)鹘y(tǒng)隨機向量函數(shù)鏈接網(wǎng)絡(luò)的直接鏈接,優(yōu)化隱含層的隨機權(quán)重取值, 并使用正則項降低信息損失.實驗表明改進的集成模型能夠顯著提升預(yù)測精度,且具有良好的泛化能力和魯棒性,既保證了基分類器的多樣性,又提升了集成學(xué)習(xí)的效果.