• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于隨機森林和量子粒子群優(yōu)化的SVM算法

    2023-10-12 07:14:36崔兆億耿秀麗
    計算機集成制造系統(tǒng) 2023年9期
    關(guān)鍵詞:粒子精度預(yù)測

    崔兆億,耿秀麗

    (上海理工大學(xué) 管理學(xué)院,上海 200093)

    0 引言

    支持向量機(Support Vector Machine,SVM)作為一種基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)算法,在解決小樣本、非線性和高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并成功應(yīng)用于故障診斷[1]、模式識別[2]等領(lǐng)域。SVM應(yīng)用過程中存在一些問題:一方面,當(dāng)數(shù)據(jù)集特征過多或存在一些異常特征時,SVM模型的分類性能和擬合效果會降低;另一方面,SVM內(nèi)部參數(shù)的選取好壞也會影響SVM模型的分類性能及擬合效果。因此,數(shù)據(jù)集數(shù)據(jù)降維及內(nèi)部參數(shù)選取對提高SVM模型的泛化性能起著非常重要的作用。

    在處理特征過多的分類問題時,對數(shù)據(jù)集進行數(shù)據(jù)降維非常必要,可以提高SVM的運行速度。現(xiàn)有SVM研究與應(yīng)用主要采用主成分分析(Principal Component Analysis,PCA)方法對數(shù)據(jù)集進行降維。解雪等[3]利用PCA將影響凍融土壤蒸發(fā)的因素降維,然后使用PSO-SVM模型預(yù)測凍融土壤的蒸發(fā)量。廖小平等[4]采用核主成分分析法進行數(shù)據(jù)降維,利用灰狼優(yōu)化的支持向量機得到刀具磨損的分類等級。但PCA提取的主成分本身具有一定的模糊性,不如原始樣本完整,而隨機森林(Random Forest,RF)算法很好地解決這一問題,保留了原始樣本中重要性高的特征。RAHMAN等[5]使用隨機森林算法計算出特征重要度,并對其進行排名,在選擇頂部排名的功能后,利用SVM對蛋白進行分類。RUSTAM等[6]將RF和SVM相結(jié)合用于對基因表達數(shù)據(jù)進行分類,并驗證了RF-SVM可以有效地預(yù)測高維度的基因表達數(shù)據(jù)。夏麗莎等[7]提出一種基于隨機旋轉(zhuǎn)森林的集成支持向量機故障診斷算法,通過將監(jiān)控數(shù)據(jù)進行屬性隨機分割、組合等處理,組建多個新訓(xùn)練子集并使用SVM算法進行訓(xùn)練。

    另外,SVM對核函數(shù)參數(shù)和懲罰因子等參數(shù)的確定具有高度的依賴性,因此如何優(yōu)化出最優(yōu)參數(shù)是提高SVM模型泛化能力的關(guān)鍵。粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法作為一種基于群體智能的隨機搜索算法,常用于優(yōu)化SVM模型的核函數(shù)參數(shù)和懲罰因子等參數(shù)。LIU等[8]利用PSO-SVM模型預(yù)測每日PM2.5水平。馬鋼等[9]提出一種基于PSO-SVM模型的油氣管道內(nèi)腐蝕速率預(yù)測方法。雖然PSO算法能夠優(yōu)化得到SVM模型的參數(shù),但PSO算法本身缺乏隨機性,容易陷入局部最優(yōu)。因此,越來越多的學(xué)者對傳統(tǒng)的PSO-SVM算法進行改進,殷賢華等[10]將隨機權(quán)重策略和異步學(xué)習(xí)因子同時引入到PSO算法中,并與SVM結(jié)合建立精確分類模型,提高橡膠和硫化促進劑的識別準(zhǔn)確率。吳玉洋等[11]提出一種改進的粒子群算法,并結(jié)合最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)建立液體火箭發(fā)動機故障檢測預(yù)測模型,最終提高了故障檢測精度。雖然以上學(xué)者改進了粒子群算法,提高了精度,但是并未解決粒子位置更新的隨機性,同樣會遇到陷入局部最優(yōu)的問題。

    在量子力學(xué)中,根據(jù)不確定原理得知不考慮粒子的速度變化,并且粒子的位置是隨機更新的,解決了PSO算法容易陷入局部最優(yōu)的缺點。許多學(xué)者利用量子粒子群優(yōu)化(Quantum Particle Swarm Optimization,QPSO)算法優(yōu)化SVM模型的參數(shù)。LI等[12]將量子粒子群優(yōu)化算法和最小二乘支持向量機結(jié)合建立邊坡穩(wěn)定性的非線性關(guān)系模型。黨東升等[13]建立基于QPSO-SVM的故障分類模型,對變壓器故障樣本進行診斷。但是在分析大量數(shù)據(jù)時,一些冗余特征會增加計算工作量,降低模型的優(yōu)化能力,影響模型的整體性能[14]。而目前在QPSO-SVM模型基礎(chǔ)上結(jié)合數(shù)據(jù)降維的方法研究較少。因此,本文結(jié)合RF算法在特征選擇領(lǐng)域和QPSO算法在參數(shù)優(yōu)化領(lǐng)域的優(yōu)勢,優(yōu)化SVM模型中的核函數(shù)參數(shù)和懲罰因子。通過RF算法計算出每個特征的重要性,篩選出相應(yīng)的特征作為模型的訓(xùn)練集,然后利用QPSO算法尋找SVM模型的最優(yōu)核函數(shù)和懲罰因子并進行模型的預(yù)測。最后,為了驗證RF-QPSO-SVM模型的性能,將其應(yīng)用于機器學(xué)習(xí)中的wine數(shù)據(jù)集中。實驗仿真結(jié)果表明,RF-QPSO-SVM模型具有更高的訓(xùn)練精度和預(yù)測精度。

    1 方法描述

    1.1 支持向量機

    支持向量機(SVM)首先由CORTES等[15]在1995年提出,其基本思想是將樣本從原始空間映射到一個更高維的特征空間,使得樣本在這個特征空間中線性可分。假設(shè)給定一個包括N個訓(xùn)練樣本的集合S,S={(xi,yi),i=1,2,…,N},其分類超平面的表達式及目標(biāo)函數(shù)分別為[16]:

    f(x)=w·x+b;

    (1)

    (2)

    s.t.

    yi(w·x+b)≥1-ξi;

    ξi≥0,i=1,2,…,N。

    式中:w為超平面的法向量;b為超平面的平移距離;ξi為非負松弛變量,用于提高模型的泛化能力;C為懲罰因子,用于權(quán)衡分類損失和最大間隔之間的關(guān)系。

    本文選用高斯RBF(radical base function)函數(shù)作為核函數(shù),高斯RBF為空間中任一點xi到某一中心點xj之間歐氏距離的單調(diào)函數(shù),具有較好的實際應(yīng)用效果[17],表達式為:

    (3)

    式中核函數(shù)參數(shù)σ影響著從樣本空間到特征空間的映射。

    C和σ對于SVM有很大的影響,因此選取合適的模型參數(shù)至關(guān)重要。

    1.2 隨機森林

    RF是一個包含多個決策樹的分類器,其輸出的類別由每個決策樹輸出類別的眾數(shù)而定。RF算法如圖1所示。

    圖1 隨機森林算法示意圖

    隨機森林計算特征重要性的步驟如下[18]:

    步驟1針對每一顆決策樹,選擇相應(yīng)的袋外數(shù)據(jù)(部分未被抽取的余留樣本)計算袋外數(shù)據(jù)誤差,記為error1。

    步驟2隨機對袋外數(shù)據(jù)所有樣本的特征X加入干擾,再次計算袋外數(shù)據(jù)誤差,記為error2。

    步驟3假設(shè)森林中有N棵樹,則特征X的重要性=∑(error2-error1)/N。

    步驟4最后篩選出重要性高的特征作為新的數(shù)據(jù)集。

    1.3 量子粒子群算法

    在量子粒子群算法中,粒子由薛定諤方程來描述,而不是標(biāo)準(zhǔn)粒子群算法的位置和速度。在一個粒子群規(guī)模為M的種群中,下標(biāo)i表示粒子種群中的第i個粒子,則平均粒子歷史最優(yōu)位置為:

    (4)

    式中:pbesti表示第i個粒子當(dāng)前的最優(yōu)位置,pbesti=(pi1,pi2,…,piM)。與PSO算法位置更新方式不同,QPSO算法位置更新中加入一個區(qū)間為(0,1)的隨機數(shù)λ,量子粒子i當(dāng)前的最優(yōu)位置更新公式為:

    Pi=λ·pbesti+(1-λ)gbest。

    (5)

    式中:gbest表示當(dāng)前全局最優(yōu)粒子,Pi用于第i個粒子位置的更新。則最后采用蒙特卡羅法得出粒子的最優(yōu)位置更新方程為:

    (6)

    式中:μ為(0,1)間的均勻分布數(shù)值;alpha為創(chuàng)新因子,能夠控制粒子位置的收縮擴張程度,其值一般不大于1,正負號的概率均為0.5。

    2 RF-QPSO-SVM預(yù)測模型的構(gòu)建

    特征屬性過多及內(nèi)部參數(shù)的優(yōu)選是影響支持向量機(SVM)模型泛化能力的重要因素。首先利用RF算法計算出每個特征的重要性,根據(jù)事先設(shè)定好保留的特征數(shù)量,保留特征重要性高的,剔除重要性低的特征,形成新的特征集用于SVM模型的訓(xùn)練。其次,通過QPSO算法優(yōu)化SVM模型中的核函數(shù)參數(shù)和懲罰因子。最后,將最優(yōu)參數(shù)代入到SVM模型中進行分類預(yù)測。RF-QPSO-SVM模型的構(gòu)建過程如圖2所示,具體步驟如下:

    圖2 RF-QPSO-SVM模型預(yù)測流程

    步驟1給定初始數(shù)據(jù)集Q,設(shè)定RF算法需要保留的特征個數(shù)及QPSO算法初始參數(shù)(如粒子群的數(shù)量,參數(shù)的取值范圍,alpha值等)。

    步驟2利用RF算法計算出每個特征的重要性,進行降序排序,根據(jù)設(shè)定好的特征保留數(shù)量生成新的特征集Q′。

    步驟3計算適應(yīng)度函數(shù)。本文設(shè)置的適應(yīng)度函數(shù)為SVM模型的訓(xùn)練精度。將數(shù)據(jù)集Q′作為QPSO算法的訓(xùn)練數(shù)據(jù)集,通過當(dāng)前粒子的位置向量,訓(xùn)練SVM模型,并計算適應(yīng)度值,并利用蒙特卡羅法不斷更新粒子的位置。

    步驟4判斷結(jié)束條件。當(dāng)尋優(yōu)達到最大迭代次數(shù)時,則尋優(yōu)結(jié)束;否則轉(zhuǎn)步驟3,繼續(xù)尋優(yōu)。

    步驟5將得到的粒子最優(yōu)位置,即最優(yōu)參數(shù)(C,σ)賦給SVM,并進行分類預(yù)測。

    3 仿真結(jié)果與分析

    3.1 wine數(shù)據(jù)集特征分析

    為了驗證提出的RF-QPSO-SVM算法分類性能,選取UCI數(shù)據(jù)集的wine數(shù)據(jù)集進行測。UCI數(shù)據(jù)集是一個常用的機器學(xué)習(xí)測試數(shù)據(jù)集,是由加州大學(xué)歐文分校(University of California Irvine)提出的用于機器學(xué)習(xí)的數(shù)據(jù)庫。wine數(shù)據(jù)集共有178個數(shù)據(jù)樣本,13個化學(xué)成分屬性,分別為Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline,下文用A1~A13代替。整個數(shù)據(jù)集共分為3類(對應(yīng)3種不同起源的葡萄酒)。由于數(shù)據(jù)集數(shù)據(jù)過多,只展示前5行數(shù)據(jù)如表1所示。通過對wine數(shù)據(jù)集13個化學(xué)成分屬性進行分析,利用隨機森林算法得出每個化學(xué)成分屬性的重要性,進行特征抽取后,將降維后的數(shù)據(jù)集代入QPSO-SVM模型中進行預(yù)測。以上所有編程環(huán)境均在Pycharm 2019中實現(xiàn)。

    表1 wine數(shù)據(jù)集前5行數(shù)據(jù)

    為了能夠更加直觀地看出每個特征的分布情況,通過如圖3和圖4所示的直方圖和箱型圖進行展示。

    圖3 wine數(shù)據(jù)集特征直方圖

    圖4 wine數(shù)據(jù)集特征箱型圖

    由圖4可以看出,部分特征存在少數(shù)異常值,對整個數(shù)據(jù)集的影響不大。為了能夠更加直觀地看出各個特征之間的相關(guān)性,建立特征關(guān)系熱度圖如圖5所示。

    圖5 特征間關(guān)系熱度圖

    由圖5可以看出,特征A6(Total phenols)和A7(Flavanoids)相關(guān)性最高(0.86),通過建立以A6作為x軸,A7為y軸坐標(biāo)系,觀察二者在平面分布是否呈現(xiàn)線性相關(guān)性,結(jié)果如圖6所示。

    圖6 Total phenols與Flavanoids相關(guān)性圖

    由圖6可以看出,特征A6(Total phenols)和A7(Flavanoids)近似可以呈現(xiàn)出線性相關(guān),因此在數(shù)據(jù)預(yù)處理階段,可以剔除特征A6(Total phenols)和A7(Flavanoids)其中一個,保留特征重要度高的特征。

    3.2 隨機森林特征選擇

    上文分析wine各個特征情況,下面利用RF計算wine各個特征的重要性,并對wine數(shù)據(jù)集進行特征選擇,保留特征重要性高的,剔除重要性低的特征,以達到數(shù)據(jù)降維的效果。本文設(shè)置樹的個數(shù)n_estimators=20 000,結(jié)果如圖7所示。

    特征圖7 wine特征的重要程度

    wine各個特征的重要程度如表2所示。本文抽取了6個特征屬性,分別為A1,A2,A3,A4,A5,A6,特征重要程度總占比為86.4%,剔除其余7個特征屬性。

    表2 wine各個特征的重要程度

    3.3 多分類RF-QPSO-SVM模型的構(gòu)建及求解

    首先,將隨機森林算法特征選擇后的數(shù)據(jù)集作為多分類SVM模型的數(shù)據(jù)集。然后,利用量子粒子群優(yōu)化(QPSO)算法進行2—折交叉驗證(2-fold Cross Validation,2-CV)的參數(shù)尋優(yōu),找出最優(yōu)參數(shù)對(C,σ)代入多分類SVM模型,并對wine數(shù)據(jù)集進行預(yù)測。在QPSO算法中,本文參數(shù)設(shè)置為:種群數(shù)量為20,粒子維度為2,alpha為0.8,由于wine數(shù)據(jù)樣本不多,并通過多次試驗,迭代次數(shù)設(shè)置為100次能夠?qū)ふ页鲎顑?yōu)參數(shù),若數(shù)據(jù)樣本過多,可以增加迭代次數(shù),因此本文迭代次數(shù)設(shè)置為100次,適應(yīng)度函數(shù)為2-CV下的分類精度,算法停止條件為迭代次數(shù)大于100次[19]。通過每一次迭代得出一個參數(shù)對(C,σ),反復(fù)迭代到最大的迭代次數(shù)輸出最優(yōu)的參數(shù)對(C,σ)。

    構(gòu)建RF-QPSO-SVM模型后,為了能夠找出最優(yōu)的核函數(shù)參數(shù)和懲罰因子,使用訓(xùn)練精度作為評價指標(biāo),訓(xùn)練精度最高情況下對應(yīng)的核函數(shù)參數(shù)值和懲罰因子值為最優(yōu)值,并與RF-PSO-SVM,QPSO-SVM,PSO-SVM進行對比,模型訓(xùn)練對比結(jié)果如圖8所示。圖8a和圖8b首先利用隨機森林算法對wine數(shù)據(jù)集進行降維,然后利用QPSO和PSO算法尋優(yōu)SVM模型的參數(shù),而圖8c和圖8d是利用QPSO和PSO算法對原數(shù)據(jù)集進行尋優(yōu)SVM模型的參數(shù),SVM的尋優(yōu)參數(shù)C,σ數(shù)值如表3所示。由表3可以看出,RF-QPSO-SVM模型的訓(xùn)練精度最高(83.89%),優(yōu)于RF-PSO-SVM,QPSO-SVM,PSO-SVM模型,證明了該模型具有更高的尋優(yōu)精度。

    表3 不同模型SVM參數(shù)及精度對比

    圖8 模型訓(xùn)練對比圖

    將表3中的參數(shù)代入到SVM中,并用45個測試樣本進行測試。為了驗證RF-QPSO-SVM模型預(yù)測的準(zhǔn)確性和性能,增加了與GA-SVM、SVM、RF-RF預(yù)測方法的比較,并將預(yù)測精度和均方誤差作為評價指標(biāo)。實驗中各種預(yù)測方法分別預(yù)測20次,抽取其最優(yōu)預(yù)測值,最終得到的預(yù)測結(jié)果比較如表4所示。仿真結(jié)果表明,RF-QPSO-SVM模型預(yù)測準(zhǔn)確度為93.33%,優(yōu)于其他各種算法,因此相對來說其具有更好的適應(yīng)性和預(yù)測能力。另外,RF-QPSO-SVM的均方誤差為0.133,說明RF-QPSO-SVM模型預(yù)測建模效果良好。

    表4 各種模型預(yù)測結(jié)果對比

    4 結(jié)束語

    本研究針對數(shù)據(jù)集特征過多及SVM內(nèi)部參數(shù)的選取兩個方面來提高SVM模型的預(yù)測性能,將隨機森林和量子粒子群優(yōu)化算法結(jié)合優(yōu)化SVM模型的核函數(shù)參數(shù)和懲罰因子。利用隨機森林算法進行特征抽取,量子粒子群優(yōu)化算法優(yōu)化SVM模型的核函數(shù)參數(shù)和懲罰因子,最后將所提模型用于wine數(shù)據(jù)集的分類預(yù)測。實驗結(jié)果表明,利用RF-QPSO-SVM模型對wine數(shù)據(jù)集進行預(yù)測是可行的,訓(xùn)練數(shù)據(jù)精度達到83.89%,與RF-PSO-SVM、QPSO-SVM和PSO-SVM相比,訓(xùn)練精度最高,并且尋優(yōu)速度也是最快的,在對測試集預(yù)測中,相比RF-PSO-SVM、QPSO-SVM、PSO-SVM、GA-SVM、SVM、RF-RF模型,該模型的預(yù)測精確度最高(93.33%),并且均方誤差最小(0.133),說明RF-QPSO-SVM模型預(yù)測建模效果良好,具有更好的泛化能力。但是本文對于wine數(shù)據(jù)集的預(yù)測精度還可以進一步提高,如何找到最優(yōu)的特征子集并找到契合該特征子集的預(yù)測模型,提高預(yù)測精度將是今后研究的方向。

    猜你喜歡
    粒子精度預(yù)測
    無可預(yù)測
    黃河之聲(2022年10期)2022-09-27 13:59:46
    選修2-2期中考試預(yù)測卷(A卷)
    選修2-2期中考試預(yù)測卷(B卷)
    基于粒子群優(yōu)化的橋式起重機模糊PID控制
    基于DSPIC33F微處理器的采集精度的提高
    電子制作(2018年11期)2018-08-04 03:25:38
    基于粒子群優(yōu)化極點配置的空燃比輸出反饋控制
    不必預(yù)測未來,只需把握現(xiàn)在
    GPS/GLONASS/BDS組合PPP精度分析
    改進的Goldschmidt雙精度浮點除法器
    巧用磨耗提高機械加工精度
    河南科技(2014年14期)2014-02-27 14:11:53
    启东市| 连平县| 通河县| 浪卡子县| 通江县| 冷水江市| 黄石市| 芷江| 桃江县| 邯郸市| 延津县| 密云县| 厦门市| 罗源县| 铁岭县| 普定县| 韶山市| 阿坝县| 贞丰县| 建阳市| 淮阳县| 西乡县| 彩票| 玉林市| 卢龙县| 光泽县| 凤山市| 陇南市| 安平县| 开阳县| 观塘区| 古丈县| 台南市| 津南区| 琼海市| 九台市| 聂荣县| 龙井市| 祥云县| 临沂市| 金堂县|