• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      集成學(xué)習(xí)在電網(wǎng)假數(shù)據(jù)入侵檢測(cè)中的應(yīng)用

      2022-02-24 00:47:10戚元星崔雙喜
      關(guān)鍵詞:分類器準(zhǔn)確率向量

      戚元星,崔雙喜

      (新疆大學(xué) 電氣工程學(xué)院,新疆 烏魯木齊 830047)

      目前,時(shí)代進(jìn)步促進(jìn)信息和科技的高速發(fā)展,高速通信和高度集成的信息網(wǎng)絡(luò)成為了電力系統(tǒng)的重要支撐.在電網(wǎng)中,攻擊者為了達(dá)到破壞電網(wǎng)正常運(yùn)行、誤導(dǎo)控制中心操作、獲取不正當(dāng)利益的目的,會(huì)選擇對(duì)電網(wǎng)的數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)(supervisory control and data acquisition,SCADA)進(jìn)行攻擊.電力系統(tǒng)的采集單元覆蓋電網(wǎng)的全拓?fù)洌?,攻擊者?huì)把預(yù)先設(shè)定的攻擊向量注入到采集單元中,為了不被電網(wǎng)檢測(cè)模塊檢測(cè)出來,攻擊者會(huì)制造最優(yōu)攻擊向量來躲避檢測(cè)模塊檢測(cè).虛假數(shù)據(jù)的攻擊會(huì)造成依賴電網(wǎng)行業(yè)不同程度的癱瘓,給國(guó)家、社會(huì)、人民帶來很大的危害,因此對(duì)于虛假數(shù)據(jù)檢測(cè)的研究顯得尤為重要[1-4].傳統(tǒng)的電網(wǎng)虛假數(shù)據(jù)檢測(cè)有很多[5-7],比如用核范數(shù)最小化或低秩矩陣分解對(duì)虛假數(shù)據(jù)進(jìn)行檢測(cè)[8].機(jī)器學(xué)習(xí)的發(fā)展也為虛假數(shù)據(jù)的檢測(cè)提供了新的方案,最典型的有3種實(shí)現(xiàn)方式:監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)[9],其中監(jiān)督學(xué)習(xí)的分類技術(shù)最為優(yōu)秀,預(yù)測(cè)精度高且整體效果較好,但需要完整的帶標(biāo)簽的樣本,數(shù)據(jù)的質(zhì)量和數(shù)量決定最終的模型效果.集成學(xué)習(xí)作為機(jī)器學(xué)習(xí)的重要部分,也逐漸被應(yīng)用于入侵檢測(cè)領(lǐng)域[10-13],現(xiàn)有實(shí)驗(yàn)結(jié)果表明運(yùn)用機(jī)器學(xué)習(xí)中的單分類器來檢測(cè)虛假數(shù)據(jù)會(huì)出現(xiàn)準(zhǔn)確率低以及模型區(qū)分能力差等問題,因此,針對(duì)該類問題結(jié)合虛假數(shù)據(jù)檢測(cè)原理,本文提出一種新的集成學(xué)習(xí)檢測(cè)方法并對(duì)其可行性進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文在電網(wǎng)虛假數(shù)據(jù)檢測(cè)分類問題上具有一定研究?jī)r(jià)值.

      1 系統(tǒng)模型

      1.1 虛假數(shù)據(jù)攻擊模型

      對(duì)于含有n個(gè)狀態(tài)量的向量x=[x1,x2,x3,…,xn]以及m個(gè)量測(cè)值的向量z=[z1,z2,z3,…,zm],兩者之間的關(guān)系為

      z=Hx+e,

      (1)

      (2)

      其中,H表示為直流維度模型m×n的雅克比矩陣,e為誤差.

      (3)

      1.2 虛假數(shù)據(jù)注入攻擊向量構(gòu)建

      對(duì)于標(biāo)準(zhǔn)的直流系統(tǒng),只考慮帶相位角的狀態(tài)變量,直流系統(tǒng)線路電阻可忽略不計(jì),直流系統(tǒng)電壓幅值全部設(shè)為 1,本文攻擊前的量測(cè)值樣本采用的是IEEE14節(jié)點(diǎn)14個(gè)標(biāo)準(zhǔn)的母線負(fù)載有功功率,20個(gè)分支路首端有功功率,20個(gè)分支路末端有功功率,一組攻擊前的樣本共54個(gè)狀態(tài)變量.攻擊后的量測(cè)值z(mì)a如式(4),攻擊后的狀態(tài)變量xa如式(5)

      za=Hx+a+e,

      (4)

      xa=x+a,

      (5)

      其中,a為攻擊的向量;e為量測(cè)的誤差.

      第j個(gè)子區(qū)域攻擊后狀態(tài)估計(jì)的殘差、全部域攻擊后的狀態(tài)估計(jì)的殘差如式(6)、(7)所示

      (6)

      (7)

      為了構(gòu)造出最優(yōu)的電網(wǎng)虛假數(shù)據(jù)攻擊向量,使虛假數(shù)據(jù)逃避電網(wǎng)檢測(cè)模塊檢測(cè),應(yīng)讓攻擊后的殘差值處在電網(wǎng)虛假數(shù)據(jù)檢測(cè)閥值以內(nèi),在滿足式(8)條件下求式(9)最優(yōu)解

      (8)

      (9)

      β為優(yōu)化量,λ為正則化參數(shù),j=1,2,…,n.

      (10)

      (11)

      當(dāng)且僅當(dāng)

      Pb=0時(shí),

      (12)

      (13)

      由式(12),求電網(wǎng)SCADA系統(tǒng)注入虛假數(shù)據(jù)向量b殘差最小的最優(yōu)解函數(shù)

      (14)

      bj-θ=0,

      (15)

      θ為優(yōu)化變量,λ為正則化參數(shù),j=1,2,…,n.

      根據(jù)式(14),可求非全部網(wǎng)絡(luò)拓?fù)溲趴吮染仃囂摷贁?shù)據(jù)攻擊的注入向量.

      2 虛假數(shù)據(jù)攻擊檢測(cè)模型

      2.1 基于GBDT的攻擊檢測(cè)模型

      梯度提升樹(gradient boosting decison tree, GBDT)由決策樹和梯度提升組合而成,可處理大部分的分類回歸任務(wù).

      在GBDT的迭代過程中,初始化基學(xué)習(xí)器F0(x),對(duì)數(shù)損失函數(shù)L(y,F(x)),如下所示:

      (16)

      L(y,F(x))=log(1+exp(-2yF(x))),

      (17)

      β為損失函數(shù)最小化的常數(shù)值.

      設(shè)迭代數(shù)量為m,為進(jìn)一步擬合本輪損失,需得到損失函數(shù)的數(shù)值

      (18)

      損失函數(shù)梯度下降最優(yōu)步長(zhǎng)βnm

      (19)

      定義學(xué)習(xí)率為ν∈(0,1],進(jìn)一步構(gòu)建更高精度的弱分類器模型Fm(x),

      (20)

      迭代結(jié)束后,得到由m個(gè)高精度的弱分類器結(jié)合的決策樹模型

      (21)

      2.2 基于XGBoost的攻擊檢測(cè)模型

      XGBoost使用一階導(dǎo)數(shù)和二階導(dǎo)數(shù),對(duì)代價(jià)函數(shù)進(jìn)行泰勒展開,為了使模型簡(jiǎn)單化,加入了正則項(xiàng)Ω.本文使用表示第i個(gè)葉子節(jié)點(diǎn)上的分?jǐn)?shù).為了學(xué)習(xí)出模型參數(shù),對(duì)目標(biāo)函數(shù)正則化,公式如下:

      (22)

      (23)

      經(jīng)對(duì)損失函數(shù)的一階梯度和二階梯度,再去掉常數(shù)項(xiàng)并展開Ω,得到的目標(biāo)函數(shù)

      (24)

      (25)

      (26)

      樹結(jié)構(gòu)選擇增益下降最大的特征作為最優(yōu)分割點(diǎn),增益下降的公式為

      (27)

      2.3 基于LightGBM與基于RF-LightGBM的攻擊檢測(cè)模型

      LightGBM是在GBDT的算法的基礎(chǔ)上進(jìn)行改進(jìn).LightGBM解決了在大樣本高維度數(shù)據(jù)出現(xiàn)的耗時(shí)且耗內(nèi)存問題.該算法改進(jìn)了2個(gè)方面:gradient-based one-side sampling(GOSS)和exclusive feature bundling(EFB).互補(bǔ)特征壓縮(EFB)通過將相近的特征進(jìn)行合并達(dá)到2種目的:1)使特征維度從高維變?yōu)榈途S來尋找最優(yōu)分割點(diǎn);2)使降維對(duì)數(shù)據(jù)特征的損失最小.對(duì)實(shí)例進(jìn)行采樣時(shí),基于梯度的單面采樣(GOSS)是為保持信息增益的準(zhǔn)確保留較大貢獻(xiàn)的實(shí)例,刪除一部分小梯度的樣本.

      RF-LightGBM是在LightGBM攻擊檢測(cè)模型的基礎(chǔ)上,對(duì)需要檢測(cè)的樣本數(shù)據(jù)集先采用隨機(jī)森林(RF)對(duì)特征值進(jìn)行重要性排序.通過去除沒有必要的特征來降低模型訓(xùn)練時(shí)間及升高模型的準(zhǔn)確度.隨機(jī)森林結(jié)合多個(gè)決策樹,每個(gè)決策樹的建立取決于獨(dú)立提取樣本,不純度和袋外數(shù)據(jù)錯(cuò)誤率決定最佳分裂節(jié)點(diǎn),對(duì)于決策樹森林可以計(jì)算出每個(gè)特征減少的樹的不純度,并作為特征選擇的值.

      2.4 基于Bagging的攻擊檢測(cè)模型

      Bagging的決策樹算法通過對(duì)原始數(shù)據(jù)隨機(jī)采樣,并選擇信息增益為計(jì)算指標(biāo)進(jìn)行分類,根據(jù)方差和偏差對(duì)分類結(jié)果進(jìn)行優(yōu)化.該算法的特點(diǎn)是各個(gè)決策樹之間沒有依賴關(guān)系,每個(gè)基模型可以分別、獨(dú)立、互不影響地生成并且擬合.

      Bagging算法的集成過程如下所示.

      Input: Data setS={(x1,y1),(x2,y2)...(xn,yn) }

      Process:

      Fork=1,2,…,K

      Sk=Bootsrap(S)

      hi=L(S)

      H(x)=H(hi)

      End

      ReturnH(x)

      2.5 多分類器集成模型

      本文分別訓(xùn)練多個(gè)優(yōu)秀的分類器:gradient boosting decision tree(GBDT)、XGBoost、lightGBM、RF-LightGBM、Bagging.檢測(cè)訓(xùn)練好的分類器是否符合要求,用測(cè)試樣本集對(duì)訓(xùn)練好的各分類器進(jìn)行測(cè)試.最后,把多個(gè)分類器合并成一個(gè)集強(qiáng)分類器,在采用軟投票的方法綜合不同分類器的檢測(cè)概率,使整個(gè)數(shù)據(jù)集的情況可以較全面地反映出來,原理如圖 1所示.

      圖1 多分類器集成學(xué)習(xí)入侵檢測(cè)原理Fig.1 Principle of multi classifier ensemble learning intrusion detection

      基于集成學(xué)習(xí)的入侵檢測(cè)的算法

      輸入:樣本數(shù)據(jù)集S.

      輸出:檢測(cè)結(jié)果.

      1)將樣本數(shù)據(jù)集S按照1∶1劃分為2部分,得到訓(xùn)練集S1和測(cè)試集S2;

      2)用python標(biāo)記好的數(shù)據(jù)集NT;

      3)Foriin

      S1進(jìn)行轉(zhuǎn)換→帶標(biāo)簽的Si

      Si分別輸入到LightGBM,RF-LightGBM,XGBoost,gradient boosting decision tree(GBDT), Bagging進(jìn)行訓(xùn)練→分類器i;

      4)Forjin;

      S2輸入分類器j→概率j;

      5)用軟投票機(jī)制對(duì)多個(gè)分類器的概率結(jié)果進(jìn)行集成得到強(qiáng)分類器,T為分類器數(shù)量,hi(x)為分類器檢測(cè)概率

      6)Return檢測(cè)結(jié)果

      2.6 貝葉斯調(diào)參模型

      模型選擇的特征決定模型的性能上限,而參數(shù)調(diào)優(yōu)使模型更接近這個(gè)上限,在模型的準(zhǔn)確度與復(fù)雜度之間尋找平衡,防止模型過擬合并提高魯棒性.貝葉斯調(diào)參的基本思想:在貝葉斯定理下,用先驗(yàn)數(shù)據(jù)估計(jì)目標(biāo)函數(shù)的后驗(yàn)分布,然后再根據(jù)后驗(yàn)分布來確定下一個(gè)最優(yōu)先驗(yàn)數(shù)據(jù)進(jìn)而確定超參數(shù)組合.調(diào)參步驟如下:

      1) 確定初始學(xué)習(xí)速率0.15,估計(jì)treebased參數(shù)調(diào)優(yōu)數(shù)目;

      2) 控制樹的數(shù)量(nestimators)來提高模型的速度;

      3) 對(duì)樹的最大深度(max depth)和最小葉子節(jié)點(diǎn)樣本權(quán)重(min child weight)參數(shù)調(diào)優(yōu),對(duì)比模型分類的錯(cuò)誤率,防止模型過擬合;

      4) 調(diào)整subsample,使每棵樹采樣的比例適中;

      5) 降低學(xué)習(xí)速率,待模型基本收斂,停止迭代.

      3 仿真實(shí)驗(yàn)

      3.1 數(shù)據(jù)集描述

      在標(biāo)準(zhǔn) IEEE14-bus節(jié)點(diǎn)系統(tǒng)中假設(shè)攻擊者已知局部網(wǎng)絡(luò)拓?fù)溲趴吮染仃嚨那疤嵯?,注入虛假?shù)據(jù)向量b進(jìn)行攻擊,攻擊電網(wǎng)SCADA系統(tǒng)網(wǎng)絡(luò)成功后,可在 Python環(huán)境下進(jìn)行:標(biāo)注受到攻擊量測(cè)值標(biāo)注為0,未受攻擊量測(cè)值標(biāo)注為1,構(gòu)建了10 000個(gè)樣本數(shù)據(jù)集:8 000條訓(xùn)練樣本和2 000條測(cè)試樣本.數(shù)據(jù)樣本集D,攻擊檢測(cè)數(shù)據(jù)樣本X,樣本類標(biāo)記Y,如下所示:

      D={X,Y}={(x1,y1),(x2,y2),…,(x1000,y1000)},
      X=(x1,x2,…,x1000),
      Y=(y1,y2,…,y1000∈{0,1}

      .

      (28)

      3.2 貝葉斯調(diào)參結(jié)果

      在 Python環(huán)境下,先使用測(cè)試集對(duì)訓(xùn)練好的5種分類器進(jìn)行測(cè)試:LightGBM、RF-LightGBM、XGBoost、gradient boosting decision tree、bagging,使用貝葉斯進(jìn)行調(diào)參,電網(wǎng)假數(shù)據(jù)檢測(cè)集成學(xué)習(xí)模型是由幾個(gè)基分類器合并而成的,因此需要對(duì)其中的LightGBM、RF-LightGBM和XGBoost這3個(gè)基分類器進(jìn)行調(diào)參.

      LightGBM、RF-LightGBM和XGBoost參數(shù)范圍為:設(shè)置樹的數(shù)量(1,100),最小葉子節(jié)點(diǎn)樣本權(quán)重(1,20),樹的最大深度(2,20),subsample(0.1,1),貝葉斯調(diào)參采用高斯過程,考慮之前的參數(shù)信息,不斷更新先驗(yàn)來比較模型運(yùn)行的時(shí)間,分類錯(cuò)誤率等指標(biāo),判斷模型是否收斂,經(jīng)過不斷測(cè)試模型迭代到20次左右已經(jīng)基本收斂.

      最后,選擇的模型參數(shù)如表1、表2、表3所示.

      表1 LightGBM模型參數(shù)Tab.1 LightGBM model parameters

      表2 RF-LightGBM模型參數(shù)Tab.2 RF-LightGBM model parameters

      表3 XGBoost模型參數(shù)Tab.3 XGBoost model parameters

      3.3 虛假數(shù)據(jù)檢測(cè)結(jié)果

      將本文5種分類器分別對(duì)數(shù)據(jù)集樣本進(jìn)行檢測(cè),通過對(duì)虛假數(shù)據(jù)檢測(cè)結(jié)果的評(píng)估指標(biāo)分析 ,各分類器之間不僅可以做對(duì)比還是集成模型中的基分類器.評(píng)估指標(biāo)如下:分類器模型能力度area under ROC(AUC)、查確率 average precision (AP)、準(zhǔn)確率balanced accuracy (BA)、 平均幾何正確率G-mean、服從正態(tài)分布度KS-Value,上述指標(biāo)均是越高越好,誤檢率false detection rata (FDR)越低越好.

      1)根據(jù)表4和表5中模型對(duì)虛假數(shù)據(jù)檢測(cè)的各評(píng)估指標(biāo)百分比,為更直觀的表達(dá)各分類器及優(yōu)化后集成模型中每個(gè)評(píng)估指標(biāo)之間差異,畫出了各分類器每個(gè)評(píng)估指標(biāo)之間的對(duì)比圖,如圖2所示,其中縱坐標(biāo)為評(píng)估指標(biāo)的百分比,橫坐標(biāo)為各評(píng)估指標(biāo).

      表4 各分類器評(píng)估指標(biāo)Tab.4 Evaluation index of each classifier

      以本文以上階段所得到的基分類器為主,使用軟投票策略集成基分類器的決策,構(gòu)建一個(gè)新的集成模型.

      表5 優(yōu)化后集成模型的評(píng)估指標(biāo)Tab.5 Evaluation index of optimized integration model

      2)當(dāng) AUC 為 0.5時(shí),即代表模型的區(qū)分能力與隨機(jī)猜測(cè)能力一致;當(dāng) AUC 值越高其模型能力越強(qiáng). 由表4和表5知,關(guān)于優(yōu)化后集成模型分類器的模型區(qū)分能力(AUC)高達(dá)93.12%. 從圖2不難看出,優(yōu)化后集成模型的區(qū)分能力是本文提到的幾種分類器最好的,說明此模型的檢測(cè)虛假數(shù)據(jù)能力可信度較高. 由圖2也可以看出AP、BA、G-mean、KS-Value的指標(biāo)是這幾個(gè)分類器最高的,尤其是優(yōu)化后集成模型的查準(zhǔn)率(AP)高達(dá)91.68%,準(zhǔn)確率(BA)高達(dá)90.91%,誤檢率(FDR)為7.09%,比單個(gè)分類器檢測(cè)的查準(zhǔn)率提升了至少11%,準(zhǔn)確率提升了至少9%,誤檢率降低了至少5.22%,說明由5種基分類器集成的模型具有較好的檢測(cè)效果,進(jìn)一步說明了檢測(cè)模型泛化能力也得到了進(jìn)一步提升,在入侵檢測(cè)中,誤檢率帶來的損失較大,因此,研究人員都期望在能夠保證提升查準(zhǔn)率、準(zhǔn)確率的情況下,使誤檢率盡可能低,這樣更符合實(shí)際應(yīng)用的要求.

      圖2 各分類器評(píng)估指標(biāo)對(duì)比Fig.2 Comparison of evaluation indexes of each classifier

      為了進(jìn)一步檢測(cè)優(yōu)化后集成模型的分類效果,本算法與2種經(jīng)典分類算法做了對(duì)比,分別是擴(kuò)展卡爾曼濾波算法和與主成分分析結(jié)合的支持向量機(jī)(PCA+SVM),如圖3所示.在不同樣本數(shù)的情況下,隨著樣本數(shù)增多,本算法的準(zhǔn)確率大多高于PCA+SVM算法的分類準(zhǔn)確率,但是圖3中也存在準(zhǔn)確率優(yōu)于本算法,主要原因在于數(shù)據(jù)集預(yù)處理上對(duì)選取樣本的隨機(jī)性造成的樣本集的差異,這種差異是每種算法對(duì)樣本數(shù)劃分的劃分標(biāo)準(zhǔn)不同而導(dǎo)致的.而擴(kuò)展卡爾曼濾波檢測(cè)算法除了存在小樣本數(shù)據(jù)集上的準(zhǔn)確率會(huì)略高于本算法,但絕大多數(shù)的樣本集分類效果不如本算法,其原因是擴(kuò)展卡爾曼濾波檢測(cè)算法在真假數(shù)據(jù)不平衡的樣本集中,其分類準(zhǔn)確率會(huì)隨樣本數(shù)的增多而降低.

      圖3 準(zhǔn)確率對(duì)比Fig.3 Comparison of accuracy

      4 結(jié)語(yǔ)

      本文基于集成學(xué)習(xí)算法對(duì)電網(wǎng)假數(shù)據(jù)進(jìn)行檢測(cè),經(jīng)仿真實(shí)驗(yàn),該算法在解決單分類器檢測(cè)查準(zhǔn)率和準(zhǔn)確率不高和單分類器檢測(cè)不穩(wěn)定問題基礎(chǔ)上,可有效提高對(duì)電網(wǎng)虛假數(shù)據(jù)的檢測(cè)能力,比采用傳統(tǒng)的檢測(cè)算法查準(zhǔn)率和準(zhǔn)確率有明顯提升.此外,該檢測(cè)算法在檢測(cè)電網(wǎng)假數(shù)據(jù)的應(yīng)用上也是創(chuàng)新.在保證各項(xiàng)評(píng)估指標(biāo)較好的前提下再次提高檢測(cè)精確率和降低誤檢率將成為下步研究方向和工作.

      猜你喜歡
      分類器準(zhǔn)確率向量
      向量的分解
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      聚焦“向量與三角”創(chuàng)新題
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      向量垂直在解析幾何中的應(yīng)用
      宜君县| 台北县| 钟祥市| 青铜峡市| 阳泉市| 高密市| 定襄县| 北川| 永济市| 汽车| 太保市| 阿城市| 上犹县| 屏南县| 衡南县| 新安县| 保靖县| 富蕴县| 拜城县| 琼结县| 呈贡县| 康定县| 祁阳县| 滨州市| 呼图壁县| 邵东县| 临夏市| 望谟县| 确山县| 永善县| 嘉鱼县| 克山县| 汉中市| 许昌县| 新民市| 思南县| 乾安县| 塘沽区| 太康县| 班戈县| 五寨县|