摘 要:由于現(xiàn)存的電力通信網(wǎng)絡(luò)帶寬流量異常檢測(cè)方法檢測(cè)結(jié)果的召回率和F1值較低,導(dǎo)致無(wú)法準(zhǔn)確解決網(wǎng)絡(luò)帶寬流量異常問(wèn)題。因此,本次開展基于數(shù)據(jù)挖掘的電力通信網(wǎng)絡(luò)帶寬流量異常檢測(cè)方法研究。對(duì)原始流量進(jìn)行分割與特征解析,設(shè)定時(shí)序、消耗、IP地址、資源占用和流向等指標(biāo)的閾值界限,并結(jié)合流量切分技術(shù)判定異常結(jié)果。試驗(yàn)結(jié)果表明,數(shù)據(jù)挖掘的電力通信網(wǎng)絡(luò)帶寬流量異常檢測(cè)方法結(jié)果的召回率均在99%以上,且F1值均在0.93以上,提高了帶寬流量異常檢測(cè)的準(zhǔn)確性,有助于精準(zhǔn)解決網(wǎng)絡(luò)問(wèn)題。
關(guān)鍵詞:數(shù)據(jù)挖掘;異常檢測(cè);帶寬流量;召回率;異常指標(biāo)
中圖分類號(hào):TP 393" " 文獻(xiàn)標(biāo)志碼:A
隨著電力通信網(wǎng)絡(luò)不斷進(jìn)步,其網(wǎng)絡(luò)安全十分重要,為了使電力通信網(wǎng)絡(luò)的實(shí)時(shí)性能得到保障,避免發(fā)生嚴(yán)重問(wèn)題,對(duì)電力通信網(wǎng)絡(luò)帶寬流量進(jìn)行實(shí)時(shí)檢測(cè)與處理至關(guān)重要。電力通信網(wǎng)絡(luò)帶寬流量異常檢測(cè)是對(duì)電力通信網(wǎng)絡(luò)中的大量帶寬流量數(shù)據(jù)進(jìn)行分析,以識(shí)別與正常模式不符的異常流量[1]。通過(guò)判斷和識(shí)別流量,對(duì)網(wǎng)絡(luò)中網(wǎng)絡(luò)入侵、設(shè)備故障等異常行為進(jìn)行識(shí)別和排查。電力通信網(wǎng)絡(luò)數(shù)據(jù)包括大量正常與異常行為信息。如果能及時(shí)發(fā)現(xiàn)并捕獲異常網(wǎng)絡(luò)帶寬流量并及時(shí)預(yù)警,可保障電力網(wǎng)絡(luò)系統(tǒng)的安全運(yùn)行。數(shù)據(jù)挖掘方法是從大量的歷史數(shù)據(jù)中提取有價(jià)值的信息,對(duì)電力通信網(wǎng)絡(luò)帶寬流量異常情況進(jìn)行檢測(cè),從而減少網(wǎng)絡(luò)帶寬流量出現(xiàn)的問(wèn)題。本文設(shè)計(jì)基于數(shù)據(jù)挖掘的電力網(wǎng)絡(luò)帶寬流量異常檢測(cè)方法,根據(jù)網(wǎng)絡(luò)異常引發(fā)的原因研究異常特征和流量數(shù)據(jù)分布范圍,提高對(duì)網(wǎng)絡(luò)異常情況發(fā)生的預(yù)防能力。同時(shí),結(jié)合現(xiàn)有的理論知識(shí),不斷改進(jìn)方法,使電力網(wǎng)絡(luò)帶寬流量異常檢測(cè)方法在大量的不平衡網(wǎng)絡(luò)流量中快速準(zhǔn)確地檢測(cè)流量異常原因,并提高數(shù)據(jù)中心防范網(wǎng)絡(luò)安全風(fēng)險(xiǎn)的能力。
1 電力通信網(wǎng)絡(luò)帶寬流量異常檢測(cè)方法
1.1 整理集成的電力通信網(wǎng)絡(luò)帶寬流量
在原有電力通信網(wǎng)絡(luò)帶寬流量數(shù)據(jù)庫(kù)中,按照隨機(jī)原則截取網(wǎng)絡(luò)帶寬流量數(shù)據(jù)段,對(duì)該原始流量進(jìn)行多段分割,并以pcap文件的形式存儲(chǔ)。剝離流量數(shù)據(jù)段中的數(shù)據(jù)幀的信息,保留網(wǎng)絡(luò)層數(shù)據(jù)。在封閉的模擬現(xiàn)實(shí)通信環(huán)境中,對(duì)上述網(wǎng)絡(luò)層流量數(shù)據(jù)段的IP地址進(jìn)行清洗,并將其轉(zhuǎn)換為S-ADSN可接受的輸入信息。提取pcap文件數(shù)據(jù)包信息并重構(gòu)流量數(shù)據(jù)段,完成集成的電力通信網(wǎng)絡(luò)帶寬流量的整理工作。整理集成的電力通信網(wǎng)絡(luò)帶寬流量過(guò)程如圖1所示。
1.2 解析電力通信網(wǎng)絡(luò)帶寬流量異常關(guān)鍵指標(biāo)
使用高斯混合模型對(duì)經(jīng)過(guò)1.1整理后的流量數(shù)據(jù)進(jìn)行聚類分析,處理不同大小和形狀的網(wǎng)絡(luò)帶寬流量數(shù)據(jù)簇,根據(jù)數(shù)據(jù)簇特性和分析需求,設(shè)置聚類算法的參數(shù)。其步驟如下。
初始化:在整理后的網(wǎng)絡(luò)帶寬流量數(shù)據(jù)庫(kù)中隨機(jī)選擇,將選擇的網(wǎng)絡(luò)帶寬流量數(shù)據(jù)庫(kù)的高斯分布作為初始聚類的參數(shù)。
E步驟:按照當(dāng)前的高斯分布參數(shù)對(duì)初始化的參數(shù)進(jìn)行計(jì)算,由此確定流量樣本的高斯分布后驗(yàn)概率。
M步驟:根據(jù)E步驟中樣本的后驗(yàn)概率,重新估計(jì)每個(gè)高斯分布的均值和協(xié)方差參數(shù)。
收斂判斷:檢查參數(shù)的變化或?qū)?shù)似然的變化是否達(dá)到預(yù)設(shè)的收斂條件。
通過(guò)上述步驟將相似的流量模式聚集成簇。異常流量被聚類為單獨(dú)的簇并遠(yuǎn)離其他簇。從以下5個(gè)方面對(duì)異常流量進(jìn)行分析,確定電力通信網(wǎng)絡(luò)帶寬流量異常的關(guān)鍵指標(biāo)內(nèi)容。1)針對(duì)異常流量的日、周、月等周期性變化,識(shí)別與正常模式不符的流量變化,從而提取網(wǎng)絡(luò)帶寬流量異常的時(shí)序指標(biāo)。2)監(jiān)測(cè)網(wǎng)絡(luò)中的實(shí)時(shí)流量數(shù)據(jù),與正常情況下的流量水平進(jìn)行比較。流量出現(xiàn)突然大幅增加情況,表明網(wǎng)絡(luò)帶寬流量存在異常,解析此時(shí)流量消耗的數(shù)量,從而提取異常網(wǎng)絡(luò)帶寬流量的消耗指標(biāo)。異常流量消耗狀態(tài)如圖2所示。3)識(shí)別存在異常集中的流量來(lái)源或目標(biāo),對(duì)特定IP地址或地址段的流量情況進(jìn)行監(jiān)測(cè),監(jiān)測(cè)網(wǎng)絡(luò)中的突發(fā)流量事件,分析原因和影響,從而提取異常網(wǎng)絡(luò)帶寬流量的IP地址指標(biāo)。4)解析數(shù)據(jù)包的發(fā)送和接收速率,對(duì)異常高的發(fā)送和接收速率進(jìn)行針對(duì)性分析,同時(shí)關(guān)注網(wǎng)絡(luò)會(huì)話的持續(xù)時(shí)間,對(duì)異常長(zhǎng)的狀況結(jié)合上述分析結(jié)果進(jìn)行解析,從而提取其資源占用指標(biāo)。5)解析流量在網(wǎng)絡(luò)中的流向變化,識(shí)別是否存在異常的流量路由或轉(zhuǎn)發(fā)行為,提取其流向指標(biāo)。
1.3 通過(guò)數(shù)據(jù)挖掘方法設(shè)定流量異常檢測(cè)界限
使用數(shù)據(jù)挖掘方法對(duì)流量數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)和推斷性統(tǒng)計(jì),從而根據(jù)網(wǎng)絡(luò)帶寬流量數(shù)據(jù)的分布特性和異常檢測(cè)的需求選擇歷史流量數(shù)據(jù)庫(kù)[2];使用歷史流量數(shù)據(jù)對(duì)檢測(cè)模型進(jìn)行訓(xùn)練[3-4],學(xué)習(xí)正常流量的模式和特征;根據(jù)模型訓(xùn)練的結(jié)果以及1.2中所確定的異常指標(biāo)設(shè)定網(wǎng)絡(luò)帶寬流量特征值的界限,采用閾值范圍表示網(wǎng)絡(luò)帶寬流量特征值的界限,其確定步驟如下。
首先,用N(μ,σ2)表示網(wǎng)絡(luò)帶寬流量狀態(tài),其中μ代表均值,σ2代表方差。均值如公式(1)所示。
(1)
式中:n為流量點(diǎn)的數(shù)量;xi為每個(gè)流量點(diǎn)的數(shù)據(jù)。
方差如公式(2)所示。
(2)
可以對(duì)方差進(jìn)行開方運(yùn)算來(lái)求得標(biāo)準(zhǔn)差σ。
其次,根據(jù)3σ原則進(jìn)行閾值計(jì)算。上界閾值常設(shè)置為均值加上3倍標(biāo)準(zhǔn)差,即μ+3σ,下界閾值通常設(shè)置為均值減去3倍標(biāo)準(zhǔn)差,即μ-3σ。
將計(jì)算的閾值應(yīng)用于樣本網(wǎng)絡(luò)帶寬流量數(shù)據(jù)庫(kù),驗(yàn)證其是否準(zhǔn)確識(shí)別異常值。
最后,通過(guò)交叉驗(yàn)證法進(jìn)行界限的調(diào)整,確保異常檢測(cè)的準(zhǔn)確性和靈敏度達(dá)到最佳平衡。調(diào)整方法如下。
先計(jì)算異常流量數(shù)據(jù)的誤報(bào)率和漏報(bào)率,誤報(bào)率即為出現(xiàn)誤報(bào)情況的異常樣本數(shù)量與實(shí)際正常樣本數(shù)量的比值,而漏報(bào)率則為出現(xiàn)漏報(bào)情況的異常樣本數(shù)量與實(shí)際異常樣本總數(shù)的比值。然后對(duì)比其誤報(bào)率與漏報(bào)率,并根據(jù)結(jié)果調(diào)整閾值范圍,閾值范圍調(diào)整原則見表1。
完成閾值調(diào)整后,對(duì)網(wǎng)絡(luò)帶寬流量的各特征值進(jìn)行比對(duì),如果數(shù)值結(jié)果在閾值范圍內(nèi),那么該處網(wǎng)絡(luò)帶寬流量不存在異常,如果其數(shù)值結(jié)果在閾值范圍外,那么該處網(wǎng)絡(luò)帶寬流量存在異常[5]。
1.4 判定異常檢測(cè)結(jié)果
將第1.1節(jié)中整理的流量數(shù)據(jù)輸入訓(xùn)練好的異常檢測(cè)模型中,對(duì)輸入的數(shù)據(jù)進(jìn)行評(píng)估,并輸出異常概率、距離正常模式的距離等評(píng)估指標(biāo),將第1.3節(jié)中中異常檢測(cè)界限設(shè)置為網(wǎng)絡(luò)帶寬流量異常檢測(cè)模型的限制參數(shù),將模型輸出的評(píng)估指標(biāo)與上述參數(shù)進(jìn)行比對(duì),網(wǎng)絡(luò)帶寬流量比對(duì)過(guò)程如下。
根據(jù)數(shù)據(jù)集標(biāo)簽對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行隨機(jī)采樣,獲取包括良性流量類別A和惡意流量類別B的流量數(shù)據(jù)集D。按照流量序列區(qū)間對(duì)D進(jìn)行切分,并對(duì)切分點(diǎn)進(jìn)行確定,如圖3所示。
圖3中圓形為正常流量,五角星為異常流量,箭頭所指為切分點(diǎn)。利用切分點(diǎn)對(duì)應(yīng)的數(shù)值,將D分為集合D1和D2,根據(jù)切分點(diǎn)t的位置對(duì)集合數(shù)據(jù)進(jìn)行多次比較,根據(jù)比較結(jié)果,在正常流量數(shù)據(jù)與異常流量數(shù)據(jù)間確定多個(gè)t值,選擇最優(yōu)區(qū)間邊界值作為流量序列區(qū)間,重復(fù)以上步驟,直至確定t的最優(yōu)值。
將最優(yōu)t值位置對(duì)應(yīng)的區(qū)間結(jié)果作為輸出結(jié)果,將該區(qū)間網(wǎng)絡(luò)帶寬流量數(shù)據(jù)作為異常輸出結(jié)果。
針對(duì)輸出的異常網(wǎng)絡(luò)帶寬流量數(shù)據(jù)進(jìn)行數(shù)據(jù)檢測(cè),并將異常結(jié)果與外部數(shù)據(jù)源進(jìn)行比對(duì)。詳細(xì)記錄判定的異常結(jié)果,生成異常報(bào)告,從而完成異常檢測(cè)結(jié)果的判定工作[6]。
2 試驗(yàn)論證分析
為檢驗(yàn)本文研究的基于數(shù)據(jù)挖掘的電力通信網(wǎng)絡(luò)帶寬流量異常檢測(cè)方法的精準(zhǔn)度,采用文獻(xiàn)[1]、文獻(xiàn)[2]方法及本文方法對(duì)電力通信網(wǎng)絡(luò)多段帶寬流量進(jìn)行處理,并計(jì)算3種方法處理后的帶寬流量數(shù)據(jù)的召回率,通過(guò)對(duì)比召回率數(shù)值,分析3種方法的準(zhǔn)確度。召回率的數(shù)值表示在實(shí)際為正的樣本中,該樣本被預(yù)測(cè)為正的概率值,它可以體現(xiàn)檢測(cè)方法能夠找出所有真實(shí)目標(biāo)的能力。在完成召回率的對(duì)比后,對(duì)相同試驗(yàn)樣本進(jìn)行F1值的對(duì)比,F(xiàn)1值結(jié)合精確率和召回率指標(biāo)的特點(diǎn),從而衡量方法在保持精確率和召回率間的平衡時(shí)的性能。
2.1 試驗(yàn)數(shù)據(jù)采集
本試驗(yàn)?zāi)P偷臉?gòu)建與訓(xùn)練均在Windows 11系統(tǒng)上操作,使用lntcl i7-11800H處理器和NVIDIA RTX 3080顯卡進(jìn)行試驗(yàn)。該模型參數(shù)的設(shè)置見表2。
對(duì)電力通信網(wǎng)絡(luò)帶寬流量進(jìn)行隨機(jī)抽取,抽取4個(gè)流量段作為試驗(yàn)樣本,并對(duì)試驗(yàn)樣本進(jìn)行初步的數(shù)據(jù)處理。
2.2 試驗(yàn)結(jié)果分析
本試驗(yàn)通過(guò)3種方法處理后其召回率的數(shù)據(jù)來(lái)對(duì)比3種方法對(duì)流量異常檢測(cè)的準(zhǔn)確度,召回率數(shù)值越接近100%,證明該方法對(duì)流量異常檢測(cè)的結(jié)果越準(zhǔn)確。3種方法處理4個(gè)流量庫(kù)后其召回率數(shù)據(jù)見表3。
由上述結(jié)果可知,應(yīng)用本文方法檢測(cè)的電力通信網(wǎng)絡(luò)帶寬流量數(shù)據(jù)在每一個(gè)流量庫(kù)中的召回率均在99%以上,而文獻(xiàn)[1]、文獻(xiàn)[2]中方法的召回率在不同流量庫(kù)中數(shù)據(jù)差值較大,且都在99%以下。
統(tǒng)計(jì)3種方法的FI值,得到的結(jié)果如圖4所示。
通過(guò)圖4可以看出,本文研究方法對(duì)4組流量庫(kù)檢測(cè)后的F1值范圍在0.93~0.98,數(shù)據(jù)均大于0.93,相比其他2種方法,本文方法流量檢測(cè)后F1值較大,表明該方法檢測(cè)后的精確率和召回率的平衡性能較高。因此,本研究方法檢測(cè)結(jié)果更準(zhǔn)確。
3 結(jié)語(yǔ)
本文的基于數(shù)據(jù)挖掘的電力通信網(wǎng)絡(luò)帶寬流量異常檢測(cè)方法通過(guò)綜合運(yùn)用聚類、分類、關(guān)聯(lián)規(guī)則挖掘和時(shí)間序列分析等多種技術(shù)手段,實(shí)現(xiàn)對(duì)電力通信網(wǎng)絡(luò)帶寬流量的全面監(jiān)控和異常檢測(cè)。由于電力通信網(wǎng)絡(luò)中的數(shù)據(jù)來(lái)源廣泛且復(fù)雜,數(shù)據(jù)質(zhì)量難以保證,這會(huì)影響異常檢測(cè)的準(zhǔn)確性。而本文研究的這種方法具有高效、準(zhǔn)確和自動(dòng)化的特點(diǎn),對(duì)保障電力通信網(wǎng)絡(luò)的安全穩(wěn)定運(yùn)行具有重要意義。
參考文獻(xiàn)
[1]霍帥,師智斌,竇建民,等.動(dòng)態(tài)生成Shapelet的網(wǎng)絡(luò)流量異常檢測(cè)[J].計(jì)算機(jī)工程與設(shè)計(jì),2024,45(5):1337-1342.
[2]高治軍,曹浩東,韓忠華.基于擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)模型[J].沈陽(yáng)建筑大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,40(4):738-744.
[3]馬劍波,左翔,叢小飛,等.基于深度學(xué)習(xí)的水利工控網(wǎng)絡(luò)流量異常檢測(cè)方法[J].水利水電技術(shù)(中英文),2020,4(6):1-14.
[4]鐘昱,黃振南,謝惠超,等.一種基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測(cè)方法[J].廣西大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,49(3):563-574.
[5]宗學(xué)軍,王潤(rùn)鵬,何戡,等.優(yōu)化隨機(jī)森林模型的工控網(wǎng)絡(luò)異常檢測(cè)[J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào),2024,46(2):197-205.
[6]沈萍,陳俊麗.基于孤立森林評(píng)分?jǐn)U展的流量異常檢測(cè)方法[J].電子測(cè)量技術(shù),2024,47(8):157-163.