安琪
(中國鐵道科學研究院集團有限公司通信信號研究所 北京市 100081)
互聯(lián)網(wǎng)技術(shù)應用的范圍越來越廣泛,在工業(yè)測量領(lǐng)域、道路交通控制領(lǐng)域、鐵路以及制造行業(yè)都得到了廣泛的應用,整體的工作模式以及設(shè)定的標準都越來越向智能化和科學化的方向發(fā)展,使得各個行業(yè)在發(fā)展的過程當中聯(lián)系不再單一,互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)和技術(shù)在整體發(fā)展的過程當中,推動了工業(yè)系統(tǒng)整體的優(yōu)化和升級。隨著網(wǎng)絡環(huán)境發(fā)生了比較大的變化,工業(yè)網(wǎng)絡也面臨著安全方面的威脅,站在各種信號系統(tǒng)研究的角度,需要進一步推動工業(yè)信號系統(tǒng)的穩(wěn)定可持續(xù)發(fā)展。現(xiàn)有的網(wǎng)絡安全防護技術(shù)還存在一些問題,為了滿足大數(shù)據(jù)量的一些需求,需要制定與之相匹配的網(wǎng)絡設(shè)置內(nèi)容,由于各方面的通信比較多,很容易導致通信行業(yè)出現(xiàn)安全問題。
時代在快速向前發(fā)展,各個國家越來越重視網(wǎng)絡安全信息,針對網(wǎng)絡信息所遭受到的攻擊進行了系統(tǒng)性的檢測,制定更加科學和全面的防御方案。如何發(fā)現(xiàn)網(wǎng)絡攻擊當中所存在的問題是一項重要的工作,針對網(wǎng)絡異常的流量檢測以及相關(guān)的分類是現(xiàn)階段所需要攻破的主要方向。異常流量以及漏洞的攻破問題越來越多,通過對這些問題展開深度的學習,也可以對網(wǎng)絡異常檢測的情況進行深入的了解。傳統(tǒng)的檢測方法針對網(wǎng)絡流量再進行檢測的過程當中,泛化能力和特征選擇比較差,還需要進行整體的技術(shù)優(yōu)化和創(chuàng)新。在未來的發(fā)展過程當中,需要找到一種可以對異常流量進行精準區(qū)分的檢測技術(shù),真正的去解決信號網(wǎng)絡當中所存在的問題。在網(wǎng)絡安全工作開展的過程當中,異常流量的檢測一直是重要的組成那種本篇文章,對網(wǎng)絡異常流量檢測的大致方法進行了分析和研究,針對處理方法當中所存在的問題進行了分析,希望可以對這些問題進行有效的改進。針對網(wǎng)絡流量的可以使得異常流量檢測工作的效率更高,通過這樣的方式檢測的準確率也會有所提升,將現(xiàn)有的檢測方法和寶寶數(shù)據(jù)進行充分的結(jié)合,展開一系列的人工分析和規(guī)劃處理,可以強化整體的安全效果。通過機器設(shè)備可以學習異常中的檢測的相關(guān)方法,了解網(wǎng)絡數(shù)據(jù)的相關(guān)特征,具體研究網(wǎng)絡攻擊流量特征的一個亂排序和高時序的問題。轉(zhuǎn)換流量特征之間的同義詞,在文本詞庫里面找到有關(guān)于流量方面的信息,將多種檢測方法充分的結(jié)合在一起,從而可以選擇多模型網(wǎng)絡異常流量檢測方法[1]。通過系統(tǒng)性的分析可以發(fā)現(xiàn),有關(guān)于機器學習方法或者是神經(jīng)網(wǎng)絡模型都需要展開關(guān)于網(wǎng)絡流量的特征訓練,根據(jù)分類器完成后續(xù)的檢測工作。大部分研究工作在開展之前都沒有針對檢測的數(shù)據(jù)進行預處理,這就導致前期的預處理工作只是對數(shù)據(jù)進行簡單的統(tǒng)一處理,以至于這些數(shù)據(jù)還是存在一定的冗余性。針對網(wǎng)絡流量數(shù)據(jù)在進行規(guī)劃處理的過程當中,可以發(fā)現(xiàn)網(wǎng)絡數(shù)據(jù)樣本原有的一些特征,進一步對數(shù)據(jù)進行最優(yōu)化的處理強化樣本的作用,最終可以出現(xiàn)數(shù)據(jù)維度的爆炸,這就使得惡意流量的特點或者是語義特點無法得到保留?,F(xiàn)階段所應用的神經(jīng)網(wǎng)絡方法,在具體實施的過程當中會對缺點進行再塑造,這樣會提高模型訓練過程當中的丟失率,整體的訓練性能比較一般。
在網(wǎng)絡流量監(jiān)測工作開展的過程當中,會對時間窗口進行固定,每一個特定的地址都被抽象為聚合流,設(shè)定一個特殊的集合,在這些集合當中會設(shè)定多個IP地址,每一個地址都會有統(tǒng)計特征屬性。本篇文章會應用源IP地址的特征屬性,從而可以構(gòu)建一個屬性陣,在其中會設(shè)定特殊的符號代表源地址的特征屬性。IP地址之間會具有一定的相似性,流量之間也會存在一定的關(guān)系,通過了解IP地址的相似性,可以對鄰接矩陣進行構(gòu)建。在連接矩陣當中會存在某個元素,用特定的方式表現(xiàn)兩種因素之間所存在的相似性,如果不存在這種特定的方式,則說明這兩種元素之間沒有相似性。在構(gòu)建屬性矩陣主模式的過程當中,需要建立一種從屬性矩陣當中所提取的列模型,通過這樣的方式可以組建新的屬性矩陣。隨著網(wǎng)絡層數(shù)的增加,模型在后續(xù)訓練的過程中出現(xiàn)擬合問題的頻率也會有所增加,針對這種情況還需要開展后續(xù)的檢查工作。特定的矩陣代表屬性矩陣,通過了解不同元素之間所存在的差異,可以對網(wǎng)絡的異常流量進行檢測,從中可以看出,網(wǎng)絡所存在的異常流量現(xiàn)象被描述為一個大量的IP地址,在這個IP地址當中可以找出一個異常的地址集合,在這個結(jié)合當中大多數(shù)的IP地址會具有比較明顯的差異性。
在開展深度學習當中,可以進一步了解循環(huán)神經(jīng)網(wǎng)絡,該方法針對于長時間的處理長序列數(shù)據(jù)具有非常明顯的效果。序列數(shù)據(jù)的樣本比較大,而且所處的環(huán)境較為復雜,在開展模型訓練的過程當中很容易出現(xiàn)梯度消失或者是爆炸。本篇文章對LSTM模型當中的長短期記憶模塊進行了分析和研究,希望可以通過這樣的方式解決上述所出現(xiàn)的問題。LSTM本質(zhì)上是一個門限,在這個模型當中會隱藏多層的門,其中的一個門會對細胞狀態(tài)整體的運行情況進行參數(shù)的更新,從而可以確保檢測網(wǎng)絡可以進行自循環(huán)權(quán)重的變化。當模型的參數(shù)沒有發(fā)生變化的時候,在不同的時間節(jié)點可以了解到不同的積分尺度,這些數(shù)據(jù)對于解決網(wǎng)絡梯度和爆炸問題都具有重要的意義。如圖1所示,LSTM網(wǎng)絡是由4個獨立的結(jié)構(gòu)組成的,其中有一個為細胞狀態(tài),其他三個構(gòu)成了主體結(jié)構(gòu)[2]。
圖1
實際網(wǎng)絡異常流量檢測工作在整體開展的過程中,如果網(wǎng)絡的環(huán)境過于復雜,會導致LSTM在訓練的過程當中出現(xiàn)誤差或者是樣本的泛化能力比較弱的問題。通過對訓練集的偏差進行了解,可以有效的擴大,訓練的樣本選擇最適合的特征優(yōu)化方案對于問題進行解決。針對于具體的問題,在進行解決的過程當中,如果選擇的深度不恰當或者是方差比較大,這些問題都無法進行正則化的處理,也會影響到后續(xù)的學習效率。通過了解參數(shù)范數(shù)的乘法方法可以對LSTM模型進行正則化,更加直觀的了解目標函數(shù),在一定程度上也可以解決方差過大的問題。如果檢測數(shù)據(jù)所存在的最高方差要低于正則化條件下的方差,那么還需要對后續(xù)的實踐方案進行整體優(yōu)化,隨著學習效率在不斷的提高,方差的檢測平均值會保持在基本不變的一個狀態(tài)。
在上述的分析當中,通過對LSTM網(wǎng)絡相關(guān)的理論進行研究,可以進一步分析流量檢測的原理,在此之后還需要構(gòu)建基于LSTM和改進殘差網(wǎng)絡的非常流量檢測模型。模型檢測工作在整體開展的過程當中,主要的思路就是需要對網(wǎng)絡的數(shù)據(jù)進行預處理,最終會得到輸出的數(shù)據(jù),在輸出之后可以作為三層堆疊LSTM網(wǎng)絡的輸入特征優(yōu)化,從而可以得到另一個數(shù)據(jù)參數(shù),同時將這個參數(shù)作為最終所得到的數(shù)據(jù),得到的輸出數(shù)據(jù)會進入到殘渣網(wǎng)絡當中,相關(guān)系統(tǒng)會對此數(shù)據(jù)進行優(yōu)化特征的提取,該數(shù)據(jù)的后續(xù)運行的過程中會經(jīng)過兩個路徑。第一條路徑就是Dense1層,輸入的數(shù)據(jù)會和輸出權(quán)重相乘,利用歸一化處理可以和激活函數(shù)進行整體優(yōu)化,從而會降低生成網(wǎng)絡所存在的缺陷,在經(jīng)過以上處理之后就會進入到Dense2,此時需要將數(shù)據(jù)和權(quán)重進行相乘進而得到新的數(shù)據(jù)。第二條路徑就是進入到殘渣差的神經(jīng)網(wǎng)絡當中,作為新的數(shù)據(jù)輸出從而可以獲取兩條路徑,這兩條路就相見了然后經(jīng)過激活函數(shù),最終就可以得到輸出的結(jié)果。
在最初建設(shè)的過程當中,需要構(gòu)建三層堆疊LSTM,根據(jù)上述所優(yōu)化之后的LSTM網(wǎng)絡,可以連續(xù)利用多個LSTM模型,從而可以設(shè)計出三層堆疊的LSTM結(jié)構(gòu)。通過多層堆疊可以解決單層LSTM網(wǎng)絡提取特征適應性弱等問題,前期工作在開展的過程當中,需要了解前期特征優(yōu)化以及預處理的相關(guān)數(shù)據(jù),將這些數(shù)據(jù)集成樣本之后,可以更好的應用三層堆疊LSTM模型,在提取的相關(guān)數(shù)據(jù)當中可以融入不同的深度特征。樣本特征在進行預處理之后,會存在一個數(shù)據(jù),需要通過256個單元第一層LSTM才可以得到一階特征,這些特征會被陸續(xù)傳入到第二層LSTM模型當中。特征被傳入到第三層LSTM模型當中時,在經(jīng)過Dropout可以對神經(jīng)元進行整體優(yōu)化,優(yōu)化工作的完成之后,第二特征的相關(guān)數(shù)據(jù)就會傳輸?shù)降谌龑覮STM結(jié)構(gòu)當中。不同深度的特征會和數(shù)據(jù)進行不同的合并,從而可以獲取不同深度特征的數(shù)據(jù),這些數(shù)據(jù)也會被傳輸?shù)讲煌膯卧狶STM當中,最終的數(shù)據(jù)也會對隱藏層的狀態(tài)進行優(yōu)化和調(diào)整。LSTM在最后時刻會對正常的隱藏層狀態(tài)數(shù)據(jù)進行分析,當相關(guān)的數(shù)據(jù)被傳入到最后一層的時候可以獲得32維特征,在最后一層Softmax還會展開一系列的分類,進而可以對不同的元素進行目標類的匯總[3]。
LSTM網(wǎng)絡具有梯度消失和過擬合的弱點,除此之外也無法對網(wǎng)絡的深度進行確定,傳統(tǒng)的檢驗方式所耗時間過長,無法滿足時代的發(fā)展需求。本篇文章對殘差神經(jīng)網(wǎng)絡進行了分析,希望可以構(gòu)建全連接神經(jīng)網(wǎng)絡。了解殘差神經(jīng)網(wǎng)絡的結(jié)構(gòu)特性,從中選取一條有效的路徑,可以從根本上降低路徑選擇的難度,該方法可以進一步加深神經(jīng)網(wǎng)絡的整體結(jié)構(gòu),在整個過程當中并不會出現(xiàn)過于復雜的過擬合現(xiàn)象,也不會存在梯度消失問題。通過分析殘差網(wǎng)絡的結(jié)構(gòu)圖,可以進一步看到三層堆疊網(wǎng)絡的輸出情況,與此同時需要記錄殘差輸入和輸出情況,進一步了解輸出的具體情況。為了對LSTM網(wǎng)絡進行優(yōu)化,根據(jù)模型整體的建設(shè)情況,會形成一個恒等的映射函數(shù),從而可以對LSTM函數(shù)進行分析。在最初處理樣本數(shù)據(jù)的過程中,需要對傳遞的信息進行權(quán)重設(shè)計,進一步了解卷積層的核大小,對殘差網(wǎng)絡進行優(yōu)化升級,在此過程中需要設(shè)計快捷鏈接擬合,通過函數(shù)可以對殘差映射函數(shù)進行表示,最終可以獲取相關(guān)的尺寸。在研究相關(guān)模型的過程當中,需要對模型的輸出情況和輸入情況進行樣本的重新構(gòu)建,展開系列性的分析和研究,從而可以將最底層的誤差傳遞到上級結(jié)構(gòu),不斷地進行重構(gòu)學習,進而可以有效減小誤差,從根本上解決殘差網(wǎng)絡訓練過程中存在的梯度消失問題。在優(yōu)化模型的過程中需要應用到傳統(tǒng)殘差網(wǎng)絡結(jié)構(gòu),分析樣本整體的數(shù)據(jù),其中會包括原始池化層,具體如圖2所示。
圖2
為了可以將Inception的結(jié)構(gòu)充分體現(xiàn)出來,本篇文章需要對整體的結(jié)構(gòu)進行分析和研究,必要的時候可以付以加權(quán),整體的比值需要保持在1:2,針對整個結(jié)構(gòu)在進行整體優(yōu)化的過程當中,還需要對殘查結(jié)構(gòu)進行連接。通過Inception可以對后續(xù)的數(shù)據(jù)池化層進行特征提取,強化整體的訓練效果[4]。經(jīng)過上述內(nèi)容表達之后,可以進一步對結(jié)構(gòu)開展信息調(diào)整工作,方便日后開展信息特征提取工作,確保卷積層的加入會進一步激活系統(tǒng)函數(shù),在之后調(diào)整的過程當中需要對各種結(jié)構(gòu)的分析特征進行融合,了解卷積層的優(yōu)化提取特征。后續(xù)工作在整體開展的過程中,需要對網(wǎng)絡層數(shù)進行分析,以便于可以結(jié)合實際情況對網(wǎng)絡體系進行優(yōu)化,使整個網(wǎng)絡系統(tǒng)可以滿足實際的工作需求。隨著網(wǎng)絡層數(shù)的增加,模型在后續(xù)訓練的過程中出現(xiàn)擬合問題的頻率也會有所增加,針對這種情況還需要開展后續(xù)的檢查工作,反復對系統(tǒng)進行優(yōu)化,多次模擬結(jié)構(gòu)運行的實際情況,解決系統(tǒng)的擬合問題。模型訓練的過程中,如果出現(xiàn)了過擬合問題,會影響到后續(xù)的網(wǎng)絡深度,也會干擾最終的模擬效果。殘差連接在進入到系統(tǒng)之后,會在第一時間應用到最大池化層,接著就會對系統(tǒng)當中的數(shù)據(jù)開展特征提取。
綜上所述,本篇文章基于LSTM和殘差網(wǎng)絡優(yōu)化研發(fā)了異常流量檢測方法,利用該方法可以有效提高檢測方法的準確率、科學性,降低了檢測數(shù)據(jù)的誤報率,可以對相關(guān)的參數(shù)進行優(yōu)化。檢測模型在最初建立的過程中,會針對公開的網(wǎng)絡數(shù)據(jù)進行收集,匯總分析之后還需要對相關(guān)的數(shù)據(jù)進行保存。網(wǎng)絡數(shù)據(jù)集NSL-KDD與開源WAF需要對數(shù)據(jù)集開展驗證,在驗證的過程中得出了相關(guān)的結(jié)論,三層堆疊的LSTM網(wǎng)絡和單層的LSTM網(wǎng)絡相比,三層堆疊的LSTM網(wǎng)絡性能會比較好,可以有效提高單層網(wǎng)絡的適應性,
從根本上解決適應性弱的問題。了解殘差神經(jīng)網(wǎng)絡的結(jié)構(gòu)特性,從中選取一條有效的路徑,可以從根本上降低路徑選擇的難度,該方法可以進一步加深神經(jīng)網(wǎng)絡的整體結(jié)構(gòu)。為了對LSTM的問題進行解決,需要在Inception結(jié)構(gòu)的基礎(chǔ)之上開展殘差設(shè)計,從而可以對結(jié)構(gòu)系統(tǒng)問題進行解決。在開展二分類實驗或者是多分類實驗的過程中,需要設(shè)定各種優(yōu)化之后的評價指標,結(jié)合實際工作的內(nèi)容對實驗流程進行優(yōu)化,在其中還需要引進機器學習模式,提高實驗工作的嚴謹性和科學性。