董慧
(西安明德理工學(xué)院,陜西西安 710124)
強(qiáng)化學(xué)習(xí)也稱增強(qiáng)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)或再勵(lì)學(xué)習(xí),作為機(jī)器學(xué)習(xí)范疇中最主要的應(yīng)用方法之一,能夠較好地描述智能體在網(wǎng)絡(luò)環(huán)境中存在的數(shù)據(jù)信息處理能力,從而解決與特定信息目標(biāo)相關(guān)的最大化應(yīng)用問題[1]。強(qiáng)化學(xué)習(xí)算法主要沿用傳統(tǒng)的馬爾可夫決策思想,按照已給定的數(shù)值條件,將待處理信息參量分成已學(xué)習(xí)與未學(xué)習(xí)兩部分,并分別對其進(jìn)行指向性的操作與處理。在實(shí)際應(yīng)用過程中,深度學(xué)習(xí)模型對于數(shù)據(jù)信息的記憶逐漸加深,并最終形成網(wǎng)絡(luò)處理環(huán)境所需的強(qiáng)化學(xué)習(xí)模型。
網(wǎng)絡(luò)數(shù)據(jù)流異常檢測是一種常見的信息參量處理手段,可在維護(hù)網(wǎng)絡(luò)應(yīng)用安全的同時(shí),對非常規(guī)數(shù)據(jù)信息進(jìn)行剔除處理[2]。然而傳統(tǒng)KNN 估算型檢測模型在單位時(shí)間內(nèi)所能檢測的數(shù)據(jù)信息量有限,并不能較好屏蔽異常信息流對數(shù)據(jù)節(jié)點(diǎn)造成的實(shí)質(zhì)性攻擊。為解決此問題,引入強(qiáng)化學(xué)習(xí)理論,在PLVF-TD 學(xué)習(xí)框架、Storm 流式處理平臺(tái)等結(jié)構(gòu)的支持下,搭建一種新型的網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型。在確定分段線性值函數(shù)條件的同時(shí),對異常數(shù)據(jù)特征的檢測屬性進(jìn)行精準(zhǔn)計(jì)算,從而實(shí)現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)流傳輸環(huán)境的有效保護(hù)。
網(wǎng)絡(luò)數(shù)據(jù)流的強(qiáng)化特性學(xué)習(xí)包含PLVF-TD 學(xué)習(xí)框架搭建、分段線性值函數(shù)設(shè)計(jì)、局部節(jié)點(diǎn)泛化能力分析3 個(gè)處理環(huán)節(jié)。
PLVF-TD 學(xué)習(xí)框架可按照網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)流信息的傳輸需求,確定必要的數(shù)據(jù)格式轉(zhuǎn)換條件,再借助存儲(chǔ)型數(shù)據(jù)庫建立分段線性值函數(shù)。一般情況下,PLVF-TD 格式必須滿足網(wǎng)絡(luò)數(shù)據(jù)流信息的轉(zhuǎn)換需求,可在將信息參量存儲(chǔ)于數(shù)據(jù)庫結(jié)構(gòu)體之中的同時(shí),分別調(diào)取網(wǎng)絡(luò)環(huán)境中的異常數(shù)據(jù)流與常規(guī)數(shù)據(jù)流。一方面按照信息參量的傳輸需求,計(jì)算分段線性值函數(shù)建立所需的各項(xiàng)數(shù)值量條件,另一方面也可使數(shù)據(jù)信息的網(wǎng)絡(luò)傳輸環(huán)境得到較好的穩(wěn)定與維護(hù)[3-4]。PLVF-TD 學(xué)習(xí)框架如圖1 所示。
圖1 PLVF-TD學(xué)習(xí)框架示意圖
分段線性值函數(shù)是對網(wǎng)絡(luò)數(shù)據(jù)流異常檢測行為的約束性條件。一般情況下,相關(guān)參與變量的物理數(shù)值越大,最終計(jì)算所得的函數(shù)值條件越能清晰描述強(qiáng)化學(xué)習(xí)算法所具備的應(yīng)用性能力[5-6]。規(guī)定i0代表最小的網(wǎng)絡(luò)數(shù)據(jù)流信息線性分段系數(shù),由于強(qiáng)化學(xué)習(xí)算法的影響,該項(xiàng)物理量指標(biāo)始終不具備無線擴(kuò)展的能力,相反會(huì)隨傳輸數(shù)據(jù)量的增大,而出現(xiàn)適當(dāng)?shù)目s小變化趨勢。x0代表網(wǎng)絡(luò)環(huán)境中理想化的數(shù)據(jù)流傳輸行為參量,由于網(wǎng)絡(luò)結(jié)構(gòu)體具有多樣性變化,該項(xiàng)物理量的數(shù)值水平始終不具備超過實(shí)際數(shù)據(jù)流傳輸行為參量x的能力。聯(lián)立上述物理量,可將網(wǎng)絡(luò)數(shù)據(jù)流的分段線性值函數(shù)條件定義為:
式中,f代表強(qiáng)化學(xué)習(xí)算法的應(yīng)用系數(shù)值,代表網(wǎng)絡(luò)數(shù)據(jù)流信息的異常性傳輸特征參量,e1、e2分別代表兩個(gè)不同的數(shù)據(jù)信息強(qiáng)化系數(shù)。
局部節(jié)點(diǎn)泛化能力是強(qiáng)化學(xué)習(xí)算法所具有的特殊執(zhí)行能力,可在網(wǎng)絡(luò)環(huán)境中對常規(guī)數(shù)據(jù)流與異常數(shù)據(jù)流進(jìn)行有效區(qū)分,從而降低后續(xù)檢測指令執(zhí)行的復(fù)雜化程度[7]。由于強(qiáng)化學(xué)習(xí)算法的影響,局部節(jié)點(diǎn)所具備的泛化能力不宜過強(qiáng),僅需滿足網(wǎng)絡(luò)環(huán)境對于常規(guī)數(shù)據(jù)流信息的調(diào)取需求即可。若待檢測的網(wǎng)絡(luò)數(shù)據(jù)流信息量過大,不僅會(huì)對分段線性值函數(shù)造成抑制性影響,也會(huì)使網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)信息參量的傳輸穩(wěn)定性大幅下降[8-9]。設(shè)r0代表強(qiáng)化學(xué)習(xí)算法作用下的最小網(wǎng)絡(luò)節(jié)點(diǎn)泛化條件,β代表網(wǎng)絡(luò)數(shù)據(jù)流信息的局部泛化系數(shù)。在上述物理量的支持下,聯(lián)立式(1),可將網(wǎng)絡(luò)環(huán)境中的局部節(jié)點(diǎn)泛化能力表示為:
其中,ymin代表最小的數(shù)據(jù)流信息傳輸特征值,ymax代表最大的數(shù)據(jù)流信息傳輸特征值,s1、s2分別代表兩個(gè)不同的網(wǎng)絡(luò)局部節(jié)點(diǎn)泛化指標(biāo)。
在網(wǎng)絡(luò)數(shù)據(jù)流強(qiáng)化特性學(xué)習(xí)條件的支持下,按照Storm 流式處理平臺(tái)搭建、網(wǎng)絡(luò)數(shù)據(jù)流特征選取、異常數(shù)據(jù)特征檢測屬性量計(jì)算的處理流程,實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型的順利應(yīng)用。
Storm 流式處理平臺(tái)負(fù)責(zé)對網(wǎng)絡(luò)數(shù)據(jù)流信息進(jìn)行整合與處理,并可借助強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)對局部節(jié)點(diǎn)泛化特征與泛化能力的有效維護(hù)[10-11]。在網(wǎng)絡(luò)傳輸環(huán)境中,常規(guī)數(shù)據(jù)流信息只能由邊緣節(jié)點(diǎn)位置向著中心節(jié)點(diǎn)位置反饋,并可根據(jù)信息參量的實(shí)際傳輸需求,將這些數(shù)據(jù)流文件妥善安置于合適的網(wǎng)絡(luò)節(jié)點(diǎn)位置處。一般情況下,Storm 平臺(tái)所承擔(dān)的數(shù)據(jù)信息檢測需求量越大,異常數(shù)據(jù)流對于網(wǎng)絡(luò)環(huán)境的攻擊能力也就越強(qiáng)。因此,為保證網(wǎng)絡(luò)傳輸環(huán)境中數(shù)據(jù)信息參量的應(yīng)用穩(wěn)定性,需要在維持Storm 流式處理平臺(tái)連接可靠性的同時(shí),對數(shù)據(jù)流信息參量進(jìn)行均分化處理[12-13]。Storm 流式處理平臺(tái)示意圖如圖2 所示。
圖2 Storm流式處理平臺(tái)示意圖
網(wǎng)絡(luò)數(shù)據(jù)流的異常檢測應(yīng)以已選取的數(shù)據(jù)流特征作為基礎(chǔ)參考條件,并遵照強(qiáng)化學(xué)習(xí)算法的實(shí)際應(yīng)用需求,對Storm 流式處理平臺(tái)的執(zhí)行能力進(jìn)行判斷。若平臺(tái)執(zhí)行能力可與網(wǎng)絡(luò)數(shù)據(jù)流特征匹配,則認(rèn)為現(xiàn)有數(shù)據(jù)流異常檢測制度有效;若平臺(tái)執(zhí)行能力并不能與網(wǎng)絡(luò)數(shù)據(jù)流特征匹配,則認(rèn)為現(xiàn)有數(shù)據(jù)流異常檢測制度無效[14]。在發(fā)生異常數(shù)據(jù)流攻擊行為時(shí),一個(gè)局部節(jié)點(diǎn)往往需要同時(shí)對應(yīng)多個(gè)IP 地址端口,且隨著攻擊行為強(qiáng)度的增大,若繼續(xù)維持現(xiàn)有數(shù)據(jù)流傳輸形式,則會(huì)導(dǎo)致虛假數(shù)據(jù)包的快速復(fù)制。設(shè)k0代表網(wǎng)絡(luò)數(shù)據(jù)流信息的最小復(fù)制條件,kn代表網(wǎng)絡(luò)數(shù)據(jù)流信息的最大復(fù)制條件,n代表網(wǎng)絡(luò)數(shù)據(jù)流信息的實(shí)際迭代次數(shù),聯(lián)立式(2),可將網(wǎng)絡(luò)數(shù)據(jù)流特征選取結(jié)果表示為:
式(3)中,f代表網(wǎng)絡(luò)數(shù)據(jù)流信息的異常檢測行為指標(biāo),h代表網(wǎng)絡(luò)數(shù)據(jù)流信息的常規(guī)檢測行為指標(biāo),代表網(wǎng)絡(luò)數(shù)據(jù)流信息的異常傳輸均值,代表網(wǎng)絡(luò)數(shù)據(jù)流信息的常規(guī)傳輸均值。
對于已抓包的網(wǎng)絡(luò)數(shù)據(jù)流異常信息來說,特征檢測屬性量計(jì)算能夠在確定數(shù)學(xué)建模條件的同時(shí),將已提取的信息參量劃分成多個(gè)可供選擇的應(yīng)用系數(shù)指標(biāo),從而實(shí)現(xiàn)對網(wǎng)絡(luò)信息傳輸環(huán)境的有效保護(hù)。在不考慮其他干擾條件的情況下,異常數(shù)據(jù)特征檢測屬性量僅受到數(shù)據(jù)流傳輸總量、異常行為系數(shù)兩項(xiàng)物理量的直接影響[15-16]。數(shù)據(jù)流傳輸總量可表示為ξ,在既定檢測時(shí)長內(nèi),該項(xiàng)物理量始終具備較強(qiáng)的累積變化能力。異常行為系數(shù)可表示為λ,受到強(qiáng)化學(xué)習(xí)機(jī)制的影響,該項(xiàng)物理量的變化能力有限,且可隨檢測數(shù)據(jù)流信息量的增大而出現(xiàn)逐漸遞增的變化狀態(tài)。聯(lián)立上述物理量,可將異常數(shù)據(jù)特征的檢測屬性量計(jì)算結(jié)果表示為:
為驗(yàn)證基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型的實(shí)際應(yīng)用能力,設(shè)計(jì)如下對比實(shí)驗(yàn)。在圖3所示檢測環(huán)境中,以網(wǎng)絡(luò)數(shù)據(jù)庫作為信息參量的核心輸出主機(jī),將這些數(shù)據(jù)信息文件分別輸入檢測主機(jī)中,其中檢測主機(jī)1 搭載基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型(實(shí)驗(yàn)組),檢測主機(jī)2 搭載KNN 估算型檢測模型(對照組1),檢測主機(jī)3 不搭載任何檢測模型(對照組2)。
圖3 網(wǎng)絡(luò)數(shù)據(jù)流異常檢測環(huán)境
PSU 指標(biāo)能夠描述異常信息流對網(wǎng)絡(luò)數(shù)據(jù)節(jié)點(diǎn)的攻擊性強(qiáng)度,一般情況下,PSU 指標(biāo)數(shù)值越大,異常信息流對網(wǎng)絡(luò)數(shù)據(jù)節(jié)點(diǎn)的攻擊性強(qiáng)度就越高,反之則越低。PSU 指標(biāo)數(shù)值變化如表1 所示。
表1 PSU指標(biāo)數(shù)值對比表
分析表1 可知,實(shí)驗(yàn)組PSU 指標(biāo)在整個(gè)實(shí)驗(yàn)過程中始終保持不斷上升的數(shù)值變化趨勢,但實(shí)驗(yàn)后期的上升幅度明顯小于實(shí)驗(yàn)前期;對照組1 的PSU指標(biāo)則在一定時(shí)間的穩(wěn)定狀態(tài)后,開始出現(xiàn)小幅度的上升;對照組2 的PSU 指標(biāo)則始終保持明顯上升的數(shù)值變化趨勢。隨著基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型的應(yīng)用,PSU 指標(biāo)數(shù)值的上升趨勢得到有效控制,可較好抑制異常信息流對網(wǎng)絡(luò)數(shù)據(jù)節(jié)點(diǎn)的攻擊性強(qiáng)度水平。
DLP 指標(biāo)可描述網(wǎng)絡(luò)主機(jī)對于常規(guī)信息參量的提取精度水平,一般情況下,DLP 指標(biāo)數(shù)值越大,網(wǎng)絡(luò)主機(jī)對于常規(guī)信息參量的提取精度也就越高。DLP 指標(biāo)的變化情況如表2 所示。
分析表2 可知,實(shí)驗(yàn)組DLP 指標(biāo)在整個(gè)實(shí)驗(yàn)過程中維持先上升、再穩(wěn)定的數(shù)值變化趨勢;對照組1的DLP 指標(biāo)始終保持相對穩(wěn)定的波動(dòng)性變化狀態(tài);對照組2 的DLP 指標(biāo)則基本保持上升與下降交替出現(xiàn)的數(shù)值變化趨勢。隨著所設(shè)計(jì)網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型的應(yīng)用,DLP 指標(biāo)的表現(xiàn)數(shù)值水平得到了有效促進(jìn),能夠持續(xù)增強(qiáng)網(wǎng)絡(luò)主機(jī)對于常規(guī)信息參量的提取精確度水平。
表2 DLP指標(biāo)數(shù)值對比表
在強(qiáng)化學(xué)習(xí)理論的作用下,新型網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型可針對常規(guī)信息參量捕獲精確性較差的問題進(jìn)行改進(jìn),且隨著PLVF-TD 學(xué)習(xí)框架、Storm 流式處理平臺(tái)的應(yīng)用,局部節(jié)點(diǎn)的泛化能力得到大幅增強(qiáng),不僅能使網(wǎng)絡(luò)環(huán)境免于遭受異常數(shù)據(jù)流的攻擊,也可實(shí)現(xiàn)對異常數(shù)據(jù)特征檢測屬性量值的準(zhǔn)確計(jì)算。