段立峰
摘 要:電子商務(wù)混合入侵行為會(huì)造成企業(yè)經(jīng)濟(jì)受到損失,于是為了減少損失需要對(duì)其信息進(jìn)行檢索,從而及時(shí)有效的檢索出入侵信息。文章提出了一種基于最大熵原理的入侵行為信息智能化檢索方法,其中使用了兩種離散方式將特征轉(zhuǎn)化為離散數(shù)值,從而可以除去冗余干擾特征;再使用了3種特征選擇方式,除去了噪聲干擾特征。最后通過仿真實(shí)驗(yàn)得到文章所研究的檢索方法具有效率快、精確度高的特點(diǎn)。
關(guān)鍵詞:最大熵原理;電子商務(wù);混合入侵;檢索
中圖分類號(hào):TP18 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ?文章編號(hào):1001-5922(2020)10-0141-04
Abstract:The mixed intrusion of e-commerce will cause losses to the enterprise economy, so in order to reduce losses, it is necessary to retrieve its information, so as to retrieve the intrusion information in a timely and effective manner. This paper proposes an intelligent retrieval method for intrusion behavior information based on the principle of maximum entropy. Two discrete methods are used to convert features into discrete values, so that redundant interference features can be removed; Three more feature selection methods are used to remove noise interference features. Finally, through simulation experiments, the retrieval method studied in this paper has the characteristics of fast efficiency and high accuracy.
Key words:principle of maximum entropy; e-commerce; mixed intrusion; retrieval
0? ? ? 引言
電子商務(wù)信息系統(tǒng)中有大量隱秘和重要性的數(shù)據(jù),如果這些數(shù)據(jù)受到侵襲將會(huì)造成企業(yè)受到較大的損失[1]。當(dāng)前,在電子商務(wù)系統(tǒng)中較為常見的安全問題有3個(gè)類型,第1系統(tǒng)的網(wǎng)頁被篡改,即系統(tǒng)中的各種相關(guān)信息被更改,第2為交易活動(dòng)仿冒,第3為系統(tǒng)混合入侵行為,即將惡意程序植入到系統(tǒng)中,從而造成系統(tǒng)無法使用[2]。這3種安全問題將會(huì)給企業(yè)帶來非常大的威脅,所以當(dāng)存在混合入侵行為時(shí)需要及時(shí)檢測(cè)出來,達(dá)到降低安全事故的發(fā)生。文獻(xiàn)[3]提出了一種基于BP神經(jīng)網(wǎng)絡(luò)的檢索方式,雖然能夠達(dá)到一定的檢索效果,但是沒有將冗余干擾特征去除[3]。文獻(xiàn)[4]提出了基于深度信念網(wǎng)絡(luò)模型的檢索方式,該方式同樣能夠達(dá)到一定的檢索效果,但是沒有將噪聲干擾去除,于是這兩種方法的檢索精確度不高[4]。文章將提出一種基于最大熵原理的檢索方法,該方法將會(huì)把噪聲干擾和冗余干擾去除,從而提高檢索方法的精確度。
1? ? ?電子商務(wù)混合入侵行為信息智能化檢索方法分析
1.1? ?電子商務(wù)信息離散化處理
電子商務(wù)信息特征屬于一個(gè)不斷變化的連續(xù)過程,為了能夠獲取其中某個(gè)具體的特征,需要將其進(jìn)行離散處理。
1.1.1 熵最小化離散
首相按照一定的順序?qū)㈦娮由虅?wù)信息的特征值進(jìn)行排列,然后再選擇斷點(diǎn)候選集合,選擇的點(diǎn)為序列中相鄰數(shù)值的中點(diǎn),需要對(duì)這些點(diǎn)進(jìn)行候選評(píng)估運(yùn)算。電子商務(wù)信息需要分為兩部分,然后計(jì)算出每個(gè)部分的信息熵,于是再將熵最小的斷點(diǎn)放到斷點(diǎn)候選集合中。最后通過選擇一個(gè)電子商務(wù)信息最小貓叔長(zhǎng)度值當(dāng)做熵最小化離散方法的停止約束條件[5]。
1.1.2 時(shí)間間隔離散
該目的在于將離散間隔尺度和結(jié)果能夠保持一定的平衡,其中就是通過調(diào)整間隔數(shù)量和間隔大小[6]。比如一個(gè)電子商務(wù)信息屬性有n個(gè)樣例,進(jìn)行離散化處理之后,于是就會(huì)存在個(gè)間隔,其中每一個(gè)間隔中都存在個(gè)電子商務(wù)信息樣例,最后將將方差和偏差賦予同樣權(quán)值。當(dāng)n發(fā)生變化之后,間隔數(shù)量和間隔大小也會(huì)發(fā)生變化。使用這種方式對(duì)電子商務(wù)信息進(jìn)行處理能夠減小原始數(shù)據(jù)冗余問題。
1.2? ?混合入侵特征選擇
1.2.1 基于關(guān)聯(lián)的特征選擇
該選擇方式的主要思想:集合經(jīng)過離散處理之后,對(duì)其進(jìn)行檢測(cè),當(dāng)發(fā)現(xiàn)與檢索類別相關(guān)聯(lián),并且處于相互獨(dú)立的特征提取出來,然后將其作為最優(yōu)特征子集。對(duì)混合入侵最優(yōu)特征子集進(jìn)行評(píng)估時(shí),其評(píng)估函數(shù)MS如下所示。
公式(1)中k表示的是特征選擇之后特征子集S中包含的特征數(shù)目,rcf表示的是檢索類別和入侵特征之間聯(lián)系強(qiáng)度的平均值,rff表示的是特征和特征之間聯(lián)系強(qiáng)度的平均值。
1.2.2 混合入侵特征的一致性過濾器
使用該方式的過程:每一輪會(huì)從離散化數(shù)據(jù)集中產(chǎn)生一個(gè)入侵特征子集S',如果其中的特征個(gè)數(shù)比S中的少,再對(duì)S'中不一致標(biāo)準(zhǔn)進(jìn)行計(jì)算,如果得到的結(jié)果比預(yù)先設(shè)置的閥值小,則S'將作為特征最優(yōu)子集。
1.2.3 對(duì)稱不確定性選擇
通過使用對(duì)稱不確定性描述混合入侵特征x、y之間信息熵和信息收益之間的關(guān)系,其公式如下所示。
公式(2)中,H(x)表示x的信息熵,H(y)表示y的信息熵,H(x,y)表示特征信息增益函數(shù),IG(x/y)表示x、y之間的信息收益。
根據(jù)上式計(jì)算,將得到的不確定性特征進(jìn)行降序排列,然后將特征一致性貢獻(xiàn)率與閥值進(jìn)行大小比較,直降大于或者等于閥值的特征進(jìn)行保留,使用這種方式能夠?qū)⒃肼暩蓴_信息去除,從而可以得到更加準(zhǔn)確的結(jié)果。
1.3? ?信息混合入侵特征檢索
該檢索系統(tǒng)的工作流程如圖1所示,其中監(jiān)控入侵行為的方式有環(huán)境模擬監(jiān)控、實(shí)時(shí)監(jiān)控和虛擬機(jī)與其他相結(jié)合的監(jiān)控方式。電子商務(wù)在進(jìn)行交易過程中都會(huì)調(diào)用系統(tǒng)API函數(shù)和各類對(duì)象,于是為了將交易行為轉(zhuǎn)化為可以可以計(jì)算的形式,可以將其交易形式等同于API函數(shù)加上系統(tǒng)參數(shù)。
通過系統(tǒng)獲得了電子商務(wù)交易行為之后,然后系統(tǒng)的分析層會(huì)對(duì)交易行為進(jìn)行集合處理,然后通過預(yù)先定義的API函數(shù)白名單將線程和進(jìn)程進(jìn)行過濾處理,在該處理過程中需要保證用戶體驗(yàn)和系統(tǒng)運(yùn)行速度[7]。然后再抽取出剩余的API函數(shù)序列中的交易行為語義特征,最后達(dá)到混合入侵特征最優(yōu)子集選取的目的。決策層的主要目的就是將將上述所得到的入侵特征最優(yōu)子集按照模板進(jìn)行編碼,然后再特征庫中進(jìn)行相匹配,從而判斷信息中是否存在混合入侵行為。
假設(shè)Pe為出現(xiàn)一次混合入侵行為并且被判斷出來的平均概率,當(dāng)出現(xiàn)兩次混合入侵之后被判斷出來的平均概率為Pe·Pe,其中要求這兩次混合入侵行為之間相互獨(dú)立,并且沒有任何相關(guān)性。然后一般請(qǐng)款下,當(dāng)Pe ≤ 0.3時(shí),其Pe·Pe ≤ 0.9,從而可以說明,兩次混合入侵行為的誤判率比一次判斷機(jī)制小很多,即兩次判斷入侵行為的準(zhǔn)確率更高。
聯(lián)動(dòng)響應(yīng)層的主要目的為阻止入侵行為繼續(xù)運(yùn)行,從而有利于提高信息的安全性和機(jī)密性。
1.4? ?電子商務(wù)混合入侵信息檢索
假設(shè)A1,A2, …Am表示m個(gè)入侵行為序列,每個(gè)序列處于相互獨(dú)立的狀態(tài),并且之間沒有任何聯(lián)系,于是其概率分布函數(shù)公式如下所示。
從上述公式(3)可知,發(fā)生電子商務(wù)混合入侵行為的順序存在差別。假設(shè)存在兩次混合入侵行為的次數(shù)有m2種,那么其序列和聯(lián)合概率分布函數(shù)分別用和進(jìn)行表示,如下所示。
通過上述計(jì)算分析,然后再基于最大信息熵原理,從而可以得到如下所示的入侵行為最大熵分布概率maxH公式,另外兩個(gè)公式為其約束條件。
然后再依據(jù)拉格朗日乘子法,將參數(shù)序列引入其中,于是可以得到如下所示的檢索目標(biāo)函數(shù)。
假設(shè),于是得到如下所示的公式。
于是可以根據(jù)上述公式計(jì)算出參數(shù)序列,于是即可分析出電子商務(wù)混合入侵行為最大熵分布概率,從而可以達(dá)到入侵行為智能檢索的目的[8]。
2? ? ?仿真實(shí)驗(yàn)
為了能夠驗(yàn)證檢索效果和性能,于是建立了一個(gè)電子商務(wù)交易網(wǎng)絡(luò)檢索環(huán)境,該環(huán)境中使用了4臺(tái)計(jì)算機(jī),其中1臺(tái)計(jì)算機(jī)作為檢索服務(wù)器,另外3臺(tái)計(jì)算機(jī)作為攻擊服務(wù)器,將檢索服務(wù)器中布置上述所研究的智能化檢索方法,然后在攻擊服務(wù)器中布置多種惡意程序。于是在仿真過程中,攻擊服務(wù)器會(huì)向其他PC機(jī)中發(fā)送電子商務(wù)數(shù)據(jù)包,于是就會(huì)使得電子商務(wù)信息出現(xiàn)異常情況,那么檢索服務(wù)器中就會(huì)對(duì)其進(jìn)行智能檢索。
圖2為處于安全情況時(shí)的電子商務(wù)信息流,圖中所示的兩條虛線表示的是閥值,當(dāng)信息流的值超過了兩條虛線之后,即可說明在電子商務(wù)中有混合入侵行為發(fā)生。
然后在不同仿真時(shí)間點(diǎn)上注入惡意入侵程序,時(shí)間點(diǎn)分別為80s、180s、320s、360s、500s、550s。在注入惡意入侵程序的同時(shí),還在三個(gè)時(shí)間點(diǎn)上注入了人工干擾信息,該時(shí)間點(diǎn)分別為100s、280s、430s。在采用文章所分析的檢索方法上結(jié)合文獻(xiàn)[3]和[4]的方法,對(duì)圖3中的電子商務(wù)混合入侵信息進(jìn)行檢索,并且與人工入侵的時(shí)間進(jìn)行對(duì)比,當(dāng)兩者的擬合度比較高,則可以表明文章所研究的智能檢索方式精確度比較高,當(dāng)擬合度比較低時(shí),則可以表明文章所研究的方式其精確度比較低。最后所得到的對(duì)比結(jié)果如圖4所示,其中包含3種不同檢索方法的檢索結(jié)果。
通過對(duì)比分析,文獻(xiàn)[3]的方法能夠?qū)⑺腥肭中畔⒍紮z索出來,但是也會(huì)將不是電子商務(wù)混合入侵的信息檢索出來,可見其檢索準(zhǔn)確性比較低;而文獻(xiàn)[4]中的方法沒有將惡意信息全部檢索出來,于是該方法的檢索精確性也比較低。而文章所研究的基于最大熵原理的電子商務(wù)混合入侵行為信息智能檢索方法具有很好的精確性,能夠?qū)⑺袗阂庑畔⑷繖z索出來,同時(shí)還沒有將人工干擾信息檢索出來。文章所研究的方法使用了兩種離散化方式,并且還使用了3種特征選擇方式,將特征子集中的噪聲和冗余特征去除,有利于檢索方法精確度的提高;另外由于2次入侵行為判斷的誤判率比較小,于是文章所研究的檢索方式具有更高的精確度。
文章為了進(jìn)一步檢測(cè)基于最大熵理論的檢索方法的檢索性能,看其檢測(cè)時(shí)間是否占據(jù)優(yōu)勢(shì)。于是將3種檢索方法在不同的電力商務(wù)混合入侵信息數(shù)量上進(jìn)行分析,得到如表1所示的耗時(shí)時(shí)間表,其中Ⅰ表示文獻(xiàn)[3]的方法,Ⅱ表示文獻(xiàn)[4]的方法,Ⅲ表示文章所研究的方法。
從表中可以看出,當(dāng)混合入侵信息數(shù)量不斷增多時(shí),3種檢索方法的耗時(shí)時(shí)間不斷增強(qiáng);當(dāng)數(shù)量處于1000個(gè)以下時(shí),3種檢索方式所需的時(shí)間相差比較小,于是3種檢索方法的工作效率差不多,不過總體上文章所研究的檢索方式耗時(shí)比較短;然而當(dāng)數(shù)量超過或等于1000個(gè)之后,前面兩種檢索方法的耗時(shí)時(shí)間也差不多,但是文章所研究的檢索方式的耗時(shí)時(shí)間明顯偏小,當(dāng)數(shù)目達(dá)到2000個(gè)時(shí),前面的兩種檢索方式的耗時(shí)時(shí)間是文章所研究方式的6~7倍。所以當(dāng)入侵信息數(shù)目不斷增多之后,基于最大熵理論的入侵行為信息智能檢索方法具有更好的處理效率。
3? ? ?結(jié)語
當(dāng)今,使用互聯(lián)網(wǎng)技術(shù)進(jìn)行電子商務(wù)交易的規(guī)模不斷擴(kuò)大,各種黑客技術(shù)使得信息系統(tǒng)的安全性受到威脅,必須采取一系列預(yù)防方式,及時(shí)檢索到入侵信息,從而降低企業(yè)的經(jīng)濟(jì)損失。文章所研究的基于最大熵原理的入侵信息智能檢索方法具有更好的精確度和效率性,能夠提高電子商務(wù)信息的安全性和穩(wěn)定性。
參考文獻(xiàn)
[1]徐斌.基于電子商務(wù)的信息安全風(fēng)險(xiǎn)評(píng)估與對(duì)策[J].信息安全與技術(shù),2013,4(09):5-7.
[2]孫偉博.電子商務(wù)信息系統(tǒng)操作風(fēng)險(xiǎn)評(píng)估方法研究[D].天津:中國(guó)民航大學(xué),2016.
[3]梁辰,李成海,周來恩.PCA-BP神經(jīng)網(wǎng)絡(luò)入侵檢測(cè)方法[J].空軍工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,17(06) :93-98.
[4]劉珊珊,謝曉堯,景鳳宣,等.基于PCA的PSO-BP入侵檢測(cè)研究[J].計(jì)算機(jī)應(yīng)用研究,2016,33(09) :2795-2798.
[5]杜曄,張亞丹,黎妹紅,等.基于改進(jìn)FastICA算法的入侵檢測(cè)樣本數(shù)據(jù)優(yōu)化方法[J].通信學(xué)報(bào),2016,37(01) :42-48.
[6]吳麗云,李生林,甘旭升,等.基于PLS特征提取的網(wǎng)絡(luò)異常入侵檢測(cè)CVM模型[J].控制與決策,2017,32(04) :755-758.
[7]袁正東.基于電商平臺(tái)的商家API接入測(cè)試系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].武漢:華中科技大學(xué),2015.
[8]董峰,周鵬旭.面向云計(jì)算平臺(tái)的多層免疫入侵檢測(cè)模型[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(21) :101-104+174.