李 黎,梁 劍
(四川大學(xué)錦城學(xué)院,四川 成都 611731)
近年來在我國電子商務(wù)市場(chǎng)的迅猛發(fā)展下,從而帶動(dòng)出一系列相應(yīng)的服務(wù)中介機(jī)構(gòu),例如第三方支付系統(tǒng),它的作用主要是完成第三方擔(dān)保的支付功能,同時(shí)也保證了雙方的買賣信用等類似問題,然而第三方支付系統(tǒng)的發(fā)展迅猛,信息泄露等問題也隨之而來?,F(xiàn)階段信息泄露風(fēng)險(xiǎn)逐漸增大,卻缺乏完整的信息泄露風(fēng)險(xiǎn)預(yù)警系統(tǒng),對(duì)于買家而言存在巨大的信息泄露風(fēng)險(xiǎn)。買家的個(gè)人身份信息、設(shè)備信息、消費(fèi)和產(chǎn)品的使用記錄以及瀏覽記錄等信息都暴露在所謂的大網(wǎng)絡(luò)數(shù)據(jù)庫中。
針對(duì)上述問題目前大部分改善方法如下:文獻(xiàn)[1]在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上建立動(dòng)態(tài)風(fēng)險(xiǎn)指標(biāo),輸入多種參數(shù)變量,使輸出結(jié)果的預(yù)警效果達(dá)到最優(yōu),但是該方法涉及變量較多,極易受環(huán)境影響產(chǎn)生巨大誤差。文獻(xiàn)[2]針對(duì)固定閾值難以應(yīng)付復(fù)雜多變的數(shù)據(jù)行為,使用無監(jiān)督學(xué)習(xí)發(fā)簡(jiǎn)歷多維度模型,確定異常及可能泄露的區(qū)域,但是規(guī)劃時(shí)間窗口提取特征過于繁瑣,時(shí)效性較差。文獻(xiàn)[3]對(duì)歷史審計(jì)數(shù)據(jù)分類,精簡(jiǎn)用戶特征描述,降低冗余計(jì)算量,然而大部分信息泄露的大數(shù)據(jù)環(huán)境中一定存在著相應(yīng)的信息泄露節(jié)點(diǎn),但是K-means和naive Bayes算法不易檢測(cè)出信息泄露點(diǎn)的具體位置,從而會(huì)導(dǎo)致影響整體檢測(cè)的進(jìn)程以及準(zhǔn)確率。
為此,分布式信息泄漏檢測(cè)模型必須要求檢測(cè)對(duì)象在檢測(cè)過程中保證運(yùn)動(dòng)軌跡無偏移,并且存在信息泄露精準(zhǔn)度較低的情況。就此要求,本文設(shè)計(jì)的信息泄露預(yù)警模型相對(duì)于上述方法來說,不會(huì)出現(xiàn)此類精準(zhǔn)度較低的以及不能確保檢測(cè)對(duì)象運(yùn)動(dòng)軌跡等問題,通過卡爾曼軌跡運(yùn)動(dòng)預(yù)測(cè)法明確下一目標(biāo)運(yùn)動(dòng)狀態(tài)值,同時(shí)設(shè)定相應(yīng)動(dòng)態(tài)閾值檢測(cè)節(jié)點(diǎn)是否存在泄露情況,明確具體泄露點(diǎn),建立的預(yù)警模型設(shè)定預(yù)警指標(biāo)能級(jí),能夠更有效確定風(fēng)險(xiǎn)范疇。
卡爾曼濾波原理[4]是對(duì)觀測(cè)對(duì)象的動(dòng)態(tài)行為數(shù)據(jù)進(jìn)行狀態(tài)估計(jì),運(yùn)用當(dāng)前時(shí)刻的軌跡觀測(cè)數(shù)據(jù)和上一時(shí)刻的狀態(tài)估量值對(duì)當(dāng)前狀態(tài)進(jìn)行更進(jìn)及估量計(jì)算,并利用一步推測(cè)法中遞推方程來實(shí)現(xiàn)迭代預(yù)測(cè)。從而判斷出下一時(shí)刻的動(dòng)態(tài)軌跡[5]位置,動(dòng)態(tài)信息分析方程步驟如下:
1)對(duì)動(dòng)態(tài)檢測(cè)目標(biāo)進(jìn)行大體的軌跡數(shù)據(jù)分析,以及數(shù)據(jù)篩查、修改、坐標(biāo)軸x、y的轉(zhuǎn)換等基本操作處理。同時(shí)用誤差方根公式來計(jì)算觀測(cè)對(duì)象的實(shí)際軌跡檢測(cè)點(diǎn):
(1)
2)由系統(tǒng)數(shù)據(jù)中的動(dòng)態(tài)軌跡方程和當(dāng)下時(shí)刻的觀測(cè)方程來確定的動(dòng)態(tài)軌跡模型參數(shù),并初始化相應(yīng)參數(shù)。
3)通過測(cè)量出的初始時(shí)刻(i=0)下的最佳狀態(tài)下的估量值X(0,0)和估量誤差組列P(0,0),可通過誤差方根公式得出運(yùn)動(dòng)軌跡對(duì)象下一時(shí)刻(i=1)的預(yù)測(cè)數(shù)值X(1,0),同時(shí)得到估量方差組列P(1,0),然后根據(jù)(i=1)狀態(tài)下當(dāng)下時(shí)刻觀測(cè)值Z(1)得到(i=1)狀態(tài)下最佳估量X(1,1),和最新更進(jìn)的誤差組列P(1,1),從而完成第一步的預(yù)測(cè)濾波;然后根據(jù)上述步驟依次推斷得出當(dāng)下時(shí)刻的最佳狀態(tài)X(n-1,n-1),完成整個(gè)觀測(cè)過程。計(jì)算公式如下
Z(k)=H(k)X(k)+V(k)
(2)
式中Z(k)表示當(dāng)下時(shí)刻的向量觀測(cè)數(shù)據(jù)值,k表達(dá)了當(dāng)下狀態(tài)下的觀測(cè)數(shù)據(jù)值。H(k)表示當(dāng)下時(shí)刻的觀測(cè)組列,X(k)則代表系統(tǒng)狀態(tài)向量表達(dá)了在同時(shí)刻k狀態(tài)下運(yùn)動(dòng)軌跡的矢量狀態(tài)[6]。V(k)為軌跡運(yùn)動(dòng)時(shí)產(chǎn)生的觀測(cè)噪聲。
4)根據(jù)之前步驟得到的最佳運(yùn)動(dòng)軌跡狀態(tài)估量X(n-1,n-1),以及通過當(dāng)前狀態(tài)下預(yù)測(cè)得出運(yùn)動(dòng)軌跡第n+1個(gè)時(shí)刻下的式(3),并通過預(yù)測(cè)軌跡點(diǎn)p′與實(shí)際軌跡點(diǎn)p進(jìn)行對(duì)比,得出預(yù)測(cè)誤差計(jì)算式(4),重復(fù)上述步驟依次計(jì)算完成運(yùn)動(dòng)軌跡點(diǎn)的預(yù)測(cè),計(jì)算過程如下
X(k+1,k)=A(k)X(k,k)
(3)
Z(k+1,k)=H(k)X(k+1,k)
(4)
通過卡爾曼濾波得到的數(shù)據(jù)預(yù)測(cè)值準(zhǔn)確性較差、誤差率高,所以本文結(jié)合動(dòng)態(tài)閾值計(jì)算可能發(fā)生信息泄露的節(jié)點(diǎn),提高準(zhǔn)確率。當(dāng)?shù)谌街Ц断到y(tǒng)中發(fā)生信息數(shù)據(jù)變換時(shí),變換的數(shù)值超過設(shè)定的閾值范圍,則認(rèn)為存在相應(yīng)的泄漏點(diǎn)。在以上第三方支付時(shí)發(fā)生的分布信息數(shù)據(jù)濾波和相應(yīng)特點(diǎn)基礎(chǔ)上,創(chuàng)建基于動(dòng)態(tài)閾值的泄露點(diǎn)預(yù)測(cè)方法。這種檢測(cè)方法,可以根據(jù)自身支付系統(tǒng)信息的網(wǎng)絡(luò)歷史數(shù)據(jù)熵值的變化,對(duì)相對(duì)應(yīng)的閾值的大小進(jìn)行調(diào)整,再利用當(dāng)下時(shí)刻的泄漏點(diǎn)數(shù)值、數(shù)據(jù)熵值平均值與相應(yīng)動(dòng)態(tài)閾值做對(duì)比,從而判斷出第三方支付系統(tǒng)中的數(shù)據(jù)信息是否存在泄漏點(diǎn),具體應(yīng)用步驟如下:
1)在第三方支付系統(tǒng)分布信息查詢的單位時(shí)間T內(nèi),對(duì)大致的信息采樣進(jìn)行分布統(tǒng)計(jì)。
2)并在每一個(gè)時(shí)間單位T內(nèi)計(jì)算出信息數(shù)據(jù)特征點(diǎn)分布的熵值E,并得到數(shù)據(jù)特征點(diǎn)E值的分布序列
(5)
在上述表達(dá)公式中N′表示在三方支付系統(tǒng)分布網(wǎng)絡(luò)查詢過程中的單位時(shí)間T內(nèi),不同的IP源地址出現(xiàn)的數(shù)量,Q代表為第i個(gè)IP源地址在查詢過程中出現(xiàn)的數(shù)據(jù)數(shù)目占總數(shù)的比值。
3)計(jì)算第三方支付系統(tǒng)下信息泄露節(jié)點(diǎn)在當(dāng)前時(shí)刻中的檢測(cè)熵值ω和熵值平均值A(chǔ)之間的差值。例如兩個(gè)差值之間相差的數(shù)值小于k*D就判斷為正常,相反,如果兩個(gè)差值之間的數(shù)值大于k*D則為泄漏點(diǎn)。A表示在信息泄露檢測(cè)時(shí)當(dāng)下時(shí)刻的ω個(gè)正常熵值的平均值,D表示熵值平均值A(chǔ)與ω的最新更進(jìn)正常值E′i之間的最大偏差值;k表示信息泄漏檢測(cè)中最大偏差指數(shù),此指數(shù)有關(guān)檢測(cè)泄漏點(diǎn)[7]的準(zhǔn)確率以及靈敏度。計(jì)算公式如下
(6)
D=max(|E′-A|/ω),i=1,2,…,ω
(7)
如果第三方支付系統(tǒng)中沒有信息泄漏點(diǎn),就可在分布序列中放置上述計(jì)算得出的熵值[8],并根據(jù)式(7)計(jì)算得的熵值平均值A(chǔ)和D進(jìn)行更新,就可對(duì)下一時(shí)刻的分布數(shù)據(jù)進(jìn)行泄漏點(diǎn)檢測(cè)。
如果第三方支付系統(tǒng)分布信息中有出現(xiàn)泄漏點(diǎn),則就不對(duì)當(dāng)下時(shí)刻的熵值平均值A(chǔ)和D進(jìn)行更新。直接進(jìn)行下一步對(duì)下一時(shí)刻的分布數(shù)據(jù)進(jìn)行快速的信息泄露檢測(cè),保證所有的數(shù)據(jù)檢測(cè)整體完成。
最后結(jié)合以上步驟對(duì)實(shí)際對(duì)象進(jìn)行分步的信息泄漏節(jié)點(diǎn)檢測(cè)。
根據(jù)上述原理進(jìn)行初步信息泄露預(yù)測(cè),之后本文采用加權(quán)融合法對(duì)相關(guān)的目標(biāo)進(jìn)行篩查及采集控制,并進(jìn)行統(tǒng)一的抽象標(biāo)準(zhǔn)化的處理,再構(gòu)建一體實(shí)體化的預(yù)警模型。
假設(shè)H表示實(shí)體對(duì)象W的空間私密信息合集,Y代表私密信息的特征合集,O代表各個(gè)時(shí)刻私密信息的抽樣合集,綜上所述實(shí)體私密信息的時(shí)刻、特征、空間的合集組合為
W=(H,Y,O)
(8)
假設(shè)O表示n個(gè)的維度隊(duì)形中的一個(gè)私密信息密閉空間,則O就成為n個(gè)維度隊(duì)形中一個(gè)代表私密信息的超曲面,如果O表示一個(gè)私密性的空間信息則相應(yīng)方程如下
(9)
(10)
當(dāng)私密信息通過第三方支付系統(tǒng)進(jìn)入檢測(cè)區(qū)域時(shí),對(duì)私密信息進(jìn)行線性到非線性的組合排列通過卡爾曼濾波以及動(dòng)態(tài)閾值確定當(dāng)前是否存在泄漏節(jié)點(diǎn),同時(shí)輸出層需要一個(gè)傳遞信號(hào)來表示私密信息已轉(zhuǎn)入。函數(shù)公式為
(11)
例如G表示私密信息縱向函數(shù)的差值,則線性函數(shù)作為私密信息的實(shí)效激活函數(shù)就可表示為
(12)
假設(shè)xl代表私密信息的第個(gè)l輸入樣本,k代表樣本輸入的空間維度,ck代表機(jī)密信息的結(jié)合中心點(diǎn),ωkj代表私密信息從輸入層到檢測(cè)層的連接值,m代表私密信息的縱向函數(shù)數(shù)目,yi代表實(shí)際輸出樣本數(shù)目,則在第三方支付系統(tǒng)私密信輸出預(yù)警的函數(shù)公式為
(13)
根據(jù)上述過程,第三方支付系統(tǒng)中發(fā)生信息泄露時(shí),預(yù)警模型可以有較好的準(zhǔn)確率和查全率。
表1 預(yù)警指標(biāo)等級(jí)
在第三方支付系統(tǒng)中發(fā)生的信息泄露可按風(fēng)險(xiǎn)的嚴(yán)重程度劃分出五個(gè)等級(jí)分別如下:優(yōu)、良、中、差、危這五個(gè)安全等級(jí)(表1),這五個(gè)安全等級(jí)也分別對(duì)應(yīng)上述中的五個(gè)風(fēng)險(xiǎn)泄露的嚴(yán)重程度等級(jí),在預(yù)測(cè)發(fā)生泄露風(fēng)險(xiǎn)時(shí),給出相對(duì)應(yīng)的風(fēng)險(xiǎn)等級(jí)就可發(fā)出相對(duì)應(yīng)等級(jí)的安全警示,可讓此信息泄露預(yù)警系統(tǒng)安全有效地落實(shí)于實(shí)際應(yīng)用中去。
表2 仿真環(huán)境參數(shù)
表3 參數(shù)結(jié)果解釋
假設(shè)風(fēng)險(xiǎn)預(yù)警精度用precision表示,查全率用recall表示,其中F-measure作為上述二者的調(diào)和均值,各個(gè)評(píng)估指標(biāo)運(yùn)算公式如下
(14)
(15)
(16)
方案針對(duì)文獻(xiàn)[1]、[2]、[3]以及本文預(yù)警模型,進(jìn)行仿真,將在2000到9000組的不同規(guī)模測(cè)試組內(nèi)進(jìn)行分析比較。
圖1 預(yù)警準(zhǔn)確率對(duì)比分析圖
預(yù)警準(zhǔn)確率分析:根據(jù)圖1能夠看出,相比于另外方法本文模型的預(yù)警正確率最高,基本保持在70%上下浮動(dòng),并且未出現(xiàn)較大波動(dòng)。這主要因?yàn)楸疚氖褂每柭鼮V波動(dòng)態(tài)軌跡預(yù)測(cè)法確定了數(shù)據(jù)下一階段狀態(tài),在初始階段進(jìn)行短暫濾波會(huì)對(duì)后期泄露風(fēng)險(xiǎn)監(jiān)測(cè)和預(yù)警打下良好的基礎(chǔ),減小后期出現(xiàn)的干擾信息,并且提高運(yùn)算數(shù)據(jù),增強(qiáng)準(zhǔn)確率。
為了驗(yàn)證設(shè)計(jì)的第三方支付系統(tǒng)信息泄露風(fēng)險(xiǎn)預(yù)警模型的性能,采用文獻(xiàn)[1]模型、文獻(xiàn)[2]模型、文獻(xiàn)[3]模型以及設(shè)計(jì)模型的CPU占用率如圖2所示。
圖2 各個(gè)數(shù)據(jù)集下運(yùn)行時(shí)間利用率對(duì)比分析
由圖2可以看出,相比其它三種文獻(xiàn)方法,所提預(yù)警模型的CPU占用率增加較為平緩,且最高點(diǎn)也沒有超出整體的50%,比大多數(shù)方法更節(jié)省空間。這是因?yàn)椋疚哪P湍軌蚋卟煌瑪?shù)據(jù)環(huán)境動(dòng)態(tài)調(diào)整泄漏檢測(cè)閾值,一邊適用于更多硬件中。
為了驗(yàn)證設(shè)計(jì)的第三方支付系統(tǒng)信息泄露風(fēng)險(xiǎn)預(yù)警模型的性能,獲得預(yù)警的幅度波動(dòng)率結(jié)果如圖3所示。
圖3 本文模型預(yù)警幅度波動(dòng)率
預(yù)警幅度波動(dòng)率能夠表達(dá)預(yù)警模型的結(jié)果是否平穩(wěn),判斷其是否容易受外界影響。從圖3中能夠看出,本文預(yù)警模型的波動(dòng)率保持在[50,-50]區(qū)間,可證明該模型若在干擾條件下也能獲得較為穩(wěn)定準(zhǔn)確的預(yù)警結(jié)果,可應(yīng)用于多種環(huán)境中。
為了驗(yàn)證設(shè)計(jì)的第三方支付系統(tǒng)信息泄露風(fēng)險(xiǎn)預(yù)警模型的性能,采用文獻(xiàn)[1]模型、文獻(xiàn)[2]模型、文獻(xiàn)[3]模型以及設(shè)計(jì)模型的監(jiān)控性能如圖4所示。
圖4 監(jiān)控性能對(duì)比
隨著迭代數(shù)量的不斷增加,本文預(yù)警綜合性能比較高,這是因?yàn)橥ㄟ^動(dòng)態(tài)閾值節(jié)點(diǎn)檢測(cè)能夠計(jì)算出可能發(fā)生泄漏節(jié)點(diǎn),降低計(jì)算量的同時(shí),提升查全率,最終使預(yù)警結(jié)果具有較高可信度。
為緩解日益嚴(yán)峻的第三方支付系統(tǒng)信息泄露問題,本文提出建立信息泄露預(yù)警模型進(jìn)行改善。實(shí)驗(yàn)結(jié)果表明無論是從預(yù)警準(zhǔn)確率、CPU占用率、預(yù)警的幅度波動(dòng)率以及最后預(yù)警效果來看,此預(yù)警模型在各種實(shí)驗(yàn)中都占有一定優(yōu)勢(shì),并可運(yùn)用到實(shí)際當(dāng)中去達(dá)到可觀的效果。
但本方法也存在一定的局限性,例如在進(jìn)行初步的信息泄漏預(yù)測(cè)時(shí),可通過檢測(cè)閾值檢測(cè)出信息的泄露節(jié)點(diǎn),但無法推斷出具體的信息泄露路徑,也就不能從根源上解決信息泄露問題,只能用預(yù)警的方法來緩解。同時(shí)為保障信息泄露預(yù)警模型的穩(wěn)定性和準(zhǔn)確率,在進(jìn)行初步檢測(cè)以及后續(xù)預(yù)警時(shí)都必須保證網(wǎng)絡(luò)環(huán)境大致穩(wěn)定,確保不會(huì)對(duì)檢測(cè)數(shù)據(jù)造成影響。