周銀萍,王跟成
(西藏民族大學(xué)網(wǎng)絡(luò)信息技術(shù)中心,陜西 咸陽 712000)
現(xiàn)如今,網(wǎng)絡(luò)在廣泛應(yīng)用的同時(shí)也得到了迅速發(fā)展。但由于網(wǎng)絡(luò)安全管理還不夠完善,易出現(xiàn)黑客入侵、網(wǎng)頁攻擊以及安全信息泄露等多種網(wǎng)絡(luò)安全事件,該缺陷對(duì)社會(huì)造成巨大損失。在該現(xiàn)狀背景下,網(wǎng)絡(luò)安全防護(hù)技術(shù)得到廣泛關(guān)注,直到目前,大多數(shù)入侵威脅都會(huì)被網(wǎng)絡(luò)自動(dòng)檢測(cè)出來,有效預(yù)防了入侵威脅對(duì)網(wǎng)絡(luò)的攻擊。但有一小部分入侵無法自動(dòng)檢測(cè),此類入侵為多種技術(shù)融合的多階段網(wǎng)絡(luò)攻擊對(duì)網(wǎng)絡(luò)產(chǎn)生了更大的威脅,并且具有很強(qiáng)的隱蔽性,使網(wǎng)絡(luò)很難檢測(cè)到攻擊源。在此類攻擊下,互聯(lián)網(wǎng)的敏感信息安全檢索難度較大,因此為了避免這種問題,需要深入研究移動(dòng)互聯(lián)網(wǎng)敏感信息安全檢索方法。
張昌宏等人提出云存儲(chǔ)環(huán)境下的安全密文模糊檢索方案方法,該方法首先建立了檢索模型,并利用算法對(duì)關(guān)鍵詞的權(quán)值進(jìn)行構(gòu)建,構(gòu)建成一個(gè)索引結(jié)構(gòu),通過改進(jìn)的規(guī)則對(duì)檢索的文檔進(jìn)行排序,從而實(shí)現(xiàn)檢索,該方法構(gòu)建的結(jié)構(gòu)不夠完善,存在檢索效率差的問題。陳昱等人提出一種大規(guī)模的跨平臺(tái)同源二進(jìn)制文件檢索方法,該方法首先對(duì)文件進(jìn)行編碼,令其成為可讀字符串,并利用編碼向量直接生成局部Hash,以此完成檢索,該方法的文件編碼具有誤差,存在加密信息檢索效率低的問題。李茜等人提出一種基于listwise的在線學(xué)習(xí)書目排序檢索算法,該方法利用在線排序方法對(duì)信息檢索進(jìn)行排序,以此減少檢索的復(fù)雜性,利用損失函數(shù)對(duì)排序模型進(jìn)行優(yōu)化,從而完成排序檢索,該方法的排序效果不明顯,存在正確檢索次數(shù)少的問題。
為了解決上述方法中存在的問題,提出多階段攻擊下移動(dòng)互聯(lián)網(wǎng)敏感信息安全檢索方法。
通常情況下網(wǎng)絡(luò)多階段攻擊共分為五個(gè)流程,具體過程如下所示:
1)隱蔽自身攻擊
對(duì)網(wǎng)絡(luò)進(jìn)行攻擊前,首先會(huì)將自身攻擊隱藏起來,攻擊者會(huì)把真實(shí)地址及虛擬地址全部隱藏,具體操作為:把入侵主機(jī)、安裝的Windows計(jì)算機(jī)和配置較差的服務(wù)器全部用作跳板,以此實(shí)現(xiàn)地址的隱藏。
2)對(duì)需要攻擊的環(huán)境踩點(diǎn)
攻擊者確定攻擊目標(biāo)時(shí),會(huì)對(duì)需要攻擊的環(huán)境進(jìn)行探查,通過此過程對(duì)攻擊目標(biāo)的網(wǎng)絡(luò)范圍、網(wǎng)絡(luò)域名進(jìn)行采集,該過程也被稱為情報(bào)收集,以此實(shí)現(xiàn)對(duì)各個(gè)組織完整輪廓的了解,便于攻擊。
3)攻擊目標(biāo)的掃描及查點(diǎn)
當(dāng)收集到攻擊目標(biāo)的基礎(chǔ)信息后,攻擊者會(huì)利用端口掃描及操作系統(tǒng)對(duì)攻擊目標(biāo)進(jìn)行監(jiān)聽及漏洞查詢,找尋到漏洞后對(duì)其進(jìn)行定向查詢,即查點(diǎn)。該過程會(huì)將攻擊目標(biāo)的重要信息顯現(xiàn)出來,攻擊者會(huì)對(duì)其進(jìn)行記錄。
4)攻擊滲透
攻擊滲透是攻擊者進(jìn)行多階段攻擊下的重要流程,攻擊者會(huì)將木馬攻擊引入到主機(jī)內(nèi),以此得到主機(jī)的使用權(quán),再把木馬攻擊滲透到虛擬機(jī)中獲取另一個(gè)使用權(quán),達(dá)到完全控制主機(jī)的目的。
5)目標(biāo)攻擊
攻擊者完全控制主機(jī)后就可以對(duì)互聯(lián)網(wǎng)的敏感信息進(jìn)行盜取,或改寫敏感信息,也可以修改系統(tǒng)內(nèi)的任意設(shè)置,將木馬、遠(yuǎn)程操控等程序放入到電腦中,以此實(shí)現(xiàn)攻擊。攻擊完成后為了避免用戶查詢到自身信息,攻擊者會(huì)手動(dòng)將系統(tǒng)內(nèi)的攻擊痕跡消除,使有關(guān)人士找不到痕跡。
在多階段攻擊情況下,為了提高移動(dòng)互聯(lián)網(wǎng)敏感信息安全檢索的精準(zhǔn)性,首先需要對(duì)移動(dòng)互聯(lián)網(wǎng)敏感信息進(jìn)行提取,以此提升敏感信息安全檢索效果。
基于移動(dòng)互聯(lián)網(wǎng)敏感信息的價(jià)值率,優(yōu)先對(duì)敏感信息進(jìn)行分類,即,將移動(dòng)互聯(lián)網(wǎng)敏感信息價(jià)值率較低的內(nèi)容進(jìn)行篩除,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)敏感信息的整體過濾。
在互聯(lián)網(wǎng)敏感信息過濾的基礎(chǔ)上,采用特征項(xiàng)選擇方法對(duì)敏感信息正文內(nèi)容進(jìn)行降維,以此完成敏感信息的提取,如下所示:
1)首先對(duì)敏感信息中的各個(gè)形容詞、連接詞等沒有用作的詞類進(jìn)行去除,將這些去除的詞類放入到停用詞表中,或直接刪除。
2)設(shè)置敏感信息文本分類的特征項(xiàng)為,利用高維度空間對(duì)進(jìn)行選取,實(shí)現(xiàn)對(duì)敏感信息降維的目的,那么的具體選擇流程如下所示:
將移動(dòng)互聯(lián)網(wǎng)敏感信息放置到樹中,這時(shí)樹內(nèi)的敏感文本信息就由來表示,設(shè)置測(cè)量值的屬性為個(gè),那么移動(dòng)互聯(lián)網(wǎng)敏感信息的特征向量就表示為:={,,,…,-1,},即∈{0,1}。式中,表示敏感信息特征向量,表示的特征值。
假設(shè)=1,就說明敏感信息特征項(xiàng)中存在,若=0,就說明敏感信息特征項(xiàng)中不存在。因此,通過下式就可以得知敏感信息的節(jié)點(diǎn)的類別,表示如下
(1)
式中,(|)表示后驗(yàn)概率,()表示先驗(yàn)概率,同時(shí)(|)和()都是的驗(yàn)證概率,而是一種假設(shè),屬于設(shè)定的類別。()表示數(shù)據(jù)元組的先驗(yàn)概率。
依據(jù)式(1)得到敏感信息的節(jié)點(diǎn)類別由(∈,表示敏感信息內(nèi)容的類別)表示,那么敏感信息的節(jié)點(diǎn)類別概率標(biāo)記如下
(2)
對(duì)式(2)進(jìn)行整理后,得出敏感信息節(jié)點(diǎn)全概率方程表達(dá)式,標(biāo)記為
(3)
式中,表示節(jié)點(diǎn),表示節(jié)點(diǎn)數(shù)量。
由于移動(dòng)互聯(lián)網(wǎng)中的敏感信息較多,所以的向量特征值也隨之增多,為了便于對(duì)中敏感信息的提取,首先需要對(duì)各個(gè)敏感信息的屬性進(jìn)行假設(shè),設(shè)置各個(gè)屬性均為獨(dú)立性。該假設(shè)可以有效提升敏感信息的提取速度,因此該假設(shè)的方程表達(dá)式如下所示
(4)
式中,表示數(shù)量,表示項(xiàng)數(shù)。
通過式(4)可以對(duì)的類別概率進(jìn)行推算,此時(shí)的概率由樸素貝葉斯公式進(jìn)行表達(dá),定義如下
(|)=(|=)
(5)
依據(jù)方程(5)可以得知,在移動(dòng)互聯(lián)網(wǎng)敏感信息中,無價(jià)值的信息概率為(|),而有價(jià)值的敏感信息概率為(|),當(dāng)(|)>(|)時(shí),就說明目前為止在多階段攻擊下的移動(dòng)互聯(lián)網(wǎng)敏感信息節(jié)點(diǎn)內(nèi)容均為無價(jià)值。
通過上述分析得知,當(dāng)敏感信息首節(jié)點(diǎn)包含的內(nèi)容在樹中被認(rèn)定為無價(jià)值時(shí),就需要立即停止對(duì)目前敏感信息的提取,并把當(dāng)前互聯(lián)網(wǎng)敏感信息網(wǎng)頁從本地中消除掉;若敏感敏感信息非首節(jié)點(diǎn)內(nèi)容被認(rèn)定為無價(jià)值,那么就需要將當(dāng)前無價(jià)值內(nèi)容刪除,剩余有價(jià)值內(nèi)容就會(huì)被提取。
基于多階段攻擊下移動(dòng)互聯(lián)網(wǎng)敏感信息的提取,構(gòu)建貝葉斯網(wǎng)絡(luò)模型,利用該模型對(duì)敏感信息安全進(jìn)行檢索。
在構(gòu)建的模型中設(shè)置密鑰,以此確保移動(dòng)互聯(lián)網(wǎng)敏感信息檢索的安全性。設(shè)置加密密鑰及信息提取密鑰分別在模型的操作域和中進(jìn)行,設(shè)置為加密密鑰,為提取密鑰,那么貝葉斯網(wǎng)絡(luò)模型經(jīng)加密后的方程表達(dá)式標(biāo)記為
(6)
式中,(,)表示加密操作,(,)表示提取信息加密,表示加密矩陣,表示提取信息加密矩陣。
設(shè)置密鑰后,利用一部分的敏感信息結(jié)點(diǎn)組成一個(gè)術(shù)語子網(wǎng),而另一部分信息結(jié)點(diǎn)組成文檔子網(wǎng),將兩個(gè)子網(wǎng)相結(jié)合,構(gòu)建出貝葉斯網(wǎng)絡(luò)檢索模型,該模型的具體結(jié)構(gòu)如圖1所示。
圖1 貝葉斯網(wǎng)絡(luò)檢索模型
在上述檢索模型中,代表術(shù)語層,那么就是文檔層,對(duì)術(shù)語層進(jìn)行復(fù)制后就會(huì)通過′來表示。將三種層次相結(jié)合,就組成了′--的模型結(jié)構(gòu)。當(dāng)各個(gè)結(jié)點(diǎn)的邊緣概率在′層時(shí),就會(huì)通過(′)=1、()=1-1來表示。其中,(′)表示邊緣概率,表示敏感信息術(shù)語數(shù)量。
(7)
式中,表示調(diào)節(jié)參數(shù)。表示對(duì)敏感信息安全進(jìn)行檢索時(shí)占據(jù)的權(quán)重,當(dāng)?shù)闹递^大時(shí),就說明檢索的敏感信息文檔靠前。的值越小,就說明檢索信息安全的權(quán)重越低。因此可以得知,敏感信息權(quán)重決定著信息安全檢索的好壞,要想對(duì)敏感信息安全進(jìn)行有效檢索,就需要提高它的權(quán)重。
同理,依據(jù)上述權(quán)重計(jì)算方法,在與層之間繪制一條由指向的弧,而弧中的權(quán)值設(shè)置為,它屬于文檔中索引術(shù)語的權(quán)重,那么通過方程表達(dá)式定義為
(8)
式中,表示術(shù)語出現(xiàn)的次數(shù),表示系數(shù),即=log()+1。其中,表示敏感信息文檔數(shù)量,表示存有的文檔數(shù)量。利用將所有文檔的敏感信息權(quán)重總和相加,權(quán)重總和≤1時(shí),得出弧中的權(quán)值。
將獲取的弧權(quán)值存儲(chǔ)到檢索模型內(nèi),便于互聯(lián)網(wǎng)敏感信息安全檢索。
對(duì)查詢進(jìn)行提交后就可以進(jìn)行檢索,它的具體流程為:首先對(duì)敏感信息查詢?cè)~進(jìn)行提取,利用檢索模型對(duì)′層的敏感信息進(jìn)行推理,并對(duì)各個(gè)文檔中、的相關(guān)概率進(jìn)行計(jì)算。
2)對(duì)的相似度進(jìn)行計(jì)算,從中獲取各個(gè)敏感信息與之間的關(guān)聯(lián)性,即(|)。
3)對(duì)層各個(gè)文檔的后驗(yàn)概率進(jìn)行計(jì)算,從中獲取與的關(guān)聯(lián)性。
4)依據(jù)(|)的排列順序,對(duì)多階段攻擊下移動(dòng)互聯(lián)網(wǎng)敏感信息進(jìn)行輸出,完成敏感信息安全檢索。
為了驗(yàn)證多階段攻擊下移動(dòng)互聯(lián)網(wǎng)敏感信息安全檢索方法的整體有效性,需要對(duì)該方法進(jìn)行有效測(cè)試。采用多階段攻擊下移動(dòng)互聯(lián)網(wǎng)敏感信息安全檢索方法(方法1)、云存儲(chǔ)環(huán)境下的安全密文模糊檢索方案方法(方法2)和一種基于listwise的在線學(xué)習(xí)書目排序檢索算法(方法3)進(jìn)行實(shí)驗(yàn)測(cè)試對(duì)比。
1)將敏感信息劃分成兩個(gè)類別,一類為加密的敏感信息,另一類為不加密的敏感信息。把兩種類別的敏感信息全部結(jié)點(diǎn)進(jìn)行連接,設(shè)置加密敏感信息的長(zhǎng)度總和為525位,提取的加密信息長(zhǎng)度為50位;而不加密敏感信息的長(zhǎng)度總和為450位,提取的不加密信息長(zhǎng)度為35位。依據(jù)敏感信息索引數(shù)量,利用方法1、方法2和方法3分別對(duì)兩種類別的敏感信息進(jìn)行檢索效率測(cè)試。
隨機(jī)選取一個(gè)移動(dòng)互聯(lián)網(wǎng)敏感信息文檔用作測(cè)試樣本,假設(shè)互聯(lián)網(wǎng)中各個(gè)文檔為1MB,加密敏感信息的長(zhǎng)度為3個(gè)中文字符、非加密敏感信息長(zhǎng)度為2個(gè)字符,將兩類別均對(duì)應(yīng)為32位二進(jìn)制數(shù)。把需要檢索的兩類別敏感信息數(shù)量逐次增加,通過三種方法對(duì)其進(jìn)行檢索,依據(jù)檢索的平均時(shí)間,驗(yàn)證三種方法的檢索效率。時(shí)間越短說明檢索效率越高,時(shí)間越長(zhǎng)說明檢索效率越低,具體測(cè)試結(jié)果如圖2所示。
圖2 不同類別的索引信息檢索效率
分析圖2(a)中的數(shù)據(jù)發(fā)現(xiàn),本次實(shí)驗(yàn)共設(shè)置600個(gè)不同類別的敏感信息索引,當(dāng)非加密索引數(shù)量不斷提升時(shí),三種方法的檢索時(shí)間都呈現(xiàn)出上升趨勢(shì)。從整體上看,方法1的檢索時(shí)間上升速度比較緩慢,這說明方法1的檢索速度要高于方法2和方法3,它的檢索效率要優(yōu)于其它兩種方法。而方法3在檢索期間,它的運(yùn)動(dòng)軌跡上升速度最快,最終檢索時(shí)間要高于方法1和方法2,表明方法3的檢索速度最慢,檢索效率最低。
圖2(b)對(duì)索引信息加密后,三種方法的檢索時(shí)間有著明顯的提升。但經(jīng)過對(duì)比可得,方法1的檢索效率依舊高于方法2和方法3,由此可見不論是加密還是非加密的索引信息,方法1的檢索速度都是最快,且檢索的效率都是最優(yōu)的。
綜上所述,方法1的檢索效率最優(yōu),這是因?yàn)榉椒?對(duì)敏感信息進(jìn)行提取,以此增強(qiáng)了敏感信息檢索效果,進(jìn)而提升了檢索效率。
2)以上述實(shí)驗(yàn)為基礎(chǔ),采用方法1、方法2和方法3分別對(duì)敏感信息安全檢索效果進(jìn)行測(cè)試。設(shè)置共對(duì)100個(gè)信息數(shù)量進(jìn)行檢索,依據(jù)檢索的準(zhǔn)確次數(shù)驗(yàn)證檢索效果,如表1所示。
表1 不同方法的正確檢索數(shù)量
依據(jù)表1中的數(shù)據(jù)可知,在測(cè)試期間,方法1的正確檢索個(gè)數(shù)始終高于方法2和方法3,依次為方法3、方法2,這說明方法1的檢索效果強(qiáng),檢索的精準(zhǔn)性高。
隱蔽性極高的攻擊手段會(huì)使互聯(lián)網(wǎng)陷入癱瘓。針對(duì)移動(dòng)互聯(lián)網(wǎng)敏感信息安全檢索存在的問題,提出多階段攻擊下移動(dòng)互聯(lián)網(wǎng)敏感信息安全檢索方法。該方法首先分析了多階段攻擊流程,基于多階段攻擊下,對(duì)互聯(lián)網(wǎng)敏感信息進(jìn)行提取。同時(shí)構(gòu)建了檢索模型,在模型中設(shè)置密鑰以此加強(qiáng)檢索效果,通過獲取的信息權(quán)重,利用該模型對(duì)其進(jìn)行檢索,實(shí)現(xiàn)敏感信息安全檢索方法。該方法在敏感信息安全檢索領(lǐng)域中占據(jù)著重要地位,為今后的敏感信息安全檢索方法帶來了巨大貢獻(xiàn)。