許小豐,楊力,王巍
(1. 通信信息控制和安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,浙江 嘉興 314033;2. 中國(guó)電子科技集團(tuán)公司第三十六研究所,浙江 嘉興 314033;3. 西安電子科技大學(xué)網(wǎng)絡(luò)與信息安全學(xué)院,陜西 西安 710071)
新穎的網(wǎng)絡(luò)域名用戶關(guān)鍵角色識(shí)別方法
許小豐1,2,楊力3,王巍1,2
(1. 通信信息控制和安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,浙江 嘉興 314033;2. 中國(guó)電子科技集團(tuán)公司第三十六研究所,浙江 嘉興 314033;3. 西安電子科技大學(xué)網(wǎng)絡(luò)與信息安全學(xué)院,陜西 西安 710071)
提出了一種新穎的網(wǎng)絡(luò)角色識(shí)別算法。該算法首先利用ISODATA方法對(duì)網(wǎng)絡(luò)事件用戶行為進(jìn)行聚類分析;在此基礎(chǔ)上,改進(jìn)混合式蟻群(HBACA)算法,對(duì)網(wǎng)絡(luò)事件中各用戶積累行為進(jìn)行持續(xù)分析,從而識(shí)別該事件執(zhí)行過(guò)程中各用戶所起的作用。仿真結(jié)果表明,該算法可以分清網(wǎng)絡(luò)用戶層次關(guān)系,獲得事件中起主導(dǎo)作用的網(wǎng)絡(luò)用戶。
域名用戶;聚類分析;行為積累;蟻群算法
隨著網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)步伐的加快和網(wǎng)絡(luò)應(yīng)用的日益廣泛以及用戶數(shù)量的不斷增多,網(wǎng)絡(luò)的連通性、復(fù)雜性和不可控性也急劇增加[1]。利用網(wǎng)絡(luò)進(jìn)行不法活動(dòng)存在一定隱蔽性,因此網(wǎng)絡(luò)中的犯罪行為越來(lái)越多地呈現(xiàn)出來(lái)。
目前,在研究網(wǎng)絡(luò)域名用戶在網(wǎng)絡(luò)行為中角色問(wèn)題的領(lǐng)域,如分析恐怖主義、網(wǎng)絡(luò)犯罪相關(guān)技術(shù)過(guò)程中,文獻(xiàn)[2]采用將相關(guān)人員(角色)可視化的方法進(jìn)行顯示,形成角色之間的信息鏈條。文獻(xiàn)[3]通過(guò)收集事件成員之間的相互關(guān)系,從網(wǎng)絡(luò)層面對(duì)恐怖分子的信息與社交進(jìn)行抽取,得到相關(guān)的證據(jù)和關(guān)聯(lián)。文獻(xiàn)[4]利用層次貝葉斯對(duì)立方法,成功構(gòu)建了犯罪組織之間的相互關(guān)系,并設(shè)計(jì)開(kāi)發(fā)出軟件系統(tǒng) NETST;通過(guò)該系統(tǒng),可以準(zhǔn)確地發(fā)現(xiàn)成員之間的結(jié)構(gòu)關(guān)系,即角色分配。
國(guó)內(nèi)在網(wǎng)絡(luò)角色方面的研究處于起步階段,文獻(xiàn)[5~6]利用基因遺傳算法對(duì)網(wǎng)絡(luò)角色進(jìn)行聚類分析,得到網(wǎng)絡(luò)犯罪行為的各類角色,但是角色重要性排名方面有所欠缺。文獻(xiàn)[7]利用網(wǎng)絡(luò)開(kāi)放性郵件挖掘的手段,開(kāi)發(fā)出一套角色與犯罪分析系統(tǒng)EMT。
用戶角色識(shí)別算法主要分為兩步:1) 采用類似于ISODATA算法的聚類分析方法[8,9],對(duì)用戶行為進(jìn)行聚類分析,通過(guò)設(shè)置用戶各類行為的預(yù)期標(biāo)準(zhǔn)(即用戶各類行為的一個(gè)預(yù)設(shè)值),利用ISODATA方法對(duì)無(wú)限相近的類似行為用戶進(jìn)行聚類;2) 在各種活動(dòng)聚類分析完成的前提下,利用改進(jìn)的混合式蟻群算法對(duì)單位時(shí)間內(nèi)網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行分析,得到網(wǎng)絡(luò)事件執(zhí)行過(guò)程中各用戶角色。
2.1 用戶聚類分析
本節(jié)對(duì)聚類分析方法進(jìn)行描述,包括基本思想、控制參數(shù)、初始條件、實(shí)現(xiàn)步驟等[9],然后將網(wǎng)絡(luò)中用戶行為的事件類型、事件頻率、事件信度、事件代價(jià)等根據(jù)具體情況進(jìn)行綜合,代入聚類方法中進(jìn)行計(jì)算,實(shí)現(xiàn)用戶行為類型分析。具體描述如下。
2.1.1 ISODATA基本思想
ISODATA(iterative self-organizing data analysis techniques algorithm)[9]是迭代、自組織數(shù)據(jù)的分析策略與方法,主要適用于動(dòng)態(tài)、行為多變客體的聚類分析,其基本思想如圖1所示。
2.1.2 ISODATA聚類實(shí)現(xiàn)
在具體實(shí)現(xiàn)過(guò)程中,設(shè)定算法最初的聚類數(shù)目為d(網(wǎng)絡(luò)用戶數(shù)),初始狀態(tài)的聚類中心個(gè)數(shù)可以設(shè)置為 ni( i = 1,2,3,…, c ,其中,c為網(wǎng)絡(luò)用戶最終角色類型數(shù)目),步驟如下。
1) 設(shè)置控制參數(shù)
①K表示最終希望得到的類型數(shù)目。即網(wǎng)絡(luò)用戶行為中,最終希望分成多少個(gè)類別,根據(jù)這些類別,再利用改進(jìn)的混合蟻群方法進(jìn)行各類角色的重要性排名。
②θN表示聚類過(guò)程中,至少應(yīng)該達(dá)到的樣本數(shù)目。即一類用戶角色至少需要多少個(gè)類似網(wǎng)絡(luò)用戶行為的支撐。
③θS表示設(shè)定的標(biāo)準(zhǔn)偏差。如果在分類過(guò)程中類與類之間的偏差大于該值,則網(wǎng)絡(luò)用戶角色需要分裂(一分為二),當(dāng)成2個(gè)角色對(duì)網(wǎng)絡(luò)事件進(jìn)行考慮。
圖1 ISODATA聚類方法基本思想
④θc表示聚類中心(網(wǎng)絡(luò)角色)之間的最小差距,如果在聚類過(guò)程中小于該值,則2種網(wǎng)絡(luò)角色可認(rèn)為是一類角色,即角色間的合并。
⑤N表示聚類過(guò)程中允許迭代的最大次數(shù),即網(wǎng)絡(luò)角色識(shí)別的收斂性。
3) 在所有已經(jīng)存在的數(shù)據(jù)類別中,若有其基數(shù)(用戶行為數(shù)) Ni<θN,則舍掉 ωi,并令聚類數(shù)目為 c = c?1。
4) 根據(jù)關(guān)系更新均值向量為
5) 對(duì)iω中的所有樣本(網(wǎng)絡(luò)用戶行為)計(jì)算其到相應(yīng)聚類中心in間平均長(zhǎng)度,則為
6) 對(duì)整個(gè)樣本空間中的所有樣本(網(wǎng)絡(luò)行為)距離其相應(yīng)中心聚類點(diǎn)的平均值D進(jìn)行計(jì)算,為
7) 對(duì)聚類類型(即各類網(wǎng)絡(luò)角色類型)進(jìn)行分類、合并、迭代等操作,具體為:
①如果整個(gè)算法迭代數(shù)達(dá)到最大值N,設(shè)定θc=0,然后轉(zhuǎn)到步驟11);
③如果 2c K≥ ,則轉(zhuǎn)到步驟11)。
8) 對(duì)于每一個(gè)iω,其標(biāo)準(zhǔn)偏差的計(jì)算為
其中, Xkj是第k個(gè)樣本中的第j個(gè)分量(k類網(wǎng)絡(luò)行為中的某個(gè)行為),mij是第i個(gè)中心點(diǎn)的第j個(gè)分量(角色i中的某個(gè)分量),σij是第i個(gè)標(biāo)準(zhǔn)計(jì)算偏差的第j個(gè)分量,n是樣本X的維度。
9) 對(duì)任意一類的聚類(一類網(wǎng)絡(luò)用戶角色)過(guò)程,計(jì)算標(biāo)準(zhǔn)差的最大值 σimax(i =1,2,… ,c)。
10) 當(dāng) σimax>θS,有>且 Ni> 2(θN+1)或,則將 ωi分類為2個(gè)聚類中心(相當(dāng)于2個(gè)角色)進(jìn)行聚類分析。
11) 對(duì)于所有的聚類中心點(diǎn),計(jì)算互相之間的距離,為
12) 對(duì)步驟 11) 中聚類中心距離小于閾值的類別進(jìn)行合并,合并成一個(gè)類別(即合成一個(gè)角色),聚類結(jié)束。
2.2 改進(jìn)混合蟻群算法
本文重點(diǎn)在于改進(jìn)混合式蟻群算法實(shí)現(xiàn)網(wǎng)絡(luò)事件中用戶關(guān)鍵角色的分析,本算法具體描述如下。
本文主要利用蟻群算法中的偵察蟻和搜索蟻進(jìn)行分析。因此,在網(wǎng)絡(luò)數(shù)據(jù)流矢量表建立的基礎(chǔ)上,利用各種螞蟻的不同特性對(duì)源用戶到目標(biāo)用戶的數(shù)據(jù)流進(jìn)行局部及全局分析,得到節(jié)點(diǎn)上用戶間關(guān)系[10,11]。
在蟻群算法中,各類型螞蟻的職責(zé)不同:1)負(fù)責(zé)偵察工作的螞蟻以每個(gè)節(jié)點(diǎn)為基點(diǎn),進(jìn)行局部的查詢與搜索,并以其特有的偵察素來(lái)記錄得到的信息,以便為下一步進(jìn)行搜索工作的螞蟻到達(dá)該節(jié)點(diǎn)后選擇下一個(gè)節(jié)點(diǎn)提供有用的信息;2)搜索蟻根據(jù)偵察蟻在各個(gè)節(jié)點(diǎn)上釋放的信息素的多少以及方向進(jìn)行全局搜索。假設(shè)一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)用戶,具體做法如下。
2.2.1 偵察蟻
將b個(gè)節(jié)點(diǎn)與b只偵察蟻進(jìn)行一一對(duì)應(yīng),每一個(gè)偵察蟻以自身為出發(fā)點(diǎn),選擇與自己直接相連的其他 b?1個(gè)節(jié)點(diǎn)進(jìn)行偵察,將已經(jīng)知道的先驗(yàn)知識(shí)與自身尋找偵察到的相關(guān)信息進(jìn)行結(jié)合,形成偵察信息素,記為 Flow[ i][j],標(biāo)記從螞蟻i(節(jié)點(diǎn)i)到螞蟻j(節(jié)點(diǎn)j)所通過(guò)的路徑。其中,F(xiàn) low[ i][j](i, j=0,1,2,…, b?1;i ≠ j)表示為
2.2.2 搜索蟻
假設(shè)在t時(shí)刻,螞蟻 k(k=1,2,…,n)從當(dāng)前所在的節(jié)點(diǎn)i到下一步希望到達(dá)節(jié)點(diǎn)j的概率,
可表示為
所有螞蟻完成一次循環(huán),各路徑上信息量調(diào)整為
其中,ijΔτ設(shè)定為本輪過(guò)程中,螞蟻從節(jié)點(diǎn) i到節(jié)點(diǎn)j之間一共付出的信息素總和;信息素的持久性ρ與數(shù)據(jù)流經(jīng)過(guò)的路徑及時(shí)間間隔有關(guān),且與時(shí)間間隔成指數(shù)關(guān)系,故ρ為
根據(jù)每只搜索蟻得到的最優(yōu)解,即從螞蟻出發(fā)到最終節(jié)點(diǎn)信息素最多的路線,結(jié)合數(shù)據(jù)流特性,可得到節(jié)點(diǎn)i的直接上游節(jié)點(diǎn)(即某用戶的直接上層領(lǐng)導(dǎo)),從而得到各用戶在周期t內(nèi)對(duì)某網(wǎng)絡(luò)事件所起的作用。偽碼流程描述如下。
在仿真實(shí)驗(yàn)中,每個(gè)螞蟻代表網(wǎng)絡(luò)事件中的一個(gè)用戶節(jié)點(diǎn),假定用戶節(jié)點(diǎn)(螞蟻)在三維空間上隨機(jī)分布,信息素調(diào)整常數(shù)γ=1;轉(zhuǎn)移概率、信息素?fù)]發(fā)系數(shù)等在程序運(yùn)行過(guò)程中自動(dòng)調(diào)整。實(shí)驗(yàn)結(jié)果如圖2和圖3所示。
圖2 用戶節(jié)點(diǎn)初始分布
經(jīng)過(guò)本文算法的改進(jìn),從圖3可以明顯看出最重要用戶的位置坐標(biāo),且各個(gè)波峰用戶的重要程度非常清晰,網(wǎng)絡(luò)事件的關(guān)鍵節(jié)點(diǎn)極易提取。這是因?yàn)楸疚乃惴▽?duì)信息素的持久性、節(jié)點(diǎn)轉(zhuǎn)移概率等關(guān)鍵參數(shù)進(jìn)行了動(dòng)態(tài)化處理,并將網(wǎng)絡(luò)容量、傳輸時(shí)延、調(diào)整系數(shù)等因素加入其中,更加能夠反映出節(jié)點(diǎn)的重要程度。
圖3 經(jīng)過(guò)本文算法后,用戶節(jié)點(diǎn)(螞蟻)的最終分布
網(wǎng)絡(luò)域名用戶關(guān)鍵節(jié)點(diǎn)的識(shí)別對(duì)打擊犯罪網(wǎng)絡(luò)及通信網(wǎng)絡(luò)拓?fù)渫茢嗑哂袠O其重要的意義,本文提出了基于行為累積的網(wǎng)絡(luò)關(guān)鍵角色識(shí)別方法。主要工作有:1)采用K均值算法對(duì)用戶行為進(jìn)行聚類分析;2)在各種活動(dòng)聚類分析完成的前提下,利用改進(jìn)的HBACA算法分析單位時(shí)間內(nèi)局部及全局網(wǎng)絡(luò)數(shù)據(jù)流向,利用偵察蟻和搜索蟻特征得到網(wǎng)絡(luò)事件執(zhí)行過(guò)程中各用戶角色。實(shí)驗(yàn)結(jié)果表明,該算法可以提取網(wǎng)絡(luò)成員個(gè)性特征與通信行為之間的內(nèi)在聯(lián)系,獲取特定網(wǎng)絡(luò)事件中作為關(guān)鍵角色的節(jié)點(diǎn)。
[1] 喬少杰, 唐長(zhǎng)杰, 彭京. 基于個(gè)性特征仿真郵件分析系統(tǒng)挖掘犯罪網(wǎng)絡(luò)核心[J]. 計(jì)算機(jī)學(xué)報(bào), 2008, 31(10): 1795-1803. QIAO S J, TANG C J, PENG J. The core of the crime network based on the personalized characteristic simulation mail analysis system[J]. Journal of Computer Science, 2008, 31(10): 1795-1803.
[2] XU J J, CHEN H C. CrimeNet explorer: a framework for criminal network knowledge discovery[J]. ACM Transactions on Information Systems, 2005, 23(2): 202-226.
[3] KREBS V E. Mapping networks of terrorist cells [J]. Connections, 2002, 24(3): 43-52.
[4] DOMBROSKI M J, CARLEY K. Estimating a terrorist network’sstructure[J]. Computational and Mathematics Organization Theory, 2002, 8(3): 235~241.
[5] QIAO S J, TANG C J, PENG J. VCCM Mining:mining virtual cornmullity core members based on gene expression programming[C]//The Workshop on Intelligence and Security Informatics. 2006:133-138.
[6] QIAO S J, TANG C J, YU Z H. Bim mining virtual community structure based on SVM[J]. Computer Science(Supplement A), 2005, 32(7): 208-212.
[7] STOLFO S J, HERSHKOP S, WANG K, et al. A behavior-based approach to securing email systems[C]//The Second International Workshop on Mathematical Methods, Models, and Architectures for Computer Network Security. 2003:57-81.
[8] 楊博, 劉大有, 金弟, 等. 復(fù)雜網(wǎng)絡(luò)聚類方法[J]. 軟件學(xué)報(bào), 2009, 20(1): 54-66. YANG B, LIU D Y, JIN D, et al. Complex network clustering method[J]. Journal of Software, 2009, 20(1): 54-66.
[9] 許國(guó)根, 賈瑛. 模式識(shí)別與智能計(jì)算的 Matlab實(shí)現(xiàn)第 2版[M].北京: 北京航空航天大學(xué)出版社, 2014: 22-27. XU G G, JIA Y. Pattern recognition and intelligent computing based on Matlab. The second Edition[M]. Beijing: Beijing University of Aeronautics and Astronautics Press. 2014:22-27.
[10] VAN D E AALST P, WEIJTERS A. Process mining a rearch agenda[J]. Computer in Industry, 2004, 53(3): 231-244.
[11] GALBRAITH J R. Organization design: an information processing view[J]. Interfaces, 1974, 4(3):28-36.
Novel role analysis method for network domain users
XU Xiao-feng1,2, YANG Li3, WANG Wei1,2
(1. National Laboratory of Information Control and Security Technology for Commutation System, Jiaxing 314033,China; 2. Electronics Technology Group Corporation No. 36 Institute, Jiaxing 314033, China; 3. School of Network and Information Security, Xi'an University of Electronic Science and Technology, Xi'an 710071, China)
A novel role analysis method for network domain users was proposed. Firstly, the algorithm used ISODATA algorithm to cluster network events for user behavior analysis, on the basis of conditions, the method search relationships between varieties of grouping sets in the network instance, and identify each user role in the performing process of network instance. Finally, simulation results show that the effectiveness of the proposed algorithm can distinguish the network user hierarchy and obtain the dominant roles about network users.
domain user, clustering analysis, accumulation of behavior, ant-colony algorithm
TP393
A
10.11959/j.issn.2096-109x.2017.00128
許小豐(1980-),男,河南濟(jì)源人,博士,中國(guó)電子科技集團(tuán)公司第三十六研究所高級(jí)工程師,主要研究方向?yàn)闊o(wú)線/有線網(wǎng)絡(luò)安全技術(shù)。
楊力(1977-),男,陜西咸陽(yáng)人,博士,西安電子科技大學(xué)副教授,主要研究方向?yàn)榫W(wǎng)絡(luò)安全、可信計(jì)算、網(wǎng)絡(luò)溯源。
王?。?980-),男,河北張家口人,博士,中國(guó)電子科技集團(tuán)公司第三十六研究所高級(jí)工程師,主要研究方向?yàn)闊o(wú)線/有線網(wǎng)絡(luò)安全技術(shù)。
2016-11-01;
2017-01-12。通信作者:許小豐,554171641@qq.com
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61671360)
Foundation Item: The National Natural Science Foundation of China (No.61671360)