李晶晶,劉紅日,劉 揚(yáng),宋 佳,王佰玲
(哈爾濱工業(yè)大學(xué)(威海)網(wǎng)絡(luò)技術(shù)研究所,山東 威海 264209)
用戶的網(wǎng)絡(luò)行為往往體現(xiàn)了其興趣特點(diǎn)、行為習(xí)慣以及影響其行為的因素等諸多特性,對(duì)網(wǎng)絡(luò)用戶行為的分析研究以及預(yù)測(cè)模擬,對(duì)于面向用戶的網(wǎng)絡(luò)服務(wù)而言,不僅在改善服務(wù)的性能上可以有所提高,使用基于用戶行為愛(ài)好習(xí)慣的模型來(lái)向用戶提供推薦結(jié)果亦或其他信息也將在大大提高用戶體驗(yàn)的同時(shí)取得更大的效益。因此,如何進(jìn)行高逼真度的用戶行為模擬是一個(gè)相當(dāng)值得研究的問(wèn)題。
用戶的網(wǎng)絡(luò)行為可以定義為互聯(lián)網(wǎng)用戶在某個(gè)時(shí)間點(diǎn)或者時(shí)間段操作某個(gè)或某種應(yīng)用程序產(chǎn)生網(wǎng)絡(luò)流量,與網(wǎng)絡(luò)上其他人、服務(wù)進(jìn)行交互的行為。根據(jù)用戶規(guī)模,用戶的網(wǎng)絡(luò)行為可以分為個(gè)人行為和群體行為,對(duì)于個(gè)人行為來(lái)說(shuō),對(duì)其進(jìn)行分析建模可以得出單人的行為習(xí)慣、預(yù)測(cè)其行為序列;對(duì)于群體行為來(lái)說(shuō),對(duì)其進(jìn)行分析建??梢詫?shí)現(xiàn)大規(guī)模人群的綜合效果的模擬,發(fā)掘出單人行為所無(wú)法獲得的信息。本文對(duì)近年來(lái)關(guān)于用戶網(wǎng)絡(luò)行為分析模擬的研究進(jìn)行簡(jiǎn)單的闡述和梳理,并且對(duì)其未來(lái)的研究與發(fā)展進(jìn)行了展望。
用戶網(wǎng)絡(luò)行為的研究在研究方向上比較集中,主要可以分為個(gè)人網(wǎng)絡(luò)行為和群體網(wǎng)絡(luò)行為兩大類,除去肖云鵬[1]將個(gè)人行為動(dòng)力學(xué)模型結(jié)合群體動(dòng)力學(xué)模型建立了一個(gè)針對(duì)在線社會(huì)網(wǎng)絡(luò)場(chǎng)景的用戶行為動(dòng)力學(xué)模型之外,各類研究均可歸結(jié)為在個(gè)人網(wǎng)絡(luò)行為和群體網(wǎng)絡(luò)行為兩個(gè)方面中單獨(dú)選擇一個(gè)進(jìn)行深入探討。
在個(gè)人行為的研究中,可以分為粗粒度行為和細(xì)粒度行為兩大類,其中細(xì)粒度行為研究是指對(duì)用戶使用鼠標(biāo)或者鍵盤的操作行為進(jìn)行的研究,其關(guān)注點(diǎn)在于用戶對(duì)鼠標(biāo)、鍵盤等外部設(shè)備的使用特征,如用戶在使用鼠標(biāo)時(shí)所產(chǎn)生的軌跡;而粗粒度行為研究是指對(duì)用戶使用應(yīng)用程序的操作進(jìn)行的研究,其關(guān)注點(diǎn)在于用戶使用何種應(yīng)用程序以及使用應(yīng)用程序進(jìn)行了何種操作,如用戶使用瀏覽器進(jìn)行網(wǎng)頁(yè)內(nèi)容的瀏覽。
1.1.1細(xì)粒度行為
在用戶細(xì)粒度行為研究方面,Zheng Nan等人[2]通過(guò)研究不同用戶操縱鼠標(biāo)時(shí)的行為特征,選取三個(gè)角度相關(guān)的特征族,訓(xùn)練得到一個(gè)在Block框架下錯(cuò)誤率和錯(cuò)誤接受率均可低至1.3%的SVM模型,從而證實(shí)用戶的鼠標(biāo)行為具有強(qiáng)區(qū)分性。文中同時(shí)指出,通過(guò)模擬鼠標(biāo)行為有可能成功地欺騙該身份認(rèn)證模型。而在鼠標(biāo)行為模擬方面,使用真實(shí)的用戶行為模板進(jìn)行模擬是許多學(xué)者的選擇,如GARG A[3]等人從真實(shí)用戶的操作數(shù)據(jù)中提取了用戶動(dòng)機(jī)、技能、軟件安裝配置、鍵盤鼠標(biāo)活動(dòng)四部分相關(guān)特征,生成行為模板,進(jìn)一步使用其團(tuán)隊(duì)開(kāi)發(fā)的Usim用戶行為模擬接口進(jìn)行了一些異常操作的模擬。其實(shí)驗(yàn)數(shù)據(jù)表明,通過(guò)使用此模擬數(shù)據(jù)來(lái)對(duì)用戶異常行為檢測(cè)模型的訓(xùn)練進(jìn)行輔助,模型的精度得到了有效提高。由于在應(yīng)用該模擬方法時(shí),使用了關(guān)于用戶緊張程度的特征,并且鍵盤、鼠標(biāo)操作的宏觀形勢(shì)與原始數(shù)據(jù)類似,故其對(duì)用戶行為特征理應(yīng)有一定的刻畫(huà),但是其具體效果還有待考證。除此之外,Hu Shujie等人[4]提出了一種用戶級(jí)鼠標(biāo)行為模擬的方法,使用該方法可以在僅有少量已知鼠標(biāo)行為數(shù)據(jù)的情況下,模擬出該用戶在各種常見(jiàn)場(chǎng)景下的鼠標(biāo)行為。該文針對(duì)上文提到的經(jīng)典鼠標(biāo)身份認(rèn)證框架[2]進(jìn)行了模擬數(shù)據(jù)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明此方法能夠以平均超過(guò)60%的通過(guò)率成功欺騙錯(cuò)誤率已經(jīng)低至1%的認(rèn)證模型。但是,此方法只是進(jìn)行了簡(jiǎn)單的模擬,并沒(méi)有考慮到不同用戶的行為特征分布會(huì)有不同的情況。在進(jìn)行鼠標(biāo)行為建模時(shí),其特征維度通常比較高,Cai Zhongmin等人[5]考慮到用戶在鼠標(biāo)動(dòng)力學(xué)上的差異,對(duì)44種特征進(jìn)行抽取,基于Multidimensional Scaling、Laplacian Eigenmaps、Isometric Feature Mapping、Local Liner Embedding等降維方法,分別使用了Random Forest、SVM、Neural Network以及Mearest Neighbor進(jìn)行二分類實(shí)驗(yàn),結(jié)果表明,通過(guò)使用降維方法處理過(guò)的數(shù)據(jù)來(lái)進(jìn)行分類,效果要好于直接使用未降維的數(shù)據(jù)進(jìn)行分類。除此之外,該實(shí)驗(yàn)還顯示,序列的特征空間如果足夠長(zhǎng),行為的差異就會(huì)變小,使得分類的FRR和FAR有所提高。在鼠標(biāo)行為模擬之外,敲擊鍵盤的行為也是用戶行為的重要部分,在此方面,MONACO J V等人[7]通過(guò)研究發(fā)現(xiàn),人們通常使用的單詞的平均長(zhǎng)度為6個(gè)字母或者5個(gè)字母再加上1個(gè)空格字符,而絕大多數(shù)人敲擊鍵盤的頻率平均是200次/分鐘,這相當(dāng)于每分鐘打出了33個(gè)單詞,而職業(yè)打字員其打字速度是平均速度的兩倍,因此,模擬鍵盤行為時(shí)需要對(duì)此進(jìn)行考慮。鼠標(biāo)行為和鍵盤行為共同構(gòu)成了用戶的細(xì)粒度行為,因而在模擬用戶的行為時(shí),需要將二者綜合考慮,使得模擬結(jié)果盡量符合用戶鼠標(biāo)和鍵盤的行為習(xí)慣。
1.1.2粗粒度行為
在粗粒度行為研究方面,根據(jù)模擬的層次不同,可以粗略地分為行為序列的生成和行為的實(shí)現(xiàn)兩種研究,在行為序列生成上,LETHAM B等人[8]提出一種通用的序列預(yù)測(cè)模型,該模型基于其團(tuán)隊(duì)提出的一個(gè)序列預(yù)測(cè)損失函數(shù),其核心在于建模時(shí)并不無(wú)條件地使用原始行為序列,而是考慮其中對(duì)于預(yù)測(cè)結(jié)果有影響的行為序列。對(duì)該模型分別使用食品推薦、郵件收件人預(yù)測(cè)、病人狀態(tài)預(yù)測(cè)三個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),采用擬牛頓法來(lái)對(duì)損失函數(shù)的參數(shù)進(jìn)行擬合,結(jié)果表明,相對(duì)于余弦相似度模型和關(guān)聯(lián)規(guī)則模型,此模型可以獲得更高的模擬精度。而在行為實(shí)現(xiàn)上,AMIRKHANYAN A等人[9]設(shè)計(jì)實(shí)現(xiàn)了一種基于用戶行為狀態(tài)圖(User Behavior States Graph,UBSG)的用戶行為模擬方案。使用預(yù)定義的狀態(tài)、動(dòng)作以及動(dòng)作實(shí)現(xiàn)接口,描述用戶在特定場(chǎng)景下的行為。從本質(zhì)上來(lái)講,其模型為有限狀態(tài)機(jī),模型使用人工手動(dòng)編寫腳本來(lái)對(duì)虛擬機(jī)進(jìn)行操作從而實(shí)現(xiàn)用戶的操作行為,其狀態(tài)被定義為屏幕截圖,用戶的操作行為是將登錄、輸入密碼、Ctrl+C等常用操作進(jìn)行了封裝,狀態(tài)之間的切換被設(shè)計(jì)為一套接口。此模型最主要的問(wèn)題在于:由于狀態(tài)定義為屏幕截圖,其狀態(tài)的確定只能通過(guò)截圖匹配的方式進(jìn)行,故其魯棒性較差;狀態(tài)圖的具體定義和狀態(tài)之間的切換方式完全依賴于人工的手工操作,導(dǎo)致模型的自動(dòng)化程度以及可擴(kuò)展性較差??傮w來(lái)說(shuō)此模型實(shí)現(xiàn)了狀態(tài)之間的切換,但未完成用戶行為的自動(dòng)生成工作,不能單獨(dú)進(jìn)行針對(duì)具體用戶進(jìn)行高逼真度的行為模擬。其典型的用戶行為狀態(tài)圖如圖1所示,其中,Si代表狀態(tài),Ai代表用戶轉(zhuǎn)換到下一個(gè)狀態(tài)所要執(zhí)行的操作。
圖1 用戶行為狀態(tài)圖
吳書(shū)等人[10]通過(guò)研究發(fā)現(xiàn),為達(dá)到大幅度提升用戶行為預(yù)測(cè)任務(wù)性能的效果,可以通過(guò)引入充足的情景大數(shù)據(jù),從而揭示出用戶行為發(fā)生的機(jī)制的方法來(lái)實(shí)現(xiàn)。通過(guò)借鑒自然語(yǔ)言領(lǐng)域常用的詞向量處理方法word2vec[11]的思想,Wu Shu等人[12]提出了一種名為情境操作張量(Contextual Operation Tensor,COT)的建模方法。該方法的思想為通過(guò)將名詞語(yǔ)義表達(dá)向量化、情境信息表達(dá)矩陣化,從而使得情境下實(shí)體的新屬性能夠?qū)⑻囟ㄇ榫诚聦?shí)體表達(dá)上的改變反映出來(lái);與此同時(shí),將情境信息的潛在語(yǔ)義作為操作矩陣來(lái)進(jìn)行描述,使用多個(gè)基本的操作矩陣共同生成情境操作矩陣來(lái)描述共同點(diǎn)的情境語(yǔ)義操作。將該模型與 CARS2[13]、Hetero-MF[14]、FM[15]、Multiverse Recommendation[16]以及SVD++[17]等情境建模方法進(jìn)行對(duì)比,可以得出該模型在RMSE和MAE上具有一定的優(yōu)越性。
張新星[18]對(duì)用戶行為的實(shí)現(xiàn)進(jìn)行了實(shí)驗(yàn)驗(yàn)證,使用基于“錄制-回放”策略的網(wǎng)絡(luò)桌面應(yīng)用操作模擬方案,結(jié)合KVM虛擬機(jī)技術(shù),實(shí)現(xiàn)了在Windows XP、Windows 7和Ubuntu12.04桌面版等多種操作系統(tǒng)平臺(tái)上用戶對(duì)瀏覽網(wǎng)頁(yè)、播放音視頻、首發(fā)郵件、使用即時(shí)通信軟件等典型網(wǎng)絡(luò)應(yīng)用的操作行為,該實(shí)驗(yàn)方案以生成的網(wǎng)絡(luò)流量的真實(shí)性(網(wǎng)絡(luò)流量的突發(fā)性及自相似性)作為用戶行為真實(shí)性的評(píng)價(jià)依據(jù),在模擬過(guò)程中隨機(jī)選擇兩個(gè)時(shí)長(zhǎng)為450 s的時(shí)間段,對(duì)其中流量數(shù)據(jù)使用R/S法[19]求解Hurst參數(shù),分別得到0.854 4和0.905 5的結(jié)果,表明模擬行為產(chǎn)生的流量具有良好的長(zhǎng)相關(guān)特性。
在群體用戶行為的研究中,最為常見(jiàn)的方法是根據(jù)統(tǒng)計(jì)特征來(lái)建立統(tǒng)計(jì)模型從而對(duì)群體用戶的行為特征進(jìn)行刻畫(huà),Yang Jie等人[20]通過(guò)對(duì)中國(guó)某南方城市一周的2G/3G移動(dòng)網(wǎng)絡(luò)流量行進(jìn)分析處理,將群體用戶行為在數(shù)據(jù)流量消耗、移動(dòng)模式、網(wǎng)絡(luò)應(yīng)用使用三個(gè)方面進(jìn)行了研究,使用分裂層次聚類的方法將用戶進(jìn)行分類,對(duì)每類用戶的行為進(jìn)行分析后得出此三方面之間的關(guān)系,進(jìn)一步得出有50%的用戶每天使用5種以上的不同的應(yīng)用,在不同的時(shí)間段用戶所偏好的應(yīng)用種類亦有所不同,并且移動(dòng)流量使用與移動(dòng)模式對(duì)用戶的應(yīng)用使用有很大的影響。受統(tǒng)計(jì)模型的限制,其并不能滿足對(duì)用戶行為進(jìn)行模擬的需求,基于統(tǒng)計(jì)之上對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行再次建模處理的模式越來(lái)越受重視, LOYOLA P等人[21]使用蟻群算法從聚類的用戶Web會(huì)話集中學(xué)習(xí)到一個(gè)文本偏好向量作為用戶特征描述,根據(jù)此文本偏好向量,發(fā)布到網(wǎng)絡(luò)圖中的蟻群便可生成一系列的網(wǎng)頁(yè)訪問(wèn)行為。通過(guò)與原有真實(shí)會(huì)話對(duì)比可以得出,該模型所生成的模擬會(huì)話與真實(shí)會(huì)話的相似度接近80%。除此之外,Wang Gang等人[22]構(gòu)建了一個(gè)使用無(wú)監(jiān)督模型來(lái)識(shí)別用戶行為的系統(tǒng),該系統(tǒng)通過(guò)分析用戶的點(diǎn)擊流數(shù)據(jù)(用戶點(diǎn)擊事件所形成的路徑信息)來(lái)劃分相似度圖(節(jié)點(diǎn)表示用戶,節(jié)點(diǎn)之間的邊通過(guò)點(diǎn)擊流的相似性加權(quán)得到)來(lái)進(jìn)行用戶聚類。其思想是通過(guò)利用迭代特征修剪來(lái)捕獲用戶群內(nèi)的自然層次結(jié)構(gòu),從而識(shí)別用戶的行為。通過(guò)使用Whisper和人人網(wǎng)的真實(shí)數(shù)據(jù)來(lái)進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,該系統(tǒng)可以準(zhǔn)確地辨別出用戶的異常行為,甚至可以預(yù)測(cè)用戶的未來(lái)行為。
綜上所述,在可以預(yù)見(jiàn)的未來(lái),針對(duì)用戶網(wǎng)絡(luò)行為模擬技術(shù)研究,在個(gè)人行為方面還將依然圍繞提高用戶個(gè)人行為的細(xì)粒度模擬精度、粗粒度的行為序列生成的逼真度的方向發(fā)展,除此之外,粗細(xì)粒度結(jié)合、用戶序列生成與執(zhí)行之間的結(jié)合的重要性也將日漸凸顯。而在群體行為方面,在將統(tǒng)計(jì)特征完整提取的基礎(chǔ)之上,如何將個(gè)人行為與群體行為有機(jī)結(jié)合,即如何對(duì)個(gè)人行為進(jìn)行合理調(diào)度,使由眾多個(gè)人行為構(gòu)成的群體行為依然保持符合群體的統(tǒng)計(jì)特征將是一個(gè)重要的研究方向。
[1] 肖云鵬. 在線社會(huì)網(wǎng)絡(luò)用戶行為模型與應(yīng)用算法研究[D]. 北京:北京郵電大學(xué), 2013.
[2] Zheng Nan,PALOSKI A, Wang Haining. An efficient user verification system via mouse movements[C]. ACM Conference on Computer and Communications Security. ACM, 2011:139-150.
[3] GARG A,VIDYARAMAN S, UPADHYAYA S, et al. USim: a user behavior simulation framework for training and testing IDSes in GUI based systems[C].Simulation Symposium, 2006. IEEE, 2006:8.
[4] Hu Shujie, Bai Jun, Liu Hongri, et al. Deceive mouse-dynamics-based authentication model via movement simulation[C].International Symposium on Computational Intelligence and Design. IEEE, 2017, in press.
[5] Cai Zhongmin, Shen Chao, Guan Xiaohong. Mitigating behavioral variability for mouse dynamics: a dimensionality-reduction-based approach[J]. IEEE Transactions on Human-Machine Systems, 2014, 44(2): 244-255.
[6] Shen Chao, Cai Zhongmin, Guan Xiaohong, et al. User authentication through mouse dynamics[J]. IEEE Transactions on Information Forensics & Security, 2013, 8(1):16-30.
[7] MONACO J V,BAKELMAN N, CHA S H, et al. Developing a keystroke biometric system for continual authentication of computer users[C]. Intelligence and Security Informatics Conference. IEEE, 2012:210-216.
[8] LETHAM B, RUDIN C, MADIGAN D. Sequential event prediction[J]. Machine Learning, 2013, 93(2-3):357-380.
[9] AMIRKHANYAN A, SAPEGIN A, GAWRON M, et al. Simulation user behavior on a security testbed using user behavior states graph[C].International Conference on Security of Information and Networks. ACM, 2015:217-223.
[10] 吳書(shū), 劉強(qiáng), 王亮. 情境大數(shù)據(jù)建模及其在用戶行為預(yù)測(cè)中的應(yīng)用[J]. 大數(shù)據(jù), 2016, 2(6):110-117.
[11] MIKOLOV T, SUTSKEVER I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26:3111-3119.
[12] Wu Shu, Liu Qiang, Wang Liang, et al. Contextual operation for recommender systems[J]. IEEE Transactions on Knowledge & Data Engineering, 2016, 28(8):2000-2012.
[13] Shi Yue, KARATZOGLOU A, BALTRUNAS L, et al. CARS2: learning context-aware representations for context-aware recommendations[C]. ACM Conference on Information and Knowledge Management CIKM. ACM, 2014:291-300.
[14] JAMALI M, LAKSHMANAN L. HeteroMF: recommendation in heteroge-neous information networks using context dependent factor models[C]. International Conference on World Wide Web. ACM, 2013:643-654.
[15] RENDLE S, GANTNER Z, FREUDENTHALER C, et al. Fast context-aware recommendations with factorization machines[C].Proceedings of the 34th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2011: 635-644.
[16] KARATZOGLOU A, AMATRIAIN X, BALTRUNAS L, et al. Multiverse recommendation:n-dimensional tensor factorization for context-aware collab-orative filtering[C].ACM Conference on Recommender Systems, Recsys 2010, Barcelona, Spain, September. DBLP, 2010:79-86.
[17] KOREN Y. Factorization meets the neighborhood: a multifaceted col-laborative filtering model[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2008:426-434.
[18] 張新星. 基于虛擬化的網(wǎng)絡(luò)流量模擬系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2017.
[19] JULIO C, PACHECO R, ROMAN D T, et al. R/S statistic: accuracy and implementations electronics[C]. Proceedings of the 18th Conference on Communications and Computers, 2008: 17-22.
[20] Yang Jie, Qiao Yuanyuan, Zhang Xinyu, et al. Characterizing user behavior in mobile Internet[J]. IEEE Transactions on Emerging Topics in Computing, 2015, 3(1):95-106.
[21] LOYOLA P,ROM′N P E, VEL′SQUEZ J D. Clustering-based learning approach for ant colony optimization model to simulate web user behavior[C]. IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. IEEE, 2011:457-464.
[22] Wang Gang, Zhang Xinyi, Tang Shiliang, et al. Unsupervised clickstream clustering for user behavior analysis[C].CHI Conference on Human Factors in Computing Systems. ACM, 2016:225-236.