田 杰,宋禮鵬
(中北大學 大數(shù)據(jù)學院,山西 太原 030051)
用戶身份認證作為計算機及網(wǎng)絡(luò)系統(tǒng)安全的基礎(chǔ)和重要保障手段有著廣泛的研究和應用.然而,傳統(tǒng)的密碼[1]等認證方式難以抵擋來自內(nèi)部的攻擊威脅,因此,人們一直試圖尋找一種更加高效的身份認證方法來滿足系統(tǒng)安全的需求.近年來,生物識別在認證系統(tǒng)中的應用越來越受到重視,生物特征很難被人模仿和破解,安全性極高.針對生物識別技術(shù)的研究主要分為兩類:一類是基于生理特征的身份識別,如指紋識別[2]、面部識別[3]、虹膜識別[4]等,但這些識別技術(shù)需要特定的硬件支持,需付出昂貴的成本開銷;另一類是基于用戶行為的身份認證,如步態(tài)、鼠標行為等.這其中基于鼠標行為的身份認證技術(shù),不依賴額外的硬件設(shè)備,可以在許多計算機系統(tǒng)中直接部署,因此在當前安全研究領(lǐng)域中備受青睞.
在基于用戶行為的認證領(lǐng)域,已經(jīng)有一些工作通過鼠標動態(tài)分析來建立身份認證模型,如Zheng Nan等人[5]使用細粒度(點到點)的基于角度的鼠標移動度量來進行用戶動態(tài)認證,Walid S.[6]通過在電子商務(wù)網(wǎng)站上的鼠標跟蹤進行用戶建模,Camara L.等人[7]通過收集游戲中的鼠標數(shù)據(jù)進行持續(xù)的游戲用戶身份認證.這些研究都是在一定的環(huán)境限制下進行,雖然能夠有效提高認證系統(tǒng)的性能,但是環(huán)境限制使得這些研究并不具有普遍的適用性[8].
在文獻[9-10]中,沈超等人從人機交互層面上對鼠標行為進行了研究,引入了過程鼠標特性,通過ISOMAP、PCA等降維方法降低鼠標行為的可變性,最終的測試性能達到8.74%的誤識率(False Acceptance Rate,F(xiàn)AR)和7.69%的拒識率(False Rejection Rate,F(xiàn)RR).Pawel等人[11]首次融合鼠標動力學與眼球移動兩種特征進行生物識別,最終的實驗準確率為92.9%.而Penny等人[12]利用深度學習方法,將用戶的鼠標移動軌跡圖像作為輸入建立認證模型,平均AUC(ROC曲線下的面積)最高能達到96%.雖然這些方法沒有環(huán)境和任務(wù)的限制,但是其展現(xiàn)出的認證性能距離實際應用還有很大的提升空間.
本文同樣是在完全自由的環(huán)境下,從人類的生理特性以及不同用戶人機交互過程中的獨特習性出發(fā)對鼠標行為進行研究.人類行為的可變性使得短時間內(nèi)的鼠標動態(tài)數(shù)據(jù)難以準確刻畫用戶獨特的行為習慣,導致基于鼠標動態(tài)的分類認證效果不理想[13].為此本文首次將窗口行為與鼠標動態(tài)行為聯(lián)合進行分析.每個用戶的窗口行為因其工作內(nèi)容以及習慣的不同,存在很大區(qū)別[14-16],窗口行為特征的加入使得認證系統(tǒng)的性能有了很大的提升.在特征工程中提出投票制的特征選擇算法去除多余的干擾特征,以進一步降低鼠標行為的變異性.
基于鼠標及窗口行為特征的身份認證的預設(shè)前提為:由于主客觀因素的影響,每個用戶有著區(qū)別于其他用戶的鼠標使用行為模式.用戶的鼠標行為特征可以用來刻畫用戶不同的行為模式,本文根據(jù)鼠標的操作方式將特征分為3種類型:鼠標點擊特征、鼠標按鍵特征、鼠標移動特征,表 1 對其進行了簡要概括.
表 1 鼠標行為特征概述
采集器詳細地記錄了用戶操作鼠標的各種事件和相應屬性.為了方便描述和計算不同的特征分類,定義了一系列的元組來劃分數(shù)據(jù)并進行如下特征分析,以此來驗證本文所提取的鼠標行為特征對區(qū)別用戶的可行性.
定義 1鼠標按鍵點擊MC
MCi=〈click-typei, timestampi|i≤cn〉,
式中:cn為所有的鼠標點擊事件個數(shù);click-type表示鼠標的按鍵點擊類型,包括mouse-left/right/middle/down/up;timestamp表示事件觸發(fā)時的時間戳(毫秒級).
獨特的生理特性會使得每個用戶按動鼠標按鍵的力度不同,從而導致其按下抬起鼠標按鍵的時間間隔存在差異.本文通過MC數(shù)組計算得到每個用戶的鼠標按鍵時間間隔,隨機挑選其中3個用戶的數(shù)據(jù)繪制概率分布圖來驗證這種差異性,如圖 1 所示.
從圖 1 中可以看出,3個用戶的按鍵時間間隔在一定范圍內(nèi)都近似地服從正態(tài)分布,但是其分布曲線并不一致.這充分說明每個用戶在按鍵時間間隔特征上表現(xiàn)出了各自獨特的行為模式且互相間存在差異,本文正是通過這種差異性來進行用戶識別.
圖 1 鼠標點擊時間間隔分布擬合曲線
定義 2屏幕點擊分布SC
SCi=〈action-typei,positioni,timestampi|i≤n〉,
式中:n為所有的鼠標事件個數(shù);action-type表示所有的鼠標行為(移動和點擊);position為當前鼠標事件觸發(fā)時光標的屏幕坐標,形式為(x,y),整個坐標系的原點在屏幕左上角.
本文借鑒熱力圖的概念,利用所有的position數(shù)據(jù)繪制了鼠標點擊熱力圖,通過熱力圖實現(xiàn)用戶在圖形界面中點擊分布的可視化,如圖 2 所示.
(a)用戶 1
圖 2 中的顏色深淺不同,高亮的色塊表示用戶頻繁點擊的區(qū)域.可以看出兩個用戶的鼠標點擊分布有很大的區(qū)別,用戶1頻繁點擊的區(qū)域偏下,而用戶2則集中在屏幕中央.兩圖中左下角區(qū)域都呈現(xiàn)高亮,該區(qū)域是win10操作系統(tǒng)存放快捷方式的任務(wù)欄,該區(qū)域的功能性使得幾乎所有的計算機用戶均會頻繁點擊,但是因個人設(shè)置的不同,高亮的色塊分布并不一致.以上分析表明,鼠標點擊分布特征能夠充分地反映用戶獨特的鼠標行為模式并以此區(qū)分用戶.
定義 3鼠標移動序列MMS
MMSi=〈SCi,…,SCi+20|i∈(0,10,20,…),
i≤n-7〉,
其中,SC是上文定義的屏幕點擊分布元組.
鼠標移動與鼠標點擊行為類似,均會因為人類獨特的生物特性而存在差異,本文從用戶的鼠標移動行為中提取鼠標移速特征來驗證這種差異性的存在.鼠標移速的計算比較復雜.鼠標移動是一套連續(xù)性動作,如果直接將數(shù)據(jù)等份切割,在切割點處會斷開前后數(shù)據(jù)間的連接.因此,本文借鑒Hisham A.Kholidy等人[16]切割命令序列的方法,將數(shù)據(jù)切割成大小為n的重疊塊,使得塊i的最后n/2條數(shù)據(jù)也是塊i+1的前n/2條數(shù)據(jù),確保了鼠標移動的連續(xù)性不被破壞.另一方面,用戶在移動鼠標的過程中會出現(xiàn)短暫停留,此停留間隔會對鼠標真實移速的計算產(chǎn)生干擾.因此,在計算時間間隔的過程中,剔除超過1 s的時間間隔和相應的數(shù)據(jù)塊,以此減弱對移速計算的干擾.
將單個重疊塊定義為1次鼠標移動序列MMS,該序列移動的距離即為從SCi點到SCi+7點的路徑長度Di,移動時間為T.
D=‖positioni+7-positioni‖,
(1)
T=timestampi+7-timestampi,
(2)
Speed=D/T.
(3)
累計分布圖能夠完整描述一個實數(shù)隨機變量的概率分布情況,本文通過繪制累積分布曲線的方式來觀察不同用戶的鼠標移速分布,如圖 3 所示.從圖中能夠看出3條累積分布曲線并不重疊,說明3個用戶的鼠標移速概率分布存在差異,這樣的分布差異使得鼠標移速特征能夠用來區(qū)別不同用戶.
圖 3 鼠標移速累積分布曲線
定義 4鼠標點擊窗口CW
CWi=〈action-typei,windownamei,timestampi|
i≤n〉,
式中:action-type表示所有的鼠標行為(移動和點擊);windowname為當前鼠標事件下光標所在窗口的窗口名.
在Kholidy 等人[14-16]的研究中,通過分析文件行為[14-15]和命令序列[16]建立用戶行為模式,進行異常檢測.這些研究結(jié)果表明:不同職位或者角色的用戶,因為其工作內(nèi)容和工作方式的不同,使得從各種行為中記錄到的文本內(nèi)容存在明顯差異,這種差異能夠用來區(qū)別偽裝者和正常用戶.因此,本文從用戶的點擊窗口行為入手,從活動窗口名中提取文本特征,用來刻畫用戶獨特的行為模式.
實驗中從每個用戶的CW數(shù)組中提取出前十的常用關(guān)鍵詞合并為詞匯表,然后再從其CW數(shù)組中截取相同數(shù)量的文本內(nèi)容,統(tǒng)計詞匯表中每個單次的詞頻.在老師和學生這兩個角色中隨機選擇4個用戶,繪制圖 4 的詞匯直方分布圖,橫軸為詞匯表,豎軸為詞頻.如圖所示,老師角色的用戶,“word” “文檔”等辦公詞匯的詞頻非常高;學生角色的用戶,其詞匯分布比較廣泛,且多集中在“編程”詞匯(例如“py”,python文件的后綴)和“上網(wǎng)”詞匯(例如:“internet”);同時在相同角色內(nèi)部不同窗口的使用頻率也存在差異.
上述結(jié)果明確了用戶在點擊窗口活動中存在不同的行為模式,本文將這種行為模式與用戶的鼠標動態(tài)相結(jié)合,用來提升短時間身份識別系統(tǒng)的認證性能.
通過對用戶鼠標活動的觀察,發(fā)現(xiàn)即使提供樣本的參與者努力保持鼠標操作的統(tǒng)一狀態(tài),兩個相同的操作之間也可能出現(xiàn)差異.鼠標行為的變異性會嚴重影響身份識別的準確性.
定義 5鼠標行為的可變性
給定一個參與者U和一個數(shù)據(jù)集S,S中包含了整個參與者U的鼠標行為數(shù)據(jù).從數(shù)據(jù)集S中提取各行為特征得到特征矩陣f,參與者U鼠標行為的可變性則被定義為特征矩陣f中每個特征向量fi的波動或變化.
變異系數(shù)(CV)作為統(tǒng)計學中的一個歸一化量度,沒有量綱,對數(shù)據(jù)變化的描述較為客觀,所以本文使用CV來測量鼠標行為特征空間的可變性.CV的計算是針對單個用戶的樣本數(shù)據(jù)進行的,如果CV(fi)等于0,表示對應的特征沒有變化,等于1則表示該特征極其不穩(wěn)定.
(4)
對于給定的每個用戶的特征樣本,分別計算每個特征分量的變異系數(shù),然后綜合所有的用戶計算每個特征的平均變異系數(shù),結(jié)果見表 2.表中不乏有變異系數(shù)低于0.1的特征分量,也有高達0.9的特征分量,但大多數(shù)都集中在0.3左右.這表明用戶的鼠標行為確實存在著一定的變異性,而這種特性可能對之后的身份認證性能產(chǎn)生影響.然而,直接刪除這些高變異性的特征并不可取,因為鼠標行為的變異性分析只是針對單個用戶的特征分量進行的,局部的分析并不能代表其在整個特征空間中的分類性能,直接去除這些特征很可能破壞鼠標行為的整體性.
表 2 各特征分量變異系數(shù)
將變異性視作一種噪聲引入特征空間,那么降低變異性便轉(zhuǎn)化為降噪問題.特征選擇作為特征工程中的一個關(guān)鍵部分,可以有效地降低特征空間的噪聲和冗余度,從原始的特征中選擇最優(yōu)的特征組合.
實驗研究發(fā)現(xiàn),在不同的特征空間維度下,各種特征選擇的方法對于分類器性能的提升效果參差不齊,相互交錯,很難辨別其好壞.本文將幾種方法相融合使其優(yōu)勢互補,提出了投票制特征選擇算法.該算法利用投票制思想,使用較為常見的過濾式及封裝式方法進行特征選擇實驗,統(tǒng)計每次的實驗結(jié)果,如果相應的特征在經(jīng)過篩選后沒有被剔除,則該特征得1票,再按照得票結(jié)果將各特征進行排序,特征選擇就是依據(jù)各個特征的得票情況來篩選特征.
算法框架如算法1所示.輸入原始的特征集X,分別使用過濾式和包裹式方法進行特征選擇,函數(shù)返回f_result和w_result兩種列表,列表中均為布爾值,TRUE表示對應位置特征被保留,相反則說明該特征被剔除.將兩種列表添加到預先定義的Result中,最終Result是一個n*m的矩陣.統(tǒng)計Result矩陣中每一列TRUE的個數(shù),據(jù)此得出每個特征的投票情況.從特征集X中刪除得票數(shù)最少的前f個特征對應的列,最終返回篩選后的特征子集F.
算法1:
輸入: 特征集X={x1,…,xn},標記空間Y={y1,…,yn}, 剔除的特征個數(shù)f
輸出:特征子集F
1.Result <-{}
2.If Feature selection algorithm∈ Filter:
3. Foriin range(n):
4. model = filter(method,k=i)
5. model.fit(X,Y)
6. f_result = model.get_ support()
7. Result.append(f_result)
8.If Feature selection algorithm∈ Wrapper:
9. Foriin range(n):
10. model=wrapper(estimator, scoring =‘a(chǎn)ccuracy’,k=i)
11. model.fit(X,Y)
12. w_result = model.get_ support()
13. Result.append(w_result)
14.sta =(Result==True).sum(axis = 0)
15.sta = sta.sort_values()
16.index= sta.index
17.F=X.drop(list(index))
18.ReturnF
支持向量機由Vapnik等人[17]提出,是在統(tǒng)計學基礎(chǔ)上發(fā)展起來的一種機器學習方法.它在一定程度上克服了維數(shù)災難和過學習等傳統(tǒng)困難,并在文本分類、生物信息、語音識別、信息安全等諸多領(lǐng)域有了成功的應用,是目前泛化能力最強的技術(shù)之一[18].根據(jù)前期的數(shù)據(jù)分析等工作,用戶的鼠標行為數(shù)據(jù)是非線性可分的,因此本文最終采用了非線性支持向量機學習方法.
令訓練數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xn,yn)},其中,xi∈Rn,yi∈{1,0},xi為第i個特征向量,yi為xi的類標記.SVM的基本思想就是求解能夠正確劃分訓練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面.此時可以將分類問題轉(zhuǎn)化為如下的凸二次規(guī)劃問題
(5)
i=1,2,…,l;ξi≥0,i=1,2,…,l,
式中:ζ為松弛變量;C為懲罰參數(shù).為求解以上最優(yōu)化問題,引入拉格朗日函數(shù)將該問題轉(zhuǎn)化為對偶性問題,則求解原問題的最優(yōu)解就轉(zhuǎn)換為求解對偶問題的解.拉格朗日函數(shù)為
(6)
式中:α=(α1,α2,…,αl)T為Lagrange乘子向量.這樣就得到了與原始問題等價的對偶最優(yōu)化問題
(7)
0≤αi≤C,i=1,2,…,l.
(8)
式中:K(x)為核函數(shù),本文最終采用的核函數(shù)為高斯核函數(shù).
本文基于內(nèi)網(wǎng)用戶在主機端的鼠標行為數(shù)據(jù)進行研究.為了獲取真實的用戶行為數(shù)據(jù),搭建了完全自由的內(nèi)網(wǎng)環(huán)境,調(diào)用底層的window系統(tǒng)命令編寫采集器,開機自啟并隱藏在后臺運行,對用戶完全透明.該采集器運行時占用的系統(tǒng)內(nèi)存為5.6 M,記錄的數(shù)據(jù)以csv的格式存儲在用戶主機上,定期轉(zhuǎn)儲.
實驗中選用28位用戶(包括老師和學生)3個星期的鼠標行為數(shù)據(jù)做研究,其中詳細記錄了用戶操作鼠標進行的各種點擊和移動事件,記錄的數(shù)據(jù)格式如圖 5 所示.圖中:MessageName表示鼠標的動作類型,Time表示鼠標事件的觸發(fā)時間,WindowName表示鼠標指針所在的窗口名稱,Position為像素坐標,Wheel表示鼠標滾輪狀態(tài).平均每個數(shù)據(jù)集的大小為149 MB.這28位參與者所配備的顯示器均為21.5英寸液晶顯示器,分辨率為1 920×1 080,使用的鼠標并未經(jīng)過任何鼠標設(shè)置的改動.
圖 5 原始數(shù)據(jù)
第1節(jié)對用戶的鼠標行為特征進行了詳細分析,實驗中需通過進一步計算進行特征量化,從每個會話中提取歸一化的特征向量.
首先,針對數(shù)值類型的屬性,如鼠標按鍵間隔和鼠標移速,從中提取均值、方差等統(tǒng)計學度量來刻畫其整個屬性值的分布.但在數(shù)據(jù)過濾之后,鼠標移速的分布還是呈現(xiàn)正偏態(tài),此時顯然無法再使用統(tǒng)計學度量.所以,本文借鑒聚類的思想,對給定的鼠標移速speed的集合D={s1,s2,…,sm},針對聚類所得簇劃分C={C1,C2,…,Ck}最小化平方誤差
(9)
其次,為了量化鼠標點擊分布特征,將屏幕切割成9個區(qū)域,計算每個區(qū)域的點擊分布占比.鼠標按鍵頻率較為簡單,可以直接從樣本中計算得出.
i=1,2,…,9;
鼠標活動窗口名作為文本數(shù)據(jù),這類屬性的取值之間沒有任何順序、大小等相關(guān)性,可以采用二進制向量表示它們的特征值.先從整體數(shù)據(jù)中提取N個主關(guān)鍵詞作為屬性,然后再從用戶的單個樣本中提取t個副關(guān)鍵詞,如果這t個副關(guān)鍵詞中出現(xiàn)有與主關(guān)鍵詞一致的詞,則對應屬性處的向量值置1,N和t的值視情況而定.
本文將持續(xù)身份認證實驗視為二分類問題,即當前計算機用戶為合法用戶,非本機用戶為非法用戶,使用SVM分類器構(gòu)建正常用戶的行為模式,用于檢測非法用戶.實驗從兩種用戶中抽取等量的正負樣本進行訓練.
為了評測分類器性能的好壞,計算了如下指標:(1)誤識率(FAR):表示偽裝者被錯誤識別為正常用戶的概率;(2)拒識率(FRR):表示正常用戶被識別為偽裝者的概率;(3)準確率(accuracy):測試結(jié)果與真實值相符合的程度,實驗中通過十折交叉驗證來計算分類器的平均準確率.
4.4.1 基于SVM的身份認證識別
機器學習中的二分類算法眾多,本文從中選擇幾種在安全領(lǐng)域較為常用的進行了對比分析.實驗中將70%的原始樣本作為訓練集,剩余的30%作為測試集,分別采用高斯核支持向量機、邏輯斯諦回歸、隨機森林、樸素貝葉斯以及XGBoost共5種二分類器進行分類訓練.
圖 6 畫出了5種分類器的ROC曲線.在二維坐標中,ROC曲線越靠近左上角,相應的分類器性能越好,而當多條ROC曲線交叉難以判斷優(yōu)劣時,較為合理的判斷依據(jù)是ROC曲線下的面積AUC.從圖中可以看出SVM與XGBoost的性能明顯優(yōu)于其他分類器.
圖 6 各分類器ROC曲線
表 3 記錄了各分類器的評價指標,包括平均FAR(誤識率)、FRR(拒識率)、每個用戶模型訓練均時argtime以及平均AUC.
表 3 分類器評價指標
從實驗結(jié)果來看,除去高斯貝葉斯分類器,最高為9.17%,5.06%的FAR和FRR驗證了基于鼠標行為特征進行身份認證的有效性和可行性.在各分類器中,SVM的FAR和FRR最低,模型訓練耗時最少,只有0.084 s,各方面指標均顯示SVM高斯核分類器有著最好的性能.本文支持向量機算法中的懲罰系數(shù)C=10,核系數(shù)g=0.007.
4.4.2 雙域特征聯(lián)合認證模型
在相同的數(shù)據(jù)集以及樣本分割方法下,基于不同的特征進行身份認證,以驗證本文融合雙域特征的身份認證方法的突出性能.首先,按照本文的方法分別提取鼠標動態(tài)行為特征以及窗口行為特征,在各單域特征及雙域融合特征下進行實驗.然后,在目前最具代表性的鼠標身份認證研究中,采用與本文研究較為接近的shen等人[9-10]的研究方法提取相應的鼠標行為特征進行對比實驗,并在其鼠標行為特征上加入窗口行為特征進行進一步認證,最終的實驗結(jié)果如圖 7 和表 4 所示.
圖 7 不同特征下的認證模型ROC曲線
表 4 各認證模型的性能評價指標
圖 7 和表 4 分別顯示了5種特征類型下認證模型的ROC曲線以及FAR、FRR和準確率.從圖表中可以看出,使用本文認證方法的分類器ROC曲線更靠近左上角,各項性能指標也均優(yōu)于其他方法.因此,可以確定,當所有的方法在相同的條件下進行評估時,本文的方法性能最優(yōu).并且,與現(xiàn)有的其他基于鼠標行為的身份認證系統(tǒng)[9-12]相比,本文基于鼠標及窗口行為特征的身份認證模型表現(xiàn)出了更低的誤報率和漏報率,分別為5.38%和3.16%,準確率可以達到94.2%,平均AUC為0.981.
4.4.3 投票制特征選擇
為了驗證投票制特征選擇算法的優(yōu)越性以及尋找最佳的特征維度,實驗中將最終保留的特征維數(shù)設(shè)置在40~76之間,分別采用投票制、過濾式以及包裹式特征選擇算法進行驗證實驗.特征空間每減少一維,重復實驗30次,每次都隨機挑選不同的負樣本.
圖 8 是分類器的精度曲線.當特征維度低于70維時,單個特征選擇算法的精度曲線開始緩慢下降,投票制特征選擇算法的曲線有了小幅上升.直到特征維度降到50維以下時,投票制算法的精度曲線有較大幅度的下滑,此時3種特征選擇算法的分類器精度均有了很大的損失.因此,在不考慮降維到50維以下的情況時,綜合分析,本文的投票制特征選擇算法在提高分類器效率方面優(yōu)于其他兩種方法.而從圖中可以看出,當特征維度約簡到66維時,投票制算法精度曲線達到頂峰,因此,本文將最佳的分類維度設(shè)置為66維,也就是2.2節(jié)算法中的f=66.
圖 8 不同特征選擇方法下的分類器精度曲線
另一方面,精度曲線中加入了由標準差繪制的誤差棒,誤差棒越短,表明分類器的穩(wěn)定性越好.由圖 8 可以看出,投票制算法精度曲線上各個節(jié)點的誤差棒長度均低于其他兩條曲線,這說明相較于其他兩種算法,采用投票制特征選擇算法篩選后的特征空間更加穩(wěn)定,這對于提升整個身份認證系統(tǒng)的性能來說是至關(guān)重要的.
4.4.4 不同樣本分割方法下分類性能對比
實驗中定義了一種數(shù)據(jù)塊,單個塊即用戶的一個樣本,其中包括了用戶在一段時間內(nèi)的所有鼠標操作數(shù)據(jù).一個數(shù)據(jù)塊的大小代表了系統(tǒng)檢測出合法用戶和偽裝者可以用來攻擊的時間窗口,數(shù)據(jù)塊太大,或許攻擊已經(jīng)完成,報警滯后,數(shù)據(jù)太小,檢測精度下降.因此,本文研究了不同數(shù)據(jù)塊下分類器(RBF)的驗證性能,從中選擇最佳的分割方法.
從表 5 中可以看出,基于時間窗口的樣本分割方法實驗結(jié)果并不理想.原因在于用戶的鼠標行為并不會隨著時間線均勻分布,所以,每個時間窗口內(nèi)的數(shù)據(jù)量多少不一,導致有些數(shù)據(jù)量極少的窗口分類效果很差.實驗結(jié)果最佳的方法是基于9 000條數(shù)據(jù)量的分割,F(xiàn)AR與FRR最低,分類精度最高.事實上,數(shù)據(jù)量的增長與用戶的鼠標操作狀態(tài)息息相關(guān),例如用戶頻繁地點擊鼠標、轉(zhuǎn)動滾輪等行為會伴隨著對應事件數(shù)的激增,在樣本中的占比也會提高.因此,基于數(shù)據(jù)量分割的樣本空間能夠準確地刻畫用戶當前的行為模式.另外,從表中能夠發(fā)現(xiàn),樣本容量的增大一定程度上會提升系統(tǒng)的認證精度,因此在許多研究中通過擴增樣本來提高身份認證模型的性能,但是這樣的做法有損系統(tǒng)的實時性.本文進行了一些模擬實驗,讓用戶在正常狀態(tài)下瀏覽網(wǎng)頁和文件,數(shù)據(jù)累積到9 000條平均需要2 min,這個時間基本滿足實時檢測的要求.
表 5 不同樣本分割方法下的分類器性能指標
本文首次將用戶的鼠標行為與窗口行為相結(jié)合進行分析,提出了一種新的持續(xù)身份認證方法.該方法在完全自由的內(nèi)網(wǎng)環(huán)境下采集用戶行為數(shù)據(jù),提取鼠標動力學及窗口文本雙域特征,在特征工程中提出了投票制特征選擇算法進行特征篩選,以降低用戶行為的變異性.實驗結(jié)果表明,該方法在開放環(huán)境下的認證性能優(yōu)于當前其他基于鼠標行為的身份認證研究,最終的認證系統(tǒng)非常穩(wěn)定.
本文的身份認證方法可以在透明的狀態(tài)下持續(xù)地監(jiān)控計算機系統(tǒng),根據(jù)使用鼠標的行為數(shù)據(jù)來高效地識別正常用戶,且無需額外的硬件設(shè)備,克服了當前許多認證方法的弊端.
在未來的工作中,將進一步細化用戶的鼠標行為,并結(jié)合更多其他的用戶行為進行多域融合分析.其次,將從攻擊入手揭示當前基于鼠標行為的身份驗證系統(tǒng)存在的漏洞,促進其更長遠的發(fā)展.