徐歡瀟
摘要:網(wǎng)絡(luò)釣魚(yú)識(shí)別是近幾年來(lái)網(wǎng)絡(luò)安全研究的熱點(diǎn)。本文充分說(shuō)明了網(wǎng)絡(luò)釣魚(yú)研究的必要性,并給出了基于信任模型的URL釣魚(yú)檢測(cè)機(jī)制,該信任模型更新了黑/白名單,在一定程度上提高了URL釣魚(yú)的檢測(cè)率。
關(guān)鍵詞:網(wǎng)絡(luò)釣魚(yú)識(shí)別;安全;信任模型
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)18-0031-02
網(wǎng)絡(luò)釣魚(yú)是近年來(lái)新興的一種網(wǎng)絡(luò)犯罪手段。釣魚(yú)者通常先給用戶(hù)發(fā)送大量的聲稱(chēng)來(lái)自銀行或者是知名機(jī)構(gòu)的垃圾郵件,把用戶(hù)引到精心設(shè)計(jì)好的釣魚(yú)網(wǎng)站上,誘騙用戶(hù)給出自己的銀行賬號(hào)、密碼等敏感信息,從而獲得巨大的經(jīng)濟(jì)利益。[1]
目前,被應(yīng)用并取得較好成效的、有影響力的反網(wǎng)絡(luò)釣魚(yú)技術(shù),多數(shù)采取瀏覽器內(nèi)置反釣魚(yú)功能或者瀏覽器插件的形式來(lái)保護(hù)用戶(hù)的訪問(wèn)安全。與此同時(shí),反釣魚(yú)的瀏覽器插件也為防止用戶(hù)遭受釣魚(yú)者的惡意攻擊做出了很大貢獻(xiàn)。
本文在黑白名單過(guò)濾的基礎(chǔ)上,通過(guò)信任模型檢測(cè)使得黑白名單得以部分更新,在一定程度上提高了URL釣魚(yú)的檢測(cè)率。
1 方法介紹
1.1黑/白名單
黑名單是設(shè)置不能通過(guò)的用戶(hù),黑名單以外的用戶(hù)都能通過(guò)。黑名單啟用后,被列入到黑名單的用戶(hù)(或IP地址、IP包、郵件、病毒等)不能通過(guò)。具體地說(shuō)就是當(dāng)用戶(hù)要訪問(wèn)一個(gè)網(wǎng)站的時(shí)候先去“黑名單”庫(kù)對(duì)比一下,如果發(fā)現(xiàn)有匹配的則是釣魚(yú)網(wǎng)站,由于黑名單技術(shù)無(wú)須機(jī)器學(xué)習(xí)或者特征識(shí)別,所以速度很快,可以說(shuō)在一定范圍內(nèi)時(shí)有效的,但是靠黑名單檢測(cè)出的都得是和黑名單數(shù)據(jù)庫(kù)里的完全匹配,這很有可能讓攻擊者鉆空子。而且由于技術(shù)方面的原因,黑名單很多時(shí)候是得不到較為及時(shí)的更新也是個(gè)很大的問(wèn)題。
白名單是設(shè)置能通過(guò)的用戶(hù),白名單以外的用戶(hù)都不能通過(guò)。所以一般情況下白名單比黑名單限制的用戶(hù)要更多一些。如果設(shè)立了白名單,則在白名單中的用戶(hù)(或IP地址、IP包、郵件等)會(huì)優(yōu)先通過(guò),不會(huì)被當(dāng)成垃圾郵件拒收,安全性和快捷性都大大提高。
目前很多研究人員采取的是無(wú)惡意的地址的白名單優(yōu)先通過(guò)的技術(shù)結(jié)合黑名單技術(shù)。
基于此,本文提出了基于信任模型的URL釣魚(yú)檢測(cè)機(jī)制,該方法旨在通過(guò)信任值的判斷來(lái)把可信任URL加入已知的白名單,而把信任值極低的URL加入已知的黑名單,一定程度上更新了黑/白名單,便于用戶(hù)安全上網(wǎng)。
1.2信任模型
分布式動(dòng)態(tài)信任模型作為適用于云計(jì)算環(huán)境下的訪問(wèn)管理機(jī)制已經(jīng)得到廣泛研究,云模式下的服務(wù),使得分布計(jì)算和并行計(jì)算變得易于部署和實(shí)施?;诖?,本文將其運(yùn)用于URL釣魚(yú)檢測(cè)。
待URL進(jìn)行黑白名單過(guò)濾后,對(duì)其進(jìn)行特征提取。根據(jù)不同特征的特點(diǎn),進(jìn)行分組,每組給定一個(gè)信任值(一個(gè)無(wú)公害數(shù)據(jù)初始值),然后進(jìn)行信任值的累加,若累加后的值超過(guò)閾值則證明該特征集是可信任的,把該特征集相對(duì)應(yīng)的URL加入白名單,否則進(jìn)行綜合信任計(jì)算。
1.3檢測(cè)模型
1)特征提取
對(duì)經(jīng)過(guò)黑白名單過(guò)濾后的URL進(jìn)行特征提取,特征分為:文本內(nèi)容的特征,視覺(jué)內(nèi)容的特征和網(wǎng)頁(yè)鏈接結(jié)構(gòu)的特征。
文本內(nèi)容指的是出現(xiàn)在某一給定網(wǎng)頁(yè)的術(shù)語(yǔ)或者單詞。一般都先從HTML中分離出文本內(nèi)容,然后對(duì)產(chǎn)生的每一個(gè)單詞進(jìn)行特征比對(duì);視覺(jué)內(nèi)容指的是相對(duì)于整體風(fēng)格、布局和塊區(qū)域(包括標(biāo)識(shí)、圖像和表格)的特征。視覺(jué)內(nèi)容還可以進(jìn)一步地理解為網(wǎng)頁(yè)背景的顏色、字體大小、字體樣式以及圖像和標(biāo)志的位置;拓?fù)鋬?nèi)容指的是用戶(hù)訪問(wèn)網(wǎng)頁(yè)或者連接到其他網(wǎng)頁(yè)所使用的特征,涉及給定頁(yè)面的網(wǎng)址和超鏈接。
2)信任評(píng)價(jià)
URL特征提取并進(jìn)行分組,每組給定一個(gè)信任值,假設(shè)給定一個(gè)中間量的初始值,后期通過(guò)對(duì)用戶(hù)上網(wǎng)行為的判斷,進(jìn)行相對(duì)應(yīng)的信任累加(可以是正數(shù)也可以是負(fù)數(shù))。當(dāng)累加的信任值[Rep]達(dá)到給定閾值R,則認(rèn)為該URL是可信任的,將其加入白名單。否則,進(jìn)行綜合信任計(jì)算。本文將信任值區(qū)間設(shè)為[0,1],即[Rep?[0,1]]。其中閾值R的選取方式參照[2],加權(quán)平均后取R=0.7。
將信任值低于閾值R的特征集進(jìn)行綜合信任計(jì)算,通過(guò)直接信任可靠度和推薦信任可靠度動(dòng)態(tài)調(diào)節(jié)權(quán)重因子,如果直接信任更加可靠,則直接信任占有更大比重;如果推薦信任更加可靠,則推薦信任占有更大比重。[3]
綜合信任由直接信任和借鑒信任構(gòu)成,定義如下:
[Rep=aDTRep+(1-a)RTRep]
其中,a表示直接信任權(quán)重,由以下公式計(jì)算得到:
[a=CTRep-DTCTRep-DT+CTRep-RT]
如果[Rep]的值低于r(信任值下限)則將其加入黑名單。在大量的實(shí)驗(yàn)數(shù)據(jù)中,r值的選取經(jīng)過(guò)反復(fù)測(cè)試,我們選取了下列三個(gè)數(shù)值以展開(kāi)進(jìn)一步分析:r=0.1,r=0.2,r=0.3。大量具有重復(fù)性的結(jié)果均表明:當(dāng)r[ ?[0.1,0.2]]時(shí),篩出率呈現(xiàn)上升趨勢(shì),而當(dāng)r[ ?(0.2,0.3]]時(shí),篩出率呈現(xiàn)下降趨勢(shì),如圖1所示。顯然,轉(zhuǎn)折處r=0.2是一個(gè)具有代表意義的典型特征結(jié)果,故本文選取的信任值下限為0.2。
注:綜合信任滿(mǎn)意度[Rep];直接信任滿(mǎn)意度[DTRep];推薦信任滿(mǎn)意度[RTRep];直接信任可靠度[CTRep-DT];推薦信任可靠度[CTRep-RT]。
3)檢測(cè)過(guò)程
對(duì)于一個(gè)待檢測(cè)URL,在本模型中的檢測(cè)過(guò)程如圖2所示:
①輸入待檢測(cè)URL;
②通過(guò)黑白名單過(guò)濾器識(shí)別該URL是否在已知的黑/白名單中,如果在則可直接判定其為釣魚(yú)/合法網(wǎng)站并介紹程序,否則進(jìn)入③;
③URL特征提取并進(jìn)行分組,每組給定一個(gè)信任值,通過(guò)信任模型判斷每組特征集的信任值是否達(dá)到閾值R,如果達(dá)到閾值R則該URL是可信任,將其加入白名單,否則進(jìn)入④;
④未達(dá)到閾值的進(jìn)行綜合信任計(jì)算,如果信任值低于r則將其加入黑名單。否則進(jìn)入⑤;
⑤其他過(guò)濾器進(jìn)行過(guò)濾處理。
2 實(shí)驗(yàn)
本文從實(shí)際釣魚(yú)攻擊收集了大量的網(wǎng)絡(luò)釣魚(yú),這些數(shù)據(jù)均來(lái)自PhishTank[4]。選取了10000個(gè)已知黑名單中的URL、10000個(gè)已知白名單中的URL以及5000個(gè)不在已知黑/白名單中的URL作為測(cè)試集,進(jìn)行三層過(guò)濾:第一層黑/白名單過(guò)濾后識(shí)別率為80%;再經(jīng)過(guò)第二層信任模型過(guò)濾后加入了新的白名單成員,識(shí)別率約為84%;最后經(jīng)過(guò)第三層綜合信任模型過(guò)濾后又加入了新的黑名單成員,識(shí)別率約為88%。一系列可靠實(shí)驗(yàn)的結(jié)果表明,上述檢測(cè)過(guò)程,在一定程度上更新了黑/白名單,使得整個(gè)URL的檢測(cè)率得到了相對(duì)有效的提升。
3 小結(jié)
本文提出了一種新的基于信任模型的URL釣魚(yú)檢測(cè)機(jī)制,通過(guò)對(duì)信任值的評(píng)價(jià),將信任值高于閾值R的URL加入已知白名單,將信任值低于r的URL加入已知黑名單。即通過(guò)該信任模型更新了已知黑/白名單,在一定程度上提高了URL釣魚(yú)的檢測(cè)率,便于用戶(hù)安全上網(wǎng)。
未來(lái),我們?nèi)孕柰度氪罅康墓ぷ?,展開(kāi)更為深入的研究。
參考文獻(xiàn):
[1] APWG. What is Phishing and Pharming?[EB/OL]. http://www.antiphishing.org.
[2] 劉健,趙剛,鄭運(yùn)鵬. 惡意URL多層過(guò)濾檢測(cè)模型的設(shè)計(jì)與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2016(1):75-80.
[3] 游靜,上官經(jīng)倫,徐守坤,李千目,王印海. 考慮信任可靠度的分布式動(dòng)態(tài)信任管理模型[J]. 軟件學(xué)報(bào), 2017,28(9):2354?236.
[4] https://www.phishtank.com/.