王 燕 王興芬 任俊玲
面向釣魚網(wǎng)站敏感特征項(xiàng)選取的IIGAIN算法
王 燕 王興芬 任俊玲
(北京信息科技大學(xué)計(jì)算機(jī)學(xué)院 北京 100101)
傳統(tǒng)的釣魚網(wǎng)站檢測技術(shù)主要采用隨機(jī)或者憑經(jīng)驗(yàn)選取敏感特征項(xiàng)用于檢測的方法,無法保證檢測的準(zhǔn)確性。為此,提出一種面向釣魚網(wǎng)站敏感特征選取的改進(jìn)的信息增益算法IIGAIN(Improved Information Gain Algorithm)。該算法綜合考慮了特征項(xiàng)的類內(nèi)離散度,通過對特征項(xiàng)的類內(nèi)離散度差值做相應(yīng)的處理,以處理后的結(jié)果作為懲罰項(xiàng)改進(jìn)信息增益算法。實(shí)驗(yàn)結(jié)果表明,利用IIGAIN進(jìn)行特征項(xiàng)選取的釣魚網(wǎng)站檢測方法的檢測準(zhǔn)確性明顯優(yōu)于隨機(jī)選取特征項(xiàng)的釣魚網(wǎng)站檢測方法。
釣魚網(wǎng)站檢測 敏感特征項(xiàng) 信息增益 類內(nèi)離散度
互聯(lián)網(wǎng)為人們的生活帶來了方便和快捷,同時(shí)也帶來了威脅[1]。近年來網(wǎng)絡(luò)欺詐事件頻頻發(fā)生,而網(wǎng)絡(luò)釣魚攻擊是網(wǎng)絡(luò)欺詐的典型代表。網(wǎng)絡(luò)釣魚不僅對用戶的隱私和個(gè)人財(cái)產(chǎn)構(gòu)成了嚴(yán)重威脅,也嚴(yán)重阻礙了電子商務(wù)等Web應(yīng)用的發(fā)展,因此釣魚網(wǎng)站檢測技術(shù)成為國內(nèi)外相關(guān)領(lǐng)域的研究熱點(diǎn)之一。
目前關(guān)于網(wǎng)絡(luò)釣魚檢測技術(shù)的研究已經(jīng)取得了一定的進(jìn)展,其中尤以用戶端的釣魚檢測研究最為活躍,研究成果最為豐富。用戶端的釣魚網(wǎng)站檢測機(jī)制主要有基于URL異常的檢測機(jī)制、基于Web頁面異常的檢測機(jī)制、綜合URL與Web頁面的檢測機(jī)制及基于Web頁面身份的檢測機(jī)制四類。在這些檢測機(jī)制中,大都利用機(jī)器學(xué)習(xí)方法進(jìn)行釣魚網(wǎng)站的檢測,而敏感特征項(xiàng)的選擇又是機(jī)器學(xué)習(xí)算法進(jìn)行分類識別的基礎(chǔ)。選擇分類能力強(qiáng)的特征項(xiàng)可以提高檢測的準(zhǔn)確性,反之如果選擇的特征項(xiàng)分類能力較弱,則會對分類造成干擾,嚴(yán)重影響檢測的準(zhǔn)確性。
現(xiàn)有的釣魚網(wǎng)站檢測方法[2-7]往往隨機(jī)或者僅憑經(jīng)驗(yàn)分析選取Web頁面或URL中的特征項(xiàng)用于分類,無法保證檢測的準(zhǔn)確性。為此,本文應(yīng)用信息論中的信息增益算法進(jìn)行釣魚網(wǎng)站的特征選擇,同時(shí)考慮到傳統(tǒng)的信息增益算法未考慮特征項(xiàng)類內(nèi)分布對其分類性能的影響,提出一種引入類內(nèi)分布均衡度的改進(jìn)的信息增益算法IIGAIN,并基于IIGAIN構(gòu)建了釣魚網(wǎng)站敏感特征選擇算法。
1.1 信息熵與信息增益
信息熵是信息論中用來度量系統(tǒng)信息量的指標(biāo)。對分類系統(tǒng)而言,假設(shè)用C來代表類別,用n來表示類別數(shù),不同的類別分別記為C1,C2,…,Cn,每個(gè)類別出現(xiàn)的概率記為P(C1),P(C2),…,P(Cn),則該分類系統(tǒng)的信息熵可以表示為:
(1)
在分類系統(tǒng)中,信息增益IG(Information Gain)可以衡量一個(gè)屬性區(qū)分?jǐn)?shù)據(jù)樣本的能力。信息增益值越大,這個(gè)屬性對分類的重要程度越高,因此,信息增益常被用來進(jìn)行特征選擇。具體來說,信息增益是使用某特征項(xiàng)劃分樣本數(shù)據(jù)集前樣本集的信息熵和使用該特征項(xiàng)劃分后樣本數(shù)據(jù)集的信息熵的差值,可表示為[8]:
(2)
由信息增益的定義可知,信息增益是針對某個(gè)特征對整個(gè)數(shù)據(jù)集分類的貢獻(xiàn)而言的。根據(jù)信息增益進(jìn)行特征選擇時(shí)只考慮了類別的分布特征、特征與類別之間的相關(guān)性,而忽略了特征項(xiàng)本身的分布情況。所以可以在特征選擇時(shí)引入表征特征項(xiàng)分布情況的因素[9],即特征項(xiàng)分布信息,又稱為特征項(xiàng)頻率分布的離散度??梢苑譃轭愰g離散度DIac(Distribution Information among classes)和類內(nèi)離散度DIic(Distribution Information inside a class),分別表示特征項(xiàng)在類間與類內(nèi)的分布情況。
1.2 類間離散度
類間離散度DIac描述了特征項(xiàng)在各類間的分布情況,特征項(xiàng)的分類能力與其類間離散度成正比。即特征項(xiàng)在類間分布越不均勻,其類間離散度則越大,則其攜帶的分類信息越多,分類能力越強(qiáng),其產(chǎn)生的信息增益也越大??梢娦畔⒃鲆娴拇笮∨c特征項(xiàng)的類間離散度成正比,說明信息增益本身較好地反映了特征項(xiàng)的類間離散度。因此在進(jìn)行特征選擇時(shí),度量某特征項(xiàng)的信息增益的同時(shí)無需再單獨(dú)考慮其類間離散度。
1.3 類內(nèi)離散度
特征項(xiàng)的類內(nèi)離散度DIic用來描述特征項(xiàng)在各類內(nèi)分布的均衡程度。在某類的樣本中該特征項(xiàng)出現(xiàn)次數(shù)越多,說明該特征項(xiàng)在該類中的分布比較均勻,則該特征項(xiàng)與此類別的關(guān)聯(lián)度較高。對于某特征項(xiàng)Tk,其類內(nèi)離散度定義為:
(3)
可見,特征項(xiàng)在某類中的分布越均勻,其對應(yīng)于該類的類內(nèi)離散度越低。反之在某類的樣本中出現(xiàn)次數(shù)較少即分布不均勻的特征項(xiàng)與該類別的關(guān)聯(lián)度較低,在該類中的類內(nèi)離散度較高。
2.1 特征項(xiàng)的分類能力與類內(nèi)離散度的關(guān)系
如果某特征項(xiàng)在正常類和釣魚網(wǎng)站類中的類內(nèi)離散度相同,即該特征項(xiàng)的類內(nèi)離散度差值為0,則該特征項(xiàng)在正常類和釣魚類中分布的均衡度相同,說明該特征項(xiàng)沒有分類能力。特征項(xiàng)的正常類和釣魚網(wǎng)站類中類內(nèi)離散度相差越大,即特征項(xiàng)在某類中分布越多越均衡,在另一類中分布越少越不均衡,即特征項(xiàng)在正常類與釣魚網(wǎng)站類中的分布均衡程度相差越大,表示該特征項(xiàng)有越強(qiáng)的分類能力。經(jīng)過以上分析可知特征項(xiàng)的分類能力與其類內(nèi)離散度的差值成反比。
2.2 釣魚網(wǎng)站檢測敏感特征項(xiàng)選取的性能分析
實(shí)驗(yàn)用測試集為D,由于本文是面向釣魚網(wǎng)站特征選擇的,測試集D中包含正常類和釣魚網(wǎng)站類兩類數(shù)據(jù),各類包含200個(gè)測試數(shù)據(jù)。實(shí)驗(yàn)選取6個(gè)布爾類型的特征項(xiàng){Ta1,Ta2,Ta3,Tb1,Tb2,Tb3},表1為六個(gè)特征項(xiàng)在兩類中的出現(xiàn)頻率,表2為利用傳統(tǒng)的信息增益算法計(jì)算的權(quán)值從大到小排列的特征項(xiàng)。
表1 特征項(xiàng)在兩類中出現(xiàn)的頻率
表2 信息增益計(jì)算的特征項(xiàng)權(quán)值(從大到小)
分析表1和表2可見,特征項(xiàng)Ta1在正常類中出現(xiàn)頻率為10%,但在釣魚類中沒有出現(xiàn)。Ta2在正常類中出現(xiàn)頻率是10%,但在釣魚類中出現(xiàn)頻率為30%。Ta3在正常類中出現(xiàn)頻率為45%,在釣魚類中出現(xiàn)頻率為20%。信息增益算法僅考慮了特征與所有類別之間的相關(guān)性認(rèn)為僅在正常類中出現(xiàn)的Ta1比在正常類和釣魚類中都出現(xiàn)的Ta2和Ta3更具有分類能力,但忽略了特征項(xiàng)在類內(nèi)分布的均衡程度的差異即特征項(xiàng)類內(nèi)離散度的差值。根據(jù)式(3)計(jì)算得知Ta2與Ta3的類內(nèi)離散度差值分別為0.20和0.25均大于Ta1類內(nèi)離散度差值0.10。同理,信息增益算法賦予Tb1更高的權(quán)值,但是Tb2和Tb3的類內(nèi)分布的均衡程度的差值均大于Tb1。
通過以上實(shí)驗(yàn)分析可得信息增益算法只考慮了特征項(xiàng)與類別之間的相關(guān)性,而忽略了特征項(xiàng)類內(nèi)分布的均衡程度的差異,即特征項(xiàng)的類內(nèi)離散度差值。如特征項(xiàng)僅在某一類別中出現(xiàn)較小次數(shù)在其他類別中均不出現(xiàn)或者僅在某一類別中不全部出現(xiàn)。但在其他類別中都全部出現(xiàn)時(shí),由于信息增益僅考慮了特征項(xiàng)與類別之間的相關(guān)性認(rèn)為僅在某一類別中出現(xiàn)或者僅在某類別中不出現(xiàn)的特征項(xiàng)具有更高的分類價(jià)值,這樣的特征性也許并不是我們所期望的結(jié)果。
3.1 算法的基本思想
針對上述不足,本文提出了一種綜合考慮特征項(xiàng)類內(nèi)分布均衡度的信息增益改進(jìn)算法IIGAIN。該算法對信息增益的改進(jìn)是面向釣魚網(wǎng)站敏感特征優(yōu)化選取的。釣魚網(wǎng)站檢測中的特征項(xiàng)全部為布爾類型,而且只含有正常網(wǎng)站和釣魚網(wǎng)站兩種類型,即分類目標(biāo)屬性也是布爾類型。
IIGAIN算法的基本思想如下:
1) 綜合考慮特征項(xiàng)類間不平衡度及類內(nèi)不平衡度都較高的情況,對某個(gè)特征項(xiàng)計(jì)算類內(nèi)離散度之前,先計(jì)算該特征項(xiàng)在所有類的樣本中值為true(即該特征性在某類中出現(xiàn))的數(shù)量和值為false(即該特征性在某類中不出現(xiàn))的數(shù)量。選取樣本中數(shù)量較少的布爾值為計(jì)算類內(nèi)離散度的基準(zhǔn)屬性設(shè)為變量bl,即該特征項(xiàng)的基準(zhǔn)屬性出現(xiàn)時(shí)表示該特征項(xiàng)在該類中出現(xiàn)。
2) 選取特征項(xiàng)的基準(zhǔn)屬性后,分別以此為基準(zhǔn)(用特征項(xiàng)的基準(zhǔn)屬性的出現(xiàn)來表示特征項(xiàng)的出現(xiàn))計(jì)算釣魚網(wǎng)站類的該特征項(xiàng)的類內(nèi)離散度及正常網(wǎng)站類的該特征項(xiàng)的類內(nèi)離散度。
3) 經(jīng)過1.3節(jié)分析已知特征項(xiàng)的分類能力與其類內(nèi)離散度的差值成正比。同時(shí)要綜合考慮訓(xùn)練集中正常類與釣魚網(wǎng)站類的數(shù)據(jù)的數(shù)量的差異對特征項(xiàng)分類能力的影響?;诖?,在此設(shè)定一個(gè)變量t表示特征項(xiàng)的類內(nèi)離散度的差值,為了便于后續(xù)運(yùn)算,我們將t歸一化到0~1之間。在歸一化過程中,將訓(xùn)練集中正常類與釣魚網(wǎng)站類數(shù)據(jù)數(shù)量的差異對特征項(xiàng)分類能力的影響做如下處理:設(shè)定變量n表示訓(xùn)練集中正常類數(shù)量,變量m表示訓(xùn)練集中釣魚網(wǎng)站類的數(shù)量,Dlic(C1,Tk)表示特征項(xiàng)Tk在釣魚網(wǎng)站類內(nèi)的離散度,Dlic(C2,Tk)表示特征項(xiàng)Tk在正常類內(nèi)的離散度,計(jì)算公式如下:
(4)
4) 已經(jīng)分析知特征項(xiàng)與類內(nèi)離散度差成反比,此處將特征項(xiàng)的類內(nèi)離散度差值t做相應(yīng)的數(shù)學(xué)處理,并以處理后的變量dl作為懲罰項(xiàng)改進(jìn)信息增益算法。計(jì)算公式如下:
(5)
IG′(Tk)=H(C)-dl×H(C|Tk)
(6)
3.2 算法流程
IIGAIN算法流程如下:
1) begin
2) if某特征項(xiàng)在所有類中值為true的數(shù)量大于false的數(shù)量
3) bl=false;
4) else
5) bl=true;
6) Dlic1=以bl為基準(zhǔn)的該特征項(xiàng)在正常網(wǎng)站類的類內(nèi)離散度;
Dlic2=以bl為基準(zhǔn)的該特征項(xiàng)在釣魚網(wǎng)站類的類內(nèi)離散度;
7) n=訓(xùn)練集中正常類數(shù)量;
m=訓(xùn)練集中釣魚網(wǎng)站類的數(shù)量;
IG′(Tk)=H(C)-dl*H(C|Tk)
9) return IG′(Tk)
10) End
3.3 改進(jìn)的信息增益算法IIGAIN與信息增益算法IG計(jì)算的值的對比分析
利用改進(jìn)的信息增益算法計(jì)算的2.2節(jié)中表1中的特征項(xiàng)的權(quán)值如表3所示。利用改進(jìn)的信息增益算法IIGAIN和信息增益算法IG計(jì)算表1中特征項(xiàng)的權(quán)值的對比結(jié)果如圖1所示。圖1中IIGAIN對Ta1賦予了比Ta2和Ta4更低的權(quán)值,對Tb1賦予了比Tb2和Tb3低的權(quán)值。雖然所有特征項(xiàng)的權(quán)值都有所增加,但我們在選取特征項(xiàng)時(shí)只參考特征項(xiàng)權(quán)值的排序。顯然IIGAIN能更好地根據(jù)分類能力的強(qiáng)弱賦予相應(yīng)的權(quán)值,能較準(zhǔn)確地表征特征項(xiàng)的分類能力,能夠較有效地改善傳統(tǒng)的信息增益算法。
表3 IIGAIN算法計(jì)算的特征項(xiàng)權(quán)值(從大到小)
圖1 IIGAIN計(jì)算的權(quán)值與IG計(jì)算的權(quán)值的對比表
4.1 常用的釣魚網(wǎng)站敏感特征項(xiàng)
本文綜合了釣魚網(wǎng)站檢測相關(guān)文獻(xiàn)[2-7]中所選用的敏感特征,共選取了18種敏感特征項(xiàng)作為釣魚網(wǎng)站的敏感特征。包括Web頁面form表單敏感特征、頁內(nèi)鏈接地址敏感特征、資源引用異常特征、javascript敏感特征、iframe敏感特征、icp和copyright敏感特征,URL地址敏感特征等,具體如表4所示。所有敏感特征的取值均為布爾類型,默認(rèn)所有特征為false,若表4中特征描述為真,則特征取值為true。
表4 實(shí)驗(yàn)選取的18種敏感特征項(xiàng)
續(xù)表4
特征1-4是Web頁面form表單的敏感特征,正常電商頁面form表單的 action 屬性應(yīng)該指向頁面文件所在的域內(nèi),并且這個(gè)域與頁面所聲稱的所有者所在的域一致。對于Phishing 頁面,存在較多數(shù)量form表單的action 屬性的指向異常,比如空指向,指向不一致的域,或者input標(biāo)簽中的name屬性包含password等敏感詞匯。如果Web頁面至少包含一個(gè)form表單,則特征1為true;如果Web頁面至少有一個(gè)form表單的action屬性為空指向,則特征2為true;如果Web頁面至少一個(gè)form表單指向不一致的域,則特征3為true;如果Web頁面至少一個(gè)form表單的input標(biāo)簽的name屬性包含敏感詞匯,則特征4為true。
特征5-6是Web頁面頁內(nèi)鏈接地址的敏感特征,正常電商頁面頁內(nèi)鏈接不會為空而且大部分鏈接對象所指向的域與其所在頁面的域一致,對于Phishing頁面存在較多異常,比如空鏈接或者鏈接對象所指向的域與其所在頁面的域一致。如果頁內(nèi)鏈接地址中至少有一個(gè)空鏈接,則特征5為true,提取所有鏈接地址的主域名(主域名即URL地址中可以代表網(wǎng)站身份的核心字符串如京東商城的主域名為“jd”);如果所有頁內(nèi)鏈接地址中出現(xiàn)頻率最高的主域名與URL中的主域名不同,即頁內(nèi)鏈接地址所在的域與頁面所在的域不一致則,特征6為true。
特征7-8是Web頁面引用資源敏感特征,正常頁面所引用的資源絕大部分來自頁面文件所在的域內(nèi),并且這個(gè)域與頁面所聲稱的所有者所在的域一致。而 Phishing頁面則存在相當(dāng)一部分資源的來源異常,比如與頁面文件不在同一個(gè)域內(nèi)或者引用資源地址為空等。如果引用資源的鏈接地址中至少包含一個(gè)空鏈接,則特征7為true;如果所有引用資源地址中出現(xiàn)頻率最高的主域名與URL中的主域名不一致,即引用資源地址所在的域與頁面所在的域不一致,則特征8為true。
特征9-10是Web頁面javascript敏感特征,通過對PhishTank.com中大量的釣魚網(wǎng)站進(jìn)行分析發(fā)現(xiàn)釣魚網(wǎng)站為了進(jìn)行欺詐。通常會添加異常的javascript函數(shù)并轉(zhuǎn)化為unicode字符或者引用與頁面所聲稱的所有者所在的域不一致的javascript文件,而正常網(wǎng)站不會刻意將javascript轉(zhuǎn)換為unicode字符也不會引用與頁面所聲稱的所有者所在的域不一致的javascript文件。如果Web頁面引用與頁面所聲稱的所有者所在的域不一致的javascript文件,則特征9為true;如果javascript中包含至少一個(gè)unicode字符,則特征10為true。
特征11-12是Web頁面iframe敏感特征,正常頁面iframe的src屬性中的鏈接地址的域與頁面所聲稱的所有者所在的域一致。而 Phishing頁面經(jīng)常存在iframe的src屬性中的鏈接地址的域與頁面所聲稱的所有者所在的域不一致。如果Web頁面包含至少一個(gè)iframe,則特征11為true;如果至少一個(gè)iframe中src中的鏈接地址的域與頁面所聲稱的所有者所在的域不一致,則特征12為true。
特征13-14是Web頁面icp和copyright敏感特征,正常電商網(wǎng)站W(wǎng)eb頁面會有合法的icp和copyright,而Phishing頁面icp和copyright會有異常。
特征15-18是URL地址敏感特征,正常網(wǎng)站的URL往往不會將服務(wù)器的IP地址直接顯示出來,點(diǎn)分個(gè)數(shù)多為2或者3,而且不會存在@字符和unicode字符。Phshing的URL存在較多異常,比如 http://www.boc.cn.1boc.com.cn/index.html 的URL 就是典型的二級域名欺騙釣魚網(wǎng)站網(wǎng)址,因此如果點(diǎn)分個(gè)數(shù)超過4就很有可能是二級域名欺騙則特征15為true。
4.2 基于IIGAIN的釣魚網(wǎng)站敏感特征項(xiàng)選取
本文的實(shí)驗(yàn)數(shù)據(jù)分為兩部分:正常網(wǎng)站站點(diǎn)和釣魚網(wǎng)站站點(diǎn)。釣魚網(wǎng)站站點(diǎn)取自2014年3月10日—2014年3月14日間PhishTank.com中的釣魚網(wǎng)站URL,選取并確認(rèn)其中200個(gè)URL地址作為實(shí)驗(yàn)用例。正常網(wǎng)站站點(diǎn)實(shí)驗(yàn)用例為收集并確認(rèn)的200個(gè)合法站點(diǎn)。在這兩類站點(diǎn)中,分別隨機(jī)選取100個(gè)作為訓(xùn)練樣本,另外100個(gè)作為測試樣本。
首先利用htmlparser爬取實(shí)驗(yàn)用例中的URL地址的網(wǎng)頁,然后利用釣魚網(wǎng)站異常特征提取算法提取每一種特征項(xiàng),將特征項(xiàng)全部設(shè)置為布爾類型。然后利用信息增益改進(jìn)算法IIGAIN計(jì)算每個(gè)特征項(xiàng)的信息增益,如表5所示。為了驗(yàn)證用IIGAIN優(yōu)化選取的特征更具有分類能力,本文將所有的特征項(xiàng)根據(jù)IIGAIN的大小分為優(yōu)(BEST)、中(MEDIAN)、差(WORST)及模擬傳統(tǒng)釣魚網(wǎng)站檢測方法的隨機(jī)選取兩組敏感特征項(xiàng)(RANDOM1,RANDOM2)共五類,如表6所示。其中每類選取十個(gè)特征項(xiàng),BEST類選取IIGAIN排名前十位的特征項(xiàng),MEDIAN類選取IIGAIN排名在中間的十個(gè)特征項(xiàng),WORST類選取IIGAIN排名后十位的特征項(xiàng),RANDOM1和RANDOM2任意選取排名前9位的5個(gè)特征項(xiàng)及排名后9位的5個(gè)特征項(xiàng)。對五組特征項(xiàng)分別利用LibSVM機(jī)器學(xué)習(xí)算法進(jìn)行分類識別。
表5 IIGAIN計(jì)算的所有特征項(xiàng)的權(quán)值的排序(由大到小)
續(xù)表5
表6 五種方法選擇的用于釣魚網(wǎng)站檢測的敏感特征項(xiàng)
4.3 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)結(jié)果如圖2所示,實(shí)驗(yàn)表明利用BEST特征項(xiàng)集合進(jìn)行分類識別的準(zhǔn)確率是94.87%,為五類特征項(xiàng)集合中最高的;利用MEDIAN特征項(xiàng)集合進(jìn)行分類識別的準(zhǔn)確率是64.10%;利用WORSE特征項(xiàng)集合進(jìn)行分類識別的準(zhǔn)確率是48.72%;模擬傳統(tǒng)釣魚網(wǎng)站檢測方法的隨機(jī)選取特征項(xiàng)集合進(jìn)行分類識別的RANDOM1準(zhǔn)確率是84.10%,低于BEST特征項(xiàng)集合給出的分類準(zhǔn)確率;RANDOM2的分類準(zhǔn)確率為60.32%,低于BEST特征項(xiàng)集合的準(zhǔn)確率。很顯然經(jīng)過IIGAIN優(yōu)化選取的最優(yōu)的特征項(xiàng)集合比傳統(tǒng)的隨機(jī)選取特征項(xiàng)的方法有更好的分類能力,利用IIGAIN進(jìn)行特征項(xiàng)選取的釣魚網(wǎng)站檢測方法具有較高的準(zhǔn)確性。
圖2 五類特征項(xiàng)集合的檢測準(zhǔn)確性
為了實(shí)現(xiàn)特征項(xiàng)的優(yōu)化選擇,本文引入了信息論中的信息增益算法并且對其進(jìn)行改進(jìn),提出了一種綜合考慮特征項(xiàng)類間及類內(nèi)分布均衡度的信息增益算法IIGAIN,將其應(yīng)用到釣魚網(wǎng)站敏感特征項(xiàng)選取中。實(shí)驗(yàn)結(jié)果表明,經(jīng)過IIGAIN優(yōu)化選取的特征項(xiàng)具有更好的分類能力,利用IIGAIN的釣魚網(wǎng)站檢測方法彌補(bǔ)了傳統(tǒng)的釣魚網(wǎng)站檢測方法中隨機(jī)選取敏感特征項(xiàng)的不足,具有更好的檢測準(zhǔn)確性。同時(shí),本文提出的改進(jìn)的信息增益算法IIGAIN還可以應(yīng)用到文本分類等相關(guān)領(lǐng)域。
[1] 趙躍華,胡向濤.網(wǎng)絡(luò)釣魚攻擊的防御技術(shù)及防御框架的設(shè)計(jì)[J].計(jì)算計(jì)應(yīng)用研究,2013,30(6):1863-1866.
[2] 黃華軍,錢亮,王耀鈞.基于異常特征的釣魚網(wǎng)站URL檢測技術(shù)[J].信息網(wǎng)絡(luò)安全,2012(1):23-25.
[3] 高輝,鄒福泰,譚大禮,等.基于SVM主動學(xué)習(xí)算法的網(wǎng)絡(luò)釣魚檢測系統(tǒng)[J].計(jì)算機(jī)工程,2011,37(19):126-128.
[4] 宋秋明,曹曉蕓.基于敏感特征的網(wǎng)絡(luò)釣魚網(wǎng)站檢測方法[D].大連:大連理工大學(xué),2013.
[5] 王婷,彭冰.基于REF-SVM的釣魚網(wǎng)頁識別技術(shù)的研究[D].武漢:華中科技大學(xué),2012.
[6] 張立國,李忠獻(xiàn).網(wǎng)絡(luò)釣魚檢測引擎的分析與設(shè)計(jì)[D].北京:北京郵電大學(xué),2012.
[7] 吳朝花,郭燕慧.基于Android平臺的網(wǎng)絡(luò)釣魚識別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2012.
[8] 李學(xué)明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF算法[J].計(jì)算機(jī)工程,2012,38(8):37-40.
[9] 徐鳳亞,羅振聲.文本自動分類中特征權(quán)重算法的改進(jìn)研究[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(1):181-183.
IIGAIN ALGORITHM ORIENTED TO FISHING WEBSITES SENSITIVE FEATURE ITEMS SELECTION
Wang Yan Wang Xingfen Ren Junling
(SchoolofComputing,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)
Traditional detection technique for fishing websites mainly employs the means of random or empirical sensitive feature items selection in detection, it cannot guarantee the detection accuracy. Therefore, in this paper we propose an improved information gain algorithm (IIGAIN) which is oriented to fishing website sensitive feature items selection. The algorithm comprehensively considers the within-class dispersion of feature items, by processing correspondingly the difference of within-class dispersion of feature items, it uses the result obtained after processing as the penalty item to improve the information gain algorithm. Experimental result shows that the fishing websites detection method using IIGAIN for feature items selection has conspicuous superiority in accuracy of detection than the fishing websites detection method based on random feature item selection algorithm.
Fishing websites detection Sensitivity feature item Information gain Within-class dispersion
2014-09-07。北京市教委科技重點(diǎn)項(xiàng)目(KZ20141123 2036)。王燕,碩士生,主研領(lǐng)域:網(wǎng)絡(luò)安全。王興芬,教授。任俊玲,副教授。
TP3
A
10.3969/j.issn.1000-386x.2016.04.069