陳俊穎 周順風 閔華清
(華南理工大學 軟件學院∥廣州市機器人軟件及復雜信息處理重點實驗室, 廣東 廣州 510006)
用于垃圾郵件識別的“詞頻-篩”混合特征選擇方法*
陳俊穎 周順風 閔華清
(華南理工大學 軟件學院∥廣州市機器人軟件及復雜信息處理重點實驗室, 廣東 廣州 510006)
文中針對當下愈發(fā)泛濫的垃圾郵件,分別使用樸素貝葉斯分類和支持向量機分類法對當前日益泛濫的垃圾郵件進行識別、分類,將“詞頻-篩”混合特征選擇方法應用于分類器模型中,以提高分類器的識別性能.同時,通過考慮更全面的分類概率情況,改進樸素貝葉斯分類模型,進一步提升樸素貝葉斯分類器的識別性能.最后通過實驗得到了該垃圾郵件識別系統(tǒng)的準確率、召回率和F1值等分類識別性能指標.實驗結果表明,“詞頻-篩”混合特征選擇方法能有效提高垃圾郵件分類器的識別性能,而且使用成本敏感方法的分類輸出調(diào)節(jié)模塊也能大大降低分類器將正常郵件誤判為垃圾郵件的概率,因此,文中設計的垃圾郵件識別系統(tǒng)具有較強的實用性,可以在實際工作、生活中使用.
垃圾郵件識別;混合特征選擇方法;樸素貝葉斯;支持向量機
截至2015年12月,中國網(wǎng)民數(shù)量已達 6.88億[1].互聯(lián)網(wǎng)服務滲透進人們?nèi)粘I畹姆椒矫婷?,其中電子郵件作為當前主流的一種通訊方式,是人們進行日常工作和生活交流的重要渠道.但近年來垃圾郵件的愈發(fā)泛濫給人們的工作和生活帶來不良影響,也對社會經(jīng)濟造成巨大損失,因此改進垃圾郵件識別方法具有現(xiàn)實意義.
垃圾郵件識別的通用模式是:收集充分的垃圾郵件數(shù)據(jù),通過機器學習的方法基于垃圾郵件數(shù)據(jù)集訓練出智能垃圾郵件分類器[2- 3],然后使用該智能分類器對新郵件進行識別分類.其中,智能分類器所使用的典型分類模型有:樸素貝葉斯分類[4]、支持向量機分類[5]、Boosting分類[6]、k近鄰分類[7]和決策樹分類[8]等等.
文中對垃圾郵件識別的特征選擇方法[9]進行優(yōu)化,提出“詞頻-篩”混合特征選擇方法,該方法混合多種郵件特征應用于分類模型中.此外,還對樸素貝葉斯分類模型進行優(yōu)化,考慮更全面的分類概率情況.最后針對不同郵件數(shù)據(jù)集進行多種相關實驗,驗證了“詞頻-篩”混合特征選擇方法對垃圾郵件識別性能的改進,測試了不同的分類模型和成本敏感方法對分類器識別性能的影響.
1.1 系統(tǒng)概述
本研究的垃圾郵件識別分類系統(tǒng)模塊結構如圖1所示.
由圖1可以看出,待分類識別的郵件首先經(jīng)過郵件預處理模塊,將郵件轉(zhuǎn)化為文本信息,對中英文做分詞處理,并且將數(shù)據(jù)轉(zhuǎn)換為空間向量模型.接著,進入特征選擇模塊.在這個模塊中,為了減少系統(tǒng)分類識別的運算時間和去除部分噪聲,在待分類郵件的全部特征中選擇合適的特征, 組成特征子集作為郵件分類器的特征集合.然后,針對選定特征集合,在郵件分類器模塊對郵件進行分類識別.最后,采用成本敏感方法對郵件分類器的輸出結果進行調(diào)節(jié),降低分類器將正常郵件誤判為垃圾郵件的概率,從而得到最終的郵件分類結果.
其中,郵件分類器模型是通過機器學習的方法訓練獲得的.在分類器訓練過程中,使用降維后的郵件分類訓練數(shù)據(jù)集,通過機器學習的相關分類識別算法訓練得到一個垃圾郵件分類器,用于待分類郵件的分類識別.
圖1 垃圾郵件識別分類系統(tǒng)模塊結構圖
Fig.1 Modular structure diagram of spam identification system
1.2 郵件預處理模塊
郵件一般分為主題、正文、圖片和附件,主題和正文可認為均是文本.文本內(nèi)容需轉(zhuǎn)化為空間向量模型[10].其中,空間向量的權重計算方法一般有詞頻、文檔頻率和詞頻-逆向文檔頻率[11].使用空間向量模型可以很方便地記錄文本信息,便于后期使用機器學習方法進行郵件識別分類.
不同于英文文本有著天然的分詞結構,在將中文文本轉(zhuǎn)化為空間向量模型時,必須對其進行分詞處理[12].目前中文文本的分詞方法有詞典匹配法和字標注法.可參考的中文自動分詞開源項目有:friso中文分詞、Ansj分詞、盤古分詞和結巴分詞等.
1.3 特征選擇模塊
當郵件數(shù)量巨大時,郵件的總特征集合將會過大,這將導致郵件分類器訓練和分類的時間過長,并且將引入過多噪聲.因此有必要進行特征降維[13].文中采用特征選擇的方法來實現(xiàn)特征降維.文本分類中常用的特征選擇方法有詞頻、信息增益[14]、互信息[15]、卡方檢測[16]等.
這些傳統(tǒng)的特征選擇算法在分類器的分類識別性能上有著類似的表現(xiàn),因此文中提出混合特征選擇方法——詞頻-篩,綜合上述特征選擇方法的優(yōu)點,提升垃圾郵件分類器的分類識別性能.
1.4 郵件分類器模塊
1.4.1 基于樸素貝葉斯的分類器
文中討論的樸素貝葉斯分類器模型有:二項獨立模型[17]和多項式模型[18].
在二項獨立模型中,假設郵件文檔d包含特征單詞w1,w2,…,wn,組成特征集wd,分類訓練數(shù)據(jù)集中所有郵件文檔的特征單詞集合構成總特征集W(特征總數(shù)為N),在總特征集W中隨機抽取出特征wk(1≤k≤N),如果特征wk在郵件文檔d中出現(xiàn),稱wk∈wd,則郵件文檔d屬于郵件類別Ci(i=1,2;分別代表正常郵件類別和垃圾郵件類別)的概率如下:
(1)
二項獨立模型僅統(tǒng)計一個特征單詞是否在文檔中出現(xiàn);而多項式模型在二項獨立模型的基礎上將單詞出現(xiàn)的頻數(shù)也納入考量.如果特征wk在郵件文檔d中出現(xiàn)f次,則郵件文檔d屬于郵件類別Ci的概率如下:
(2)
1.4.2 基于支持向量機的分類器
支持向量機算法中,對于選定的n個特征,將每個樣本數(shù)據(jù)視為一個n維空間里的向量,向量在每個維度上的值由權重計算方法確定.權重計算方法一般有布爾權重、詞頻權重和詞頻-逆向文檔頻率權重等.
在準備好樣本數(shù)據(jù)集后,將訓練數(shù)據(jù)集和訓練參數(shù)(包括支持向量機的松弛變量、高斯核函數(shù)的寬度參數(shù)等)加載進支持向量機中,訓練完成后即得到對應的垃圾郵件分類器.在保證準確度的前提下,為了減少分類器訓練時間,隨機從數(shù)據(jù)集中選擇部分樣本,將支持向量機的松弛變量和高斯核函數(shù)的寬度參數(shù)按照一定的步長進行調(diào)整,最終選擇可以使分類器泛化錯誤率最小的松弛變量和寬度參數(shù)作為訓練數(shù)據(jù)集的最終參數(shù).
1.5 分類輸出閾值調(diào)節(jié)模塊
在垃圾郵件的分類識別中,將一封正常郵件識別為垃圾郵件導致的損失較大,可以通過成本敏感[19]方法降低分類識別決策的成本.成本敏感方法通過求解最大收益的方式來調(diào)整分類識別決策:假設當前判定郵件A是垃圾郵件的概率為PA,誤判垃圾郵件的損失為x,誤判正常郵件的損失為y,正確判定郵件的收益為z,那么將郵件A識別為垃圾郵件產(chǎn)生的總收益為
cs=PAz-(1-PA)y
(3)
而將郵件A識別為正常郵件的總收益為
cn=(1-PA)z-PAx
(4)
當且僅當
(5)
判定為正常郵件的收益較大.由于不等式右側的x、y、z均為常數(shù),因此令不等式右側分數(shù)等于常數(shù)值H,這就是將郵件判定為正常郵件的臨界閾值條件.針對不同數(shù)據(jù)集設定不同的閾值H,以平衡分類器的準確率和召回率,降低分類器的決策成本.
2.1 混合特征選擇方法
文中的特征選擇模塊采用了混合特征選擇方法.常用的特征選擇方法有:詞頻、信息增益、互信息、卡方檢測等.詞頻法是指統(tǒng)計每個特征詞出現(xiàn)的頻率,設定合理的閾值過濾掉部分高頻詞和低頻詞.類似于“我”、“這個”和“是”這樣的高頻詞對分類決策基本沒有影響,過濾后可減少訓練和分類的時間;而低頻詞則多為噪聲,過濾后可提高分類的準確性.信息增益是指按照信息熵的原則,將所有的詞按照對分類后熵的影響大小排序,選擇增益較大的詞,即對分類影響較大的詞作為特征子集.互信息用于測定兩個隨機變量間的相關性,統(tǒng)計特征單詞與各個類別的互信息后取加權平均值.卡方檢測是統(tǒng)計學中計算隨機變量間相關性的常用方法之一,它同時考慮了特征存在和不存在的兩種情況.
在上述常用特征選擇方法的基礎上,文中提出一種新的混合特征選擇方法:詞頻-篩.該方法首先將所有特征單詞按照詞頻排序,依次選擇詞頻序列中的每個單詞,如果該詞出現(xiàn)在某個作為“篩”(篩選)用途的特征選擇算法的特征詞排序的第m位之后,那么過濾掉該詞,否則就將該詞作為特征子集保留;繼續(xù)選擇詞頻序列里的下一個特征詞,進行同樣的篩選.m一般可以取總特征數(shù)的40%、50%或60%,根據(jù)實際數(shù)據(jù)集來確定.作為“篩”的特征選擇算法可以使用信息增益、互信息和卡方檢測等方法.混合特征選擇方法首先考慮了高頻詞的分類能力,而后將分類能力弱的高頻詞過濾,綜合了詞頻法和其他特征選擇算法的優(yōu)點.
混合特征選擇方法的優(yōu)勢在于:智能地去除了詞頻法中對分類無實際作用或者有反作用的高頻詞,而在運算上只增加了一次按照特征選擇方法將特征排序的過程,該方法可以讓分類器獲得穩(wěn)定的識別性能提升.
2.2 樸素貝葉斯分類算法優(yōu)化
文中在樸素貝葉斯二項獨立模型中,在考慮式(1)的前提下,同時考慮文檔d中未出現(xiàn)特征wk的情況,則文檔d屬于類別Ci的概率如下:
(6)
(7)
根據(jù)樸素貝葉斯分類算法,判斷文檔d的類別q為某個類型Q,當且僅當d的判斷條件B(d)為
(8)
同樣地,在多項式模型中也同時考慮文檔d中未出現(xiàn)特征wk的情況,則文檔d屬于類別Ci的概率如下:
(9)
通過計算等比數(shù)列的和,式(9)簡化為
(10)
根據(jù)樸素貝葉斯分類算法,判斷文檔d的類別q為某個類型Q,當且僅當d的判斷條件B(d)為
(11)
式中, fj表示wj出現(xiàn)的次數(shù).
以上對樸素貝葉斯分類模型進行的優(yōu)化,考慮了更全面的分類概率情況,可以提高分類模型的識別準確性.
3.1 實驗環(huán)境和實驗評價指標
文中所有實驗代碼均使用Python程序設計語言編寫,實驗中對任意選擇后的數(shù)據(jù)集均進行十折交叉驗證[20],實驗結果取10次測試結果的平均值.
文中使用的數(shù)據(jù)集有:筆者收集的垃圾郵件數(shù)據(jù)集(數(shù)據(jù)集1)和TREC2007(國際文本信息檢索會議TextRetrievalConference2007)垃圾郵件數(shù)據(jù)集(數(shù)據(jù)集2).數(shù)據(jù)集1的郵件文檔數(shù)據(jù)來自于筆者的郵箱,共計811封郵件,包括490封垃圾郵件和321封非垃圾郵件;該數(shù)據(jù)集將主要用于評價垃圾郵件識別算法的實用性和泛化能力.數(shù)據(jù)集郵件均去除了附件,保留了主題、發(fā)件人、正文及附件文件名等信息.
垃圾郵件識別性能的評價指標有:準確率、召回率和F1測試值等[21].按照垃圾郵件分類器對郵件的預測,定義a表示預測實際非垃圾郵件為非垃圾郵件的數(shù)量、b表示預測實際垃圾郵件為非垃圾郵件的數(shù)量、c表示預測實際非垃圾郵件為垃圾郵件的數(shù)量、d表示預測實際垃圾郵件為垃圾郵件的數(shù)量.
此外,定義準確率(p)為
(12)
定義召回率(R)為
(13)
則F1測試值定義為
(14)
F1測試值綜合考慮識別算法的查準和查全的能力;同時,由于需要減少誤判的概率,即要求召回率盡量大,因此文中將準確率、召回率和F1值作為分類識別性能的主要評價指標.
3.2 混合特征選擇方法對識別性能的影響
3.2.1 對樸素貝葉斯分類器識別性能的影響
為了完整測試各個特征選擇算法對樸素貝葉斯分類器識別性能優(yōu)化的幅度,在數(shù)據(jù)集1上,依次使用詞頻法、信息增益法、互信息法、卡方檢測法和3種混合特征選擇方法.混合特征選擇方法Ⅰ、Ⅱ、Ⅲ分別使用了信息增益、互信息和卡方檢測等“篩”排序前50%的特征詞中,詞頻排序前1 200、700和1 300的特征詞.
應用上述特征選擇方法選擇對應的最優(yōu)特征集作為特征子集后,使用基于多項式模型的樸素貝葉斯分類模型對數(shù)據(jù)集進行識別分類,分類識別性能見表1.
表1 使用不同特征選擇方法的樸素貝葉斯分類器(多項式模型)對數(shù)據(jù)集1的識別性能
Table 1 Identification performance of naive Bayes classifier (using polynomial model) with different feature selection methods applied to dataset 1
征選擇方法p/%R/%F1/%詞頻(前400特征詞)97.2897.0497.16信息增益(前1500特征詞)96.9295.1996.05互信息(前100特征詞)74.5499.2285.13卡方檢測(前400特征詞)93.7592.4295.74混合特征選擇方法I99.6796.8698.24混合特征選擇方法II98.7096.1097.38混合特征選擇方法III98.2695.0596.63
從表1可以看出,基于互信息的特征選擇方法雖然召回率最優(yōu),但準確率過低,影響實際使用;而混合特征選擇方法I則在F1值評價指標中優(yōu)于其他特征選擇方法.
3.2.2 對支持向量機分類器識別性能的影響
文中分別使用不同的特征選擇方法,選擇對應最優(yōu)的前3 000個特征作為特征子集,使用基于布爾權重的支持向量機對數(shù)據(jù)集1進行識別分類,分類器識別性能見表2.
表2 使用不同特征選擇方法的支持向量機分類器(布爾權重)對數(shù)據(jù)集1的識別性能
Table 2 Identification performance of support vector machine classifier (using Bool weighting) with different feature selection methods applied to dataset 1
特征選擇方法p/%R/%F1/%詞頻98.7998.0198.40信息增益98.5897.2297.89互信息96.5493.7495.12卡方檢測98.6198.2498.42混合特征選擇方法I98.3597.7498.05混合特征選擇方法II97.5695.5296.53混合特征選擇方法III98.1897.6597.92
這里選擇3 000特征詞是為了保證分類器的運算效率.混合特征選擇方法I、II、III分別使用信息增益、互信息和卡方檢測作為“篩”算法,選擇特征數(shù)量同樣為3 000.
從表2中可以得出,在支持向量機分類器中,使用詞頻法和卡方檢測法作為特征選擇方法可以使分類器獲得很接近的分類識別性能,所以一般情況下直接統(tǒng)計詞頻,選擇部分高詞頻詞作為特征子集即可獲得良好的分類識別性能.值得注意的是,在支持向量機這樣的線性分類器中,使用混合特征選擇方法并沒有達到更好的效果,整體分類識別性能與非混合型傳統(tǒng)特征選擇方法相近.
此外,綜合對比表1,可以發(fā)現(xiàn)針對不同的特征選擇方法,支持向量機分類器的識別性能跟樸素貝葉斯分類器的識別性能相比,相對平穩(wěn).然而樸素貝葉斯分類器的優(yōu)勢是實現(xiàn)簡單,增量更新方便,更易在現(xiàn)實應用場景中使用.
3.3 分類模型對識別系統(tǒng)性能的影響
除了測試驗證不同特征選擇方法對樸素貝葉斯分類器和支持向量機分類器識別性能的影響外,文中還測試不同分類模型對樸素貝葉斯分類器和支持向量機分類器的識別性能影響.
3.3.1 概率模型對樸素貝葉斯分類器識別性能的影響
針對數(shù)據(jù)集1和數(shù)據(jù)集2,分別使用二項獨立模型和多項式模型測試樸素貝葉斯分類器相應的準確率、召回率和F1測試值.
數(shù)據(jù)集1中的郵件絕大多數(shù)為中文郵件,從垃圾郵件和非垃圾郵件中各選取300封郵件作為數(shù)據(jù)集.上述600封郵件的總特征數(shù)約為30 000,選擇詞頻由高到低處于第101位到1 000位的詞作為特征子集.測試結果為:使用二項獨立模型計算得出的準確率、召回率和F1值分別為95.27%、96.41%和95.77%;而使用多項式模型計算得出的準確率、召回率和F1值分別為97.07%、97.35%和97.16%.
使用同樣的方法,在數(shù)據(jù)集2上進行測試.由于郵件樣本數(shù)量巨大,因而隨機選擇400封垃圾郵件和400封非垃圾郵件作為郵件數(shù)據(jù)集;另外,選擇詞頻排名前1 000的詞作為特征子集.測試結果為:使用二項獨立模型計算得出的準確率、召回率和F1值分別為98.71%、93.93%和96.22%;而使用多項式模型計算得出的準確率、召回率和F1值分別為96.77%、97.45%和97.07%.
通過上述測試結果可以看到,多項式模型針對不同數(shù)據(jù)集在各項評測指標中相較于二項獨立模型均更優(yōu).原因是多項式模型中包含了詞頻數(shù)據(jù),使分類器獲得更多有效信息.
3.3.2 權重模型對支持向量機分類器識別性能的影響
文中在數(shù)據(jù)集1和數(shù)據(jù)集2上,分別采用布爾權重、詞頻權重作為權重模型,使用詞頻特征選擇法測試支持向量機分類器相應的準確率、召回率和F1測試值,實驗測試結果如下:在數(shù)據(jù)集1上,使用布爾權重計算得出的準確率、召回率和F1值分別為97.82%、97.23%和97.50%;使用詞頻權重計算得出的準確率、召回率和F1值分別為98.15%、90.89%和94.29%.在數(shù)據(jù)集2上,使用布爾權重計算得出的準確率、召回率和F1值分別為99.03%、99.02%和99.01%;使用詞頻權重計算得出的準確率、召回率和F1值分別為98.17%、86.53%和91.85%.
從上述測試結果可以發(fā)現(xiàn),使用布爾權重的支持向量機分類器的分類識別性能要優(yōu)于使用詞頻權重的支持向量機分類器,而且在統(tǒng)計數(shù)據(jù)上也更為簡單.
3.4 閾值調(diào)節(jié)對識別性能的影響
使用成本敏感方法對分類器輸出結果進行閾值調(diào)節(jié),測試分類器的識別性能.在數(shù)據(jù)集1上使用基于詞頻概率模型的樸素貝葉斯分類模型,選擇詞頻由高到低處于第101位到1 000位的詞作為特征子集,依次測試調(diào)節(jié)閾值后的分類器各項識別性能指標,實驗結果見表3.
表3 基于成本敏感方法調(diào)節(jié)的樸素貝葉斯分類器對數(shù)據(jù)集1的識別性能
Table 3 Identification performance of cost-sensitive adjustment method-based Bayes classifier applied to dataset 1
閾值設定p/%R/%F1/%097.0797.3597.161093.6297.9295.642094.1398.6296.253093.1998.6895.79
從表3可以看出,樸素貝葉斯分類器的召回率隨著分類閾值的提高而穩(wěn)步上升,同時F1值有下降的趨勢.
文中設計了一個垃圾郵件識別系統(tǒng),對垃圾郵件識別系統(tǒng)的各個模塊都進行了詳細的描述說明.在傳統(tǒng)特征選擇方法和樸素貝葉斯分類模型上,都進行了相應的優(yōu)化:采用“詞頻-篩”混合特征選擇方法,綜合了詞頻法和其他特征選擇算法的優(yōu)點,以使分類器獲得穩(wěn)定的分類識別性能提升;考慮更全面的分類概率情況,改進樸素貝葉斯分類模型,提高了樸素貝葉斯分類器的識別性能.實驗數(shù)據(jù)集1的測試結果表明,將文中所述的分類方法運用到實際生活中時,能提高垃圾郵件判斷的準確性和可靠性,具有較強的實用性價值.
文中設計了多個實驗,測試驗證不同的特征選擇方法、不同的分類模型和成本敏感閾值調(diào)節(jié)方法對垃圾郵件識別系統(tǒng)的召回率和F1值等分類識別性能指標的影響,得到有實踐意義的實驗結果數(shù)據(jù).基于文中的實驗結果分析,可以得出以下結論:
(1)使用了“詞頻-篩”混合特征選擇方法的樸素貝葉斯分類器的分類效果要優(yōu)于不使用混合特征選擇方法的樸素貝葉斯分類器.
(2)支持向量機分類器的效果一般情況下優(yōu)于使用了“詞頻-篩”混合特征選擇方法的樸素貝葉斯分類器,但樸素貝葉斯分類器可以通過閾值調(diào)節(jié)等方法改進自身的召回率,并且支持訓練數(shù)據(jù)集的增量更新,從而取得更好的效果.
(3)“詞頻-篩”混合特征選擇方法在支持向量機分類器中的應用效果不如在樸素貝葉斯分類器中的應用效果好,這是后續(xù)研究工作中要著重研究解決的問題.
因此,未來的工作將在支持向量機分類器中探索更適合的混合特征選擇方法.
[1] 中國互聯(lián)網(wǎng)絡信息中心.中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告 [DB/OL].(2016- 01- 22)[2016- 01- 30].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201601/t20160122_53271.htm.
[2] GUZELLA T S,CAMINHAS W M.A review of machine learning approaches to Spam filtering [J].Expert Systems with Applications,2009,36(7):10206- 10222.
[3] JACKOWSKI K,KRAWCZYK B,WOZNIAK M.Application of adaptive splitting and selection classifier to the spam filtering problem [J].Cybernetics and Systems,2013,44(6/7):569- 588.
[4] ZHANG L,JIANG L,LI C.A new feature selection approach to naive Bayes text classifiers [J].International Journal of Pattern Recognition and Artificial Intelligence,2016,30(2):1650003.
[5] IOSIFIDIS A,GABBOUJ M.Multi- class support vector machine classifiers using intrinsic and penalty graphs [J].Pattern Recognition,2016,55:231- 46.
[6] REN D,QU F,LV K,et al.A gradient descent boosting spectrum modeling method based on back interval partial least squares [J].Neurocomputing,2016,171:1038- 1046.
[7] HU J,LI Y,YAN W- X,et al.KNN- based dynamic query- driven sample rescaling strategy for class imbalance learning [J].Neurocomputing,2016,191:363- 373.
[8] MA L,DESTERCKE S,WANG Y.Online active learning of decision trees with evidential data [J].Pattern Recognition,2016,52:33- 45.
[9] GUYON I,ELISSEEFF A.An introduction to variable and feature selection [J].Journal of Machine Learning Research,2003,3:1157- 1182.
[10] TURNEY P D,PANTEL P.From frequency to meaning:vector space models of semantics [J].Journal of Artificial Intelligence Research,2010,37(1):141- 188.
[11] AIZAWA A.An information-theoretic perspective of tf-idf measures [J].Information Processing & Management,2003,39(1):45- 65.
[12] Gao J F,Li M,Wu A,et al.Chinese word segmentation and named entity recognition:a pragmatic approach [J].Computational Linguistics,2005,31(4):531- 574.
[13] GUYON I,ELISSEEFF A.An introduction to feature extraction [M]∥Guyon I,Gunn S,Nikravesh M,Zadeh L A.Feature extraction:foundations and applications.New York:Springer,2006:1- 24.
[14] 任永功,楊榮杰,尹明飛,等.基于信息增益的文本特征選擇方法 [J].計算機科學,2012,39(11):127- 130. REN Yong-gong,YANG Rong-jie,YIN Ming-fei,et al.Information-gain-based text feature selection method [J].Computer Science,2012,39(11):127- 130.
[15] 婁錚錚,葉陽東.基于最大化交叉互信息的對稱IB算法[J].計算機學報,2016,39(8):1- 15. LOU Zheng-zheng,YE Yang-dong.Symmetric information bottleneck based on maximization inter-correlated mutual information [J].Chinese Journal of Computers,2016,39(8):1- 15.
[16] 丁海勇,史文中.利用卡方分布改進N-FINDR端元提取算法 [J].遙感學報,2013,17(1):122- 137. DING Hai-yong,SHI Wen-zhong.Fast N-FINDR algorithm for endmember extraction based on chi- square distribution [J].Journal of Remote Sensing,2013,17(1):122- 137.
[17] OJALA T,PIETIKAINEN M,MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971- 987.
[18] TOH K A,YAU W Y,JIANG X.A reduced multivariate polynomial model for multimodal biometrics and classifiers fusion [J].IEEE Transactions on Circuits and Systems for Video Technology,2004,14(2):224- 233.
[19] 凌曉峰,Sheng Victor S.代價敏感分類器的比較研究[J].計算機學報,2007,30(8):1203- 1212. LING Charles X,SHENG Victor S.A comparative study of cost- sensitive classifiers [J].Chinese Journal of Computers,2007,30(8):1203- 1212.
[20] KOHAVI R.A study of cross-validation and bootstrap for accuracy estimation and model selection [C]∥Proceedings of 14th International Joint Conference on Artificial Intelligence.Montreal:Morgan Kaufmann,1995:1137- 1143.
[21] TANTUG A C N,ERYIGIT G L.Performance analysis of Naive Bayes classification,support vector machines and neural networks for spam categorization [C]∥Proceedings of Advances in Soft Computing.Berlin:Springer,2006:495- 504.
“Word Frequency- Filtering”Hybrid Feature Selection Method Applied to Spam Identification
CHENJun-yingZHOUShun-fengMINHua-qing
(School of Software Engineering∥Guangzhou Key Laboratory of Robotics and Intelligent Software,South China University of Technology,Guangzhou 510006,Guangdong,China)
In order to solve the increasingly rampant spam problem, naive Bayes and support vector machine classification methods are used to identify spam emails in this paper.In this method,“word frequency-filtering” hybrid feature selection method is applied to classification models to improve the identification performance of classifiers, and the identification performance of naive Bayes classification method is enhanced by considering more comprehensive classification probability cases.Moreover, some experiments are designed to test and verify the identification performance of the spam detection system in terms of accuracy rate, recall rate andF1score.The results show that the proposed “word frequency-filtering” hybrid feature selection method can improve the identification performance of spam classifiers effectively, and that the classification output adjustment module based on the cost-sensitive me-thod can greatly reduce the probability that the classifier mistakes a non-spam email as a spam email.In conclusion, the spam identification system designed and implemented in this paper possesses strong practicability and applicability in practical work and life.
spam identification; hybrid feature selection method; naive Bayes; support vector machine
2016- 05- 03
廣東省自然科學基金資助項目(2016A030310412);廣東高校省級重點平臺及科研項目-青年創(chuàng)新人才類項目(2015KQNCX003);廣州市科技計劃重點實驗室項目(15180007);廣州市科技計劃項目(201707010223) Foundation item: Supported by the Natural Science Foundation of Guangdong Province of China (2016A030310412)
陳俊穎(1984-),女,講師,博士,主要從事高性能成像和模式識別研究.E-mail:jychense@scut.edu.cn
1000- 565X(2017)03- 0082- 07
TP 391.43
10.3969/j.issn.1000-565X.2017.03.012