曹翠玲,王媛媛,袁野,趙國(guó)冬
(1. 哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 東北林業(yè)大學(xué)機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040)
用于垃圾郵件的貝葉斯過(guò)濾算法研究
曹翠玲1,王媛媛2,袁野1,趙國(guó)冬1
(1. 哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 東北林業(yè)大學(xué)機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040)
研究了基于改進(jìn)的支持向量機(jī)(SVM,support vector machine)算法結(jié)合樸素貝葉斯算法在垃圾郵件過(guò)濾中的應(yīng)用。首先,SVM 對(duì)訓(xùn)練集樣本空間中兩類交界處的集合構(gòu)造一個(gè)最優(yōu)分類超平面;然后,每個(gè)樣本根據(jù)與其最近鄰的類型是否相同進(jìn)行取舍,從而降低樣本空間也提高了每個(gè)樣本類別的獨(dú)立性;最后,利用樸素貝葉斯算法對(duì)郵件分類。仿真實(shí)驗(yàn)結(jié)果表明,該算法降低了樣本空間復(fù)雜度,快速得到最優(yōu)分類特征子集,有效地提高了垃圾郵件過(guò)濾的分類速度、準(zhǔn)確率和召回率。
樸素貝葉斯;支持向量機(jī);修剪;垃圾郵件
目前的垃圾郵件過(guò)濾技術(shù)主要有以下幾種。
1) 黑白名單過(guò)濾[1,2],其原理是將發(fā)送方的郵箱或者IP放入黑名單列表中,但當(dāng)對(duì)方采用IP代理、動(dòng)態(tài)IP、地址隱藏、偽造等方式發(fā)送郵件時(shí),該方法就失效了。
2) 基于規(guī)則的過(guò)濾技術(shù),該技術(shù)的代表是決策樹(shù)。最早的決策樹(shù)學(xué)習(xí)系統(tǒng)要追溯到 Hunt于1966年研制的一個(gè)概念學(xué)習(xí)系統(tǒng)(CLS, concept learning system),該系統(tǒng)第一次提出使用決策樹(shù)進(jìn)行概念學(xué)習(xí),是許多決策樹(shù)學(xué)習(xí)算法的基礎(chǔ)。隨后,Quinlan提出了迭代分類算法 ID3,1993年又提出C4.5算法[3,4],旨在克服ID3算法在應(yīng)用中的不足。C4.5算法對(duì)于ID3算法的重要改進(jìn)是使用信息增益率來(lái)選擇屬性。2002年,Ruggieri提出了EC4.5算法[5],EC4.5算法采用二分搜索取代線性搜索,還提出幾種不同的尋找連續(xù)屬性的局部閉值的改進(jìn)策略。實(shí)驗(yàn)表明,在生成同樣一棵決策樹(shù)時(shí),與C4.5算法相比,EC4.5算法可將效率提高5倍,但EC4.5算法占用內(nèi)存比C4.5算法多。
3) 基于統(tǒng)計(jì)的智能學(xué)習(xí)技術(shù),支持向量機(jī)(SVM)、樸素貝葉斯(NB,native Bayes)等都是智能學(xué)習(xí)技術(shù)。比較SVM和NB及其改進(jìn)算法,實(shí)驗(yàn)結(jié)果表明,在召回率和準(zhǔn)確率上,SVM算法有較大優(yōu)勢(shì),但是在分類速度和訓(xùn)練集、測(cè)試集大小上,樸素貝葉斯算法有明顯優(yōu)勢(shì)。馬小龍[6]提出了SVM-EM樸素貝葉斯算法,該算法先利用SVM算法將數(shù)據(jù)集分成完整集和缺失集,計(jì)算缺失屬性數(shù)據(jù)項(xiàng)與完整屬性數(shù)據(jù)項(xiàng)的相關(guān)度,利用EM 算法對(duì)數(shù)據(jù)不完整屬性進(jìn)行修補(bǔ)處理,最后利用樸素貝葉斯算法分類。SVM-EM算法主要是根據(jù)修補(bǔ)不完整屬性來(lái)分類的,缺點(diǎn)是隨著郵件數(shù)量的增多,屬性也隨著增多,其中的冗余屬性也相應(yīng)增加,該算法并沒(méi)有處理冗余屬性,隨著郵件數(shù)量和樣本集的增加,分類速度和吞吐量就會(huì)降低。本文提出的改進(jìn)的樸素貝葉斯(TSVM-NB)算法有效地解決了冗余屬性,提高了分類速度、準(zhǔn)確率和召回率。該算法首先利用SVM 對(duì)訓(xùn)練集樣本空間中兩類交界處的集合構(gòu)造一個(gè)最優(yōu)分類超平面,明確每個(gè)樣本根據(jù)與其最近鄰的類型是否相同進(jìn)行取舍,舍去冗余屬性,從而降低樣本空間也提高了每個(gè)樣本類別的獨(dú)立性,最后利用樸素貝葉斯算法對(duì)郵件分類,在分類速度和準(zhǔn)確率上都有所提高。
2.1 垃圾郵件過(guò)濾流程
電子郵件是基于文本形式的,而且本身是一種無(wú)結(jié)構(gòu)的文本,為了使計(jì)算機(jī)能夠?qū)︵]件進(jìn)行學(xué)習(xí)和處理,一般采用空間向量模型,將電子郵件集用向量集合表示,所以需要對(duì)郵件預(yù)處理。預(yù)處理包括文本分詞、文本標(biāo)注、特征選擇、特征詞權(quán)重計(jì)算等。
預(yù)處理完成后就是郵件分類,現(xiàn)有的主流文本分類方法是樸素貝葉斯算法和支持向量機(jī)算法,兩者的分類原理、使用場(chǎng)合、效率等各方面都有所不同。圖1為垃圾郵件過(guò)濾的簡(jiǎn)單流程。
圖1 垃圾郵件過(guò)濾的簡(jiǎn)單流程
1) 文本分詞是將一段連續(xù)的中文句子按照一定的規(guī)則拆分成具有一定語(yǔ)義的詞,想要對(duì)一句中文進(jìn)行處理,必須要將這句中文拆分成不同的詞來(lái)進(jìn)行處理,這是對(duì)中文信息處理的基礎(chǔ)。
2) 文本標(biāo)注是對(duì)分詞詞性標(biāo)注,以便后續(xù)的特征選擇,即要確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其他詞性,除此之外,還需要在集合中使用停用詞表刪除助詞、虛詞等無(wú)意義或者貢獻(xiàn)不大的詞語(yǔ)。
3) 電子郵件內(nèi)容經(jīng)過(guò)分詞處理后,形成一個(gè)代表電子郵件內(nèi)容的特征向量,這個(gè)特征向量包含了郵件內(nèi)容所有被劃分的詞,特征項(xiàng)提取是指從分詞結(jié)果集中選擇具有代表文章內(nèi)容信息的分詞。
4) 對(duì)于不同的特征選擇方法,其特征向量權(quán)重的計(jì)算方法不同,權(quán)重代表的意義也不一樣。比如,TF-IDF[7]是根據(jù)一篇文檔詞如果出現(xiàn)頻率高,但是在其他文檔出現(xiàn)頻率低,則說(shuō)明該詞具有很好的區(qū)分文檔的能力,詞頻方法是根據(jù)某個(gè)詞出現(xiàn)的頻率,將出現(xiàn)頻率小的刪除。
5) 本文的重點(diǎn)就是分類,下文詳細(xì)介紹分類方法以及在傳統(tǒng)的分類方法上的改進(jìn)算法。
2.2 樸素貝葉斯算法模型
樸素貝葉斯文本分類原理[8~10]是求解向量X (x1, x2,… ,xn)屬于類別 C (c1, c2,…, cj)的概率值(P1, P2,… ,Pn),其中,Pn為 X (x1, x2,… ,xn)屬于cj的概率,則 max(P1, P2,… ,Pn)所對(duì)應(yīng)的類別就是文本X所屬的類別,因此,分類問(wèn)題被描述為求解方程式(1)的最大值。
其中
1) P( cj)是訓(xùn)練文本中,文本屬于類別 cj的概率。
3) P( c1,c2,… ,cn)是給定所有類別的聯(lián)合概率。
顯然,對(duì)于給定的所有類別,分母 P( c1, c2,…,cn)是一個(gè)已知的常數(shù),所以,將式(1)簡(jiǎn)化為求解式(2)的最大值。
又根據(jù)樸素貝葉斯假設(shè),文本特征向量屬性x1,x2,… ,xn獨(dú)立同分布,其聯(lián)合概率分布等于各個(gè)屬性特征概率分布的乘積,即
所以
4) 在前文提到的樸素貝葉斯算法及其改進(jìn)算法利用的都是樸素貝葉斯的基本原理,只是放松了獨(dú)立性假設(shè)條件,但是那些實(shí)際上相互不獨(dú)立的屬性都還是存在于訓(xùn)練樣本集中。從式(4)中可以看出,最后計(jì)算文本類別概率時(shí),用到的還是條件獨(dú)立的假設(shè),那么實(shí)際上相互不獨(dú)立的屬性還是限制了算法的性能,特別是在準(zhǔn)確率和召回率方面,這些算法都遇到了一定的瓶頸。那么,有沒(méi)有一種算法,可以將獨(dú)立性假設(shè)條件應(yīng)用到現(xiàn)實(shí)世界中?如果某個(gè)算法將所有參與到計(jì)算中的樣本集屬性根據(jù)其是否相關(guān)聯(lián)處理,即如果 2個(gè)屬性之間是有關(guān)系、不獨(dú)立的,就能確定這 2個(gè)屬性所屬類別是否相同,然后根據(jù)算法來(lái)處理這2個(gè)屬性,這就是本文提出的改進(jìn)的樸素貝葉斯算法TSVM-NB。
2.3 基于SVM算法的改進(jìn)樸素貝葉斯算法
2.3.1 支持向量機(jī)
支持向量機(jī)[11,12]因?yàn)轱@著的泛化能力而倍受人們的青睞,原理是在特征空間內(nèi)構(gòu)造出一個(gè)超平面,使兩類之間的寬度達(dá)到最大,即距離構(gòu)造的超平面最遠(yuǎn),但還必須使類別的錯(cuò)分懲罰達(dá)到最小,所以SVM的本質(zhì)就是二次尋優(yōu)問(wèn)題。
在訓(xùn)練集可分的情況下,SVM構(gòu)造一個(gè)最優(yōu)超平面
使樣本集(xi, yi)( i =1,2,… ,n;{+1 ,?1 }),滿足約束條件
并且邊界平面最優(yōu)化,即最小化倒數(shù),
當(dāng)訓(xùn)練集線性不可分時(shí),引進(jìn)松弛因子εi≥ 0及懲罰參數(shù)C,在約束條件1 ? εi( i =1,…, n)下最小化函數(shù)分類規(guī)則只需取
核函數(shù)的引入是SVM算法的一大特點(diǎn),低維空間向量集往往很難劃分,那就自然想到將低維空間映射到高維空間,但隨之就會(huì)增加計(jì)算復(fù)雜度,而核函數(shù)很巧妙地解決了這個(gè)問(wèn)題。
K (x, y) =φ( x )φ(y),其中,φ表示某種映射,只要適當(dāng)選擇核函數(shù),就可以得到對(duì)應(yīng)的高維空間的分類函數(shù)
其中, φ( x)是比x高維的向量(無(wú)需知道φ的具體形式),由于 K (x, y) =φ(x )? φ(y)只涉及x、y,并沒(méi)有涉及高維運(yùn)算,所以沒(méi)有增加計(jì)算復(fù)雜度。
2.3.2 改進(jìn)的樸素貝葉斯TSVM-NB
前文提到,樸素貝葉斯算法的使用前提條件是訓(xùn)練集樣本中的屬性是相互獨(dú)立的,利用支持向量機(jī)中的原理,可以找到完美的一個(gè)超平面,將兩類之間的距離達(dá)到最大即兩類邊界處的混疊情況不會(huì)出現(xiàn),但是在實(shí)際應(yīng)用中,這種獨(dú)立性假設(shè)條件是不成立的,這就嚴(yán)重影響了樸素貝葉斯算法分類的召回率與正確率,本文利用支持向量機(jī)修剪技術(shù)[13]降低屬性之間的交叉重疊,增強(qiáng)其獨(dú)立性,并結(jié)合樸素貝葉算法分類速度快的優(yōu)點(diǎn)提出了一種改進(jìn)的樸素貝葉斯算法TSVM-NB。
首先對(duì)訓(xùn)練集利用樸素貝葉斯算法進(jìn)行初次訓(xùn)練,得到訓(xùn)練集合中的每個(gè)向量的類別及初次訓(xùn)練類別結(jié)合,然后用下面算法對(duì)訓(xùn)練集合進(jìn)行修剪。
找出每一個(gè)向量點(diǎn)的最近鄰,然后對(duì)每一向量點(diǎn)做如下操作,如果該點(diǎn)與其最近鄰屬于同類,則保留此點(diǎn);如果該點(diǎn)與其最近鄰屬于異類,將該點(diǎn)刪除。
什么是最近鄰,怎么找到最近鄰?采用歐式距離作為2個(gè)向量之間的距離,即設(shè)2個(gè)向量為x (x1, x2,… ,xn), x (x1,x2,… ,xn),則x與 x之
i ii i j jj jij間的距離定義為
一個(gè)向量的最近鄰就是與其距離最近的向量。
上述方法的實(shí)現(xiàn)方法如下:給定一個(gè)已經(jīng)被樸素貝葉算法初次訓(xùn)練過(guò)的訓(xùn)練集 (x1, y1),(x2, y2),…, (x ,y )(x ∈ Rn,y ∈{?1 ,1},i= 1,2,3,…, m),將訓(xùn)
mmi i練集表示為矩陣
輸入: X (x1, x2,…, xm),Y (y1, y2,… ,ym)為樣本訓(xùn)練集向量。
輸出:經(jīng)過(guò)TSVM訓(xùn)練之后的樣本類別向量V (v1, v2,…, vm)。
1) 計(jì)算每2個(gè)向量的距離,自身距離為無(wú)窮
2) 找到每個(gè)向量的最近鄰
3) 判斷每個(gè)向量的類標(biāo)與其最近鄰是否一致,類標(biāo)不一致,則刪除該向量
修剪后的訓(xùn)練集用NB算法對(duì)郵件分類。
郵件分類的具體實(shí)現(xiàn)方式,如圖2所示。
1) 以大量的正常郵件和垃圾郵件作為訓(xùn)練集,訓(xùn)練集分詞并標(biāo)注,采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研發(fā)的 ICTCLAS漢語(yǔ)分詞系統(tǒng)實(shí)現(xiàn)自動(dòng)分詞和文本標(biāo)注。
圖2 垃圾郵件過(guò)濾流程
2) 特征選擇采用信息增益的方法,在不區(qū)分垃圾郵件與正常郵件的全域范圍內(nèi),計(jì)算每個(gè)特征X的IG值,然后按照IG值大小排序,依次選擇所需數(shù)量作為特征。選擇完成之后構(gòu)成特征向量,特征向量代表該郵件。
3) 特征向量構(gòu)成之后先用樸素貝葉斯算法對(duì)特征向量初次訓(xùn)練,得到初始的特征向量訓(xùn)練集合及其類別。
4) 用TSVM對(duì)3)中的特征向量修剪,修剪的目的是降低特征屬性之間的獨(dú)立性約束,即降低維度,使特征向量集合減少冗余。修剪之后得到修剪后的訓(xùn)練集。
5) 樸素貝葉斯算法根據(jù)修剪后的訓(xùn)練集對(duì)郵件分類。
本文所有實(shí)驗(yàn)都是在普通PC(Intel CORE 7i,2.60 GHz CPU,8.0 GB RAM),軟件為MyEclipse 8.5,算法語(yǔ)言為 Java和 Matlab實(shí)現(xiàn)提出的TSVM-NB算法,實(shí)驗(yàn)數(shù)據(jù)來(lái)自數(shù)據(jù)堂DATAMALL的5 000封正常郵件和5 000封垃圾郵件,其中,4 000封垃圾郵件和4 000封正常郵件作為訓(xùn)練集,其余的作為測(cè)試集。表1是對(duì)數(shù)據(jù)集的基本描述。
表1 數(shù)據(jù)集描述
垃圾郵件和正常郵件都來(lái)自不同的領(lǐng)域,并且涉及的垃圾類別也不一樣。例如,垃圾廣告中就包含很多不正常營(yíng)銷(xiāo)、推銷(xiāo)、培訓(xùn)等垃圾信息;特殊亂碼字符類垃圾郵件往往是在一些亂碼字符中夾雜一些上述垃圾廣告或者黃色暴力廣告;特殊言論是包含一些敏感詞匯,宣傳不正當(dāng)宗教,威脅國(guó)家安全等的一些言論信息。正常的工作和交流郵件就是人與人之間基本溝通的郵件,當(dāng)然這些郵件當(dāng)中可能也包含正常廣告、營(yíng)銷(xiāo)類等內(nèi)容。
最后從召回率、正確率以及在不同訓(xùn)練集數(shù)量下的運(yùn)行速度等指標(biāo)來(lái)評(píng)估比較樸素貝葉斯算法、支持向量機(jī)算法以及利用SVM改進(jìn)的樸素貝葉斯算法。
本文實(shí)驗(yàn)特征選擇采用信息增益(IG)方法,多維度分析算法在不同的過(guò)濾閾值、不同樣本集數(shù)量實(shí)驗(yàn)結(jié)果,并從召回率、正確率、分類速度、支持向量個(gè)數(shù)等方面比較3種算法。
如圖3所示,越多的訓(xùn)練樣本集結(jié)果越精確,但是過(guò)多的訓(xùn)練樣本集使向量個(gè)數(shù)增加,而且過(guò)多樣本集使代表性向量增加的同時(shí),冗余向量、無(wú)用向量也增加,這使計(jì)算量跟著增加,大大降低了分類速度,利用TSVM-NB算法修剪向量,減掉冗余和無(wú)用向量,降低向量個(gè)數(shù)從而增加計(jì)算速度(圖4與圖3類似)。圖5是3種算法在不同的樣本集下支持向量個(gè)數(shù)比較。改進(jìn)的算法支持向量個(gè)數(shù)減少,計(jì)算速度就會(huì)明顯提高,3種算法的速度比較如圖6所示。
圖3 3種算法正確率對(duì)比
圖4 3種算法召回率對(duì)比
圖5 3種算法支持向量個(gè)數(shù)對(duì)比
圖6 3種算法分類耗時(shí)比較
從圖6中可以看出,在樣本集數(shù)量較小的情況下,3種算法的分類速度沒(méi)有太大的區(qū)別,但是隨著樣本集的增加,SVM算法和NB算法的分類所用時(shí)間上升很快。利用SVM算法改進(jìn)的樸素貝葉斯算法耗時(shí)雖然增加(隨著樣本集數(shù)量的增加,耗時(shí)增加這是必然的),但是耗時(shí)增加比較慢,所以相對(duì)來(lái)說(shuō),該算法一定程度上降低了耗時(shí)增長(zhǎng)的速率,從而提高了分類速度。
將訓(xùn)練集分為1 000封、2 000封、3 000封、4 000封、5 000封、6 000封、7 000封、8 000封等8個(gè)階段,每個(gè)階段分別用SVM算法、NB算法計(jì)算TSVM-NB的正確率和召回率,從圖3和圖4可以看出,在訓(xùn)練集比較大的情況下,SVM算法不管是正確率還是召回率都不如其他 2種算法,并且達(dá)到一定量之后 2種指標(biāo)反而下降,這是因?yàn)镾VM算法不適合在大量郵件集下應(yīng)用,樸素貝葉斯算法比SVM效果好,但實(shí)驗(yàn)中當(dāng)郵件訓(xùn)練集超過(guò) 4 000封時(shí),召回率和正確率也有所下降,改進(jìn)的樸素貝葉斯算法TSVM-NB算法不管是正確率還是召回率在一定程度上都有所提高。
5 結(jié)束語(yǔ)
本文在支持向量機(jī)算法和樸素貝葉斯算法的基礎(chǔ)上,針對(duì)樸素貝葉斯算法的限制——屬性相互條件獨(dú)立,用 SVM尋找最優(yōu)平面,修剪重疊屬性,增強(qiáng)屬性獨(dú)立,提出了改進(jìn)的樸素貝葉斯算法 TSVM-NB,并根據(jù)垃圾郵件系統(tǒng)的評(píng)價(jià)指標(biāo)正確率和召回率評(píng)估該算法,經(jīng)過(guò)大量實(shí)驗(yàn),證明該算法可以在一定程度上提高垃圾郵件處理的正確率、召回率以及分類速度。
該算法主要是適用于屬性向量之間的交錯(cuò)重疊特別嚴(yán)重的數(shù)據(jù)集中,即類別劃分不是特別容易的情況,如果數(shù)據(jù)集之間混疊性較弱,該算法的優(yōu)勢(shì)就體現(xiàn)不出來(lái)。
隨著科技的發(fā)展,垃圾郵件不僅局限于文本形式,還存在垃圾圖片、垃圾視頻、垃圾音頻等各種形式,本文研究算法只是針對(duì)文本形式的垃圾郵件,如何高效過(guò)濾圖片、視頻、音頻將會(huì)在下一步工作中進(jìn)行研究。
[1] [EB/OL].http://www.anti-spam.org.cn/.
[2] JI W Y, KIM H, HUH J H. Hybrid spam filtering for mobile communication[J]. Computers & Security, 2009, 29(4):446-459.
[3] HAIBO H,GARCIA E A. Learning form imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
[4] WU X, KUMAR V, ROSS QUINLAN J, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems, 2008, 14(1): 1-37.
[5] RUGGIERI S. Efficient C4.5[J]. IEEE Transactions on Knowledge & Data Engineering, 2002, 14(2):438-444.
[6] 馬小龍. 一種改進(jìn)的貝葉斯算法在垃圾郵件過(guò)濾中的研究[J].計(jì)算機(jī)應(yīng)用研究, 2012, 29(3):1091-1094. MA X L. Research of spam-filtering based on optimized native Bayesian algorithm[J]. Alication Research of Computer, 2012, 29(3): 1091-1094.
[7] SCHOLKOPF B, MIKA S, BURGES C, et al. Input space versus feature space in kernel-based methods[J]. IEEE Transactions on Neural Network,1999,10(5):1000-1017.
[8] FRIEDMAN N, GEIGER D, GOLDSZMIDT M. Bayesian network classifiers[J].Machine Learning,1997,29(2/3):131-163.
[9] 石洪波, 王志海, 黃厚寬, 等.一種限定性的雙層貝葉斯分類模型[J]. 軟件學(xué)報(bào) ,2004,15(2):193-199. SHI H B, WANG Z H, HUANG H K, et al. A restricted double-level Bayesian classification model[J]. Journal of Software, 2004, 15(2): 193-199.
[10] 王雙成, 杜瑞杰, 劉穎. 連續(xù)屬性完全貝葉斯分類器的學(xué)習(xí)與優(yōu)化[J]. 計(jì)算機(jī)學(xué)報(bào),2012,35(10):2129-2138. WANG S C, DU R J, LIU Y. The learning and optimization of full Bayes classifiers with continuous attributes[J]. Chinese Journal of Computer, 2012, 35(10):2129-2138.
[11] 曾志強(qiáng), 高濟(jì). 基于向量集簡(jiǎn)約的精簡(jiǎn)支持向量機(jī)[J]. 軟件學(xué)報(bào), 2007, 18(11): 2719-2727. ZENG Z Q, GAO J. Simplified support vector machine based on reduced vector set method[J]. Journal of Software, 2007, 18(11): 2719-2727.
[12] 李曉黎, 劉繼敏, 史忠植. 基于支持向量機(jī)和無(wú)監(jiān)督聚類相結(jié)合的中文網(wǎng)頁(yè)分類器[J]. 計(jì)算機(jī)學(xué)報(bào), 2001,24(1):62-68. LI X L, LIU J M, SHI Z Z. A Chinese Web page classifier based on support vector machine and unsupervised clustering[J]. Chinese Journal of Computer, 2001, 24(1): 62-68.
[13] 李紅蓮, 王春華, 袁保宗.一種改進(jìn)的支持向量機(jī): NN-SVM[J].計(jì)算機(jī)學(xué)報(bào), 2003, 26(8): 1015-1020. LI H L, WANG C H, YUAN Z B. A improved SVM: NN-SVM[J]. Chinese Journal of Computer,2003, 26(8): 1015-1020.
趙國(guó)冬(1978-),黑龍江大慶人,博士,哈爾濱工程大學(xué)講師,主要研究方向?yàn)闄C(jī)器人、信息安全。
Research of a spam filter based on improved naive Bayes algorithm
CAO Cui-ling1, WANG Yuan-yuan2, YUAN Ye1, ZHAO Guo-dong1
(1. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China; 2. College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China)
In spam filtering filed, naive Bayes algorithm is one of the most popular algorithm, a modified using support vector machine(SVM) of the native Bayes algorithm :SVM-NB was proposed. Firstly, SVM constructs an optimal separating hyperplane for training set in the sample space at the junction two types of collection, Secondly, according to its similarities and differences between the neighboring class mark for each sample to reduce the sample space also increase the independence of classes of each samples. Finally, using naive Bayesian classification algorithm for mails. The simulation results show that the algorithm reduces the sample space complexity, get the optimal classification feature subset fast, improve the classification speed and accuracy of spam filtering effectively.
naive Bayes, SVM, trim, spam mail
TP319
A
10.11959/j.issn.2096-109x.2017.00119
曹翠玲(1990-),女,河北邯鄲人,哈爾濱工程大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全、嵌入式系統(tǒng)。
王媛媛(1995-),女,黑龍江哈爾濱人,東北林業(yè)大學(xué)本科生,主要研究方向?yàn)樾畔踩?/p>
袁野(1995-),男,黑龍江北安人,哈爾濱工程大學(xué)本科生,主要研究方向?yàn)榍度胧较到y(tǒng)。
2016-10-27;
2016-11-25。通信作者:曹翠玲,caocuiling0927@163.com