• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    用于垃圾郵件的貝葉斯過(guò)濾算法研究

    2017-04-12 06:39:11曹翠玲王媛媛袁野趙國(guó)冬
    關(guān)鍵詞:垃圾郵件樸素貝葉斯

    曹翠玲,王媛媛,袁野,趙國(guó)冬

    (1. 哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 東北林業(yè)大學(xué)機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040)

    用于垃圾郵件的貝葉斯過(guò)濾算法研究

    曹翠玲1,王媛媛2,袁野1,趙國(guó)冬1

    (1. 哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 東北林業(yè)大學(xué)機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040)

    研究了基于改進(jìn)的支持向量機(jī)(SVM,support vector machine)算法結(jié)合樸素貝葉斯算法在垃圾郵件過(guò)濾中的應(yīng)用。首先,SVM 對(duì)訓(xùn)練集樣本空間中兩類交界處的集合構(gòu)造一個(gè)最優(yōu)分類超平面;然后,每個(gè)樣本根據(jù)與其最近鄰的類型是否相同進(jìn)行取舍,從而降低樣本空間也提高了每個(gè)樣本類別的獨(dú)立性;最后,利用樸素貝葉斯算法對(duì)郵件分類。仿真實(shí)驗(yàn)結(jié)果表明,該算法降低了樣本空間復(fù)雜度,快速得到最優(yōu)分類特征子集,有效地提高了垃圾郵件過(guò)濾的分類速度、準(zhǔn)確率和召回率。

    樸素貝葉斯;支持向量機(jī);修剪;垃圾郵件

    1 引言

    目前的垃圾郵件過(guò)濾技術(shù)主要有以下幾種。

    1) 黑白名單過(guò)濾[1,2],其原理是將發(fā)送方的郵箱或者IP放入黑名單列表中,但當(dāng)對(duì)方采用IP代理、動(dòng)態(tài)IP、地址隱藏、偽造等方式發(fā)送郵件時(shí),該方法就失效了。

    2) 基于規(guī)則的過(guò)濾技術(shù),該技術(shù)的代表是決策樹(shù)。最早的決策樹(shù)學(xué)習(xí)系統(tǒng)要追溯到 Hunt于1966年研制的一個(gè)概念學(xué)習(xí)系統(tǒng)(CLS, concept learning system),該系統(tǒng)第一次提出使用決策樹(shù)進(jìn)行概念學(xué)習(xí),是許多決策樹(shù)學(xué)習(xí)算法的基礎(chǔ)。隨后,Quinlan提出了迭代分類算法 ID3,1993年又提出C4.5算法[3,4],旨在克服ID3算法在應(yīng)用中的不足。C4.5算法對(duì)于ID3算法的重要改進(jìn)是使用信息增益率來(lái)選擇屬性。2002年,Ruggieri提出了EC4.5算法[5],EC4.5算法采用二分搜索取代線性搜索,還提出幾種不同的尋找連續(xù)屬性的局部閉值的改進(jìn)策略。實(shí)驗(yàn)表明,在生成同樣一棵決策樹(shù)時(shí),與C4.5算法相比,EC4.5算法可將效率提高5倍,但EC4.5算法占用內(nèi)存比C4.5算法多。

    3) 基于統(tǒng)計(jì)的智能學(xué)習(xí)技術(shù),支持向量機(jī)(SVM)、樸素貝葉斯(NB,native Bayes)等都是智能學(xué)習(xí)技術(shù)。比較SVM和NB及其改進(jìn)算法,實(shí)驗(yàn)結(jié)果表明,在召回率和準(zhǔn)確率上,SVM算法有較大優(yōu)勢(shì),但是在分類速度和訓(xùn)練集、測(cè)試集大小上,樸素貝葉斯算法有明顯優(yōu)勢(shì)。馬小龍[6]提出了SVM-EM樸素貝葉斯算法,該算法先利用SVM算法將數(shù)據(jù)集分成完整集和缺失集,計(jì)算缺失屬性數(shù)據(jù)項(xiàng)與完整屬性數(shù)據(jù)項(xiàng)的相關(guān)度,利用EM 算法對(duì)數(shù)據(jù)不完整屬性進(jìn)行修補(bǔ)處理,最后利用樸素貝葉斯算法分類。SVM-EM算法主要是根據(jù)修補(bǔ)不完整屬性來(lái)分類的,缺點(diǎn)是隨著郵件數(shù)量的增多,屬性也隨著增多,其中的冗余屬性也相應(yīng)增加,該算法并沒(méi)有處理冗余屬性,隨著郵件數(shù)量和樣本集的增加,分類速度和吞吐量就會(huì)降低。本文提出的改進(jìn)的樸素貝葉斯(TSVM-NB)算法有效地解決了冗余屬性,提高了分類速度、準(zhǔn)確率和召回率。該算法首先利用SVM 對(duì)訓(xùn)練集樣本空間中兩類交界處的集合構(gòu)造一個(gè)最優(yōu)分類超平面,明確每個(gè)樣本根據(jù)與其最近鄰的類型是否相同進(jìn)行取舍,舍去冗余屬性,從而降低樣本空間也提高了每個(gè)樣本類別的獨(dú)立性,最后利用樸素貝葉斯算法對(duì)郵件分類,在分類速度和準(zhǔn)確率上都有所提高。

    2 樸素貝葉斯算法及其改進(jìn)

    2.1 垃圾郵件過(guò)濾流程

    電子郵件是基于文本形式的,而且本身是一種無(wú)結(jié)構(gòu)的文本,為了使計(jì)算機(jī)能夠?qū)︵]件進(jìn)行學(xué)習(xí)和處理,一般采用空間向量模型,將電子郵件集用向量集合表示,所以需要對(duì)郵件預(yù)處理。預(yù)處理包括文本分詞、文本標(biāo)注、特征選擇、特征詞權(quán)重計(jì)算等。

    預(yù)處理完成后就是郵件分類,現(xiàn)有的主流文本分類方法是樸素貝葉斯算法和支持向量機(jī)算法,兩者的分類原理、使用場(chǎng)合、效率等各方面都有所不同。圖1為垃圾郵件過(guò)濾的簡(jiǎn)單流程。

    圖1 垃圾郵件過(guò)濾的簡(jiǎn)單流程

    1) 文本分詞是將一段連續(xù)的中文句子按照一定的規(guī)則拆分成具有一定語(yǔ)義的詞,想要對(duì)一句中文進(jìn)行處理,必須要將這句中文拆分成不同的詞來(lái)進(jìn)行處理,這是對(duì)中文信息處理的基礎(chǔ)。

    2) 文本標(biāo)注是對(duì)分詞詞性標(biāo)注,以便后續(xù)的特征選擇,即要確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其他詞性,除此之外,還需要在集合中使用停用詞表刪除助詞、虛詞等無(wú)意義或者貢獻(xiàn)不大的詞語(yǔ)。

    3) 電子郵件內(nèi)容經(jīng)過(guò)分詞處理后,形成一個(gè)代表電子郵件內(nèi)容的特征向量,這個(gè)特征向量包含了郵件內(nèi)容所有被劃分的詞,特征項(xiàng)提取是指從分詞結(jié)果集中選擇具有代表文章內(nèi)容信息的分詞。

    4) 對(duì)于不同的特征選擇方法,其特征向量權(quán)重的計(jì)算方法不同,權(quán)重代表的意義也不一樣。比如,TF-IDF[7]是根據(jù)一篇文檔詞如果出現(xiàn)頻率高,但是在其他文檔出現(xiàn)頻率低,則說(shuō)明該詞具有很好的區(qū)分文檔的能力,詞頻方法是根據(jù)某個(gè)詞出現(xiàn)的頻率,將出現(xiàn)頻率小的刪除。

    5) 本文的重點(diǎn)就是分類,下文詳細(xì)介紹分類方法以及在傳統(tǒng)的分類方法上的改進(jìn)算法。

    2.2 樸素貝葉斯算法模型

    樸素貝葉斯文本分類原理[8~10]是求解向量X (x1, x2,… ,xn)屬于類別 C (c1, c2,…, cj)的概率值(P1, P2,… ,Pn),其中,Pn為 X (x1, x2,… ,xn)屬于cj的概率,則 max(P1, P2,… ,Pn)所對(duì)應(yīng)的類別就是文本X所屬的類別,因此,分類問(wèn)題被描述為求解方程式(1)的最大值。

    其中

    1) P( cj)是訓(xùn)練文本中,文本屬于類別 cj的概率。

    3) P( c1,c2,… ,cn)是給定所有類別的聯(lián)合概率。

    顯然,對(duì)于給定的所有類別,分母 P( c1, c2,…,cn)是一個(gè)已知的常數(shù),所以,將式(1)簡(jiǎn)化為求解式(2)的最大值。

    又根據(jù)樸素貝葉斯假設(shè),文本特征向量屬性x1,x2,… ,xn獨(dú)立同分布,其聯(lián)合概率分布等于各個(gè)屬性特征概率分布的乘積,即

    所以

    4) 在前文提到的樸素貝葉斯算法及其改進(jìn)算法利用的都是樸素貝葉斯的基本原理,只是放松了獨(dú)立性假設(shè)條件,但是那些實(shí)際上相互不獨(dú)立的屬性都還是存在于訓(xùn)練樣本集中。從式(4)中可以看出,最后計(jì)算文本類別概率時(shí),用到的還是條件獨(dú)立的假設(shè),那么實(shí)際上相互不獨(dú)立的屬性還是限制了算法的性能,特別是在準(zhǔn)確率和召回率方面,這些算法都遇到了一定的瓶頸。那么,有沒(méi)有一種算法,可以將獨(dú)立性假設(shè)條件應(yīng)用到現(xiàn)實(shí)世界中?如果某個(gè)算法將所有參與到計(jì)算中的樣本集屬性根據(jù)其是否相關(guān)聯(lián)處理,即如果 2個(gè)屬性之間是有關(guān)系、不獨(dú)立的,就能確定這 2個(gè)屬性所屬類別是否相同,然后根據(jù)算法來(lái)處理這2個(gè)屬性,這就是本文提出的改進(jìn)的樸素貝葉斯算法TSVM-NB。

    2.3 基于SVM算法的改進(jìn)樸素貝葉斯算法

    2.3.1 支持向量機(jī)

    支持向量機(jī)[11,12]因?yàn)轱@著的泛化能力而倍受人們的青睞,原理是在特征空間內(nèi)構(gòu)造出一個(gè)超平面,使兩類之間的寬度達(dá)到最大,即距離構(gòu)造的超平面最遠(yuǎn),但還必須使類別的錯(cuò)分懲罰達(dá)到最小,所以SVM的本質(zhì)就是二次尋優(yōu)問(wèn)題。

    在訓(xùn)練集可分的情況下,SVM構(gòu)造一個(gè)最優(yōu)超平面

    使樣本集(xi, yi)( i =1,2,… ,n;{+1 ,?1 }),滿足約束條件

    并且邊界平面最優(yōu)化,即最小化倒數(shù),

    當(dāng)訓(xùn)練集線性不可分時(shí),引進(jìn)松弛因子εi≥ 0及懲罰參數(shù)C,在約束條件1 ? εi( i =1,…, n)下最小化函數(shù)分類規(guī)則只需取

    核函數(shù)的引入是SVM算法的一大特點(diǎn),低維空間向量集往往很難劃分,那就自然想到將低維空間映射到高維空間,但隨之就會(huì)增加計(jì)算復(fù)雜度,而核函數(shù)很巧妙地解決了這個(gè)問(wèn)題。

    K (x, y) =φ( x )φ(y),其中,φ表示某種映射,只要適當(dāng)選擇核函數(shù),就可以得到對(duì)應(yīng)的高維空間的分類函數(shù)

    其中, φ( x)是比x高維的向量(無(wú)需知道φ的具體形式),由于 K (x, y) =φ(x )? φ(y)只涉及x、y,并沒(méi)有涉及高維運(yùn)算,所以沒(méi)有增加計(jì)算復(fù)雜度。

    2.3.2 改進(jìn)的樸素貝葉斯TSVM-NB

    前文提到,樸素貝葉斯算法的使用前提條件是訓(xùn)練集樣本中的屬性是相互獨(dú)立的,利用支持向量機(jī)中的原理,可以找到完美的一個(gè)超平面,將兩類之間的距離達(dá)到最大即兩類邊界處的混疊情況不會(huì)出現(xiàn),但是在實(shí)際應(yīng)用中,這種獨(dú)立性假設(shè)條件是不成立的,這就嚴(yán)重影響了樸素貝葉斯算法分類的召回率與正確率,本文利用支持向量機(jī)修剪技術(shù)[13]降低屬性之間的交叉重疊,增強(qiáng)其獨(dú)立性,并結(jié)合樸素貝葉算法分類速度快的優(yōu)點(diǎn)提出了一種改進(jìn)的樸素貝葉斯算法TSVM-NB。

    首先對(duì)訓(xùn)練集利用樸素貝葉斯算法進(jìn)行初次訓(xùn)練,得到訓(xùn)練集合中的每個(gè)向量的類別及初次訓(xùn)練類別結(jié)合,然后用下面算法對(duì)訓(xùn)練集合進(jìn)行修剪。

    找出每一個(gè)向量點(diǎn)的最近鄰,然后對(duì)每一向量點(diǎn)做如下操作,如果該點(diǎn)與其最近鄰屬于同類,則保留此點(diǎn);如果該點(diǎn)與其最近鄰屬于異類,將該點(diǎn)刪除。

    什么是最近鄰,怎么找到最近鄰?采用歐式距離作為2個(gè)向量之間的距離,即設(shè)2個(gè)向量為x (x1, x2,… ,xn), x (x1,x2,… ,xn),則x與 x之

    i ii i j jj jij間的距離定義為

    一個(gè)向量的最近鄰就是與其距離最近的向量。

    上述方法的實(shí)現(xiàn)方法如下:給定一個(gè)已經(jīng)被樸素貝葉算法初次訓(xùn)練過(guò)的訓(xùn)練集 (x1, y1),(x2, y2),…, (x ,y )(x ∈ Rn,y ∈{?1 ,1},i= 1,2,3,…, m),將訓(xùn)

    mmi i練集表示為矩陣

    輸入: X (x1, x2,…, xm),Y (y1, y2,… ,ym)為樣本訓(xùn)練集向量。

    輸出:經(jīng)過(guò)TSVM訓(xùn)練之后的樣本類別向量V (v1, v2,…, vm)。

    1) 計(jì)算每2個(gè)向量的距離,自身距離為無(wú)窮

    2) 找到每個(gè)向量的最近鄰

    3) 判斷每個(gè)向量的類標(biāo)與其最近鄰是否一致,類標(biāo)不一致,則刪除該向量

    修剪后的訓(xùn)練集用NB算法對(duì)郵件分類。

    3 算法在郵件過(guò)濾中的實(shí)現(xiàn)

    郵件分類的具體實(shí)現(xiàn)方式,如圖2所示。

    1) 以大量的正常郵件和垃圾郵件作為訓(xùn)練集,訓(xùn)練集分詞并標(biāo)注,采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研發(fā)的 ICTCLAS漢語(yǔ)分詞系統(tǒng)實(shí)現(xiàn)自動(dòng)分詞和文本標(biāo)注。

    圖2 垃圾郵件過(guò)濾流程

    2) 特征選擇采用信息增益的方法,在不區(qū)分垃圾郵件與正常郵件的全域范圍內(nèi),計(jì)算每個(gè)特征X的IG值,然后按照IG值大小排序,依次選擇所需數(shù)量作為特征。選擇完成之后構(gòu)成特征向量,特征向量代表該郵件。

    3) 特征向量構(gòu)成之后先用樸素貝葉斯算法對(duì)特征向量初次訓(xùn)練,得到初始的特征向量訓(xùn)練集合及其類別。

    4) 用TSVM對(duì)3)中的特征向量修剪,修剪的目的是降低特征屬性之間的獨(dú)立性約束,即降低維度,使特征向量集合減少冗余。修剪之后得到修剪后的訓(xùn)練集。

    5) 樸素貝葉斯算法根據(jù)修剪后的訓(xùn)練集對(duì)郵件分類。

    4 實(shí)驗(yàn)結(jié)果分析

    本文所有實(shí)驗(yàn)都是在普通PC(Intel CORE 7i,2.60 GHz CPU,8.0 GB RAM),軟件為MyEclipse 8.5,算法語(yǔ)言為 Java和 Matlab實(shí)現(xiàn)提出的TSVM-NB算法,實(shí)驗(yàn)數(shù)據(jù)來(lái)自數(shù)據(jù)堂DATAMALL的5 000封正常郵件和5 000封垃圾郵件,其中,4 000封垃圾郵件和4 000封正常郵件作為訓(xùn)練集,其余的作為測(cè)試集。表1是對(duì)數(shù)據(jù)集的基本描述。

    表1 數(shù)據(jù)集描述

    垃圾郵件和正常郵件都來(lái)自不同的領(lǐng)域,并且涉及的垃圾類別也不一樣。例如,垃圾廣告中就包含很多不正常營(yíng)銷(xiāo)、推銷(xiāo)、培訓(xùn)等垃圾信息;特殊亂碼字符類垃圾郵件往往是在一些亂碼字符中夾雜一些上述垃圾廣告或者黃色暴力廣告;特殊言論是包含一些敏感詞匯,宣傳不正當(dāng)宗教,威脅國(guó)家安全等的一些言論信息。正常的工作和交流郵件就是人與人之間基本溝通的郵件,當(dāng)然這些郵件當(dāng)中可能也包含正常廣告、營(yíng)銷(xiāo)類等內(nèi)容。

    最后從召回率、正確率以及在不同訓(xùn)練集數(shù)量下的運(yùn)行速度等指標(biāo)來(lái)評(píng)估比較樸素貝葉斯算法、支持向量機(jī)算法以及利用SVM改進(jìn)的樸素貝葉斯算法。

    本文實(shí)驗(yàn)特征選擇采用信息增益(IG)方法,多維度分析算法在不同的過(guò)濾閾值、不同樣本集數(shù)量實(shí)驗(yàn)結(jié)果,并從召回率、正確率、分類速度、支持向量個(gè)數(shù)等方面比較3種算法。

    如圖3所示,越多的訓(xùn)練樣本集結(jié)果越精確,但是過(guò)多的訓(xùn)練樣本集使向量個(gè)數(shù)增加,而且過(guò)多樣本集使代表性向量增加的同時(shí),冗余向量、無(wú)用向量也增加,這使計(jì)算量跟著增加,大大降低了分類速度,利用TSVM-NB算法修剪向量,減掉冗余和無(wú)用向量,降低向量個(gè)數(shù)從而增加計(jì)算速度(圖4與圖3類似)。圖5是3種算法在不同的樣本集下支持向量個(gè)數(shù)比較。改進(jìn)的算法支持向量個(gè)數(shù)減少,計(jì)算速度就會(huì)明顯提高,3種算法的速度比較如圖6所示。

    圖3 3種算法正確率對(duì)比

    圖4 3種算法召回率對(duì)比

    圖5 3種算法支持向量個(gè)數(shù)對(duì)比

    圖6 3種算法分類耗時(shí)比較

    從圖6中可以看出,在樣本集數(shù)量較小的情況下,3種算法的分類速度沒(méi)有太大的區(qū)別,但是隨著樣本集的增加,SVM算法和NB算法的分類所用時(shí)間上升很快。利用SVM算法改進(jìn)的樸素貝葉斯算法耗時(shí)雖然增加(隨著樣本集數(shù)量的增加,耗時(shí)增加這是必然的),但是耗時(shí)增加比較慢,所以相對(duì)來(lái)說(shuō),該算法一定程度上降低了耗時(shí)增長(zhǎng)的速率,從而提高了分類速度。

    將訓(xùn)練集分為1 000封、2 000封、3 000封、4 000封、5 000封、6 000封、7 000封、8 000封等8個(gè)階段,每個(gè)階段分別用SVM算法、NB算法計(jì)算TSVM-NB的正確率和召回率,從圖3和圖4可以看出,在訓(xùn)練集比較大的情況下,SVM算法不管是正確率還是召回率都不如其他 2種算法,并且達(dá)到一定量之后 2種指標(biāo)反而下降,這是因?yàn)镾VM算法不適合在大量郵件集下應(yīng)用,樸素貝葉斯算法比SVM效果好,但實(shí)驗(yàn)中當(dāng)郵件訓(xùn)練集超過(guò) 4 000封時(shí),召回率和正確率也有所下降,改進(jìn)的樸素貝葉斯算法TSVM-NB算法不管是正確率還是召回率在一定程度上都有所提高。

    5 結(jié)束語(yǔ)

    本文在支持向量機(jī)算法和樸素貝葉斯算法的基礎(chǔ)上,針對(duì)樸素貝葉斯算法的限制——屬性相互條件獨(dú)立,用 SVM尋找最優(yōu)平面,修剪重疊屬性,增強(qiáng)屬性獨(dú)立,提出了改進(jìn)的樸素貝葉斯算法 TSVM-NB,并根據(jù)垃圾郵件系統(tǒng)的評(píng)價(jià)指標(biāo)正確率和召回率評(píng)估該算法,經(jīng)過(guò)大量實(shí)驗(yàn),證明該算法可以在一定程度上提高垃圾郵件處理的正確率、召回率以及分類速度。

    該算法主要是適用于屬性向量之間的交錯(cuò)重疊特別嚴(yán)重的數(shù)據(jù)集中,即類別劃分不是特別容易的情況,如果數(shù)據(jù)集之間混疊性較弱,該算法的優(yōu)勢(shì)就體現(xiàn)不出來(lái)。

    隨著科技的發(fā)展,垃圾郵件不僅局限于文本形式,還存在垃圾圖片、垃圾視頻、垃圾音頻等各種形式,本文研究算法只是針對(duì)文本形式的垃圾郵件,如何高效過(guò)濾圖片、視頻、音頻將會(huì)在下一步工作中進(jìn)行研究。

    [1] [EB/OL].http://www.anti-spam.org.cn/.

    [2] JI W Y, KIM H, HUH J H. Hybrid spam filtering for mobile communication[J]. Computers & Security, 2009, 29(4):446-459.

    [3] HAIBO H,GARCIA E A. Learning form imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.

    [4] WU X, KUMAR V, ROSS QUINLAN J, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems, 2008, 14(1): 1-37.

    [5] RUGGIERI S. Efficient C4.5[J]. IEEE Transactions on Knowledge & Data Engineering, 2002, 14(2):438-444.

    [6] 馬小龍. 一種改進(jìn)的貝葉斯算法在垃圾郵件過(guò)濾中的研究[J].計(jì)算機(jī)應(yīng)用研究, 2012, 29(3):1091-1094. MA X L. Research of spam-filtering based on optimized native Bayesian algorithm[J]. Alication Research of Computer, 2012, 29(3): 1091-1094.

    [7] SCHOLKOPF B, MIKA S, BURGES C, et al. Input space versus feature space in kernel-based methods[J]. IEEE Transactions on Neural Network,1999,10(5):1000-1017.

    [8] FRIEDMAN N, GEIGER D, GOLDSZMIDT M. Bayesian network classifiers[J].Machine Learning,1997,29(2/3):131-163.

    [9] 石洪波, 王志海, 黃厚寬, 等.一種限定性的雙層貝葉斯分類模型[J]. 軟件學(xué)報(bào) ,2004,15(2):193-199. SHI H B, WANG Z H, HUANG H K, et al. A restricted double-level Bayesian classification model[J]. Journal of Software, 2004, 15(2): 193-199.

    [10] 王雙成, 杜瑞杰, 劉穎. 連續(xù)屬性完全貝葉斯分類器的學(xué)習(xí)與優(yōu)化[J]. 計(jì)算機(jī)學(xué)報(bào),2012,35(10):2129-2138. WANG S C, DU R J, LIU Y. The learning and optimization of full Bayes classifiers with continuous attributes[J]. Chinese Journal of Computer, 2012, 35(10):2129-2138.

    [11] 曾志強(qiáng), 高濟(jì). 基于向量集簡(jiǎn)約的精簡(jiǎn)支持向量機(jī)[J]. 軟件學(xué)報(bào), 2007, 18(11): 2719-2727. ZENG Z Q, GAO J. Simplified support vector machine based on reduced vector set method[J]. Journal of Software, 2007, 18(11): 2719-2727.

    [12] 李曉黎, 劉繼敏, 史忠植. 基于支持向量機(jī)和無(wú)監(jiān)督聚類相結(jié)合的中文網(wǎng)頁(yè)分類器[J]. 計(jì)算機(jī)學(xué)報(bào), 2001,24(1):62-68. LI X L, LIU J M, SHI Z Z. A Chinese Web page classifier based on support vector machine and unsupervised clustering[J]. Chinese Journal of Computer, 2001, 24(1): 62-68.

    [13] 李紅蓮, 王春華, 袁保宗.一種改進(jìn)的支持向量機(jī): NN-SVM[J].計(jì)算機(jī)學(xué)報(bào), 2003, 26(8): 1015-1020. LI H L, WANG C H, YUAN Z B. A improved SVM: NN-SVM[J]. Chinese Journal of Computer,2003, 26(8): 1015-1020.

    趙國(guó)冬(1978-),黑龍江大慶人,博士,哈爾濱工程大學(xué)講師,主要研究方向?yàn)闄C(jī)器人、信息安全。

    Research of a spam filter based on improved naive Bayes algorithm

    CAO Cui-ling1, WANG Yuan-yuan2, YUAN Ye1, ZHAO Guo-dong1
    (1. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China; 2. College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China)

    In spam filtering filed, naive Bayes algorithm is one of the most popular algorithm, a modified using support vector machine(SVM) of the native Bayes algorithm :SVM-NB was proposed. Firstly, SVM constructs an optimal separating hyperplane for training set in the sample space at the junction two types of collection, Secondly, according to its similarities and differences between the neighboring class mark for each sample to reduce the sample space also increase the independence of classes of each samples. Finally, using naive Bayesian classification algorithm for mails. The simulation results show that the algorithm reduces the sample space complexity, get the optimal classification feature subset fast, improve the classification speed and accuracy of spam filtering effectively.

    naive Bayes, SVM, trim, spam mail

    TP319

    A

    10.11959/j.issn.2096-109x.2017.00119

    曹翠玲(1990-),女,河北邯鄲人,哈爾濱工程大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全、嵌入式系統(tǒng)。

    王媛媛(1995-),女,黑龍江哈爾濱人,東北林業(yè)大學(xué)本科生,主要研究方向?yàn)樾畔踩?/p>

    袁野(1995-),男,黑龍江北安人,哈爾濱工程大學(xué)本科生,主要研究方向?yàn)榍度胧较到y(tǒng)。

    2016-10-27;

    2016-11-25。通信作者:曹翠玲,caocuiling0927@163.com

    猜你喜歡
    垃圾郵件樸素貝葉斯
    從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語(yǔ)單詞的起源出人意料地有趣 精讀
    隔離樸素
    一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測(cè)算法
    樸素的安慰(組詩(shī))
    他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
    最神奇最樸素的兩本書(shū)
    貝葉斯公式及其應(yīng)用
    基于貝葉斯估計(jì)的軌道占用識(shí)別方法
    基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過(guò)濾模型
    一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
    電子器件(2015年5期)2015-12-29 08:43:15
    久久欧美精品欧美久久欧美| 亚洲av五月六月丁香网| av黄色大香蕉| 久久精品国产亚洲av涩爱 | 又黄又爽又刺激的免费视频.| 日韩国内少妇激情av| 国产三级中文精品| 变态另类丝袜制服| 久久久国产成人免费| 国产在视频线在精品| 色综合色国产| 亚洲精品成人久久久久久| 欧美性猛交╳xxx乱大交人| av女优亚洲男人天堂| 国产aⅴ精品一区二区三区波| 日韩精品中文字幕看吧| 久久亚洲精品不卡| 一区二区三区四区激情视频 | 日韩高清综合在线| 婷婷丁香在线五月| 亚洲va日本ⅴa欧美va伊人久久| av在线观看视频网站免费| 欧美性猛交黑人性爽| 亚洲国产色片| 大又大粗又爽又黄少妇毛片口| 在线观看免费视频日本深夜| 免费av毛片视频| 一个人观看的视频www高清免费观看| 国产精品久久久久久久久免| 亚洲,欧美,日韩| av天堂在线播放| 久久久久久大精品| 很黄的视频免费| 中文字幕av在线有码专区| 成人av一区二区三区在线看| 国产精品爽爽va在线观看网站| 可以在线观看的亚洲视频| 99热精品在线国产| 人人妻,人人澡人人爽秒播| 国产精品日韩av在线免费观看| 日韩亚洲欧美综合| 啦啦啦韩国在线观看视频| 精品一区二区三区人妻视频| 国产精品日韩av在线免费观看| 乱系列少妇在线播放| 精品国内亚洲2022精品成人| 成人毛片a级毛片在线播放| 五月玫瑰六月丁香| 一夜夜www| 亚洲欧美日韩卡通动漫| 久久精品国产亚洲av天美| 欧美丝袜亚洲另类 | 国产乱人伦免费视频| 国产精品永久免费网站| 精品一区二区三区av网在线观看| 两性午夜刺激爽爽歪歪视频在线观看| 欧美极品一区二区三区四区| 国产精品久久久久久久久免| 真实男女啪啪啪动态图| 中文字幕av在线有码专区| 亚洲,欧美,日韩| 九九在线视频观看精品| 国内少妇人妻偷人精品xxx网站| 婷婷色综合大香蕉| 国产精品免费一区二区三区在线| 国产亚洲91精品色在线| 天天躁日日操中文字幕| 老司机午夜福利在线观看视频| 亚洲欧美日韩高清在线视频| 亚洲欧美日韩高清在线视频| 91在线观看av| 日韩,欧美,国产一区二区三区 | 在线天堂最新版资源| 久久精品国产亚洲av涩爱 | 亚洲无线在线观看| 日韩欧美免费精品| 亚洲欧美日韩卡通动漫| 午夜精品久久久久久毛片777| 国产成人av教育| 熟女人妻精品中文字幕| 久久久国产成人免费| 性插视频无遮挡在线免费观看| 中国美女看黄片| 国产亚洲av嫩草精品影院| 中文字幕熟女人妻在线| 午夜亚洲福利在线播放| 免费高清视频大片| 国产精品三级大全| 国内毛片毛片毛片毛片毛片| 亚洲aⅴ乱码一区二区在线播放| 免费大片18禁| 成人特级av手机在线观看| 麻豆国产97在线/欧美| 九九热线精品视视频播放| 国产精品久久视频播放| 欧美色欧美亚洲另类二区| 真人一进一出gif抽搐免费| 在线看三级毛片| 最新在线观看一区二区三区| 在线播放国产精品三级| 尤物成人国产欧美一区二区三区| 尤物成人国产欧美一区二区三区| 色av中文字幕| 久久中文看片网| 十八禁网站免费在线| 国产精品精品国产色婷婷| 啪啪无遮挡十八禁网站| 毛片女人毛片| 午夜爱爱视频在线播放| 麻豆精品久久久久久蜜桃| 一本精品99久久精品77| 欧美+日韩+精品| 1000部很黄的大片| 国产免费av片在线观看野外av| 免费看美女性在线毛片视频| 99在线视频只有这里精品首页| 日本三级黄在线观看| 日日摸夜夜添夜夜添av毛片 | 最近视频中文字幕2019在线8| 日韩高清综合在线| 亚洲av不卡在线观看| 在线观看舔阴道视频| 三级国产精品欧美在线观看| 色噜噜av男人的天堂激情| 亚洲性夜色夜夜综合| aaaaa片日本免费| 欧美绝顶高潮抽搐喷水| 五月伊人婷婷丁香| 亚洲av一区综合| 成人二区视频| 欧美+日韩+精品| 91午夜精品亚洲一区二区三区 | 在线a可以看的网站| 五月玫瑰六月丁香| 韩国av在线不卡| 看免费成人av毛片| 长腿黑丝高跟| 国产日本99.免费观看| 一个人看视频在线观看www免费| 搡女人真爽免费视频火全软件 | 久久精品国产亚洲网站| 国产精品国产高清国产av| 亚洲乱码一区二区免费版| 久久国产乱子免费精品| 窝窝影院91人妻| 免费看光身美女| 欧美+亚洲+日韩+国产| 亚洲自偷自拍三级| 国产精品久久久久久av不卡| 亚洲欧美激情综合另类| 一卡2卡三卡四卡精品乱码亚洲| 乱码一卡2卡4卡精品| 免费看光身美女| 男女啪啪激烈高潮av片| 在线看三级毛片| 国产探花在线观看一区二区| 变态另类成人亚洲欧美熟女| 美女大奶头视频| 亚洲精品国产成人久久av| 麻豆国产av国片精品| 老师上课跳d突然被开到最大视频| 亚洲av二区三区四区| 国产男靠女视频免费网站| 日韩精品有码人妻一区| 麻豆国产97在线/欧美| 桃色一区二区三区在线观看| av.在线天堂| 亚洲无线在线观看| 精品久久久久久久久久久久久| 人妻夜夜爽99麻豆av| 超碰av人人做人人爽久久| 亚洲不卡免费看| av在线蜜桃| 在线观看美女被高潮喷水网站| 日本在线视频免费播放| 自拍偷自拍亚洲精品老妇| 天天躁日日操中文字幕| 国产av麻豆久久久久久久| 美女免费视频网站| 成人av在线播放网站| 欧美激情国产日韩精品一区| 精品午夜福利在线看| 欧美3d第一页| 我的老师免费观看完整版| 我要搜黄色片| 欧美最黄视频在线播放免费| 亚洲美女视频黄频| 午夜激情欧美在线| 欧美三级亚洲精品| 亚洲七黄色美女视频| 99热这里只有是精品50| 男女下面进入的视频免费午夜| 在现免费观看毛片| 欧美日韩瑟瑟在线播放| 久久精品综合一区二区三区| 观看免费一级毛片| 精品久久久久久久久亚洲 | av天堂中文字幕网| 观看美女的网站| 乱码一卡2卡4卡精品| 午夜福利在线在线| 日韩欧美精品免费久久| 国产伦在线观看视频一区| 香蕉av资源在线| 51国产日韩欧美| 99久久九九国产精品国产免费| 免费高清视频大片| 极品教师在线视频| 亚洲 国产 在线| 啪啪无遮挡十八禁网站| 国产伦一二天堂av在线观看| 国产黄a三级三级三级人| 婷婷丁香在线五月| 一进一出抽搐gif免费好疼| 天美传媒精品一区二区| 国产激情偷乱视频一区二区| 日韩欧美一区二区三区在线观看| 蜜桃亚洲精品一区二区三区| 此物有八面人人有两片| 亚洲最大成人手机在线| av福利片在线观看| 岛国在线免费视频观看| 免费人成在线观看视频色| 日本色播在线视频| 亚洲国产色片| 欧美最新免费一区二区三区| 国产高清视频在线观看网站| 日本 欧美在线| 亚洲美女搞黄在线观看 | 日韩欧美国产一区二区入口| 午夜福利视频1000在线观看| 色综合色国产| 成人特级av手机在线观看| 别揉我奶头 嗯啊视频| 男女啪啪激烈高潮av片| 欧美成人一区二区免费高清观看| 日韩国内少妇激情av| АⅤ资源中文在线天堂| 九色国产91popny在线| 国产 一区精品| 亚洲av免费高清在线观看| 亚洲午夜理论影院| 亚洲美女黄片视频| 天堂动漫精品| 少妇高潮的动态图| 免费不卡的大黄色大毛片视频在线观看 | 别揉我奶头~嗯~啊~动态视频| av专区在线播放| 国产三级中文精品| av在线天堂中文字幕| 美女高潮的动态| 韩国av一区二区三区四区| 日本免费一区二区三区高清不卡| 国产蜜桃级精品一区二区三区| 最近中文字幕高清免费大全6 | 日日摸夜夜添夜夜添av毛片 | 亚洲欧美清纯卡通| 最近最新中文字幕大全电影3| 免费观看在线日韩| 久久精品国产清高在天天线| 色播亚洲综合网| 美女高潮的动态| 久久国产精品人妻蜜桃| 国产一级毛片七仙女欲春2| 有码 亚洲区| xxxwww97欧美| 色综合色国产| 在线免费观看的www视频| 亚洲国产色片| 色5月婷婷丁香| 长腿黑丝高跟| 精品久久久噜噜| 男女做爰动态图高潮gif福利片| 很黄的视频免费| 国产精品一区二区性色av| 中亚洲国语对白在线视频| 亚洲性久久影院| 变态另类丝袜制服| 淫妇啪啪啪对白视频| 成人国产麻豆网| 麻豆av噜噜一区二区三区| 一区二区三区高清视频在线| 美女cb高潮喷水在线观看| 国产精品一区二区三区四区免费观看 | 听说在线观看完整版免费高清| 国产色婷婷99| 亚洲18禁久久av| 欧洲精品卡2卡3卡4卡5卡区| 自拍偷自拍亚洲精品老妇| 男人和女人高潮做爰伦理| 一个人看的www免费观看视频| 一级毛片久久久久久久久女| 搡老熟女国产l中国老女人| 有码 亚洲区| 国产精品一区二区免费欧美| 日日撸夜夜添| 级片在线观看| 国产三级中文精品| 午夜激情欧美在线| 国产高清视频在线播放一区| 午夜精品在线福利| 日本黄大片高清| 久久天躁狠狠躁夜夜2o2o| 尾随美女入室| 淫秽高清视频在线观看| 免费人成在线观看视频色| 在线免费观看的www视频| 成熟少妇高潮喷水视频| 日韩中字成人| 国产精品伦人一区二区| 日日啪夜夜撸| 久久精品国产亚洲网站| 嫩草影视91久久| 精品欧美国产一区二区三| 看十八女毛片水多多多| 丝袜美腿在线中文| 亚洲va日本ⅴa欧美va伊人久久| 最近视频中文字幕2019在线8| 亚洲av成人精品一区久久| 草草在线视频免费看| 男人狂女人下面高潮的视频| 亚洲精品日韩av片在线观看| 老司机午夜福利在线观看视频| 日本五十路高清| 18禁黄网站禁片午夜丰满| 1000部很黄的大片| 人妻少妇偷人精品九色| 1000部很黄的大片| 99精品久久久久人妻精品| 国产一级毛片七仙女欲春2| 最近最新免费中文字幕在线| 网址你懂的国产日韩在线| 中文字幕熟女人妻在线| 欧美高清成人免费视频www| 久久久久久国产a免费观看| 99热精品在线国产| 亚洲熟妇熟女久久| 久久久久久久亚洲中文字幕| 香蕉av资源在线| 精品久久久久久成人av| 国产主播在线观看一区二区| 尤物成人国产欧美一区二区三区| 亚洲av.av天堂| 亚洲国产精品久久男人天堂| 丰满的人妻完整版| 欧美另类亚洲清纯唯美| 99久久精品热视频| 欧美国产日韩亚洲一区| 热99在线观看视频| 直男gayav资源| 热99在线观看视频| 日韩欧美国产在线观看| 免费不卡的大黄色大毛片视频在线观看 | 色av中文字幕| 搡女人真爽免费视频火全软件 | 国产精品电影一区二区三区| 国产黄a三级三级三级人| 免费人成在线观看视频色| 国产欧美日韩精品亚洲av| 成人美女网站在线观看视频| 麻豆国产97在线/欧美| 99精品在免费线老司机午夜| 久久久久久久午夜电影| 尾随美女入室| 日日干狠狠操夜夜爽| 少妇熟女aⅴ在线视频| 日日干狠狠操夜夜爽| 成人高潮视频无遮挡免费网站| 狠狠狠狠99中文字幕| 免费看光身美女| 91在线精品国自产拍蜜月| 亚洲最大成人中文| 嫩草影院入口| 亚洲人成网站在线播放欧美日韩| 久久午夜亚洲精品久久| 久久热精品热| 国产亚洲欧美98| 无遮挡黄片免费观看| 久久精品国产99精品国产亚洲性色| 深夜a级毛片| 91麻豆av在线| 久久婷婷人人爽人人干人人爱| 日本三级黄在线观看| 日韩欧美一区二区三区在线观看| 日本一本二区三区精品| 国产欧美日韩精品亚洲av| 窝窝影院91人妻| 久久久久久久午夜电影| 国产成人一区二区在线| 欧美激情在线99| 亚洲经典国产精华液单| 久久国内精品自在自线图片| 两个人的视频大全免费| 韩国av在线不卡| 国产精品福利在线免费观看| 人妻久久中文字幕网| 日本 av在线| av黄色大香蕉| 国产男人的电影天堂91| 国产av麻豆久久久久久久| 综合色av麻豆| 国产精品乱码一区二三区的特点| 精品久久久久久久末码| 日本黄大片高清| 精品人妻熟女av久视频| 日本与韩国留学比较| 成人二区视频| 99久久精品热视频| 精品久久久噜噜| 男女边吃奶边做爰视频| 国产伦一二天堂av在线观看| 免费人成视频x8x8入口观看| 三级男女做爰猛烈吃奶摸视频| 高清毛片免费观看视频网站| 午夜福利高清视频| 麻豆精品久久久久久蜜桃| 亚洲精品日韩av片在线观看| 久久久久精品国产欧美久久久| 亚洲av免费在线观看| 99精品在免费线老司机午夜| 偷拍熟女少妇极品色| 国内精品一区二区在线观看| 亚洲va在线va天堂va国产| 欧美日韩黄片免| 国产人妻一区二区三区在| 97碰自拍视频| 如何舔出高潮| 免费电影在线观看免费观看| 国产av麻豆久久久久久久| 乱人视频在线观看| 亚洲最大成人中文| 亚洲va在线va天堂va国产| 两个人的视频大全免费| 色视频www国产| eeuss影院久久| av黄色大香蕉| 国国产精品蜜臀av免费| 两性午夜刺激爽爽歪歪视频在线观看| 欧美xxxx黑人xx丫x性爽| 永久网站在线| 亚洲成a人片在线一区二区| 精品久久久久久久久亚洲 | 久久久久久大精品| 欧美精品啪啪一区二区三区| 中国美女看黄片| 麻豆久久精品国产亚洲av| 99热6这里只有精品| 一级a爱片免费观看的视频| 99久久成人亚洲精品观看| 五月玫瑰六月丁香| 少妇的逼水好多| 国产国拍精品亚洲av在线观看| 黄色丝袜av网址大全| АⅤ资源中文在线天堂| 午夜日韩欧美国产| 琪琪午夜伦伦电影理论片6080| 亚洲欧美日韩高清在线视频| 99九九线精品视频在线观看视频| 婷婷精品国产亚洲av| 久久午夜亚洲精品久久| 午夜福利在线在线| 日韩欧美在线二视频| 亚洲18禁久久av| netflix在线观看网站| 亚洲aⅴ乱码一区二区在线播放| 国产熟女欧美一区二区| 99热6这里只有精品| 国产一区二区在线观看日韩| 成人美女网站在线观看视频| 黄色日韩在线| 性色avwww在线观看| 久久久久久九九精品二区国产| 成年免费大片在线观看| 国产伦精品一区二区三区视频9| 人妻丰满熟妇av一区二区三区| 91久久精品国产一区二区三区| 少妇熟女aⅴ在线视频| 一本久久中文字幕| 99国产极品粉嫩在线观看| 亚洲avbb在线观看| АⅤ资源中文在线天堂| 久久精品国产亚洲av涩爱 | 丝袜美腿在线中文| av在线蜜桃| 欧美3d第一页| 美女黄网站色视频| 亚洲国产日韩欧美精品在线观看| 免费搜索国产男女视频| 婷婷精品国产亚洲av| 亚洲欧美日韩高清专用| 国产 一区精品| 久久人妻av系列| a级毛片a级免费在线| 老熟妇乱子伦视频在线观看| 99精品久久久久人妻精品| 成人三级黄色视频| 日本一本二区三区精品| 一级毛片久久久久久久久女| 国产精品久久久久久久电影| 两人在一起打扑克的视频| 99久久精品热视频| 小蜜桃在线观看免费完整版高清| 女人十人毛片免费观看3o分钟| 动漫黄色视频在线观看| 成人鲁丝片一二三区免费| 国产免费av片在线观看野外av| 免费一级毛片在线播放高清视频| 日本a在线网址| 999久久久精品免费观看国产| 欧美色欧美亚洲另类二区| 久久久成人免费电影| 美女被艹到高潮喷水动态| 日本a在线网址| 永久网站在线| 久久草成人影院| 美女高潮喷水抽搐中文字幕| 91狼人影院| 亚洲欧美清纯卡通| 村上凉子中文字幕在线| 日本一本二区三区精品| 国产伦人伦偷精品视频| 身体一侧抽搐| 老司机福利观看| 国产国拍精品亚洲av在线观看| 国产精品乱码一区二三区的特点| 欧美色视频一区免费| 久久国产乱子免费精品| 亚洲欧美日韩高清在线视频| 日本a在线网址| av在线蜜桃| 精品午夜福利视频在线观看一区| 欧美黑人欧美精品刺激| 久久久久久久久久成人| 国产精品嫩草影院av在线观看 | 午夜激情福利司机影院| www.色视频.com| 亚洲精华国产精华液的使用体验 | 亚洲欧美日韩卡通动漫| 欧美一区二区精品小视频在线| 人妻久久中文字幕网| 亚洲精品粉嫩美女一区| 老熟妇乱子伦视频在线观看| 国产成人av教育| 国产精品久久久久久精品电影| 日韩在线高清观看一区二区三区 | 伦理电影大哥的女人| 熟女人妻精品中文字幕| 久久99热这里只有精品18| 日韩欧美在线乱码| 高清毛片免费观看视频网站| 精品久久久久久,| 久久久精品大字幕| 最近中文字幕高清免费大全6 | 午夜免费激情av| 无遮挡黄片免费观看| 亚洲在线自拍视频| 欧美激情在线99| 成人国产一区最新在线观看| 国内久久婷婷六月综合欲色啪| 舔av片在线| 亚洲电影在线观看av| 99久国产av精品| 国产精品三级大全| av天堂中文字幕网| 国产亚洲欧美98| 亚洲国产欧洲综合997久久,| 黄色配什么色好看| 国产麻豆成人av免费视频| 日韩欧美一区二区三区在线观看| 久久久久免费精品人妻一区二区| 亚洲最大成人手机在线| 少妇丰满av| 在线国产一区二区在线| 美女cb高潮喷水在线观看| 精华霜和精华液先用哪个| 成人欧美大片| 欧美xxxx黑人xx丫x性爽| 村上凉子中文字幕在线| 精品国内亚洲2022精品成人| 中亚洲国语对白在线视频| 最好的美女福利视频网| 成人综合一区亚洲| 性插视频无遮挡在线免费观看| 国产av在哪里看| 欧美一级a爱片免费观看看| 亚洲aⅴ乱码一区二区在线播放| 国产三级中文精品| 男女那种视频在线观看| 久久久久久久精品吃奶| 午夜福利在线在线| 亚洲在线观看片| 天天躁日日操中文字幕| 欧美日本亚洲视频在线播放| 精品国内亚洲2022精品成人| 国产精品久久视频播放| 深夜a级毛片| 精品久久久久久久人妻蜜臀av| 俺也久久电影网| 午夜福利欧美成人| 人人妻人人看人人澡| 毛片女人毛片| 久久这里只有精品中国| 久久久久久久久久成人| 国产成人aa在线观看| 国产精品国产三级国产av玫瑰| 国产毛片a区久久久久| 亚洲欧美激情综合另类| 久久人人爽人人爽人人片va| 国产高清不卡午夜福利| 中出人妻视频一区二区| 久久久久久大精品| 国产一区二区三区视频了| 亚洲不卡免费看| 少妇裸体淫交视频免费看高清| 日本免费一区二区三区高清不卡|