◆徐夢(mèng)龍 黃家旺
?
樸素貝葉斯算法在垃圾郵件過濾方面的應(yīng)用
◆徐夢(mèng)龍 黃家旺
(西南大學(xué) 重慶 400715)
現(xiàn)在電子郵件應(yīng)用廣泛,但各種各樣的垃圾郵件造成的困擾也日益嚴(yán)重。在諸多垃圾郵件過濾的方法中,樸素貝葉斯算法取得了良好的效果。本文先簡單介紹貝葉斯模型,給出一種基于樸素貝葉斯分類模型的電子郵件過濾方法,并簡單分析其缺點(diǎn)。最后通過實(shí)驗(yàn)驗(yàn)證其有效性。
樸素貝葉斯分類器;郵件分類;垃圾郵件
隨著互聯(lián)網(wǎng)的普及,越來越多的信息通過電子郵件來進(jìn)行傳達(dá),一些不法分子利用電子郵件來進(jìn)行詐騙或者傳播廣告信息,給互聯(lián)網(wǎng)帶來了嚴(yán)重危害,垃圾郵件問題已經(jīng)成為網(wǎng)絡(luò)信息安全研究領(lǐng)域的重要組成部分。在如今已有的多種對(duì)垃圾郵件過濾的方法中,基于概率的貝葉斯分類算法簡單高效,而且精確率能夠達(dá)到90%左右,是現(xiàn)階段應(yīng)用最廣的垃圾郵件過濾技術(shù),其性能與判定樹與神經(jīng)網(wǎng)絡(luò)分類算法相當(dāng),在某些場(chǎng)合還優(yōu)于其他分類器。
貝葉斯原理是早在18世紀(jì)的英國學(xué)者貝葉斯提出的應(yīng)用所觀察到的現(xiàn)象對(duì)有關(guān)概率分布的主觀判斷進(jìn)行修正的方法。該定理表示對(duì)未來某件事情發(fā)生的概率可以通過計(jì)算它已經(jīng)發(fā)生過的頻率來估計(jì)。貝葉斯理論廣泛應(yīng)用在垃圾郵件過濾算法中,將其看成是一個(gè)分類問題,首先收集大量正常郵件和垃圾郵件作為樣本,然后對(duì)收集到的樣本進(jìn)行有指導(dǎo)的學(xué)習(xí),最后使用訓(xùn)練好的貝葉斯分類器對(duì)新到達(dá)的郵件進(jìn)行分類0。通過對(duì)郵件樣本的訓(xùn)練和學(xué)習(xí),貝葉斯分類器可以自動(dòng)獲得垃圾郵件的特征,并根據(jù)垃圾郵件特征的變化計(jì)算郵件文本屬于某個(gè)類別的概率,將該文本歸為概率最大的類別中去, 準(zhǔn)確地對(duì)垃圾郵件進(jìn)行過濾。
由假定條件相互獨(dú)立,故:
圖1 算法流程圖
目前該算法基于Python的實(shí)驗(yàn)已初步實(shí)現(xiàn),并且取得了可以接受的成果。樸素貝葉斯算法在郵件過濾器領(lǐng)域已經(jīng)取得良好的效果,而且具有很好的實(shí)用性。但其假設(shè)給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立,在實(shí)際中往往并不成立,而且其準(zhǔn)確性也依賴于訓(xùn)練集和劃分語言單元的分詞算法。后續(xù)工作是改善分詞算法,進(jìn)一步提高其準(zhǔn)確性。
[1]胡睿.基于貝葉斯分類的中文垃圾郵件過濾方法研究和改進(jìn)[D].北京:清華大學(xué),2006.
[2]田震生.基于文本聚類技術(shù)的郵件分類系統(tǒng)的研究與實(shí)現(xiàn)[D].南京:河海大學(xué)碩士論文,2005.
[3]翟軍昌.改進(jìn)的樸素貝葉斯垃圾郵件過濾算法[J].計(jì)算機(jī)工程與應(yīng)用,2009.
[4]馬楠.基于內(nèi)容的垃圾短信過濾技術(shù)研究[D].北京:北京郵電大學(xué),2014.
[5]孟兆玲.基于貝葉斯理論的垃圾郵件過濾技術(shù)綜述[J].現(xiàn)代計(jì)算機(jī),2007.