• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      三支決策基于粒度的郵件過濾

      2016-07-23 21:21:24肖瑤
      電腦知識與技術(shù) 2016年17期

      肖瑤

      摘要:現(xiàn)在目前的郵件處理方式一般將郵件分為:普通郵件和垃圾郵件。但在實(shí)際中,經(jīng)常會有安全的郵件被放進(jìn)垃圾郵件中。為了減少這部分的損失,現(xiàn)我們可以將郵件分為:普通郵件、可疑郵件和垃圾郵件。我們采用三支決策的方法,將郵件分為三類,來達(dá)到減少誤判的目的。同時(shí),由于現(xiàn)在的人們?yōu)榱穗[藏垃圾郵件,會將發(fā)送的內(nèi)容中的一些字換成形似的其他字,來達(dá)到避開分類的目的。因此本文提出將粒計(jì)算也加入到分類的標(biāo)準(zhǔn)中,更好的能識別垃圾郵件,為郵件進(jìn)行過濾分類。

      關(guān)鍵詞:郵件過濾;三支決策;粒計(jì)算

      中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)17-0248-04

      1 概述

      隨著科技的發(fā)展,網(wǎng)絡(luò)的普及,收發(fā)郵件已經(jīng)成了人們?nèi)粘I钪胁豢扇鄙俚墓ぷ?。我們都知道郵件擁有普及性、實(shí)用性等優(yōu)點(diǎn),然而有些人正是看中了這種高效的操縱性,頻繁、大量的制造垃圾郵件,妨礙了郵件本該帶來的方便,制造了不便。針對垃圾郵件過濾的問題,有人提出基于黑白名單過濾、反向DNS查詢等方法。而這類方法很容易被有意識的修改某些信息而繞過過濾因而產(chǎn)生誤判。因此,減少誤判也是我們所需要關(guān)注的重點(diǎn)。

      現(xiàn)在也有許多關(guān)于分類的機(jī)器學(xué)習(xí)算法來自動的對郵件進(jìn)行分類。其中,貝葉斯分類器取得了很好的效果。樸素貝葉斯分類器以及其他的郵件分類算法,對郵件過濾一般處理為兩類,即要么是垃圾郵件,要么是非垃圾郵件。而這種方法在現(xiàn)實(shí)生活中則太過絕對,很容易產(chǎn)生誤判。因此,本文基于姚一豫教授提出的三支決策理論,結(jié)合貝葉斯算法、粗糙集、粒計(jì)算等,以提高垃圾過濾的準(zhǔn)確性。

      2 相關(guān)理論

      2.1 樸素貝葉斯垃圾郵件過濾

      其中,可以很容易的從以往的數(shù)據(jù)統(tǒng)計(jì)中得到。這樣一來,(1)式可被改寫為:

      同理,我們也可以寫出郵件屬于垃圾郵件類的條件概率為:

      由(3)(4)式我們可以得到:

      其中。若超過某一閾值,則劃為非垃圾郵件類,否則,則劃為垃圾郵件類。

      2.2 知識粒度

      3 郵件過濾模型建立

      3.1 三支決策模型

      在樸素貝葉斯算法中,當(dāng)后驗(yàn)概率超過一定閾值時(shí),可以將郵件歸為非垃圾郵件類。在本文中的基于三支決策方法,我們將確定兩個閾值,來對郵件進(jìn)行三類的分類。一個閾值來決定郵件是否需要再判斷,另一個閾值來確定是否把郵件歸為垃圾郵件類。

      本文中的三支決策方法是基于決策粗糙集理論和貝葉斯定理,其中,決策粗糙集是由兩個狀態(tài)集和三個行動集來進(jìn)行的。

      3.2 過濾過程建立

      目前,許多不法分子為了躲避關(guān)鍵字的過濾,經(jīng)常采取一些手段來編輯郵件。例如郵件的內(nèi)容中,用很多特殊符號和繁體字,以及利用字形相似的文字來代替書寫,躲避關(guān)鍵詞。為了減少因這些問題帶來的誤判,本文將郵件劃分為有限個粒度,層層遞進(jìn)的來對郵件進(jìn)行處理。

      我們將郵件劃分為個粒度:。例如A1=[發(fā)送人],A2=[發(fā)送時(shí)間],,……,。顯然。

      決策過程:

      (1)對粒度進(jìn)行三支決策分類,若能夠劃分到正常郵件或垃圾郵件,則立即處理進(jìn)行劃分。不能確定的郵件劃為可以郵件類,等待后階段添加粒度,在進(jìn)行決策。

      (2)依次添加信息粒度,重復(fù)進(jìn)行(1)中的過程,對劃分為可疑郵件的郵件逐步添加屬性粒度信息,及時(shí)進(jìn)行決策。

      (3)若所有的屬性信息全部添加完后仍劃為可疑郵件,則交由收件人自己判斷。

      過程流程圖如下:

      由(12)式得:

      來劃分一次分類中郵件所屬的區(qū)域。

      3.3 模擬實(shí)驗(yàn)分析

      本文從自己的郵箱中提取數(shù)據(jù)集,一共400封郵件,其中124封正常郵件,276封垃圾郵件。接下來對郵件的關(guān)鍵字進(jìn)行提取,過濾一些意義不大的字眼,如“啊”,“一”,“的”等。提取每一個詞,計(jì)算每個詞在正常郵件和垃圾郵件中出現(xiàn)的頻率。例如,在276封垃圾郵件中,有23封包含這個詞語,那么它出現(xiàn)的頻率就是0.083。其中,為了避免太過絕對,若某個詞只出現(xiàn)在垃圾郵件中,那我們就假設(shè)它出現(xiàn)在正常郵件中的頻率為0.01。同時(shí),統(tǒng)計(jì)垃圾郵件中,發(fā)件人的郵箱和發(fā)送時(shí)間的頻率。并且,統(tǒng)計(jì)每一封垃圾郵件中繁體字出現(xiàn)的頻率。

      現(xiàn)有一封新郵件,我們將它分為5個粒度,A1=[郵件發(fā)件人],,,。

      其中,對于來說,若數(shù)據(jù)量不夠大的時(shí)候,可能無法作為分類的標(biāo)準(zhǔn)。當(dāng)數(shù)據(jù)量足夠大的時(shí)候,我們可以統(tǒng)計(jì)各個發(fā)件人發(fā)送的郵件在正常郵件中的概率,和在垃圾郵件中的概率。對于來說,大多數(shù)垃圾郵件的發(fā)送時(shí)間為非工作時(shí)間,我們可以統(tǒng)計(jì)在某些時(shí)間段類,郵件為正常郵件的概率和為垃圾郵件的概率。對于來說,一般當(dāng)繁體字和特殊符號過多時(shí),該郵件為垃圾郵件,我們可以統(tǒng)計(jì)繁體字和特殊符號出現(xiàn)在正常郵件中的概率,和出現(xiàn)在垃圾郵件中概率。對于來說,則需提取單詞來進(jìn)行分析,運(yùn)用條件概率和貝葉斯公式,來對郵件進(jìn)行分類。

      現(xiàn)對進(jìn)行分析。設(shè)為正常郵件類,為可疑郵件類,為垃圾郵件類。我們假設(shè)一封郵件為正常郵件和垃圾郵件的先驗(yàn)概率都為0.5,即。若記單詞“售”為,其出現(xiàn)在垃圾郵件中的概率為,則,問題變成了求。由貝葉斯公式,我們知:

      [Pr(NW1)=Pr(N)Pr(W1N)Pr(W1)] (18)

      其中,。假設(shè)經(jīng)統(tǒng)計(jì)過后,,,則可計(jì)算出。當(dāng)然,用一個詞的概率無法確定分類,所以,我們可將值較高的前20個求聯(lián)合概率,來得到最后此階段的概率。

      在各分類階段中,第階段得到,由式(17),當(dāng)時(shí),劃分為正常郵件;當(dāng),劃為可疑郵件,增加粒度進(jìn)行下一階段分類;時(shí),劃為垃圾郵件。其中,若數(shù)據(jù)量不夠大時(shí),可直接從開始進(jìn)行第一次分類。

      4 結(jié)束語

      在電子郵件普遍使用的今天,如何對郵件進(jìn)行準(zhǔn)確的過濾是我們一直關(guān)注的問題。本文以三支決策為基礎(chǔ),結(jié)合貝葉斯算法、粗糙集、粒計(jì)算等,建立了一個郵件過濾模型。通過從小到大的粒度,能夠更高效、更準(zhǔn)確地對郵件進(jìn)行過濾。下一步將考慮如何劃分適當(dāng)?shù)牧6?,來提高?zhǔn)確性和高效性。然后,也可以考慮在大數(shù)據(jù)的平臺下來實(shí)現(xiàn)這一過程。

      參考文獻(xiàn):

      [1] 王國胤, 張清華, 胡軍. 粒計(jì)算研究綜述[J]. 智能系統(tǒng)學(xué)報(bào),2007,2(6):8-26.

      [2] Bing Zhou, Yiyu Yao, Jigang Luo. A Three-Way Decision Approach to Email Spam Filtering[C]. Canadian Conference on Advances in Artificial Intelligence. Springer-Verlag, 2010:28-39.

      [3] Sahami M, Dumais S, Heckerman D, et al. A Bayesian Approach to Filtering Junk E-Mail[J]. Papers from the Workshop Aaai,1998.

      [4] Yao Y. Three-Way Decision: An Interpretation of Rules in Rough Set Theory[C]// International Conference on Rough Sets and Knowledge Technology. Springer-Verlag, 2009:642-649.

      [5] 王國胤, 張清華. 不同知識粒度下粗糙集的不確定性研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2008, 31(9):1588-1598.

      [6] 翟軍昌, 秦玉平, 王春立. 改進(jìn)的樸素貝葉斯垃圾郵件過濾算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009, 45(14):145-148.

      [7] Yao Y. The superiority of three-way decisions in probabilistic rough set models[J]. Information Sciences, 2011, 181(6):1080-1096.

      [8] 王國胤, 張清華, 馬希驁,等. 知識不確定性問題的粒計(jì)算模型[J]. 軟件學(xué)報(bào), 2011, 22(4):676-694.

      [9] 李建林, 黃順亮. 多階段三支決策垃圾短信過濾模型[J]. 計(jì)算機(jī)科學(xué)與探索, 2014, 8(2):226-233.

      [10] 李華雄, 劉盾, 周獻(xiàn)中. 決策粗糙集模型研究綜述[J]. 重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2010, 22(5):624-630.

      都江堰市| 施秉县| 楚雄市| 曲沃县| 库伦旗| 棋牌| 连云港市| 天气| 邢台市| 宝清县| 浦江县| 庆云县| 莱州市| 巴东县| 同德县| 慈利县| 赤水市| 张掖市| 米林县| 兴仁县| 荣昌县| 红原县| 南部县| 湄潭县| 慈利县| 大埔区| 酒泉市| 连州市| 资中县| 铅山县| 赞皇县| 彭州市| 来安县| 平利县| 虞城县| 双城市| 南岸区| 保定市| 信宜市| 肥东县| 北海市|