譚 營(yíng),朱元春
(1.北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;2.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871)
隨著信息技術(shù)的持續(xù)發(fā)展和互聯(lián)網(wǎng)的日益普及,電子郵件(E-mail)已成為人們?nèi)粘Mㄓ嵔涣鞯闹匾绞街?然而,垃圾電子郵件(unsolicited bulk email—UBE,or Spam)的涌入,給電子郵件通訊帶來(lái)諸多不便,引發(fā)了日益嚴(yán)重的問(wèn)題.垃圾電子郵件不僅會(huì)耗費(fèi)通信帶寬、網(wǎng)絡(luò)資源,而且消耗人們大量的處理時(shí)間,造成生產(chǎn)力浪費(fèi),使公司蒙受巨大經(jīng)濟(jì)損失.因此,垃圾郵件檢測(cè)技術(shù)和方法的研究,已成為國(guó)內(nèi)外研究的熱點(diǎn),具有必要性和重大意義.
在反垃圾電子郵件技術(shù)研究中,學(xué)者們相繼提出眾多的郵件特征提取方法和垃圾郵件檢測(cè)過(guò)濾方法.本文是對(duì)反垃圾郵件技術(shù)和方法研究現(xiàn)狀的綜述,重點(diǎn)介紹以下內(nèi)容:垃圾電子郵件的現(xiàn)狀、用于垃圾郵件檢測(cè)的郵件特征提取方法、現(xiàn)有的反垃圾郵件技術(shù)以及反垃圾郵件系統(tǒng)評(píng)估準(zhǔn)則和標(biāo)準(zhǔn)數(shù)據(jù)庫(kù).
在反垃圾電子郵件技術(shù)研究中,一些專家學(xué)者和研究機(jī)構(gòu)給出不同的垃圾電子郵件定義.
Cranor等人[1]將其定義為:“未經(jīng)請(qǐng)求的大量電子郵件(unsolicited bulk email,UBE)”.垃圾電子郵件還被定義為[2]:“未經(jīng)請(qǐng)求的商業(yè)電子郵件(unsolicited commercial email,UCE)”.中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)將垃圾電子郵件定義為[3]:收件人事先沒(méi)有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件;收件人無(wú)法拒收的電子郵件;隱藏發(fā)件人身份、地址、標(biāo)題等信息的電子郵件;含有虛假的信息源、發(fā)件人、路由等信息的電子郵件;含有病毒、惡意代碼、色情、反動(dòng)等不良信息或有害信息的郵件.
以上3種定義盡管不同,卻有著一個(gè)共同點(diǎn):未經(jīng)請(qǐng)求.這是垃圾電子郵件與正常電子郵件的本質(zhì)區(qū)別.正常電子郵件是人們正常通訊、交流的媒介,包含著交互信息的需求.而垃圾電子郵件往往包含收件人不感興趣的內(nèi)容,且在未經(jīng)許可的情況下發(fā)送給收件人.垃圾電子郵件一般包含商業(yè)廣告信息,且成批量發(fā)送,這也是定義其為UBE、UCE的原因.同時(shí),垃圾電子郵件發(fā)送者為逃避對(duì)電子郵件的反向追蹤,會(huì)刻意偽造發(fā)件人、路由、信息源等信息.故在多數(shù)情況下,這3種定義是一致的.
根據(jù)Symantec公司的統(tǒng)計(jì)報(bào)告,2008年全球范圍垃圾電子郵件的平均比例已經(jīng)占到了總郵件數(shù)的80% 左右[4].依據(jù) Ferris Research 的研究估計(jì)[5],2009年垃圾電子郵件將耗費(fèi)全球1 300億美元的開(kāi)銷,其中,勞動(dòng)力浪費(fèi)引起的開(kāi)銷占總開(kāi)銷的85%.這將比2007年的估計(jì)增長(zhǎng)30%,而比2005年的數(shù)據(jù)增長(zhǎng)100%.根據(jù)Sophos公司最新調(diào)查結(jié)果顯示[6],中國(guó)的垃圾電子郵件的數(shù)量繼美國(guó)、巴西之后,位列第3位.圖1顯示出各國(guó)家的垃圾電子郵件數(shù)量比例.
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)2009年第一季度中國(guó)反垃圾電子郵件調(diào)查結(jié)果[7]指出,中國(guó)網(wǎng)民平均每周收到17.68封垃圾電子郵件,與去年同比增加0.04封,占郵件總數(shù)的57.52%.圖2給出中國(guó)網(wǎng)民在2008年第一季度至2009年第一季度平均每周收到垃圾電子郵件的比例.調(diào)查報(bào)告還指出,處理這些垃圾電子郵件將耗費(fèi)中國(guó)網(wǎng)民平均每周12.35 min.僅考慮浪費(fèi)時(shí)間的因素,2009年第一季度垃圾電子郵件致使中國(guó)損失人民幣339.59億元,與2007年同比增長(zhǎng)151.19億元,漲幅為80.25%.鑒于垃圾電子郵件所引發(fā)的這些嚴(yán)重社會(huì)問(wèn)題,近年來(lái),反垃圾電子郵件策略受到了前所未有的關(guān)注.
圖1 各國(guó)家垃圾電子郵件數(shù)量比例Fig.1 The proportion of spam-relaying of different countries
圖2 中國(guó)網(wǎng)民平均每周收到垃圾電子郵件的比例Fig.2 Weekly average ratio of spam received by cybercitizens in China
對(duì)于垃圾郵件檢測(cè)系統(tǒng)來(lái)說(shuō),郵件特征提取是極其關(guān)鍵的環(huán)節(jié),甚至比模式識(shí)別方法的選擇、分類器的設(shè)計(jì)與使用更為重要.郵件特征提取方法的準(zhǔn)確性、可區(qū)分性、穩(wěn)定性和自適應(yīng)性將會(huì)直接影響到系統(tǒng)整體的分類效果與性能.據(jù)中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)2008年第四季度中國(guó)反垃圾郵件調(diào)查統(tǒng)計(jì)[8],用戶收到垃圾郵件的正文格式主要是3種:圖片+文本格式、純文本格式和純圖片格式.本節(jié)將綜述經(jīng)典的基于文本的郵件特征提取方法、基于圖片的郵件特征提取方法和基于行為的郵件特征提取方法.
基于文本內(nèi)容的郵件特征提取方法一般包含2個(gè)階段:1)詞篩選(terms selection):依據(jù)詞的重要性(可區(qū)分度)對(duì)特征詞進(jìn)行排序,選擇可區(qū)分度好的特征詞進(jìn)入下一階段;2)特征提取與表示:提取出郵件特征并表示成統(tǒng)一的形式.
2.1.1 文本詞篩選方法
當(dāng)郵件庫(kù)中的郵件經(jīng)歷切詞階段后,大量的單詞被獲取,如果不經(jīng)過(guò)詞篩選過(guò)程,會(huì)導(dǎo)致特征維度過(guò)高,引發(fā)維度災(zāi)難.詞篩選一方面可以降低特征維度和計(jì)算復(fù)雜度,另一方面還可以減小噪聲(區(qū)分度差的單詞)的不良影響.下面介紹幾種常用的詞篩選方法:
1)信息熵.
在信息論中,信息熵(IG)又被稱為Kullback-Leibler距離[9].它能夠度量2個(gè)概率分布 P(x)和Q(x)的距離.在垃圾郵件檢測(cè)技術(shù)研究中,它被用于度量單詞的優(yōu)良度(區(qū)分度).根據(jù)該方法,可以計(jì)算出,當(dāng)知道給定單詞ti是否在郵件中出現(xiàn)時(shí),所能獲得的郵件類型信息的量.單詞ti的信息熵被定義如下:
式中:C表示郵件類型,cs和cl分別表示郵件類型是垃圾郵件(spam)和正常郵件(legitimate email),ti表示單詞ti在郵件中出現(xiàn),而ˉti表示單詞ti未在郵件中出現(xiàn).式中的概率可以根據(jù)訓(xùn)練集數(shù)據(jù)進(jìn)行估計(jì).根據(jù)該式,每個(gè)單詞的信息熵值將被計(jì)算出來(lái),信息熵值大的單詞將被選擇進(jìn)入下一階段.
2)詞頻方差.
Koprinska等人[10]研究出詞頻方差法(term frequency variance,TFV),來(lái)選取具有高詞頻方差的詞.他們認(rèn)為詞頻方差大的詞包含更多的信息量.依據(jù)該方法,那些傾向于出現(xiàn)在某一種類型郵件(垃圾郵件或正常郵件)的詞將被選擇,而那些在2種類型郵件中出現(xiàn)頻率相當(dāng)?shù)脑~將被移除.在反垃圾郵件技術(shù)研究領(lǐng)域中,詞頻方差被定義如下:
式中:Tf(ti,C)表示單詞ti在類型為C的郵件中的出現(xiàn)頻率,Tμf(ti)表示單詞ti在2種類型郵件中出現(xiàn)的平均頻率.
文獻(xiàn)[10]指出在多數(shù)情況下,詞頻方差方法性能優(yōu)于信息熵方法.具有最大信息熵值和最大詞頻方差的前100個(gè)詞的對(duì)比顯示,這些詞具有以下特征:a)在內(nèi)容為語(yǔ)言學(xué)相關(guān)的正常郵件中頻繁出現(xiàn);b)在垃圾郵件中頻繁出現(xiàn),卻在正常郵件中極少出現(xiàn).
3)文檔頻率.
文檔頻率(document frequency,DF)指的是某一特定的單詞ti所出現(xiàn)過(guò)的郵件的數(shù)量.依據(jù)該方法,文檔頻率值大于預(yù)設(shè)閾值的詞將被選擇,而文檔頻率值小于該閾值的詞將被舍棄.單詞ti的文檔頻率被定義如下:
式中:M表示整個(gè)訓(xùn)練集,mj表示M中的一封郵件.
文檔頻率法認(rèn)為低頻單詞所含的類別信息量較少,移除它們不會(huì)影響整體分類性能.文獻(xiàn)[11]指出,當(dāng)移除90%的低信息量單詞時(shí),文檔頻率方法與信息熵和χ2統(tǒng)計(jì)量方法的性能相當(dāng).文檔頻率方法的主要優(yōu)點(diǎn)是,計(jì)算復(fù)雜度低,與訓(xùn)練樣本的數(shù)量成線性比例增長(zhǎng).
4)其他詞篩選方法.
詞篩選方法在垃圾郵件檢測(cè)系統(tǒng)中起著重要的作用.為了更好地理解詞篩選方法,下面列出3種其他的常用方法的計(jì)算式[11-13].
a)χ2統(tǒng)計(jì)量(CHI):
b)比值比(odds ratio):
c)術(shù)語(yǔ)強(qiáng)度(terms strength):
式中:c∈{cs,cl}表示給定的郵件類型,相應(yīng)的∈{cs,cl}/c,x和y表示訓(xùn)練集中類型相同的任意2封不同郵件.
2.1.2 文本特征提取方法
1)詞匯袋法
詞匯袋法(bag-of-words,BoW)也被稱為向量空間模型,是垃圾郵件檢測(cè)技術(shù)研究領(lǐng)域應(yīng)用最廣泛的方法之一[12].通過(guò)觀察特征詞是否在郵件中出現(xiàn),將每封郵件轉(zhuǎn)換成一個(gè)d維的特征向量 <x1,x2,…,xd>,其中每維特征值xi可以看作是特征詞ti的函數(shù).對(duì)于xi,有2種常用的類型表示方法:布爾型和頻率型[14].在布爾型表示下,xi按下列方式賦值:若ti在郵件中出現(xiàn),那么給xi賦值1,否則給其賦值0.如果采用頻率類型表示,那么xi則表示為該郵件中特征詞ti的詞頻.Schneider的實(shí)驗(yàn)顯示,這2種類型的表示法性能相當(dāng)[15].
2)稀疏二元多項(xiàng)式哈希.
稀疏二元多項(xiàng)式哈希(sparse binary polynomialhashing,SBPH)運(yùn)用滑動(dòng)窗口方法,能夠從郵件中提取出大量的不同特征[16-17].它使用一個(gè)長(zhǎng)度為N個(gè)單詞的滑動(dòng)窗口依次滑過(guò)郵件中的單詞,窗口移動(dòng)步長(zhǎng)為1個(gè)單詞.在每次窗口的滑動(dòng)中,都將按以下方式提取2N-1個(gè)特征:最新進(jìn)入窗口的單詞被保留,而窗口中的其他單詞被選擇保留或刪除,選擇之后,整個(gè)窗口被整體映射為一個(gè)特征.對(duì)于窗口中的N -1個(gè)單詞,存留選擇有2N-1種,故可映射成2N-1個(gè)不同的特征.然后,每個(gè)特征將被計(jì)算為一個(gè)特定的哈希值,特征提取之后可以根據(jù)前面介紹的詞篩選方法進(jìn)行特征篩選,以降低特征維度.該方法的分類準(zhǔn)確度較高,但因?yàn)樘卣鲾?shù)量的龐大計(jì)算復(fù)雜度很高.
3)正交稀疏雙詞.
為了降低SBPH方法的冗余度和復(fù)雜度,Siefkes等人[17]提出正交稀疏雙詞法(orthogonal sparse bigrams,OSB)來(lái)提取一個(gè)較小的特征集合.該方法同樣使用長(zhǎng)度為N個(gè)單詞的滑動(dòng)窗口提取特征,與SPBH方法不同的是,只有具有共同單詞的單詞對(duì)被提取作為特征.對(duì)于每個(gè)窗口來(lái)說(shuō),最新進(jìn)入窗口的單詞被保留,并作為共用單詞.然后,從剩下的N-1個(gè)單詞中選擇1個(gè)與其組成單詞對(duì),如此每個(gè)窗口可以構(gòu)造出N-1個(gè)單詞對(duì),映射出N-1個(gè)特征.與SPBH方法相比,這樣做大大減少了特征的數(shù)量.文獻(xiàn)[17]中的實(shí)驗(yàn)表明OSB性能略優(yōu)于SBPH方法.
4)基于人工免疫系統(tǒng).
Oda等人[18]設(shè)計(jì)出一種反垃圾郵件免疫模型,運(yùn)用正則表達(dá)式構(gòu)造抗體(檢測(cè)器).正則表達(dá)式的運(yùn)用,使得每個(gè)抗體都能夠匹配大量的抗原(垃圾郵件),這樣能有效降低抗體(特征)集合.模仿生物免疫系統(tǒng)(biological immune system,BIS)的功能,他們給每個(gè)抗體賦予不同的權(quán)重.算法初期,所有的抗體權(quán)重被初始化為一個(gè)缺省值,經(jīng)過(guò)一段時(shí)間的運(yùn)行,那些匹配垃圾郵件較多的抗體的權(quán)重將被增加,而那些與正常郵件匹配的抗體的權(quán)重將被降低.當(dāng)抗體的權(quán)重低于預(yù)設(shè)閾值時(shí),該抗體將從系統(tǒng)模型中被移除.
Ruan等人[19]提出一種基于免疫濃度的特征構(gòu)造方法.該方法根據(jù)單詞的傾向性構(gòu)建出2個(gè)基因庫(kù).若一個(gè)單詞在垃圾郵件中出現(xiàn)頻率高(傾向在垃圾郵件中出現(xiàn)),那么將該單詞添加到垃圾郵件基因庫(kù),否則將其添加到正常郵件基因庫(kù).然后,根據(jù)郵件中單詞在2個(gè)基因庫(kù)中的出現(xiàn)情況計(jì)算出每封郵件的“自己濃度”和“異己濃度”.這2個(gè)濃度值共同構(gòu)成郵件的二維特征向量.
為了避開(kāi)垃圾郵件檢測(cè)系統(tǒng)的過(guò)濾,垃圾郵件發(fā)送者有時(shí)會(huì)采用圖片型郵件來(lái)發(fā)送廣告信息.檢測(cè)這類垃圾郵件的關(guān)鍵在于提取有效的圖片特征.目前,基于圖片的特征提取研究仍處于初步,常用的圖片特征包括以下方面:
1)圖像屬性特征.
這些特征包括圖片類型、大小、顏色、飽和度等.垃圾郵件發(fā)送者往往傾向選擇高壓縮率的圖像格式,從而能夠在較短時(shí)間內(nèi)發(fā)送出大量的垃圾郵件.故可以選取圖片的類型作為其中一個(gè)特征,來(lái)檢測(cè)圖片型垃圾郵件[20].圖像的這些屬性均包含了一定的類別信息,廣告圖片的這些屬性值往往與正常郵件有一定的差異.
2)邊緣特征.
相對(duì)正常郵件來(lái)說(shuō),垃圾郵件圖像中往往包含更多的文字信息.而包含大量文字的圖片會(huì)具有不同的邊緣特性.因此可以利用邊緣特性,如:方向性、邊緣強(qiáng)度、邊緣輪廓形狀,來(lái)有效地檢測(cè)垃圾郵件[21].
3)文字特征.
可以利用文字識(shí)別工具將圖片中的文字提取出來(lái),然后對(duì)文字進(jìn)行語(yǔ)言分析、關(guān)鍵詞匹配,也可以采用基于文本的特征提取方法,從而有效檢測(cè)垃圾郵件.
4)其他特征.
除了上述特征外,可以利用圖片的紋理特征、異質(zhì)特征、噪聲特征等有效地對(duì)郵件類型進(jìn)行區(qū)分,對(duì)垃圾郵件進(jìn)行過(guò)濾.
基于行為的垃圾郵件檢測(cè)技術(shù)是一種新型過(guò)濾垃圾郵件的手段,通過(guò)提取垃圾郵件與正常郵件有區(qū)分的行為特征,來(lái)過(guò)濾垃圾郵件.本節(jié)對(duì)常用的基于行為的反垃圾郵件技術(shù)進(jìn)行綜述,從4個(gè)方面闡述常用的郵件行為特征:基于郵件頭部信息及系統(tǒng)日志的行為特征、基于附件的行為特征、基于網(wǎng)絡(luò)的行為特征以及基于用戶行為的特征.
2.3.1 基于郵件頭部信息及系統(tǒng)日志的行為分析
正常情況下,郵件的頭部信息能反映郵件傳送信息及發(fā)信人的基本意圖:發(fā)件人、收件人、抄送、發(fā)送時(shí)間等.一般情況下,正常的郵件在這些條目中將用正確的格式填入完整的信息.但為了避開(kāi)一些常用的反垃圾郵件機(jī)制,垃圾郵件發(fā)送者往往在這些條目中填入偽造的數(shù)據(jù)和錯(cuò)誤的格式.
文獻(xiàn)[22]針對(duì)這種行為模式提出一種基于行為的反垃圾郵件機(jī)制:首先,該文獻(xiàn)在頭部信息中選取最能區(qū)分出垃圾郵件的7個(gè)條目,如From field、To field、Reply-To field等;然后,基于這些基本的特征,從他們的交叉比對(duì)組合中選出10個(gè)特征,如From-To、From-Reply-To等;接著針對(duì)各條目的數(shù)據(jù)正確、錯(cuò)誤、偽造類型分別定義出相應(yīng)的類別,并進(jìn)行編碼,得到113維的特征向量;最后,作者使用支持向量機(jī)、貝葉斯和決策樹(shù)3種分類方法對(duì)特征化后的郵件數(shù)據(jù)庫(kù)進(jìn)行分類.實(shí)驗(yàn)中,支持向量機(jī)在各數(shù)據(jù)集上的性能優(yōu)于其他2種方法,但決策樹(shù)有較高的準(zhǔn)確度.相對(duì)于基于內(nèi)容的機(jī)制來(lái)說(shuō),該機(jī)制擁有較高的準(zhǔn)確度、較低的特征維度和較低的時(shí)間復(fù)雜度.
文獻(xiàn)[23-24]在此基礎(chǔ)上加入系統(tǒng)日志中的一些條目信息作為特征,并利用一種增強(qiáng)型的BP神經(jīng)網(wǎng)絡(luò)對(duì)特征化后的郵件數(shù)據(jù)進(jìn)行分類,根據(jù)各特征的重要程度賦予各個(gè)特征不同的權(quán)重.文獻(xiàn)[25]指出,有190多個(gè)頭部信息條目和23個(gè)系統(tǒng)日志條目可以被郵件用戶代理/郵件傳送代理(mail user Agent/mail transfer Agent,MUA/MTA)使用.文獻(xiàn)[23]研究探討了多達(dá)13種形態(tài)24種類型的垃圾郵件行為形態(tài),選取32個(gè)基本條目及38個(gè)交叉比對(duì)條目提取特征.并且還進(jìn)行實(shí)驗(yàn)驗(yàn)證交叉比對(duì)條目的重要性.文獻(xiàn)[24]觀察得出,MUA/MTA并沒(méi)有使用所有的頭部信息和系統(tǒng)日志條目,文中選出6個(gè)最有意義的頭部信息條目和4個(gè)最有意義、最高出現(xiàn)頻率的系統(tǒng)日志條目,以及基于此選擇出16個(gè)交叉比對(duì)條目進(jìn)行研究實(shí)驗(yàn).
文獻(xiàn)[26]提出基于行為的分階段過(guò)濾垃圾郵件技術(shù).在過(guò)濾的過(guò)程中,該機(jī)制不僅分析處理到目前階段為止的所有行為信息,而且還特定分析處理新增的行為信息.根據(jù)SMTP協(xié)議,它將處理分為4個(gè)階段:HELO、FROM、RCPT TO和DATA,利用各個(gè)階段中的屬性信息進(jìn)行分類處理.如果郵件在前一個(gè)階段中被確定分類為垃圾郵件,那么郵件就會(huì)被直接拒絕掉,而不會(huì)進(jìn)入下一個(gè)階段,這樣做能夠節(jié)省資源.文章采用貝葉斯分類方法,實(shí)驗(yàn)效果在時(shí)間性能和資源耗用上優(yōu)于其他的一些算法.
文獻(xiàn)[27]對(duì)發(fā)送人 IP地址、SMTP ID序列、URL連接和回復(fù)郵件地址進(jìn)行分析,對(duì)其按照設(shè)定的公式計(jì)算相應(yīng)郵件的評(píng)分,然后用人工免疫系統(tǒng)對(duì)處理過(guò)的數(shù)據(jù)進(jìn)行分類.該機(jī)制具有可靠性、有效性和可擴(kuò)充性.
文獻(xiàn)[28]針對(duì)IP和域名,發(fā)送者、接收者的對(duì)應(yīng)關(guān)系,發(fā)送者、接收者郵件地址的長(zhǎng)度,以及發(fā)送頻率等信息為特征,用決策樹(shù)進(jìn)行分類.
2.3.2 基于附件的行為分析
文獻(xiàn)[29-30]分析郵件的附件行為用于發(fā)現(xiàn)帶病毒的可疑垃圾郵件.文中MET客戶端(malicious email tracking)采用MD5哈希技術(shù)給每個(gè)附件賦予一個(gè)特定標(biāo)識(shí),并保存一個(gè)相關(guān)記錄(標(biāo)識(shí)、時(shí)間戳、附件有無(wú)病毒、發(fā)件人地址、收件人地址).MET服務(wù)器端接收MET客戶端的信息,并根據(jù)附件的特征進(jìn)行分析處理——病毒事件、附件產(chǎn)生率、病毒生命周期、病毒事件頻率、病毒死亡率、病毒流行程度、病毒威脅、病毒傳播等.當(dāng)MET客戶端發(fā)現(xiàn)某一附件的產(chǎn)生率或流行率大于給定的閾值時(shí),將會(huì)對(duì)其他的特征進(jìn)行進(jìn)一步分析,來(lái)確定是否為病毒.如果是病毒,就將此報(bào)告給中心服務(wù)器.中心服務(wù)器將會(huì)基于其他客戶端關(guān)于此附件的報(bào)告來(lái)作出最終決定,判明其是否為病毒.若為病毒,則將相關(guān)標(biāo)識(shí)、病毒死亡率、該種病毒發(fā)生頻率等信息發(fā)給客戶端,來(lái)避免將來(lái)的感染.如果客戶端提供了郵件地址和IP地址,那么就可以根據(jù)信息追蹤出病毒的制造者.
文獻(xiàn)[31]提到將郵件攜帶附件的類型(圖片、二進(jìn)制文件、文本文件等),以及附件的數(shù)量作為區(qū)分垃圾與非垃圾郵件的行為特征.
2.3.3 基于網(wǎng)絡(luò)的行為分析
1)基于社會(huì)網(wǎng)絡(luò)的特征提取.
文獻(xiàn)[30,32]分析郵件傳送過(guò)程中的簇行為特征,即用郵件經(jīng)常交流的一些人形成特定的簇,郵件發(fā)送行為一般發(fā)生在簇內(nèi)部.比如說(shuō),一般情況下,一個(gè)用戶不會(huì)將同一個(gè)郵件信息同時(shí)發(fā)送給他的配偶、上司、朋友等,這種概率非常小.然而一個(gè)對(duì)用戶地址簿的攻擊者顯然不知道這些社會(huì)關(guān)系模式,當(dāng)他試圖給地址簿中的所有人發(fā)送郵件時(shí)就會(huì)違反正常郵件的簇行為特征.從概念上來(lái)說(shuō),有2種簇模式:用戶簇模式和群落簇模式.
用戶簇模式通過(guò)對(duì)單個(gè)用戶帳戶的郵件歷史分析計(jì)算得到.對(duì)于某一郵件來(lái)說(shuō),收件人列表(收件人、抄送、密送)中的所有帳戶看作一個(gè)簇關(guān)系.為了避免簇的數(shù)量過(guò)大,以及冗余現(xiàn)象,只選定那些最大化的簇,即所選定的每個(gè)簇都不是其他簇的子集.例如,有3 個(gè)收件人列表:[A,B,C],[A,B]和[A,B,D],則會(huì)選擇2 個(gè)作為簇——[A,B,C]和[A,B,D].若某一郵件的收件人列表不是任何用戶簇的子集,那么稱其為不一致簇行為.這種方法往往要與其他模型結(jié)合使用,以處理特殊的收件人列表情況.如果用戶曾發(fā)過(guò)一個(gè)全體收件人列表的廣播郵件,那么該機(jī)制就會(huì)失效.然而,這種情況較少發(fā)生,一般情況下,用戶只會(huì)給地址簿中少于10%的帳號(hào)同時(shí)發(fā)送郵件.
群落簇模式通過(guò)2個(gè)用戶間的郵件交流數(shù)量建立相應(yīng)的聯(lián)系.若兩帳戶間交換的郵件數(shù)量超過(guò)給定閾值,那么就認(rèn)為這兩帳戶間存在聯(lián)系.然后,利用層次算法,逐步建立大小為n的簇.例如,當(dāng)前層次為2,存在 AB、AC、AD、BC、BD、CE 6 個(gè)簇.只有當(dāng)只是最后一個(gè)成員不同時(shí),2個(gè)簇才能進(jìn)行融合,以避免重復(fù).例如,AB、AC形成候選簇ABC,但是AB、BC不再融合.當(dāng)所有候選簇形成完畢后,要對(duì)其合法性進(jìn)行檢查.只有當(dāng)前層次中同時(shí)存在AB、AC、BC時(shí),候選簇ABC才是合法的.最后,要將那些是其他簇的子集的簇去掉,如AB、AC、BC將會(huì)被去除.如此進(jìn)行下去,形成大小為n的群落簇.
文獻(xiàn)[33]定義3種類型的圖,來(lái)描述郵件的發(fā)送行為:有向圖、無(wú)向圖和差分圖.在有向圖中,節(jié)點(diǎn)代表至少進(jìn)行了一次發(fā)送或接收行為的電子郵件用戶,有向圖的邊表示一用戶從另一用戶那里接收或向其發(fā)送了一封郵件.無(wú)向圖中,節(jié)點(diǎn)代表至少進(jìn)行了一次與另一用戶發(fā)送和接收行為的那些郵件用戶,邊代表兩用戶間交換了信息.差分圖是基于2個(gè)有向圖建立的,用于表示那些存在某一圖中,而不存在于另一圖中的那些邊.基于此,算法共分為3個(gè)階段:a)基于服務(wù)器的系統(tǒng)日志,建立3種類型的圖;b)利用有向圖和無(wú)向圖,對(duì)郵件發(fā)送者進(jìn)行初步分類,列入黑名單、白名單或灰名單;c)利用差分圖,對(duì)b)階段的分類結(jié)果進(jìn)行調(diào)整,得到最終分類結(jié)果.
2)郵件的網(wǎng)絡(luò)分布特征.
文獻(xiàn)[34]分析垃圾郵件發(fā)送的網(wǎng)絡(luò)層次行為,是首次分析垃圾郵件、僵尸網(wǎng)絡(luò)和網(wǎng)絡(luò)路由的相互關(guān)系.該文獻(xiàn)通過(guò)研究IP地址空間分布特征,來(lái)分析垃圾郵件發(fā)送者、垃圾郵件僵尸網(wǎng)絡(luò)和正常郵件發(fā)送者的網(wǎng)絡(luò)分布.大多情況下,正常郵件與垃圾郵件分布大致相同,大多數(shù)的郵件都來(lái)自一小部分IP地址空間.但有一小部分例外的情況,在地址段80.* ~90.* 中,絕大多數(shù)郵件都是垃圾郵件,在地址段60.* ~70.* 中,絕大多數(shù)郵件都是正常郵件.這表明可以將IP地址作為一個(gè)區(qū)分特征.該文獻(xiàn)還分析了僵尸網(wǎng)絡(luò)的行為特征,分析得出:絕大部分的垃圾郵件是從Windows操作系統(tǒng)中發(fā)出的,并且有很大比例(25%)的垃圾郵件來(lái)自僵尸網(wǎng)絡(luò).65%的已感染的IP地址僅發(fā)送了一次垃圾郵件,且其中75%發(fā)送時(shí)間短于2 min.由于這些IP地址生命周期短,這種情況使得黑名單方法失效.研究還表明,每個(gè)僵尸網(wǎng)絡(luò)節(jié)點(diǎn)在整個(gè)周期發(fā)送的垃圾郵件數(shù)量少于100封.垃圾郵價(jià)發(fā)送者利用大量的僵尸網(wǎng)絡(luò)節(jié)點(diǎn)發(fā)送垃圾郵件,且對(duì)每個(gè)節(jié)點(diǎn)來(lái)說(shuō),只利用很短的時(shí)間,發(fā)送少量的郵件.因此,基于黑名單和發(fā)送數(shù)量的方法對(duì)這種情況都會(huì)失效.文獻(xiàn)還分析了邊界網(wǎng)關(guān)協(xié)議(border gateway protocol,BGP),用路由廣播傳播垃圾郵件.該機(jī)制使用了大量的IP地址空間,并且發(fā)送者在空間中分散分布,使得不容易被察覺(jué).目前使用這種機(jī)制發(fā)送的垃圾郵件比例還很小,大約為1%~10%.
2.3.4 基于用戶行為的技術(shù)
文獻(xiàn)[35]分析用戶的行為特征,用戶查收郵件可以歸納為以下幾類行為:在遠(yuǎn)程郵件箱中將認(rèn)為無(wú)用的郵件刪除;打開(kāi)郵件并且閱讀時(shí)間超過(guò)給定閾值N;打開(kāi)郵件但在低于N將郵件刪除;將郵件移存至郵件箱目錄;回復(fù)、轉(zhuǎn)發(fā)郵件;將發(fā)件人加入通訊簿.通過(guò)收集這些用戶處理郵件的行為信息,該方法將其作為垃圾郵件檢測(cè)系統(tǒng)的反饋信息,將處理的信息反饋給反垃圾郵件網(wǎng)關(guān).網(wǎng)關(guān)可以將界定的垃圾郵件作為其他過(guò)濾器的訓(xùn)練或?qū)W習(xí)樣本,提交共享黑名單等.另外,還應(yīng)清除郵件系統(tǒng)中某些用戶收件箱中未閱讀的但已被其他用戶界定的垃圾郵件.
文獻(xiàn)[30]提出使用模型來(lái)描述用戶發(fā)送郵件的特征.它統(tǒng)計(jì)出每個(gè)用戶在每個(gè)小時(shí)段的發(fā)送行為(向外發(fā)送郵件的數(shù)量、附件數(shù)量、郵件大小、收件人數(shù)量),建立柱狀圖.通過(guò)將當(dāng)前階段的行為特征柱狀圖與歷史行為特征柱狀圖進(jìn)行對(duì)比分析,來(lái)發(fā)現(xiàn)異常行為(垃圾郵件).
為了應(yīng)對(duì)垃圾郵件帶來(lái)的巨大損失,一些國(guó)家制定出相應(yīng)的法律來(lái)規(guī)范郵件發(fā)送行為,力圖減少垃圾郵件的數(shù)量.美國(guó)在2003年制定出反垃圾郵件法案——非請(qǐng)求色情及廣告信息攻擊控制法案(controlling the assault of non-solicited pornography and marketing act,CAN-SPAM Act)[36].該法案明確禁止郵件頭信息偽造、郵件地址騙取和郵件地址攻擊等行為.該法案同時(shí)還要求商業(yè)性郵件必須有退訂鏈接.然而,文獻(xiàn)[2,37]指出該法案對(duì)垃圾郵件數(shù)量的控制不具有明顯的效果,退訂鏈接的存在反而有助于垃圾郵件制造者確認(rèn)有效郵件地址.
澳大利亞的電信法案第107條,針對(duì)個(gè)人、公司分別制定了不同的規(guī)定[2,38].只有得到了收件人的允許,才能向個(gè)人發(fā)送垃圾郵件(包括商業(yè)郵件,以及收件人數(shù)超過(guò)50人的郵件).而它對(duì)發(fā)送給公司的郵件的限制要寬松一些,允許向公司發(fā)送包含退訂鏈接的垃圾郵件.
歐洲議會(huì)在2002年6月通過(guò)了隱私和電子通訊法律規(guī)章[13],禁止在未征得收件人同意的情況下,向其發(fā)送垃圾郵件.
這些法律條文的制定與實(shí)施,能夠在一定程度上緩解垃圾郵件問(wèn)題,然而,這些法律不能徹底杜絕垃圾郵件的產(chǎn)生.因此,必須將其與其他技術(shù)手段相結(jié)合,才能更好地過(guò)濾垃圾郵件,保障電子郵件通訊的便捷通暢.
在反垃圾郵件研究初期,人們通過(guò)對(duì)垃圾郵件基本特征和垃圾郵件制造者基本手段的觀察,人工制定出一些簡(jiǎn)單的對(duì)策.這些方法在早期的反垃圾郵件工作中起到了重要的作用.
1)地址保護(hù).
文獻(xiàn)[39]提出一種比較簡(jiǎn)單的反垃圾郵件技術(shù),通過(guò)改變公開(kāi)的郵件地址形式來(lái)防范垃圾郵件.例如,將郵件地址 username@domain.com改變?yōu)閡sername#domain.com 或 username AT domain.com等形式,有時(shí)進(jìn)一步地將“.”改寫(xiě)為DOT.這樣做可以在一定程度上防止垃圾郵件制造者通過(guò)爬蟲(chóng)技術(shù)獲取網(wǎng)頁(yè)上的郵件地址.
但是,這種技術(shù)的防護(hù)能力很弱.垃圾郵件發(fā)送者只要在收錄郵件地址時(shí)加上一些簡(jiǎn)單的識(shí)別代碼,依舊可以提取出真實(shí)的郵件地址.目前通過(guò)字典攻擊,郵件地址收集程序可以推算出郵件服務(wù)器中的賬號(hào),還可以提取網(wǎng)上非頁(yè)面文檔(如 DOC、JPEG、PDF、XLS、RTF、PPT 等)中的郵件地址.
2)關(guān)鍵詞過(guò)濾.
關(guān)鍵詞過(guò)濾技術(shù)通過(guò)檢測(cè)每封郵件中是否存在預(yù)先定義的關(guān)鍵詞,例如發(fā)票、促銷、Viagra等,來(lái)判斷郵件的類型[2].最初只采用完全匹配的方法,“Viagra”只能與“Viagra”匹配,而不能匹配“Viiaagra”.這樣很容易被垃圾郵件制造者通過(guò)小改動(dòng),規(guī)避這些關(guān)鍵詞.
之后,基于正則表達(dá)式的模式匹配方法逐漸被采納.特定模式“V*i*a*g*r*a”可以與“V-iagra”、“Viiaagra”、“Viagra”等關(guān)鍵詞進(jìn)行匹配.這種模式匹配方法能夠有效地減小關(guān)鍵詞庫(kù)的大小,并能在一定范圍內(nèi)適應(yīng)垃圾郵件的小改動(dòng).
3)黑名單和白名單.
這2種方法均基于對(duì)發(fā)件人身份的簡(jiǎn)單識(shí)別,當(dāng)身份信息被偽造時(shí),這2種方法將會(huì)失去效用[13].
黑名單方法指的是通過(guò)拒絕來(lái)自特定IP地址、TCP連接,或域名的郵件,從而過(guò)濾掉垃圾郵件發(fā)送者發(fā)送的垃圾郵件.但是這些包含在郵件頭部中的信息有時(shí)會(huì)被垃圾郵件發(fā)送者偽造成其他人的地址發(fā)送,這樣會(huì)使得無(wú)辜的人的電子郵件被過(guò)濾掉.
白名單方法指的是只接收來(lái)自特定IP地址、TCP連接或域名的郵件,而拒絕其他所有來(lái)源的郵件.白名單方法使用起來(lái)不是很方便,2個(gè)人剛開(kāi)始聯(lián)系時(shí)需要發(fā)送請(qǐng)求確認(rèn)郵件.
4)灰名單和激勵(lì)-響應(yīng).
灰名單方法會(huì)對(duì)服務(wù)器中未記錄的郵件給出暫時(shí)失敗的響應(yīng)[40].對(duì)正常郵件來(lái)說(shuō),正確配置的MTA收到該響應(yīng)后會(huì)再次發(fā)送該郵件.當(dāng)服務(wù)器在一定時(shí)間內(nèi)再次收到該郵件時(shí),會(huì)將其成功傳送.而對(duì)于垃圾郵件來(lái)說(shuō),郵件往往是通過(guò)開(kāi)放轉(zhuǎn)發(fā)(open-relay)的方式發(fā)送,不會(huì)因?yàn)殄e(cuò)誤響應(yīng)而再次被發(fā)送,故無(wú)法成功到達(dá)收件人.該方式的缺點(diǎn)是會(huì)給正常郵件的發(fā)送帶來(lái)少量的延遲.
激勵(lì)-響應(yīng)(challenge-response)在白名單的基礎(chǔ)上增加了激勵(lì)響應(yīng)策略[41].該方法同樣維護(hù)一個(gè)白名單列表,來(lái)自白名單列表中地址的郵件會(huì)被成功發(fā)送.而列表之外的郵件地址進(jìn)行發(fā)信時(shí),服務(wù)器會(huì)返回給發(fā)件人一個(gè)“圖靈測(cè)試”,如果發(fā)件人通過(guò)了測(cè)試,郵件將會(huì)被成功傳送,而相應(yīng)的發(fā)件人地址將被添加到白名單列表中.垃圾郵件制造者一般會(huì)采用偽造的發(fā)件人地址,來(lái)逃避反向追蹤,也就收不到返回的測(cè)試.
這2種方法的設(shè)計(jì)基于正常郵件和垃圾郵件發(fā)送時(shí)所能作出的不同反應(yīng),利用垃圾郵件無(wú)法正確作出響應(yīng)的不足,對(duì)郵件類型進(jìn)行判別.這2種方法的不足是,響應(yīng)會(huì)給正常郵件的發(fā)送帶來(lái)延遲,也會(huì)占用網(wǎng)絡(luò)帶寬.
1)質(zhì)樸貝葉斯.
該方法簡(jiǎn)便、有效,是商業(yè)軟件中一種最常用的方法.大量的工作表明這種方法是處理垃圾郵件最有效的方法之一,并且它能夠取得較高的精確率(precision)和召回率(recall)[42-43].一些研究表明使用多項(xiàng)式模型能夠比使用多元伯努利(Bernoulli)模型獲得更高的正確率(accuracy)[15].在傳統(tǒng)的質(zhì)樸貝葉斯(na?ve Bayes)方法之上,衍生出了很多變體.R.Shrestha等人[44]利用不同位置出現(xiàn)的同一關(guān)鍵字的內(nèi)部關(guān)聯(lián)特性進(jìn)行分類,計(jì)算關(guān)鍵字的協(xié)同權(quán)重(co-weighting),并取得了性能上的提高.Li等人[45]提出了基于用戶反饋的改進(jìn)的 na?ve Bayes方法,獲得了相對(duì)較低的丟失率(false positive)和較好的性能.
2)k-近鄰方法.
Sakkis等人[46]將k-近鄰方法(一種經(jīng)典的惰性學(xué)習(xí)方法)應(yīng)用于垃圾郵件檢測(cè)領(lǐng)域.他們通過(guò)實(shí)驗(yàn)方法研究了領(lǐng)域大小(k的大小)、特征維數(shù),以及訓(xùn)練集大小對(duì)檢測(cè)器性能的影響.文中實(shí)驗(yàn)表明,k-近鄰方法的平均性能優(yōu)于貝葉斯方法.
3)Boosting Trees.
Schapire和 Singer[47]首先將該方法應(yīng)用于文本分類領(lǐng)域,通過(guò)組合多個(gè)基本假設(shè)(base hypotheses)來(lái)處理多類別(multi-class)以及多標(biāo)簽(multi-label)的分類問(wèn)題.Carreras 和 Marquez[48]實(shí)現(xiàn)了 AdaBoost算法用于反垃圾郵件的郵件過(guò)濾,在基于2個(gè)公共數(shù)據(jù)集(PU1 corpus和Ling-Spam corpus)實(shí)驗(yàn)的基礎(chǔ)上,他們得出Boosting Trees的方法在性能上要優(yōu)于 Na?ve Bayes、Decision Trees 和 k-NN 算法.然而,Nicholas[49]認(rèn) 為 使 用 decision stumps 的 Boosting Tress以及AdaBoost在正確率和速度方面都要差于Na?ve Bayse.
4)支持向量機(jī).
文獻(xiàn)[50-52]中對(duì)該方法進(jìn)行了深入的討論.Drucker等人[53]實(shí)現(xiàn)了一個(gè)基于SVM的過(guò)濾器,他們的研究表明SVM過(guò)濾器和Boosting Trees過(guò)濾器均能夠達(dá)到最低的錯(cuò)誤率(error rates),但是Boosting Trees花費(fèi)了更多的訓(xùn)練時(shí)間.
5)Ripper.
和其他分類方法不同,Ripper[54]并不需要特征向量,它從訓(xùn)練樣本集中歸納出分類的規(guī)則,通過(guò)一系列相與或者相或關(guān)系的if-then規(guī)則組成.
6)Rocchio.
這種類型的分類器[55-56]使用規(guī)范化的TF-IDF來(lái)表示訓(xùn)練樣本的向量.這種方法的優(yōu)點(diǎn)是在訓(xùn)練和測(cè)試中具有較快的速度,缺點(diǎn)是在訓(xùn)練集上搜索最優(yōu)閾值(optimum threshold)以及最優(yōu)β時(shí)會(huì)消耗掉額外的訓(xùn)練時(shí)間,并且這些參數(shù)在測(cè)試集上的泛化特性也較弱.
7)文本聚類.
M.Sasaki等人[57]提出基于特征空間模型的文本聚類方法,使用 spherical k-means算法[58]來(lái)自動(dòng)計(jì)算出不同的 clusters,并對(duì)抽取出的質(zhì)心向量(centroid vector)分配類別標(biāo)記,通過(guò)計(jì)算新郵件向量和質(zhì)心向量的距離來(lái)完成分類.該方法在Ling-Spam corpus數(shù)據(jù)庫(kù)獲得了較好的測(cè)試性能.
8)元啟發(fā)(Meta-heuristics).
C.Y.Yeh等人[22]針對(duì)關(guān)鍵字變化對(duì)基于關(guān)鍵字的機(jī)器學(xué)習(xí)方法所造成的性能上的影響,提出了使用spammers的行為作為區(qū)分特征,來(lái)進(jìn)行郵件的分類.這些行為特征通過(guò)Meta-heuristics來(lái)描述,在給定的Meta-heuristics下,共抽取出了113個(gè)新的特征.實(shí)驗(yàn)結(jié)果顯示這種方法要優(yōu)于基于關(guān)鍵字的過(guò)濾方式,并且訓(xùn)練時(shí)間也有了顯著的降低.
9)人工神經(jīng)網(wǎng)絡(luò).
J.Clark等人[59]利用人工神經(jīng)網(wǎng)絡(luò)自動(dòng)分類郵件,他們開(kāi)發(fā)的系統(tǒng)Linger在Ling-Spam corpus數(shù)據(jù)庫(kù)獲得了較高的正確率、召回率以及精確率.在PU1 corpus上系統(tǒng)所獲得的性能略有下降.I.Stuart等人[60]基于詞和消息的描述性特征,使用人工神經(jīng)網(wǎng)絡(luò)的方法對(duì)郵件進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明該方法還需要對(duì)特征集作適當(dāng)?shù)財(cái)U(kuò)充或者修改以獲得性能上的提高.
10)人工免疫系統(tǒng).
A.Secker等人[61]提出基于免疫的郵件分類算法AISEC(artifical immune system for e-mail classification).該算法旨在區(qū)分出用戶感興趣的郵件和不感興趣的郵件.在不需要進(jìn)行重新訓(xùn)練的前提下,算法能夠連續(xù)地對(duì)e-mail進(jìn)行分類處理,并能夠及時(shí)地追蹤用戶興趣的變化.
T.Oda等人[62]將人工免疫模型應(yīng)用于垃圾郵件處理,主要利用免疫中自己/異己(self/non-self)的檢測(cè)原理和檢測(cè)器(dector)的概念.在實(shí)現(xiàn)的郵件過(guò)濾系統(tǒng)中,首先從多樣的來(lái)源中構(gòu)建基因庫(kù),這些來(lái)源包括語(yǔ)言中的詞匯、所收集的郵件中的詞匯和詞組、垃圾郵件中的聯(lián)系信息和郵件頭信息等.在系統(tǒng)初始化的過(guò)程中,使用隨機(jī)的方法從基因庫(kù)中生成抗體(antibody)及其關(guān)聯(lián)的淋巴細(xì)胞(lymphocyte).在構(gòu)建的過(guò)程中,不允許相似抗體的重復(fù)產(chǎn)生,每個(gè)淋巴細(xì)胞除了具有抗體屬性外,還有msg_matched和spam_matched 2個(gè)屬性與其關(guān)聯(lián),分別用于表示淋巴細(xì)胞所匹配的郵件的數(shù)目和垃圾郵件的數(shù)目.在對(duì)淋巴細(xì)胞的訓(xùn)練過(guò)程中,對(duì)發(fā)生匹配的淋巴細(xì)胞修改其msg_matched和spam_matched這2個(gè)屬性的值.在系統(tǒng)的運(yùn)行過(guò)程中,使用了帶權(quán)平均值的評(píng)價(jià)方法對(duì)郵件的類別進(jìn)行判斷,在這種評(píng)價(jià)方法下,匹配次數(shù)多的淋巴細(xì)胞在評(píng)分中具有較大的權(quán)重.
垃圾郵件檢測(cè)技術(shù)仍是現(xiàn)今國(guó)內(nèi)外研究熱點(diǎn)之一,大量的相關(guān)工作不斷涌現(xiàn)出來(lái).為了便于人們比較和選擇合適的垃圾郵件過(guò)濾方法,研究人員提出一些評(píng)估標(biāo)準(zhǔn)來(lái)對(duì)比不同過(guò)濾方法、系統(tǒng)的性能[12-13].本節(jié)主要介紹并分析幾種常見(jiàn)的性能評(píng)估方法,并給出一些標(biāo)準(zhǔn)數(shù)據(jù)集.
1)垃圾郵件召回率.
該標(biāo)準(zhǔn)能夠度量出被算法模型正確檢測(cè)、分類的垃圾郵件的比例.垃圾郵件召回率(spam recall)高的系統(tǒng)模型能夠更好地將垃圾郵件過(guò)濾掉,更有效減少垃圾郵件對(duì)人們生活的妨礙.下式給出垃圾郵件召回率的計(jì)算方法.式中:ns→s表示被正確分類的垃圾郵件的數(shù)量,而ns→l表示垃圾郵件被錯(cuò)誤分類為正常郵件的數(shù)量.
2)垃圾郵件精確率.
該標(biāo)準(zhǔn)評(píng)估出系統(tǒng)檢測(cè)垃圾郵件的精確性:度量被系統(tǒng)分類為垃圾郵件的郵件中,分類正確的比例.這個(gè)標(biāo)準(zhǔn)另一方面也能夠反映出被系統(tǒng)錯(cuò)誤分類的正常郵件所占的比例.系統(tǒng)垃圾郵件精確率(spam precision)越高,被系統(tǒng)錯(cuò)誤分類的正常郵件的數(shù)量也就越少.垃圾郵件精準(zhǔn)率計(jì)算方法如下所示:
式中:nl→s表示正常郵件被錯(cuò)誤分類為垃圾郵件的數(shù)量.
3)正常郵件召回率和正常郵件精確率.
由于垃圾郵件檢測(cè)是關(guān)于兩類郵件的(正常郵件和垃圾郵件),這2種標(biāo)準(zhǔn)與垃圾郵件召回率和精準(zhǔn)率是對(duì)稱的,計(jì)算式也可以對(duì)稱地推導(dǎo)出來(lái).
4)準(zhǔn)確率.
該標(biāo)準(zhǔn)能夠反映郵件過(guò)濾系統(tǒng)的整體性能.它能夠表示被正確分類的郵件(包括正常郵件和垃圾郵件)的比例,被定義如下:
式中:nl→l表示被正確分類的正常郵件的數(shù)量,nl和ns分別表示正常郵件和垃圾郵件的總體數(shù)量.
5)加權(quán)準(zhǔn)確率.
研究人員觀察得出,正常郵件的丟失(被系統(tǒng)錯(cuò)誤過(guò)濾掉)意味著人們會(huì)錯(cuò)過(guò)生活中的重要信息,比垃圾郵件的錯(cuò)誤分類要嚴(yán)重得多.為了反映出正常郵件的重要性,研究人員在準(zhǔn)確率的基礎(chǔ)上,定義出如下加權(quán)準(zhǔn)確率:
式中:λ是反映正常郵件重要性的參數(shù),它的值越大,說(shuō)明正常郵件在該情景下的重要性越強(qiáng),一般可以取值9、99或999.若將λ賦值為999,則表明正常郵件在該情景下極為重要.當(dāng)λ取1時(shí),加權(quán)準(zhǔn)確率與準(zhǔn)確率標(biāo)準(zhǔn)等價(jià).
6)Fβ度量.
垃圾郵件召回率與精確率只能分別反映系統(tǒng)的單一方面,不能夠反映系統(tǒng)整體的性能.為了解決這一問(wèn)題,F(xiàn)β度量被定義為這2種標(biāo)準(zhǔn)的融合,如下式所示:
式中:β表示精確度的權(quán)重,反映精確度相對(duì)召回率的重要性.在大多數(shù)研究中β取值1,該情況下,稱該標(biāo)準(zhǔn)為F1度量.
2000年,Androutsopoulos等人[43]整理發(fā)布了LingSpam數(shù)據(jù)集[14],該數(shù)據(jù)集是早期的經(jīng)典郵件分類數(shù)據(jù)集之一:該數(shù)據(jù)集共包含2 893封郵件,其中正常郵件 2 412封,垃圾郵件比例為16.63%.該數(shù)據(jù)集中的郵件都經(jīng)過(guò)了預(yù)處理,所有頭信息(標(biāo)題除外)、HTML標(biāo)記均已被去除.該數(shù)據(jù)集的不足是,正常郵件的內(nèi)容大多與語(yǔ)言學(xué)話題有關(guān).用該數(shù)據(jù)集評(píng)估郵件檢測(cè)系統(tǒng)會(huì)帶來(lái)過(guò)于樂(lè)觀的估計(jì).
2004 年,Androutsopoulos 等人[14]經(jīng)過(guò)收集、整理又發(fā)布了PU系列經(jīng)典數(shù)據(jù)集,該數(shù)據(jù)集被廣泛應(yīng)用于現(xiàn)今各種垃圾郵件過(guò)濾系統(tǒng)的性能評(píng)估.PU系列數(shù)據(jù)集中包含著4個(gè)獨(dú)立的數(shù)據(jù)集:
1)PU1:該數(shù)據(jù)包含1 099封郵件,其中垃圾郵件481封.該數(shù)據(jù)集中的正常郵件和垃圾郵件均為英語(yǔ)書(shū)寫(xiě)的郵件.正常郵件是文中的第1位作者[14]在36個(gè)月的時(shí)間里收集到的,而垃圾郵件是他在22個(gè)月的時(shí)間內(nèi)收集的.
2)PU2:該數(shù)據(jù)集包含721封郵件,其中有142封垃圾郵件.與PU1相似,該數(shù)據(jù)集中的郵件也都是英語(yǔ)郵件.文中作者的一位同事在22個(gè)月的時(shí)間內(nèi)收集保存了這些郵件.
3)PU3:該數(shù)據(jù)集包含4 139封郵件,其中有1 826封垃圾郵件.與PU1、PU2不同,該數(shù)據(jù)集同時(shí)包含英語(yǔ)郵件和非英語(yǔ)郵件.數(shù)據(jù)集中的正常郵件是文中的第2位作者收集的,而垃圾郵件來(lái)自其他郵件數(shù)據(jù)集.
4)PUA:該數(shù)據(jù)集包含1 142封郵件,其中572封垃圾郵件.與PU3相似,該數(shù)據(jù)集也包含部分非英語(yǔ)郵件,垃圾郵件同樣來(lái)自其他數(shù)據(jù)集.數(shù)據(jù)集中的正常郵件是文中作者的另一位同事收集提供的.
另外,Medlock[63]也整理發(fā)布了一個(gè)大規(guī)模郵件數(shù)據(jù)集GenSpam[64]:該數(shù)據(jù)集由3部分組成:訓(xùn)練集(包含8 018封正常郵件,31 235封垃圾郵件)、測(cè)試集(包含754封正常郵件,797封垃圾郵件)、自適應(yīng)集(包含300封正常郵件,300封垃圾郵件,該部分集合用于測(cè)試?yán)]件過(guò)濾系統(tǒng)的動(dòng)態(tài)性、自適應(yīng)性).
ZH1數(shù)據(jù)集是中文郵件數(shù)據(jù)集[65-66],其中的郵件已進(jìn)行過(guò)中文分詞處理,處理后的單詞被映射為整數(shù),以保護(hù)郵件所有者的隱私.該數(shù)據(jù)集包含1 633封郵件,其中正常郵件428封,垃圾郵件比例為73.79%.數(shù)據(jù)集中正常郵件平均長(zhǎng)度為819.06個(gè)單詞.
在現(xiàn)有的反垃圾電子郵件技術(shù)方法中,智能型反垃圾郵件技術(shù)方法仍然是最有效、最有前景的方法.法律手段和簡(jiǎn)單方法只能對(duì)部分符合定義特征的垃圾電子郵件起一定作用,且這2種方法不具備自適應(yīng)性,不能有效過(guò)濾垃圾郵件的變種.在智能型反垃圾郵件技術(shù)方法中,郵件特征提取方法起著至關(guān)重要的作用,將直接影響反垃圾郵件系統(tǒng)的各項(xiàng)性能.
郵件特征提取是反垃圾郵件系統(tǒng)的核心部分,對(duì)系統(tǒng)的分類性能起著決定性作用.目前,絕大多數(shù)郵件集中于文本、圖片類型.基于文本、圖片的郵件特征提取方法有著良好的應(yīng)用前景,是當(dāng)今的研究熱點(diǎn).基于行為的郵件特征提取方法,是一種與郵件類型無(wú)關(guān)的特征提取方法,該方法通過(guò)區(qū)分垃圾郵件、正常郵件發(fā)送過(guò)程中表現(xiàn)出的不同行為,過(guò)濾垃圾郵件,是一種有效、魯棒性強(qiáng)的方法,非常值得進(jìn)一步地研究與探討.新的郵件特征提取方法的研究,將極大地推進(jìn)反垃圾郵件系統(tǒng)的發(fā)展.
現(xiàn)有的反垃圾郵件相關(guān)法律,對(duì)垃圾郵件發(fā)送行為進(jìn)行了一定的限制.然而,現(xiàn)有的相關(guān)法律,并不能從根本上解決垃圾郵件問(wèn)題,需要反垃圾郵件技術(shù)的協(xié)同支持.現(xiàn)有的相關(guān)法案也急需進(jìn)一步完善.
智能型反垃圾郵件技術(shù)是在簡(jiǎn)單反垃圾郵件方法的基礎(chǔ)上,發(fā)展出的新型反垃圾郵件技術(shù).該技術(shù)在提取郵件特征的基礎(chǔ)上,運(yùn)用現(xiàn)代機(jī)器學(xué)習(xí)方法等各種智能方法對(duì)郵件類型(是否為垃圾郵件)進(jìn)行分類,以過(guò)濾垃圾郵件.新的智能型方法的提出及其在反垃圾郵件領(lǐng)域的應(yīng)用將是未來(lái)的研究方向,具有很大的發(fā)展前景.
[1]CRANOR L F,LAMACCHIA B A.Spam![J].Communications of the ACM,1998,41(8):74-83.
[2]GANSTERER W,ILGER M,LECHNER P,et al.Anti-spam methods—state-of-the-art[EB/OL].[2009-11-05].http://spam.ani.univie.ac.at/files/FA384018-1.pdf.
[3]中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件中心.2008年第一次中國(guó)反垃圾郵件狀況調(diào)查報(bào)告[EB/OL].[2009-11-05].http://www.anti-spam.cn/.
[4]Symantec Inc..The state of spam,a monthly report—February 2009[EB/OL].[2009-11-05].http://eval.symantec.com/mktginfo/enterprise/other_resources/b-state_of_spam_report_02-2009.en-us.pdf.
[5]JENNINGS R.Cost of spam is flattening—our 2009 prediction[EB/OL].[2009-11-05].http://www.ferris.com/2009/01/28/cost-of-spam-is-flattening-our-2009-predictions/.
[6]Sophos Inc..Security threat report,July 2009 update:a look at the challenge ahead[EB/OL].[2009-11-07].http://www.inuit.se/pub/1214/sophos-security-threat-report-jul-2009-na-wpus.pdf.
[7]中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件中心.2009年第一季度中國(guó)反垃圾郵件狀況調(diào)查報(bào)告[EB/OL].[2009-11-07].http://www.anti-spam.cn/pdf/2009_01_mail_survey.pdf.
[8]中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件中心.2008年第四季度中國(guó)反垃圾郵件狀況調(diào)查報(bào)告[EB/OL].[2009-11-07].http://www.anti-spam.cn/pdf/2008_4_dc.pdf.
[9]Wikipedia.Kullback-Leibler divergence[EB/OL].[2009-11-07].http://en.wikipedia.org/wiki/Information_gain.
[10]KOPRINSKA I,POON J,CLARK J,et al.Learning to classify e-mail[J].Information Sciences,2007,177:2167-2187.
[11]YANG Y M,PEDERSEN J O.A comparative study on feature selection in text categorization[C]//Proceedings of International Conference on Machine Learning(ICML’97).San Francisco,USA:Morgan Kaufmann Publishers Inc.,1997:412-420.
[12]GUZELLA T S,CAMINHAS M.A review of machine learning approaches to spam filtering[J].Expert Systems with Applications,2009,36:10206-10222.
[13]BLANZIERI E,BRYL A.A survey of learning-based techniques of email spam filtering[EB/OL].[2009-11-07].http://eprints.biblio.unitn.it/archive/00001070/.
[14]ANDROUTSOPOULOS I,PALIOURAS G,MICHELAKIS E.Learning to filter unsolicited commercial e-mail,technique report No.2004/2[R].Agia Paraskevi,Greece:NCSR“Demokritos”,2004.
[15]SCHNEIDER K M.A comparison of event models for naive Bayes anti-spam e-mail filtering[C]//Proceedings of the 10th Conference of European Chapter of the Association for Computational Linguistics.Morristown,USA:Association for Computational Linguistics,2003:307-314.
[16]YERAZUNIS W S.Sparse binary polynomial hashing and the CRM114 discriminator[EB/OL].[2009-11-07].http://fozzolog.fozzilinymoo.org/images/CRM114_slides.pdf.
[17]SIEFKES C,ASSIS F,CHHABRA S,et al.Combining winnow and orthogonal sparse bigrams for incremental spam filtering[C]//Proceedings of the 8th European Conference on Principles and Practice of Knowledge Discovery in Databases.New York,USA:Springer-Verlag,2004:410-421.
[18]ODA T,WHITE T.Developing an immunity to spam[J].Lecture Notes in Computer Science,2003,2723:231-242.
[19]RUAN Guangchen,TAN Ying.A three-layer back-propagation neural network for spam detection using artificial immune concentration[J].Soft Computing,2010,14:139-150.
[20]KRASSER S,TANG Y C,GOULD J,et al.Identifying image spam based on header and file properties using C4.5 decision trees and support vector machine learning[C]//Proceedings of IEEE SMC Information Assurance and Security Workshop.New York,USA,2007:255-261.
[21]NHUNG N P,PHUONG T M.An efficient method for filtering image based spam[J].Lecture Notes in Computer Science,2007,4673:945-953.
[22]YEH C Y,WU C H,DOONG S H.Effective spam classification based on meta-heuristics[C]//Proceedings of 2005 IEEE International Conference on Systems,Man,and Cybernetics.Waikoloa,HI,USA,2005:3872-3877.
[23]TASI C H,WU C H.Learning typed behaviors of spam emails using back-propagation neural networks[D].Kaohsiung,China:Shu-Te University,2004.
[24]WU C H,TSAI C H.A time-robust spam classifier based on back-propagation neural networks and behavior-based features[C]//Proceedings of the Sixth International Conference on Machine Learning and Cybernetics.Hong Kong,2007:19-22.
[25]COSTALES B,ALLMAN E.Sendmail[M].3rd ed.Sebastopol,USA:O’Reilly & Associates,Inc.,2002.
[26]LIU M,LI Y C,LI W.Spam filtering by stages[C]//Proceedings of 2007 International Conference on Convergence Information Technology.Washington,DC,USA:IEEE Computer Society,2007:2209-2213.
[27]YUE X,ABRAHAM A,CHI Z X,et al.Artificial im-mune system inspired behavior-based anti-spam filter[J].Soft Computing,2007,11:729-740.
[28]GUO Y H,ZHANG Y L,LIU J Y,et al.Research on the comprehensive anti-spam filter[C]//Proceedings of IEEE International Conference on Industrial Informatics.Singapore,2006:1069-1074.
[29]BHATTACHARYYA M,SCHULTZ M G,ESKIN E,et al.MET:an experimental system for malicious email tracking[C]//Proceedings of the 2002 New Security Paradigms Workshop.Virginia Beach,VA,USA,2002:3-10.
[30]HERSHKOP S.Behavior-based email analysis with application to spam detection[D].New York,USA:Columbia University,2006.
[31]MARTIN S,SEWANI A,NELSON B,et al.Analyzing behavioral features for email classification[C]//Proceedings of Conference on Email and Anti Spam.Stanford University,USA,2005.
[32]STOLFO S J,HERSHKOP S,HU C W,et al.Behaviorbased modeling and its application to email analysis[J].ACM Transactions on Internet Technology,2006,6(2):187-221.
[33]BRENDEL R,KRAWCZYK H.Detection methods of dynamic spammers’behavior[C]//Proceedings of 2nd International Conference on Dependability of Computer Systems.Washington,DC,USA:IEEE Computer Society,2007:145-152.
[34]RAMACHANDRAN A,F(xiàn)EAMSTER N.Understanding the network-level behavior of spammers[C]//Proceedings of the 2006 Conference on Applications, Technologies,Architectures,and Protocols for Computer Communications.New York,USA:ACM,2006:291-302.
[35]陳建發(fā),吳順祥.一種基于用戶行為分析的協(xié)同反垃圾郵件策略[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2007(7):36-37.CHEN Jianfa,WU Shunxiang.An cooperate anti-spam strategy based on user’s behavioral analysis[J].Computer Knowledge and Technology:Academic Exchange,2007(7):36-37.
[36]SPAM LAWS.The CAN-SPAM Act of 2003 [EB/OL].[2009-11-07].http://www.spamlaws.com/federal/index.shtml.
[37]GRIMES G A.Compliance with CAN-SPAM Act of 2003[J].Communications of the ACM,2007,50:55-62.
[38]Rundfunk and Telekom Regulierungs-GmbH.Telekommunikationsgesetz 2003(TKG 2003)[EB/OL].[2009-11-07].http://www.rtr.at/de/tk/TKG2003#p107.
[39]HOANCA B.How good are our weapons in the spam wars?[J].IEEE Technology and Society Magazine,2006,25(1):22-30.
[40]HARRIS E.The next step in the spam control war:greylisting[EB/OL].[2009-11-07].http://projects.puremagic.com/greylisting/whitepaper.html.
[41]LODER T,ALSTYNE M V,WASH R.An economic answer to unsolicited communication[C]//Proceedings of the 5th ACM Conference on Electronic Commerce.New York,USA:ACM,2004:40-50.
[42]SAHAMI M,DUMAIS S,HECKERMAN D,et al.A Bayesian approach tofiltering junk e-mail[C]//Proceedings of the 1998 Workshop on Learning for Text Categorization.Madison,USA,1998:55-62.
[43]ANDROUTSOPOULOS I,KOUTSIAS J,CHANDRINOS K V,et al.An evaluation of naive Bayesian anti-spam filtering[C]//Proceedings of the Workshop on Machine Learning in the New Information Age.Barcelona,Spain,2000:9-17.
[44]SHRESTHA R,LIN Y P.Improved Bayesian spam filtering based on co-weighted multi-area information[J].Lecture Notes in Computer Science,2005,3518:650-660.
[45]LI Yang,F(xiàn)ANG Binxing,GUO Li,et al.Research of a novel anti-spam technique based on users’feedback and improved naive Bayesian approach[C]//Proceedings of the International Conference on Networking and Services.Washington,DC,USA:IEEE Computer Society,2006:86.
[46]SAKKIS G,ANDROUTSOPOULOS I,PALIOURAS G,et al.A memory-based approach to anti-spam filtering for mailing lists[J].Information Retrieval,2003,6(1):49-73.
[47]SCHAPIRE R E,SINGER Y.BoosTexter:a boostingbased system for text categorization[J].Machine Learning,2000,39(2):135-168.
[48]CARRERAS X,MARQUEZ L.Boosting trees for antispam e-mail filtering[C]//Proceedings of 4th International Conference on Recent Advances in Natural Language Processing.Tzigov Chark,Bulgaria,2001:58-64.
[49]NICHOLAS T.Using AdaBoost and decision stumps to identify spam e-mail[EB/OL].[2009-11-07].http://nlp.stanford.edu/courses/cs224n/2003/fp/tyronen/report.pdf.
[50]VAPNIK V N.Estimation of dependencies based on empirical data[M].New York:Springer-Verlag,1982.
[51]VAPNIK V N.The nature of statistical learning theory[M].2nd ed.New York:Springer-Verlag,2000.
[52]DRUCKER H,BURGES C J C,KAUFFMAN L,et al.Support vector regression machines[C]//Advances in Neural Information Processing Systems.Cambridge,USA:MIT Press,1997:155-161.
[53]DRUCKER H,WU D,VAPNIK V N.Support vector machines for spam categorization[J].IEEE Transactions on Neural Networks,1999,10(5):1048-1054.
[54]COHEN W W.Fast effective rule induction[C]//Proceedings of 12th International Conference on Machine Learning.San Mateo,USA:Morgan Kaufmann,1995:115-123.
[55]SCHAPIRE R E,SINGER Y,SINGHAL A.Boosting and Rocchio applied to text filtering[C]//Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1998:215-223.
[56]JOACHIMS T.A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization[C]//Proceedings of 14th International Conference on Machine Learning.San Francisco,USA:Morgan Kaufman Publishers Inc.,1997:143-151.
[57]SASAKI M,SHINNOU H.Spam detection using text clustering[C]//Proceedings of International Conference on Cyberworlds.Washington,DC,USA:IEEE Computer Society,2005:316-319.
[58]DHILLON I S,MODHA D S.Concept decompositions for large sparse text data using clustering[J].Machine Learning,2001,42(1/2):143-175.
[59]CLARK J,KOPRINSKA I,POON J.A neural network based approach to automated e-mail classification[C]//Proceedings of IEEE/WIC International Conference on Web Intelligence.Washington,DC,USA:IEEE Computer Society,2003:702.
[60]STUART I,CHA S H,TAPPERT C.A neural network classifier for junk e-mail[J].Lecture Notes in Computer Science,2004,3163:442-450.
[61]SECKER A,F(xiàn)REITAS A A,TIMMIS J.AISEC:an artificial immune system for e-mail classification[C]//Proceedings of the Congress on Evolutionary Computation.Canberra,Australia,2003:131-139.
[62]ODA T,WHITE T.Spam detection using an artificial immune system [EB/OL].[2009-11-09].http://terri.zone12.com/doc/academic/crossroads/.
[63]MEDLOCK B.An adaptive,semi-structured language model approach to spam filtering on a new corpus[C]//Proceedings of 3rd Conference on Email and Anti-spam.Mountain View,USA,2006.
[64]MEDLOCK B.GenSpam [EB/OL].[2009-11-09].http://www.benmedlock.co.uk/genspam.html.
[65]ZHANG L,ZHU J,YAO T.An evaluation of statistical spam filtering techniques[J].ACM Transactions on Asian Language Information Processing,2004,3(4):243-269.
[66]ZHANG L,ZHU J,YAO T.Index of/lzhang10/spam[EB/OL].[2009-11-09].http://homepages.inf.ed.ac.uk/lzhang10/spam/.