陳 斌,東一舟,毛明榮
(南京師范大學(xué) 信息化建設(shè)管理處,南京 210023)
(*通信作者電子郵箱njnuchenbin@njnu.edu.cn)
基于增量學(xué)習(xí)算法的校園網(wǎng)垃圾郵件檢測(cè)模型
陳 斌*,東一舟,毛明榮
(南京師范大學(xué) 信息化建設(shè)管理處,南京 210023)
(*通信作者電子郵箱njnuchenbin@njnu.edu.cn)
針對(duì)大量垃圾郵件對(duì)用戶帶來(lái)困擾的問題,提出了一種增量被動(dòng)攻擊學(xué)習(xí)算法。該方法基于半年時(shí)間的對(duì)本校校園網(wǎng)內(nèi)郵件宿主機(jī)上所發(fā)起的簡(jiǎn)單郵件傳輸協(xié)議(SMTP)會(huì)話日志的采集,針對(duì)會(huì)話中記錄的投遞率狀態(tài)及多種類型的失敗消息進(jìn)行了宿主機(jī)行為分析,最終達(dá)到有效地適應(yīng)被檢測(cè)垃圾郵件源宿主機(jī)對(duì)最近郵件分類行為的目的。實(shí)驗(yàn)結(jié)果表明,在執(zhí)行了若干回合分類策略的調(diào)整后,該檢測(cè)的準(zhǔn)確度可以達(dá)到94.7%。該設(shè)計(jì)可以有效地檢測(cè)內(nèi)部垃圾郵件宿主機(jī)行為,繼而從根源上抑制了垃圾郵件的產(chǎn)生。
垃圾郵件宿主機(jī);簡(jiǎn)單郵件傳輸協(xié)議會(huì)話;增量學(xué)習(xí);分類器;失敗信息
如今,垃圾郵件越來(lái)越日常性地充斥著使用者的郵箱,這主要是由于電子郵件傳遞的零成本所致。按照Anti-Abuse消息工作組2011年度發(fā)布的調(diào)查報(bào)告顯示,互聯(lián)網(wǎng)電子郵件總量中超過90%的都是垃圾郵件[1],這不僅浪費(fèi)了互聯(lián)網(wǎng)帶寬及郵件服務(wù)提供商的存儲(chǔ)空間,同時(shí)干擾甚至傷害了部分用戶的正當(dāng)權(quán)益。雖然大多數(shù)用戶都會(huì)忽視垃圾郵件,但由于它的體量巨大,故其帶來(lái)的綜合利潤(rùn)還是足以使得該不端行為存在。更有甚者,垃圾郵件的發(fā)送者通過發(fā)送嵌入了惡意軟件的垃圾郵件,或含有驅(qū)動(dòng)下載攻擊類型的有害鏈接,使得缺乏免疫能力的宿主機(jī)成為被其控制的僵尸網(wǎng)絡(luò)中的一臺(tái)僵尸機(jī)[2],從而迫使它作為其有效垃圾郵件的分發(fā)者。有研究報(bào)告顯示,僵尸網(wǎng)絡(luò)產(chǎn)生了全球超過82%的垃圾郵件[3]。
解決該問題最通常的策略是,最大限度地為終端用戶過濾來(lái)自于外部的垃圾郵件,它的實(shí)際效果取決于郵件服務(wù)商、郵件客戶端或郵件代理所提供的過濾器能力[4]。即便終端過濾器可以精準(zhǔn)隔離垃圾郵件,但其仍無(wú)法從源頭上遏制垃圾郵件的發(fā)出,故而大量網(wǎng)絡(luò)帶寬還是會(huì)被無(wú)端消耗,這無(wú)疑讓本已吃緊的校園網(wǎng)帶寬雪上加霜。因此,如何從源頭上制止垃圾郵件的產(chǎn)生,成為該領(lǐng)域緊急而重要的問題。如果垃圾郵件宿主機(jī)的行為可以盡早被抑制,其所造成的垃圾郵件隱患即可隨之被排除。對(duì)于如何有效檢測(cè)及認(rèn)定垃圾郵件宿主機(jī)存在兩個(gè)主要問題:1)對(duì)于企圖避開檢測(cè)的垃圾郵件宿主機(jī)而言,其有什么確定的特征可以作為鑒別的依據(jù);2)針對(duì)可能存在的海量數(shù)據(jù)集所產(chǎn)生的簡(jiǎn)單郵件傳輸協(xié)議(Simple Mail Transfer Protocol, SMTP)日志,檢測(cè)模型如何建立,其又如何與最新垃圾郵件的行為相適應(yīng)?
本文從外部郵件服務(wù)器和消息分類器運(yùn)作細(xì)節(jié)的角度,描述了多種失敗消息相應(yīng)情況下垃圾郵件的行為特征,每一個(gè)垃圾郵件宿主機(jī)檢測(cè)的重要特征都是經(jīng)過了深度學(xué)習(xí)的,同時(shí)使用了一種增量被動(dòng)攻擊學(xué)習(xí)算法來(lái)從大量的SMTP日志中適應(yīng)性地檢測(cè)垃圾郵件宿主機(jī)。該設(shè)計(jì)可以幫助校園網(wǎng)絡(luò)的管理者檢測(cè)垃圾郵件宿主機(jī),從而抑制這些宿主機(jī)的行為,當(dāng)然該方法在其他機(jī)構(gòu)和場(chǎng)景下也是適用的。
之所以將垃圾郵件宿主機(jī)檢測(cè)作為研究焦點(diǎn),是因?yàn)榻┦W(wǎng)絡(luò)類檢測(cè)與其相關(guān)性較低,下面介紹近些年對(duì)其的相關(guān)研究。垃圾郵件追蹤器是一款開發(fā)于2007年的基于行為黑名單算法的垃圾郵件宿主機(jī)識(shí)別系統(tǒng),它通過具有相似模式的目標(biāo)域宿主機(jī)聚類的收發(fā)郵件消息進(jìn)行分析,垃圾郵件可以較容易地分發(fā)至郵件地址的接收者,這些接收者在不同的垃圾郵件宿主機(jī)消息域中,這可能使得檢測(cè)結(jié)果變得混亂難以理解[5]。自2011年起,有學(xué)者開始研究采集的垃圾郵件消息與具有相似內(nèi)容的宿主機(jī)的識(shí)別工作。作者提取了業(yè)務(wù)日志對(duì)垃圾郵件宿主機(jī)進(jìn)行了分組,它們作為既定相似目標(biāo)的傳播源,并主動(dòng)發(fā)現(xiàn)其他的垃圾郵件宿主機(jī)的傳播行為[6]。相比較而言,該工作并不依賴于任何必須優(yōu)先建立的垃圾郵件內(nèi)容或行為觀測(cè)器,檢測(cè)可以通過增量學(xué)習(xí)方式,自動(dòng)適應(yīng)于最近的垃圾郵件的行為。2012年有研究人員專門針對(duì)大學(xué)校園垃圾郵件過濾器接收的輸出消息進(jìn)行嘗試性研究,實(shí)驗(yàn)使用了時(shí)序化測(cè)試來(lái)檢測(cè)內(nèi)部宿主機(jī)持續(xù)發(fā)送垃圾郵件的概率[7]。該工作不依賴于外部的垃圾郵件過濾器,這主要取決于以下兩點(diǎn)因素:1)一個(gè)SMTP會(huì)話可以因?yàn)閰f(xié)商過程存在問題而失敗,而若一個(gè)會(huì)話在交互階段持續(xù)保持失敗狀態(tài),服務(wù)器將會(huì)發(fā)送一封垃圾郵件消息,在該情況下不會(huì)針對(duì)內(nèi)容進(jìn)行過濾。2)一個(gè)用戶可以向郵件服務(wù)器自動(dòng)轉(zhuǎn)發(fā)配置,這也將導(dǎo)致轉(zhuǎn)發(fā)器收到包括垃圾郵件在內(nèi)的郵件,對(duì)于一個(gè)用戶的特定外部賬戶來(lái)說,垃圾郵件過濾器將察覺到來(lái)自于郵件服務(wù)器的垃圾郵件消息,繼而這種檢測(cè)可以得到更明確的判斷結(jié)果[8]。
對(duì)于增量學(xué)習(xí)和在線學(xué)習(xí),周期性數(shù)據(jù)分析請(qǐng)求出現(xiàn)于部分應(yīng)用,其中包括了網(wǎng)絡(luò)交易分析、匿名檢測(cè)以及干擾檢測(cè)等,應(yīng)用需要周期性地適配近期數(shù)據(jù)的分類[9]。同樣地,垃圾郵件宿主機(jī)分類檢測(cè),對(duì)于從SMTP日志中識(shí)別最近的垃圾郵件行為來(lái)說是必須的[10]。大多數(shù)針對(duì)該目標(biāo)的增量學(xué)習(xí)方法是基于決策樹、神經(jīng)網(wǎng)絡(luò)以及向量機(jī)的,與之相關(guān)的典型設(shè)計(jì)用例有,將它用于建立靜態(tài)分類模式,該模式基于之前的實(shí)例,并可以從實(shí)例中糾錯(cuò),從而形成新的實(shí)例標(biāo)簽。虛擬機(jī)已經(jīng)被證實(shí)可以用來(lái)較好地分離不同標(biāo)簽的實(shí)例,它通過最大化標(biāo)簽實(shí)例邊緣從而產(chǎn)生不同的超平面,這里的邊緣是實(shí)例與分離超平面之間的距離,該方法可通過識(shí)別每一個(gè)新的實(shí)例的向量支持能力,進(jìn)而調(diào)節(jié)虛擬機(jī)增量分類,它的優(yōu)勢(shì)是可以保持之前有用的實(shí)例作為支持向量,并同步獲取有效的更新步驟信息作為知道依據(jù)[11]。然而,虛擬機(jī)超平面方法在分發(fā)出現(xiàn)錯(cuò)誤的情況下,未必能進(jìn)行有效的調(diào)節(jié),換句話說,當(dāng)監(jiān)控實(shí)例的分發(fā)與固有的支撐向量存在明顯的差異時(shí),監(jiān)控實(shí)例可能由于支撐向量概率的減小而導(dǎo)致分類錯(cuò)誤。出于對(duì)更新步驟效率的考慮,同樣可以用在線學(xué)習(xí)的方法來(lái)解決周期性調(diào)整分類的問題。在線學(xué)習(xí)過程中,每一個(gè)標(biāo)簽實(shí)例都會(huì)在被用于分類器更新處理后被丟棄。與增量學(xué)習(xí)的設(shè)置不同,其無(wú)需維護(hù)之前的標(biāo)簽實(shí)例,更新步驟只需要使用一個(gè)標(biāo)簽實(shí)例就可以完成基本的執(zhí)行動(dòng)作,更新分類器可以彈性地適配多種實(shí)例的分發(fā)。一些類似模擬人類視神經(jīng)控制系統(tǒng)的圖形識(shí)別感知器算法,以及基于邊界的算法已經(jīng)被證實(shí)在大范圍的應(yīng)用中都是非常有效的。分類器更新通常是基于各類特征表示的,相對(duì)支持向量機(jī)(Support Vector Machine, SVM)、提升方法(boosting)、最大熵方法等“淺層學(xué)習(xí)”方法而言,深度學(xué)習(xí)所學(xué)得的模型中,非線性操作的層級(jí)數(shù)更多。淺層學(xué)習(xí)依靠人工經(jīng)驗(yàn)抽取樣本特征,網(wǎng)絡(luò)模型學(xué)習(xí)后獲得的是沒有層次結(jié)構(gòu)的單層特征;而深度學(xué)習(xí)通過對(duì)原始信號(hào)進(jìn)行逐層特征變換,將樣本在原空間的特征表示變換到新的特征空間,自動(dòng)地學(xué)習(xí)得到層次化的特征表示[12]。為了與分類器的垃圾郵件分類任務(wù)相對(duì)抗,攻擊者通常都會(huì)嘗試通過誘騙的方式使得分類器產(chǎn)生錯(cuò)誤結(jié)果從而躲避檢測(cè)。在對(duì)抗性研究領(lǐng)域,已經(jīng)有一些專門針對(duì)精準(zhǔn)化分類器而建立的偽裝攻擊研究,這些研究的貢獻(xiàn)就在于,對(duì)惡意攻擊及正常分類實(shí)例的最小代價(jià)可以作出合理化區(qū)分及評(píng)估[13]。對(duì)于攻擊者而言,垃圾郵件制造者不能對(duì)外部服務(wù)器的回復(fù)消息進(jìn)行修改,這也就限制了其對(duì)郵件的控制權(quán),因此,使用攻擊學(xué)習(xí)的作用是微乎其微的。本文的主要工作將集中在對(duì)持續(xù)改變其行為的垃圾郵件的適應(yīng)性檢測(cè)上。
垃圾郵件行為失敗消息特征分析及檢測(cè)分為五個(gè)階段,即:1)通過干擾檢測(cè)系統(tǒng)對(duì)校園網(wǎng)絡(luò)與互聯(lián)網(wǎng)之間的SMTP交互日志進(jìn)行捕獲;2)從日志中提取出校園網(wǎng)內(nèi)部宿主機(jī)與外部宿主機(jī)初始會(huì)話中的SMTP報(bào)文;3)計(jì)算來(lái)自于每臺(tái)內(nèi)部宿主機(jī)個(gè)體的多種類型SMTP會(huì)話投遞成功及失敗消息的數(shù)量及類型;4)按照宿主機(jī)狀態(tài),通過行為檢測(cè)的方式,針對(duì)訓(xùn)練集中的內(nèi)部宿主機(jī)打上垃圾郵件源標(biāo)簽或正常宿主機(jī)標(biāo)簽;5)在此基礎(chǔ)上,可以通過增量學(xué)習(xí)算法持續(xù)檢測(cè)校園中的垃圾郵件宿主機(jī)。特征分析和檢測(cè)常用的兩種分類方法分別為基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法[14]。針對(duì)分類后的特征結(jié)果集合,淘汰歷史樣本集中的非支持向量,將支持向量同新增樣本一起訓(xùn)練,以達(dá)到增量學(xué)習(xí)的目的[15]。一旦通過檢測(cè)確認(rèn)當(dāng)前存在垃圾郵件行為,則會(huì)將發(fā)現(xiàn)的垃圾郵件宿主機(jī)列表發(fā)送給管理者從而對(duì)其加以限制。
圖1描述了部署于計(jì)算中心的專門用于監(jiān)控SMTP會(huì)話的宿主機(jī)。該宿主機(jī)內(nèi)嵌了網(wǎng)絡(luò)監(jiān)控卡以進(jìn)行網(wǎng)絡(luò)交互的檢測(cè),其檢測(cè)對(duì)象是一臺(tái)位于校園網(wǎng)關(guān)的思科路由器。由于本文只關(guān)注于校園內(nèi)的垃圾郵件宿主機(jī),所以對(duì)來(lái)自于外部的SMTP會(huì)話進(jìn)行了忽略處理。值得注意的是,垃圾郵件僵尸網(wǎng)絡(luò)可能會(huì)通過基于網(wǎng)頁(yè)的郵件服務(wù)發(fā)送垃圾郵件,同樣也可能通過SMTP服務(wù)來(lái)發(fā)送,故而很難在沒有對(duì)SMTP會(huì)話進(jìn)行檢測(cè)的前提下來(lái)定義可靠的垃圾郵件特征。一種可行的解決方案是按照短會(huì)話模式來(lái)查找SMTP會(huì)話日志,該方法背后的基本原理是一個(gè)失敗會(huì)話的終結(jié)必然在失敗當(dāng)下立即發(fā)生,所以該會(huì)話將比正常情況下要短。換句話說,如果一個(gè)宿主機(jī)經(jīng)常在SMTP會(huì)話時(shí)發(fā)生短會(huì)話,則可以認(rèn)為該會(huì)話是容易失敗的,并且其容易被外部干擾所控制,從而成為一臺(tái)垃圾郵件宿主機(jī)。真正難于被可靠檢測(cè)到的垃圾郵件發(fā)送者,是基于安全超文本傳輸協(xié)議(Hyper Text Transfer Protocol over Secure socket layer, HTTPS)的頁(yè)面郵件會(huì)話,對(duì)于該種情況,干擾檢測(cè)系統(tǒng)可以檢測(cè)到垃圾郵件宿主機(jī),但發(fā)送者可以通過行為隨機(jī)化處理輕易地躲避檢測(cè),所以其需要檢測(cè)垃圾郵件的加密通道,這不在本文的研究范圍之內(nèi)。
網(wǎng)絡(luò)干擾檢測(cè)系統(tǒng)通過宿主機(jī)監(jiān)控及關(guān)鍵日志信息進(jìn)行總結(jié),以此來(lái)進(jìn)行對(duì)SMTP會(huì)話的分析,這其中包括了郵件接收地址和回復(fù)碼。以下是采集自192.168.92.154設(shè)備的日志消息示例,由于其主機(jī)網(wǎng)絡(luò)互連協(xié)議(Internet Protocol, IP)地址被垃圾郵件檢測(cè)掃描并被列入黑名單后,接收到了一條來(lái)自于SMTP服務(wù)器223.1.106.1的拒絕消息,頭兩行是消息的時(shí)間戳以及會(huì)話標(biāo)識(shí)碼,對(duì)其解析后可知消息出現(xiàn)的時(shí)間,以及區(qū)分SMTP會(huì)話消息對(duì)[DENY,605]的意思,是SMTP響應(yīng)碼605與郵件命令在請(qǐng)求響應(yīng)中雖被拒絕但狀態(tài)是保持接續(xù)的。該日志不包含郵件體,否則日志內(nèi)容的體積將會(huì)非常龐大,并且這會(huì)導(dǎo)致嚴(yán)重的隱私泄露,日志中的消息包括了多種類型的成功分發(fā)和失敗情況,同時(shí)還有一些關(guān)鍵域信息。通過這些檢測(cè)細(xì)節(jié)信息,已經(jīng)足夠?qū)σ粋€(gè)宿主機(jī)是否進(jìn)行了垃圾郵件的分發(fā)行為作出判斷。
圖1 計(jì)算中心宿主機(jī)SMTP會(huì)話監(jiān)控架構(gòu)
一個(gè)來(lái)自于服務(wù)器的SMTP響應(yīng)消息,標(biāo)志著一個(gè)SMTP郵件分發(fā)會(huì)話的成功與失敗狀態(tài),如果失敗總是發(fā)生,意味著其異常等級(jí)較高。起初試圖通過SMTP響應(yīng)碼對(duì)日志中的失敗消息進(jìn)行分類,但事實(shí)上響應(yīng)碼和真正的失敗原因是多元的關(guān)系,無(wú)法做到一一對(duì)應(yīng)。表1中列出了一些實(shí)驗(yàn)過程中的實(shí)例,從中可以看出有很多比響應(yīng)碼更合理的鍵值選項(xiàng),這些鍵值選項(xiàng)都是從多種失敗消息中提取的。
表1 相同SMTP響應(yīng)碼情況下不同響應(yīng)消息示例
另外,郵件服務(wù)器可以針對(duì)同樣的失敗原因給出不同的響應(yīng)消息。例如由于黑名單而造成的郵件阻塞在表1中就給出了多種列舉,所以在實(shí)驗(yàn)過程中通過人工識(shí)別鍵值的方式,根據(jù)語(yǔ)義分析對(duì)垃圾郵件進(jìn)行了標(biāo)注,并基于失敗原因的鍵值域組織了響應(yīng)消息。作為一個(gè)檢測(cè)系統(tǒng),在默認(rèn)SMTP策略腳本中并沒有列出所謂的期望回復(fù)結(jié)果,只是在默認(rèn)腳本中添加了附加鍵值信息,以幫助其進(jìn)行垃圾郵件會(huì)話的識(shí)別。附加信息包括了日志是否成功轉(zhuǎn)發(fā)、郵件頭的格式、郵件回復(fù)路徑、發(fā)送者以及接收者的地址和主題等。
在記錄了SMTP會(huì)話日志后,就可以開始針對(duì)SMTP會(huì)話進(jìn)行成功投遞及失敗消息的統(tǒng)計(jì)。按照SMTP的轉(zhuǎn)發(fā)實(shí)現(xiàn)規(guī)則,失敗消息存在多種不同的語(yǔ)義,按照實(shí)際情況可以進(jìn)行分類,主要分為6大類,實(shí)驗(yàn)步驟中的鍵值是通過人工設(shè)定的。表2中列出了典型的鍵值子集,這些鍵值在實(shí)驗(yàn)過程中的分類處理中都有用到,并且在失敗消息中以模糊匹配加正則表達(dá)式的方式進(jìn)行鍵值的查找,需要說明的是,在實(shí)驗(yàn)中的鍵值是不完備的,因?yàn)獒槍?duì)數(shù)百GB的日志中的潛在鍵值是無(wú)法窮舉的。
表2 針對(duì)各種失敗原因的語(yǔ)義鍵值歸類
類似拉丁語(yǔ)義檢索的自然語(yǔ)言處理技術(shù),可以對(duì)相似語(yǔ)義的上下文語(yǔ)句的檢索匹配有所幫助。針對(duì)郵件的不同區(qū)域,包括郵件標(biāo)題和正文,可以進(jìn)行概念分析、分類、標(biāo)引、描述和處理,形成具有語(yǔ)義關(guān)聯(lián)的資源元數(shù)據(jù)集合,并使用RDF(Resource Description Framework)和OWL(Web Ontology Language)語(yǔ)言進(jìn)行語(yǔ)義層面的表述和描述,通過適應(yīng)于郵件類型的自然語(yǔ)言關(guān)系模型學(xué)習(xí)處理,結(jié)合針對(duì)郵件上下文的語(yǔ)義分析,形成用以與分類器預(yù)定義分揀數(shù)據(jù)集較為匹配的語(yǔ)義關(guān)鍵詞或語(yǔ)句。回復(fù)消息通常只包含一兩個(gè)短句,示意失敗的鍵值通常只在消息中出現(xiàn)一次?;貜?fù)消息中隱含的失敗原因可以對(duì)垃圾郵件宿主機(jī)的行為產(chǎn)生影響,在這些原因中,由于發(fā)送域可能被篡改,所以必須針對(duì)失敗域進(jìn)行核查,因?yàn)檫@往往是垃圾郵件的征兆所在。在接收到的失敗消息中,標(biāo)識(shí)為郵件接收者未找到的類別通常有以下三種情況:目標(biāo)郵件地址已經(jīng)過期停用,但垃圾郵件制造源依然在持續(xù)向其發(fā)送郵件;目標(biāo)郵件地址由于解析錯(cuò)誤而造成拼寫問題,這種解析錯(cuò)誤是由于垃圾郵件制造源的惡意探測(cè)器在網(wǎng)絡(luò)上掃描目標(biāo)源后,對(duì)其地址試探性輪詢分析產(chǎn)生的過程結(jié)果;另外,垃圾郵件制造源也會(huì)隨機(jī)產(chǎn)生郵件地址作為目標(biāo)郵件地址,對(duì)于之前已經(jīng)發(fā)送過垃圾郵件的宿主機(jī)而言,對(duì)端服務(wù)器可能會(huì)將其列入IP黑名單,每次接收到郵件的檢索過程中,可能會(huì)對(duì)這些宿主機(jī)的郵件進(jìn)行退信處理。
對(duì)于外部郵件服務(wù)器,由于其響應(yīng)消息中的一些情況及其狀態(tài)并不確定,所以實(shí)驗(yàn)中將其歸入單獨(dú)的類別。還有一類特別的不常用命令對(duì),例如SMTP會(huì)話數(shù)據(jù)無(wú)響應(yīng),這類錯(cuò)誤通常與響應(yīng)碼702相關(guān)聯(lián),所以將該響應(yīng)碼作為該分類的鍵值。對(duì)于校園里的每一個(gè)IP地址,均可按照相應(yīng)鍵值計(jì)算其回復(fù)消息數(shù)量,該統(tǒng)計(jì)結(jié)果對(duì)識(shí)別疑似垃圾郵件宿主機(jī)是有幫助的。實(shí)驗(yàn)中使用了8維特征向量對(duì)內(nèi)部宿主機(jī)的每一個(gè)實(shí)例的SMTP會(huì)話進(jìn)行了描繪,該特征向量中的八元組其中第1元記錄的是成功投遞情況,第2至第7元記錄的是失敗消息的6種分類(如表2),第8元標(biāo)識(shí)了宿主機(jī)是否是郵件服務(wù)器。需要說明的是,如表2所列舉的,域名系統(tǒng)(Domain Name System, DNS)過濾器或者IP黑名單的方法都只是導(dǎo)致失敗的一部分原因,也就是說,垃圾郵件會(huì)話的動(dòng)機(jī)檢測(cè)機(jī)制對(duì)象是多樣的,并且是隨著實(shí)際情況的演變而變化的,特別在針對(duì)外部郵件服務(wù)器的情況下,更是如此。
實(shí)驗(yàn)通過使用內(nèi)部宿主機(jī)行為結(jié)果作為訓(xùn)練集,并且手工檢測(cè)以下郵件頭區(qū)域,以建立基本的垃圾郵件宿主機(jī)判斷機(jī)制。主要郵件頭區(qū)域?yàn)椋褐黝},通過檢查郵件消息的主題,判斷其是否疑似為垃圾郵件,例如其是否包含了攻擊性關(guān)鍵詞,該區(qū)域通常是非常有代表性的垃圾郵件識(shí)別信息源;發(fā)送者,垃圾郵件發(fā)送者通常都會(huì)對(duì)自己進(jìn)行偽裝,例如使用隨機(jī)產(chǎn)生的郵件地址或者域名,故對(duì)此域進(jìn)行檢查也是非常有必要的;接收者,該域可以在垃圾郵件中被隨機(jī)產(chǎn)生,所以一旦檢測(cè)到有序列化的隨機(jī)目標(biāo)的行為產(chǎn)生,則可以斷定其來(lái)源為垃圾郵件宿主機(jī)。通過掃描傳輸控制協(xié)議(Transmission Control Protocol, TCP)綁定的25號(hào)端口,并檢查宿主機(jī)域名稱,進(jìn)而判斷宿主機(jī)是否為SMTP服務(wù)器。
當(dāng)一系列打著不同標(biāo)簽的報(bào)文到來(lái)時(shí),分類器需要不斷更新以保持與最新的垃圾郵件行為相適配,在此使用了被動(dòng)攻擊增量學(xué)習(xí)算法,用以對(duì)當(dāng)前分類器的郵件樣本分類工作進(jìn)行調(diào)整。對(duì)于每一個(gè)潛在的樣本實(shí)例,都需要做如下兩步更新操作,即糾正當(dāng)前分類器的預(yù)測(cè)錯(cuò)誤,并且通過主動(dòng)調(diào)整來(lái)更新當(dāng)前分類器。最終,當(dāng)前已經(jīng)被最小化錯(cuò)誤處理后的分類器將作為下一次數(shù)據(jù)集采集選擇的分類器而使用,進(jìn)而實(shí)現(xiàn)優(yōu)化分類的精確度提升。前述方法的具體標(biāo)記需要在對(duì)其建模進(jìn)行公式化之前進(jìn)行定義,打上了標(biāo)簽的周期化數(shù)據(jù)集Pt在周期t時(shí)被采集,|Pt|的實(shí)驗(yàn)標(biāo)簽都是成對(duì)的,在{(u1,v1),(u2,v2),…,(u|Pt|,v|Pt|)}實(shí)例數(shù)組中的un是宿主機(jī)在八元組周期觀測(cè)值條件下的SMTP行為,相應(yīng)的類標(biāo)簽vn是垃圾郵件或非垃圾郵件標(biāo)識(shí)符。設(shè)置kt為周期t下分類器組成向量的權(quán)重,當(dāng)每一個(gè)實(shí)例un∈Pt到達(dá)時(shí),被更新的分類器kt+1都會(huì)修正之前kt分類器的錯(cuò)誤,所以kt也只是進(jìn)行最小化的修正。如果un從kt獲得了不正確的預(yù)測(cè)值,則kt的調(diào)節(jié)將被un的自身邊界值所取代。設(shè)置Q為kt的基于(un,vn)鍵值對(duì)的更新模型,分類器優(yōu)化調(diào)整可以公式化描述如下:
在按照上述公式對(duì)kt對(duì)應(yīng)的分類器進(jìn)行更新時(shí),{Q(kt,(uK,vK),Pt):1≤n≤|Pt|}是新分類器的備選鍵值組對(duì)。為防止新的分類器過多地被當(dāng)前分類器影響,選擇策略會(huì)按照最準(zhǔn)確的分類性能在Pt中挑選最合適的分類器,當(dāng)超過一個(gè)已經(jīng)更新過的分類器具有非常高的分類準(zhǔn)確性時(shí),則可以選擇該分類器中與kt差別最小的,因此新的分類器kt+1可以按照該策略從備選分類器中進(jìn)行選擇。按照上述對(duì)基礎(chǔ)過程的描述,垃圾郵件過濾器的更新所使用的增量學(xué)習(xí)算法流程如下所述。
步驟1 初始化數(shù)據(jù)集Pt、分類器kt以及分類優(yōu)化調(diào)整內(nèi)核函數(shù)Q。
步驟2 在每一個(gè)周期t,按照所采集數(shù)據(jù)的具體不同情況對(duì)數(shù)據(jù)集Pt進(jìn)行更新,以用于增量學(xué)習(xí)。
算法1 增量學(xué)習(xí)算法形式語(yǔ)義建模。
1)
Initialize:k1=(0,0,…,0);
2)
fort=1,2,…do
3)
Recpt_Collect_data(Pt);
4)
5)
6)
foreachun∈Ptdo
7)
8)
9)
end
10)
choose
11)
12)
end
通過實(shí)驗(yàn)證實(shí)增量學(xué)習(xí)算法對(duì)垃圾郵件分類檢測(cè)的準(zhǔn)確性及其性能優(yōu)劣的影響。實(shí)驗(yàn)在核心機(jī)房搭建的信息系統(tǒng)平臺(tái)上實(shí)施。實(shí)驗(yàn)環(huán)境基礎(chǔ)配置為:八核4.8GHz×4CPU、64GB內(nèi)存、16TB硬盤,雙200GB/s網(wǎng)卡的機(jī)架型服務(wù)器。虛擬機(jī)操作系統(tǒng)選擇了64位的Linux,虛擬機(jī)最大并發(fā)數(shù)為256臺(tái)。實(shí)驗(yàn)采用基于徑向基內(nèi)核(RadialBasisFunction,RBF)的支持向量機(jī)(SupportVectorMachine,SVM)以實(shí)現(xiàn)分類器的設(shè)計(jì),同時(shí)使用Matlab算法分析包對(duì)讀取參數(shù)與內(nèi)核參數(shù)進(jìn)行有效開采和識(shí)別。在實(shí)驗(yàn)中,分類器是定期增量更新的,這里更新周期為6h,更新對(duì)象是打了標(biāo)簽的數(shù)據(jù)集,分類器kt在周期t中由實(shí)例標(biāo)簽鍵值對(duì)Pt進(jìn)行更新。增量學(xué)習(xí)算法的性能在不同設(shè)置條件下,對(duì)分類器錯(cuò)誤修正的實(shí)際效果是不同的,同時(shí)在分類器更新后這種差別又可以被最大限度地減小,在選擇潛在分類器時(shí)起到了最小化評(píng)估錯(cuò)誤的作用。按照分類器性能進(jìn)行評(píng)估時(shí),需要同時(shí)強(qiáng)調(diào)垃圾郵件和非垃圾郵件宿主機(jī)的分類效果,所以測(cè)量平均分類準(zhǔn)確率也是由這兩大類別共同計(jì)算得出的。表3中列出了周期為月計(jì)的實(shí)驗(yàn)數(shù)據(jù)集,每行中的數(shù)字是具有郵件行為的宿主機(jī)數(shù)量,垃圾郵件宿主機(jī)數(shù)量以及非垃圾郵件宿主機(jī)數(shù)量。對(duì)于每一個(gè)實(shí)例來(lái)說,數(shù)據(jù)集中的un包含了第2章特征分析模型中介紹的八元組向量中的SMTP行為,每一個(gè)un的標(biāo)簽都被打上了垃圾郵件(vn=+1)或非垃圾郵件(vn=-1)。
表3 2015-11至2016-04校園網(wǎng)內(nèi)垃圾郵件宿主機(jī)統(tǒng)計(jì)
在不同E0和E(E代表E0的權(quán)衡結(jié)果,1代表校正,0表示不校正)調(diào)節(jié)系數(shù)背景下,針對(duì)混合郵件集的增量學(xué)習(xí)算法檢測(cè)結(jié)果如表4所示,實(shí)驗(yàn)中嘗試了多種E0和E值情況下的調(diào)節(jié)效果,在表4中只列出了部分有代表性結(jié)果。根據(jù)調(diào)節(jié)效果顯示,大多數(shù)分類精確度都是通過t=2或t=3情況下的增量學(xué)習(xí)分類調(diào)節(jié)后提升的,增量學(xué)習(xí)算法當(dāng)E=1時(shí)有著最優(yōu)的檢測(cè)能力,根據(jù)結(jié)果顯示,從第2個(gè)周期開始平均分揀準(zhǔn)確度在80%以上,并保持在穩(wěn)定水平。另外,當(dāng)E0=0,E=1以及E0=0.25,E=1時(shí),較E0=0.5,E=1時(shí)準(zhǔn)確性更穩(wěn)定。對(duì)于分類器產(chǎn)出者來(lái)說,當(dāng)一個(gè)新的分類器衍生出之后,產(chǎn)出者錯(cuò)誤檢測(cè)修正權(quán)重將會(huì)變小以避免過擬合問題的出現(xiàn),增量學(xué)習(xí)算法在本實(shí)驗(yàn)中保守地采取了最小化調(diào)節(jié)效果。
表4 增量學(xué)習(xí)算法在不同參數(shù)情況下的檢測(cè)結(jié)果 %
Tab.4Detectionresultofincrementallearningalgorithmwithdifferentparameters%
增量參數(shù)(E0,E)P1P2P3P4P5P6(0,1)72.2782.2483.8783.7283.7282.37(0.25,1)72.2782.1182.7483.5182.1781.69(0.5,1)72.2782.2583.1883.4184.2878.10(0.25,0)72.2772.4276.2776.3176.3272.72(0,0)72.2772.2772.2772.2772.2772.27
表5中顯示了在不同增量學(xué)習(xí)配置類條件下的分析細(xì)節(jié),主要為E0=0.25,E=1以及E0=0,E=1兩種情況。從表5中可以看到非垃圾郵件宿主機(jī)(NoneSpamHost,NSPH)的識(shí)別準(zhǔn)確度普遍低于80%,一些不確定的宿主機(jī)也由于其接收到了失敗響應(yīng)而被認(rèn)定為垃圾郵件宿主機(jī)。非垃圾郵件宿主機(jī)可以誤導(dǎo)預(yù)測(cè)結(jié)果并降低綜合檢測(cè)準(zhǔn)確度。在實(shí)踐中,類似錯(cuò)誤識(shí)別的情況已經(jīng)通過白名單的方式給予了糾正,所以綜合準(zhǔn)確度顯著提高,對(duì)垃圾郵件宿主機(jī)(SpamHost,SPH)的3到4個(gè)周期的平均檢測(cè)識(shí)別準(zhǔn)確度達(dá)到了90%以上。垃圾郵件宿主機(jī)與非垃圾郵件宿主機(jī)基于不同增量學(xué)習(xí)配置條件下的調(diào)節(jié)預(yù)測(cè)準(zhǔn)確度結(jié)果如圖2所示。
表5 垃圾郵件宿主機(jī)與非垃圾郵件宿主機(jī)的檢測(cè)結(jié)果
圖2 SPH與NSPH基于不同增量學(xué)習(xí)配置調(diào)節(jié)的預(yù)測(cè)準(zhǔn)確度
除了討論特征權(quán)重的重要性,實(shí)驗(yàn)通過手工檢測(cè)SMTP日志的研究方法,對(duì)可能誤導(dǎo)檢測(cè)結(jié)果的因素進(jìn)行了分析,主要有以下幾類情況:1)“接收者未響應(yīng)”應(yīng)答,通常是由于接收者Email地址錯(cuò)誤或郵件格式出現(xiàn)了問題,特別是當(dāng)已經(jīng)超期停用的郵件地址添加在了接收列表中的情況下,很容易出現(xiàn)這種問題。出現(xiàn)類似錯(cuò)誤通常的主要原因是宿主機(jī)向郵件列表進(jìn)行了宣告,稱其可以持續(xù)接收響應(yīng),這種情況一般可以通過郵件列表或白名單列表更新并修正。在該情況中,還發(fā)現(xiàn)部分郵件地址為假造的情形,由于連續(xù)出現(xiàn)了多次雷同的郵件地址,其均投遞失敗,故確定歸類為該情況。2)郵件服務(wù)器“黑名單”應(yīng)答,該應(yīng)答意味著某些用戶賬號(hào)可能曾經(jīng)被盜取后用來(lái)發(fā)送垃圾郵件,這種情況下郵件服務(wù)器管理員可以通過解析郵件日志的方式對(duì)該賬號(hào)進(jìn)行確認(rèn)分析。3)垃圾郵件宿主機(jī)接收到新的失敗響應(yīng),通常這種情況并不多見,但在實(shí)驗(yàn)中仍然對(duì)其原因進(jìn)行了分析。當(dāng)一個(gè)實(shí)例看起來(lái)和過去的郵件賬戶中的命令相類似的話,其成功率相對(duì)較高。另外,一個(gè)新的宿主機(jī)在觀測(cè)周期內(nèi),只會(huì)初始化少量的SMTP會(huì)話,其觀測(cè)行為的缺乏可能是錯(cuò)分類中偶然的結(jié)果。
垃圾郵件發(fā)送者往往都會(huì)企圖躲避檢測(cè),但躲避畢竟不可能總是成功的,因?yàn)槠錈o(wú)法控制外部郵件服務(wù)器,根據(jù)表2中的失敗原因鍵值歸類情況,垃圾郵件發(fā)送者需要通過域認(rèn)證,在垃圾郵件會(huì)話中避開非正常的命令,并且頻繁地拒絕傳遞垃圾郵件。郵件接收者地址列表需要很仔細(xì)地采集以確保列表中的每一項(xiàng)都是有效的,因?yàn)猷]件地址可能是非正確的,或者已經(jīng)過期。然而在網(wǎng)頁(yè)或磁盤組中檢索郵件地址往往是不精確的,垃圾郵件發(fā)送者也不可能在海量數(shù)據(jù)中手工認(rèn)證郵件地址的有效性,但任何非正確的轉(zhuǎn)發(fā)或向過期地址的轉(zhuǎn)發(fā)都將導(dǎo)致失敗的結(jié)果。另外,郵件服務(wù)器列出了一個(gè)黑名單以阻止垃圾郵件的進(jìn)入企圖,宿主機(jī)在控制了垃圾郵件轉(zhuǎn)發(fā)的同時(shí),也會(huì)不斷補(bǔ)充更新其黑名單內(nèi)容。
本實(shí)驗(yàn)與同類垃圾郵件分揀實(shí)驗(yàn)相比,最本質(zhì)的不同是,本實(shí)驗(yàn)使用的是增量學(xué)習(xí)算法為基礎(chǔ)的分類器,而其他實(shí)驗(yàn)主要以堆疊器編碼機(jī)為主。相比較而言,使用堆疊器編碼機(jī)的分類器其優(yōu)點(diǎn)是分揀穩(wěn)定速度快,準(zhǔn)確度在有條件背景下能快速達(dá)到較高值;但其缺點(diǎn)在于通常與分揀對(duì)象數(shù)據(jù)集屬性強(qiáng)關(guān)聯(lián),針對(duì)著名的Enron數(shù)據(jù)集則效率很高(主要體現(xiàn)在1,2,3,5版本,4版本并不穩(wěn)定),但關(guān)聯(lián)其他類型數(shù)據(jù)集則效果并不明顯。而使用增量學(xué)習(xí)算法為基礎(chǔ)的分類器,則與數(shù)據(jù)集屬性沒有強(qiáng)關(guān)聯(lián)關(guān)系,對(duì)各種數(shù)據(jù)集效果差異并不明顯,但分揀準(zhǔn)確度提升和穩(wěn)定需要一定周期,且準(zhǔn)確度最高值低于堆疊編碼機(jī)方式。
本實(shí)驗(yàn)的檢測(cè)工作依賴于對(duì)獨(dú)立宿主機(jī)的統(tǒng)計(jì),這些獨(dú)立宿主機(jī)以IP地址為識(shí)別符號(hào),所以對(duì)主機(jī)地址做過網(wǎng)絡(luò)地址轉(zhuǎn)換(NetworkAddressTranslation,NAT)映射的內(nèi)網(wǎng)地址,或者對(duì)使用了動(dòng)態(tài)主機(jī)配置協(xié)議(DynamicHostConfigurationProtocol,DHCP)獲取的地址而言,可能會(huì)存在不確定性。對(duì)于前者來(lái)說,網(wǎng)絡(luò)管理員仍可以識(shí)別近似源地址繼而分析其垃圾郵件行為,但需要對(duì)NAT所對(duì)應(yīng)的真實(shí)設(shè)備進(jìn)行處理;對(duì)于后者而言,垃圾郵件宿主機(jī)可能被認(rèn)為來(lái)自于多個(gè)源,同樣地,網(wǎng)絡(luò)管理員可以對(duì)實(shí)際分配IP地址的DHCP服務(wù)器進(jìn)行分析,以查找到真實(shí)的地址源。最難處理的情況是由移動(dòng)終端獲取到一個(gè)動(dòng)態(tài)IP地址,并且該地址又是做過NAT映射的。當(dāng)一個(gè)移動(dòng)終端在某一個(gè)點(diǎn)稍作停留,其垃圾郵件發(fā)送行為可能就會(huì)演變得非常嚴(yán)重,除非當(dāng)前垃圾郵件已經(jīng)造成了擁堵。因此,一個(gè)可能的解決方案是,通過灰名單的方式僅僅阻塞該IP地址接收擁堵失敗消息,如果該源是一個(gè)正常的郵件服務(wù)器,一段時(shí)間后它將會(huì)再次發(fā)起請(qǐng)求。該途徑至少阻止了垃圾郵件移動(dòng)終端對(duì)其停留區(qū)域其他終端的垃圾郵件的轉(zhuǎn)發(fā)。
本文使用了增量學(xué)習(xí)算法用于垃圾郵件宿主機(jī)的檢測(cè)工作,該工作基于大量的SMTP會(huì)話中嵌套的成功及失敗轉(zhuǎn)發(fā)消息,以及其中嵌入的郵件服務(wù)器信息。增量學(xué)習(xí)算法可以有效地根據(jù)待檢測(cè)者情況調(diào)節(jié)分類器,以適配垃圾郵件宿主機(jī)的多變行為,故而垃圾郵件發(fā)送行為可以被識(shí)別甚至被弱化。實(shí)驗(yàn)結(jié)果顯示,增量學(xué)習(xí)算法可以對(duì)檢測(cè)者在很短的周期內(nèi)進(jìn)行調(diào)節(jié),并且檢測(cè)成功率可以大幅度提升。特征分析結(jié)果說明對(duì)于垃圾郵件宿主機(jī)檢測(cè)來(lái)說,IP黑名單是其中最重要的特征。對(duì)垃圾郵件行為的觀測(cè)是通過SMTP綁定的,然而研究中也發(fā)現(xiàn)有些宿主機(jī)可能通過基于SSL(SecureSocketLayer)安全協(xié)議之上的簡(jiǎn)單郵件傳輸協(xié)議(SimpleMailTransferProtocolOverSSL,SMTPS)或者純網(wǎng)頁(yè)郵件服務(wù)發(fā)送垃圾郵件,由于從加密會(huì)話中觀測(cè)純文本信息是不可能的,宿主機(jī)可以通過模仿正常郵件網(wǎng)絡(luò)行為,從而輕易躲避檢測(cè),所以找到一種健壯而徹底的解決方法是接下來(lái)的研究方向。
)
[1] 楊峰,曹麒麟,段海新,等.基于DNSBlocklist的反垃圾郵件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(7):11-12.(YANGF,CAOQL,DUANHX,etal.Designandimplementationofananti-spamsystembasedonDNSBlocklist[J].ComputerEngineeringandApplications, 2003, 39(7): 11-12.)
[2]LIUWY,WANGT.Onlineactivemulti-fieldlearningforefficientemailspamfiltering[J].KnowledgeandInformationSystems, 2012, 33(1): 117-136.
[3]BERTINIJR,ZHAOL,LOPESAA.AnincrementallearningalgorithmbasedontheK-associated graph for non-stationary data classification [J].Information Sciences, 2013, 246: 52-68.
[4] COSTA J, SILVA C, ANTUNES M, et al.Customized crowds and active learning to improve classification [J].Expert System with Application, 2013, 40(18): 7212-7219.
[5] HU L S, LU S X, WANG X Z.A new and informative active learning approach for support vector machine [J].Information Sciences, 2013, 244: 142-160.
[6] 王學(xué)軍,趙琳琳,王爽.基于主動(dòng)學(xué)習(xí)的視頻對(duì)象提取方法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2013,43(S1):51-54.(WANG X J, ZHAO L L, WANG S.Video object extraction method based on active learning SVM [J].Journal of Jilin University (Engineering and Technology Edition), 2013, 43(S1): 51-54.)
[7] 丁文軍,薛安榮.基于SVM的Web文本快速增量分類算法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(4):1275-1278.(DING W J, XUE A R.Fast incremental learning SVM for Web text classification[J].Application Research of Computers, 2012, 29(4): 1275-1278.)
[8] LENG Y, XU X Y, QI G H.Combining active learning and semi-supervised learning to construct SVM classifier [J].Knowledge Based Systems, 2013, 44(5): 121-131.
[9] 劉伍穎,王挺.集成學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的個(gè)性化垃圾郵件過濾[J].計(jì)算機(jī)工程與科學(xué),2011,33(9):34-41.(LIU W Y, WANG T.Ensemble Learning and active learning based personal spam email filtering [J].Computer Engineering & Science, 2011, 33(9): 34-41.)
[10] ALI HAJI N, IBRAHIM N S.Porter stemming algorithm for semantic checking [EB/OL].[2016-07-16].https://www.researchgate.net/profile/Noraida_Haji_Ali/publication/260385215_Porter_Stemming_Algorithm_for_Semantic_Checking/links/5584e9d708ae7bc2f448474f.pdf.
[11] 吳偉寧,劉揚(yáng),郭茂祖.基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2012,49(6):1162-1173.(WU W N, LIU Y, GUO M Z.Advances in active learning algorithms based on sampling strategy [J].Journal of Computer Research and Development, 2012,49(6): 1162-1173.)
[12] 李艷濤,馮偉森.堆疊去噪自編碼器在垃圾郵件過濾中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2015,35(11):3256-3260.(LI Y T, FENG W S.Application of stacked denoising autoencoder in spamming filtering [J].Journal of Computer Applications, 2015, 35(11): 3256-3260.)
[13] YANG J M, LIU Y N, ZHU X D, et al.A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization [J].Information Processing & Management, 2012, 48(4): 741-754.
[14] 沈承恩,何軍,鄧揚(yáng).基于改進(jìn)堆疊自動(dòng)編碼機(jī)的垃圾郵件分類[J].計(jì)算機(jī)應(yīng)用,2016,36(1):159-162.(SHEN C E, HE J, DENG Y.Spam filtering based on modified stack auto-encoder [J].Journal of Computer Applications, 2016, 36(1): 158-162.)[15] 張文興,樊捷杰.基于KKT和超球結(jié)構(gòu)的增量SVM算法的云架構(gòu)入侵檢測(cè)系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2015,35(10):2886-2890.(ZHANG W X, FAN J J.Cloud architecture intrusion detection system based on KKT condition and hyper-sphere incremental SVM algorithm [J].Journal of Computer Applications, 2015, 35(10): 2886-2890.)
This work is supported by the Digital Campus Construction Project of Nanjing Normal University (2013JSJG069).
CHEN Bin, born in 1978, Ph.D., engineer.His research interests include distributed computing, cloud computing.
DONG Yizhou, born in 1978, experimentalist.His research interests include Internet of things application.
MAO Mingrong, born in 1958, senior experimentalist.His research interests include network application.
Spam detection model of campus network based on incremental learning algorithm
CHEN Bin*, DONG Yizhou, MAO Mingrong
(InformatizationOffice,NanjingNormalUniversity,NanjingJiangsu210023,China)
Concerning the problem brought by a large number of spam, an incremental passive attack learning algorithm was proposed.The passive attack learning method was based on the Simple Mail Transfer Protocol (SMTP) session log initiated by the email host in the campus during half a year.Analysis on the status of delivery rate and many types of failure message of the host behavior in the session record was conducted, and the effective adaptation was ultimately achieved by detecting spam source host behavior on the recent email classification.The experimental results show that after implementing several rounds of classification strategy adjustment, the detection accuracy of the proposed model can reach 94.7%.The design is very useful to effectively detect internal spam host and control the spam from the source.
spam host; Simple Mail Transfer Protocol (SMTP) session; incremental learning; classifier; failure information
2016-08-04;
2016-09-13。 基金項(xiàng)目:南京師范大學(xué)數(shù)字校園建設(shè)研究項(xiàng)目(2013JSJG069)。
陳斌(1978—),男,江蘇南京人,工程師,博士,CCF會(huì)員,主要研究方向:分布式計(jì)算、云計(jì)算; 東一舟(1978—),男,江蘇海門人,實(shí)驗(yàn)師,主要研究方向:物聯(lián)網(wǎng)應(yīng)用; 毛明榮(1958—),男,江蘇靖江人,高級(jí)實(shí)驗(yàn)師,主要研究方向:網(wǎng)絡(luò)應(yīng)用。
1001-9081(2017)01-0206-06
10.11772/j.issn.1001-9081.2017.01.0206
TP393.08
A