楊赫 孫廣路 何勇軍
摘要:針對樸素貝葉斯算法應(yīng)用于反垃圾郵件過濾時,其有效性十分依賴于對郵件內(nèi)容的有效建模,而郵件內(nèi)容建模方面研究尚不成熟限制了貝葉斯方法在垃圾郵件過濾中的性能,采用了三種概率分布對郵件內(nèi)容進(jìn)行建模,據(jù)此提出了3種概率分布下的樸素貝葉斯算法,為了提高訓(xùn)練效率,算法采用了一種增量式的垃圾郵件過濾方法,在trec05p-1、trec06p兩個公開數(shù)據(jù)集上對這3種貝葉斯算法進(jìn)行了實(shí)驗對比,分析出三種貝葉斯分布的適用范圍,從不同分布的郵件內(nèi)容建模角度出發(fā),為過濾垃圾郵件的方法選擇提供了有效依據(jù).
關(guān)鍵詞:郵件過濾;樸素貝葉斯;機(jī)器學(xué)習(xí)
摘要:針對樸素貝葉斯算法應(yīng)用于反垃圾郵件過濾時,其有效性十分依賴于對郵件內(nèi)容的有效建模,而郵件內(nèi)容建模方面研究尚不成熟限制了貝葉斯方法在垃圾郵件過濾中的性能,采用了三種概率分布對郵件內(nèi)容進(jìn)行建模,據(jù)此提出了3種概率分布下的樸素貝葉斯算法,為了提高訓(xùn)練效率,算法采用了一種增量式的垃圾郵件過濾方法,在trec05p-1、trec06p兩個公開數(shù)據(jù)集上對這3種貝葉斯算法進(jìn)行了實(shí)驗對比,分析出三種貝葉斯分布的適用范圍,從不同分布的郵件內(nèi)容建模角度出發(fā),為過濾垃圾郵件的方法選擇提供了有效依據(jù).
關(guān)鍵詞:郵件過濾;樸素貝葉斯;機(jī)器學(xué)習(xí)
摘要:針對樸素貝葉斯算法應(yīng)用于反垃圾郵件過濾時,其有效性十分依賴于對郵件內(nèi)容的有效建模,而郵件內(nèi)容建模方面研究尚不成熟限制了貝葉斯方法在垃圾郵件過濾中的性能,采用了三種概率分布對郵件內(nèi)容進(jìn)行建模,據(jù)此提出了3種概率分布下的樸素貝葉斯算法,為了提高訓(xùn)練效率,算法采用了一種增量式的垃圾郵件過濾方法,在trec05p-1、trec06p兩個公開數(shù)據(jù)集上對這3種貝葉斯算法進(jìn)行了實(shí)驗對比,分析出三種貝葉斯分布的適用范圍,從不同分布的郵件內(nèi)容建模角度出發(fā),為過濾垃圾郵件的方法選擇提供了有效依據(jù).
關(guān)鍵詞:郵件過濾;樸素貝葉斯;機(jī)器學(xué)習(xí)