摘 要: 在垃圾短信過(guò)濾系統(tǒng)中,傳統(tǒng)方法的短信息特征很難準(zhǔn)確地考慮到詞語(yǔ)的貢獻(xiàn)。提出了一種新的特征詞查找和特征構(gòu)造方法,較好地反映了詞語(yǔ)之間的關(guān)系和在短信中的貢獻(xiàn)度。通過(guò)聯(lián)合采用稀疏自編碼器和支撐矢量機(jī)(SVM)進(jìn)行學(xué)習(xí)和分類(lèi)仿真實(shí)驗(yàn),結(jié)果表明過(guò)濾效果比目前報(bào)道的類(lèi)似分類(lèi)器效果有顯著的提升和改進(jìn)。
關(guān)鍵詞: 支撐矢量機(jī); 稀疏自編碼器; 短信; 特征提取
中圖分類(lèi)號(hào): TN911?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)17?0145?04
0 引 言
每年移動(dòng)運(yùn)營(yíng)商和國(guó)家都花費(fèi)了大量的人力和物力進(jìn)行垃圾短信治理,但公眾還是不滿(mǎn)意治理效果,主要是由于短信自動(dòng)識(shí)別技術(shù)方面還有待提高的地方。本文利用SVM[1?2]完成短信分類(lèi),取得了比KNN更好的效果,但如果數(shù)據(jù)量大,訓(xùn)練的時(shí)間則比較長(zhǎng)。但是SVM有個(gè)很大的優(yōu)解,能夠收斂到全局最優(yōu)解。因此選擇SVM作為分類(lèi)器,是實(shí)際應(yīng)用中不錯(cuò)的選擇;稀疏自編碼(SAE)是深度學(xué)習(xí)理論的強(qiáng)力工具,它具有獲取從低層到高層特征的能力,同時(shí)具有稀疏數(shù)據(jù)能力[3]。SAE這些能力正好合乎SVM的有效分類(lèi)應(yīng)用。
本文主要根據(jù)實(shí)際完成的移動(dòng)垃圾過(guò)濾項(xiàng)目的結(jié)果,結(jié)合理論進(jìn)行提升。首先通過(guò)深度學(xué)習(xí)方法取得詞語(yǔ)在構(gòu)成一個(gè)短信語(yǔ)義中的貢獻(xiàn)度,從而獲得特征詞庫(kù)和特征,接著完成短信的特征構(gòu)建,然后用堆疊稀疏自編碼對(duì)原始特征數(shù)據(jù)進(jìn)行有效特征分解,最后利用SVM分類(lèi)器短信進(jìn)行分類(lèi)識(shí)別。實(shí)驗(yàn)表明本文算法更能精確地過(guò)濾垃圾短信,比目前報(bào)道的效果[1?2]有顯著的提升和改進(jìn)。
由于沒(méi)有公開(kāi)的短信素材可以得到,本文利用以前所做項(xiàng)目收集的大約有300萬(wàn)條的短信作為實(shí)驗(yàn)樣本。
3 實(shí)驗(yàn)與結(jié)論
本文拿出每類(lèi)大約42 560條垃圾短信(訓(xùn)練樣本數(shù)的2倍)和70 000條正常短信作為測(cè)試樣本。把這些測(cè)試樣本首先按照式(5),式(6)的方式取得所有短信的稀疏編碼向量。
在訓(xùn)練階段仿真用的稀疏自編碼器代碼借鑒了DeepLearnToolbox?master工具包;多類(lèi)帶概率輸出的SVM訓(xùn)練和分類(lèi)器借鑒了臺(tái)灣的林智仁LIBSVM工具。
稀疏自編碼器訓(xùn)練參數(shù)和結(jié)果見(jiàn)第2節(jié)。圖2是SVM訓(xùn)練后的參數(shù)設(shè)置和支撐矢量情況,考慮到政治敏感性,分類(lèi)器SVM中[C1,C2,C3,C4]四個(gè)類(lèi)的輸出概率下限分別是0.67,0.9,0.95,0.8(可以根據(jù)不同需求調(diào)整),比這個(gè)下限值小的樣本本文認(rèn)為是正常短信。
為了能將識(shí)別結(jié)果與已有文獻(xiàn)[1,4]比較,本文按照文獻(xiàn)[4]列出的指標(biāo)對(duì)本文的結(jié)果進(jìn)行了統(tǒng)計(jì)(見(jiàn)表2)。統(tǒng)計(jì)指標(biāo)有:查準(zhǔn)率(P)、查全率(R,召回率) 和正常短信誤分率(N)。同時(shí)本文用?T表示訓(xùn)練樣本,?C表示測(cè)試樣本。比如P?T表示的是訓(xùn)練樣本的查準(zhǔn)率。
從表2可以得出以下結(jié)論:本文設(shè)計(jì)的分類(lèi)器,推廣性能較好。其分類(lèi)效果優(yōu)于文獻(xiàn)[1,4]。主要是本文設(shè)計(jì)的特征采用了深度學(xué)習(xí)的理論,比較準(zhǔn)確地考慮了詞語(yǔ)在短信中的權(quán)重;從訓(xùn)練時(shí)間來(lái)看稍微比文獻(xiàn)[4]的方法長(zhǎng),主要是因?yàn)楸疚牟捎昧讼∈枳跃幋a器,需要批量過(guò)濾短信。
本文需要改進(jìn)的是如何減少學(xué)習(xí)時(shí)間,這需要從模型上進(jìn)行研究。另外,短信的特征除了本文特征詞的特征外,還可以考慮主被叫、來(lái)源地等特征,分類(lèi)效果會(huì)更好。
參考文獻(xiàn)
[1] 李慧,葉鴻,潘學(xué)瑞,等.基于SVM 的垃圾短信過(guò)濾系統(tǒng)[J].計(jì)算機(jī)安全,2012(6):34?38.
[2] 楊明極,宋艷艷.支持向量機(jī)在垃圾短信攔截系統(tǒng)中的實(shí)現(xiàn)[J].數(shù)字技術(shù)與應(yīng)用,2012(1):32.
[3] SHIN H C, ORTON M R, COLLINS D J, et al. Stacked auto?encoders for unsupervised feature learning and multiple organ detection in a pilot study using 4D patient data [J]. IEEE tran?sactions on pattern analysis and machine intelligence, 2013, 35(8): 1930?1943.
[4] 張永軍,劉金嶺.基于特征詞的垃圾短信分類(lèi)器模型[J].計(jì)算機(jī)應(yīng)用,2013,33(5):1334?1337.
[5] BENGIO Y, DUCHARME B, VINCENT P, et a1. A neural probabilistic language model [J]. Journal of machine learning research, 2003, 3: 1137?1155.
[6] 袁丁.中文短文本的情感分析[D].北京:北京郵電大學(xué),2015.
[7] SCHOLKOPF B, PLATT J, HOFMANN T, et al. Efficient learning of sparse representations with an energy?based model [C]// Proceedings of 2006 IEEE Conference on Advances in Neural Information Processing Systems. US: IEEE, 2006: 1137?1144.
[8] 段寶彬,韓立新,謝進(jìn).基于堆疊稀疏自編碼的模糊C?均值聚類(lèi)算法[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(4):51?56.
[9] LEOPOLD E, KINDERMANN J. Text categorization with support vector machines, how to represent text in input space [J]. Machine learning, 2002, 46(1): 423?444.
[10] HUANG T K, WENG R C, LIN C J. Generalized Bradley?Terry models and multi?class probability estimates [J]. Journal of machine learning research, 2006, 7(1): 85?115.