文/崔懿心
隨著社交網(wǎng)絡的蓬勃發(fā)展,人們對社交網(wǎng)絡的需求已經(jīng)不僅僅是為了獲取資訊,還很大程度上地利用社交網(wǎng)絡來表達自我,宣泄情感。就在去年,臉書陷入了私下和廣告商交易用戶社交數(shù)據(jù)的丑聞當中,以便廣告商通過分析社交數(shù)據(jù)得出用戶的不同偏好,并將廣告針對性下放。這說明了社交數(shù)據(jù)具有巨大的可研究性,如果該特征能夠被正當利用,那么我們將可以提取出很多有用的信息。本文將會解決以下三個問題:
(1)利用文本挖掘技術(shù)對社交數(shù)據(jù)進行預處理,并選出最優(yōu)特征提取模型;
(2)采用積極的機器學習算法、傳統(tǒng)鄰近分類算法和集成學習算法訓練時事類微博二分類模型,對比選出最優(yōu)模型;
(3)闡述本研究所得的結(jié)論,包括最終模型的描述和多種算法間的對比;并討論時事偏好評估模型在實際生活上的應用
中文分詞算法可以分為三種類型:基于字符串匹配的分詞方法,基于統(tǒng)計的分詞方法以及基于理解的分詞方法?;诮y(tǒng)計的分詞方法,通常會統(tǒng)計相應詞串的組合出現(xiàn)的頻率,進而評估組合間詞串的緊密程度,如果達到一定標準則認為組成了一個詞匯。該方法常用的統(tǒng)計模型包括隱馬爾科夫模型,最大熵模型以及N-gram模型等等。本文采用的是基于統(tǒng)計的分詞方法中的N-gram模型。
本文數(shù)據(jù)挖掘的研究過程將使用9種機器學習算法,包括樸素貝葉斯算法,邏輯回歸算法,支持向量機SVM算法,決策樹算法,AdaBoost(自適應增強)算法,隨機森林RF算法等等。
利用網(wǎng)絡爬蟲獲取微博名為頭條新聞和新浪娛樂的微博各5000條,對數(shù)據(jù)進行去異常值和人工標注:定義“頭條新聞”所發(fā)微博為時事偏好強微博,標注tag=1;“新浪娛樂”發(fā)表的微博則為科研偏好弱數(shù)據(jù),標注tag=0。最終獲取到的數(shù)據(jù)包括content和tag兩個變量,其中content為文本數(shù)據(jù),tag為布爾型變量。同時,對content變量進行中文分詞后,利用TF-IDF技術(shù)進行文本特征提取并對特征進行過濾。
表1:各特征提取算法實驗結(jié)果
表2:分類算法對比
本文采用N-grams算法進行中文分詞,通過調(diào)參得到三種分詞模型:unigram(單詞)模型、unigram+bigram(單雙詞)模型、bigram(雙詞)模型,經(jīng)過機器學習算法訓練后進行分詞模型的對比,結(jié)果如表1所示。
由表1可得,在各個積極機器學習算法訓練中,單雙詞模型在準確率和AUC值的指標對比中都要更勝一籌。因此選取單雙詞模型作為最優(yōu)分詞模型,加入TF-IDF特征提取技術(shù)組成最優(yōu)文本特征提取模型,最終提取出15562個文本特征向量。
本文共采取九種機器學習算法進行時事類微博分類器的訓練,共分成三類分類算法進行對比?;A(chǔ)評價指標對比如表2所示。
Rocchio和KNN屬于傳統(tǒng)的鄰近分類算法,其評價指標普遍比機器學習算法要差。Rocchio算法和KNN鄰近算法的準確率均低于其他四個機器學習算法,甚至低于4種機器學習算法的平均準確率95.34%。說明積極機器學習算法優(yōu)于傳統(tǒng)鄰近分類算法。積極的機器學習算法之間,線性SVC的準確率,F(xiàn)1分數(shù),AUC值達到了96%以上的。而決策樹模型在積極的機器學習算法中屬于分類效果最差的模型。
集成學習算法的模型分類效果顯示,AdaBoost的各個模型指標都不理想,甚至低于傳統(tǒng)鄰近算法。而將隨機森林算法與強單分類器——線性支持分類機模型對比發(fā)現(xiàn),線性支持分類機算法在各方面都要更勝一籌。
對線性支持分類機進行調(diào)參,包括懲罰項、懲罰項參數(shù)和成本函數(shù)類型。最終通過模型評價指標的對比得到,最優(yōu)分類器為懲罰項為l2范數(shù),成本函數(shù)類型為square hinge,懲罰項系數(shù)為1的線性SVC模型。因此,在分類結(jié)果基礎(chǔ)上,得到以“時事類微博/總微博數(shù)”為時事偏好評估指標的用戶時事偏好評估模型。
本文重點研究如何從社交數(shù)據(jù)提取出用戶的時事偏好屬性,并將該屬性指標用于學生評價體系當中??偨Y(jié)全文得到以下研究成果:以單雙詞模型為分詞模型,結(jié)合TF-IDF技術(shù)作為最優(yōu)文本特征提取模型;對比9種機器學習算法,得出最優(yōu)分類算法為線性支持分類機;最優(yōu)時事類微博分類器為懲罰項為l2范數(shù),成本函數(shù)為square hinge,懲罰項系數(shù)為1 的線性SVC模型。