林 偉
(福建警察學(xué)院偵查系, 福建福州 350007)
中文微博輿情分類中一種改進(jìn)的特征選擇方法
林 偉
(福建警察學(xué)院偵查系, 福建福州 350007)
通過微博情感分析掌握網(wǎng)絡(luò)輿情動態(tài)是網(wǎng)絡(luò)數(shù)據(jù)挖掘的研究熱點(diǎn),特征選擇是基于內(nèi)容的微博輿情分類的重要環(huán)節(jié)。為有效提取微博數(shù)據(jù)的特征,分析CHI特征選擇算法應(yīng)用在微博輿情分類中的特點(diǎn)及不足,給出一種改進(jìn)的特征評估函數(shù),并進(jìn)一步用基于蟻群聚類的方法消除微博特征間的冗余。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的算法能夠有效提高微博輿情分類的效能。
中文微博; 微博輿情; 特征選擇; 蟻群聚類
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們對現(xiàn)實(shí)生活中突發(fā)事件的關(guān)注度不斷提高,網(wǎng)民通過網(wǎng)絡(luò)發(fā)表情感鮮明的言論并相互影響滲透。網(wǎng)絡(luò)輿情是指網(wǎng)民在網(wǎng)絡(luò)虛擬社會空間領(lǐng)域通過網(wǎng)絡(luò)語言或其他方式,圍繞當(dāng)前社會的熱點(diǎn)或普遍關(guān)注的話題所表達(dá)情感、態(tài)度和意見的集合[1]。而微博做為網(wǎng)民主要的社交平臺之一,具有自主性、即時性、互動性等特點(diǎn)深受網(wǎng)民青睞。截至2016年6月,根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第38次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,我國微博用戶規(guī)模2.42億,同比增長18.6%,在網(wǎng)民中的滲透率達(dá)34%,同比增長3.4個百分點(diǎn)。微博日活躍用戶增至1.05億,人均月使用次數(shù)達(dá)到了52次。微博在追蹤熱點(diǎn)、發(fā)表熱點(diǎn)評論、關(guān)注興趣話題等方面都是用戶的首選平臺[2]。為此,通過機(jī)器學(xué)習(xí)算法對微博進(jìn)行輿情分類,掌握網(wǎng)絡(luò)輿情動態(tài),對微博上帶有惡意、煽動及攻擊性言論及時監(jiān)控是網(wǎng)絡(luò)數(shù)據(jù)挖掘的研究熱點(diǎn)[3]。
特征選擇是基于數(shù)據(jù)挖掘的微博輿情分類重要環(huán)節(jié),常用的特征選擇算法一般采用某種特征評估函數(shù)來計(jì)算特征與類的關(guān)聯(lián)度。本文分析特征選擇評估函數(shù)CHI在微博輿情分類中的特點(diǎn)及不足,給出一種改進(jìn)的特征評估函數(shù)。然而評估函數(shù)只度量了特征與類的關(guān)系,并沒有考慮特征之間的關(guān)系,在實(shí)踐中發(fā)現(xiàn),冗余特征同樣對微博輿情分類產(chǎn)生負(fù)面的影響。為此,進(jìn)一步用基于蟻群聚類的方法消除微博特征間的冗余,以便更有效地提取微博訓(xùn)練樣本集的特征。
1.1 微博預(yù)處理
微博是非結(jié)構(gòu)化的字符文本,計(jì)算機(jī)無法直接計(jì)算,需用向量空間模型轉(zhuǎn)化為可處理的數(shù)據(jù)向量模式。一條微博(micro-blog)采用切詞分詞算法預(yù)處理后,用向量空間模型描述為:m=
1.2 特征選擇
基于內(nèi)容的微博輿情分類構(gòu)成微博的詞匯向量維數(shù)往往相當(dāng)大,過大的向量維數(shù)不但會增加計(jì)算量,還會影響輿情分類的準(zhǔn)確率,從原始的特征集合中按照一定的準(zhǔn)則選出對分類貢獻(xiàn)最大的N個特征,即特征選擇。在文本分類領(lǐng)域中常用的特征選擇方法有文檔頻率(DF)、信息增益(IG)、互信息(MI)、χ2統(tǒng)計(jì)(CHI)等。文獻(xiàn)[5]對這種常見文檔分類中的特征選擇算法進(jìn)行了詳細(xì)比較,文獻(xiàn)[6]對IG和CHI進(jìn)行了改進(jìn),提出一種集合CHI和IG的特征選擇方法,下面分析CHI在微博輿情分類中存在的不足。
χ2統(tǒng)計(jì)就是計(jì)算特征詞t與類別的相關(guān)程度,如果一個特征詞t的χ2統(tǒng)計(jì)值越大,就表明該特征詞對分類的貢獻(xiàn)越大。如有N篇微博,情感類別分為“正面”與“負(fù)面”,假設(shè)有特征詞“坑爹”,其在微博樣本集中的出現(xiàn)情況如表1所示:
表1 特征詞“坑爹”在微博訓(xùn)練集中的分布數(shù)
那么,計(jì)算特征詞“坑爹”(t)與類別“負(fù)面”(ci)的CHI值為:
(1)
χ2統(tǒng)計(jì)的缺點(diǎn)在于:只統(tǒng)計(jì)了微博特征詞的文檔頻率,而忽略了微博特征詞的詞頻。如假設(shè)有100篇微博,特征詞“坑爹”在99篇中都出現(xiàn)了10次以上,而特征詞“討厭”在100篇中都只各出現(xiàn)了一次,用χ2統(tǒng)計(jì)進(jìn)行特征選擇時很有可能因?yàn)樘卣髟~“坑爹”的計(jì)算值較小被篩掉,而保留特征詞“討厭”,這顯然有失科學(xué)。在本研究中采用詞頻的方法對這種情況進(jìn)行修正。
如訓(xùn)練微博樣本類別為ci,ci中的微博樣本集表示為Mi=
(2)
然而,由于微博表達(dá)的口語化及隨意性,一些分布高度不均勻的特征詞,如“748”(音譯詞“去死吧”)雖可能在“負(fù)面”情感類別的微博樣本中只少數(shù)出現(xiàn),但其所表達(dá)的情感傾向明確,理應(yīng)為“負(fù)面”情感類別的候選特征?;讦?統(tǒng)計(jì)的特征選擇可能會因出現(xiàn)次數(shù)太少而被篩選掉,在本研究中用互信息量對分類貢獻(xiàn)大的特征詞給予權(quán)重修正。
在特征選擇中,互信息用來表示特征與類別的關(guān)聯(lián)程度,若特征“748”(t)在“負(fù)面”情感類別微博中的出現(xiàn)在概率高,而在“正面”情感類別微博中的出現(xiàn)概率低,那么該特征將獲得較高的互信息,計(jì)算公式為[7]:
MI(ti,cj)=H(ti)-H(ti|cj)
(3)
其中,
(4)
(5)
綜合以上分析新的χ2統(tǒng)計(jì)計(jì)算公式為:
NCHI=χ2(t,ci)×MI(t,ci)×γ
(6)
因這種評估函數(shù)在一定程度上只度量了特征和類之間的關(guān)系,忽略了特征之間依賴的關(guān)系,本研究進(jìn)一步用基于蟻群聚類(Ant Algorithm Custering)方法消除特征間冗余。
聚類就是通過一定的算法按數(shù)據(jù)之間的相似度對數(shù)據(jù)進(jìn)行歸類,使得數(shù)據(jù)類內(nèi)具有較高的相似性,而類間具有較大程度的差異性。蟻群算法是一種源于大自然的仿生類算法,由意大利學(xué)者Dorigo最早提出,主要是通過模仿螞蟻群體之間的信息傳遞而達(dá)到在圖中尋找優(yōu)化路徑的隨機(jī)率型算法,是一種模擬進(jìn)化算法[8]。蟻群聚類的基本思想是:將待聚類的物體隨機(jī)分散在一個二維網(wǎng)格上,在空間內(nèi)虛擬螞蟻以隨機(jī)方式移動,當(dāng)螞蟻遇到一個待聚類物體時,將物體拾起并繼續(xù)隨機(jī)移動,若運(yùn)動路徑附近的物體與背負(fù)的物體相似時,將其放在該位置,然后繼續(xù)移動,最終堆積而成的大堆為聚類結(jié)果[8-9]。應(yīng)用到微博特征聚類基本步驟如下:
(1)初始化相關(guān)參數(shù)(螞蟻個數(shù)、最大迭代次數(shù)、參數(shù)kp、kd、α)
(2)將特征隨機(jī)分布在網(wǎng)格上,每一個網(wǎng)格只容納一個特征。同時將一定數(shù)量的螞蟻也分配到網(wǎng)格上,螞蟻初始狀態(tài)為空載。
(3)計(jì)算群落相似性:計(jì)算特征對象ti與周圍特征對象之間的相似度f(ti),計(jì)算如下:
(7)
其中α表示群落的相似系數(shù),反應(yīng)了聚類簇的數(shù)量以及算法的收斂速度,s表示螞蟻鄰居周邊的半徑,d(ti,tj)表示兩個特征的相關(guān)性,其計(jì)算公式為[10]:
(8)
(4)計(jì)算拾起或放下。計(jì)算拾起:如果一只螞蟻在某一時刻的狀態(tài)為空載且在r位置上有特征對象ti根據(jù)公式(9)計(jì)算拾起特征對象的概率。
(9)
計(jì)算放下:如果一只螞蟻在某一時刻負(fù)載有特征對象ti且r位置上無特征對象,根據(jù)
公式(10)計(jì)算放下特征對象的概率。
(10)
(5)收斂:如果算法達(dá)到最大迭代次數(shù),算法結(jié)束,相似的或相關(guān)的特征會聚集在一起。
3.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)集來源分別為新浪開放平臺公開的API抓取的中文微博樣本集[7]和我們自己收集的部分私人微博,通過微博樣本的人工標(biāo)注,實(shí)驗(yàn)數(shù)據(jù)的樣本結(jié)構(gòu)如表2所示。實(shí)驗(yàn)結(jié)果采取10次交叉驗(yàn)證方法,結(jié)果取平均值。從正面微博和負(fù)面微博中各取300條作為測試樣本,其余的作為訓(xùn)練樣本。
3.2 評價(jià)指標(biāo)
為了有效評價(jià)微博情感分類性能的好壞,我們選取常用F-SCORE作為性能評測指標(biāo) ,計(jì)算公式為:
(11)
表2 微博樣本結(jié)構(gòu)
3.3 分類模型
用K最鄰近算法(K Nearest Neighbor,KNN)為微博輿情分類的分類器。計(jì)算待分類微博Mj與微博訓(xùn)練集所有樣本Mi的情感相似度,用向量夾角余弦公式表示:
(12)
微博輿情分類的任務(wù)就是把待分類微博劃分到情感傾向隸屬度最大的類別。
3.4 實(shí)驗(yàn)流程
實(shí)驗(yàn)中切詞分詞工具選用中科院NLPIR漢語分詞系統(tǒng)(2013版),開發(fā)平臺為Visual Stdio.net 2015,用C++語言在Windows環(huán)境下實(shí)現(xiàn),實(shí)驗(yàn)流程如圖1所示:
圖1 微博輿情分類流程
3.5 實(shí)驗(yàn)結(jié)果分析
3.5.1 NCHI與CHI特征選擇比較分析
按照圖1所示的實(shí)驗(yàn)流程將實(shí)驗(yàn)分為兩個階段。(1)訓(xùn)練階段:首先用中科院NLPIR漢語分詞系統(tǒng)(2013版)對訓(xùn)練微博樣本集分別進(jìn)行去停用詞、切詞分詞等預(yù)處理工作得出微博的原始特征空間。然后從原始特征空間中采用傳統(tǒng)的CHI算法、加入詞頻及互信息的CHI算法(NCHI)分別選擇最優(yōu)的N個特征子集構(gòu)成特征向量。(2)測試階段:對訓(xùn)練微博樣本集進(jìn)行預(yù)處理后,用特征子集構(gòu)成特征向量空間模型并采用KNN算法對測試微博樣本集進(jìn)行分類比較實(shí)驗(yàn)。在不同特征數(shù)下的F值結(jié)果如表3所示,從表3可以看出,特征維數(shù)從500每次遞增500至特征數(shù)達(dá)3 500,在同樣的的特征維數(shù)下,NCHI相比CHI的F值各有2個百分點(diǎn)左右的提升。當(dāng)特征維數(shù)為2 500時,NCHI的F值達(dá)到峰值85.55。實(shí)驗(yàn)結(jié)果表明:(1)NCHI因針對微博的特點(diǎn)對CHI進(jìn)行了修正,在相同的特征維數(shù)下,微博情感分類效果得到提高。(2)當(dāng)特征維數(shù)達(dá)到一定數(shù)量時,不同的特征選擇算法在某一特征數(shù)F值會達(dá)到峰值,說明增加特征維數(shù)不僅會增加分類計(jì)算的復(fù)雜性,還會因?yàn)樵肼曁卣黜?xiàng)的增加影響分類效果。
表3 NCHI與CHI特征選擇F值比較
3.5.2 經(jīng)蟻群聚類NCHI-AAC與NCHI比較分析
實(shí)驗(yàn)2按實(shí)驗(yàn)1基本步驟重復(fù)。在訓(xùn)練階段用NCHI算法進(jìn)行特征選擇,篩選出原始特征空間的特征子集。由實(shí)驗(yàn)1得出,特征數(shù)為2 500時NCHI的F值達(dá)到峰值,因此我們?nèi)√卣鲾?shù)為2 500,為消除特征子集中特征可能存在的冗余,我們進(jìn)一步用文中的蟻群聚類算法對特征子集空間進(jìn)行特征聚類,實(shí)驗(yàn)結(jié)果如表4所示。從表4可以看出,經(jīng)NCHI特征選擇的特征子集空間經(jīng)蟻群聚類特征維數(shù)從2 500約簡至1 975,雖然特征維數(shù)減少,但準(zhǔn)確率和召回率確得到不同程度的提高,證實(shí)了冗余特征的存在及NCHI-AAC算法的有效性。
表4 NCHI-AAC與NCHI準(zhǔn)確率、召回率比較
采用機(jī)器學(xué)習(xí)算法對微博的情感性進(jìn)行分類,是微博輿情分類的有效方法,特征選擇是基于內(nèi)容的微博輿情分類的重要環(huán)節(jié)。本文分析χ2統(tǒng)計(jì)應(yīng)用在微博輿情分類中存在的不足,用詞頻和互信息的方法對其進(jìn)行了修正,給出一種改進(jìn)的特征評價(jià)函數(shù)。在此基礎(chǔ)之上進(jìn)一步采用蟻群聚類消除特征之間的冗余。實(shí)驗(yàn)結(jié)果表明,新的評價(jià)函數(shù)和經(jīng)蟻群聚類算法特征選擇算法可以有效地改善特征子集的質(zhì)量,提高微博輿情分類的效果。
[1] 曾潤喜,陳強(qiáng),趙峰.網(wǎng)絡(luò)輿情在服務(wù)型政府建設(shè)中的影響與作用[J].圖書情報(bào)工作,2010(13):115-119.
[2] CNNIC. 中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].(2016-10-12)[2017-03-25].http:∥www.idcps.com/news/20161012/92421.html.
[3] 單月光.基于微博的網(wǎng)絡(luò)輿情關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2013.
[4] 林偉.基于多特征提取的中文微博輿情分類研究[J].中國人民公安大學(xué)學(xué)報(bào),2016(4):53-56.
[5] YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[C]∥Proceeding of the 14th International Conference on Machine Learning, 1997:412-420.
[6] 王光,邱云飛,史慶偉.集合CHI與IG的特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012(7):2454-2456.
[7] 成衛(wèi)青,唐旋. 一種基于改進(jìn)互信息和信息熵的文本特征選擇方法[J].南京郵電大學(xué)學(xué)報(bào),2013(10):63.
[8] 張賽楠.蟻群文本聚類算法的研究與應(yīng)用[D].長春:吉林大學(xué),2013.
[9] 鄭方.蟻群文本聚類算法的研究與應(yīng)用[D].西安:西安電子科技大學(xué),2013.
[10] 王連喜,蔣盛益.一種基于特征聚類的特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2015(5):1305-1308.
[11] 張志琳,宗成慶.基于多樣化特征的中文微博情感分類方法研究[J].中文信息學(xué)報(bào),2015(7):134-143.
(責(zé)任編輯 于瑞華)
福建省教育廳基金項(xiàng)目(JAT160561);2017年福建省高校杰出青年科研人才培育計(jì)劃資助項(xiàng)目。
林 偉(1983—),男,福建人,碩士,講師。研究方向?yàn)榫W(wǎng)絡(luò)安全、數(shù)據(jù)挖掘、信息化偵查。
D035.3