• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文微博輿情分類中一種改進(jìn)的特征選擇方法

      2017-06-27 08:09:32
      關(guān)鍵詞:特征詞特征選擇輿情

      林 偉

      (福建警察學(xué)院偵查系, 福建福州 350007)

      中文微博輿情分類中一種改進(jìn)的特征選擇方法

      林 偉

      (福建警察學(xué)院偵查系, 福建福州 350007)

      通過微博情感分析掌握網(wǎng)絡(luò)輿情動態(tài)是網(wǎng)絡(luò)數(shù)據(jù)挖掘的研究熱點(diǎn),特征選擇是基于內(nèi)容的微博輿情分類的重要環(huán)節(jié)。為有效提取微博數(shù)據(jù)的特征,分析CHI特征選擇算法應(yīng)用在微博輿情分類中的特點(diǎn)及不足,給出一種改進(jìn)的特征評估函數(shù),并進(jìn)一步用基于蟻群聚類的方法消除微博特征間的冗余。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的算法能夠有效提高微博輿情分類的效能。

      中文微博; 微博輿情; 特征選擇; 蟻群聚類

      0 引言

      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們對現(xiàn)實(shí)生活中突發(fā)事件的關(guān)注度不斷提高,網(wǎng)民通過網(wǎng)絡(luò)發(fā)表情感鮮明的言論并相互影響滲透。網(wǎng)絡(luò)輿情是指網(wǎng)民在網(wǎng)絡(luò)虛擬社會空間領(lǐng)域通過網(wǎng)絡(luò)語言或其他方式,圍繞當(dāng)前社會的熱點(diǎn)或普遍關(guān)注的話題所表達(dá)情感、態(tài)度和意見的集合[1]。而微博做為網(wǎng)民主要的社交平臺之一,具有自主性、即時性、互動性等特點(diǎn)深受網(wǎng)民青睞。截至2016年6月,根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第38次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,我國微博用戶規(guī)模2.42億,同比增長18.6%,在網(wǎng)民中的滲透率達(dá)34%,同比增長3.4個百分點(diǎn)。微博日活躍用戶增至1.05億,人均月使用次數(shù)達(dá)到了52次。微博在追蹤熱點(diǎn)、發(fā)表熱點(diǎn)評論、關(guān)注興趣話題等方面都是用戶的首選平臺[2]。為此,通過機(jī)器學(xué)習(xí)算法對微博進(jìn)行輿情分類,掌握網(wǎng)絡(luò)輿情動態(tài),對微博上帶有惡意、煽動及攻擊性言論及時監(jiān)控是網(wǎng)絡(luò)數(shù)據(jù)挖掘的研究熱點(diǎn)[3]。

      特征選擇是基于數(shù)據(jù)挖掘的微博輿情分類重要環(huán)節(jié),常用的特征選擇算法一般采用某種特征評估函數(shù)來計(jì)算特征與類的關(guān)聯(lián)度。本文分析特征選擇評估函數(shù)CHI在微博輿情分類中的特點(diǎn)及不足,給出一種改進(jìn)的特征評估函數(shù)。然而評估函數(shù)只度量了特征與類的關(guān)系,并沒有考慮特征之間的關(guān)系,在實(shí)踐中發(fā)現(xiàn),冗余特征同樣對微博輿情分類產(chǎn)生負(fù)面的影響。為此,進(jìn)一步用基于蟻群聚類的方法消除微博特征間的冗余,以便更有效地提取微博訓(xùn)練樣本集的特征。

      1 特征選擇分析及改進(jìn)

      1.1 微博預(yù)處理

      微博是非結(jié)構(gòu)化的字符文本,計(jì)算機(jī)無法直接計(jì)算,需用向量空間模型轉(zhuǎn)化為可處理的數(shù)據(jù)向量模式。一條微博(micro-blog)采用切詞分詞算法預(yù)處理后,用向量空間模型描述為:m=,wi為微博m在特征向量空間中對應(yīng)特征的測度值,微博樣本集則表示為M=[4]?;趦?nèi)容的微博輿情分類的任務(wù)就是對已知的微博樣本集M進(jìn)行訓(xùn)練,通過機(jī)器學(xué)習(xí)挖掘出正、負(fù)面微博各自的特征信息,再對未知類別的微博進(jìn)行情感類別的判別,實(shí)際上就是一個有監(jiān)督的二元分類問題。

      1.2 特征選擇

      基于內(nèi)容的微博輿情分類構(gòu)成微博的詞匯向量維數(shù)往往相當(dāng)大,過大的向量維數(shù)不但會增加計(jì)算量,還會影響輿情分類的準(zhǔn)確率,從原始的特征集合中按照一定的準(zhǔn)則選出對分類貢獻(xiàn)最大的N個特征,即特征選擇。在文本分類領(lǐng)域中常用的特征選擇方法有文檔頻率(DF)、信息增益(IG)、互信息(MI)、χ2統(tǒng)計(jì)(CHI)等。文獻(xiàn)[5]對這種常見文檔分類中的特征選擇算法進(jìn)行了詳細(xì)比較,文獻(xiàn)[6]對IG和CHI進(jìn)行了改進(jìn),提出一種集合CHI和IG的特征選擇方法,下面分析CHI在微博輿情分類中存在的不足。

      χ2統(tǒng)計(jì)就是計(jì)算特征詞t與類別的相關(guān)程度,如果一個特征詞t的χ2統(tǒng)計(jì)值越大,就表明該特征詞對分類的貢獻(xiàn)越大。如有N篇微博,情感類別分為“正面”與“負(fù)面”,假設(shè)有特征詞“坑爹”,其在微博樣本集中的出現(xiàn)情況如表1所示:

      表1 特征詞“坑爹”在微博訓(xùn)練集中的分布數(shù)

      那么,計(jì)算特征詞“坑爹”(t)與類別“負(fù)面”(ci)的CHI值為:

      (1)

      χ2統(tǒng)計(jì)的缺點(diǎn)在于:只統(tǒng)計(jì)了微博特征詞的文檔頻率,而忽略了微博特征詞的詞頻。如假設(shè)有100篇微博,特征詞“坑爹”在99篇中都出現(xiàn)了10次以上,而特征詞“討厭”在100篇中都只各出現(xiàn)了一次,用χ2統(tǒng)計(jì)進(jìn)行特征選擇時很有可能因?yàn)樘卣髟~“坑爹”的計(jì)算值較小被篩掉,而保留特征詞“討厭”,這顯然有失科學(xué)。在本研究中采用詞頻的方法對這種情況進(jìn)行修正。

      如訓(xùn)練微博樣本類別為ci,ci中的微博樣本集表示為Mi=,則特征詞t在微博mij中的出現(xiàn)頻數(shù)為tfik(1≤k≤j),則特征t在微博樣本集中出現(xiàn)在總頻數(shù)為:

      (2)

      然而,由于微博表達(dá)的口語化及隨意性,一些分布高度不均勻的特征詞,如“748”(音譯詞“去死吧”)雖可能在“負(fù)面”情感類別的微博樣本中只少數(shù)出現(xiàn),但其所表達(dá)的情感傾向明確,理應(yīng)為“負(fù)面”情感類別的候選特征?;讦?統(tǒng)計(jì)的特征選擇可能會因出現(xiàn)次數(shù)太少而被篩選掉,在本研究中用互信息量對分類貢獻(xiàn)大的特征詞給予權(quán)重修正。

      在特征選擇中,互信息用來表示特征與類別的關(guān)聯(lián)程度,若特征“748”(t)在“負(fù)面”情感類別微博中的出現(xiàn)在概率高,而在“正面”情感類別微博中的出現(xiàn)概率低,那么該特征將獲得較高的互信息,計(jì)算公式為[7]:

      MI(ti,cj)=H(ti)-H(ti|cj)

      (3)

      其中,

      (4)

      (5)

      綜合以上分析新的χ2統(tǒng)計(jì)計(jì)算公式為:

      NCHI=χ2(t,ci)×MI(t,ci)×γ

      (6)

      2 特征蟻群聚類

      因這種評估函數(shù)在一定程度上只度量了特征和類之間的關(guān)系,忽略了特征之間依賴的關(guān)系,本研究進(jìn)一步用基于蟻群聚類(Ant Algorithm Custering)方法消除特征間冗余。

      聚類就是通過一定的算法按數(shù)據(jù)之間的相似度對數(shù)據(jù)進(jìn)行歸類,使得數(shù)據(jù)類內(nèi)具有較高的相似性,而類間具有較大程度的差異性。蟻群算法是一種源于大自然的仿生類算法,由意大利學(xué)者Dorigo最早提出,主要是通過模仿螞蟻群體之間的信息傳遞而達(dá)到在圖中尋找優(yōu)化路徑的隨機(jī)率型算法,是一種模擬進(jìn)化算法[8]。蟻群聚類的基本思想是:將待聚類的物體隨機(jī)分散在一個二維網(wǎng)格上,在空間內(nèi)虛擬螞蟻以隨機(jī)方式移動,當(dāng)螞蟻遇到一個待聚類物體時,將物體拾起并繼續(xù)隨機(jī)移動,若運(yùn)動路徑附近的物體與背負(fù)的物體相似時,將其放在該位置,然后繼續(xù)移動,最終堆積而成的大堆為聚類結(jié)果[8-9]。應(yīng)用到微博特征聚類基本步驟如下:

      (1)初始化相關(guān)參數(shù)(螞蟻個數(shù)、最大迭代次數(shù)、參數(shù)kp、kd、α)

      (2)將特征隨機(jī)分布在網(wǎng)格上,每一個網(wǎng)格只容納一個特征。同時將一定數(shù)量的螞蟻也分配到網(wǎng)格上,螞蟻初始狀態(tài)為空載。

      (3)計(jì)算群落相似性:計(jì)算特征對象ti與周圍特征對象之間的相似度f(ti),計(jì)算如下:

      (7)

      其中α表示群落的相似系數(shù),反應(yīng)了聚類簇的數(shù)量以及算法的收斂速度,s表示螞蟻鄰居周邊的半徑,d(ti,tj)表示兩個特征的相關(guān)性,其計(jì)算公式為[10]:

      (8)

      (4)計(jì)算拾起或放下。計(jì)算拾起:如果一只螞蟻在某一時刻的狀態(tài)為空載且在r位置上有特征對象ti根據(jù)公式(9)計(jì)算拾起特征對象的概率。

      (9)

      計(jì)算放下:如果一只螞蟻在某一時刻負(fù)載有特征對象ti且r位置上無特征對象,根據(jù)

      公式(10)計(jì)算放下特征對象的概率。

      (10)

      (5)收斂:如果算法達(dá)到最大迭代次數(shù),算法結(jié)束,相似的或相關(guān)的特征會聚集在一起。

      3 實(shí)驗(yàn)分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)集來源分別為新浪開放平臺公開的API抓取的中文微博樣本集[7]和我們自己收集的部分私人微博,通過微博樣本的人工標(biāo)注,實(shí)驗(yàn)數(shù)據(jù)的樣本結(jié)構(gòu)如表2所示。實(shí)驗(yàn)結(jié)果采取10次交叉驗(yàn)證方法,結(jié)果取平均值。從正面微博和負(fù)面微博中各取300條作為測試樣本,其余的作為訓(xùn)練樣本。

      3.2 評價(jià)指標(biāo)

      為了有效評價(jià)微博情感分類性能的好壞,我們選取常用F-SCORE作為性能評測指標(biāo) ,計(jì)算公式為:

      (11)

      表2 微博樣本結(jié)構(gòu)

      3.3 分類模型

      用K最鄰近算法(K Nearest Neighbor,KNN)為微博輿情分類的分類器。計(jì)算待分類微博Mj與微博訓(xùn)練集所有樣本Mi的情感相似度,用向量夾角余弦公式表示:

      (12)

      微博輿情分類的任務(wù)就是把待分類微博劃分到情感傾向隸屬度最大的類別。

      3.4 實(shí)驗(yàn)流程

      實(shí)驗(yàn)中切詞分詞工具選用中科院NLPIR漢語分詞系統(tǒng)(2013版),開發(fā)平臺為Visual Stdio.net 2015,用C++語言在Windows環(huán)境下實(shí)現(xiàn),實(shí)驗(yàn)流程如圖1所示:

      圖1 微博輿情分類流程

      3.5 實(shí)驗(yàn)結(jié)果分析

      3.5.1 NCHI與CHI特征選擇比較分析

      按照圖1所示的實(shí)驗(yàn)流程將實(shí)驗(yàn)分為兩個階段。(1)訓(xùn)練階段:首先用中科院NLPIR漢語分詞系統(tǒng)(2013版)對訓(xùn)練微博樣本集分別進(jìn)行去停用詞、切詞分詞等預(yù)處理工作得出微博的原始特征空間。然后從原始特征空間中采用傳統(tǒng)的CHI算法、加入詞頻及互信息的CHI算法(NCHI)分別選擇最優(yōu)的N個特征子集構(gòu)成特征向量。(2)測試階段:對訓(xùn)練微博樣本集進(jìn)行預(yù)處理后,用特征子集構(gòu)成特征向量空間模型并采用KNN算法對測試微博樣本集進(jìn)行分類比較實(shí)驗(yàn)。在不同特征數(shù)下的F值結(jié)果如表3所示,從表3可以看出,特征維數(shù)從500每次遞增500至特征數(shù)達(dá)3 500,在同樣的的特征維數(shù)下,NCHI相比CHI的F值各有2個百分點(diǎn)左右的提升。當(dāng)特征維數(shù)為2 500時,NCHI的F值達(dá)到峰值85.55。實(shí)驗(yàn)結(jié)果表明:(1)NCHI因針對微博的特點(diǎn)對CHI進(jìn)行了修正,在相同的特征維數(shù)下,微博情感分類效果得到提高。(2)當(dāng)特征維數(shù)達(dá)到一定數(shù)量時,不同的特征選擇算法在某一特征數(shù)F值會達(dá)到峰值,說明增加特征維數(shù)不僅會增加分類計(jì)算的復(fù)雜性,還會因?yàn)樵肼曁卣黜?xiàng)的增加影響分類效果。

      表3 NCHI與CHI特征選擇F值比較

      3.5.2 經(jīng)蟻群聚類NCHI-AAC與NCHI比較分析

      實(shí)驗(yàn)2按實(shí)驗(yàn)1基本步驟重復(fù)。在訓(xùn)練階段用NCHI算法進(jìn)行特征選擇,篩選出原始特征空間的特征子集。由實(shí)驗(yàn)1得出,特征數(shù)為2 500時NCHI的F值達(dá)到峰值,因此我們?nèi)√卣鲾?shù)為2 500,為消除特征子集中特征可能存在的冗余,我們進(jìn)一步用文中的蟻群聚類算法對特征子集空間進(jìn)行特征聚類,實(shí)驗(yàn)結(jié)果如表4所示。從表4可以看出,經(jīng)NCHI特征選擇的特征子集空間經(jīng)蟻群聚類特征維數(shù)從2 500約簡至1 975,雖然特征維數(shù)減少,但準(zhǔn)確率和召回率確得到不同程度的提高,證實(shí)了冗余特征的存在及NCHI-AAC算法的有效性。

      表4 NCHI-AAC與NCHI準(zhǔn)確率、召回率比較

      4 結(jié)語

      采用機(jī)器學(xué)習(xí)算法對微博的情感性進(jìn)行分類,是微博輿情分類的有效方法,特征選擇是基于內(nèi)容的微博輿情分類的重要環(huán)節(jié)。本文分析χ2統(tǒng)計(jì)應(yīng)用在微博輿情分類中存在的不足,用詞頻和互信息的方法對其進(jìn)行了修正,給出一種改進(jìn)的特征評價(jià)函數(shù)。在此基礎(chǔ)之上進(jìn)一步采用蟻群聚類消除特征之間的冗余。實(shí)驗(yàn)結(jié)果表明,新的評價(jià)函數(shù)和經(jīng)蟻群聚類算法特征選擇算法可以有效地改善特征子集的質(zhì)量,提高微博輿情分類的效果。

      [1] 曾潤喜,陳強(qiáng),趙峰.網(wǎng)絡(luò)輿情在服務(wù)型政府建設(shè)中的影響與作用[J].圖書情報(bào)工作,2010(13):115-119.

      [2] CNNIC. 中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].(2016-10-12)[2017-03-25].http:∥www.idcps.com/news/20161012/92421.html.

      [3] 單月光.基于微博的網(wǎng)絡(luò)輿情關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2013.

      [4] 林偉.基于多特征提取的中文微博輿情分類研究[J].中國人民公安大學(xué)學(xué)報(bào),2016(4):53-56.

      [5] YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[C]∥Proceeding of the 14th International Conference on Machine Learning, 1997:412-420.

      [6] 王光,邱云飛,史慶偉.集合CHI與IG的特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012(7):2454-2456.

      [7] 成衛(wèi)青,唐旋. 一種基于改進(jìn)互信息和信息熵的文本特征選擇方法[J].南京郵電大學(xué)學(xué)報(bào),2013(10):63.

      [8] 張賽楠.蟻群文本聚類算法的研究與應(yīng)用[D].長春:吉林大學(xué),2013.

      [9] 鄭方.蟻群文本聚類算法的研究與應(yīng)用[D].西安:西安電子科技大學(xué),2013.

      [10] 王連喜,蔣盛益.一種基于特征聚類的特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2015(5):1305-1308.

      [11] 張志琳,宗成慶.基于多樣化特征的中文微博情感分類方法研究[J].中文信息學(xué)報(bào),2015(7):134-143.

      (責(zé)任編輯 于瑞華)

      福建省教育廳基金項(xiàng)目(JAT160561);2017年福建省高校杰出青年科研人才培育計(jì)劃資助項(xiàng)目。

      林 偉(1983—),男,福建人,碩士,講師。研究方向?yàn)榫W(wǎng)絡(luò)安全、數(shù)據(jù)挖掘、信息化偵查。

      D035.3

      猜你喜歡
      特征詞特征選擇輿情
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      面向文本分類的特征詞選取方法研究與改進(jìn)
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      灵石县| 仁怀市| 宁波市| 汉川市| 犍为县| 长白| 普定县| 萨迦县| 吉木萨尔县| 肇源县| 东平县| 远安县| 封开县| 镇安县| 彰化市| 岢岚县| 库伦旗| 南丰县| 慈溪市| 噶尔县| 天等县| 大渡口区| 中山市| 顺昌县| 霍林郭勒市| 新巴尔虎右旗| 汾西县| 荥阳市| 苍山县| 康保县| 日土县| 开鲁县| 德保县| 苍南县| 西藏| 钟祥市| 贺州市| 洛川县| 永泰县| 延川县| 刚察县|