北京科技大學天津?qū)W院信息工程學院 天津 300000
隨著計算機網(wǎng)絡的普及,網(wǎng)絡的存在,加快了信息的傳播速度,縮短了大眾之間交流的距離,加快了社會輿論的形成與傳播。從而形成了一種新的輿論傳播方式,即網(wǎng)絡輿情。網(wǎng)絡輿情是通過網(wǎng)絡圍繞事件的發(fā)生、發(fā)展和變化。它不受空間和時間的限制[1],網(wǎng)絡輿情的形成,對社會的影響是非常大的。以微博熱點為例,熱點的出現(xiàn)往往意為著輿論的起點,然后以該熱點為核心的網(wǎng)絡輿情開始產(chǎn)生,那么怎么才能快速有效的從海量的網(wǎng)絡中的大量數(shù)據(jù)中提取出有用的網(wǎng)絡輿情數(shù)據(jù)是亟需解決的問題,這關系到輿情分析結(jié)果的質(zhì)量及針對該輿情的決策。
本課題研究的目的就是對網(wǎng)絡中實時產(chǎn)生的熱點討論短文本進行分析處理,剔除掉那些討論中產(chǎn)生得無價值文本,將其中得有價值文本,經(jīng)過語義分析、高頻詞匯關聯(lián),結(jié)合文本分析快速得出實時變化的熱點輿情信息??梢愿玫牧私廨浨闊狳c的發(fā)展狀況,及時把控輿情的走向,從而提高對輿情的監(jiān)控能力。
本課題經(jīng)過研究分析,確定了以下思路:
圖1 課題整體研究結(jié)構
以一個網(wǎng)絡熱點為例,它是由眾多的討論數(shù)據(jù)構成的想要分析一個網(wǎng)絡熱點,這些數(shù)據(jù)是必不可少的。在獲取到數(shù)據(jù)源后,首先需要將文本數(shù)據(jù)進行清洗,用于主題熱點的提取。通過對文本數(shù)據(jù)進行清洗、分詞、去除停用詞等基本的預處理。其次利用LDA主題模型與GloVe詞共現(xiàn)模型相結(jié)合得出輿情熱點中的主題。從而得到輿論的核心主題。
在網(wǎng)絡中獲取的數(shù)據(jù)源是雜亂無章的,想要進一步的進行分析,就需要將數(shù)據(jù)進行清洗和分詞,去除文本中的表情符號,標點符號等對輿情分析沒有任何意義的垃圾數(shù)據(jù)。
使用正則表達式對文本中的表情符號等進行匹配,去除掉無用得數(shù)據(jù);然后自定義中文詞庫,結(jié)合jieba分詞技術,將短文本數(shù)據(jù)進行分詞處理,并獲取詞性;接著自定義停用詞詞庫,結(jié)合分詞后得結(jié)果,將文本中得無意義詞匯去除。(如例1)
在網(wǎng)絡中獲取的數(shù)據(jù)源是雜亂無章的需要進一步的進行分析處理
例1 jieba分詞詞性結(jié)構
在將所有的短文本數(shù)據(jù)都進行預處理后,就需要對這些短文本數(shù)據(jù)進行主題提取,經(jīng)過團隊的研究和分析后決定采用隱含狄利克雷分布(Latent Dirichletallocation)以下簡稱LDA主題模型,對這些熱點數(shù)據(jù)進行主題提取。LDA主題模型是基于貝葉斯模型的一個3層貝葉斯模型,也稱作文檔主題生成模型[2]。它包含了文檔中的詞、文檔中的主題和文檔三層結(jié)構。
根據(jù)文章的結(jié)構,我們通常都會認為一個文章是由若干個主題組成的,一個主題又會圍繞很多的詞匯,這些詞匯共同構成了一篇文章。在LDA主題模型中,這些詞都是通過一定的概率選擇了某個主題,并且認為從這個主題中又以一定的概率選擇了某個詞語。從文檔到主題,從主題到詞語都服從多項式分布。所以,使用LDA主題模型對短文本分詞后的詞集進行不斷遍歷,從而找出大量短文本數(shù)據(jù)中的主題詞匯。
圖2 LDA主題模型
Glo Ve詞共現(xiàn)模型(Global Vectors for Word Representation)是基于語料庫構建詞的共現(xiàn)矩陣,然后基于共現(xiàn)矩陣和GloVe模型對詞匯進行向量化表示(見例2、表1)。使用該模型,可以找到文本中詞與詞之間的聯(lián)系。
例2 GloVe模型輸入語料內(nèi)容
表1 詞共現(xiàn)矩陣
籃球 0 1 0 0 0 0 0運動 0 0 1 0 0 0 0
在上文中提到利用LDA主題模型對大量短文本數(shù)據(jù)進行熱點主題詞匯提取,但是提取出的主題中的詞語是無序的,所以,還無法準確得知具體的熱點主題信息。這個時候就需要利用Glo Ve詞共現(xiàn)模型,來找出文本中具有前后關系的詞語。結(jié)合LDA主題模型的結(jié)果,得出更加詳細的熱點主題結(jié)果。
通過LDA主題模型與Glo Ve詞共現(xiàn)模型結(jié)合使用后,本小組成員爬取了微博中關于羅志祥周揚青分手事件引發(fā)得網(wǎng)絡輿情數(shù)據(jù),經(jīng)過分析處理后,得出了如下結(jié)果:
通過圖3可以看到,經(jīng)過這兩個模型得分析后已經(jīng)得出了兩條關于該熱點事件的主題。在圖3上半部分中,LDA主題模型得出了由主題詞匯和概率組成得詞匯集合,但卻是無序的;但是經(jīng)過Glo Ve模型訓練后(圖3下半部分),將LDA主題模型訓練出的主題詞匯含有的共現(xiàn)詞匯找了出來,這樣,就得到了一條清晰的熱點主題。
圖3 LDA(上)與GloVe(下)模型分析結(jié)果(部分)
近幾年,隨著網(wǎng)絡謠言的不斷產(chǎn)生,網(wǎng)絡輿情的監(jiān)控機制的不完善,對社會造成了很多的不良影響,所以在網(wǎng)絡輿情方面的研究越來越多。本文利用LDA主題模型和Glo Ve詞共現(xiàn)模型,從大量的網(wǎng)絡輿情數(shù)據(jù)中國進行主題提取,通過對網(wǎng)絡輿情的主題獲取,可以更快更準的獲取輿情的核心內(nèi)容,進而加強對輿情的控制能力。