徐 潔
(徐州工業(yè)職業(yè)技術(shù)學(xué)院,江蘇 徐州 221000)
新媒體背景下,以微博、新聞客戶(hù)端、微信等為代表的移動(dòng)社交網(wǎng)絡(luò)平臺(tái)興起,地域不再是限制突發(fā)事件影響力的因素,事件一旦爆發(fā),其影響的深度、廣度會(huì)急劇擴(kuò)大,對(duì)國(guó)家安全和社會(huì)安定造成威脅[1]。新浪微博作為當(dāng)下主流的社交網(wǎng)絡(luò)平臺(tái),擁有海量的活躍用戶(hù)。人們可以自由地在平臺(tái)上發(fā)表言論,通過(guò)博文的發(fā)表、轉(zhuǎn)發(fā)、點(diǎn)贊與評(píng)論,各種消息傳播都極為迅速。很多突發(fā)事件相關(guān)信息都是先在微博上爆發(fā),隨后主流媒體才報(bào)道。微博成為人們迅速感知社會(huì)熱點(diǎn)事件和參與社會(huì)熱點(diǎn)事件討論的重要平臺(tái)[2]。從微博博文中獲取數(shù)據(jù)價(jià)值,挖掘有效信息,進(jìn)行事件檢測(cè),分析輿論態(tài)度,可以更好地指導(dǎo)相關(guān)部門(mén)進(jìn)行輿情管控。因此面向微博的事件檢測(cè)成為突發(fā)事件檢測(cè)的研究熱點(diǎn)。
本文主要面向新浪微博數(shù)據(jù)進(jìn)行事件檢測(cè),對(duì)新浪微博網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集與預(yù)處理,檢測(cè)詞的突發(fā)性以獲取突發(fā)特征詞集,對(duì)突發(fā)詞進(jìn)行聚類(lèi)生成突發(fā)詞簇,對(duì)突發(fā)詞簇?zé)岫冗M(jìn)行排序,從而檢測(cè)出微博網(wǎng)絡(luò)Top-N 突發(fā)事件,對(duì)把握公眾動(dòng)態(tài)、促進(jìn)社會(huì)和諧有著積極的意義。
本文基于新浪微博數(shù)據(jù)進(jìn)行突發(fā)事件檢測(cè),搭建出系統(tǒng)框架圖如圖1所示。
圖1 面向新浪微博的Top-N突發(fā)事件檢測(cè)系統(tǒng)框架
本文所用的實(shí)驗(yàn)數(shù)據(jù)為采集的新浪微博數(shù)據(jù)。對(duì)于新浪微博數(shù)據(jù)的獲取,通常有兩種方式:第一種是通過(guò)新浪微博提供的應(yīng)用程序編程接口(Application Programming Interface,API) 獲取新浪博文數(shù)據(jù);第二種是采用Python 編寫(xiě)代碼實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)。一方面,考慮到微博數(shù)據(jù)傳播速度快、數(shù)據(jù)噪聲多等特點(diǎn);另一方面,考慮到爬蟲(chóng)所帶來(lái)的道德風(fēng)險(xiǎn)和法律責(zé)任,本文最終采用第一種新浪微博提供的API 獲取數(shù)據(jù)。
在正式開(kāi)始進(jìn)行數(shù)據(jù)采集之前,需要登錄微博開(kāi)放平臺(tái)創(chuàng)建應(yīng)用,按要求填寫(xiě)相關(guān)信息,基本信息中“App Key”和“App Secret”是獲取微博API使用權(quán)限的關(guān)鍵,這相當(dāng)于一個(gè)通行證,只有獲得許可后才可以申請(qǐng)到開(kāi)發(fā)者身份,然后才可以根據(jù)API 文檔構(gòu)造API參數(shù)。高級(jí)信息中 “Oauth2.0授權(quán)設(shè)置”模塊設(shè)置兩個(gè)回調(diào)地址,在Oauth2.0 認(rèn)證通過(guò)后會(huì)返回Acess Token。之后便可以用“App Key”和“App Secret”獲得訪問(wèn)密令并使用API提供的不同服務(wù)的接口[3]。
微博作為一個(gè)分享實(shí)時(shí)、簡(jiǎn)短信息的社交網(wǎng)絡(luò)平臺(tái),用戶(hù)在發(fā)表博文的時(shí)候具有很強(qiáng)的隨意性,由此采集下來(lái)的源數(shù)據(jù)包含較多的無(wú)用信息,需要對(duì)其進(jìn)行過(guò)濾,以提高后期的計(jì)算效率與準(zhǔn)確度。
根據(jù)微博文本的特點(diǎn),需對(duì)博文進(jìn)行如下預(yù)處理:
1) 去除博文中的無(wú)用標(biāo)記:對(duì)文本中的網(wǎng)址鏈接、“@”符號(hào)、“#”符號(hào)、“//”符號(hào)、表情符號(hào)等無(wú)用標(biāo)記進(jìn)行過(guò)濾刪除。
2) 去除字?jǐn)?shù)過(guò)少的博文:長(zhǎng)度小于5個(gè)字的博文不具有分析價(jià)值,直接進(jìn)行刪除。
3) 中文文本分詞:利用jieba 分詞對(duì)博文進(jìn)行分詞,去除停用詞,保留名詞和動(dòng)詞[4]。
根據(jù)突發(fā)詞的特性,本文提出融合詞頻熱度、詞頻增長(zhǎng)率以及詞頻權(quán)重的詞突發(fā)性計(jì)算模型[5]。
1.4.1 詞頻熱度
在某一時(shí)間段內(nèi),若某個(gè)詞匯的出現(xiàn)頻率明顯上升,則可以認(rèn)為在這段時(shí)間爆發(fā)了與該詞匯相關(guān)的突發(fā)事件。
1.4.2 詞頻增長(zhǎng)率
假設(shè)當(dāng)前突發(fā)事件檢測(cè)的時(shí)間段為t,與此前相鄰的h個(gè)時(shí)間段的歷史數(shù)據(jù)進(jìn)行分析對(duì)比,根據(jù)數(shù)據(jù)獲取與分析的成本綜合考慮h的設(shè)置。但歷史數(shù)據(jù)不宜過(guò)多,一方面歷史數(shù)據(jù)的采集與分析會(huì)消耗大量時(shí)間,另一方面過(guò)量的歷史數(shù)據(jù)會(huì)影響突發(fā)事件的實(shí)時(shí)檢測(cè)。詞增長(zhǎng)率的計(jì)算公式如下:
其中,F(xiàn)w,t表示在t時(shí)間段內(nèi)詞匯w的增長(zhǎng)率,Nw,t表示t時(shí)間段內(nèi)詞匯w出現(xiàn)的頻率,Nw,h表示與t時(shí)間段相鄰的h時(shí)間段內(nèi)詞匯w出現(xiàn)的頻率,Nw,n表示在n時(shí)間段內(nèi)詞匯w出現(xiàn)的平均頻率。
1.4.3 詞頻權(quán)重
為保證突發(fā)事件發(fā)生時(shí)一些事件關(guān)鍵突發(fā)詞具有較高的權(quán)值,對(duì)傳統(tǒng)的TF-IDF方法進(jìn)行了改進(jìn),計(jì)算公式如下:
其中,μ為詞頻權(quán)重初始值,Nmax,t是t時(shí)間段內(nèi)最大詞頻數(shù)。
綜合上述三個(gè)指標(biāo),最終計(jì)算詞語(yǔ)w在t時(shí)間段內(nèi)的突發(fā)值為:
其中,Mw,t表示詞語(yǔ)w在t時(shí)間段內(nèi)的詞頻熱度,α、β、γ為調(diào)節(jié)系數(shù),α+β+γ=1,α≥0,β≥0,γ≥0。
Bw,t越大,說(shuō)明詞w在t時(shí)間段內(nèi)的突發(fā)性越大。計(jì)算出博文集中每個(gè)詞的突發(fā)值后,按照詞突發(fā)值進(jìn)行降序排序,得到突發(fā)特征詞集SW。
基于獲取的突發(fā)特征詞集SW,構(gòu)建出突發(fā)詞關(guān)聯(lián)網(wǎng)絡(luò)SWN=(SW,R),其中R 為突發(fā)詞之間的相關(guān)程度,詞Wi、Wj的相關(guān)程度通過(guò)計(jì)算其在同一條博文中出現(xiàn)的次數(shù)獲得。
得到突發(fā)詞關(guān)聯(lián)網(wǎng)絡(luò)SWN 之后,通過(guò)開(kāi)源的CLUTO 工具包對(duì)其進(jìn)行聚類(lèi),從而得到突發(fā)詞簇SWC={swc1,swc2,…,swcq}。CLUTO 提供3 種聚類(lèi)算法,結(jié)合實(shí)際情況,本文采用凝聚層次聚類(lèi)方法[6]。
人們樂(lè)于在微博上發(fā)表與美食、明星、旅游等相關(guān)的博文,與這些主題相關(guān)的詞匯出現(xiàn)頻率會(huì)增高,而此類(lèi)事件并不是突發(fā)事件。因此需要對(duì)經(jīng)過(guò)聚類(lèi)得到的突發(fā)詞簇SWC按照熱度進(jìn)行排序,提取出更加準(zhǔn)確的Top-N突發(fā)事件。
詞簇swci的熱度計(jì)算綜合了詞簇swci頻率Fswci、詞簇swci相關(guān)博文MNswci、詞簇swci相關(guān)博文影響力MBIswci以及詞簇swci相關(guān)用戶(hù)UNswci4 個(gè)指標(biāo),計(jì)算方式為:
本文所使用的數(shù)據(jù)集來(lái)自新浪微博,采集了2023年4 月1 日和31 日共計(jì)約800 萬(wàn)條數(shù)據(jù),包含原博文內(nèi)容、評(píng)論內(nèi)容、點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)及相關(guān)用戶(hù)信息等。以天為單位,驗(yàn)證各種事件檢測(cè)方法的有效性。
通過(guò)訪問(wèn)多個(gè)新聞媒體平臺(tái),提取出4月1日~30日期間多平臺(tái)共同報(bào)道的熱點(diǎn)事件如表1所示。
表1 多平臺(tái)媒體報(bào)道的突發(fā)事件
由于突發(fā)事件的發(fā)生是未知的、不可預(yù)測(cè)的,所以參考目前主流的研究方法。使用查準(zhǔn)率P,查全率R和F1值作為評(píng)價(jià)指標(biāo)。計(jì)算公式如下所示:
其中,x1表示使用本文方法檢測(cè)出的突發(fā)事件與相應(yīng)時(shí)間段內(nèi)媒體報(bào)道的突發(fā)事件切合的事件數(shù),x2表示檢測(cè)到媒體未報(bào)道的突發(fā)事件數(shù),x3表示未檢測(cè)到媒體報(bào)道的突發(fā)事件數(shù)。
每天檢測(cè)出的Top-N 突發(fā)事件與媒體報(bào)道的突發(fā)事件相比較,人工判斷是否為突發(fā)事件。突發(fā)事件不可能每天發(fā)生,Top-N 檢測(cè)出的事件數(shù)量較少,所以人工評(píng)測(cè)并不耗時(shí)耗力。
使用本文提出的方法進(jìn)行微博網(wǎng)絡(luò)突發(fā)事件檢測(cè),與利用傳統(tǒng)的TF-IDF 方法進(jìn)行詞頻權(quán)重計(jì)算的模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 實(shí)驗(yàn)結(jié)果對(duì)比
從圖中可以看出,利用本文提供方法,各評(píng)價(jià)指標(biāo)都有所提升。同時(shí)還檢測(cè)出某些媒體未報(bào)道的“女子潑水節(jié)被眾男子圍著潑水撕雨衣”等社會(huì)民生類(lèi)事件,在突發(fā)事件的檢測(cè)方面有著良好的效果。
本文搭建了面向新浪微博網(wǎng)絡(luò)的Top-N 突發(fā)事件檢測(cè)的系統(tǒng)框架,包括博文數(shù)據(jù)的采集、博文的預(yù)處理、突發(fā)詞的檢測(cè)、突發(fā)詞的聚類(lèi)、突發(fā)事件熱度排序等模塊,對(duì)實(shí)際應(yīng)用具有一定的參考價(jià)值,對(duì)突發(fā)事件的檢測(cè)起到了較好的效果。在后續(xù)的研究中,還有下列問(wèn)題需要進(jìn)一步探討:1) 面對(duì)大量的博文數(shù)據(jù),如何實(shí)現(xiàn)更加準(zhǔn)確的事件的實(shí)時(shí)發(fā)現(xiàn)與檢測(cè),需要引入大數(shù)據(jù)處理技術(shù)進(jìn)一步地研究;2) 針對(duì)特定類(lèi)別的突發(fā)事件,建立特定類(lèi)別的事件檢測(cè)模型,以更加準(zhǔn)確地發(fā)現(xiàn)特定類(lèi)別的突發(fā)事件。