方 茜
(貴州師范學(xué)院數(shù)學(xué)與大數(shù)據(jù)學(xué)院, 貴陽 550018)
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的網(wǎng)絡(luò)應(yīng)用成為廣大民眾暢所欲言的平臺。 絕大部分的網(wǎng)民主要從手機(jī)新聞app、微博、論壇、微信公眾號等平臺獲得資訊,而這些平臺在提供資訊的同時(shí)也提供用戶對文章進(jìn)行評論、轉(zhuǎn)發(fā)、點(diǎn)贊等互動功能。 網(wǎng)絡(luò)的開放性及自由性使得人們通過網(wǎng)絡(luò)表達(dá)對文章報(bào)道事件的看法及心聲,而這些看法及心聲反映著民眾的態(tài)度,同時(shí)也反映著社會輿情。 然而當(dāng)負(fù)面的輿情占比較大時(shí),輿情危機(jī)產(chǎn)生,從而對社會造成重大影響,擾亂社會秩序,導(dǎo)致相關(guān)部門的管理失衡。
網(wǎng)絡(luò)輿情預(yù)警是在預(yù)警對象傳播的整個(gè)生命周期采取不間斷的監(jiān)測工作。 通過實(shí)時(shí)采集預(yù)警對象的數(shù)據(jù)并對其分析,當(dāng)達(dá)到監(jiān)測閾值時(shí),應(yīng)使用預(yù)警模型及時(shí)反應(yīng)預(yù)警對象的預(yù)警等級。 預(yù)警使得一些可能產(chǎn)生輿情危機(jī)或已成為危機(jī)的信息能夠被及時(shí)發(fā)現(xiàn),由相關(guān)部門做出相應(yīng)的引導(dǎo)決策,及時(shí)控制不良信息及不好輿論泛濫成災(zāi)。
目前,國內(nèi)的研究中提出了多種類型的輿情指標(biāo)體系。 其中,曾潤喜等人[1]通過文獻(xiàn)調(diào)研,將網(wǎng)絡(luò)輿情監(jiān)測與預(yù)警指標(biāo)體系分為4 類:
(1)基于社會預(yù)警啟示的指標(biāo),從警源、警兆和警情3 個(gè)一級指標(biāo)來構(gòu)建指標(biāo)體系,該方法的主觀性較強(qiáng);
(2)基于主題分類的指標(biāo)體系[2],從輿情事件產(chǎn)生背景及指向性設(shè)計(jì)指標(biāo)體系,然而該方法缺少指標(biāo)量化研究;
(3)基于輿情不同發(fā)生主體的指標(biāo)體系,從特定領(lǐng)域的角度設(shè)計(jì)指標(biāo)體系(如高校)[3]等;
(4)基于網(wǎng)絡(luò)輿情內(nèi)在機(jī)理的指標(biāo)體系[4],使用輿情發(fā)展周期中出現(xiàn)的因素建立指標(biāo)體系。 國內(nèi)已有輿情預(yù)警研究中,有的將網(wǎng)民的情感極性[5]作為其中一個(gè)預(yù)警指標(biāo),也有直接通過分析文本的情感極性[6]對輿情進(jìn)行預(yù)警。
研究中發(fā)現(xiàn),基于指標(biāo)體系的預(yù)警研究大部分還處于理論研究階段,實(shí)際應(yīng)用價(jià)值不高,并存在以下問題:
(1)指標(biāo)體系建立依賴專家經(jīng)驗(yàn)知識,主觀因素較強(qiáng),缺乏數(shù)據(jù)驅(qū)動的客觀實(shí)證性研究。
(2)一些定性指標(biāo)的量化依賴專家打分,導(dǎo)致輿情預(yù)警綜合研判滯后,難以實(shí)現(xiàn)對預(yù)警對象的及時(shí)預(yù)警。
(3)已有的基于指標(biāo)體系的預(yù)警研究還處于理論期,實(shí)用性較差。 因此,本文提出一套基于文章預(yù)警的特征,通過相關(guān)性分析和特征篩選的方法,對預(yù)定義文章的預(yù)警特征進(jìn)行篩選,并使用XGBoost 方法建立文章預(yù)警模型。
本文以新聞文章為預(yù)警對象,通過分析造成文章預(yù)警因素,并結(jié)合以往輿情預(yù)警研究的指標(biāo)體系綜合分析,從文章特征、受眾特征兩方面考慮,列出對文章預(yù)警具有影響的特征作為預(yù)選指標(biāo)。
2.1.1 文章特征
文章特征從文章內(nèi)容出發(fā),通常描述某一事件內(nèi)容,不同類型事件其影響程度不同。 文章特征主要有以下幾點(diǎn):
(1)文章主題重要性(topic_importance)
文章主題重要性用于衡量這篇文章報(bào)道事件內(nèi)容的重要程度。 不同的主題所造成的影響程度不同,通過提取文章的關(guān)鍵主題詞,關(guān)鍵主題詞出現(xiàn)頻率越高,對文章的主題表現(xiàn)就越重要。 因此,統(tǒng)計(jì)該關(guān)鍵主題詞頻占文章中總詞的頻率作為文章重要性判斷。
(2)文章情緒(mood_emotion)
文章情緒表示文本內(nèi)容特征信息所表達(dá)出的情緒,文章本身的情緒對閱讀文章的網(wǎng)民情緒具有一定的影響。 文章情緒可以使用Lei J[7]提出的方法,計(jì)算出文章的情緒標(biāo)簽,并取概率值最大的情緒作為文章的情緒,該值為離散值。
2.1.2 受眾特征
受眾特征表示除文章本身信息外的其它信息,其來源于網(wǎng)民在閱讀完文章后對文章的一系列行為動作產(chǎn)生的數(shù)據(jù)。 主要包括以下特征:
(1)參與人數(shù)P(participants_num)
參與人數(shù)用于表示閱讀該文章的網(wǎng)民中參與評論總?cè)藬?shù)C及對評論點(diǎn)贊的人數(shù)Z之和,也即是評論區(qū)參與總?cè)藬?shù):P=C+Z。 文章的參與人數(shù)反映網(wǎng)民對這件事的關(guān)注程度,可以通過爬蟲直接從新聞頁面獲取得到。
(2)評論總數(shù)C(comments_num)
評論總數(shù)表示對這篇文章進(jìn)行評論的總?cè)藬?shù),可以通過爬蟲直接從新聞頁面獲取。 評論越多,表示網(wǎng)民對這件事的反響越強(qiáng)烈,同時(shí)也會使該文章成為熱點(diǎn)文章,從而受到更多人的關(guān)注。
(3)評論情感傾向CE(comment_emotion)
文章評論反映網(wǎng)民對文章報(bào)道事件的態(tài)度傾向,情感傾向的正負(fù)極表示網(wǎng)民對這件事是支持還是反對。 通過現(xiàn)有的情感分析技術(shù)判斷評論情感得分,用F_score表示每條評論情感分值,文章所有評論的情感傾向值:使用均值來表示。 當(dāng)負(fù)面評論較多時(shí),CE <0,表示為-1,CE≥0 時(shí),表示為1。
(4)評論變化拐度
評論變化率是指單位時(shí)間內(nèi)評論數(shù)的變化,評論變化率Cfre=(C t2- Ct1)/Δt,Δt=t2- t1。 其中,Ct1表示單位時(shí)間t1 的評論數(shù),Ct2表示在單位時(shí)間t2 的評論數(shù)。 通過一段時(shí)間內(nèi)評論數(shù)的變化,能夠了解到在這段時(shí)間內(nèi)網(wǎng)民對這篇文章的關(guān)注趨勢變化。 若評論數(shù)在某一時(shí)段內(nèi)持續(xù)上升時(shí),應(yīng)引起相關(guān)部門關(guān)注,預(yù)防輿情危機(jī)產(chǎn)生。 評論變化拐度用于描述評論數(shù)在前一時(shí)間段轉(zhuǎn)變到后一時(shí)間段趨勢變化的情況,分別用前一時(shí)間段評論數(shù)變化率和后一時(shí)間段評論數(shù)變化率進(jìn)行比較得出。 通過分析,拐度的7 種情況見表1。
表1 評論變化拐度情況列表Tab. 1 Comments on the change of the inflection situation list
從G1 ~G7 窮舉所有可能的拐度情況,G1 ~G3表示相對于前一段時(shí)間,下一時(shí)間段往評論變大的方向拐;當(dāng)兩時(shí)間段內(nèi)容評論變化率相等時(shí),G4 表示持平狀態(tài),下一時(shí)間段評論往持平方向; G5 ~G6表示相對于前一段時(shí)間,下一時(shí)間段評論往變小方向拐。 通過分別統(tǒng)計(jì)一定時(shí)間段內(nèi)出現(xiàn)評論變大、變小、持平的占比,來表示評論變化拐度情況。 在表1 列舉的11 種評論拐度圖形中,任意一種圖形出現(xiàn)一次則計(jì)數(shù)為1,所有評論拐度圖形出現(xiàn)的次數(shù)之和為拐度總次數(shù),用Gtotal表示。
變大的占比(g_up)為
持平的占比(g_bal)為
變小的占比(g_down)為
(5)文章每種情緒投票占比
網(wǎng)民閱讀完文章后,可以通過投票方式表達(dá)對此文章的情緒態(tài)度。 總投票數(shù)和每類情緒的投票數(shù)可以通過爬蟲代碼從網(wǎng)頁直接獲取。 使用每種情緒的投票占比來表示網(wǎng)民對這篇文章的實(shí)際情緒,其由每類情緒的投票數(shù)除以總投票數(shù)得到。 情緒共有6 種:分別為憤怒(angry)、震驚(shocked)、搞笑(funny)、新奇(novel)、感動(moved)、難過(sad)各投票數(shù)。
綜上,本文預(yù)選取的所有預(yù)警指標(biāo)特征見表2。
表2 文章預(yù)選指標(biāo)特征列表Tab. 2 Feature list of article pre-selected indicators
用于文章預(yù)警的特征包含連續(xù)特征和離散特征,表2 中離散特征名稱中標(biāo)注?,其余為連續(xù)特征。 由于這些特征的量綱不同,其度量范圍和數(shù)量差別較大。 因此,為便于綜合評價(jià),減少數(shù)量級差異,本文使用min-max 方法對特征進(jìn)行歸一化處理,使其值在[0,1]之間。
通過分析文章的相關(guān)信息,預(yù)選15 個(gè)特征用于文章預(yù)警研究,本節(jié)使用皮爾遜相關(guān)性判斷特征與預(yù)警相關(guān)性,通過相關(guān)性分析可以得到本文預(yù)選的預(yù)警特征指標(biāo)是否與預(yù)警相關(guān)。
由表3 可知,本文預(yù)選的特征指標(biāo)除主題重要性f1、讀者憤怒情緒投票f10、難過情緒投票f15 相關(guān)性最低且不顯著以外,其它特征都表現(xiàn)較強(qiáng)的顯著性。 主題重要性f1 相關(guān)性最低且不顯著,其原因可能是因?yàn)樵摲椒ǖ牧炕峭ㄟ^主題詞在全文中出現(xiàn)的概率來反應(yīng)主題重要性,不同文章通過該方法計(jì)算得到的概率值相差不大,導(dǎo)致每篇文章的主題重要性區(qū)分度不高。 由于該特征與預(yù)警相關(guān)性小于0.1,可篩除該指標(biāo)。 因此,通過上述特征分析,本文預(yù)選的特征基本與預(yù)警顯著相關(guān)。
表3 文章預(yù)選特征指標(biāo)與預(yù)警的相關(guān)性Tab. 3 The correlation between pre-selected feature indicators and early warning
本文目標(biāo)旨在輿情監(jiān)測過程中收集到一篇文章相關(guān)數(shù)據(jù)后,能夠?qū)ζ渑袛嗍欠褚獙ξ恼螺浨轭A(yù)警,以及確定預(yù)警級別。 參考《國家突發(fā)公共事件總體應(yīng)急預(yù)案》[8],其按突發(fā)公共事件產(chǎn)生的危害程度、可控性和影響程度、發(fā)展態(tài)勢、緊急程度等因素,本文將文章預(yù)警等級分為5 個(gè)等級,分別為特別嚴(yán)重(1 級)、嚴(yán)重(2 級)、較重(3 級)、一般(4 級)、不預(yù)警(0 級)。 同時(shí)輿情監(jiān)測預(yù)警系統(tǒng)中需要對監(jiān)測的預(yù)警對象的預(yù)警級別及時(shí)準(zhǔn)確反饋,以達(dá)到預(yù)警目的。 因此,在模型的選擇上需要使用一個(gè)速度快、準(zhǔn)確率高的模型。
由chen 等人[9]提出的 XGBoost ( Extreme Gradient Boosting),因其速度快、準(zhǔn)確率高等優(yōu)點(diǎn)而受到廣泛應(yīng)用。 XGBoost 方法是GBDT(Gradient Boosting Decision Tree)梯度提升樹的改進(jìn)版本,其與GBDT 不同在于基學(xué)習(xí)器除決策樹外還支持線性學(xué)習(xí)器,并加入正則項(xiàng)使得偏差與方差均衡。 傳統(tǒng)的GBDT 在優(yōu)化過程中只用到一階泰勒展開,而XGBoost 用到泰勒一階展開和二階展開。
梯度提升樹是由Boosting 方法結(jié)合Gradient 梯度得到的。 Boosting 是集成學(xué)習(xí)中的一種,其核心思想是通過迭代過程中前一輪的誤差率動態(tài)更新訓(xùn)練集權(quán)重,每一輪都是一個(gè)弱學(xué)習(xí)器,由多個(gè)弱學(xué)習(xí)器集成強(qiáng)學(xué)習(xí)器實(shí)現(xiàn)回歸和分類。 而GBDT 方法的每一輪迭代目標(biāo)是找一棵決策樹模型的弱學(xué)習(xí)器使得本輪的損失函數(shù)最小。 GBDT 模型是由k個(gè)基學(xué)習(xí)器組成加法運(yùn)算,可表示為
其中,F(xiàn)表示所有基學(xué)習(xí)器組成的函數(shù)空間。對于n個(gè)樣本,其損失函數(shù)為
損失函數(shù)表示模型的偏差,最小化損失函數(shù)就是最小化模型的偏差。 為了使模型的偏差和方差達(dá)到較好的平衡,加入正則項(xiàng)來抑制模型的復(fù)雜度,因此模型的目標(biāo)函數(shù)表示為
式中Ω表示基學(xué)習(xí)器的復(fù)雜度,即模型的結(jié)構(gòu)風(fēng)險(xiǎn)。
由于本文以決策樹模型作為基學(xué)習(xí)器,因此可以使用樹的深度、葉節(jié)點(diǎn)的個(gè)數(shù)等反應(yīng)模型的復(fù)雜度。 GBDT 前向分布算法的思想是從前往后建立基學(xué)習(xí)器,以此來逐漸優(yōu)化,逼近目標(biāo)函數(shù)Obj的過程。 該過程以一個(gè)常數(shù)項(xiàng)開始,每次添加一個(gè)新的函數(shù),其過程如下:
上述過程中(0)~(t) 表示從第0 輪到第t輪,每一輪添加一個(gè)基學(xué)習(xí)器,主要在于GBDT 的目標(biāo)函數(shù),即每個(gè)基學(xué)習(xí)器的加入都是以優(yōu)化目標(biāo)函數(shù)為目的。 公式(7) 表示第t輪的預(yù)測值計(jì)算,ft(xi) 為要加入的基學(xué)習(xí)器,則此時(shí)的目標(biāo)函數(shù)為
使用泰勒公式展開公式(8)中的目標(biāo)函數(shù)。 令gi為目標(biāo)函數(shù)中的一階偏導(dǎo),令hi為二階偏導(dǎo),是t前一輪的訓(xùn)練結(jié)果,yi是其對應(yīng)的真實(shí)值,可作為常數(shù)處理,則由公式(8)轉(zhuǎn)化為
當(dāng)對目標(biāo)函數(shù)公式(8)只求一階偏導(dǎo)時(shí),模型為GBDT,求一階、二階偏導(dǎo)時(shí),模型為XGBoost,即公式(9)為XGBoost 的目標(biāo)函數(shù),損失函數(shù)不同對應(yīng)著不同的gi和hi。 在XGBoost 中復(fù)雜度Ω(ft) 的公式為
其中,λ為學(xué)習(xí)率;T表示葉子節(jié)點(diǎn)個(gè)數(shù);wj為葉子節(jié)點(diǎn)的權(quán)重。Ω(ft) 作為結(jié)構(gòu)風(fēng)險(xiǎn),將葉子節(jié)點(diǎn)的個(gè)數(shù)加入懲罰項(xiàng),以限制模型的復(fù)雜度,并使用L2 正則避免過擬合。
模型構(gòu)建如圖1 所示,模型的輸入為上節(jié)中通過特征分析后得到的文章預(yù)警特征指標(biāo),輸出為文章預(yù)警級別。 通過文章數(shù)據(jù)集提取文章數(shù)據(jù),并量化各項(xiàng)文章預(yù)警特征,輸入到XGBoost 模型中,訓(xùn)練得到基于XGBoost 的網(wǎng)絡(luò)輿情文章預(yù)警模型。 該模型的內(nèi)部是由多棵CART 樹構(gòu)成,一篇文章的預(yù)警等級由其所在的多棵樹中的葉子節(jié)點(diǎn)權(quán)重共同確定,除第一棵樹以外,每一棵樹都是訓(xùn)練上一棵樹的損失值,使得整個(gè)樣本的損失盡可能減少,得到最優(yōu)的分類結(jié)果。
圖1 基于XGBoost 的文章預(yù)警建模過程Fig. 1 The modeling process of article early warning based on XGBoost
實(shí)驗(yàn)數(shù)據(jù)是使用爬蟲代碼,爬取新浪社會新聞網(wǎng)站情緒排行榜上的新聞數(shù)據(jù)而得,其中包括新聞標(biāo)題、新聞內(nèi)容、每篇文章對應(yīng)的情緒投票結(jié)果及每篇新聞的評論數(shù)據(jù)。 這些情緒分別為感動、震驚、搞笑、難過、新奇、憤怒6 類情緒。 選擇6 名網(wǎng)絡(luò)輿情研究的學(xué)者,分別對收集到的3 310 篇文章標(biāo)記預(yù)警等級,通過Fleiss Kappa 一致性檢驗(yàn)后,得到Kappa=0.758(Kappa 系數(shù)劃分為大于0.75 為優(yōu)秀,0.40~0.75 為正常至良好,低于0.40 為差),因此使用標(biāo)記預(yù)警等級后的數(shù)據(jù)集作為實(shí)驗(yàn)的真實(shí)值。 每類預(yù)警級別(從1 級到4 級預(yù)警嚴(yán)重程度逐級遞減,0 級表示不預(yù)警)的樣本數(shù)見表4。
表4 每類預(yù)警級別樣本數(shù)Tab. 4 Number of samples for each warning level
實(shí)驗(yàn)一預(yù)警特征篩選結(jié)果及分析
通過XGBoost 模型訓(xùn)練得到的指標(biāo)特征重要性得分如圖2 所示。 橫軸表示特征重要性得分值(F_score),縱軸對應(yīng)表2 中的每個(gè)特征指標(biāo)。
圖2 指標(biāo)特征重要性Fig. 2 The importance of features
可以看出,文章的參與人數(shù)(participants_num)具有最高的重要性得分,說明一篇文章的參與人數(shù)越多,越有可能需要預(yù)警。 其次是網(wǎng)民對文章報(bào)道事件的震驚情緒(shocked),說明當(dāng)看完文章的網(wǎng)民產(chǎn)生震驚情緒時(shí)越有可能需要預(yù)警。 特征重要性得分排名前三的特征是衡量預(yù)警等級的最重要特征。而文章情緒特征重要性得分較低,說明其對預(yù)警等級的重要性較小。 其中,文章情緒為難過(mood_sad)時(shí)最低,說明文章情緒表現(xiàn)為難過時(shí),對預(yù)警等級的分類影響較弱。
實(shí)驗(yàn)二基于XGBoost 的文章預(yù)警模型效果及分析
表5 展示了采用3 種方法建立網(wǎng)絡(luò)輿情文章預(yù)警模型的性能指標(biāo)對比結(jié)果。 其中SVM 方法對預(yù)警等級的劃分效果最差,而基于決策樹的預(yù)警模型比基于SVM 的預(yù)警模型效果要好。 性能最好的是基于XGBoost 建立的預(yù)警模型,其能夠達(dá)到77%的平均準(zhǔn)確率,且其F1-measure 的值能夠達(dá)到56.2%。說明本文提出使用XGBoost 建立的預(yù)警模型能夠很好的實(shí)現(xiàn)對網(wǎng)絡(luò)輿情文章進(jìn)行預(yù)警等級的分類。
表5 三種模型性能對比Tab. 5 Performance comparison of three models
為了查看每個(gè)預(yù)警等級被分類準(zhǔn)確的性能效果,本文選擇準(zhǔn)確率較高的基于決策樹和基于XGBoost 建立的預(yù)警模型的ROC曲線進(jìn)行對比展示,如圖3、圖4 所示。 圖中不同顏色代表不同的預(yù)警等級(0 級~4 級)的ROC曲線,深藍(lán)色的表示整體平均的ROC曲線。 area 對應(yīng)每個(gè)預(yù)警等級ROC曲線下的面積,即AUC值,該值越高,表示預(yù)警模型越能判別出該預(yù)警等級。
圖3 基于決策樹的預(yù)警模型ROC 曲線Fig. 3 ROC curve of early warning model based on decision tree
圖4 基于XGBoost 的預(yù)警模型ROC 曲線Fig. 4 ROC curve of early warning model based on XGBoost
從圖3 和圖4 中可知,基于XGBoost 的預(yù)警模型在每個(gè)預(yù)警等級的判定命中率上均高于基于決策樹的預(yù)警模型。 其中,宏平均AUC相差8%,除等級0(無警)的AUC相差3%以外,其他預(yù)警等級的AUC相差6%~10%之間,說明基于XGBoost 的模型更有助于預(yù)警等級的判定。
綜上,本文提出以數(shù)據(jù)驅(qū)動的方式客觀驗(yàn)證提出的特征指標(biāo)的有效性,使用XGBoost 建立網(wǎng)絡(luò)輿情文章預(yù)警模型對文章預(yù)警等級分類在宏平均評估指標(biāo)ACC、F1、及AUC均取得了較好的效果,顯著優(yōu)于使用SVM 建立預(yù)警模型以及非集成的決策樹模型,且對文章預(yù)警等級為非常嚴(yán)重的判斷明顯優(yōu)于其他等級,有效防止高嚴(yán)重級別的等級被誤判為低嚴(yán)重級別。
針對現(xiàn)有研究中輿情預(yù)警多集中在以主觀經(jīng)驗(yàn)設(shè)計(jì)的指標(biāo)體系為核心的靜態(tài)預(yù)警模型研究,指標(biāo)體系的建立主觀性太強(qiáng),依賴于專家經(jīng)驗(yàn),缺乏基于數(shù)據(jù)驅(qū)動的實(shí)證研究。 本文通過分析引起文章輿情危機(jī)的因素,為新聞文章的預(yù)警等級的綜合判定設(shè)計(jì)一套全面可量化的預(yù)警特征集,以真實(shí)數(shù)據(jù)驗(yàn)證所提指標(biāo)體系對輿情文章預(yù)警的重要性,建立了全面可量化的文章輿情預(yù)警指標(biāo),使得預(yù)警指標(biāo)體系更具客觀性。 不僅解決了現(xiàn)有指標(biāo)體系預(yù)警方法的主觀性,并提出使用集成方法XGBoost 建立文章預(yù)警模型,實(shí)現(xiàn)對文章預(yù)警級別的判定。 通過對比實(shí)驗(yàn)的結(jié)果表明,本文提出的方法明顯優(yōu)于現(xiàn)有的基于決策樹的預(yù)警模型和基于SVM 的預(yù)警模型,能夠有效實(shí)現(xiàn)對新聞文章預(yù)警等級的判斷。