石川,馬銘君,胡琳梅
(北京郵電大學(xué) 計(jì)算機(jī)學(xué)院,北京 100876)
信息時(shí)代的蓬勃發(fā)展,使得互聯(lián)網(wǎng)成為社會(huì)輿論的放大器,越來(lái)越多的網(wǎng)民通過(guò)網(wǎng)絡(luò)來(lái)表達(dá)自己的觀點(diǎn)和態(tài)度。突發(fā)事件爆發(fā)后,網(wǎng)民和媒體的主動(dòng)行為或隨機(jī)行為會(huì)使網(wǎng)絡(luò)上隨之出現(xiàn)各種消息,從而引起公眾的不斷討論,并逐漸產(chǎn)生具有影響力的公眾情感傾向,進(jìn)而形成網(wǎng)絡(luò)輿情[1]。如果不能準(zhǔn)確把握網(wǎng)絡(luò)輿情傳播規(guī)律,采取有效管理方法,將給社會(huì)輿論安全乃至國(guó)家穩(wěn)定與和諧帶來(lái)一系列消極影響[2]。因此,合理構(gòu)建輿情指標(biāo)體系,準(zhǔn)確分析輿情發(fā)展趨勢(shì),及時(shí)對(duì)負(fù)面消息進(jìn)行干預(yù)至關(guān)重要。
近些年來(lái),國(guó)內(nèi)外關(guān)于輿情指標(biāo)體系的研究呈現(xiàn)逐年遞增的態(tài)勢(shì),相關(guān)研究熱點(diǎn)主要集中在輿情分析、輿情監(jiān)測(cè)、輿情監(jiān)控、輿情預(yù)警和輿情傳播五個(gè)方面[3]。構(gòu)建輿情指標(biāo)體系是研究輿情的一個(gè)重要方法。在該領(lǐng)域中,很多學(xué)者從不同角度開展研究,以解決不同的實(shí)際問題。早期的研究多數(shù)只是提出指標(biāo)體系的內(nèi)容并解釋含義,而沒有在實(shí)例上驗(yàn)證其可靠性。隨后,機(jī)器學(xué)習(xí)方法不斷興起,學(xué)者們開始著重對(duì)指標(biāo)體系的量化進(jìn)行研究,并結(jié)合機(jī)器學(xué)習(xí)方法給出具體的實(shí)驗(yàn)驗(yàn)證,使得指標(biāo)體系的構(gòu)建更加有理有據(jù)。但是,現(xiàn)有指標(biāo)體系多數(shù)只是從輿情事件的角度提出,而沒有考慮參與到輿情事件傳播過(guò)程中的輿情發(fā)布者與受眾?;诖耍P者從用戶心理角度出發(fā),提出一套指標(biāo)體系,試圖更全面捕捉用戶與輿情事件在傳播過(guò)程中的變化細(xì)節(jié)。該體系采用經(jīng)典的態(tài)度三要素理論,即基于情感、行為、認(rèn)知為一級(jí)指標(biāo),構(gòu)建一套完備的層次指標(biāo)體系。從這三個(gè)角度出發(fā)恰好吻合人的心理結(jié)構(gòu),三者相輔相成,可以更好地刻畫用戶對(duì)輿情事件的感知,具有較強(qiáng)的說(shuō)服力。本文單獨(dú)將指標(biāo)體系的末級(jí)指標(biāo)用于把握輿情事件的發(fā)展態(tài)勢(shì),即通過(guò)單個(gè)末級(jí)指標(biāo)量化值的變化,達(dá)到有效監(jiān)測(cè)輿情事件從發(fā)生到逐漸消退的過(guò)程的目的。另外,為了更好地應(yīng)用指標(biāo)體系進(jìn)行輿情事件分析,準(zhǔn)確地預(yù)測(cè)輿情熱度及進(jìn)行輿情干預(yù)等工作,將指標(biāo)體系末級(jí)指標(biāo)量化為模型特征,構(gòu)建了基于邏輯回歸的輿情熱度分析模型。
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,我國(guó)的網(wǎng)絡(luò)輿情研究取得顯著進(jìn)展。其中,構(gòu)建網(wǎng)絡(luò)輿情指標(biāo)體系是研究輿情的一個(gè)重要方法,它是一種將抽象的輿情內(nèi)容及其傳播過(guò)程中的相關(guān)信息轉(zhuǎn)為可以量化的指標(biāo)的方法,從而為輿情研究提供便利。
關(guān)于輿情指標(biāo)體系的構(gòu)建,馮江平等[4]從政府、網(wǎng)媒、網(wǎng)民三個(gè)角度出發(fā),構(gòu)建了包括政府輿情應(yīng)對(duì)能力、網(wǎng)媒輿情熱度、網(wǎng)民心理特征在內(nèi)的網(wǎng)絡(luò)輿情評(píng)價(jià)指標(biāo)體系。戴媛等[2]12深入挖掘互聯(lián)網(wǎng)上所體現(xiàn)的輿情演變規(guī)律,構(gòu)建了網(wǎng)絡(luò)輿情信息在傳播擴(kuò)散、民眾關(guān)注、內(nèi)容敏感性、態(tài)度傾向性四個(gè)維度的安全評(píng)估指標(biāo)體系。陳建敏等[5]提出具有5個(gè)一級(jí)指標(biāo)的涉軍網(wǎng)絡(luò)輿情安全評(píng)估指標(biāo)體系,包括發(fā)布者指標(biāo)、受眾指標(biāo)、激體指標(biāo)、本體指標(biāo)和傳播指標(biāo)。Lin等[6]構(gòu)建了輿情早期階段預(yù)警的指標(biāo)體系,并利用層次分析法計(jì)算不同指標(biāo)的權(quán)重。瞿志凱等[7]在研究暴恐事件及網(wǎng)絡(luò)輿情影響因素的基礎(chǔ)上,構(gòu)建了包含暴恐事件、信息特性、媒體報(bào)道、網(wǎng)民反應(yīng)四個(gè)維度的暴恐事件網(wǎng)絡(luò)輿情的風(fēng)險(xiǎn)預(yù)警指標(biāo)體系,并對(duì)其進(jìn)行權(quán)重計(jì)算。Zhao等[8]對(duì)微博用戶行為、信息傳播和趨勢(shì)進(jìn)行實(shí)時(shí)監(jiān)測(cè)和特征分析,以達(dá)到全面深入評(píng)估的目的。早期關(guān)于指標(biāo)體系的研究多數(shù)只是給出了指標(biāo)體系的內(nèi)容及相關(guān)含義,很少對(duì)指標(biāo)體系內(nèi)容進(jìn)行量化分析或是對(duì)指標(biāo)體系的合理性進(jìn)行實(shí)驗(yàn)驗(yàn)證。
隨著機(jī)器學(xué)習(xí)的興起,一些學(xué)者開始針對(duì)輿情指標(biāo)體系的量化進(jìn)行研究。張一文等[9]基于貝葉斯網(wǎng)絡(luò)建模對(duì)網(wǎng)絡(luò)輿情預(yù)警進(jìn)行研究,通過(guò)將指標(biāo)體系內(nèi)容離散化來(lái)構(gòu)建網(wǎng)絡(luò)節(jié)點(diǎn),并對(duì)參數(shù)學(xué)習(xí),最終用得到的貝葉斯網(wǎng)絡(luò)來(lái)預(yù)測(cè)輿情處于態(tài)勢(shì)高、中、低的概率。李耘濤等[10]從網(wǎng)絡(luò)警兆指標(biāo)體系的灰色特性出發(fā),提出網(wǎng)絡(luò)輿情灰色預(yù)警評(píng)價(jià)的具體方法,計(jì)算了指標(biāo)的評(píng)價(jià)系數(shù),并進(jìn)行實(shí)例驗(yàn)證。徐旖旎等[11]利用層次分析法構(gòu)建指標(biāo)體系,并用馬爾科夫鏈模型建模,為輿情的研究提供新思路。邢云菲等[12]構(gòu)建了基于信息熵的新媒體環(huán)境下負(fù)面網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系,并給出輿情的影響力級(jí)別,實(shí)現(xiàn)對(duì)輿情的監(jiān)測(cè)。覃玉冰等[13]利用層次分析法構(gòu)建網(wǎng)絡(luò)輿情評(píng)估指標(biāo)體系,然后通過(guò)聚類將網(wǎng)絡(luò)輿情分為5種類型,最后使用決策樹分類方法構(gòu)建網(wǎng)絡(luò)輿情類型識(shí)別模型,精確識(shí)別處于潛伏期的網(wǎng)絡(luò)輿情的類別。
互聯(lián)網(wǎng)是一個(gè)為用戶提供交流服務(wù)的平臺(tái),用戶的心理活動(dòng)與整個(gè)網(wǎng)絡(luò)空間息息相關(guān)。因此,準(zhǔn)確把握互聯(lián)網(wǎng)背后用戶的心理、掌握輿情發(fā)展動(dòng)態(tài)至關(guān)重要。基于此,筆者從心理學(xué)角度出發(fā),提出一套以情感、行為、認(rèn)知為一級(jí)指標(biāo)的層次網(wǎng)絡(luò)輿情指標(biāo)體系。相比于現(xiàn)有指標(biāo)體系,本指標(biāo)體系的提出角度覆蓋面更廣。有研究表明,人類心理結(jié)構(gòu)最重要的三個(gè)系統(tǒng)分別是情感系統(tǒng)、行為系統(tǒng)和認(rèn)知系統(tǒng)[14],且三者之間相互影響,相互作用。由此可見,從情感、行為、認(rèn)知三個(gè)角度提出指標(biāo)體系,可以全面覆蓋并捕捉用戶態(tài)度和輿情本體信息,進(jìn)而更好地對(duì)輿情事件進(jìn)行分析。此外,為了對(duì)輿情進(jìn)行更細(xì)致的衡量,該指標(biāo)體系還引入深度轉(zhuǎn)發(fā)率、直接擴(kuò)散率、互動(dòng)率、發(fā)布形式等衡量指標(biāo)。
本文以情感、行為、認(rèn)知為一級(jí)指標(biāo),提出一套層次指標(biāo)體系,具體內(nèi)容如表1所示。情感是指人類對(duì)于客觀事物所產(chǎn)生的態(tài)度,本文將其劃分為輿論內(nèi)容情感傾向和受眾評(píng)論情感傾向。輿論內(nèi)容情感傾向通過(guò)現(xiàn)有情感詞典計(jì)算輿論內(nèi)容本身的正負(fù)情感詞頻來(lái)獲得,即對(duì)于中文文本,先通過(guò)分詞技術(shù)對(duì)評(píng)論的文本進(jìn)行分詞處理,根據(jù)分詞的結(jié)果與情感詞典中提供的正負(fù)情感詞進(jìn)行匹配來(lái)獲取相應(yīng)的詞頻。受眾的評(píng)論情感傾向通過(guò)正負(fù)評(píng)論在總評(píng)論中的占比來(lái)衡量。
表1 基于心理認(rèn)知的網(wǎng)絡(luò)輿情指標(biāo)體系
行為是指人類產(chǎn)生的舉動(dòng),本文全面考慮輿情傳播過(guò)程中的參與者,即博主與受眾,將行為劃分為受眾參與行為、博主發(fā)布行為以及受眾與博主之間的互動(dòng)行為。受眾參與行為主要包括受眾基本信息、轉(zhuǎn)發(fā)量、深度轉(zhuǎn)發(fā)率、直接擴(kuò)散率、點(diǎn)贊量和評(píng)論量。受眾基本信息包括受眾的年齡、性別、地域、微博等級(jí)等。其中,年齡、地域和微博等級(jí)采用區(qū)間進(jìn)行表示,受眾的群體不同,對(duì)于輿情傳播的興趣也是不同的。轉(zhuǎn)發(fā)量、點(diǎn)贊量和評(píng)論量分別定義為輿情研究時(shí)間段內(nèi)被轉(zhuǎn)發(fā)、點(diǎn)贊、評(píng)論的數(shù)目。通常情況下,帶有文字的轉(zhuǎn)發(fā)會(huì)加入輿情受眾的個(gè)人思想,對(duì)輿情的傳播和搜索具有一定輔助作用。因此,將深度轉(zhuǎn)發(fā)率定義為帶有文字的轉(zhuǎn)發(fā)數(shù)目占轉(zhuǎn)發(fā)總數(shù)目的百分比。直接擴(kuò)散率定義為在評(píng)論中@特定用戶的評(píng)論數(shù)目占評(píng)論總數(shù)目的百分比。@某用戶,說(shuō)明閱讀當(dāng)前消息的受眾希望被@的用戶看到此消息,這種方式可以使輿情的傳播精準(zhǔn)到目標(biāo)受眾,將傳播的過(guò)程變得更加高效。博主發(fā)布行為主要包括發(fā)布時(shí)間區(qū)間、發(fā)布形式、發(fā)布地域以及博主權(quán)威度。發(fā)布輿情的時(shí)間會(huì)在一定程度上影響輿情的傳播。比如同樣的一篇輿情,由于受眾活躍時(shí)間的限制,通常情況下在黃金時(shí)間段發(fā)布會(huì)比在凌晨發(fā)布具有更快的響應(yīng)。根據(jù)微博上的實(shí)際情況,可將發(fā)布形式分為三類,即純文字、文字+圖片和文字+視頻。不同的形式對(duì)于輿情的傳播具有不同的影響,相比于純文字的博文,受眾會(huì)更加關(guān)注帶有圖片或視頻等視聽信息的博文。發(fā)布地域同受眾基本信息中的地域表示方法相同。本文通過(guò)發(fā)布微博的博主粉絲數(shù)、博主發(fā)布微博總數(shù)、是否有微博認(rèn)證、微博等級(jí)以及博文質(zhì)量[15]5項(xiàng)指標(biāo)的加權(quán)求和來(lái)計(jì)算博主權(quán)威度。受眾與博主之間的互動(dòng)行為通過(guò)總互動(dòng)率、正向互動(dòng)數(shù)與負(fù)向互動(dòng)數(shù)來(lái)衡量?;?dòng)是指博主與受眾就輿情本身進(jìn)行的討論?;?dòng)率定義為評(píng)論中博主參與討論的評(píng)論條數(shù)占總評(píng)論條數(shù)的百分比,可以在一定程度上體現(xiàn)博主的活躍程度;而正向互動(dòng)數(shù)和負(fù)向互動(dòng)數(shù)則體現(xiàn)博主與受眾觀點(diǎn)的異同。
認(rèn)知是一個(gè)相對(duì)抽象的心理學(xué)概念,它是指人類在收到某種外界的輸入后,經(jīng)過(guò)大腦處理,從而在行為上進(jìn)行體現(xiàn)的過(guò)程。本文將認(rèn)知?jiǎng)澐譃椴┲髡J(rèn)知與受眾認(rèn)知。博主認(rèn)知分為輿情中體現(xiàn)的認(rèn)知和后續(xù)行為中體現(xiàn)的認(rèn)知,包括繼續(xù)發(fā)表言論、保持沉默、刪除言論等。受眾認(rèn)知分為評(píng)論中體現(xiàn)的認(rèn)知和后續(xù)行為中體現(xiàn)的認(rèn)知,包括與其他受眾的討論、保持沉默、刪除言論等。認(rèn)知這一新指標(biāo)的提出,可以有效監(jiān)測(cè)輿情參與者(包括輿情發(fā)布者和受眾)的心理動(dòng)態(tài),實(shí)現(xiàn)全方位捕捉細(xì)節(jié)。
指標(biāo)體系具有廣泛的應(yīng)用,比如應(yīng)用于輿情監(jiān)控、輿情預(yù)警等方面,或者利用指標(biāo)體系對(duì)輿情進(jìn)行評(píng)分來(lái)及時(shí)干預(yù)具有負(fù)面影響的新聞。本文提出的指標(biāo)體系旨在實(shí)現(xiàn)輿情分析和熱度預(yù)測(cè)兩方面的應(yīng)用。
1.輿情態(tài)勢(shì)分析
該層次指標(biāo)體系層層細(xì)化,層層深入。眾所周知,大多數(shù)輿情的發(fā)展是一個(gè)先經(jīng)歷公眾的高度關(guān)注,之后隨著時(shí)間推移,熱度逐漸退去的過(guò)程。本文利用提出的網(wǎng)絡(luò)輿情指標(biāo)體系的末級(jí)指標(biāo)量化值隨時(shí)間變化情況來(lái)分析輿情的發(fā)展趨勢(shì),以有效監(jiān)控輿情走向。
2.輿情熱度預(yù)測(cè)
本文將末級(jí)指標(biāo)單獨(dú)作為輿情事件的特征,用于構(gòu)建基于邏輯回歸的熱度預(yù)測(cè)模型,進(jìn)行輿情事件熱度分析。熱度預(yù)測(cè)模型的輸出值為0到1之間的數(shù)值,表示該輿情為熱點(diǎn)事件的概率。若輸出值大于0.5,則判斷此輿情為熱點(diǎn)事件,標(biāo)為hot;若輸出值小于0.5,則判斷此輿情為非熱點(diǎn)事件,標(biāo)為not hot。輿情為熱點(diǎn)事件的概率
(1)
式中,x為抽取的輿情特征向量,w為特征的權(quán)重向量,b為偏置,參數(shù)通過(guò)最小化目標(biāo)函數(shù)來(lái)學(xué)習(xí)獲得。該熱度預(yù)測(cè)模型目標(biāo)函數(shù)
(2)
式中,xi表示第i個(gè)樣本的特征向量,h(xi)為模型輸出的預(yù)測(cè)結(jié)果,yi表示輿情樣本的真實(shí)標(biāo)簽(yi=0時(shí)表示非熱點(diǎn)事件,yi=1時(shí)表示熱點(diǎn)事件),L為交叉熵?fù)p失函數(shù)。
本部分主要介紹數(shù)據(jù)獲取、數(shù)據(jù)形式和實(shí)驗(yàn)結(jié)果,并通過(guò)具體事例詳細(xì)展示指標(biāo)體系對(duì)輿情事件發(fā)展變化規(guī)律的描述,以及熱度預(yù)測(cè)分析的結(jié)果。
本文的數(shù)據(jù)爬取自新浪微博,主要來(lái)自央視新聞、新浪新聞、江蘇網(wǎng)絡(luò)電視臺(tái)等博主。選取了2018年7月發(fā)生的26個(gè)輿情事件,包括“泰國(guó)游船傾覆”“袁隆平團(tuán)隊(duì)沙漠種水稻”等事件。對(duì)于每個(gè)事件,將爬取的數(shù)據(jù)分為四大部分,即博文本身數(shù)據(jù)、轉(zhuǎn)發(fā)數(shù)據(jù)、評(píng)論數(shù)據(jù)和基本信息數(shù)據(jù)。對(duì)26個(gè)輿情事件進(jìn)行專家人工標(biāo)注,結(jié)果得到21個(gè)熱點(diǎn)事件以及5個(gè)非熱點(diǎn)事件。專家人工標(biāo)注即選擇該領(lǐng)域的三名研究者同時(shí)對(duì)同一輿情進(jìn)行標(biāo)注,只有當(dāng)三者的結(jié)論一致時(shí),才最終確定輿情的標(biāo)簽。另外,根據(jù)輿情的傳播特點(diǎn),實(shí)驗(yàn)中對(duì)輿情的分析時(shí)長(zhǎng)為自輿情發(fā)生起的10日內(nèi)。
為了驗(yàn)證模型的可行性,對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)劃分,其中18個(gè)為訓(xùn)練集(包括熱點(diǎn)事件15個(gè),非熱點(diǎn)事件3個(gè)),8個(gè)為測(cè)試集。
本部分基于所獲取的輿情事件,利用指標(biāo)體系,在輿情態(tài)勢(shì)分析和輿情熱度預(yù)測(cè)兩個(gè)方面進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該指標(biāo)體系在上述兩方面均表現(xiàn)出很好的效果且具有一定的應(yīng)用價(jià)值。
1.輿情態(tài)勢(shì)分析
以“袁隆平團(tuán)隊(duì)沙漠種水稻”為熱點(diǎn)事件,以“千萬(wàn)不要隨便調(diào)戲Siri了”為非熱點(diǎn)事件進(jìn)行對(duì)比分析,研究末級(jí)指標(biāo)在輿情態(tài)勢(shì)分析方面的應(yīng)用。首先,選擇部分隨時(shí)間變化的末級(jí)指標(biāo)(如轉(zhuǎn)發(fā)量、評(píng)論量和直接擴(kuò)散率)進(jìn)行分析(如圖1(a)、圖1(b)和圖1(c)所示)。總體來(lái)看,三者的變化規(guī)律都與事件的發(fā)展變化規(guī)律相吻合,即經(jīng)歷了從事件發(fā)生到逐漸升溫再到平穩(wěn)的狀態(tài),且熱點(diǎn)事件相比于非熱點(diǎn)事件具有高轉(zhuǎn)發(fā)、高評(píng)論和高擴(kuò)散的特點(diǎn)。另外發(fā)現(xiàn),熱點(diǎn)事件自發(fā)生到穩(wěn)定狀態(tài)經(jīng)歷的時(shí)間要長(zhǎng)于非熱點(diǎn)事件,指標(biāo)體系的變化更加平緩;而非熱點(diǎn)事件在剛發(fā)生的第一天會(huì)升溫,但事件發(fā)生的第二天之后,對(duì)于該事件的轉(zhuǎn)發(fā)、評(píng)論、擴(kuò)散等的值幾乎為零。由此可見,根據(jù)末級(jí)指標(biāo)的變化范圍與變化趨勢(shì),可以初步判斷出輿情的走勢(shì)情況。其次,分別分析指標(biāo)體系在情感、行為、認(rèn)知三個(gè)方面熱點(diǎn)事件和非熱點(diǎn)事件的不同,具體情況如圖1(d)、圖1(e)和圖1(f)所示。在情感方面,熱點(diǎn)事件具有正負(fù)向評(píng)論占比高等特點(diǎn)。在行為方面,通過(guò)將指標(biāo)體系轉(zhuǎn)化為熱度的形式,用雷達(dá)圖表示它們之間的關(guān)系,從圖中可以看出,熱點(diǎn)事件具有高轉(zhuǎn)發(fā)、高點(diǎn)贊、高評(píng)論等特點(diǎn)。此外,相比于評(píng)論和轉(zhuǎn)發(fā),點(diǎn)贊行為的產(chǎn)生方便且耗時(shí)少。因此,無(wú)論是熱點(diǎn)事件還是非熱點(diǎn)事件,點(diǎn)贊熱度都高于評(píng)論和轉(zhuǎn)發(fā)熱度。在認(rèn)知方面,將博主認(rèn)知和受眾認(rèn)知轉(zhuǎn)換為1~5之間的數(shù)值,并以散點(diǎn)的形式將熱點(diǎn)事件和非熱點(diǎn)事件展示在坐標(biāo)軸上。從圖中可以看出,熱點(diǎn)事件具有高博主認(rèn)知、高受眾認(rèn)知的特點(diǎn)。
圖1 指標(biāo)體系分析
2.輿情熱度預(yù)測(cè)
為從整體角度考察指標(biāo)體系熱度預(yù)測(cè)效果,將18個(gè)輿情事件作為訓(xùn)練集,其中15個(gè)為熱點(diǎn)事件,3個(gè)為非熱點(diǎn)事件。輿情事件的標(biāo)簽由人工進(jìn)行標(biāo)注。模型的輸出結(jié)果是該輿情為熱點(diǎn)事件的概率,范圍為0~1,通過(guò)預(yù)測(cè)的概率可以判斷預(yù)測(cè)的標(biāo)簽。這里選擇8個(gè)輿情事件進(jìn)行熱度預(yù)測(cè),其中3個(gè)事件來(lái)自央視新聞,兩個(gè)事件來(lái)自新浪新聞,其余3個(gè)事件分別來(lái)自封面新聞、江蘇網(wǎng)絡(luò)電視臺(tái)和新華視點(diǎn)。邏輯回歸的實(shí)驗(yàn)結(jié)果如表2第一行所示。表格中的概率為模型輸出值,即模型預(yù)測(cè)該事件為熱點(diǎn)事件的概率,括號(hào)內(nèi)的數(shù)字為事件的真實(shí)標(biāo)簽:1為熱點(diǎn)事件,0為非熱點(diǎn)事件。同時(shí),將邏輯回歸模型與樸素貝葉斯模型進(jìn)行對(duì)比,樸素貝葉斯實(shí)驗(yàn)結(jié)果如表2第二行所示。表2中,LR預(yù)測(cè)為邏輯回歸的輸出值,NB預(yù)測(cè)為樸素貝葉斯的輸出值。對(duì)于8個(gè)事件,邏輯回歸均預(yù)測(cè)正確,而樸素貝葉斯在事件5和事件8的預(yù)測(cè)中出現(xiàn)了錯(cuò)誤。由以上實(shí)驗(yàn)可見,邏輯回歸模型具有較高的準(zhǔn)確性,且模型性能穩(wěn)定。通過(guò)特征數(shù)據(jù),可以發(fā)現(xiàn)有些特征具有較大的區(qū)分度,即可以明顯區(qū)分出輿情的類別,例如評(píng)論數(shù)目等。相反,還有一些特征對(duì)于輿情是否為熱點(diǎn)事件這一分類問題具有相對(duì)較少的貢獻(xiàn)度,如輿情本身的情感傾向等。這一發(fā)現(xiàn)將為后續(xù)研究帶來(lái)幫助,也就是說(shuō),可以通過(guò)調(diào)整指標(biāo)體系末級(jí)指標(biāo)在模型中的權(quán)重來(lái)側(cè)重輿情研究的不同方面。例如,研究負(fù)面輿情的傳播及干預(yù)問題,就需要著重考慮輿情情感傾向指標(biāo),對(duì)其賦予更高的權(quán)重。
表2 邏輯回歸與樸素貝葉斯對(duì)比實(shí)驗(yàn)結(jié)果
輿情的發(fā)展變化規(guī)律可以通過(guò)一系列指標(biāo)體系進(jìn)行衡量,只要準(zhǔn)確抓住輿情發(fā)展的特征,就可以實(shí)現(xiàn)對(duì)輿情的預(yù)測(cè)和干預(yù)。本文提出了一個(gè)全新的基于用戶心理的指標(biāo)體系,考慮情感、行為、認(rèn)知三方面,從不同粒度出發(fā),提出層次輿情指標(biāo)體系,并將其應(yīng)用于網(wǎng)絡(luò)輿情態(tài)勢(shì)分析和熱度預(yù)測(cè)。研究發(fā)現(xiàn),該層次指標(biāo)體系末級(jí)指標(biāo)可以很好地刻畫輿情事件的特性,吻合輿情事件發(fā)展規(guī)律,并且能夠?qū)崿F(xiàn)對(duì)輿情事件的熱度分析。
近些年來(lái),輿情分析已經(jīng)成為研究熱點(diǎn),本文從一個(gè)全新的角度提出一套指標(biāo)體系,將其應(yīng)用于輿情態(tài)勢(shì)分析和熱度預(yù)測(cè),并進(jìn)行實(shí)驗(yàn)驗(yàn)證。未來(lái)指標(biāo)體系的構(gòu)建可以針對(duì)不同任務(wù)進(jìn)行,并結(jié)合多種輿情受眾與輿情本身的互動(dòng)要素。針對(duì)不易準(zhǔn)確衡量的認(rèn)知指標(biāo),可以采用通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)隱變量的方式來(lái)獲得相應(yīng)的表示,從而使輿情研究更加具有個(gè)性化和針對(duì)性。
北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2019年5期