秦 洋,鄭楠昱
(佛山科學(xué)技術(shù)學(xué)院,廣東 佛山 528051)
2021年2月3 日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心公布的《第47次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2020年12月,我國(guó)網(wǎng)民規(guī)模達(dá)9.89億,較2020年3月增長(zhǎng)8 540萬,互聯(lián)網(wǎng)普及率達(dá)70.4%[1]。網(wǎng)絡(luò)是信息傳播的載體,而在這個(gè)信息高度發(fā)達(dá)的時(shí)代,輿情已經(jīng)變成了汪洋大海。網(wǎng)絡(luò)輿情在這種環(huán)境下的輿論導(dǎo)向作用異常明顯。在當(dāng)前的網(wǎng)絡(luò)環(huán)境下準(zhǔn)確、及時(shí)地對(duì)網(wǎng)絡(luò)輿情的發(fā)展動(dòng)態(tài)進(jìn)行監(jiān)控、預(yù)測(cè)和控制變得尤為重要。
2013年8月19 日,習(xí)近平總書記在全國(guó)宣傳思想工作會(huì)議上提出,在當(dāng)今社會(huì)關(guān)系重構(gòu)的社交媒體時(shí)代,要建構(gòu)我國(guó)科學(xué)有效的社會(huì)輿情管理體系,必須正視輿論生態(tài)新變化,樹立大數(shù)據(jù)觀念,善用大數(shù)據(jù)技術(shù)預(yù)測(cè)和引導(dǎo)社會(huì)輿論。本系統(tǒng)基于大數(shù)據(jù),運(yùn)用人工智能、深度學(xué)習(xí)、多元統(tǒng)計(jì)等技術(shù),對(duì)熱點(diǎn)話題數(shù)據(jù)進(jìn)行分析,針對(duì)熱點(diǎn)話題的熱度和情感傾向進(jìn)行展示,使用戶精準(zhǔn)、及時(shí)地把握和預(yù)測(cè)輿情的走向。
本系統(tǒng)主要針對(duì)當(dāng)下熱點(diǎn)話題的輿情進(jìn)行分析。實(shí)事熱搜,熱點(diǎn)輿論,往往是都是輿論的戰(zhàn)場(chǎng)。網(wǎng)絡(luò)的多途徑又大大降低了人們發(fā)言成本,人們踴躍地在各大平臺(tái)發(fā)言。知乎、微博都有熱點(diǎn)話題的欄目,人們?cè)跓狳c(diǎn)話題的輿論中,影響著輿論的同時(shí)也被輿論影響。
我國(guó)網(wǎng)民數(shù)量眾多,通過網(wǎng)絡(luò)的載體,每一個(gè)熱點(diǎn)話題在不同平臺(tái)都能產(chǎn)生大量的數(shù)據(jù)。單純的人工采集、抽樣調(diào)查等方式已經(jīng)滿足不了需求。本系統(tǒng)利用分布式爬蟲技術(shù)從多個(gè)平臺(tái)的多個(gè)相關(guān)話題點(diǎn)獲取大量的輿情數(shù)據(jù)。因?yàn)樾枰A繑?shù)據(jù),全面宏觀把控輿情為數(shù)據(jù)的質(zhì)量提供了保障。
本系統(tǒng)將結(jié)果進(jìn)行可視化,最終將輿情分析結(jié)果呈現(xiàn)出來。有助于公安、監(jiān)管、權(quán)力等部門,進(jìn)行實(shí)時(shí)監(jiān)控,把握輿論的走向,對(duì)輿論做出相應(yīng)的引導(dǎo),防止公共事件的發(fā)生。有助于協(xié)助企業(yè)的輿情監(jiān)測(cè),為公關(guān)處理提供決策依據(jù),避免輿情持續(xù)發(fā)酵損害企業(yè)利益[2]。
本系統(tǒng)輿情熱度主要集中于時(shí)事熱點(diǎn)、頭條話題。本系統(tǒng)從微博、百度貼吧、今日頭條等多個(gè)網(wǎng)絡(luò)社交媒體平臺(tái)進(jìn)行話題提取,通過各大平臺(tái)的話題熱度排序,如微博的頭條排序等等,按照時(shí)間梯度進(jìn)行熱度分析,以多平臺(tái)、多層次、多角度等方式對(duì)同一熱點(diǎn)話題進(jìn)行多維分析,從而形成一定程度上的客觀熱度數(shù)據(jù),便于本系統(tǒng)的輿情檢索及輿情分析。
本系統(tǒng)對(duì)于熱點(diǎn)話題的輿情走向的情感分析和精準(zhǔn)把控,主要通過褒貶傾向性分析技術(shù)來發(fā)現(xiàn)輿論走向,以輿情事件的擴(kuò)散路徑、輿情不同時(shí)間節(jié)點(diǎn)的傳播趨勢(shì)變化和評(píng)估報(bào)道在社交媒體的擴(kuò)散情況等進(jìn)行分析研判,同時(shí)也從傳播焦點(diǎn)、輿論熱議的焦點(diǎn)、媒體聚焦點(diǎn)、輿論關(guān)注矛盾焦點(diǎn)等方面進(jìn)行深層次解讀,主要形成熱點(diǎn)話題情感傾向的積極與消極的二者偏差,實(shí)時(shí)把握輿情話題的情感傾向和輿情走向,便于對(duì)輿論傾向進(jìn)行實(shí)時(shí)監(jiān)控和有效引導(dǎo)。
本系統(tǒng)主要以實(shí)時(shí)動(dòng)態(tài)的形式進(jìn)行輿情監(jiān)測(cè),能夠根據(jù)用戶的需求,靈活高效地進(jìn)行用戶個(gè)性化配置,通過系統(tǒng)提供定性定量的輿情分析數(shù)據(jù),準(zhǔn)確研判具體輿情或者某一輿情專題的發(fā)展變化趨勢(shì),從而自動(dòng)生成輿情報(bào)告和各種統(tǒng)計(jì)報(bào)表,提高輿情管理的質(zhì)量和效率,輔助用戶掌握輿情動(dòng)態(tài),及時(shí)進(jìn)行有效決策,并提供分析依據(jù)。
數(shù)據(jù)的來源既是輿情分析的數(shù)據(jù)基礎(chǔ),也是把握輿情的質(zhì)量保證。針對(duì)各大網(wǎng)絡(luò)平臺(tái)的主要對(duì)象可能有著年齡段、興趣領(lǐng)域等不同的特點(diǎn),本系統(tǒng)采用分布式的爬蟲技術(shù),針對(duì)同一相關(guān)熱點(diǎn)話題,對(duì)不同的網(wǎng)絡(luò)輿情平臺(tái)進(jìn)行相關(guān)數(shù)據(jù)爬取。相關(guān)數(shù)據(jù)涉及話題點(diǎn)贊評(píng)論數(shù)、參與人數(shù)、評(píng)論內(nèi)容、評(píng)論時(shí)間等。利用HDFS分布式存儲(chǔ)系統(tǒng)對(duì)其進(jìn)行存儲(chǔ)。再利用數(shù)據(jù)清洗相關(guān)技術(shù)排除諸如“水軍評(píng)論”、無效評(píng)論等噪音的干擾。
自然語言處理技術(shù)是輿情分析當(dāng)中最為主要的技術(shù)手段。本系統(tǒng)結(jié)合百度AI輿情分析技術(shù)與深度學(xué)習(xí)LTSM+Attention模型對(duì)話題的評(píng)論進(jìn)行情感傾向分析。主要利用了百度AI情感傾向分析技術(shù),調(diào)用其API,可直接對(duì)話題評(píng)論進(jìn)行大規(guī)模打分。
由于自然語言處理技術(shù)對(duì)于應(yīng)用場(chǎng)景較為敏感,所以面對(duì)熱點(diǎn)話題的多樣性以及實(shí)時(shí)性,單純利用百度AI情感傾向分析API就沒有很高的適應(yīng)性。針對(duì)此問題,可采用深度學(xué)習(xí)LTSM+Attention模型,針對(duì)熱點(diǎn)話題涉及的場(chǎng)景領(lǐng)域進(jìn)行訓(xùn)練,具有較強(qiáng)的泛化能力。但因其訓(xùn)練成本較大,所以將其作為百度AI分析結(jié)果后的熱點(diǎn)話題輿情結(jié)果的修正。
本系統(tǒng)的輿情評(píng)分系統(tǒng)主要展示了熱度和情感傾向兩個(gè)方面。熱度分析的主要屬性集中在點(diǎn)贊評(píng)論數(shù)和評(píng)論的時(shí)間屬性上。運(yùn)用貝葉斯平均法和牛頓冷卻定律的結(jié)合方法對(duì)話題的熱度進(jìn)行評(píng)估,并對(duì)熱點(diǎn)話題的熱點(diǎn)詞條進(jìn)行提取。
通過自然語言情感分析技術(shù),可以得到不同網(wǎng)絡(luò)平臺(tái)的多個(gè)相關(guān)話題點(diǎn)的多條情感分析結(jié)果。再將海量的情感分析結(jié)果進(jìn)行綜合。本系統(tǒng)利用威爾遜區(qū)間法從單條情感分析結(jié)果維度、不同話題點(diǎn)維度、不同網(wǎng)絡(luò)輿情平臺(tái)維度3個(gè)維度進(jìn)行評(píng)分計(jì)算,得到單個(gè)熱點(diǎn)話題的初始總分。為避免不可靠評(píng)分導(dǎo)致評(píng)分結(jié)果之間差異過大,可以采用貝葉斯平均法對(duì)3個(gè)不同維度以及不同的熱點(diǎn)話題進(jìn)行評(píng)分修正,得到熱點(diǎn)話題的最終情感傾向得分。
輿情分析肩負(fù)著實(shí)時(shí)監(jiān)控,及時(shí)把控的使命。所以,及時(shí)為用戶提供可視化較好的輿情分析結(jié)果至關(guān)重要。本系統(tǒng)采用Django框架,前端結(jié)合Echarts制圖工作,對(duì)后臺(tái)所提供的實(shí)時(shí)輿情分析結(jié)果進(jìn)行Web端的可視化呈現(xiàn)[3]。動(dòng)態(tài)地、多角度地展示輿情分析的相關(guān)結(jié)果,如熱點(diǎn)話題詞云圖、熱點(diǎn)話題情感變化曲線、熱點(diǎn)話題分布散點(diǎn)圖等,很好地起到了輿情可視化監(jiān)測(cè)的作用。
該系統(tǒng)能夠快速有效的區(qū)分出網(wǎng)絡(luò)中的各個(gè)熱點(diǎn)話題的輿情情況,通過數(shù)據(jù)可視化的手段,將此類數(shù)據(jù)更加直觀地展示給決策者,從而對(duì)輿情風(fēng)向進(jìn)行一個(gè)判別。輿情分析為決策者提供及時(shí)、準(zhǔn)確、客觀、全面的輿情信息,讓決策者弄清或測(cè)驗(yàn)信息中本質(zhì)性的事實(shí)和趨勢(shì),協(xié)助決策者做出決策。
未來,隨著我國(guó)的物質(zhì)水平不斷發(fā)展,人們的思想也會(huì)越來越開放。那時(shí)人們對(duì)于輿情態(tài)勢(shì)了解的需求更高,而企業(yè)、國(guó)家對(duì)于輿情的重視也將會(huì)越來越高。隨著相關(guān)技術(shù)的不斷發(fā)展與深入,輿情分析技術(shù)也在更多的領(lǐng)域大展拳腳,展現(xiàn)出更為強(qiáng)大的活力。