孫睿 李波 殷曉有
摘要:大數(shù)據(jù)時(shí)代,要善于利用大數(shù)據(jù),掌握主動(dòng),提高網(wǎng)絡(luò)輿情的管理水平。建立具有網(wǎng)絡(luò)輿情宣傳、評(píng)價(jià)、報(bào)告和處置等功能的網(wǎng)絡(luò)輿情分析平臺(tái),可以依托校園媒體來(lái)實(shí)現(xiàn),校園媒體本身既處于學(xué)生群體當(dāng)中,又是區(qū)別于學(xué)生的信息傳播者。網(wǎng)絡(luò)和手機(jī)等校園媒體為師生提供一個(gè)良好的與情空間,是相對(duì)具有公信力的網(wǎng)絡(luò)輿情分析平臺(tái),在校園媒體平臺(tái)上,師生的校方可以平等地進(jìn)行交流溝通。了解師生所關(guān)注的社會(huì)和校園熱點(diǎn),及時(shí)收集信息和跟蹤,并有針對(duì)性地圍繞這些輿情來(lái)實(shí)施具體措施,第一時(shí)間形成輿情事件的研判,開(kāi)展合理的引導(dǎo),定期發(fā)布輿情報(bào)告和反饋信息,對(duì)正在發(fā)生和輿情事件積極回應(yīng),變被動(dòng)為主動(dòng)。
關(guān)鍵詞:高校網(wǎng)絡(luò)輿情,大數(shù)據(jù),詞云,輿論,詞頻分析
引言
網(wǎng)絡(luò)輿論引導(dǎo)是高校網(wǎng)絡(luò)思想政治教育的重要形式,也是高校民主化管理的必然選擇。在高校網(wǎng)絡(luò)輿情中應(yīng)重視和規(guī)避蝴蝶效應(yīng),合理運(yùn)用鯰魚(yú)效應(yīng),充分認(rèn)識(shí)信息環(huán)境下網(wǎng)絡(luò)的雙面性,通過(guò)疏堵相結(jié)合的方式,正確合理引導(dǎo)網(wǎng)絡(luò)輿情,建立高校危機(jī)管理及引導(dǎo)機(jī)制。并且可以借鑒傳播學(xué)的理論,以微博,貼吧,知乎等社交平臺(tái)為載體加強(qiáng)對(duì)高校網(wǎng)絡(luò)輿情的引導(dǎo),注重思想引領(lǐng),發(fā)揮網(wǎng)絡(luò)思想政治教育的滲透作用。注重觀察研判,加強(qiáng)有效信息的收集與整理;注重深層疏導(dǎo),讓多層次意見(jiàn)及時(shí)發(fā)聲。
我國(guó)的網(wǎng)民規(guī)模和寬帶網(wǎng)民規(guī)欖增長(zhǎng)迅猛,互聯(lián)網(wǎng)規(guī)模穩(wěn)居世界第一位。截至2009年6月底,中國(guó)網(wǎng)民規(guī)模達(dá)到3.38億,較2008年底增長(zhǎng)13.4%,半年增長(zhǎng)了4000萬(wàn) 。
近年來(lái),我國(guó)大學(xué)生網(wǎng)民猛增,高校網(wǎng)絡(luò)輿情活躍,高校網(wǎng)絡(luò)輿情研究逐漸受到學(xué)界的關(guān)注和重視,成為網(wǎng)絡(luò)輿情研究的重要分支。
一、研究目的
一方面,互聯(lián)網(wǎng)打破了傳統(tǒng)校園對(duì)輿論的控制和對(duì)信息的壟斷,使傳播過(guò)程中的傳受雙方變得更加自由和平等,在網(wǎng)上人們有了更多自主發(fā)表言論的權(quán)利和機(jī)會(huì),這有利于充分反映來(lái)自社會(huì)各方面的愿望,意見(jiàn),要求和呼聲;有利于校園輿論監(jiān)督工作的開(kāi)展;有利于正確輿論的形成;有利于推進(jìn)校園發(fā)展的進(jìn)程。
另一方面,校園互聯(lián)網(wǎng)輿論分析作為一個(gè)全開(kāi)放的幾乎沒(méi)有任何管制的信息和觀點(diǎn)的通道,給輿論導(dǎo)向也帶來(lái)了諸多的負(fù)面效應(yīng)。由于網(wǎng)絡(luò)傳播的個(gè)人化和隱蔽性,使人們?cè)诰W(wǎng)上發(fā)表言論無(wú)須像在傳統(tǒng)媒體上承擔(dān)責(zé)任,這無(wú)疑給某些居心不良者提供了可乘之機(jī);由于傳統(tǒng)的把關(guān)人作用的削弱和缺乏強(qiáng)有力的監(jiān)管機(jī)制,使諸如暴力、迷信和其它有害信息在網(wǎng)上泛濫成災(zāi);由于網(wǎng)絡(luò)傳播的速度之快、范圍之廣和極易復(fù)制,令虛假新聞在網(wǎng)上滋生蔓延,這些都對(duì)我們?cè)诰W(wǎng)絡(luò)傳播中堅(jiān)持正確的輿論導(dǎo)向帶來(lái)不利影響。大數(shù)據(jù)時(shí)代,要善于利用大數(shù)據(jù),掌握主動(dòng),提高網(wǎng)絡(luò)輿情的管理水平。
在校大學(xué)生日常生活中遇到各種困難時(shí)通常會(huì)在網(wǎng)絡(luò)上尋求幫助,在這過(guò)程中會(huì)產(chǎn)生大量冗余的數(shù)據(jù)信息,由于數(shù)據(jù)信息量過(guò)于龐大,復(fù)雜,導(dǎo)致求助的同學(xué)無(wú)法有效地獲取幫助。因此我們需要設(shè)計(jì)一個(gè)輿情分析系統(tǒng),通過(guò)輿情分析,基于云計(jì)算,從網(wǎng)絡(luò)上抓取這些信息進(jìn)行分析,再以數(shù)據(jù)可視化的方式呈現(xiàn)出來(lái),從而使大家可以明確的了解到同學(xué)們的具體需求,并提供相應(yīng)的幫助。
二、輿情分析系統(tǒng)
1.數(shù)據(jù)獲取
通過(guò)python設(shè)計(jì)不同的爬蟲(chóng)獲取如微博,貼吧,知乎等社交平臺(tái)中的輿情信息及評(píng)論數(shù)據(jù)。python龐大的第三方庫(kù),如json,urllib,request等可以幫助我們快速爬取網(wǎng)頁(yè)的數(shù)據(jù),并通過(guò)Beautiful Soup和Pyquery提取有用信息,剔除無(wú)用信息,最后將爬取到的數(shù)據(jù)存入csv或txt文件中進(jìn)行后續(xù)數(shù)據(jù)分析。
以知乎網(wǎng)站為例,由于現(xiàn)在網(wǎng)站大多使用的都是異步加載技術(shù)用于存儲(chǔ)網(wǎng)頁(yè)數(shù)據(jù),所以我們通過(guò)ajax來(lái)快速獲取網(wǎng)頁(yè)數(shù)據(jù),構(gòu)建正則表達(dá)式,復(fù)制頭文件將我們?cè)O(shè)計(jì)的爬蟲(chóng)進(jìn)行偽裝,并用cookies解決即使沒(méi)有知乎賬號(hào)也能爬取我們需要的數(shù)據(jù),最后使用json來(lái)處理獲取到的數(shù)據(jù)。
2.數(shù)據(jù)預(yù)處理
在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),由于爬取到的數(shù)據(jù)大部分以中文為主,因此我們主要使用的是jieba庫(kù)對(duì)數(shù)據(jù)進(jìn)行中文分詞處理。
中文分詞(Chinese Word Segmentation)指將漢字序列切分成一個(gè)個(gè)單獨(dú)的詞或詞串序列,它能夠在沒(méi)有詞邊界的中文字符串中建立分隔標(biāo)志,通常采用空格分隔。中文分詞是數(shù)據(jù)分析預(yù)處理、數(shù)據(jù)挖掘、文本挖掘、搜索引擎、知識(shí)圖譜、自然語(yǔ)言處理等領(lǐng)域中非?;A(chǔ)的知識(shí)點(diǎn),只有經(jīng)過(guò)中文分詞后的語(yǔ)料才能轉(zhuǎn)換為數(shù)學(xué)向量的形式,繼續(xù)進(jìn)行后面的分析。同時(shí),由于中文數(shù)據(jù)集涉及到語(yǔ)義、歧義等知識(shí),劃分難度較大,比英文復(fù)雜很多。
Jieba庫(kù)是一款優(yōu)秀的 Python 第三方中文分詞庫(kù),jieba 支持三種分詞模式:精確模式、全模式和搜索引擎模式,下面是三種模式的特點(diǎn)。
精確模式:試圖將語(yǔ)句最精確的切分,不存在冗余數(shù)據(jù),適合做文本分析
全模式:將語(yǔ)句中所有可能是詞的詞語(yǔ)都切分出來(lái),速度很快,但是存在冗余數(shù)據(jù)
搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次進(jìn)行切分。
通過(guò)使用jieba庫(kù),我們可以快速對(duì)數(shù)據(jù)進(jìn)行分詞處理,使用jieba.cut對(duì)獲取到的數(shù)據(jù)進(jìn)行分詞以及通過(guò)stop_words停用詞過(guò)濾(包括標(biāo)點(diǎn)符號(hào)),從而快速過(guò)濾掉無(wú)用數(shù)據(jù)更方便后續(xù)分析。
2.1部分代碼展示
3.數(shù)據(jù)可視化
在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后,我們就可以將處理好的數(shù)據(jù)以可視化的方式向用戶展示。主要用到wordcloud,matplotlib,Seaborn,SnowNLP等第三方庫(kù)。
Matplotlib庫(kù):Matplotlib是接觸最多的可視化庫(kù),它可以很輕松地畫(huà)一些或簡(jiǎn)單或復(fù)雜地圖形,幾行代碼即可生成線圖、直方圖、功率譜、條形圖、錯(cuò)誤圖、散點(diǎn)圖等等。
我們使用Matplotlib庫(kù)可以通過(guò)處理好的數(shù)據(jù)以折線圖的方式展示輿情時(shí)間變化,更有利于輿情分析。
Seaborn:如果單單使用matplotlib會(huì)顯示非常簡(jiǎn)單,不夠美觀。Seaborn是基于matplotlib產(chǎn)生的一個(gè)模塊,專攻于統(tǒng)計(jì)可視化,可以和pandas進(jìn)行無(wú)縫鏈接。相對(duì)于matplotlib,Seaborn語(yǔ)法更簡(jiǎn)潔,兩者關(guān)系類似于numpy和pandas之間的關(guān)系。它能夠讓繪制圖像的樣式更加豐富。
Wordcloud庫(kù):wordcloud可以對(duì)文本中出現(xiàn)次數(shù)較高的詞語(yǔ)進(jìn)行可視化展示圖形,其中的wordcloud.WordCloud方法可以對(duì)展示的詞云圖進(jìn)行自定義構(gòu)建。
wordcloud.WordCloud方法:
font_path : string //字體路徑,需要展現(xiàn)什么字體就把該字體路徑+后綴名寫(xiě)上,如:font_path = '黑體.ttf'
width : int (default=400) //輸出的畫(huà)布寬度,默認(rèn)為400像素
height : int (default=200) //輸出的畫(huà)布高度,默認(rèn)為200像素
prefer_horizontal : float (default=0.90) //詞語(yǔ)水平方向排版出現(xiàn)的頻率,默認(rèn) 0.9 (所以詞語(yǔ)垂直方向排版出現(xiàn)頻率為 0.1 )
scale : float (default=1) //按照比例進(jìn)行放大畫(huà)布,如設(shè)置為1.5,則長(zhǎng)和寬都是原來(lái)畫(huà)布的1.5倍。
min_font_size : int (default=4) //顯示的最小的字體大小
font_step : int (default=1) //字體步長(zhǎng),如果步長(zhǎng)大于1,會(huì)加快運(yùn)算但是可能導(dǎo)致結(jié)果出現(xiàn)較大的誤差。
max_words : number (default=200) //要顯示的詞的最大個(gè)數(shù)
stopwords : set of strings or None //設(shè)置需要屏蔽的詞,如果為空,則使用內(nèi)置的STOPWORDS
background_color : color value (default=”black”) //背景顏色,如background_color='white',背景顏色為白色。
max_font_size : int or None (default=None) //顯示的最大的字體大小
mode : string (default=”RGB”) //當(dāng)參數(shù)為“RGBA”并且background_color不為空時(shí),背景為透明。
relative_scaling : float (default=.5) //詞頻和字體大小的關(guān)聯(lián)性
color_func : callable, default=None //生成新顏色的函數(shù),如果為空,則使用 self.color_func
regexp : string or None (optional) //使用正則表達(dá)式分隔輸入的文本
collocations : bool, default=True //是否包括兩個(gè)詞的搭配
本文也將wordcloud.WordCloud方法進(jìn)行整理并展示部分制作簡(jiǎn)單的詞云圖代碼及詞云圖效果。如圖:
SnouNLP庫(kù):SnowNLP是一個(gè)python寫(xiě)的類庫(kù),可以方便的處理中文文本內(nèi)容,是受到了TextBlob的啟發(fā)而寫(xiě)的,由于現(xiàn)在大部分的自然語(yǔ)言處理庫(kù)基本都是針對(duì)英文的,于是寫(xiě)了一個(gè)方便處理中文的類庫(kù)。簡(jiǎn)單地說(shuō),snownlp是一個(gè)中文的自然語(yǔ)言處理的Python庫(kù)。
對(duì)于輿情分析,我們需要將獲取到的數(shù)據(jù)進(jìn)行分析再以簡(jiǎn)單易懂的圖片展示方式呈現(xiàn)給用戶,因此我們需要借助SnouNLP庫(kù)對(duì)我們從網(wǎng)絡(luò)上獲取到的數(shù)據(jù)進(jìn)行情感分析。通過(guò)機(jī)器訓(xùn)練過(guò)后的情感分析,我們可以快速地對(duì)獲取到的龐大數(shù)據(jù)量進(jìn)行分析,以極短的時(shí)間完成高效分析任務(wù)。
首先使用SnouNLP庫(kù)訓(xùn)練情感分析的模型,在完成模型訓(xùn)練后通過(guò)已經(jīng)進(jìn)行預(yù)處理后的數(shù)據(jù),SnouNLP庫(kù)會(huì)對(duì)完成預(yù)處理的數(shù)據(jù)逐條進(jìn)行情感分析,完成情感分析后再結(jié)合調(diào)用Matplotlib庫(kù),以直方圖或其他方式直觀向用戶展示輿情分析結(jié)果,從而完成輿情分析。
3.2 詞云圖效果展示
三、結(jié)論
本項(xiàng)目以校園輿情為研究方向出發(fā)進(jìn)行數(shù)據(jù)分析以及詞云圖,直方圖的制作,通過(guò)python設(shè)計(jì)不同網(wǎng)頁(yè)的爬蟲(chóng)對(duì)不同社交平臺(tái)網(wǎng)站的評(píng)論數(shù)據(jù)進(jìn)行爬取;對(duì)獲取到的數(shù)據(jù)進(jìn)行分詞,去除停用詞等方式進(jìn)行預(yù)處理;最后結(jié)合python的不同第三方庫(kù)對(duì)獲取到的數(shù)據(jù)進(jìn)行情感分析并以詞云圖,直方圖等直觀的圖片展示給使用者。同時(shí)本文在數(shù)據(jù)獲取等方面也并未使用過(guò)難的技術(shù),數(shù)據(jù)獲取采用了主函數(shù)調(diào)用的方式進(jìn)行啟動(dòng),在數(shù)據(jù)預(yù)處理也是采用更為簡(jiǎn)單易上手的jieba庫(kù)進(jìn)行預(yù)處理,最后做出詞云圖等圖片進(jìn)行數(shù)據(jù)可視化。校園輿情分析系統(tǒng)的設(shè)計(jì)完成,不僅可以及時(shí)應(yīng)對(duì)學(xué)校在遇到突發(fā)事件時(shí)通過(guò)輿情分析及時(shí)確定解決方案,同時(shí)在日常生活中也可以根據(jù)同學(xué)們的評(píng)論解決他們遇到的問(wèn)題,亦或是根據(jù)根據(jù)同學(xué)們對(duì)校園的看法對(duì)校園進(jìn)行改善。
參考文獻(xiàn):
[1]黃源,張揚(yáng) 《大數(shù)據(jù)可視化技術(shù)》 中國(guó)水利水電出版社
[2]宋威龍 《python數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營(yíng)》 機(jī)械工業(yè)出版社
[3]喻梅,于健 《數(shù)據(jù)分析與數(shù)據(jù)挖掘》 清華大學(xué)出版社
[4]謝乾坤 《python爬蟲(chóng)開(kāi)發(fā)從入門(mén)到實(shí)戰(zhàn)》 人民郵電出版社
作者簡(jiǎn)介:孫睿(2000.06.13 —— ),男,壯族,籍貫:廣西南寧,學(xué)歷:本科在讀,研究方向:數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)
基金項(xiàng)目:吉林省長(zhǎng)春工程學(xué)院大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目[S202111437092]