高濤濤 匡芳君
(溫州商學(xué)院信息工程學(xué)院,浙江 溫州 325035)
基于大數(shù)據(jù)的高校網(wǎng)絡(luò)輿情分析研究
高濤濤 匡芳君*
(溫州商學(xué)院信息工程學(xué)院,浙江 溫州 325035)
隨著互聯(lián)網(wǎng)的高速發(fā)展,移動(dòng)網(wǎng)絡(luò)不僅改變?nèi)藗兊纳罘绞?,更改變了交流方式,尤其在高校中,大量的個(gè)人言論通過網(wǎng)絡(luò)進(jìn)行傳播、碰撞、融合,產(chǎn)生的校園網(wǎng)絡(luò)輿情,對(duì)高校影響巨大。如何監(jiān)測網(wǎng)絡(luò)輿情數(shù)據(jù),給高校網(wǎng)絡(luò)輿情以正確的導(dǎo)向,是高校提升核心競爭力急需解決的關(guān)鍵問題。本文提出基于數(shù)據(jù)挖掘和數(shù)據(jù)分析等技術(shù)構(gòu)建高校網(wǎng)絡(luò)輿情體系,以引導(dǎo)高校網(wǎng)絡(luò)輿情更加積極化、健康化,從而促進(jìn)高校校園文化和諧發(fā)展。
高校網(wǎng)絡(luò)輿情;大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘;監(jiān)察體制
隨著互聯(lián)網(wǎng)的高速發(fā)展,我國的網(wǎng)民規(guī)模不斷上升,截至 2017年6月,我國網(wǎng)民規(guī)模達(dá)7.51億,我國手機(jī)網(wǎng)民規(guī)模達(dá)7.24億,而網(wǎng)民中學(xué)生群體占比更是高居榜首,高達(dá)25.0%[1]。而在學(xué)生層次中,和互聯(lián)網(wǎng)最密切相關(guān)的便是大學(xué)生,對(duì)于豐富多彩的Internet,無數(shù)的網(wǎng)絡(luò)信息必將影響其言行。各高校校園BBS、貼吧、博客等社交平臺(tái)大大方便了大學(xué)生之間交流討論的同時(shí),隨著新言論的不斷出現(xiàn),各個(gè)個(gè)體間意見不斷交互,各種觀點(diǎn)不斷碰撞,從最初可能只是個(gè)人或者是少數(shù)人的意見,到最后可能轉(zhuǎn)化成為絕大多數(shù)人的集體意識(shí),并在校園里形成“家喻戶曉”的校園網(wǎng)絡(luò)輿情。隨著大數(shù)據(jù)時(shí)代的到來,校園網(wǎng)絡(luò)言論產(chǎn)生的數(shù)據(jù)量也在不斷飛漲,高校管理者如何從如此龐大的數(shù)據(jù)中提取到有價(jià)值的信息,從而在校園輿情形成之際及時(shí)有效地發(fā)現(xiàn)以及引導(dǎo),構(gòu)建高校網(wǎng)絡(luò)輿情體系勢在必行。本文通過對(duì)高校網(wǎng)絡(luò)言論的大數(shù)據(jù)分析,進(jìn)行數(shù)據(jù)的采集、分析,從而構(gòu)建高校網(wǎng)絡(luò)輿情體系,其分析出來的輿情結(jié)果可以讓管理人員及時(shí)有效地處理高校網(wǎng)絡(luò)輿情,保證校園的和諧穩(wěn)定。
高校網(wǎng)絡(luò)輿情,是指高校內(nèi)部各類群體在校園網(wǎng)空間中,對(duì)其所關(guān)心的特定的中介性社會(huì)事項(xiàng)產(chǎn)生和所持有的社會(huì)政治態(tài)度,高校網(wǎng)絡(luò)輿情是一個(gè)特指的以大學(xué)生為主體的概念[2]。而大學(xué)生群體又是各個(gè)群體中最為特殊的群體,他們受教育程度較高,創(chuàng)造性強(qiáng),精力充沛,相對(duì)于一般的社會(huì)群體,大學(xué)生群體擁有群體間相互交往頻率高、時(shí)間長、空間相對(duì)單一、目標(biāo)共性強(qiáng)等特征,而正是這些特征賦予高校網(wǎng)絡(luò)輿情個(gè)性化的特性。高校網(wǎng)絡(luò)輿情正是基于高校這一特殊環(huán)境,作為象牙塔內(nèi)的大學(xué)生群體通過社交平臺(tái)表達(dá)自己的言論,從而影響當(dāng)前大學(xué)生的思想和行為。
高校網(wǎng)絡(luò)輿情傳播速度驚人,信息傳播隨意性強(qiáng),高校應(yīng)當(dāng)格外重視校園網(wǎng)絡(luò)輿情,加強(qiáng)對(duì)網(wǎng)絡(luò)輿情的研究、引導(dǎo),正確的認(rèn)識(shí)高校網(wǎng)絡(luò)輿情的作用并對(duì)其進(jìn)行科學(xué)化的管理。在高校網(wǎng)絡(luò)輿情傳播過程中,大學(xué)生已經(jīng)不單單局限于信息的接收,更是逐漸地主導(dǎo)著信息的傳遞。但生活在校園中的高校大學(xué)生,社會(huì)經(jīng)驗(yàn)和閱歷的缺乏,評(píng)判能力有限,面對(duì)著龐大的真假難辨的信息,難以在短時(shí)間內(nèi)做出正確的判斷,更加難以分辨出事情的真?zhèn)?,從而容易?dǎo)致高校學(xué)生對(duì)發(fā)生在身邊的校園事件或社會(huì)現(xiàn)象認(rèn)識(shí)難免有失偏頗,受到錯(cuò)誤的輿論引導(dǎo),造成其表達(dá)的方式往往比較過激,而這些不正當(dāng)?shù)难哉撝苯影l(fā)表在社交平臺(tái)上,就有可能引起不健康的高校網(wǎng)絡(luò)輿情,從而影響大學(xué)生觀念的不正確發(fā)展,造成嚴(yán)重的后果。
高校網(wǎng)絡(luò)輿情是高校工作的重要組成部分,進(jìn)入互聯(lián)網(wǎng)時(shí)代以來,各個(gè)高校在不斷提高校園網(wǎng)絡(luò)輿情安全意識(shí),從各種途徑來保障校園網(wǎng)絡(luò)的安全。建立學(xué)生代表制度,學(xué)生代表在各自的學(xué)生群體中有較大的影響,通過學(xué)生代表引導(dǎo)校園網(wǎng)絡(luò)輿情發(fā)展的方向;開設(shè)心理課堂、課外心理咨詢,關(guān)注學(xué)生的心理健康,降低網(wǎng)上不良言論出現(xiàn)的概率。但是,在大數(shù)據(jù)的時(shí)代里,面對(duì)紛雜斑駁的數(shù)據(jù),僅僅依靠人是很難應(yīng)對(duì)的,這不僅體現(xiàn)在工作量上,而且對(duì)高校管理者的專業(yè)性也有很高的要求。所以在未來,必須加強(qiáng)高校管理人員的數(shù)據(jù)意識(shí),依靠校園網(wǎng)絡(luò)輿情信息的收集平臺(tái),監(jiān)測校園網(wǎng)絡(luò)輿情,掌握輿情的發(fā)展趨勢。網(wǎng)絡(luò)輿情的形成和演變有四大階段:言論形成期;討論傳播期;網(wǎng)下沖突期;輿論消退期[3]。建立完善的校園網(wǎng)絡(luò)輿情預(yù)案,模擬相關(guān)的校園網(wǎng)絡(luò)輿情危機(jī),制定周密有效的應(yīng)急處理行為規(guī)范,堅(jiān)決將校園輿情牢牢控制在第二階段,將校園網(wǎng)絡(luò)輿情的不良影響降到最低。
隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)流量也越來越龐大,數(shù)據(jù)的價(jià)值不斷提升,甚至成為了最寶貴的財(cái)富。因此,數(shù)據(jù)的處理需求也大大提升,相應(yīng)的數(shù)據(jù)處理技術(shù)也在不斷發(fā)展,特別是對(duì)于數(shù)據(jù)的分析以及數(shù)據(jù)潛在價(jià)值的挖掘尤為重要,數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù)成為了核心關(guān)鍵技術(shù)。
數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但是直到計(jì)算機(jī)的出現(xiàn)才讓數(shù)據(jù)分析得以推廣,數(shù)據(jù)分析利用數(shù)學(xué)的大腦,計(jì)算機(jī)的身體組成了智能的產(chǎn)品。數(shù)據(jù)分析在多個(gè)領(lǐng)域都有著舉足輕重的作用,數(shù)據(jù)和數(shù)據(jù)分析的價(jià)值也有目共睹。數(shù)據(jù)分析技術(shù)可以分析文本、數(shù)字、日志等,數(shù)據(jù)之間往往具有互聯(lián)性,當(dāng)面對(duì)大量的數(shù)據(jù)毫無頭緒時(shí),可以通過作圖表等輔助方法來幫助分析、推斷,也可以通過數(shù)據(jù)對(duì)已有的假設(shè)進(jìn)行驗(yàn)證性的分析。
數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘在技術(shù)上又有著這樣的定義:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程途徑[4]。隨著時(shí)代的發(fā)展,信息技術(shù)的發(fā)展速度有目共睹,隨之網(wǎng)絡(luò)數(shù)據(jù)也越來越龐大,如何從中得到有價(jià)值的信息也越來越考驗(yàn)著我們。數(shù)據(jù)挖掘是對(duì)于數(shù)據(jù)的管理、分析和處理的一項(xiàng)技術(shù),是數(shù)據(jù)處理的關(guān)鍵一步。而對(duì)于網(wǎng)絡(luò)輿情來說,其本質(zhì)就是針對(duì)數(shù)據(jù)的深度處理,通過對(duì)大量的數(shù)據(jù)進(jìn)行挖掘,從而得到重要的、有意義的數(shù)據(jù),再通過有效的數(shù)據(jù)來分析出網(wǎng)絡(luò)輿情中蘊(yùn)藏的觀點(diǎn)。
結(jié)合高校網(wǎng)絡(luò)輿情特點(diǎn)和實(shí)際情況,設(shè)立適應(yīng)高校的網(wǎng)絡(luò)輿情分析系統(tǒng),設(shè)計(jì)的校園網(wǎng)絡(luò)輿情系統(tǒng)框架如圖1所示,系統(tǒng)結(jié)構(gòu)主要包括數(shù)據(jù)收集模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)分類存儲(chǔ)模塊、數(shù)據(jù)檢索模塊、輿情發(fā)布模塊這五大功能模塊。通過該輿情分析系統(tǒng),可以較好地抓取以及處理高校網(wǎng)絡(luò)平臺(tái)的網(wǎng)絡(luò)數(shù)據(jù),通過對(duì)數(shù)據(jù)的分析,將數(shù)據(jù)進(jìn)行分類存儲(chǔ),通過檢索從數(shù)據(jù)庫搜索數(shù)據(jù),提取出現(xiàn)頻率高的數(shù)據(jù)并進(jìn)行重點(diǎn)關(guān)注。對(duì)比分析從而了解高校網(wǎng)絡(luò)輿情的起源,發(fā)展的過程以及為后續(xù)決策提供理論支持,從而基本掌握校園網(wǎng)絡(luò)輿情,把握校園輿論動(dòng)態(tài)。
圖1 高校網(wǎng)絡(luò)輿情系統(tǒng)框架圖
大學(xué)生除了關(guān)注自身的學(xué)習(xí)外,還比較關(guān)注的就是校園的周邊,尤其是一些大眾喜歡的話題,往往會(huì)引起大學(xué)生強(qiáng)烈的興趣,當(dāng)他們想要發(fā)表、討論的時(shí)候,自然就來到了校園論壇等社交平臺(tái)這一虛擬的空間來發(fā)表自己的看法,這就會(huì)形成新的校園輿情。這類信息的討論對(duì)象越具有吸引力并觸動(dòng)大學(xué)生情緒的時(shí)候,就越能引發(fā)強(qiáng)大的網(wǎng)上討論熱潮,就像“滾雪球”一樣,討論的學(xué)生越來越多,相關(guān)的言論碰撞也越來越激烈,從而關(guān)注的群體也越來越廣泛,相關(guān)的數(shù)據(jù)也隨之變大。面對(duì)如此龐大的數(shù)據(jù),我們主要采用的是網(wǎng)絡(luò)爬蟲技術(shù),利用其抓取網(wǎng)頁信息。爬蟲從用戶的社交平臺(tái)的URL開始,獲取其所對(duì)應(yīng)頁面上的鏈接,然后持續(xù)更新URL,從而不斷獲取新信息,再將這些網(wǎng)頁信息全部存儲(chǔ)到本地,在一定的周期內(nèi)重復(fù)對(duì)這些頁面進(jìn)行爬取,然后對(duì)比數(shù)據(jù)庫,判斷該數(shù)據(jù)是否被保存下來,從而決定增添數(shù)據(jù)庫或者保持不變。
該模塊是系統(tǒng)最基本的存儲(chǔ)功能模塊,為了處理龐大的數(shù)據(jù),該存儲(chǔ)模塊主要是采用了分布式、面向列的分布式數(shù)據(jù)庫HBase,且其不是一個(gè)關(guān)系型的數(shù)據(jù)庫,可以很好地存儲(chǔ)大量分析好的數(shù)據(jù),并對(duì)其進(jìn)行分類存儲(chǔ),為其他模塊的調(diào)用做準(zhǔn)備。
數(shù)據(jù)分析是該系統(tǒng)的重要組成部分,其主要作用是識(shí)別不同的主題,追蹤同一主題的相似內(nèi)容,完成對(duì)響應(yīng)主題的分析。利用Canopy算法,以簡單的形式構(gòu)造了一個(gè)分類器,將數(shù)據(jù)進(jìn)行簡單分類處理并提供K值,再利用K-Means算法先選取K個(gè)文檔作為聚類中心,然后將剩余的文檔歸在最近的中心,得到新的中心,直至將所有文檔聚類。在主題跟蹤中訓(xùn)練樣本數(shù)、訓(xùn)練與分類算法都是影響跟蹤質(zhì)量的重要因素,和文本分類問題類似,經(jīng)典的KNN算法、SVM 算法、決策樹算法等都能發(fā)揮很好的作用[5]。
該模塊主要包括普通檢索、輿情檢索、元搜索、檢索結(jié)果查看等,用戶可通過自定義關(guān)鍵詞進(jìn)行搜索查詢,對(duì)特定的高校網(wǎng)路輿情進(jìn)行了解。建立敏感詞匯數(shù)據(jù)庫。作為人群密度大的高校,由于學(xué)生自身的素質(zhì)參差不齊,難免會(huì)有有關(guān)反動(dòng)、政治、色情性質(zhì)的言論出現(xiàn),這個(gè)時(shí)候敏感詞庫就發(fā)揮了重要的作用,根據(jù)搜集過來的數(shù)據(jù)與其進(jìn)行匹配,并將該情況馬上反饋給管理人員,通過管理人員來處理,防止形成校園網(wǎng)絡(luò)輿情以及造成不良影響。
根據(jù)之前模塊對(duì)數(shù)據(jù)的處理,將輿情分門別類,結(jié)合系統(tǒng)能夠根據(jù)用戶關(guān)注、發(fā)表的敏感信息,對(duì)其中的熱點(diǎn)問題進(jìn)行統(tǒng)計(jì)分析,并將積極的熱點(diǎn)問題推送給用戶,對(duì)不積極的數(shù)據(jù)進(jìn)行更加深入的研究,將查詢統(tǒng)計(jì)結(jié)果生成報(bào)告,及時(shí)將輿情報(bào)告發(fā)送給高校領(lǐng)導(dǎo),為高校的決策提供依據(jù)。
某高校校園貼吧爆出了一則學(xué)?!案邇r(jià)熱水”新聞,該貼一出現(xiàn),就被網(wǎng)友瘋狂轉(zhuǎn)載,一時(shí)間傳遍網(wǎng)絡(luò),更是在第二天便滿校皆知,人人議論紛紛,雖然最后經(jīng)過調(diào)查,事件得到了圓滿的解決,但也不難看出其存在的問題——校園網(wǎng)絡(luò)輿情難以控制,必須要有相應(yīng)的處理機(jī)制,相應(yīng)的校園輿情處理系統(tǒng)。新言論一經(jīng)出現(xiàn),通過已經(jīng)設(shè)定的URL進(jìn)行信息的爬取,然后將其存儲(chǔ)在HBase分布式數(shù)據(jù)庫中,再利用Canopy進(jìn)行簡單的歸類,并利用K-means聚類算法對(duì)“天價(jià)熱水”等相關(guān)內(nèi)容進(jìn)行統(tǒng)計(jì)歸類,然后將其進(jìn)行儲(chǔ)存。當(dāng)“天價(jià)熱水”這一主題頻繁出現(xiàn),不斷被檢索時(shí),便會(huì)第一時(shí)間通過輿情發(fā)布系統(tǒng)以短信或者郵件的形式推送給管理人員,最后由管理者視情況決定是否引導(dǎo)校園輿情或者上報(bào)上級(jí)領(lǐng)導(dǎo)。當(dāng)學(xué)校領(lǐng)導(dǎo)提前得知校園輿情的時(shí)候,其響應(yīng)的應(yīng)急機(jī)制便會(huì)提前啟動(dòng)。
高校應(yīng)當(dāng)重點(diǎn)抓住大數(shù)據(jù)在網(wǎng)絡(luò)輿情挖掘中的價(jià)值,利用數(shù)據(jù)挖掘等技術(shù)的同時(shí),結(jié)合互聯(lián)網(wǎng)時(shí)代的輿情特征,善于利用新時(shí)代新技術(shù),讓高校能夠更好地檢查、應(yīng)對(duì)校園網(wǎng)絡(luò)輿情突發(fā)危機(jī),可采取更及時(shí)、更穩(wěn)妥、更高效的措施,使其能更好地服務(wù)于高校工作,為維護(hù)高校校園的穩(wěn)定,維護(hù)社會(huì)秩序的穩(wěn)定打下扎實(shí)的基礎(chǔ)。
[1]中國互聯(lián)網(wǎng)信息中心.第40次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計(jì)報(bào)告[R].中國互聯(lián)網(wǎng)信息中心,2017.
[2]李昌祖,周杰,鄭蘇法.高校網(wǎng)絡(luò)輿情及其研判的若干思考[J].江蘇高教,2010(5):106-108.
[3]丁義浩,王鑠.當(dāng)前高校網(wǎng)絡(luò)輿情工作中存在的問題及對(duì)策[J].東北大學(xué)學(xué)報(bào)(社科學(xué)版),2013,15(4):424-428.
[4]林樹地,吳揚(yáng)揚(yáng).基于Hadoop的C4.5決策樹分類算法并行化[J].微型機(jī)與應(yīng)用,2013,32(12):85-87,91.
[5]陳藝卓.基于數(shù)據(jù)挖掘的高校網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2016(23):189.
Research on College Network Public Opinion Based on Big Data
Gao Taotao Kuang Fangjun*
(Wenzhou Business College,Wenzhou 325035,Zhejiang)
With the development of the Internet,mobile network not only changes people's lifestyle,but also transform the communication way of people.Especially in universities,it has enormous impact among universities when more and more personal speeches spread,collide and integrate by the network.How to monitor the network public opinion data,and give correct guidance to the college network public opinion is the key problem that universities need to solve urgently.This paper proposes the construction of college network public opinion system based on data mining technology and data analysis technology,in order to guide the network public opinion more active and healthy,so as to promote the harmonious development of campus culture.
college network public opinion;big data;data analysis;data mining;supervision mechanism
TP391
A
1008-6609(2017)10-0055-03
高濤濤(1995-),男,浙江臺(tái)州人,本科,研究方向?yàn)檐浖こ獭?/p>
*通信作者:匡芳君(1976-),女,湖南衡陽人,博士,教授,研究方向?yàn)槿褐悄芘c多目標(biāo)優(yōu)化、模式識(shí)別、信息安全等。