柳向東曹雨婷李利梅
(1.暨南大學經(jīng)濟學院統(tǒng)計學系,廣東廣州 510632;2.暨南大學外國語學院,廣東廣州 510632;3.深圳大學校長辦公室,廣東深圳 518060)
網(wǎng)絡影響力預知模型:一種大數(shù)據(jù)下高校輿情監(jiān)測與預警機制
柳向東1,曹雨婷2,李利梅3
(1.暨南大學經(jīng)濟學院統(tǒng)計學系,廣東廣州 510632;2.暨南大學外國語學院,廣東廣州 510632;3.深圳大學校長辦公室,廣東深圳 518060)
互聯(lián)網(wǎng)對高校大學生的思想傳播模式尤其對輿情的傳播產(chǎn)生了巨大影響。對于這樣的新形勢,建立和健全高校大學生輿情監(jiān)測與預警機制對于及時了解大學生的思想動態(tài),分析和解決思想問題,為大學生樹立正確“三觀”具有重要的意義。本文建立了一種監(jiān)測大學生網(wǎng)絡輿情的模型——基于連續(xù)時間馬爾科夫過程的用戶影響力預知模型,通過該模型找到高校社交媒體中最具影響力的用戶,鎖定最具影響力的用戶群(關鍵人物),采用基于機器學習的自動文本分類方法,對該群體進行分類,主要分為三類:積極型關鍵人物、中立型關鍵人物、消極型關鍵人物。最后針對不同類型的關鍵人物采取不同的措施以達到對高校大學生社交網(wǎng)絡輿情發(fā)展的監(jiān)測與預警。
大數(shù)據(jù);大學生網(wǎng)絡輿情;監(jiān)測預警;馬爾科夫過程;文本分類
18世紀法國首先提出了“公眾意見”(opinion public)一詞,直到20世紀初,輿情的概念逐步為多個國家使用,輿情理論、輿情調(diào)查學經(jīng)歷了萌芽期、成長期、成熟期的演變,成為針對社會當前運行狀態(tài)和未來發(fā)展進行預測的重要依據(jù),并據(jù)此適時地調(diào)整政策以確保社會持續(xù)的穩(wěn)定運行。網(wǎng)絡輿情是指在各種事件的刺激下,人們通過互聯(lián)網(wǎng)手段表達的對該事件的所有認知、態(tài)度、情感和行為傾向的集合。網(wǎng)絡輿情涉及的問題和事件包羅萬象,表達和傳播的途徑更是千變?nèi)f化。
現(xiàn)今網(wǎng)絡世界越來越成為高校大學生精神生活中的一個重要方面?;ヂ?lián)網(wǎng)帶動了大學生人際交往方面發(fā)生巨大變化,產(chǎn)生了一種全新的人際關系模式。在社交網(wǎng)絡(例如微博、微信、貼吧等)上發(fā)帖、轉發(fā)、評論及參加網(wǎng)絡調(diào)查、投票等方式已經(jīng)成為高校大學生社會生活中極為常見并且相當重要的一部分。這種全新的模式對高校大學生的社會適應能力和人際交往能力的培養(yǎng)以及世界觀、人生觀、價值觀、道德觀的形成都產(chǎn)生了強烈的影響。在這種新的模式里,各種社會思潮、宗教文化不斷涌入,不斷影響著大學生的思想。大學生輿情是指在高校圍繞某些事態(tài)的發(fā)生發(fā)展和變化,大學生在網(wǎng)絡上表達和傳播對國家管理者產(chǎn)生和持有的社會政治態(tài)度。由于輿情的本質是社會群體和政府管理者之間關系的反映,并且高校大學生是相對高素質、高文化并且思想活躍的群體,因此研究高校網(wǎng)絡輿情,建立和健全高校大學生輿情監(jiān)測和預警機制可以了解大學生的思想動態(tài),分析和解決學生的思想問題,優(yōu)化高校思想政治教育機制,進一步可以促進社會穩(wěn)定和發(fā)展。
對高校網(wǎng)絡輿情的監(jiān)測與預警可以從挖掘網(wǎng)絡輿情傳播關鍵人物入手。挖掘關鍵人物的意義在于:(1)找出關鍵人物進行密切關注,便于快速及時發(fā)現(xiàn)問題苗頭,有效控制負面虛假信息的大肆傳播;(2)深入了解高校網(wǎng)絡輿情的傳播機制,便于有效傳播健康正面的消息。此處的關鍵人物可以有以下兩個定義:第一,可以簡單將那些擁有最多朋友或者追隨者的用戶定義為最具影響力的用戶。最典型的這一類用戶就是高校的網(wǎng)絡紅人(貼吧)、知名博主(微博)或者熱門公眾號主編(微信),他們通常擁有極大比例的粉絲或者追隨者。第二,也可以針對社交網(wǎng)絡中的信息傳播情況來找出最具有影響力的用戶。例如,如果一個用戶的信息經(jīng)常被其他用戶轉發(fā),就可以認為這個用戶具有比較高的影響力。
面對社交媒體在高校發(fā)展的新形勢,建立大學生網(wǎng)絡輿情的預警機制對于控制網(wǎng)絡輿情在高校的傳播有著非常重大的意義,而其中挖掘最具影響力用戶是最關鍵的一個步驟。找到在高校社交媒體上最具影響力的關鍵人物,通過關鍵人物發(fā)表的一些言論來判斷出該用戶的思想傾向及其對周圍人的傾向影響,從而能夠及時針對輿情言論采取不同的應對措施,實現(xiàn)對高校社交輿情的控制。對于最具影響力的用戶的挖掘方法被分為兩種,一種是靜態(tài)挖掘,另一種是動態(tài)挖掘。
靜態(tài)方法將注意力集中在社交網(wǎng)絡的靜態(tài)屬性和特征,通常假設當前的社交網(wǎng)絡是穩(wěn)定的,然后根據(jù)該社交網(wǎng)絡的屬性來定義用戶的影響力,通過其影響力的大小來挖掘出最具影響力的用戶。
度[1-2]是對于網(wǎng)絡上的某一節(jié)點的鄰接節(jié)點的數(shù)量。對于社交網(wǎng)絡,度是最簡單的定義靜態(tài)影響力的方法。對于不同的社交網(wǎng)絡,度的定義方式不同。對于人人網(wǎng)這類的社交媒體,根據(jù)朋友關系得到的社交網(wǎng)絡上的度則是某個用戶在網(wǎng)絡中的好友數(shù)量;對于貼吧這類的社交網(wǎng)絡,根據(jù)回復關系得到的度是某個用戶在網(wǎng)絡中回復其他用戶的數(shù)量;對于微博這類的社交網(wǎng)絡,根據(jù)傳播關系得到的度是某個用戶所轉發(fā)的其他用戶的總數(shù),另一方面根據(jù)提及關系得到的度則是某個用戶在網(wǎng)絡所提及的用戶的總數(shù)。
接近性核心性其定義的公示如下:
這里指的是網(wǎng)絡中所有的節(jié)點,而d指的是兩個節(jié)點之間的距離。接近性核心性描述了一個節(jié)點在網(wǎng)絡中到其他所有節(jié)點的距離。離所有其他節(jié)點越近的節(jié)點,其影響力越大。
中介性核心性
其中,σst表示從節(jié)點s到t的最短路徑的數(shù)量,而σst(ν)表示從節(jié)點s到t并且經(jīng)過ν的最短路徑的數(shù)量。
PageRank算法[3]是Stanford大學研究人員開發(fā)的Google搜索引擎的頁面質量評價算法,沿用此算法也可對社交網(wǎng)絡中最具影響力用戶進行挖掘。其定義如下:
其中,neighbor(ν)指代那些在網(wǎng)絡中直接指向ν的用戶,L(u)指的是從u指出的鏈接數(shù)量,而N指的是網(wǎng)絡中的用戶數(shù)。
以上四種靜態(tài)挖掘方法都能夠找出高校社交網(wǎng)絡中最具影響力用戶,但是考慮到現(xiàn)代網(wǎng)絡的多變性,而靜態(tài)挖掘的前提是假設社交網(wǎng)絡的穩(wěn)定性,所以通過靜態(tài)方法找到的結果是基于某個時點的,是片面的。
動態(tài)挖掘方法不僅基于高校社交媒體本身的屬性,而且考慮到網(wǎng)絡的多變性,根據(jù)其實時變化來及時調(diào)整運算的目標,實現(xiàn)在時間軸上的動態(tài)變化。
針對靜態(tài)挖掘存在的種種不足,本文參考李濤教授提到的動態(tài)挖掘用戶影響力的方法[4],探尋更加適合實際情況的研究方法。
為了挖掘高校社交媒體中最具影響力用戶,首先要建立信息擴散模型。常用到的信息擴散模型主要包括獨立級聯(lián)模型及線性閾值模型。這兩種傳統(tǒng)的信息擴散模型都認為網(wǎng)絡中的每一個節(jié)點都有一個屬性標明它是否已經(jīng)被激活,那些被激活的節(jié)點又會通過它們在社交網(wǎng)絡上的邊將信息擴散給其他的節(jié)點,這樣信息就得到了傳播與擴散。
以上兩種模型存在自身的缺點,即假設社交媒體網(wǎng)絡的穩(wěn)定性,致力于計算靜態(tài)的擴散概率,為了更貼切實際社交網(wǎng)絡情況,基于連續(xù)時間馬爾科夫過程的信息擴散模型被提出。該模型動態(tài)地展現(xiàn)了信息傳播的概率,能更好地模擬現(xiàn)實世界中信息的擴散情況。
(一)馬爾科夫過程
假設X(t)代表了一個t時間上針對某一信息的時間影響力社交網(wǎng)絡的狀態(tài)。它有在時間t上發(fā)表或提及該信息的所有用戶。X=X(t),t≥0則構成了一個連續(xù)的馬爾科夫過程[5]。在這個馬爾科夫過程中,一個用戶提及該信息的概率依賴于該信息在歷史上傳播的情況,而這個概率實際上僅僅依賴于在該用戶提及之前其他提及該信息的用戶。這種屬性便是馬爾科夫屬性,其公式表示如下:
其中,Pij是時間t內(nèi)從用戶i到用戶j的傳遞概率,即i為當前討論該信息用戶,j為下一個將要討論該信息的用戶。x(μ)表示先于時間點γ的主題傳播的歷史。假定傳播概率Pij并不依賴于整個信息傳播過程中時間的真正起始值,那基于連續(xù)時間的馬爾科夫過程的影響力閾值模型就是時間其次的,其公式表示如下:
(二)基于馬爾科夫過程的用戶影響力定義
給定一個時間窗口t,為了描述用戶i在該時間點上對于一則信息的擴散能力,需要估計該用戶i到其他用戶的傳遞概率(擴散概率),該概率能用于最終預測用戶i的影響力。對于用戶i,其在時間窗口t上的最終推廣數(shù)量可以定義如下:
其中,ni表示用戶在時間窗口t中可能出現(xiàn)的次數(shù),該參數(shù)可以通過t線性遞增估計的辦法得到,同時可以根據(jù)用戶i在歷史上不同時間出現(xiàn)的次數(shù)使用回歸模型計算得到。這里,本文選擇首先計算傳遞速率矩陣Q,然后通過Q來間接得到P(t)。
傳遞速率矩陣Q又被稱為連續(xù)時間馬爾科夫過程的無窮小生成元。它的定義為時間t無限接近于0時P(t)的導數(shù),其公式如下:
在Q中,每一個條目qij都指代將一個主題從用戶傳遞到用戶j的速率。Q的每一行的和都是0,每一行均滿足以下條件:
其中,qij反映了從用戶i傳遞到用戶j的傳遞概率的變化。另一方面,qi指代了用戶傳遞到任何其他用戶的速率??梢?,是計算其他參數(shù)的基礎,為計算qi,假定用戶i傳播一則信息到其他用戶的時間服從指數(shù)分布,該指數(shù)分布的速率參數(shù)正是qi[2]。故服從該指數(shù)分布的隨機變量Ti的期望公式表示如下:
根據(jù)連續(xù)時間馬爾科夫過程的理論,用戶i傳遞到用戶j的速率可以表示如下:
其中,m指代歷史上從用戶i傳遞到用戶j的主題的數(shù)量,而tmij表示第m個主題從用戶i傳遞到用戶j所用時間。
(四)傳遞概率矩陣的計算
在計算到Q矩陣后,傳遞概率矩陣P(t)便可得到。根據(jù)柯爾莫高羅夫向后方程:
通過代數(shù)變換,以上的公式可以轉化為如下的矩陣形式:
3.加強消毒。球蟲卵(囊)對大部分消毒劑均有耐受性,對空雞舍最好選用火焰消毒法,用具可用熱水、熱蒸汽燙或3%~5%的熱堿水洗。
而這一方程的一般解法是由如下公式給出的:
由于是一個不可約的隨機矩陣,我們可以使用泰勒擴展來近似它。所以可以用如下公式來估計:
我們將(I+Qt/n)的指數(shù)升至一個足夠大的n,得到P(t)矩陣后,我們便可用于計算所有用戶的影響力了。根據(jù)他們影響力的排序,我們最終可獲得最具影響力的用戶,本文稱之為關鍵人物。
基于連續(xù)時間馬爾科夫過程的用戶影響力預知模型得出的關鍵人物,然后通過該群體在社交網(wǎng)絡上發(fā)表的一些言論,對于信息或主題的一些評論來將其進行分類。本文采用基于機器學習的自動文本分類方法。
(一)基于機器學習的自動文本分類
基于機器學習[6]的自動文本分類是一種典型的有指導的機器學習問題,這可以定義為:根據(jù)一些已分配好類標簽(這些類標簽預先定義好)的訓練文本集合來對新文本分配類標簽。一般來說,文本分類主要由以下幾個步驟完成:
1.建立數(shù)據(jù)集
這一步主要是搜集文本,并進行預處理,包括處理亂碼、非文本內(nèi)容等;機器內(nèi)碼轉換;抽取詞干及去停用詞;刪除無效文本;按類型集進行人工分類;按一定比例隨機劃分訓練集和測試集。
2.建立文本表示模型
即選用什么樣的語言要素(或者說文本特征)和用什么樣的數(shù)學模型組織這些語言要素來表示文本。目前的文本分類方法和系統(tǒng)大多以詞或詞組作為表征文本語義的語言要素;表示模型主要有布爾模型和向量空間模型。
3.文本特征選擇
即選擇盡可能少而準確且與文本主題概念密切相關的文本特征進行文本分類。
4.機器學習
在訓練集上進行機器學習,確定分類器的各個參數(shù),建立分類器。機器學習主要依據(jù)文本的內(nèi)容。
5.測試
用分類器對測試集進行分類,得到機器分類的結果。測試有封閉測試和開放測試。封閉測試時,測試集是訓練集的一部分;開放測試時,測試集與訓練集是服從同一分布、相互獨立的兩個數(shù)據(jù)集。封閉測試不具有可比性,文本分類中主要采用開放測試。
6.性能評價
采用一定的評價指標,對機器分類的結果進行評價。不符合要求時,需要返回到前面的某一步驟,調(diào)整參數(shù),重新再做。目前使用較多的分類性能評價指標為查全率和查準率,這是來源于信息檢索中的兩個術語。目前最常使用的文本分類算法有:kNN分類算法、樸素貝葉斯分類算法、支持向量機、神經(jīng)網(wǎng)絡、最大熵等。
(二)用戶群分類
根據(jù)以上的方法,將第二節(jié)所得到的關鍵人物進行分類,分類流程如圖1
根據(jù)以上文本分類方法可以將最近一段時間內(nèi)在高校大學生之間傳播的輿情思想傾向進行定義和分類,分為“積極”、“中立”和“消極”三類。對于挖掘出的關鍵人物,對其最近一段時間內(nèi)涉及到的相關輿情思想傾向類型進行統(tǒng)計,選擇占比例最大的類型對其進行定義,可以分為“積極型關鍵人物”、“中立型關鍵人物”和“消極型關鍵人物”。例如,某個關鍵人物A近期參與發(fā)布和轉發(fā)了100條輿情相關言論,若其中60條被定義為具有“積極”傾向,則該關鍵人物被定義為“積極型關鍵人物”。
對于“積極型關鍵人物”,高校思政教育者可對其進行鼓勵,鼓勵其繼續(xù)對大學生積極輿論做出引導;對于“中立型關鍵人物”,則可以對其進行引導,引導其向“積極型關鍵人物”發(fā)展;而對于“消極型關鍵人物”,高校思政教育者則需要重點關注其行為,并在適當?shù)臅r候與其溝通,盡量轉變其思想。
監(jiān)測和預警不是目的,而是為了解決問題,防范危機或者風險的發(fā)生。大學生輿情是高校學生思想動態(tài)變化的晴雨表,通過互聯(lián)網(wǎng)社交媒體表現(xiàn)得淋漓盡致。通過分析輿情,及時發(fā)現(xiàn)問題,解決矛盾,有利于促進高校和諧和社會和諧。高校德育工作者在采取上述監(jiān)測和預警方法之外還應做到以下幾點:(1)建立平等的對話機制。這對于融洽教育者與被教育者的關系,減少不必要的矛盾沖突,把問題消解在初級階段具有不可低估的作用。(2)建立危機干預機制。大學生社會經(jīng)驗不足,生活閱歷淺,缺乏全面深入辯證的思考能力,常常以偏概全,形成偏激的觀點或思想。必須加強對網(wǎng)絡輿情的監(jiān)測,及時發(fā)現(xiàn)集群行為的苗頭,及時進行危機干預。(3)解決思想問題與解決實際問題相結合。在網(wǎng)絡輿情監(jiān)測的過程中應當發(fā)現(xiàn)學生最關心、關系最密切的實際問題,急學生之所急,想學生之所想,把解決思想問題與實踐問題結合在一起。
[1]K.Saito,M.Kimura,K.Ohara,and H.Motoda.Efficient estimation of cumulative influence for multiple activation information diffusion model with continuous time delay[J].In PRACAI 2010:Trends in Artificial Intelligence,Springer,2010,6230:244-255.
[2]肖宇,許煒,張晨,何丹丹.社交網(wǎng)絡中用戶區(qū)域影響力評估算法研究[J].微電子學與計算機,2012,29(7):58-63.
[3]X.Song,Y.Chi,K.Hino,and B.L.Tseng.Information flow modeling based on diffusion rate for prediction and ranking[J].In Procedings of the 16th international conference on World Wide Web,ACM,2007,25:191-200.
[4]李濤等.數(shù)據(jù)挖掘的應用與實踐——大數(shù)據(jù)時代的案例分析[M].廈門:廈門大學出版社,2013.216-229.
[5]W.J.Anderson.Continuous-timeMarkovchains:An applications-oriented approach[M].Springer-Verlag New York,1991,volume 7.
[6]SebastianiF.Machinelearninginautomatedtext categorization[J].ACM Computing Survey,2002,34(1):1-47.
【責任編輯:周琍】
Predicting Model in Network Impact:a Monitoring and Warning System for Public Opinion in Universities under Big Data Framework
Liu Xiangdong1,Cao Yuting2,Li Limei3
(1.Department of Statistics,School of Economics,Jinan University,Guangzhou,Guangdong,510632;2.School of Foreign Languages,Jinan University,Guangzhou,Guangdong,510632;3.Office of the President,Shenzhen University,Shenzhen,Guangdong,518060)
The Internet has great impact on the dissemination of ideas,and in particular public opinion,among college students.Under these new circumstances,it is of great significance to build up and gradually improve a monitoring and warning system for public opinion in universities,which will enable us to know how the students think,and address relevant issues in order to help them to establish the correct"three-values".This paper proposes a monitoring system for college student online public opinion,a predicting model of user influence based on the continuous time Markov process,through which we will find the most influential users(key figures)the social network of college students.With an automatic text classification method based on machine learning,the key figures are mainly classified into three categories:positive key figures,neutral key figures,and negative key figures.Finally,the paper proposes some measures in accordance with different types of key figures to promote the development of social networking service for college students.
big data;Internet public opinion;monitoring and warning;Markov process;text categorization
G 647
A
1000-260X(2015)04
2015-03-23
教育部人文社會科學研究項目“基于市道輪換框架下帶levy跳的高頻數(shù)據(jù)的波動率研究”(14YJAZH052);中央高?;究蒲袠I(yè)務費專項資金“PMCMC算法在市道輪換框架下利率結構模型中的應用”;深圳大學科研項目“大數(shù)據(jù)環(huán)境下社會輿情分析、監(jiān)測與預警研究——基于特大城市深圳市的研究”(W201402)
柳向東,理學博士,暨南大學副教授,主要從事概率統(tǒng)計在經(jīng)濟金融領域的研究;曹雨婷,暨南大學外國語學院、經(jīng)濟學院雙學位在讀生;李利梅,深圳大學高級統(tǒng)計師,從事高校統(tǒng)計研究。