宋峰森 陳 潔 劉尊禮 顧 程
(1.上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院,上海 200030;2.上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620;3.上海微趣網(wǎng)絡(luò)科技公司,上海 200010)
隨著中國移動互聯(lián)網(wǎng)的迅速發(fā)展,包括微博在內(nèi)的各種社交媒體不僅打破了信息傳播的空間限制,也逐漸在社會上形成了覆蓋廣泛的自媒體網(wǎng)絡(luò)。目前,以微博為代表的社交媒體每時每刻都在產(chǎn)生內(nèi)容豐富、意見多元的信息,并通過社交網(wǎng)絡(luò)的瀏覽、關(guān)注、留言、分享等行為持續(xù)進(jìn)行著內(nèi)容的快速分發(fā),直接影響輿論導(dǎo)向。聚集了龐大用戶群體的社交媒體平臺之上,每天的信息生產(chǎn)、瀏覽、關(guān)注等行為都在產(chǎn)生巨量的行為數(shù)據(jù),如果能通過及時對行為數(shù)據(jù)的挖掘分析,對社交媒體網(wǎng)絡(luò)中的高影響度信息進(jìn)行及時識別,并予以有針對性的干預(yù)和管理,將對輿情監(jiān)管部門治理負(fù)面信息傳播和控管非法信息流散等工作產(chǎn)生巨大意義。
本研究認(rèn)為有必要設(shè)計(jì)一個以微博信息辨識度為基礎(chǔ)、排除信息影響力受時間衰減因素干擾的計(jì)算方法,以構(gòu)建全面、及時、有效反映社交媒體網(wǎng)絡(luò)信息影響力的排序列表?;谝陨戏治?,本研究以微博信息作為對象,參考目前常見的網(wǎng)頁排名算法提出以社交評級作為評估標(biāo)準(zhǔn),通過對微博用戶的權(quán)重計(jì)算,結(jié)合時間因素綜合形成新的信息影響力排名算法,從動態(tài)評估視角構(gòu)建了更能反映互聯(lián)網(wǎng)社交媒體實(shí)際影響力狀況的微博動態(tài)影響力指數(shù)。
國內(nèi)外有關(guān)社交媒體影響力的研究集中于關(guān)注Twitter、微博用戶,以及此類社交媒體上所發(fā)布的信息的影響力。
社交媒體用戶影響力的研究強(qiáng)調(diào)對社會媒體使用者整體使用行為的分析,將其信息瀏覽、分享等行為作為整體考察使用者的影響力,強(qiáng)調(diào)使用者個體層面的影響力。影響力的評定方法主要包括網(wǎng)頁排名方法、用戶行為權(quán)值法等。網(wǎng)頁排名本應(yīng)用于搜索時的網(wǎng)頁排名,而將其應(yīng)用于用戶排名時,網(wǎng)頁近似于一個用戶,微博中用戶與用戶的鏈接可以看作網(wǎng)頁與網(wǎng)頁之間的超鏈接,研究者基于網(wǎng)頁排名的方法計(jì)算微博用戶的影響力。該方法在谷歌公司開發(fā)的網(wǎng)頁排名算法大數(shù)據(jù)的研究中也得到了廣泛應(yīng)用,用于衡量特定網(wǎng)頁相對于搜索引擎索引中的其他網(wǎng)頁而言的重要程度。網(wǎng)頁排名將對頁面的鏈接看成投票,實(shí)現(xiàn)了將鏈接價值概念作為排名因素,從而獲取頁面排名,排名越高其影響力也就越高,谷歌搜索結(jié)果的相關(guān)性的質(zhì)量也會得以提高。網(wǎng)頁排名計(jì)算的原理是計(jì)算一個網(wǎng)頁節(jié)點(diǎn)的入鏈數(shù)量,以此作為評估該網(wǎng)頁重要性的指標(biāo)。在此算法之下,指向該網(wǎng)頁的鏈接數(shù)量越多,該網(wǎng)頁的排名就越高。網(wǎng)頁排名算法考慮的是該網(wǎng)頁與其他網(wǎng)頁之間的鏈接關(guān)系,如果網(wǎng)頁間的鏈接關(guān)系替換為社交媒體用戶之間的關(guān)注關(guān)系,那么就可以依據(jù)該算法,計(jì)算出活躍用戶或信息的社交評級排名,也即該用戶和信息在傳播中的權(quán)重。
Weng等則對網(wǎng)頁排名方法進(jìn)行了發(fā)展,他們將話題相似性的分析納入用戶影響力分析之中,針對每一用戶分析了其在社交媒體上的影響力。用戶行為權(quán)值法則是將涉及微博使用者的粉絲數(shù)量、其所發(fā)布信息被轉(zhuǎn)發(fā)及被評論數(shù)作為其影響力的評價標(biāo)準(zhǔn)。Cha等介紹了跟隨、轉(zhuǎn)推和提及三種不同指標(biāo)下最具影響力的類型的特點(diǎn),并采用Spearman等級相關(guān)系數(shù)兩兩比較進(jìn)行排名,得出了微博用戶影響力的評價。Ye和Wu同時使用了Spearman及Kendall Tau等級相關(guān)系數(shù)分析了Twitter用戶的影響力。陳浩則將網(wǎng)頁排名與用戶權(quán)值評定法相結(jié)合,提出了UserRank的微博影響力排名算法。他認(rèn)為微博用戶影響力源于其自身的影響力與追隨者貢獻(xiàn)的影響力,因此將用戶微博轉(zhuǎn)發(fā)率、評論率、用戶認(rèn)證情況、追隨者質(zhì)量等因素同時納入用戶影響力評價模型中,通過條件的不斷迭代最后得到微博用戶的影響力。原福永等則從鏈接分析與用戶行為分析兩個角度衡量了微博的影響力,建構(gòu)了微博用戶的用戶影響力指數(shù)模型。
除以上兩種方法外,國內(nèi)也有學(xué)者通過因子分析或主成分分析的方法,將影響微博用戶影響力的因素歸納成幾個維度,從而確定相應(yīng)用戶微博使用的側(cè)重點(diǎn)。如趙阿敏和曹桂全在以往微博影響力評價指標(biāo)的基礎(chǔ)上,將指標(biāo)分為單元傳播與多元傳播指標(biāo),運(yùn)用因子分析的方法,提取反饋因子、互動因子及公開因子,進(jìn)而發(fā)現(xiàn)影響微博用戶影響力的主要因素,從而進(jìn)一步確定各慈善組織微博使用方面的側(cè)重點(diǎn)。郝曉玲和陳軼杰采用主成分分析方法,探討了形成企業(yè)微博影響力的主要因素。郝曉玲、杜沁怡和黃海量采用同樣的方法,發(fā)現(xiàn)受眾廣度、微博受關(guān)注度、微博價值度及好友圈價值度是影響企業(yè)家微博用戶影響力的主要因素。
社交媒體信息影響力的確定方法在某種程度上與社交媒體用戶影響力的研究有些類似,只是信息影響力的研究更多的是強(qiáng)調(diào)社交媒體用戶所發(fā)布信息的影響力,如該信息受到關(guān)注的人數(shù)、獲得評論的人數(shù)等。網(wǎng)頁排名方法同樣可以被應(yīng)用于信息影響力的評價之中,將每條信息作為一個分析單元,得出該信息的影響力排名?;诰W(wǎng)頁排名法的信息影響力研究包括:Cui等將人人網(wǎng)所發(fā)布的帖子的點(diǎn)擊量作為帖子影響力的評價指標(biāo);Agarwal等利用博文的引用數(shù)、評論數(shù)、新穎程度和內(nèi)容長度評價博主帖子的影響力;孫國梓、仇呈燕和李華康綜合考慮了群體對信息的關(guān)注度以及信息的擴(kuò)散模式,從微博信息入手,以線性加權(quán)模型為基礎(chǔ),提出了結(jié)合評論數(shù)、轉(zhuǎn)發(fā)數(shù)并引入地域分布信息的微博影響力量化模型,并對微博信息的影響力展開了全局與局部分析。
Ye和Wu同樣對信息的跟隨、轉(zhuǎn)推和提及三個指標(biāo)進(jìn)行了分析,將Spearman及Kendall Tau等級相關(guān)系數(shù)引入微博信息影響力的評價中,他們指出回復(fù)數(shù)的穩(wěn)定性最高,并且最適合作為微博信息影響力的評價標(biāo)準(zhǔn)。原福永等同時將用戶粉絲數(shù)、微博信息的轉(zhuǎn)發(fā)數(shù)及評論數(shù)納入對微博用戶影響力及每條微博信息影響力的評價之中。
從以上分析可以看出,社交媒體影響力的有關(guān)研究涉及用戶和信息影響力兩個角度,并且研究者關(guān)注更多的是用戶影響力的研究。微博用戶及信息影響力的評價方式在某種程度上具有一定的相似性,如基于網(wǎng)頁排名方法進(jìn)行改進(jìn)、結(jié)合用戶使用行為權(quán)值等方法均可用于影響力分析。然而,以上微博影響力的評價均基于某一時點(diǎn)的數(shù)據(jù)反饋結(jié)果,該方法用于微博用戶影響力的評價更為合適,因?yàn)橛脩粲绊懥?yīng)具有一段時間的穩(wěn)定性。微博信息影響力雖可以用上述方法進(jìn)行評價,但實(shí)際生活中,微博信息瀏覽時往往更多依據(jù)時間順序,并不是根據(jù)各信息的影響力向?yàn)g覽者進(jìn)行信息展示。
本研究將社交評級的等級范圍設(shè)定為從0到10,0級意味著該用戶在信息傳播中基本沒有影響力,7~10級意味著該用戶受關(guān)注度非常高,也會對信息傳播產(chǎn)生重大影響。某個社交媒體用戶經(jīng)過計(jì)算后的級別越高,說明由該用戶傳播的信息或者該用戶加入傳播的信息將會產(chǎn)生廣泛的影響。在運(yùn)用社交評級進(jìn)行用戶影響力權(quán)重計(jì)算時,不僅計(jì)算該用戶的被關(guān)注數(shù)量,也將關(guān)注該用戶的其他用戶權(quán)重也納入考察范圍,被高社交評級值的用戶關(guān)注也會提升該用戶的社交評級值。因此,一個用戶的社交評級值是由關(guān)注他/她的其他用戶的社交評級值綜合決定的。具體的計(jì)算方法是:開始計(jì)算時,會賦予每個社交媒體用戶或信息相同的重要性得分,之后在數(shù)億條用戶歷史行為數(shù)據(jù)的基礎(chǔ)上,不斷進(jìn)行遞歸計(jì)算,持續(xù)修正每個用戶和信息的社交評級得分,直到數(shù)值穩(wěn)定為止,此時就可以得到社交媒體用戶或信息穩(wěn)定的社交評級值。該社交評級算法可以持續(xù)地評估各個社交媒體用戶的傳播影響力,而且該計(jì)算過程排除了用戶特征和信息主題對傳播的影響,能夠比較純粹地考察社交媒體用戶和信息的影響力權(quán)重。
基于社交媒體用戶及信息影響力的權(quán)重值,也就是社交評級值,對社交媒體平臺上信息的實(shí)時影響力的測量就可以相對量化地開展。需要注意的是,由于信息傳播影響度會隨著時間變化而削弱或增強(qiáng),該信息對社會輿論的影響事實(shí)上是一個動態(tài)變化的過程。因此本研究認(rèn)為,評估一條信息的影響力,不僅需要測量其在傳播周期內(nèi)觸達(dá)了多少用戶從而獲得了多大的最終影響力,也即靜態(tài)影響力;同時也需要測量信息在其傳播周期內(nèi)不同時點(diǎn)上傳遞到的用戶數(shù)量,也即實(shí)時動態(tài)影響力。靜態(tài)影響力的價值僅在于,某些特定輿論已經(jīng)產(chǎn)生影響后評估其傳播效果以及回溯其擴(kuò)散過程。而一條信息發(fā)出后,如果其發(fā)送者或參與傳播者的影響力足夠大,該信息的擴(kuò)散速度將非常快,對網(wǎng)絡(luò)輿論氛圍和社會生活將產(chǎn)生難以估計(jì)的影響。因此,從實(shí)用角度出發(fā)測量動態(tài)影響力的價值更高,如果能在短時間內(nèi)準(zhǔn)確評估新出現(xiàn)的信息的影響力,以及及時跟蹤評估某個信息在特定時刻的傳播速度和傳播范圍,對輿情管理部門及時鎖定特定信息、快速聚焦重大輿情事件、積極干預(yù)負(fù)面消息、規(guī)范信息傳播內(nèi)容、避免對社會日常運(yùn)行產(chǎn)生重大負(fù)面影響有著非同尋常的意義。
本研究首先構(gòu)建信息傳播過程中的實(shí)時影響力指數(shù),在此需要將信息隨時間變化而產(chǎn)生的信息影響衰減也納入指數(shù)計(jì)算中。本研究評估一條社交媒體信息發(fā)出后的實(shí)時影響,主要考慮三個參數(shù):①單位時間內(nèi)參與信息傳播的用戶數(shù)增量,即當(dāng)次測量與上一次測量時相比的轉(zhuǎn)發(fā)用戶數(shù),用以衡量該信息的擴(kuò)散速度;②每個轉(zhuǎn)發(fā)時間節(jié)點(diǎn)的社交評級權(quán)重,用以衡量該信息傳播的影響力增量;③發(fā)布時間與現(xiàn)在的時間差,用以調(diào)節(jié)該信息隨時間變化而產(chǎn)生的影響力衰減。根據(jù)以上三個參數(shù),本研究構(gòu)建了信息實(shí)時影響力指數(shù),計(jì)算公式如下:
其中,Isr即該信息的實(shí)時影響力指數(shù),Isr-1為上一個時間節(jié)點(diǎn)計(jì)算所得指數(shù),Ts為本次測量采樣時間,Ts-1為上次測量采樣時間,T0為該信息的初始發(fā)布時間,Wt為兩次測量之間的第t個轉(zhuǎn)發(fā)用戶的影響力權(quán)重??梢钥闯?,實(shí)時影響力指數(shù)的計(jì)算基礎(chǔ)是各個社交媒體用戶的社交評級值,也即用戶在社交媒體平臺上的影響力權(quán)重。以該公式為工具,將社交媒體平臺上實(shí)時產(chǎn)生的信息轉(zhuǎn)發(fā)數(shù)據(jù)代入計(jì)算,就可以得到某一條信息在某段時間內(nèi)的實(shí)時影響力數(shù)值,該數(shù)值就代表了其在該時間節(jié)點(diǎn)上的受關(guān)注程度。該數(shù)值越高,說明這條信息的受眾越多、影響力越大,該信息后續(xù)可能被繼續(xù)轉(zhuǎn)發(fā),持續(xù)放大影響力的可能性就越高。如果該數(shù)值超過一定閾值,此時網(wǎng)絡(luò)輿情監(jiān)管部門就需要及時分析是否需要采取措施進(jìn)行干預(yù)。
靜態(tài)影響力測量的是某一條信息在傳播周期內(nèi)觸達(dá)的所有用戶數(shù)量及產(chǎn)生的相應(yīng)社會影響。一般而言網(wǎng)絡(luò)環(huán)境下的信息衰減期為7天,本研究將測量時點(diǎn)選擇在信息發(fā)布之后的7天后。由于靜態(tài)影響力無需考慮時間衰減因素,因此本研究將動態(tài)影響力公式中的時間衰減因素剔除,得到的即靜態(tài)影響力指數(shù)計(jì)算公式,公式如下:
新浪微博和騰訊微博是目前中國匯聚用戶量最大的兩個微博平臺,兩個平臺的月活躍用戶達(dá)到3.76億。在微博平臺上大量用戶以相互關(guān)注、單方面的關(guān)注或被關(guān)注的方式形成虛擬社交網(wǎng)絡(luò),每個微博用戶遂成為一個信息傳播節(jié)點(diǎn)。每天微博平臺上的用戶通過發(fā)布信息、轉(zhuǎn)載信息、信息再加工的方式進(jìn)行交流,由于信息容量短(140字以內(nèi))、轉(zhuǎn)發(fā)機(jī)制便捷(只需@即可)、與粉絲能有效進(jìn)行情感交流等因素,微博平臺上信息發(fā)送和傳播具有信息量大、發(fā)送快、影響大、覆蓋面廣、社會動員能力強(qiáng)等特點(diǎn)。正是由于微博這一傳播特性,使其在導(dǎo)正社會輿論、向社會大眾傳播正確信息方面能發(fā)揮重要的作用。研究微博的信息影響力排名機(jī)制,有效識別高影響力信息,無論在學(xué)術(shù)層面還是在管理層面都有巨大價值。
由于動態(tài)影響力指數(shù)的實(shí)踐價值遠(yuǎn)大于靜態(tài)影響力指數(shù),因此本研究的案例分析以實(shí)時影響力指數(shù)為考察重點(diǎn)。本研究截取2016年4月19日新浪微博的熱門排行作為對象,探討微博信息實(shí)時動態(tài)影響力,即考慮信息實(shí)時動態(tài)的排序,測試排序是否越靠前其影響力越大。
截取2016年4月19日10:30的新浪熱門排行榜,可以看到,排行榜的前三名均是娛樂明星發(fā)布的內(nèi)容,且發(fā)布時間均為4月18日,即前一天的內(nèi)容,如圖1所示。同一時間基于本研究的實(shí)時影響力評價算法所得到的影響力最高的前三條微博信息均為最近1小時的新內(nèi)容,如圖2所示。半個小時后,即11點(diǎn)新浪熱門排行榜的前三名仍與10點(diǎn)半時相同,如圖3所示,可以看到時間并未對新浪微博排名產(chǎn)生影響,新浪熱門排行并未將一些實(shí)時變化的因素納入其排名分析算法之中。相比較而言,根據(jù)本研究的實(shí)時動態(tài)影響力算法估算后,11點(diǎn)時微博信息排行的前三名已經(jīng)有所變化,如圖4所示。從圖4中可以看到,半個小時過后,圖2中排名第三的信息已排到圖4中的第一位,圖2中排名第2位的信息與圖4中第2位信息相同,而圖2中排名第一的信息半個小時后則不再是前三位的信息。由此可以看到,將時間因素納入微博信息影響力評價模型后,能夠更為有效地向受眾提供更具影響力或受眾關(guān)注更多的微博信息,這對于輿情監(jiān)管部門實(shí)時分析輿論熱點(diǎn)更具實(shí)踐意義,實(shí)時分析信息可以更快、更早地發(fā)現(xiàn)負(fù)面輿論,及時地對其干預(yù),有助于相關(guān)部門采取合適的應(yīng)對與疏導(dǎo)策略。
圖1 10:30時新浪熱門排行
圖2 10:30時微博實(shí)時排行
圖3 11:00時新浪熱門排行
圖4 11:00時微博實(shí)時排行
本研究基于以往學(xué)者的研究成果,以網(wǎng)頁排名算法為基礎(chǔ),并根據(jù)社交媒體平臺的信息發(fā)布和轉(zhuǎn)發(fā)特征,設(shè)計(jì)了測量信息實(shí)時影響力指數(shù)的算法。該算法綜合考慮了社交媒體傳播過程中,信息傳播的范圍、參與傳播的用戶影響力、時間變化造成的影響力衰減等因素,使得該算法計(jì)算所獲得的實(shí)時影響力數(shù)值,可以比較真實(shí)地反映某條信息在某一時點(diǎn)的傳播影響度。本研究對微博信息數(shù)據(jù)案例的分析也證實(shí),將信息發(fā)布時間和傳播時間考慮在內(nèi)所計(jì)算的微博信息實(shí)時影響力排名,能夠更有效地識別出更受用戶關(guān)注的信息內(nèi)容。同時,該算法結(jié)合大數(shù)據(jù)收集和處理技術(shù),實(shí)現(xiàn)了在計(jì)算機(jī)上進(jìn)行自動化的社交媒體信息影響力實(shí)時排名計(jì)算和更新,為鎖定輿情熱點(diǎn)、及時實(shí)施信息干預(yù)策略提供了有效協(xié)助,在目前網(wǎng)絡(luò)輿情瞬息萬變的情況下,有助于提高網(wǎng)絡(luò)輿情監(jiān)管部門對社交媒體信息的監(jiān)管效率。