李雪塵
摘 ? 要:當(dāng)今大數(shù)據(jù)發(fā)展迅速,社交網(wǎng)絡(luò)也成為人們?nèi)粘J褂玫拿浇?,用戶在虛擬網(wǎng)絡(luò)中產(chǎn)生的大量數(shù)據(jù)有助于研究災(zāi)害問題,提升相關(guān)部門控制災(zāi)害的效率。本文基于暴雨期間的微博數(shù)據(jù),對用戶提及行為規(guī)律性進(jìn)行研究,并分析社交平臺內(nèi)用戶的提及行為對解決暴雨演變過程中并發(fā)問題的有效性。
關(guān)鍵詞:提及行為 ?災(zāi)害 ?社交網(wǎng)絡(luò) ?大數(shù)據(jù)
中圖分類號:P208 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)02(a)-0151-03
社交媒體數(shù)據(jù)規(guī)模和差異的不斷擴(kuò)大,可為預(yù)測事件發(fā)生前的未來結(jié)果提供新思路[1-2]。Andrew Crooks基于從Twitter挖掘的大量數(shù)據(jù),克服了社交媒體不能像地震儀一樣提供地震級別的衡量標(biāo)準(zhǔn)這一缺陷,并確定了地震的波及范圍[3],充分展現(xiàn)了社交媒體對災(zāi)害研究的幫助。
在用戶行為分析方面,Linna Li等基于Twitter中用戶創(chuàng)建的地理數(shù)據(jù)與發(fā)布的照片,揭示了這些人的社會特征[4]。2015年Minh-Duc Luu等人比較了轉(zhuǎn)發(fā)與提及兩種行為與用戶使用標(biāo)簽的相關(guān)性,發(fā)現(xiàn)提及行為更占優(yōu)勢,因此能更高效地反映用戶交互與行為[5]。
在突發(fā)事件中,以相關(guān)性強的用戶為對象研究其行為會更有意義。本文以新浪微博為數(shù)據(jù)挖掘?qū)ο?,通過構(gòu)建網(wǎng)絡(luò)分析組件屬性,發(fā)現(xiàn)用戶提及關(guān)系在暴雨研究中的有效性。
1 ?實驗方法
本文以2012年7月北京特大暴雨為研究對象,通過微博提供的API搜集暴雨期間的微博數(shù)據(jù),從中篩選出帶有“@”的信息并據(jù)此構(gòu)建提及網(wǎng)絡(luò)與組件,分析暴雨中用戶的行為規(guī)律。
1.1 數(shù)據(jù)搜集與處理
以“暴雨”為關(guān)鍵詞通過網(wǎng)絡(luò)爬蟲和新浪微博API爬取暴雨相關(guān)信息,并經(jīng)過去重等預(yù)處理得到24855條有效數(shù)據(jù)。據(jù)此篩選出興趣時間段2012-07-21-06到2012-07-24-04的16759條數(shù)據(jù)。之后去除這些數(shù)據(jù)中含有轉(zhuǎn)發(fā)標(biāo)志“//@”的文本,從所有數(shù)據(jù)中識別出6529個被@的用戶名,作為構(gòu)建網(wǎng)絡(luò)的基礎(chǔ)。另外,從處理后的數(shù)據(jù)中抽取500條進(jìn)行采樣分析,經(jīng)過人工分類發(fā)現(xiàn)詢問朋友情況與描述暴雨相關(guān)經(jīng)歷的微博占比超過60%,表明處于提及關(guān)系中的用戶多數(shù)與暴雨有直接或間接聯(lián)系。
1.2 網(wǎng)絡(luò)構(gòu)建
本文通過對社交網(wǎng)絡(luò)中帶有“@”的信息進(jìn)行提取與分析,以有向圖的方式創(chuàng)建了一個以用戶為節(jié)點,以用戶間提及關(guān)系為邊,且具有連接關(guān)系的提及網(wǎng)絡(luò)。此網(wǎng)絡(luò)中包含6530個節(jié)點,4811條邊,2108條含提及關(guān)系的微博,1825個組件。在處理組件時主要分析節(jié)點分布、微博數(shù)、平均度、聚集系數(shù)、網(wǎng)絡(luò)直徑這五種屬性,通過組件內(nèi)部特征反映災(zāi)害趨勢。由此形成的具有分析價值的兩大組件將在第2節(jié)詳細(xì)闡述。
發(fā)布者與提及關(guān)系通過有序?qū)Γ╒,E)表示,可構(gòu)建有向圖G(V,E),V的出度表示為d+(V),是E中具有原點V的鏈接數(shù);V的入度表示為d-(V),表示與被提及用戶的鏈接數(shù)。同時,網(wǎng)絡(luò)中包含多個組件,一個組件由節(jié)點V與邊E構(gòu)成,任意2個節(jié)點間有通過邊連接的可能性。當(dāng)一群節(jié)點互相連接且不與其它節(jié)點關(guān)聯(lián)時,這群節(jié)點形成組件。
2 ?結(jié)果與分析
2.1 網(wǎng)絡(luò)與組件
可從網(wǎng)絡(luò)和組件的角度宏觀分析暴雨中用戶所發(fā)微博的規(guī)律、網(wǎng)絡(luò)空間中提及行為的誘因。并判斷信息傳播的方向以及在網(wǎng)絡(luò)空間和地理空間中的形式。
根據(jù)1.1所述方法從網(wǎng)絡(luò)中隨機(jī)抽取微博并進(jìn)行人工分類,數(shù)量較多的類別為:詢問朋友情況(36%),描述暴雨相關(guān)經(jīng)歷(31%),提醒朋友注意安全(7%),祈禱朋友安好(3%)。分析四種類別可知,暴雨發(fā)生時被提及用戶的位置基本都在暴雨發(fā)生地;同處于暴雨中的用戶可能在事件發(fā)生時或確認(rèn)自身安全后使用微博來提及對方;同在北京的用戶會因共同經(jīng)歷暴雨互相提及,北京以外地區(qū)的用戶會發(fā)布微博@自己擔(dān)心的朋友??煽闯鲇脩籼峒瓣P(guān)系有助于信息在暴雨發(fā)生地、暴雨以外地區(qū)雙向傳播的。
按1.2過程形成的1852個組件中節(jié)點數(shù)與微博數(shù)差異較大(圖1),其中多數(shù)組件內(nèi)用戶數(shù)為2~12人,節(jié)點數(shù)為2的組件有1015個,與正常情況下用戶一條微博只提及一人的情況相符??偨Y(jié)發(fā)現(xiàn),除去提及自身的用戶,組件內(nèi)節(jié)點符合冪律分布。另外,含不同微博數(shù)的組件數(shù)量也存在差別,幾乎所有組件(1777個)只含1條微博,表明用戶很少使用微博交流討論,即暴雨發(fā)生時微博中用戶交流較少。組件基本情況如表1所示,兩大組件將在2.3中詳細(xì)分析。
2.2 組件屬性
此小節(jié)計算的組件平均度、平均聚集系數(shù)、網(wǎng)絡(luò)直徑是2.3中分析組件的基礎(chǔ)。
(1)在計算平均度時,以節(jié)點數(shù)為縱坐標(biāo),以組件內(nèi)平均度為橫坐標(biāo)。發(fā)現(xiàn)當(dāng)樣本數(shù)量足夠大時兩者與平均度開始出現(xiàn)正相關(guān)性。且當(dāng)平均度超過2之后,即使微博與用戶明顯增多,平均度依然處于區(qū)間(2,3)中(圖2)。首先取出14個平均度大于2的組件,去除只有兩個節(jié)點但度異常多的噪聲組件,剩余組件的平均度都介于(2,3),可推測出當(dāng)用戶與所發(fā)微博趨于無窮多時,平均每位用戶涉及2-3段提及關(guān)系,說明用戶間提及數(shù)量有穩(wěn)定趨向。
(2)通過計算聚集系數(shù)反映用戶相關(guān)性與交互行為(圖3),去除度與節(jié)點數(shù)差距很大導(dǎo)致聚集系數(shù)異常高的噪聲數(shù)據(jù),剩余1個聚集系數(shù)較大(0.093355)的組件以及聚集系數(shù)為0的其它組件(1850個)。較多組件的聚集系數(shù)為0,說明用戶很少通過微博互動,且可看出微博是用戶發(fā)布動態(tài)、傳播信息的空間,和微信等社交軟件具有不同側(cè)重點。
(3)通過網(wǎng)絡(luò)直徑(平均最短路徑長度)反映組件內(nèi)用戶間關(guān)系遠(yuǎn)近。聚集系數(shù)從2開始與節(jié)點數(shù)、微博數(shù)有正相關(guān)趨勢,最大的網(wǎng)絡(luò)直徑(7.90)對應(yīng)2.4中最大組件,網(wǎng)絡(luò)直徑2.00對應(yīng)以“請輸入用戶名”為中心的第二大組件。剩余具有較大網(wǎng)絡(luò)直徑的組件具有相似的規(guī)律,即多名用戶發(fā)布多條微博且互相提及,且微博內(nèi)容多為描述暴雨情況、關(guān)心問候,說明這些組件基本由現(xiàn)實中具有親近社交關(guān)系的朋友組成。與平均度不同,隨著節(jié)點與微博數(shù)量的增大,網(wǎng)絡(luò)直徑并沒有停滯于特定區(qū)間,而是持續(xù)增大,說明在一個社交群體內(nèi)用戶數(shù)量越多,用戶間具有親近關(guān)系的可能性越小。
2.3 兩大組件
找出微博與用戶數(shù)量最多的兩大組件(簡稱),以政府媒體等4個用戶為中心,由其產(chǎn)生的提及或被提及行為形成組件內(nèi)節(jié)點出入度,信息傳播方向與現(xiàn)實空間類似的中心節(jié)點只有一個微博幽默博主,大量用戶通過提及這位名人傳遞信息,體現(xiàn)了網(wǎng)絡(luò)空間中的名人效應(yīng)。
最大組件(圖5)有四個出入度較多的聚集中心,都屬于媒體、政府這類現(xiàn)實生活中的主要信息源。通過分析出度最多的節(jié)點(一位現(xiàn)場報道的記者)、入度最多的兩個節(jié)點(“平安北京”與“北京發(fā)布”),發(fā)現(xiàn)在暴雨期間微博是用戶反映交通電路等日常問題的有效途徑,且可看出記者具有客觀展現(xiàn)暴雨情況的功能,同時北京市公安局起主要救援作用,而同樣入度較多的“頭條新聞”卻不能反映災(zāi)害內(nèi)容。據(jù)此引出通過建模來分析用戶角色的思路,以識別在災(zāi)害中具有特定功能的用戶從而提高信息搜集效率。除建模識別用戶特征外,可看出事件突發(fā)時利用微博實時搜集民眾生活問題并傳播信息的作用。
第二大組件由多位用戶提及一位名為“請輸入用戶名”的幽默博主組成,其余節(jié)點入度幾乎全為0,此博主入度高達(dá)51,接近平安北京入度(19)的3倍,說明不能簡單地通過分析對比入度情況識別災(zāi)害中起重要作用的用戶。但提及此博主的微博與暴雨發(fā)展趨勢密切相關(guān),可作為信息收集的主要來源。據(jù)此可知在突發(fā)事件中用戶會通過提及現(xiàn)實中關(guān)系疏遠(yuǎn)的名人傳遞信息,即名人加入組件會加快組件擴(kuò)張速率,因此具有影響力的用戶是形成大組件的基礎(chǔ)之一。以網(wǎng)絡(luò)直徑的角度可解釋為,正是由于除普通用戶相互提及外,還有涉及名人的提及與被提及行為,所以隨著組件擴(kuò)大,組件內(nèi)用戶關(guān)系趨向疏遠(yuǎn)。
3 ?結(jié)語
災(zāi)害發(fā)生時社交媒體產(chǎn)生大量數(shù)據(jù),可作為研究用戶行為的基礎(chǔ),并為災(zāi)害趨勢的反映提供源頭。已有很多從時空角度分析災(zāi)害發(fā)生期間用戶行為的研究。社科類研究多聚焦于用戶提及轉(zhuǎn)發(fā)等行為的對比[2],少有針對災(zāi)害中用戶行為的分析。
本文的成果可總結(jié)為兩方面:一是分析了暴雨發(fā)生時虛擬網(wǎng)絡(luò)空間內(nèi)用戶提及行為的規(guī)律性;二是基于用戶提及行為,通過微博反應(yīng)災(zāi)害現(xiàn)實情況并幫助解決民眾生活問題。
之后的研究將基于本文進(jìn)行擴(kuò)充,本文在識別出災(zāi)害中發(fā)揮特殊功能的用戶后,只粗略分析災(zāi)害發(fā)展趨勢以及暴雨對用戶的影響,之后將考慮對災(zāi)害中用戶角色建立個體模型,從而精確搜集處理災(zāi)害信息。
參考文獻(xiàn)
[1] 吳志峰,柴彥威,黨安榮,等.地理學(xué)碰上“大數(shù)據(jù)”:熱反應(yīng)與冷思考[J].地理研究,2015,34(12):2207-2221.
[2] Andrew Crooks, Arie Croitoru, Anthony Stefanidis and Jacek Radzikowski. #Earthquake: Twitter as a Distributed Sensor System[J]. Transactions in GIS, 2013, 17(1): 124–147.
[3] Tsou M H , Yang J A , Lusher D , et al. Mapping social activities and concepts with social media (Twitter) and web search engines (Yahoo and Bing): a case study in 2012 US Presidential Election[J]. Cartography and Geographic Information Science, 2013, 40(4):337-348.
[4] 陳梓, 高濤, 羅年學(xué), 等. 反映自然災(zāi)害時空分布的社交媒體有效性探討[J]. 測繪科學(xué), 2017(8):48-52,133.
[5] Yu L , Zhengwei S , Chaogui K , et al. Uncovering Patterns of Inter-Urban Trip and Spatial Interaction from Social Media Check-In Data[J]. PLoS ONE, 2014, 9(1):e86026.