李雪塵 熊薪
摘 ? 要:在來自社交平臺大數(shù)據(jù)的支持下,已有多項研究揭示災(zāi)害發(fā)展趨勢、災(zāi)難位置與影響范圍,展現(xiàn)了社交媒體數(shù)據(jù)對災(zāi)害研究的幫助。本文以2012年北京大暴雨為研究對象,通過分析用戶提及行為與暴雨時空變化,通過微博中暴雨數(shù)據(jù)反映了用戶在現(xiàn)實中的親近社交關(guān)系、實時展現(xiàn)暴雨相關(guān)信息并預(yù)測其發(fā)展趨勢,有助于研究災(zāi)害動向以及其間用戶關(guān)系。
關(guān)鍵詞:時空大數(shù)據(jù) ?提及行為 ?暴雨 ?新浪微博
中圖分類號:P954 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)02(b)-0119-03
Abstract: In this paper, the 2012 Beijing heavy rain was taken as the research object. By analyzing the users' mentioned behaviors and the temporal and spatial changes of the heavy rain, the heavy rain data in the microblog reflected the users' close social relationship in reality, presented the information related to the heavy rain in real time and predicted its development trend, which was conducive to the study of the disaster trend and the relationship between users.
Key Words: Spatiotemporal big data; Mention behavior; Heavy rains; Weibo
大數(shù)據(jù)擁有速度快多樣化等優(yōu)點,從海量數(shù)據(jù)中挖掘巨大價值使人們能更好地理解世界[1]。如2014年陳佳等人基于手機定位數(shù)據(jù)推測出用戶特征[2]。在大數(shù)據(jù)高速發(fā)展的同時, Facebook、Twitter等社交平臺因便利高速,其用戶與日俱增,為政治、科技、娛樂等不同領(lǐng)域的研究提供新可能[3]。在社交媒體用戶行為分析與時空分布研究的基礎(chǔ)上,可通過將用戶行為與極端事件關(guān)聯(lián)來研究災(zāi)害。
基于新浪微博數(shù)據(jù),本文研究了2012年北京暴雨發(fā)生時與發(fā)生前后的用戶提及行為,并據(jù)此分析社交平臺中暴雨的時空變化。具體表現(xiàn)為以用戶為節(jié)點,提及關(guān)系為度,構(gòu)建網(wǎng)絡(luò)形成組件,對組件分類探討并對比分析暴雨期間不同城市內(nèi)的微博信息在時空范圍上的演變趨勢。
1 ?實驗方法
本文以2012年7月北京特大暴雨為研究對象,通過微博提供的API搜集暴雨期間的微博數(shù)據(jù),從中篩選出帶有“@”的信息并據(jù)此構(gòu)建網(wǎng)絡(luò)與組件,分析暴雨中用戶的行為規(guī)律。
1.1 構(gòu)建組件
在網(wǎng)絡(luò)爬蟲的支持與關(guān)鍵詞“北京暴雨”的限制下,本文借助新浪微博獲取此災(zāi)害發(fā)生時社交平臺內(nèi)用戶發(fā)布的相關(guān)信息,經(jīng)過預(yù)處理得到24855條有效數(shù)據(jù)。據(jù)此篩選出從2012年7月21日起之后連續(xù)3d內(nèi)的16759條數(shù)據(jù),其中部分包含地理坐標,作為研究災(zāi)害時空變化趨勢的依據(jù)。之后從所有數(shù)據(jù)中識別出6529個被@的用戶,作為節(jié)點以形成網(wǎng)絡(luò)。
從網(wǎng)絡(luò)中篩選出2089條包含提及關(guān)系的微博,所形成的提及網(wǎng)絡(luò)中包括擁有不同數(shù)量節(jié)點與微博的1854個組件。將組件的平均度、平均聚集系數(shù)、中心性系數(shù)、網(wǎng)絡(luò)直徑可視化并據(jù)此對組件進行分類,之后用冪律分布驗證不同組件節(jié)點變化規(guī)律,在2.1中主要分析一個節(jié)點數(shù)較多且聚集系數(shù)較大的組件。
1.2 時空分析
將興趣時間段內(nèi)所有包含地理坐標的微博以經(jīng)緯度的形式可視化,同時篩選出含有提及關(guān)系的微博,以相同方式可視化后與前者對比,可觀察出提及微博聚集程度的減弱。并從網(wǎng)絡(luò)中隨機抽取微博進行人工分類以分析用戶提及行為的原因。
之后分析暴雨中與城市相關(guān)的微博信息在時空范圍內(nèi)的變化。從不同角度對比上海、天津、北京、重慶、武漢、深圳的微博差異,統(tǒng)計了每個城市在不同時間點被提及的次數(shù)、每個城市不同時間點發(fā)出的微博總數(shù)、每個城市不同時間點的提及數(shù)量與總微博數(shù)量之比,將城市被提及數(shù)量可視化,并統(tǒng)計每個地區(qū)數(shù)據(jù)集內(nèi)每小時的提及次數(shù)、微博數(shù)量。
2 ?實驗結(jié)果
2.1 組件分析
基于1.1的方法形成的網(wǎng)絡(luò)中含有一個聚集系數(shù)較大的組件(圖1),針對此組件聚集系數(shù)較大的特點,可將其解釋為一個在地理上聚集且互動較多的用戶形成的社區(qū)。作為基于提及關(guān)系的組件,其聚集系數(shù)較大說明提及網(wǎng)絡(luò)可體現(xiàn)親近社交關(guān)系,即提及行為能反映較強的用戶相關(guān)性,與Minh-Duc Luu在[4]中通過對比提及與轉(zhuǎn)發(fā)關(guān)系發(fā)現(xiàn)前者能更好展現(xiàn)用戶交互行為的結(jié)果一致。
另外,此組件內(nèi)沒有中心節(jié)點,是由暴雨中相鄰用戶間的提及關(guān)系形成組件,將用戶地理空間的相鄰性體現(xiàn)在虛擬空間。說明此組件內(nèi)用戶很可能因暴雨產(chǎn)生聯(lián)系,具有朋友關(guān)系的可能性較小。此組件作為聚集系數(shù)不為0的唯一正常組件,其用戶群體在虛擬空間與現(xiàn)實空間都聚集,且空間關(guān)系鄰近,內(nèi)部節(jié)點數(shù)和微博數(shù)都較多,依次可看出用戶提及行為的規(guī)律性,以及虛擬空間與現(xiàn)實空間的關(guān)聯(lián)。此組件內(nèi)的用戶因地理空間產(chǎn)生聯(lián)系并表現(xiàn)為微博中的提及關(guān)系,且網(wǎng)絡(luò)中的其它大組件反映出在微博中能高效傳遞消息的用戶一般為名人或大流量媒體,說明用戶傾向提及現(xiàn)實或網(wǎng)絡(luò)中具有影響力的對象,或在突發(fā)事件中具有短暫緊密關(guān)系的其它個體。
2.2 時空變化
對組件的分析有助于理解用戶提及行為的規(guī)律性,但不能明顯反映暴雨時空變化。此小節(jié)剖析暴雨發(fā)生前至暴雨發(fā)生后網(wǎng)絡(luò)中不同城市被提及情況與內(nèi)部微博信息,觀察暴雨發(fā)生時不同地區(qū)涉及程度與變化情況,發(fā)現(xiàn)基于提及關(guān)系反應(yīng)的暴雨時空變化趨勢與實際情況符合?;?.2中方法初步得出暴雨期間用戶聚集地點(圖2),發(fā)現(xiàn)不止北京附近有用戶發(fā)布微博,其它地區(qū)微博數(shù)量也較可觀,如圖3將城市按微博數(shù)量劃分等級后,發(fā)現(xiàn)通州等地微博數(shù)量也較多。之后根據(jù)經(jīng)緯度大致找出6座微博數(shù)量較多的城市:上海、天津、北京、重慶、武漢、深圳。
從圖4可看出不同城市被提及數(shù)量變化趨勢大致相同但數(shù)量差距較大,從7月21日暴雨發(fā)生開始上海、天津、北京、重慶、武漢、深圳這六座城市被提及數(shù)量劇烈增加,其中北京最早被提及且平均數(shù)量最多。城市被提及數(shù)量在7.21深夜或7.22正午達到最高,從7.23開始趨向減少,但深圳市在7.23正午至7.24凌晨出現(xiàn)反彈。六座城市微博數(shù)量變化與被提及情況相似,但北京與其它城市差距更大,且深圳市較為特殊,從7.23上午開始趨向增加,至傍晚到達最高點后趨于減少。
分析提及城市的微博占總微博比例(圖5)可觀察出上海、天津、重慶、武漢都存在提及微博占比接近或達到1.0的時間點,對應(yīng)圖4中可發(fā)現(xiàn)對應(yīng)時間點城市被提及數(shù)量與總微博數(shù)量極少且相等,這種微博發(fā)布者可能有親人朋友處于所提及城市。而北京總微博數(shù)量十倍于被提及數(shù)量,且兩者幾乎同步變化,故提及微博占比從暴雨發(fā)生前到暴雨發(fā)生后一直保持較穩(wěn)定的變化趨勢。
由于北京市是災(zāi)害發(fā)生中心,故這六座城市被提及總數(shù)和微博總數(shù)以及兩者比例的變化趨勢都接近北京市,但在7.21暴雨開始階段,六座城市被提及占比發(fā)生4次大轉(zhuǎn)折,突增至最高點后降回正常水平,又再次到達最高點,驟降后才與北京市情況一樣趨向穩(wěn)定波動。
3 ?結(jié)語
上述研究以災(zāi)害中用戶提及關(guān)系為研究對象,從時空角度分析暴雨演變趨勢且發(fā)現(xiàn)其與現(xiàn)實相符。具體表現(xiàn)為通過構(gòu)建提及網(wǎng)絡(luò)并利用微博提供的位置關(guān)系,詳細分析微博和節(jié)點數(shù)量較多且聚集系數(shù)較大的一個組件從而發(fā)現(xiàn)突發(fā)事件中用戶關(guān)系,并通過不同城市所涉及微博的變化差異揭示災(zāi)害進程。
本文除觀察出災(zāi)害中用戶提及行為的規(guī)律性之外,還發(fā)現(xiàn)提及關(guān)系可作為用戶行為的有效表現(xiàn)形式、反映暴雨中親近社交關(guān)系、實時展現(xiàn)暴雨相關(guān)信息并預(yù)測其發(fā)展趨勢,為研究災(zāi)害動向以及其間用戶動態(tài)提供新思路。
參考文獻
[1] Kato S , Koide A , Fushimi T , et al. Network Analysis of Three Twitter Functions: Favorite, Follow and Mention[M]// Knowledge Management and Acquisition for Intelligent Systems. Springer Berlin Heidelberg, 2012.
[2] 陳佳,胡波,左小清,等.利用手機定位數(shù)據(jù)的用戶特征挖掘[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2014,39(6):734-738.
[3] Andrew Crooks, Arie Croitoru, Anthony Stefanidis and Jacek Radzikowski. #Earthquake: Twitter as a Distributed Sensor System[J]. Transactions in GIS, 2013, 17(1): 124–147.
[4] Luu M D , Thomas A C . Beyond Mere Following: Mention Network, a Better Alternative for Researching User Interaction and Behavior[J].2015.