王敬泉,王 凱
(河北省第二測繪院,河北 石家莊 050000)
目前政府鼓勵人民通過網(wǎng)絡(luò)參與國家大事討論,但是由于網(wǎng)民數(shù)量大且互聯(lián)網(wǎng)具有的開放性、實(shí)時性等原因,導(dǎo)致突發(fā)事件爆發(fā)后能夠迅速經(jīng)由社交媒體網(wǎng)絡(luò)平臺傳播、發(fā)酵,構(gòu)成網(wǎng)絡(luò)輿情,容易造成輿論危機(jī)。因此,如何迅速地了解網(wǎng)絡(luò)輿情信息、掌控網(wǎng)絡(luò)輿情態(tài)勢,迅速處理輿論危機(jī),已成為政府部門眼下亟待解決的關(guān)鍵性需求。
在大數(shù)據(jù)時代,社交數(shù)據(jù)挖掘成為一種從大量數(shù)據(jù)中提取隱藏信息并將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成一種可以理解的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行研究的常見方法[1],通過對采集到的社交媒體網(wǎng)絡(luò)數(shù)據(jù)進(jìn)一步挖掘來獲取公眾輿論傳播模式。當(dāng)一個地區(qū)發(fā)生惡性社會安全事故時,消息經(jīng)由社交媒體迅速地傳遍網(wǎng)絡(luò)世界,隨之而來的大量討論也會出現(xiàn)在大型的社交媒體上面,如微博、QQ空間及微信等。社交媒體為用戶提供了針對各類事件表達(dá)個人觀點(diǎn)和意見的平臺,社交媒體數(shù)據(jù)成為獲取公眾輿論的重要來源。
在中國,微博有著龐大的用戶群體,在2015年第三季度報(bào)告中,其每月平均活躍用戶數(shù)量已經(jīng)達(dá)到了2.22億[2]。目前很多研究只是專注于微博中虛擬人際關(guān)系,對于消息傳播與現(xiàn)實(shí)地理世界聯(lián)系研究并不多,本文主要是將網(wǎng)絡(luò)輿情的傳播與地理信息的時空關(guān)系相聯(lián)系[3],將用戶間的虛擬網(wǎng)絡(luò)聯(lián)系通過可視化的方式映射到現(xiàn)實(shí)地理空間中,探究基于可視化基礎(chǔ)上的網(wǎng)絡(luò)輿情傳播的空間分布規(guī)律。為了達(dá)到這一目標(biāo),利用微博的API接口獲取昆山工廠爆炸事故數(shù)據(jù)并進(jìn)行挖掘。地理分析的方法應(yīng)用到事故相關(guān)的網(wǎng)絡(luò)輿情空間分布分析中,最后利用統(tǒng)計(jì)分析挖掘用戶發(fā)布內(nèi)容與空間分布的關(guān)系,探究網(wǎng)絡(luò)輿情傳播的可視化結(jié)果。
本文選取的試驗(yàn)實(shí)例是發(fā)生在2014年8月2日江蘇省蘇州市昆山市昆山經(jīng)濟(jì)技術(shù)開發(fā)區(qū)的昆山中榮金屬制品有限公司拋光二車間的特別重大鋁粉塵爆炸事故,最終共有97人死亡、163人受傷。該事件屬于涉及公共安全的突發(fā)事件[4],并且在2014年國內(nèi)重大網(wǎng)絡(luò)輿情事件排名第八,引起的新聞量有515 000條,與之相關(guān)的微博量高達(dá)82萬條,很具有代表性。
數(shù)據(jù)采集時,首先通過微博開放的API接口[5],利用代碼收集并存入數(shù)據(jù)庫中;然后利用查詢來提取并過濾數(shù)據(jù);最后用GIS技術(shù)進(jìn)行地理空間的可視化表達(dá)。為了研究數(shù)據(jù)是否為隨機(jī)分布,采用平均最近鄰分析,如果結(jié)果是集群分布的,說明在一些地區(qū)存在熱點(diǎn)。隨后利用熱點(diǎn)分析來發(fā)現(xiàn)集群區(qū)域,接著使用回歸分析尋找輿情發(fā)生地與事件不同關(guān)注度的空間距離關(guān)系,用來探究輿情傳播的規(guī)律。
利用微博平臺的API接口獲取相關(guān)數(shù)據(jù),每小時平均收集到用戶實(shí)時發(fā)布的消息記錄可以達(dá)到9000多條[5]。采集到的記錄包括以下信息:用戶ID、微博名稱、微博消息、省、城市、性別和創(chuàng)建時間7個方面的信息,采集的數(shù)據(jù)存入本地?cái)?shù)據(jù)庫中。本次選用的是非關(guān)系型數(shù)據(jù)庫——MongoDB,其強(qiáng)大的查詢和管理功能能夠滿足試驗(yàn)需求。獲取的數(shù)據(jù)具有詳細(xì)地理位置坐標(biāo)信息的數(shù)據(jù)只占整體數(shù)據(jù)的很小一部分,應(yīng)用到研究中樣本總體數(shù)量過少。因此,將數(shù)據(jù)中可獲取到的省市信息作為用戶的地理位置信息,來增加試驗(yàn)的樣本整體數(shù)量,以減少試驗(yàn)個體性和隨機(jī)性。
將采集的數(shù)據(jù)利用關(guān)鍵詞查詢來提取相關(guān)記錄。本次研究我們關(guān)鍵詞選取“昆山”“工廠”“爆炸”中的兩個或三個來查詢收集,其中“昆山”與“爆炸”作為最高優(yōu)先級,得到記錄后進(jìn)行噪音處理,將存在地理位置信息模糊、錯誤或者記錄重復(fù)等方面問題的記錄數(shù)據(jù)進(jìn)行篩除,利用剩下關(guān)聯(lián)性強(qiáng)的記錄進(jìn)行整理后準(zhǔn)備進(jìn)一步的處理。最終獲取2014年8月2日至8月8日期間用于本次研究的總共4462條獨(dú)特的微博記錄。圖1是樣本數(shù)據(jù)的數(shù)量時間變化折線圖。
處理具有位置信息的記錄時直接采用轉(zhuǎn)化后的經(jīng)緯度信息,若沒有具體位置信息,則使用記錄所屬用戶的注冊信息中對應(yīng)位置的經(jīng)緯度作為對應(yīng)記錄的地理位置信息。由于絕大多數(shù)人日常生活的活動范圍有限,因此利用用戶微博的城市屬性的地理坐標(biāo)作為位置信息并被隨機(jī)標(biāo)記進(jìn)城市區(qū)域。相對于整體樣本數(shù)據(jù)的空間覆蓋大于3000 km2的事實(shí),隨機(jī)分布的誤差可以被忽略。圖2是利用數(shù)據(jù)本身或被賦予的位置信息進(jìn)行地圖分布可視化的結(jié)果。
平均最近鄰分析是一種用來找出分析對象分布模式是集中還是分散的有效工具。該分析可以測量每個要素的質(zhì)心與其最近鄰要素的質(zhì)心位置之間的距離[6],然后計(jì)算所有這些最近鄰距離的平均值。如果小于假設(shè)隨機(jī)的距離值,則表明所分析的要素點(diǎn)是聚類分布的; 反之即為分散分布[6]。
該方法返回值5個:平均觀測距離、預(yù)期平均距離、最近鄰比率、Z得分和P值。如果比率大于1.0,那么這些點(diǎn)發(fā)的分布被認(rèn)為是分散的;反之,則被認(rèn)為是集群的。Z得分是標(biāo)準(zhǔn)差的倍數(shù),描述的是最鄰近的重要性。P值是概率,表示所觀測到的空間波形是由某一隨機(jī)過程創(chuàng)建而成的概率,只有P值低于0.05才被認(rèn)為數(shù)據(jù)具有統(tǒng)計(jì)學(xué)意義。
通過表1每個結(jié)果的最近鄰比率小于1.0,P值小于0.05并且有很小的Z得分,這就表明觀測的空間模式不可能反映零假設(shè)所表示的理論上的隨機(jī)性,因此可知這些維持高關(guān)注度的事件數(shù)據(jù)分布具有統(tǒng)計(jì)學(xué)意義,并且明顯存在熱點(diǎn)。
表1 8月2日事發(fā)至8月8日上午7點(diǎn)微博分布集群平均最近鄰分析結(jié)果
熱點(diǎn)分析通過對數(shù)據(jù)集的每個記錄計(jì)算其統(tǒng)計(jì)結(jié)果來找出具有更高或更低值的要素集群空間位置。統(tǒng)計(jì)學(xué)具有顯著意義的熱點(diǎn)不僅本身具有高值,同時也要有被其他具有高值的要素包圍的特征。熱點(diǎn)分析需要將每個要素與所預(yù)期的局部總和相比具有更大的差距時,這些要素被認(rèn)為無法有隨機(jī)分布產(chǎn)生,進(jìn)而被確認(rèn)具有熱點(diǎn)特征[7]。
為了發(fā)現(xiàn)地圖上的熱點(diǎn)區(qū)域,將與事件相關(guān)的記錄數(shù)據(jù)點(diǎn)通過映射方式,使其屬性投射到格網(wǎng)上進(jìn)行分析,首先將地圖上利用1600個被創(chuàng)建的格網(wǎng)來分割成單獨(dú)的地圖瓦片;然后以每個瓦片作為一個多邊形要素,計(jì)算落入格網(wǎng)中點(diǎn)的數(shù)量作為瓦片的數(shù)量屬性;最后,根據(jù)具有數(shù)量屬性的多邊形地圖瓦片進(jìn)行熱點(diǎn)分析(如圖3所示)。
圖4是“8.2昆山工廠爆炸”事件發(fā)生后6天中每天與事件相關(guān)的微博消息數(shù)據(jù)圖上分布可視化與熱點(diǎn)分析結(jié)果展示圖。4(a)是事故發(fā)生后24 h內(nèi)收集的相關(guān)微博數(shù)據(jù)的圖上分布??梢园l(fā)現(xiàn)新聞在本地快速傳播擴(kuò)散,并在附近分布最為密集,然后與本地關(guān)注度處于同一級別的是北京和廣州;接下來幾天新聞消息再進(jìn)一步擴(kuò)散并在全國各地都引起了關(guān)注,與第一天事故發(fā)生地有著同樣的熱點(diǎn)等級的地區(qū)出現(xiàn)在河北省、廣東省、山東省和河南省等地區(qū);隨著時間推移進(jìn)入第五天,分布規(guī)律變化不大,但是熱點(diǎn)等級低于之前幾天一個等級,這標(biāo)志著突發(fā)事件進(jìn)入緩解期[8],同時網(wǎng)絡(luò)輿情也進(jìn)入相對緩和的階段;最后一天的數(shù)據(jù)分布可以發(fā)現(xiàn)數(shù)量減少很多,熱點(diǎn)區(qū)域也主要集中在北京和廣州以及事發(fā)地附近。為了進(jìn)一步挖掘更多的關(guān)于該事件網(wǎng)絡(luò)輿情的擴(kuò)散模式,下一步會對整體的數(shù)據(jù)采用回歸分析進(jìn)行分析處理。
回歸分析是一種確定兩種或兩種以上估計(jì)變量間相互依賴的定量關(guān)系的傳統(tǒng)統(tǒng)計(jì)分析方法,能夠幫助了解因變量變化時,其對應(yīng)的獨(dú)立變量變化的特點(diǎn)。對上面的數(shù)據(jù)進(jìn)行回歸分析,可以得到兩個返回值:顯著性和皮爾遜相關(guān)系數(shù)。獲得的顯著性值小于0.05時才會被認(rèn)為具有統(tǒng)計(jì)學(xué)意義。在這個前提下,皮爾遜相關(guān)系數(shù)越接近±1.0意味著兩個變量之間的相關(guān)性就越高。
本次事件中,各地到事發(fā)地的歐氏距離被設(shè)定為一個探索性變量。計(jì)算圖5中含有數(shù)量屬性的地圖瓦片集合中心到事發(fā)地的歐氏距離。然后,每個瓦片網(wǎng)格的數(shù)量屬性和到事發(fā)地的歐氏距離被設(shè)為因變量和自變量來完成線性回歸分析。
從圖5(a)可以明顯看出,當(dāng)距離在300 km范圍內(nèi)顯著性值大于0.05,300~800 km范圍內(nèi)的顯著性值小于0.05,即該范圍內(nèi)數(shù)據(jù)分布的差異并不是巧合,具有統(tǒng)計(jì)學(xué)意義的,可以經(jīng)由這個樣本數(shù)據(jù)的差異推論至其他事件。
圖5(b)所示的是在熱點(diǎn)位置與事發(fā)地點(diǎn)距離發(fā)生變化時,與事件相關(guān)的微博數(shù)據(jù)量同距離變化的相關(guān)性??傮w來說都是負(fù)相關(guān)的,隨距離增加,數(shù)據(jù)數(shù)逐漸減少。而在低于200 km的范圍內(nèi)皮爾遜相關(guān)系數(shù)值與其他截然不同,其顯著性值也遠(yuǎn)遠(yuǎn)高于0.05,并不具有代表性的統(tǒng)計(jì)學(xué)意義,原因是:處于事故發(fā)生地,數(shù)據(jù)具有獨(dú)特性。
將圖5(a)與圖6結(jié)合起來可以發(fā)現(xiàn),在低于300 km范圍內(nèi)即圖6中小圈內(nèi),每個地圖瓦片的微博記錄數(shù)量與事件發(fā)生地的距離沒有相關(guān)性。數(shù)據(jù)量大的原因是距離事發(fā)地近,附近的人對身邊惡性社會安全事件關(guān)注度極高;距離在300~800 km時,圖5(b)顯示了兩個變量間中等級別的負(fù)相關(guān)性;距離達(dá)到800~1200 km時,相關(guān)性逐漸消失。主要原因是:該距離內(nèi)兩個熱點(diǎn)區(qū)域被添加進(jìn)來并且影響關(guān)聯(lián)性。這兩個熱點(diǎn)區(qū)域位于中國兩個特大城市:北京和廣州;這兩個城市盡管遠(yuǎn)離昆山,但也在事故發(fā)生后幾天內(nèi)對事故保持一個較高的關(guān)注度。當(dāng)距離達(dá)到1200 km時顯著值增加到0.130 5(遠(yuǎn)大于0.05),且皮爾遜相關(guān)系數(shù)向0值靠攏,可以推斷兩個變量間的關(guān)聯(lián)關(guān)系逐漸消失。
該結(jié)果顯示,公眾對于熱點(diǎn)新聞的關(guān)注度在一定程度上受到距事故發(fā)生地點(diǎn)的距離影響;同時在大城市的集中度不太可能受到距離的影響,因此突發(fā)事件產(chǎn)生的網(wǎng)絡(luò)輿情分布也與事件關(guān)注度有著同樣規(guī)律。
本文探討了在微博中公眾對突發(fā)事件產(chǎn)生的輿情的傳播模式。通過數(shù)據(jù)挖掘分析地域差別下突發(fā)事件網(wǎng)絡(luò)輿情傳播的空間分布可視化。與之前專注于虛擬用戶之間關(guān)系的研究不同,本文將自然地理空間加入考慮范圍并使用GIS技術(shù)來進(jìn)行可視化內(nèi)容,同時為了挖掘有關(guān)傳播規(guī)律,利用統(tǒng)計(jì)學(xué)來分析驗(yàn)證結(jié)論。
在空間維度上,有公眾關(guān)注度的突發(fā)事件網(wǎng)絡(luò)輿情的分布與事故發(fā)生地的距離存在負(fù)相關(guān)關(guān)系。距離事件位置近的人們展現(xiàn)了對事故更高的關(guān)注度,同時這種關(guān)注度會隨著距離的增加而減小。當(dāng)距離達(dá)到一定閾值時,關(guān)聯(lián)性消失。其中一個可能的原因是,人們住在像北京和廣州這種級別的大城市也顯示了對事件更高的關(guān)注度。這種突發(fā)事件的網(wǎng)絡(luò)輿情的分布和傳播模式可以發(fā)行并為公眾輿論監(jiān)督提供信息,同時當(dāng)災(zāi)害發(fā)生時可以幫助進(jìn)行態(tài)勢感知。即使本研究使用的數(shù)據(jù)只占采集的全部數(shù)據(jù)中的一小部分,但發(fā)現(xiàn)的規(guī)律也可以在其他事故中證實(shí),接下來的工作將會用更多的數(shù)據(jù)進(jìn)行試驗(yàn)并驗(yàn)證這一發(fā)現(xiàn)。