趙學(xué)志,肖 爽,程顯洲
(上海市地震局,上海200062;上海佘山地球物理國家野外科學(xué)觀測研究站,上海200062)
發(fā)生地震災(zāi)害后,如何準(zhǔn)確高效地獲取災(zāi)情信息是政府和應(yīng)急管理部門一直研究的課題[1]。隨著科技的發(fā)展和互聯(lián)網(wǎng)的普及,利用震后互聯(lián)網(wǎng)上輿情數(shù)據(jù)對災(zāi)情信息快速感知和有感范圍的快速獲得提供新的思路和途徑。
根據(jù)中國互聯(lián)網(wǎng)信息中心發(fā)布的第47次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,截至2020年12月,中國的網(wǎng)民規(guī)模達(dá)9.89億,網(wǎng)民使用手機(jī)上網(wǎng)的比例達(dá)99.7%。從統(tǒng)計的數(shù)據(jù)中可以看出,互聯(lián)網(wǎng)的發(fā)展正在改變?nèi)藗兊纳盍?xí)慣。網(wǎng)民個體更愿意借助網(wǎng)絡(luò)購物、網(wǎng)上外賣等方式解決生活所需,也更傾向于通過社交平臺表達(dá)自己的想法、情感、狀態(tài)與訴求。尤其是在重特大突發(fā)事件后,在中心輻射范圍內(nèi),會有大量受影響的民眾在社交平臺上發(fā)布和災(zāi)情有關(guān)信息。往往這些輿情信息能夠快速直觀地反映出災(zāi)區(qū)的真實情況。因此在地震災(zāi)害發(fā)生后,能夠快速收集和處理大量的網(wǎng)民在社交平臺上發(fā)布與地震相關(guān)的信息,對于政府和應(yīng)急管理部門應(yīng)急指揮以及輿情監(jiān)控有著重要的意義。
在地震輿情數(shù)據(jù)分析處理方面,很多國內(nèi)專家學(xué)者已經(jīng)做了大量研究。2015年,褚俊秀等[2]建立了位置微博地震災(zāi)情抓取框架,實現(xiàn)微博地震災(zāi)情的提取與展示;2016年張方浩等[3]根據(jù)中國地震烈度表和地震現(xiàn)場工作調(diào)查規(guī)范,將微博特征詞庫和地震災(zāi)情速判指標(biāo)進(jìn)行關(guān)聯(lián)匹配,建立了微博信息分類指標(biāo)體系;2017年,曹彥波等[4-5]調(diào)用新浪微博APⅠ,通過對微博數(shù)據(jù)清洗挖掘,分析微博災(zāi)情時空演變特征以及災(zāi)區(qū)民眾的情感。2017年至今,多位專家學(xué)者[6-8]利用地震輿情數(shù)據(jù)對四川九寨溝7.0級地震、云南通海5.0級地震和新疆伽師6.4級地震等地震事件進(jìn)行了分析研究,研究成果在地震應(yīng)急工作中得到了很好的應(yīng)用。
設(shè)計建立一套基于微博輿情數(shù)據(jù)的地震有感范圍自動成圖系統(tǒng),完成震后對微博輿情數(shù)據(jù)的自動收集、處理和可視化展示功能。
1.2.1 輿情信息數(shù)據(jù)的獲取
面對震后海量的微博輿情信息,為提高信息收集的效率和準(zhǔn)確性,需要通過自動化的方式進(jìn)行收集[9]。由于微博建立的反爬機(jī)制,通過傳統(tǒng)網(wǎng)絡(luò)爬蟲技術(shù),無法確保收集到信息的全面性和系統(tǒng)的穩(wěn)定性,需要借助微博開放平臺的商業(yè)APⅠ接口,才能高效穩(wěn)定地獲取帶有地理信息位置的微博輿情信息數(shù)據(jù)[2]。
1.2.2 輿情信息的預(yù)處理
對于收集到的數(shù)據(jù),由于內(nèi)容表達(dá)方式的隨意性、復(fù)雜性和個體感受不一致性,需要對數(shù)據(jù)進(jìn)行自動分析清洗,并剔除一些與地震災(zāi)害事件無關(guān)條目。再對進(jìn)行過預(yù)處理的信息數(shù)據(jù)與相應(yīng)的規(guī)則對應(yīng)進(jìn)行分級賦值,存入地震輿情數(shù)據(jù)庫。
1.2.3 建立輿情信息數(shù)據(jù)庫
通過數(shù)據(jù)庫的建設(shè),分類存儲微博輿情數(shù)據(jù)。可在未來的研究中,對地震輿情的時空變化規(guī)律、情緒變化分析進(jìn)行進(jìn)一步研究,也可以針對單個地震事件進(jìn)行更加細(xì)致的研究。同時可以作為輿情信息共享平臺,方便為其他協(xié)作部門提供地震輿情信息。
1.2.4 自動成圖
由于獲取到的輿情數(shù)據(jù)均為離散分布的位置點,需要通過地理信息系統(tǒng)的空間插值方法建立有聯(lián)系性的連續(xù)分布,形成的震后有感范圍圖需在系統(tǒng)中展示。
1.2.5 人工干預(yù)
由于信息表達(dá)方式的隨意性,分類和賦值的準(zhǔn)確性無法完全保證,需要建立人工復(fù)核機(jī)制和功能,干預(yù)系統(tǒng)自動產(chǎn)出的結(jié)果。
當(dāng)發(fā)生地震后,根據(jù)地震的發(fā)震時間、震中、震級,通過調(diào)用微博開放平臺APⅠ接口獲取微博的內(nèi)容,包括文本、發(fā)布時間、圖片、視頻、經(jīng)緯度信息等,并對數(shù)據(jù)進(jìn)行清洗去重、識別分類,存入輿情數(shù)據(jù)庫中,再從輿情數(shù)據(jù)庫與特征詞庫進(jìn)行比對,根據(jù)《中國地震烈度表》和《地震現(xiàn)場工作調(diào)查規(guī)范》,建立地震災(zāi)情速判指標(biāo)進(jìn)行分級賦值,建立空間和屬性關(guān)聯(lián)。最后通過空間插值將離散分布的坐標(biāo)點轉(zhuǎn)換為連續(xù)分布的有感范圍自動化產(chǎn)出。系統(tǒng)框架如圖1所示。
圖1 系統(tǒng)框架圖
由于獲取到的微博內(nèi)容隨意性較強(qiáng),口語化程度高,人口判讀工作量巨大,為提高數(shù)據(jù)處理效率和準(zhǔn)確率,系統(tǒng)需要提供對原始微博數(shù)據(jù)自動解析、去重、清洗、過濾的數(shù)據(jù)分析處理功能,支持根據(jù)關(guān)鍵詞庫自動提取與地震災(zāi)情相關(guān)的特征詞進(jìn)行比對,對微博數(shù)據(jù)進(jìn)行分級賦值[10],如表1所示。同時需提供人工復(fù)核解譯、手動重分類的功能。
表1 關(guān)鍵詞對應(yīng)分級賦值參考表(部分)
由于微博輿情信息為民眾的主觀感受,由于個體對地震的感受不一,描述的信息也不一致。為使有感范圍空間數(shù)據(jù)更加接近實際,需要對離散的分布點進(jìn)行空間插值。常見的空間插值方法有反距離加權(quán)插值法(ⅠDW)、克里金插值法(Kriging)、核密度算法、自然鄰點插值方法(Natural NeighborⅠnterpolation)等,本系統(tǒng)根據(jù)既往研究,設(shè)計采用反距離加權(quán)插值法(ⅠDW)、克里金插值法(Kriging)和核密度算法這3種主要的空間插值算法。
微博數(shù)據(jù)的空間可視化表達(dá)是實現(xiàn)分析災(zāi)情時空演變規(guī)律的基礎(chǔ),震后獲取到的微博災(zāi)情數(shù)據(jù)往往在地理上是分布不規(guī)則的離散數(shù)據(jù),為了能夠更加清楚、直觀地了解地震災(zāi)情時空分布特征,系統(tǒng)需要提供數(shù)據(jù)可視化功能,支持清洗后的微博數(shù)據(jù)點生成空間插值面并在地圖上進(jìn)行展示[11-12]。
該模塊可以實現(xiàn)地震事件和歷史地震的微博輿情數(shù)據(jù)的瀏覽查看、數(shù)據(jù)分析處理和可視化展示功能。可以通過輸入地震名稱或地震震級進(jìn)行篩選查詢,同時也能進(jìn)行地震定位、原始微博詳情查看、清洗后的輿情微博詳情查看和可視化展示操作,如圖2所示。在“原始微博詳情頁面”中,可以對原始微博詳情進(jìn)行瀏覽查看。該功能模塊提供了“微博數(shù)據(jù)導(dǎo)入”功能,可以將獲取到新的微博數(shù)據(jù)導(dǎo)入到系統(tǒng)中進(jìn)行處理查看,如圖3所示。
圖2 系統(tǒng)界面
圖3 原始微博詳情查看
提供了“一鍵清洗”功能,點擊后系統(tǒng)將自動進(jìn)行微博數(shù)據(jù)的解析、去重、清洗、過濾、關(guān)鍵詞提取等后臺操作,清洗完成后的數(shù)據(jù)可以在“輿情微博詳情”界面進(jìn)行查看,如圖4所示。
圖4 手工清洗操作
經(jīng)過“一鍵清洗”后,有些輿情信息依舊不能被系統(tǒng)識別分類,為了增加產(chǎn)出結(jié)果的準(zhǔn)確性,支持人工對微博增加“手工清洗”功能,對數(shù)據(jù)進(jìn)行人工復(fù)核判別和關(guān)鍵詞分類、賦值,如圖5所示。
圖5 輿情微博詳情查看
系統(tǒng)提供3種空間插值方式進(jìn)行插值計算以實現(xiàn)可視化展示:普通克里金插值、反距離加權(quán)插值(Ⅰnverse Distance Weighting,簡稱ⅠDW)和核密度插值[13],如圖6所示??梢允褂孟到y(tǒng)默認(rèn)的插值方法和參數(shù)進(jìn)行插值計算,也可以手動選擇空間插值方法并調(diào)整相關(guān)參數(shù)進(jìn)行地圖可視化效果瀏覽,如圖7所示。
圖6 可視化展示方法和參數(shù)設(shè)置
圖7 3種插值效果展示
該模塊可以實現(xiàn)關(guān)鍵詞庫的瀏覽查看和管理維護(hù)功能[14]。通過下拉菜單,選擇想要查詢的關(guān)鍵詞類別進(jìn)行篩選查詢,如圖8所示,同時也能進(jìn)行關(guān)鍵詞的新增和刪除操作。同一個類別下可以添加多個關(guān)鍵詞,當(dāng)關(guān)鍵詞類別中沒有想要的選項時,可以自己輸入添加類別[15],如圖9所示。
圖8 查詢條件
圖9 關(guān)鍵詞新增
本系統(tǒng)設(shè)計開發(fā)完成為獲得地震災(zāi)害有感范圍的提供了新的實現(xiàn)途徑,但本系統(tǒng)在未來的使用中還需繼續(xù)完善。輿情信息分類的特征關(guān)鍵詞庫根據(jù)實際情況還需要進(jìn)一步研究和擴(kuò)充,產(chǎn)出的結(jié)果還需和真實有感范圍進(jìn)行比對,提高系統(tǒng)產(chǎn)出的準(zhǔn)確率。
在今后實際應(yīng)用過程中,可將儀器烈度、地震災(zāi)害評估系統(tǒng)以及人口熱力數(shù)據(jù)相結(jié)合,能更好地服務(wù)地震應(yīng)急工作,為政府和應(yīng)急管理部門決策提供有力的幫助。在研究方向上,可以向其他災(zāi)種研究進(jìn)行延伸,例如爆炸和化學(xué)品泄漏等事故災(zāi)害,以實現(xiàn)中國應(yīng)急管理的“多災(zāi)眾”和“大應(yīng)急”的綜合防災(zāi)減災(zāi)救災(zāi)理念。