楊麗佳,陳新房*,汪世偉
(防災(zāi)科技學(xué)院,河北三河)
數(shù)據(jù)可視化真正追溯其根源,可以把時(shí)間往前推10 個(gè)世紀(jì),其發(fā)展大致經(jīng)歷了10 世紀(jì)的填補(bǔ)空白、14-17 世紀(jì)拉開帷幕、18 世紀(jì)的初露鋒芒、19 世紀(jì)的黃金時(shí)代、20 世紀(jì)的穩(wěn)步發(fā)展以及21 世紀(jì)的日新月異6 個(gè)時(shí)期。如圖1 所示,是目前最久遠(yuǎn)的數(shù)據(jù)可視化圖像,其中包含了很多現(xiàn)代統(tǒng)計(jì)圖形元素:坐標(biāo)軸,網(wǎng)格,時(shí)間序列。
圖1 10 世紀(jì)數(shù)據(jù)可視化作品
進(jìn)入21 世紀(jì)以來,計(jì)算機(jī)技術(shù)獲得了長足的進(jìn)展,計(jì)算機(jī)圖形學(xué),高分辨率高色深還原度的屏幕應(yīng)用越來越廣泛,數(shù)據(jù)可視化的需求也正在變得越來越強(qiáng)烈。數(shù)據(jù)可視化進(jìn)入一個(gè)新的黃金時(shí)代[1]。
數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。其基本思想,是將數(shù)據(jù)庫中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進(jìn)行更深入的觀察和分析[2]。
數(shù)據(jù)可視化可以幫助人們在大量的數(shù)據(jù)中快速發(fā)現(xiàn)重要的信息。使得人們更容易地對比數(shù)據(jù)之間的差異和相似之處。有利于更好地理解數(shù)據(jù)之間的關(guān)系和規(guī)律。交互式地探索數(shù)據(jù),并得出結(jié)論。更容易地與他人分享數(shù)據(jù)[3]。
目前已經(jīng)有許多數(shù)據(jù)可視化工具,主要包括入門級工具(Excel)、信息圖表工具(Google Chart API、D3、大數(shù)據(jù)魔鏡)、地圖工具(Modest Maps、Leaflet、Quantum GIS)、時(shí)間線工具(Timetoast、Xtimeline、Timeslidey) 和高級分析工具(Processing、R 語言[4]、Python[5]、Weka 和Gephi)等。
本文利用R 語言與BDP(Business Data Platform)商業(yè)數(shù)據(jù)平臺對中國地震臺網(wǎng)提供的近一年3.0 級以上地震進(jìn)行可視化處理[6-7]。
實(shí)驗(yàn)中使用八爪魚工具爬取中國地震臺網(wǎng)近一年3.0 級以上地震信息。網(wǎng)址為:http://www.ceic.ac.cn/speedsearch?time=5,進(jìn)行循環(huán)爬取,爬取數(shù)據(jù)共計(jì)997 條。
按照中國的經(jīng)緯度范圍對數(shù)據(jù)進(jìn)行初步篩選。同時(shí)將緯度、經(jīng)度、深度三列數(shù)據(jù)轉(zhuǎn)換成數(shù)字模式。
篩選出緯度在4°~53°、經(jīng)度在73°~135°的數(shù)據(jù)。剩余802 條數(shù)據(jù),數(shù)據(jù)集名稱為earthquakeqx.xlsx,如表1 所示部分?jǐn)?shù)據(jù)。
表1 earthquakeqx.xlsx 部分?jǐn)?shù)據(jù)
在安裝了依賴包的基礎(chǔ)上,加載依賴包,在VMware Workstation 環(huán)境中centos01 節(jié)點(diǎn)上操作[8]。
對各省份在過去一年中的發(fā)震次數(shù)進(jìn)行統(tǒng)計(jì),運(yùn)用R 語言將參考位置限定于中國,進(jìn)行數(shù)據(jù)過濾:data1<-subset(data,grepl("北京|天津|河北|山西|內(nèi)蒙古|遼寧|吉林|黑龍江|上海|江蘇|浙江|安徽|福建|江西|山東|河南|湖北|湖南|廣東|廣西|海南|重慶|四川|貴州|云南|西藏|陜西|甘肅|青海|寧夏|新疆|香港|澳門|臺灣",data$position))
統(tǒng)計(jì)各省份發(fā)震次數(shù)制成條形圖,如圖2 所示。
圖2 全國各省份近一年發(fā)生3.0 以上震級頻次
將清洗后的數(shù)據(jù)導(dǎo)出:
使用ftp 將這兩個(gè)文件導(dǎo)出到window系統(tǒng)中。
(1) 繪制地震等級分布圖
打開網(wǎng)址https://me.bdp.cn,打開數(shù)據(jù)分析工具-BDP 個(gè)人版,注冊并登陸。
這里使用清洗后的data.xlsx 數(shù)據(jù),繪制地震等級分布,如圖3 所示。可以看出,新疆,四川,臺灣,西藏是發(fā)震分布最多的四個(gè)地區(qū)。
圖3 近一年地震分布
(2) 繪制地震發(fā)生詞云圖
繪制出全國各省份近一年地震發(fā)生詞云圖,如圖4 所示。同樣看出,四川,新疆,臺灣,西藏是出現(xiàn)頻率最高的四個(gè)詞語。
圖4 詞云圖
(3) 地震發(fā)生季度圖
如圖5 所示,繪制出季度圖。第三、四季度出現(xiàn)強(qiáng)震的幾率更大,西南、西北、臺灣發(fā)震頻繁且震級較大,深度較深,所以建議大家如果以后在這些區(qū)域發(fā)展要注意防震減災(zāi)。
圖5 近一年各個(gè)季度各省份最大地震
(4) 時(shí)間動(dòng)畫
應(yīng)用BDP 可以進(jìn)一步進(jìn)行分析,制作過去一年中發(fā)震地區(qū)震級分布的時(shí)間動(dòng)畫。如圖6 所示,顯示了2022 年9 月20 日發(fā)生地震位置的動(dòng)畫頁面。https://me.bdp.cn/api/su/C6D7R9LO 可以瀏覽完整動(dòng)畫。
圖6 一年中發(fā)震地區(qū)震級分布的時(shí)間動(dòng)畫
本文首先介紹了大數(shù)據(jù)可視化的歷史發(fā)展過程、定義及作用,在此基礎(chǔ)上,利用R 語言和BDP 對地震數(shù)據(jù)進(jìn)行可視化處理。經(jīng)過可視化分析,盡管目前還不能十分準(zhǔn)確地找到地震發(fā)生的規(guī)律,不過已經(jīng)通過對比分析,了解了地震高發(fā)地的分布以及震級的分布,為防災(zāi)、減災(zāi)、救災(zāi)工作提供了數(shù)據(jù)支撐,為開展工作進(jìn)行決策提供支持,為減少人們的生命財(cái)產(chǎn)損失提供了一定保障。地震預(yù)測是一項(xiàng)十分復(fù)雜的工作,面對地震的到來,唯一要做的就是沉著應(yīng)對,不拋棄,不放棄。