馮娟 張雅麗 梁棟棟
摘要:由于常規(guī)的問卷調(diào)查方式獲取出游行為數(shù)據(jù)存在人為性和時間間斷性,耗資大,不能輕易地實現(xiàn)時空數(shù)據(jù)的可視化,導(dǎo)致研究者難以有效地分析人們的出游時空分布規(guī)律。該文以蕪湖市市民出游行為為研究對象,結(jié)合地理實體改進基礎(chǔ)的網(wǎng)絡(luò)爬蟲算法,構(gòu)建出游數(shù)據(jù)抓取模型獲得市民出游行為時空數(shù)據(jù)。并利用商業(yè)級圖表數(shù)據(jù)庫Echarts作為可視化工具研究對象,實現(xiàn)對蕪湖出游時空數(shù)據(jù)動態(tài)地圖的可視化。
關(guān)鍵詞:居民出游;時空分布;網(wǎng)絡(luò)爬蟲;Echarts;動態(tài)地圖
中圖分類號:TP302 文獻標識碼:A 文章編號:1009-3044(2017)31-0215-04
Research on the Temporal and Spatial Distribution of Residential Travel Based on Echarts— Taking Wuhu as the example
FENG Juan1,2, ZHANG Ya-li1,2, LIANG Dong-dong1,2
(1.College of Land Resources and Tourism ,Anhui Normal University, Wuhu 241003, China; 2.Geographical Data Research Center,Anhui Normal University,Wuhu City,Wuhu 241003, China)
Abstract: Because the conventional way of questionnaire to obtain data travel behavior has limitations and defects and also can not realize the visualization of spatio-temporal data.Its difficult for researcher to effectively analyze the temporal and spatial distribution of travel behavior of people. Taking Wuhu citizen's travel behavior as the research object, this paper constructs the travel data capture model which combines the geographical entity with the basic network crawler algorithm to obtain the citizen traveling behavior spatio-temporal data. And the commercial chart database -Echarts is used as the visualization tool to realize the visualization of the dynamic map of Wuhu travel spatio-temporal data.
Key words: Travel; spatio-temporal distribution; visualization; Echarts; web crawler;dynamic map
1 概述
隨著旅游業(yè)的興旺發(fā)展,越來越多的人選擇“走出去”。因此在這個錯綜復(fù)雜的龐大行為系統(tǒng)中,如何掌握人們出游行為規(guī)律為越來越多的學(xué)者關(guān)注。學(xué)者期望能夠通過實時掌握人們出游的動態(tài)演變規(guī)律,促進對當前旅游業(yè)的發(fā)展趨勢的研究,為旅游業(yè)進一步興旺,協(xié)調(diào)地發(fā)展提供科學(xué)的建議。由此可見出游行為時空分布規(guī)律的研究便在旅游系統(tǒng)中起到了舉足輕重的作用 [1-2]。但是目前有關(guān)的出游行為時空分布數(shù)據(jù)稀缺,而且常規(guī)的數(shù)據(jù)獲取方式已很難滿足和實現(xiàn)對人們出游行為時空規(guī)律的深入研究。本研究基于GIS時空數(shù)據(jù)挖掘技術(shù)構(gòu)建出游數(shù)據(jù)抓取模型獲取相關(guān)出游行為數(shù)據(jù),不僅使數(shù)據(jù)獲取實現(xiàn)客觀化、自動化,而且減少了傳統(tǒng)人工獲取數(shù)據(jù)的時間與經(jīng)濟消耗。對于復(fù)雜時空數(shù)據(jù)的可視化,本研究采用Echarts可視化工具實現(xiàn)時空數(shù)據(jù)可視化分析,并自動創(chuàng)建動態(tài)地圖。從不同的可視化效果中,可以探討蕪湖市市民出游時空數(shù)據(jù)分布規(guī)律。安徽省蕪湖市是省內(nèi)乃至全國的重要旅游地,是華東地區(qū)綜合交通樞紐。因此本次研究選擇蕪湖市市民的出游作為研究對象。
2 出游數(shù)據(jù)獲取方法及處理
傳統(tǒng)的網(wǎng)絡(luò)爬蟲機理是通過對一個或多個原始網(wǎng)頁URL進行訪問,得到初始的URL集合,在爬取進程中,從當前訪問網(wǎng)頁中獲取新的URL加入集合,符合停止條件則終止運行[3-4]。本研究主要通過將地理實體與基礎(chǔ)網(wǎng)絡(luò)爬蟲方式(Web Crawler)相結(jié)合作為搜索引擎的關(guān)鍵組成部分,實現(xiàn)頁面信息提取的自動化。通過網(wǎng)絡(luò)爬蟲方法從海量的網(wǎng)絡(luò)信息中解析得到蕪湖市出游時空分布的數(shù)據(jù)。圖1為數(shù)據(jù)獲取流程圖。
2.1 出游數(shù)據(jù)抓取模型
普通的網(wǎng)絡(luò)爬蟲技術(shù)抓取數(shù)據(jù)難以滿足獲取具有確定地理空間的特定屬性數(shù)據(jù)。因此本研究首先建立與蕪湖市出游相關(guān)的地理詞匯的網(wǎng)絡(luò)關(guān)鍵詞鏈接,在網(wǎng)絡(luò)爬蟲中,利用輸入帶有時空信息的關(guān)鍵詞,對網(wǎng)絡(luò)鏈接內(nèi)容進行文本匹配、時空數(shù)據(jù)探測與數(shù)據(jù)提取、頁面與時空數(shù)據(jù)相關(guān)度度量。當所有鏈接追蹤結(jié)束后,蕪湖市出游數(shù)據(jù)獲取工作同時結(jié)束。
出游數(shù)據(jù)抓取模型主要包括輸入?yún)?shù)、獲取流程、輸出結(jié)果三方面。
(1) 輸入?yún)?shù)
為了能最大限度獲取與市民出游行為的相關(guān)鏈接,根據(jù)蕪湖市人口出游的兩種主要交通工具以及出游的目的,在此以蕪湖市市民相關(guān)出游信息為例,輸入關(guān)鍵詞“蕪湖火車站”、“蕪湖汽車站”、“蕪湖旅游”。圖2為模型參數(shù)輸入界面
(2) 獲取流程
通過對關(guān)鍵詞進行搜索,抓取含有蕪湖市出游行為時空信息的鏈接。具體的流程為:首先利用網(wǎng)絡(luò)爬蟲技術(shù)搜索關(guān)鍵詞,同時還需要考慮到關(guān)鍵詞的分詞、每個分詞與網(wǎng)頁中標題、關(guān)鍵詞、內(nèi)容的匹配度,并且要兼顧空間數(shù)據(jù)是否存在。其實現(xiàn)方法不僅僅涉及普通網(wǎng)頁內(nèi)容下載及匹配,還包括時空信息的探測技術(shù)。圖3為模型啟動運行界面。
(3) 輸出結(jié)果
通過出游數(shù)據(jù)抓取模型得到如圖4所示,基于蕪湖市出游關(guān)鍵詞抓取的所有網(wǎng)絡(luò)數(shù)據(jù)鏈接。
2.2 數(shù)據(jù)抽取及處理
2.2.1 抽取出游信息
抽取時空出游行為數(shù)據(jù)主要通過讀取出游行為數(shù)據(jù)獲取模型中的鏈接集合,解析鏈接網(wǎng)頁中潛在的蕪湖市出游行為時空數(shù)據(jù)內(nèi)容。獲取網(wǎng)頁標題、文本,剔除噪聲信息。
2.2.2 對出游數(shù)據(jù)處理
先以單一鏈接為單位進行空間信息的提取,然后采用敏感詞匯過濾(DFA)算法解析得到的隱含蕪湖市出游數(shù)據(jù)的文本。敏感詞匯過濾算法是通過事件和當前的結(jié)果來獲取下一個結(jié)果,用遞歸的方式來獲取最終的結(jié)果。數(shù)據(jù)處理過程中把每一個地名看做事件,統(tǒng)計到地名的數(shù)量看成結(jié)果。統(tǒng)計結(jié)果如表1:
3 時空數(shù)據(jù)可視化工具-Echarts
3.1 時空數(shù)據(jù)可視化理論
實現(xiàn)出游時空數(shù)據(jù)可視化可以更好地幫助研究者掌握出游時空分布規(guī)律并挖掘相關(guān)信息??茖W(xué)計算機可視化是時空數(shù)據(jù)可視化的基礎(chǔ),時空數(shù)據(jù)可視化即地理信息本體在視覺上表達與分析,展現(xiàn)地理信息數(shù)據(jù)的時態(tài)性和可交互性[5-6]。由于其具有時間和空間數(shù)據(jù)動態(tài)性表達的迫切需求 ,可視化工具必須包含兩個特點[7]:①數(shù)據(jù)的動態(tài)更新和查詢;②可視化顯示的動態(tài)視覺感受,如靜態(tài)地圖中的視覺變量漸變而產(chǎn)生的動態(tài)感。
3.2 Echarts介紹
ECharts是一個純 Javascript 的圖表庫,當前流行的百度遷徙和百度大數(shù)據(jù)預(yù)處理,其數(shù)據(jù)可視化都是利用ECharts實現(xiàn),作為商業(yè)級數(shù)據(jù)圖表,能夠在PC和移動設(shè)備流暢的運行,兼容當前絕大部分瀏覽器,具有絕對的優(yōu)勢。
3.3 基于Echarts創(chuàng)建動態(tài)地圖
出游時空數(shù)據(jù)是存在時間維度和空間維度的數(shù)據(jù)集,普通的圖表不足以表達在時間序列上出游者的動態(tài)變化,利用ECharts編碼設(shè)計創(chuàng)建動態(tài)地圖可以言簡意賅地表示出在一段時間間隔蕪湖市出游數(shù)據(jù)變化,以便更好地發(fā)現(xiàn)蕪湖市出游時空分布規(guī)律,如圖5所示。
4 出游行為時空數(shù)據(jù)分布可視化
將出游時空抓取模型獲取到的2000年、2005年、2010年、2015年四個時段的蕪湖市出游時空數(shù)據(jù),通過Echarts可視化工具對此期間的蕪湖市市民出游流動方向及流量大小進行不同效果的可視化表達。
4.1 人口遷徙圖
圖6和圖7為蕪湖市出游人口遷徙圖,圖中直觀的地展示了從出發(fā)地(蕪湖市)到目的地(北京、上海、合肥、重慶等各地)的信息。遷徙圖中以15秒為一個動態(tài)數(shù)據(jù)加載周期,采用了外分層設(shè)色法。該方法是利用一定的顏色變化次序或色調(diào)深淺來表示蕪湖市人口出游頻次的大小,同時圖中標注的圓圈半徑越大表示通往該城市出游頻次越高。用戶可以通過鼠標自由控制地圖色彩的變化,并通過這種變化表現(xiàn)數(shù)值。遷徙圖可以實現(xiàn)數(shù)據(jù)分布展示的直觀性與形象性,尤其在展示出游流動方向上效果更佳。通過網(wǎng)絡(luò)資源信息的解析,利用遷徙圖表達2000年、2005年、2010年、2015年以蕪湖市為出發(fā)點去往各個城市的動態(tài)走向,這種地圖標注移動的效果既可以增加視覺感官度又可以幫助研究者實時的掌握人們出游的動態(tài)流向,解析出游行為的指向性與變化規(guī)律。在圖6和圖7中a、b、c、d四幅子圖都依次代表著2000年、2005年、2010年、2015年蕪湖市人口出游時空分布的人口遷徙圖。
4.2 散點地圖
圖8-圖11采用散點符號表示蕪湖市人口出游行為時空分布數(shù)據(jù),它的優(yōu)勢在于簡單明了地顯示出蕪湖市人口出游的目的地,如合肥、南京、杭州、重慶、南寧等。同時圖8和圖10兩幅散點地圖中時間屬性也以圖例(legend)的方式加載,方便選擇展示單一時間范圍內(nèi)的出游行為時空數(shù)據(jù)效果圖。圖9中散點符號大小和圖11中散點符號亮度值可以衡量人口出游頻次的高低,散點面積或亮度越大表示從蕪湖市出發(fā)到該城市人數(shù)越多。在圖8和圖10中a、b、c、d四幅子圖都依次代表著2000年、2005年、2010年、2015年蕪湖市人口出游時空分布各的散點地圖。
4.3 熱力圖
熱力圖是以特殊高亮的形式顯示蕪湖市出游目的地的區(qū)域分空間布及該去往該區(qū)域頻次的。它的優(yōu)勢在于可以直觀清楚地看到中國每一個區(qū)域?qū)τ趤碜允徍L客吸引力程度以及人們感興趣的焦點所在位置。這種效果圖無須分析報告數(shù)據(jù)就可以簡單直觀了解到游客的感興趣區(qū)域與出游人數(shù)的變化信息,對于沒有分析數(shù)據(jù)經(jīng)驗的用戶更是大有益處。在圖12中a、b、c、d四幅子圖都依次代表著2000年、2005年、2010年、2015年蕪湖市人口出游時空分布的熱力圖。
4.4 表達效果分析
總的來說利用動態(tài)地圖實現(xiàn)可視化表達蕪湖市出游行為時空數(shù)據(jù)有以下幾個方面優(yōu)點。
(1) 數(shù)據(jù)表現(xiàn)形式多樣,表達效果美觀,包含數(shù)據(jù)信息豐富,同時便于用戶進行數(shù)據(jù)查詢操作。
(2) 可以進行動態(tài)地圖標注,無級、無縫和動態(tài)變化的顯示出游數(shù)據(jù)值以及出游目的地,使得出游數(shù)據(jù)在地圖上展示清晰美觀。
(3) 實時更新顯示出游數(shù)據(jù),在海量的網(wǎng)絡(luò)數(shù)據(jù)更新的過程中可以不斷地獲取最新的蕪湖市出游行為數(shù)據(jù),取代舊數(shù)據(jù),讓信息表達更為準確。
5 結(jié)束語
本文以蕪湖市市民出游行為為研究對象,結(jié)合網(wǎng)絡(luò)爬蟲技術(shù)核心構(gòu)建出游時空數(shù)據(jù)抓取模型獲取出游行為數(shù)據(jù),可以實現(xiàn)對出游數(shù)據(jù)的實時更新,同時保證數(shù)據(jù)的客觀性與準確性。同時更著重對獲取的出游行為時空數(shù)據(jù)進行可視化研究,選取Echarts作為研究可視化效果的重要工具,通過一系列動態(tài)地圖展示時間與空間兩個維度的蕪湖市市民出游行為特征。實現(xiàn)不同風(fēng)格、不同類型的動態(tài)出游行為時空數(shù)據(jù)地圖。實現(xiàn)出游數(shù)據(jù)的時空可視化可以幫助旅游研究者甚至是沒有經(jīng)驗的用戶直觀的掌握人們出游行為的時空動態(tài)變化規(guī)律,同時也便于信息的挖掘與分析,減少復(fù)雜冗長的分析過程。
參考文獻:
[1] Pearce D. Tourism Development[M].Harlow,London&New York:Longman,1989:102-107.
[2] 吳晉峰,包浩生.旅游系統(tǒng)的空間結(jié)構(gòu)模式研究[J].地理科學(xué),2002(1):96-101.
[3] Csdn.網(wǎng)絡(luò)爬蟲,你知道多少? [Z]. 2007.
[4] 孫作 何舊輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識與技術(shù),2001(6):4112-4115.
[5] 岳志蘭.基于地理信息本體的語義轉(zhuǎn)換[D].山東大學(xué).2012.
[6] 李霖,苗蕾.時間動態(tài)地圖模型[J]. 武漢大學(xué)學(xué)報:信息科學(xué)版,2004(6):484-487.
[7] 鄭幸源,洪親,蔡堅勇,等.基于AJAX異步傳輸技術(shù)與Echarts3技術(shù)的動態(tài)數(shù)據(jù)繪圖實現(xiàn)[J/OL]. 軟件導(dǎo)刊,2017,16(3):143-145.
[8] 明日科技.Java從入門到精通[M].北京:清華大學(xué)出版社,2016.
[9] 葉楓,王志堅,李凌,等. 地圖可視化與常用工具的研究[J].水利信息化,2015(6):8-13+31.
[10] 高憲慧. 基于地理信息系統(tǒng)的時空數(shù)據(jù)挖掘研究[J]. 廣東科技,2013,22(12):160+106.