楊冬梅 錢 鈺 孫 靳/文
大數(shù)據(jù)應(yīng)用是指通過對(duì)海量數(shù)據(jù)的儲(chǔ)存、挖掘與分析,發(fā)現(xiàn)事物之間的相關(guān)性,預(yù)測(cè)未來可能發(fā)生的事情,解決現(xiàn)有行業(yè)平臺(tái)無法解決的問題,指引行業(yè)未來發(fā)展方向。大數(shù)據(jù)具有4V 特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)。
大數(shù)據(jù)的核心價(jià)值是通過數(shù)據(jù)的碰撞,探索現(xiàn)有業(yè)務(wù)系統(tǒng)無法發(fā)現(xiàn)的問題及根源,挖掘市場(chǎng)機(jī)會(huì),探尋細(xì)分市場(chǎng),提高決策能力,創(chuàng)新企業(yè)管理模式和管理潛力,變革商業(yè)模式催生產(chǎn)品和服務(wù)的創(chuàng)新。大數(shù)據(jù)是看待現(xiàn)實(shí)的新角度,不僅改變了市場(chǎng)營(yíng)銷、生產(chǎn)制造,同時(shí)也改變了商業(yè)模式。
當(dāng)前旅游產(chǎn)業(yè)在信息化發(fā)展過程當(dāng)中,信息技術(shù)的利用主要體現(xiàn)在對(duì)消費(fèi)者的服務(wù)方面,對(duì)于整個(gè)產(chǎn)業(yè)而言,主要面臨以下問題:
(1)對(duì)于管理部門。無法實(shí)時(shí)掌握旅游目的地客流情況,不利于及時(shí)疏導(dǎo)客流提升旅游安全。同時(shí)無法對(duì)旅游目的地客流變化及客源情況進(jìn)行分析,難以為景區(qū)建設(shè)提供決策信息。
(2)對(duì)于景區(qū)及相關(guān)產(chǎn)業(yè)經(jīng)營(yíng)者。無法統(tǒng)計(jì)游客的信息,難以為營(yíng)銷策略及資源分配提供決策信息;無法實(shí)時(shí)了解客流量信息,不便于高峰期及時(shí)疏導(dǎo)客流。
基于以上問題,應(yīng)有效利用移動(dòng)基站實(shí)時(shí)采集用戶行為數(shù)據(jù),全方位接入相關(guān)部門、旅游產(chǎn)業(yè)、OTA運(yùn)營(yíng)商、百度等涉旅數(shù)據(jù),通過大數(shù)據(jù)挖掘分析游客行為特征,發(fā)現(xiàn)其中相關(guān)性,尋求市場(chǎng)趨勢(shì)的根源,為旅游發(fā)展提供新思路、新契機(jī),解決當(dāng)前的痛點(diǎn)、難點(diǎn),為后續(xù)發(fā)展規(guī)劃提供決策依據(jù)。
旅游大數(shù)據(jù)平臺(tái)的整體架構(gòu)分為四個(gè)部分,具體如附圖所示:
(1)基礎(chǔ)設(shè)施層。主要是為上層的數(shù)據(jù)整合和業(yè)務(wù)應(yīng)用提供基礎(chǔ)軟硬件環(huán)境保障。利用虛擬技術(shù),可以在一組物理機(jī)上通過合理的資源利用估算劃分并運(yùn)行多個(gè)虛擬機(jī),因而得以在多個(gè)環(huán)境間共享這臺(tái)計(jì)算機(jī)的資源。不同的虛擬機(jī)可以在同一組物理機(jī)上運(yùn)行不同的操作系統(tǒng)以及多個(gè)應(yīng)用程序。虛擬化是硬件與操作系統(tǒng)之間的一個(gè)抽象層,它將物理硬件與操作系統(tǒng)分開,打破以往一個(gè)操作系統(tǒng)必須配置一套硬件的傳統(tǒng)部署方法,從而提供更高的應(yīng)用系統(tǒng)資源利用率和靈活性。
(2)大數(shù)據(jù)整合與計(jì)算層。包含數(shù)據(jù)中心交換平臺(tái)及數(shù)據(jù)整合中心兩個(gè)部分,數(shù)據(jù)采集與交換平臺(tái)主要承擔(dān)數(shù)據(jù)的調(diào)度與采集工作,包括完成所有外部系統(tǒng)數(shù)據(jù)源采集處理的調(diào)度工作,合理劃分采集時(shí)間窗口,采集性能以及采集處理出現(xiàn)問題后的后續(xù)流程調(diào)度工作;同時(shí)完成采集數(shù)據(jù)的獲取、清洗、加載等工作,按照預(yù)先設(shè)定好的數(shù)據(jù)處理規(guī)則進(jìn)行數(shù)據(jù)的加工和處理。
平臺(tái)需要采集和存儲(chǔ)來自外部的海量數(shù)據(jù),同時(shí)還需要對(duì)各類數(shù)據(jù)進(jìn)行整合計(jì)算,實(shí)現(xiàn)深度分析和挖掘處理,因此,平臺(tái)通過構(gòu)建分布式文件系統(tǒng),實(shí)現(xiàn)并提供了6大支撐能力:支撐外部數(shù)據(jù)的并行高效采集、實(shí)現(xiàn)海量數(shù)據(jù)的分布式并行計(jì)算、支持海量數(shù)據(jù)的高速檢索查詢、建立實(shí)時(shí)流數(shù)據(jù)的采集與接入機(jī)制、支持高速的流式計(jì)算任務(wù)部署、提供高速的迭代運(yùn)算能力。
(3)數(shù)據(jù)治理層。主要完成整個(gè)平臺(tái)數(shù)據(jù)的正常維護(hù)和運(yùn)營(yíng)的管理功能,包括元數(shù)據(jù)與數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)安全管控,以及數(shù)據(jù)管理等模塊。
(4)業(yè)務(wù)應(yīng)用層。主要采用組件化、工具化、平臺(tái)化思想,降低開發(fā)成本,提升支撐服務(wù)效率,搭建服務(wù)彈性大、支撐隨需擴(kuò)展的應(yīng)用服務(wù)體系。
附圖 旅游大數(shù)據(jù)平臺(tái)整體架構(gòu)示意圖
系統(tǒng)數(shù)據(jù)架構(gòu)由數(shù)據(jù)源、數(shù)據(jù)采集交換平臺(tái)、數(shù)據(jù)整合與存儲(chǔ)、數(shù)據(jù)服務(wù)、數(shù)據(jù)應(yīng)用、數(shù)據(jù)管控以及數(shù)據(jù)歸檔七部分組成。數(shù)據(jù)以備份的形式從數(shù)據(jù)源傳輸進(jìn)入前置機(jī),數(shù)據(jù)采集交換平臺(tái)從前置機(jī)獲取數(shù)據(jù),并進(jìn)行清洗轉(zhuǎn)換加載入數(shù)據(jù)存儲(chǔ)庫(kù),不同的數(shù)據(jù)類型進(jìn)入不同的存儲(chǔ)平臺(tái),在數(shù)據(jù)整合與存儲(chǔ)層對(duì)數(shù)據(jù)進(jìn)行整合加工,根據(jù)不同數(shù)據(jù)粒度需要將數(shù)據(jù)分別加工入數(shù)據(jù)倉(cāng)庫(kù),同時(shí)由數(shù)據(jù)服務(wù)層對(duì)數(shù)據(jù)資源進(jìn)行封裝并向應(yīng)用層提供數(shù)據(jù)服務(wù)。整個(gè)數(shù)據(jù)處理全程由數(shù)據(jù)治理進(jìn)行管控,保證數(shù)據(jù)的質(zhì)量。
旅游大數(shù)據(jù)平臺(tái)在技術(shù)上實(shí)現(xiàn)了數(shù)據(jù)采集交換,采用文件/消息機(jī)制采集、日志/報(bào)文采集,并通過接口加密技術(shù)實(shí)現(xiàn)MD5和鏈路加密,保證數(shù)據(jù)安全。同時(shí)構(gòu)建Hadoop平臺(tái)及Storm平臺(tái)。其中Hadoop平臺(tái),通過HDFS和HBase,實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ),引入Hive、Mahout計(jì)算框架,實(shí)現(xiàn)海量數(shù)據(jù)計(jì)算和全量數(shù)據(jù)挖掘。Storm平臺(tái),基于流式處理,引入VlotDB和Redis內(nèi)存數(shù)據(jù)庫(kù),實(shí)現(xiàn)海量數(shù)據(jù)實(shí)時(shí)計(jì)算。平臺(tái)基于spring/struts/hibernate開發(fā)PURE基礎(chǔ)框架的跨數(shù)據(jù)庫(kù)平臺(tái)的一個(gè)包含用戶、角色、資源、權(quán)限管理和頁(yè)面定制的一個(gè)管理軟件,可作產(chǎn)品軟件開發(fā)的基礎(chǔ)安全管理框架,也可以配合單點(diǎn)登錄產(chǎn)品應(yīng)用于應(yīng)用集成。依托數(shù)據(jù)中心,平臺(tái)可實(shí)現(xiàn)數(shù)據(jù)計(jì)算和展現(xiàn)分離。
旅游大數(shù)據(jù)平臺(tái)將面向政府、面向產(chǎn)業(yè)、面向民生,分別提供不同的功能,以滿足不同的業(yè)務(wù)需求和服務(wù)需要。圖中展示的是根據(jù)目前重要的業(yè)務(wù)需求,規(guī)劃的若干功能和應(yīng)用系統(tǒng),未來還可以根據(jù)業(yè)務(wù)的需求,在數(shù)據(jù)平臺(tái)的基礎(chǔ)上,不斷拓展新的應(yīng)用。
面向政府提供綜合分析、預(yù)警預(yù)測(cè)、輔助決策功能,包含旅游大數(shù)據(jù)專題分析、旅游輿情管理系統(tǒng)、旅游大數(shù)據(jù)運(yùn)行監(jiān)測(cè)、OTA旅游行情監(jiān)控系統(tǒng)、旅游應(yīng)急管控系統(tǒng)、移動(dòng)執(zhí)法系統(tǒng)等應(yīng)用服務(wù)。
面向產(chǎn)業(yè),包括景區(qū)、酒店、旅行社、景點(diǎn)周邊的購(gòu)物餐飲等綜合場(chǎng)所,提供全面及時(shí)的市場(chǎng)分析報(bào)告、營(yíng)銷輔助,經(jīng)營(yíng)輔助等服務(wù),幫助他們更好地了解市場(chǎng)環(huán)境、經(jīng)營(yíng)狀況和游客喜好,從而幫助他們制定相關(guān)策略,促進(jìn)收入增長(zhǎng)。
面向民生,提供旅游資訊服務(wù)、手機(jī)App、誠(chéng)信管理等服務(wù),結(jié)合本地特色,讓游客能夠玩得方便,玩的放心,玩的享受,從而打造品質(zhì)旅游品牌。
旅游產(chǎn)業(yè)是為滿足旅游者食住行游購(gòu)?qiáng)柿囟纬傻囊贿B串橫向聯(lián)系的旅游供給行業(yè)構(gòu)成的產(chǎn)業(yè)鏈。涵蓋一個(gè)核心行業(yè):景區(qū)業(yè);六個(gè)支撐行業(yè):旅行社業(yè)、旅游餐飲業(yè)、賓館業(yè)、旅游交通業(yè)、旅游商品業(yè)、旅游康樂業(yè);若干個(gè)支持行業(yè):電信業(yè)、銀行保險(xiǎn)業(yè)、教育培訓(xùn)業(yè)、物流業(yè)、旅游智業(yè)、旅游協(xié)會(huì)等。在產(chǎn)業(yè)鏈中不斷累積著諸多旅游相關(guān)數(shù)據(jù),建設(shè)旅游大數(shù)據(jù)平臺(tái),就需要把這些數(shù)據(jù)及時(shí)有效地歸集整理,針對(duì)源數(shù)據(jù)初步分為十二大類,分別是:景區(qū)數(shù)據(jù)、賓館數(shù)據(jù)、旅行社數(shù)據(jù)、交通數(shù)據(jù)、旅游商品數(shù)據(jù)、交通、國(guó)土、公安、氣象、環(huán)保、通信、旅游在線服務(wù)商。
平臺(tái)的數(shù)據(jù)交換功能屬于基礎(chǔ)應(yīng)用支撐系統(tǒng),主要功能是負(fù)責(zé)旅游產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)與數(shù)據(jù)源以及基礎(chǔ)應(yīng)用層的應(yīng)用系統(tǒng)(諸如監(jiān)測(cè)系統(tǒng)、旅游移動(dòng)執(zhí)法系統(tǒng)等)進(jìn)行數(shù)據(jù)交換共享傳輸。交換平臺(tái)提供數(shù)據(jù)采集、數(shù)據(jù)加工處理、數(shù)據(jù)轉(zhuǎn)載以及服務(wù)的協(xié)調(diào)、路由、查找、注冊(cè)、治理等功能。同時(shí),可實(shí)現(xiàn)按照不同采集模式采集各個(gè)業(yè)務(wù)系統(tǒng)的基礎(chǔ)數(shù)據(jù),經(jīng)過加工處理將數(shù)據(jù)裝載到目的業(yè)務(wù)系統(tǒng)或數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)安全、高效的共享交換。
為滿足各系統(tǒng)間數(shù)據(jù)交換的需求,旅游數(shù)據(jù)交換平臺(tái)系統(tǒng)提供多種數(shù)據(jù)采集模式,每一種數(shù)據(jù)采集模式都可以配置不同的數(shù)據(jù)采集策略,包括采集頻率、采集順序等。不同的數(shù)據(jù)采集模式,具體包括:觸發(fā)器模式、時(shí)間戳模式、標(biāo)志位模式。
旅游數(shù)據(jù)交換平臺(tái)系統(tǒng)提供一些標(biāo)準(zhǔn)的數(shù)據(jù)處理模塊,以實(shí)現(xiàn)不同系統(tǒng)間自動(dòng)的數(shù)據(jù)格式轉(zhuǎn)換,包括數(shù)據(jù)庫(kù)數(shù)據(jù)、普通文件數(shù)據(jù)、XML格式數(shù)據(jù)間的互相映射和轉(zhuǎn)換,從而為各系統(tǒng)間的數(shù)據(jù)交換提供便利。同時(shí),旅游數(shù)據(jù)交換平臺(tái)系統(tǒng)提供圖形可視化的異構(gòu)數(shù)據(jù)格式轉(zhuǎn)換映射功能模塊,能夠?qū)⑤斎霐?shù)據(jù)和輸出數(shù)據(jù)進(jìn)行不同格式間的轉(zhuǎn)換(如結(jié)構(gòu)化的XML、非XML或Java對(duì)象數(shù)據(jù)),從而快速集成異構(gòu)應(yīng)用,無須考慮表示數(shù)據(jù)采用的格式。根據(jù)業(yè)務(wù)性能需要及加工量,可靈活選擇一種或多種加工方式,完成數(shù)據(jù)整合交換??梢詮腦ML、服務(wù)庫(kù)、數(shù)據(jù)庫(kù)、XPATH表達(dá)式中獲取參數(shù)進(jìn)行數(shù)據(jù)加工,具體如下:
函數(shù)加工:基于數(shù)據(jù)庫(kù)適配器,按照“誰(shuí)提供誰(shuí)加工”原則,采用數(shù)據(jù)庫(kù)函數(shù)方式完成數(shù)據(jù)加工。支持各種主流數(shù)據(jù)庫(kù)的SQL語(yǔ)法,包括但不僅限于支持日期型、計(jì)算型、轉(zhuǎn)換型等函數(shù)類型。
XML加工引擎:提供XSLT加工引擎,可方便集成其他XML加工引擎。并提供圖形化加工操作,通過拖拉拽方式完成加工配制,包括但不僅限于支持類型轉(zhuǎn)換型、數(shù)據(jù)合并拆分、刪減追加、計(jì)算、日期等加工類型。
服務(wù)加工集成:支持交換過程的流程干預(yù),對(duì)于一個(gè)交換流程可集成第三方服務(wù)實(shí)現(xiàn)數(shù)據(jù)加工。實(shí)現(xiàn)加工過程封裝為獨(dú)立的服務(wù)供數(shù)據(jù)交換流程調(diào)用。
消息加工集成:支持XML消息、XPATH表達(dá)式消息獲取參數(shù)加工,實(shí)現(xiàn)加工過程的靈活參數(shù)定義。
數(shù)據(jù)交換與共享需要以安全、可靠的傳輸通道鏈路來支撐,旅游數(shù)據(jù)交換平臺(tái)系統(tǒng)提供安全、可靠、高效的數(shù)據(jù)交換傳輸功能模塊,并通過持久化隊(duì)列機(jī)制、斷點(diǎn)續(xù)傳、事務(wù)、智能拆分壓縮等機(jī)制,保障系統(tǒng)間進(jìn)行數(shù)據(jù)交換傳輸時(shí)“不丟、不錯(cuò)、不重、不漏”。
旅游數(shù)據(jù)交換平臺(tái)系統(tǒng)提供的數(shù)據(jù)加載功能,實(shí)現(xiàn)了將加工處理后的數(shù)據(jù)根據(jù)業(yè)務(wù)系統(tǒng)需要進(jìn)行加載處理,如加載到其他業(yè)務(wù)系統(tǒng)中直接使用,以及加載到其他數(shù)據(jù)庫(kù)或文件中進(jìn)行存儲(chǔ)。
旅游產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)是旅游信息化的基石,承載著對(duì)所有應(yīng)用系統(tǒng)的數(shù)據(jù)支撐工作,包含數(shù)據(jù)源接入、數(shù)據(jù)加工、整合,數(shù)據(jù)挖掘分析等數(shù)據(jù)信息的全流程管理。平臺(tái)將來自景區(qū)、交通、旅行社等各個(gè)獨(dú)立信息系統(tǒng)的異構(gòu)數(shù)據(jù)根據(jù)其關(guān)聯(lián)性進(jìn)行抽取和組織,以多粒度知識(shí)數(shù)據(jù)表示方法從旅游信息概念集、概念關(guān)系集、資源實(shí)體集、資源元數(shù)據(jù)描述集等幾個(gè)方面建立數(shù)據(jù)融合后的知識(shí)表達(dá)和資源組織模型。在此基礎(chǔ)上,旅游大數(shù)據(jù)平臺(tái)以面向服務(wù)的模式實(shí)現(xiàn)智能信息處理、多媒體資源組織、通信、交易等公共服務(wù)的方法,實(shí)現(xiàn)旅游信息資源與服務(wù)的整合、信息內(nèi)容的智能管理以及知識(shí)與服務(wù)的共享。其數(shù)據(jù)采集、數(shù)據(jù)分析、應(yīng)用服務(wù)的全過程。
(1)旅游目的地名稱的識(shí)別。采用規(guī)則與統(tǒng)計(jì)相結(jié)合的識(shí)別方法完成異構(gòu)旅游信息抽取的關(guān)鍵是對(duì)旅游目的地名稱的識(shí)別。充分利用專家知識(shí)形成各種規(guī)則在模型中進(jìn)行綜合運(yùn)用,同時(shí)采用基于條件概率的判別學(xué)習(xí)模型。
(2)旅游行程中地域、時(shí)間等實(shí)體關(guān)系的自動(dòng)數(shù)據(jù)抽取。對(duì)于旅游行程中實(shí)體關(guān)系的自動(dòng)抽取,需設(shè)計(jì)實(shí)體關(guān)系抽取模型,完成實(shí)體關(guān)系的自動(dòng)抽取任務(wù)。預(yù)處理模塊對(duì)輸入的文本進(jìn)行分詞和詞性標(biāo)注,將沒有標(biāo)記的字序列轉(zhuǎn)變?yōu)樵~和詞性序列;旅游行程實(shí)體識(shí)別模塊抽取文本中的實(shí)體,將常用的目的地名稱和行程描述關(guān)鍵詞收錄到詞典中以提高識(shí)別率;語(yǔ)料庫(kù)將已識(shí)別的語(yǔ)料轉(zhuǎn)化,分類器完成特征的抽取和判別分類任務(wù)。
(3)旅游信息資源分類。目的是從提取到的信息中剔除不相關(guān)內(nèi)容,并按照地域或主題類別歸檔。
(4)旅游信息資源主題對(duì)象模型的建立。對(duì)于分類后的屬于不同主題類型的旅游信息資源,通過建立主題對(duì)象模型來挖掘其主題。首先將特定類別的旅游信息歸納為一個(gè)特定的主題對(duì)象,并建立對(duì)象模型,然后再根據(jù)模型從頁(yè)面正文中抽取相關(guān)信息,并填充到對(duì)象屬性中。對(duì)于主題對(duì)象模型的構(gòu)建,可先對(duì)收集到的數(shù)據(jù)進(jìn)行聚類分析,將主題信息進(jìn)行概略劃分,然后歸納出每一類主題的必要屬性。將主題類型和對(duì)應(yīng)的屬性結(jié)合起來,就構(gòu)建了一個(gè)旅游行程信息的主題模型,實(shí)現(xiàn)時(shí)則對(duì)應(yīng)于程序系統(tǒng)中的一個(gè)邏輯對(duì)象。
每一個(gè)主題對(duì)象均對(duì)應(yīng)一個(gè)特征詞集合和與此對(duì)應(yīng)的匹配規(guī)則,根據(jù)匹配規(guī)則和特征詞集合,對(duì)從網(wǎng)頁(yè)中抽取到的旅游行程進(jìn)行分類。如果旅游行程的內(nèi)容符合此特征詞集合對(duì)應(yīng)的規(guī)則,則將此行程歸類為此主題對(duì)象類型,生成程序?qū)ο螅缓蟾鶕?jù)模型屬性的對(duì)應(yīng)正則匹配表達(dá)式進(jìn)行單個(gè)匹配,將匹配成功的屬性填充到對(duì)象模型中。
數(shù)據(jù)處理是指對(duì)旅游信息資源組織模型進(jìn)行形式化描述,設(shè)計(jì)知識(shí)表達(dá)和資源組織主題圖的存儲(chǔ)、訪問與更新策略。
(1)采用多媒體旅游數(shù)據(jù)的語(yǔ)義描述,集成不同來源的多媒體元數(shù)據(jù)。
(2)從旅游信息概念集、概念關(guān)系集、資源實(shí)體集、資源元數(shù)據(jù)描述集等方面建立知識(shí)表達(dá)和資源組織模型。
(3)采用分布式存儲(chǔ)策略,建立主題圖倉(cāng)庫(kù),實(shí)現(xiàn)海量資源的組織管理;采用Web Service定義訪問接口,實(shí)現(xiàn)分布式環(huán)境下的互操作;采用SOAP實(shí)現(xiàn)主題圖同步數(shù)據(jù)的傳輸。
(4)知識(shí)表達(dá)和資源組織的可視化導(dǎo)航:通過設(shè)計(jì)群體用戶對(duì)資源的訪問規(guī)律,對(duì)興趣相似的用戶提供熱點(diǎn)主題、資源及訪問路徑的可視化導(dǎo)航。
數(shù)據(jù)挖掘是提供智能信息服務(wù)的關(guān)鍵技術(shù)。首先進(jìn)行數(shù)據(jù)建模,針對(duì)不同業(yè)務(wù)范圍的數(shù)據(jù)集合,通過相同的關(guān)聯(lián)列字段,進(jìn)行數(shù)據(jù)碰撞,在兩個(gè)數(shù)據(jù)源中選擇需要的數(shù)據(jù)列進(jìn)行數(shù)據(jù)拼接,圈定特定數(shù)據(jù)集。接著定義關(guān)系,對(duì)要素信息數(shù)據(jù)分析和研判,并在這些信息數(shù)據(jù)之間建立起內(nèi)在關(guān)聯(lián),幫助梳理各類分散的、獨(dú)立的線索,最后組織為清晰、有序的情報(bào)分析鏈才能最終成像。
旅游信息分類、個(gè)性化智能搜索、主動(dòng)信息服務(wù)和旅游行程導(dǎo)航等功能都要依賴于數(shù)據(jù)挖掘的結(jié)果。利用用戶信息、景區(qū)信息、旅游產(chǎn)品信息和用戶交互通信數(shù)據(jù)建立數(shù)據(jù)庫(kù),然后采用多種數(shù)據(jù)挖掘算法進(jìn)行設(shè)計(jì)并從不同角度對(duì)旅游信息進(jìn)行分析,最后建立景區(qū)景點(diǎn)、旅游產(chǎn)品和市場(chǎng),以及用戶特征的數(shù)據(jù)模型,通過對(duì)模型的評(píng)估和可視化,向用戶提供數(shù)據(jù)分析服務(wù)。
文檔中的知識(shí)獲取,對(duì)旅游數(shù)據(jù)的類別特征、聚集特性及主題模式進(jìn)行發(fā)現(xiàn)。通過特征聚類、信息增益等實(shí)現(xiàn)信息聚類,從中提取熱點(diǎn)主題。
由于旅游信息服務(wù)需要在大規(guī)模網(wǎng)絡(luò)范圍內(nèi)實(shí)現(xiàn)知識(shí)與服務(wù)的共享和分發(fā),因此利用Web服務(wù)在服務(wù)描述、發(fā)現(xiàn)、集成、訪問等多方面的開放性標(biāo)準(zhǔn),實(shí)現(xiàn)跨平臺(tái)、跨應(yīng)用之間的集成,將現(xiàn)有的各種旅游系統(tǒng)信息整合到一個(gè)統(tǒng)一的智能旅游資訊服務(wù)平臺(tái)。
平臺(tái)依托移動(dòng)用戶信令數(shù)據(jù),提供游客行為分析,平臺(tái)包括客流監(jiān)控分析、客流來源分析、客流軌跡分析等八大分析功能,可方便旅游管理部門全面、客觀掌握游客動(dòng)態(tài)信息,輔助景區(qū)制定科學(xué)的運(yùn)營(yíng)管理措施。
流量監(jiān)測(cè)分析建立了一套完整的游客識(shí)別體系,通過常駐人群、過路人群、旅游人群3個(gè)模型的組合應(yīng)用,來精準(zhǔn)識(shí)別景區(qū)游客,保證了輸出高質(zhì)量的數(shù)據(jù)。以客流分析為例具體內(nèi)容如下:
客流實(shí)時(shí)監(jiān)控是針對(duì)景區(qū)當(dāng)天各數(shù)據(jù)刷新時(shí)點(diǎn)/時(shí)間區(qū)間(刷新周期為60分鐘),在當(dāng)前所選景區(qū)或景點(diǎn)范圍內(nèi)的移動(dòng)手機(jī)用戶新增流量、離開流量、留存流量的統(tǒng)計(jì)分析。此客流監(jiān)控分析可支持排除區(qū)域常駐人群號(hào)碼(景區(qū)工作人員及常駐人群)。流量類型分為:總流量,國(guó)際流量,國(guó)內(nèi)流量,省內(nèi)流量,省外流量。系統(tǒng)將一天按60分鐘區(qū)間分為24個(gè)時(shí)間點(diǎn)/時(shí)間區(qū)間,分析結(jié)果以數(shù)據(jù)表格、圖表(線性圖、柱狀圖等)多種方式進(jìn)行展現(xiàn)。幫助旅游局和景區(qū)等相關(guān)應(yīng)用人員實(shí)時(shí)了解和全面把控景區(qū)流量情況。
客流趨勢(shì)分析是針對(duì)景區(qū)客流按天、周、月及自選時(shí)間區(qū)間(不超過15日)等不同時(shí)間周期內(nèi)的總客流量及日均客流量的分析,并提供相同時(shí)間周期的客流同比分析,同比周期有按天、周、月、任意兩個(gè)自選周期(均不超出15天)。流量類型同樣分為:總流量,國(guó)際流量,國(guó)內(nèi)流量,省內(nèi)流量,省外流量。分析結(jié)果同樣支持?jǐn)?shù)據(jù)表格、圖表(線性圖、柱狀圖等)多種方式進(jìn)行展現(xiàn)。
游客來源分析是對(duì)游新增游客整天分析的結(jié)果按國(guó)際國(guó)內(nèi)、國(guó)際國(guó)家、省或地級(jí)市的方式進(jìn)行的統(tǒng)計(jì),通過選擇一個(gè)時(shí)間段(日、多日、周、月、季、年):首先按國(guó)際國(guó)內(nèi)和市內(nèi)外對(duì)游客來源進(jìn)行匯總,對(duì)國(guó)際游客分析其熱點(diǎn)來源國(guó)際,對(duì)國(guó)內(nèi)游客分析其來源省份并向地市進(jìn)行下鉆分析。
留時(shí)長(zhǎng)分析是指平均駐留時(shí)長(zhǎng)分析,是對(duì)當(dāng)日離開景區(qū)游客的平均駐留時(shí)長(zhǎng)及相對(duì)前期的對(duì)比;分析結(jié)果同樣支持?jǐn)?shù)據(jù)表格、圖表(線性圖、柱狀圖等)多種方式進(jìn)行展現(xiàn)。
駐留時(shí)長(zhǎng)分布特征是對(duì)過去多天(固定值)的數(shù)據(jù)在該區(qū)域累積的停留時(shí)間按0-1時(shí)、1-2時(shí)、2-6時(shí)、6-24時(shí)、24-48時(shí)、48時(shí)以上幾個(gè)時(shí)間段進(jìn)行的統(tǒng)計(jì)分析和對(duì)比。統(tǒng)計(jì)周期包括日、周、月、季、年。
根據(jù)客流實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)的累積,隨著時(shí)間的推移,通過技術(shù)手段實(shí)現(xiàn)一段時(shí)間內(nèi)游客的活動(dòng)軌跡。在游客游覽軌跡分析基礎(chǔ)上,對(duì)熱門游覽線路進(jìn)行游客具體來源省份、來源城市及來源國(guó)家的分析,并形成熱點(diǎn)來源地排名分析。幫助旅游行業(yè)多方位了解游客,使旅游宣傳投放更有的放矢。