陳紀(jì)銘 卜曉
摘要:本文研究旅游輿情系統(tǒng)的設(shè)計(jì),以及數(shù)據(jù)采集與分析,為下一步研究奠定基礎(chǔ)。研究網(wǎng)絡(luò)輿情對(duì)推動(dòng)城市旅游良性發(fā)展具有現(xiàn)實(shí)意義。
[關(guān)鍵詞]旅游輿情數(shù)據(jù)采集數(shù)據(jù)分析
1引言
人們通過(guò)旅游網(wǎng)站可搜索熱門旅游城市的景點(diǎn)、酒店、美食、特產(chǎn)、攻略等信息,同時(shí)也會(huì)根據(jù)網(wǎng)友的評(píng)論,來(lái)對(duì)自己傾向的旅游地點(diǎn)進(jìn)行一個(gè)綜合的評(píng)估。旅游輿情對(duì)于城市旅游業(yè)的發(fā)展起著至關(guān)重要的作用,因此旅游輿情分析就成為了數(shù)據(jù)分析的熱點(diǎn)。對(duì)旅游輿情研究和分析,能清楚了解到網(wǎng)民的關(guān)注點(diǎn),以推動(dòng)城市旅游業(yè)獲得更好地發(fā)展。
網(wǎng)絡(luò)旅游輿情信息量大,無(wú)法完全依靠人工來(lái)獲取數(shù)據(jù)和分析數(shù)據(jù),所以必須以信息技術(shù)為依托,建立基于數(shù)據(jù)挖掘的城市旅游輿情分析系統(tǒng),以利于政府機(jī)構(gòu)及時(shí)決策參考。
2需求分析
基于數(shù)據(jù)挖掘的城市旅游輿情分析系統(tǒng),首先要抓取城市旅游業(yè)相關(guān)數(shù)據(jù),再將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù),并采用相關(guān)技術(shù)進(jìn)行數(shù)據(jù)分析。要抓取和分析的數(shù)據(jù)主要有:
2.1城市
進(jìn)入旅游網(wǎng),網(wǎng)民首先就是找到計(jì)劃去的城市,并且操作要高效。
2.2攻略
游客通過(guò)各種途徑搜索到其他游客的經(jīng)驗(yàn)帖,再制定適合自己的旅游路線。
2.3酒店
在旅行過(guò)程中,酒店必不可少。旅游網(wǎng)所提供的酒店信息相對(duì)詳細(xì),特別是游客對(duì)酒店的點(diǎn)評(píng)等級(jí)和分?jǐn)?shù),正是旅游輿情體現(xiàn)。
2.4餐廳
餐廳也是游客的重點(diǎn)關(guān)心對(duì)象。餐廳的營(yíng)業(yè)時(shí)間以及其他客戶的品嘗感受,也是游客選擇餐廳前要關(guān)注的。
2.5特產(chǎn)
游客返程時(shí)常會(huì)帶上當(dāng)?shù)靥厣a(chǎn)品作為禮物贈(zèng)送親友,所以特色產(chǎn)品的信息訪問(wèn)量極大。旅游網(wǎng)也提供了城市特產(chǎn)及介紹。
2.6特色食物
除去特色餐廳,特色街頭小吃等,更是受年輕一代的喜愛(ài)。
3系統(tǒng)設(shè)計(jì)
3.1總體設(shè)計(jì)
基于數(shù)據(jù)挖掘的城市旅游輿情分析系統(tǒng),主要包括兩個(gè)模塊:
一個(gè)是數(shù)據(jù)采集;另一個(gè)是數(shù)據(jù)分析。該系統(tǒng)的主要是抓取攜程網(wǎng)等網(wǎng)站上的各城市旅游輿情數(shù)據(jù)并進(jìn)行分析。
3.2相關(guān)技術(shù)
網(wǎng)絡(luò)爬蟲(chóng)以單一或者多個(gè)的原始網(wǎng)站為工作起點(diǎn),直到滿足所需的中斷要求才會(huì)停止工作。以城市數(shù)據(jù)采集為例,簡(jiǎn)介如下:
第一步是“抓取”,對(duì)所要爬取的數(shù)據(jù)進(jìn)行定位和查找。首先定義一個(gè)對(duì)象數(shù)組,然后選定頁(yè)面地址,通過(guò)一個(gè)字符串接收頁(yè)面內(nèi)容,然后將獲取的頁(yè)面內(nèi)容轉(zhuǎn)換成Document類型,接下來(lái)定位到指定的類,再找到對(duì)應(yīng)的文本內(nèi)容,最后遍歷所需數(shù)據(jù)。
第二步是“存”,首先連接到對(duì)應(yīng)的數(shù)據(jù)庫(kù),然后定義變量用來(lái)接收并創(chuàng)建表格,檢查表是否已存在,如果存在就先刪除,然后再重新創(chuàng)建,最后獲取的數(shù)據(jù)進(jìn)行儲(chǔ)存。
4系統(tǒng)實(shí)現(xiàn)
4.1數(shù)據(jù)采集
先采集有關(guān)數(shù)據(jù):
(1)城市數(shù)據(jù),包括城市名稱、首字母、城市名稱拼音等。
(2)攻略數(shù)據(jù),包括攻略名、攻略等。
(3)酒店數(shù)據(jù),包括店名、地址、開(kāi)店時(shí)間、簡(jiǎn)介、評(píng)分等。
(4)餐廳數(shù)據(jù),包括餐廳名稱、地址、營(yíng)業(yè)時(shí)間、客戶評(píng)論等。
(5)特產(chǎn)數(shù)據(jù),包括產(chǎn)品名、種類等。
(6)特色食物數(shù)據(jù),包括食品名稱、所.在城市、商店等。
然后,將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。
4.2數(shù)據(jù)分析
以北京市為例,我們先對(duì)北京市在攜程網(wǎng)的相關(guān)數(shù)據(jù)進(jìn)行采集,再對(duì)北京的旅游輿情數(shù)據(jù)具體分析。以下簡(jiǎn)介幾個(gè)分析情況:
4.2.1北京餐廳類型分析
北京餐廳類型分析,如圖1所示。
數(shù)據(jù)顯示:北京餐廳類型傾向于北京菜、快餐簡(jiǎn)食,面包甜點(diǎn)以及火鍋。這極大程度是與北京當(dāng)?shù)氐纳盍?xí)慣與口味有關(guān)。北京生活節(jié)奏快,口味相對(duì)較重,所以偏愛(ài)于快餐簡(jiǎn)食和川菜、粵菜、火鍋。另外北京作為國(guó)際大都市,也有很過(guò)文化美食交流,很多外國(guó)料理店入駐,這也吸引了游客的品嘗與駐足。
4.2.2北京餐廳評(píng)分分析
北京餐館評(píng)分分析,如圖2所示。
數(shù)據(jù)顯示:北京大部分餐廳的評(píng)分處于4分以上。處于中上等位置。但是評(píng)分等級(jí)較低的餐廳數(shù)量也較多,所以相關(guān)餐廳還需要繼續(xù)整改,做出相應(yīng)調(diào)整。
4.3.3北京酒店類型分析
北京酒店數(shù)據(jù)分析,如圖3所示。
數(shù)據(jù)顯示:北京酒店類型以經(jīng)濟(jì)型為主,舒適型為輔,豪華型、高檔型以及其他高端類別的酒店數(shù)量數(shù)量極少,只占全部數(shù)量的8%。
5結(jié)束語(yǔ)
通過(guò)本次的項(xiàng)目研究,我們將科學(xué)研究與社會(huì)環(huán)境與問(wèn)題緊密結(jié)合,真正做到將技術(shù)應(yīng)用在實(shí)處。網(wǎng)絡(luò)輿情研究,不單單抓取和存儲(chǔ),簡(jiǎn)單的分析也不足以反映我們所需的全部信息。網(wǎng)絡(luò)輿情分析是很多研究者和科學(xué)家正在探索和研究的問(wèn)題,因?yàn)榫W(wǎng)絡(luò)輿情不僅可以反映現(xiàn)在社會(huì)的一些現(xiàn)象,還可以給政府提供一些建設(shè)性思路;所以我們還要在此基礎(chǔ)上繼續(xù)研究和學(xué)習(xí)。
參考文獻(xiàn)
[1]郭功舉,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取輿情數(shù)據(jù)分析人的行為習(xí)慣[J],測(cè)繪通報(bào),2018(S1):289-291+295.
[2]丁勝鋒,楊紹輝,數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究[J].大學(xué)教育,2016(11):173-174.
[3]柳淑婷,基于社交網(wǎng)絡(luò)的輿情關(guān)鍵技術(shù)研究[D].吉林大學(xué),2017.
[4]付業(yè)勤。旅游危機(jī)事件網(wǎng)絡(luò)輿情研究:構(gòu)成、機(jī)理與管控[D].華僑大學(xué),2014.
[5]張書海?;赪eb數(shù)據(jù)挖掘的旅游者網(wǎng)絡(luò)用戶行為及用戶價(jià)值研究[D].廣州大學(xué),2016.