劉娟 廖慕婷
摘 要:為了更全面的了解在線旅游行業(yè)的現(xiàn)狀,本文從產(chǎn)品入手,通過(guò)Python爬蟲技術(shù),爬取了在線平臺(tái)途牛網(wǎng)八條代表性境內(nèi)外旅游產(chǎn)品線路的六個(gè)指標(biāo):出游人數(shù)、評(píng)價(jià)人數(shù)、價(jià)格、滿意度、景點(diǎn)個(gè)數(shù)、景點(diǎn)。據(jù)此從產(chǎn)品角度分析:產(chǎn)品出游行為結(jié)構(gòu);從用戶偏好角度分析:用戶出行偏好、用戶對(duì)各類產(chǎn)品的滿意情況。
關(guān)鍵詞:爬蟲;在線旅游產(chǎn)品;境內(nèi)外游;消費(fèi)偏好
中圖分類號(hào):F27 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ?doi:10.19311/j.cnki.1672-3198.2020.26.039
0 引言
在當(dāng)今社會(huì),如何利用互聯(lián)網(wǎng)和大數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)與實(shí)體經(jīng)濟(jì)的有效結(jié)合成為了重要的課題。通過(guò)大數(shù)據(jù)捕捉消費(fèi)者對(duì)產(chǎn)品的偏好、態(tài)度以及影響因素,商家能夠更好的抓住機(jī)會(huì),在行業(yè)中起到表率和領(lǐng)頭作用。另外,今年新冠肺炎的爆發(fā),全球的旅游行業(yè)都遭受到了嚴(yán)重打擊。本文針對(duì)今年上架的五月份產(chǎn)品的數(shù)據(jù)研究也可以作為疫情過(guò)后的旅游業(yè)的參考。
據(jù)此,將利用Python爬蟲技術(shù),爬取上架的途牛網(wǎng)2020年五月于廣州出行前往國(guó)內(nèi)外熱門地點(diǎn)的旅游產(chǎn)品數(shù)據(jù),通過(guò)細(xì)化出行方式分別得到評(píng)價(jià)人數(shù)、滿意度、價(jià)格等指標(biāo)并進(jìn)行對(duì)比分析。
1 數(shù)據(jù)來(lái)源及獲取
1.1 數(shù)據(jù)來(lái)源
一線城市旅游行業(yè)更加發(fā)達(dá),五月因?yàn)橛行¢L(zhǎng)假成了旅游旺季。由于網(wǎng)站只顯示當(dāng)前及以后的產(chǎn)品數(shù)據(jù)且商家一般會(huì)提前上架產(chǎn)品。因此本文將出發(fā)時(shí)間定位2020年,將選取的熱門線路出發(fā)地設(shè)置為一線城市廣州、時(shí)間設(shè)定為五月出行,并將目的地分別設(shè)置為途牛網(wǎng)搜索欄顯示的國(guó)內(nèi)熱門出行城市:云南、三亞,以及國(guó)外熱門出行城市:日本、泰國(guó)。同時(shí)將出行方式分別設(shè)定為自由行、跟團(tuán)出游兩種。根據(jù)以上設(shè)定爬取共752條旅游產(chǎn)品數(shù)據(jù)。
1.2 數(shù)據(jù)獲取
下面將以廣州——三亞跟團(tuán)為例,描述如何基于Python對(duì)途牛網(wǎng)數(shù)據(jù)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)。
1.2.1 尋找爬蟲入口
打開(kāi)途牛網(wǎng),按照上文描述對(duì)路線進(jìn)行篩,該頁(yè)顯示的網(wǎng)址(URL)就是爬蟲的處理對(duì)象。URL如下:
https://s.tuniu.com/search_complex/tours-gz-0-三亞/list-u202005/1
此網(wǎng)址就是廣州——三亞跟團(tuán)旅游產(chǎn)品的第一頁(yè)信息。觀察URL可得通過(guò)對(duì)URL最后的數(shù)字進(jìn)行循環(huán)便可實(shí)現(xiàn)網(wǎng)頁(yè)翻頁(yè),進(jìn)而爬取該線路的所有產(chǎn)品信息。
獲取處理對(duì)象后,需要做的就是利用Python的Re庫(kù)構(gòu)造一個(gè)請(qǐng)求來(lái)獲取處理對(duì)象即HTML的頁(yè)面信息。由于很多平臺(tái)為了阻止外界批量獲取自己網(wǎng)站的信息,所以會(huì)設(shè)置反爬蟲機(jī)制。因此本文在獲取網(wǎng)頁(yè)信息的代碼中增加一個(gè)請(qǐng)求頭,模擬瀏覽器的訪問(wèn)來(lái)解決這個(gè)問(wèn)題。
1.2.2 解析并提取旅游線路中所需數(shù)據(jù)
通過(guò)瀏覽器->更多工具->開(kāi)發(fā)者工具->Elements,分析本文所需的6個(gè)指標(biāo)對(duì)應(yīng)的標(biāo)簽,之后開(kāi)始使用BeautifulSoup庫(kù)進(jìn)行標(biāo)簽分析,并返回所有匹配到的結(jié)果。
1.2.3 爬取結(jié)果,本地保存
利用爬蟲按上述方式從網(wǎng)頁(yè)中提取8條旅游路線產(chǎn)品的所有數(shù)據(jù)后,將其以xlsx文件的形式進(jìn)行保存。
2 產(chǎn)品差異及消費(fèi)者偏好的實(shí)證分析
2.1 在線旅游度假產(chǎn)品出游行為結(jié)構(gòu)分析
由上面數(shù)據(jù)整理得到,所有產(chǎn)品線路出游方式中,在線旅游數(shù)有32%游客選擇自由行,68%游客選擇跟團(tuán)旅行??梢缘玫交ヂ?lián)網(wǎng)平臺(tái)在線路的規(guī)劃上更側(cè)重于跟團(tuán)出行。一方面是因?yàn)楦鷪F(tuán)出行,旅行社負(fù)責(zé)協(xié)調(diào)安排所有的酒店、餐廳、景區(qū)門票、導(dǎo)游、機(jī)場(chǎng)接送等,旅行社能夠輻射到所有涉及的商業(yè)板塊,獲取的收益更加客觀,也能充分調(diào)動(dòng)到所有的人力資源。另一方面,作為消費(fèi)者,跟團(tuán)出行節(jié)約了很多行稱安排的時(shí)間,由于出發(fā)前對(duì)旅游的整體預(yù)算已經(jīng)了然于胸,行程的費(fèi)用也更加可控,也避免了對(duì)當(dāng)?shù)厍闆r不熟悉而帶來(lái)的麻煩與失誤,安全性上更有保障。
以國(guó)內(nèi)游產(chǎn)品線路來(lái)看,上述現(xiàn)象更為明顯。跟團(tuán)出行的產(chǎn)品占了所有產(chǎn)品的76%,自由行占比24%。可見(jiàn),國(guó)內(nèi)旅游市場(chǎng)里傳統(tǒng)的跟團(tuán)出行還是占據(jù)了主要市場(chǎng)。個(gè)性化的自由出行產(chǎn)品還有很大的開(kāi)發(fā)空間。
以出境游產(chǎn)品線路來(lái)看,則是另外一幅景象。境外游產(chǎn)品中48%為自由行,52%為跟團(tuán)游,跟團(tuán)和自由行兩種產(chǎn)品占比十分相近。這是因?yàn)槿绻M(fèi)者選擇自由行,旅行社只需負(fù)責(zé)安排住宿與交通,不用安排導(dǎo)游隨行等額外服務(wù)。對(duì)于境外目的地,旅行社對(duì)境外景區(qū)、導(dǎo)游等溝通交流成本更高更不方便,因此自由行的安排更利于平臺(tái)。另一方面,部分選擇出國(guó)旅游的消費(fèi)者對(duì)國(guó)家較為了解,會(huì)更傾向于通過(guò)自由行的出游方式來(lái)節(jié)約成本。
2.2 在線旅游度假產(chǎn)品景點(diǎn)分析
利用Python的Jieba庫(kù)、Wordcloud對(duì)八條代表性旅游線路景點(diǎn)進(jìn)行詞頻分析并將結(jié)果可視化。根據(jù)Python整理八條代表性旅游線路出現(xiàn)最多的五個(gè)景點(diǎn)如表1所示,八條路線的TOP50總景點(diǎn)詞云如圖1。
通過(guò)表格及最直接的詞云圖可以看到,無(wú)論境內(nèi)外游,出游方式的不同也大大影響了景點(diǎn)的選擇。跟團(tuán)、自由行兩種產(chǎn)品在景點(diǎn)的安排上非常不同。跟團(tuán)游的產(chǎn)品對(duì)目的地景點(diǎn)的輻射更廣,能夠盡可能的去往更多的地區(qū)而不是局限于目的地的某個(gè)片區(qū)。相反自由行的產(chǎn)品在目的地的選擇上更趨向于某個(gè)較具的片區(qū),而且對(duì)具體景點(diǎn)的指向性更強(qiáng)。
兩者的不同在于,跟團(tuán)游由旅行社統(tǒng)一安排,在時(shí)間、交通工具安排上更加合理及節(jié)約時(shí)間,在不同景點(diǎn)之間的調(diào)度也更全面,能夠盡可能讓消費(fèi)者把目的地的不同面瀏覽到,盡管不可避免會(huì)存在景點(diǎn)瀏覽過(guò)于匆忙的情況。而另一邊,自由行更集中于某一地區(qū),并就特定地區(qū)的幾個(gè)著名景點(diǎn)進(jìn)行深度游玩,雖然瀏覽的景點(diǎn)不夠,卻能盡情沉浸在自己喜愛(ài)的觀光點(diǎn)中,對(duì)當(dāng)?shù)氐奈幕?、景點(diǎn)的了解會(huì)更加深刻。
2.3 在線旅游度假用戶偏好研究
2.3.1 在線旅游度假用戶出行偏好
從出游目的地來(lái)看,國(guó)內(nèi)游出游的人數(shù)遠(yuǎn)大于境外游。一是因?yàn)槲覈?guó)地幅遼闊,歷史源遠(yuǎn)流長(zhǎng),包含的名勝古跡數(shù)不勝數(shù),單國(guó)內(nèi)的旅游資源就十分之多;二是境外游價(jià)格較高,語(yǔ)言溝通不便,很大人文習(xí)俗也讓國(guó)內(nèi)消費(fèi)者不大習(xí)慣。
從出游人數(shù)來(lái)看,跟團(tuán)游依然是旅游市場(chǎng)的中堅(jiān)力量。在所有產(chǎn)品中,接近60%的消費(fèi)者更愿意選擇跟團(tuán)出游?;ㄙM(fèi)時(shí)間精力少,更安全的跟團(tuán)方式在如今更追求個(gè)性化定制的市場(chǎng)中仍能占據(jù)大半江山。當(dāng)然,自由行的發(fā)展不可小覷,隨著產(chǎn)品的改善,選擇自由行的人數(shù)有望能夠在明年突破50%。
不同于國(guó)內(nèi)游,在出境游上游超過(guò)60%的人選擇跟團(tuán)。在上文中可以看到旅游平臺(tái)產(chǎn)品數(shù)據(jù)中自由行產(chǎn)品與跟團(tuán)產(chǎn)品數(shù)量上并無(wú)差異,產(chǎn)品投入市場(chǎng)后,卻是自由行在市場(chǎng)上更受到歡迎,具體見(jiàn)圖2。
2.3.2 在線旅游度假用戶滿意情況
從數(shù)據(jù)來(lái)看,途牛網(wǎng)的消費(fèi)者對(duì)于總體的旅游產(chǎn)品滿意度較高。而且境內(nèi)外出游在跟團(tuán)、自由行兩種方式上的滿意度傾向十分一致。對(duì)比起自由行,消費(fèi)者在跟團(tuán)上的滿意度還是更高。經(jīng)過(guò)多年發(fā)展,跟團(tuán)游也在逐漸擺脫“低品質(zhì)、不合理低價(jià)、強(qiáng)迫游客購(gòu)物”的市場(chǎng)形象,高性價(jià)比、省心的優(yōu)勢(shì)也變得更加突出。
2.4 在線旅游度假產(chǎn)品指標(biāo)相關(guān)性分析
出游人數(shù),評(píng)價(jià)人數(shù)、價(jià)格、滿意度、景點(diǎn)個(gè)數(shù)這五個(gè)指標(biāo)提供了最直觀的產(chǎn)品特征,而探究指標(biāo)之間是否存在相關(guān)性也是進(jìn)一步了解產(chǎn)品的途徑。對(duì)于兩變量之間的相關(guān)性,一看相關(guān)系數(shù),二看相關(guān)系數(shù)的顯著性。下文以樣本量最多的廣州——云南跟團(tuán)產(chǎn)品為例來(lái)展示如何探究指標(biāo)間的相關(guān)性。
(1)目標(biāo):檢驗(yàn)五個(gè)指標(biāo)之間相關(guān)性是否顯著。
(2)假設(shè):H0:ρ=0;H1:ρ≠0。
(3)利用Python的Pandas庫(kù),進(jìn)行相關(guān)性分析,結(jié)果如表2和表3。
(4)利用Python的Scipy庫(kù),在顯著性水平0.05和自由度n-2=270-2=268下,求得t分布臨界值為1.97。
(5)從表2可以看到出游人數(shù)與價(jià)格、滿意度存在著弱負(fù)相關(guān)性,通過(guò)比對(duì)表3的檢驗(yàn)統(tǒng)計(jì)量可以看到結(jié)果均大于t分布臨界值1.97,所以拒絕原假設(shè),說(shuō)明出游人數(shù)與價(jià)格、出游人數(shù)與滿意度之間存在顯著的線性相關(guān)關(guān)系。
其余旅游線路指標(biāo)的相關(guān)性分析也可以用類似的方法來(lái)分析。從這八條代表性線路來(lái)看,出游人數(shù),評(píng)價(jià)人數(shù)、價(jià)格、滿意度、景點(diǎn)個(gè)數(shù)這五個(gè)指標(biāo)間關(guān)聯(lián)性不強(qiáng)。但值得注意的是,出游人數(shù)和滿意度、價(jià)格之間存在著顯著的弱負(fù)相關(guān)性。這說(shuō)明,同行出游的人數(shù)過(guò)高會(huì)降低消費(fèi)者的滿意度。人多意味著團(tuán)隊(duì)規(guī)模大,導(dǎo)游及其他服務(wù)體驗(yàn)感就會(huì)下降,游客之間意見(jiàn)不同更多,很多摩擦和不滿也隨之發(fā)生。另外一點(diǎn),同一個(gè)產(chǎn)品中出游人數(shù)多意味著旅途中一些安排的人均費(fèi)用低,所以人數(shù)多的大團(tuán)一般價(jià)格也會(huì)偏低。
3 結(jié)論與建議
本文結(jié)合目前國(guó)內(nèi)關(guān)于“互聯(lián)網(wǎng)+”旅游產(chǎn)品的相關(guān)文獻(xiàn),爬取途牛網(wǎng)八條具有代表性的境內(nèi)外不同出行方式的旅游產(chǎn)品。通過(guò)出游人數(shù)、評(píng)價(jià)人數(shù)、價(jià)格、滿意度、景點(diǎn)個(gè)數(shù)、景點(diǎn)六個(gè)指標(biāo),從產(chǎn)品本身、消費(fèi)者角度做出了多維度的分析從而對(duì)“互聯(lián)網(wǎng)+”旅游發(fā)展提出如下建議。
(1)對(duì)于國(guó)內(nèi)游,跟團(tuán)出行的產(chǎn)品在市場(chǎng)的產(chǎn)品占比過(guò)大,目的地景點(diǎn)的安排比較散。隨著國(guó)民經(jīng)濟(jì)的發(fā)展,大家對(duì)旅游產(chǎn)品的要求更高,精準(zhǔn)面對(duì)不同受眾的私人化產(chǎn)品——自由行有著更大的上升空間。以整合傳統(tǒng)優(yōu)質(zhì)資源為基礎(chǔ),通過(guò)對(duì)不同消費(fèi)者需求來(lái)合理定制產(chǎn)品路線,避免跟團(tuán)游里人員過(guò)多導(dǎo)致服務(wù)不到等情況。打造一體化、更精華、細(xì)節(jié)化的旅途服務(wù),以新的面貌向國(guó)內(nèi)旅游市場(chǎng)注入活力。
(2)對(duì)于境外游,自由行的熱度與跟團(tuán)不相上下。跟團(tuán)游在行程規(guī)劃后,應(yīng)該對(duì)用戶的行程、線路等進(jìn)行安全檢測(cè),提供境外風(fēng)俗、相關(guān)法律信息,提醒消費(fèi)者境外旅游風(fēng)險(xiǎn),提供相關(guān)安全防范措;擴(kuò)大與境外景點(diǎn)、酒店、導(dǎo)游的深度合作,為消費(fèi)者提供更具保障境外旅游體驗(yàn)。而自由行方面,從景點(diǎn)的分析來(lái)看,游客對(duì)于境外目的地的消費(fèi)需求越來(lái)越碎片化、多樣化,整合目的地碎片化元素的服務(wù)應(yīng)該得到加強(qiáng)。沉浸式的旅游體驗(yàn)也可以加入其中。
參考文獻(xiàn)
[1]范瓏.旅游者網(wǎng)絡(luò)消費(fèi)行為特征研究[J].旅游縱覽(下半月),2016,(03):22.
[2]艾瑞咨詢.2018年在線旅游平臺(tái)用戶洞察研究報(bào)告[Z].
[3]黃永祥.實(shí)戰(zhàn)python網(wǎng)絡(luò)爬蟲[M].北京:清華大學(xué)出版社,2019.
[4]郭麗蓉.基于Python的網(wǎng)絡(luò)爬蟲程序設(shè)計(jì)[J].電子技術(shù)與軟件工程,2017,(23):248-249.
[5]鄭聰.爬蟲在旅游滿意度網(wǎng)絡(luò)輿情調(diào)查中的應(yīng)用研究[J].無(wú)線互聯(lián)科技,2017,(24):110-112+127.