林 靜 Nadezda Sorokina
又松大學(xué)旅游管理學(xué)院,韓國大田 34606
隨著互聯(lián)網(wǎng)的快速發(fā)展和智能手機(jī)的廣泛使用,社交媒體成為人們獲取信息和分享經(jīng)驗(yàn)的主要來源。在旅行前,社交媒體上的旅游評論對潛在游客感知旅游目的地和制定旅游決策至關(guān)重要。大型旅游推薦網(wǎng)站,如貓途鷹(TripAdvisor)、繽客(Booking)、攜程(Ctrip)等,通過呈現(xiàn)數(shù)以萬計(jì)的評論,創(chuàng)造了大量價(jià)值信息,為游客提供了一個(gè)分享和比較旅游產(chǎn)品和服務(wù)的平臺(tái)。這些在線信息對學(xué)術(shù)界和旅游從業(yè)者都是極具價(jià)值的,首先,旅游評論是游客體驗(yàn)的自發(fā)呈現(xiàn),未受其他因素干擾,數(shù)據(jù)真實(shí)度高,游客更傾向于信任網(wǎng)絡(luò)評論,勝于商家宣傳;其次,專業(yè)人士可以通過處理評論數(shù)據(jù)來系統(tǒng)預(yù)測游客意圖和滿意度,為游客提供情報(bào),或幫助旅游主管部門提高客戶關(guān)系質(zhì)量和產(chǎn)品體驗(yàn)。
現(xiàn)有旅游文獻(xiàn)中很少有通過數(shù)據(jù)挖掘方法比較相似遺產(chǎn)地景區(qū)的研究,并且游客評論的特征可視化在商業(yè)應(yīng)用中仍處于起步階段。本研究試圖使用數(shù)據(jù)可視化工具來梳理兩個(gè)長城景區(qū)在國外游客評論中的顯著特征和特征關(guān)系來揭示兩者呈現(xiàn)的具體差異,服務(wù)游客及從業(yè)者。
在本研究中使用的主要理論是計(jì)劃行為理論(Theory of Planned Behavior)。計(jì)劃行為理論認(rèn)為人們是以社區(qū)(Community)為導(dǎo)向的,人們的行為意圖受到他人、群體和主觀規(guī)范的影響。主觀規(guī)范指個(gè)人對于是否采取某項(xiàng)特定行為所感受到的社會(huì)壓力,且一個(gè)人的可能行為取決于他/她的可用資源。由此我們可以歸納出:對同一行為已采取行動(dòng)者態(tài)度的分析可以預(yù)測潛在個(gè)體行為。例如,在社交媒體上發(fā)表評論是同伴影響的一種形式。網(wǎng)絡(luò)話語具有引領(lǐng)性、傳播性和影響性。網(wǎng)絡(luò)上對一個(gè)事物整體積極評論使個(gè)體也具有積極的評價(jià)傾向。據(jù)此在旅游層面上,過往游客對景區(qū)的正面評價(jià)可以正向影響潛在旅行者的行為意圖。但是由此我們發(fā)現(xiàn),過去相關(guān)領(lǐng)域?qū)W者對用戶生成內(nèi)容的研究大多集中在其因果關(guān)系上。
利用詞向量模型來進(jìn)行內(nèi)容分析是近年來隨計(jì)算機(jī)技術(shù)進(jìn)步而出現(xiàn)的一種探究詞義聯(lián)系的研究方法,其研究手段多樣。詞向量模型首先在高維空間中將單詞之間的連續(xù)相似性編碼為單詞向量之間的距離或角度,再進(jìn)一步依托非監(jiān)督向量建模,可捕獲并可視化詞語、句意關(guān)系,提供洞見。在其他領(lǐng)域,較多詞向量模型被開發(fā)出來以促進(jìn)語法關(guān)聯(lián)、機(jī)器翻譯、視覺交互比較和圖像描述。在旅游領(lǐng)域的相關(guān)具體應(yīng)用主要有:Stepchenkova等和Govers等使用CATPAC和WORDER分析程序,通過因子分析了解游客對目的地形象的認(rèn)知。Serna等利用詞向量技術(shù)通過用戶網(wǎng)絡(luò)生成內(nèi)容動(dòng)態(tài)描述巴斯克地區(qū)的認(rèn)知目的地形象。Sánchez Franco等將Pathfinder應(yīng)用到Booking.com的在線評論分析中,得出揭示最常見術(shù)語組織結(jié)構(gòu),并準(zhǔn)確指出客戶的核心關(guān)注。Banerjee和Chua運(yùn)用AntConc 3.2.2文本分析工具包進(jìn)行了雙向因子方差分析,從TripAdvisor.com的酒店評論中生成評級模式。但如前所述,運(yùn)用詞向量模型對相似遺產(chǎn)地景區(qū)進(jìn)行具體特征比較的論文還很少。本文的新可視化模型有助于進(jìn)一步推進(jìn)游客評價(jià)研究中的對比分析。
本文在查閱大量歷史文獻(xiàn)的基礎(chǔ)上,嘗試通過一種新的數(shù)據(jù)可視化工具來對網(wǎng)絡(luò)評論內(nèi)容進(jìn)行分析,找出群體影響個(gè)體的語義組群,采取定量和定性分析,實(shí)現(xiàn)內(nèi)容概括,進(jìn)而指導(dǎo)旅游出行。本研究旨在解決以下研究問題:第一,識別國外旅游者在兩個(gè)長城景區(qū)評論中的關(guān)注點(diǎn);第二,通過MST探索相應(yīng)焦點(diǎn)及彼此語義關(guān)系;第三,關(guān)注評論中形容詞術(shù)語如何在ThemeRiver中流動(dòng)并從中提取含義;第四,內(nèi)容文本化以利于提供旅游情報(bào),改善旅游服務(wù)。
本文作者使用Python爬蟲軟件爬取長城2009年11月到2019年10月TripAdvisor.com中的共計(jì)2.1萬篇英文評論。本文采用TripAdvisor.com旅游評論的主要原因是此網(wǎng)站評論可信度高,其內(nèi)部算法已過濾欺詐評論,通過歪曲事實(shí)來影響民意的可能性很低。
首先本文使用一個(gè)自然語言處理的Java開源工具包(LingPipe)進(jìn)行語言數(shù)據(jù)處理,可實(shí)現(xiàn)以下功能:主題分類(Top Classification)、命名實(shí)體識別(Named Entity Recognition)、句題檢測(Sentence Detection)、查詢拼寫檢查(Query Spell Checking)、興趣短語檢測、聚類、字符語言建模、數(shù)據(jù)庫文本挖掘、分詞、情感分析、語言辨別等。然后,本研究采用一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)(TF-IDF)將得分最高的前50個(gè)詞保存至excel文檔中,進(jìn)而采用Word2vec對文本進(jìn)行“向量化”,依托MST和ThemeRiver技術(shù)使用D3.js可視化圖庫進(jìn)行統(tǒng)計(jì)計(jì)算和繪圖。在實(shí)現(xiàn)MST、MSF和ThemeRiver的可視化描述后,作者再次檢索相關(guān)評論,進(jìn)行概括內(nèi)容的狹義內(nèi)容分析,確定觀點(diǎn)歸納的準(zhǔn)確性。結(jié)合上述成果,本研究將這兩個(gè)長城遺址景區(qū)的MST、MSFs和ThemeRiver轉(zhuǎn)化為摘要,此摘要被認(rèn)為是外國游客對景區(qū)的整體畫像,且更具可讀性、整體性。
這兩個(gè)景區(qū)的MST節(jié)點(diǎn)的大小代表詞頻。它們之間的關(guān)系由它們邊的長度來表示,關(guān)系越緊密,邊緣越短。這些文字、線條和MSF揭示了游客的關(guān)切。筆者依據(jù)八達(dá)嶺長城MST、MSF做出以下描繪:第一,【左塔或山頂】的【攀爬】是【陡峭而困難的】;第二,【火車、公共汽車或纜車】是主要交通方式;第三,【天氣和水】是【冷的】;第四,與【導(dǎo)游】一起【參觀或體驗(yàn)】【中國北京】,并【欣賞】【中國歷史】的【驚人和美麗】是值得【推薦】的;第五,【長城】是一個(gè)【值得推薦】但【擁擠和繁忙】的景區(qū);第六,【人們或游客】愛【拍照】。
筆者依據(jù)慕天峪長城MST、MST做出以下描繪:第一,【八達(dá)嶺和慕天峪】【人或游客】是【擁擠的】;第二,從【旅館】到【入口處】需要長【時(shí)間】的【公共汽車】;第三,【訪問或體驗(yàn)】【中國北京】了解【中國歷史】是【開心、驚人和美麗的】;第四,【攀登】【陡峭的臺(tái)階】是【值得】和【推薦】的;第五,【坐抬椅、纜車】到【山頂或左塔】,【乘坐雪橇】【下滑】是有【樂趣】的。
ThemeRiver可視化效果展示出以下兩個(gè)方面內(nèi)容:第一,“梨形流”是由當(dāng)月評閱次數(shù)形成的。它清楚地表明,4月(北京的春天)和9月(北京的秋天)是游覽長城的最佳月份,這源于長城屬于北溫帶半濕潤大陸性季風(fēng)氣候,夏熱冬冷;作為戶外文化遺產(chǎn),長城景區(qū)的游覽受季節(jié)影響很大。第二,八達(dá)嶺長城評論中提到的【險(xiǎn)峻、擁擠】和【震驚】最多,慕田峪長城評論中提到的【險(xiǎn)峻、擁擠】和【值得】最多。
本研究試圖擴(kuò)展現(xiàn)有的知識,運(yùn)用MST,ThemeRiver和內(nèi)容概括分析從英語游客的評論中考察兩個(gè)長城景區(qū)的評論關(guān)注點(diǎn)異同??偟膩碚f,我們發(fā)現(xiàn)兩個(gè)景區(qū)都“擁擠”和“陡峭”,但“震驚”和“值得”,最好的旅游季節(jié)是春天和秋天。長城天氣呈現(xiàn)出“夏熱”“冬冷”的特征。游客將參觀長城作為了解中國歷史和文化的一種方式。進(jìn)一步歸納這兩個(gè)景區(qū)的MST可以發(fā)現(xiàn)二者之間的區(qū)別:在八達(dá)嶺長城,游客更有可能選擇導(dǎo)游來提供旅游服務(wù)。在慕田峪長城,游客們對交通、抬椅、旱橇、纜車等設(shè)施都很滿意,這對他們登山很有幫助。進(jìn)一步的內(nèi)容分析我們可以得到,雖然兩個(gè)景區(qū)都“繁忙”“擁擠”“陡峭”,但八達(dá)嶺長城比慕田峪長城“更陡峭”“更擁擠”。八達(dá)嶺長城對游客體力有更高的要求。根據(jù)上述發(fā)現(xiàn),可以為每個(gè)景區(qū)寫一個(gè)總結(jié)。與TripAdvisor網(wǎng)頁上的“Popular Mentioned”相比,本文總結(jié)可以更好地揭示游客關(guān)注和體驗(yàn)感受。它還具有可靠性和可讀性的優(yōu)點(diǎn),內(nèi)容概括方式更優(yōu)化(見表 1、表 2)。
表1 基于本文研究的八達(dá)嶺長城概述
表2 基于本文研究的慕田峪長城概述
對于這兩處遺址景區(qū)來說,八達(dá)嶺長城和慕田峪長城在營銷推廣上都可以得到高度贊揚(yáng)。長城游客在評價(jià)景區(qū)時(shí)傾向于著墨有形特征,如物理設(shè)施、景觀、交通和人員的外貌。雖然這兩個(gè)遺址景區(qū)相似,但它們在特色和服務(wù)上呈現(xiàn)的差異可以相互借鑒和補(bǔ)充。仔細(xì)研究這些概述內(nèi)容的共性,可以洞察游客的行為意圖,促進(jìn)管理和市場營銷。
針對評價(jià)里談及的旅游旺季擁擠問題,管理部門可以針對游客數(shù)量提前預(yù)警和給出提示,并采取“限流”的措施來緩解。在如今的互聯(lián)網(wǎng)時(shí)代,游客可以通過APP提前訂票,管理者也可以通過APP系統(tǒng),提醒消費(fèi)者準(zhǔn)備登山用品,提醒游客在慕天峪長城登山時(shí)要多帶些飲用水,夏天注意防曬防暑,冬天注意低溫影響,通過發(fā)送相關(guān)短信,可以顯著提高游客滿意度。我們從總結(jié)中仔細(xì)研究它們的差異發(fā)現(xiàn),慕田峪長城因纜車和旱橇提供的極大便利而深受游客歡迎。事實(shí)上,八達(dá)嶺長城比慕田峪長城更陡峭,優(yōu)化類似服務(wù),一定會(huì)增加游客的便利,提高他們的體驗(yàn)滿意度。八達(dá)嶺長城的導(dǎo)游服務(wù)讓游客非常滿意。游客喜歡在導(dǎo)游的幫助下拍照和學(xué)習(xí)中國歷史。慕田峪長城管理者可以借鑒這一經(jīng)驗(yàn),積極完善自己的導(dǎo)游隊(duì)伍。此外,關(guān)于景區(qū)暴露的缺點(diǎn),景區(qū)瓶裝飲用水水價(jià)過高,也需要引起管理者注意,適當(dāng)采取行動(dòng)。
本文也存在一些局限性。首先,本文研究重點(diǎn)是最高頻詞匯,忽略了短語、句意分析。因此,這篇文章的相關(guān)術(shù)語與TripAdvisor“Popular mentioned”(熱門提及)存在一些差異。一些重要的景區(qū)特征或評價(jià)沒有顯示出來,將來的研究可以通過增加短語的方式來改進(jìn)。狹義的內(nèi)容分析可以應(yīng)用到MST的每個(gè)分支,以獲得更準(zhǔn)確的綜述,使總結(jié)更具描述性和文學(xué)性,本文并沒有展開討論。