嚴榮 趙欣悅
摘 要:新疆作為“絲綢之路”經(jīng)濟帶核心區(qū),其文化旅游資源類型豐富且資源品質較高。近年來,新疆旅游業(yè)發(fā)展質量明顯提升,但由于旅游資源產(chǎn)業(yè)自主創(chuàng)新能力較弱等問題也影響著絲路新疆旅游資源高質量發(fā)展。本文從在攜程網(wǎng)上甄選的40個景區(qū)入手,借助LDA主題模型研究法,針對各景區(qū)的游客的評價進行分析,提取出21個評價維度,分析絲路經(jīng)濟帶核心區(qū)的旅游資源。
關鍵詞:文化旅游;“絲綢之路”經(jīng)濟帶;LDA主題模型
中圖分類號:F592.7 文獻標識碼:A
基金項目:自治區(qū)治疆方略理論與實踐研究重點課題“基于供給側改革視角下的新疆全域旅游經(jīng)濟高質量發(fā)展研究”(19ZJFLZ07);國家民委“民族地區(qū)參與‘一帶一路’建設研究-基于絲綢之路經(jīng)濟帶新疆核心區(qū)文化旅游發(fā)展視角”(2020-GMD-050)。
“絲綢之路”經(jīng)濟帶核心區(qū)位于中國向西開放的前沿陣地,其在地緣、政策、交通、經(jīng)貿、金融等方面具備較大優(yōu)勢。新疆是“絲綢之路”經(jīng)濟帶的核心區(qū),加快其開發(fā)建設有利于推進我國向西開拓的步伐[1]。將“絲綢之路”經(jīng)濟帶沿線城市的旅游競爭力作為一個模塊進行定量研究的文獻,是選擇“絲綢之路”經(jīng)濟帶旅游增長極的主要途徑,將為規(guī)劃“絲綢之路”經(jīng)濟帶的旅游發(fā)展提供理論支持,對當?shù)亟?jīng)濟的發(fā)展具有積極意義。
隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型最初由David Blei、Andrew Ng和Michael I.Jordan于2003年提出,是一種非監(jiān)督機器學習方法,用于發(fā)覺文檔中潛在的主題信息[1]。該模型屬于生成模型,認為文檔是由多個主題依據(jù)概率分布混合生成,而文檔由詞語依據(jù)概率分布生成??捎靡韵鹿奖硎荆?/p>
具體的分析流程如圖1所示,θ表示主題——文檔模型,即每個文檔下主題的多項式分布,α為其先驗參數(shù);φ表示詞語——主題模型,即每個主題下詞的多項式分布,β為其先驗參數(shù)。在圖1中,T表示主題數(shù),D表示文檔數(shù),Z為主題集合,W為詞匯集合。LDA生成文檔的過程是:從概率模型θ中選擇一個主題Z,在主題Z中對應的概率模型φ中選擇詞語W,不斷重復Nd次,直至生成全部文檔集合。本文采用Python中的Gensim工具包來實現(xiàn)旅游文本的主題提取[2]。
(一)數(shù)據(jù)采集
攜程旅行網(wǎng)是中國最大的在線旅游平臺,其發(fā)展規(guī)模占中國在線旅游市場一半以上。截至2020年8月,攜程旅行網(wǎng)的用戶量已經(jīng)超過4億人,每天產(chǎn)生超過100TB的數(shù)據(jù)量。該研究選擇以攜程旅行網(wǎng)為數(shù)據(jù)來源,采用網(wǎng)絡云爬蟲軟件八爪魚選取新疆熱門旅游景點(即評論量超過100條的景區(qū))的在線評論。最終從40個景區(qū)采集了32 289條評論,詳情如表1所示。
(一)數(shù)據(jù)預處理
為了準確識別新疆旅游資源維度,該研究對數(shù)據(jù)進行了全面的預處理。首先是剔除重復評論,然后采用Python中工具包進行分詞,最后是進行詞性識別與選擇。從表現(xiàn)形式來看,旅游資源可以分為兩類:靜態(tài)旅游資源和動態(tài)旅游資源。靜態(tài)旅游資源主要是目的地景觀和文化內涵,如湖泊、草原、民俗文化等,多由名詞來表示;動態(tài)旅游資源主要是當?shù)芈糜位顒?,如騎馬、攝影等,主要由動詞來表示。該研究為進一步有效清洗數(shù)據(jù),僅保留了在線評論中的名詞和動詞。此外,由于地區(qū)名稱與景區(qū)名稱僅僅表示方位,對旅游形象不產(chǎn)生影響,將其做剔除處理。
(三)分析結果
通過LDA主題模型分析,共提取出21個評價維度。每個評價維度有10個反映其特征的主題詞。而這10個主題詞是資源評價維度命名的依據(jù)。各維度命名的基本流程為:首先由一名專家依據(jù)主題詞對各維度進行命名,然后由另一名專家進行修改并確定最終名稱[3](表2)。
根據(jù)LDA主題模型分析結果可以發(fā)現(xiàn),新疆旅游資源主要體現(xiàn)在當?shù)鼐用竦拿袼咨?、自然景觀、歷史遺跡等方面。此外,新疆旅游資源評價維度還包括旅游購物、邊境口岸以及神話傳說3個維度。
從游客感知的角度來看,游客整體上表現(xiàn)出了十分積極的態(tài)度,游客感受到的普遍為優(yōu)美的自然風光、恬靜的民俗生活以及厚重的歷史文化。然而,從旅游資源的表現(xiàn)形式來看,卻反映出存在一定的隱患。新疆旅游吸引力的主要構成形式?jīng)Q定了游客的體驗方式,即主要以旁觀者的身份去觀察,故游客難以深度體驗旅游環(huán)境。這勢必會對游客的旅游滿意度以及重訪意愿產(chǎn)生一定的影響。
已有的旅游資源評價量表主要是從供給的角度(即旅游目的地所具備的旅游資源)并結合研究者的經(jīng)驗而構建。通過這種方式構建評價量表需要反復去打磨、驗證,周期較長。伴隨著游客需求的變化,旅游吸引物和旅游資源同樣是變化的,因此可能會忽略有價值的評價值維度。旅游目的地能夠獲得游客青睞的一個重要屬性是其獨特性,因此旅游目的地的培育及開發(fā)特色資源,難以用統(tǒng)一的量表去評價。
通過在線評論采用主題模型提取旅游資源的評價屬性能有效克服以上不足。為此,該研究將從在線評論中挖掘出的評價量表與專家組構建的評價量表進行對比分析。對比的評價指標為Jaccard系數(shù),計算公式如下:
在式(2)中,J表示Jaccard系數(shù),N(Dlda)為采用LDA主題模型從在線旅游評論中提取的旅游資源評價維度的數(shù)量,N(Dpr)為專家構建的旅游資源評價維度的數(shù)量。
Jaccard系數(shù)值越高,表明基于在線評論提取的評價量表與專家構建的評價量表的相似度越高。在該研究中,Jaccard系數(shù)為0.654,處于較高水平,表明二者均較為全面地覆蓋了新疆的旅游資源,能夠新疆的旅游資源進行有效評價。但與此同時二者存在差異(表3),與專家構建的評價量表相比,基于在線評論提取的量表缺少了名樹古木、公園、軍事遺址、石窟和民間節(jié)慶5個維度[4]。由于采用LDA主題模型提取的屬性是基于大量的在線評論中提取的,能夠良好地反映消費者的偏好,因此這里我們有充足的理由認為,這5個維度盡管是新疆重要的旅游資源但未能獲得游客的青睞,在游客的評論中沒有充分體現(xiàn)出來。而生態(tài)景觀、民宿體驗、圖瓦村莊和特色美食是專家構建的量表中忽略的4個維度[5]。導致產(chǎn)生這一現(xiàn)象的原因主要有兩個。一是游客的旅游需求是動態(tài)變化的。近年來,國內部分地區(qū)環(huán)境污染嚴重,人們對良好的生態(tài)環(huán)境越發(fā)向往,因此新疆未經(jīng)大力開發(fā)的生態(tài)環(huán)境成為吸引游客的重要元素。民宿體驗引起游客廣泛關注的原因在于,當前中國游客需求發(fā)展日趨成熟,單調的觀光旅行已經(jīng)滿以滿足他們的需要,當?shù)氐拿袼孜幕瘜τ慰蛠碚f越來越具有吸引力。而民宿則是游客親近當?shù)匚幕淖顬楸憬莸姆绞剑虼私陙砻袼蕹蔀橛慰退蛲穆糜卧?。隨著自由行的興起,游客開始有更多的機會自主選擇飲食,美食隨之成為游客旅游體驗的重要元素。而圖瓦村莊這一維度被學者構建的量表忽略則是由另一個原因所致,即專家構建的量表更為抽象,盡管抽象意味著量表更具有概括性,但容易忽略特征元素。雖然專家構建的量表涵蓋了民俗村落,但圖瓦村莊是具有其獨特性的,與新疆主流的民俗村落有明顯差別。圖瓦村莊的獨特性引起了游客的關注,并在在線旅游評論中進行了重點說明,從而使得該評價維度得以從在線評論中提取出來。
根據(jù)LDA研究方法檢測出的數(shù)據(jù)可以看出,名樹古木、軍事遺址、石窟和民間節(jié)慶等景區(qū)應加大宣傳力度,創(chuàng)造獨有的絲路故事。而針對國內遭到嚴重破壞的生態(tài)旅游景區(qū),各景區(qū)應加強保護措施,保證生態(tài)旅游景區(qū)的可持續(xù)發(fā)展。各景區(qū)應借助絲路經(jīng)濟帶的優(yōu)勢,打造具有特色的景區(qū)文化內涵,加大開發(fā)力度,積極打造絲路經(jīng)濟帶核心區(qū)的一線旅游資源,提高旅游者對其各景區(qū)的旅游評價。
[1] 楊楠楠,張文中,楊習銘.絲綢之路經(jīng)濟帶核心區(qū)打造“內陸自由貿易港”研究[J].價格月刊,2020(9):63-69.
[2] 張月花,楊燕華,薛平智.絲綢之路城市旅游經(jīng)濟帶競爭力研究[J].生產(chǎn)力研究,2016(8):77-79.
[3] 蔡青青.“絲綢之路經(jīng)濟帶”背景下新疆自貿區(qū)建設研究[J].湖北科技學院學報,2019,39(6):1-6.
[4] 蘇建軍,劉洋.絲綢之路沿線國家旅游資源分異特征及其影響因素[J].西北民族大學學報(哲學社會科學版),2020(4):149-157.
[5] 陳霖.基于茶文化的絲綢之路旅游文化經(jīng)濟帶發(fā)展戰(zhàn)略研究[J].旅游與攝影,2020(3):48-49.