摘要:大數據時代,人們在旅游網站上的分享和評論成為旅游領域有研究意義的數據信息。要想在海量的游客評論中獲取有價值的信息成為了急需解決的問題。以海南省為例,運用LDA主題模型對旅游網站上的游客評論數據進行分析,對旅游平臺提供差異化旅游服務提供參考,對旅游目的地輿情監(jiān)測和提高相關旅游管理部門管理水平有積極的借鑒意義。
關鍵詞:游客評論;LDA主題模型;語義挖掘
中圖分類號:F724.6;F274;F592 文獻識別碼:A文章編號:2096-3157(2020)04-0119-02
一、引言
隨著社會經濟的發(fā)展和生活水平的提高,人們通過旅游來進行精神世界的享受和放松。為了出行的便利,人們通常都會通過互聯網進行先行規(guī)劃與旅游攻略設計,通過接收旅游網站上人們真實的反饋信息,事先便了解到旅游目的地的大致概況,為出游做好充分的準備。針對海量的旅游數據信息,進行消噪處理,并通過LDA主題模型對數據進行分析研究,可以及時掌握到游客的旅游訴求以及游客關注的熱點問題所在,為旅游平臺提供差異化旅游服務提供參考,為旅游管理部門提供有參考意義的決策信息。本文選取海南作為研究目的地,主要是考慮到海南是我國唯一的國際旅游島,研究海南的最終成果落地變現具有積極的社會實踐應用意義。
二、LDA主題模型
LDA(Latent Dirichlet Allocation),中文譯為潛在狄利克雷分布模型,是一種對文本數據的主題信息進行建模的方法。LDA主題模型引入超參數,是一個包含文檔、主題、詞匯的三層貝葉斯模型,展示了一篇文檔的結構,詞匯按照一定概率組合成主題,主題又按照一定概率組合成文檔。在文檔-詞匯分布的中間層提取出了主題信息。一篇文檔的詞匯矩陣通過主題模型表示,就是詞匯主題矩陣乘以主題文檔矩陣。對于生成的每一份文檔,文檔里面每個詞語出現的概率為:
p(詞匯|文檔)=∑主題p(詞匯|主題)×p(主題|文檔)
這個概率公式用矩陣來表示為:
三、主題建模與分析
1.數據采集及預處理
筆者選擇海南作為旅游目的地進行研究,通過八爪魚采集器爬行和抓取與海南旅游相關的游客評論數據,每條評論數據包括評論人、評論內容、評論時間。對采集來的游客評論數據進行清洗及規(guī)范化處理,把一些諸如“親親親親”“520520520”“666666”等無效評論進行刪除或規(guī)范化,并且手工修正一些錯別字等。做完這些基礎工作后,接著對采集來的內容進行中文分詞、去停止詞等預處理操作。
2.LDA主題建模
前期對數據進行清洗及預處理后,接著對采集來的評論數據建立LDA主題模型。在進行主題模型分析之前需要建立語料庫及確定最優(yōu)主題數。由于采集來的游客評論數據是由文字組成的,而要進行數學建模需要將語料轉化為矩陣來表達,因此構建了分詞的向量化矩陣。接著,通過主題困惑度的可視化,選擇圖形變化的拐點作為最優(yōu)主題解。圖1所示的是主題個數與主題困惑度的趨勢圖。圖2所示的是主題個數與對數似然值的趨勢圖。
從主題個數與主題困惑度的趨勢變化情況可知,隨著主題個數一直增長至30個時,主題困惑度直至11個主題數才開始趨于收斂水平,圖1中虛線所示的是主題困惑度趨勢線,隨著主題數的增加,主題困惑度逐漸趨于收斂。而根據整體主題個數與對數似然值趨勢變化情況可知,對數似然值先快速增長,后趨于緩慢,直至達到收斂水平,如圖2中趨勢虛線所示。故針對本批數據進行的主題分析整體最優(yōu)主題數為11個。
根據主題建模結果,總結出游客評論的主題內容如表所示。
3.LDA主題建模結果分析
通過主題建模結果整理出來的表1可知,游客比較關注的是“總體體驗”、“途牛三亞線路評價”、“三亞特色景點”、“攜程服務特色”、“住宿導游服務”、“驢媽媽景點服務”、“途牛服務特色”、“綜合服務方面”、“景點方面”、“餐食方面”及“行程安排”等11個主題。
游客在旅游過程中的一些發(fā)自內心的直觀感覺、感受諸如“不錯”“滿意”“開心”等構成了“總體體驗”這一主題?!巴九!薄叭齺啞薄皩>€”“幽默”等反映了游客在使用途牛平臺出行的時候的“途牛線路評價”主題?!皝嘄垶场薄叭齺啚场薄膀谥е迧u”等具有明顯地理標簽的詞匯反映了“三亞特色景點”這一主題?!皵y程”“導游”“不錯”“行程”等反映了游客在選擇攜程出行的時候所享受到的“攜程服務特色”主題。“酒店”“導游”“不錯”等一系列詞匯反映了游客出游過程中“住宿導游服務”方面的主題。“驢媽媽”“景點”“項目”等詞匯反映了游客選擇驢媽媽出游時候所享受的“驢媽媽景點服務”主題?!巴九!薄熬包c”“團餐”等詞匯反映了游客選擇途牛平臺所享受到的“途牛服務特色”主題?!皩в巍薄安诲e”“安排”“滿意”等一系列詞匯反映了游客出游的“綜合服務方面”主題?!熬包c”“風景”“景區(qū)”“景色”等詞匯反映了游客在出游過程中比較關注旅游“景點方面”的主題?!霸绮汀薄昂ur”“團餐”“套餐”反映了旅游過程中“餐食方面”的主題?!靶谐獭薄鞍才拧薄皶r間”“購物”反映了游客在出游時的“行程安排”方面的主題。
其中,途牛、攜程、驢媽媽作為數據采集平臺,在主題建模結果中也出現了與平臺相關的內容,從中可以感覺到游客對不同旅游平臺使用過程的評價。途牛和驢媽媽作為專業(yè)細分化的旅游平臺,途牛主要側重于團游方面,而驢媽媽主打的是自由行。因此,在主題內容歸類的時候,途牛團游方面的特色體現出來了,它更側重于“線路”方面的服務,而驢媽媽的用戶群體更關注景點方面信息也反映了它的自由行定位,更關注于“景點門票”方面的服務。攜程相較于途牛和驢媽媽所提供的服務更加全面,資源相對來說也更加豐富,因此相關的主題內容主要反映的是整體服務方面的情況。從主題模型的結果來看,三個旅游網站平臺所存在的差異確實也反映了不同平臺自身的旅游服務定位。
LDA主題模型統(tǒng)計出來的結果有11個主題,對11個主題進行歸類及整理發(fā)現,游客主要關注點集中在導游服務、住宿服務、旅游景點特色、旅途行程安排等方面。在導游服務方面,導游專業(yè)知識如何,是否風趣幽默、是否周到貼心等會影響到游客的直觀體驗及感受。在住宿方面,住宿環(huán)境如何,是否干凈舒適、是否服務周到等會直接影響游客的旅行滿意度。在旅游景點方面,景點環(huán)境如何,是否能給游客視覺盛宴、是否與時俱進的智能化體驗。在行程安排方面,行程安排是否科學合理,是否讓人覺得輕松愉悅、是否給人帶來意想不到的驚喜等體驗。
四、結語
以海南省為例,用文本語義挖掘方法中的LDA主題模型在海量的游客評論數據中提取出游客比較關注的主題,挖掘出潛藏在游客評論中的語義信息,對來海南旅游的游客評論有了整體以及客觀的了解。相關旅游網站通過主題挖掘出游客的需求后,可以更大差異化提供符合旅游網站發(fā)展自身定位的旅游特色服務,而相關政府管理部門可以適當引導輿論方向,并針對性地制定各項政策來促進海南旅游業(yè)的發(fā)展。
參考文獻:
[1]王航飛,賈素玲,李明偉.旅游網絡輿情主題分析:以澳門為例[J].中國管理信息化,2017,20(14):185~186.
[2]李光應.基于數據挖掘的桂林市游客滿意度分析[D].廣西師范大學,2017.
[3]張紹武,邵華,林鴻飛,等.基于主題模型的新疆暴恐輿情分析[J].中文信息學報,2018,(5):105~113.
作者簡介:
馮紹娜,海南軟件職業(yè)技術學院,助教,碩士;研究方向:電子商務及營銷。