馬妍
西安市近年來已成為各大網絡平臺上的網紅城市,西安市旅發(fā)委正在修改完善《關于加快民宿發(fā)展的三年行動計劃》,明確支持民宿業(yè)發(fā)展。本文從統(tǒng)計學角度出發(fā),采用文本挖掘方法進一步分析數據,將評論特征作為民宿業(yè)評價指標體系的二級指標,整理得到相應4個一級指標,同時對特征詞進行同義詞合并,歸納得到相應的三級指標,創(chuàng)新了指標的選取來源,構建的民宿業(yè)評價指標體系更具合理性和完整性。
近年來,我國居民消費水平不斷升級,旅游業(yè)已進入綜合發(fā)展階段,以共享經濟平臺為支撐的民宿業(yè)正逐漸占據著傳統(tǒng)住宿業(yè)的市場份額。與此同時,行業(yè)快速發(fā)展也帶來了一系列安全和管理等方面的問題。由相關數據可知,目前還未出臺民宿行業(yè)相關管理法律法規(guī),行業(yè)進入標準較低,很多人在缺乏前期準備的情況下進入民宿行業(yè),這使得少部分民宿衛(wèi)生不達標、安全性存在隱患與風險等。
全球經濟正處于增長困境中,新經濟這種新型經濟發(fā)展形態(tài)越來越受到關注。直至今日,由于通信技術和互聯(lián)網技術在全球范圍內快速發(fā)展,新經濟正改變著人們的生活習慣和生活方式,為世界經濟發(fā)展帶來動力。共享經濟,是指資源擁有者以獲取一定報酬為目的,在網絡共享平臺上將物品或服務使用權轉讓給他人,提高資源配置效率的一種經濟行為。目前,共享經濟已滲透進日常生活的多個領域,一部分傳統(tǒng)產業(yè)發(fā)展受到沖擊,主要體現在經營模式上,其中民宿業(yè)已從傳統(tǒng)電話預定方式轉變?yōu)橥ㄟ^各大民宿共享平臺進行網絡預定的模式,民宿業(yè)規(guī)模逐年擴大。
隨著居民消費水平升級,旅游不再局限于跟團游這種傳統(tǒng)出行形式,像自助游、探險游和靜態(tài)旅游等個性化新型旅游方式逐漸被游客所青睞。同樣,在旅行中越來越多的游客不滿足于傳統(tǒng)酒店住宿形式,希望體驗到有溫度有特色的住宿。民宿逐漸走進大眾視野,大眾消費習慣正潛移默化地被社會趨勢改變,整個民宿業(yè)正加速向前發(fā)展。目前,為明確支持民宿發(fā)展,西安市旅發(fā)委正在修改完善《關于加快民宿發(fā)展的三年行動計劃》,并啟動《西安市民宿發(fā)展規(guī)劃(2018-2022)》的編制,明確民宿發(fā)展總體目標和空間布局,打造不同特色、主題、檔次且有效銜接、互為補充的西安特色民宿。
本文以西安市民宿業(yè)在線評論數據為研究對象,應用大數據文本挖掘技術,從民宿業(yè)在線評論文本內容中提取影響民宿業(yè)發(fā)展的重要指標,基于詞云圖、情感語義圖、LDA模型和同義詞合并,建立西安市民宿業(yè)綜合評價指標體系。
數據來源
本文數據來源于小豬短租平臺。小豬短租于2012年成立,平臺主要為用戶提供民宿短期租賃服務,經過八年時間的發(fā)展已成為我國共享住宿業(yè)的代表企業(yè)。小豬短租平臺是一個專業(yè)的民宿網站平臺,有完善的服務售后體系,近年來正快速成長,數據量有保證,其在線點評具有良好的代表性。
數據采集
本文采用網絡爬蟲這種目前比較主流的方法,利用Python語言抓取數據,構建西安市民宿業(yè)評論數據庫。一般的爬蟲方法都是通過尋找網址規(guī)律模擬,向瀏覽器發(fā)送request請求,需要分析所有通信流程才能得到目標網址中的數據。通過上述流程獲取小豬短租網站中的西安市民宿業(yè)線上評論內容,共8200條。評論內容包括民宿名稱、總評分、地址、配備設施、房客姓名、評論時間、房客評論。
數據預處理
使用網絡爬蟲技術得到格式為csv的民宿業(yè)文本評論原始數據,由于原始數據中包含大量重復、冗余的無效數據而不能直接進行分析,若使用未經清洗的原始數據進行后續(xù)分析,產生的結果會不準確,出現這種結果的原因是因為其中存在無效數據。本文選擇Excel軟件使用篩選功能和查找功能對無效評論進行清洗。原始數據中訪客評論共有8200條,經過清洗后的數據為8177條。
基于可視化技術的特征分析
通常,我們更愿意處理由多個詞匯組合而成的文本,而不是由句子組合而成的,因此,需要進一步處理非結構化文本評論。本文使用Python語言中的nltk模塊和jieba程序包均可對文本進行分詞處理。由Python對民宿業(yè)文本評論按照上述過程進行分詞處理,然后統(tǒng)計民宿業(yè)評論分詞結果中的前50個高頻詞,發(fā)現出現頻率最高的三個詞分別為“房東”“房間”“方便”,對應的頻數為4308、3390、2728。
情感語義圖是一個有向圖,可以表示兩個物件之間的關系,它包含著許多結點和弧,一個結點表示一個概念或者事件,一個弧連接著兩個結點表示結點之間存在的關系網絡,因此,使用語義分析能夠直觀發(fā)現特征詞之間的關系,尤其關注情感語義圖的中心結點,進一步分析民宿業(yè)在線評論特征。本文通過ROST CM6軟件對西安市民宿業(yè)在線評論進行社會網絡語義分析。語義關系頻數表和語義關系圖可知,房東、房間、方便、干凈是重要的中心節(jié)點,特征詞與這兩個節(jié)點越接近,它們之間的聯(lián)系就越緊密,具體分析的內容如下:
1.以“房間”為節(jié)點,距離較近的關鍵詞有“方便”“位置”“交通”“整潔”“干凈”“舒服”“溫馨”“體驗”。說明民宿的地理位置、交通便利程度、衛(wèi)生情況、裝修環(huán)境和體驗感是房客選擇時考慮的關鍵因素。
2.相對于民宿而言,房東是民宿中比較重要的角色。以“房東”為節(jié)點,關鍵詞有“姐姐”“熱情”“滿意”“貼心”“問題”。其中,與“滿意”關聯(lián)頻數為393,與“問題”關聯(lián)頻數為253,說明房東為女性居多且服務態(tài)度熱情,對于民宿的環(huán)境和房東提供的服務,大部分房客持滿意態(tài)度,但是仍存在著一些問題需要解決。
3.“設施”“衛(wèi)生”和“問題”三個節(jié)點出現的頻率也比較高,說明設施設備配備情況、和衛(wèi)生情況備受關注,且在入住過程中可能伴隨著些許問題。可以將它們作為二級詞匯,它們也反映了民宿業(yè)發(fā)展的影響因素。
基于LDA主題模型的特征分析
在對文本評論進行可視化分析后,我們需要更進一步挖掘民宿業(yè)文本評論中的語義,而語義挖掘的工具就是主題模型。LDA主題模型在眾多主題模型中更為有效方便,此方法假定每個文檔對應一個不同的主題,并且每個主題與多個不同的詞相對應,然后根據每個文檔找到相應的主題分布,再依據每個主題找到里面所對應的詞。
根據以上的 LDA 主題模型的原理可以進行實際分析,本文利用Python中的gensim程序包進行主題模型分析,首先對民宿業(yè)在線評論數據進行文本預處理建立向量空間模型,然后使用gensim程序包對民宿業(yè)評論內容建立LDA主題模型。
一行表示一個主題,每個主題為了方便展示只輸出了權重最高的前8個特征詞,每個特征詞后的數字表示該特征詞所占權重。第二行的主題可以概括為房客對民宿“設備要素”方面的描述,其中權重最高的特征詞“熱水”后的0.431就是該詞條相對于該主題的權重。根據民宿業(yè)評論LDA建模結果可以看出房客主要關注的方面有:設施設備、地理位置、交通情況、周邊情況、衛(wèi)生情況、房東服務、價格等。
綜合以上三種方法可以看出基于可視化分析中詞云圖和情感語義圖提取到同樣的評論特征,為交通情況、設施設備、衛(wèi)生情況、裝修風格、服務態(tài)度和總體評價。對文本評論建立LDA模型所得的主題,相比于可視化分析結果,新增三個文本特征,分別為價格、安全、裝修風格。整理上述分析結果,提取到9個民宿業(yè)的在線評論特征,分別為交通情況、周邊情況、裝修風格、設施設備、服務態(tài)度、衛(wèi)生情況、總體評價、價格、安全。
本文使用Word2vector模型中的Skip-gram模型和K-means聚類方法對同義詞語進行匯總,得到西安市民宿業(yè)評價指標體系,如表所示。
國內多數學者建立民宿業(yè)評價指標體系,一般只含有兩級指標,并未細分二級指標得到相應的三級指標。本文建立的西安市民宿業(yè)評價指標體系細分到三級指標,能夠看出西安市民宿與其他地區(qū)民宿的具體區(qū)別,與其他學者建立的各地民宿業(yè)指標體系對比后發(fā)現西安市民宿業(yè)房客更關注民宿周邊環(huán)境,尤其是商業(yè)中心和餐飲服務。指標體系中二級指標“裝修風格”也是其他指標體系中從未出現的,說明西安市民宿裝修風格更加多元化,有日系、北歐、現代等多種風格,是西安市民宿特色之一。
(渭南師范學院 數學與統(tǒng)計學院)