蔡汶興 李興東
摘 要:隨著旅游經濟的到來,游客們更加關注旅游體驗,本文采用BERT文本情感分析模型以及網絡文本分析方法,以蘇州拙政園景區(qū)為研究對象,爬取并整理攜程網中游客對景區(qū)的評論信息。利用Python軟件建立改進的BERT情感分析模型,訓練集與測試集M值達0.94,同時針對負面評論信息使用社會和語義網絡,分析游客的旅游體驗特征,對景區(qū)存在的問題提供一定建議。
關鍵詞:拙政園;文本情感分析;BERT;社會和語義網絡
中圖分類號:TP391.1;TP183 ?文獻標志碼:A
隨著國民經濟的日益提升,人們的收入以及消費水平也在不斷提高,越來越多的國人開始注重精神上的滿足,旅游業(yè)在國民經濟發(fā)展中的地位愈發(fā)重要。據文化和旅游部發(fā)布的《2019年旅游市場基本情況》,國內旅游人數超過60億人次,全年旅游總收入6.63萬億元,同比增長11%,占我國GDP總量的11.05%。伴隨著旅游業(yè)逐步進入新時代,游客們也更加注重旅行體驗,社交網站的蓬勃發(fā)展,使廣大游客更加傾向于采納他人在旅游網站中對景點的意見,以確定自己的旅行計劃。因此,借助網絡提取游客對景區(qū)的情感傾向和改進建議,對其他游客的出行以及景點日后的發(fā)展方向都具有重要意義。
目前,國內外學者對景點評論的研究興趣主要在情感傾向、旅游滿意度等方面,COHEN[1]研究了旅游體驗的幾種類型;RYAN[2]對影響旅游過程中的感知因素進行分析;PANG等[3]使用樸素貝葉斯分類和最大熵方法分析句子中的文本情感傾向;王煜涵等[4]針對Twitter文本建立基于卷積神經網絡的情感分類模型,分類效果對比傳統(tǒng)分類方法有顯著提升;HOCHREITER[5]提出循環(huán)神經網絡(recurrent neural network,RNN)模型,通過獲取句子之間的長期依賴關系,了解語義信息,從而分析文本情感;LI等[6]研究長短期記憶網絡(long short-term memory,LSTM)模型在情感分析任務中比標準RNN模型效果更優(yōu);ZHAI等[7]將BiGRU結合注意力機制,應用于在不同的數據集上訓練情感分析模型,效果較好。
國內學者主要對整體旅游市場傾向研究較多,但關于游客對景點的具體體會感受分析較少,故本文基于BERT模型對蘇州著名景點拙政園的相關評論進行情感分析,同時針對評論中的負面情感數據,建立網絡文本法進行研究。以期建立泛化能力較強的景區(qū)評論模型,對其他游客的旅行期待、拙政園景區(qū)未來的發(fā)展方向提供一定改進建議。
1 研究區(qū)域概括
拙政園[8]位于江蘇省蘇州市,作為我國四大名園之一,是江南古典園林的代表,同時也是我國首批5A級景區(qū)。整個園區(qū)以水為中心,處處體現著江南水鄉(xiāng)的韻味,以其布局的山島、竹塢、松崗、曲水之趣,被勝譽為“天下園林之典范”。拙政園景區(qū)分為東、中、西三部,把有限的空間進行分割,充分采用了借景和對景的造園藝術,建筑小巧玲瓏,整個園區(qū)顯得十分秀麗、雅致、幽靜,被稱為蘇州必去景點之一。
2 研究方法
目前基于中文文本情感分析的方法主要分為3類:第一是建立情感詞典的方法,此方法主要需要依賴人工構建情感詞典,方法較為簡單方便,但對前期建立的詞典的完整性要求較高,同時是基于詞復現的程度進行分析;第二是利用傳統(tǒng)機器學習的方法,主要有基于貝葉斯統(tǒng)計、支持向量機等模型,此類方法對人工標注的標簽依賴性較強,分類效果一般;第三是常規(guī)的深度學習模型方法,比如基于傳統(tǒng)RNN、LSTM等模型[9],此類方法通過搭建神經網絡模型,分析文本內部信息,但作為串行運行模型,處理效率低,同時只關注局部評論信息,對文本整體情感理解程度較差。
因此,本文提出基于變換網絡的雙向編碼(bidirectional encoder representations from transformers,BERT)模型的情感分析模型,在調整后的BERT預訓練模型基礎上,進行微調,構建文本情感分類模型,從而更好地掌握文本整體信息,提高模型準確性。
2.1 BERT模型
BERT是Google的Devlin J等在2018年提出的一種自然語言處理(natural language processing,NLP)領域的預訓練模型[10],是基于Transformer模型的改進。采用雙向Transformer中的Encoder模塊進行模型的搭建,由該層對輸入的文本信息進行特征提取[11],舍棄了傳統(tǒng)的NLP領域的本文處理方法,比如RNN、LSTM等此類模型的循環(huán)結構,有效地解決了模型無法并行處理以及文本的長期依賴問題。
BERT模型的核心思想與Transformer模型一致[12],通過結合文本中的每個單詞與其他單詞之間的聯系,去除距離的限制,將當前詞與句子中其余詞之間的依賴關系顯性的表示出來,充分的結合句子的上下文信息,更好的識別句子的語義信息,同時也可以達到并行處理的目的,其網絡結構如圖1所示。
模型輸入的編碼過程為3個向量的求和,其輸入形式如圖2所示,分別是針對輸入文本中,每個詞對應詞向量表示、位置信息編碼、段落信息標記。同時,添加兩個特殊符號[CLS]和[SEP],其中一般在文本首部添加[CLS],該特征可提取用于分類模型,[SEP]表示分句符號,用于斷開輸入文本中的兩個句子。
BERT模型的雙向網絡結構會使模型中的每個詞都包含該句中其他詞的含義,因此會使預測任務失去意義,為了解決這個問題,模型從輸入序列入手,創(chuàng)新性地提出了兩種解決方法:(1)建立Masked方式訓練模型,即針對輸入的訓練集數據,隨機的選取15%的詞進行轉化,其中對于該部分詞,80%的概念替換成[Mask]符號,10%的概念替換成其他任意詞,10%的概率保持當前詞。通過這種方式,讓預訓練模型對選取的詞進行預測。(2)通過上下文預測方式,隨機替換一些句子,利用BERT模型預測兩段文本是否為連續(xù)的文本,從而學習句子之間的關系。通過同時運行兩種任務,計算總體的損失值,使損失值降低完成模型的訓練過程。
在本文中,因為訓練文本數量較小,為了提高訓練效率,同時避免可能出現的過擬合現象,舍棄常規(guī)的BERT模型結構,而采用6層的Transformer架構搭建,編碼維度設置為384維,同時Multi-head設置為12,使用中文維基百科的語料庫重新訓練。使用該模型獲取后續(xù)輸入的詞向量,同時作為預訓練模型為后續(xù)網絡的輸入,微調后完成情感分類任務。
2.2 社會網絡和語義網絡分析
通過ROSTCM6軟件對評論文本進行社會網絡和語義網絡進行分析,對文本內容深層次挖掘,可以探索文本網絡中各個關鍵詞之間的關聯性[13],進而提取到文本中的關鍵詞重要性,借此可以研究游客在景區(qū)體驗中的主要關注點[14]。
2.3 數據來源
本文選取攜程網作為評論數據來源,使用八爪魚軟件,采集游客在2016年至2020年9月期間對拙政園景區(qū)的評論情況,同時刪除部分無效和重復等評論,共獲得2 600條評論,其中正面評價數據1 600條,負面評價數據1 000條。
2.4 相關評價指標
本文采用的模型評價指標為準確率以及模型M值,數值越大說明模型的分類效果越好。其中,準確率由模型分類正確的數據數量與數據集總數量比值獲得,M值常用來對二分類模型的效果進行評價,更好的驗證分類準確性,通過對比兩類樣本的分類概率與閾值之間的關系而求得,表示預測的正例排在負例前面的概率。
3 模型建立與結論
3.1 情感分析
基于上述訓練出的BERT預訓練模型,將80%的數據作為訓練集,對預訓練模型做微調,訓練本文最終需要的情感分類模型。
本文將訓練次數設置為300次,初始學習率設置為1e-6,為了防止過擬合,dropout設置為0.4,將每句中[CLS]對應的向量連接一層全連接層,利用sigmoid函數作為激活函數,對目標分類進行預測[15]。將模型在測試集和訓練集上的損失值作為模型損失值,模型在迭代次數267次時,損失值在前50次迭代期間未有明顯變動,模型已經達到穩(wěn)定,提前結束訓練,此時訓練集和測試集損失值下降至0.3。
初始模型將0.5設為分類閾值,計算模型準確率,變動情況如圖3所示,最終測試集和訓練集準確率均接近0.9,模型訓練效果較好。
考慮到在實際情況中,閾值為0.5無法很好的對評論情感傾向進行預測,本文設計閾值計算方法,通過重新定義閾值大小,使模型的分類效果達到最優(yōu),最終可以得到模型的較優(yōu)閾值為0.46。
得到模型在訓練集和測試集M值變動圖,如圖4所示。最終得到訓練集數據模型損失值為0.310,M值為0.937,測試集數據損失值為0.304,M值為0.944,故模型分類效果較好。
3.2 負面文本分析
為了對景區(qū)后續(xù)的改進方向提供一定建議,本文將負面評論進行單獨分析。利用ROSTCM6軟件,建立社會網絡與語義網絡,可以探究文本中關鍵詞之間的關系,詞匯連線越多,關鍵詞之間聯系越密切,得到圖5所示。
由圖5可以發(fā)現,蘇州、景點處于第一核心位置,門票、性價比、園林處于第二核心位置,失望、管理、不值、人多、服務等詞匯處于外圍。
通過語義網絡圖可以大致地了解到,對拙政園給與差評的游客主要體現在:對游園的觀感體驗較差,因為園林獨特的意境,需要靜靜觀賞,而景區(qū)常年游客眾多,人流擁擠,致使部分游客無法體會到園林之美;對景區(qū)門票的價格表示不滿,認為性價比不高,如同普通公園一般,部分游客更加傾向于頤和園的景色;景區(qū)還存在一定的管理混亂等情況。
通過對游客們提出的部分負面評價信息,園林可以考慮對園區(qū)人流進行一定控制,減少人流密度,同時也可以考慮延時閉園,分散游客入園時間等措施,從而提高景點舒適度;衡量景區(qū)觀感程度,調節(jié)門票價格,或者開發(fā)提高景區(qū)互動性的方法,提升園林魅力。
4 結語
本文利用BERT模型,基于中文維基百科語料訓練預訓練模型,同時針對拙政園景區(qū)的文本評論進行模型微調,作為本文的情感分析模型。模型的預測準確率較高,對長文本情感語料分析時,也可以更好的獲取情感傾向,得到更好的預測效果。模型改變了傳統(tǒng)的RNN網絡的串行方法,提取上下文關聯信息,建立并行訓練模型,對文本進行情感極性分析。同時,分析游客們提出景區(qū)存在的不足之處,對景區(qū)后續(xù)管理提供方向和建議。參考文獻:
[1] COHEN E. A Phenomenology of tourist experiences[J]. The Journal of the British Sociological Association, 1979, 13(2): 179-201.
[2] RYAN C.Ways of conceptualizing the tourist experience:a review of literature[J].Tourism Recreation Research,2010,35(1):37- 46.
[3] PANG B, LILLIAN L, SHIVAKUMAR V. Thumbs up: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Lan-guage Processing. Stroudsburg, PA: Association for Computational Linguistics, 2002: 79-86.
[4] 王煜涵,張春云,趙寶林,等.卷積神經網絡下的Twitter文本情感分析[J].數據采集與處理,2018,33(5):921-927.
[5] HOCHREITER S,SCHMIDHUBER J.Longs hort-termmemory[J].Neuralcomputation,1997,9(8):1735-1780.
[6] LI D,JIANG Q.Text sentiment analysis based on long short-term memory[C]//In Proceedings of IEEE International Conference on Computer Communication and the Internet.WuHan,China:IEEE,2016:471- 475.
[7] ZHAI P H, ZHANG D Y. Bidirectional-GRU based on attention mechanism for aspect-level sentiment analysis[C] //Proceedings of the 2019 11th International Conference on Machine Learning and Computing. New York, USA: ACM, 2019: 86-90.
[8] 黃發(fā)良,連亞飛.Senti-LSTM:一個基于遞歸神經網絡的情感分析模型[J].福建師范大學學報(自然科學版),2020,36(1):12-18.
[9] 周云鶴,楊瑩瑩,陳己任.明代私家園林理水藝術探析:以蘇州拙政園為例[J].綠色科技,2020(1):63-64,67.
[10]劉思琴,馮胥睿瑞.基于BERT的文本情感分析[J].信息安全研究,2020,6(3):220-227.
[11]趙曉錚.基于Attention機制的短文本情感分類方法研究[D].北京:北京工業(yè)大學,2019.
[12]方英蘭,孫吉祥,韓兵.基于BERT的文本情感分析方法的研究[J].信息技術與信息化,2020(2):108-111.
[13]王少兵,吳升.基于景點在線評論文本的游客關注度和情感分析[J].貴州大學學報(自然科學版),2017,34(6):69-73.
[14]韓百川,潘輝,魏文靜,等.基于網絡文本分析的鼓山風景名勝區(qū)游客旅游體驗研究[J].河南科技學院學報(自然科學版),2020,48(1):35- 41.
[15]謝潤忠,李燁.基于BERT和雙通道注意力的文本情感分類模型[J].數據采集與處理,2020,35(4):642-652.
(責任編輯:于慧梅)
Abstract: With the development of the tourism economy, tourists pay more attention to the tourism experience. This paper uses the text sentiment analysis model based on BERT and the web text analysis method, taking the Humble Administrator Garden as the research object, crawling and sorts out the tourists comments on the scenic spot in Ctrip. Python is used to build an improved BERT model, the M value of the training set and the test set is about 0.94, at the same time, in response to the negative comments of tourists, a social and semantic network was was used to analyze the characteristics of tourists travel experience and provide certain suggestions for problems in the scenic spot.
Key words: Zhuozhengyuan; text sentiment analysis; BERT; social and semantic network