【摘 要】在旅游過程中,網(wǎng)民總會遇到各種各樣的問題,網(wǎng)絡新媒體讓網(wǎng)民有了可以表達意見,傳播新聞的自由,形成網(wǎng)絡輿情。對于網(wǎng)絡輿情正確引導,還原游客意見構(gòu)成、聽取游客訴求,有利于及時發(fā)現(xiàn)問題、化解矛盾、釋放壓力,實現(xiàn)旅游市場的良性健康發(fā)展。本文利用數(shù)據(jù)挖掘算法對輿情中文本關鍵詞的提取提出了自己的看法。人工對比實驗證明了該算法的有效性,有較高的準確率和召回率。
【關鍵詞】旅游;關鍵詞;輿情
一、前言
網(wǎng)絡新媒體解放了人類的嘴巴,逐步消解新聞制造者與新聞閱讀者之間的鴻溝,讓每位新聞閱讀者都擁有在公共領域自由表達的平臺,打破傳統(tǒng)媒體”一對多”的傳播霸權(quán),不再是媒體一家之詞,新聞閱讀者也可以制造傳播新聞,形成了”多對多”的傳播格局,新聞閱讀者生產(chǎn)、新聞內(nèi)容共享、自由的意見交流為特征的網(wǎng)絡新媒體時代。
二、發(fā)現(xiàn)處理旅游網(wǎng)絡輿情的重要性
在旅游過程中,網(wǎng)民總會遇到各種各樣的問題,會聽到或看到各種各樣的現(xiàn)象,則不可避免的在網(wǎng)絡空間針對這些聽到或看到遇到的各種現(xiàn)象和問題發(fā)表意見,爭取權(quán)益,建言獻策,交流思想、抒發(fā)感情。通過新聞評論、論壇社區(qū)、博客空間、即時通訊、微博和微信等網(wǎng)絡新媒體形式,網(wǎng)民可隨時爆料、由此產(chǎn)生新聞話題。不同意見觀點進入網(wǎng)絡這個自由市場,有些尖銳的意見之間形成博弈、交鋒、碰撞,與此同時,網(wǎng)絡新媒體與傳統(tǒng)媒體互相對接、引用和報道,傳統(tǒng)媒體越來越將獲取新聞線索和素材的重點放在網(wǎng)絡新媒體上,改變著輿論的生成與傳播機制,被官方壟斷的話語權(quán)由于網(wǎng)絡新媒體的出現(xiàn)而逐漸被下放和分解,形成旅游網(wǎng)絡輿情。旅游網(wǎng)絡輿情已成為旅游過程中游客社情民意的集中體現(xiàn),是旅游管理方探察民情、傾聽民意的重要渠道。通過對旅游網(wǎng)絡輿情研究,還原游客意見構(gòu)成、聽取游客訴求,有利于及時發(fā)現(xiàn)問題、化解矛盾、釋放壓力,實現(xiàn)旅游市場的良性健康發(fā)展。旅游網(wǎng)絡輿情作為我國現(xiàn)階段最集中、最接近真實的游客民意代表,為旅游管理部門審視政策利弊得失,提供了成本低廉、反應快速的平臺。某種程度上,旅游網(wǎng)絡輿情代表的游客民意已成為旅游管理部門制定政策的民間智庫。
根據(jù)新華網(wǎng)網(wǎng)絡輿情監(jiān)測分析中心、武漢大學、中國社會科學院(2011)的研究結(jié)果顯示,地區(qū)網(wǎng)絡輿情事件的發(fā)生頻率和熱度高并不一定對該地形象產(chǎn)生負面影響,然而事件處理失當對地區(qū)形象的破壞卻是巨大的。旅游管理部門對旅游網(wǎng)絡輿情事件的應對是影響地區(qū)旅游網(wǎng)絡形象的關鍵。重視旅游網(wǎng)絡輿情、傾聽游客民意訴求、善用網(wǎng)絡建構(gòu)和提升旅游地區(qū)形象的理念,已被越來越多的地方所接受。
旅游業(yè)具有綜合性、關聯(lián)性、依賴性和異地性等特征,當政治、經(jīng)濟、社會、自然等危機事件發(fā)生時,旅游業(yè)是國民經(jīng)濟最易遭受沖擊的行業(yè)之一。隨著我國旅游產(chǎn)業(yè)進入大眾化的全面發(fā)展階段,國內(nèi)旅游規(guī)模迅速擴大、出入境旅游均有大幅增長,游客構(gòu)成更加多樣、利益訴求逐步多元,加上網(wǎng)絡新媒體和傳統(tǒng)媒體監(jiān)督報道的推波助瀾,提高了旅游危機事件的發(fā)生幾率和破壞程度。這會影響到旅游地區(qū)的聲譽,也在一定程度上危及整個旅游產(chǎn)業(yè)的安全。如上文所述,新媒體時代的危機事件在發(fā)生、演化和傳播上都與傳統(tǒng)媒體時代有巨大差異。因此,要科學有效的應對各類旅游危機事件、修復和維護政府、企業(yè)和個人的受損形象,采用網(wǎng)絡輿情的監(jiān)測方法和管理手段必不可少。
三、旅游網(wǎng)絡輿情中關鍵詞提取的主要方法
關鍵詞提取主要包括以下幾種類別:(1)在基于有監(jiān)督學習的關鍵詞提取算法中,詞頻,TF-IDF,N-Gram,詞長,出現(xiàn)位置,共出現(xiàn)頻率等常常被當做有效的特征加以使用。這種方法主要是對較多的訓練語料進行一定的訓練,在訓練中獲得各項系統(tǒng)的相關參數(shù)并建立一定的模型,最后利用這種模型對語料庫進行測試,從測試中檢測此種模型提取關鍵詞的效果,Kea算法是一個基于貝葉斯模型的非常有效的算法。基于“信息增益”(Information Gain)的英文關鍵詞提取系統(tǒng)是以實用性為最終目標的算法,稱為KPSpotter。(2)基于無監(jiān)督學習的關鍵詞提取。Mihalcea和Tarau受Page Rank的啟發(fā),把詞看做網(wǎng)頁,將詞與詞之間的語義關系看做鏈接,開發(fā)了Text Rank算法。他們提出了自己的短語合并算法。他們先將每個單詞作為基本元素參與迭代,迭代完之后,取出排名靠前的一部分詞作為候選。如果候選的詞在文中相鄰,則將他們合并成為短語?;谟斜O(jiān)督學習的算法充分利用了各種先驗知識,實驗結(jié)果表現(xiàn)較好。但由于過度依賴訓練數(shù)據(jù),使得實用性較差?;趫D的算法利用詞語間的語義相似度建立網(wǎng)絡,通過某種特定的規(guī)律構(gòu)建一個比較復雜的網(wǎng)絡模型,也取得了不錯的成績。很多工作都注意到了短語級別的關鍵詞的重要性,同時也提出了相應的方法。
四、本文提出的關鍵詞提取算法
給定閾值k, k 為最近鄰對象個數(shù)
輸入: 要聚類的數(shù)據(jù)集D,參數(shù)k
輸出: 聚類好的簇列表S
對數(shù)據(jù)集D,計算所有對象的距離矩陣M,得到詞語語義距離后,對所有詞語進行聚類。
方法: repeat 判斷輸入點是否為核心對象P,P∈D
IF P為核心對象{以對象p 建立一個新簇C, 對簇C 內(nèi)新加入的對象O, O∈C,遞歸將核心對象繼續(xù)聚到簇C 中,直到?jīng)]有新對象加入。
}
ELSE P為非核心對象{
如果P是一個邊界對象,P被標記為噪聲
}
until 所有輸入點都判斷完畢
repeat 針對所有核心對象的D領域所有直接密度可達點找到最大密度相連對象集合,合并密度可達對象。
util 所有核心對象的D領域都遍歷完畢
輸出聚類好的簇列表S={C1,C2,……Cm}
算法的主要思想是通過詞語間的語義距離,對詞語進行密度聚類,得到主題相關類,并簡化參數(shù)輸入, 同時能夠發(fā)現(xiàn)空間密度不同的簇。人工對比實驗證明了該算法的有效性,有較高的準確率和召回率。
五、總結(jié)
加強旅游行業(yè)網(wǎng)絡輿情引導機制的研究,應用信息化技術加強旅游業(yè)網(wǎng)絡輿情引導,營造一個有序、繁榮的旅游市場,隨著數(shù)據(jù)挖掘技術等大數(shù)據(jù)應用越來越多的融入到旅游的各管理領域,通過互聯(lián)網(wǎng),指導人們的旅游行為和旅行計劃,從而實現(xiàn)方便快捷的智能化感知和交互性旅游體驗。今后旅游業(yè)還應在網(wǎng)絡輿情預警分析的研究和應用方面進行進一步的探索。
參考文獻:
[1]李 鋒.目的地旅游危機管理:機制、評估與控制[D].西安:陜西師范大學,2008.
[2]吳曉梅.十年發(fā)展鑄輝煌—十六大以來旅游業(yè)發(fā)展述評之一[N].中國旅游報,2012-9-12.
[3]劉 棟,張彩環(huán).基于短語的中文標簽自動生成混合算法[J].計算機科學,2014.
注:
項目名稱:智慧旅游中的數(shù)據(jù)挖掘算法研究(項目編號:SKL2015C18)。
項目名稱:數(shù)據(jù)挖掘算法在智慧服務中的應用(項目編號:LYC15-16)。
作者簡介:
張貴紅(1973—),女,樂山師范學院計算機科學學院,講師,研究方向:數(shù)據(jù)挖掘。