• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向酒店評論的情感分析模型①

      2017-10-13 12:06:42李勝宇高俊波許莉莉
      計算機系統(tǒng)應用 2017年1期
      關鍵詞:評論者分析模型詞典

      李勝宇, 高俊波, 許莉莉

      ?

      面向酒店評論的情感分析模型①

      李勝宇, 高俊波, 許莉莉

      (上海海事大學信息工程學院, 上海 201306)

      提出一種基于文本特征的專門面向酒店評論領域的情感分析模型, 通過構建酒店評論領域專用情感詞典, 并結合酒店評論的句式特征、語法特點, 解決了通用情感分析模型應用在酒店評論領域時, 情感匹配不全面, 情感值計算不精確等問題. 本文實驗結果表明, 基于文本特征的情感分析模型能對酒店評論情感分析取得較好的分類效果.

      情感分析模型; 專用情感詞典; 句式特征; 語法特點; 酒店評論

      1 概述

      越來越多的企業(yè)覺察到網絡技術帶來的機遇, 并因此努力在戰(zhàn)略、營銷和技術上尋求變革的契機與前進發(fā)展的戰(zhàn)略. 客戶導向型的在線評論是企業(yè)獲得客戶反饋的關鍵來源. 企業(yè)從客戶的反饋內容和口碑信息中得到有價值的意見來提升自己的產品、改善服務, 以此提高自身競爭力. 因此, 若能徹底挖掘在線評論中的特征、情感信息并了解客戶的喜好偏愛, 對企業(yè)和消費者都將具有十分重要的意義.

      情感分析是指利用計算機分析隱藏在文本中的情感態(tài)度, 并將其分類為積極情感態(tài)度或者消極情感態(tài)度[1]. 情感分類系統(tǒng)可以幫助我們挖掘出隱藏在酒店評論中的用戶的情感傾向[2], 對消費者和決策者提供決策建議. 目前主要有兩種情感分析技術: (1)語義方法[3]. BingLiu等[4]人通過提取評論中產品的屬性及對于該屬性的評價來判斷評論的語義傾向. 史偉等[5]從語義的角度構建模糊情感本體, 對在線評論情感分析進行研究. (2)機器學習方法[6]. Whitelaw[7]等人對評論形容詞及其修飾語特征抽取, 采用SVM對評論進行褒貶分類. 王祖輝[8]等采用粗糙集方法挖掘在線評論中的固定搭配特征, 將其融合于SVM與Naive Bayes等情感分析模型中.

      繼續(xù)敘述之前, 現(xiàn)將酒店評論的六點明顯特征描述如下:

      (1) 總結詞眾多: 酒店評論者多會用“總之”、“總的來說”、“我覺得”、“我認為”等詞來總結對整條評論的情感, 是評論者情感值重點體現(xiàn)的文本部分.

      (2) 轉折詞出現(xiàn)頻率高: “但是”、“不過”等表總結的詞語在酒店評論文本中出現(xiàn)較一般文本次數(shù)多.

      (3) 關鍵詞出現(xiàn)頻率高: 許多評論者在評論的開頭或者結尾, 會提出建議性的句子, 標志此類句子的關鍵詞為“建議”, “推薦”等.

      (4) 評價詞眾多: 評價詞是酒店評論中出現(xiàn)最多的詞語類型, 體現(xiàn)了評論者對酒店的情感態(tài)度. 所以評價詞在酒店評論領域也要劃分為情感詞的范疇.

      (5) 句式口語化: 由于評論者眾多, 各個評論者的句式用戶習慣不同, 文本評論呈現(xiàn)出較高程度的口語化.

      (6) 網絡流行詞眾多: 酒店評論中通常會出現(xiàn)很多網絡流行詞語, 這些詞語沒有被收錄在通用情感詞典或者評論詞詞典中.

      目前的研究中專門針對酒店評論的情感分析研究還比較少, 不具有非常明確的針對性. 基于機器學習的方法需要大規(guī)模的語料庫, 往往不能深入到酒店評論的具體語義內部. 而現(xiàn)有的基于語義的方法, 只針對評論與普通文本的共性進行建模, 往往忽略了上文總結出的酒店評論尤為突出的六個特點.

      2 基于文本特征的酒店評論情感分析模型

      2.1 模型概述

      本文正式在酒店評論特征基礎上, 深入理解酒店評論文本的語義特點, 從而建立面向酒店評論的情感分析模型. 本文情感分析模型主要由以下幾部分組成, 如圖1所示.

      圖1 酒店評論情感分析模型

      該模型根據(jù)酒店評論特征, 先建立酒店評論領域的專用情感詞典, 再根據(jù)酒店評論文本特征設定酒店評論文本情感值計算策略, 最后根據(jù)計算出的正負情感分值對酒店評論分類.

      2.2 構建酒店評論領域專用情感詞典

      酒店評論領域專用情感詞典的構建, 基于HowNet情感詞典, 從兩個方面構建酒店評論領域專用情感詞典.

      構建酒店評論領域的特定詞詞集. 酒店領域特定詞在描述其他非酒店領域時沒有表現(xiàn)出情感態(tài)度, 但在描述酒店領域時卻表現(xiàn)明顯的情感態(tài)度. 這些詞只會或者大多數(shù)情況下會出現(xiàn)在酒店的評論中, 而在其他領域不會或者極少出現(xiàn)[9], 基于特定詞的這一特性, 本文提出了一中基于TF-IDF的特定詞詞集選取構建方法, 詳細步驟如圖2所示.

      圖2 酒店評論領域特定詞構建過程

      收集能表現(xiàn)出情感值的網絡流行詞. 本文選用網詞典官網(http://wangci.net/word.html)收錄的常用網絡詞匯. 最后將收集到的特定詞, 網絡流行詞合并添加到知網情感詞典中, 得到酒店評論領域專用情感詞典. 該詞典收錄了比HowNet情感詞典更加全面的針對酒店評論領域的情感詞, 使得情感分值的計算更加精確. 部分特定詞、網絡流行詞如表1所示.

      表1 部分特定詞、網絡流行詞詞表

      2.3 酒店評論特殊詞語分析

      章節(jié)1中我們總結出了酒店評論在句式上的3點明確的規(guī)律, 即轉折詞、總結詞、關鍵詞出現(xiàn)的頻率較高, 這對我們在很大程度上把握酒店評論的情感分析尤為重要, 下面給出這三類詞語的特點以及其是如何影響酒店評論的情感的.

      (1) 總結詞: 漢語中, 總結詞表示對一段文本的歸納, 能體現(xiàn)出一段文本的整體意思. 在酒店評論中, 總結詞可能出現(xiàn)在句首或句尾, 也總結了評論者對所評論酒店的情感態(tài)度.

      例1. 環(huán)境和設施都不好, 提前預訂的不靠鐵軌的房間沒給保留,整晚的火車汽笛聲影響了睡眠. 總之, 很失望, 是不會再去住了.

      上例中, “總之”一詞后面的情感詞不僅是文本中其他位置出現(xiàn)的情感詞的復現(xiàn), 而且更加集中體現(xiàn)了評論者對所評論酒店的情感態(tài)度. 所以這種情況下, 總結詞后面出現(xiàn)的情感詞(總結詞所在的句子), 其權重要遠大于評論中其他位置的情感詞.

      (2) 轉折詞: 轉折詞在句中出現(xiàn)的位置一般在句子的后半部分, 是對其前面出現(xiàn)的詞語的作用的弱化, 并且將句子的情感傾向轉向轉折詞后出現(xiàn)的情感詞[10-11]. 一句話中若出現(xiàn)了轉折詞, 那么該句子的作者往往希望讀者更為關注的是轉折詞句子表達的意思. 所以轉折詞若在酒店評論中出現(xiàn), 表明評論者更為在意的是轉折詞之后的所評論對象, 轉折詞之后出現(xiàn)的情感詞就應具有更大的情感詞權重.

      例2. 地理位置不錯, 距離商業(yè)中心政治中心和黃河都很近. 但是服務太差, 連東部地區(qū)的三星都不如.

      上例中, “但是”一詞可以看出相比于酒店“地理位置”評論者更在意酒店“服務”, 在分析這條評論的情感時, 應該給予轉折詞后面的情感詞更大的權重.

      (3) 關鍵詞: 這里所說的關鍵詞是指在評論中出現(xiàn)的表示評論者建議性的詞語, 如“建議入住”、“特別推薦”等詞語或詞組.

      例3 酒店根本沒有裝修, 屋子里一股霉味. 收費的寬帶, 有的房間還沒有. 餐廳一塌糊涂. 沒有任何值得推薦的地方. 強烈建議大家以后不要住這里, 真的是太讓人失望了.

      上例中, “強烈建議”一詞明確表明了評論者的情感態(tài)度, 即消極態(tài)度. 所以, 若一條評論中出現(xiàn)了關鍵詞, 可以把整句的情感態(tài)度聚焦到關鍵詞所在句, 即可得到評論者的情感態(tài)度. 關鍵詞所在分句的能夠比較明確表明評論的整體情感態(tài)度, 其表現(xiàn)出的情感態(tài)度傾向較強.

      一條評論可以被分成多個分句, 如上所述, 而每個分句的情感態(tài)度受總結詞、轉折詞、關鍵詞影響. 為了便于下文情感值計算, 將分句分為四類: 總結句, 含有總結詞的分句; 關鍵句, 含有關鍵詞的分句; 轉折句, 含有轉折詞的分句; 一般分句, 不含有任何特征詞的分句. 部分特征詞如表2所示.

      表2 部分特征詞

      根據(jù)特征詞將評論分句并分類后, 由于不含情感詞的分句對情感極性的計算無影響. 所以為了方便后文情感極性的計算, 對得到的分句列表進行篩選, 只保留含有情感詞的分句. 章節(jié)3.3中進一步對保留的分句進行情感極性計算.

      2.4 酒店評論情感極性計算

      情感分類詳細流程如圖3所示, 依照圖3流程情感值計算步驟依次如下:

      圖3 酒店評論情感分析流程

      第一步, 不考慮特殊詞的情況下(圖3中計算規(guī)則), 計算出一個分句的正負情感分值, 分句正向情感分值計算如公式(1), 負向情感分值計算方法類似:

      其中,表示一個分句的正向情感詞分值;為否定詞個數(shù), 否定詞個數(shù)為偶數(shù)時,取值2, 否則取值1;為程度副詞權重;為正向情感詞分值; 若分句末尾標點符號是“!”, 則m取值1, 否則取值0.

      將分值歸一化處理:

      每個分句情感分值在區(qū)間[1, 2]內, 則一條評論的分句情感值可如下表示:

      (3)

      第二步, 根據(jù)酒店評論特殊詞, 對正負情感分值作進一步處理:

      1) 若評論中含有帶轉折詞的分句, 需要對該分句中的情感詞分值進行調整, 使其權重增大, 調整后的情感值如公式(4).

      2) 若評論中含有帶總結詞的分句, 則該評論情感分值只需保留含有總結詞分句的情感分值, 該分值就是該評論的情感分值.

      3) 若評論中含有帶關鍵詞的分句, 則該評論需要做關鍵詞分句計算. 如果一條評論含有五個情感分句, 各個句子得分分別是S1、S2、S3、S4、S5(S1、S2、S3、S4、S5同時為正向情感值或同時為負向情感值, 假設S1是關鍵詞句的情感分值), 整個文本得分計算方法如公式(5)所示.

      其中, 參數(shù)A、B是分句權重參數(shù), 由于章節(jié)3.2分析可知A必大于B, 其大小由實驗驗證確定最佳值.

      在此, 設置多組實驗條件確定A、B的大小. 實驗條件如表3所示.

      表3 參數(shù)條件設置

      經過多次試驗驗證, 如果S1是該評論的首句, 當A取0.7, B取0.3時, 計算所得情感分值用于分類時分類效果最好; 如果S1是該評論的尾句, 當A取0.8, B取0.2時時, 計算所得情感分值用于分類時分類效果最好.

      可以發(fā)現(xiàn)當S1位于句尾時A的大小要大于當S1位于句首時, 這是因為當S1位于句尾時, 關鍵句涵蓋的范圍會包括本條酒店評論的起始至結尾, 而S1位于句首時, 后文出現(xiàn)的情感詞并不一定涵蓋在該關鍵句的作用范圍, 可能出現(xiàn)與關鍵詞句情感態(tài)度相反的情感詞.

      4) 不含有特殊詞的一般文本, 將所得情感分句的正負情感分值分別求和, 所得即為該評論的正負情感分值.

      經以上分句情感值計算后, 得到整條評論的最終正負情感分值列表. 為了將評論情感態(tài)度進行正負分類, 計算評論正負情感傾向相對值, 計算公式如下:

      第三步, 最終根據(jù)E的大小分類, 如公式(7)所示.

      (7)

      3 實驗結果與分析

      3.1 實驗數(shù)據(jù)準備

      從國內最大的酒店預訂電子商務網站攜程旅行網爬取酒店評論12000條, 經人工標注后選取積極評論7000條, 消極評論3000條. 測試集是從數(shù)據(jù)堂下載的2000條已經標注的酒店評論平衡語料庫. 網詞典官網(http://wangci.net/word.html)常用流行詞庫中, 經過人工篩選出常用正向網絡流行詞語15個, 負向網絡流行詞語54個.

      3.2 評價指標

      對于實驗結果的評價, 本文采用準確率、召回率和 F1-指數(shù)來進行評價:

      1) 召回率:

      2) 準確率:

      3) F1-指數(shù)

      3.3 實驗結果及分析

      為了驗證本文提出的情感分類模型的有效性, 參照張昊旻等[12]的基于權值算法和SVM分類器設置對比實驗. 對比實驗結果如表4所示.

      表4 對比實驗結果

      通過比較不同實驗條件下的實驗結果可以發(fā)現(xiàn), 實驗效果的指標是逐漸增高的. 其中當基于文本特征和本文所構建的專用情感詞典時, 實現(xiàn)效果整體達到最好, 證明了本文提出的算法的高效性和針對酒店評論的實用性. 產生這種結果的原因主要有兩點: (1)構建的專用酒店評論情感分析情感詞典降低了酒店評論極性計算時情感詞缺失的可能性, 從而提高了情感值計算的準確度; (2)基于文本特征的計算方法, 考慮到特征詞在酒店評論文本中情感導向的作用, 引導本文算法將重點集中在評論文本中最能體現(xiàn)評論文本情感傾向的部分.

      基于文本的算法中, 一些問題會導致系統(tǒng)情感分類錯誤, 主要有以下原因:

      1) 評論中不含情感詞. 在部分酒店評論文本中不含有明確表明態(tài)度的情感詞, 但是其卻有明顯的情感傾向. 本文算法在判斷此類評論時, 無法計算到情感分值, 導致評論分類錯誤. 如來自攜程旅行網的評論:

      例1. 白天叫服務人員來打掃衛(wèi)生, 一直也沒見到人. 就憑這一點, 以后再也不會住該酒店!

      2) 情感詞正負情感傾向歧義. 知網HowNet情感詞典中部分詞語應用到酒店評論中, 其正負情感傾向不明確. 例“房間大”, “噪音大”中的“大”字在不同的情景中完全表現(xiàn)出相反的情感態(tài)度.

      例2. 房間是挺大的, 不過周邊環(huán)境不太好, 靠近馬路, 晚上睡覺的時候噪音非常大.

      4 結語

      本文提出在酒店評論領域中基于自建情詞典和文本特征的情感傾向性分類算法, 提高了算法在具體領域中情感匹配精確度、情感值計算的準確度和情感分類的正確率. 解決了在具體領域中文本情感詞匹配錯誤問題, 提供了一種對網絡商品評論情感分析的新思路. 但是, 本研究中仍存在很多缺陷, 如本研究的情感值計算方法是基于權值的計算方法改進得來, 情感值計算方法仍有可提升的空間.

      將來的研究會集中在如何正確匹配情感詞在不同情境下體現(xiàn)出的情感態(tài)度, 提高情感匹配的正確性, 以期進一步提高本研究的分類模型準確度. 本文的研究是以酒店評論來作為研究數(shù)據(jù), 但其理論上在網絡商品評論領域中是通用并且有效的. 所以將來研究會在本文算法的基礎上, 構建多領域、多品類網絡商品評論情感分析系統(tǒng).

      1 Singh VK, Piryani R, Uddin A, et al. Sentiment analysis of movie reviews: A new feature-based heuristic for aspect-level sentiment classification. 2013 International Multi-Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). IEEE. 2013. 712–717.

      2 Medhat W, Hassan A, Korashy H. Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal, 2014, 5(4): 1093–1113.

      3 Turney PD, Littman ML. Measuring praise and criticism: Inference of semantic orientation from association. ACM Trans. on Information Systems, 2003, 21(4): 315–346.

      4 Hu M, Liu B. Mining opinion features in customer reviews. Proc. of the 19th National Conference on Artifical Intelligence. AAAI Press. 2004. 755–760.

      5 史偉,王洪偉,何紹義.基于語義的中文在線評論情感分析. 情報學報,2013,32(8):860–867.

      6 Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques. Proc. of Emnlp. 2002. 79–86.

      7 Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis. ACM International Conference on Information and Knowledge Management. ACM. 2005. 625– 631.

      8 王祖輝,姜維.基于粗糙集的在線評論情感分析模型.計算機工程,2012,38(16):1–4

      9 杜嘉忠,徐健,劉穎.網絡商品評論的特征–情感詞本體構建與情感分析方法研究.現(xiàn)代圖書情報技術,2014,(5):74–82.

      10 張誼生.副詞的篇章連接功能.語言研究,1996,(1):130–140.

      11 孫楠.現(xiàn)代漢語轉折副詞的反預期標記功能研究[碩士學位論文].南京:南京師范大學,2012.

      12 張昊旻,石博瑩,劉栩宏.基于權值算法的中文情感分析系統(tǒng)研究與實現(xiàn).計算機應用研究,2012,29(12):4571–4573.

      Sentiment Analysis Solution Based on Hotel Product Reviews

      LI Sheng-Yu, GAO Jun-Bo, XU Li-Li

      (College of Infor mation Engineering, Shanghai Maritime University, Shanghai 201306, China)

      This paper proposes a hotel reviews sentiment analysis model based on text features. The way of the model includes the building of hotel reviews emotional dictionary and the analyzing of hotel reviews sentence patterns and grammar patterns. By this way, we have solved the problems of incomplete emotional matches and the inaccuracy of emotional values counting. Results of this test show that this model has better classification results especially for hotel reviews sentiment analysis.

      sentiment analysis model; special sentiment dictionary; sentence patterns; grammar patterns; hotel reviews

      2016-04-14;收到修改稿時間:2016-05-12

      [10.15888/j.cnki.csa.005511]

      猜你喜歡
      評論者分析模型詞典
      智珠2則
      領導文萃(2025年2期)2025-01-16 00:00:00
      基于BERT-VGG16的多模態(tài)情感分析模型
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      基于D-S證據(jù)理論的電子商務虛假評論者檢測
      評《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標準探索
      層次分析模型在結核疾病預防控制系統(tǒng)中的應用
      基于情感特征和用戶關系的虛假評論者的識別
      基于評論關系圖的垃圾評論者檢測研究
      全啟發(fā)式語言分析模型
      乐业县| 衡东县| 界首市| 博白县| 塘沽区| 平凉市| 兴文县| 泸溪县| 家居| 广昌县| 同德县| 金华市| 宣恩县| 长治县| 益阳市| 碌曲县| 芒康县| 武安市| 厦门市| 临澧县| 类乌齐县| 娱乐| 鞍山市| 桐庐县| 万安县| 武陟县| 永城市| 原阳县| 于都县| 东至县| 饶河县| 新安县| 五河县| 南皮县| 崇州市| 华容县| 佛冈县| 寿光市| 卢湾区| 安塞县| 修武县|