賈東立 崔新宇 申飛
摘要:隨著淘寶、京東等電商平臺的興起,網上購物逐漸成為主流,但由于網上購物的特殊性,導致消費者不能獲取到足夠的商品信息,因此該文結合現(xiàn)有的自然語言處理技術,利用情感分析的方法來對商品的評價信息進行挖掘,為消費者提供更加全面的商品信息。此外該文還就現(xiàn)有的情感詞典進行擴充,提升了情感詞典在情感分析中的準確率。
關鍵詞:商品評價;情感分析;情感詞典
中圖分類號:TP391? ? ?文獻標識碼:A
文章編號:1009-3044(2019)16-0242-03
開放科學(資源服務)標識碼(OSID):
Abstract: With the rise of e-commerce platforms such as Taobao and Jingdong, online shopping has gradually become the mainstream, but due to the particularity of online shopping, consumers cant obtain enough commoditys information, so this article combines existing natural language processing technology. Using sentiment analysis to deal with goods reviews, and providing a more comprehensive product information to consumers. In addition, the article also expands the existing sentiment dictionary, which improves the accuracy of the sentiment dictionary in sentiment analysis.
Key words: commodity evaluation; sentiment analysis; sentiment dictionary
1 背景
隨著網上購物的興起,人們在網上購物的次數(shù)越來越多,網上購物在方便人們生活的同時也存在著一些問題,由于網上購物時不能像線下購物一樣能夠接觸到實物商品,而且商品的各項信息都是由商家所給出的,這就造成了信息的不對等,就會導致消費者買到了假貨,殘次品,或與自己期望不符的商品,造成一定的損失。此時,利用情感分析的方法對商品的評價信息進行挖掘,不僅能夠為消費者提供重要的參考信息,也存在著一定的商業(yè)價值。
目前情感分析的方法主要有兩大類:其一為基于機器學習的方法,該類方法是使用人工標注的文本語料作為訓練集,通過機器學習的方法來構建訓練模型,然后利用訓練完成的模型來對文本進行分類。常用的方法有支持向量機(SVM)、樸素貝葉斯法(NB)、K最近鄰法(KNN)等[1]。其二是通過情感詞典的方法,該方法的核心是通過詞典與規(guī)則的方法來計算文本的情感值,并以此分析文本的情感傾向。該類方法更加通用,對短文本處理有著不錯的效果,但對情感詞典的完備程度要求很高。目前國內對情感詞典的研究已有了一定成果。文獻[2]通過人工分類和點互信息(PMI)的方法構建了情感詞匯本體,該詞典是國內使用較多的通用詞典之一。文獻[3]通過對微博用語的分析,利用人工標注和校對的方法構建了微博領域的專用情感詞典,在微博領域取得了不錯的實驗結果。文獻[4]提出利用表情圖片結合情感詞的方法來擴展情感詞典,并利用熵的概念對語料庫進行優(yōu)化,提高了分類的準確率。文獻[5]提出了基于規(guī)則和統(tǒng)計的方法來擴充情感詞典,明顯提升了情感詞典的準確率。文獻[6]利用Word2Vec工具對知網情感詞典、大連理工大學情感詞典等通用詞典進行篩選,構建出了SentiRuc詞典,并在通用領域數(shù)據(jù)集上取得了不錯的實驗結果。
結合商品評價的語料特征,本文提出了利用商品評價中的高頻情感詞來對通用情感詞典進行擴充的辦法,在商品領域取得了不錯的實驗結果,明顯提升了情感分析的準確率。
2 系統(tǒng)框架
本文根據(jù)系統(tǒng)需要實現(xiàn)的具體功能,將整個系統(tǒng)劃分成5部分,分別為數(shù)據(jù)獲取模塊(A)、數(shù)據(jù)預處理模塊(B)、商品特征抽取模塊(C)、情感詞典構建模塊(D)和情感分析模塊(E)。其總體結構圖如圖1所示。
在數(shù)據(jù)收集模塊中,本文使用了基于網絡爬蟲的方法來對京東網站進行了爬取,共計爬取了京東商城各型手機的評價信息十幾萬條,為接下來的情感分析提供了充足的數(shù)據(jù)支撐。
對于文本預處理,參考目前文本預處理技術,本文采用了中文分詞、詞性標注和去停用詞的方法對文本信息進行預處理。并借助Python自帶的結巴(jieba)語料庫來對文本進行分詞和詞性標注。在停用詞處理中,本文采用了哈工大停用詞表來過濾句子中的語氣詞、虛詞、標點等。
在商品特征提取模塊中,本文采用了基于統(tǒng)計與語義信息相結合的方來抽取商品的特征,并以通用領域概念模型為基礎[7],建立商品特征詞典。
情感詞典的構建作為整個系統(tǒng)的核心,本文在通用情感詞典的基礎上,結合商品評論自身特點設計語料特征對其進行改進。
對于情感分析模塊,本文利用擴展情感詞典,并結合語義的方法來對評價信息進行分析。
3 基于基礎情感詞典的擴展改進
3.1 基本思想
情感詞典作為情感分析最為核心的一部分,其完備程度對情感分析的準確度起決定性作用。本文先構建了程度副詞詞典和否定詞詞典;之后對評價文本情感詞進行詞頻統(tǒng)計,然后結合商品評論自身的特征,對評論中高頻情感詞匯進行抽取,并結合規(guī)則對其進行權重賦值。
3.2 程度副詞和否定詞詞典的構建
程度副詞,它是用來修飾情感詞,增強或減弱情感詞的情感強度。如:非常失望和有點失望,他們所表達的情感強度是有差別,“非常失望”的情感強度要更高一些。本文使用的程度副詞詞典源于知網(Hownet)情感詞典中的“中文程度級別詞語”詞典,并通過分析商品評價信息添加了詞典中未收錄的程度副詞共計54個。本文依照程度副詞的情感強度將程度副詞分為6擋,其權重分別為2.0、1.8、1.5、1.2、0.8、0.5.部分程度副詞及其權重如下所示:
否定詞,它是用于反轉一個句子或詞語的情感傾向,如“我對這件商品很不滿意”和“我對這件商品很滿意”,它們就具有相反的情感極性。本文通過分析商品評價信息,共計篩選出30個否定詞,如:不、沒、非、無等詞語。并建立起否定詞詞典。
3.3 商品評價擴展詞典的構建
本文選取了知網(Hownet)情感詞典作為基礎詞典,該情感詞典包含情感詞17887個[8]。本文按照情感強度和情感傾向對情感詞進行權重賦值,共分成10級,取值范圍為[-2.5,2.5]間距為0.5,其中正值表示為褒義情感傾向,負值為貶義情感傾向,數(shù)值表示權重,權重的絕對值越大就表示情感強度越大。
首先,對商品評價中的情感詞進行詞頻統(tǒng)計,然后,對出現(xiàn)的高頻情感詞進行抽取,并對情感詞進行權重賦值。本文抽取了商品評價中前1000個高頻情感詞。對于權重的計算,本文采用了公式(1)來給情感詞進行賦值。
式中[Ei]為情感詞的權重;[Ni]為該情感詞匯出現(xiàn)的頻率;[Nt]為頻率最高詞匯的出現(xiàn)頻率;[Sn]為詞性表示,褒義詞匯則為1,貶義詞匯為-1。在計算出所有高頻情感詞的權重后,就可以將賦完權重的情感詞擴充到基礎情感詞典中。
3.4 情感計算
在對情感詞典進行擴充后,就可以利用擴充后的詞典對商品評價信息進行情感分析,具體的步驟如下:
1)對評價信息進行預處理;2)遍歷商品評價信息,依據(jù)之前構建的商品特征詞典,將評價信息進行特征分類,建立起各個特征的評論數(shù)據(jù)集;3)逐條分析各個特征數(shù)據(jù)集,抽取評價信息中的情感詞、否定詞和程度副詞,并在情感詞典中進行匹配,獲取該詞在情感詞典中的權重,之后根據(jù)公式(2)來計算該條評論的情感得分。在計算出每一條評價的情感得分后就可以利用公式(3)和公式(4)計算出每個特征數(shù)據(jù)集的總情感得分和平均情感得分。
式中:[si]為該條評論的情感得分,q為在該條評價中否定詞出現(xiàn)的次數(shù)(q的初始值為0),[nk]為程度副詞k在程度副詞詞典中對應的權重,[wi]為情感詞i在情感詞典中對應的權重。
式中:[Sj]為特征數(shù)據(jù)集j的情感總分,[sj]為數(shù)據(jù)集j的平均情感得分,[ si]為該數(shù)據(jù)集中每一條評論的情感得分,[ni]為數(shù)據(jù)集中情感詞出現(xiàn)的次數(shù)。
4 實驗結果與分析
4.1 實驗數(shù)據(jù)與評價標準
為了驗證本文提出的情感詞典擴展改進方法是有效的,本文利用網絡爬蟲爬取了京東商城蘋果手機的評價信息,共計5000條。對文本進行預處理后,利用本文所構建的擴展詞典對評價信息進行分析,選取正確率(precision)、召回率(recall)、f1-score(F)作為性能評價的指標來對分析結果進行評價,具體定義如下:
4.2 擴展詞典效果對比與分析
本文對蘋果手機的評價信息進行試驗,分析了其在不同擴展情況下,情感詞典的效果,具體試驗結果如表所示,準確率的變化情況如下所示:
從表2和圖2可以看出知網情感詞典對本文從京東商城上爬取評價信息的準確率為82.51%。而使用本文所提出的基于基礎情感詞典的擴充辦法所構建的擴充詞典的準確率、召回率和F1值都在逐步提高。在擴展詞匯達到50個之前,其準確率增速最快,在擴展詞匯達到100個時其準確率達到最高,在擴展超過100個時,擴展詞典的準確率趨于平穩(wěn)。和知網情感詞典對比發(fā)現(xiàn),本文所構建的擴展詞典的準確率達到了91.13%,比基礎情感詞典的準確率增加了9.48%,因此本文提出的使用高頻情感詞來擴充基礎情感詞典的辦法是可行的。
5 結束語
本文設計的基于情感詞典的商品評價系統(tǒng),通過情感分析技術來對商品評價信息進行處理,抽取評價中的商品特征,并利用情感詞典為其打分,通過視圖的方式為消費者提供更加直觀的商品信息。此外本文還在基礎情感詞典的基礎上,提出一種通過加入高頻情感詞的方法來對情感詞典進行擴充。經過該方法擴充的情感詞典在準確率、召回率和F1值方面都有所提升,與基礎情感詞典相比,本文所擴展的情感詞典的準確率普遍高于基礎詞典,證明了該方法是可行的。
參考文獻:
[1] 李繼東, 王移芝. 基于擴展詞典與語義規(guī)則的中文微博情感分析[J]. 計算機與現(xiàn)代化, 2018(2): 89-95.
[2] 徐琳宏, 林鴻飛, 潘宇, 等. 情感詞匯本體的構造[J]. 情報學報, 2008, 27(2): 180-185.
[3] 王勇, 呂學強, 姬連春, 等. 基于極性詞典的中文微博客情感分類[J]. 計算機應用與軟件, 2014, 31(1): 34-37.
[4] 張珊, 于留寶, 胡長軍. 基于表情圖片與情感詞的中文微博情感分析[J]. 計算機科學, 2012, 39(S3): 146-148.
[5] 梁亞偉. 基于表情詞典的中文微博情感分析模型研究[J]. 現(xiàn)代計算機, 2015(21): 7-10.
[6] 楊小平, 張中夏, 王良, 等. 基于Word2Vec的情感詞典自動構建與優(yōu)化[J]. 計算機科學, 2017, 44(1): 42-47.
[7] 夏火松, 楊培, 熊淦. 基于特征提取改進的在線評論有效性分類模型[J]. 情報學報, 2015, 34(5): 493-500.
[8] HowNet[R/OL]. HowNet'sHomePage. http://www.keenage.com/html/c_bulletin_2007.htm
【通聯(lián)編輯:謝媛媛】