李 勇,金慶雨,張青川
(北京工商大學(xué) 農(nóng)產(chǎn)品質(zhì)量安全追溯技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室,北京 100048)
隨著互聯(lián)網(wǎng)的快速發(fā)展,社交網(wǎng)站和各大電商平臺(tái)迅猛發(fā)展?;ヂ?lián)網(wǎng)上的消費(fèi)者用戶在瀏覽、購(gòu)買商品的同時(shí),也傾向于發(fā)表自己的意見,對(duì)所購(gòu)買的商品、店家的服務(wù)等進(jìn)行評(píng)論和反饋[1]。在線購(gòu)物的消費(fèi)者,他們?cè)谫?gòu)物的過程中產(chǎn)生的瀏覽記錄、購(gòu)買記錄和商品評(píng)論等數(shù)據(jù),生成了數(shù)據(jù)量龐大的互聯(lián)網(wǎng)信息。這些非結(jié)構(gòu)化的互聯(lián)網(wǎng)信息,包含了眾多消費(fèi)者對(duì)各類商品的觀點(diǎn)和態(tài)度。商家可以根據(jù)這些商品評(píng)論信息制定銷售戰(zhàn)略,消費(fèi)者也可以將這些評(píng)論數(shù)據(jù)作為參考,選擇合適的商品。因此,對(duì)這些互聯(lián)網(wǎng)信息進(jìn)行分析和利用是十分必要的。隨著互聯(lián)網(wǎng)的普及,人們?cè)絹碓絻A向于在網(wǎng)上進(jìn)行購(gòu)物,用戶評(píng)論數(shù)據(jù)信息規(guī)模不斷地增大,僅僅依靠人工的方式進(jìn)行處理已經(jīng)變得不再現(xiàn)實(shí),越來越多的學(xué)者利用自然語言處理技術(shù)對(duì)互聯(lián)網(wǎng)信息進(jìn)行情感分析,這一研究成為自然語言處理領(lǐng)域的一個(gè)研究熱點(diǎn)[2]。
情感分析是對(duì)人們的觀點(diǎn)評(píng)價(jià)進(jìn)行情感的傾向性分析,對(duì)產(chǎn)品、服務(wù)或者事件進(jìn)行挖掘和分析以及一系列推理和歸納的技術(shù)[3]。在商品的評(píng)論中不是每個(gè)詞都是包含情感信息成分的,或者并不能明顯地表明評(píng)論者的態(tài)度,含有情感成分的詞主要是形容詞、動(dòng)詞和部分名詞等,這些詞是情感分析關(guān)注的重點(diǎn)。目前,情感分析的主要研究方法是基于機(jī)器學(xué)習(xí)的傳統(tǒng)算法,基于機(jī)器學(xué)習(xí)的方法需要通過使用大量的人工標(biāo)注數(shù)據(jù)的特征來確定給定文本的情感極性,這項(xiàng)工作非常費(fèi)時(shí)費(fèi)力[4]。
隨著深度學(xué)習(xí)、人工智能等相關(guān)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)技術(shù)成為了自然語言處理領(lǐng)域的關(guān)鍵技術(shù),而且在文本情感分析中也得到了很好的應(yīng)用,取得了不錯(cuò)的效果[5]。筆者提出了一種基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與位置注意力機(jī)制融合并結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的情感分類模型。該模型充分利用BLSTM的特性,挖掘評(píng)論文本的語義特征,并與位置注意力機(jī)制相結(jié)合,通過BLSTM的訓(xùn)練獲取評(píng)論中詳細(xì)的特征信息,使用位置注意力機(jī)制計(jì)算,使情感相關(guān)的詞語對(duì)整個(gè)評(píng)論起決定性的作用。最后通過CNN來進(jìn)行特征的分類,從而提高了對(duì)食品評(píng)論信息情感分類的精度。實(shí)驗(yàn)結(jié)果也表明了該模型在情感分類方面得到了非常大的提高,獲得了不錯(cuò)的分類效果。
現(xiàn)有的情感分析方法主要由基于規(guī)則的情感分類方法、基于機(jī)器學(xué)習(xí)的情感分類方法向基于深度學(xué)習(xí)的情感分析方法的方向發(fā)展,分析結(jié)果的準(zhǔn)確率也在不斷地提高[6]。
在進(jìn)行情感分析時(shí),采用基于規(guī)則方法的過程中需要有很多人工參與的工作,其中包括情感詞典的構(gòu)建和一些語言結(jié)構(gòu)的歸納總結(jié)等。對(duì)這些內(nèi)容進(jìn)行分析時(shí)需要通過構(gòu)建相關(guān)的情感詞典和那些文本數(shù)據(jù)中包含的情感詞進(jìn)行對(duì)比來計(jì)算文本的情感傾向性。Kim等[7]在對(duì)話題評(píng)價(jià)對(duì)象進(jìn)行情感分析時(shí),使用了概率的方法對(duì)每個(gè)詞賦予一定的情感強(qiáng)度,并根據(jù)這些情感詞的強(qiáng)度來進(jìn)行評(píng)估算分,最后通過把這些情感詞的分?jǐn)?shù)相加得出每個(gè)話題對(duì)象的情感傾向,取得了非常好的效果。王志濤等[8]通過基于詞典和規(guī)則集的中文微博情感分析方法,并根據(jù)其在微博中的特性,定義了不同語言層面的規(guī)則,將情感詞典應(yīng)用在從詞到句子的不同文本中,進(jìn)行了多粒度的情感計(jì)算,并在實(shí)驗(yàn)數(shù)據(jù)集上證明了該方法是可行的和有效的。
基于機(jī)器學(xué)習(xí)的情感分析方法通過輸入大量的標(biāo)注語料以及這些標(biāo)注語料的情感標(biāo)簽,訓(xùn)練和這些語料相關(guān)的評(píng)論數(shù)據(jù)的情感分類器,然后通過這些訓(xùn)練好的分類器來預(yù)測(cè)新的文本數(shù)據(jù)的情感[9]。情感分析的主要研究方法還是一些基于機(jī)器學(xué)習(xí)的傳統(tǒng)算法,例如,信息熵、支持向量機(jī)、條件隨機(jī)場(chǎng)等[10]。這些機(jī)器學(xué)習(xí)的方法大體可以分為3類:有監(jiān)督的機(jī)器學(xué)習(xí)、無監(jiān)督的機(jī)器學(xué)習(xí)和半監(jiān)督的機(jī)器學(xué)習(xí)[11]。王新宇[12]通過對(duì)旅游網(wǎng)絡(luò)點(diǎn)評(píng)的情感傾向性進(jìn)行分析,使用向量空間模型來表示評(píng)論,用情感詞典對(duì)特征空間進(jìn)行降維,通過SVM機(jī)器學(xué)習(xí)模型進(jìn)行分類,最終得到了有效的分類結(jié)果。通過使用機(jī)器學(xué)習(xí)的方法來進(jìn)行情感分析,最終的分類結(jié)果往往是由對(duì)特征對(duì)象的選取來決定的,特征對(duì)象的選取直接影響分類的效果,由于個(gè)體之間存在著很大的差異性,通過人工選擇特征有著很大的局限性和不確定性,難以真正發(fā)現(xiàn)和挖掘文本深層次的特征。
深度學(xué)習(xí)的過程實(shí)際上是在模擬人的神經(jīng)元之間進(jìn)行信息傳遞的過程[13],深度學(xué)習(xí)是為了使得最終的模型可以像人一樣進(jìn)行數(shù)據(jù)的學(xué)習(xí)和分析,進(jìn)而解釋數(shù)據(jù)。目前主要應(yīng)用在圖像處理、聲音識(shí)別和文本分析等領(lǐng)域。李陽(yáng)輝等[14]通過采用降噪自編碼對(duì)文本數(shù)據(jù)進(jìn)行無標(biāo)記的特征學(xué)習(xí)來進(jìn)行情感分類,并通過實(shí)驗(yàn)獲得了比較好的結(jié)果。李章曉等[15]將深度學(xué)習(xí)的技術(shù)應(yīng)用到了金融領(lǐng)域,通過建立模型對(duì)外匯預(yù)測(cè)和投資組合優(yōu)化進(jìn)行實(shí)驗(yàn),表明實(shí)驗(yàn)方法具有有效性。隨著深度學(xué)習(xí)理論研究的逐漸深入,深度學(xué)習(xí)也應(yīng)用到了情感分析方面,李杰等[16]通過采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)短文本評(píng)論信息進(jìn)行了情感分類,得到了高準(zhǔn)確率的分類結(jié)果。對(duì)比傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)的優(yōu)點(diǎn)主要在于訓(xùn)練效果好,以及不需要復(fù)雜的特征工程。
筆者設(shè)計(jì)的情感分析模型如圖1所示,其中.代表模型第1部分的輸出。主要由兩部分組成:①文本情感收集器;②情感信息分類器。
圖1 情感分析模型結(jié)構(gòu)
文本情感收集器是基于改進(jìn)的BLSTM并融合位置注意力向量來對(duì)評(píng)論中的情感信息進(jìn)行抽取。情感信息分類器是將文本情感收集器的輸出作為輸入,通過卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)一步進(jìn)行情感語義特征的分類。
此部分主要是對(duì)評(píng)論中的情感信息進(jìn)行抽取,每條食品的評(píng)論信息由.={w1,w2,…,wL}來表示,其相應(yīng)的詞向量.={v1,v2,…,vL}。模型的輸入是由食品評(píng)論句子的各個(gè)詞組成,每個(gè)詞轉(zhuǎn)成對(duì)應(yīng)的詞向量。每一組詞向量通過輸入左右兩個(gè)LSTM模型中進(jìn)行訓(xùn)練,將左右兩側(cè)模型訓(xùn)練的結(jié)果進(jìn)行合并,得到更為合理的信息矩陣,同時(shí)引入位置注意力機(jī)制,每個(gè)詞都有自己對(duì)應(yīng)的注意力參數(shù),最終得到更為優(yōu)化的情感信息。
由于RNN在處理長(zhǎng)序列輸入時(shí)還存在缺陷,如梯度消失的問題。為了解決這個(gè)問題,在RNN中加入更多的記憶單元來控制信息在不同時(shí)刻的流動(dòng),從而解決了梯度消失問題,模型的網(wǎng)絡(luò)通過記憶單元更新各個(gè)節(jié)點(diǎn)信息,從而可以學(xué)習(xí)文本序列中那些需要進(jìn)行遠(yuǎn)距離依賴的特性,提高模型的準(zhǔn)確率。
將評(píng)論語料中的每個(gè)句子轉(zhuǎn)為向量表示,將詞向量作為模型的一個(gè)輸入序列.={v1,v2,…,vL},LSTM計(jì)算隱藏向量序列.=[h1,h2,…,hL]和輸出矩陣序列.=[x1,x2,…,xL]。LSTM模型引入記憶單元進(jìn)行信息之間的傳遞,LSTM中的這些記憶單元幫助它解決避免梯度消失的問題,適合學(xué)習(xí)長(zhǎng)期依賴的上下文語義。與傳統(tǒng)的RNN相比,LSTM增加了輸入門、遺忘門和輸出門。筆者采用LSTM模型,將上一個(gè)細(xì)胞狀態(tài)同時(shí)引入到輸入門、遺忘門以及新信息的計(jì)算當(dāng)中[17],以下為L(zhǎng)STM的計(jì)算過程:
it=σ(Wi[ht-1;wt]+bi);
(1)
ft=σ(Wf[ht-1;wt]+bf);
(2)
ot=σ(Wo[ht-1;wt]+bo);
(3)
gt=tan h(Wc[ht-1;wt]+bc);
(4)
ct=it⊙gt+ft⊙ct-1;
(5)
ht=ot⊙tan h(ct),
(6)
式中:i為輸入門;f為遺忘門;o為輸出門;b為偏執(zhí);W為對(duì)應(yīng)權(quán)重。
通常一個(gè)標(biāo)準(zhǔn)的LSTM只從一個(gè)方向?qū)π蛄羞M(jìn)行編碼。然而兩個(gè)LSTM也可以堆疊起來作為雙向使用編碼器,稱為雙向LSTM,筆者采用此種方式進(jìn)行模型的設(shè)計(jì)。通過兩層相反方向流處理數(shù)據(jù)兼顧了歷史信息和未來信息,一層從左到右的順序,另一層從右到左的順序,最終將兩層輸出作為一個(gè)整體,作為BLSTM隱藏層的輸出。為了突出情感詞在句子中的作用,筆者加入了位置注意力機(jī)制,將BLSTM的輸出進(jìn)行了微調(diào)。
隨著深度學(xué)習(xí)的不斷發(fā)展,基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型越來越多地應(yīng)用到自然語言處理領(lǐng)域、圖像識(shí)別領(lǐng)域、語音識(shí)別領(lǐng)域等不同的研究?jī)?nèi)容當(dāng)中。注意力機(jī)制最早是在視覺圖像領(lǐng)域提出來的,Bahdanau等[18]將這種注意力機(jī)制應(yīng)用在機(jī)器翻譯任務(wù)上,并將翻譯任務(wù)和對(duì)齊工作同時(shí)進(jìn)行,這些應(yīng)用逐漸擴(kuò)展到各種自然語言處理(natural language processing, NLP)任務(wù)中。
筆者提出了一個(gè)位置感知的注意力機(jī)制,首先利用語義角色標(biāo)注的自然語言處理技術(shù)對(duì)評(píng)論進(jìn)行處理,將句子分割成不同的句子成分,將每個(gè)句子成分與情感詞庫(kù)進(jìn)行相似度的比對(duì),當(dāng)句子成分中的詞與情感詞庫(kù)的詞相似度大于0.85時(shí),確定該句子成分中的詞為情感分析的核心詞。在一個(gè)句子成分中,起著關(guān)鍵作用的核心詞對(duì)周邊詞的影響程度會(huì)隨著距離的變化而變化。因核心詞對(duì)其周邊詞的影響程度是不同的,筆者通過使用高斯核函數(shù)來模擬基于位置感知的影響傳播:
(7)
式中:u代表核心詞與句子成分中當(dāng)前詞的距離;σ是一個(gè)約束傳播范圍的參數(shù);Kernel(u)表示基于內(nèi)核距離為u所得到的相應(yīng)的影響。
K(i,u):N(Kernel(u),σ′),
(8)
式中:K(i,u)表示第i個(gè)維度上的核心詞在對(duì)距離為u的詞的影響;N是具有Kernel(u)值的期望值和標(biāo)準(zhǔn)差σ′的正態(tài)密度。
xi=kihi。
(9)
在以上工作完成后,將商品的評(píng)論信息嵌入到矩陣.中,由于每條評(píng)論信息中總會(huì)有或多或少的噪音,為了得到精確的數(shù)據(jù)信息,筆者設(shè)計(jì)了情感信息分類器,此部分是由3個(gè)并列的過濾器組成,每一個(gè)過濾器獨(dú)自抽取矩陣.中的情感信息,最后將每部分進(jìn)行結(jié)合得到輸出結(jié)果,經(jīng)過進(jìn)一步的特征提取獲得最終的分類類別。
卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在圖像識(shí)別和文本分類領(lǐng)域。它是文本分類使用最多的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),其底層由卷積層、池化層交替組成,頂端使用全連接層來完成具體的任務(wù)。
本文中卷積層是由3種窗口大小不同的卷積核組成,用來進(jìn)行提取數(shù)據(jù)內(nèi)部的語義特征。通過最大池化層提取其中的主要特征,在最后一層通過全連接層完成情感極性正向情感或者負(fù)向情感的映射。卷積核w∈.n×k,卷積的窗口大小為n,輸出特征為:
si=f(wi·xi+bi)。
(10)
在本實(shí)驗(yàn)中考慮到收斂速度的問題,采用relu函數(shù)作為激活函數(shù)進(jìn)行非線性操作,得到的si代表通過卷積獲得的局部特征,最終得到特征向量集合.。通過以上卷積過程所有的輸出特征都是獨(dú)立計(jì)算的,對(duì)于每一個(gè)過濾器來說,采用max-pooling方式來降低特征向量的大?。?/p>
mi=max.。
(11)
模型的最后一部分是輸出層。筆者設(shè)計(jì)了3個(gè)過濾器在全連接層的輸出:
y=β1m1+β2m2+β3m3。
(12)
最后,將全連接層的輸出y輸入到softmax函數(shù)中,將輸出轉(zhuǎn)換為概率進(jìn)行分類:
(13)
在京東商城食品類別的用戶評(píng)論數(shù)據(jù)集上評(píng)估筆者設(shè)計(jì)的方法。將整個(gè)數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集。其中的訓(xùn)練數(shù)據(jù)有80 000條,測(cè)試數(shù)據(jù)有20 000條。數(shù)據(jù)如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)參數(shù)的調(diào)整對(duì)實(shí)驗(yàn)結(jié)果的影響很大,通過比較,最終選取了以下參數(shù):在BLSTM中,詞向量的維度為200,層數(shù)為2,學(xué)習(xí)率為0.001,dropout的值為0.5,設(shè)置epoch為50。在CNN中,詞向量的維度為200,窗口分別為2、3、4,激活函數(shù)為relu函數(shù)。
采用準(zhǔn)確率P和召回率R來評(píng)價(jià)實(shí)驗(yàn)分類結(jié)果的好壞,準(zhǔn)確率表示預(yù)測(cè)類的樣本中有多少是預(yù)測(cè)正確的;召回率表示真實(shí)標(biāo)簽為測(cè)試類的有多少是被預(yù)測(cè)正確的,具體公式如下:
(14)
(15)
式中:C表示模型返回測(cè)試類預(yù)測(cè)正確的數(shù)量;O表示模型返回的總數(shù)量;L表示測(cè)試類的總數(shù)量。使用F1測(cè)度來評(píng)價(jià)準(zhǔn)確率和召回率:
(16)
筆者對(duì)比了以下幾組實(shí)驗(yàn),如表2所示。
表2 對(duì)比實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),筆者提出的模型方法的準(zhǔn)確率要比其他幾種基準(zhǔn)方法都要高。
在精選肉類中有這樣一條評(píng)論:“什么精品好肉,一塌糊涂,腥的一踏糊涂,直接處理掉了”。這條評(píng)論在其他的幾種方法都?xì)w類為了積極的評(píng)價(jià),只有本文的模型歸類為消極評(píng)價(jià)。這充分體現(xiàn)了本文模型的一個(gè)優(yōu)點(diǎn)。對(duì)于情感詞庫(kù)中沒有的詞,通過相似度計(jì)算將“一塌糊涂”及包含一個(gè)錯(cuò)字的“一踏糊涂”歸為了消極情感的詞,通過位置注意力機(jī)制對(duì)其向量進(jìn)行調(diào)整從而準(zhǔn)確地將此評(píng)論歸為消極評(píng)論,提高了情感分類的準(zhǔn)確率。
筆者在傳統(tǒng)BLSTM模型的基礎(chǔ)上,通過將食品領(lǐng)域相關(guān)情感詞的位置感知引入注意力機(jī)制,突出了情感信息在評(píng)論中的情感語義極性,融合CNN來實(shí)現(xiàn)情感語義特征分類,從而提出了一種面向情感信息抽取和情感語義分類的食品評(píng)論情感分析方法。對(duì)比實(shí)驗(yàn)的結(jié)果表明,筆者提出的方法是可行的和有效的,通過對(duì)評(píng)論情感信息抽取部分進(jìn)行組合提取可以獲取句子中更多的語義特征,從而提高了情感分類的精度。