孟仕林 趙蘊(yùn)龍 關(guān)東海 翟象平
摘 要:在使用詞嵌入法進(jìn)行詞轉(zhuǎn)向量時,兩個反義詞會轉(zhuǎn)換成相近的向量。如果這兩個詞是情感詞,將會導(dǎo)致詞的情感信息的丟失,這在情感分析任務(wù)中是不合理的。為了解決這個問題,提出了一種在詞嵌入的基礎(chǔ)上增加情感向量來獲取情感信息的方法。首先利用情感詞典資源構(gòu)建情感向量,將其與詞嵌入法得到的詞向量融合在一起;然后采用雙向長短期記憶(BiLSTM這個縮寫是否有誤?是否應(yīng)該為“BiLSTM”?請明確)網(wǎng)絡(luò)獲取文本的特征;最后對文本的情感進(jìn)行分類。在4個數(shù)據(jù)集上分別對該方法與未融合情感向量的方法進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明所提方法分類準(zhǔn)確度與F1值都高于未融合方法,說明了加入情感向量有助于提高情感分析的性能。
關(guān)鍵詞:情感分析;詞嵌入;情感詞;情感信息;雙向長短期記憶網(wǎng)絡(luò)
Abstract: When using word embedding method for word-to-vector, two antonyms are converted into similar vectors. If they are sentiment words, it will lead to the loss of sentimental information, which is unreasonable in sentiment analysis task. To solve this problem, a method of adding sentiment vectors to obtain sentiment information based on word embedding was proposed. Firstly, the sentiment vector was constructed by using sentiment lexicon, and combined with word vector obtained by word embedding method. Then, a bidirectional Long Short Term Memory (BiLSTM) network was used to obtain the characteristics of text. Finally, the sentiment of text was classified. Experiments of the proposed method and the method without fusing sentimental vector were carried out on four datasets. The experimental results show that the classification accuracy and F1 score of the proposed method are higher than those of the method without fusion, which indicates that adding sentimental vectors is beneficial to improve the performance of sentiment analysis.
Key words: sentiment analysis; word embedding; sentiment word; sentiment information; bidirectional LSTM (BiLSTM)
0 引言
隨著社交網(wǎng)絡(luò)與電子商務(wù)的發(fā)展,網(wǎng)民在上網(wǎng)的過程中會產(chǎn)生大量帶有情感的評論數(shù)據(jù)。這些海量的評論數(shù)據(jù)引起了越來越多學(xué)者的關(guān)注,他們可以使用網(wǎng)民對熱點(diǎn)事件的評論來了解大眾的輿論傾向[1],進(jìn)一步管理、引導(dǎo)和控制事件的發(fā)展。也可以使用購物者對商品的評論數(shù)據(jù)[2]來了解商品的質(zhì)量,對未來的購物行為起到一定的參考。目前對文本評論的情感分析主要分為兩種方法:基于情感詞典[3]的方法與基于機(jī)器學(xué)習(xí)[4]的方法?;谇楦性~典的方法是利用句子中的情感詞與一些影響情感的詞的組合來判斷句子的情感傾向,它能很好地利用情感詞來反映句子的情感傾向,不過這種方法非常依賴情感詞庫的構(gòu)建,并且同一個詞在不同的領(lǐng)域內(nèi)所表達(dá)的情感傾向可能是不同的,所以這種方法有一定的局限性。基于機(jī)器學(xué)習(xí)的方法是利用標(biāo)記好的文本訓(xùn)練一個分類器,其中重要的兩個步驟是構(gòu)造特征與選擇分類器。構(gòu)造特征是將詞轉(zhuǎn)化為能表示情感的向量,主要的方法有詞袋法與詞嵌入法。分類器主要有支持向量機(jī)(Support Vector Machine, SVM)、樸素貝葉斯(Naive Bayes)、卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)與長短期記憶(Long Short Term Memory, LSTM)網(wǎng)絡(luò)[5-8]。
近幾年,深度神經(jīng)網(wǎng)絡(luò)在圖像識別與語音識別領(lǐng)域了較大的突破,于是大家也將這一方法應(yīng)用到情感分析的研究上。Bengio等[9]利用神經(jīng)網(wǎng)絡(luò)語言模型學(xué)習(xí)每個詞的分布式表示與詞序列的概率函數(shù),將每個詞轉(zhuǎn)化成低維、連續(xù)的向量。Mikolov等[10]通過對頻繁出現(xiàn)的詞進(jìn)行子抽樣來加速詞向量的訓(xùn)練,同時也提出了負(fù)采樣的方法。通過語言模型獲得的詞向量在一定程度上能表達(dá)句子的語義信息,它能很好地代替詞袋法來解決自然語言處理中的一些問題。不過針對情感分析這個問題,詞向量并不能反映出一個詞的情感傾向,比如“好”與“壞”這兩個詞的詞向量非常相似,這是不太合理的,因此,有一些學(xué)者開始研究如何利用句子中表達(dá)情感信息的成分來提高情感分類效果,比如句子中包含的表情符號和一些情感詞[1,6,11]。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)是一種具有記憶功能的神經(jīng)網(wǎng)絡(luò),適合序列數(shù)據(jù)的建模,它在語音識別、自然語言處理等領(lǐng)域取得了成功。Yang等[12]提出了基于注意力機(jī)制的網(wǎng)絡(luò),改進(jìn)了6種文本分類任務(wù)的效果;Wang等[13]通過使用基于注意力的長短期記憶網(wǎng)絡(luò)來處理Aspect-level的情感分析問題;Alec等[14]通過使用CNN與LSTM層的多個分支的組合核來描述一種新的情感分析方法,在互聯(lián)網(wǎng)電影數(shù)據(jù)庫(Internet Movie DataBase, IMDB)評論情緒數(shù)據(jù)集中取得了最高的準(zhǔn)確度。本文使用雙向長短期記憶(Bidirectional Long Short Term Memory, BiLSTM)網(wǎng)絡(luò)分類器進(jìn)行情感的預(yù)測,它用兩個不同的循環(huán)層分別從正向和反向?qū)?shù)據(jù)進(jìn)行掃描,不僅利用了過去的數(shù)據(jù),還利用了未來的數(shù)據(jù),進(jìn)一步提高了網(wǎng)絡(luò)性能。
綜上所述,本文提出了一種融合情感與語義信息的情感分析方法,即利用情感詞的情感信息構(gòu)造出情感向量,與語言模型生成的向量(稱之為語義向量)相結(jié)合來表示文本,使用雙向LSTM作為分類器,充分學(xué)習(xí)文本的序列特征,對商品評論與電影評論數(shù)據(jù)進(jìn)行情感分析。
1 詞嵌入法
詞嵌入是將詞映射到低維密集向量的方法,解決了使用詞袋法帶來的稀疏問題。它是從大量文本語料中以無監(jiān)督的方式學(xué)習(xí)語義知識的一種模型,通過學(xué)習(xí)文本來用詞向量的方式表征詞的語義信息,即通過一個嵌入空間使得語義上相似的單詞在該空間內(nèi)距離很近。在眾多詞嵌入方法中,skim-gram模型是使用較廣泛的一種,skim-gram使用輸入層、隱含層、softmax層三層神經(jīng)網(wǎng)絡(luò)訓(xùn)練出一個模型,根據(jù)詞共現(xiàn)法將句子中的詞構(gòu)造成(輸入詞、輸出詞)的單詞對。再將單詞對轉(zhuǎn)成one-hot編碼的形式輸入到神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,模型采用了負(fù)采樣的方法選擇性地更新權(quán)重矩陣,降低了訓(xùn)練代價并且改善所得到詞向量的質(zhì)量。網(wǎng)絡(luò)訓(xùn)練完成后,獲得隱含層的權(quán)重矩陣Wn*d,權(quán)重矩陣的每一行就代表一個詞的詞向量,這里本文稱為語義向量,n表示語料中詞的個數(shù),d表示詞向量的維數(shù)。經(jīng)過詞嵌入方法的轉(zhuǎn)化,詞和文本的語義向量表示如下:
其中:wi表示第i個詞的語義向量,SW表示文本文本的語義向量,row代表取行向量。通過skim-gram模型得到的詞向量可以很好地捕捉語義單元之間潛在的語義關(guān)系,且訓(xùn)練語料越多,詞向量蘊(yùn)含意義越豐富。
2 LSTM網(wǎng)絡(luò)
長短期記憶(LSTM)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,它既保留了循環(huán)神經(jīng)網(wǎng)絡(luò)處理序列數(shù)據(jù)的能力,又解決了序列學(xué)習(xí)過程時存在的長期依賴問題,避免梯度消失和梯度爆炸現(xiàn)象。LSTM通過“記憶單元”和“門”控制器的巧妙設(shè)計(jì)實(shí)現(xiàn)序列數(shù)據(jù)學(xué)習(xí)能力的提升,它由記憶單元、輸入門、遺忘門和輸出門四個主要元素組成。其中:遺忘門f決定記憶單元前一個狀態(tài)信息的留存,輸入門i控制記憶單元中當(dāng)前時刻信息的輸入,記憶單元c這兩處的大寫C和O,是否應(yīng)該改為小寫的i、o,以便與式(3)~(8)中的書寫保持一致,請明確。根據(jù)當(dāng)前輸入信息更新記憶狀態(tài),再由輸出門o判斷記憶單元對下一個狀態(tài)的輸出結(jié)果。下面是LSTM的結(jié)構(gòu)和計(jì)算公式:
其中:ht表示t時刻記憶單元的狀態(tài),xt表示t時刻的信息輸入,W是權(quán)重矩陣,b是函數(shù)的偏置項(xiàng),σ是sigmoid函數(shù)。
雙向長短期記憶模型由兩層LSTM模型組成:一層學(xué)習(xí)順序輸入數(shù)據(jù)的特征,另一層學(xué)習(xí)逆序輸入數(shù)據(jù)的特征,這種結(jié)構(gòu)使得雙向LSTM可以更充分學(xué)習(xí)輸入序列數(shù)據(jù)中詞語的上下文信息,在后續(xù)內(nèi)容中BiLSTM即代表雙向LSTM。
3 情感與語義信息融合方法
情感與語義信息融合方法是將語義向量與情感向量結(jié)合作為情感分析任務(wù)的輸入,利用雙向LSTM分類器對標(biāo)記好的數(shù)據(jù)進(jìn)行訓(xùn)練,生成情感分類器。主要包括:生成語義向量、生成情感向量、語義向量融合情感向量。
3.1 生成語義向量
本文使用Google開源的工具Word2vec[15]獲取語義向量,以新聞數(shù)據(jù)作為訓(xùn)練語料,共現(xiàn)窗口設(shè)置為5,輸出向量維數(shù)設(shè)為100。經(jīng)過Word2vec工具訓(xùn)練之后每個詞被轉(zhuǎn)化成100維的語義向量。在對文本進(jìn)行數(shù)字化表示的時候,由于文本的長度長短不一,為了保持文本序列的一致性,本文取前100個詞的語義向量,如果文本的詞匯數(shù)量小于100,不足的詞數(shù)使用等維度的全0向量補(bǔ)充,這樣一段文本就可以用100個語義向量序列表示。
3.2 生成情感向量
使用Word2vec工具生成的語義向量能很好表示詞語的語義信息,但是缺少了詞的情感信息。為了彌補(bǔ)這一缺點(diǎn),本文針對此情感傾向構(gòu)造出情感向量。受到基于情感詞典方法的啟發(fā),本文發(fā)現(xiàn)影響文本情感的詞不僅僅有積極情感詞與消極情感詞,還包括一些否定詞、轉(zhuǎn)折詞與主張?jiān)~,這些詞按照一定的語法結(jié)構(gòu)綜合地影響文本的情感傾向,因此本文將詞分成6大類,分別是積極詞、消極詞、中性詞、否定詞、轉(zhuǎn)折詞與主張?jiān)~,采用類似one-hot編碼的方式構(gòu)造一個6維的向量,這6維代表著6類詞語,如果一個詞屬于其中的一類,則相應(yīng)位置的數(shù)值置為1,其余置為0。比如“喜歡”這個詞的詞性是屬于積極的,那它的情感向量就表示為[1,0,0,0,0,0]。
上述方法生成的情感向量包含詞的情感信息,然后將其應(yīng)用到情感分析任務(wù)中。在對詞進(jìn)行分類的步驟中,本文參考了臺灣大學(xué)的NTUSD(National Taiwan University Sentimental Dictionary)簡體中文情感詞典中的積極詞詞典、消極詞詞典,并構(gòu)造了常用的否定詞詞典、轉(zhuǎn)折詞詞典和主張?jiān)~詞典,一共5種詞典。利用上述5種詞典將文本中的詞進(jìn)行分類,如果一個詞不存在于5種詞典中的任何一種,則該詞被認(rèn)為是中性詞。一段文本經(jīng)過上述的方法可以表示成情感向量序列:
其中:ei表示第i個詞w的情感向量,dictn表示第n個情感詞典,SE表示文本的情感向量序列。同語義情感向量的操作一樣,選取序列中的前100個情感向量表示該文本,不足100的使用等維度的全0向量補(bǔ)齊。進(jìn)一步地考慮每一類詞語對情感傾向的影響效果有所不同,比如轉(zhuǎn)折詞的影響程度就大于主張?jiān)~的影響程度,因此對每一類詞都賦予不同的權(quán)重,并且對于情感向量中為0的值使用[-0.2,0.2]區(qū)間的一個隨機(jī)值來代替,降低情感向量的稀疏性。
3.3 語義向量融合情感向量
生成了詞的語義向量與情感向量之后,如何融合這兩種向量是一個非常重要的問題。本文提出了兩種融合方法:一種是在神經(jīng)網(wǎng)絡(luò)的輸入層將語義向量和情感向量串聯(lián)起來構(gòu)成一個詞的詞向量;一種是在神經(jīng)網(wǎng)絡(luò)的雙向LSTM層將語義向量的輸出結(jié)果與情感向量的輸出結(jié)果串聯(lián)在一起。這兩種融合方法分別對應(yīng)不用的網(wǎng)絡(luò)結(jié)構(gòu),在下面的公式與圖中,“+”表示串聯(lián)操作。
第一種在輸入層將語義向量與情感向量融合,每一詞就由100維的語義向量和6維的情感向量串聯(lián)表示,一共106維,一段評論文本S就由100個106維的向量序列表示。將融合后的向量序列輸入到雙向LSTM網(wǎng)絡(luò)中進(jìn)行情感分類:
第二種是將語義向量序列與情感向量序列分別輸入到雙向LSTM網(wǎng)絡(luò)中,網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行融合再送入全連接層中,最后經(jīng)過輸出層輸出情感分析結(jié)果。融合的方式也有許多種,本文經(jīng)過實(shí)驗(yàn)探討了串聯(lián)、求和與求平均三種融合方式的效果,結(jié)果發(fā)現(xiàn)采用串聯(lián)的融合效果最好。
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)數(shù)據(jù)
本次實(shí)驗(yàn)的數(shù)據(jù)集共有4個,如下所示:
1)商品評論數(shù)據(jù)。從淘寶商場平臺上爬取,涉及到五類商品,評論的積極性與消極性在平臺上已經(jīng)作好了標(biāo)注。
2)電影影評數(shù)據(jù)。從豆瓣網(wǎng)上爬取,本文將影評中評分為5星的評論設(shè)置為積極評論,評價為1星的設(shè)置為消極評論。
3)酒店評論數(shù)據(jù)。譚松波[16]指代哪個文獻(xiàn)?若沒有這個文獻(xiàn),需補(bǔ)充這個文獻(xiàn),注意在正文中的依次引用順序。或者調(diào)整相關(guān)的語句。收集整理了一個較大規(guī)模的酒店評論語料,語料從攜程網(wǎng)上自動采集,并經(jīng)過整理而成。
4)自然語言處理及中文計(jì)算會議(Natural Language Processing and Chinese Computing, NLPCC)2014任務(wù)2數(shù)據(jù)。該語料共包含中文和英文兩種語言,本文使用其中的中文數(shù)據(jù),主要是商品評論,可以被應(yīng)用于篇章級或者句子級的情感分析任務(wù)。
每個數(shù)據(jù)集都按2∶8的比例分成訓(xùn)練集與驗(yàn)證集,訓(xùn)練集用于訓(xùn)練情感分類模型,測試集用于評價模型效果。4個數(shù)據(jù)集的詳細(xì)信息如表1所示。
在構(gòu)建詞的情感向量時,本文構(gòu)造了5個詞典,其中積極詞詞典、消極詞詞典參考了NTUSD臺灣大學(xué)簡體中文情感詞典,本文方法將詞典中較長的短語去除,加入了一些常用的帶有情感傾向的評論詞。否定詞詞典、轉(zhuǎn)折詞詞典與主張?jiān)~詞典是從常用的中文文本中總結(jié)得到的。這些詞典的詞匯量如表2。
4.2 實(shí)驗(yàn)設(shè)計(jì)
本文采用語義向量+SVM、語義向量+雙向LSTM、語義向量+CNN、語義+情感向量+雙向LSTM、語義向量+分層注意力網(wǎng)絡(luò)HN-ATT(Hierarchical ATTention Networks)這幾個模型進(jìn)行情感分析實(shí)驗(yàn)。
1) SVM。支持向量機(jī)是傳統(tǒng)機(jī)器學(xué)習(xí)算法中較為常用的一種,它通過尋找一個超平面將數(shù)據(jù)進(jìn)行分類。本文將文本序列的語義向量的平均值作為特征,SVM模型作為分類器,來研究傳統(tǒng)機(jī)器學(xué)習(xí)算法用于情感分類的效果。
2) CNN。卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域獲得較大的成果,它能夠更好地獲取圖像的局部特征。本文采用文本的語義向量序列為特征,CNN為分類器,研究卷積神經(jīng)網(wǎng)絡(luò)在本文情感分類的效果。
3) 雙向LSTM。長短期記憶網(wǎng)絡(luò)作為RNN的一種改進(jìn),對處理序列數(shù)據(jù)有較好的性能。本文使用文本的語義向量序列作為輸入,雙向LSTM網(wǎng)絡(luò)為分類器,通過實(shí)驗(yàn)研究循環(huán)神經(jīng)網(wǎng)絡(luò)對文本序列的處理效果。
4) 語義+情感向量+雙向LSTM。作為本文提出的情感信息融合方法,實(shí)驗(yàn)中將情感向量與語義向量分別作為特征輸入到模型中,采用3.3節(jié)中的兩種方法進(jìn)行融合,雙向LSTM網(wǎng)絡(luò)為分類器,通過實(shí)驗(yàn)研究“情感融合”的有效性。
5) 語義向量+HN-ATT。文獻(xiàn)[11]中提出的層次注意力網(wǎng)絡(luò),通過注意力機(jī)制對每個詞賦予不用的權(quán)重,實(shí)驗(yàn)中將語義向量作為特征輸入。
4.3 實(shí)驗(yàn)流程
4.3.1 文本預(yù)處理
文本是由詞組成的,首先要將文本分割成詞的序列。實(shí)驗(yàn)中使用jieba分詞工具對文本進(jìn)行分詞,之后對每一個詞進(jìn)行詞轉(zhuǎn)向量操作,經(jīng)過上述兩步之后,一個評論文本就轉(zhuǎn)化成一段詞向量序列,取前100個詞向量表示這個文本,將其輸入到模型中去。
4.3.2 模型構(gòu)建與測試
實(shí)驗(yàn)一共構(gòu)建5種分類模型,SVM模型接收語義向量的平均值,使用RBF(Radial Basis Function)核函數(shù)構(gòu)建超平面進(jìn)行分類。CNN采用卷積提取數(shù)據(jù)的特征,實(shí)驗(yàn)中卷積核大小為3×3,卷積核個數(shù)為200。LSTM網(wǎng)絡(luò)的輸出單元為200,雙向LSTM輸出結(jié)果的融合方式為取平均值。HN-ATT網(wǎng)絡(luò)中門控制單元GRU(Gated Recurrent Unit)的維數(shù)為100。在CNN、雙向LSTM模型和HN-ATT模型中都加入了maxpooling層與dropout層,maxpooling層的池化大小為3,步長為3,dropout的參數(shù)設(shè)置為0.5;這三個模型訓(xùn)練時采用的損失函數(shù)為交叉熵?fù)p失函數(shù),優(yōu)化器為Adam,訓(xùn)練的batch-size為64,epochs為12。實(shí)驗(yàn)將數(shù)據(jù)按8∶2的比例分成訓(xùn)練集與測試集,訓(xùn)練集用于訓(xùn)練模型,測試集測試模型的分類性能,采用的評價指標(biāo)為模型分類的準(zhǔn)確度accuracy與F1得分值(如表3)。
另外,為了研究情感向量維數(shù)和情感資源對分類效果的影響,又分別設(shè)計(jì)了以下兩種實(shí)驗(yàn):1)構(gòu)建三維的情感向量,每一維表示積極詞、消極詞和中性詞,除去否定詞、轉(zhuǎn)折詞與主張?jiān)~這三維信息。模型采用“語義+情感向量”的雙向LSTM模型。2)情感向量仍然使用6維,但是情感詞典的容量減少為原來的一半,使用的模型不變。
4.4 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)中使用Keras深度學(xué)習(xí)框架搭建網(wǎng)絡(luò)模型,分別采用商品評論和電影評論作為實(shí)驗(yàn)數(shù)據(jù)來測試4種模型的效果。得到的實(shí)驗(yàn)結(jié)果如下。
圖2展示的是幾種神經(jīng)網(wǎng)絡(luò)模型在電影影評數(shù)據(jù)上測試的accuracy-epochs變化,橫軸表示epochs,縱軸表示測試結(jié)果的accuracy值。圖中M-BiLSTM1、M-BiLSTM2表示融合了情感向量與語義向量的兩種模型,可以看出本文提出的兩種融合模型的測試效果要優(yōu)于BiLSTM模型與CNN模型。
從表3中可以發(fā)現(xiàn):SVM模型與CNN和BiLSTM模型相比,其分類的準(zhǔn)確度與F1得分值都較低,說明傳統(tǒng)的機(jī)器學(xué)習(xí)方法在情感分析中表現(xiàn)的性能要低于深度學(xué)習(xí)方法。CNN模型與BiLSTM模型相比較起來,BiLSTM的準(zhǔn)確度與F1得分值都略高于CNN,說明雙向LSTM網(wǎng)絡(luò)能更好地獲取到文本的上下文信息,更適合于處理序列數(shù)據(jù)。融合了情感向量與語義向量的模型與BiLSTM模型相比,性能略高。其中在商品評論數(shù)據(jù)集的測試中,M-BiLSTM1比BiLSTM準(zhǔn)確度高了0.62個百分點(diǎn),F(xiàn)1提高了0.55個百分點(diǎn);在電影評論數(shù)據(jù)集的測試中,M-BiLSTM1比BiLSTM準(zhǔn)確度提高了1.32個百分點(diǎn),F(xiàn)1提高了0.94個百分點(diǎn);在酒店評論數(shù)據(jù)的測試中,M-BiLSTM2比BiLSTM準(zhǔn)確度提高了1.55個百分點(diǎn),F(xiàn)1提高了1.06個百分點(diǎn);在NLPCC2014數(shù)據(jù)的測試中,M-BiLSTM1比BiLSTM準(zhǔn)確度提高了0.96個百分點(diǎn),F(xiàn)1提高了0.75個百分點(diǎn);由此可以看出加入了情感向量對分類性能有了一定的提升。在本文的方法與HN-ATT方法的對比中,商品評論、電影評論、NLPCC2014三個數(shù)據(jù)集上的實(shí)驗(yàn)效果高于HN-ATT,酒店評論數(shù)據(jù)的實(shí)驗(yàn)效果低于HN-ATT;說明本文提出的方法在大部分?jǐn)?shù)據(jù)上取得了較好的實(shí)驗(yàn)效果。
在研究情感向量維數(shù)和情感資源對分類效果的實(shí)驗(yàn)時,使用的數(shù)據(jù)集為電影評論數(shù)據(jù),模型的融合方式為第一種融合方式。得到的實(shí)驗(yàn)結(jié)果如表4所示。從中可以看出:1)使用3維情感向量的分類效果略低于6維,缺少了否定詞、轉(zhuǎn)折詞與主張?jiān)~這3維的信息,情感分類的效果有所降低。說明否定詞、轉(zhuǎn)折詞與主張?jiān)~都會對情感分類產(chǎn)生影響。2)將情感詞典容量減半會降低分類的效果,由于情感詞典缺少對詞的分類,生成的情感向量就丟失了情感信息。如果情感詞典的資源足夠豐富和準(zhǔn)確,那么情感向量就能更好地提高分類效果。
5 結(jié)語
在情感分析的研究任務(wù)中,采用詞嵌入法+深度神經(jīng)網(wǎng)絡(luò)是目前常用的做法。本文提出的融合情感與語義信息的方法是在詞嵌入法生成詞向量的基礎(chǔ)上,根據(jù)詞的情感信息構(gòu)建了情感向量,將二者融合一起應(yīng)用到情感分析任務(wù)中。通過兩個數(shù)據(jù)集的實(shí)驗(yàn)驗(yàn)證,該方法能夠提高情感分析的性能,說明詞的情感信息對文本的情感極性判斷是有影響的;同時實(shí)驗(yàn)中還比較了卷積神經(jīng)網(wǎng)絡(luò)與長短時記憶網(wǎng)絡(luò)在情感分析中的性能,結(jié)果得出長短時記憶網(wǎng)絡(luò)更適合處理類似文本的序列數(shù)據(jù)。通過實(shí)驗(yàn)本文發(fā)現(xiàn)詞的情感信息對情感分析任務(wù)有一定影響,在今后的工作中將研究基于主題和目標(biāo)的細(xì)粒度的情感分析方法。
參考文獻(xiàn) (References)
[1] 吳鵬,應(yīng)楊,沈思.基于雙向長短期記憶模型的網(wǎng)民負(fù)面情感分類研究[J].情報(bào)學(xué)報(bào),2018,37(08):845-853.(WU P, YING Y, SHEN S. Negative emotions of online users analysis based on bidirectional long short-term memory[J]. Journal of the China Society for Scientific and Technical Information, 2018, 37(8): 845-853.)
[2] 趙剛,徐贊.基于機(jī)器學(xué)習(xí)的商品評論情感分析模型研究[J].信息安全研究,2017,3(2):166-170.(ZHAO G, XU Z. Research on the sentiment analysis model of product reviews based on machine learning[J]. Journal of Information Security Research, 2017, 3(2): 166-170.)
[3] TETSUYA N, JEONGHEE Y. Sentiment analysis: Capturing favorability using natural language processing [C]// Proceedings of the 2nd International Conference on Knowledge Capture. New York: ACM, 2003: 70-77.
[4] WEI J, HUNG H H, ROHINI K S. OpinionMiner: a novel machine learning system for Web opinion mining and extraction [C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2009: 1195-1204.
[5] ZOU H, TANG X, XIE B, et al. Sentiment classification using machine learning techniques with syntax features [C]// Proceedings of the 2015 International Conference on Computational Science and Computational Intelligence. Piscataway, NJ: IEEE, 2015: 175-179.
[6] YIN R, LI P, WANG B. Sentiment lexical-augmented convolutional neural networks for sentiment analysis [C]// Proceedings of the 2017 IEEE 2nd International Conference on Data Science in Cyberspace. Piscataway, NJ: IEEE, 2017: 630-635.
[7] 於雯,周武能.基于LSTM的商品評論情感分析[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(8):159-163.(YU W, ZHOU W N. Sentiment analysis of commodity reviews based on LSTM[J]. Computer Systems and Applications, 2018, 27(8): 159-163.)
[8] 丁晟春,吳靚嬋媛,李紅梅.基于SVM的中文微博觀點(diǎn)傾向性識別[J].情報(bào)學(xué)報(bào),2016,35(12):1235-1243.(DING S C, WU J C Y, LI H M. SVM-based Chinese microblogging viewpoint orientation recognition[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(12): 1235-1243.)
[9] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.
[10] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.
[11] 何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語義增強(qiáng)的深度學(xué)習(xí)模型[J].計(jì)算機(jī)學(xué)報(bào),2017,40(4):773-790.(HE Y X, SUN S T, NIU F F, et al. An emotional semantic enhanced deep learning model for microblog emotion analysis [J]. Chinese Journal of Computers, 2017, 40(4): 773-790.)
[12] YANG Z, YANG D, DYER C, et al. Hierarchical attention networks for document classification [C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1480-1489.
[13] WANG Y Q, HUANG M L, ZHAO L, et al. Attention-based LSTM for aspect-level sentiment classification [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 606-615.
[14] ALEC Y, ABHISHEK. V. Deep CNN-LSTM with combined kernels from multiple branches for IMDB review sentiment analysis [C]// Proceedings of the 2017 IEEE 8th Annual Ubiquitous Computing, Electronics and Mobile Communication Conference. Piscataway, NJ: IEEE, 2017: 540-546.
[15] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [C]// Proceedings of the 2013 International Conference on Learning Representations. Scottsdale, Arizona: [s.n.], 2013: 1-12.
[16] 譚松波.酒店評論數(shù)據(jù)[EB/OL]. [2018-10-20]. http://www.datatang.com/data/11970.(TAN S B. Hotel review data [EB/OL]. [2018-10-20]. http://www.datatang.com/data/11970.)