范波 李金瞳
(湖南理工學(xué)院 信息科學(xué)與工程學(xué)院 湖南省岳陽市 414006)
在當(dāng)今的網(wǎng)絡(luò)社會中,網(wǎng)文的出現(xiàn)加大了人們理解的負(fù)擔(dān)。因?yàn)榫W(wǎng)文和面對面說話不同,讀者無法通過說話者的肢體語言、眼神形態(tài)來判斷說話者的情緒,只能通過說話者的書面語言和標(biāo)點(diǎn)符號來判斷,所以經(jīng)常發(fā)生理解錯(cuò)誤和盲目跟風(fēng)的情況。因此,利用計(jì)算機(jī)進(jìn)行文本的情感分析很有研究價(jià)值。它可以借助模型,采集相關(guān)網(wǎng)文的情感指標(biāo),協(xié)作預(yù)測受眾的情感,應(yīng)用在公司企業(yè)的話,可以幫助分析產(chǎn)品的消費(fèi)反饋或檢測在線負(fù)面評論,從而改善其產(chǎn)品,服務(wù)和營銷能力[1-2]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)可以對文本中的局部特征進(jìn)行準(zhǔn)確的提取,但其無法對提取的特征之間的遠(yuǎn)程依賴關(guān)系進(jìn)行識別,本文將雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行有機(jī)的結(jié)合,解決遠(yuǎn)程依賴關(guān)系無法識別的缺陷,從而提升文本情感分析的準(zhǔn)確性。
本文設(shè)計(jì)CNN-BiLSTM 算法的文本情感分析流程如圖1所示,其步驟主要為:
(1)網(wǎng)絡(luò)將會把需要分析的文本樣本轉(zhuǎn)換成詞向量形式;
(2)卷積神經(jīng)網(wǎng)絡(luò)算法將會對詞向量的特征信息進(jìn)行提??;
(3)BiLSTM 算法會通過網(wǎng)絡(luò)提取文本的上下文信息;
(4)系統(tǒng)中的sigmoid 分類器通過提取的詞向量,對上下文信息進(jìn)行分析,從而獲取情感分析結(jié)果。
本文采用的CNN-BiLSTM 算法首先將文本S 通過Word2Vec算法轉(zhuǎn)換成詞向量,其轉(zhuǎn)換關(guān)系如下:
上式中,d 表示詞向量維度;N 表示文本長度。
由于文本信息不同,則文本的長度也會存在一定的差異,為了確保提取的文本信息長度一致性,本文采用“長則序列截?cái)啵虅t補(bǔ)齊”的方法[3]。也可以確保文本的維度(l)是相同的,則詞向量與文本之間的關(guān)系滿足:針對基于卷積神經(jīng)網(wǎng)絡(luò)的文本情感分析,通過與雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,為了確保設(shè)計(jì)的文本情感分析模型能夠滿足要求,基于譚松波酒店評論語料和IMDB 英文評論語料進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果顯示,設(shè)計(jì)的模型明顯比現(xiàn)有的分析模型在精確率和召回率具有明顯的優(yōu)勢。
圖1:基于CNN-BiLSTM 的文本情感分析模型
表1:實(shí)驗(yàn)的軟件配置
表2:模型參數(shù)設(shè)置
圖2:長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)結(jié)構(gòu)
圖3:實(shí)驗(yàn)混淆矩陣
圖4:譚松波語料庫實(shí)驗(yàn)結(jié)果
圖5:IMDB 語料庫下實(shí)驗(yàn)結(jié)果
BiLSTM 算法非常適合應(yīng)用于序列分類處理,而且還具有記憶和儲存功能,但是由于BiLSTM 算法儲存容量較小,在進(jìn)行文本分類過程中,隨著文本信息數(shù)量不斷增加,儲存容量達(dá)到上限后,容易出現(xiàn)信息梯度消失現(xiàn)象。結(jié)合分析雙向長短期記憶神經(jīng)網(wǎng)絡(luò)算法(BiLSTM)和卷積神經(jīng)網(wǎng)絡(luò)算法(CNN)的優(yōu)缺點(diǎn),本文將兩者進(jìn)行有機(jī)的結(jié)合,充分發(fā)揮兩種模型的優(yōu)勢。
長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的結(jié)構(gòu)如圖2所示,忘記門,輸入門,輸出門是LSTM 網(wǎng)絡(luò)中非常重要組成部分。
上式中σ 表示激活函數(shù)sigmoid;
輸入門:首先,由式(4)得到輸入門限i(t),由式(5)得到候選單元狀態(tài) 。
則可計(jì)算獲得:
上式中,ct表示前時(shí)間的狀態(tài)值,tanh 表示雙曲正切函數(shù)。
輸出門:決定要輸出哪些單元狀態(tài)信息,o(t)介于0 到1 之間。
隱藏層狀態(tài):我們把單元狀態(tài)用tanh 函數(shù)將輸出值規(guī)一化為-1到1 之間,與輸出門限點(diǎn)積,以便只輸出我們決定輸出的部分。
雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)的思想是每一個(gè)訓(xùn)練序列分為向前和向后的兩個(gè)LSTM 網(wǎng)絡(luò),前向網(wǎng)絡(luò)可以得到歷史時(shí)間點(diǎn)信息,后向網(wǎng)絡(luò)可以得到后續(xù)時(shí)間點(diǎn)信息。該結(jié)構(gòu)充分考慮過去和未來的上下文信息,提升了預(yù)測的準(zhǔn)確性。本模型使用了兩個(gè)雙向LSTM 層,第一層輸出返回序列與第二層LSTM 輸入的關(guān)聯(lián),第二層輸出是前向?qū)雍秃笙驅(qū)拥淖詈笠粋€(gè)單元輸出的串聯(lián)。
對于文本情感分類問題,我們將全連接層結(jié)果輸入到sigmoid層:
預(yù)測結(jié)果為Y,我們使用交叉熵作為損失函數(shù),損失函數(shù)如下:
為了驗(yàn)證本文所提出模型的有效性,本文實(shí)驗(yàn)分別使用了中英文兩種數(shù)據(jù)集來測試模型。中文數(shù)據(jù)集選用了譚松波酒店評論語料,我們隨機(jī)選擇了其中20000 條文本數(shù)據(jù),其中積極文本12000 條,消極文本8000 條。英文數(shù)據(jù)集選用了IMDB 英文評論數(shù)據(jù)集,我們隨機(jī)選擇了其中50000 條文本數(shù)據(jù),其中積極文本30000 條,消極文本20000 條。為了保證實(shí)驗(yàn)的準(zhǔn)確性,我們使用了五折交叉驗(yàn)證方法進(jìn)行實(shí)驗(yàn),將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,將積極文本標(biāo)記為1,消極文本標(biāo)記為0[5]。
進(jìn)行實(shí)驗(yàn)的軟件配置如表1所示。針對基于卷積神經(jīng)網(wǎng)絡(luò)的文本情感分析,通過與雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,為了確保設(shè)計(jì)的文本情感分析模型能夠滿足要求,基于譚松波酒店評論語料和IMDB 英文評論語料進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果顯示,設(shè)計(jì)的模型明顯比現(xiàn)有的分析模型在精確率和召回率具有明顯的優(yōu)勢。
本模型使用的參數(shù)如表2所示。
參考夏松火等前人的做法,我們定義的混淆矩陣如圖3所示[6]。
評估指標(biāo)如下:
精確率(P):針對預(yù)測結(jié)果,預(yù)測正確的數(shù)據(jù)占所有樣本數(shù)據(jù)的比例
召回率(r):針對原樣本,預(yù)測正確的數(shù)據(jù)占原正確數(shù)據(jù)的比例
F 值(F):P 和r 值的加權(quán)評價(jià)指標(biāo)針對基于卷積神經(jīng)網(wǎng)絡(luò)的文本情感分析,通過與雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,為了確保設(shè)計(jì)的文本情感分析模型能夠滿足要求,基于譚松波酒店評論語料和IMDB 英文評論語料進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果顯示,設(shè)計(jì)的模型明顯比現(xiàn)有的分析模型在精確率和召回率具有明顯的優(yōu)勢。
同時(shí),我們使用準(zhǔn)確率(acc)作為評價(jià)模型訓(xùn)練效果的綜合評價(jià)指標(biāo),其計(jì)算公式如下:
本實(shí)驗(yàn)使用譚松波以及IMDB 情感文本數(shù)據(jù)集,通過word2vec預(yù)訓(xùn)練詞向量,將本文所提算法模型CNN-BiLSTM 與卷積神經(jīng)網(wǎng)絡(luò)(CNN)、雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)、卷積-長短期記憶神經(jīng)網(wǎng)絡(luò)(CNN-LSTM)三種算法進(jìn)行對比分析,通過等指標(biāo)衡量每種模型的分類效果,實(shí)驗(yàn)結(jié)果如圖4 和圖5所示。
從上述實(shí)驗(yàn)結(jié)果可以看出:在譚松波數(shù)據(jù)集上,本文所提出的模型達(dá)到了92.70%的準(zhǔn)確率,較傳統(tǒng)的CNN 提高了3.72%。在IMDB 數(shù)據(jù)集上,模型準(zhǔn)確度達(dá)到了89.54%,較傳統(tǒng)的CNN 提高了3.26%。
本文在傳統(tǒng)的CNN 卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種BiLSTM 網(wǎng)絡(luò)模型,解決了傳統(tǒng)CNN 中過長時(shí)序數(shù)據(jù)間無法產(chǎn)生聯(lián)系的問題,然后使用了文本情感預(yù)測實(shí)驗(yàn)來對其進(jìn)行驗(yàn)證,分別將中英文數(shù)據(jù)通過word2vec 算法轉(zhuǎn)化為詞向量,使用傳統(tǒng)的CNN網(wǎng)絡(luò)提取文本特征,通過本文提出的BiLSTM 模型獲取上下文信息,最后進(jìn)行情感分類。在仿真實(shí)驗(yàn)中本文通過定量和定性分析,得到了模型的優(yōu)化效果展示,證明了該模型的可行性和有效性。