曹衛(wèi)東,李嘉琪,王懷超
(中國民航大學計算機科學與技術(shù)學院,天津300300)
目標情感分析[1-3]是對給定文本中每個目標實體提及的情感極性進行分類,是目前的研究熱點。該目標實體存在于給定的文本中,一個文本可以有多個目標實體。目標情感分析是一種細粒度的情感分類任務,當文本中的多個實體有不同的情感極性時,它能夠針對文本中的某一實體進行情感極性的分類。例如,“我買了一個手機,外觀漂亮,但電池壽命較短”。這里有兩個目標實體,外觀和電池。目標實體“外觀”對應的情感極性是積極的,而“電池”是消極的。如果不考慮特定實體,則難以得出文本對應的正確語義。
目標情感分析通常采用基于循環(huán)神經(jīng)網(wǎng)絡的模型,即長短期記憶網(wǎng)絡和注意力機制相結(jié)合的模型。這類模型分類效果較好,受廣大學者歡迎。文獻[4]中提出的循環(huán)注意力網(wǎng)絡(RAM)模型將多跳注意力的結(jié)果與雙向長短期記憶網(wǎng)絡非線性組合,增強了模型的表示性,以此更好地捕捉情感特征。文獻[5]中提出的深度記憶網(wǎng)絡(MemNet)模型引入了深度存儲器網(wǎng)絡,捕獲關于給定目標詞的每個上下文單詞,建立了更高的語義信息。這類循環(huán)神經(jīng)網(wǎng)絡模型將復雜的循環(huán)神經(jīng)網(wǎng)絡作為序列編碼來計算文本的隱藏語義,具有很強的表示性。但是循環(huán)神經(jīng)網(wǎng)絡模型難以并行化,導致模型收斂時間長。
除了循環(huán)神經(jīng)網(wǎng)絡模型可用于解決情感分析外,還存在很多優(yōu)異的可替代循環(huán)神經(jīng)網(wǎng)絡模型的方法[6-8]。這類方法大多可并行計算,縮短收斂時間。文獻[9]中提出的帶有方面詞嵌入的門控卷積網(wǎng)絡(GCAE)模型采用卷積神經(jīng)網(wǎng)絡和門控機制,有效地選擇給定目標詞的文本特征,且該模型可并行計算,提升了訓練速度,同時也獲得了比較好的分類效果。文獻[10]中將目標詞通過雙向循環(huán)神經(jīng)網(wǎng)絡后,利用卷積神經(jīng)網(wǎng)絡提取顯著的特征。然而,這些模型通常未考慮上下文和目標詞之間的交互,無法充分利用目標詞和上下文詞之間的關系。因此,該類模型未能很好地提取目標詞關于上下文詞的情感特征。
基于此,筆者提出了一種既能提高準確率,又能縮短收斂時間的注意力門控卷積網(wǎng)絡(Attention Gated Convolutional Network,AGCN)模型。該模型將上下文和目標詞通過多頭注意力交互,以充分提取特征,利用門控卷積機制進一步捕獲與目標詞有關的情感特征,在一定程度上提升了準確率,降低了收斂時間。
圖1 注意力門控卷積網(wǎng)絡模型框架圖
對于長度為n的句子s={x1,x2,…,xn},xi為句子的第i個詞向量。給定的上下文詞序列Xc={xc1,xc2,…,xcn},目標詞序列Xt={xt1,xt2,…,xtm}?;谀繕说那楦蟹治鋈蝿帐歉鶕?jù)給定的目標詞,得出上下文對應的情感極性。
為了更好地提取關于目標的情感特征,實現(xiàn)細粒度的情感分類,筆者提出了一種用于目標情感分析的注意力門控卷積網(wǎng)絡模型。該模型由5層構(gòu)成,分別為輸入層、注意力層、門控卷積層、最大池化層和輸出層。模型框架如圖1所示。
文中的輸入為上下文詞向量和對應的目標詞向量。將兩者分別作為輸入,提取上下文詞關于目標詞的情感特征。
GloVe是一個基于全局詞頻統(tǒng)計的詞表示模型[11],將單詞轉(zhuǎn)化為詞向量。利用預訓練好的GloVe,得出詞向量矩陣MRd×|V|。其中,d是詞向量維度,|V|是詞典大小。
筆者將交互式的上下文和目標詞通過多頭注意力機制[12],充分提取情感特征和基于目標的情感特征。
將鍵序列k={k1,k2,…,kn}映射到查詢序列q={q1,q2,…,qm},得到一次輸出,通過多次計算,將多次結(jié)果拼接得到最終輸出。
各個單詞加權(quán)平均后得到的一次注意力函數(shù)如下:
fatt=S(s)·k,
(1)
其中,S表示softmax函數(shù),s表示ki和qj的語義相似度。s的公式如下:
s=tanh([ki;qj]·Ws) ,
(2)
其中,WsR2d,Ws是模型的訓練參數(shù)。
將h次的注意力表示進行拼接,輸出為
fmha=[fatt1;fatt2;…;fatth]·Wmha,
(3)
其中,WmhaRd×d。
上下文間感知詞嵌入建模(Intra-MHA)是將相同的上下文詞序列作為輸入,即k=q。由上下文詞向量xc可得出上下文間感知詞嵌入建模表示c=[c1,c2,…,cn]:
c=fmha(xc,xc)。
(4)
上下文交互目標詞建模(Inter-MHA)是將上下文詞序列和目標詞序列分別作為輸入,即k≠q。由上下文詞向量xc和對應的目標詞向量xt可得出上下文交互目標詞建模表示t=[t1,t2,…,tm]:
t=fmha(xc,xt) 。
(5)
卷積神經(jīng)網(wǎng)絡已被廣泛應用于圖像[13]和情感分析領域[14]。將卷積神經(jīng)網(wǎng)絡和門控機制用于情感分類,可以并行計算且選擇性地輸出情感特征,獲得良好的分類效果。該層的輸入為c和t,輸入的最大長度為n。將nk個尺寸不同的卷積核k與詞向量進行卷積,經(jīng)過門控機制得出情感特征oi,以實現(xiàn)對文本的局部感知,從而更好地提取局部特征。
卷積過程包含兩部分,帶有目標詞的上下文詞表示ai和上下文詞表示ui。公式如下:
ai=frelu(ci:i+k*Wa+vaVa+ba) ,
(6)
其中,frelu是relu激活函數(shù),WaRd×k,ba是偏置。ai用于生成帶有目標詞的情感特征,控制情感特征的傳播。
vj=frelu(tj:j+k*Wv+bv) ,
(7)
其中,WvRd×k,bv是偏置。vj通過最大池化得到va。
ui=ftanh(ci:i+k*Wu+bu) ,
(8)
其中,ftanh是tanh激活函數(shù),WuRd×k,bu是偏置。ui用于生成情感特征。
在t位置處,計算的情感特征oi為
oi=ui*ai。
(9)
筆者利用反向傳播算法,通過最小化交叉熵損失函數(shù)來訓練和更新注意力門控卷積網(wǎng)絡模型,以此選擇最優(yōu)的模型參數(shù),得出關于目標的情感分類。采用的交叉熵損失函數(shù)為
(10)
文中實驗環(huán)境如下:操作系統(tǒng)為Windows 10,處理器為i7-6700,內(nèi)存大小為16 GB,顯存為GTX1060 6 GB,開發(fā)語言是Python 3.6,采用的深度學習框架為Pytorch。
文中的數(shù)據(jù)來源于SemEval 2014任務四的餐廳和筆記本電腦評論。每條數(shù)據(jù)包括評論、目標詞和目標詞對應的情感極性。其中,情感極性有積極、中性和消極3種標簽。數(shù)據(jù)集和數(shù)據(jù)信息統(tǒng)計如表1所示。
表1 數(shù)據(jù)集統(tǒng)計
在本實驗中,為了保證兩個數(shù)據(jù)集能得出好的實驗效果,分別對其采用不同的參數(shù)設置。為了得到相對穩(wěn)定的實驗結(jié)果,本組實驗分別重復進行了50次。具體參數(shù)設置如表2所示。
表2 參數(shù)設置
為了驗證文中提出的注意力門控卷積網(wǎng)絡模型對目標情感分析的有效性,在SemEval 2014任務四的餐廳和筆記本電腦數(shù)據(jù)集上進行實驗,與循環(huán)神經(jīng)網(wǎng)絡模型和非循環(huán)神經(jīng)網(wǎng)絡模型進行對比。其中,循環(huán)神經(jīng)網(wǎng)絡模型有目標依賴的長短期記憶網(wǎng)絡(TD-LSTM)、基于注意力的長短期記憶網(wǎng)絡(ATAE-LSTM)、交互注意力網(wǎng)絡(IAN)和循環(huán)注意力網(wǎng)絡模型,非循環(huán)神經(jīng)網(wǎng)絡模型有深度記憶網(wǎng)絡、帶有方面詞嵌入的門控卷積網(wǎng)絡和注意力編碼網(wǎng)絡(AEN-GloVe)模型。
2.4.1 與基準方法的準確率對比實驗
本組實驗是為了驗證注意力門控卷積網(wǎng)絡模型在提高準確率方面的有效性。為了保證實驗結(jié)果的準確性,在本組實驗中,帶有方面詞嵌入的門控卷積網(wǎng)絡模型和注意力門控卷積網(wǎng)絡模型的準確率值由文中的實驗環(huán)境運行得出,其他的實驗結(jié)果均來自于對應的論文。各模型準確率的實驗結(jié)果如表3所示。
表3 準確率結(jié)果對比
從實驗結(jié)果可以看出,相比于其他基線模型,筆者提出的注意力門控卷積網(wǎng)絡模型在兩個數(shù)據(jù)集上均得到了最高的準確率。其中,在餐廳評論數(shù)據(jù)集上,注意力門控卷積網(wǎng)絡模型的準確率有明顯的提高,準確率約高達81.52%;在筆記本電腦評論數(shù)據(jù)集上的準確率也有一定的提升,準確率約達到了74.61%。
在循環(huán)神經(jīng)網(wǎng)絡模型中,TD-LSTM模型表現(xiàn)最差,因為該神經(jīng)網(wǎng)絡模型只對目標詞進行粗略處理,未能實現(xiàn)良好的情感分類,因此準確率較低。ATAE-LSTM、IAN和RAM模型分別都在長短期記憶網(wǎng)絡后增加了注意力機制,在餐廳評論數(shù)據(jù)集上的準確率分別約比TD-LSTM模型高了1.57%、2.97%和4.60%。加入了注意力機制的模型可以更好地提取重要的特征,從而驗證了注意力機制的有效性。IAN模型表現(xiàn)一般,因為它只是將文本和目標詞交互學習注意力。而文中的注意力門控卷積網(wǎng)絡模型在交互注意力后,通過了門控卷積機制,進一步提取有效的情感特征,比IAN模型在餐廳數(shù)據(jù)上的準確率約提高了2.92%,從而驗證了門控卷積機制的有效性。RAM模型比其他循環(huán)神經(jīng)網(wǎng)絡模型表現(xiàn)優(yōu)異,它利用長短期記憶網(wǎng)絡和多跳注意力機制捕捉情感特征,增強了模型的表示能力,文中的注意力門控卷積網(wǎng)絡模型的準確率在餐廳數(shù)據(jù)上比RAM模型約高了1.29%,驗證了文中模型的有效性。
在非循環(huán)神經(jīng)網(wǎng)絡模型中,MemNet模型表現(xiàn)一般,因為它沒有模擬嵌入的隱藏語義,最后一次關注的結(jié)果本質(zhì)上是單詞嵌入的線性組合,弱化了模型的表示能力。而文中的注意力門控卷積網(wǎng)絡模型中的門控卷積機制將多頭注意力的結(jié)果非線性地結(jié)合起來,能夠進一步加強模型的表示能力,同時還可以生成和選擇性地輸出情感特征,從而獲得更好的分類效果,進一步驗證了門控卷積機制的有效性。AEN-GloVe模型在餐廳數(shù)據(jù)上表現(xiàn)優(yōu)異,準確率約達到了80.98%,但是在筆記本電腦數(shù)據(jù)上表現(xiàn)一般,準確率約為73.51%。相較于文中模型,GCAE模型沒有交互式的上下文和目標詞,未能獲得較好的情感特征。文中的注意力門控卷積網(wǎng)絡模型比GCAE模型在餐廳評論數(shù)據(jù)集上的準確率約提高了2.06%,由此驗證了筆者將上下文詞向量和對應的目標詞向量作為輸入進行多頭注意力交互的有效性。
2.4.2 與基準方法的收斂時間對比實驗
本組實驗是為了驗證注意力門控卷積網(wǎng)絡模型在縮短收斂時間方面的有效性。為了保證收斂時間的一致性,本組的實驗數(shù)據(jù)均由文中實驗環(huán)境運行得出。本組實驗在餐廳評論數(shù)據(jù)集上進行,通過實驗,記錄各自模型的收斂時間。其中,收斂時間是各模型的測試集在準確率得到最高時的迭代次數(shù)所消耗的時間。各模型收斂時間的實驗結(jié)果如表4所示。
表4 收斂時間結(jié)果對比
從表4中容易看出,文中的注意力門控卷積網(wǎng)絡模型與循環(huán)神經(jīng)網(wǎng)絡模型相比,在很大程度上縮短了收斂時間;與非循環(huán)神經(jīng)網(wǎng)絡模型相比,比AEN-GloVe模型的收斂時間短,但是比MemNet和GCAE模型的收斂時間長。
在循環(huán)神經(jīng)網(wǎng)絡模型中,TD-LSTM模型的收斂時間最短,該模型雖然收斂時間短,但準確率相對較低。其他基于長短期記憶網(wǎng)絡和注意力機制模型的收斂時間較長,因為長短期記憶網(wǎng)絡不能并行化,且注意力機制中計算權(quán)重時消耗較多時間。與其他循環(huán)神經(jīng)網(wǎng)絡模型收斂時間相比,文中的注意力門控卷積網(wǎng)絡模型收斂速度最快,分別比ATAE-LSTM、IAN和RAM模型的收斂時間降低了29.17 s、105.26 s和54.32 s。在注意力門控卷積網(wǎng)絡模型中,卷積門控機制可以并行計算,大大縮短了收斂時間,從而驗證了門控卷積機制的有效性。
在非循環(huán)神經(jīng)網(wǎng)絡模型中,AEN-GloVe模型的收斂時間最長,該模型利用了兩層注意力機制,而注意力機制在計算權(quán)重時需要消耗大量時間,因此收斂時間長。注意力門控卷積網(wǎng)絡模型比MemNet和GCAE模型的收斂時間長,GCAE模型的收斂時間最短。MemNet和注意力門控卷積網(wǎng)絡模型的收斂時間相差不大。與GCAE模型相比,注意力門控卷積網(wǎng)絡模型比GCAE模型多增加了交互式的注意力機制層,該層延長了模型的收斂時間,雖然收斂時間增加了,但是交互注意力機制使得注意力門控卷積網(wǎng)絡模型的準確率得到了提升,總體效果表現(xiàn)良好。
2.4.3 網(wǎng)絡參數(shù)對情感分類的影響
圖2 不同優(yōu)化器對比實驗結(jié)果
網(wǎng)絡參數(shù)對模型的分類效果有很大的影響,因此對不同的數(shù)據(jù)集采用合適的網(wǎng)絡參數(shù)是非常必要的。為了驗證網(wǎng)絡參數(shù)對實驗的影響,本組進行了一組實驗,針對餐廳和筆記本電腦數(shù)據(jù),在優(yōu)化函數(shù)上進行對比實驗,觀察優(yōu)化函數(shù)對注意力門控卷積網(wǎng)絡模型的影響。本組實驗各重復了20次,每次實驗迭代20次。不同的數(shù)據(jù)集適用的優(yōu)化函數(shù)不同,本組實驗采用的優(yōu)化函數(shù)分別為自適應矩估計(Adam)、自適應梯度下降(AdaGrad)和隨機梯度下降(SGD)。實驗結(jié)果如圖2所示。
由圖2可知,當自適應梯度下降為優(yōu)化器時,文中的注意力門控卷積網(wǎng)絡模型在餐廳數(shù)據(jù)上可以實現(xiàn)最高的準確率;當自適應矩估計為優(yōu)化器時,在筆記本電腦數(shù)據(jù)上有最好的分類效果;隨機梯度下降優(yōu)化器在兩個數(shù)據(jù)集上沒有表現(xiàn)出良好的效果。自適應梯度下降和自適應矩估計優(yōu)化器可以自適應學習,都較適用于稀疏數(shù)據(jù)。兩者相比,自適應矩估計優(yōu)化器更適合較為稀疏的數(shù)據(jù)。筆記本電腦數(shù)據(jù)集比餐廳數(shù)據(jù)集稀疏,因此在筆記本電腦數(shù)據(jù)集上,自適應矩估計優(yōu)化器有優(yōu)異的表現(xiàn),而在餐廳數(shù)據(jù)集上,自適應梯度下降優(yōu)化器表現(xiàn)良好。隨機梯度下降優(yōu)化器不能自適應學習,在稀疏數(shù)據(jù)中的表現(xiàn)不如自適應梯度下降和自適應矩估計優(yōu)化器。
筆者提出了一種注意力門控卷積網(wǎng)絡模型,用于解決目標情感分析。該模型將上下文和目標詞嵌入作為輸入進行多頭注意力交互,利用上下文和目標詞之間的交互來充分提取關于目標詞的情感特征,提升了模型的準確率。并采用門控卷積機制提取與目標詞有關的情感特征,不僅進一步提高了準確率,還解決了循環(huán)神經(jīng)網(wǎng)絡模型收斂時間長的問題。采用SemEval 2014任務四數(shù)據(jù)的實驗結(jié)果驗證了該模型在目標情感分析領域不僅能夠提高目標情感分類的準確率,而且還能縮短收斂時間,在目標情感分析領域方面有重要的應用價值。值得注意的是,在收斂時間上,筆者提出的模型比非循環(huán)神經(jīng)網(wǎng)絡模型中的深度記憶網(wǎng)絡模型和帶有方面詞嵌入的門控卷積網(wǎng)絡模型的收斂時間長。因此,未來的研究方向?qū)⒅铝τ诮⒁粋€準確率高且收斂時間快的模型。