• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合卷積神經(jīng)網(wǎng)絡(luò)與雙向GRU的文本情感分析膠囊模型

      2021-06-10 07:18:48陳豪邁蔡盈盈
      中文信息學(xué)報 2021年5期
      關(guān)鍵詞:注意力膠囊卷積

      程 艷,孫 歡,陳豪邁,李 猛,蔡盈盈,蔡 壯

      (1. 江西師范大學(xué) 計算機信息工程學(xué)院,江西 南昌 330022;2. 豫章師范學(xué)院 數(shù)學(xué)與計算機學(xué)院,江西 南昌 330103)

      0 引言

      近年來,互聯(lián)網(wǎng)已從靜態(tài)的單向信息載體演變?yōu)閯討B(tài)的交互式媒體,越來越多的用戶在其中發(fā)布新聞或產(chǎn)品評論表達自己的觀點。利用情感分析技術(shù)對這些海量的交互信息進行分析,可以發(fā)現(xiàn)用戶的情感、心理軌跡,從而幫助研究機構(gòu)掌握社會情緒動態(tài)[1]。文本情感分析是指對帶有情感色彩的主觀性文本信息進行分析、處理、歸納總結(jié)并判斷其情感傾向[2],將這些帶有主觀情感的想法和觀點進行高效快速的分析是當(dāng)前的熱門研究方向。

      傳統(tǒng)的文本情感分析方法主要包括基于情感詞典方法和基于機器學(xué)習(xí)方法。盡管這些方法在分類準(zhǔn)確率方面表現(xiàn)良好,但依舊面臨許多困難?;谇楦性~典方法以情感詞典作為判斷評論情感極性的主要依據(jù)[3],依賴大量的人工干預(yù),例如,構(gòu)建詞典、制定判斷規(guī)則等,難以應(yīng)對新單詞和未知單詞的出現(xiàn),具有領(lǐng)域依賴性問題[1]?;跈C器學(xué)習(xí)方法由于忽略了句子中單詞的順序,無法區(qū)分句子的語義而導(dǎo)致情感分類錯誤問題[4]。以機器學(xué)習(xí)方法中較為常見的詞袋模型[5](bag of words,BOW)為例,BOW模型將文本表示為單詞的集合,但該集合忽略了語句中的語法和單詞出現(xiàn)的順序,結(jié)果導(dǎo)致模型無法捕獲單詞之間及上下文相關(guān)信息。

      近年來將深度學(xué)習(xí)技術(shù)應(yīng)用于自然語言處理(natural language processing,NLP)領(lǐng)域已成為行業(yè)主流。相比于傳統(tǒng)方法,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)在情感分類任務(wù)中均表現(xiàn)出優(yōu)越性。針對現(xiàn)有的大量情感信息未被充分利用的問題,越來越多的研究者[6-11]將語言知識和情感信息融入到模型中。陳釗等[6]將詞語情感序列特征與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合以提高分類準(zhǔn)確率,劉龍飛等[7]提出了結(jié)合字級別和詞級別詞向量的卷積神經(jīng)網(wǎng)絡(luò)模型。雖然這些神經(jīng)網(wǎng)絡(luò)模型取得了較大的成功,然而難以提取到多層次、更全面的文本情感特征,且嚴重依賴于文本信息和情感資源,需要將語言知識[11](情感詞典、否定詞、程度副詞)整合到模型中,實現(xiàn)預(yù)測準(zhǔn)確性方面的最佳潛能[12]。隨著膠囊[13]的出現(xiàn),Wang等[12]首次嘗試通過膠囊進行情感分析,不需要任何語言知識的加持,且相較于融合情感信息的基線模型,分類精度更高。膠囊是一組具有豐富意義的神經(jīng)單元[13],作為向量神經(jīng)元取代了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的標(biāo)量神經(jīng)元節(jié)點,改變了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)標(biāo)量與標(biāo)量相連的結(jié)構(gòu),減少了信息的丟失。在圖像分類領(lǐng)域,膠囊網(wǎng)絡(luò)[14]被證明可以有效地通過采用實例化參數(shù)的整個向量來理解高級別數(shù)據(jù)中的空間關(guān)系。Kim[15]和Zhao[16]等人已經(jīng)將膠囊網(wǎng)絡(luò)應(yīng)用于文本分類任務(wù),并證實膠囊網(wǎng)絡(luò)在該領(lǐng)域也具有優(yōu)勢。但膠囊網(wǎng)絡(luò)不能選擇性關(guān)注文本中的情感詞,且不能編碼遠距離依賴關(guān)系,在識別語義轉(zhuǎn)折的文本時有很大局限性[17]。注意力機制能實現(xiàn)選擇性地關(guān)注重要信息。Zhao等[18]提出了一種結(jié)合注意力機制(attention mechanism)和CNN的ATT-CNN模型,有效地識別出句子中單詞的重要程度。Vaswani等人[19]提出的transformer翻譯模型中采用的多頭注意力機制(multi-head attention mechanism)能讓模型從不同空間中獲取句子更多層面的信息,提高模型的特征表達能力。本文采用深度學(xué)習(xí)方法,基于文獻[12]的膠囊模型,提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)和雙向門控循環(huán)單元(bidirectional gated recurrent unit,Bi-GRU)的膠囊模型來解決文本情感分析問題。該模型利用多頭注意力捕獲文本中的情感詞,采用不同窗口大小卷積核的卷積神經(jīng)網(wǎng)絡(luò)和Bi-GRU進行文本情感特征采集,通過集成的形式將兩種模型提取到的局部語義特征和全局語義特征進行融合,針對每個情感類別結(jié)合注意力機制構(gòu)建情感膠囊,根據(jù)膠囊屬性判斷文本情感類別。此外,本文在特征融合階段引入全局平均池化層[20](global average pooling),將多層次語義信息充分融合在得到文本實例特征表示的同時,避免模型過擬合。

      本文主要貢獻如下:

      (1) 提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)和雙向GRU網(wǎng)絡(luò)的膠囊模型應(yīng)用于文本情感分析任務(wù),該模型針對每個情感類別結(jié)合注意力機制構(gòu)建情感膠囊,使用向量神經(jīng)元(膠囊)進行文本情感信息的特征表示,增強模型泛化能力,提升模型魯棒性。與需要融入語言知識、情感信息的模型相比,本文模型更為簡潔且分類精度更高。

      (2) 該模型集成了卷積神經(jīng)網(wǎng)絡(luò)局部特征提取的優(yōu)勢及雙向GRU考慮上下文語義的特點,有效地提升了模型的分類性能。

      (3) 在模型中引入多頭注意力捕獲文本中的情感詞,編碼單詞間的依賴關(guān)系,提高模型的特征表達能力。

      1 相關(guān)工作

      早期的情感分類任務(wù)主要基于人工規(guī)則的制定。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的方法逐漸成為主流。在此基礎(chǔ)上,許多研究人員[6-11]將語言知識應(yīng)用于情感分類任務(wù)中,獲得了更好的性能。

      情感詞典作為一種較為簡單的情感分類方法,首先對單詞或短語進行情感傾向性注釋,然后將每個單詞或短語的情感強度匯總,以獲取整個文本的情感傾向。然而,情感詞典很難獲取資源,目前尚無公開的情感詞典可用[1],且隨著時代的發(fā)展,難以應(yīng)對新詞的出現(xiàn),靈活度不高。傳統(tǒng)機器學(xué)習(xí)方法包括最大熵、決策樹、支持向量機(SVM)[21]等。這些方法不需要構(gòu)建詞典,而是在帶有標(biāo)簽的數(shù)據(jù)中自動學(xué)習(xí)語言知識為情感識別構(gòu)建特征模板,但特征提取過程不僅存在數(shù)據(jù)稀疏和維度爆炸問題,而且隨著數(shù)據(jù)量增大,處理海量數(shù)據(jù)費時費力[22]。然而無論上述中的哪種方法,都需要大量的人工干預(yù),嚴重依賴于文本的實例表示。

      近年來,越來越多的研究人員使用深度神經(jīng)網(wǎng)絡(luò)研究情感分類任務(wù)。與依賴于大量特征工程的傳統(tǒng)機器學(xué)習(xí)方法相比,卷積神經(jīng)網(wǎng)絡(luò)具有一個關(guān)鍵的優(yōu)勢,能夠自動執(zhí)行情感特征生成任務(wù)并學(xué)習(xí)更多一般表示,從而使該方法應(yīng)用于各種領(lǐng)域時具有較強的泛化能力。Kim[23]首次將CNN應(yīng)用于文本分類任務(wù)中,在每次卷積后連接一個最大池化層提取最能代表句子的特征,輸入全連接層后進行情感極性的判定。在此基礎(chǔ)上,Zhang等[24]提出了基于字母級別特征的卷積神經(jīng)網(wǎng)絡(luò)模型,使用6個卷積層和3個全連接層來處理大規(guī)模文本分類數(shù)據(jù)集,并取得了不錯的效果。由于中英文語義分割方式不同,許多現(xiàn)有方法無法直接應(yīng)用于中文文本分類任務(wù),Xiao等[4]提出了基于卷積控制模塊CCB的中文情感分類模型,在酒店評論數(shù)據(jù)集上的準(zhǔn)確率可達92.58%。程艷等[25]考慮到文本的層次化結(jié)構(gòu)對情感傾向性判定的重要性,基于CNN和層次化注意力網(wǎng)絡(luò)的優(yōu)點構(gòu)建深度學(xué)習(xí)模型C-HAN,并通過實驗證明了中文文本中字級別特征分類效果優(yōu)于詞級別。但CNN模型的弊端在于只能挖掘文本局部信息,而RNN引入了記憶單元使網(wǎng)絡(luò)具有一定的記憶能力,更能考慮文本間的長距離依賴。但在訓(xùn)練過程中會出現(xiàn)訓(xùn)練時間過長、梯度消失和梯度彌散等問題,影響實驗效果。長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)在傳統(tǒng)RNN的基礎(chǔ)上引入門控機制,較好地克服了RNN的弊端。Socher等[26-27]使用樹形結(jié)構(gòu)的LSTM網(wǎng)絡(luò)來改善語義表示,記憶單元能夠保存實例之間的聯(lián)系,從而捕獲單詞之間的關(guān)系。LSTM模型適用于處理情感分析問題,但仍舊是一種時間學(xué)習(xí)方法,很難并行訓(xùn)練,應(yīng)用于大規(guī)模文本數(shù)據(jù)集需要耗費大量的時間。Cho等[28]提出了GRU單元,相較于LSTM模型參數(shù)更少,訓(xùn)練更為快速,能夠捕獲全局語義特征。為結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)各自的優(yōu)勢,Zhang等[29]提出一種多通道CNN-LSTM模型,用于預(yù)測Twitter文本情感強度;袁和金等[30]融合注意力機制提出了一種基于多通道卷積與雙向GRU網(wǎng)絡(luò)的情感分析模型,Rehman等[31]提出的Hybrid CNN-LSTM模型在IMDB和Amazon電影評論數(shù)據(jù)集上達到了最佳的性能。該文結(jié)合CNN捕獲局部特征與雙向GRU提取全局語義特征的優(yōu)勢,更有利于模型對文本中情感特征更多層次、更為全面地獲取。

      深度學(xué)習(xí)方法在文本分類任務(wù)上取得了較大的成功,同時語言知識也越來越被研究者所重視,他們將語言知識整合到神經(jīng)網(wǎng)絡(luò)中以實現(xiàn)模型的最佳性能。常見的語言知識包括情感詞典、否定詞和程度副詞[11]。Qian等[8]通過損失函數(shù)將語言學(xué)知識引入LSTM模型中,有效地利用了情感詞典等情感資源。Teng等[9]針對現(xiàn)有方法使用情感詞典時不考慮上下文語義信息,提出了基于上下文敏感詞典的方法,該方法使用遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)構(gòu)成句子的情感強度,在Twitter語料分類實驗中獲得最佳效果。陳珂等[10]將情感分析任務(wù)中不同特征信息和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,有效地提高了情感分類的正確率。李衛(wèi)疆等[11]對情感分析任務(wù)中的語言知識和情感資源進行建模,取得了比傳統(tǒng)分類器更好的性能。但是語言知識需要人工干預(yù),情感詞典具有領(lǐng)域依賴性,因此限制了語言知識融入神經(jīng)網(wǎng)絡(luò)模型。2011年,Hinton等[13]提出了膠囊的概念,使用膠囊代替卷積神經(jīng)網(wǎng)絡(luò)中的標(biāo)量神經(jīng)單元。2018年,Wang等將RNN與膠囊網(wǎng)絡(luò)相結(jié)合用于情感分析,膠囊模型具有較強的情感建模能力,而且不需要任何語言知識就能輸出文本情感傾向性[32]。Zhao等[16]首次將膠囊網(wǎng)絡(luò)應(yīng)用于文本分類,在多個數(shù)據(jù)集上分類性能超越了CNN與RNN??偠灾?,使用膠囊進行特征表示,能減少信息丟失,保留了更多的文本情感信息。注意力機制通過對模型中不同關(guān)注部分賦予不同的權(quán)重,并從中抽取出更加重要和關(guān)鍵的信息,從而優(yōu)化模型并做出更為準(zhǔn)確的判斷[33]。Lin等[34]提出的自注意力能提取句子中關(guān)鍵信息。賈旭東等[17]提出了一種基于多頭注意力的膠囊網(wǎng)絡(luò)模型,證明了注意力引入膠囊網(wǎng)絡(luò)的價值和可行性。本文模型不需要融入復(fù)雜的語言知識,采用多頭注意力捕獲文本情感詞,編碼單詞依賴關(guān)系,集成CNN與Bi-GRU網(wǎng)絡(luò)兩種模型各自的優(yōu)點,通過多通道的形式將兩個模型分別提取到的局部文本特征和全局語義特征相結(jié)合,輸入到全局平均池化層融合特征的同時避免過擬合,最后結(jié)合注意力機制構(gòu)建情感膠囊,并根據(jù)膠囊屬性得到預(yù)測結(jié)果。

      2 模型

      融合卷積神經(jīng)網(wǎng)絡(luò)和雙向GRU的文本情感分析膠囊模型(text sentiment analysis capsule model combining multi-channel convolution and bidirectional GRU,MC-BiGRU-Capsule)的模型框架包括以下四個部分(圖1): 注意力層、特征提取、特征融合以及情感膠囊構(gòu)建。

      圖1 融合卷積神經(jīng)網(wǎng)絡(luò)和雙向GRU的文本情感分析膠囊模型結(jié)構(gòu)圖

      (1)注意力層: 該層由多頭注意力機制構(gòu)成,捕獲文本中情感詞,編碼單詞間依賴關(guān)系,形成文本特征表示。

      (2)特征提取: 將基于多頭注意力輸出的文本詞向量分別輸入到CNN和Bi-GRU中,其中CNN分別用512個3×300、4×300、5×300的卷積核、步長為1做卷積運算,隨后進行拼接,目的在于抽取單個句子中詞語的N-gram特征輸入到模型下一層結(jié)構(gòu)中,故僅使用了卷積操作,得到文本的局部特征;而Bi-GRU模型通過正向GRU與反向GRU處理文本序列,提取到全局語義特征。

      (3)特征融合: 將提取的局部特征和全局語義特征拼接得到特征向量H作為情感膠囊的輸入,采用全局平均池化層對向量H池化得到文本的實例特征表示Vs用于損失函數(shù)的計算。

      (4)情感膠囊構(gòu)建: 情感膠囊的數(shù)量與情感類別是一致的,例如,兩個膠囊分別對應(yīng)于積極情感與消極情感,每個情感類別也稱為膠囊的屬性。將上一步中拼接得到的特征向量H輸入到情感膠囊中,結(jié)合注意力機制計算膠囊激活概率Pi以及重構(gòu)特征表示rs,i。如果膠囊的激活概率在所有膠囊中最大,則該膠囊被視為激活,否則為非激活。激活狀態(tài)膠囊所對應(yīng)的屬性,即為輸入文本的情感類別作為模型的輸出。

      2.1 注意力層

      注意力機制可以選擇性地關(guān)注文本重要信息,本文采用多頭注意力從多個子空間捕獲文本序列的關(guān)鍵信息,如圖2所示。

      圖2 多頭注意力模型

      對于給定長度為L的文本S={w1,w2,…,wL},其中wi為句子S中的第i個單詞,將每個單詞映射為一個D維向量,即S∈RL×D。

      首先,將詞向量矩陣S線性變換并切割為3個維度相同的矩陣Q∈RL×D、K∈RL×D、V∈RL×D,并映射到多個不同的子空間中,如式(1)所示。

      (1)

      其中,Qi、Ki、Vi為各子空間的查詢、鍵、值矩陣;WQi、WKi、WVi為轉(zhuǎn)換矩陣;h為頭數(shù)。

      然后,并行計算各子空間的注意力值如式(2)所示。

      (2)

      隨后將各子空間的注意力值拼接并線性變換,如式(3)所示。

      Multi_head=concat(head1,…,headh)WM

      (3)

      其中,WM是轉(zhuǎn)換矩陣,Multi_head則為整個句子的注意力值,concat是拼接操作。

      最后,將Multi_head與S進行殘差連接得到句子矩陣如式(4)所示。

      X=residual_Connect(S,Multi_head)

      (4)

      其中,X∈RL×D即為多頭注意力的輸出,residual_Connect是殘差操作。

      2.2 融合CNN與雙向GRU的文本特征提取

      為了能夠提取更全面的文本情感特征,本文融合了卷積神經(jīng)網(wǎng)絡(luò)和雙向GRU文本特征提取各自的優(yōu)勢,從局部到全局兩個層次對文本情感特征進行建模。

      2.2.1 基于CNN的文本特征提取

      卷積神經(jīng)網(wǎng)絡(luò)的啟發(fā)來源于生物學(xué)界對生物視覺機制的研究,其強大的特征學(xué)習(xí)和特征表示能力被廣泛應(yīng)用于文本分類、情感分類等自然語言處理領(lǐng)域。如圖3所示,傳統(tǒng)CNN在文本任務(wù)中,將句子所構(gòu)成的詞向量作為輸入,然后采用多個與詞向量維度一致的卷積核進行卷積操作,捕捉到多個連續(xù)詞之間的特征。

      圖3 卷積運算原理圖

      本文模型選擇B個卷積濾波器對多頭注意力輸出矩陣X進行局部特征提取,得到特征矩陣:Ci=[Ci,1,Ci,2,…,Ci,B]∈R(L-k+1)×B,其中,Ci,B=[c1,c2,…,cL-k+1]∈RL-k+1為Ci中第B列向量。該向量中的元素cj由式(5)得到:

      cj=f(W·xj:j+k-1+b)

      (5)

      其中,f為激活函數(shù)relu,W∈Rk×D為卷積核,k為窗口寬度,xj:j+k-1∈Rk×D表示k個詞向量首尾串接,b是偏置項。

      為提取文本中的N-gram局部文本特征,將不同窗口大小卷積核提取到的特征向量進行拼接,形成融合特征序列C=[C1,C2,…,Cn],C∈Rl×B。其中,Cn∈R(L-kn+1)×B是窗口大小為kn的卷積核提取的特征序列。

      2.2.2 基于雙向GRU的文本特征提取

      不同于傳統(tǒng)機器學(xué)習(xí)方法僅僅考慮有限的前綴詞匯信息作為語義模型的條件項,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)有能力將語言知識集中的全部前序詞匯納入模型的考慮范圍。然而,標(biāo)準(zhǔn)RNN具有梯度消失或爆炸的問題。LSTM網(wǎng)絡(luò)與GRU網(wǎng)絡(luò)靠一些“門”的結(jié)構(gòu)讓信息有選擇地影響模型中每個時刻的狀態(tài)以克服此問題。GRU作為LSTM的變種,把LSTM中的遺忘門和輸入門用更新門代替。有關(guān)GRU結(jié)構(gòu)說明如圖4所示,相關(guān)計算如式(6)~式(9)所示。

      圖4 GRU單元結(jié)構(gòu)圖

      在經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)中,狀態(tài)的傳輸是從前往后單向的。然而,在某些問題中,當(dāng)前時刻的輸出不僅和之前的狀態(tài)有關(guān),也和之后的狀態(tài)相關(guān)。例如,預(yù)測一句話中缺失的單詞不僅需要前文判斷,還需要后文的內(nèi)容,而雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的出現(xiàn)解決了此問題,如圖5所示。

      圖5 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

      雙向循環(huán)神經(jīng)網(wǎng)絡(luò)將兩個單向RNN相結(jié)合。在每個時刻,同時輸入到兩個方向相反的RNN中,共同決定輸出,使結(jié)果更為精確。將雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中的RNN替換為GRU結(jié)構(gòu),組成了Bi-GRU。

      本文模型使用雙向GRU網(wǎng)絡(luò)從多頭注意力輸出矩陣X學(xué)習(xí)全局語義信息,該網(wǎng)絡(luò)在訓(xùn)練過程中同時使用兩個GRU沿著文本序列的前向與后向進行情感建模,輸出隱藏層Ht。具體計算過程如式(10)~式(12)所示。

      2.3 特征融合

      卷積神經(jīng)網(wǎng)絡(luò)在提取文本局部特征的同時減少了信息丟失,雙向GRU網(wǎng)絡(luò)遍歷整個文本序列,提取全局語義特征。本文集成了卷積神經(jīng)網(wǎng)絡(luò)與雙向GRU網(wǎng)絡(luò)各自的優(yōu)勢,采用全局平均池化方法融合文本的局部特征和全局語義特征得到文本實例特征表示Vs,增強了模型的特征表達能力。

      實驗過程中,將卷積神經(jīng)網(wǎng)絡(luò)中卷積核數(shù)量B與雙向GRU網(wǎng)絡(luò)輸出向量維度2d設(shè)置為相同數(shù)值,采用合并拼接的方式,拼接兩個網(wǎng)絡(luò)生成的特征向量如式(13)所示。

      H=concat(C,Ht)

      (13)

      其中,H∈R(l+L)×2d是拼接后的向量,C=[C1,C2,…,Cn],C∈Rl×B是卷積神經(jīng)網(wǎng)絡(luò)的輸出向量,Ht=[h1,h2,…,hL],Ht∈RL×2d是雙向GRU的輸出向量,concat是拼接操作。

      采用全局平均池化層對向量H進行均值池化,形成特征點,將這些特征點組成最后的特征向量Vs∈R2d作為文本情感實例特征表示,避免過擬合的同時增強了模型的魯棒性,計算如式(14)所示。

      Vs=globalaveragepooling(H)

      (14)

      其中,globalaveragepooling是全局平均池化操作。

      2.4 情感膠囊構(gòu)建

      單個情感膠囊的結(jié)構(gòu)如圖6所示。一個情感膠囊由表示模塊、概率模塊和重構(gòu)模塊組成。表示模塊利用注意力機制構(gòu)建膠囊特征表示vc,i;概率模塊則使用sigmoid激活函數(shù)預(yù)測膠囊激活概率Pi;重構(gòu)模塊將Pi與vc,i進行矩陣相乘得到膠囊的重構(gòu)特征表示rs,i。

      圖6 膠囊結(jié)構(gòu)圖

      注意力機制早于2014年在機器翻譯任務(wù)中得到應(yīng)用[35],表示模塊將拼接后的特征向量H結(jié)合注意力機制構(gòu)建膠囊內(nèi)部情感特征表示。注意力機制能夠幫助表示模塊在不同文本中判斷詞語的重要性,例如,“寬敞”在酒店評論數(shù)據(jù)中會提供正面積極的信息,但是出現(xiàn)在電影評論中的重要性就降低了。注意力機制計算如式(15)~式(17)所示。

      其中,H是拼接后的文本特征表示,將H輸入至全連接層得到ui,t作為隱含表示;通過計算ui,t和一個隨機初始化的上下文向量uw的相似度來決定單詞的重要性并使用softmax函數(shù)歸一化得到句子中單詞的注意力權(quán)重αi,t;根據(jù)權(quán)重矩陣,對向量H進行加權(quán)求和,得到注意力機制的輸出vc,i∈R2d;Ww和uw為權(quán)重矩陣,bw為偏置值,均由訓(xùn)練過程中學(xué)習(xí)得到。注意力機制生成更高級別的深層特征vc,i,獲取關(guān)鍵語義情感信息。

      概率模塊根據(jù)語義特征vc,i結(jié)合式(18)計算出膠囊的激活概率。

      Pi=σ(WP,ivc,i+bp,i)

      (18)

      其中,Pi為第i個膠囊的激活概率,WP,i與bP,i分別為權(quán)重矩陣和偏置矩陣,σ為sigmoid激活函數(shù)。

      重構(gòu)模塊將語義特征vc,i與概率矩陣Pi相乘得到重新構(gòu)建的語義特征表示rs,i∈R2d,如式(19)所示。

      rs,i=Pivc,i

      (19)

      膠囊中的三個模塊相互補充。每一個膠囊具有屬性(情感類別)對應(yīng)于文本輸入,因此,當(dāng)文本情感與膠囊屬性相匹配時,此膠囊的激活概率Pi應(yīng)該是最大的,且膠囊輸出的重構(gòu)特征rs,i與文本實例特征Vs應(yīng)最為相似。

      除此之外,本文訓(xùn)練的最終目標(biāo)為:一是最大化與文本情感相匹配膠囊的激活概率,同時最小化重構(gòu)向量與文本實例向量之間的誤差;二是最小化其他膠囊的激活概率,同時最大化向量間的誤差。故運用合頁損失函數(shù),如式(20)、式(21)所示。

      其中,yi為文本相對應(yīng)的情感類別標(biāo)簽。而最終的損失函數(shù)即為式(20)、式(21)兩式的和。

      L(θ)=J(θ)+U(θ)

      (22)

      MC-BiGRU-Capsule模型的算法學(xué)習(xí)過程如下。

      3 實驗分析

      本文在3個英文數(shù)據(jù)集和1個中文數(shù)據(jù)集上進行實驗,英文數(shù)據(jù)集包括MR[36](movie review)、IMDB[37]數(shù)據(jù)集、SST-5(斯坦福情緒樹庫)數(shù)據(jù)集,中文數(shù)據(jù)集為譚松波酒店評論數(shù)據(jù)集。上述數(shù)據(jù)集都已廣泛應(yīng)用于情感分類任務(wù),使得實驗結(jié)果有著較好的評估效果。MR數(shù)據(jù)集是一個英文電影評論的集合,每一個句子按照情感類別標(biāo)記為Positive(積極)和Negative(消極),有5 331條積極語句和5 331條消極語句。IMDB數(shù)據(jù)集包含了50 000條來自于美國電影評論站的數(shù)據(jù)集,分為正向與負向的情感類別,用于情感傾向性分析。SST-5數(shù)據(jù)集為MR數(shù)據(jù)集的擴展,提供了劃分的訓(xùn)練集、驗證集和測試集,共11 855個句子。數(shù)據(jù)標(biāo)簽分為五類,分別為,“非常積極”“積極”“中立”“消極”“非常消極”,本文在SST句子級(sentence-level)上進行訓(xùn)練。譚松波酒店評論數(shù)據(jù)集源于譚松波學(xué)者整理的酒店評論數(shù)據(jù),經(jīng)過對原始數(shù)據(jù)整理后得到正面情感評論數(shù)據(jù)與負面情感評論數(shù)據(jù)各3 000條用于本文實驗。各個數(shù)據(jù)集概況如表1所示。

      表1 實驗數(shù)據(jù)集統(tǒng)計信息

      3.1 實驗設(shè)置

      本文實驗基于PyTorch實現(xiàn),英文數(shù)據(jù)集使用300維Glove詞向量來初始化詞嵌入向量,對于詞典中不存在的詞使用均勻分布U(-ε,ε)進行隨機初始化,其中ε設(shè)置為0.05;為了預(yù)先訓(xùn)練好中文詞向量,先運用fastHan[38]工具對文本進行分詞,然后使用大規(guī)模中文維基百科數(shù)據(jù)訓(xùn)練skip-gram模型,中文詞向量維度設(shè)為300維。注意力模塊采用8頭注意力(h=8),模型訓(xùn)練過程使用Adam優(yōu)化器,學(xué)習(xí)率為0.001,采用準(zhǔn)確率指標(biāo)對模型進行評估,模型具體超參數(shù)設(shè)置如表2所示。

      表2 實驗超參數(shù)設(shè)置

      3.2 實驗對比

      將本文融合卷積神經(jīng)網(wǎng)絡(luò)和雙向門控循環(huán)單元的文本情感分析膠囊模型MC-BiGRU-Capsule,與以下方法在四個不同的數(shù)據(jù)集上進行實驗。

      本文對比的基線模型分為以下四組: 傳統(tǒng)機器學(xué)習(xí)方法、深度學(xué)習(xí)方法(CNN模型與RNN模型)、語言知識與模型結(jié)合的方法、膠囊方法,介紹如下:

      (1)NBSVM[39]: 樸素貝葉斯(native Bayes,NB)和支持向量機(support vector machines,SVM)的變體,常被用作文本分類的基線方法。

      (2)CNN: 文獻[23]提出的卷積神經(jīng)網(wǎng)絡(luò),通過使用不同大小的濾波器對文本詞向量進行卷積操作,隨后經(jīng)過最大池化,連入全連接層進行分類。

      (3)Bi-LSTM: 為LSTM網(wǎng)絡(luò)的變體,結(jié)合雙向文本信息,提高分類精度。

      (4)MC-CNN-LSTM: 文獻[29]提出的模型,利用多通道CNN抽取文本的N-gram特征作為LSTM的輸入,有效地捕獲文本中的關(guān)鍵信息。

      (5)LR-LSTM/LR-Bi-LSTM: 文獻[8]提出的基于語言規(guī)則的LSTM模型,在模型中整合了語言知識。

      (6)NCSL: 文獻[9]提出的使用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的情感值,該方法基于簡單的加權(quán)求和模型,但是需要復(fù)雜的語言知識。

      (7)Multi-Bi-LSTM:文獻[11]提出的一種基于多通道雙向長短期記憶網(wǎng)絡(luò)的情感模型,同樣需要讓模型充分學(xué)習(xí)句子中情感信息,使模型性能達到最佳。

      (8)Capsule-A/Capsule-B: 文獻[16]提出的膠囊網(wǎng)絡(luò),應(yīng)用于文本分類任務(wù)。

      (9)RNN-Capsule: 文獻[12]提出的情感分類膠囊模型,相較于本文模型,此模型只采用了RNN捕獲文本序列特征。

      (10)MC-BiGRU-Capsule: 本文提出的融合卷積神經(jīng)網(wǎng)絡(luò)與Bi-GRU網(wǎng)絡(luò)的文本情感分析膠囊模型。

      3.3 實驗結(jié)果分析

      本文在四個公用數(shù)據(jù)集與上述11個模型進行了實驗對比,結(jié)果如表3所示。

      由表3可知,本文提出的MC-BiGRU-Capsule模型在四個數(shù)據(jù)集上均取得了比基線模型更好的分類效果。在MR數(shù)據(jù)集上,模型的分類準(zhǔn)確率達到85.3%,在SST-5數(shù)據(jù)集上,分類準(zhǔn)確率達到50.0%,在IMDB數(shù)據(jù)集上,準(zhǔn)確率達到91.5%,中文數(shù)據(jù)集準(zhǔn)確率達到91.8%。在四個數(shù)據(jù)集上分別比對照實驗中最優(yōu)分類模型準(zhǔn)確率提高了1.5%、0.5%、2.2%和1.2%。

      表3 本文模型與基線模型在四個公開數(shù)據(jù)集上的準(zhǔn)確率對比實驗結(jié)果 (單位: %)

      首先,對于傳統(tǒng)機器學(xué)習(xí)方法,其余3組方法在MR、IMDB、譚松波酒店評論數(shù)據(jù)集上都取得了比NBSVM更好的分類效果,這表明神經(jīng)網(wǎng)絡(luò)模型相較于傳統(tǒng)方法在情感分類任務(wù)上有更好的效果。同時,膠囊方法的模型分類性能也遠遠高于CNN、Bi-LSTM、MC-CNN-LSTM這些普通的深度學(xué)習(xí)模型,說明在情感分類任務(wù)中使用膠囊進行文本情感特征表示,保留了更多的情感信息,提高了模型的分類性能。而且,膠囊方法在與語言知識融合的模型實驗對比中也體現(xiàn)了競爭性。

      其次,在深度學(xué)習(xí)方法中,MC-CNN-LSTM在所有數(shù)據(jù)集中的實驗性能均優(yōu)越于CNN和Bi-LSTM,驗證了集成卷積神經(jīng)網(wǎng)絡(luò)局部特征提取和Bi-GRU捕獲全局文本信息的必要性。在4個公開的中英文數(shù)據(jù)集上,我們的模型準(zhǔn)備率比MC-CNN-LSTM分別提高了5.1%、2.8%、2.8%和1.6%,表明膠囊模型使用向量神經(jīng)元具有更強的情感建模能力。在MR和SST-5數(shù)據(jù)上,盡管融入語言知識和情感資源的深度學(xué)習(xí)方法相比于其他基線模型展現(xiàn)了不錯的分類性能,但本文提出的MC-BiGRU-Capsule模型在電影評論MR數(shù)據(jù)集上準(zhǔn)確率比LR-Bi-LSTM、NSCL、Multi-Bi-LSTM模型分別提高了3.2%、2.4%、3.4%,并在多分類數(shù)據(jù)集上也表現(xiàn)出了更好的分類效果。此外,LR-Bi-LSTM、NSCL模型過度依賴于語言知識,如情感詞典和強度正則化器。值得注意的是,構(gòu)建這樣的語言知識需要大量的人工干預(yù)。Multi-Bi-LSTM模型對比上述兩種模型建模方式更為簡潔,但仍是一種基于語言知識和情感資源的深度學(xué)習(xí)模型,需要耗費大量的人力和時間成本。而本文模型不需要對任何語言知識和情感資源進行建模,使用膠囊對文本情感特征進行建模的方法,取得了比融入語言知識和情感信息的深度學(xué)習(xí)模型更好的分類效果,說明了本文模型效率更高,同時模型更簡單。

      最后,在膠囊方法的對比中,RNN-Capsule在MR數(shù)據(jù)集上的分類準(zhǔn)確率高于膠囊網(wǎng)絡(luò)Capsule-A、Capsule-B(1.5%),卻在IMDB數(shù)據(jù)集分類性能效果稍微差于Capsule-A、Capsule-B(0.4%)。這是由于IMDB數(shù)據(jù)集為長文本數(shù)據(jù)集(平均句長294),而MR數(shù)據(jù)集為短文本數(shù)據(jù)集(平均句長20)。RNN-Capsule利用循環(huán)神經(jīng)網(wǎng)絡(luò)進行文本序列提取,根據(jù)句子長度對隱藏特征求均值,得到最終的實例特征表示,句子的長度越長,向量的實例化表示越差,不能較好地表示文本的情感類別,影響模型的最終性能,故RNN-Capsule在IMDB數(shù)據(jù)集上的表現(xiàn)欠佳。膠囊網(wǎng)絡(luò)Capsule-A、Capsule-B采用動態(tài)路由機制取代池化層生成膠囊連入全連接膠囊層進行分類,文本長度對其影響不大。本文提出的模型MC-BiGRU-Capsule在4個數(shù)據(jù)集上的分類準(zhǔn)確率均超越了RNN-Capsule,且在IMDB數(shù)據(jù)集上的分類性能也高于膠囊網(wǎng)絡(luò)Capsule-A、Capsule-B,有效地驗證了利用多頭注意力編碼單詞間依賴關(guān)系及集成卷積神經(jīng)網(wǎng)絡(luò)和Bi-GRU特征提取的優(yōu)越性,克服了RNN-Capsule長文本向量表示不足的局限性,引入全局平均池化層生成文本實例特征在中英文數(shù)據(jù)集上的高效表現(xiàn),更是展現(xiàn)了MC-BiGRU-Capsule的魯棒性和泛化能力。

      本文模型引入膠囊的概念,使用向量神經(jīng)元取代標(biāo)量神經(jīng)元,在減少信息丟失的同時,增強了模型情感建模能力,而且以向量為單位的學(xué)習(xí)不同于一般的神經(jīng)網(wǎng)絡(luò)模型。我們在MR數(shù)據(jù)集上進行了基于向量學(xué)習(xí)如何影響模型性能的實驗,結(jié)果如圖7所示。通過改變膠囊模型中文本實例向量維度與重構(gòu)向量維度的大小,得到模型準(zhǔn)確率在測試集上的變化。實驗結(jié)果表明,運用維度更大的向量表示文本情感特征,會使得模型的分類精度更高。因此,當(dāng)訓(xùn)練對象為向量時,表示文本情感特征能力會增強,并可能表示出文本的各種屬性。

      圖7 準(zhǔn)確率隨向量維度變化圖

      為更直觀地說明多頭注意力能夠捕獲文本中的情感詞、編碼單詞依賴關(guān)系,本文將句子中單詞注意力權(quán)重分配情況可視化展示,顯示文本中的重要情感特征。如表4所示,以IMDB數(shù)據(jù)集中的正負樣本為例,對文本情感特征進行標(biāo)注,其中顏色較深部分權(quán)重較大,而顏色較淺部分權(quán)重較小。

      表4 注意力權(quán)重可視化

      動態(tài)詞向量BERT[40-41]已在多個自然語言處理任務(wù)上取得了優(yōu)越性能。與Glove、Word2Vec等靜態(tài)詞向量相比,BERT能夠提取文本的深層次上下文特征,通過雙向編碼,結(jié)合不同語境獲取單詞語義,克服多義詞的消歧問題。本文在IMDB數(shù)據(jù)集上采用BERT動態(tài)詞向量進行實驗。此外,還將BERT與本文模型MC-BiGRU-Capsule結(jié)合,與文獻[42]所提出的利用情感詞典微調(diào)后的BERT預(yù)訓(xùn)練模型SentiBERT進行對比。

      由于BERT語言模型的龐大性及可復(fù)現(xiàn)性差,較多研究者使用預(yù)訓(xùn)練好的BERT模型進行微調(diào)用于下游任務(wù),然而又受到輸入文本長度的限制,大量的模型參數(shù)也導(dǎo)致了微調(diào)時間過長等問題。如表5所示,本文模型MC-BiGRU-Capsule僅使用GloVe靜態(tài)詞向量進行訓(xùn)練卻取得了比BERT模型及ULMFIT[43](基于LSTM的預(yù)訓(xùn)練語言模型)更好的分類效果;且在結(jié)合了動態(tài)詞向量后,分類準(zhǔn)確率提升了1.2%,相較于SentiBERT模型準(zhǔn)確率高出0.8%。在本文模型的基礎(chǔ)上引入Bert動態(tài)詞向量,性能能夠進一步提升,也驗證了MC-BiGRU-Capsule模型的有效性。

      表5 結(jié)合動態(tài)詞向量對比實驗結(jié)果 (單位: %)

      4 總結(jié)與展望

      本文提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)和雙向GRU的膠囊模型用于文本情感分類任務(wù)。該模型使用多頭注意力捕獲文本情感詞,編碼單詞依賴關(guān)系,解決膠囊網(wǎng)絡(luò)在文本分類任務(wù)中不能選擇性關(guān)注重要單詞的問題。為提取多層次、更全面的文本情感特征,采用CNN進行局部特征采集的同時運用雙向GRU網(wǎng)絡(luò)提取全局語義特征。利用向量神經(jīng)元(膠囊)取代標(biāo)量神經(jīng)元進行文本情感建模,取得了比融合語言知識、情感資源方法更好的分類性能,證明了膠囊模型的特征表達能力。通過在不同數(shù)據(jù)集上的對比實驗,驗證了本文模型的效果。

      在下一步的工作中,可以考慮情感膠囊內(nèi)部機制的改進,如注意力機制的優(yōu)化;同時增強特征融合能力,使向量可以更好地表示情感特征,提升模型的穩(wěn)定性和高效性。

      猜你喜歡
      注意力膠囊卷積
      Shugan Jieyu capsule (舒肝解郁膠囊) improve sleep and emotional disorder in coronavirus disease 2019 convalescence patients: a randomized,double-blind,placebo-controlled trial
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      Shumian capsule(舒眠膠囊)improves symptoms of sleep mood disorder in convalescent patients of Corona Virus Disease 2019
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      聚焦“毒膠囊”
      长葛市| 伊吾县| 富平县| 井冈山市| 崇仁县| 丰宁| 长寿区| 拉孜县| 定远县| 安陆市| 藁城市| 永修县| 郸城县| 广水市| 镇原县| 东乌珠穆沁旗| 烟台市| 利津县| 平山县| 乃东县| 宜兴市| 大方县| 赣州市| 莱西市| 芒康县| 安溪县| 白银市| 额尔古纳市| 来宾市| 彭泽县| 孝义市| 柞水县| 分宜县| 邓州市| 封开县| 玛沁县| 新化县| 沭阳县| 湄潭县| 皋兰县| 久治县|