• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    AOA-BERT:一種基于對(duì)抗學(xué)習(xí)的方面級(jí)情感分類方法

    2023-09-06 07:28:56張華輝
    關(guān)鍵詞:集上注意力向量

    張華輝,馮 林

    1(四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610100)

    2(莆田學(xué)院 新工科產(chǎn)業(yè)學(xué)院,莆田 351100)

    1 引 言

    方面級(jí)情感分類是一種細(xì)粒度的情感分析任務(wù),旨在分出不同方面的情感.例如一條方面級(jí)評(píng)論性文本:“The food was good,but service was poor”,該條評(píng)論性文本中包含“food”和“service”兩個(gè)方面,其中一個(gè)方面詞“food”由情感詞“good”修飾表達(dá)積極情感,另一個(gè)方面詞“service”由情感詞“poor”修飾表達(dá)消極情感,如何有效地識(shí)別海量文本中的不同方面情感具有一定的挑戰(zhàn)性.

    早期的方面級(jí)情感分類任務(wù)的研究方法,主要是基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,該類算法一般有復(fù)雜的特征工程過程[1].如婉等人[2]提出融合改進(jìn)Stacking與規(guī)則的文本情感分析方法,該方法基于特征工程過程,具有一定的有效性,但構(gòu)建和對(duì)齊數(shù)據(jù)需要消耗大量的時(shí)間、精力,而且訓(xùn)練出來的分類器分類效果一般.黃等人[3]提出了一種情感分類集成學(xué)習(xí)框架,該框架采用詞性組合模式、頻繁詞序列模式和保序子矩陣模式提取輸入特征,該框架采用基于信息增益的隨機(jī)子空間算法解決文本特征繁多,該框架基于產(chǎn)品屬性構(gòu)造基分類器算法判別評(píng)論的句子級(jí)情感傾向,工作量巨大.

    近年來,隨著算力和算法上的突破,深度學(xué)習(xí)領(lǐng)域迎來飛速發(fā)展階段.通過圖卷積網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等深度網(wǎng)絡(luò)模型解決方面級(jí)情感分類任務(wù)問題,取得了較大的進(jìn)展.如王等人[4]提出一種基于圖神經(jīng)網(wǎng)絡(luò)的方面級(jí)情感分類方法,該方法利用句法依存樹和圖神經(jīng)網(wǎng)絡(luò)增強(qiáng)情感詞與方面詞的聯(lián)系,在多個(gè)公開數(shù)據(jù)集上取得較好效果.曾等人[5]提出一種基于雙重注意力循環(huán)神經(jīng)網(wǎng)絡(luò)的方面級(jí)情感分類模型,該模型的第1層采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)編碼輸入信息提取隱含層特征,并添加位置、方面詞等輔助信息,將輔助信息與隱含層特征融合放入第2層雙向循環(huán)神經(jīng)網(wǎng)絡(luò)提取深層特征,具有一定的可行性,取得的效果較好.Zeng等人[6]提出一種基于BERT的局部注意力機(jī)制方面級(jí)情感分類方法,該方法通過定義了一種以方面詞為中心的局部注意力機(jī)制,根據(jù)不同詞語相對(duì)方面詞的距離,添加不同權(quán)重,該方法還附加了后訓(xùn)練任務(wù),使模型可以學(xué)習(xí)到特定領(lǐng)域知識(shí),該方法具有一定的新穎性,取得了不錯(cuò)的效果.

    對(duì)比傳統(tǒng)機(jī)器學(xué)習(xí)方法,深度網(wǎng)絡(luò)模型不僅沒有繁瑣的特征工程過程,而且通過深度網(wǎng)絡(luò)模型提取的文本特征分類效果往往較好.在方面級(jí)情感分類任務(wù)上,雖然圖卷積網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、BERT等深度網(wǎng)絡(luò)取得了較大的進(jìn)展.但是,大多數(shù)深度網(wǎng)絡(luò)模型,仍然存在分類精度低,泛化能力較弱等問題.為此,提出基于對(duì)抗學(xué)習(xí)的AOA-BERT方面級(jí)情感分類模型,本文的主要工作有:

    1)提出了一種基于AOA注意力機(jī)制的BERT網(wǎng)絡(luò),提取文本特征.

    2)通過對(duì)抗學(xué)習(xí)算法生成和學(xué)習(xí)對(duì)抗樣本,起到一種文本數(shù)據(jù)增強(qiáng)的作用,極大地逼近模型上界、優(yōu)化模型的決策邊界.消融實(shí)驗(yàn)結(jié)果表明,對(duì)抗學(xué)習(xí)策略有效,AOA-BERT通過對(duì)抗學(xué)習(xí)算法額外的學(xué)習(xí)對(duì)抗樣本能一定程度上增強(qiáng)泛化性.

    3)在Restaurant、Laptop和Twitter數(shù)據(jù)集上,AOA-BERT的準(zhǔn)確率分別達(dá)83.66%、78.53%、74.86%,對(duì)比大多數(shù)基線模型,AOA-BERT分類結(jié)果有較好的提升.

    2 相關(guān)知識(shí)

    2.1 對(duì)抗學(xué)習(xí)

    對(duì)抗訓(xùn)練是一種常見的對(duì)抗樣本攻擊的防御方法[7].通常情況下,基于對(duì)抗樣本的模型優(yōu)化策略是模型正常訓(xùn)練損失附加上對(duì)抗訓(xùn)練損失.其中,對(duì)抗訓(xùn)練損失[8]可以分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí).

    在監(jiān)督學(xué)習(xí)中,對(duì)抗樣本的標(biāo)簽是原訓(xùn)練樣本的標(biāo)簽,對(duì)抗訓(xùn)練的模型損失為:

    (1)

    在無標(biāo)簽的環(huán)境下,對(duì)抗訓(xùn)練的模型損失為:

    (2)

    式(2)中,KL[·‖·]表示KL散度.

    目前,比較有效的對(duì)抗訓(xùn)練算法有FGM算法[8]和PGD算法[9].其中,FGM算法是一種基于當(dāng)前輸入梯度L2范數(shù)縮放的一次性計(jì)算擾動(dòng)算法,計(jì)算擾動(dòng)公式為:

    ra=·g/‖g‖2,whereg=?xlogp(y|x;Θ)

    (3)

    式(3)中,g表示梯度,‖.‖2表示L2范數(shù).

    PGD算法基于某個(gè)步長的多次迭代優(yōu)化擾動(dòng)算法,其生成的對(duì)抗樣本公式為:

    xt+1=Πx+R(xt+α·sign(?xL(Θ,x,y)))

    (4)

    式(4)中,R表示擾動(dòng)集合,α表示步長,L表示損失函數(shù),Πx+R表示以某個(gè)擾動(dòng)閾值為半徑的球上投影,如果迭代擾動(dòng)幅度過大會(huì)投影回球面.PGD算法通過α步長迭代多次獲得和學(xué)習(xí)對(duì)抗樣本,再最優(yōu)化內(nèi)部損失和外部損失,公式如下:

    (5)

    式(5)中,D表示一種數(shù)據(jù)分布.

    2.2 BERT模型

    BERT模型[10]與以往的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)完全不同,完全采用Transformer[11]的編碼器結(jié)構(gòu)組成.其中,BERT模型注意力機(jī)制的一個(gè)核心組件是縮放注意力機(jī)制(Scaled Dot-Product Attention,SDA).其計(jì)算公式為:

    (6)

    式(6)中,Q、K、V是文本向量化后的查詢、鍵、值矩陣.dk代表K的維度,dk使內(nèi)積不至于太大,防止梯度消失.

    BERT模型注意力機(jī)制的另一個(gè)關(guān)鍵組件是多頭注意力(Multi-Head Attention,MHA),如圖1所示,Q、K、V要先進(jìn)行線性變換,再進(jìn)行SDA操作,得到某一個(gè)頭的計(jì)算公式如下:

    圖1 多頭注意力機(jī)制Fig.1 Multi-head attention mechanism

    (7)

    一次SDA計(jì)算操作是一種角度的特征提取,這種操作要進(jìn)行多次,即多角度進(jìn)行特征的提取,也就是多頭注意力,然后把SDA提取的所有特征進(jìn)行拼接和線性變換,得到多頭注意力的表示如下:

    MHA=(MHA1⊕MHA2⊕…⊕MHAh)·W*

    (8)

    3 AOA-BERT模型

    方面級(jí)情感分類任務(wù)是在一條評(píng)論性文本中識(shí)別出方面詞的情感.假設(shè)任意文本表示為:context={w1,w2,…,wb,wb+1,…,wb+n-1,…,wm},文本對(duì)應(yīng)的方面詞表示為:aspect={wb,wb+1,…,wb+n-1}.其中,m代表文本的長度,n代表方面詞的長度,b代表方面詞在文本中的起始位置.那么,方面級(jí)情感分類任務(wù)可以函數(shù)描述為:F(context,aspect)→polarity,其中,polarity∈{1,0,-1},1表示積極、0表示中性、-1表示消極.

    AOA-BERT的結(jié)構(gòu)如圖2所示,從下往上依次有4部分組成,分別是輸入層、編碼層、注意力層和分類層.其中,輸入層接收兩種固定格式的輸入;編碼層將輸入進(jìn)行編碼,映射到不同的空間位置,同時(shí)通過對(duì)抗學(xué)習(xí)算法根據(jù)當(dāng)前梯度生成對(duì)抗樣本;注意層將樣本依次放入AOA網(wǎng)絡(luò)獲得文本權(quán)重向量,并將權(quán)重向量與原始文本相乘獲得文本特征向量;輸出層將文本特征向量做交叉熵?fù)p失,回傳模型參數(shù).值得注意的是,對(duì)抗樣本會(huì)模仿對(duì)應(yīng)的訓(xùn)練樣本經(jīng)過其一樣的注意力層和分類層網(wǎng)絡(luò)結(jié)構(gòu).

    圖2 AOA-BERT模型Fig.2 Model of AOA-BERT

    3.1 輸入層

    以上文提到的文本“The food was good,but service was poor”為例.當(dāng)這條文本的方面詞為“food”時(shí),將其預(yù)處理成:“[CLS] The food was good but service was poor [SEP]”和“[CLS] food [SEP]”分別用ContextInformation和AspectInformation表示.其中,“[CLS]”表示起始分隔符,“[SEP]”表示結(jié)束分隔符.

    3.2 編碼層

    BERT編碼過程如圖3所示,需要依次經(jīng)過:Input layer、Embeddings layer、Multi-Head Attention layer、Feed-Forward layer和Output layer.其中,Input layer主要依據(jù)BERT字典進(jìn)行字符的替換、Embeddings layer主要根據(jù)“[CLS]”和“[SEP]”等標(biāo)識(shí)進(jìn)行不同信息的提取、Multi-Head Attention layer主要通過多頭注意力機(jī)制提取文本的深層特征、Feed-Forward layer主要利用一些可學(xué)習(xí)矩陣進(jìn)行必要的線性變換、Output layer主要將前面送來的向量表示多次重復(fù)送回前面的網(wǎng)絡(luò)后直接輸出.下面依次詳解介紹上述的各個(gè)部分.

    圖3 BERT編碼過程Fig.3 Encode process of BERT

    3.2.1 Input Layer

    將輸入層送來的ContextInformation和AspectInformation信息,依據(jù)BERT字典一一匹配替換,假設(shè)匹配替換后的信息表示為ContextInformation_1和AspectInformation_1.

    3.2.2 Embedding Layer

    根據(jù)“[CLS]”和“[SEP]”等標(biāo)識(shí),提取關(guān)于ContextInformation_1的位置標(biāo)記信息ContextInformation_2和分段標(biāo)記信息ContextInformation_3,其三者之間的維度是相同的,最后將ContextInformation_1、ContextInformation_2和ContextInformation_3相加作為Embeddingslayer部分的輸出,用X1表示.類似地,還有AspectInformation對(duì)應(yīng)的Embeddings layer輸出,用X2表示.

    3.2.3 Multi-Head Attention Layer

    (9)

    (10)

    (11)

    依據(jù)SDA公式有:

    (12)

    接著,對(duì)所有MHAi進(jìn)行拼接轉(zhuǎn)換并附加一個(gè)激活函數(shù),得到Multi-Head Attention layer的輸出O1:

    O1=Tanh((MHA1⊕MHA2⊕…⊕MHAh)·W*

    (13)

    類似地,還有X2對(duì)應(yīng)的Multi-Head Attention layer輸出,用O2表示.

    3.2.4 Feed-Forward Layer

    在Feed-Forward layer中,O1要經(jīng)過兩次線性變換和一次Relu激活函數(shù),公式如下所示.

    FFL(O1)=max(0,(O1·W1)+bia1)W2+bia2

    (14)

    式(14)中,W1和W2是可學(xué)習(xí)和隨機(jī)初始化的權(quán)重矩陣、bia1和bia2是偏置.此外,FFL(O1)還要經(jīng)過隨機(jī)失活和歸一化操作.

    類似地,還有O2對(duì)應(yīng)的Feed-Forward layer輸出,用FFL(O2)表示.

    3.2.5 Output Layer

    在Output layer中,將FFL(O1)和FFL(O2)重復(fù)6次放回Multi-Head Attention layer和Feed-Forward layer,即將上一過程的輸出作為下一過程的輸入.最后,FFL(O1)和FFL(O2)對(duì)應(yīng)的最終輸出分別用E1和E2表示,為了更好地表示編碼層,特將E1和E2表示如下:

    E1=BERT(ContextInformation)

    (15)

    E2=BERT(AspectInformation)

    (16)

    式中,BERT()函數(shù)表示BERT編碼過程,ContextInformation和AspectInformation是來自輸入層的預(yù)處理表示信息.

    3.3 注意力機(jī)制層

    在注意力層中,首先將E1和E2相乘得到交互矩陣,交互矩陣用符號(hào)E表示,模型圖中以符號(hào)⊙表示相乘.然后,通過對(duì)交互矩陣E做列式和行式的Softmax,計(jì)算過程的公式如下:

    (17)

    (18)

    式(17)、式(18)中,αij表示交互矩陣E做列式Column-wiseSoftmax,βij表示交互矩陣E做行式的Row-wiseSoftmax.

    (19)

    (20)

    最后,將γ與E1相乘得到加權(quán)向量δ,再將δ通過一個(gè)線性網(wǎng)絡(luò)得到注意力層的最終向量表示X.上述過程的數(shù)學(xué)表達(dá)如下:

    δ=E1γT

    (21)

    X=δW+bia

    (22)

    式(22)中,W和bia分別表示隨機(jī)初始化的可學(xué)習(xí)矩陣及偏置.

    3.4 分類層

    通過注意力層的最終向量X計(jì)算情感有:

    (23)

    式(23)中,Z表示樣本情感的類別數(shù),yi表示訓(xùn)練樣本的情感預(yù)測(cè).假設(shè)模型參數(shù)表示為Θ,那么模型的正常訓(xùn)練損失Loss1為:

    (24)

    式(24)中,y*表示真實(shí)標(biāo)簽的分布,ξ表示L2規(guī)范化系數(shù).

    特殊地,AOA-BERT附加了基于對(duì)抗樣本的對(duì)抗訓(xùn)練,AOA-BERT通過輸入層的ContextInformation和AspectInformation信息分別結(jié)合對(duì)抗學(xué)習(xí)算法策略(詳見2.1小結(jié)),計(jì)算出基于當(dāng)前模型的梯度微小擾動(dòng)r1和r2,得到輸入層對(duì)抗樣本表示:ContextInformation+r1和AspectInformation+r2,再將對(duì)抗樣本放入編碼層,得到E1+r和E2+r向量,公式如下:

    E1+r=BERT(ContextInformation+r1)

    (25)

    E2+r=BERT(AspectInformation+r2)

    (26)

    類似地,將編碼后的對(duì)抗學(xué)習(xí)樣本E1+r和E2+r放入注意力層,最終到達(dá)分類層,有對(duì)應(yīng)的對(duì)抗樣本對(duì)抗訓(xùn)練損失Loss2:

    (27)

    式(27)中,Yi為對(duì)抗樣本的情感預(yù)測(cè).

    那么,模型最終的損失Loss為:

    Loss=Loss1+Loss2

    (28)

    最后,分別依據(jù)Loss1和Loss2做梯度下降,分別更新模型參數(shù).即在正常訓(xùn)練樣本的基礎(chǔ)上,生成和學(xué)習(xí)對(duì)抗樣本,以優(yōu)化決策邊界.

    4 實(shí)驗(yàn)及結(jié)果分析

    4.1 實(shí)驗(yàn)數(shù)據(jù)集

    本文采用SemEval2014任務(wù)4的Laptop、Restaurant評(píng)論數(shù)據(jù)集和ACL-14 Twitter社交數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,如表1所示.其中,Laptop數(shù)據(jù)集一共有2328條訓(xùn)練數(shù)據(jù),積極、消極、中性數(shù)據(jù)的數(shù)量分別是994、870、464,Restaurant數(shù)據(jù)集一共有3608條訓(xùn)練數(shù)據(jù),積極、消極、中性數(shù)據(jù)的數(shù)量分別是2164、807、737.Twitter數(shù)據(jù)集一共有6248條訓(xùn)練數(shù)據(jù),積極、消極、中性數(shù)據(jù)的數(shù)量分別是1561、1560、3127.

    表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Datasets of experiment

    4.2 評(píng)估標(biāo)準(zhǔn)

    準(zhǔn)確率ACC:分類正確的樣本占總樣本的比例,公式如下所示.

    (29)

    式(29)中,Z表示樣本情感類別數(shù),T表示分類準(zhǔn)確的樣本,F表示分類錯(cuò)誤的樣本.

    F1值:由精度和召回率表示,對(duì)模型進(jìn)行綜合衡量.精度表示查準(zhǔn)的概率,召回率表示查全的概率,F1值的計(jì)算如公式如式(30)所示.

    (30)

    4.3 實(shí)驗(yàn)環(huán)境

    在Linux操作系統(tǒng)和TeslaV100-32GPU下,基于PyTorch深度學(xué)習(xí)框架開展實(shí)驗(yàn).模型損失的優(yōu)化器為Adam,BERT詞嵌入的維度為768、隱含層維度為300、學(xué)習(xí)率為2e-5、L2規(guī)范化的權(quán)重衰減率為0.01、batch-size大小為256、單個(gè)token的最大長度為85、采用Xavier正態(tài)初始化參數(shù)、從訓(xùn)練集中隨機(jī)抽取20%數(shù)據(jù)作為驗(yàn)證集、dropout參數(shù)依據(jù)不同數(shù)據(jù)集靈活調(diào)整、對(duì)抗學(xué)習(xí)優(yōu)化策略FGM算法擾動(dòng)閾值為1、對(duì)抗學(xué)習(xí)優(yōu)化策略PGD算法次迭代次數(shù)為3,擾動(dòng)步長為0.3,擾動(dòng)閾值為1.

    4.4 對(duì)比實(shí)驗(yàn)

    TD-LSTM模型[12],將文本的上文信息與方面詞、方面詞與文本的下文信息依次基于LSTM網(wǎng)絡(luò)單獨(dú)建模提取隱含層特征.

    ATAE-LSTM模型[13],將方面詞和每個(gè)文本單詞后放入LSTM網(wǎng)絡(luò),將該網(wǎng)絡(luò)的所有輸出嵌入方面詞,得到關(guān)于方面詞的權(quán)重向量.

    IAN模型[14],分別抽取出方面詞和上下文向量單獨(dú)放入LSTM網(wǎng)絡(luò),提取兩種信息隱含層向量的平均向量,交互計(jì)算兩部分權(quán)重,將其拼接計(jì)算損失.

    RAM模型[15],一種基于記憶網(wǎng)絡(luò)的多層注意力機(jī)制模型.

    TNet模型[16],一種面向特征變換的中間組件的上下文保留機(jī)制模型.

    AOA-LSTM模型[17],將方面詞和文本在雙向LSTM網(wǎng)絡(luò)上分別單獨(dú)建模,拼接兩部分特征并提取行權(quán)重向量和列權(quán)重向量,融合兩權(quán)重向量提取出最終的文本權(quán)重向量.將最終的文本權(quán)重向量施加在文本隱含層向量上,做交叉熵?fù)p失回傳參數(shù).

    MGAN模型[18],在IAN模型的基礎(chǔ)上添加了更多且更細(xì)粒度的注意力向量.在公開數(shù)據(jù)集上,取得了較好的效果.

    BERT模型[10],BERT是一種通用預(yù)訓(xùn)練語言模型.在方面級(jí)情感分類任務(wù)上,BERT模型的表現(xiàn)好于大多循環(huán)神經(jīng)網(wǎng)絡(luò)模型.

    CAJIN模型[19],楊等人提出的面向上下文注意力聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)的方面級(jí)情感分類模型.

    BIAN模型[20],Yang等人提出的基于BERT的交互注意力網(wǎng)絡(luò)模型.

    本文的AOA-BERT模型與上述所有基線模型的比對(duì)結(jié)果如表2所示.

    表2 對(duì)比實(shí)驗(yàn)結(jié)果(%)Tabale 2 Result of compared experiment(%)

    數(shù)據(jù)顯示,BERT模型在Restaurant和Laptop數(shù)據(jù)集上的表現(xiàn)好于大多數(shù)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的基線模型,表明了通用預(yù)訓(xùn)練語言模型BERT具有優(yōu)秀的特征提取能力.BIAN是一種基于BERT的IAN模型,在Restaurant、Laptop、Twitter數(shù)據(jù)集上BIAN對(duì)比IAN模型,BIAN的準(zhǔn)確率分別提升4.4%、4.39%、2.26%,取得的效果不錯(cuò),印證了BERT有優(yōu)秀的特征提取能力.本文的AOA-BERT對(duì)比AOA-LSTM模型在Restaurant、Laptop數(shù)據(jù)集上準(zhǔn)確率分別提升2.46%、4.03%,對(duì)比BIAN模型在Restaurant、Laptop、Twitter數(shù)據(jù)集上的準(zhǔn)確率分別提升0.55%、2.04%、3.38%,實(shí)驗(yàn)結(jié)果表明AOA-BERT模型的效果好于大多數(shù)基線模型.

    此外,ATAE-LSTM、IAN、RAN、TNet模型在Restaurant、Laptop、Twittr數(shù)據(jù)集上的準(zhǔn)確率和F1值依次有規(guī)律地、有不同幅度的提升.然而,TD-LSTM和TNet模型在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率對(duì)比前后模型忽高忽低,證明其泛化能力不佳,提取的特征適合部分?jǐn)?shù)據(jù)集.本文的AOA-BERT模型對(duì)比基線模型,在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率和F1值依次有規(guī)律地、有不同幅度的提升,證明了AOA-BERT泛化能力優(yōu)秀.

    綜上所述,AOA-BERT模型的分類效果好于大多數(shù)基線模型,在不同數(shù)據(jù)集上的泛化能力優(yōu)秀.

    4.5 消融實(shí)驗(yàn)

    在本小結(jié)中,將AOA-BERT模型進(jìn)行結(jié)構(gòu)上的拆分,以及對(duì)不同對(duì)抗學(xué)習(xí)優(yōu)化策略的對(duì)比分析.其中,在模型不帶任何對(duì)抗學(xué)習(xí)算法時(shí),用AOA-BERT-Ⅰ表示;在模型使用FGM對(duì)抗學(xué)習(xí)算法時(shí),用AOA-BERT-Ⅱ表示;在模型使用PGD對(duì)抗學(xué)習(xí)算法時(shí),用AOA-BERT-Ⅲ表示;在模型先后使用FGM和PGD對(duì)抗學(xué)習(xí)算法時(shí),用AOA-BERT-Ⅳ表示.

    上述各種模型以及AOA-LSTM模型[14]的消融實(shí)驗(yàn)結(jié)果如表3所示.數(shù)據(jù)顯示,沒有任何對(duì)抗學(xué)習(xí)優(yōu)化策略的AOA-BERT-Ⅰ模型對(duì)比AOA-LSTM模型,在Restaurant和Laptop數(shù)據(jù)集上準(zhǔn)確率分別提升1.39%、1.83%,實(shí)驗(yàn)結(jié)果證明AOA-BERT-Ⅰ模型有效.持有不同優(yōu)化策略的AOA-BERT-Ⅱ、AOA-BERT-Ⅲ、AOA-BERT-Ⅳ對(duì)比AOA-BERT-Ⅰ模型,在3個(gè)不同數(shù)據(jù)集大體上具有不同幅度的提升,證明了對(duì)抗學(xué)習(xí)的優(yōu)化策略有效,能有效地優(yōu)化情感分類決策邊界.

    表3 消融實(shí)驗(yàn)結(jié)果(%)Table 3 Result of ablation experiment(%)

    值得注意的是,AOA-BERT-Ⅳ模型在Laptop數(shù)據(jù)上準(zhǔn)確率為76.02%低于AOA-BERT-Ⅰ模型0.31%,這很可能是由于不同數(shù)據(jù)集對(duì)擾動(dòng)范圍的敏感程度不一樣,AOA-BERT-Ⅳ模型先后疊加了FGM和PGD兩種優(yōu)化算法,其擾動(dòng)范圍是AOA-BERT-Ⅱ、AOA-BERT-Ⅲ模型的兩倍,AOA-BERT-Ⅳ模型在laptop數(shù)據(jù)集上很可能出現(xiàn)了“過擾動(dòng)”現(xiàn)象,導(dǎo)致一定分類數(shù)據(jù)的錯(cuò)判.

    5 總 結(jié)

    早期的方面級(jí)情感分類任務(wù)大多依靠傳統(tǒng)機(jī)器學(xué)習(xí)算法,這類算法往往會(huì)在特征工程上消耗研究者大量的精力.近年來,深度網(wǎng)絡(luò)模型取得了突破性的進(jìn)展,極大地減輕了研究者在特征工程過程上的消耗.然而,大多數(shù)深度仍然還是存在一些問題,如分類效果差、泛化能力弱等問題.為此,本文提出了一種基于對(duì)抗樣本的AOA-BERT網(wǎng)絡(luò)方面級(jí)情感分類方法,旨在通過BERT提取底層特征,再將底層特征送入AOA注意力網(wǎng)絡(luò)提取高層文本權(quán)重分配特征.同時(shí),為了最大程度地提升模型分類和泛化能力,AOA-BERT還引入了對(duì)抗樣本,通過3種對(duì)抗學(xué)習(xí)算法生成和學(xué)習(xí)對(duì)抗樣本極大地優(yōu)化了模型的決策邊界.

    在3個(gè)公開數(shù)據(jù)集上,AOA-BERT基于準(zhǔn)確率和F1值作為評(píng)價(jià)指標(biāo),對(duì)比10種不同基線模型的實(shí)驗(yàn)結(jié)果表明:AOA-BERT模型優(yōu)于大多數(shù)方面級(jí)情感分類模型,在不同數(shù)據(jù)集上有優(yōu)秀的泛化能力,AOA-BERT模型能有效地提取較好的文本特征.消融實(shí)現(xiàn)結(jié)果表明,AOA-BERT模型采用的對(duì)抗學(xué)習(xí)算法有效,模型結(jié)構(gòu)設(shè)計(jì)合理.

    猜你喜歡
    集上注意力向量
    向量的分解
    讓注意力“飛”回來
    聚焦“向量與三角”創(chuàng)新題
    Cookie-Cutter集上的Gibbs測(cè)度
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    復(fù)扇形指標(biāo)集上的分布混沌
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    A Beautiful Way Of Looking At Things
    向量垂直在解析幾何中的應(yīng)用
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    嘉兴市| 维西| 天水市| 沙洋县| 庆安县| 慈利县| 清水县| 宁河县| 建湖县| 如东县| 阿拉善左旗| 精河县| 乌拉特中旗| 崇左市| 安徽省| 通海县| 堆龙德庆县| 嘉峪关市| 碌曲县| 瑞昌市| 定州市| 钟山县| 治县。| 浮梁县| 会同县| 石棉县| 博爱县| 常德市| 和平县| 松桃| 合作市| 板桥市| 江安县| 潞城市| 兰坪| 柞水县| 贡山| 黎城县| 武强县| 凤庆县| 郎溪县|