• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BERT的端到端方面級(jí)情感分析

    2022-07-02 06:41:48旭,旭,龍,
    關(guān)鍵詞:標(biāo)簽機(jī)場(chǎng)神經(jīng)網(wǎng)絡(luò)

    曾 凡 旭, 李 旭, 姚 春 龍, 范 豐 龍

    (1.大連工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 大連 116034;2.大連工業(yè)大學(xué) 工程訓(xùn)練中心,遼寧 大連 116034)

    0 引 言

    情感分析是指利用自然語言處理和文本挖掘技術(shù)[1],對(duì)帶有情感的文本進(jìn)行提取、處理和分析的過程。以處理文本的粒度來劃分,情感分析分為篇章級(jí)[2]、句子級(jí)[3]和方面級(jí)情感分析。篇章級(jí)或句子級(jí)情感分析僅提供一篇文章或一個(gè)句子的整體情感傾向,而沒有對(duì)其中包含的具體實(shí)體和具體屬性進(jìn)行單獨(dú)分析,無法滿足更精確、細(xì)致的分析需求。因此,為了能夠?qū)⑽谋局械那楦蟹治龅酶泳唧w,更加完整,就需要深入挖掘評(píng)價(jià)實(shí)體的細(xì)節(jié)特點(diǎn),并分析出該文本對(duì)每一個(gè)方面具體的情感傾向,即方面級(jí)情感分析。

    方面級(jí)情感分析分為方面詞提取與情感分類兩個(gè)子任務(wù),為了將方面詞提取和情感分類兩個(gè)子任務(wù)更好地結(jié)合在一起,Li等[4]提出了一種基于LSTM(long short-term memory)的深度多任務(wù)學(xué)習(xí)框架,從用戶評(píng)論句子中提取方面術(shù)語,該框架包含三個(gè)任務(wù):方面術(shù)語提取、意見詞提取和情感句子分類。分別設(shè)計(jì)了三種特定任務(wù)的LSTM,分別稱為A-LSTM(aspect extraction)、O-LSTM(opinion words extraction)和S-LSTM(sentence classification)。Qiu等[5]針對(duì)意見詞擴(kuò)展與方面術(shù)語提取提出了一種新的研究方法,通過對(duì)語法關(guān)系的識(shí)別,利用已知的和在之前提取的意見詞和方面詞,迭代地對(duì)意見詞或方面詞進(jìn)行提取。上述傳統(tǒng)方法將方面詞提取和情感分類這兩個(gè)子任務(wù)以流水線的方式進(jìn)行訓(xùn)練,前一步產(chǎn)生的錯(cuò)誤會(huì)傳播到后面的任務(wù)中,前后容易產(chǎn)生誤差積累,而且無法利用兩個(gè)任務(wù)之間的共性或者關(guān)聯(lián)。

    為了解決流水線模式的弊端,Tang等[6]提出了一種基于端到端的TD-LSTM(target-dependent-LSTM)模型用于解決目標(biāo)相關(guān)的情感分析問題,該模型以目標(biāo)詞為中心,將文本拆分為兩部分,并將其分別以正序和倒序作為兩個(gè)輸入,這個(gè)模型相比傳統(tǒng)LSTM模型效果更好。同時(shí)為了解決目標(biāo)詞與上下文關(guān)系的問題,又提出了TC-LSTM(target-connection-LSTM)模型,TC-LSTM在TD-LSTM的基礎(chǔ)上整合了目標(biāo)詞語與上下文的信息,取得了更好的效果。Li等[7]對(duì)基于目標(biāo)的情感分析(TBSA)完整任務(wù)進(jìn)行了研究,并設(shè)計(jì)了一種端到端的框架,該框架由兩層遞歸神經(jīng)網(wǎng)絡(luò)組成,上層網(wǎng)絡(luò)用來基于標(biāo)簽方案生成最終的標(biāo)注結(jié)果,下層網(wǎng)絡(luò)用來對(duì)目標(biāo)邊界進(jìn)行輔助預(yù)測(cè)。Zhou等[8]提出了一種基于跨度的聯(lián)合模型,該模型通過計(jì)算每一個(gè)跨度的情感信息來代替計(jì)算每個(gè)詞語的信息,來避免同一方面術(shù)語出現(xiàn)不同情感分歧的問題。上述模型相比于傳統(tǒng)流水線方法已經(jīng)取得了較好的結(jié)果,但是仍然存在一些不足,模型都是基于循環(huán)神經(jīng)網(wǎng)絡(luò),無法進(jìn)行并行訓(xùn)練。在訓(xùn)練過程中使用的都是Word2vec或GloVe等傳統(tǒng)詞向量模型,受其編碼模式的限制,無法動(dòng)態(tài)地獲得上下文相關(guān)的語義信息。

    為此,提出一種端到端基于BERT[9]的神經(jīng)網(wǎng)絡(luò)模型。將方面詞提取與情感分類兩個(gè)子任務(wù)通過設(shè)計(jì)一種同時(shí)包含方面詞位置和情感極性的聯(lián)合標(biāo)簽,將原先流水線的工作模式轉(zhuǎn)變成為端到端的工作模式,該模式僅使用單個(gè)模型,在減少誤差傳播途徑的同時(shí)降低任務(wù)的復(fù)雜程度,同時(shí)充分利用兩個(gè)子任務(wù)之間的共享知識(shí)和相互聯(lián)系,提高方面級(jí)情感分析任務(wù)的性能。BERT預(yù)訓(xùn)練語言模型可以更好地捕獲上下文相關(guān)的語義信息并針對(duì)特定任務(wù)進(jìn)行微調(diào),具有更強(qiáng)的特征提取能力。不同于LSTM等模型在計(jì)算當(dāng)前時(shí)刻狀態(tài)時(shí)需依賴前一時(shí)刻的輸出,使用BERT編碼器的自注意力機(jī)制進(jìn)行特征提取時(shí),可以直接并行計(jì)算一串輸入序列的點(diǎn)乘結(jié)果,具有良好的并行處理能力,能夠縮短運(yùn)算時(shí)間,有效提高訓(xùn)練效率。

    1 模 型

    1.1 問題描述

    1.2 模型總體結(jié)構(gòu)

    圖1 模型結(jié)構(gòu)

    1.3 BERT編碼器

    將輸入長(zhǎng)度為t的詞語序列的三種特征拼接為E={e1,…,ei,…,et},其中包含部分嵌入、位置嵌入和詞嵌入。部分嵌入用來標(biāo)識(shí)句子的前半句和后半句;位置嵌入表示句子中每個(gè)詞語的相對(duì)位置;詞嵌入是每個(gè)詞語的對(duì)應(yīng)的向量表示。之后將輸入的特征通過多個(gè)Transformer層逐層細(xì)化特征,得到該語句包含上下文信息的表示。雖然BERT是基于Transformer提出的,但是并沒有采用整個(gè)的Transformer結(jié)構(gòu),僅使用了Transformer結(jié)構(gòu)里的編碼器(Encoder)部分,將多層的編碼器搭建在一起組成了基本網(wǎng)絡(luò)結(jié)構(gòu)。由于其多頭注意力機(jī)制,使得一句話中每個(gè)詞語都包含了上下文的信息。

    1.4 分類器

    1.4.1 直接輸出

    將從BERT層獲得的文本特征表示送到Softmax函數(shù)中進(jìn)行計(jì)算并輸出概率最大的結(jié)果,如式(1)所示:

    (1)

    式中:Wo和bo分別表示權(quán)值和偏置值。

    1.4.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

    本研究由循環(huán)神經(jīng)網(wǎng)絡(luò)衍生出的另一種網(wǎng)絡(luò)結(jié)構(gòu)稱為門控循環(huán)單元(GRU,gated recurrent unit)[10]。門控循環(huán)單元的優(yōu)點(diǎn)是模型的結(jié)構(gòu)簡(jiǎn)單,參數(shù)量少,減少過擬合風(fēng)險(xiǎn)的同時(shí)可以計(jì)算得更快,同時(shí)可以解決訓(xùn)練過程中的梯度問題。

    1.4.3 自注意力網(wǎng)絡(luò)

    注意力機(jī)制最早是在圖像視覺領(lǐng)域提出并使用,Bahdanau等[11]首次將注意力機(jī)制與自然語言處理任務(wù)結(jié)合到一起,Vaswani等[12]首次提出了自注意力機(jī)制。

    1.4.4 條件隨機(jī)場(chǎng)

    條件隨機(jī)場(chǎng)(conditional random field,CRF)[13]主要應(yīng)用于序列標(biāo)注問題[14]。序列標(biāo)注可以被看作是一個(gè)分類問題,與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)不同,條件隨機(jī)場(chǎng)的目的是使模型能夠?qū)W習(xí)到一些與上下文有關(guān)的一些“約束”。以本研究中的標(biāo)簽方案來看,B-POS后的標(biāo)簽不可能為I-NEG,這就是一種“約束”。

    在BERT嵌入層基礎(chǔ)上,加入條件隨機(jī)場(chǎng)層,路徑概率值的計(jì)算如式(2)、式(3)所示。

    (2)

    (3)

    式中:Z(x)為規(guī)范化因子,wk為需要學(xué)習(xí)和優(yōu)化的模型參數(shù),fk為特征函數(shù),x為輸入的句子序列,y為輸出的對(duì)應(yīng)標(biāo)簽序列。

    1.5 損失函數(shù)

    除了條件隨機(jī)場(chǎng)以外,使用的損失函數(shù)均為交叉熵?fù)p失函數(shù),如式(4)、式(5)所示。

    (4)

    (5)

    由于條件隨機(jī)場(chǎng)的特點(diǎn),它的損失函數(shù)可以被概括為“真實(shí)路徑分?jǐn)?shù)”,在序列標(biāo)注問題中,一句話的標(biāo)簽可以有很多種,但是最終正確的結(jié)果只有一個(gè),而條件隨機(jī)場(chǎng)正是通過這一規(guī)則,通過計(jì)算不斷更新模型的權(quán)重,使得正確的路徑分?jǐn)?shù)不斷增大,最終輸出正確結(jié)果如式(6)~(10)所示。

    (6)

    Pi=eSi

    (7)

    Si=EmissionScore+Tran-Score

    (8)

    EmissionScore=x0,label(i)+x1,label(i)+

    x2,label(i)+…+xn,label(i)

    (9)

    Tran-Score=tlabel(1)→label(2)+tlabel(2)→label(3)+…+

    tlabel(i-1)→label(i)

    (10)

    式中:pi為第i條路徑的得分?jǐn)?shù),PRealpath為真實(shí)路徑分?jǐn)?shù),Si等于發(fā)射分?jǐn)?shù)(EmissionScore)與轉(zhuǎn)移分?jǐn)?shù)(TransitionScore)的和,xi,label(i)表示句子中第i個(gè)單詞對(duì)應(yīng)第i個(gè)標(biāo)簽的分?jǐn)?shù);tlabel(i-1)→label(i)表示第i-1個(gè)標(biāo)簽到第i個(gè)標(biāo)簽的轉(zhuǎn)移分?jǐn)?shù)。

    2 實(shí) 驗(yàn)

    2.1 參數(shù)設(shè)置與對(duì)比結(jié)果

    實(shí)驗(yàn)數(shù)據(jù)來自SemEval2014 Task4[15]數(shù)據(jù)集Laptop和Restaurant。該數(shù)據(jù)集包含約6 000個(gè)英文句子,其中包括訓(xùn)練集、驗(yàn)證集和測(cè)試集,主要任務(wù)是提取方面詞及其對(duì)應(yīng)的情感極性。

    設(shè)置BERT模型中Transformer層有12層,隱藏層的維度為768維。訓(xùn)練的學(xué)習(xí)率設(shè)置為2×10-5,訓(xùn)練批次大小在Restaurant數(shù)據(jù)集中設(shè)置為32,Laptop中統(tǒng)一設(shè)置為16。設(shè)置最大的訓(xùn)練步數(shù)為1 500,并且每100步記錄一次,最終將最好的結(jié)果保存下來。為了保證結(jié)果的準(zhǔn)確,設(shè)置了5個(gè)隨機(jī)數(shù)種子,并計(jì)算結(jié)果的平均值。該模型與其他模型在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1所示,其中P代表查準(zhǔn)率,R代表召回率,F(xiàn)1代表P與R的調(diào)和平均值。

    表1 不同模型F1結(jié)果

    2.1.1 流水線模型

    CRF模型:構(gòu)建一個(gè)條件隨機(jī)場(chǎng)將單詞與對(duì)應(yīng)位置標(biāo)簽相連,之后在第二個(gè)模型中再通過訓(xùn)練得到對(duì)應(yīng)情感標(biāo)簽并最終輸出結(jié)果。

    NN-CRF模型:該模型使用神經(jīng)網(wǎng)絡(luò)來擴(kuò)展條件隨機(jī)場(chǎng)基線,在原本的條件隨機(jī)場(chǎng)中輸入與輸出之間加入隱藏層來進(jìn)行自動(dòng)特征組合,并使用相同的算法來進(jìn)行解碼和訓(xùn)練。

    HAST-TNet模型:HAST(history attention-and-selective-transformation)模型包括兩個(gè)部分,分別是THA(truncated-history-attention)和STN(selective-transformation network),THA可以生成包含過去時(shí)間序列信息的表示,STN可以生成包含整個(gè)句子信息的方面向量,這可以幫助模型更好地獲取與當(dāng)前詞語有關(guān)的信息。TNet模型通過長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)提取文本中的信息,之后通過多個(gè)CPT(context-preserving transformation)層將目標(biāo)信息經(jīng)由目標(biāo)特定轉(zhuǎn)換機(jī)制轉(zhuǎn)化為詞向量,最終通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提取用于分類的信息。

    2.1.2 聯(lián)合模型

    CRF模型:將情感和命名實(shí)體組合成一個(gè)標(biāo)簽序列。

    NN-CRF模型:應(yīng)用多標(biāo)簽條件隨機(jī)場(chǎng)結(jié)構(gòu),將約束標(biāo)簽與情感標(biāo)簽結(jié)合在一起。

    LSTM-unified:采用統(tǒng)一標(biāo)簽方案的標(biāo)準(zhǔn)長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)模型。

    LSTM-CRF-1:該模型基于長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)+條件隨機(jī)場(chǎng),使用了將小數(shù)據(jù)量的監(jiān)督數(shù)據(jù)與大量無標(biāo)注語料結(jié)合的訓(xùn)練模式,使用雙向長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)+條件隨機(jī)場(chǎng)的模型進(jìn)行訓(xùn)練。

    LSTM-CRF-2:LSTM-CRF-2與LSTM-CRF-1相似。區(qū)別在于它使用CNN而不是長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)字符級(jí)單詞表示。

    LM-LSTM-CRF:在雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的基礎(chǔ)上引入了字符級(jí)語言模型進(jìn)行聯(lián)合訓(xùn)練。

    2-layers-LSTM:在雙層長(zhǎng)短期記憶網(wǎng)絡(luò)基礎(chǔ)上加入邊界指導(dǎo),情緒一致和意見增強(qiáng)三個(gè)組件,分別負(fù)責(zé)模型的標(biāo)注,多個(gè)詞組成的方面詞應(yīng)具有相同的情感極性以及方面詞與情感應(yīng)同時(shí)出現(xiàn)的約束。

    從表1中可以看出最佳的聯(lián)合模型與流水線模型效果差距不大,但是帶有長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)模型的效果要明顯優(yōu)于單獨(dú)的條件隨機(jī)場(chǎng)模型,這是因?yàn)樾蛄袠?biāo)注問題[23]的本質(zhì)是分類問題,由于其訓(xùn)練數(shù)據(jù)具有序列特征,所以長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)更加適用于這類問題。然而條件隨機(jī)場(chǎng)解決了這一問題。在BERT之后僅僅加上一個(gè)簡(jiǎn)單的Softmax函數(shù),效果就比之前的工作結(jié)果更加優(yōu)秀,這說明BERT模型在很大程度上緩解了之前模型中上下文無關(guān)的問題。此外還可以看出在Laptop數(shù)據(jù)集中GRU模型性能較好,Restaurant數(shù)據(jù)集中條件隨機(jī)場(chǎng)模型性能較好,這是由于Laptop中包含800條左右的訓(xùn)練數(shù)據(jù),而門控循環(huán)單元的優(yōu)勢(shì)是結(jié)構(gòu)簡(jiǎn)單,參數(shù)的收斂速度快,所以在數(shù)據(jù)的數(shù)量較少的時(shí)候可以更加快速的接近準(zhǔn)確值。然而Restaurant數(shù)據(jù)集中包含2 100條以上的數(shù)據(jù),這使得GRU在優(yōu)化參數(shù)時(shí)可能會(huì)在最優(yōu)點(diǎn)附近震蕩而無法收斂到最優(yōu)值,而條件隨機(jī)場(chǎng)由于其加入了對(duì)標(biāo)簽之間的約束,使得最終效果更佳。

    2.2 調(diào)整超參數(shù)

    為了得到使模型效果最佳的參數(shù)組合,設(shè)計(jì)了對(duì)照實(shí)驗(yàn),分別驗(yàn)證了訓(xùn)練批次(batchsize)大小與學(xué)習(xí)率的不同取值對(duì)于模型性能的影響。在Laptop數(shù)據(jù)集中設(shè)計(jì)了8、16、24三種不同的訓(xùn)練批次進(jìn)行對(duì)比實(shí)驗(yàn),在Restaurant數(shù)據(jù)集中使用32、40、48三種訓(xùn)練批次來進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)采用控制變量法。

    表2顯示了當(dāng)學(xué)習(xí)率相同時(shí)訓(xùn)練批次的不同取值對(duì)F1的影響。從下表可以看出在Laptop數(shù)據(jù)集的訓(xùn)練過程中,訓(xùn)練批次取值過小,則無法收斂到最優(yōu)結(jié)果。在Restaurant數(shù)據(jù)集中可以看出訓(xùn)練批次取值過大則會(huì)取得一個(gè)局部最小值,無法取得最佳結(jié)果。

    表2 同一學(xué)習(xí)率下不同訓(xùn)練批次的F1

    訓(xùn)練批次統(tǒng)一為40,Restaurant數(shù)據(jù)集在不同學(xué)習(xí)率下的實(shí)驗(yàn)結(jié)果如表3所示。

    表3 訓(xùn)練批次為40時(shí)不同學(xué)習(xí)率的F1

    從表3可以看出,在學(xué)習(xí)率設(shè)置較大時(shí),GRU的F1出現(xiàn)了0,這是由于學(xué)習(xí)率過大引起的梯度爆炸[24]的現(xiàn)象;在學(xué)習(xí)率設(shè)置過小時(shí),可以看出在訓(xùn)練次數(shù)固定的條件下,收斂速度過慢導(dǎo)致無法收斂到最優(yōu)結(jié)果。

    為了驗(yàn)證模型的魯棒性,在訓(xùn)練自注意力,Transformer和GRU這三個(gè)下游模型時(shí),將訓(xùn)練步數(shù)提高到了3 000,并且將F1的變化以折線圖的形式來直觀顯示。圖2結(jié)果顯示在GRU等下游模型中,即使訓(xùn)練次數(shù)達(dá)到3 000,模型的性能依舊非常穩(wěn)定。

    圖2 3 000步訓(xùn)練F1的波動(dòng)

    3 結(jié) 論

    面向方面級(jí)情感分析任務(wù),提出了一種端到端基于BERT的神經(jīng)網(wǎng)絡(luò)模型。該模型從非結(jié)構(gòu)文本中同時(shí)識(shí)別方面詞及其對(duì)應(yīng)的情感極性,避免了傳統(tǒng)流水線方法需要人工對(duì)中間步驟的處理和干預(yù),有效提高了任務(wù)的整體性能。在SemEval2014數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并驗(yàn)證了模型的有效性,模型相比目前最優(yōu)秀的聯(lián)合模型的F1在Restaurant數(shù)據(jù)集上高出4.27%,在Laptop數(shù)據(jù)集上高出5.63%。該模型采用BERT編碼器能夠自動(dòng)學(xué)習(xí)并挖掘出隱含在數(shù)據(jù)中的特征,可以有效避免大量特征工程方面的工作,具有良好的實(shí)用性。

    猜你喜歡
    標(biāo)簽機(jī)場(chǎng)神經(jīng)網(wǎng)絡(luò)
    機(jī)場(chǎng)罷工
    如何避免GSM-R無線通信系統(tǒng)對(duì)機(jī)場(chǎng)電磁干擾
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    無懼標(biāo)簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    面部識(shí)別使機(jī)場(chǎng)安檢提速
    標(biāo)簽化傷害了誰
    最有創(chuàng)意的機(jī)場(chǎng)
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    大余县| 中江县| 渭南市| 瓮安县| 本溪| 千阳县| 镇巴县| 合江县| 新巴尔虎右旗| 庆安县| 南京市| 武义县| 杭州市| 航空| 江川县| 得荣县| 十堰市| 兴国县| 乐安县| 班玛县| 铜鼓县| 福建省| 达日县| 来凤县| 许昌市| 汉中市| 平邑县| 定兴县| 吴旗县| 军事| 金华市| 高唐县| 漳平市| 巴马| 淮阳县| 建平县| 仁寿县| 长子县| 肥城市| 溧水县| 双鸭山市|