• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BERT 的BiGRU-Attention-CNN 混合模型的中文情感分析?

    2024-01-23 13:37:56張吳波
    關(guān)鍵詞:特征提取注意力準(zhǔn)確率

    鄒 旺 張吳波

    (湖北汽車工業(yè)學(xué)院電氣與信息工程學(xué)院 十堰 442000)

    1 引言

    隨著互聯(lián)網(wǎng)的快速發(fā)展,抖音、微博、微信、美團(tuán)外賣等各種網(wǎng)絡(luò)平臺(tái)正在逐漸地改變著人們的生活方式。越來越多的人在網(wǎng)絡(luò)平臺(tái)上發(fā)表自己的觀點(diǎn)和態(tài)度,使得互聯(lián)網(wǎng)用戶逐漸由信息接收者轉(zhuǎn)變?yōu)樾畔⒌纳a(chǎn)者,并由此誕生出大量的蘊(yùn)含用戶主觀情感色彩的文本數(shù)據(jù)。對這些文本信息的分析挖掘,能夠更好地對產(chǎn)品和服務(wù)進(jìn)行提升和改進(jìn),進(jìn)一步改善人們的生活水平。

    利用文本情感分析技術(shù)[1]能自動(dòng)挖掘出各類評論文本中的情感傾向信息。傳統(tǒng)的文本情感分析方法主要是基于詞典,該方法是根據(jù)情感詞典統(tǒng)計(jì)語料中出現(xiàn)情感詞的數(shù)目以及權(quán)重來判斷語料的情感類別[2]。但其準(zhǔn)確率直接受到詞典質(zhì)量影響,不同領(lǐng)域需要制定不同詞典,且構(gòu)建和維護(hù)工作量較大[3]。近年來,隨著機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的廣泛應(yīng)用,各種學(xué)習(xí)策略與CNN、RNN 等神經(jīng)網(wǎng)絡(luò)模型逐漸被應(yīng)用到情感分析任務(wù)中。CNN 模型具有較強(qiáng)的特征提取能力,廣泛應(yīng)用于圖像領(lǐng)域。由于文本數(shù)據(jù)屬于序列信息并存在上下文之間的聯(lián)系,RNN 模型以及其變體LSTM、GRU 等模型被研究者廣泛使用于文本信息中。對于情感分類任務(wù),提取文本中的情感詞至關(guān)重要,而這些常用的模型缺少對關(guān)鍵詞的重點(diǎn)關(guān)注。在詞嵌入方面,傳統(tǒng)的詞嵌入方法不能很好地解決一詞多義的問題。因此,本文提出一種基于BERT 的BiGRU-Attention-CNN 混合模型的情感分析方法,在詞嵌入方面采用BERT 模型產(chǎn)生包含豐富信息的動(dòng)態(tài)詞向量;在特征提取方面引入Attention 機(jī)制,為每個(gè)詞分配不同大小的權(quán)重值,提高特征提取的精度。

    2 相關(guān)工作

    目前,對文本情感分析技術(shù)的研究主要是基于傳統(tǒng)機(jī)器學(xué)習(xí)的算法[4]和深度學(xué)習(xí)方法?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法是通過一定的學(xué)習(xí)策略和損失函數(shù)逐步迭代來進(jìn)行特征學(xué)習(xí),利用樸素貝葉斯[5]、支持向量機(jī)[6]、隨機(jī)森林[7]等分類器進(jìn)行有監(jiān)督學(xué)習(xí),然后采用訓(xùn)練好的分類器進(jìn)行文本情感極性的分類?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的算法在小規(guī)模數(shù)據(jù)集上效果較好,但隨著數(shù)據(jù)量的不斷增加各種復(fù)雜的特征出現(xiàn),傳統(tǒng)的機(jī)器學(xué)習(xí)的準(zhǔn)確率也在逐漸下降。

    近年來研究者逐漸采用深度學(xué)習(xí)算法來解決情感分析任務(wù),其中CNN、RNN 等神經(jīng)網(wǎng)絡(luò)模型被廣泛使用。Kim 等[8]在2014 年基于CNN的結(jié)構(gòu)上對其調(diào)整提出TextCNN 模型,在文本分類上相比與傳統(tǒng)的機(jī)器學(xué)習(xí)算法有明顯的提升。但CNN 只能對文本進(jìn)行局部特征的提取,無法捕獲文本中上下文的依賴。Mikolov 等[9]首次將RNN 算法引入到文本的情感分類任務(wù)。但隨著輸入句子信息的增加,RNN 同時(shí)也會(huì)出現(xiàn)梯度爆炸或梯度消失的問題。隨著研究者不斷的優(yōu)化和改進(jìn),長短期記憶網(wǎng)絡(luò)(LSTM)[10]和循環(huán)門控單元(GRU)[11]等RNN 的變體逐漸被提出。楊青等[12]提出一種注意力機(jī)制和門控單元GRU 融合的情感分析模型,并驗(yàn)證其能有效提高情感分析的性能。

    傳統(tǒng)的深度學(xué)習(xí)模型對文本數(shù)據(jù)進(jìn)行特征學(xué)習(xí),無法對文本中關(guān)鍵詞重點(diǎn)關(guān)注,且結(jié)構(gòu)單一[13]。Attention 機(jī)制能對文本中的信息分配不同的權(quán)重值,很好地解決這一問題。徐菲菲等[14]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和最小門控單元MGU,并融入注意力機(jī)制提出C_MGU 模型,實(shí)驗(yàn)表明該模型能有效地提高情感分類的準(zhǔn)確率。采用CNN 與RNN 以及融入Attention 機(jī)制相結(jié)合的混合模型雖然取得不錯(cuò)的效果,但是大多采用one-hot編碼或Word2Vec 的詞嵌入方法進(jìn)行文本詞向量表示。one-hot 編碼方式容易導(dǎo)致向量維度過高,Word2Vec 方法無法解決一詞多義的問題。BERT 模型是由Devlin 等[15]在2018 年提出的預(yù)訓(xùn)練模型,其目標(biāo)是采用大量無標(biāo)注語料來訓(xùn)練模型從而獲得語料的完整向量表示。該模型采用多層能捕捉語句中的雙向關(guān)系的Transformer 編碼器對大量的語料進(jìn)行預(yù)訓(xùn)練[16],能對不同語境中的詞義產(chǎn)生不同的向量表征,有效地解決一詞多義的問題。

    綜上,本文首先使用BERT 預(yù)訓(xùn)練模型將文本數(shù)據(jù)轉(zhuǎn)化為包含豐富的動(dòng)態(tài)詞向量,然后采用BiGRU-Attention-CNN 混合模型進(jìn)行數(shù)據(jù)的特征提取,其中BiGRU 模型能獲取每個(gè)詞更深層次的語義向量表達(dá);Attention 機(jī)制能對關(guān)鍵信息加強(qiáng);CNN 模型能對關(guān)鍵信息進(jìn)行提取,最后采用Softmax函數(shù)計(jì)算情感極性的概率分布。

    3 模型結(jié)構(gòu)

    為了實(shí)現(xiàn)中文文本的情感分析的目標(biāo),本文在基于BERT預(yù)訓(xùn)練模型下,結(jié)合BiGRU和CNN各自的優(yōu)勢并引入注意力機(jī)制構(gòu)建混合的神經(jīng)網(wǎng)絡(luò)模型。如圖1 所示,基于BERT 的BiGRU-Attention-CNN模型結(jié)構(gòu)由六個(gè)部分組成:

    圖1 基于BERT的BiGRU-Attention-CNN模型結(jié)構(gòu)

    1)輸入層:輸入中文評論語料。

    2)BERT 層:將文本轉(zhuǎn)化為包含量豐富語義信息的動(dòng)態(tài)詞向量。

    3)BIGRU層:獲取每個(gè)動(dòng)態(tài)詞向量的更深層次的語義表達(dá)。

    4)Attention層:計(jì)算每個(gè)詞的注意力權(quán)重。

    5)CNN層:對權(quán)重較大的詞進(jìn)行特征提取。

    6)輸出層:計(jì)算情感極性的概率分布。

    3.1 BERT層

    BERT 模型的基礎(chǔ)是建立在Transformer 編碼器的基礎(chǔ)之上,擁有強(qiáng)大的語言表征能力和特征提取能力。Transfromer 模型[17]是由谷歌公司設(shè)計(jì)的Seq2Seq 模型,其中采用編碼器-解碼器的模型結(jié)構(gòu)。Transformer Encoder 模型結(jié)構(gòu)如圖2 所示,Transformer 模型中重要的核心是采用多頭注意力機(jī)制計(jì)算,實(shí)質(zhì)通過線性映射來初始化不同的權(quán)重矩陣,將每個(gè)權(quán)重矩陣進(jìn)行self-Attention 操作,從不同的角度去學(xué)習(xí)文本信息,從而實(shí)現(xiàn)豐富語義的目的。該功能類似于一個(gè)人從不同的角度去觀測事物將會(huì)產(chǎn)生不同的觀測結(jié)果。同時(shí)還加入Feed-Forward(前饋神經(jīng)網(wǎng)絡(luò))與Add&Norm(殘差連接&層歸一化)對動(dòng)態(tài)詞向量的優(yōu)化,前饋神經(jīng)網(wǎng)絡(luò)實(shí)質(zhì)是兩層線性映射并使用Relu 激活函數(shù)運(yùn)算,Add&Norm 中的殘差連接能減少傳遞信息中出現(xiàn)的偏差,層歸一化將隱藏層歸一為標(biāo)準(zhǔn)正態(tài)分布,可以起到加快訓(xùn)練速度、加速收斂的作用。

    圖2 Transformer Encoder模型結(jié)構(gòu)

    1)詞嵌入向量與位置編碼的計(jì)算如式(1)~(3)所示。

    其中Xembedding是輸入的詞向量主要包括字向量和句向量,位置嵌入PE使用sin 和cos 函數(shù)的線性變換來提供給模型的位置信息,2i為偶數(shù)位置,2i+1為奇數(shù)位置。

    2)多頭注意力機(jī)制的計(jì)算如式(4)~(9)所示。

    對WQ、Wk、Wv三個(gè)權(quán)重矩陣分別進(jìn)行線性映射運(yùn)算,從而達(dá)到多頭的目的,然后對Q、K、V進(jìn)行自注意力機(jī)制的運(yùn)算得到,其中QKT是求注意力矩陣,然后用其給V加權(quán),是為了讓注意力矩陣更好的服從標(biāo)準(zhǔn)正態(tài)分布,使得歸一化之后的結(jié)果更加穩(wěn)定。為相應(yīng)的初始權(quán)重矩陣;h為頭數(shù);Concat為拼接函數(shù)。

    3)殘差連接與層歸一化的計(jì)算如式(10)~(14)所示。

    殘差連接將注意力得到的結(jié)果與X相加;層歸一化是對向量矩陣中每行的每個(gè)元素減均值再除以標(biāo)準(zhǔn)差來實(shí)現(xiàn)歸一化的目的;其中α、β是為了彌補(bǔ)歸一化過程中損失掉的信息;ω防止除零。

    4)前饋神經(jīng)網(wǎng)絡(luò)的計(jì)算如式(15)所示。

    其中Linear為線性函數(shù);Relu為激活函數(shù)。

    BERT模型采用設(shè)計(jì)了兩種方法來進(jìn)行模型的預(yù)訓(xùn)練,第一種方法是采用MaskLM 的方式來訓(xùn)練模型,即以一定的概率隨機(jī)選取字采用[MASK]替換,之后編碼器根據(jù)語料的上下文來學(xué)習(xí)和預(yù)測被MASK 的字來訓(xùn)練模型。第二種方法是采用Next Sentence Prediction 的方法,即輸入兩個(gè)完整的句子,通過提取句中的信息來判斷兩個(gè)句子之間的邏輯關(guān)系,從而訓(xùn)練模型。

    3.2 BiGRU層

    GRU與LSTM一樣屬于RNN的變體形式,為了解決RNN 不具有長期依賴與梯度爆炸或消失的問題。GRU 的功能與LSTM 類似,其優(yōu)點(diǎn)在于具有更少的參數(shù)和簡單的結(jié)構(gòu)。GRU 最重要的結(jié)構(gòu)包括重置門r,更新門z,其內(nèi)部的計(jì)算更新過程如式(16)~(20)所示。

    其中xt表示當(dāng)前節(jié)點(diǎn)的輸入;ht-1表示上一節(jié)點(diǎn)的隱藏狀態(tài);h'表示候選隱藏狀態(tài);σ表示Sigmoid激活函數(shù);ht表示傳遞給下一節(jié)點(diǎn)的隱藏狀態(tài);yt表示當(dāng)前節(jié)點(diǎn)的輸出。w1-7表示權(quán)重矩陣;b表示偏置項(xiàng)。重置門r用于控制上一節(jié)點(diǎn)的隱藏狀態(tài)被遺忘的程度,產(chǎn)生候選隱藏狀態(tài)h'。更新門z同時(shí)具有遺忘和記憶的功能,(1-z)*ht-1用于對上一節(jié)點(diǎn)狀態(tài)選擇性遺忘,z*h'用于對候選隱藏狀態(tài)進(jìn)行選擇性記憶。

    3.3 Attention層

    Attention 機(jī)制的原理是對每個(gè)詞分配不同大小的權(quán)重值,然后通過對權(quán)重進(jìn)行加權(quán)和。其能對神經(jīng)網(wǎng)絡(luò)的隱層中的關(guān)鍵信息分配較大的權(quán)重,對無關(guān)的信息分配較小的權(quán)重,實(shí)現(xiàn)更好的特征提取。注意力機(jī)制是模擬人類大腦中的注意力功,專注重要的信息和忽略無關(guān)重要的信息。注意力機(jī)制的計(jì)算過程如式(21)~(23)所示。

    其中hi表示BiGRU在i時(shí)刻輸出的隱層狀態(tài);ei是預(yù)測與目標(biāo)匹配的score 函數(shù),表示對hi分配不同的初始權(quán)重值;V、W表示權(quán)重矩陣;ai表示對ei進(jìn)行softmax 計(jì)算注意力的概率值;y為包含注意力值的語義向量。

    3.4 CNN層

    CNN 層采用的是文本卷積神經(jīng)網(wǎng)TextCNN。相比于圖像卷積神經(jīng)網(wǎng)絡(luò),最大的區(qū)別在于TextCNN 采用不同大小的一維卷積核在文本序列上滑動(dòng),對文本進(jìn)行特征提取。一般卷積核的大小kernel_size 設(shè)置為2、3、4 三種卷積核,其能對較長和較短的文本信息同時(shí)進(jìn)行卷積。卷積網(wǎng)絡(luò)的內(nèi)部計(jì)算過程如式(24)~(25)所示。

    其中yi:i+h-1表示第yi個(gè)向量到第yi+h-1個(gè)向量;b為偏置項(xiàng);W為卷積核;式(24)表示卷積核W與yi:i+h-1進(jìn)行卷積運(yùn)算,得到相應(yīng)的特征輸出值Ci。式(25)是對卷積后的結(jié)果采用最大值法進(jìn)行池化運(yùn)算。

    3.5 輸出層

    全連接層將池化運(yùn)算的結(jié)果Pi傳入輸出層,采用softmax 函數(shù)計(jì)算預(yù)測概率實(shí)現(xiàn)對情感的分類,輸出層的計(jì)算如式(26)所示。

    其中w為權(quán)重矩陣;b為偏置項(xiàng);p(y|Pi,w,b)為計(jì)算出的所屬情感類別的概率分布。

    4 實(shí)驗(yàn)

    實(shí)驗(yàn)在Windows10 上進(jìn)行,CPU 為Intel(R)Core(TM)i9,3.10GHz,GPU 為RTX3060 12G,編程語言為Python3.7,深度學(xué)習(xí)框架為Tensorflow 2.4.1。

    4.1 數(shù)據(jù)集

    本次實(shí)驗(yàn)數(shù)據(jù)集選用的是公開的中文數(shù)據(jù)集,分別為酒店評論數(shù)據(jù)集ChSentiCorp_htl_all、外賣評論數(shù)據(jù)集waimai_10k、網(wǎng)上購物評論數(shù)據(jù)集online_shopping_10_cats、微博評論數(shù)據(jù)集weibo_senti_100k。按照8∶2 將數(shù)據(jù)集分為訓(xùn)練集和測試集,4種中文數(shù)據(jù)集詳情和樣例如表1、表2所示。

    表1 中文數(shù)據(jù)集詳情

    表2 中文數(shù)據(jù)集樣例

    4.2 實(shí)驗(yàn)設(shè)置

    實(shí)驗(yàn)的模型參數(shù)設(shè)置較多,其中BERT 層采用谷歌公司已經(jīng)訓(xùn)練好的中文BERT 模型,該模型采用12 層Transformer 編碼器,隱層的維度為768,多頭注意機(jī)制的的頭數(shù)為12,總參數(shù)大小約為110MB。BiGRU 層中隱藏單元數(shù)為64,CNN 層中每種卷積核的數(shù)量為60,共180個(gè)卷積核。模型訓(xùn)練的參數(shù)設(shè)置,迭代次數(shù)為10 次,批次大小設(shè)置為32,學(xué)習(xí)率為1e-5,優(yōu)化器Adam,為防止過擬合dropout設(shè)置為0.5,序列長度設(shè)置為100。

    4.3 結(jié)果及分析

    實(shí)驗(yàn)采用準(zhǔn)確率、F1 值作為模型的評價(jià)標(biāo)準(zhǔn),并設(shè)置了3 組對比實(shí)驗(yàn)來驗(yàn)證本文模型的有效性。準(zhǔn)確率和F1值的計(jì)算如下:

    其中m為預(yù)測正確樣本數(shù)目;M為參加預(yù)測的樣本總數(shù)目;precision為精度;recall為召回率。

    4.3.1 詞嵌入方法對比實(shí)驗(yàn)

    為了驗(yàn)證BERT 模型具有更好的向量表征能力,實(shí)驗(yàn)將本文模型Word2Vec-BiGRU-Attention-CNN 模型在相同的實(shí)驗(yàn)環(huán)境下對4 種中文數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)迭代10 次的訓(xùn)練過程如圖3所示。

    圖3 詞嵌入方法對比實(shí)驗(yàn)

    從圖3 可以看出,在使用相同的BiGRU-Attention-CNN 模型進(jìn)行特征提取的情況下,在四種數(shù)據(jù)集上迭代的結(jié)果BERT 明顯優(yōu)于Word2Vec。BERT 在前6 次迭代準(zhǔn)確率屬于上升趨勢,后四次迭代逐漸達(dá)到平滑,而Word2Vec 在迭代10 次下整體趨近于平滑。分析原因,Word2Vec 是將詞典中所有的詞映射到空間向量來表示,對模型訓(xùn)練準(zhǔn)確率達(dá)到穩(wěn)定較快;而BERT 是采用雙向的Transformer 編碼器對輸入的文本進(jìn)行預(yù)訓(xùn)練,動(dòng)態(tài)詞向量的表征是逐漸變豐富。

    4.3.2 注意力機(jī)制影響實(shí)驗(yàn)

    為了說明引入注意力機(jī)制對本文模型的有效性和優(yōu)化作用,將本文模型與不引入注意力機(jī)制的模型在相同的實(shí)驗(yàn)環(huán)境下對四種中文數(shù)據(jù)集進(jìn)行分析對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示。

    圖4 注意力機(jī)制影響實(shí)驗(yàn)

    從圖4 中對比可以看出,相比沒采用Attention機(jī)制的模型,引入Attention機(jī)制后模型的準(zhǔn)確率有不錯(cuò)的提升。在ChSentiCorp_htl_all、waimai_10k、online_shopping_10_cats 和weibo_senti_100k 在 四種中文數(shù)據(jù)集上準(zhǔn)確率分別提升0.95%、0.37%、0.49%、1%,驗(yàn)證融入Attention機(jī)制的有效性。

    4.3.3 有效性對比實(shí)驗(yàn)

    通過對四種中文數(shù)據(jù)集進(jìn)行情感分析,將本文模型與基于BERT 下的幾種常見模型在相同的實(shí)驗(yàn)環(huán)境下進(jìn)行對比分析,采用Accuracy 和F1 值作為評價(jià)指標(biāo),來驗(yàn)證本文模型的有效性,實(shí)驗(yàn)結(jié)果如表3、表4所示。

    表3 不同模型的準(zhǔn)確率對比(單位%)

    表4 不同模型的F1值對比(單位%)

    由表3、表4可以看出,本文模型在四種數(shù)據(jù)集上準(zhǔn)確率和F1 值的表現(xiàn)均優(yōu)于其他模型。對比BERT-BiGRU-CNN 與BERT-BiGRU 可以看出,準(zhǔn)確率平均提高0.85%,說明CNN 層有較好的特征提取能力,能在一定程度上提高模型的特征提取。對比BERT-BiGRU-CNN 與BERT-CNN 可以看出,準(zhǔn)確率平均提高0.67%,說明BiGRU 層能提升模型對上下文的依賴,獲取向量更深層次的表達(dá)。對比本文模型與BERT-BiGRU-CNN 可以看出,準(zhǔn)確率平均提高0.45%,說明Attention 層能強(qiáng)化重要的特征信息,促進(jìn)模型特征提取能力。綜上,本文模型正是融合各層的優(yōu)點(diǎn)所提出,對比各模型的性能,本文所提出的BERT-BiGRU-Attention-CNN 混合模型性能更優(yōu)。

    5 結(jié)語

    針對現(xiàn)有中文情感分析普遍采用one-hot編碼或Word2Vec 方法生成詞向量,無法解決一詞多義的問題,且未能考慮文本中的關(guān)鍵信息權(quán)重的問題。本文提出一種基于BERT 的BiGRU-Attention-CNN 的中文情感分析方法。該模型首選使用BERT 生成豐富信息的動(dòng)態(tài)詞向量,然后通過BiGRU層結(jié)合上下文信息獲取動(dòng)態(tài)詞向量的更深層次的表示,融合Attention 機(jī)制強(qiáng)化重要的詞向量,再采用CNN 層進(jìn)行特征提取,最后通過Softmax 進(jìn)行情感極性分類。實(shí)驗(yàn)結(jié)果表明,相比Word2Vec 方法,BERT 模型具有更好的表征能力,且引入Attention 機(jī)制的混合模型相比傳統(tǒng)深度學(xué)習(xí)模型準(zhǔn)確率更優(yōu)。

    猜你喜歡
    特征提取注意力準(zhǔn)確率
    讓注意力“飛”回來
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    Bagging RCSP腦電特征提取算法
    A Beautiful Way Of Looking At Things
    基于MED和循環(huán)域解調(diào)的多故障特征提取
    噶尔县| 喜德县| 临汾市| 河源市| 壶关县| 堆龙德庆县| 太湖县| 祁阳县| 女性| 宁都县| 土默特左旗| 辽中县| 称多县| 东乡县| 靖远县| 成都市| 洪泽县| 贵港市| 山东省| 临夏县| 兰考县| 淄博市| 夏河县| 留坝县| 承德县| 沁源县| 金堂县| 东安县| 衢州市| 台南县| 囊谦县| 富川| 葵青区| 三河市| 新郑市| 新闻| 卢湾区| 柘荣县| 石林| 临江市| 永吉县|