• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機制和Parallel DenseNet 的文本情感分析

      2022-08-18 01:56:42陳大文
      無線互聯(lián)科技 2022年11期
      關鍵詞:特征提取卷積向量

      陳大文

      (江蘇金盾檢測技術股份有限公司,江蘇 南京 210000)

      0 引言

      隨著計算機與信息技術的發(fā)展,人們已經(jīng)越來越離不開網(wǎng)絡。 隨之,信息出現(xiàn)了爆炸式的增長。 據(jù)統(tǒng)計,截至2020 年4 月,中國網(wǎng)民使用網(wǎng)絡人數(shù)已經(jīng)達9.04 億,互聯(lián)網(wǎng)普及率已經(jīng)達64.5%[1]。 網(wǎng)絡已經(jīng)成為人們現(xiàn)代生活中的重要組成部分。 因此,網(wǎng)民可以在微博等社交媒體公共平臺上發(fā)布各種自己的情感看法和評論。 利用自然語言處理技術,在輿情分析方面,對熱點話題和評論進行分析,理解人們所表達的情感色彩,對政府了解民意、預防危害事件有一定的積極性作用;在情感對話方面,對人話語進行分析,可以創(chuàng)造情感機器人撫慰人的心靈、陪伴人類;在市場競爭方面,對物品的評論進行分析,可以幫助商家提升物品質(zhì)量,同時也可以幫助顧客對該物品下是否購買的決定。

      文本情感分析又稱意見挖掘,是指對帶有情感色彩的主觀性文本進行分析,挖掘其中蘊含的情感傾向,對情感態(tài)度進行劃分[2]。 文本情感分析組成部分,如圖1 所示。 文本情感分析主要由原始數(shù)據(jù)獲取、特征提取、分類器和情感類別輸出4 個部分組成。 其中,特征提取和分類器是文本情感分析結果好壞的重要部分。

      圖1 文本情感分析組成部分

      因此,從分類器來看,目前主要有基于詞典、基于傳統(tǒng)機器學習和基于深度學習3 種文本情感分析方法。 基于詞典的文本情感分析方法是指根據(jù)帶有情感信息的詞語,對文本情感分數(shù)進行計數(shù)和加權,以此獲得文本情感傾向。 基于傳統(tǒng)機器學習的文本情感分析方法不依賴于詞典,具有自我學習文本情感特征的能力[3]。 基于深度學習的文本情感分析方法可以學習更加高級、難以描述的文本情感特征,即使是非常抽象、難以人工表述的特征,也可以學習提取,以此作為文本的重要特征。

      近年來,較流行的文本情感分析模型使用卷積神經(jīng)網(wǎng)絡(CNN)[4]和循環(huán)神經(jīng)網(wǎng)絡(RNN)[5]。 雖然,這類模型優(yōu)先考慮位置和順序信息,能較好地學習句子中的局部特征,以此來進行分類但是忽略了全局特征。2021 年,Yan 等[6]通過將Parallel DenseNet 融入CNN網(wǎng)絡中,進行短文本情感分析,可以較好地提取局部特征和全局特征,得到更好的短文本情感分析效果,但是對于該模型來說全局特征和局部特征對情感分析貢獻度是一樣的。 這顯然存在一定的問題。

      本文基于上文Parallel DenseNet 提出了一種融合注意力機制和Parallel DenseNet 的ATT-Parallel Dense-Net 文本情感分析模型[7]。 該模型不僅可以同時提取文本的局部特征和全局特征,還可以為局部特征和全局特征設置學習不同的權值,以期待得到最好的文本情感分析效果。

      2 相關工作

      根據(jù)特征提取和分類器的不同方法,文本情感分析主要有基于情感詞典的情感分析方法、基于傳統(tǒng)機器學習的情感分析方法和基于深度學習的情感分析方法,如圖2 所示。

      圖2 文本情感分析方法分類

      基于情感詞典的情感分析方法是指根據(jù)帶有情感信息的詞語,對文本情感分數(shù)進行計數(shù)和加權,以此獲得文本情感傾向。 現(xiàn)有的情感詞典都是人工構造的,需要消耗大量的人力與物力。 例如,SentiWordNet[7]情感詞典是一部國外最早的情感詞典,它將含義一致的詞語放在一起,并且賦予了代表正面或者負面的情感極性分數(shù)。 當一句話出現(xiàn)時,就可以根據(jù)每個句子中每個詞的情感極性分數(shù)進行累加得到最終的每個句子的情感極性分數(shù),而這些分數(shù)就代表了每個用戶的情感傾向。 與英文情感詞典不同,中文情感詞典主要有NTUSD[8]、How Net 和情感詞匯本體庫[9]等,這些情感詞典中分別包含不同數(shù)量的褒義詞和貶義詞。 在早期得到了廣泛的應用,然而因為人工量大、難以維護,所以逐步退出了歷史舞臺。

      基于傳統(tǒng)機器學習的文本情感分析方法是指不依賴于詞典,具有自我學習文本情感特征能力的方法。該方法是一種通過給定的數(shù)據(jù)訓練模型,通過模型預測結果的一種學習方法。 該方法研究至今,已經(jīng)取得了諸多有效的成果,分為有監(jiān)督模型、半監(jiān)督模型與無監(jiān)督模型。 有監(jiān)督模型是指訓練帶有情感極性的文本樣本,得到模型,后根據(jù)模型預測無情感極性的樣本。該類方法對樣本集依賴度大。 當樣本集足夠全且多時,效果較好。 當樣本集不全且少式時,效果一般。 半監(jiān)督模型是指在有監(jiān)督模型的基礎上,模型具有訓練提取未帶情感極性文本樣本能力的模型。 該模型從一定程度上可以解決帶有極性數(shù)據(jù)集稀缺的問題。 無監(jiān)督模型是指模型可以自動學習未帶極性數(shù)據(jù)集特征判別其所屬情感傾向。 通常而言是根據(jù)提取特征之間的距離而判斷的,在情感分析中所用較少。 然而,因為其所提取的特征較淺且不全,隨著深度學習的出現(xiàn),該類方法得到了一定的沖擊。

      基于深度學習的文本情感分析方法是指可以學習更加高級、難以描述的文本情感特征。 即使是非常抽象、難以人工表述的特征,它也可以學習提取,以此作為文本的重要特征的模型。 該類模型是從傳統(tǒng)機器學習方法引申而來的,它由兩種類型構成。 一是單一神經(jīng)網(wǎng)絡構成的模型,二是組合神經(jīng)網(wǎng)絡構成的模型。而單一神經(jīng)網(wǎng)絡構成的模型一般以CNN 與RNN 兩類為主。 Kim[4]提出的TextCNN 就是以CNN 構成的用于文本情感分析的方法。 該方法通過一維卷積來獲取句子中n-gram 的特征表示,其對文本淺層特征的抽取能力很強。 然而,該方法卻無法提取遠距離特征和全局特征。 Liu[5]提出的適用于情感分析的RNN 模型就是以RNN 構成的用于文本情感分析的方法。 該方法通過RNN 模型來提取文本特征,其對遠距離特征提取能力強,然而卻無法提取淺層特征與全局特征。 因此,后來的研究者普遍將RNN 與CNN 相結合企圖在模型中同時提取文本的淺層特征和遠距離特征。 何野等[10]2021 年提出的LSTM-CNN 模型就是將LSTM 與CNN相結合在中文電子商務網(wǎng)站評論上獲得了較好的準確率。 李儉兵等[11]2021 年提出的跳轉LSTM-CNN 模型也是將LSTM 與CNN 相結合解決純LSTM-CNN 模型訓練較長短文本效率低下的問題,可以很好地獲取局部特征。 郭勇等[12]2021 年提出的結合改進Bi-LSTM 和CNN 的文本情感分析模型同時獲得淺層特征和長距離依賴特征,在Twitter 上獲得了較好的改進。 程艷等[13]2021 年提出的融合卷積神經(jīng)網(wǎng)絡與雙向GRU 的文本情感分析膠囊模型利用雙向GRU 與CNN 提取特征在酒店評論數(shù)據(jù)集上獲得了較好的效果。 劉道華等[14]2021 年提出的一種加權詞向量的混合網(wǎng)絡文本情感分析方法將CNN 與ATT-BiGRU 相結合,兩者分別提取特征,再將其進行組合,最終分類任務,效果較好。 然而,這些方法雖能同時提取淺層特征和遠距離特征,但是因為其將兩種或兩種以上網(wǎng)絡進行組合,效率比較低,速度較慢且從某種程度上來說依賴數(shù)據(jù)集。 數(shù)據(jù)集若小,則效果一般。

      Yan 等[6]2021 年通過將Parallel DenseNet 融入CNN 網(wǎng)絡,進行短文本情感分析,可以較好地提取局部特征和全局特征,且速度較快,得到更好的短文本情感分析效果。 然而,對于該模型來說,全局特征和局部特征對情感分析貢獻度是一樣的。 事實上,對于情感分析任務來說,局部特征和全局特征貢獻度是不同的,局部特征大于全局特征。

      因此,本文基于上文Parallel DenseNet 提出了一種融合注意力機制和Parallel DenseNet 的ATT-Parallel DenseNet 文本情感分析模型[7]。 該模型不僅可以同時提取文本的局部特征和全局特征,還可以為局部特征和全局特征設置學習不同的權值,以期待得到最好的文本情感分析效果。

      3 融合注意力機制和Parallel DenseNet 的ATTParallel DenseNet 文本情感分析模型

      3.1 ATT-Parallel DenseNet 模型

      為了提高文本情感分析的準確率,本文結合注意力機制和Parallel DenseNet,設計了一個新的情感分析模型ATT-Parallel DenseNet。 如圖3 所示,該情感分析模型主要包括數(shù)據(jù)預處理模塊、生成詞向量Embedding層模塊、分類器模塊。 而分類器模塊主要包括2 個卷積特征提取模塊、Attention 層、Concatenate 層、Full connection 層和Softmax 層。

      圖3 ATT-Parallel DenseNet 情感分析模型

      數(shù)據(jù)預處理階段主要是因為原始的文本擁有許多停頓詞和換行符或者一段英文文章大小寫不一致等格式不統(tǒng)一混亂問題。 因此,數(shù)據(jù)預處理階段將把停頓詞和換行符這類多余的符號詞語清理掉,將大小寫不一致的詞語換成統(tǒng)一的小寫字符;然后將處理好的數(shù)據(jù)通過Word2Vector 進行向量化即生成詞向量階段;接著將詞向量放入分類器中進行處理提取出重要特征;最后通過全連接層和Softmax 層得到分類結果。

      3.2 Embedding 層

      Embedding 層就是詞嵌入層。 初始的文本計算機是無法理解的,只有將文本轉化為詞向量或者句向量,計算機和神經(jīng)網(wǎng)絡才能理解并進行處理。 本文主要使用Word2Vector 來實現(xiàn)詞語向量化。 該模型將詞語轉化為300 維的詞向量。 Word2Vector 的本質(zhì)是將原始的稀疏詞向量通過模型映射到高維空間中使得所獲得的詞向量既不稀疏又準確。 當表示的詞向量方向和尺度都很相近時,則表示這兩個詞之間的詞意十分接近。如圖4 所示,文本最開始將每個詞轉化為one-hot 編碼詞向量即第i個詞對應的詞向量第i維就應該是1;然后通過Word2Vector 后得到的新詞向量第j維就應該是1,而這個第j維跟前詞向量對應的第i維表示的詞是一致的。

      圖4 Word2Vector 模型

      3.3 Parallel DenseNet 模型

      該模型將Embedding 層輸出的詞向量矩陣輸入兩個卷積特征提取模塊,分別提取全局特征和局部特征,分別為多尺度卷積特征提取模塊和稠密連接卷積特征提取模塊。

      3.3.1 多尺度卷積特征提取模塊

      首先,令xi∈Rd為文本中第i個詞的d維預訓練詞向量,則原始輸入文本可以表示為矩陣x0=[x1,x2,…,xm]m×d,然后將x0同時輸入大小為5× d、4× d、3× d、2× d的卷積層進行特征提取得到y(tǒng)1、y2、y3、y4,接著將其輸入大小為46,47,48,49 的最大池化層進行最大池化操作得到新的特征矩陣x1、x2、x3、x4。 最后,將新的特征矩陣相合并得到該多尺度卷積特征提取模塊的特征矩陣x2。

      3.3.2 稠密連接卷積特征提取模塊

      首先,令xi∈Rd為文本中第i個詞的d維預訓練詞向量,則原始輸入文本可以表示為矩陣x0=[x1,x2,…,xm]m×d;然后,將x0串行輸入大小為5×d的卷積層進行特征提取,將原始輸入文本矩陣、經(jīng)過一次卷積變換后的特征矩陣和經(jīng)過二次卷積變換后的特征矩陣相合并得到新的特征矩陣x2;最后,將新的特征矩陣輸入大小為46 的最大池化層,得到該稠密連接卷積特征提取模塊的特征矩陣x1。

      3.4 Attention 層

      注意力機制是一種類似人腦的注意力分配機制,它對重要的區(qū)域投入更多的資源,以獲取更多的細節(jié),對無用的信息則進行抑制。 其中,該部分的實現(xiàn)公式為:

      其中,h為上文所產(chǎn)生的特征矩陣如X1和X2,W和b為Attention 的權重和偏置量,a是最終產(chǎn)生的主注意力分數(shù)。 在訓練過程中,不斷地更新W和b以得到最好的a。

      4 實驗與分析

      4.1 數(shù)據(jù)預處理

      為了驗證本文模型的合理性和有效性,本文選取了4 個廣泛使用的基準語料庫并在其上進行實驗,主要包括:GameMultiTweet 數(shù)據(jù)集、SemEval 數(shù)據(jù)集、SSTweet 數(shù)據(jù)集和 IMDB 電影評論數(shù)據(jù)集。 Game MultiTweet 數(shù)據(jù)集是通過搜索游戲數(shù)據(jù)等游戲主題構建的。 在這個數(shù)據(jù)集中,本文獲取了12 780 條數(shù)據(jù),這些數(shù)據(jù)被標注為三類別。 SemEval 數(shù)據(jù)集是由Twitter情緒分析任務創(chuàng)建的20 K 數(shù)據(jù)組成的。 在這個數(shù)據(jù)集中,本文獲取了7 967 條數(shù)據(jù),這些數(shù)據(jù)被標注為三類別。 SS-Tweet 數(shù)據(jù)集是情緒強度Twitter 數(shù)據(jù)集。 在這個數(shù)據(jù)集中,本文獲取了4 242 條數(shù)據(jù),這些數(shù)據(jù)被標注為三類別。 IMDB 電影評論數(shù)據(jù)集是電影評論的數(shù)據(jù)集。 在這個數(shù)據(jù)集中,本文獲取了25 000 條數(shù)據(jù),這些數(shù)據(jù)被標注為兩類別。 首先,對數(shù)據(jù)集進行預處理,過濾掉非ASCII 字符、清洗換行符以及將大寫字母轉換為小寫,并使用Word2Vector 初始化評論文本的詞嵌入信息;然后將數(shù)據(jù)集按8 ∶1 ∶1 的比例隨機分為訓練集、驗證集和測試集。

      4.2 評價指標

      本文采用準確率(ACC)、召回率(REC)和F1 作為評價指標,計算式如下:

      其中,TP 表示預測為正樣本且分類正確的樣本,TF 表示預測為負樣本且分類正確的樣本數(shù),FP 表示實際為負樣本但是分類錯誤的樣本數(shù),FN 表示實際為正樣本但分類錯誤的樣本數(shù)。

      4.3 對比實驗和參數(shù)設置

      本實驗將ATT-ParallelDenseNet 模型與以下3 種模型進行對比。

      (1)文獻[4]提出的TextCNN 模型。

      (2)文獻[15]提出的fastText 模型。

      (3)文獻[16]提出的BiLSTM-Attentions 模型。

      本實驗中的詞向量維度為300,模型設置每個batch 中含128 個樣本數(shù)據(jù),完成一個epoch 需要50 次迭代。 本實驗共訓練4 個模型,選擇Adam 為優(yōu)化器,設置學習率為0.001;采用dropout 函數(shù)防止過擬合,參數(shù)設置為0.5。

      4.4 實驗結果分析

      同樣的數(shù)據(jù)采用不同的模型處理進行對比實驗。將提出的模型與TextCNN 模型、fastText 模型以及BiLSTM-Attentions 模型作比較, 從分類的準確率(ACC)、召回率(REC)和F1 這3 方面評估其可行性和有效性。 表1 展現(xiàn)了本文的模型與基準模型結果。 從結果上可以看出,本文的模型可以獲得較好的準確率。

      表1 各個模型在各個數(shù)據(jù)集上的結果對比

      5 結語

      本文基于上文Parallel DenseNet 提出了一種融合注意力機制和Parallel DenseNet 的ATT-Parallel Dense-Net 文本情感分析模型。 該模型在數(shù)據(jù)預處理階段把停頓詞和換行符這類多余的符號詞語清理掉,將大小寫不一致的詞語換成統(tǒng)一的小寫字符;將處理好的數(shù)據(jù)通過Word2Vector 進行向量化,即生成詞向量階段;將詞向量放入分類器中,兩個特征提取模塊進行處理提取出重要特征,然后通過attention 模塊為提取的特征分配權值,通過全連接層和Softmax 層得到分類結果。 實驗比較了本文的模型與TextCNN,fastText 和BiLSTM-Attentions 幾種深度學習模型的好壞。 實驗結果表明,本文的模型比其他模型有一定的優(yōu)勢。

      猜你喜歡
      特征提取卷積向量
      向量的分解
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      基于傅里葉域卷積表示的目標跟蹤算法
      Bagging RCSP腦電特征提取算法
      向量垂直在解析幾何中的應用
      向量五種“變身” 玩轉圓錐曲線
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      台山市| 怀化市| 慈溪市| 全州县| 永靖县| 嘉黎县| 天峻县| 阜城县| 历史| 镶黄旗| 徐汇区| 新野县| 宣恩县| 儋州市| 桂东县| 平度市| 无为县| 凌源市| 航空| 通道| 错那县| 大竹县| 湛江市| 阿城市| 额敏县| 巫溪县| 内乡县| 卓尼县| 遂宁市| 扬中市| 阳城县| 宜良县| 崇义县| 武邑县| 明光市| 迭部县| 女性| 南乐县| 正定县| 铅山县| 扎囊县|