• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合注意力機制的新聞文本分類研究?

      2020-05-15 05:19:42廖聞劍黃珊珊
      計算機與數(shù)字工程 2020年2期
      關(guān)鍵詞:注意力卷積向量

      於 韜 廖聞劍 黃珊珊

      (1.武漢郵電科學研究院 武漢 430070)(2.南京烽火天地通信科技有限公司 南京 210017)(3.南京烽火星空通信發(fā)展有限公司 南京 210017)

      1 引言

      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上產(chǎn)生了規(guī)模龐大的數(shù)據(jù),包括文本、圖片、音頻、視頻等信息,中文新聞數(shù)據(jù)是數(shù)據(jù)信息的一種重要載體。面對紛繁復雜的文本數(shù)據(jù),快速而準確地找到個人所需的信息變得越來越費事耗力,如何幫助用戶快速定位目標信息,從而發(fā)現(xiàn)潛在信息,助力科學研究和提升商業(yè)價值,成為當前信息處理領(lǐng)域所面臨的一大挑戰(zhàn)。文本分類技術(shù)作為一種高效的信息檢索與數(shù)據(jù)挖據(jù)信息技術(shù),有助于數(shù)據(jù)信息的組織與管理,是解決上述問題的關(guān)鍵技術(shù),具有廣泛的研究和應用價值。

      文本分類技術(shù)和其他的分類技術(shù)沒有本質(zhì)的區(qū)別,核心方法是提取文本的特征然后選擇適當?shù)姆诸惼鬟M行分類。在特征選擇方面,常用的特征計算量有TF-IDF,互信息量,信息增益,χ2統(tǒng)計量等方法,也有更深層次的潛在狄利克雷分布(LDA)模型[1],LDA模型帶有一定的語義信息,姚全珠[2]等將LDA模型生成的主題分布作為文本的特征構(gòu)造分類器進行分類。在分類器選擇方面,常用的分類器有支持向量機(SVM)[3~4],樸素貝葉斯(Naive Bayes)[5]和最小近鄰(KNN)[6]等。

      近年來,隨著深度學習的興起,深度學習方法逐漸成為自然語言處理領(lǐng)域的熱門。Bengio[7]等提出用神經(jīng)網(wǎng)絡訓練詞向量表示,Mikolov[8~9]等提出一種結(jié)合赫夫曼編碼的詞袋模型(CBOW)和Skip-gram模型,提升了詞向量訓練的性能。Zhou[10]等利用長短時記憶網(wǎng)絡(LSTM)建模,提取文本的序列信息進行文本分類。在神經(jīng)網(wǎng)絡的選擇上,也有學者嘗試使用卷積神級網(wǎng)絡(CNN)進行建模。Kim[11]等利用不同尺度的卷積核多方位地提取文本特征,從而達到文本分類的目的。Zhang[12]等比較了不同層面的詞嵌入對于文本分類結(jié)果的影響。注意力機制最早運用了圖像處理領(lǐng)域,現(xiàn)在也逐漸應用了自然語言處理領(lǐng)域來挖掘文本更深層次的語義信息。Bahdanau[13]等將注意力機制應用于機器翻譯任務中,提升了機器翻譯的效果。Lu?ong[14]等提出了全局注意力模型和局部注意力模型。Lin[15]等將引入自注意力機制引入句子分類任務中,挖掘句子內(nèi)部的聯(lián)系從而提升句子分類性能。

      綜上所述,本文提出了一種結(jié)合注意力機制的文本分類方法。首先利用卷積神經(jīng)網(wǎng)絡提取文本的全局特征,考慮不同的詞對于文本分類影響程度的不同,引入注意力機制構(gòu)建模型,提取更加豐富的文本特征,達到提升分類效果的目的。

      2 結(jié)合注意力模型的文本分類模型

      結(jié)合注意力機制的新聞文本分類模型分成兩部分,模型總體構(gòu)架如圖1如示,左半部分利用卷積神經(jīng)網(wǎng)絡進行特征提取,右半部分引入注意力機制提取,考慮不同詞對于分類的不同影響,為文本分類提供更多的信息。下面將具體描述該模型的每個部分。

      2.1 文本表示

      文本是不能直接被計算機所理解,在進行文本處理的第一步是將文本數(shù)字化。一種最簡單而直接的詞向量表示方法是獨熱表示(one-hot Repre?sentation),用一個很長的向量來表示一個詞,向量的長度是詞典的大小,向量只在該詞在詞典中索引的位置取1,其他所有位置取0。這種詞向量表示方法不能表達語義信息,同時由于巨大的單詞表導致向量的維數(shù)很大,容易發(fā)生維數(shù)災難。

      圖1 整體結(jié)構(gòu)圖

      另一種表示方法是分布式表(Distributed Rep?resentation),它可以將詞映射成一個固定長度的向量,這些向量是帶有語義信息的,語義關(guān)系越緊密的詞在向量空間內(nèi)的距離會更近?,F(xiàn)在最流行的word2vec便是采用這樣的詞向量表示方法。如式(1)所示,文本d可視為詞的序列:

      其中l(wèi)表示文本的長度, ||V表示詞匯表 ||V的大小,wordi∈R||V表示文本中第i個詞。假設詞向量矩陣M∈Rd×|V|,其中d表示詞向量的維度,第i個詞的詞向量如式(2)所示。

      2.2 卷積特征提取

      經(jīng)過詞嵌入之后,文本被轉(zhuǎn)化成詞嵌入序列,如式(3)所示。

      其中xi表示文本第i個詞的詞嵌入。接下來利用卷積神經(jīng)網(wǎng)絡提取文本的特征,如圖2所示。

      圖2 卷積特征提取

      卷積為w×d的卷積核在文本詞嵌入矩陣X上向右滑動,提取窗口w上的文本特征。為了提取盡量豐富的文本特征,本文設計了三種尺度的卷積核:3×d,4×d和5×d,每一種尺度的卷積核選取200個。卷積的計算公式如式(4):

      其中W 為卷積核的權(quán)值,h為窗口的大小,Xi:i+w-1為i到i+w-1窗口內(nèi)的詞嵌入矩陣,b為偏置,f為激活函數(shù),在本文中選擇relu函數(shù)。最后對每一個特征向量ci進行池化操作,池化能夠降低特征維數(shù),避免過擬合現(xiàn)象的發(fā)生。常見的池化有均值池化和最大化池化,本文采用最大化池化,即選擇卷積結(jié)果的最大值。將池化后的結(jié)果,拼接之后便得到總的特征向量:

      2.3 注意力機制特征提取

      考慮到每一個詞對于分類的貢獻程度不同,本文引入了注意力機制來提取更加全面的文本特征。首先讓詞向量矩陣X通過一個雙向GRU[16]網(wǎng)絡,獲取文本的表示。

      其中xt表示第i個詞的詞嵌入,t表示t時刻GRU前向隱藏層的狀態(tài),表示t時刻GRU后向隱藏層的狀態(tài)。將前向和后向的隱藏狀態(tài)進行連接得到 ht,假設隱藏層的長度為 u,那么 ht∈R2u,H∈Rl×2u表示所有隱藏狀態(tài)的集合:

      然后將隱藏層狀態(tài)集合H經(jīng)過非線性變換得到隱含表示u,再通過隨機初始化的注意力機制矩陣us與u進行點乘運算并使用softmax得到每個隱藏狀態(tài)ht的權(quán)重αi。最后將每個隱藏狀態(tài)hi乘以對應的權(quán)重αi并求和,得到最終的注意力詞對分類的注意力矩陣v,該過程可描述為

      最后,將兩部分網(wǎng)絡得到的特征向量c和a拼接在一起,經(jīng)過全連接層映射成類別,最后通過softmax函數(shù)計算屬于某一類別的概率。

      3 實驗

      3.1 數(shù)據(jù)集和實驗環(huán)境

      本文實驗在Windows操作系統(tǒng)下進行,使用的CPU為Intel Core i5-4590 3.3GHz,內(nèi)存大小為8G。使用Python3.5編程,開發(fā)工具為Pytorch 0.4。本文實驗數(shù)據(jù)采用清華大學自然語言處理實驗室中文文本分類數(shù)據(jù)(THUCTC)[17],該數(shù)據(jù)包含74萬篇新聞文檔,劃分出14個候選分類類別:財經(jīng)、房產(chǎn)、家居、教育、科技、時尚、時政、體育、游戲、娛樂。選取了其中10個類別50000條數(shù)據(jù)作為訓練集、10000條數(shù)據(jù)作為測試集、5000條數(shù)據(jù)作為驗證集。

      3.2 實驗設置與方法

      3.2.1 預訓練詞向量

      本文使用gensim工具包詞向量訓練工具預訓練詞向量,為了保證訓練出來的詞向量的準確性,應選擇盡量大的語料庫來進行訓練。為此,選取了三種公開的語料庫來進行訓練:維基百科中文語料庫、搜狗新聞CA語料庫和微信公眾號語料庫。在詞向量的訓練過程中,詞向量的維度設置為512維,滑動窗口大小設為5。

      3.2.2 實驗方法

      為了考察注意力機制的引入對于分類結(jié)果的影響,將本文模型與經(jīng)典的CNN分類模型進行比較。同時,還將一些傳統(tǒng)的分類模型如樸素貝葉斯(NB)、最大近鄰(KNN)和支持向量機(SVM)加入對比實驗,對比傳統(tǒng)機器學習方法和深度學習方法對文本分類任務的優(yōu)劣。模型的評價指標采用準確率(Precise),召回率(Recall)和 F1值來衡量。深度學習網(wǎng)絡權(quán)重初始化為標準差為0.1的正態(tài)分布隨機數(shù)。采用Adam方法對網(wǎng)絡進行優(yōu)化,學習率設置為0.001。為了防止過擬合,在全連接層引入Dropout[18]策略,系數(shù)設為 0.5。GRU隱藏層長度為100,輸入批次大小為64。

      3.3 實驗結(jié)果分析

      表1所示的是不同分類模型的Precision值、Recall值和F1值的比較。從表1可以看出,各個分類器在分類問題上均表現(xiàn)出較好的分類結(jié)果。對比傳統(tǒng)機器學習模型和深度學習模型可以發(fā)現(xiàn),深度學習模型性能均優(yōu)于傳統(tǒng)機器學習模型。實驗展現(xiàn)了深度學習方法的優(yōu)勢,得益于深度學習方法強大的擬合能力,另外深度學習方法不需要添加過多的人工特征就可以達到優(yōu)秀的分類性能。對比經(jīng)典的CNN分類模型和文本模型,在引入了注意力機制之后,考慮了不同的詞對于分類的貢獻度的不同,為分類模型提供了更加豐富的特征,從而提升了分類模型的整體性能。

      表1 不同分類模型分類結(jié)果比較

      4 結(jié)語

      本文提出了一種結(jié)合注意力模型的新聞文本分類方法。首先利用word2vec訓練大規(guī)模中文預料,從大量文本信息中得到詞的詞向量,作為文本的特征表達。經(jīng)典的CNN文本分類模型沒有考慮到不同詞對分類的貢獻程度,本文利用注意力機制訓練注意力網(wǎng)絡并在經(jīng)典的CNN文本分類模型中加入該特征。實驗比較了傳統(tǒng)文本方法和深度文本分類方法的優(yōu)劣以及注意力機制的引入對于分類結(jié)果的影響。實驗結(jié)果表明,本文提出的新聞文本方法能夠提供更豐富的特征,提高分類模型的性能。

      猜你喜歡
      注意力卷積向量
      向量的分解
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      向量垂直在解析幾何中的應用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      鄂伦春自治旗| 兴化市| 迁安市| 辽中县| 商丘市| 拉萨市| 漳平市| 霍城县| 离岛区| 哈巴河县| 康乐县| 云龙县| 台安县| 茂名市| 天柱县| 麻江县| 遵化市| 灵武市| 栖霞市| 江达县| 毕节市| 石棉县| 神池县| 札达县| 巴东县| 阿巴嘎旗| 拉孜县| 灌南县| 沈丘县| 乐业县| 梁河县| 安顺市| 东丽区| 藁城市| 道真| 西乌珠穆沁旗| 资兴市| 清丰县| 西吉县| 新余市| 南华县|