侯玉兵
摘要:短文本分類是互聯(lián)網(wǎng)文本數(shù)據(jù)處理領(lǐng)域的一項關(guān)鍵任務(wù)。計算機視覺和語音識別領(lǐng)域中的深度學(xué)習(xí)研究表明,神經(jīng)網(wǎng)絡(luò)模型中更深層次的學(xué)習(xí)能夠更有效地表達(dá)數(shù)據(jù)特征。受此啟發(fā),本文設(shè)計了一種將CNN和RNN模型與注意機制相結(jié)合的方法,根據(jù)文本的關(guān)鍵信息提取出更復(fù)雜有效的特征。為了評估方法對深度短文本分類的有效性,進行了綜合實驗比較和分析。
關(guān)鍵詞:短文本分類;長短期記憶網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);注意機制
中圖分類號:TP311 ? ? ? ?文獻標(biāo)識碼:A
文章編號:1009-3044(2020)28-0185-02
Abstract: Short text classification is a key task in the field of Internet text data processing. Research on deep learning in the field of computer vision and speech recognition has shown that deeper levels in a neural network model are more effective in expressing data features. Inspired by this, a model is proposed that integrates the CNN and RNN model with an attention mechanism to extract more complex and effective features according to the key information of the text. To evaluate these effects of these models for deep short text classification, comprehensive experiments are conducted to compare with LSTM, CNN, and their combinations.
Keywords: Short Text Classification; Long Short-Term Memory Networks; Convolutional Neural Networks; Attention Mechanism
短文本分類技術(shù)在信息檢索、信息安全、個性化推薦系統(tǒng)、問答系統(tǒng)等領(lǐng)域發(fā)揮著重要作用[1]?;谏疃葘W(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在語言建模、句子和文檔建模等自然語言處理領(lǐng)域取得了巨大的成功,并在機器翻譯、詞性標(biāo)注、情感分類等方面得到了有效的應(yīng)用。詞向量是語言模型的附加產(chǎn)物,能夠更好地表達(dá)語義和語法信息,可以應(yīng)用于多種模型。目前,Word2Vec[2,3]和GloVe[4]是應(yīng)用最廣泛的工具。
本文以短文本分類為重點,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶(LSTM)網(wǎng)絡(luò)模型、殘差網(wǎng)絡(luò)(ResNet)和注意機制四種深度學(xué)習(xí)技術(shù)的優(yōu)點,捕捉時間和空間兩個層次的文本特征,隨著網(wǎng)絡(luò)層次的加深,學(xué)習(xí)更復(fù)雜的特征。
1 基于注意力機制的分類方法
為了結(jié)合LSTM和CNN在特征獲取方面的優(yōu)勢,本文利用多層LSTM對詞向量進行優(yōu)化,得到輸入短文本向量的時序信息。通過卷積神經(jīng)網(wǎng)絡(luò)獲得空間組合特征,通過殘差層有效地解決了LSTM中第一層的參數(shù)更新問題。為了進一步提高模型的有效性,引入注意機制。注意機制可以看作是一種權(quán)值選擇機制,通過注意資源輔助獲取焦點,對連續(xù)文本信息的處理非常有幫助,通過增加外部的注意力資源來改進注意層的功能。
注意機制已經(jīng)成功地集成到CNN和RNN模型中,在翻譯、語音識別和圖像字幕等許多應(yīng)用領(lǐng)域都有了顯著的改進。除了輸入層和隱藏層之外,池化層和注意機制可以看作是幫助獲得層的相關(guān)部分的特征的選擇機制。針對注意力機制提出了注意力焦點(Attention Focus)和注意力資源(Attention Source)概念,本文對注意力焦點和注意力資源概念提出了新的解釋,并用來介紹注意力機制應(yīng)用過程。
注意力焦點focus是與注意力權(quán)重進行加權(quán)運算的數(shù)據(jù),是注意力權(quán)重直接作用的數(shù)據(jù),即圖1中的輸入x。它可以采用輸入層的詞向量,也可以是卷積神經(jīng)網(wǎng)絡(luò)或長短時記憶模型的隱藏層輸出。注意力焦點與注意力資源進行匹配運算,進行歸一化得到注意力權(quán)重。注意力焦點與注意力權(quán)重進行加權(quán)求和,得到注意力層的輸出。
注意力權(quán)重的分配通常是基于內(nèi)容的匹配度。注意力資源source,顧名思義,就是模型需要關(guān)注的重點信息,用來結(jié)合注意力焦點計算注意力權(quán)重。該數(shù)據(jù)可來源于內(nèi)部,也可以來源于模型外部。
注意力資源來源于模型內(nèi)部的計算方式見圖1(a)和(b),(a)中注意力資源source等同于注意力焦點focus,(b)中source數(shù)據(jù)是由focus數(shù)據(jù)運算得到的。當(dāng)前,圖1(b)模式中獲取source數(shù)據(jù)普遍的方法是,使用最后一層RNN隱藏層輸出或者最大(或平均)池化RNN隱藏層或卷積層,得到一個簡單的source數(shù)據(jù)向量表示。另外,RNN模型注意力機制中的記憶單元C,也可以當(dāng)作由模型內(nèi)部運算得到的注意力資源source。
外部提供的注意力資源source可以是詞典中的詞或短語(圖1(c)),或由相關(guān)文本運算得到的特征信息(圖1(d))。問答模型當(dāng)中的問句與答案的匹配建模,可以參考圖1(d)模式的注意力機制。
根據(jù)上述注意力焦點和注意力資源內(nèi)容,為了區(qū)分focus與source的模式,本文改進了對應(yīng)的打分函數(shù),公式如下:
其中,[sj]是注意力資源[s]第[j]列的向量。如圖2,將[xi]與每列注意力資源向量進行匹配,然后對所有結(jié)果求和,得到該輸入[xi]對應(yīng)的分?jǐn)?shù)。該匹配使用全連接方式實現(xiàn),[U1]、[U2]和[V]這些權(quán)重是在訓(xùn)練模型過程中學(xué)習(xí)的。
在處理文本任務(wù)的神經(jīng)網(wǎng)絡(luò)模型中,有些模型要求句子序列,即不能破壞句子序列。注意機制用于在不需要輸入順序的情況下獲得輸入特征的加權(quán)和。因此,在考慮注意機制時,最好將其應(yīng)用到場景中,例如池層、卷積層等。
注意機制實質(zhì)上是一種權(quán)值選擇機制,它決定了按權(quán)值選擇的輸入集合。池化層也是一種特征選擇機制。與注意機制相反,池化層中沒有權(quán)重,它只是K值的平均值或最大值。因此,注意機制可以更好地替代池化層的功能。本文提出了一種CNN層中結(jié)合注意機制的方案,如圖3所示,即在CNN層之后連接注意機制并移除池化層。
2 性能分析
本文考慮結(jié)合LSTM和CNN各自提取特征的優(yōu)勢而提出的一個多層神經(jīng)網(wǎng)絡(luò)模型。為探索模型的性能,基于影評數(shù)據(jù)、斯坦福情感數(shù)據(jù)樹庫以及問句類型數(shù)據(jù)集,展開了一系列實驗研究,將本文所提的模型與CNN、LSTM及其組合模型進行對比分析。實驗結(jié)果見表1。性能指標(biāo)是測試集的分類準(zhǔn)確率,以百分號為單位。
實驗基于TensorFlow框架,并在Python中實現(xiàn)。實驗系統(tǒng)配置為Ubuntu64位操作系統(tǒng),11GB的DRAM和NVIDIA GTX1080。
表1列出了在幾個經(jīng)典數(shù)據(jù)集中使用深度學(xué)習(xí)技術(shù)進行文本分類的實驗結(jié)果??梢钥闯?,本文提出的模型對于不同數(shù)據(jù)集的分類更加穩(wěn)定,可以靈活地應(yīng)用于不同文本集的情感分類值得注意的是,由于SST-5數(shù)據(jù)集的分類比較復(fù)雜,以往SST-5數(shù)據(jù)集模型的精度一直較低。然而,本文的方法能夠較好地處理復(fù)雜的多分類問題,在SST-5數(shù)據(jù)集中,精度達(dá)到49.78%。
實驗結(jié)果表明,與中間網(wǎng)絡(luò)層輸出相比,在輸入層文本詞向量上使用注意機制可以獲得更好的文本分類效果。而且,結(jié) 合注意機制可以提高SST-2、SST-5和TREC數(shù)據(jù)集的分類效果,進一步提高短文本分類的準(zhǔn)確性。
3 結(jié)論
本文將長短記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過建立殘差層來緩解梯度消失的問題。同時引入注意機制,提高了模型提取有效特征的能力。提出了一種基于注意力機制的短文本分類方法。并將該方法與CNN和RNN在各種數(shù)據(jù)集上進行實驗分析和比較。
參考文獻:
[1] Salton G,Wong A,Yang C.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.
[2] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[EB/OL].2013:arXiv:1301.3781[cs.CL].https://arxiv.org/abs/1301.3781.
[3] Mikolov T,Yih W T,Zweig G.Linguistic regularities in continuous spaceword representations[C]//2013:746-751.
[4] Pennington J,Socher R,Manning C.Glove:global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha,Qatar.Stroudsburg,PA,USA:Association for Computational Linguistics,2014: 1532-1543.
[5] Kim Y.Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha,Qatar.Stroudsburg,PA,USA:Association for Computational Linguistics,2014: 1746-1751.
[6] Zhou C T,Sun C L,Liu Z Y,et al.A C-LSTM neural network for text classification[EB/OL].2015:arXiv:1511.08630[cs.CL].https://arxiv.org/abs/1511.08630.
【通聯(lián)編輯:唐一東】