江 偉,金 忠
(1.南京理工大學(xué) 計算機科學(xué)與工程學(xué)院,江蘇 南京 210094;2.南京理工大學(xué) 高維信息智能感知與系統(tǒng)教育部重點實驗室, 江蘇 南京 210094)
文本分類技術(shù)在大數(shù)據(jù)時代有著廣泛應(yīng)用,如垃圾郵件檢測、輿情分析和新聞分類推送等。作為自然語言處理中的基礎(chǔ)研究,文本分類包括主題分類、問題分類和情感分類等內(nèi)容,其中情感分類的研究最具挑戰(zhàn)性。
近年來,深度學(xué)習(xí)技術(shù)逐漸取代傳統(tǒng)的基于機器學(xué)習(xí)的方法,成為文本分類領(lǐng)域的主流[1]。深度學(xué)習(xí)在自然語言處理領(lǐng)域的突破始于以Mikolov、Bengiv等人[2-3]為代表提出的神經(jīng)語言模型,如CBOW和Skip-gram等。神經(jīng)語言模型提供的詞向量為使用各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)合成分布式文本表示奠定了基礎(chǔ)。此外,從大規(guī)模無標(biāo)簽數(shù)據(jù)集學(xué)到的詞向量能引入外部先驗知識,明顯提高深度網(wǎng)絡(luò)模型在文本分類中的表現(xiàn)。
基于詞注意機制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)[4-5]在解決文本(包括句子和文檔)分類問題時,先將詞向量序列輸入雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來融入上下文信息,再通過注意機制(attention mechanism)學(xué)習(xí)融入上下文信息的詞的權(quán)重來加權(quán)平均生成文本表示。此模型的不足之處在于:直接從詞加權(quán)生成文本表示會損失大量信息,從而難以在小規(guī)模數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)。因為詞通常需要結(jié)合上下文構(gòu)成短語才能表示明確的語義,所以通過注意機制學(xué)習(xí)短語的權(quán)重來合成的文本語義表示要比從詞學(xué)習(xí)得到的更準(zhǔn)確。基于上述分析,本文提出了一種基于短語注意機制的神經(jīng)網(wǎng)絡(luò)框架NN-PA。該框架先使用一層卷積沿著詞向量序列提取N-gram短語表示,再使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)獲取融入上下文信息的短語表示,最后使用注意機制學(xué)習(xí)短語的權(quán)重來合成文本的語義表示。此外,本文還嘗試了5種注意機制,包括使用全局信息指導(dǎo)學(xué)習(xí)局部短語的權(quán)重。
基于機器學(xué)習(xí)的文本分類技術(shù)[6]在表示文本時主要使用詞袋特征,這會丟棄詞序信息且產(chǎn)生稀疏、高維文本表示。此外,詞袋表示無法很好地對詞的語義和語法關(guān)系建模。Mikolov等人提出的詞嵌入[2],即詞的低維、稠密實向量表示,很好地解決了上述問題。引入詞向量后,文本就可以表示成詞向量序列(即矩陣),這為使用各種先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),如卷積神經(jīng)網(wǎng)絡(luò)[7](convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等提供了基礎(chǔ)。特別是在數(shù)據(jù)集規(guī)模較小的情況下,使用Word2Vec和GloVe[8]等預(yù)訓(xùn)練詞向量初始化詞嵌入層能明顯提高分類精度。
Kim[9]提出的多尺度并行的單層卷積神經(jīng)網(wǎng)絡(luò)結(jié)合預(yù)訓(xùn)練詞向量在多個句子分類任務(wù)上的表現(xiàn)明顯優(yōu)于傳統(tǒng)的機器學(xué)習(xí)方法(如樸素貝葉斯NB和支持向量機SVM等)及早先的神經(jīng)網(wǎng)絡(luò)方法[8]。得益于循環(huán)結(jié)構(gòu),RNN適合處理變長文本(即詞序列),因而在自然語言處理領(lǐng)域中應(yīng)用廣泛。為了解決vanilla RNN在訓(xùn)練時存在的嚴(yán)重的梯度彌散問題,其變體長短時記憶網(wǎng)絡(luò)[10](long short-term memory network,LSTM)引入門限機制,通過輸入門、遺忘門和輸出門來控制記憶的長短。在文本分類方面,雙向長短時記憶網(wǎng)絡(luò)[11](bidirectional LSTM,BLSTM)后接平均池化層(average pooling)是最常用的一個基準(zhǔn)模型,其性能與Kim使用的簡單CNN基本相當(dāng)。
近兩年來,注意機制作為深度學(xué)習(xí)的重要研究方向,先在神經(jīng)機器翻譯領(lǐng)域取得突破,隨后擴(kuò)展到其他領(lǐng)域。Zhou等人[4]提出基于注意機制的BLSTM并用于關(guān)系分類。Yang等人[5]提出分層注意機制的神經(jīng)網(wǎng)絡(luò)模型(hierarchical attention network,HAN)并應(yīng)用于文檔分類。HAN先由詞序列經(jīng)雙向門限循環(huán)單元(簡稱為BGRU)后通過詞級注意機制加權(quán)平均生成句子序列,再經(jīng)BGRU通過句子級注意機制加權(quán)平均生成文檔表示。但HAN存在如下問題:在句子分類中,不能使用句子級注意機制;在文檔分類中,使用詞級別注意機制合成句子表示會導(dǎo)致網(wǎng)絡(luò)中間損失大量信息,使得網(wǎng)絡(luò)在小規(guī)模數(shù)據(jù)集下很難訓(xùn)練。
本文提出的基于短語注意機制的神經(jīng)網(wǎng)絡(luò)框架NN-PA,使用注意機制學(xué)習(xí)短語的權(quán)重來合成文本表示。事實上,短語比詞和句子更能有效地反映文本語義,因為文本的語義通常是由其中幾個關(guān)鍵短語決定。同時,這也避免了中間合成句子表示時所造成的信息損失。除現(xiàn)有的文本分類領(lǐng)域的注意機制外,本文還嘗試將機器翻譯領(lǐng)域的一些注意機制改到文本分類中。共嘗試了五種注意機制,并在多個文本分類任務(wù)上對它們進(jìn)行對比分析。實驗結(jié)果表明:NN-PA系列模型不僅在大、小規(guī)模數(shù)據(jù)集上的分類效果都明顯優(yōu)于基于詞注意機制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò),而且收斂更快。此外,基于前兩種注意機制的NN-PA系列模型(即NN-PA1和NN-PA2)都優(yōu)于主流的深度學(xué)習(xí)模型,且NN-PA2在斯坦福情感樹庫數(shù)據(jù)集的五分類任務(wù)上達(dá)到53.35%的正確率,這是目前最好的結(jié)果。
基于短語注意機制的神經(jīng)網(wǎng)絡(luò)框架(neural network based on phrase attention,NN-PA)由詞嵌入層、卷積層、BLSTM層、注意機制(attention)層以及最后的Softmax層組成,如圖1所示。下面將詳細(xì)描述該網(wǎng)絡(luò)框架的各層及正則化方法。
圖1 基于短語注意機制的神經(jīng)網(wǎng)絡(luò)框架
文本(包括句子和文檔)S可視為詞的one-hot表示序列,如式(1)所示。
(1)
其中l(wèi)表示句子長度,|V|是詞匯表V的大小,wordi∈|V|是文本中第i個詞基于詞匯表的one-hot表示。設(shè)詞嵌入矩陣M∈d×|V|,其中d是詞嵌入空間的維度,則第i個詞的詞嵌入如式(2)所示。
xi=Mwordi∈d
(2)
經(jīng)過嵌入層,文本轉(zhuǎn)化為如下詞向量序列(也可視為文本矩陣),如式(3)所示。
X=(x1,x2,…,xl)∈d×l
(3)
接下來,使用尺度為d×w的卷積核Wj∈d×w(其中下標(biāo)j索引第j個通道)沿詞序列滑動能容納w個詞的窗口進(jìn)行卷積,生成w-gram短語的特征,如式(4)所示。
Fji=f(Wj*xi:(i+w-1)+b)
(4)
其中xi:(i+w-1)=(xi,…,xi+w-1)∈d×w是位置i處窗口所含w個詞構(gòu)成的子序列,下標(biāo)i取值范圍為{1,…,l-w+1},下標(biāo)j取值范圍為{1,…,m},f是非線性激活函數(shù),該文選擇ReLU函數(shù),b是偏置項。經(jīng)過卷積層,可得到w-gram短語特征表示序列,如式(5)所示。
(5)
其中Fi表示在位置i使用m個卷積核提取到的m個特征構(gòu)成的向量,因為使用的卷積核的大小等于文檔表示的維度,故用一個卷積核提取的特征圖的尺度為1×(l-w+1),即l-w+1維行向量,所以總的特征圖(即F)尺度應(yīng)為m×(l-w+1)。
LSTMs是在基本的vanilla RNN中加入門限機制后的擴(kuò)展,但不是所有的LSTMs都一樣。事實上,涉及到LSTMs的每篇論文幾乎都有些許改動。該文使用Zaremba[12]等人描述的LSTM來構(gòu)建BLSTM,再用該BLSTM在卷積層提取的w-gram短語表示中融入上下文信息。此LSTM的輸入為短語表示序列F=(F1,…,Fl-w+1),其機制可用如下映射描述。
其中時序t取值{1,…,l-w+1},ht,ct∈n分別為時序t時的隱狀態(tài)和記憶狀態(tài),n為隱狀態(tài)的維度(即LSTM中所含單元數(shù)),h0、c0皆初始化為零向量;sigm和tanh分別是sigmoid和雙曲正切激活函數(shù);it,ft,ot,gt分別為時序t時的輸入門限、遺忘門限、輸出門限和新的候選記憶狀態(tài),其維度等于隱狀態(tài)維度;⊙表示逐個元素相乘,Tm+n,4n:m+n→4n表示仿射變換。
(12)
帶注意機制的網(wǎng)絡(luò)最近在機器翻譯和圖像標(biāo)注(image caption)等一系列任務(wù)中取得突破。在文本分類中,注意機制可以學(xué)習(xí)短語表示序列中各短語的權(quán)重[4-5],而最終合成的分布式文本表示v則為各短語表示的加權(quán)平均,如式(13)所示。
(13)
其中αi為短語hi對文本語義表示貢獻(xiàn)的權(quán)值,如式(14)所示。
(14)
其中score(hi)度量位置i處的短語對整個文本表示的重要程度。
對于打分函數(shù)score,本文提供了以下五種方法[4-5,13]:
給定訓(xùn)練集{(S(i),y(i))|i=1,…,N},其中類別標(biāo)簽y(i)∈{1,…,K}(K是可能的類別數(shù)目)。對于文本分類,把從文本S(i)生成的分布式表示v(i)輸入Softmax層便得到離散類別標(biāo)簽的預(yù)測概率分布如式(20)所示。
(20)
該文用來訓(xùn)練整個網(wǎng)絡(luò)的代價函數(shù)為平均交叉熵誤差加上Softmax層權(quán)值矩陣的Frobenius范數(shù)約束,如式(21)所示。
(21)
其中θ表示網(wǎng)絡(luò)中所有參數(shù),p(i)y(i)為p(i)的第y(i)個分量;λ是懲罰系數(shù),衡量兩項的重要性,下標(biāo)F表示Frobenius范數(shù)。
除了對Softmax層權(quán)值矩陣的約束外,該文還使用了Dropout[14]技術(shù)防止過擬合,提高網(wǎng)絡(luò)的泛化能力。具體在兩處使用了Dropout:一是詞嵌入矩陣M,相當(dāng)于給現(xiàn)有的詞向量添加適量噪聲,以學(xué)到對文本分類任務(wù)更魯棒的詞向量;二是融合上下文信息的短語表示序列H,以防止其中各單元相互適應(yīng)。
該文使用5個英文文本分類數(shù)據(jù)集,對提出的改進(jìn)方法和基于不同短語注意機制的一系列神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了測試,數(shù)據(jù)集的相關(guān)信息見下列說明和表1:
? MR[15]:電影評論數(shù)據(jù)集,每條評論就是一個句子,任務(wù)是將每條評論分為正/負(fù)極性兩類。
? SST-1:斯坦福情感樹庫數(shù)據(jù)集[8],由Socher整理發(fā)布,并進(jìn)行了訓(xùn)練/驗證/測試集的劃分,類別標(biāo)簽分為強正、正極性、中性、負(fù)、強負(fù)極性五類。
? SST-2:基本與SST-1一樣,但去掉了中性評論,且將強正/正極性評論合并為正極性,將負(fù)/強負(fù)極性評論合并為負(fù)極性,所以這是一個二分類問題。近年來,部分文獻(xiàn)將額外的帶標(biāo)簽的短語數(shù)據(jù)放入訓(xùn)練集以提升分類效果。該文使用的額外短語數(shù)據(jù)來自Lei[16]。
? TREC[17]:問題分類數(shù)據(jù)集,其任務(wù)是將一個問題分為六類。
? 20NG:分為20個新聞組的郵件數(shù)據(jù)集,全稱為20 Newsgroups。因硬件所限,故選用詞頻最高的15 000個詞并對長度超過500的文檔進(jìn)行截斷,不足補零,其他處理與Wang[18]相同。
表1 各數(shù)據(jù)集信息統(tǒng)計(|Vpre|表示有預(yù)訓(xùn)練詞向量的詞匯個數(shù))
使用在大規(guī)模無標(biāo)簽語料庫上訓(xùn)練的詞向量來初始化詞嵌入層可以明顯提升網(wǎng)絡(luò)的泛化能力,尤其是在訓(xùn)練集規(guī)模過小的情況下。本文在含1 000億個詞的Google新聞?wù)Z料庫上利用開源的Word2Vec工具預(yù)訓(xùn)練的詞向量,其維度是300維。對于不存在預(yù)訓(xùn)練詞向量的詞,通過對[-0.25,0.25]上的均勻分布進(jìn)行隨機采樣來初始化。
卷積層的卷積核總數(shù)m取150,寬度w取3。BLSTM層的隱狀態(tài)維度n取150。至于正則化,詞嵌入和BLSTM輸出使用的Dropout比率均為0.5,懲罰系數(shù)λ取1×10-6。
若數(shù)據(jù)集沒有訓(xùn)練集/測試集劃分,則做10疊交叉驗證。若數(shù)據(jù)集沒有指定驗證集,則隨機選取訓(xùn)練集的10%。該文使用Mini-batch梯度下降算法并采用Adadelta[19]規(guī)則更新參數(shù),每次使用50個樣本,初始學(xué)習(xí)速率設(shè)為0.09。該文中所有實驗都是基于Tensorflow框架完成的,而上述超參數(shù)設(shè)置是通過在SST-2的驗證集上進(jìn)行微調(diào)得到。
本實驗中實現(xiàn)了詞級BLSTM模型,分別只添加卷積層的Conv-BLSTM模型和只添加第一種注意機制的BLSTM-A1模型,以及NN-PA1模型。NN-PA1的參數(shù)設(shè)置和訓(xùn)練細(xì)節(jié)見3.2和3.3節(jié),BLSTM和BLSTM-A1的隱狀態(tài)維度為300維,Conv-BLSTM除沒有注意機制外一切與NN-PA1一樣,四個模型的訓(xùn)練方法都一樣。至于其他幾種注意機制,會在4.4節(jié)單獨比較分析。實驗中采用的對照方法描述如下:
? 基于機器學(xué)習(xí)的方法:該文選用Socher[8]執(zhí)行的SVM[8]和NB[8]方法作為參考,它們都使用Unigram詞袋特征表示。NBSVM[6]使用帶情感極性的二值化Unigram詞袋特征,而使用的分類器相當(dāng)于NB和SVM之間的插值,分類性能勝過SVM和NB。NBSVM-bi[6]在構(gòu)建詞袋特征時,除了Unigram,還用了Bigram。
? 基于深度學(xué)習(xí)的方法:CNN-non-static[9]使用簡單的CNN架構(gòu)和Word2Vec詞向量且詞嵌入層參與學(xué)習(xí)。CNN-multichannel[9]使用了隨機初始化和Word2Vec詞向量的雙通道詞嵌入層。Tai等人提出的Tree-LSTM[20]在LSTM融入了句法樹結(jié)構(gòu)來提升文檔的語義表示。Liu等人提出的Multi-Task[21]結(jié)合了RNN和多任務(wù)學(xué)習(xí)來增強文本分類。Zhang等人提出的DSCNN[22]則融合CNN和依存句法樹對句子和文檔建模。Lei等人提出的Molding-CNN[15]對卷積層做非線性化改動。
四個模型和對照方法在五個數(shù)據(jù)集上的分類結(jié)果見表2。NN-PA1模型明顯勝過基于傳統(tǒng)機器學(xué)習(xí)的方法和主流深度網(wǎng)絡(luò)模型。此外,經(jīng)過比較發(fā)現(xiàn):BLSTM-A1在數(shù)據(jù)集MR、TREC和20NG上的正確率均比BLSTM低,而在數(shù)據(jù)集SST-1和SST-2上卻相反; Conv-BLSTM在所有數(shù)據(jù)集上稍微優(yōu)于BLSTM;此外,結(jié)合兩個改進(jìn)的NN-PA1,則在所有數(shù)據(jù)集上都明顯勝過其他方法。事實上,雖然MR、TREC、SST-1和SST-2都只有1萬多個樣本,且20NG也就接近兩萬個樣本,但SST-1加入了約16萬的額外短語樣本,SST-2則加入8萬個。因此,這些結(jié)果與我們的分析一致:即基于詞注意機制的BLSTM-A1在學(xué)習(xí)詞的權(quán)重方面存在困難,只有在大規(guī)模數(shù)據(jù)集上才能發(fā)揮效果。而基于短語注意機制的NN-PA1能彌補上述不足,在不同規(guī)模數(shù)據(jù)集上都勝過BLSTM-A1、BLSTM和主流深度網(wǎng)絡(luò)模型。
表2 各種文本分類方法在四個數(shù)據(jù)集上的正確率(%)
在不使用額外短語數(shù)據(jù)的SST-1和SST-2(分別稱為SST-1-non和SST-2-non)數(shù)據(jù)集上,對模型BLSTM、Conv-BLSTM、BLSTM-A1和NN-PA1的分類性能進(jìn)行了測試,結(jié)果見表3。
表3 4個模型的分類正確率(%)
通過對比分析網(wǎng)絡(luò)架構(gòu)和實驗結(jié)果,我們認(rèn)為:學(xué)習(xí)短語的權(quán)重來合成的文本語義表示要比學(xué)習(xí)詞的權(quán)重來合成的語義表示更準(zhǔn)確,不需要大規(guī)模的數(shù)據(jù)集就能見效。
模型BLSTM、BLSTM-A1和NN-PA1隨著訓(xùn)練epoch數(shù)增加在SST-1-non的測試集上的表現(xiàn)如圖2所示。由圖2可知:模型BLSTM-A1在35 epoch左右就已經(jīng)收斂,而BLSTM至少在100 epoch后才開始收斂。這表明注意機制能加速收斂。
圖2 三個模型在SST-1-non測試集上隨epoch數(shù)變化曲線
此外,基于短語注意機制的NN-PA1雖然收斂速度慢于BLSTM-A1,但還是明顯快于BLSTM,且其分類效果要勝過上述兩個模型。這進(jìn)一步驗證了我們的分析:即基于短語注意機制的模型能合成更準(zhǔn)確的文本語義表示,泛化能力更好。
本文在不同規(guī)模的數(shù)據(jù)集上對式(15)~(19)給出的模型NN-PA1、NN-PA2、NN-PA3、NN-PA4和NN-PA5在文本分類中的作用進(jìn)行了測試,結(jié)果見表4。式(16)和式(19)對應(yīng)的注意機制均先使用一層全連接網(wǎng)絡(luò)將短語表示變換到隱空間,再計算score。在實驗中,上述隱空間維度均簡單地設(shè)置為和短語表示維度相同,而沒對此進(jìn)行調(diào)節(jié)。
表4 五種注意機制對應(yīng)模型的分類正確率(%)
圖3 五種注意機制對應(yīng)的NN-PA系列模型在SST-1測試集上隨epuch數(shù)變化曲線
使用卷積核寬度w分別為1,…,7時所對應(yīng)的模型NN-PA2在SST-1數(shù)據(jù)集上進(jìn)行分類,實驗結(jié)果見表5。結(jié)果表明短語長度為2或3時,能達(dá)到最好的分類結(jié)果,這與文本中絕大部分的關(guān)鍵短語的長度都為2或3的常識吻合。而使用寬度不小于4的卷積核提取短語表示時,分類結(jié)果要差很多。這是因為寬度過大的卷積核不僅增加參數(shù)量,而且可能會在短語表示中融入噪聲詞的信息。
表5 不同長度短語對應(yīng)的NN-PA2模型在SST-1上的分類正確率
基于詞注意機制的BLSTM在解決文本分類問題時沒有考慮短語結(jié)構(gòu)。由于詞必須結(jié)合上下文構(gòu)成短語才能表示明確語義,因此通過注意機制學(xué)習(xí)短語權(quán)重來合成的文本語義表示要比從詞學(xué)習(xí)得到的更準(zhǔn)確。所以該文提出了基于短語注意機制的神經(jīng)網(wǎng)絡(luò)框架NN-PA,主要有兩處改進(jìn):一是在詞嵌入層后加入卷積層提取短語表示,二是嘗試并分析了五種注意機制。實驗結(jié)果表明:注意機制能使網(wǎng)絡(luò)收斂更快,但會受數(shù)據(jù)集規(guī)模影響,而融入卷積操作的短語注意機制能克服上述缺陷,不僅在大、小規(guī)模數(shù)據(jù)集上性能都有明顯提升,且優(yōu)于主流的基于深度學(xué)習(xí)的方法。最后,五種注意機制的比較分析表明第二種注意機制在大規(guī)模數(shù)據(jù)集上明顯優(yōu)于后三種。接下來的研究工作除了完成詳細(xì)的數(shù)據(jù)集規(guī)模影響分析實驗,還包括改進(jìn)后三種注意機制,研究如何更好地使用文檔的全局信息指導(dǎo)局部短語加權(quán)。
[1]Tang D,Qin B,Liu T.Deep learning for sentiment analysis:Successful approaches and future challenges [J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2015,5(6):292-303.
[2]Tomas Mikolov,Ilya Sutskever,Kai Chen,et al.Distributed representations of words and phrases and their compositionality [C]//Proceedings of NIPS,2013:3111-3119.
[3]Yoshua Bengio,Aaron Courville,Pascal Vincent.A neural probabilistic language model [C]//Proceedings of NIPS,2001:932-938.
[4]Peng Zhou,Wei Shi,Jun Tian,et al.Attention-based bidirectional long short-term memory networks for relation classification [C]// Proceedings of the Meeting of the Association for Computational Linguistics.Cambridge,MA:MIT Press,2016:207-212.
[5]Zichao Y,Diyi Y,Chris D,et al.Hierarchical attention networks for document classification [C]// Proceedings of NAACL-HLT.Cambridge,MA:MIT Press,2016:1480-1489.
[6]Wang S,Manning C D.Baselines and bigrams:Simple,good sentiment and topic classification[C]// Proceedings of the Meeting of the Association for Computational Linguistics.Cambridge,MA:MIT Press,2012:90-94.
[7]Collobert R,Weston J,Bottou L,et al.Natural language processing(almost)from scratch [J].Journal of Computer Research,2011(12):2493-2537。
[8]Socher R,Perelygin A,Wu J Y,et al.Recursive deep models for semantic compositionality over a sentiment tree bank [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing.Cambridge,MA:MIT Press,2013:1631-1642.
[9]Yoon Kim.Convolutional neural networks for sentence classification[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Cambridge,MA:MIT Press,2014:1746-1751.
[10]Sepp Hochreiter,Jurgen Schmidhuber.Long short-term memory [J].Neural Computing,1997,9(8):1735-1780
[11]Mike Schuster,Kuldip K Paliwal.Bidirectional recurrent neural networks [J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.
[12]Wojciech Zaremba,Ilya Sutskever,Oriol Vinyals.Recurrent neural network regularization [arXiv].arXiv preprint arXiv,2014:1409.2329
[13]Minh-Thang Luong,Hieu Pham,Christopher D.Manning.Effective approaches to Attention-based neural machine translation [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing.Cambridge,MA:MIT Press,2015:1412-1421.
[14]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:A simple way to prevent neural networks from Overfitting [J].Journal of Machine Learning Research,2014,15(1):1929-1958.
[15]BoPang,Lillian Lee.See stars:Exploiting class relationships for sentiment categorization with respect to rating scales [C]// Proceedings of the Meeting of the Association for Computational Linguistics.Cambridge,MA:MIT Press,2005:115-124.
[16]Tao Lei,Regina Barzilay,Tommi Jaakkola.Molding CNNs for text:Non-linear,non-consecutive convolutions [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing.Cambridge,MA:MIT Press,2015:1565-1575.
[17]Xin Li,Dan Roth.Learning question classifiers [C]// Proceedings of the Meeting of the Association for Computational Linguistics.Cambridge,MA:MIT Press,2002:1-7.
[18]Yiren Wang,Fei Tian.Recurrent residual learning for sequence classification [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing.Cambridge,MA:MIT Press,2016:938-943.
[19]Matthew DZeiler.Adadelta:An adaptive learning rate method [C].arXiv preprint arXiv:1212.5701,2012.
[20]Kai Sheng Tai,RichardSocher,Christopher D Manning.Improved semantic representations from tree-structured long short-term memory networks [C]// Proceedings of the Meeting of the Association for Computational Linguistics.Cambridge,MA:MIT Press,2015:1556-1566.
[21]Pengfei Liu,Xipeng Qiu,Xuanjing Huang.Recurrent neural network for text classification for text classification with multi-task learning [C]// Proceedings of International Joint Conference on Artificial Intelligence.New York,USA:AAAI Press,2016:2873-2879.
[22]Rui Zhang,Honglak Lee,Dragomir Radev.Dependency sensitive convolutional neural networks for modeling sentences and documents [C]// Proceedings of NAACL-HLT.Cambridge,MA:MIT Press,2016:1512-1521.
江偉(1992—),碩士研究生,主要研究領(lǐng)域為機器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理。E-mail:jiangwei_nlp@163.com
金忠(1961—),教授,博士生導(dǎo)師,主要研究領(lǐng)域為機器學(xué)習(xí)、多媒體信息處理、數(shù)據(jù)挖掘和社會媒體計算。E-mail:zhongjin@njust.edu.cn