艾力·海如拉 吾守爾·斯拉木
摘 要:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)情感分類模型中引入Word embedding語義特征來解決維吾爾語文本情感分類問題。首先,從大量生語料中利用Skip-Gram模型訓(xùn)練出能夠表現(xiàn)出句型和詞義特征,然后將文本中的每個(gè)詞跟特征向量組合取出作為卷積神經(jīng)網(wǎng)絡(luò)的輸入;此外,對不同維度的Word embedding 進(jìn)行迭代訓(xùn)練獲取情感特性參數(shù)。其次,跟卷積神經(jīng)網(wǎng)絡(luò)模型和引入Word embedding特征向量神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較。所提出的基于word embedding和CNN的維吾爾文情感分類模型成功將分類正確率提升了5.3%。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò); 詞嵌入;深度學(xué)習(xí); 情感分類;
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)10-0180-02
Abstract:The semantic feature of Word embedding is introduced into the classification model of the convolution neural network (CNN) to solve the problem of the Uyghur text sentiment classification. First of all, using the Skip-Gram model trained to show the patterns and semantic features from a large number of students in the corpus, and then the text in each word with the feature vector combination is selected as convolutional neural network input; in addition, on different dimensions of Word embedding iterative training obtain parameters of emotion. Secondly, it is compared with the convolution neural network model and the Word embedding eigenvector neural network model. The Uyghur sentiment classification model based on CNN and word embedding will enhance the success rate of correct classification 5.3%.
Key words:convolutional neural network; word embedding; deep learning; sentiment classification;
1 引言
隨著互聯(lián)網(wǎng)日益普及,越來越多的人在社交網(wǎng)絡(luò)和電子商務(wù)者評論網(wǎng)站上發(fā)表他們自制內(nèi)容或主觀評價(jià)網(wǎng)上內(nèi)容和商品。自制內(nèi)容能否吸引更多讀者,在線購物產(chǎn)品是否被歡迎都取之于參與者和使用時(shí)主觀評價(jià)來確定。問題在于,這種自以為是的評論的維吾爾語文本語料數(shù)量可能會(huì)達(dá)到成千上萬,而目前維吾爾文自然語言處理以及應(yīng)用方面還沒具備總結(jié)所有評論中表達(dá)的情感所需的能力。這里需要一個(gè)情感分析系統(tǒng),它可以讀取大量這樣的評論并進(jìn)行有意義的總結(jié)。目前研究學(xué)者已經(jīng)對維吾爾語情感分類做出了一些分析與研究,使用的方法主要包括詞典規(guī)則法和傳統(tǒng)機(jī)器學(xué)習(xí)算法。
2 相關(guān)工作
2.1 Word embedding
Word embedding是自然語言處理中一組語言模型和特征學(xué)習(xí)技術(shù)的總稱。一個(gè)典型的詞向量表示法是One-hot Representation,One-hot Representation是傳統(tǒng)的普遍使用的文本表示方法,這種方法首先創(chuàng)建一個(gè)詞表,文本中出現(xiàn)的每一個(gè)詞對應(yīng)一個(gè)索引號,然后根據(jù)詞是否在文本中出現(xiàn),將索引號對應(yīng)的值設(shè)為1或者0,這樣一條句子對應(yīng)一個(gè)向量,向量的長度是文本中出現(xiàn)的所有詞的數(shù)目,這會(huì)導(dǎo)致向量的維度異常的大,可能引起維數(shù)災(zāi)難,這樣很難推出詞與詞之間的語義關(guān)系。因此,Hinton推出一個(gè)word embedding的低位空間詞向量表示法。將詞分布式的映射低位空間中,解決向量稀疏問題同時(shí)很好地反映詞和次之間的語義層次聯(lián)系。Mikolov 等人利用Skip-gram 模型快速高效的訓(xùn)練出word embedding。Skip-gram模型根據(jù)當(dāng)前詞來預(yù)測上下文。
2.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN),是一種前饋神經(jīng)網(wǎng)絡(luò)。研究者們使用CNN在圖像處理、語音識別等領(lǐng)域取得了令人矚目的成就,比如,谷歌的GoogleNet、微軟的ResNet等。近年來,有越來越多的NLP應(yīng)用也開始嘗試用CNN來解決。CNN主要包括卷積層和池化層,卷積層由許多神經(jīng)元組成,用來特征提取,神經(jīng)元之間互相共享權(quán)值,這使得參數(shù)數(shù)量大大減少,模型更加容易訓(xùn)練。池化層主要時(shí)對特征進(jìn)行篩選,用來降低特征維度。圖1為一個(gè)卷積模型的示意圖,實(shí)際應(yīng)用中,根據(jù)需要可以增減層數(shù)。
3 模型
基于word embedding 和CNN的情感分類模型中卷積層描述輸入情感文本特征,pooling層提取出文本中具有情感特性的詞特征。通常文本中的部分詞或短語的情感特征會(huì)影響整個(gè)文本情感類別,因此通過此相似度加上CNN卷積特征提出任務(wù)會(huì)解決傳統(tǒng)情感分類方法特征提取能力有限困難。
3.1 模型的輸入處理
卷積神經(jīng)網(wǎng)絡(luò)在圖像處理,語音識別等領(lǐng)域成就優(yōu)先,處理時(shí)二維數(shù)據(jù)組成圖像數(shù)據(jù),因此,文本數(shù)據(jù)處理的第一部是將文本數(shù)據(jù)組合成二維數(shù)據(jù)矩陣的形式輸入模型進(jìn)行處理。數(shù)據(jù)集中最長數(shù)據(jù)長度為s,第i個(gè)詞對應(yīng)word embedding 是ai∈Rd 。卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣是由s個(gè)d維向量的兩位數(shù)據(jù)矩陣S。
3.2 一維卷積層
一維卷積層是指固定長度過濾器沿著輸入滑動(dòng)提取內(nèi)容,輸入矩陣S∈ R d×|m| 并且寬度為m的過濾器F的卷積運(yùn)算通過以下方式獲取輸出特征yconv ∈ R|s|+m?1 :
[yconv, i=k,jS[:,i:i+m-1]⊙Fk,j+bconv]
其中⊙是元素乘法,bconv 是偏置項(xiàng),通常有n>1的過濾器疊加向量得出結(jié)果Yconv∈ R n×(|s|+m?1) 。 每一個(gè)過濾器都有不同的偏置項(xiàng)。過濾中滑動(dòng)過濾時(shí)為了保證文本s的每一個(gè)詞都能被提取出來,通常在輸入矩陣頂部和底部補(bǔ)充m-1個(gè)零嵌入進(jìn)去,這樣輸入文本中的每一個(gè)詞都被m個(gè)過濾器提取。
3.3 max-pooling層
通常,輸入文本中具有代表性少數(shù)幾個(gè)詞能夠反映出情感類別。輸入文本中可能出現(xiàn)特征映射區(qū)極少數(shù)的詞,出于這個(gè)原因,只需要知道輸入文本是否存在所需要的特征,這通過獲取最大值d ∈ Rn 來識別出。
[ypool,i=maxjYconv,i,j]
3.4 Softmax層
為了將的特征轉(zhuǎn)換成分類概率,首先定義稠密層:
[ydense=Wdense·Ypool+bdense]
用Softmax函數(shù)得出結(jié)果為非負(fù),總和為1的輸出值:
[softmax(x)i=exiiexi]
3.5 規(guī)范模型
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法采用梯度下降算法,梯度下降算法能夠找到最優(yōu)解。全連接層的訓(xùn)練過程中引入dropout策略,每次迭代過程中放棄一部分訓(xùn)練好的參數(shù)。直覺上,雖然放棄已訓(xùn)練好的參數(shù)仍然可以獲取合理的分類。為此,使訓(xùn)練和測試具有相同的順序,用Bernoulli 分布B(p)將每個(gè)維隨機(jī)設(shè)置0,這樣測試輸出可以按比例縮放。
4 實(shí)驗(yàn)過程,結(jié)果及分析
訓(xùn)練 word embedding,共準(zhǔn)備了334.3MB不同領(lǐng)域的無標(biāo)注信息的維吾爾文生語料,利用 mikolov 等人提出的 Skip-gram模型訓(xùn)練 word embedding,word2vec工具實(shí)現(xiàn),訓(xùn)練總單詞數(shù)為21378723,503121個(gè)不重復(fù)單詞的語料中選擇頻率大于等于5的123203單詞分別訓(xùn)練維度為50,100,150,200和300的詞向量。將word embedding 結(jié)合CNN模型,針對性的優(yōu)化CNN在情感分類任務(wù)上的性能,試驗(yàn)結(jié)果如表所示:
相比于沒加詞向量模型,本文所提出的cnn+word embedding模型情感分類實(shí)驗(yàn)性能提升5.3%。一方面,word embedding 能夠在更抽象的層面上描述輸入數(shù)據(jù)的語義特征分布情況,人工特征提取方式很難完成此項(xiàng)任務(wù)。另一方面,模型訓(xùn)練是迭代訓(xùn)練過程,迭代中找出最佳特征,引導(dǎo)模型更好的方向并收斂到最優(yōu)解。詞向量維度方面,詞向量的維度300時(shí)模型分類性能最佳。為了精確地反應(yīng)低維空間下每個(gè)詞的語義分布情況應(yīng)該盡可能的高,這需要更大規(guī)模分布均勻語料訓(xùn)練詞向量。但更高維度的詞向量增加卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù),從而增加擬合而下降模型健壯性。因此,分領(lǐng)域生成詞向量更明確的提高詞義相似度,從而提高分類任務(wù)正確性。
5 結(jié)論
本文描述利用深度學(xué)習(xí)解決維吾爾語情感分類問題,設(shè)計(jì)詞向量集合CNN模型和沒結(jié)合的兩種實(shí)驗(yàn),結(jié)果表明,CNN 模型加上詞向量模型實(shí)現(xiàn)了情感分類的性能提升,并未維吾爾語情感分類系統(tǒng)奠定了良好的基礎(chǔ)。
參考文獻(xiàn):
[1] 朱儉. 文本情感分析關(guān)鍵技術(shù)研究[M]. 中國社會(huì)科學(xué)出版社,2015.
[2] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Proceedings of Ijcnlp, 2005.
[3] Irsoy O, Cardie C. Opinion Mining with Deep Recurrent Neural Networks [C]. Conference on Empirical Methods in Natural Language Processing. 2014:720-728.
[4] Chunqi Wang, Bo Xu . Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation要 [D]. Coling, 2016.
[5] 江蛟,江常. 基語語分析評價(jià)對象-情感詞抽取[R]. 計(jì)算機(jī)學(xué)報(bào),2017,40(3):617-633.
[6] Tai K S, Socher R, Manning C D. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks[J]. Computer Science, 2015, 5(1): 30-36.
[7] 亞森·伊斯馬伊力,吐爾根·依布拉音,卡哈爾江·阿比的熱西提.基于用戶關(guān)系的維吾爾文微博.