龔維印,韋旭勤
摘要:針對單一CNN網(wǎng)絡(luò)在新聞文本分類中容易忽略上下文的語義信息,分類準(zhǔn)確率低的問題,同時結(jié)合CNN和BiLSTM的優(yōu)點(diǎn),提出一種基于BiLSTM-CNN模型的新聞文本方法。該模型先使用Word2Vec中的Skip-gram模型對數(shù)據(jù)中的詞進(jìn)行映射處理,轉(zhuǎn)換為固定維度的向量;再利用BiLSTM捕捉雙向的語義信息;最后將BiLSTM模型提取的特征與詞嵌入的特征進(jìn)行拼接作為CNN的輸入,使用大小為2,3,4的卷積核進(jìn)行卷積。在THUCNews和SougouCS兩個公開的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,融合的BiLSTM-CNN模型在新聞文本分類效果上優(yōu)于BiLSTM、CNN模型。
關(guān)鍵詞:文本分類;CNN;BiLSTM;Word2Vec
中圖分類號:TP391.1? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)21-0105-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
News Text Classification Method Based on BiLSTM-CNN Model
GONG Wei-yin,WEI Xu-qin
(School of Mathematics and Computer Science, Liupanshui Normal University, Liupanshui 553004, China)
Abstract: To solve the problem that a single CNN network is easy to ignore the semantic information of context in news text classification and the classification accuracy is low. At the same time, combined with the advantages of CNN and BiLSTM, a news text method based on BiLSTM-CNN model is proposed. The model uses the Skip-gram model in the Word2Vec to map the words in the data and convert them into fixed dimension vectors, and then uses the BiLSTM to capture bidirectional semantic information. Finally, the features extracted from the BiLSTM model are spliced with the embedded features as the CNN input, and the convolution kernel is used. the experiment is carried out on two open data sets of THUCNews and SougouCS. the experimental results show that the fused BiLSTM-CNN model is superior to the BiLSTM、CNN model in the classification effect of news text.
Key words: Text Classification; Convolutional Neural Network; Bi-directional Long Short-Term Memory; Word2Vec
1 引言
在互聯(lián)網(wǎng)及電子產(chǎn)品發(fā)展的同時,電子新聞也成為人們獲取信息的重要來源。面對日益呈爆炸式增長的電子新聞文本數(shù)據(jù),造成信息過量而知識匱乏的現(xiàn)象。因此,如何將海量雜亂無章的數(shù)據(jù)進(jìn)行高效管理,從中快速挑選出具有價值的文本信息?這就凸顯了文本分類技術(shù)的重要性。
文本分類即是指通過特定的學(xué)習(xí)機(jī)制,學(xué)習(xí)大規(guī)模分類樣本數(shù)據(jù)的潛在規(guī)則,再根據(jù)該規(guī)則將新的樣本分配到一個或多個類別里面。其主要流程有數(shù)據(jù)預(yù)處理,文本表示,特征提取和分類器的構(gòu)建等。傳統(tǒng)的文本分類通常是將詞袋法(Bag-of-Word)與機(jī)器學(xué)習(xí)算法相結(jié)合,其詞袋法則是把每篇文檔看作由多個詞組成,詞與詞之間相互獨(dú)立,忽略其語法、語序和語義信息[1],但是基于詞袋法的文本分類存在特征維數(shù)高,數(shù)據(jù)稀疏等問題,無法準(zhǔn)確表示上下文語義信息。文本分類中常用于分類器構(gòu)造的機(jī)器學(xué)習(xí)算法有:支持向量機(jī)(SVM)[2]、K-最近鄰(KNN)[3]和樸素貝葉斯(NB)[4]等分類算法。
現(xiàn)今社會高速發(fā)展,大數(shù)據(jù)時代已穩(wěn)步前進(jìn),其深度學(xué)習(xí)在圖像處理、語音識別等復(fù)雜對象中取得的優(yōu)異成績。而眾多研究者早已將深度學(xué)習(xí)應(yīng)用到自然語言處理中。面對海量的文本數(shù)據(jù),2013年谷歌提出Word2Vec詞向量工具,能夠?qū)⒏呔S的詞向量映射到固定維度的空間。Kim等人[5]于2014年通過Word2Vec訓(xùn)練詞向量,使用詞嵌入的方法將文本中的詞轉(zhuǎn)換為固定維度的詞向量矩陣,然后將其作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,最后使用不同尺寸的卷積核進(jìn)行局部特征提取,有效證明詞向量的有效性。同年,Kalchbrenner等人[6]根據(jù)MaxPooling的原理設(shè)計了K-MaxPooling池化,即設(shè)置一定大小的滑動窗口,在每次滑動過程中提取特征值排名靠前的K個特征值,此方法逐漸應(yīng)用到各個領(lǐng)域。Zhou等人[7]于2015年考慮上下文的語義信息,彌補(bǔ)了CNN上下文信息缺失的問題,結(jié)合CNN和LSTM的優(yōu)點(diǎn),將其應(yīng)用到文本情感分析中,這一研究取得了較好的效果。