楊朝強(qiáng),邵黨國(guó),楊志豪,相 艷,馬 磊
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650504)
隨著互聯(lián)網(wǎng)的高速發(fā)展,快速準(zhǔn)確地進(jìn)行文本分類成為研究的熱點(diǎn)之一.目前的文本分類算法大多數(shù)主要針對(duì)長(zhǎng)文本,即所處理的文本信息片段較長(zhǎng),包含一定量的信息內(nèi)容.然而在實(shí)際情況中,如何快速準(zhǔn)確地實(shí)現(xiàn)短文本處理成為文本分類的首要問(wèn)題之一.短文本指長(zhǎng)度不超過(guò)160個(gè)字符的文本體,以網(wǎng)絡(luò)文本居多,包括:短新聞、評(píng)論、博客、聊天記錄等,在信息查詢[1],內(nèi)容推薦[2]和關(guān)系抽取[3]等領(lǐng)域具有一定的研究?jī)r(jià)值.
現(xiàn)階段而言,短文本分類的研究難點(diǎn)之一在于文本特征提取.文本特征提取方法一般分為三種,傳統(tǒng)的文本數(shù)據(jù)化表示,機(jī)器學(xué)習(xí)和模型融合方法,具體介紹如下:
傳統(tǒng)的特征提取為基于空間向量模型(Vecto-r Space Model,VSM)[4],該模型將文本看作不同詞的組合形式,未考慮詞與詞之間的相關(guān)性,且該方法存在數(shù)據(jù)高維稀疏性問(wèn)題.針對(duì)VSM中存在的缺陷,一些研究者通過(guò)引入外部先驗(yàn)知識(shí),來(lái)對(duì)短文本進(jìn)行語(yǔ)義擴(kuò)展[5,6],但該方法對(duì)引入知識(shí)的質(zhì)量要求較高,同時(shí)極大地增加了模型的復(fù)雜度.也有學(xué)者通過(guò)分析文本自身的語(yǔ)義結(jié)構(gòu)[7],來(lái)構(gòu)建文本表示方法,如 LSA,pLSI 和 LDA[8-10],但由于模型構(gòu)建中只考慮到了文本層面信息,缺乏對(duì)低層面信息的分析.
自Google2013年推出具有語(yǔ)義表示功能的Word2vec[11]詞向量模型后,神經(jīng)網(wǎng)絡(luò)在分類任務(wù)中取得了飛速的發(fā)展Yoon Kim等人[12]提出的基于CNN(Convolutional Neural Network)的文本分類模型,實(shí)驗(yàn)結(jié)果顯示該模型的分類效果優(yōu)于傳統(tǒng)模型.在CNN的基礎(chǔ)上,Nal Kalchbrenner等人[13]提出了DCNN(Dynamic Convolutional Neural Network)文本分類模型,該模型用動(dòng)態(tài)的K-max Pooling層代替了傳統(tǒng)CNN中的Max Pooling層,有效提取了文本的部分結(jié)構(gòu)信息.但是上述模型都存在長(zhǎng)短距離依賴問(wèn)題,為解決該問(wèn)題提出了基于RNN(Recurrent Neural Network)[14]改進(jìn)的LSTM(Long Short-Term Memory)[15]文本分類模型.Bansal等人提出了GRU(Gated recurrent unit)[16]模型,GRU模型將LSTM模型中的遺忘門和輸入門用更新門來(lái)替代,有效減少了模型訓(xùn)練參數(shù),提高了模型訓(xùn)練速度.為解決LSTM模型在進(jìn)行文本分類時(shí),狀態(tài)只能由前向后單向傳輸?shù)膯?wèn)題,Grave等人提出了Bi-LSTM(Bi-directional Long Short-Term Memory)[17]模型,該模型不僅考慮前面狀態(tài)對(duì)當(dāng)前狀態(tài)的影響,同時(shí)考慮后面狀態(tài)對(duì)當(dāng)前狀態(tài)的影響,能夠更加全面有效的提取文本信息.
針對(duì)單一模型在文本特征提取中的局限性,Chunting Zhou等人[18]提出的C-LSTM(Contextual LSTM)特征融合模型,充分結(jié)合了CNN和LSTM模型的優(yōu)勢(shì),將CNN訓(xùn)練得到的結(jié)果作為L(zhǎng)STM的輸入,有效避免了單一模型文本分類的局限性.Siwei Lai等人[19]提出的RCNN(Recurrent and Convolutional Neural Networks)模型使用RNN作為CNN的卷積層,有助于CNN模型提取全局信息,但上述的特征融合模型可能存在特征冗余的問(wèn)題.
上述的三種特征提取方法在解決短文本分類的問(wèn)題上存在一定的局限性.首先,短文本中含有特征詞較少,單一模型難以做到對(duì)文本信息的充分提取.另外,短文本的不規(guī)范性導(dǎo)致現(xiàn)有的分詞工具難以保證分詞結(jié)果的準(zhǔn)確性,從而導(dǎo)致詞向量的文本表示方法不夠準(zhǔn)確.針對(duì)上述問(wèn)題,本文提出了Multi-feature fusion model(MFFM)中文短文本分類模型,該模型包含以下三個(gè)方面:
1)分別使用詞向量和字向量從兩個(gè)不同粒度對(duì)短文本進(jìn)行表示,并通過(guò)Self-attention[20]模型對(duì)字向量進(jìn)行有效融合,解決中文短文本中存在的特征稀疏和不規(guī)范特性等問(wèn)題.
2)使用BILSTM、CNN和CAPSNET三個(gè)不同的模型對(duì)文本進(jìn)行不同層面的特征提取,解決文本分類模型在特征提取中的局限性.
3)引入Self-attention模型動(dòng)態(tài)調(diào)節(jié)各模型特征在最終特征構(gòu)建中的權(quán)重系數(shù)解決模型融合方法中可能存在的特征冗余問(wèn)題.
BILSTM是由前向后和由后向前分別訓(xùn)練一個(gè)LSTM,然后將兩個(gè)LSTM的結(jié)果拼接作為模型的輸出.該模型能夠同時(shí)保留“過(guò)去”和“未來(lái)”的文本信息,有效避免了LSTM模型在提取文本特征的過(guò)程中,只保留“過(guò)去”信息的弊端.BILSTM在進(jìn)行文本處理時(shí),原理如下:假設(shè)在t時(shí)刻輸入向量為xt,前一時(shí)刻的輸出為ht-1,前一時(shí)刻的隱藏狀態(tài)為ct-1,則當(dāng)前時(shí)刻的狀態(tài)ct和輸出ht如公式(1)、公式(2)所示.
ct=ft×ct-1+it×g(wcX+bc)
(1)
ht=ot×s(ct)
(2)
其中,當(dāng)前時(shí)刻的輸入X由輸入向量xt與前一時(shí)刻的輸出ht-1組成如公式(3)所示,w為權(quán)重,b為偏置,g、s分別表示輸出和輸出的激活函數(shù),it、ft、ot分別表示輸入門i、遺忘門f、輸出門o在t時(shí)刻的激活值,如公式(4)、公式(5)、公式(6)所示.σ表示三個(gè)門的激活函數(shù).
(3)
it=σ(wiX+bi)
(4)
ft=σ(wfX+bf)
(5)
ot=σ(woX+bo)
(6)
Yoon Kim 將CNN應(yīng)用到文本分類領(lǐng)域,CNN主要包括卷積和池化兩大部分.卷積的設(shè)計(jì)參考了局部感受野的思想,即當(dāng)前層的節(jié)點(diǎn)只與前一層網(wǎng)絡(luò)的有限個(gè)節(jié)點(diǎn)相連接,而不是與所有的輸入節(jié)點(diǎn)進(jìn)行連接.此外,卷積操作中將同一層中某些神經(jīng)元之間的連接權(quán)重設(shè)置為共享參數(shù),有效減少需要訓(xùn)練的權(quán)值參數(shù).卷積層通過(guò)使用多個(gè)n×h卷積核對(duì)輸入信息進(jìn)行卷積操作,通過(guò)多個(gè)卷積核能夠提取到文本不同層次的特征信息.最終,將提取到的多層次信息進(jìn)行拼接融合,作為卷積層的最終輸出,計(jì)算結(jié)果如公式(7)所示.
mi=f(w×Xi:i+h-1+b)
(7)
其中,mi表示第i個(gè)卷積核提取的文本特征,f表示激活函數(shù),w表示卷積核的權(quán)重參數(shù),在大小為h的窗口內(nèi),與輸入特征X進(jìn)行卷積獲得新的文本表述,Xi表示X的第i個(gè)特征,b為偏置參數(shù).
將上述的所有特征連接起來(lái)就得到了卷積層的輸出特征M,如公式(8)所示.
M=[m1,m2,...,ml-h+1]
(8)
池化類似于對(duì)高維特征進(jìn)行降維,常用的池化方式主要有:Mean-pooling,Max-pooling和Stochastic-pooling.本文中使用Max-pooling提取M中最顯著的特征代替M中的所有特征,計(jì)算如公式(9)所示.
mj=max[m1,m2,...,ml-h+1]
(9)
將上述池化結(jié)果拼接起來(lái)構(gòu)成池化層的輸出,最終通過(guò)激活函數(shù)對(duì)提取到的特征進(jìn)行分類.
Hinton 等人[21]提出的膠囊網(wǎng)絡(luò)(Capsule Network,CAPSNET),用向量來(lái)代替?zhèn)鹘y(tǒng)網(wǎng)絡(luò)中的單個(gè)節(jié)點(diǎn),以 Dynamic Routing 思路來(lái)更新網(wǎng)絡(luò)參數(shù),其中用新的網(wǎng)絡(luò)向量輸出代替?zhèn)鹘y(tǒng)的標(biāo)量輸出,用動(dòng)態(tài)路由原則代替?zhèn)鹘y(tǒng)的池化操作,并在實(shí)驗(yàn)中證明迭代次數(shù)設(shè)置為3時(shí)性能較好.具體算法流程如表1所示.
在這里,bij是一個(gè)未經(jīng)歸一化的臨時(shí)累積變量,初始值為0,bij的個(gè)數(shù)是由上一層和下一層的CAPSNET的個(gè)數(shù)決定的.
自注意力機(jī)制(Self-attention)是注意力機(jī)制的一種,與其他的注意力機(jī)制相比,該機(jī)制不需要考慮下一層級(jí)的信息,能夠以并行的方式快速實(shí)現(xiàn)同一層級(jí)內(nèi)部信息之間相關(guān)性分析.具體計(jì)算公式如公式(10)~公式(12)所示.
(10)
(11)
(12)
表1 Dynamic Routing算法
Table 1 Dynamic Routing algorithm
Procedure1Routingalgorithm1.procedureROUTING(^uj|i,r,l)2. forallCapsuleIinlayerlandCapsulejinlayer(l+1):bij←03. forriterationsdo4. forallCapsuleiinlayerl:ci←softmax(bi)5. forallCapsulejinlayer(l+1):sj←∑icij^uj|i6. forallCapsulejinlayer(l+1):vj←squash(sj)7. forallCapsuleiinlayerlandCapsulejinlayer(l+1):bij←bij+uj|i^×vj Returnvj
在公式(10)~公式(12)中αi,j表示的是位置i處元素和位置j處元素之間的注意力權(quán)重系數(shù),通過(guò)softmax函數(shù)對(duì)權(quán)重系數(shù)進(jìn)行歸一化操作,使得∑jai,j=1,score(xi,xj)是用來(lái)計(jì)算序列中任意兩個(gè)元素之間的相關(guān)性,該過(guò)程通過(guò)MLP實(shí)現(xiàn).
對(duì)中文短文本分類,需要對(duì)短文本信息進(jìn)行預(yù)處理,處理過(guò)程如下:
1)中文分詞.本文使用結(jié)巴分詞工具對(duì)文本進(jìn)行分詞操作,在分詞的過(guò)程中,對(duì)文本中出現(xiàn)的標(biāo)點(diǎn)和停用詞進(jìn)行過(guò)濾.
2)建立詞向量字典.對(duì)數(shù)據(jù)集中出現(xiàn)的詞語(yǔ)進(jìn)行統(tǒng)計(jì)編碼,建立相應(yīng)的字典,然后將詞語(yǔ)轉(zhuǎn)換其對(duì)應(yīng)的編碼,初步實(shí)現(xiàn)文本數(shù)字化表示.
3)詞向量訓(xùn)練.本文Word2Vec模型進(jìn)行詞向量訓(xùn)練,該模型訓(xùn)練的詞向量具有一定的語(yǔ)義表示功能,同時(shí)有效的降低了向量的空間維度.
4)統(tǒng)一樣本長(zhǎng)度.由于數(shù)據(jù)集中每個(gè)樣本的長(zhǎng)度不一,在模型輸入時(shí)需要統(tǒng)一樣本長(zhǎng)度,具體做法為:對(duì)于長(zhǎng)度不足的用0補(bǔ)齊,對(duì)于超過(guò)規(guī)定長(zhǎng)度的截?cái)?
5)文本向量化.根據(jù)2)轉(zhuǎn)換后的編碼在3)中找出其對(duì)應(yīng)的詞向量,將4)中全部數(shù)字轉(zhuǎn)換為對(duì)應(yīng)的詞向量,作為模型的輸入.
MFFM融合建模結(jié)構(gòu)如圖1所示.從圖中可以看出MFFM模型包含三個(gè)階段:1)分別采用基于字向量和詞向量的文本表示方法,通過(guò)Self-attention模型對(duì)字詞向量進(jìn)行有效融合,對(duì)文本的原始信息進(jìn)行充分表示;2)分別用BILSTM、CNN和CAPSNET模型對(duì)文本進(jìn)行不同層面的特征提取,并將不同模型提取的特征送入Self-attention模型動(dòng)態(tài)調(diào)節(jié)各模型特征在最終特征構(gòu)建中的權(quán)重系數(shù).3)將提取的文本特征送入分類器進(jìn)行類別劃分.
圖1 MFFM融合建模過(guò)程圖
3.2.1 字詞向量融合的文本表示
在文本表示層面分別使用了基于字向量和詞向量的兩種不同表示方法.引入字向量的原因主要有以下兩點(diǎn):1)在中文中單個(gè)字是有其特定意義的,單個(gè)漢字也蘊(yùn)含著豐富的語(yǔ)義信息;2)基于字向量的文本表示具有以下優(yōu)點(diǎn):能夠在一定程度上解決短文本中特征詞過(guò)少的問(wèn)題;有效避免對(duì)文本中出現(xiàn)的不規(guī)則特征詞的錯(cuò)誤劃分;字向量的文本表示方式可以有效避免詞向量訓(xùn)練過(guò)程中詞庫(kù)數(shù)量過(guò)大的問(wèn)題.字和詞對(duì)文本而言是兩個(gè)不同的粒度,詞是一個(gè)較大粒度而字是一個(gè)更加精細(xì)的粒度,從不同粒度分析同一文本,能夠提取到不同層面的文本信息.最終,將字向量和詞向量對(duì)原始文本的表示送入 Self-attention模型進(jìn)行融合,字詞向量的融合能夠有效結(jié)合字向量和詞向量的各自優(yōu)勢(shì),在一定程度上解決了短文本中存在的特征稀疏性和不規(guī)則特征詞的錯(cuò)誤劃分問(wèn)題.
3.2.2 多模型融合的特征提取模型
多模型融合通過(guò)將多個(gè)短文本分類器進(jìn)行結(jié)合,獲得比單一的分類器顯著優(yōu)越的泛化性能.現(xiàn)有的BILSTM模型對(duì)于不同位置的信息提取特征的過(guò)程中,相對(duì)而言更偏重于文本后面信息,可能忽略文本重要信息.CNN模型在進(jìn)行卷積操作時(shí),受卷積核大小的限制,只考慮到了卷積核范圍內(nèi)的特征間的相互影響,提取到的特征缺失了部分全局信息.CAPSNET用動(dòng)態(tài)路由取代傳統(tǒng)的池化層能保證位置信息的保留性,且針對(duì)特定問(wèn)題調(diào)整相應(yīng)的參數(shù),使得模型參數(shù)的調(diào)整更加快速合理.因此本文使用BILSTM、CNN和CAPSNET模型對(duì)文本進(jìn)行不同層面的特征提取,以便獲取全面有效的文本特征,原因如下:
1)BILSTM在對(duì)文本進(jìn)行特征提取時(shí),充分考慮到了文本前后文信息之間的相互影響,通過(guò)分析文本中所有詞之間的相關(guān)性,并根據(jù)特征的重要性構(gòu)建最終的特征提取模型.
2)CNN模型在對(duì)文本進(jìn)行特征提取時(shí),在進(jìn)行卷積操作時(shí)卷積核的長(zhǎng)度是固定不變,始終與輸入文本的詞向量維度一致,寬度可以根據(jù)自身的需要進(jìn)行設(shè)置.
3)膠囊網(wǎng)絡(luò)(Capsule Network)在對(duì)文本進(jìn)行特征提取時(shí),用神經(jīng)元矢量替換傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的單個(gè)神經(jīng)元節(jié)點(diǎn),用動(dòng)態(tài)路由取代傳統(tǒng)的池化層.相比CNN網(wǎng)絡(luò),由于它不再使用最大池,所以位置信息得以保留.并且動(dòng)態(tài)路由可以在一定程度上形成推理機(jī)制,并針對(duì)特定問(wèn)題調(diào)整相應(yīng)的參數(shù),使得模型參數(shù)的調(diào)整更加快速合理.
在對(duì)三個(gè)模型提取到的特征進(jìn)行融合時(shí),本文引入了Self-attention模型.通過(guò)該模型對(duì)BILSTM、CNN和CAPSNET三個(gè)模型提取的特征動(dòng)態(tài)分配權(quán)重,將各模型特征與對(duì)應(yīng)的權(quán)重相乘構(gòu)建最終的文本特征.相比傳統(tǒng)的特征融合方法,Self-attention模型將各模型提取的特征作為一個(gè)整體進(jìn)行權(quán)重劃分,避免將各模型特征拼接后對(duì)每一維特征進(jìn)行權(quán)重分配時(shí),可能存在的特征冗余問(wèn)題.
本文使用中文冶金短文本數(shù)據(jù)集、淘寶評(píng)論數(shù)據(jù)集和譚松波酒店評(píng)論數(shù)據(jù)集來(lái)驗(yàn)證MFFM模型的性能.三個(gè)數(shù)據(jù)集均為二分類數(shù)據(jù)集,其中中文冶金短文本數(shù)據(jù)集包括:冶金新聞和非冶金新聞兩大部分;淘寶評(píng)論數(shù)據(jù)集包括:買家對(duì)購(gòu)買商品的正面評(píng)論和負(fù)面評(píng)論兩大部分;譚松波酒店評(píng)論數(shù)據(jù)集包括:住宿者對(duì)酒店服務(wù)的正面評(píng)論和負(fù)面評(píng)論兩大部分,對(duì)比數(shù)據(jù)集的基本屬性如表2所示.
表2 數(shù)據(jù)集特征
Table 2 Datasets feature
數(shù)據(jù)集正向樣本負(fù)向樣本樣本長(zhǎng)度(char)樣本長(zhǎng)度(word)字典大小詞典大小中文冶金短文本數(shù)據(jù)集17388156283618407944327淘寶評(píng)論數(shù)據(jù)集106791042810050465347858譚松波酒店評(píng)論數(shù)據(jù)集6000300015075347027005
本文分別使用Precision、Accuracy、Recall值及F1評(píng)價(jià)指標(biāo)對(duì)MFFM模型的性能進(jìn)行評(píng)價(jià).其中,令A(yù),B,C和D分別代表正陽(yáng)性、假陰性、假陽(yáng)性和正陰性的分類數(shù)量,則四個(gè)評(píng)價(jià)指標(biāo)具體的計(jì)算公式如公式(13)~公式(16)所示.
(13)
(14)
(15)
(16)
本文中實(shí)驗(yàn)操作環(huán)境為Intel核心i5-7500 CPU,8 GB RAM,所有的實(shí)驗(yàn)都是基于Keras架構(gòu)搭建,使用Python3.6的運(yùn)行環(huán)境.本文參數(shù)設(shè)置如表3所示.
表3 模型的參數(shù)設(shè)置
Table 3 Model parameter settings
參 數(shù) 數(shù)值字向量維度96詞向量維度96BILSTM狀態(tài)維度200卷積窗口大小(3,4,5)過(guò)濾器的個(gè)數(shù)100CAPSNET個(gè)數(shù)10CAPSNET的維數(shù)16Self-attention參數(shù)(8,16)Dropout值0.5優(yōu)化器Adam迭代次數(shù)30
實(shí)驗(yàn)中各模型參數(shù)的選擇依據(jù)來(lái)源于兩方面:
1)參考已有的經(jīng)典模型,CNN模型的參數(shù)設(shè)置參考了Yoon Kim等人[12]的工作,使用窗口大小分別為3、4、5卷積核各100個(gè);CAPSNET模型的參數(shù)主要了參考Hinton等人[21]的工作,膠囊的個(gè)數(shù)和膠囊的維數(shù)分別為10和16;Self-attention模型的參數(shù)主要參考了Ashish Vaswani等人[20]的工作.
2)在譚松波酒店評(píng)論數(shù)據(jù)集上,通過(guò)多組對(duì)比實(shí)驗(yàn)來(lái)確定BILSTM模型中隱藏層神經(jīng)元的節(jié)點(diǎn)個(gè)數(shù)和詞向量維度,具體結(jié)果如表4和表5所示.根據(jù)表4可以看出在隱藏層神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)為100時(shí),模型性能最佳,因此在BILSTM模型中將隱藏層神經(jīng)元設(shè)置為100.根據(jù)表5可以看出在詞向量維度分別為:64、96、128和160時(shí),本文提出的模型相比基準(zhǔn)模型中的最優(yōu)模型F1值分別提升:0.75%、1%、0.9%和1.6%.從而,在一定程度上證明了MFFM模型的有效性和穩(wěn)定性.同時(shí)詞向量維度為96時(shí),模型性能最佳,因此實(shí)驗(yàn)中將詞向量維度設(shè)置為96.
表4 BILSTM模型不同節(jié)點(diǎn)的實(shí)驗(yàn)結(jié)果
Table 4 Experimental results of different nodes of the BILSTM model
BILSTM隱藏層神經(jīng)節(jié)點(diǎn)數(shù)F1RecallPrecisionAccuracy500.91420.91380.91470.91431000.91710.91710.91710.91711500.91570.91640.91500.91602000.91510.91550.91470.91502500.91400.91430.91380.9136
為驗(yàn)證MFFM的性能,本文與短文本分類中的四個(gè)經(jīng)典模型CNN、BILSTM、CAPSNET和CNN-BILSTM作為基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示,模型的F1值如圖2所示.通過(guò)對(duì)表6和圖2的分析,可以看出MFFM在三個(gè)中文短文本數(shù)據(jù)集上的分類性能均優(yōu)于四個(gè)基準(zhǔn)模型.其中,在譚松波酒店評(píng)論數(shù)據(jù)集上MFFM相比基準(zhǔn)模型中的最優(yōu)模型BILSTM-CNN的F1值提升了1%;在淘寶評(píng)論數(shù)據(jù)集上,相比BILSTM-CNN模型F1值提升0.93%;在中文冶金短文本數(shù)據(jù)集上,相比BILSTM-CNN模型F1值提升0.94%.為了進(jìn)一步證明本文提出模型的有效性,本文在實(shí)驗(yàn)部分對(duì)中文短文本數(shù)據(jù)集、譚松波酒店評(píng)論數(shù)據(jù)集和淘寶評(píng)論數(shù)據(jù)集三個(gè)數(shù)據(jù)集的正負(fù)樣本進(jìn)行合并構(gòu)建新的數(shù)據(jù)集,合并后的數(shù)據(jù)集含有不同領(lǐng)域之間的正負(fù)樣本,相比單個(gè)數(shù)據(jù)集具有更好的兼容性,通過(guò)表6可以看出,本文提出的模型在融合后的數(shù)據(jù)上,相比基準(zhǔn)模型中的最優(yōu)模型BILSTM-CNN的F1提升了1.55%,通過(guò)在單一領(lǐng)域數(shù)據(jù)集和多領(lǐng)域數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果可以看出本文提出的模型相比基準(zhǔn)模型均有一定程度的提高,從而有效的證明了本文提出模型MFFM的有效性.
表5 不同詞向量維度的實(shí)驗(yàn)結(jié)果
Table 5 Experimental results of different word vector dimensions
字、詞向量維度評(píng)價(jià)指標(biāo)BILSTMCNNCAPSNETBILSTM+CNNMFFM(本文)F10.91710.90840.91470.92600.933564Recall0.91710.90900.91660.92470.9337Precision0.91710.90710.91270.92730.9332Accuracy0.91710.90830.91450.92610.9334F10.91850.90440.91660.92700.937096Recall0.91800.90530.91620.92700.9384Precision0.91890.90360.91700.92700.9358Accuracy0.91850.90430.91660.92700.9370F10.91260.90610.92230.91950.9313128Recall0.91240.90670.92280.91660.9313Precision0.91280.90540.92190.92240.9313Accuracy0.91260.90600.92230.91970.9313F10.91420.90550.91990.91960.9356160Recall0.91570.90530.91900.92180.9356Precision0.91270.90570.92080.91750.9358Accuracy0.91400.90550.91990.91950.9356
表6 三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
Table 6 Experimental results on three datasets
數(shù)據(jù)集評(píng)價(jià)指標(biāo)BILSTMCNNCAPSNETBILSTM+CNNMFFM(本文)F10.91850.90440.91660.92700.9370譚松波酒店評(píng)論數(shù)據(jù)集Recall0.91800.90530.91620.92700.9384Precision0.91890.90360.91700.92700.9358Accuracy0.91850.90430.91660.92700.9370F10.90000.89940.90440.90500.9143淘寶評(píng)論數(shù)據(jù)集Recall0.90000.89990.90300.90000.9162Precision0.90000.89900.90580.91020.9125Accuracy0.90000.89950.90450.90560.9141F10.95640.95520.95700.95820.9676中文冶金短文本數(shù)據(jù)集Recall0.95670.95550.95670.95250.9679Precision0.95610.95490.95730.96420.9673Accuracy0.95640.95520.95700.95850.9676F10.93880.93090.93760.93950.9550合并數(shù)據(jù)集Recall0.93880.93100.93750.93910.9552Precision0.93880.93080.93770.94000.9547Accuracy0.93880.93090.93760.93960.9549
圖2 模型在不同數(shù)據(jù)集上的F1值對(duì)比圖
短文本分類的研究難點(diǎn)之一在于文本特征提取.文本特征提取方法一般分為三種,傳統(tǒng)的文本數(shù)據(jù)化表示,機(jī)器學(xué)習(xí)和模型融合方法,但是這些方法都存在局限性.為解決這些問(wèn)題,本文提出了MFFM模型,旨在提取更有效的文本特征,提高模型的分類性能.
首先分別基于詞向量和字向量從不同粒度對(duì)短文本進(jìn)行表示,并通過(guò)Self-attention模型實(shí)現(xiàn)字詞向量的融合,融合后的文本表示方式能夠在一定程度上,解決短文本中存在的特征稀疏性和不規(guī)范性問(wèn)題.然后用BILSTM、CNN和CAPSNET三種模型從不同層面提取文本中蘊(yùn)含的信息.最終,將三個(gè)模型提取到的特征送入Self-attention模型,通過(guò)自注意力機(jī)制動(dòng)態(tài)分配各模型特征在最終特征構(gòu)建中的權(quán)重系數(shù).
在實(shí)驗(yàn)中,可以看出MFFM模型的性能在三個(gè)數(shù)據(jù)集下優(yōu)于對(duì)比的四個(gè)算法(CNN、BILSTM、CAPSNET和CNN-BILSTM),并利用數(shù)據(jù)融合來(lái)進(jìn)一步驗(yàn)證了MFFM模型的有效性.不可否認(rèn),本文現(xiàn)在的工作僅僅是這個(gè)主題的開(kāi)端,在未來(lái),更低復(fù)雜度、更優(yōu)的融合模型會(huì)出現(xiàn),例如,進(jìn)化式壓縮MFMM模型.