• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合通道特征的混合神經(jīng)網(wǎng)絡(luò)文本分類模型

      2021-03-17 07:48:44韓永鵬
      中文信息學(xué)報(bào) 2021年2期
      關(guān)鍵詞:雙通道時(shí)序雙向

      韓永鵬,陳 彩,蘇 航,梁 毅

      (北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

      0 引言

      文本分類是跨越信息檢索、機(jī)器學(xué)習(xí)和自然語言處理的多領(lǐng)域技術(shù),是信息處理和數(shù)據(jù)挖掘的重要研究方向,主要目標(biāo)是在事先定義好類別的情況下,根據(jù)文本的內(nèi)容特征或者屬性特征,將要分類的文本自動(dòng)分配到所屬的類別[1]。根據(jù)文本的長(zhǎng)度,文本分類分為短文本分類與長(zhǎng)文本分類,短文本字符數(shù)通常不超過200[2]。

      隨著科學(xué)技術(shù)的發(fā)展,深度學(xué)習(xí)被廣泛應(yīng)用于文本分類,常用于文本分類的神經(jīng)網(wǎng)絡(luò)模型主要有循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)。循環(huán)神經(jīng)網(wǎng)絡(luò)是一種對(duì)序列數(shù)據(jù)建模的網(wǎng)絡(luò),由于有梯度消失和梯度爆炸等問題,通常使用其變體長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[3](long short-term memory,LSTM)。由于LSTM只能學(xué)習(xí)文本的全局時(shí)序特征,不能學(xué)習(xí)文本中的局部空間特征,所以一般先使用CNN學(xué)習(xí)局部特征,再結(jié)合LSTM學(xué)習(xí)時(shí)序特征。然而現(xiàn)有混合模型使用的單通道詞嵌入空間維度低,特征表示單一,導(dǎo)致一維卷積神經(jīng)網(wǎng)絡(luò)不能充分發(fā)揮空間特征學(xué)習(xí)能力,影響了模型的分類性能。

      為了彌補(bǔ)現(xiàn)有混合模型的不足,本文提出了一種融合通道特征的混合神經(jīng)網(wǎng)絡(luò)文本分類模型,該模型使用基于預(yù)測(cè)與基于統(tǒng)計(jì)的方式構(gòu)建文本的雙通道詞嵌入。相比于單通道詞嵌入,雙通道詞嵌入能提供更為豐富的特征,并增加文本表示的空間維度。為了充分利用增加的空間維度,本文在卷積的過程中進(jìn)行了通道特征融合,提高了卷積層的空間特征學(xué)習(xí)能力。為了更好地將空間特征與時(shí)序特征結(jié)合,模型在每路卷積后使用雙向LSTM學(xué)習(xí)各路時(shí)序特征,避免了過早進(jìn)行卷積特征融合對(duì)融合后的時(shí)序特征造成破壞。在四個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明,該模型取得了良好的分類效果,分類準(zhǔn)確率相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)平均提升了1%。

      1 相關(guān)工作

      傳統(tǒng)機(jī)器學(xué)習(xí)算法[4]在文本分類時(shí)往往需要進(jìn)行特征選擇,而深度學(xué)習(xí)算法因可以自動(dòng)進(jìn)行特征學(xué)習(xí)而被廣泛使用,常用結(jié)構(gòu)包括卷積神經(jīng)網(wǎng)絡(luò)CNN與循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。RNN適合處理時(shí)間序列數(shù)據(jù),被廣泛應(yīng)用于文本分類當(dāng)中。Liu等人[5]提出了基于LSTM的三種模型用于處理多任務(wù)學(xué)習(xí)下的文本分類問題。Xu等人[6]使用雙向LSTM結(jié)合前饋型神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分析。由于LSTM只能輸出最后時(shí)刻的特征,不能充分利用各時(shí)刻的特征,部分學(xué)者嘗試使用注意力機(jī)制優(yōu)化LSTM的特征表示。Wang等人[7]使用了注意力機(jī)制對(duì)LSTM的各個(gè)時(shí)刻的特征進(jìn)行加權(quán),在情感分類任務(wù)中取得良好效果。Long等人[8]在雙向LSTM中引入了Multi-head Attention進(jìn)行情感分類,取得了優(yōu)于雙向LSTM的效果。由于RNN不能學(xué)習(xí)空間特征且訓(xùn)練時(shí)間長(zhǎng),CNN在文本領(lǐng)域開始使用。Kim[9]首次將CNN用于文本分類,采用多路卷積提取空間特征,使用全局最大池化保留最重要的特征,通過實(shí)驗(yàn)驗(yàn)證了CNN在文本分類領(lǐng)域的實(shí)用性。由于全局最大池化容易造成特征大量丟失,Kalchbrenner等人[10]提出了一種動(dòng)態(tài)池化的思想,在不同池化層采取不同的K值,保留了前K個(gè)最大特征,有效解決了全局最大池化特征丟失嚴(yán)重的問題。Yang 等人[11]首次將膠囊神經(jīng)網(wǎng)絡(luò)用于文本分類,在部分?jǐn)?shù)據(jù)集上取得了超過經(jīng)典CNN的效果。王盛玉等人[12]嘗試在CNN中結(jié)合注意力機(jī)制,有效提升了CNN學(xué)習(xí)局部特征的能力。

      由于CNN與RNN各有側(cè)重,許多學(xué)者結(jié)合兩者優(yōu)點(diǎn)提出混合模型。Lai等人[13]提出了循環(huán)卷積神經(jīng)網(wǎng)絡(luò)RCNN,使用雙向循環(huán)結(jié)構(gòu)對(duì)特征的上下文進(jìn)行建模,實(shí)現(xiàn)了卷積的核心思想。Zhou等人[14]提出了混合模型C-LSTM,給出了CNN與RNN結(jié)合使用的模式。Hassan等人[15]提出的模型使用多路卷積學(xué)習(xí)空間特征,融合后經(jīng)由LSTM學(xué)習(xí)時(shí)序特征。Chen等人[16]提出的模型在每一路通過堆疊卷積池化層提取更抽象的空間特征,融合后結(jié)合LSTM進(jìn)行時(shí)序特征學(xué)習(xí)。Zhang等人[17]提出的LSTM-CNN探索了先時(shí)序后空間的特征學(xué)習(xí)方式。在此基礎(chǔ)上,Zheng等人[18]提出的BRCAN模型使用雙向LSTM學(xué)習(xí)上下文信息,然后結(jié)合CNN與注意力機(jī)制對(duì)關(guān)鍵的特征進(jìn)行加權(quán),在多個(gè)數(shù)據(jù)集上取得良好分類效果。江偉等人[19]探索了多種注意力機(jī)制,進(jìn)行了全面的對(duì)比評(píng)估。程艷等人[20]提出的C-HAN模型將文本表示分為詞—句子、句子—文檔兩個(gè)階段,并對(duì)比了詞向量、字向量對(duì)模型性能的影響。車?yán)俚热薣21]提出的TSOHHAN模型結(jié)合了標(biāo)題在話題分類中的作用,取得了優(yōu)于傳統(tǒng)層級(jí)注意力網(wǎng)絡(luò)的分類準(zhǔn)確率。不同于以上學(xué)者的小規(guī)模淺層神經(jīng)網(wǎng)絡(luò)模型,Google團(tuán)隊(duì)提出了預(yù)訓(xùn)練語言模型BERT[22],在多項(xiàng)NLP任務(wù)中取得了卓越的效果。

      盡管學(xué)者們提出了多種混合模型,但現(xiàn)有混合模型仍存在以下問題: ①普遍使用單通道詞嵌入,空間維度低,文本的特征表示單一,只能在單通道上使用一維卷積算法,不能充分發(fā)揮卷積的空間特征學(xué)習(xí)能力; ②現(xiàn)有的CNN-RNN混合模型在融合多路卷積特征時(shí),往往對(duì)融合后的特征時(shí)序性造成破壞,影響了后續(xù)LSTM層對(duì)時(shí)序特征的學(xué)習(xí)過程。為此,本文分別使用基于預(yù)測(cè)與基于統(tǒng)計(jì)的方法構(gòu)建雙通道詞嵌入,豐富文本表示,增加嵌入層空間維度。在此基礎(chǔ)上,為了充分利用雙通道特征,本文的模型先在兩個(gè)通道獨(dú)立學(xué)習(xí)空間特征,然后使用逐點(diǎn)卷積融合通道特征,增強(qiáng)了卷積層的空間特征學(xué)習(xí)能力。在融合多路卷積特征時(shí),在每一路均使用結(jié)合注意力機(jī)制的雙向LSTM進(jìn)行時(shí)序特征學(xué)習(xí),將每路的特征進(jìn)行拼接表示文本,有效避免了在進(jìn)入LSTM之前,多路卷積特征融合的過程對(duì)融合后的時(shí)序特征造成破壞的問題。實(shí)驗(yàn)表明,本文提出的混合模型在多個(gè)數(shù)據(jù)集上取得了良好的分類性能。

      2 模型描述

      融合通道特征的混合神經(jīng)網(wǎng)絡(luò)文本分類模型結(jié)構(gòu)如圖1所示。模型的輸入為雙通道詞嵌入,分別由基于預(yù)測(cè)與基于統(tǒng)計(jì)的詞向量生成模型在海量語料中預(yù)訓(xùn)練得到,使用預(yù)訓(xùn)練詞嵌入將大大提高模型的泛化能力。相比于單通道詞嵌入,雙通道詞嵌入增加了文本表示的空間維度,增加了特征的多樣性,豐富了特征的表達(dá)。之后,模型使用多路卷積提取空間特征,每一路使用不同大小的卷積核提取不同感受野的局部空間特征,在提取空間特征的過程中融合了通道間特征。為了避免在進(jìn)入LSTM之前,多路卷積特征融合的過程對(duì)融合后的時(shí)序特征造成破壞,在每一路均使用結(jié)合注意力機(jī)制的雙向LSTM網(wǎng)絡(luò)進(jìn)行時(shí)序特征學(xué)習(xí),最終將各路特征進(jìn)行拼接,形成文檔的最終表示,然后經(jīng)過全連接層與Softmax層進(jìn)行文本分類。

      圖1 融合通道特征的混合神經(jīng)網(wǎng)絡(luò)文本分類模型

      2.1 融合通道特征的多粒度卷積層

      以圖1中的一路卷積為例,詳細(xì)的卷積層設(shè)計(jì)原理如圖2所示。

      圖2 卷積層設(shè)計(jì)原理

      卷積層的輸入為雙通道預(yù)訓(xùn)練詞嵌入矩陣,不受特定分類任務(wù)影響,能增加模型的泛化能力。隨著神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,對(duì)雙通道嵌入層的權(quán)值進(jìn)行動(dòng)態(tài)調(diào)整,使得原本與分類任務(wù)無關(guān)的詞向量變成與特定分類任務(wù)相關(guān)的詞向量,加速整個(gè)神經(jīng)網(wǎng)絡(luò)模型收斂的過程。令詞嵌入矩陣最多包含n個(gè)單詞,超出n個(gè)單詞的文本被截?cái)?,不足n個(gè)單詞的文本用0填充。xi表示當(dāng)前文本中第i個(gè)單詞的預(yù)訓(xùn)練詞向量,則詞嵌入矩陣X1:n可以表示如式(1)所示。

      X1:n=x1?x2?…?xn

      (1)

      其中,?代表詞向量的拼接,卷積操作在詞嵌入矩陣X1:n上進(jìn)行。定義卷積核Wc,Wc為h×k的二維矩陣,h代表當(dāng)前卷積核的感受野大小,而k固定為詞嵌入的維度,讓卷積操作只能沿著時(shí)間軸自上而下進(jìn)行滑動(dòng),令ci表示滑動(dòng)過程中提取到的當(dāng)前位置的局部特征,f代表非線性激活函數(shù),bc為偏置項(xiàng),則卷積核形成的特征圖C可以由式(2)、式(3)所示。

      由于嵌入層有兩個(gè)通道,所以在每一個(gè)通道上使用同一個(gè)卷積核,卷積將形成兩張不同的特征圖,分別記為C1與C2。此時(shí)進(jìn)行逐點(diǎn)卷積,使用1×1,深度為2的卷積核Wf對(duì)來自兩個(gè)通道的兩張?zhí)卣鲌DC1與C2進(jìn)行通道特征融合,形成融合通道特征之后的特征圖V,計(jì)算如式(4)所示。

      V=f(Wf·[C1,C2]+bf)

      (4)

      其中,f為非線性激活函數(shù),bf為偏置項(xiàng)。

      至此可以得到使用一個(gè)卷積核Wc在雙通道嵌入層實(shí)施卷積后所形成的一張?zhí)卣鲌DV。由于卷積神經(jīng)網(wǎng)絡(luò)通常使用多個(gè)卷積核進(jìn)行空間特征學(xué)習(xí),令N表示卷積核個(gè)數(shù),則使用N個(gè)相同尺寸的卷積核在雙通道嵌入層實(shí)施卷積后可以形成N張?zhí)卣鲌D組成特征矩陣Mo,如式(5)所示。

      Mo=[V1,V2,…,VN]

      (5)

      由于Mo的行維度往往較大,如果使用池化降維將導(dǎo)致時(shí)序特征丟失,所以模型使用步幅為K的卷積核Wp對(duì)特征矩陣進(jìn)行卷積降維,形成降維之后的特征圖矩陣Mk,計(jì)算如式(6)所示。

      Mk=f(Wp·Mo+bp)

      (6)

      其中,f為激活函數(shù),bp為偏置項(xiàng)。由式(6)形成特征矩陣Mk保留了時(shí)序特征,可以按行的順序依次輸入到LSTM當(dāng)中,完成時(shí)序特征的學(xué)習(xí)。

      2.2 融合多路特征的雙向LSTM層

      對(duì)于長(zhǎng)文本而言,單詞的上下文信息充足,往往存在長(zhǎng)距離的語義關(guān)聯(lián),相比于特征少、時(shí)序信息不足的短文本,長(zhǎng)文本對(duì)特征的時(shí)序性有著更高的要求。在特征輸入LSTM之前,多路卷積先進(jìn)行特征融合,并不能保證融合后特征的時(shí)序性,大大影響了LSTM對(duì)長(zhǎng)文本的時(shí)序特征學(xué)習(xí)過程。令M1,M2分別表示不同路卷積所形成的特征圖矩陣,若將M1與M2橫向拼接,由于卷積核大小不同造成M1與M2在行維度上不同,只能使用0填充,讓卷積后的特征圖尺寸保持不變,這將導(dǎo)致M1與M2的時(shí)序特征不能完全保持對(duì)齊,造成整體時(shí)序特征質(zhì)量下降的問題。若將M1與M2縱向拼接,則不能保證拼接后整體特征保持全局有序性。

      為了避免上述融合方式的不足,本文的模型在每一路均使用雙向LSTM學(xué)習(xí)時(shí)序特征,將每一路的雙向時(shí)序特征進(jìn)行拼接表示最終文本,避免了各路特征在進(jìn)入LSTM之前就進(jìn)行融合所導(dǎo)致的時(shí)序特征質(zhì)量下降的問題。由于傳統(tǒng)的正向LSTM只能學(xué)習(xí)特征的上文信息,忽視了特征的下文信息,本文使用了雙向LSTM同時(shí)學(xué)習(xí)特征的上下文信息,極大地提高了模型的時(shí)序特征學(xué)習(xí)能力。為了充分利用LSTM所有時(shí)刻的輸出特征,模型通過注意力機(jī)制對(duì)LSTM每個(gè)時(shí)刻的特征進(jìn)行加權(quán)求和,提高LSTM的輸出質(zhì)量,本文的雙向LSTM層如圖3所示。

      圖3 雙向LSTM層

      令i代表第i個(gè)時(shí)刻且i∈[0,t],xi表示第i個(gè)時(shí)刻的輸入向量。Mk代表一路卷積所形成的特征圖矩陣,則Mk可以表示成多個(gè)行向量的拼接,如式(7)所示。

      Mk=x0⊕x1⊕…⊕xt

      (7)

      LSTM按時(shí)間順序接收xi作為輸入向量,ct表示LSTM單元狀態(tài),ht表示LSTM單元最終輸出。ft、it、ot分別表示遺忘門、輸入門與輸出門,σ表示Sigmoid激活函數(shù),Wf、Wi、Wo、Wc、bf、bi、bo、bc為網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù),LSTM的最終輸出計(jì)算如式(8)~式(13)所示。由于模型使用了雙向LSTM學(xué)習(xí)時(shí)序特征,所以雙向LSTM的最終輸出由正向LSTM輸出與反向LSTM輸出拼接得到。

      由于LSTM只能學(xué)習(xí)得到最后一個(gè)時(shí)刻的輸出向量,不能對(duì)每個(gè)時(shí)刻的輸出充分利用,本文使用注意力機(jī)制完成各個(gè)時(shí)刻輸出特征的加權(quán)融合。令Hi表示第i個(gè)時(shí)刻的雙向LSTM層的輸出向量,ei表示Hi對(duì)整個(gè)文本語義表示的重要程度,ai表示Hi對(duì)整個(gè)文本語義表示貢獻(xiàn)的權(quán)重。根據(jù)上述定義,雙向LSTM層的注意力權(quán)重計(jì)算如式(14)、式(15)所示。

      其中,uT、Wa、ba是網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù),tanh為非線性激活函數(shù)。在得到雙向LSTM層的各個(gè)時(shí)刻的注意力權(quán)重后,使用式(16)對(duì)雙向LSTM層的所有時(shí)刻的輸出向量進(jìn)行加權(quán)求和,最終得到的向量v就是整個(gè)雙向LSTM層最終輸出的特征向量。

      (16)

      令vi表示第i路卷積特征經(jīng)由雙向LSTM層之后學(xué)習(xí)得到的文檔表示向量,則模型最終形成的文檔表示向量vd可表示為n路卷積文檔表示向量的拼接,如式(17)所示。

      vd=v1⊕v2⊕…⊕vn

      (17)

      在得到文本的最終表示向量vd后,將vd經(jīng)由全連接層與Softmax層進(jìn)行最終的類別輸出。令c表示某個(gè)分類,n表示分類數(shù),d表示文檔向量vd經(jīng)由全連層后的輸出向量,dc表示向量d中屬于類別c的分量值,pc表示文本為分類c的概率,Wc與bc為全連接層網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù),f為非線性激活函數(shù),則pc計(jì)算如式(18)、式(19)所示。

      3 實(shí)驗(yàn)設(shè)置

      3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

      實(shí)驗(yàn)環(huán)境如表1所示,所有實(shí)驗(yàn)均使用科研機(jī)構(gòu)或?qū)W者公開的預(yù)訓(xùn)練詞向量,包括: Word2Vec[23-24](1)https://github.com/Embedding/Chinese-Word-Vectors(2)drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21-pQmM與GloVe[25](3)https://nlp.stanford.edu/projects/glove/。所有數(shù)據(jù)集均為公開數(shù)據(jù)集,詳細(xì)信息如表2所示。

      表1 實(shí)驗(yàn)環(huán)境

      表2 數(shù)據(jù)集詳細(xì)信息

      各數(shù)據(jù)集均進(jìn)行了預(yù)處理,去除了標(biāo)點(diǎn)符號(hào)、特殊字符,并進(jìn)行了分詞,對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)方法去除了停止詞,對(duì)深度學(xué)習(xí)方法沒有去除停止詞,數(shù)據(jù)集基本介紹如下:

      (1)IMDB(4)http://ai.stanford.edu/~amaas/data/sentiment/: 英文電影評(píng)論情感二分類數(shù)據(jù)集,分為積極評(píng)論與消極評(píng)論,情感極性較為明顯,分類難度較低。

      (2)20NewsGroups(20NG)(5)http://qwone.com/~jason/20Newsgroups/: 英文文本分類數(shù)據(jù)集,數(shù)據(jù)集復(fù)雜,部分分類之間相似度較高,分類難度大。

      (3)復(fù)旦大學(xué)中文數(shù)據(jù)集(Fudan)(6)https://download.csdn.net/download/lee0_king/10601701: 由復(fù)旦大學(xué)自然語言處理小組公開,文本多為文獻(xiàn)內(nèi)容,噪聲特征較多,文本篇幅長(zhǎng)。

      (4)THUCNews新聞數(shù)據(jù)集(THUC)(7)http://thuctc.thunlp.org/: 清華大學(xué)公開的中文新聞數(shù)據(jù)集,噪聲特征少,由于數(shù)據(jù)全集樣本數(shù)過多,本文從中隨機(jī)抽取了42 000條樣本供實(shí)驗(yàn)使用。

      3.2 基線方法

      本文對(duì)比了如下方法:

      (1)SVM、NBSVM: 使用了文獻(xiàn)[4]中結(jié)合bi-gram特征的SVM算法與NBSVM算法。

      (2)AT-LSTM: 使用全局信息指導(dǎo)局部注意力機(jī)制對(duì)LSTM各時(shí)刻的輸出加權(quán)進(jìn)行情感分類,出自文獻(xiàn)[7]。

      (3)BiLSTM-MHAT: 結(jié)合Multi-head Attention的雙向LSTM,出自文獻(xiàn)[8]。

      (4)CNN-non-static、CNN-multichannel: CNN首次用于文本分類的經(jīng)典模型,前者為單通道,后者為雙通道,出自文獻(xiàn)[9]。

      (5)Capsule: 膠囊神經(jīng)網(wǎng)絡(luò)在文本分類中的首次探索,使用了文獻(xiàn)[11]中的Capsule-B模型。

      (6)RCNN: 對(duì)每個(gè)特征使用雙向RNN計(jì)算特征的前后文信息,出自文獻(xiàn)[13]。

      (7)C-LSTM: 使用的是文獻(xiàn)[14]中三路卷積,不使用池化方式的模型。

      (8)CNN-LSTM-1: 方法為文獻(xiàn)[15]中使用兩路卷積,不使用任何池化方式的模型。

      (9)CNN-LSTM-2: 使用兩路卷積,每一路連續(xù)使用卷積池化堆疊提取特征,出自文獻(xiàn)[16]。

      (10)BRCAN: 先用雙向結(jié)構(gòu)學(xué)習(xí)時(shí)序特征,再使用CNN結(jié)合注意力機(jī)制學(xué)習(xí)空間特征,出自文獻(xiàn)[18]。

      (11)NN-PA: 短語注意力機(jī)制的模型,使用了文獻(xiàn)[19]中的NN-PA2方法。

      (12)C-HAN: 結(jié)合卷積與層次注意力網(wǎng)絡(luò)的模型,使用的是文獻(xiàn)[20]中基于單詞特征的模型。

      (13)CFC-LSTM-single、CFC-LSTM-multi: 本文的混合模型,全稱為Channel Fusion CNN-LSTM,single代表單路卷積,multi代表多路卷積。

      3.3 參數(shù)設(shè)置

      實(shí)驗(yàn)對(duì)所有模型的超參數(shù)進(jìn)行了調(diào)參范圍限定,在有限的范圍內(nèi)搜索出當(dāng)前最優(yōu)的超參數(shù)組合,中英文預(yù)訓(xùn)練詞嵌入的維度均為300維,模型結(jié)構(gòu)、卷積核大小與原論文的設(shè)定保持相同,卷積核個(gè)數(shù)范圍為16~512,LSTM隱藏層神經(jīng)元個(gè)數(shù)范圍為16~256,全連接層神經(jīng)元個(gè)數(shù)范圍為16~256,取值為2的整數(shù)冪。為了防止模型過擬合,在LSTM層與全接連層均使用了Dropout正則化,Dropout取值范圍為0.2~0.5,模型的初始學(xué)習(xí)率為0.001,優(yōu)化算法使用Adam。模型最大訓(xùn)練輪數(shù)為100,數(shù)據(jù)的批尺寸大小為64,在訓(xùn)練樣本中,80%用于訓(xùn)練集,20%用于驗(yàn)證集。

      3.4 評(píng)價(jià)指標(biāo)

      在分類問題中通常使用精度(P)、召回率(R)、F1值、準(zhǔn)確率(ACC)等評(píng)價(jià)模型的性能,令TP表示預(yù)測(cè)為正的正樣本,F(xiàn)P表示預(yù)測(cè)為正的負(fù)樣本,F(xiàn)N表示預(yù)測(cè)為負(fù)的正樣本,TN表示預(yù)測(cè)為負(fù)的負(fù)樣本,混淆矩陣如表3所示,指標(biāo)計(jì)算如式(20)~式(23)所示。本文使用準(zhǔn)確率ACC與綜合反映分類器性能的宏平均F1值評(píng)估分類效果,宏平均F1值可以看作多個(gè)二分類F1指標(biāo)值的算術(shù)平均值。

      表3 混淆矩陣

      4 結(jié)果與分析

      4.1 模型在公開數(shù)據(jù)集上的性能對(duì)比

      表4是各種分類方法在公開數(shù)據(jù)集上的分類準(zhǔn)確率與宏平均F1值,第一欄是傳統(tǒng)機(jī)器學(xué)習(xí)模型,第二欄是只學(xué)習(xí)空間或時(shí)序特征的單一模型,第三欄是混合模型,第四欄是本文的模型,single代表單路卷積,multi代表多路卷積。通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文的混合模型相比于傳統(tǒng)機(jī)器學(xué)習(xí)模型及單一神經(jīng)網(wǎng)絡(luò)模型而言,在各個(gè)數(shù)據(jù)集上的分類性能取得了顯著的提升,比傳統(tǒng)SVM的準(zhǔn)確率平均提升了4.3%,比經(jīng)典CNN模型CNN-non-static的準(zhǔn)確率平均提升了1%。雙通道模型CNN-multichannel相比于單通道模型CNN-non-static并沒有取得穩(wěn)定的性能提升,甚至出現(xiàn)下降,這與文獻(xiàn)[9]實(shí)驗(yàn)結(jié)果相同,說明通道數(shù)的簡(jiǎn)單增加,引入更多的特征并不一定有利于分類任務(wù),而本文的混合模型即使在一路卷積的情況下,在各數(shù)據(jù)集上的分類性能明顯超過了CNN-multichannel使用三路卷積的模型,原因一方面是本文的混合模型結(jié)合了LSTM層進(jìn)行時(shí)序特征學(xué)習(xí),另一個(gè)關(guān)鍵的原因是本文模型使用了更為合理的雙通道構(gòu)建方式以及更為有效的在雙通道上執(zhí)行卷積的方法。由于本文的混合模型使用了雙通道豐富文本表示,在卷積過程中融合了跨通道的特征,并優(yōu)化了空間特征與時(shí)序特征結(jié)合的方式,在IMDB、20NG、THUC三個(gè)數(shù)據(jù)集上相比于其他混合模型均取得了更好的分類性能。在Fudan數(shù)據(jù)集上所有模型的宏平均F1值明顯低于準(zhǔn)確率,這是由于Fudan數(shù)據(jù)集屬于不平衡數(shù)據(jù)集,宏平均F1值受到了少數(shù)類錯(cuò)分的影響。在Fudan數(shù)據(jù)集上,本文的混合模型分類性能不如RCNN,主要是由于Fudan數(shù)據(jù)集噪聲特征較多。因本文的混合模型沒有使用池化,容易受到噪聲特征的干擾,而RCNN模型模擬了卷積的核心思想,最大池化可以充分過濾噪聲特征,因此分類性能更好,所以本文的混合模型在噪聲特征較少的數(shù)據(jù)集上性能表現(xiàn)更好,更為適用。

      表4 各種分類方法在公開數(shù)據(jù)集上的準(zhǔn)確率與宏平均F1值(%)

      4.2 雙通道嵌入層的有效性驗(yàn)證

      本節(jié)以CNN-multichannel驗(yàn)證本文雙通道構(gòu)建方法的有效性。CNN-multichannel使用了同種預(yù)訓(xùn)練詞嵌入構(gòu)建雙通道,在訓(xùn)練開始時(shí)通道間的差異最小,由于權(quán)重只在一個(gè)通道更新,隨著訓(xùn)練過程通道差異會(huì)變大,不變的通道代表了通用特征,更新的通道代表向特定任務(wù)調(diào)整;本文的雙通道使用不同的詞嵌入,在訓(xùn)練開始時(shí)通道差異最大,權(quán)重的更新經(jīng)由雙通道,隨著訓(xùn)練過程通道間差異變小,均向特定任務(wù)調(diào)整。將CNN-multichannel的構(gòu)建方法命名為Multi-1,本文的方法命名為Multi-2,以單通道作為基準(zhǔn),圖4以Word2Vec構(gòu)建Multi-1,圖5以GloVe構(gòu)建Multi-1,Multi-2則由Word2Vec與GloVe分別構(gòu)成。結(jié)果表明,相比于單通道,Multi-2可以取得更為穩(wěn)定的提升效果,而Multi-1并沒有因?yàn)殡p通道而帶來性能上的穩(wěn)定提升,甚至出現(xiàn)下降,這是由于始終保持權(quán)重靜止的通道既有可能為特定任務(wù)帶來通用特征從而提升分類效果,也有可能因?yàn)橥ㄓ锰卣鞯拇嬖趯?dǎo)致特定任務(wù)特征的重要程度被平均化,反而不如單通道特征。Multi-2除了引入更豐富的特征以外,在雙通道上同時(shí)向特定任務(wù)調(diào)整,保證了效果提升更加穩(wěn)定。圖4中,相比Word2Vec,單通道最大提升0.3個(gè)百分點(diǎn);圖5中,相比GloVe,單通道最大提升0.53個(gè)百分點(diǎn)。

      圖4 使用Word2Vec作為單通道的對(duì)比結(jié)果

      圖5 使用GloVe作為單通道的對(duì)比結(jié)果

      4.3 卷積模式對(duì)模型性能的影響

      本節(jié)驗(yàn)證卷積模式對(duì)模型性能的影響,對(duì)以下兩種卷積過程進(jìn)行了對(duì)比: ①使用CNN-multichannel進(jìn)行雙通道特征學(xué)習(xí),權(quán)重的更新在雙通道同時(shí)進(jìn)行; ②本文的卷積方式,在每個(gè)通道進(jìn)行空間特征學(xué)習(xí),然后進(jìn)行跨通道特征融合。在實(shí)驗(yàn)中將CFC-LSTM-multi中的LSTM層取消,保證模型處于同一規(guī)模,實(shí)驗(yàn)結(jié)果如圖6所示。

      圖6 不同卷積模式下的性能對(duì)比

      可以發(fā)現(xiàn)方式二的卷積方式相比于方式一在各數(shù)據(jù)集上取得了穩(wěn)定的提升,說明了將空間特征學(xué)習(xí)過程與通道特征學(xué)習(xí)過程進(jìn)行分離,相比于混合學(xué)習(xí)空間特征與通道特征更加有效,這種設(shè)計(jì)思路借鑒了谷歌的圖像模型Xception[26],說明了在多通道表示下的文本數(shù)據(jù),將空間特征學(xué)習(xí)過程與跨通道特征融合過程分離學(xué)習(xí)是更為有效的卷積模式,在THUC數(shù)據(jù)集上準(zhǔn)確率最大提升0.21個(gè)百分點(diǎn)。

      4.4 時(shí)序特征結(jié)合方式對(duì)模型性能的影響

      在公開數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)中,C-LSTM并沒有因?yàn)長(zhǎng)STM的加入,取得超越CNN-non-static的效果,關(guān)鍵的原因是由于多路卷積在拼接時(shí),對(duì)特征時(shí)序性產(chǎn)生了不良影響,無法保證后續(xù)LSTM層的輸入特征質(zhì)量。本節(jié)探究了多路卷積與LSTM結(jié)合方式對(duì)混合模型最終性能的影響。方式一先進(jìn)行多路卷積特征融合,融合后通過LSTM學(xué)習(xí)時(shí)序特征;方式二在每一路卷積之后直接使用LSTM學(xué)習(xí)時(shí)序特征。為了減少模型規(guī)模造成的干擾,通過堆疊方式一的LSTM以增加模型規(guī)模,然后在參數(shù)設(shè)置中指定的超參數(shù)范圍內(nèi)進(jìn)行搜索,實(shí)驗(yàn)結(jié)果如圖7所示??梢园l(fā)現(xiàn),方式一的效果在各數(shù)據(jù)集均不如方式二,最差情況下,準(zhǔn)確率比方式二要落后0.33個(gè)百分點(diǎn)。

      圖7 兩種LSTM結(jié)合方式對(duì)比

      4.5 注意力機(jī)制對(duì)模型性能的影響

      由于LSTM在不同時(shí)刻所形成的文本表示對(duì)最終分類任務(wù)的重要程度不同,僅利用最后時(shí)刻的輸出表示最終文本并不能充分體現(xiàn)文本不同部分的重要程度。本節(jié)以CFC-LSTM-single為例,探索平均池化、最大池化與注意力機(jī)制對(duì)分類性能造成的影響,實(shí)驗(yàn)結(jié)果如圖8所示??梢园l(fā)現(xiàn)平均池化的效果甚至不如直接使用LSTM最后時(shí)刻作為輸出。在主題分類任務(wù)中更能突出全局關(guān)鍵特征的最大池化可以取得接近,甚至超過注意力機(jī)制的效果,但是在情感分類IMDB數(shù)據(jù)集上,注意力機(jī)制優(yōu)勢(shì)明顯,更容易捕獲對(duì)全文情感極性造成重要影響的部分??傮w而言,相較于原始LSTM,注意力機(jī)制的使用對(duì)模型的性能有著穩(wěn)定的提升效果,平均提升了0.5個(gè)百分點(diǎn)。

      圖8 不同池化方式對(duì)模型性能的影響

      4.6 模型的訓(xùn)練代價(jià)分析

      本節(jié)對(duì)模型的訓(xùn)練代價(jià)進(jìn)行分析,以平均特征數(shù)最多的Fudan數(shù)據(jù)集為例,各模型的每輪訓(xùn)練時(shí)間如圖9所示。實(shí)驗(yàn)結(jié)果表明,傳統(tǒng)SVM相關(guān)模型與單一卷積模型的訓(xùn)練代價(jià)明顯低于使用了RNN結(jié)構(gòu)的模型,說明了RNN在進(jìn)行長(zhǎng)文本建模時(shí)具有訓(xùn)練效率較低的缺點(diǎn)。在與其他混合模型的對(duì)比中,可以發(fā)現(xiàn)本文的單路模型CFC-LSTM-single的訓(xùn)練代價(jià)相對(duì)較低,但是多路模型CFC-LSTM-multi的訓(xùn)練代價(jià)較大。

      圖9 各模型在Fudan數(shù)據(jù)集的每輪訓(xùn)練時(shí)間

      為了探索造成CFC-LSTM-multi模型訓(xùn)練代價(jià)較大的具體原因,在圖10的實(shí)驗(yàn)中,將CFC-LSTM-single的卷積部分CFC單獨(dú)分離作為對(duì)比基準(zhǔn),與CFC-LSTM-single、CFC-LSTM-multi進(jìn)行了各數(shù)據(jù)集上每輪訓(xùn)練時(shí)間的對(duì)比。通過圖10的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),相比于單路卷積模型CFC而言,混合模型的訓(xùn)練時(shí)間開銷主要有兩個(gè)方面: 一是雙向LSTM層的引入,二是卷積路數(shù)的增加。由于文本數(shù)據(jù)的特征通常較多,LSTM的時(shí)間步往往上百甚至上千,如果使用雙向LSTM學(xué)習(xí)文本的上下文信息,所花費(fèi)的時(shí)間將更長(zhǎng),這也是LSTM作為RNN系列之一在處理長(zhǎng)文本時(shí)的固有缺點(diǎn)。相比于單路模型,適當(dāng)增加模型并聯(lián)的路數(shù),混合模型的擬合能力更強(qiáng),有助于提高模型最終的分類性能,但是模型由于并聯(lián)路數(shù)的增加也帶來了參數(shù)量上的明顯增多,所以需要耗費(fèi)更大的時(shí)間代價(jià)去訓(xùn)練。

      圖10 CFC-LSTM相關(guān)模型每輪訓(xùn)練時(shí)間對(duì)比

      4.7 長(zhǎng)短文本數(shù)量比例對(duì)模型性能的影響

      由于THUC數(shù)據(jù)集的樣本數(shù)與分類數(shù)較多,樣本中的噪聲特征少,故本文選取了THUC數(shù)據(jù)集10 000條樣本作為訓(xùn)練集,10 000條樣本作為測(cè)試集,訓(xùn)練集與測(cè)試集均為平衡數(shù)據(jù)集,在各分類下樣本數(shù)量基本相同,避免不平衡因素帶來的干擾。在此基礎(chǔ)上,通過改變樣本中長(zhǎng)文本與短文本所占的數(shù)量比例,驗(yàn)證混合模型在不同長(zhǎng)短文本數(shù)量比例之下的分類性能表現(xiàn)。在構(gòu)建數(shù)據(jù)集時(shí),短文本的最大特征數(shù)不超過100,長(zhǎng)文本的最少特征數(shù)不低于300,實(shí)驗(yàn)結(jié)果如圖11所示。通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文提出的混合模型隨長(zhǎng)文本數(shù)量的增加分類性能越來越好,說明了特征少、時(shí)序性不足的短文本分類難度要高于長(zhǎng)文本。在完全由長(zhǎng)文本組成的數(shù)據(jù)集中,本文的混合模型性能達(dá)到最優(yōu),因此本文的模型更偏向于長(zhǎng)文本分類任務(wù)。

      圖11 長(zhǎng)文本數(shù)量比例對(duì)模型性能的影響

      5 結(jié)束語

      本文提出了一種融合通道特征的混合神經(jīng)網(wǎng)絡(luò)文本分類模型,使用基于預(yù)測(cè)與基于統(tǒng)計(jì)的方式構(gòu)建了雙通道詞嵌入,在卷積中進(jìn)行了通道特征融合,增強(qiáng)了卷積層空間特征學(xué)習(xí)能力,為了更好地與時(shí)序特征結(jié)合,模型在每路卷積后使用雙向LSTM學(xué)習(xí)時(shí)序特征,避免了過早進(jìn)行卷積特征融合對(duì)融合后的特征時(shí)序性造成破壞。實(shí)驗(yàn)表明,本文的混合模型在各數(shù)據(jù)集準(zhǔn)確率相較于傳統(tǒng)CNN模型平均提升了1%。由于長(zhǎng)文本特征多,時(shí)序信息足,本文模型更適用于長(zhǎng)文本分類任務(wù)。未來工作中,我們將對(duì)各路卷積的重要程度進(jìn)行研究,選擇最為合適的卷積路數(shù)與感受野大小,降低模型的訓(xùn)練時(shí)間開銷,并嘗試用其他注意力機(jī)制進(jìn)一步優(yōu)化模型性能。

      猜你喜歡
      雙通道時(shí)序雙向
      時(shí)序坐標(biāo)
      雙向度的成長(zhǎng)與自我實(shí)現(xiàn)
      出版人(2022年11期)2022-11-15 04:30:18
      基于Sentinel-2時(shí)序NDVI的麥冬識(shí)別研究
      近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
      一種毫米波放大器時(shí)序直流電源的設(shè)計(jì)
      電子制作(2016年15期)2017-01-15 13:39:08
      一種軟開關(guān)的交錯(cuò)并聯(lián)Buck/Boost雙向DC/DC變換器
      一種工作頻率可變的雙向DC-DC變換器
      采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
      基于雙向預(yù)測(cè)的圖像去噪
      河南科技(2014年19期)2014-02-27 14:15:24
      DPBUS時(shí)序及其設(shè)定方法
      河南科技(2014年15期)2014-02-27 14:12:36
      岐山县| 武城县| 内丘县| 双牌县| 卫辉市| 岚皋县| 莒南县| 靖江市| 杭锦后旗| 科尔| 广水市| 达拉特旗| 新田县| 安康市| 靖江市| 永修县| 文化| 固阳县| 始兴县| 苏尼特右旗| 新兴县| 宜兰市| 镇宁| 庆城县| 上杭县| 扎鲁特旗| 南城县| 察隅县| 上饶县| 竹山县| 德江县| 忻城县| 若羌县| 玛多县| 灵台县| 盐池县| 大厂| 扬州市| 泰兴市| 兰州市| 襄垣县|