• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于神經(jīng)網(wǎng)絡(luò)的文本分類方法研究

    2020-03-19 12:24:46王芝輝王曉東
    計(jì)算機(jī)工程 2020年3期
    關(guān)鍵詞:語(yǔ)句卷積向量

    王芝輝,王曉東

    (國(guó)防科技大學(xué) 計(jì)算機(jī)學(xué)院,長(zhǎng)沙 410072)

    0 概述

    在大數(shù)據(jù)時(shí)代背景下,網(wǎng)絡(luò)中積累的歷史數(shù)據(jù),以及數(shù)以億計(jì)的網(wǎng)民每天產(chǎn)生的新數(shù)據(jù),使互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模爆發(fā)式增長(zhǎng),這其中包含了文本數(shù)據(jù)、聲音數(shù)據(jù)、圖像數(shù)據(jù)等多樣化的數(shù)據(jù)形式。而在各種數(shù)據(jù)中,文本數(shù)據(jù)所占比例最大、數(shù)量最多,如何處理和利用海量文本數(shù)據(jù)顯得尤為重要。此類數(shù)據(jù)雖然數(shù)量巨大,但如果只是單純地存儲(chǔ)并不能產(chǎn)生實(shí)際價(jià)值,同時(shí)也并非所有文本都具有實(shí)際價(jià)值或?qū)μ囟ㄓ脩粲幸饬x,因此,海量文本分析是實(shí)現(xiàn)大數(shù)據(jù)理解和價(jià)值發(fā)現(xiàn)的重要手段。

    人工神經(jīng)網(wǎng)絡(luò)技術(shù)是從信息處理角度對(duì)人腦神經(jīng)元進(jìn)行抽象,建立簡(jiǎn)單模型,按不同連接方式組成不同網(wǎng)絡(luò)的技術(shù)。研究者于20世紀(jì)40年代建立神經(jīng)網(wǎng)絡(luò)及其數(shù)學(xué)模型,之后又提出了感知器等更完善的神經(jīng)網(wǎng)絡(luò)模型。隨著研究的進(jìn)一步深入,此后研究者又提出性能更好的Hopfield網(wǎng)絡(luò)模型,以及多層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,推動(dòng)了人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,并使其在眾多領(lǐng)域得到成功應(yīng)用。

    面對(duì)海量文本數(shù)據(jù)分析的需求以及人工神經(jīng)網(wǎng)絡(luò)技術(shù)迅速發(fā)展和廣泛應(yīng)用的現(xiàn)狀,基于人工神經(jīng)網(wǎng)絡(luò)的文本分析成為目前重要的研究方向。作為海量文本處理的關(guān)鍵技術(shù),文本分類可以根據(jù)具體需要將文本劃分成不同的類別,從而方便進(jìn)一步分析和應(yīng)用。近年來(lái)人工神經(jīng)網(wǎng)絡(luò)在文本分類問(wèn)題中取得了顯著效果,進(jìn)一步促進(jìn)了兩者的結(jié)合和發(fā)展。在此環(huán)境下,本文介紹不同結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)在文本分類中的應(yīng)用及發(fā)展歷程,比較其在常用數(shù)據(jù)集上的分類效果,同時(shí)展望未來(lái)的發(fā)展方向。

    1 問(wèn)題分析

    文本分類問(wèn)題是自然語(yǔ)言處理中一個(gè)經(jīng)典問(wèn)題,也是文本分析的常用方法。該問(wèn)題定義為:對(duì)于一篇文檔,是將其劃入預(yù)先定義的多個(gè)類別中的某一個(gè)或幾個(gè)。作為處理海量文本數(shù)據(jù)的關(guān)鍵技術(shù),它能夠幫助用戶更好地組織文本、挖掘文本信息,方便用戶準(zhǔn)確地定位所需的信息。

    以在線社交網(wǎng)絡(luò)上對(duì)文本分類的應(yīng)用需求為例,主要有以下類型:

    1)基于內(nèi)容的主題分類[1]。文本的內(nèi)容通常涉及社會(huì)中的多個(gè)方面,如政治、經(jīng)濟(jì)、體育、娛樂(lè)、軍事等,可根據(jù)文本的內(nèi)容將其劃分為不同的領(lǐng)域,用戶再根據(jù)自身的需求選擇其中的某一個(gè)或者某幾個(gè)領(lǐng)域的文本數(shù)據(jù)做進(jìn)一步處理。這種需求下的分類類別通常是多個(gè),可能達(dá)到十幾個(gè)。一篇文本很可能同時(shí)涉及多個(gè)領(lǐng)域的內(nèi)容,因此,根據(jù)用戶需要,分類結(jié)果可以是只有一個(gè)標(biāo)簽,只屬于某一類別,也可以擁有多個(gè)標(biāo)簽,劃入與文本最相關(guān)的多個(gè)類別。

    2)基于觀點(diǎn)的情感極性分類。對(duì)于社會(huì)熱點(diǎn)新聞,網(wǎng)民及公共媒體經(jīng)常在社交網(wǎng)絡(luò)中發(fā)表自己的觀點(diǎn)看法,對(duì)于書(shū)籍和影視作品等也有對(duì)應(yīng)的大量評(píng)論數(shù)據(jù)。根據(jù)網(wǎng)民的觀點(diǎn),可以對(duì)他們的情感態(tài)度進(jìn)行分類:積極或是消極,支持或是反對(duì),以及保持中立態(tài)度。對(duì)于這種分類需求,分類類別通常只有2類或3類,也可根據(jù)情感態(tài)度的強(qiáng)弱做更細(xì)的劃分。

    分類前的一個(gè)重要步驟是文本數(shù)據(jù)預(yù)處理。預(yù)處理過(guò)程如下:

    1)分詞處理,將連續(xù)的文字流切分成單獨(dú)的詞匯,對(duì)于英文只需通過(guò)空格和標(biāo)點(diǎn)即可完成,對(duì)于中文則較為復(fù)雜,常用的工具為結(jié)巴分詞,分詞的效果對(duì)文本分類的效果影響很大,是后續(xù)流程的基礎(chǔ)。

    2)去除停止詞,目的是將一些輔助性文字刪除,一般都是通過(guò)查一個(gè)對(duì)應(yīng)表來(lái)完成。

    3)詞性標(biāo)注,判斷單詞的詞性,如名詞、動(dòng)詞等

    4)還原詞根,對(duì)于中文,預(yù)處理已經(jīng)完成,對(duì)于英文,由于單詞有詞形的變化,如名詞的單復(fù)數(shù)、動(dòng)詞的時(shí)態(tài)等,因此還需要還原詞根。

    文本分類本質(zhì)上與其他分類問(wèn)題是一致的,是根據(jù)待分類數(shù)據(jù)的特征進(jìn)行匹配從而劃歸到正確的類別,因此,核心問(wèn)題就可轉(zhuǎn)化為如何選取文本的特征以保證有效和快速地分類。最原始的方法是詞匹配法,僅根據(jù)文檔中是否出現(xiàn)了與類名及其近義詞語(yǔ)相同的詞來(lái)判斷文檔的類別,這種方法簡(jiǎn)單,但是分類效果卻很差。進(jìn)一步則是利用知識(shí)工程的方法為每個(gè)類別定義大量的推理規(guī)則,根據(jù)文檔是否滿足規(guī)則來(lái)判斷類別,此時(shí)與特定規(guī)則的匹配程度就是文本的特征。這種方法準(zhǔn)確度比詞匹配法高了很多,但缺點(diǎn)也很明顯,一是分類效果嚴(yán)重依賴于規(guī)則的質(zhì)量,而推理規(guī)則是由用戶制定的,高質(zhì)量的規(guī)則需要專家制定,大幅提升了人力成本;另一個(gè)缺點(diǎn)則是完全不具備推廣性。之后則是統(tǒng)計(jì)學(xué)習(xí)方法的思想,讓機(jī)器像人類一樣通過(guò)對(duì)大量同類文檔的觀察來(lái)總結(jié)經(jīng)驗(yàn),作為分類的特征和依據(jù),也稱為機(jī)器學(xué)習(xí),并已經(jīng)成為目前文本分類領(lǐng)域的主流方法[2]。

    機(jī)器學(xué)習(xí)方法的發(fā)展,起初是傳統(tǒng)的樸素貝葉斯、Rocchio、KNN[3]、決策樹(shù)等算法,這些方法與之前的方法相比有著很好的分類效果,但是文本表示的特征表達(dá)能力很弱,而且耗時(shí)耗力,成本很高。之后隨著計(jì)算能力的提升和人工神經(jīng)網(wǎng)絡(luò)的興起,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法逐漸成為研究的主要方向。

    對(duì)于文本分類的結(jié)果,主要有2個(gè)評(píng)價(jià)指標(biāo):

    1)準(zhǔn)確率,也稱為精度,是指檢索出的相關(guān)文本數(shù)與檢索出的文本總數(shù)的比率,衡量的是分類的查準(zhǔn)率。

    2)召回率,是指檢索出的相關(guān)文本數(shù)與文本庫(kù)中所有相關(guān)文本的比率,衡量的是文本的查全率。

    上述2個(gè)指標(biāo)是相互影響的,最理想的情況下是兩者都高,但是在一般情況下,一個(gè)指標(biāo)高,另一個(gè)指標(biāo)就會(huì)低。

    2 神經(jīng)網(wǎng)絡(luò)在文本分類中的應(yīng)用

    在文本分類中,神經(jīng)網(wǎng)絡(luò)是一組連接的輸入輸出神經(jīng)元,輸入神經(jīng)元代表詞條,輸出神經(jīng)元代表文本類別,神經(jīng)元之間的連接都有相應(yīng)的權(quán)值。在訓(xùn)練階段,通過(guò)正向傳播算法、反向修正算法等多種算法調(diào)整權(quán)值,可使測(cè)試文本能夠根據(jù)調(diào)整后的權(quán)值準(zhǔn)確地學(xué)習(xí),從而得到多個(gè)不同的神經(jīng)網(wǎng)絡(luò)模型,然后將一篇未知類別的文本依次通過(guò)這些神經(jīng)網(wǎng)絡(luò)模型得到不同的輸出值,并通過(guò)比較最終確定文本的類別。應(yīng)用神經(jīng)網(wǎng)絡(luò)可以利用網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)獲取文本特征解決分類問(wèn)題[4],避免了繁雜的人工特征工程。

    2.1 卷積神經(jīng)網(wǎng)絡(luò)

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)本質(zhì)上就是多層卷積運(yùn)算,外加對(duì)每層的輸出用非線性激活函數(shù)做轉(zhuǎn)換。在傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)把每個(gè)輸入神經(jīng)元與下一層的輸出神經(jīng)元相連接,這種方式也被稱作是全連接層。而在卷積神經(jīng)網(wǎng)絡(luò)中,則是用輸入層的卷積結(jié)果來(lái)計(jì)算輸出,這相當(dāng)于局部連接,每塊局部的輸入?yún)^(qū)域與輸出的一個(gè)神經(jīng)元相連接,對(duì)每一層應(yīng)用不同的濾波器,然后匯總結(jié)果。

    文獻(xiàn)[5]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類問(wèn)題中,提出了TextCNN模型。如圖1所示,該模型的結(jié)構(gòu)為:輸入層是一個(gè)表示句子的矩陣,每一行是句子中一個(gè)單詞的詞向量,此處使用的是Google的word2vec[6],卷積層由若干個(gè)濾波器組成,在最大池化層之后,利用SoftMax函數(shù)處理池化層的輸出進(jìn)行分類。該文也嘗試了2種不同形式的通道,分別是動(dòng)態(tài)和靜態(tài)詞向量,其中一個(gè)通道在訓(xùn)練時(shí)動(dòng)態(tài)調(diào)整而另一個(gè)不變。

    圖1 TextCNN模型示意圖Fig.1 TextCNN model schematic diagram

    文獻(xiàn)[7]在TextCNN模型的基礎(chǔ)提出了改進(jìn)的DCNN模型,模型仍然是基于卷積的,在每一層卷積操作之后增加一個(gè)最大池化操作,同時(shí)對(duì)池化層進(jìn)行了優(yōu)化,不是傳統(tǒng)地選出最大值,而是動(dòng)態(tài)地選出最大的k個(gè)值。

    利用卷積神經(jīng)網(wǎng)絡(luò)做文本分類時(shí),需要先選擇一定尺寸的滑動(dòng)窗口,然后使用濾波器每次選取一個(gè)特征組成特征圖,最后利用池化操作選擇出最重要的特征用于分類。對(duì)于該過(guò)程,滑動(dòng)窗口大小的

    選取是關(guān)鍵,如果過(guò)小則會(huì)導(dǎo)致不能獲取長(zhǎng)距離的語(yǔ)句信息,如果過(guò)大則會(huì)導(dǎo)致數(shù)據(jù)十分稀疏。

    為解決滑動(dòng)窗口尺寸的問(wèn)題,與DCNN的動(dòng)態(tài)池化不同,文獻(xiàn)[8]提出的MVCNN模型利用尺寸動(dòng)態(tài)改變的濾波器來(lái)處理文本,獲得長(zhǎng)度不同的子句,從而可以提取多粒度的短語(yǔ)特征。此外,詞向量對(duì)于句子的表示以及分類效果有著很大的影響,該文結(jié)合了skip-gram、GloVe[9]和C&W[10]3種表現(xiàn)較好的詞向量方法,將它們看作單詞的不同表示,從而可以包含比單一詞向量更為豐富的信息,提取出更高質(zhì)量的語(yǔ)句特征,進(jìn)而提高分類效果。

    上文介紹的模型都是在單詞或者短語(yǔ)層面上對(duì)文本進(jìn)行處理。文獻(xiàn)[11]則將卷積神經(jīng)網(wǎng)絡(luò)模型直接用于字符層面,提取出更高層次的抽象概念,提出char-CNN模型。該文首先構(gòu)建字母表,使用one-hot編碼的69個(gè)字符外加一個(gè)全零向量,共70個(gè)字符。同時(shí)提出large和small兩種規(guī)模的神經(jīng)網(wǎng)絡(luò),都由6個(gè)卷積層和3個(gè)全連接層總共9層神經(jīng)網(wǎng)絡(luò)組成,使用一維卷積神經(jīng)網(wǎng)絡(luò)。從字符層面分類的優(yōu)點(diǎn)是不需要使用預(yù)訓(xùn)練的詞向量和語(yǔ)法句法結(jié)構(gòu)等信息,而且容易推廣到所有語(yǔ)言。

    2.2 時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)

    在一段文本中,每個(gè)單詞并不是完全獨(dú)立的,詞與詞之間是連續(xù)的,文本的語(yǔ)義與單詞的順序也是有關(guān)系的。但是利用卷積神經(jīng)網(wǎng)絡(luò)解決文本分類時(shí)并沒(méi)有考慮到詞序問(wèn)題,對(duì)語(yǔ)義的理解存在偏差。時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一種對(duì)序列數(shù)據(jù)建模的神經(jīng)網(wǎng)絡(luò),即一個(gè)序列當(dāng)前的輸出不僅與當(dāng)前的輸入有關(guān),與前面的輸出也有關(guān),因此,具有記憶功能的RNN可以很好地解決文本分類問(wèn)題,而可以學(xué)習(xí)長(zhǎng)期依賴信息的LSTM更是一種應(yīng)用十分廣泛的時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),其中的交互神經(jīng)網(wǎng)絡(luò)層如圖2所示。

    圖2 LSTM重復(fù)模塊中的交互神經(jīng)網(wǎng)絡(luò)層Fig.2 Interactive neural network layer in repetitive LSTM module

    LSTM雖然可以保存序列信息,但是后面信息的重要性要強(qiáng)于前面的信息,然而在一段文本中對(duì)分類結(jié)果起重要作用的信息并不一定出現(xiàn)在后半部分,雙向LSTM則是從2個(gè)方向?qū)ξ谋具M(jìn)行處理從而可以更好地包含每個(gè)單詞的上下文信息,因此,利用LSTM進(jìn)行分本分類應(yīng)用更為廣泛。此外,在LSTM的研究及應(yīng)用過(guò)程中衍生出了許多改進(jìn),其中門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)可以捕獲更長(zhǎng)距離的依賴信息,因此也得到了廣泛的應(yīng)用。

    為進(jìn)一步提高語(yǔ)句表示的效果,文獻(xiàn)[12]提出了一種樹(shù)形的長(zhǎng)短期記憶網(wǎng)絡(luò)模型Tree-LSTM,與標(biāo)準(zhǔn)LSTM隱藏狀態(tài)由當(dāng)前輸入和前一階段隱藏狀態(tài)組成相比,Tree-LSTM的當(dāng)前隱藏狀態(tài)由當(dāng)前的輸入向量和任意個(gè)子單元的隱藏狀態(tài)組成。標(biāo)準(zhǔn)LSTM模型可以看作是該模型的特例,即每個(gè)節(jié)點(diǎn)只存在單個(gè)子單元。該模型在語(yǔ)義相關(guān)性測(cè)試和情感分類中都取得了較好的效果。

    文獻(xiàn)[13]提出密集連接的雙向LSTM(DC-Bi-LSTM)模型用于文本分類。對(duì)于輸入的一段文本,首先使用雙向LSTM進(jìn)行編碼,并將隱藏狀態(tài)序列作為每一層的reading memory。原始輸入作為第1層的reading memory,然后將原始輸入和第1層的輸出位置做級(jí)聯(lián)操作,作為第2層的輸入,以此類推,最終得到第n層的輸出并作最后分類的特征表示。該模型解決了梯度消失和過(guò)擬合問(wèn)題,最多可成功訓(xùn)練20層并且需要的參數(shù)較少。

    2.3 卷積神經(jīng)網(wǎng)絡(luò)與時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)合

    CNN利用最大池化層可以很好地判斷文章中的重要單詞,但是滑動(dòng)窗口尺寸的選擇是一個(gè)問(wèn)題,同時(shí)CNN也缺乏學(xué)習(xí)與順序相關(guān)的知識(shí)的能力,而RNN可以順序建模,但是無(wú)法以并行的方式提取特征,同時(shí)也是有偏模型。考慮到2種網(wǎng)絡(luò)的特點(diǎn),研究者從不同角度將兩者結(jié)構(gòu)進(jìn)行了結(jié)合,提出了多種新的分類模型。

    文獻(xiàn)[14]提出了RCNN模型,在學(xué)習(xí)語(yǔ)句表示時(shí)運(yùn)用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)的雙向循環(huán)結(jié)構(gòu)來(lái)最大限度獲取文本信息,然后利用卷積神經(jīng)網(wǎng)絡(luò)的最大池化層判定哪個(gè)特征在文本分類中起著更重要的作用。該模型通過(guò)結(jié)合RNN的遞歸結(jié)構(gòu)和CNN的最大池化層,同時(shí)利用了2種神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)。

    文獻(xiàn)[15]提出了C-LSTM模型。首先在大量無(wú)標(biāo)簽文本數(shù)據(jù)預(yù)訓(xùn)練得到的詞向量上構(gòu)建CNN,學(xué)習(xí)N-Gram的更高級(jí)表示,然后從更高層次的語(yǔ)句表示中學(xué)習(xí)與次序有關(guān)的知識(shí),將經(jīng)過(guò)卷積操作得到的特征窗口組織成有序的形式,把相同濾波器提取到的特征放在一起,然后依次排列作為L(zhǎng)STM的輸入,從而綜合利用CNN和RNN的優(yōu)勢(shì)。

    文獻(xiàn)[16]提出BLSTM-2DPooling和BLSTM-2DCNN模型。首先用雙向LSTM網(wǎng)絡(luò)將文本轉(zhuǎn)化為向量形式,然后使用二維的最大池化操作獲得長(zhǎng)度固定的向量,再利用二維卷積操作獲取輸入文本的特征表示用于分類。通過(guò)雙向LSTM網(wǎng)絡(luò)處理文本可以獲取文本較完整的上下文信息,然后利用卷積和最大池化操作提取出最重要的信息。

    文獻(xiàn)[17]將基于CNN的“region embedding+pooling”模式引入到LSTM中,使得RNN在對(duì)全局的把控以及訓(xùn)練時(shí)間上都得到了優(yōu)化。優(yōu)化主要體現(xiàn)在以下3個(gè)方面:

    1)消除了詞向量層,直接使用one-hot作為輸入。

    2)增加了池化,LSTM模型的一個(gè)缺點(diǎn)是最后一個(gè)隱層必須很好地概括全局,但是文本很長(zhǎng)時(shí)很難達(dá)到,因此,此處不再以最后的向量作為輸出,而是以每個(gè)時(shí)刻的輸出共同進(jìn)行池化來(lái)得到一個(gè)全局性的輸出。

    3)分塊,將長(zhǎng)段的文本分為若干個(gè)小段落,每個(gè)段落用LSTM來(lái)進(jìn)行特征提取,然后用前面提到的池化操作來(lái)處理。

    文獻(xiàn)[18]將一個(gè)卷積層建在LSTM上,提出了DSCNN模型。對(duì)于單個(gè)語(yǔ)句,首先使用LSTM處理詞向量來(lái)獲取語(yǔ)句內(nèi)部長(zhǎng)距離的依賴信息,隱藏單元被抽取出來(lái)組成低級(jí)別的表示,然后用一個(gè)含有不同尺寸的濾波器和最大池化操作的卷積層來(lái)提取用于分類任務(wù)的特征。對(duì)于文章的建模,首先使用LSTM對(duì)每個(gè)子語(yǔ)句進(jìn)行建模,然后在第1個(gè)LSTM層和卷積層之間添加第2個(gè)LSTM層來(lái)編碼不同語(yǔ)句之間的依賴信息。

    2.4 結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)

    結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)是一類用結(jié)構(gòu)遞歸的方式構(gòu)建的網(wǎng)絡(luò),在自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)分析方法中常用于解析語(yǔ)句。單個(gè)詞的語(yǔ)義向量空間廣泛被用作特征,但它不能很好地表示長(zhǎng)語(yǔ)句的意義,因此,語(yǔ)義向量空間的組合性得到研究者的廣泛關(guān)注。在此背景下,文獻(xiàn)[19]提出了RNTN模型,模型將任意長(zhǎng)度的短語(yǔ)作為輸入,把短語(yǔ)表示成詞向量和解析樹(shù),然后用相同的張量組合函數(shù)計(jì)算高層節(jié)點(diǎn)的向量。文獻(xiàn)[20]提出DRNN模型,將多個(gè)遞歸層堆積在一起,在每一層都有一個(gè)額外的處理結(jié)構(gòu),在前向傳播過(guò)程中,信息會(huì)通過(guò)每一層的這一結(jié)構(gòu)。結(jié)構(gòu)中的每一個(gè)節(jié)點(diǎn)都將它的隱藏狀態(tài)傳遞給下一層的對(duì)應(yīng)部分,可以看作是前向反饋和遞歸網(wǎng)絡(luò)的結(jié)合。結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)在構(gòu)建句子表示方面具有很好的效果,但是也取決于文章的樹(shù)結(jié)構(gòu),而且時(shí)間復(fù)雜度較高,不適合構(gòu)建長(zhǎng)語(yǔ)句或者文檔。

    2.5 預(yù)訓(xùn)練模型

    預(yù)訓(xùn)練的詞向量給文本分類效果帶來(lái)了很大的改善,但也存在局限性,它們僅包含模型第1層的先驗(yàn)知識(shí),網(wǎng)絡(luò)的其余部分還需要重新訓(xùn)練。在計(jì)算機(jī)視覺(jué)領(lǐng)域中,預(yù)訓(xùn)練整個(gè)模型以獲得初級(jí)和高級(jí)特征已經(jīng)采用多年,通常預(yù)訓(xùn)練模型是在ImageNet大型數(shù)據(jù)集上訓(xùn)練圖像分類而獲得的。受此啟發(fā),將語(yǔ)言建模作為預(yù)訓(xùn)練任務(wù)得到了廣泛探索。ELMo[21]和OpenAI Transformer[22]模型經(jīng)實(shí)驗(yàn)證明可以取得良好的效果。文獻(xiàn)[23]提出的基于雙向Transformer的模型BERT則進(jìn)一步提高了多項(xiàng)自然語(yǔ)言處理任務(wù)的性能。因此,預(yù)訓(xùn)練模型將會(huì)在自然語(yǔ)言處理領(lǐng)域造成廣泛而深刻的影響。

    2.6 其他神經(jīng)網(wǎng)絡(luò)方法

    文獻(xiàn)[24]提出了快速的文本分類器fasttext,其由word2vec衍生而來(lái),模型架構(gòu)與word2vec的CBOW架構(gòu)類似,同時(shí)還引入了層次SoftMax和N-Gram特征。該模型的優(yōu)點(diǎn)是在保證分類效果的情況下能夠快速地學(xué)習(xí)和完成分類任務(wù)。

    文獻(xiàn)[25]提出分層注意網(wǎng)絡(luò)模型HAN。鑒于在文章結(jié)構(gòu)中是單詞組成語(yǔ)句、語(yǔ)句組成文章這種分層機(jī)制,因此,在文章表示中也采用先構(gòu)建語(yǔ)句表示,再將語(yǔ)句表示合并為文檔表示的分層結(jié)構(gòu)。此外,根據(jù)不同的單詞和語(yǔ)句在文檔中的重要性不同,提出了單詞級(jí)別和語(yǔ)句級(jí)別2種不同的注意力機(jī)制,對(duì)不同的獨(dú)立單詞和語(yǔ)句賦予不同的重要性,從而更好地提升文本分類效果。

    將詞轉(zhuǎn)化為向量有2種常用方式,其中考慮語(yǔ)法順序的方法表現(xiàn)更好但是需要更長(zhǎng)的訓(xùn)練時(shí)間,特別是數(shù)據(jù)集非常大或者計(jì)算資源有限時(shí)無(wú)法使用。文獻(xiàn)[26]提出一種深度無(wú)序模型DAN,首先取與輸入的字符序列相關(guān)的詞向量的平均值,然后將平均值傳入一個(gè)或多個(gè)前向反饋層,并在最后的表示層中進(jìn)行分類。模型還可以通過(guò)在計(jì)算平均值前隨機(jī)丟棄一些向量實(shí)現(xiàn)性能優(yōu)化。

    3 模型性能分析

    本節(jié)主要列出了文本分類任務(wù)中常用的公開(kāi)數(shù)據(jù)集以及各類神經(jīng)網(wǎng)絡(luò)模型在這些數(shù)據(jù)集上的分類效果,以分類的準(zhǔn)確率作為評(píng)價(jià)的依據(jù)。數(shù)據(jù)集中既包括了電影評(píng)論MR[27]、SST-1[28]、SST-2、主觀性測(cè)試Subj[29]等分類類別較少的情感極性測(cè)試數(shù)據(jù)集,同時(shí)也包括新聞分類20NewsGroup[30]、AG、Sogou[31]、問(wèn)題分類TREC[32]、商品評(píng)分Amazon[33]等分類結(jié)果較多的數(shù)據(jù)集。具體分類效果如表1所示。

    表1 各類神經(jīng)網(wǎng)絡(luò)模型的分類準(zhǔn)確率對(duì)比Table 1 Comparison of classification accuracy of various neural network models %

    分析表1中數(shù)據(jù)可知,對(duì)于分類類別較少的情感極性測(cè)試數(shù)據(jù)集,采用密集連接的雙向LSTM的DC-Bi-LSTM模型表現(xiàn)最為出色,即使在五分類的SST-1和六分類的TREC數(shù)據(jù)集上的準(zhǔn)確率也與最好效果十分接近。此外,使用雙向LSTM的BLSTM-2DCNN模型的表現(xiàn)也較為突出。由此可見(jiàn),雙向LSTM對(duì)于文本表示效果較好,既獲取了長(zhǎng)距離的依賴信息,其雙向的結(jié)構(gòu)又可以更好地包含每個(gè)詞的上下文信息。但由于結(jié)構(gòu)復(fù)雜,雙向LSTM通常需要很長(zhǎng)的訓(xùn)練時(shí)間,訓(xùn)練成本高,在數(shù)據(jù)集規(guī)模較大的情況下這個(gè)問(wèn)題尤為突出。

    對(duì)于新聞分類數(shù)據(jù)集,從表1中可以看出fasttext模型取得了很好的效果,該模型的優(yōu)點(diǎn)在于結(jié)構(gòu)簡(jiǎn)單,而且分類效果也相對(duì)令人滿意,在對(duì)時(shí)效性要求較高的情況下是不錯(cuò)的選擇。

    相較于圖像領(lǐng)域,CNN在文本分類方面并不具備明顯的優(yōu)勢(shì),雖然與傳統(tǒng)的分類方法相比性能已有了較大的提升,但即使對(duì)結(jié)構(gòu)進(jìn)行改進(jìn)之后效果依然要比LSTM差,這可能與文本數(shù)據(jù)本身的特點(diǎn)有關(guān)。即便如此,CNN在文本方面依然可以發(fā)揮重要的作用,從表1中數(shù)據(jù)可以看出,將CNN與RNN結(jié)合之后在某些數(shù)據(jù)集上可以達(dá)到所有模型中的最佳效果,因此,在探索新的網(wǎng)絡(luò)結(jié)構(gòu)時(shí)也是不可忽視的一部分。

    上述實(shí)驗(yàn)結(jié)果基本都是利用英文數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),但這些模型同樣也適用于中文數(shù)據(jù)集,而且也能達(dá)到很好的效果。在應(yīng)用神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類時(shí),首先要通過(guò)空間向量模型將文本轉(zhuǎn)化為由數(shù)字組成的向量,然后再利用各種結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)對(duì)向量進(jìn)行處理獲得最終的分類結(jié)果。因此,中文文本分類與英文的差別主要在于數(shù)據(jù)的預(yù)處理部分以及轉(zhuǎn)化后所獲得的詞向量。應(yīng)用上述模型解決中文文本分類時(shí),需要利用中文的語(yǔ)料庫(kù)和word2vec等工具訓(xùn)練得到可用的詞向量,BERT預(yù)訓(xùn)練模型開(kāi)發(fā)者也已公布了中文模型,可以供研究者直接使用。數(shù)據(jù)集方面常用的主要有清華大學(xué)和復(fù)旦大學(xué)整理的新聞分類數(shù)據(jù)集以及用于情感分析的新浪微博數(shù)據(jù)集和京東商品評(píng)論數(shù)據(jù)集等。

    4 結(jié)束語(yǔ)

    本文總結(jié)當(dāng)前用于文本分類任務(wù)的主流神經(jīng)網(wǎng)絡(luò),介紹不同網(wǎng)絡(luò)的應(yīng)用和研究進(jìn)展,并對(duì)比其在常用數(shù)據(jù)集上的分類效果。分析結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)[34]、時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)[35]和以O(shè)penAI Transformer為代表的預(yù)訓(xùn)練模型分類效果較好,而預(yù)訓(xùn)練模型在特征抽取和并行計(jì)算方面的綜合表現(xiàn)更為優(yōu)異,是未來(lái)的主要發(fā)展趨勢(shì)。同時(shí),對(duì)三者各取所長(zhǎng)進(jìn)行組合,以及借鑒神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域的研究成果,也將是文本分類方法的改進(jìn)方向。

    猜你喜歡
    語(yǔ)句卷積向量
    向量的分解
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    聚焦“向量與三角”創(chuàng)新題
    重點(diǎn):語(yǔ)句銜接
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    精彩語(yǔ)句
    向量垂直在解析幾何中的應(yīng)用
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
    丘北县| 昌图县| 绥宁县| 岑巩县| 景宁| 三原县| 景东| 同仁县| 玉田县| 兴化市| 玉树县| 攀枝花市| 江油市| 天门市| 当阳市| 庐江县| 仙游县| 开封县| 宿迁市| 区。| 阳东县| 德清县| 内丘县| 富宁县| 阳曲县| 扎囊县| 闽清县| 苍梧县| 阳高县| 黔江区| 永修县| 庆城县| 南汇区| 台东县| 曲水县| 孙吴县| 揭西县| 陇南市| 开鲁县| 辉县市| 全州县|