• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于神經(jīng)網(wǎng)絡(luò)的二進(jìn)制文本特征提取*

      2019-12-11 02:23:22威,范
      通信技術(shù) 2019年12期
      關(guān)鍵詞:詞匯表二進(jìn)制特征提取

      衡 威,范 磊

      (上海交通大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,上海 200240)

      0 引 言

      文檔特征可以用于文檔的聚類、分類以及相似度分析等領(lǐng)域。已有的文檔特征提取算法包括來(lái)源于自然語(yǔ)言處理領(lǐng)域的詞袋模型、文檔主題模型以及近年來(lái)常用的神經(jīng)網(wǎng)絡(luò)相關(guān)特征提取方法等。已有的特征提取方法首先需要完成對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,主要包括分詞、停用詞的過(guò)濾等。文檔特征提取依賴于解析后的純文本內(nèi)容,因此在實(shí)際應(yīng)用中需要對(duì)獲取的各種格式文檔做文本內(nèi)容解析,以便獲取其中包含的文本信息。

      與此對(duì)應(yīng),文本數(shù)據(jù)在計(jì)算機(jī)中是以二進(jìn)制形式存儲(chǔ)的,不同的文檔類型對(duì)信息的保存格式各不相同。如果直接以二進(jìn)制形式對(duì)文檔數(shù)據(jù)進(jìn)行特征提取,可以免去對(duì)文檔的恢復(fù),具有對(duì)不同文件格式的普適性。本文提出了一種基于滑動(dòng)窗口的二進(jìn)制文檔取詞算法,可實(shí)現(xiàn)二進(jìn)制文檔的直接特征分析。

      相較于傳統(tǒng)的特征提取方法如詞袋模型等,神經(jīng)網(wǎng)絡(luò)用來(lái)做特征提取所能處理的數(shù)據(jù)量更大,維度更高,效果也更好[1]。而二進(jìn)制文本經(jīng)過(guò)滑動(dòng)窗口的取詞后,會(huì)有數(shù)據(jù)量的激增和維度的爆炸。因此,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的二進(jìn)制文件特征提取算法實(shí)現(xiàn)特征的降維。

      本文模型先使用滑動(dòng)窗口做取詞處理,使用TFIDF生成每篇文章的關(guān)鍵詞及其權(quán)重,選取權(quán)重值較高的部分生成詞匯表;再使用Word2vec生成相應(yīng)的詞向量替換卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)中原本的One-hot編碼,按照詞匯表生成每篇文章對(duì)應(yīng)的向量,并將降維后的特征向量輸出。綜合考慮二進(jìn)制文本數(shù)據(jù)的本身的特點(diǎn),使用THUCNews的一個(gè)子集并將其轉(zhuǎn)化成二進(jìn)制的格式后作為實(shí)驗(yàn)數(shù)據(jù),使用模型生成特征并用其做分類訓(xùn)練驗(yàn)證效果。

      1 研究背景

      本文的特征提取主要針對(duì)二進(jìn)制文本進(jìn)行,希望能提取出該序列的主要成分即特征。特征提取本身是一個(gè)降維的過(guò)程,其中一組原始變量被簡(jiǎn)化為更易于管理的組(特征)進(jìn)行處理,同時(shí)仍然準(zhǔn)確、完整地描述原始數(shù)據(jù)集[2]。在已有的特征提取研究中,最接近的是自然語(yǔ)言處理技術(shù)(Natural Language Processing,NLP)中所用到的特征提取,因?yàn)橥瑯邮菍?duì)一個(gè)序列進(jìn)行特征提取。

      1.1 傳統(tǒng)自然語(yǔ)言處理文本特征提取模型

      1.1.1 One-hot編碼相關(guān)特征提取

      以英文為例,一個(gè)文本可以簡(jiǎn)單被理解為詞語(yǔ)的線形序列。一個(gè)one-hot編碼的文本是一個(gè)多維向量,向量的維度是所有出現(xiàn)過(guò)的詞語(yǔ),而每一個(gè)維度的值為0或者1。0表示該詞在該本文中沒(méi)有出現(xiàn),1則相反[3]。

      1.1.2 詞袋模型

      詞袋模型是抽象文檔或句子的稀疏矩陣編碼。它本身在各種文章理解中都作為高效的處理方法而存在?;谏鲜龅膐ne-hot編碼,每一個(gè)文檔D可以被簡(jiǎn)化為N×M矩陣。其中N為此文檔的詞語(yǔ)數(shù)量,M為語(yǔ)料庫(kù)的詞匯總數(shù)。對(duì)于這個(gè)文檔,有:

      詞袋抽象模型:

      可以看到,詞袋模型直接完成了詞匯的相加而去除了詞匯順序的信息。一個(gè)人在理解句子意思時(shí),如果句子的詞語(yǔ)順序被打亂,通常情況下人并不會(huì)產(chǎn)生理解障礙[4]。

      1.2 基于神經(jīng)網(wǎng)絡(luò)的特征提取方法

      現(xiàn)今深度學(xué)習(xí)蓬勃發(fā)展,特別是在計(jì)算機(jī)視覺(jué)領(lǐng)域,許多前沿的研究已經(jīng)能利用神經(jīng)網(wǎng)絡(luò)提取圖片的各種特征。針對(duì)自然語(yǔ)言處理問(wèn)題,學(xué)界也研發(fā)了許多相應(yīng)的深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)提取其特征[5]。

      1.2.1 RNN文本特征提取

      傳統(tǒng)的全連接網(wǎng)絡(luò)是由一個(gè)輸入層向量、一個(gè)輸出層向量和多個(gè)隱藏層向量線性排布組成的神經(jīng)網(wǎng)絡(luò),在處理定維特征問(wèn)題可以起到一定的效果。而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在全連接網(wǎng)絡(luò)的基礎(chǔ)上,在部分隱藏層加入回環(huán),而一個(gè)隱藏層的輸出會(huì)被保留作為下一次處理的輸入。這種設(shè)計(jì)起到了信息保留的作用。自然語(yǔ)言文本作為以詞匯為單位的序列時(shí)非常適合RNN處理,且其意味著考慮了語(yǔ)序[6]。

      1.2.2 LSTM文本特征提取

      長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是一種RNN的變體。由于傳統(tǒng)的RNN只有1單位的延時(shí)單元,詞語(yǔ)的相關(guān)性并沒(méi)有被很好記憶[7]。一旦一個(gè)重要信息是跨段落的關(guān)聯(lián)性存在時(shí),隨著梯度擴(kuò)散傳播,遠(yuǎn)處的詞匯影響力會(huì)持續(xù)減小。LSTM在RNN的基礎(chǔ)上將RNN中的節(jié)點(diǎn)替換成一種專用的單元,以更具有選擇性地記憶信息,提升處理效果。LSTM的核心概念是單元(Cell)狀態(tài)和各種門[8]。

      1.2.3 Word2vec

      Word2vec是由Google提出的一個(gè)詞匯向量化方案。相比one-hot編碼,Word2vec可以借助語(yǔ)料庫(kù)信息,將詞匯從高維的稀疏矩陣轉(zhuǎn)化成低維的稠密矩陣[9]。

      Word2vec目前主要有CBOW和skip-gram兩種訓(xùn)練方式。如圖1所示的兩種模型,CBOW模型以一個(gè)中心詞對(duì)應(yīng)的上下文的單詞作為輸入,以該中心詞作為輸出進(jìn)行訓(xùn)練,相當(dāng)于預(yù)測(cè)在給定的上下文情況下最有可能出現(xiàn)的單詞為哪個(gè)[10];而skipgram訓(xùn)練詞向量主要通過(guò)以一個(gè)單詞作為輸入,然后預(yù)測(cè)它的上下文單詞來(lái)實(shí)現(xiàn)。這種方法可以使用生成的向量快速比較詞距,也可以在這個(gè)詞匯集范圍內(nèi)量化相同詞根的不同形式之間的關(guān)系。

      圖1 CBOW模型和skip-gram 模型

      1.2.4 Text-CNN

      CNN最初用于處理圖像問(wèn)題,但是在自然語(yǔ)言處理中,使用CNN進(jìn)行文本分類也可以取得良好效果。文本中,每個(gè)詞都可以用一個(gè)行向量表示,一句話可以用一個(gè)矩陣來(lái)表示,那么處理文本就與處理圖像類似。該模型由Kim在2013年提出[11],通過(guò)驗(yàn)證實(shí)驗(yàn)和業(yè)界的共識(shí),在文本分類任務(wù)中此模型已經(jīng)能夠取到較好的結(jié)果。雖然在某些數(shù)據(jù)集上效果可能會(huì)比RNN稍差,但是CNN模型訓(xùn)練的效率更高。所以,一般認(rèn)為CNN模型在文本分類任務(wù)中是兼具效率與質(zhì)量的理想模型。Text-CNN模型的整體網(wǎng)絡(luò)架構(gòu)由輸入層、卷積層、池化層和全連接層4部分構(gòu)成。

      2 方案設(shè)計(jì)

      模型流程如圖2所示。獲取二進(jìn)制文本數(shù)據(jù)后,使用合適大小及步長(zhǎng)的滑動(dòng)窗口對(duì)每個(gè)二進(jìn)制文檔做取詞處理;取詞后內(nèi)容劇增,使用TFIDF生成每篇文章的關(guān)鍵詞及其權(quán)重,選取權(quán)重值較高的前8 000個(gè)生成詞匯表;再使用Word2vec生成相應(yīng)的詞向量替換CNN中原本的One-hot編碼,按照詞匯表生成每篇文章對(duì)應(yīng)的向量,之后使用CNN對(duì)生成的向量做降維處理,并將其作為最后的特征進(jìn)行輸出,最后使用機(jī)器學(xué)習(xí)的分類算法進(jìn)行特征好壞的驗(yàn)證。

      圖2 方案流程

      2.1 滑動(dòng)窗口取詞

      滑動(dòng)窗口取詞算法是本文的主要?jiǎng)?chuàng)新點(diǎn)之一,目前以及傳統(tǒng)的取詞算法都是基于特定的語(yǔ)料庫(kù)。而對(duì)文本二進(jìn)制化后,已經(jīng)是對(duì)文本內(nèi)容的一種模糊化處理,這種情況下沒(méi)有合適的語(yǔ)料庫(kù)來(lái)做取詞處理。但是,在UTF-8的編碼中,中文文本中的一個(gè)漢字基本上用3 Bytes表示,像“體育”對(duì)應(yīng)的二進(jìn)制編碼為“xe4xbdx93xe8x82xb2”。因此,考慮到中文詞匯大小和盡可能保持語(yǔ)義的問(wèn)題,最終取詞算法采用加窗方式對(duì)二進(jìn)制文本進(jìn)行取詞處理。使用一個(gè)固定長(zhǎng)度的“窗口”,在二進(jìn)制形式下遍歷文章,從頭到尾滑動(dòng),窗口內(nèi)的內(nèi)容為所要提取的一個(gè)詞匯,每次移動(dòng)指定大小的步長(zhǎng),滑動(dòng)后到達(dá)新的位置,此時(shí)窗口內(nèi)的內(nèi)容為下一個(gè)要取的詞匯。當(dāng)遍歷完整篇文章后,完成對(duì)該文章的取詞工作,從而生成該文章比較有代表性的二進(jìn)制詞匯內(nèi)容。

      例如,對(duì)于一段序列0x4fff20da002f,取窗長(zhǎng)window size為4,步長(zhǎng)step為2,那么詞匯會(huì)被切割為 0x4fff、0xff20、0x20da、0xda00和 0x002f。窗長(zhǎng)不宜過(guò)長(zhǎng),最終采用的窗口大小是6 Bytes,因?yàn)樵赨TF-8編碼中一個(gè)漢字是3 Bytes,6 Bytes相當(dāng)于一個(gè)詞語(yǔ),步長(zhǎng)是1 Bytes,對(duì)于效率與結(jié)果都比較均衡,如圖3所示。

      圖3 二進(jìn)制文件取詞示意

      但是,由于步長(zhǎng)大小的限制和窗長(zhǎng)的設(shè)定,最終的取詞結(jié)果會(huì)產(chǎn)生一定程度上的冗余而導(dǎo)致空間爆發(fā),如原本1 MB的文件經(jīng)過(guò)取詞以后可能會(huì)變成14 MB。但在后續(xù)詞匯表的構(gòu)建中可通過(guò)詞頻的統(tǒng)計(jì)和篩選來(lái)減少詞匯的冗余。

      2.2 TFIDF生成詞匯表

      由于上文的取詞處理使得每篇文檔的大小及內(nèi)容都成倍擴(kuò)增,通過(guò)觀察取詞后的數(shù)據(jù),發(fā)現(xiàn)一些詞重復(fù)出現(xiàn)且并沒(méi)有實(shí)際意義,如表示空格的x00。因此先使用TFIDF對(duì)所有的文本進(jìn)行初步訓(xùn)練,生成每一篇文章的關(guān)鍵詞及其對(duì)應(yīng)的權(quán)重。

      TFIDF是一種常見(jiàn)的文檔特征提取算法,基本原理是在一個(gè)文檔庫(kù)中降低泛用詞的權(quán)重而提高專有詞權(quán)重。詞頻表示特定詞語(yǔ)出現(xiàn)在文中的頻率。為了使不同長(zhǎng)度的文章比重差不多,需要對(duì)該文章的詞數(shù)做歸一化處理。對(duì)于某一特定文件的詞語(yǔ),它的重要性可以表示為:

      式中的ni,j指這個(gè)詞在文件dj中出現(xiàn)的次數(shù),而下面的分母表示所有詞匯在文件中出現(xiàn)的總次數(shù)。

      逆向文件頻率(Inverse Document Frequency)是一個(gè)詞語(yǔ)在整個(gè)語(yǔ)料庫(kù)中重要程度的表示。某一特定詞語(yǔ)的idf可以表示為:

      其中|D|指語(yǔ)料庫(kù)中文件的總個(gè)數(shù),|{ j:ti∈dj}|指包含詞語(yǔ)的文件數(shù)目。如果該詞語(yǔ)不在語(yǔ)料庫(kù)中,導(dǎo)致分母為0。因此,一般情況下使用1+|{ j:ti∈dj}|。然后,有:

      某一特定文章內(nèi)的高頻詞匯以及在整個(gè)語(yǔ)料庫(kù)出現(xiàn)較少的詞匯,可以產(chǎn)生高權(quán)重的TFIDF。因此,常見(jiàn)詞語(yǔ)的TFIDF一般較低,而重要的詞語(yǔ)會(huì)相對(duì)較高。

      訓(xùn)練完成后,將所有的關(guān)鍵詞按權(quán)重從大到小進(jìn)行排序,選取前8 000個(gè)作為詞匯表,之后使用詞匯表中每個(gè)詞匯對(duì)應(yīng)的ID與每篇文章中的詞匯替換,初步生成該文章對(duì)應(yīng)的向量。同時(shí)去除無(wú)意義的、非關(guān)鍵性的詞匯做初步降維。這是本文的一個(gè)創(chuàng)新點(diǎn)。

      2.3 Word2vec

      Word2vec主要用來(lái)訓(xùn)練數(shù)據(jù)集生成其對(duì)應(yīng)的詞向量來(lái)嵌入到后續(xù)步驟CNN模型中的詞嵌入層來(lái)替代原本的One-hot編碼。其采用3層的神經(jīng)網(wǎng)絡(luò),如圖4所示,包含輸入層、隱層和輸出層。核心技術(shù)是根據(jù)詞語(yǔ)出現(xiàn)的頻率用Huffman編碼,使得所有詞頻相似的詞在隱藏層激活的內(nèi)容基本一致。出現(xiàn)頻率越高的詞語(yǔ),激活的隱藏層數(shù)目越少,有效降低了計(jì)算的復(fù)雜度[12]。

      圖4 Word2vec結(jié)構(gòu)

      流程如下:

      (1)分詞-滑動(dòng)窗口完成取詞;

      (2)構(gòu)造詞典,統(tǒng)計(jì)詞頻。這一步需要遍歷所有文本,找出所有出現(xiàn)過(guò)的詞,并統(tǒng)計(jì)各詞的出現(xiàn)頻率。

      (3)構(gòu)造樹(shù)形結(jié)構(gòu)。依照出現(xiàn)概率構(gòu)造Huffman樹(shù)。

      (4)生成節(jié)點(diǎn)所在的二進(jìn)制碼。

      (5)初始化各非葉節(jié)點(diǎn)的中間向量和葉節(jié)點(diǎn)的詞向量。樹(shù)中的各個(gè)節(jié)點(diǎn)都存儲(chǔ)著一個(gè)長(zhǎng)為m的向量,但葉節(jié)點(diǎn)和非葉結(jié)點(diǎn)中的向量含義不同。葉節(jié)點(diǎn)中存儲(chǔ)的是各詞的詞向量,作為神經(jīng)網(wǎng)絡(luò)的輸入;而非葉結(jié)點(diǎn)中存儲(chǔ)的是中間向量,對(duì)應(yīng)于神經(jīng)網(wǎng)絡(luò)中隱含層的參數(shù),與輸入共同決定分類結(jié)果。

      (6)訓(xùn)練中間向量和詞向量。

      2.4 Text-CNN

      Word2vec模型對(duì)取詞好的文檔進(jìn)行詞向量化后,將相應(yīng)的詞向量數(shù)據(jù)嵌入CNN模型的詞嵌入層。該模型主要由輸入層、卷積層、池化層和全連接層4部分構(gòu)成,其中輸入層又叫詞嵌入層。該模型的輸入層需要輸入一個(gè)定長(zhǎng)的文本序列,通過(guò)分析語(yǔ)料集樣本的長(zhǎng)度指定一個(gè)輸入序列的長(zhǎng)度L。比L短的樣本序列需要填充,比L長(zhǎng)的序列需要截取[13]。最終,輸入層輸入的是文本序列中各個(gè)詞匯對(duì)應(yīng)的詞向量。

      卷積層輸入的是一個(gè)表示句子的矩陣,維度為n×d,即每句話共有n個(gè)詞,每個(gè)詞由一個(gè)d維的詞向量表示。假設(shè)Xi:j+i表示Xi到Xi+j個(gè)詞,使用一個(gè)寬度為d、高度為h的卷積核W與Xi:i+h-1(h個(gè)詞)進(jìn)行卷積操作,再使用激活函數(shù)激活得到相應(yīng)的特征ci,則卷積操作可以表示為:

      經(jīng)過(guò)卷積操作后,可以得到一個(gè)n-h+1維的向量c形如:

      在Text-CNN模型的池化層中使用最大值池化(Max-pool),即減少了模型參數(shù),又保證了在不定長(zhǎng)卷基層的輸出上獲得一個(gè)定長(zhǎng)的全連接層的輸入。卷積層與池化層在分類模型的核心作用是特征提取,從輸入的定長(zhǎng)文本序列中,利用局部詞序信息提取初級(jí)特征,并組合初級(jí)的特征為高級(jí)特征,通過(guò)卷積與池化操作省去了傳統(tǒng)機(jī)器學(xué)習(xí)中的特征工程步驟。本文主要使用該模型做特征的降維。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)處理

      為使實(shí)驗(yàn)過(guò)程及結(jié)果更具說(shuō)服力,使用THUCNews的一個(gè)子集作為實(shí)驗(yàn)數(shù)據(jù)集。而THUCNews根據(jù)新浪新聞RSS訂閱頻道2005—2011年間的歷史數(shù)據(jù)篩選過(guò)濾生成,包含74萬(wàn)篇新聞文檔(2.19 GB),均為UTF-8純文本格式,選取其中的部分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn)。文本類別涉及10個(gè)類別,即categories=[‘體育’,’財(cái)經(jīng)’,’房產(chǎn)’,’家居’,’教育’,’科技’,’時(shí)尚’,’時(shí)政’,’游戲’,’娛樂(lè)’],每個(gè)分類6 500條數(shù)據(jù)。訓(xùn)練集每個(gè)種類有5 000條數(shù)據(jù),驗(yàn)證集每個(gè)種類有500條數(shù)據(jù),測(cè)試集每個(gè)種類1 000條數(shù)據(jù)。為使其更符合實(shí)驗(yàn)場(chǎng)景,將原來(lái)的純文本數(shù)據(jù)分別轉(zhuǎn)存為二進(jìn)制Word文檔。

      而文檔作為一種二進(jìn)制文件,是數(shù)字編碼的線形表示。如果相同類型文件具有結(jié)構(gòu)共性,那么這兩個(gè)文件的二進(jìn)制編碼中一定存在相似的部分。原則上,只要提取出共性部分,剩下的部分就是文檔獨(dú)特的內(nèi)容。因此,首先對(duì)獲取的二進(jìn)制文檔數(shù)據(jù)集使用滑動(dòng)窗口做取詞處理,結(jié)果如表1所示。

      表1 文檔取詞結(jié)果示例

      處理完后,使用Word2vec對(duì)取詞后的文檔進(jìn)行詞向量化處理,再將其嵌入CNN中替代原本one-hot編碼模式。

      在這之前需要先構(gòu)建詞匯表,遍歷所有的文檔,使用TFIDF統(tǒng)計(jì)每篇文檔中的關(guān)鍵詞及其權(quán)重,匯總后選取權(quán)重值較高的前8 000個(gè)作為詞匯表。經(jīng)過(guò)滑動(dòng)窗口的取詞處理,最終統(tǒng)計(jì)所有不重復(fù)的詞匯有近100萬(wàn)個(gè),實(shí)驗(yàn)數(shù)據(jù)有50 000篇,每篇文章中的詞匯少則有幾千個(gè),多則上萬(wàn),而權(quán)重值靠前且數(shù)值較大的,每篇文章中平均有幾十個(gè)??紤]到同種類文章的重復(fù)性,選取8 000的維度能夠?qū)崿F(xiàn)對(duì)每種類型的文章94.5%的高平均覆蓋率,其中部分二進(jìn)制詞語(yǔ)的中文對(duì)應(yīng)如表2所示。

      表2 二進(jìn)制詞匯中文對(duì)照

      生成該詞匯表后,首先使用Word2vec生成詞向量。在這種方法中,生成每一個(gè)二進(jìn)制文檔的詞向量前,首先遍歷該文檔中包含的二進(jìn)制詞匯,看其是否在詞匯表中。如果不在,直接跳過(guò),在詞匯表中則將其匯總后使用Word2vec訓(xùn)練,生成該文檔對(duì)應(yīng)的詞向量表達(dá)形式。本文中使用的是Word2vec中的CBOW算法,即預(yù)測(cè)在給定的上下文的情況下,最有可能出現(xiàn)的單詞為哪個(gè)[14]。特征向量的維度是100,window(表示當(dāng)前詞與預(yù)測(cè)詞在一個(gè)句子中的最大距離是多少)大小為5,min_count參數(shù)設(shè)定為1,workers(控制訓(xùn)練的并行數(shù))設(shè)定為6,結(jié)果如表3所示。

      表3 Word2vec詞向量化結(jié)果示例

      完成這一步驟后,將每篇文檔對(duì)應(yīng)的詞向量文檔轉(zhuǎn)化成numpy格式文件保存,在后續(xù)使用中將其嵌入CNN的嵌入層作為模型的詞向量使用。之后使用該詞匯表生成和表內(nèi)詞匯對(duì)應(yīng)的詞典,即原詞匯表中的二進(jìn)制詞匯作為鍵,值為從上往下遍歷詞匯表每個(gè)二進(jìn)制詞匯相應(yīng)的ID順序。完成這一步驟后,遍歷每個(gè)二進(jìn)制詞匯文檔,若所取二進(jìn)制詞匯不是則該位置記為0,若是則將其存儲(chǔ)替換為該鍵對(duì)應(yīng)的ID值,最后生成整篇文章的ID數(shù)值表達(dá)形式。完成后,使用keras提供的pad_sequences將文本pad設(shè)定為固定長(zhǎng)度,這里選取max_length為60。文章向量化后,作為輸入送入CNN中做進(jìn)一步處理。

      CNN模型使用的是經(jīng)典的單層Text-CNN模型,由Word2vec生成數(shù)據(jù)集的詞向量,嵌入到CNN模型中的embedding層,替換原本的One-hot編碼。其他參數(shù)包括詞匯表的大小設(shè)定為8 000、卷積核的尺寸設(shè)置為5、卷積核的數(shù)目為128。同時(shí),將該詞嵌入層的維度設(shè)置為與Word2vec訓(xùn)練的詞向量相同的維度100,并預(yù)留好后續(xù)輸入數(shù)據(jù)的占位符input_x。該占位符的參數(shù)序列維度需要設(shè)置為60。但是,由于只是對(duì)于二進(jìn)制文本的特征提取,并不涉及原本CNN實(shí)質(zhì)性的分類的相關(guān)內(nèi)容,因此其他部分的輸入如類別等內(nèi)容不做專門處理,之后在池化層后輸出降維后的每篇文章的特征向量。最終,每篇文章以一個(gè)256維的向量來(lái)表示,如表4所示。

      表4 二進(jìn)制文本特征向量

      3.2 特征向量效果驗(yàn)證

      上文中,提取到了每個(gè)文本各的特征向量,然后使用如余弦距離的計(jì)算等方法比較文章之間的相似度,計(jì)算相同種類文本特征向量之間和不同種類文本特征向量之間的余弦距離,初步證明該方法進(jìn)行特征提取效果的好壞。再用機(jī)器學(xué)習(xí)的分類方法支持向量機(jī)(Support Vector Machine,SVM),用數(shù)據(jù)集中的訓(xùn)練集訓(xùn)練分類模型,測(cè)試集檢驗(yàn)分類效果。余弦距離計(jì)算結(jié)果如表5所示。可以看出,不同種類文檔間和相同種類文檔間的距離有明顯差異,同種類文檔之間距離更近。

      表5 各類文檔間余弦距離

      之后對(duì)于輸出的特征向量使用SVM分類模型進(jìn)行分類訓(xùn)練和驗(yàn)證,最終測(cè)試分類準(zhǔn)確率達(dá)到92.8%,各種類別實(shí)驗(yàn)結(jié)果如表6所示。

      表6 各類別分類結(jié)果

      從實(shí)驗(yàn)結(jié)果可以看出,準(zhǔn)確率相較于同領(lǐng)域內(nèi)其他模型稍有欠缺,但在數(shù)據(jù)預(yù)處理上大大簡(jiǎn)化了操作的復(fù)雜程度,省去了其他文本分類方法中復(fù)雜的文本恢復(fù)、選取合適的語(yǔ)料庫(kù)進(jìn)行取詞處理等過(guò)程,有效的提高了工作效率。

      4 結(jié) 語(yǔ)

      傳統(tǒng)的文件分析方法是基于文件格式本身的,但是由于系統(tǒng)并不能確定文件格式,期望一種基于文件二進(jìn)制的特征提取算法,不管任何文件都能提取它的二進(jìn)制特征。于是,提出了基于神經(jīng)網(wǎng)絡(luò)的針對(duì)二進(jìn)制文本特征的提取模型,經(jīng)由滑動(dòng)窗口的取詞、TFIDF訓(xùn)練生成詞匯表、Word2vec的詞向量化以及CNN的降維處理,最終輸出所需要的每個(gè)二進(jìn)制文本相對(duì)應(yīng)的特征向量。最后通過(guò)余弦距離的比較和SVM分類結(jié)果的驗(yàn)證,表明該模型的有效性和高效性。下一步將針對(duì)該模型進(jìn)一步進(jìn)行優(yōu)化,從而提高該模型的精度和普適性。

      猜你喜歡
      詞匯表二進(jìn)制特征提取
      用二進(jìn)制解一道高中數(shù)學(xué)聯(lián)賽數(shù)論題
      有趣的進(jìn)度
      二進(jìn)制在競(jìng)賽題中的應(yīng)用
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      Bagging RCSP腦電特征提取算法
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      巧妙提取英文詞匯表的純英文單詞
      電腦迷(2014年16期)2014-04-29 03:32:41
      一個(gè)生成組合的新算法
      Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
      軸承(2010年2期)2010-07-28 02:26:12
      詞匯表
      革吉县| 琼结县| 灌南县| 肥乡县| 马龙县| 威信县| 南郑县| 元朗区| 乌苏市| 静乐县| 安庆市| 霍山县| 松滋市| 旺苍县| 札达县| 乐昌市| 英吉沙县| 连山| 玉门市| 宁陕县| 房产| 合作市| 鸡西市| 海城市| 涞源县| 英吉沙县| 乐业县| 广德县| 闽侯县| 武宣县| 三明市| 北流市| 南华县| 合川市| 瓮安县| 庆阳市| 长沙市| 河南省| 镇江市| 安多县| 布尔津县|