• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于分層注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)垃圾評論檢測模型

      2018-12-14 05:26:24劉雨心
      計算機(jī)應(yīng)用 2018年11期
      關(guān)鍵詞:文檔準(zhǔn)確率卷積

      劉雨心,王 莉,張 昊

      (1.太原理工大學(xué) 信息與計算機(jī)學(xué)院, 山西 晉中 030600; 2.太原理工大學(xué) 大數(shù)據(jù)學(xué)院, 山西 晉中 030600)(*通信作者電子郵箱591085595@qq.com)

      0 引言

      隨著互聯(lián)網(wǎng)的發(fā)展,人們越來越喜歡在網(wǎng)上發(fā)表自己的觀點,并與其他網(wǎng)絡(luò)用戶分享他們的觀點。 2016年,美國Yelp評論網(wǎng)站的評論超過108萬(https://www.yelp.com/about),每年評論數(shù)量增加超過18萬, 然而,虛假評論約占Yelp總評論的14%~20%,占Tripadvisor、Orbitz、Priceline和Expedia總評論的2%~6%。2011年美國Cone Communication的調(diào)查報告(http://www.conecomm.com/contentmgr/showdetails.php/id/4008)顯示,64%的用戶通過閱讀相關(guān)評論獲得產(chǎn)品信息,87%的用戶在閱讀肯定評論后購買了此產(chǎn)品,80%的用戶在閱讀否定評論后放棄購買,這充分說明評論對用戶的購買決策起到舉足輕重的作用,積極的評論可以提高產(chǎn)品口碑和品牌信譽(yù)進(jìn)而提高商家的利潤和聲譽(yù),垃圾評論在這種背景下應(yīng)用而生[1-2]。

      垃圾評論是垃圾評論者為了誤導(dǎo)潛在客戶,精心虛構(gòu)的虛假評論[3-4],是商家或用戶在個人利益驅(qū)使下親自雇傭水軍惡意發(fā)布的虛假評論。用戶撰寫評論的質(zhì)量受各種因素的影響,如用戶的文化背景和用戶撰寫評論時的情緒。本文垃圾評論不指用戶的否定評論,即否定的低質(zhì)量的評論不一定是垃圾評論。事實上,為了隱藏自己的身份并誤導(dǎo)用戶,垃圾評論者通常會確保評論的質(zhì)量,以提高垃圾評論的影響。下面是兩條來自公開垃圾評論數(shù)據(jù)集的評論。

      1)如果你在芝加哥,艾爾雷格洛酒店對你來說是完美的。它位于市中心,有時尚的房間和細(xì)心的員工。我在酒店住了3個晚上,對一切都很滿意。床很舒服,有很多蓬松的枕頭,大的平板電視,收音機(jī)和iPad塢站和浴室是干凈的。我接觸的每個人都非常友好并樂于助人。我在那里的最后一天,我訂了房間服務(wù),不僅我的飯菜美味,并按時交付,廚房還打來電話,詢問一切是否都好。我從來沒有這樣的跟進(jìn)服務(wù)。

      2)我在芝加哥希爾頓酒店逗留期間一直很不愉快。你怎么會這樣問?好吧,我告訴你,那里的毛巾很臟沒有消毒,服務(wù)也很糟糕,最糟糕的是,我登記的時候,他們甚至不在桌子上。另外,我從酒店訂購了早餐、午餐和晚餐,但我收到的是錯誤的訂單。所有的飯菜,吃完后想吐的感覺。最后,我還為我不想要的東西支付了賬單??偟膩碚f,這個酒店對我來說都是非常糟糕和不愉快的。我給它半星的評價。

      第1)條不是垃圾評論,即來自顧客的真實的評論;第2)條是垃圾評論,來自土耳其人編寫的虛假評論。從上面兩條評論可以看出,靠人工從真實的評論中區(qū)分垃圾評論是很困難的。在以前的研究中,研究人員邀請三名志愿者識別160條垃圾評論,而志愿者誤將垃圾評論判為真實評論,識別準(zhǔn)確率僅為53.1%~61.9%[5],這個結(jié)果同樣表明垃圾評論不易識別,這導(dǎo)致標(biāo)注數(shù)據(jù)不足和難以評價檢測結(jié)果的困境。因此,垃圾評論檢測是一項緊迫必而必要的任務(wù)。

      用戶評論通常是短文本,垃圾評論檢測是一個二分類問題, 該任務(wù)的目標(biāo)是區(qū)分一條評論是否為垃圾評論?,F(xiàn)有方法主要遵循文獻(xiàn)[6]的工作,采用機(jī)器學(xué)習(xí)的方法來構(gòu)建分類器,特征工程在這個方向很重要。大部分研究主要集中在從語言學(xué)和心理學(xué)的角度設(shè)計有效的特征以提高分類性能,盡管這些特征表現(xiàn)出強(qiáng)大的性能,但評論的離散型和稀疏性使得研究者們從語篇角度出發(fā),挖掘評論的潛在語義信息變得異常困難。

      近年來,在自然語言處理領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型取得了較好成果?;谄淞己玫男阅?,一些研究采用神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)文檔表示,從而實現(xiàn)從語義的角度檢測垃圾評論。例如,Ren等[7]建立了一個門遞歸神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)文檔表示,雖然取得了較好的效果,但準(zhǔn)確率仍有待提高。

      基于以上研究,本文提出一種基于層次注意力的神經(jīng)網(wǎng)絡(luò)(Hierarchical Attention-based Neural Network, HANN)垃圾評論檢測模型, 該模型主要由兩部分組成:Word2Sent 層 (見2.1節(jié)),在詞向量表示的基礎(chǔ)上,采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[8]生成連續(xù)的句子表示;Sent2Doc 層(見2.2節(jié)),基于上一層產(chǎn)生的句子表示,使用注意力池化的神經(jīng)網(wǎng)絡(luò)生成文檔表示,生成的文檔表示直接作為垃圾評論的最終特征,采用softmax分類器分類。本文的貢獻(xiàn)主要包括以下3個方面:

      1)創(chuàng)新性地提出HANN模型來區(qū)分垃圾評論與真實評論,所提模型不需要外部模塊,采用端到端的方式進(jìn)行訓(xùn)練。

      2)HANN模型完整地保留了用戶評論的位置和強(qiáng)度特征,并從中提取重要的和綜合的信息,包括文檔中任何位置的歷史、未來和局部上下文,從而挖掘用戶評論的潛在語義信息。

      3)實驗結(jié)果表明,與Li等[9-10]的方法相比,本文方法準(zhǔn)確率平均提高5%,在最好的情況下,準(zhǔn)確率高達(dá)90.9%,比Li等的方法高出15%,分類效果顯著改善。

      1 相關(guān)工作

      與其他類型的垃圾檢測,如郵件垃圾[11]、網(wǎng)頁垃圾[12-13]等相比,由于用戶評論具有數(shù)量大、噪聲多、更新快、主觀性高和針對性強(qiáng)等特點,使得用戶垃圾評論檢測更困難,所以先進(jìn)的各種垃圾檢測方法不能直接用于用戶垃圾評論檢測。垃圾評論檢測被認(rèn)為是自然語言處理(Natural Language Processing, NLP)領(lǐng)域的一個復(fù)雜問題。

      2008年,Jindal等[6]首次提出了垃圾評論這個問題,采用評論內(nèi)容、評論者和商品本身的特征來訓(xùn)練模型。Jindal等將垃圾評論分為3類,即虛假(負(fù)面)評論、僅討論品牌而非產(chǎn)品的評論以及不存在評論(如廣告)的評論,第一類危害性最大也最難識別[3]。

      研究者提出許多垃圾評論檢測的方法[14-15]。大多數(shù)研究表明,垃圾評論與真實評論在情感、語言、寫作風(fēng)格、主觀性和可讀性方面不同[16-19]。大多數(shù)方法在Ott等[5]最初介紹的合成數(shù)據(jù)集上進(jìn)行; 但是,文獻(xiàn)[20-21]采用相同的方法分別在合成的和真實的數(shù)據(jù)集上實驗,發(fā)現(xiàn)合成的數(shù)據(jù)集是有缺陷的。因為它們沒有如實反映真實的垃圾評論,且合成數(shù)據(jù)集的技術(shù)存在問題。

      Yoo等[22]收集了42個虛假的和40個真實的酒店評論,并手動比較了他們的語言差異。Ott等[23]通過雇傭土耳其人撰寫虛假評論來創(chuàng)建數(shù)據(jù)集,后續(xù)研究大都在這個數(shù)據(jù)集上進(jìn)行。最近,Li等[9]在Ott等工作的基礎(chǔ)上發(fā)展了一個范圍廣泛的黃金標(biāo)準(zhǔn)垃圾評論數(shù)據(jù)集,這個數(shù)據(jù)集通過眾包和領(lǐng)域?qū)<疑桑?個領(lǐng)域(“酒店”“餐館”和“醫(yī)院”),由于此數(shù)據(jù)集數(shù)據(jù)量大、覆蓋性廣,所以本文實驗采用這個數(shù)據(jù)集。

      許多方法已經(jīng)證明,關(guān)注評論的上下文相似性是有益的,在這些方法中,重復(fù)和近似重復(fù)的評論被認(rèn)為是垃圾評論。Lau等認(rèn)為垃圾評論者不僅發(fā)布虛假評論,而且會以不同的身份復(fù)制這些評論作為不同品牌或同一品牌的多種產(chǎn)品的評論,因此,內(nèi)容相似性比較是研究人員眾所周知的技術(shù)[16, 24]。

      Heydari等[25]提出了一個垃圾評論檢測系統(tǒng),評論者的積極性、評價行為和評論的上下文相似性這些特征被綜合考慮。從評論的時間序列角度出發(fā),在可疑時間間隔內(nèi)采用模式識別技術(shù),捕捉垃圾評論; Ahsan等[26]通過使用評論內(nèi)容的詞頻-逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency, TF-IDF)特征引入主動學(xué)習(xí)方法來檢測垃圾評論;Zhang等[27]提出一種基于熵和協(xié)同訓(xùn)練算法的CoFea方法,在無標(biāo)簽數(shù)據(jù)上,采用熵值對所有詞匯進(jìn)行排序,提出兩種策略,即CoFea-T和CoFea-S,對比這兩種策略后發(fā)現(xiàn)CoFea-T策略準(zhǔn)確率更高,而CoFea-S策略時間開銷少。其他研究也有采用評論內(nèi)容本身之外的特征,例如,何瓏[28]提出基于隨機(jī)森林的垃圾評論檢測方法,即對樣本中的大、小類有放回地重復(fù)抽取同樣數(shù)量樣本或者給大、小類總體樣本賦予同樣的權(quán)重以建立隨機(jī)森林模型,解決只考慮評論特征的選取,忽略了評論數(shù)據(jù)集不平衡性的問題; Wang等[29]提出了一種松散的垃圾評論者群體檢測技術(shù),該技術(shù)采用雙向圖投影。

      以上研究取得了較好的成果,但都表現(xiàn)出一個共同問題:依賴人工設(shè)計的、基于特定任務(wù)的語言和心理特征,未從文檔語篇的角度有效挖掘用戶評論的潛在語義信息。本文提出HANN模型,從語篇的角度有效提取文檔連續(xù)的語義信息,并從中獲取重要的和綜合的信息,從而提高垃圾評論識別準(zhǔn)確率。

      2 虛假垃圾評論檢測方法

      用戶評論具有層次結(jié)構(gòu)(單詞形成句子,句子形成文檔)[30]。另外,文檔中的不同詞和句子具有不同的信息量和不同程度的重要性?;诖耍疚臉?gòu)建了一個分層注意力神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)文檔表示。圖1描述了模型的結(jié)構(gòu),主要由兩部分組成: Word2Sent 層(見2.1節(jié)),基于詞向量的表示;Sent2Doc 層(見2.2節(jié)),基于上一層產(chǎn)生的句子表示。生成的文檔表示直接作為垃圾評論的最終特征,采用softmax分類器分類用戶評論。

      圖1 基于層次注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)垃圾評論檢測模型

      2.1 詞到句子的表示(Word2Sent layer)

      卷積神經(jīng)網(wǎng)絡(luò)(CNN)是建模句子語義表示最先進(jìn)的方法[31]。CNN不依賴于外部解析樹[31-32],可用于學(xué)習(xí)句子的連續(xù)表示。卷積操作已被廣泛用于合成N-gram信息[33]。N-gram對許多自然語言處理任務(wù)(NLP)有用[18, 34],本文將N-gram應(yīng)用于HANN模型。如圖2所示,使用3個卷積濾波器生成句子表示,因為它們可以捕捉不同粒度的N-gram局部語義信息,包括unigrams、bigrams和trigrams。N-gram在一些NLP任務(wù)中很強(qiáng)大,比如情感分類[35]。HANN模型使用3個寬度(width)分別為2、3和4的卷積濾波器。

      正式的定義由n個詞組成的句子為(w1,w2, …,wi,…,wn)。每個詞wi映射用一個詞向量e(wi)∈RL表示,卷積濾波器是具有共享參數(shù)的線性層列表。L1、L2、L3表示3個卷積濾波器的寬度。

      以L1為例,W1和b1是該濾波器線性層的共享參數(shù)。線性層的輸入是在固定長度窗口L1中的詞向量表示(word embedding)的連接,表示為I1,i=[e(wi);e(wi+1);…;e(wi+L1-1)]∈RL×L1。

      線性層的輸出為:

      H1,i=W1·I1,i+b1

      (1)

      其中:W1∈Rloc×L×L1,loc是線性層的輸出大小。將它提供給一個平均池化層,產(chǎn)生一個固定長度的輸出向量:

      (2)

      進(jìn)一步添加一個激活函數(shù)tanh以合并非線性,濾波器O1的輸出如下:

      O1=tanh(H1)

      (3)

      類似的,分別得到寬度為2和3的其他兩個卷積濾波器O2、O3的輸出。為了捕捉句子的全局語義信息,用3個濾波器的平均輸出作為句子的最終輸出S。

      S=(O1+O2+O3)/3

      (4)

      圖2 詞到句子的模型

      2.2 句子到文檔的表示(Sent2Doc layer)

      有各種文檔表示的方法,如:平均所有的句子表示作為文檔的表示,但這種方法不能有效捕捉句子間的語義信息。CNN采用線性層的共享參數(shù)來建模局部句子關(guān)系,但CNN不能直接對長范圍的語篇結(jié)構(gòu)建模,而這對一個文檔的表示非常重要?;谏蠈由傻木渥颖硎?Sent2Doc層采用注意力池化的CNN[8]和雙向長短時記憶(Bidirectional Long-Short Term Memory, BLSTM)[36]模型的組合,實現(xiàn)從語篇的角度提取文檔重要的和綜合的語義信息。

      CNN是一個功能強(qiáng)大的語義合成模型,卷積操作可以獨立地捕獲包含在文檔中任何位置的信息,但不能捕捉文檔長范圍的語篇結(jié)構(gòu),如圖1所示,卷積濾波器只能對上層產(chǎn)生的文檔矩陣執(zhí)行卷積操作,產(chǎn)生局部表示(Local Representation),再將這個局部表示通過注意力權(quán)重(Attention Weight)集成到最終的文檔表示中。而注意力權(quán)重是通過對比局部表示與BLSTM生成的中間句子表示(Intermediate Representation)、在訓(xùn)練階段進(jìn)行優(yōu)化而獲得的。生成的文檔表示作為最終的特征向量輸入到頂層softmax分類器。在測試階段,中間句子表示也作為softmax分類器的輸入,如圖1中的虛線所示。

      在HANN模型中,卷積操作是在k個濾波器wc∈Rmd×k和一個連接向量xi:i+m-1之間進(jìn)行的,xi:i+m-1表示從第i個句子開始的m個句子的窗口。每個濾波器的參數(shù)在所有窗口中共享。使用具有不同初始化權(quán)重的多個濾波器來提高模型的學(xué)習(xí)能力。通過交叉驗證決定濾波器的數(shù)量k。卷積運(yùn)算由ci控制:

      ci=g(WcTxi:i+m-1+bc)∈Rk

      (5)

      其中:xi∈Rd,bc是一個偏向量,g(·)是一個非線性激活函數(shù)。本文采用LeakyReLU[37]非線性激活函數(shù),與ReLU相比,LeakyReLU有助于提高學(xué)習(xí)效率,并且在單元處于非活動狀態(tài)時允許小的梯度消失。

      假定文檔的長度為T,當(dāng)句子窗口滑動時,卷積層的特征映射表示如下:

      c=[c1,c2,…,cT]∈RK×T

      (6)

      卷積層的輸出作為文檔的局部表示,每個元素ci都是相應(yīng)位置的局部表示。

      中間文檔表示由BLSTM生成。BLSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體,通過用門控記憶單元代替循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài),解決LSTM的“梯度消失”問題;此外,還可以學(xué)習(xí)文檔任何位置的歷史和未來的信息。BLSTM架構(gòu)與其他組件一起訓(xùn)練。在訓(xùn)練階段,損失函數(shù)的梯度通過中間文檔表示反向傳播來優(yōu)化。

      通過對比由卷積操作生成的局部表示與由BLSTM生成的中間文檔表示來計算注意力權(quán)重。為了對比這兩種表示,應(yīng)把局部表示和文檔的中間表示映射到同一維空間,本文通過控制BLSTM的輸出維度與卷積過濾器的數(shù)量相同達(dá)到這個目的。

      (7)

      其中

      (8)

      術(shù)語ai是一個標(biāo)量,函數(shù)sim(·)用于度量兩個輸入之間的相似度。本文采用余弦相似度。獲得注意力權(quán)重后,最終的文檔表示如下:

      (9)

      在識別垃圾評論和真實評論時,評論中的句子在語義表達(dá)中扮演著不同的角色,一些句子比另外一些句子更重要。本文中,每個句子的權(quán)重代表句子對整個文檔含義的貢獻(xiàn),注意力可被視為獲得所有句子標(biāo)注的加權(quán)和來計算文檔標(biāo)注。這種方法借鑒了著名的注意力機(jī)制思想,將較大的權(quán)值賦給較重要的特征,從而提取文檔包含的重要信息。

      2.3 softmax分類器

      文檔表示d作為頂層分類器的輸入。在模型的頂部添加線性轉(zhuǎn)換層將文檔表示轉(zhuǎn)換為實值向量yc,softmax函數(shù)將實值向量轉(zhuǎn)換為條件概率,計算如下:

      (10)

      為了避免過擬合,在模型的倒數(shù)第二層,使用掩碼概率為p的dropout,dropout的關(guān)鍵思想是在訓(xùn)練階段從神經(jīng)網(wǎng)絡(luò)中隨機(jī)丟棄神經(jīng)單位[38]。

      (11)

      其中,?是一個元素乘法運(yùn)算符;q是dropout 率為p的掩碼向量。在訓(xùn)練階段實現(xiàn)輸出權(quán)重Ws的l2范數(shù)約束。

      (12)

      其中:C是類別數(shù),Si表示第i個句子。

      卷積過濾器、BLSTM和softmax 分類器中的所有權(quán)重和偏置都由模型來決定。注意力權(quán)重在訓(xùn)練階段優(yōu)化。文獻(xiàn)[39]的Adadelta更新規(guī)則是一種有效且高效的反向傳播算法,本文采用此算法來優(yōu)化模型。

      3 實驗結(jié)果和分析

      在公開的垃圾評論數(shù)據(jù)集上評價了本文方法的性能,并將該方法與已有方法進(jìn)行比較,進(jìn)行了3種類型的實驗,即領(lǐng)域內(nèi)、跨領(lǐng)域和混合領(lǐng)域。

      3.1 數(shù)據(jù)集和評價指標(biāo)

      本文采用Li等[9]發(fā)布的公開黃金標(biāo)準(zhǔn)垃圾評論數(shù)據(jù)集,其具體分布見表1。該數(shù)據(jù)集包含3個領(lǐng)域,即“酒店”“餐館”和“醫(yī)生”, 每個領(lǐng)域都有3種數(shù)據(jù)類型,分別是“顧客”“專家”和“土耳其人”。真實評論來自具有實際消費(fèi)體驗的“顧客”。垃圾評論由土耳其人和專家編輯,這些專家具有專家級的領(lǐng)域知識。

      表1 三個領(lǐng)域的數(shù)據(jù)統(tǒng)計

      本文采用準(zhǔn)確率作為評價指標(biāo), 所有(顧客/土耳其人/專家)評論都被用于酒店領(lǐng)域中的分類。在餐館和醫(yī)生領(lǐng)域中,只有顧客/土耳其人評論被采用,因為專家評論有限。本文使用數(shù)據(jù)集的90%作為訓(xùn)練集,10%作為測試集。

      3.2 Word embedding

      本文采用Word2Vec工具來表示單詞向量。用skip-gram和最大化所有詞[40]的平均對數(shù)概率的方法,在包括1 000億個不同單詞的Google新聞數(shù)據(jù)集上訓(xùn)練。每個單詞和短語都用300維向量表示,詞向量矩陣相對較大(3.6 GB),但包含許多不必要的詞。具體公式如下:

      (13)

      其中:c是上下文窗口大小,T表示文檔的長度。詞向量值包含在參數(shù)中,在訓(xùn)練過程中優(yōu)化。

      3.3 實驗結(jié)果分析

      3.3.1 領(lǐng)域內(nèi)結(jié)果分析

      領(lǐng)域內(nèi),根據(jù)Ren等[7]的實驗設(shè)置進(jìn)行了一組測試并與之對比,顧客/土耳其人/專家評論都用于酒店領(lǐng)域;對于餐館和醫(yī)生領(lǐng)域,只有顧客/土耳其人評論被采用,實驗結(jié)果見表2。

      表2 兩種方法領(lǐng)域內(nèi)結(jié)果

      3.3.2 跨領(lǐng)域結(jié)果分析

      在交叉領(lǐng)域進(jìn)行兩種類型的實驗來驗證本文模型的泛化能力和領(lǐng)域適應(yīng)性。在第1個實驗中,在一個領(lǐng)域上訓(xùn)練,分別在另外兩個領(lǐng)域測試; 在第2個實驗中,在兩個領(lǐng)域訓(xùn)練,在剩下的領(lǐng)域測試。

      本文通過在標(biāo)注豐富的酒店領(lǐng)域數(shù)據(jù)集上訓(xùn)練模型,然后分別在餐館和醫(yī)生領(lǐng)域測試,從而評價本文模型的泛化能力和領(lǐng)域適應(yīng)性。

      從表3可以看出,Ren等的方法,在餐館領(lǐng)域的測試準(zhǔn)確率為83.5%,但在醫(yī)生領(lǐng)域的測試準(zhǔn)確率卻降到57.0%。Li等[10]方法的準(zhǔn)確率在餐館和醫(yī)生領(lǐng)域都不太好。本文方法的準(zhǔn)確率都優(yōu)于他們的方法。在餐館領(lǐng)域,本文方法獲得了最佳結(jié)果,準(zhǔn)確率達(dá)到了87.5%; 在醫(yī)生領(lǐng)域,準(zhǔn)確率最高的是Li等[9]采用離散特征的傳統(tǒng)方法。兩個先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率低于Li等傳統(tǒng)模型的準(zhǔn)確率,而本文模型的準(zhǔn)確率與之相近。

      表3 四種方法跨領(lǐng)域結(jié)果(在酒店領(lǐng)域訓(xùn)練)

      由于餐館和酒店之間有許多相似屬性,如環(huán)境和位置,而醫(yī)生領(lǐng)域與酒店的相似屬性少一些,詞匯差異也較大,這導(dǎo)致在酒店領(lǐng)域訓(xùn)練的模型,在醫(yī)生領(lǐng)域的測試結(jié)果不如餐館領(lǐng)域結(jié)果。這些結(jié)果與以往研究結(jié)果一致。

      另外,本文第一次在兩個領(lǐng)域上訓(xùn)練,在剩下的領(lǐng)域測試。例如,本文在醫(yī)生和酒店兩個領(lǐng)域訓(xùn)練,在餐館領(lǐng)域測試。

      表4顯示,通過使用醫(yī)生和酒店領(lǐng)域的兩組數(shù)據(jù)進(jìn)行訓(xùn)練,在餐館領(lǐng)域的測試準(zhǔn)確率為77.5%。當(dāng)只采用酒店領(lǐng)域的數(shù)據(jù)用于訓(xùn)練時,在餐館領(lǐng)域的測試準(zhǔn)確率提高了大約10個百分點,因為餐館領(lǐng)域和酒店領(lǐng)域有許多相似屬性,但與醫(yī)生領(lǐng)域的相似屬性較少,所以通過在訓(xùn)練過程中添加醫(yī)生領(lǐng)域的數(shù)據(jù),在餐館領(lǐng)域的測試準(zhǔn)確率不會提高反而降低,這充分驗證了不同的主題在評論中具有不同程度的重要性。例如,健康信息通??梢猿蔀椴宛^評論的強(qiáng)大特征,因此,再次驗證了本文采用注意力機(jī)制方法來挖掘評論中的重要信息是可取的。

      表4 本文方法跨領(lǐng)域結(jié)果

      而當(dāng)采用酒店和餐館領(lǐng)域的兩個數(shù)據(jù)集訓(xùn)練時,醫(yī)生領(lǐng)域的評價準(zhǔn)確率為74.5%,但是,如果只采用酒店領(lǐng)域數(shù)據(jù)訓(xùn)練,則在醫(yī)生領(lǐng)域的準(zhǔn)確率降低2%。這表明,當(dāng)訓(xùn)練領(lǐng)域的數(shù)據(jù)集極性與目標(biāo)評價領(lǐng)域相似度較低時,使用大量訓(xùn)練數(shù)據(jù)集可以提高目標(biāo)領(lǐng)域的評價精度。

      3.3.3 混合領(lǐng)域結(jié)果分析

      在混合領(lǐng)域,與Li等[10]的方法進(jìn)行了比較,其采用來自土耳其人和專家的所有虛假評論以及顧客的真實評論。同樣為了和Li等的方法對比,本文實驗設(shè)置與他們的方法一致。

      Li等的方法包括段落均值(paragraph-average)、加權(quán)平均(weight-average)、句子卷積神經(jīng)網(wǎng)絡(luò)(Sentence Convolutional Neural Network, SCNN)、句子加權(quán)神經(jīng)網(wǎng)絡(luò)(Sentence-Weighted Neural Network, SWNN)以及這些方法和特征的組合。SCNN是一個基本的文檔表示學(xué)習(xí)模型,由兩個卷積操作組成: 句子卷積通過一個固定長度的窗口為每個句子創(chuàng)建一個組合; 文檔卷積把句子向量轉(zhuǎn)換為文檔向量。SWNN是SCNN的變體。Li等采用KL(Kullback-Leibler)散度作為一個詞的重要性權(quán)重來計算一個句子的權(quán)重。

      本文采用所有句子標(biāo)注的加權(quán)和來計算文檔標(biāo)注。句子的權(quán)重衡量句子對整個文檔含義的貢獻(xiàn),評論中的不同句子在文檔的語義表示中扮演著不同的角色。從真實的評論中區(qū)分垃圾評論時,一些句子比另一些句子更重要,因此,當(dāng)一個句子對整個文檔的含義貢獻(xiàn)較大時,給它分配較大的權(quán)重。

      表5顯示本文模型在混合領(lǐng)域取得了最好的結(jié)果,其準(zhǔn)確率明顯高于其他神經(jīng)網(wǎng)絡(luò)。SWNN模型的準(zhǔn)確率為80.1%,SWNN+特征2的準(zhǔn)確率為82.2%。在垃圾評論檢測中,POS(Part-Of-Speech)[9]和“第一人稱”是強(qiáng)大的特征, 特征1指POS特征,特征2指POS+“第一人稱”。因此,可大膽地假設(shè):如果將這兩個特征與本文模型結(jié)合,那么準(zhǔn)確率將比對比模型的準(zhǔn)確率高出更多。

      表5 各方法混合領(lǐng)域結(jié)果

      3.3.4 參數(shù)分析

      在實驗中,本文研究了3個參數(shù)的影響,即句子窗口大小、學(xué)習(xí)率和句子級卷積過濾器的數(shù)量。實驗結(jié)果表明當(dāng)句子窗口大小設(shè)置為2、3和4,學(xué)習(xí)率為0.5,Word2Doc卷積濾波器數(shù)量為100時,準(zhǔn)確率最高。

      4 結(jié)語

      一種新的基于分層的注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)被成功地用于垃圾評論檢測。通過使用層次注意力機(jī)制,使評論的位置和強(qiáng)度信息被完整地保留下來。Word2Sent和Sent2Doc的組合使本文模型能從保存的特征中提取重要的和全面的信息,挖掘用戶評論的潛在語義信息,從而提高垃圾評論識別準(zhǔn)確率。本文方法分別在領(lǐng)域內(nèi)、跨領(lǐng)域和混合領(lǐng)域三個領(lǐng)域上進(jìn)行了檢測對比實驗。本文方法準(zhǔn)確率比Li等[9-10]的方法準(zhǔn)確率平均提高5%,最好的情況下,準(zhǔn)確率高達(dá)90.9%,比Li等的方法高出15%,總體來說,本文方法的準(zhǔn)確率更高,泛化能力更強(qiáng)。

      將來,將進(jìn)一步考慮把從垃圾評論中提取的語言學(xué)和心理學(xué)特征作為先驗知識加入到本文所提出的模型中,以充分利用兩者的優(yōu)勢達(dá)到增強(qiáng)分類效果的目的; 另一方面,可以將這個新模型擴(kuò)展到其他NLP任務(wù),如情感分析[4],甚至計算機(jī)視覺和圖像識別等領(lǐng)域。

      猜你喜歡
      文檔準(zhǔn)確率卷積
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      有人一聲不吭向你扔了個文檔
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于RI碼計算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      罗甸县| 米脂县| 绵阳市| 七台河市| 聊城市| 上杭县| 睢宁县| 开原市| 志丹县| 乌拉特中旗| 辉南县| 茌平县| 玛曲县| 汶上县| 山阴县| 海晏县| 汝南县| 江北区| 柞水县| 克拉玛依市| 通山县| 渝中区| 萝北县| 牡丹江市| 鄂伦春自治旗| 定南县| 陈巴尔虎旗| 西贡区| 于田县| 东辽县| 新兴县| 青海省| 邻水| 新绛县| 错那县| 乌兰察布市| 红桥区| 前郭尔| 特克斯县| 东光县| 丰县|