• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合多特征的垃圾評(píng)論檢測模型

      2020-05-12 09:09:44原福永劉宏陽馮凱東黃國言
      關(guān)鍵詞:評(píng)論者特征提取注意力

      原福永,劉宏陽,王 領(lǐng),馮凱東,黃國言

      (燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004)

      E-mail:hyliu767289@qq.com

      1 引 言

      隨著互聯(lián)網(wǎng)規(guī)模的不斷增長,在線評(píng)論的數(shù)量和影響力也在不斷的增加,尤其是在電商領(lǐng)域.例如,截止到2018年的第4季度,美國的點(diǎn)評(píng)網(wǎng)站Yelp已經(jīng)擁有1.77億條評(píng)論.據(jù)統(tǒng)計(jì),在美國有82%的互聯(lián)網(wǎng)用戶在購物之前會(huì)閱讀評(píng)論,并且如果這些用戶確信自己會(huì)有好的體驗(yàn)時(shí),68%的用戶愿意為同樣的產(chǎn)品或服務(wù)多付15%的錢.面對(duì)如此巨大的利益,商家可能會(huì)鼓勵(lì)用戶撰寫相關(guān)商品的好評(píng)或者雇傭水軍對(duì)其競爭者的產(chǎn)品撰寫差評(píng),給對(duì)方造成不良的影響.文中垃圾評(píng)論是指一些沒有價(jià)值的評(píng)論,主要包括虛假的評(píng)論和無關(guān)的評(píng)論.針對(duì)上述的影響,如何有效的檢測出垃圾評(píng)論是一個(gè)急需解決的問題.

      前人在垃圾評(píng)論檢測上的工作主要集中在基于文本本身進(jìn)行垃圾評(píng)論的檢測,這也是目前較為常見的檢測方法.通過對(duì)文本進(jìn)行語法分析,例如結(jié)合詞袋特征[1];對(duì)文本進(jìn)行語義分析,例如語義相似性計(jì)算[2];對(duì)文本的文體及元數(shù)據(jù)進(jìn)行分析,例如結(jié)合元數(shù)據(jù)特征[3]等.雖然這些方法能夠較好的應(yīng)用于垃圾評(píng)論的檢測,但是大多數(shù)方法在提取評(píng)論文本的特征時(shí)忽略了其上下文的信息,不能較好的挖掘其中的有效信息,同時(shí)在只考慮評(píng)論文本的情況下,準(zhǔn)確率有待于進(jìn)一步提高.

      針對(duì)上述問題,本文在考慮評(píng)論文本的基礎(chǔ)上,引入了評(píng)論者特征以及評(píng)論商品的特征,提出了一種融合多特征的垃圾評(píng)論檢測模型.本文的主要貢獻(xiàn)包括:

      1)在使用卷積神經(jīng)網(wǎng)絡(luò)處理評(píng)論文本時(shí),融入了全局-局部注意力機(jī)制,局部注意力用于在卷積層之前選擇具有信息性的關(guān)鍵詞,全局注意力用于忽略評(píng)論的噪音和不相關(guān)的詞匯并捕捉全局的特征.

      2)使用融入注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)處理評(píng)論文本,構(gòu)建評(píng)論文本特征提取模型;使用卷積神經(jīng)網(wǎng)絡(luò)處理商品信息,構(gòu)建商品特征提取模型;使用普通神經(jīng)網(wǎng)絡(luò)處理評(píng)論者信息,構(gòu)建評(píng)論者特征提取模型.

      3)將三個(gè)模型融合,進(jìn)一步給出垃圾評(píng)論檢測模型.

      本文其余部分的組織如下:第2章主要分析了與本文內(nèi)容有關(guān)的相關(guān)工作.第3章給出了本文的方法與模型.第4章設(shè)計(jì)了實(shí)驗(yàn)并給出結(jié)果分析.第5章總結(jié)并展望未來的工作.

      2 相關(guān)工作

      卷積神經(jīng)網(wǎng)絡(luò)在處理文本方面,具有提取復(fù)雜特征的優(yōu)越性,越來越多的被用于自然語言處理,比如文本分類[4],情感分析[5]等.2014年,Kim[6]首次提出了使用卷積神經(jīng)網(wǎng)絡(luò)處理文本,證明了其在多個(gè)自然語言處理任務(wù)中都具有一定的優(yōu)越性.Thien等人[7]在處理文本時(shí)避開了傳統(tǒng)方法中復(fù)雜的特征提取工程,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到實(shí)體關(guān)系中,自動(dòng)從句子中學(xué)習(xí)特征.Facebook的Alexis等人[8]構(gòu)建了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)模型,使其能夠直接在文本的字符級(jí)別進(jìn)行操作,通過實(shí)驗(yàn)證明該模型在多個(gè)文本分類任務(wù)上都取得了重大的突破.而垃圾評(píng)論檢測就屬于一種文本分類問題.

      在使用注意力機(jī)制處理文本方面,基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)已經(jīng)成功的應(yīng)用在多個(gè)領(lǐng)域當(dāng)中,比如機(jī)器翻譯,文本分類等.Bahdanau等人[9]將注意力機(jī)制用到了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯上,很好的解決了神經(jīng)網(wǎng)絡(luò)在翻譯時(shí)可能會(huì)丟失必要信息的問題.Wan等人[10]提出了一種多層網(wǎng)絡(luò)注意力模型,該模型可以進(jìn)一步利用文本術(shù)語之間的間接關(guān)系,獲得更精準(zhǔn)的信息.Seo等人[11]提出一種全局-局部注意力與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法實(shí)現(xiàn)了推薦系統(tǒng)領(lǐng)域中的可解釋推薦.

      在垃圾評(píng)論檢測方面,Jindal等人[12]首先使用了監(jiān)督學(xué)習(xí)的方法來研究垃圾評(píng)論,其主要側(cè)重于使用自然語言處理從文本中提取評(píng)論特征.Li等人[13]提出了一種分類框架,他們認(rèn)為現(xiàn)有的監(jiān)督學(xué)習(xí)算法只適用于一個(gè)特定的領(lǐng)域,并嚴(yán)重依賴特定的詞匯,為了解決該問題,他們嘗試通過創(chuàng)建跨域的數(shù)據(jù)集來提高算法對(duì)垃圾評(píng)論的理解.

      圖1 垃圾評(píng)論檢測模型框架圖

      綜上所述,單獨(dú)的使用卷積神經(jīng)網(wǎng)絡(luò)在處理文本上已經(jīng)有一定的成果,然而使用結(jié)合注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)可以獲得更好的結(jié)果.本文在進(jìn)行垃圾評(píng)論檢測時(shí),除了使用該方法處理評(píng)論進(jìn)行檢測以外,還結(jié)合了評(píng)論者和評(píng)論商品的特征,以提高檢測的準(zhǔn)確性.本文提出的垃圾評(píng)論檢測模型框架如圖1所示.

      3 本文的方法與模型

      本文提出的融合多特征的垃圾評(píng)論檢測模型結(jié)構(gòu)如圖2所示.該結(jié)構(gòu)由4部分組成,第1部分是商品特征提取模型,使用卷積神經(jīng)網(wǎng)絡(luò);第2部分是評(píng)論文本特征提取模型,使用融合全局-局部注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò);第3部分是評(píng)論者特征提取模型,使用普通的神經(jīng)網(wǎng)絡(luò);第4部分是垃圾評(píng)論檢測模型,將3部分特征融合進(jìn)行垃圾評(píng)論檢測.

      圖2 融合多特征的垃圾評(píng)論檢測模型結(jié)構(gòu)圖

      3.1 評(píng)論文本特征提取模型

      3.1.1 詞嵌入

      為了將評(píng)論文本輸入到模型中進(jìn)行處理,需要對(duì)文本進(jìn)行向量化表示,即將文本分割為單詞,并將每個(gè)單詞轉(zhuǎn)換為一個(gè)向量.同時(shí),為了使每個(gè)詞向量能夠包含更多的信息,在此使用詞嵌入技術(shù)對(duì)文本處理.使用Dr表示評(píng)論文本,文本長度為T,先將文本中的每一個(gè)單詞用one-hot編碼方式的向量表示,即ei∈RS,S代表所有文本中單詞的總數(shù).通過對(duì)每個(gè)單詞進(jìn)行計(jì)算到一個(gè)詞嵌入向量xi=(x1,x2,…,xd),xi∈Rd,如式(1)所示,d代表詞嵌入的維度.We代表詞嵌入層中的權(quán)重,We∈Rd×T.

      xi=Weei

      (1)

      3.1.2 局部注意力模型

      (2)

      (3)

      其中參數(shù)矩陣的維度w代表滑動(dòng)窗口的寬度,d代表滑動(dòng)窗口的長度也是詞嵌入的維度.*運(yùn)算符表示兩個(gè)矩陣中相對(duì)應(yīng)的元素相乘,并將相乘后的結(jié)果相加.g()代表激活函數(shù),在此使用sigmoid激活函數(shù).得到代表每個(gè)單詞的注意力值,值越高則代表該單詞在文本中具有更高的信息性.將其與xi相乘構(gòu)成具有注意力權(quán)重的詞向量表示,如公式(4)所示.

      (4)

      (5)

      zLocal(j)=max(ZLocal(:,j))j∈[1,nLocal]

      (6)

      3.1.3 全局注意力模型

      XGlobal=(x1,x2,…,xT)

      (7)

      (8)

      其中,i∈[1,T].

      由此得到使用全局注意力時(shí)每個(gè)單詞的注意力值,再與相應(yīng)的詞嵌入向量相乘得到具有注意力權(quán)重的詞嵌入向量,如公式(9)所示.

      (9)

      (10)

      (11)

      其中,i∈[1,T-wf+1],j∈[1,nGlobal].g()代表Relu激活函數(shù),最后使用最大池化,提取出較為顯著的特征,構(gòu)成具有全局注意力的文本表示,如公式(12)所示.

      zGlobal(j)=max(ZGlobal(:,j))j∈[1,nGlobal]

      (12)

      3.2 提取評(píng)論者及商品特征模型

      3.2.1 評(píng)論者特征提取模型

      評(píng)論者的特征主要表現(xiàn)了評(píng)論者的個(gè)人信息.首先,將評(píng)論者的數(shù)據(jù)以向量化的形式表示,x=(x1,x2,x3,…,xi),為了使模型訓(xùn)練時(shí)收斂更快,效果更理想,需對(duì)輸入的數(shù)據(jù)進(jìn)行歸一化處理,如公式(13)、公式(14)、公式(15)所示.

      (13)

      (14)

      x=(x-μ)/σ2

      (15)

      在歸一化后,將其輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行特征的提取,該神經(jīng)網(wǎng)絡(luò)由4個(gè)全連接層構(gòu)成,1個(gè)輸入層,2個(gè)全連接層,1個(gè)輸出層,每一層的單元數(shù)用n[i]表示,如公式(16)所示.

      (16)

      3.2.2 商品特征提取模型

      (17)

      (18)

      (19)

      (20)

      3.3 融合多特征的垃圾評(píng)論檢測模型

      通過以上的三個(gè)特征提取模型,可以得到評(píng)論文本在局部注意力上的特征zLocal,在全局注意力上的特征zGlobal,評(píng)論者的特征zu,評(píng)論商品的特征zp.為了統(tǒng)一考慮這些特征,需對(duì)它們進(jìn)行連結(jié)(concatenate)操作,如公式(21)所示,從而構(gòu)成垃圾評(píng)論檢測模型的輸入.

      zin=zLocal⊕zGlobal⊕zu⊕zp

      (21)

      其中,?表示連結(jié)操作,即將這些向量在一個(gè)維度上相連,構(gòu)成一個(gè)新的向量.接下來將該向量輸入到神經(jīng)網(wǎng)絡(luò)中,該神經(jīng)網(wǎng)絡(luò)有一個(gè)輸入層(連結(jié)層),兩個(gè)全連接層和一個(gè)輸出層.最終通過神經(jīng)網(wǎng)絡(luò)的計(jì)算,輸出層輸出該評(píng)論是否為垃圾評(píng)論,如公式(22)所示.

      (22)

      3.4 模型的訓(xùn)練

      通過上文可知,本文提出的垃圾評(píng)論檢測模型是將評(píng)論特征提取模型、評(píng)論者特征提取模型、商品特征提取模型三個(gè)模型融合,并通過神經(jīng)網(wǎng)絡(luò)的進(jìn)一步訓(xùn)練,得到最后的結(jié)果.該模型采用端到端的方式進(jìn)行訓(xùn)練,同時(shí)輸入評(píng)論的文本,評(píng)論者的信息以及評(píng)論商品的信息進(jìn)行訓(xùn)練,輸出的結(jié)果表示該評(píng)論是否是垃圾評(píng)論.

      4 實(shí)驗(yàn)與結(jié)果

      4.1 數(shù)據(jù)集描述

      為了使實(shí)驗(yàn)在真實(shí)的數(shù)據(jù)集上進(jìn)行測試與對(duì)比,使用Python爬蟲程序爬取國外知名點(diǎn)名網(wǎng)站Yelp上的相關(guān)數(shù)據(jù),在Yelp網(wǎng)站上官方認(rèn)為有用的評(píng)論會(huì)展示給用戶,將垃圾的評(píng)論隱藏在網(wǎng)站的底部.本文中主要爬取了Yelp網(wǎng)站中關(guān)于飯店的信息,爬取的數(shù)據(jù)包括評(píng)論文本信息,評(píng)論者信息,評(píng)論商品信息,表1中展示了數(shù)據(jù)集中的基本信息.

      表1 數(shù)據(jù)集基本信息

      Table 1 Data set basic information

      字段描 述實(shí)例評(píng)論評(píng)論者對(duì)飯店的評(píng)論First time to this restaurant very impressive……朋友個(gè)數(shù)評(píng)論者擁有的朋友個(gè)數(shù)20評(píng)論總數(shù)評(píng)論者的評(píng)論總數(shù)40照片數(shù)評(píng)論者上傳的照片總數(shù)40評(píng)分評(píng)論者對(duì)該飯店的評(píng)分2評(píng)論中有無照片評(píng)論者該評(píng)論中有無照片0(表示沒有照片)是否垃圾評(píng)論該評(píng)論是否是垃圾評(píng)論1(是垃圾評(píng)論)飯店標(biāo)簽以標(biāo)簽的形式描述該飯店Breakfast,Brunch,Burgers,Mexican

      在本次的實(shí)驗(yàn)中,共爬取了1200個(gè)飯店的32萬條數(shù)據(jù),將這些數(shù)據(jù)隨機(jī)打亂,選取其中的30萬條作為訓(xùn)練集,1萬條作為驗(yàn)證集,1萬條作為測試集.

      4.2 實(shí)驗(yàn)設(shè)置

      4.2.1 實(shí)驗(yàn)數(shù)據(jù)處理

      首先對(duì)得到的數(shù)據(jù)進(jìn)行清洗,去除其中的空值和重復(fù)的值.接下來,去除評(píng)論文本和飯店標(biāo)簽信息中的非英文詞匯以及非語言性詞匯,比如url地址,標(biāo)點(diǎn)符號(hào),最后得到輸入到模型中的評(píng)論文本Dr和標(biāo)簽信息Dp.然后將評(píng)論者的特征信息按照文中的3.2.1部分進(jìn)行數(shù)據(jù)的歸一化.

      4.2.2 實(shí)驗(yàn)評(píng)估指標(biāo)

      選擇準(zhǔn)確率(accuracy),均方根誤差(rmse)作為本次實(shí)驗(yàn)的評(píng)估標(biāo)準(zhǔn).準(zhǔn)確率能夠反應(yīng)模型分類的準(zhǔn)確性,均方根誤差能夠衡量預(yù)測值與真實(shí)值之間的偏差.準(zhǔn)確率與均方根誤差的計(jì)算如公式(23)、公式(24)所示.

      (23)

      (24)

      4.2.3 實(shí)驗(yàn)參數(shù)設(shè)置

      本實(shí)驗(yàn)在詞嵌入層使用預(yù)先訓(xùn)練的基于單詞語料庫統(tǒng)計(jì)的Glove詞嵌入,詞嵌入的維度選擇100,只考慮數(shù)據(jù)集中前60000個(gè)最常見的單詞.在局部注意力模型中,過濾器窗口大小為5,過濾器個(gè)數(shù)為200.在全局注意力模型中,過濾器窗口的大小取[3,5],兩類過濾器的個(gè)數(shù)分別為100.在模型融合后的全連接層中,為了防止過擬合,加入50%的dropout.使用Adam作為訓(xùn)練的優(yōu)化器.

      4.2 實(shí)驗(yàn)對(duì)比方法

      本次實(shí)現(xiàn)了3個(gè)對(duì)比實(shí)驗(yàn)與本文提出的模型進(jìn)行比較.首先是Yao等人[14]提出的基于詞袋模型的樸素貝葉斯分類器并結(jié)合語義分析進(jìn)行垃圾評(píng)論檢測的方法,該方法在檢測時(shí)也加入了評(píng)論文本特征,評(píng)論者特征,評(píng)論商品特征.同時(shí)為了驗(yàn)證在垃圾評(píng)論檢測時(shí)加入外部特征的效果,實(shí)現(xiàn)了使用全局-局部注意力機(jī)制下的考慮評(píng)論文本特征的模型與本文提出的融合多特征的檢測模型進(jìn)行對(duì)比.并且為了驗(yàn)證使用注意力機(jī)制在評(píng)論文本處理上的優(yōu)勢,本文實(shí)現(xiàn)了Kim[6]提出的使用基本的卷積神經(jīng)網(wǎng)絡(luò)處理文本(TextCNN)的方法與具有全局-局部注意力機(jī)制的處理文本方法進(jìn)行對(duì)比.

      4.3 實(shí)驗(yàn)結(jié)果與分析

      每個(gè)實(shí)驗(yàn)的準(zhǔn)確率與均方根誤差如表2所示.

      表2 實(shí)驗(yàn)評(píng)估結(jié)果

      Table 2 Experimental evaluation result

      方 法準(zhǔn)確率均方根誤差本文方法0.86810.0951Yao等[14]方法0.7756 0.1873注意力機(jī)制處理文本(本模型中只考慮文本的部分)0.69050.2953Kim[6]方法0.63010.3542

      首先,我們可以從評(píng)估結(jié)果中得出,進(jìn)行垃圾評(píng)論檢測時(shí),考慮外部特征能明顯的提高檢測的準(zhǔn)確率,本文方法和Yao等人[14]的方法能達(dá)到86.81%和77.56%的準(zhǔn)確率,明顯高于后兩種方法.

      其次,在同樣考慮外部特征的情況下,本文的方法在表現(xiàn)最好時(shí)比Yao等人[14]的方法準(zhǔn)確率高出9%左右,Yao等人[14]的方法在特征的提取上使用了人工的方法確定輸入的特征,并且在評(píng)論文本的處理中使用詞袋模型,只考慮文中單詞的頻率,忽略了評(píng)論文本中的上下文信息,而本文的方法通過端到端的訓(xùn)練過程自動(dòng)的提取輸入信息的特征,這也體現(xiàn)出了本文的方法在特征提取上的優(yōu)越性.

      同時(shí),在本文中不考慮外部特征的情況下,使用全局-局部注意力機(jī)制處理文本得到的準(zhǔn)確率比Kim[6]的方法高出了6%,由于在只使用卷積神經(jīng)網(wǎng)絡(luò)提取上下文特征時(shí)會(huì)平等對(duì)待每個(gè)單詞,而在使用注意力機(jī)制后,每個(gè)單詞在提取時(shí)會(huì)具有一定的權(quán)重,全局注意力在提取上下文特征時(shí)能夠減少不太重要的單詞的影響,局部注意力在提取上下文特征時(shí)能夠更加關(guān)注具有信息性的詞匯,這也驗(yàn)證了本文中使用全局-局部注意力機(jī)制提取評(píng)論文本的上下文特征是可行的.

      5 結(jié) 論

      本文提出了一種融合多特征的垃圾評(píng)論檢測模型,該模型在考慮評(píng)論文本的基礎(chǔ)之上,加入了評(píng)論者的的特征以及評(píng)論商品的特征,通過將三者的特征統(tǒng)一考慮進(jìn)行垃圾評(píng)論的檢測.同時(shí),在提取評(píng)論文本的特征時(shí)使用全局-局部注意力機(jī)制,使得在提取評(píng)論文本的特征時(shí)能夠更加關(guān)注關(guān)鍵性的信息,忽略文本中不必要的噪音,并且使用卷積神經(jīng)網(wǎng)絡(luò)提取評(píng)論商品的信息,使用具有全連接層的神經(jīng)網(wǎng)絡(luò)提取評(píng)論者的特征.本文通過爬取真實(shí)的數(shù)據(jù),對(duì)提出的模型進(jìn)行測試與驗(yàn)證并取得不錯(cuò)的效果,本文的模型在垃圾評(píng)論檢測上的準(zhǔn)確率高達(dá)86.81%,與其他的方法相比有著較大的提高,能夠較好的提取特征信息.

      接下來,將考慮進(jìn)一步提升模型對(duì)評(píng)論文本特征提取的能力,并且結(jié)合更多的外部特征進(jìn)行垃圾評(píng)論的檢測,比如時(shí)間信息.同時(shí),也會(huì)考慮對(duì)模型進(jìn)行擴(kuò)充和改進(jìn)將其應(yīng)用于垃圾評(píng)論者的檢測等相關(guān)領(lǐng)域.

      猜你喜歡
      評(píng)論者特征提取注意力
      智珠2則
      讓注意力“飛”回來
      基于D-S證據(jù)理論的電子商務(wù)虛假評(píng)論者檢測
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      Bagging RCSP腦電特征提取算法
      A Beautiful Way Of Looking At Things
      基于情感特征和用戶關(guān)系的虛假評(píng)論者的識(shí)別
      基于評(píng)論關(guān)系圖的垃圾評(píng)論者檢測研究
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      大荔县| 长汀县| 东乡| 左云县| 遂溪县| 马公市| 台前县| 承德市| 来凤县| 黄大仙区| 河津市| 通河县| 商丘市| 吉木乃县| 白沙| 噶尔县| 毕节市| 志丹县| 西安市| 蒙自县| 赤水市| 射洪县| 怀化市| 曲阳县| 渭源县| 大新县| 遂溪县| 贺州市| 宜兰县| 鹤峰县| 永德县| 上饶县| 锡林郭勒盟| 沙河市| 屯昌县| 广昌县| 五指山市| 柯坪县| 凤阳县| 习水县| 镶黄旗|