• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖書特征及詞典的豆瓣圖書垃圾評論識別

      2019-11-18 05:22:58劉高軍印佳明
      計算機技術(shù)與發(fā)展 2019年11期
      關(guān)鍵詞:詞典權(quán)重單詞

      劉高軍,印佳明

      (北方工業(yè)大學(xué) 計算機學(xué)院,北京 100144)

      0 引 言

      豆瓣是一個中國社區(qū)網(wǎng)站,提供圖書、電影、音樂唱片的推薦、評論和價格比較,以及城市獨特的文化生活,在這里用戶談?wù)撍麄兿矚g的任何東西。如今它已經(jīng)擁有超過1.6億的注冊用戶,月平均活躍用戶3億,是目前最大的用戶分享的社區(qū)網(wǎng)站之一。在豆瓣上收錄的一些圖書吸引很多網(wǎng)友去發(fā)表評論,對某些圖書感興趣的人在決定是否要看這本書的時候,也往往會先去豆瓣上查看該圖書的評分和評價。然而由于豆瓣評論的機制,現(xiàn)在越來越多的水軍或者惡意詆毀的網(wǎng)友會在豆瓣上發(fā)表垃圾評論,這些評論會影響用戶正確地判斷這本書的價值,會對這本書和這些需要這些評論作為參考的網(wǎng)友產(chǎn)生不好的影響。

      以前傳統(tǒng)的垃圾評論識別方法大多數(shù)都不完善[1],如樸素貝葉斯和支持向量機沒有考慮到垃圾評論中垃圾詞或短語的語義信息。文中將會充分考慮圖書評論中的單詞以及單詞組成的短語的語義信息,包括這些評論單詞的詞向量的表示和這些詞語之間的向量距離去表示這兩個詞之間的關(guān)系。根據(jù)文獻[2-4],從文本中的詞匯中挖掘額外語義特征已廣泛應(yīng)用于情感和文本分類,并取得了很好的效果。文中通過使用基于深度學(xué)習(xí)模型和統(tǒng)計分析結(jié)合的方法,檢測識別豆瓣圖書評論中的垃圾評論。提出一種垃圾評論詞典和圖書特征相結(jié)合的方法,其中詞典構(gòu)建過程分為三個階段:第一,主觀性判斷。找出單詞的語義區(qū)別,將每個詞匯劃分為正?;蚶u論詞匯;第二,詞匯類別判斷。將評論中的垃圾評論詞匯劃分為廣告詞匯類別和粗俗詞匯類別;第三,詞匯權(quán)重判斷。衡量圖書評論中評論詞匯的主觀性和類別的范圍。

      權(quán)重比例過濾器模型將使用統(tǒng)計分析方法得到圖書評論中包含垃圾評論詞的權(quán)重和比例,權(quán)重和比例作為決定這個評論是否是垃圾評論的關(guān)鍵因素。這個模型解決了短文本評論和長文本評論中垃圾評論詞分布不同的問題。如果只是通過垃圾評論權(quán)重因子去檢測垃圾評論,則正常評論的文本越長,它在垃圾評論詞典中匹配更低權(quán)重單詞的可能性就會越大,這會導(dǎo)致正常評論的垃圾評論權(quán)重變高,從而降低垃圾評論的精確率。此外,如果評論只有一個或兩個中等加權(quán)垃圾詞匯的垃圾評論文本較短,將會導(dǎo)致總權(quán)重低于標(biāo)準(zhǔn)線,誤判這個評論是正常評論,從而降低召回率??梢酝ㄟ^這兩個關(guān)鍵因素的組合更精確地檢測垃圾評論。

      1 相關(guān)工作

      1.1 互聯(lián)網(wǎng)垃圾評論檢測的發(fā)展情況

      文中的研究屬于社交網(wǎng)絡(luò)中的垃圾評論和垃圾評論者識別檢測領(lǐng)域。在過去的十幾年里,垃圾評論已成為互聯(lián)網(wǎng)的一個嚴(yán)重問題。這是因為越來越多的網(wǎng)絡(luò)用戶通過發(fā)布評論、評估產(chǎn)品質(zhì)量來分享他們的消費體驗,同時很多網(wǎng)絡(luò)用戶會在做出消費決策時參考其他用戶的評論,評論信息對用戶的觀點或消費行為具有導(dǎo)向作用。

      相關(guān)統(tǒng)計數(shù)據(jù)表明,約81%的美國互聯(lián)網(wǎng)用戶在購買產(chǎn)品前會參考產(chǎn)品評論,其中超過80%的用戶認(rèn)為評論對他們的購買行為產(chǎn)生了影響。這其中存在巨大的商業(yè)利益,人們對評論信息的依賴催生了垃圾評論的出現(xiàn)。垃圾評論,是指一些用戶出于商業(yè)或其他不良動機,在評論中捏造虛假的消費體驗,對質(zhì)量的評價對象進行宣傳或誹謗。有些用戶出于某些利益會對產(chǎn)品發(fā)表一些不實評論,刻意地吹捧或者詆毀某些產(chǎn)品,這些垃圾評論在一定程度上影響了評論信息的參考價值,混淆視聽,從而會誤導(dǎo)潛在消費者。同時有些用戶會發(fā)布廣告、鏈接等與商品略微相關(guān)或者毫不相關(guān)的信息,來干擾用戶或者借助熱門商品營銷自己的商品,實現(xiàn)利益最大化。同時有些商家會雇傭網(wǎng)絡(luò)水軍為自家產(chǎn)品刷好評或者惡意給競爭商家的產(chǎn)品差評,這些評論會影響消費者和商家自身對產(chǎn)品的判斷。垃圾評論會誤導(dǎo)用戶的觀點或決定,并影響人們的日常生活[5]。

      其他垃圾評論研究工作者使用機器學(xué)習(xí)方法去識別檢測垃圾評論和垃圾評論者。文獻[6]提出了一種主題檢測方法,其中包含主題相似性度量,通過強制執(zhí)行自然語言處理技術(shù)和機器學(xué)習(xí)算法(如SVM、決策樹和樸素貝葉斯)來檢測垃圾評論。Mukherjee等在Yelp數(shù)據(jù)集上采用支持向量機分類器,運用評論文本特征獲得65.6%~67.8%的準(zhǔn)確度。在加入評論者的特征之后,檢測準(zhǔn)確度提升至84.8%~86.1%。該研究說明評論者特征有助于提升對虛假評論文本的檢測能力。文獻[7]運用樸素貝葉斯方法和聯(lián)合訓(xùn)練機制,采用文本及評論者特征對來自點評網(wǎng)站Epinions的虛假評論進行檢測,獲得61.3%的F1值。Hammad等在阿拉伯語上運用樸素貝葉斯方法及文本、用戶行為特征對tripadvisor.com、booking.com和agoda.ae等網(wǎng)站的評論數(shù)據(jù)進行虛假評論檢測,獲得99.59%的F1值。但這些研究都沒有對評論文本進行情感分析[8]。

      目前主要是集中在分析和檢測國外英文垃圾評論或識別垃圾評論發(fā)送者的行為特征。與上述研究不同,文中的主要目的是借助識別豆瓣圖書評論的語義特征和相關(guān)統(tǒng)計分析技巧去識別檢測垃圾評論。

      1.2 豆瓣圖書數(shù)據(jù)收集過程

      文中使用的數(shù)據(jù)集是通過分布式爬蟲爬取的豆瓣網(wǎng)上的圖書相關(guān)信息、圖書的真實評論以及相關(guān)用戶對書籍的偏好數(shù)據(jù),豆瓣中的偏好數(shù)據(jù)是對這些書籍進行打分。這些數(shù)據(jù)中評論超過1 000條的圖書有1 283本,超過10 000條評論的圖書有80本,足夠?qū)嶒炇褂谩?/p>

      2 豆瓣垃圾評論詞典

      通過分布式爬蟲爬取了豆瓣圖書700多萬條評論中的一部分,文中對這些評論文本使用“結(jié)巴”中文分詞工具分成單獨的中文單詞。對這些單獨的中文單詞,使用Word2Vec模型計算需要的80%評論單詞的向量表示。然后使用所得的矢量單詞文件建立候選的垃圾詞匯詞典。通過計算單詞之間的向量距離獲得了它們之間的語義相似度,然后用它來決定候選垃圾詞匯詞典中每個單詞的垃圾詞匯權(quán)重。然后通過自擴展遞歸算法,從候選垃圾評論詞匯詞典中選出符合自擴展垃圾評論詞匯詞典要求的垃圾評論詞匯。最后,使用剩下的20%手機的評論來驗證權(quán)重-比例過濾器模型的準(zhǔn)確率和效率。圖1為在豆瓣圖書評論中檢測垃圾評論的流程。

      垃圾評論詞匯是對讀者產(chǎn)生負(fù)面影響并在評論中存在時會影響用戶體驗的詞??梢允莿釉~、名詞、形容詞、副詞甚至是成語,如“尼瑪”、“屌絲”、“逗比”、“碧池”和“傻帽”等等。因而,垃圾評論詞是檢測垃圾評論的根底。垃圾評論詞匯詞典是垃圾評論詞的集合,它被分為常見的廣告詞和具有粗鄙內(nèi)涵的詞,并添加了各自的垃圾評論權(quán)重值。

      垃圾評論詞典中所選垃圾詞匯主要來自三個相關(guān)的基本詞典:基本俗詞詞典、基本廣告詞典和豆瓣垃圾評論詞典。這三個基礎(chǔ)詞典是由粗鄙字詞和廣告字詞種子組合而成。

      垃圾評論詞匯(spam word,SW)定義為發(fā)布的評論中單詞的廣告單詞或粗俗特征。它有兩個屬性:詞匯類別(C)和權(quán)重(W)。詞匯類別包括“廣告”(A)或“粗俗”(V)兩個垃圾評論文本類別。權(quán)重表示在評論中發(fā)布單詞時給讀者帶來的不良影響的程度。垃圾評論詞匯類別和權(quán)重如下所示:

      SW(span word)={C:W},C∈{A,V},W∈{0.1…0.5}

      (1)

      在該模型中,權(quán)重W在0.1~0.5之間的區(qū)間內(nèi)變化,值越高表示給讀者帶來的不良影響越大。當(dāng)詞匯的W處于較低值(小于0.1)時,表示該詞匯可被視為正常單詞,這樣處理可以提高垃圾評論檢測的準(zhǔn)確率。因為考慮到圖書評論數(shù)量很大,如果將最高閾值定義成大于0.5,則很難確定迭代過程中的最低準(zhǔn)確度閾值(這是用于收集垃圾評論詞匯并計算相應(yīng)垃圾評論的過程)。通過自擴展遞歸算法的多次迭代之后,發(fā)現(xiàn)W的值小于0.1的單詞與正常單詞高度相似,因此將0.1定義為最低閾值。通過這種方式,可以更加準(zhǔn)確地識別圖書垃圾評論。

      2.1 Word2Vec中的Skip-Gram模型

      在構(gòu)建垃圾評論詞典的過程中,基于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)語言模型文獻,主要利用Mikolov等[9-12]提出的Skip-Gram模型。在給定訓(xùn)練語料庫的前提下,Skip-Gram模型可以通過將評論單詞進行向量表示,然后預(yù)測自擴展詞匯與輸入單詞之間的相似度。

      (2)

      其中,w1…wa表示訓(xùn)練語料庫中的單詞;s表示訓(xùn)練窗口(span)的大小。在訓(xùn)練窗口中從-s到s求和來計算正確預(yù)測單詞wa+i的對數(shù)概率,給出中間的單詞wa。概率p(wa+i|wa是式3中目標(biāo)的核心部分,由歸一化指數(shù)函數(shù)定義:

      (3)

      其中,uw和uw'分別是單詞的上下文和目標(biāo)向量表示;W是詞匯表的大小。通過文獻[13-15]可知,由于歸一化等式的時間復(fù)雜度限制,式3需要O(|W|)時間復(fù)雜度。

      2.2 基本垃圾詞匯詞典

      “基本垃圾詞匯詞典”中列出的詞語被認(rèn)為是對用戶閱讀評論造成負(fù)面影響的詞匯,因為它們可能會讓讀者對這本圖書產(chǎn)生負(fù)面情緒。一般來說,讀者的情緒更可能受到詞典中包含的粗俗詞語的負(fù)面影響。詳細(xì)構(gòu)建過程如下:

      (1)收集垃圾評論詞種子:收集了來自中國語料庫和新華詞典的5人提交的約200個粗俗詞。實際上,這些單詞不一定真正符合絕大多數(shù)人所持有的標(biāo)準(zhǔn)。通過這個過程,可以確定所選單詞的詞匯類別。在粗俗的詞匯收集之后,最后的粗俗詞語種子列表包含大約100個單詞。

      (2)匹配垃圾評論:根據(jù)上面提到的粗俗詞種子列表,從豆瓣圖書所有評論中選擇了5萬條垃圾評論,發(fā)現(xiàn)其中包含3個或更多粗俗詞,同時,這些圖書評論的長度至少包含12個單詞。

      (3)補充詞典:使用“結(jié)巴”中文分詞工具將選定的圖書垃圾評論分解為單獨的單詞。接著通過Word2Vec中的Skip-Gram模型擴充詞典,最后存放在一個文件中。

      (4)設(shè)置權(quán)重:手動分析文件中的每個單詞,最后在基本垃圾詞匯詞典中添加了另外380個粗俗單詞。因此,收集了總共480個粗俗詞,然后為每個詞附加了最高權(quán)重0.5,因為如果一段評論文本中出現(xiàn)這些詞,那么這條評論有很大的可能性是垃圾評論。

      2.3 基本廣告詞典

      基本廣告詞典中的大部分單詞都出現(xiàn)于用戶評論發(fā)布廣告、鏈接等與圖書略微相關(guān)或者毫不相關(guān)的信息,來干擾用戶或者借助熱門圖書營銷自己的商品,實現(xiàn)利益最大化。然而對于讀者來說可能無法區(qū)分真假,因此,所有含有廣告詞的評論都可被視為讀者的潛在垃圾評論。文中使用構(gòu)造基本垃圾評論詞典的相同方法構(gòu)造了廣告基本詞典。最后廣告基本詞典包含380個廣告垃圾詞。將廣告基本詞典中單詞的權(quán)重設(shè)置為0.4,因為廣告垃圾詞類似于普通單詞,并且對讀者的傷害小于粗俗單詞。

      2.4 豆瓣圖書特征詞典

      由于文中研究的是豆瓣圖書垃圾評論,所以肯定不能拋開圖書本身的屬性,每本書其實都有它自己的屬性特征。比如一本科幻類、描述人工智能的書籍,如果一條評論整篇全在說這本書如何烹飪,那這條評論肯定是垃圾評論。所以需要對每本書進行特征提取,通過書籍的書名和簡介提取關(guān)鍵字,將這些關(guān)鍵字與對應(yīng)的圖書唯一標(biāo)識組成一個數(shù)據(jù)行存儲到豆瓣圖書相關(guān)詞典,同時將這些關(guān)鍵字的權(quán)重設(shè)置為-0.5。因為如果評論包含這些關(guān)鍵字,則這條評論是普通評論的可能性很大。

      驗證垃圾評論,除了需要引入的語義相似度,主要是通過計算微博詞與構(gòu)造的基本詞典詞之間的向量距離得出,旨在弄清微博詞的語義指向。與K-nearest neighbor(KNN)方法類似,該方法首先標(biāo)記幾個樣本點,然后計算那些標(biāo)記的樣本點與新點之間的相似性[16]。同時,使用語義相似度計算注釋中每個單詞的垃圾評論權(quán)重值,這有助于構(gòu)建WDS詞典[17]。相似距離由詞向量的余弦距離測量,核心部分由式4給出。距離值越高,兩個詞的相似度越大。

      (4)

      在檢測豆瓣圖書垃圾評論時,通過式4對豆瓣評論中的單詞與其評論圖書特征進行相似度計算,按照一定比例計算這個單詞的權(quán)重,然后與基本垃圾評論集中的單詞權(quán)重求和,并進行分析。

      2.5 權(quán)重比例過濾器模型

      基本垃圾評論詞匯詞典中的每個垃圾評論詞都會有一個對應(yīng)的權(quán)重相匹配,所以可以通過每條評論中垃圾評論詞匯數(shù)量和權(quán)重去判定這條評論是否是垃圾評論。

      首先需要將圖書評論分為句子S1,…,Sn并將每個句子的垃圾詞定義為W1,…,Wn。通過研究發(fā)現(xiàn),對于大多數(shù)用戶,特別是垃圾評論的發(fā)送者,更愿意在13個中文單詞內(nèi)發(fā)表評論,將其定義為簡短評論,而長度大于13個中文單詞的評論則被定義為長評論。為了深入了解這些特征,從評論數(shù)量前十的圖書的所有評論中隨機選擇了4 000條。經(jīng)過統(tǒng)計分析得出,簡短評論的比例占35.5%,長評論的比例占63.4%,而其余評論僅由表情符號組成或者太短,這部分評論直接判定為垃圾評論。

      對不同長度評論中分發(fā)的垃圾詞的比例進行了分析,如圖2所示??梢缘贸鼋Y(jié)論,評論中垃圾詞的分布是不對稱的,分配的垃圾詞的比例主要在0.5以下。

      圖2 垃圾評論詞匯比例分布

      通過上述統(tǒng)計分析的結(jié)果,在權(quán)重比例過濾模型中設(shè)置了兩個關(guān)鍵屬性:每條垃圾評論中垃圾詞匯的比例;評論中包含的所有垃圾詞權(quán)重的總和代表該評論的垃圾評論權(quán)重。將變量C(Si)定義為句子Si中垃圾詞的總和,變量P為垃圾詞的比例。句子Si的垃圾評論范圍計算如下:

      (5)

      (6)

      根據(jù)已知豆瓣評論的特點,可以合理推理句子Si,如下:

      (1)如果P(Si)和SW(Si)的值都很小,Si可能不是垃圾評論;

      (2)如果P(Si)的值很小且SW(Si)的值很大,Si是垃圾評論;

      (3)如果P(Si)的值很大且SW(Si)的值很小,Si可能不是垃圾評論;

      (4)如果P(Si)和SW(Si)的值都很大,Si是垃圾評論。

      為了得到P(Si)和SW(Si)的閾值,從評論數(shù)量前十的圖書的評論中隨機抽取1 000條正常評論和1 000條垃圾評論。根據(jù)基本垃圾評論詞典計算每個評論的SW和P的值。SW和P的分布如圖3所示。

      圖3 正常評論垃圾評論權(quán)重-比例分布

      從圖3可明確看出,SW和P的閾值可以確定為1.0和0.3。評估垃圾評論的標(biāo)準(zhǔn)總結(jié)如下:

      對于短評論Si,如果SW(Si)<0.5且P(Si)≤0.6,則其為正常評論,否則該評論被視為垃圾評論;對于長評論Si,如果SW(Si)<1.0且P(Si)≤0.3,則其為正常評論,否則該評論被視為垃圾評論。

      3 實驗結(jié)果及分析

      為了評估所提出的模型和垃圾評論詞典的性能,進行了如下兩個相關(guān)實驗:

      (1)從評論數(shù)最多的圖書的評論中識別垃圾評論。

      (2)通過對評論數(shù)前一百的豆瓣圖書隨機抽樣十本書,對這些圖書的評論進行隨機抽樣。

      使用分類算法對實驗結(jié)果進行測量,定義見表1。

      表1 分類算法混淆矩陣

      其中,a表示正確分類為垃圾評論的評論數(shù);b表示錯誤歸類為垃圾評論的正常評論數(shù);c表示錯誤歸類為正常評論的垃圾評論數(shù);d表示正確分類成正常評論的評論數(shù)。

      通過精確率(P)和召回率(R)來衡量實驗結(jié)果:

      P=a/(a+b)

      (7)

      R=a/(a+c)

      (8)

      F1是P和R的調(diào)和均值,將用它評估分類的總體結(jié)果:

      F1=2*P*R/(P+R)

      (9)

      從評論數(shù)最多的圖書的評論中識別垃圾評論:

      選取了豆瓣圖書《白夜行》的所有評論,將66 175條評論數(shù)據(jù)作為輸入文件。通過權(quán)重比例模型過濾這些評論,經(jīng)過統(tǒng)計分析,垃圾評論檢測精度為91.8%,召回率為82.5%,F(xiàn)1為86.9%,如圖4所示。

      圖4 實驗結(jié)果

      從圖4可以得到,平均精確率為85.4%,平均召回率為89.02%,平均F1值為87.12%。從這些結(jié)果可知,通過權(quán)重比例模型識別垃圾評論得到了穩(wěn)定的精確率、召回率和F1值。因此,文中方法可以有效地檢測垃圾評論并具有相對準(zhǔn)確性。

      目前還有很多研究人員在研究垃圾評論內(nèi)容檢測問題,但由于選擇了不同的數(shù)據(jù)集和垃圾評論特征,這些研究論文中垃圾評論內(nèi)容的定義各不相同。因此,將這些結(jié)果與文中得到的結(jié)果進行比較是不合適的。

      4 結(jié)束語

      文中對豆瓣圖書評論進行了深入分析。為了更準(zhǔn)確有效地檢測垃圾評論,從詞語語義特征的新視角構(gòu)建了垃圾評論詞典和圖書特征詞典,非常適合圖書類垃圾評論的檢測。此外,將單個評論的垃圾評論詞匯權(quán)重和垃圾評論比例定義為權(quán)重比例過濾器模型中的兩個關(guān)鍵屬性,以檢測不同長度的垃圾評論。這兩種垃圾評論檢測方法是文中研究的核心方法。在垃圾評論檢測實驗中驗證了該方法的有效性和準(zhǔn)確性。

      盡管所獲得的結(jié)果對于豆瓣圖書垃圾評論檢測是很理想的,但是可以通過許多可識別的區(qū)域來改進文中的模型,同時可以分析用戶的評論習(xí)慣,分析這些評論用戶的特征來進一步檢測垃圾評論。通過考慮評論與發(fā)表評論用戶之間的關(guān)系,可以進一步提高垃圾評論檢測的精確率和召回率。下一步將在研究檢測垃圾評論的下一階段引入更深層次的結(jié)構(gòu)化特征并考慮用戶特征,以便考慮用戶-垃圾評論組合關(guān)系等方面。

      猜你喜歡
      詞典權(quán)重單詞
      權(quán)重常思“浮名輕”
      單詞連一連
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      看圖填單詞
      評《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      看完這些單詞的翻譯,整個人都不好了
      層次分析法權(quán)重的計算:基于Lingo的數(shù)學(xué)模型
      河南科技(2014年15期)2014-02-27 14:12:51
      特克斯县| 庄河市| 宣威市| 龙胜| 辉南县| 黄石市| 安远县| 太和县| 涟源市| 重庆市| 五台县| 鹰潭市| 松原市| 申扎县| 吉隆县| 西安市| 全南县| 佳木斯市| 邳州市| 五台县| 平武县| 蕉岭县| 象山县| 南涧| 中江县| 大丰市| 安新县| 丹棱县| 清流县| 库尔勒市| 汕头市| 绥棱县| 阜康市| 沈丘县| 固阳县| 冕宁县| 无锡市| 江西省| 华阴市| 哈尔滨市| 青州市|