張美頎
(沈陽化工大學(xué) 遼寧省沈陽市 110142)
互聯(lián)網(wǎng)行業(yè)的高速發(fā)展,帶來的是人們?cè)絹碓较矚g在網(wǎng)絡(luò)上公開分享自己對(duì)某一事物的看法或情緒,因此微博、商品評(píng)論、電影評(píng)論等文本信息大量出現(xiàn)。利用信息,并深入的挖掘和分析,可以為消費(fèi)者和企業(yè)提供相關(guān)的參照依據(jù),為提高產(chǎn)品的服務(wù)與質(zhì)量提供了數(shù)據(jù)依據(jù),也可以為政府提供輿情監(jiān)測(cè)和分析。由于網(wǎng)絡(luò)上的文本信息量過于龐大,光靠人力是不能夠解決問題的,這時(shí)就需要運(yùn)用當(dāng)今的信息技術(shù)。利用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)對(duì)網(wǎng)絡(luò)上大量的文本評(píng)論進(jìn)行處理,然后分析其表達(dá)的情感傾向,這就是情感分析。主要的工作有抽取評(píng)價(jià)對(duì)象與短語以及搭配關(guān)系。
首先通過爬蟲技術(shù)從京東商城上爬取了“西門子”品牌冰箱的用戶評(píng)論數(shù)據(jù),并根據(jù)評(píng)論數(shù)據(jù)集建立基于商品評(píng)論數(shù)據(jù)的情感分析數(shù)據(jù)挖掘模型,需要進(jìn)行數(shù)據(jù)挖掘建模的目標(biāo)如下:
(1)根據(jù)評(píng)論數(shù)據(jù)分析出“西門子”冰箱用戶使用后的情感傾向;
(2)根據(jù)所爬取的評(píng)論數(shù)據(jù)挖掘出“西門子”冰箱所具有的優(yōu)缺點(diǎn);
(3)根據(jù)對(duì)“西門子”品牌冰箱的評(píng)論分析,提煉出其它品牌冰箱的賣點(diǎn)。
本文結(jié)合從京東商城上以爬蟲技術(shù)爬取的“西門子”冰箱的用戶評(píng)論數(shù)據(jù)為基礎(chǔ)建立模型,分別從數(shù)據(jù)抽取、數(shù)據(jù)探索與預(yù)處理、建模&診斷、結(jié)果&反饋等幾個(gè)方面對(duì)商品評(píng)論數(shù)據(jù)進(jìn)行分析,然后通過建立以為語義網(wǎng)絡(luò)或LDA算法為基礎(chǔ)的數(shù)據(jù)挖掘模型[3],分析出評(píng)論數(shù)據(jù)情感傾向的分類問題以及其深層次的隱藏含義。分析的流程圖如圖1 所示。
根據(jù)圖1 中商品評(píng)論數(shù)據(jù)挖掘分析流程圖可知,數(shù)據(jù)預(yù)處理可分為以下3 個(gè)部分,分別為:文本去重復(fù)、壓縮去詞、刪除短句。
此步驟的目的主要是為了去除商品評(píng)論數(shù)據(jù)中的重復(fù)部分,這樣可以起到去除無用評(píng)論和重復(fù)評(píng)論的目的。一般的文本去重算法的主要思想是利用算法分析文本之間的相似程度,然后根據(jù)相似程度的深淺進(jìn)行文本去重。這類算法包括Simhash 算法、距離去重等。其中距離去重算法是通過計(jì)算兩條不同語句間的編輯距離,然后分別對(duì)其計(jì)算得到的距離閾值進(jìn)行判斷,如果計(jì)算得到的編輯距離與閾值之差為負(fù)數(shù),那么將進(jìn)行去重處理。但是當(dāng)遇到所要表達(dá)意思相近的語句時(shí),該語句也可能因?yàn)槿ブ厮惴ǘ粍h點(diǎn),這樣就會(huì)導(dǎo)致錯(cuò)刪的情況出現(xiàn)。為了避免錯(cuò)刪,這里我們采用較為簡單的去重思路,那就是只對(duì)完全重復(fù)的語句進(jìn)行去重。
圖1:商品評(píng)論數(shù)據(jù)挖掘分析流程圖
圖2:CBOW 模型
圖3:Skip-gram 模型
圖4:LDA 生成模型
表1:數(shù)據(jù)集描述
雖然進(jìn)行了文本去重,但是遠(yuǎn)未達(dá)到數(shù)據(jù)清洗的目的,因?yàn)楝F(xiàn)實(shí)中有一些評(píng)論數(shù)據(jù)中含有一些連續(xù)重復(fù)的語句,而這些語句并沒有什么實(shí)際的意義,所以需要對(duì)其進(jìn)行壓縮,以去掉一些不必要的表達(dá),東西好用好用好用,只需要壓縮為東西好用即可。短句刪除的思想來自于,當(dāng)機(jī)械壓縮完成去詞處理后,應(yīng)該將過短的句子進(jìn)行刪除。
3.2.1 壓縮去重復(fù)詞
機(jī)械壓縮可以去除語句中重復(fù)的詞語,在一般的評(píng)論中時(shí)常會(huì)出現(xiàn)一些連續(xù)重復(fù)的開頭和結(jié)尾,因此我們只需要對(duì)文本的開頭和結(jié)尾進(jìn)行處理即可。例如:“安裝費(fèi)怎么這么這么這么貴”。壓縮去重也有其規(guī)則,我們可以通過建立兩個(gè)字符列表來完成,當(dāng)讀取到重復(fù)詞后,先將重復(fù)詞放置在第一個(gè)列表中,再將下一個(gè)重復(fù)詞放置到第二個(gè)列表中,以此類推讀取重復(fù)字符,當(dāng)情況不同時(shí)觸發(fā)相應(yīng)的詞語壓縮準(zhǔn)則,如果再次出現(xiàn)與列表1 和列表2 完全相同的次則對(duì)其進(jìn)行壓縮。根據(jù)以上詞語壓縮規(guī)則,既可以對(duì)開頭或結(jié)尾重復(fù)的語句進(jìn)行壓縮處理,這樣即可得到較為精煉的語句。
3.2.2 刪除較短的評(píng)論
對(duì)短句進(jìn)行刪除就是通過設(shè)置評(píng)論字?jǐn)?shù)的最小限制,當(dāng)評(píng)論語句字?jǐn)?shù)小于此最低門限字?jǐn)?shù)限制時(shí)即對(duì)其進(jìn)行刪除。
首先對(duì)現(xiàn)有文本進(jìn)行訓(xùn)練,得到相應(yīng)的詞向量,這樣就可以將文本符號(hào)數(shù)學(xué)化[4],使文本情感分析的問題轉(zhuǎn)化成了一個(gè)深度學(xué)習(xí)的問題。通常用獨(dú)熱編碼、分布式表示來表示詞向量,例如word2vec 模型就是一個(gè)分布式表示方法[5]。Word2vec 的核心思想是通過詞的上下文得到詞的向量化表示,利用深度學(xué)習(xí)的思想,將對(duì)文本內(nèi)容的處理,用向量運(yùn)算表示,即文本語義上的相似度可以用得到的向量空間上的相似度來表示。Word2vec 包含兩種框架:
(1)CBOW(通過附近詞預(yù)測(cè)中心詞),本文使用CBOW 框架,結(jié)構(gòu)如圖2 所示。
(2)Skip-gram(通過中心詞預(yù)測(cè)附近詞)結(jié)構(gòu)如圖3 所示。
在通過詞向量構(gòu)建得到相應(yīng)結(jié)果后,還需對(duì)商品評(píng)論文本數(shù)據(jù)的子集進(jìn)行人工標(biāo)注,如果是對(duì)商品進(jìn)行正面積極的評(píng)論,那么此評(píng)論被標(biāo)記為1,反之,若此評(píng)論語句是對(duì)商品進(jìn)行反面消極的評(píng)論,那么此評(píng)論則會(huì)被標(biāo)記為-1。評(píng)論與向量是一一映射的關(guān)系,將語句中所有分詞的詞向量相加之后取平均值,最終得到的詞向量的情感傾向值可以判定為評(píng)論的情感傾向[6]。
如果從統(tǒng)計(jì)學(xué)的觀點(diǎn)出發(fā),我們將文本中的主題詞和特征詞進(jìn)行統(tǒng)計(jì),并對(duì)其出現(xiàn)的頻率進(jìn)行量化。在本文中,運(yùn)用LDA 算法模型,可以挖掘到更多不同品牌評(píng)論中的深層信息。在機(jī)器學(xué)習(xí)和自然語言處理中,LDA算法模型常被用來統(tǒng)計(jì)一些抽象的統(tǒng)計(jì)模型。LDA 算法是一種無監(jiān)督深度學(xué)習(xí)算法。LDA 模型是一種生成模型,如圖4 所示。
LDA 算法模型也叫層貝葉斯概率模型,將文本分為了文檔、語句、詞語的層次結(jié)構(gòu),可以有效的建立起相應(yīng)的文本概率分析模型。根據(jù)LDA 算法模型[7]的分析,能夠從文本中挖掘到其潛在的主題,進(jìn)而能夠重點(diǎn)關(guān)注文本中的特征詞,精確的把控住文本的大概含義。LDA 模型的生成過程是:先確定一篇文檔D,文檔和主題、主題和詞匯表中的詞分別滿足兩個(gè)帶有超參數(shù)α 和β 的多項(xiàng)式分布。θ 代表文檔的主題分布,ψ 代表詞分布,其過程就是從θ 中抽取主題,再從其對(duì)應(yīng)的ψ 中抽取一個(gè)詞,進(jìn)行N 次上述操作后得到文檔。這樣,就可以把抽象的文本信息轉(zhuǎn)化成能夠建立相關(guān)數(shù)學(xué)模型的數(shù)字信息[8]。其概率模型公式如公式(1)所示。
本文采用的數(shù)據(jù)是從京東商城上爬取下來的用戶購買使用后對(duì)于西門子冰箱的評(píng)論數(shù)據(jù),約15000 條,主要信息包括用戶信息,冰箱信息以及文字信息。其中用戶信息包括用戶的名稱、等級(jí);冰箱信息包括外觀外形、制冷效果、保鮮效果、容量大小、噪音大小等;文字信息包括評(píng)論者、使用反饋、物品評(píng)分、純文字等,表1 是數(shù)據(jù)的描述。
在數(shù)據(jù)挖掘、文本聚類等方面,LDA 算法模型被廣泛的應(yīng)用[9]。相比于其它的文本情感分析神經(jīng)網(wǎng)絡(luò)模型,它引入了狄利克萊函數(shù)的先驗(yàn)概率信息,因此在文本情感分析過程中,該模型有較強(qiáng)的泛化能力,很少產(chǎn)生過擬合。并且該方法是一種無監(jiān)督的深度學(xué)習(xí)方法,在只要提供預(yù)料數(shù)據(jù)集的情況下,就可以自動(dòng)分析并訓(xùn)練出情感文本[10]的各種情感傾向概率。此算法對(duì)于電商評(píng)論的情感分析能起到較好的作用。