金保華,周兵,王睿,殷長魁
(鄭州輕工業(yè)學(xué)院,鄭州 410002)
隨著互聯(lián)網(wǎng)的發(fā)展和普及,其影響已經(jīng)深入到了人們的日常生活,對人們的生活方式也產(chǎn)生了巨大的影響。網(wǎng)絡(luò)空間已經(jīng)成為人們獲取知識和信息的重要渠道,同時,也是人們表達(dá)自己的情感觀點(diǎn)的集散地和社會事件輿論信息的放大器。例如:微博,跟帖評論等。如何對這些承載著情感信息的網(wǎng)絡(luò)文本進(jìn)行情感分類,有利于了解和掌握社會事件輿情的動態(tài)。
面對這些數(shù)據(jù)量如此龐大的文本信息,以人工的方式對它們識別分類,這顯然是不現(xiàn)實(shí)的,因此就需要一種智能的方法代替人工來處理這種事情。文本信息的情感分類研究是一項(xiàng)新的研究領(lǐng)域,它包含人工智能、計算機(jī)語言學(xué)、機(jī)器學(xué)習(xí)、信息挖掘等學(xué)科內(nèi)容。近年來,關(guān)于文本情感信息分類的研究已經(jīng)取得了長足的進(jìn)步。
基于文本的情感傾向分析是一個多學(xué)科相互交叉的研究工作,它包含人工智能、數(shù)據(jù)挖掘、信息檢索等多個領(lǐng)域和學(xué)科。自21世紀(jì)初,Pang[1]提出了有關(guān)文本情感傾向分析的概念后,不少的學(xué)者都對此問題進(jìn)行了卓有成效的研究。Hinton[2]于2006年提出了深度學(xué)習(xí)的方法,隨后,深度學(xué)習(xí)方法在計算機(jī)語音與圖像識別領(lǐng)域得到了廣泛運(yùn)用,并且取得了不錯的研究效果,于是越來越多的學(xué)者和研究人員,在借鑒了該方法在其他領(lǐng)域的成功經(jīng)驗(yàn),將其應(yīng)用于文本情感傾向分析判斷的研究中。
目前為止,常用的文本情感分析方法是基于機(jī)器學(xué)習(xí)的情感分類分析方法,該類分析方法又可以分為支持向量機(jī)(SVM)、最大熵(ME)、樸素貝葉斯分類器(NB)、k-最鄰近(kNN)等方法。雖然以上方法可以有效地促進(jìn)情感傾向分析的準(zhǔn)確率,但是這些方法在對文本進(jìn)行分析之前,需要對文本預(yù)處理,例如,對文本信息的預(yù)處理、分詞、特征提取等步驟和過程,這些過程對文本情感傾向分析的準(zhǔn)確率,起著至關(guān)重要的作用。由于需要對文本信息進(jìn)行過多的人工預(yù)處理,而且還忽略了詞義之的關(guān)系,費(fèi)時費(fèi)力。因此選用一種減少人工預(yù)處理的方法,對現(xiàn)在不斷飛速擴(kuò)展的互聯(lián)網(wǎng)文本信息的處理,就顯得尤關(guān)必要了。
詞義消歧是自然語言處理中一項(xiàng)重要的工作,同一個的詞匯在不同的語境之下含義不同的現(xiàn)象在自然語言的語境中普遍存在,所以消除詞匯之間的歧義,在文本情感傾向分析中,有著至關(guān)重要的作用。為了獲取文本內(nèi)容向下文相關(guān)聯(lián)的文本特征信息,Graves[3]提出一種BLSTM模型,該模型采用雙向的LSTM(長短時記憶網(wǎng)絡(luò))對文本信息和特征進(jìn)行雙向識別。Zhou[4]介紹了帶注意力機(jī)制的BLSTM模型,該模型能夠在沒有太多干預(yù)的情況下依靠自己來獲取文本特征信息。在2014年,學(xué)者Kim[5]提出了一個新的文本情感分類模型,它利用卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),對提取到的文本數(shù)據(jù)特征進(jìn)行處理操作,該模型中運(yùn)用兩個大小不同的過濾器,作為一個分布式的文本特征提取器,被應(yīng)用于文本情感分類模型中。
本文采用了一種基于卷積神經(jīng)網(wǎng)絡(luò)和詞義消歧的結(jié)構(gòu)模型,大大減少了以人工的方式對文本進(jìn)行預(yù)處理,利用有關(guān)數(shù)據(jù)集對模型進(jìn)行一定量的訓(xùn)練后,再進(jìn)行文本情感傾向的分析。實(shí)驗(yàn)結(jié)果表明,該方法模型在減少人工預(yù)處理的工作之后,仍然能取得良好的結(jié)果。
為了實(shí)現(xiàn)計算機(jī)能夠有效地識別和處理現(xiàn)實(shí)生活中的文字文本信息,就需要找到一種計算機(jī)能夠識別的合適的對文本內(nèi)容信息結(jié)構(gòu)化表示的方法,向量空間模型(Vector Space Model,VSM)是現(xiàn)在最常用的文本表示方法,它是在20世紀(jì)60年代末,由哈佛大學(xué)的Gerard Salton[6]首先提出的,該表示方法模型最早被應(yīng)用于Smart信息檢索系統(tǒng)上。在這個模型中,每一個文本都被映射成多維向量中的一個點(diǎn),以向量的形式給出。將這些向量集合在在一起,于是就形成一個文本的向量空間。
例如,對于給定的文本 D,其中包含單詞集W(w1,w2,…,wm),提取到文本的特征集 K(k1,k2,…,kn),m是文本中的單詞個數(shù),n是表示提取到的文本特征個數(shù)。第 j個單詞提取到的 i個文本特征表示為對文本信息做詞向量化處理:
其中,rw是詞 w向量的向量表示,Wword∈Rl×||m表示文本的詞向量矩陣。
兩個文本向量在它們的空間上的距離稱之為它們的相似度。文檔 d1和文檔 d2向量在空間上的夾角余弦值稱之為文檔在該空間上的相似度,其向量余弦值定義為:
文檔向量之間的向量余弦值越高,則表示兩個文檔之間的相關(guān)度越高。
在人類自然語言的語境中,一個詞匯往往含有一個甚至多個語義,如果將這個詞匯在一定的語境中獨(dú)立出來,這個詞匯就會產(chǎn)生語義歧義。確定一個詞匯的哪個語義在哪個語境中被使用,是詞義消歧研究的目的。
關(guān)于詞義消歧的研究在機(jī)器翻譯、信息檢索、文本分析、知識挖掘等研究方向都具有十分重要的意義?,F(xiàn)有的詞義消歧方法主要可以分為兩類:一、基于詞典的方法,二、基于語料庫的方法?;谠~典的方法利用詞典資源中詞匯和語義之間的對應(yīng)關(guān)系進(jìn)行詞義消歧,基于語料庫的方法從提供的語料庫中學(xué)習(xí)自然語言的語言規(guī)則,以此來實(shí)現(xiàn)語義消岐。
本文選取一種基于知網(wǎng)的語義消歧算法[7],作為本文的研究工具。該算法利用利用語義聯(lián)系強(qiáng)度來進(jìn)行語義消歧。
例如一個詞匯 W,它對應(yīng)的語義集為R={r1,r2,…,rn},其中n≥1。設(shè) Wi是 W 的一個常用的關(guān)聯(lián)詞,它們在一起組成一個特定意義的短語,此時與 Wi關(guān)聯(lián)在一起時,W 對應(yīng)的語義為 ri(ri∈R,0<i<n),此時Wi就與 W的語義 ri之間有個關(guān)聯(lián)度,于是就可以建立起一個詞匯與詞匯語義之間的聯(lián)系強(qiáng)度網(wǎng)。
文本針對現(xiàn)有的文本情感分類模型,在對詞向量進(jìn)行訓(xùn)練的時候,往往忽略詞匯在不同語境的詞義歧義問題,特在模型中引入詞義消歧的概念,在詞向量訓(xùn)練的同時,對詞向量結(jié)合上下文關(guān)系進(jìn)行詞義消歧,然后得到消歧后的文檔特征作為卷積神經(jīng)網(wǎng)文本情感分類模型的底層輸入數(shù)據(jù)。其模型示意圖如圖1所示:
圖1 詞義消歧的卷積神經(jīng)網(wǎng)絡(luò)分類模型示意圖
在向量空間模型中,自然語言信息被轉(zhuǎn)化成由字、詞組和短語等元素組成的結(jié)構(gòu)化向量,這些元素中,有些更能夠代表文本的內(nèi)容,并且對該文本類區(qū)別于其他文本的辨識貢獻(xiàn)度越高,這樣的元素可以被稱作文本的“特征項(xiàng)”。
輸入層:該模型中,文本特征信息利用訓(xùn)練好的詞向量來表示,然后結(jié)合文本中的上下文信息,對當(dāng)前詞匯進(jìn)行語義消歧,利用詞義消歧后的詞來表示當(dāng)前文本的特征表示[8],詞匯在某時刻 t語義消歧后的特征表示為 xt,則有:
則此時的文檔特征矩陣表示為:
卷積層:利用不同大小窗口的過濾器與輸入層相連起來,假使其中一個過濾器窗口大小為 h,與它相對應(yīng)的卷積過濾器為 v∈Rhk,如果該卷積過濾器對輸入數(shù)據(jù)樣本中大小為 h的詞向量上,于是對原來的輸入樣本處理操作,產(chǎn)生一個新的特征向量,生成新特征的公式如下所示:
其中,函數(shù) f是一個非線性函數(shù),b∈R是函數(shù)f的偏置項(xiàng)元素,并且 b和 v均為該卷積神經(jīng)網(wǎng)絡(luò)模型中的重要參數(shù)。此卷積過濾器作用于輸入樣本中所有可能的窗口大小為 h的相鄰此向量{w1:h,w2:h,…,wn-h+1:n}上,然后生成一個特征向量:
其中向量 c∈Rn-h+1。
池化層:池化層對數(shù)據(jù)特征向量 c進(jìn)行池化操作。池化操作對數(shù)據(jù)特征向量 c取最大值c?=max{c}操作,得到的這個最大值 c?就是數(shù)據(jù)特征向量 c對應(yīng)卷積過濾器的特征。卷積神經(jīng)網(wǎng)絡(luò)模型中池化層的設(shè)計思想是利用池化操作,獲得的特征向量的最大值就是與卷積濾波器中相對應(yīng)起來的最重要特征。
本文采用現(xiàn)有的數(shù)據(jù)測試集COAE2014任務(wù)4評測語料數(shù)據(jù)集對模型進(jìn)行測試,該數(shù)據(jù)集中共含有40000條測試數(shù)據(jù),其中官方公布了5000條評論的極性。利用數(shù)據(jù)測試集中提供的40000條測試數(shù)據(jù)來訓(xùn)練詞向量。
其中數(shù)據(jù)集中的數(shù)據(jù)評論樣例如表1所示:
卷積神經(jīng)網(wǎng)絡(luò)中模型有許多重要的參數(shù),這些參數(shù)對模型分類效率和準(zhǔn)確率都有十分重要的影響,例如:卷積核大小、學(xué)習(xí)速率等。本文選取Filter與Hidden_unit兩個參數(shù)作為訓(xùn)練參數(shù),F(xiàn)ilter為模型卷積層中過濾器滑動窗口的大小;Hidden_unit決定了模型中卷積過濾器的數(shù)目[9]。
本文的實(shí)驗(yàn)對參數(shù) Filter,給出(2,3,4)、(4,5,6)、(6,7,8)三個備選項(xiàng),對參數(shù)Hidden_unit給出50和100兩個備選項(xiàng),然后對參數(shù)相互組合,然后給出每種參數(shù)組合模型的分類效果,如表2所示:
表1 評論數(shù)據(jù)例子
表2 不同參數(shù)組合模型的準(zhǔn)確率對照表
從實(shí)驗(yàn)結(jié)果中,我們可以看出本文提到的方法,略好于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型的結(jié)果。且對實(shí)驗(yàn)參數(shù)做出調(diào)整,發(fā)現(xiàn),當(dāng)參數(shù)Filter為(4,5,6)且參數(shù)Hidden_unit為100時,文本分類的準(zhǔn)確率最高。因?yàn)槲⒉┪谋镜拈L度一般在140字左右,文本句子的特征維度一般不會太高,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)模型的池化操作后,選取到的文本句子的主要特征在100左右,F(xiàn)liter的寬度決定了詞向量的長度,詞向量的長度過長,不但增加了算法的復(fù)雜度,而且還不利于特征的提取。
本文在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)文本情感分類模型的基礎(chǔ)上,引入了詞義消歧的概念,在對文本訓(xùn)練的過程中對詞匯進(jìn)行詞義消歧,得到消歧后的文本特征向量,更能體現(xiàn)文本的原始語義特征,并以此作為輸入數(shù)據(jù),利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到了比單一的卷積神經(jīng)網(wǎng)絡(luò)模型更好的分類效果,這說明詞義消歧對文本特征的提取是有意義的,而且對分本的分類效果也有一定的提高。