劉 磊,李學(xué)勇,黃永峰
(1.清華大學(xué) 電子工程系 信息認(rèn)知與智能系統(tǒng)研究所,北京 100084;2.河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;3.清華大學(xué) 信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室,北京 100084)
現(xiàn)有情感分類(lèi)方法[1-3]主要有2類(lèi):有監(jiān)督方法和無(wú)監(jiān)督方法。其中有監(jiān)督的情感分類(lèi)又分為兩類(lèi):一種是基于機(jī)器學(xué)習(xí)的方法,另一種是基于深度學(xué)的方法[4]。
訓(xùn)練標(biāo)注數(shù)據(jù)集在有監(jiān)督情感分類(lèi)中是一項(xiàng)重要的基礎(chǔ)工作[2]。在獲得標(biāo)注好的訓(xùn)練數(shù)據(jù)集后,通過(guò)訓(xùn)練數(shù)據(jù)集對(duì)分類(lèi)模型進(jìn)行訓(xùn)練,得到訓(xùn)練數(shù)據(jù)集上分類(lèi)模型的最優(yōu)參數(shù),然后基于訓(xùn)練好的模型,對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類(lèi)。網(wǎng)絡(luò)文本情感分類(lèi)屬于文本分類(lèi),因此,任何有監(jiān)督文本分類(lèi)方法都可以應(yīng)用到網(wǎng)絡(luò)文本極性分類(lèi)中,如樸素貝葉斯、最大熵、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等。周哲[5]采取有監(jiān)督文本分類(lèi)方法(樸素貝葉斯)對(duì)電影評(píng)論進(jìn)行情感極性分類(lèi),把電影評(píng)論分成正負(fù)兩類(lèi)。實(shí)驗(yàn)結(jié)果表明,使用樸素貝葉斯作為分類(lèi)器,電影評(píng)論的情感極性分類(lèi)取得了較好的性能。由于有監(jiān)督情感分類(lèi)精度較高,一直受到研究者的關(guān)注。有監(jiān)督情感分類(lèi)方法存在兩個(gè)問(wèn)題:一是領(lǐng)域依賴(lài)性強(qiáng),只有針對(duì)特定的領(lǐng)域進(jìn)行大量的人工標(biāo)注訓(xùn)練集才能取得良好的分類(lèi)效果;二是網(wǎng)絡(luò)文本領(lǐng)域類(lèi)型多,對(duì)每個(gè)領(lǐng)域單獨(dú)標(biāo)注訓(xùn)練數(shù)據(jù)集,成本太高。阻礙了有監(jiān)督學(xué)習(xí)的應(yīng)用[6,7]。
為解決以上存在問(wèn)題,不需要標(biāo)注訓(xùn)練數(shù)據(jù)集和具有一定領(lǐng)域普適性的無(wú)監(jiān)督情感分類(lèi)方法受到越來(lái)越多研究者的重視,并逐漸成為學(xué)術(shù)研究熱點(diǎn)。
現(xiàn)在的基于無(wú)監(jiān)督的情感分類(lèi)研究方法主要分為兩類(lèi):一種是基于情感極性詞典的分類(lèi)方法;另一種是基于自學(xué)習(xí)的無(wú)監(jiān)督網(wǎng)絡(luò)文本情感極性分類(lèi)方法。
基于情感詞的無(wú)監(jiān)督網(wǎng)絡(luò)文本極性分類(lèi)方法核心思路是:首先,基于現(xiàn)有情感詞極性分類(lèi)方法,計(jì)算網(wǎng)絡(luò)文本中情感詞的極性;然后,綜合情感詞和情感短語(yǔ)的情感極性,計(jì)算文本的整體情感強(qiáng)度;最后,比較文本整體情感強(qiáng)度與閾值“0”的大小,實(shí)現(xiàn)網(wǎng)絡(luò)文本極性分類(lèi)。
在計(jì)算情感詞極性時(shí),王志濤等[8]主要基于情感詞典來(lái)進(jìn)行情感分類(lèi),沒(méi)有對(duì)情感詞極性的文本領(lǐng)域依賴(lài)性進(jìn)行處理;劉浩[9]主要基于語(yǔ)料庫(kù),通過(guò)領(lǐng)域語(yǔ)料庫(kù)的統(tǒng)計(jì)信息,部分解決了情感詞極性的文本領(lǐng)域依賴(lài)問(wèn)題,但從分類(lèi)效果看,性能一般。同時(shí),基于語(yǔ)料庫(kù)構(gòu)造領(lǐng)域情感詞典,需要對(duì)每個(gè)領(lǐng)域都重新構(gòu)造詞典或進(jìn)行跨領(lǐng)域移植。對(duì)每個(gè)領(lǐng)域構(gòu)造情感詞典消耗太大,進(jìn)行跨領(lǐng)域移植精度較差。為解決情感詞極性的文本領(lǐng)域依賴(lài)問(wèn)題,有一些研究者借鑒有監(jiān)督學(xué)習(xí)的思路,提出了基于自學(xué)習(xí)的無(wú)監(jiān)督網(wǎng)絡(luò)文本極性分類(lèi)方法[10,11]。
基于自學(xué)習(xí)方法的主要步驟為:一是基于情感詞典方法,生成初始偽標(biāo)注數(shù)據(jù)集,訓(xùn)練自學(xué)習(xí)情感分類(lèi)器;二是基于自學(xué)習(xí)框架,循環(huán)迭代更新初始偽標(biāo)注數(shù)據(jù)集,訓(xùn)練網(wǎng)絡(luò)文本極性分類(lèi)器;三是基于訓(xùn)練好的分類(lèi)器實(shí)現(xiàn)網(wǎng)絡(luò)文本情感分類(lèi)[2]?;谧詫W(xué)習(xí)的方法,通過(guò)自動(dòng)生成初始偽標(biāo)注數(shù)據(jù)集,訓(xùn)練領(lǐng)域情感分類(lèi)器,試圖解決情感詞極性的文本領(lǐng)域依賴(lài)問(wèn)題?;谧詫W(xué)習(xí)方法性能與偽標(biāo)注數(shù)據(jù)集的情感類(lèi)別正確性和領(lǐng)域類(lèi)別代表性相關(guān)?,F(xiàn)有基于自學(xué)習(xí)的方法,在生成初始偽標(biāo)注數(shù)據(jù)集時(shí),沒(méi)有考慮網(wǎng)絡(luò)文本的領(lǐng)域類(lèi)別代表性,最終在自學(xué)習(xí)過(guò)程中,引入較多錯(cuò)誤偽標(biāo)注數(shù)據(jù)[2]。
無(wú)監(jiān)督情感分類(lèi)雖然不用標(biāo)注訓(xùn)練數(shù)據(jù)集,也可在線(xiàn)實(shí)時(shí)跨領(lǐng)域進(jìn)行分類(lèi),但是依然存在著分類(lèi)精度低和偽標(biāo)注數(shù)據(jù)錯(cuò)誤多的問(wèn)題。鑒于這種情況,我們提出了一種基于集成學(xué)習(xí)的情感模糊計(jì)算分類(lèi)框架,該框架如圖1所示,主要由2部分組成。
圖1 量化情感詞典的模糊計(jì)算和多分類(lèi)器集成的情感分類(lèi)框架
(1)基于量化情感詞典和字典的網(wǎng)絡(luò)文本情感模糊計(jì)算方法
現(xiàn)有無(wú)監(jiān)督情感分類(lèi)主要通過(guò)情感詞,情感短語(yǔ)進(jìn)行情感分類(lèi),有的研究者提出了從情感詞,情感短語(yǔ),情感句子和句間關(guān)系等多個(gè)粒度來(lái)進(jìn)行情感分類(lèi),但這些方法都沒(méi)有考慮情感詞本身的情感強(qiáng)度。針對(duì)以上問(wèn)題,本文提出一種基于量化情感詞典的網(wǎng)絡(luò)文本情感強(qiáng)度計(jì)算方法。該方法按照人類(lèi)理解語(yǔ)言的規(guī)律,從字、詞、短語(yǔ)和句子4個(gè)層次粒度,計(jì)算網(wǎng)絡(luò)文本的情感強(qiáng)度。
目前基于情感強(qiáng)度的情感極性計(jì)算方法主要采用比較網(wǎng)絡(luò)文本的情感強(qiáng)度與閾值‘0’的大小[2],來(lái)識(shí)別網(wǎng)絡(luò)文本的極性。由于情感強(qiáng)度的模糊性,采用確定性理論在描述情感強(qiáng)度與網(wǎng)絡(luò)文本情感極性的關(guān)系時(shí)存在一定的偏差,為此,我們提出了基于情感強(qiáng)度的網(wǎng)絡(luò)文本情感極性模糊計(jì)算方法。基于模糊集合理論,對(duì)網(wǎng)絡(luò)文本的情感強(qiáng)度與情感極性關(guān)系進(jìn)行描述。
(2)多分類(lèi)器集成的迭代自學(xué)習(xí)方法
現(xiàn)有基于自學(xué)習(xí)的無(wú)監(jiān)督方法在使用分類(lèi)器時(shí),多采用單個(gè)分類(lèi)器。但單個(gè)分類(lèi)器的性能畢竟有限,而且每個(gè)分類(lèi)器都有其適合分類(lèi)的數(shù)據(jù)區(qū)間。某一分類(lèi)器,對(duì)訓(xùn)練集中,某種分布的數(shù)據(jù)表現(xiàn)出比較好的效果,但是對(duì)測(cè)試數(shù)據(jù)集中另一種分布的待測(cè)試數(shù)據(jù)效果可能就變差很多。針對(duì)以上問(wèn)題,框架提出了一種多分類(lèi)器集成方法,通過(guò)對(duì)多個(gè)分類(lèi)器的分類(lèi)結(jié)果進(jìn)行融合,選取情感分類(lèi)結(jié)果精度高的文本生成偽標(biāo)注文本集合,訓(xùn)練自學(xué)習(xí)情感分類(lèi)器。通過(guò)多個(gè)分類(lèi)器進(jìn)行集成的方式既能提高分類(lèi)的性能,又能保證測(cè)試結(jié)果的穩(wěn)定性。
現(xiàn)有基于情感詞典的方法采用通用情感詞典,計(jì)算網(wǎng)絡(luò)文本的情感類(lèi)別,很少考慮情感強(qiáng)度對(duì)網(wǎng)絡(luò)文本情感分類(lèi)的影響。由于自然語(yǔ)言的模糊性,特別是情感詞情感強(qiáng)度的模糊,用確定性集合理論描述網(wǎng)絡(luò)文本情感強(qiáng)度和極性的關(guān)系存在一定的偏差。為此,我們提出了基于量化情感詞典的和字典的網(wǎng)絡(luò)文本情感模糊計(jì)算方法。
在無(wú)監(jiān)督網(wǎng)絡(luò)文本的情感分類(lèi)中,情感詞有很重要的作用。對(duì)那些不在情感詞典中的詞,我們有多種處理方法。針對(duì)中文詞和字之間的關(guān)系,借鑒前人的工作,我們構(gòu)造了一個(gè)情感字典。我們使用量化情感字典來(lái)計(jì)算無(wú)法在情感詞典中匹配到的情感詞的情感強(qiáng)度。量化情感字典的具體構(gòu)造過(guò)程如下:
(1)首先我們?nèi)〕稣蚯楦性~典和負(fù)向情感詞典里面的二字詞,將所有的詞放到一起,并把全部的詞分解為單個(gè)的字,最后,去除重復(fù)的字。
(2)分別計(jì)算每個(gè)字在正負(fù)情感詞典中出現(xiàn)的次數(shù)N(pos),N(neg)。
(3)這個(gè)字的情感強(qiáng)度P(ls)就是
P(ls)=N(pos)/(N(pos)+N(neg))
如果系數(shù)大于0.5代表正向字,小于0.5代表負(fù)向字。
現(xiàn)有基于情感詞典進(jìn)行情感分類(lèi)的研究方法多以?xún)蓚€(gè)極性詞典即一個(gè)正向情感詞典和一個(gè)負(fù)向情感詞典為基礎(chǔ)實(shí)現(xiàn)情感分類(lèi)。這種方法使得所有的情感詞只有一個(gè)粗粒度的情感傾向,無(wú)法根據(jù)情感詞本身的情感強(qiáng)度進(jìn)行更好的分類(lèi)。為此,我們提出了情感詞典的量化計(jì)算方法,以Hownet情感詞典為基準(zhǔn),將正負(fù)情感詞典分別標(biāo)注情感強(qiáng)度,情感強(qiáng)度量化值的大小由強(qiáng)到弱分別標(biāo)注為從5到1。
現(xiàn)在網(wǎng)絡(luò)文本情感分類(lèi)方法,主要基于確定性集合理論,計(jì)算網(wǎng)絡(luò)文本的情感強(qiáng)度和極性。由于自然語(yǔ)言的模糊性,采用確定性集合進(jìn)行計(jì)算時(shí)存在一定的偏差。為此,當(dāng)我們計(jì)算網(wǎng)絡(luò)文本的情感類(lèi)別時(shí),我們應(yīng)該采取模糊集合來(lái)描述情感強(qiáng)度和情感類(lèi)別的關(guān)系。以文本集合R={ri} 中文本ri的情感強(qiáng)度si(ri)為基礎(chǔ),我們定義文本集合R={ri} 的正負(fù)情感類(lèi)別為模糊集P和N
P={(ri,μP(ri)|ri∈R)}
N={(ri,μN(yùn)(ri)|ri∈R)}
這里,μP(ri)μN(yùn)(ri) 是文本ri屬于正負(fù)情感類(lèi)別P和N的隸屬函數(shù)。我們選擇2次拋物函數(shù)作為文本ri的正負(fù)向情感類(lèi)別隸屬函數(shù)
(1)
(2)
這里ri是文本,si(ri)是文本ri的情感強(qiáng)度,a,b是決定成員函數(shù)邊界的可調(diào)參數(shù)。
基于網(wǎng)絡(luò)文本的正負(fù)類(lèi)別隸屬度函數(shù),依據(jù)最大隸屬度原則,我們把模糊集的正負(fù)隸屬度函數(shù)合并為統(tǒng)一的模糊集分類(lèi)函數(shù)。最終,我們得到以下模糊集的分類(lèi)函數(shù)
(3)
我們定義k=(a+b)/2, 最終,我們不需要設(shè)定兩個(gè)參數(shù)a和b的值,只需要設(shè)定一個(gè)參數(shù)k的值,就能實(shí)現(xiàn)文本的情感分類(lèi)。在參數(shù)設(shè)定時(shí),我們使用文章基于多粒度計(jì)算和多準(zhǔn)則融合中的方法實(shí)現(xiàn)參數(shù)k的確定[2]。
現(xiàn)有的基于自學(xué)習(xí)的情感分類(lèi)方法主要基于單個(gè)分類(lèi)器計(jì)算文本的情感類(lèi)傾向度,然后按照文本可信度,選取偽標(biāo)注文本[2]。因?yàn)椴捎脝我环诸?lèi)器進(jìn)行分類(lèi)時(shí)分類(lèi)精度不高,導(dǎo)致在生成偽標(biāo)注數(shù)據(jù)集時(shí),會(huì)生成較多錯(cuò)誤標(biāo)注數(shù)據(jù)。
為解決以上存在的問(wèn)題,本文提出了一種基于多分類(lèi)器集成的自學(xué)習(xí)情感分類(lèi)方法,實(shí)現(xiàn)網(wǎng)絡(luò)文本的精準(zhǔn)分類(lèi)。
本文提出的基于多分類(lèi)器集成的學(xué)習(xí)情感分類(lèi)方法基于情感詞的無(wú)監(jiān)督方法通過(guò)以下3個(gè)步驟來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)文本的精確分類(lèi):①通過(guò)構(gòu)建量化情感詞典的計(jì)算方法,然后按照語(yǔ)言學(xué)的規(guī)則在字、詞、短語(yǔ)、句型4個(gè)語(yǔ)言粒度,作為集成分類(lèi)器中的第一個(gè)分類(lèi)器。②在針對(duì)現(xiàn)有在自學(xué)習(xí)框架的基礎(chǔ)上,使用SVM分類(lèi)器和樸素貝葉斯分類(lèi)器作為第二個(gè)和第三個(gè)分類(lèi)器。③通過(guò)以上3個(gè)分類(lèi)器作為集成分類(lèi)器來(lái)生成和更新偽標(biāo)注數(shù)據(jù)。集成分類(lèi)器有效地減少了偽標(biāo)注數(shù)據(jù)的錯(cuò)誤率,從而提升了標(biāo)注訓(xùn)練數(shù)據(jù)集的精確度,因此在整體上對(duì)自學(xué)習(xí)情感分類(lèi)器在性能上有了較大的提升。
該方法的具體步驟如下。
(1)對(duì)非監(jiān)督分類(lèi)結(jié)果,按照文本情感得分進(jìn)行排序。
(2)統(tǒng)計(jì)正負(fù)情感得分的文本數(shù)量,統(tǒng)計(jì)文本的正負(fù)不均衡性。
(3)借鑒SVM最大分類(lèi)間隔的思想,選擇一部分文本作為已標(biāo)注好的訓(xùn)練數(shù)據(jù)。
選取規(guī)則:用數(shù)量少的類(lèi)別為基準(zhǔn),選取50%-90%的比例作為訓(xùn)練數(shù)據(jù)個(gè)數(shù)。從最大和最小兩端進(jìn)行選擇。
例如:按分值從大到小順序排列的文本共100個(gè),其60個(gè)大于0,40個(gè)小于0,我們可以選20個(gè)作為訓(xùn)練集。最大的10個(gè)和最小的10個(gè)。用這些數(shù)據(jù)訓(xùn)練SVM分類(lèi)器和貝葉斯分類(lèi)器。
(4)用訓(xùn)練好的分類(lèi)器對(duì)其余文本進(jìn)行分類(lèi)。
(5)把基于情感詞典的文本分類(lèi)結(jié)果和兩個(gè)分類(lèi)器的文本分類(lèi)結(jié)果求交集,一致的文本作為正確結(jié)果添加到偽標(biāo)注訓(xùn)練集中。
(6)重復(fù)(4)、(5),直到?jīng)]有新的文本添加到訓(xùn)練集為止。
(7)對(duì)剩余的網(wǎng)絡(luò)文本按照最后得到的2個(gè)情感分類(lèi)器進(jìn)行情感分類(lèi),求2個(gè)情感分類(lèi)器分類(lèi)結(jié)果的交集,并把交集中的文本作為爭(zhēng)取結(jié)果添加到偽標(biāo)注訓(xùn)練集中。
(8)重復(fù)(7),直到?jīng)]有新的文本添加到訓(xùn)練集為止。
(9)對(duì)剩余的網(wǎng)絡(luò)文本,采用SVM分類(lèi)器的分類(lèi)結(jié)果作為最終分類(lèi)結(jié)果。
為驗(yàn)證我們的方法在不同領(lǐng)域文本數(shù)據(jù)集和非平衡文本數(shù)據(jù)集上的性能,我們選擇圖書(shū)文本,酒店評(píng)論和非平衡數(shù)據(jù)酒店評(píng)論作為本次實(shí)驗(yàn)的數(shù)據(jù)集。本次實(shí)驗(yàn)的數(shù)據(jù)集(http://www.datatang.com/data/11936/)由中科院譚松波博士提供集。每個(gè)數(shù)據(jù)都包含有正向評(píng)論和負(fù)向評(píng)論。實(shí)驗(yàn)所用數(shù)據(jù)集如見(jiàn)表1。
表1 文本數(shù)據(jù)集的分布
為驗(yàn)證我們所提情感分類(lèi)方法性能,選取召回率R、準(zhǔn)確率P、精度AC和F1,4個(gè)分類(lèi)指標(biāo)作為標(biāo)準(zhǔn)指標(biāo)[2]。以基于情感詞典的無(wú)監(jiān)督網(wǎng)絡(luò)文本情感分類(lèi)方法SLE[12],基于情感詞典和規(guī)則的無(wú)監(jiān)督網(wǎng)絡(luò)文本情感分類(lèi)方法SLR[13],基于多粒度計(jì)算和多準(zhǔn)則融合的方法SLC方法[2]作為比較基準(zhǔn)。在4個(gè)評(píng)論數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表2。
分析表2的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文方法的性能比SLE,SLR和SLC方法都有明顯的提升。與現(xiàn)有基于多粒度計(jì)算和多準(zhǔn)則融合的方法SLC相比,在書(shū)籍測(cè)試數(shù)據(jù)集中,我們方法提升了4.42%的AC。在酒店測(cè)試的數(shù)據(jù)集中,我們方法提升了1.5%的AC。在非平衡酒店的測(cè)試數(shù)據(jù)集中,我們方法提升了1.41%的AC。實(shí)驗(yàn)結(jié)果充分說(shuō)明了本文方法的有效性。
表2 不同法性能比較
為研究不用k值對(duì)本文方法的影響,分別選取k的值為-1、-0.8、-0.6,、-0.4、-0.2、0、0.2、0.4、0.6、0.8、和1.0作為參數(shù)k的取值,得到本文方法在不同k值下的準(zhǔn)確率、召回率、F1值和精度分類(lèi)結(jié)果,如圖2~圖5所示。
圖2 準(zhǔn)確率指標(biāo)測(cè)試
圖3 召回率指標(biāo)測(cè)試
圖4 F1值指標(biāo)測(cè)試
圖5 精度指標(biāo)測(cè)試
從圖2~圖5可以看出,在3個(gè)不同的評(píng)論數(shù)據(jù)集上,在參數(shù)k的取值大小為0.2時(shí),本文的方法表現(xiàn)出了更好的性能。
我們的方法之所以取得較好的效果,主要原因在于,在網(wǎng)絡(luò)文本的情感預(yù)分類(lèi)階段,我們構(gòu)造了量化情感詞典,與現(xiàn)有正負(fù)極性的情感詞典相比,我們構(gòu)造的量化情感詞典對(duì)網(wǎng)絡(luò)文本的情感強(qiáng)度計(jì)算具有更豐富和細(xì)致的表現(xiàn)能力。我們基于模糊集合理論對(duì)網(wǎng)絡(luò)文本的情感強(qiáng)度和情感類(lèi)別進(jìn)行建模,較好地刻畫(huà)了情感強(qiáng)度的模糊性。在網(wǎng)絡(luò)文本情感分類(lèi)的自學(xué)習(xí)階段,我們通過(guò)多分類(lèi)器集成,解決了單一分類(lèi)器分類(lèi)精度較低、構(gòu)造偽標(biāo)注訓(xùn)練數(shù)據(jù)集錯(cuò)誤率高的問(wèn)題,進(jìn)一步提升了網(wǎng)絡(luò)文本情感分類(lèi)的精度。
本文提出了一種基于集成學(xué)習(xí)的情感模糊計(jì)算分類(lèi)方法。對(duì)比已有文獻(xiàn)的相關(guān)文本分類(lèi)算法,分析已有算法存在的問(wèn)題,對(duì)傳統(tǒng)文本分類(lèi)算法進(jìn)行優(yōu)化。針對(duì)相同情感極性情感詞沒(méi)有區(qū)分情感強(qiáng)度問(wèn)題,構(gòu)建了量化情感字典和量化情感詞典。針對(duì)傳統(tǒng)文本分類(lèi)中沒(méi)有考慮情感強(qiáng)度的模糊性問(wèn)題,采用了情感強(qiáng)度的模糊計(jì)算方法。通過(guò)以上兩種方法提高無(wú)監(jiān)督情感預(yù)分類(lèi)的精度。通過(guò)多分類(lèi)器集成的方法可以降低偽標(biāo)注數(shù)據(jù)集的錯(cuò)誤率,從而整體上提高情感分類(lèi)的準(zhǔn)確率和精度。