基于集成學(xué)習(xí)的情感模糊計(jì)算分類(lèi)方法

2018-07-19 12:53:22李學(xué)勇黃永峰

計(jì)算機(jī)工程與設(shè)計(jì) 2018年7期

劉磊，李學(xué)勇，黃永峰

(1.清華大學(xué) 電子工程系信息認(rèn)知與智能系統(tǒng)研究所，北京 100084；2.河南科技學(xué)院信息工程學(xué)院，河南新鄉(xiāng) 453003；3.清華大學(xué) 信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室，北京 100084)

0 引言

現(xiàn)有情感分類(lèi)方法[1-3]主要有2類(lèi)：有監(jiān)督方法和無(wú)監(jiān)督方法。其中有監(jiān)督的情感分類(lèi)又分為兩類(lèi)：一種是基于機(jī)器學(xué)習(xí)的方法，另一種是基于深度學(xué)的方法[4]。

訓(xùn)練標(biāo)注數(shù)據(jù)集在有監(jiān)督情感分類(lèi)中是一項(xiàng)重要的基礎(chǔ)工作[2]。在獲得標(biāo)注好的訓(xùn)練數(shù)據(jù)集后，通過(guò)訓(xùn)練數(shù)據(jù)集對(duì)分類(lèi)模型進(jìn)行訓(xùn)練，得到訓(xùn)練數(shù)據(jù)集上分類(lèi)模型的最優(yōu)參數(shù)，然后基于訓(xùn)練好的模型，對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類(lèi)。網(wǎng)絡(luò)文本情感分類(lèi)屬于文本分類(lèi)，因此，任何有監(jiān)督文本分類(lèi)方法都可以應(yīng)用到網(wǎng)絡(luò)文本極性分類(lèi)中，如樸素貝葉斯、最大熵、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等。周哲[5]采取有監(jiān)督文本分類(lèi)方法(樸素貝葉斯)對(duì)電影評(píng)論進(jìn)行情感極性分類(lèi)，把電影評(píng)論分成正負(fù)兩類(lèi)。實(shí)驗(yàn)結(jié)果表明，使用樸素貝葉斯作為分類(lèi)器，電影評(píng)論的情感極性分類(lèi)取得了較好的性能。由于有監(jiān)督情感分類(lèi)精度較高，一直受到研究者的關(guān)注。有監(jiān)督情感分類(lèi)方法存在兩個(gè)問(wèn)題：一是領(lǐng)域依賴(lài)性強(qiáng)，只有針對(duì)特定的領(lǐng)域進(jìn)行大量的人工標(biāo)注訓(xùn)練集才能取得良好的分類(lèi)效果；二是網(wǎng)絡(luò)文本領(lǐng)域類(lèi)型多，對(duì)每個(gè)領(lǐng)域單獨(dú)標(biāo)注訓(xùn)練數(shù)據(jù)集，成本太高。阻礙了有監(jiān)督學(xué)習(xí)的應(yīng)用[6,7]。

為解決以上存在問(wèn)題，不需要標(biāo)注訓(xùn)練數(shù)據(jù)集和具有一定領(lǐng)域普適性的無(wú)監(jiān)督情感分類(lèi)方法受到越來(lái)越多研究者的重視，并逐漸成為學(xué)術(shù)研究熱點(diǎn)。

1 相關(guān)工作

現(xiàn)在的基于無(wú)監(jiān)督的情感分類(lèi)研究方法主要分為兩類(lèi)：一種是基于情感極性詞典的分類(lèi)方法；另一種是基于自學(xué)習(xí)的無(wú)監(jiān)督網(wǎng)絡(luò)文本情感極性分類(lèi)方法。

基于情感詞的無(wú)監(jiān)督網(wǎng)絡(luò)文本極性分類(lèi)方法核心思路是：首先，基于現(xiàn)有情感詞極性分類(lèi)方法，計(jì)算網(wǎng)絡(luò)文本中情感詞的極性；然后，綜合情感詞和情感短語(yǔ)的情感極性，計(jì)算文本的整體情感強(qiáng)度；最后，比較文本整體情感強(qiáng)度與閾值“0”的大小，實(shí)現(xiàn)網(wǎng)絡(luò)文本極性分類(lèi)。

在計(jì)算情感詞極性時(shí)，王志濤等[8]主要基于情感詞典來(lái)進(jìn)行情感分類(lèi)，沒(méi)有對(duì)情感詞極性的文本領(lǐng)域依賴(lài)性進(jìn)行處理；劉浩[9]主要基于語(yǔ)料庫(kù)，通過(guò)領(lǐng)域語(yǔ)料庫(kù)的統(tǒng)計(jì)信息，部分解決了情感詞極性的文本領(lǐng)域依賴(lài)問(wèn)題，但從分類(lèi)效果看，性能一般。同時(shí)，基于語(yǔ)料庫(kù)構(gòu)造領(lǐng)域情感詞典，需要對(duì)每個(gè)領(lǐng)域都重新構(gòu)造詞典或進(jìn)行跨領(lǐng)域移植。對(duì)每個(gè)領(lǐng)域構(gòu)造情感詞典消耗太大，進(jìn)行跨領(lǐng)域移植精度較差。為解決情感詞極性的文本領(lǐng)域依賴(lài)問(wèn)題，有一些研究者借鑒有監(jiān)督學(xué)習(xí)的思路，提出了基于自學(xué)習(xí)的無(wú)監(jiān)督網(wǎng)絡(luò)文本極性分類(lèi)方法[10,11]。

基于自學(xué)習(xí)方法的主要步驟為：一是基于情感詞典方法，生成初始偽標(biāo)注數(shù)據(jù)集，訓(xùn)練自學(xué)習(xí)情感分類(lèi)器；二是基于自學(xué)習(xí)框架，循環(huán)迭代更新初始偽標(biāo)注數(shù)據(jù)集，訓(xùn)練網(wǎng)絡(luò)文本極性分類(lèi)器；三是基于訓(xùn)練好的分類(lèi)器實(shí)現(xiàn)網(wǎng)絡(luò)文本情感分類(lèi)[2]?；谧詫W(xué)習(xí)的方法，通過(guò)自動(dòng)生成初始偽標(biāo)注數(shù)據(jù)集，訓(xùn)練領(lǐng)域情感分類(lèi)器，試圖解決情感詞極性的文本領(lǐng)域依賴(lài)問(wèn)題?；谧詫W(xué)習(xí)方法性能與偽標(biāo)注數(shù)據(jù)集的情感類(lèi)別正確性和領(lǐng)域類(lèi)別代表性相關(guān)?，F(xiàn)有基于自學(xué)習(xí)的方法，在生成初始偽標(biāo)注數(shù)據(jù)集時(shí)，沒(méi)有考慮網(wǎng)絡(luò)文本的領(lǐng)域類(lèi)別代表性，最終在自學(xué)習(xí)過(guò)程中，引入較多錯(cuò)誤偽標(biāo)注數(shù)據(jù)[2]。

2 分類(lèi)框架整體設(shè)計(jì)

無(wú)監(jiān)督情感分類(lèi)雖然不用標(biāo)注訓(xùn)練數(shù)據(jù)集，也可在線(xiàn)實(shí)時(shí)跨領(lǐng)域進(jìn)行分類(lèi)，但是依然存在著分類(lèi)精度低和偽標(biāo)注數(shù)據(jù)錯(cuò)誤多的問(wèn)題。鑒于這種情況，我們提出了一種基于集成學(xué)習(xí)的情感模糊計(jì)算分類(lèi)框架，該框架如圖1所示，主要由2部分組成。

圖1 量化情感詞典的模糊計(jì)算和多分類(lèi)器集成的情感分類(lèi)框架

(1)基于量化情感詞典和字典的網(wǎng)絡(luò)文本情感模糊計(jì)算方法

現(xiàn)有無(wú)監(jiān)督情感分類(lèi)主要通過(guò)情感詞，情感短語(yǔ)進(jìn)行情感分類(lèi)，有的研究者提出了從情感詞，情感短語(yǔ)，情感句子和句間關(guān)系等多個(gè)粒度來(lái)進(jìn)行情感分類(lèi)，但這些方法都沒(méi)有考慮情感詞本身的情感強(qiáng)度。針對(duì)以上問(wèn)題，本文提出一種基于量化情感詞典的網(wǎng)絡(luò)文本情感強(qiáng)度計(jì)算方法。該方法按照人類(lèi)理解語(yǔ)言的規(guī)律，從字、詞、短語(yǔ)和句子4個(gè)層次粒度，計(jì)算網(wǎng)絡(luò)文本的情感強(qiáng)度。

目前基于情感強(qiáng)度的情感極性計(jì)算方法主要采用比較網(wǎng)絡(luò)文本的情感強(qiáng)度與閾值‘0’的大小[2]，來(lái)識(shí)別網(wǎng)絡(luò)文本的極性。由于情感強(qiáng)度的模糊性，采用確定性理論在描述情感強(qiáng)度與網(wǎng)絡(luò)文本情感極性的關(guān)系時(shí)存在一定的偏差，為此，我們提出了基于情感強(qiáng)度的網(wǎng)絡(luò)文本情感極性模糊計(jì)算方法。基于模糊集合理論，對(duì)網(wǎng)絡(luò)文本的情感強(qiáng)度與情感極性關(guān)系進(jìn)行描述。

(2)多分類(lèi)器集成的迭代自學(xué)習(xí)方法

現(xiàn)有基于自學(xué)習(xí)的無(wú)監(jiān)督方法在使用分類(lèi)器時(shí)，多采用單個(gè)分類(lèi)器。但單個(gè)分類(lèi)器的性能畢竟有限，而且每個(gè)分類(lèi)器都有其適合分類(lèi)的數(shù)據(jù)區(qū)間。某一分類(lèi)器，對(duì)訓(xùn)練集中，某種分布的數(shù)據(jù)表現(xiàn)出比較好的效果，但是對(duì)測(cè)試數(shù)據(jù)集中另一種分布的待測(cè)試數(shù)據(jù)效果可能就變差很多。針對(duì)以上問(wèn)題，框架提出了一種多分類(lèi)器集成方法，通過(guò)對(duì)多個(gè)分類(lèi)器的分類(lèi)結(jié)果進(jìn)行融合，選取情感分類(lèi)結(jié)果精度高的文本生成偽標(biāo)注文本集合，訓(xùn)練自學(xué)習(xí)情感分類(lèi)器。通過(guò)多個(gè)分類(lèi)器進(jìn)行集成的方式既能提高分類(lèi)的性能，又能保證測(cè)試結(jié)果的穩(wěn)定性。

3 基于量化情感詞典和字典的網(wǎng)絡(luò)文本情感模糊計(jì)算方法

現(xiàn)有基于情感詞典的方法采用通用情感詞典，計(jì)算網(wǎng)絡(luò)文本的情感類(lèi)別，很少考慮情感強(qiáng)度對(duì)網(wǎng)絡(luò)文本情感分類(lèi)的影響。由于自然語(yǔ)言的模糊性，特別是情感詞情感強(qiáng)度的模糊，用確定性集合理論描述網(wǎng)絡(luò)文本情感強(qiáng)度和極性的關(guān)系存在一定的偏差。為此，我們提出了基于量化情感詞典的和字典的網(wǎng)絡(luò)文本情感模糊計(jì)算方法。

3.1 量化情感字典的構(gòu)建

在無(wú)監(jiān)督網(wǎng)絡(luò)文本的情感分類(lèi)中，情感詞有很重要的作用。對(duì)那些不在情感詞典中的詞，我們有多種處理方法。針對(duì)中文詞和字之間的關(guān)系，借鑒前人的工作，我們構(gòu)造了一個(gè)情感字典。我們使用量化情感字典來(lái)計(jì)算無(wú)法在情感詞典中匹配到的情感詞的情感強(qiáng)度。量化情感字典的具體構(gòu)造過(guò)程如下：

(1)首先我們?nèi)〕稣蚯楦性~典和負(fù)向情感詞典里面的二字詞，將所有的詞放到一起，并把全部的詞分解為單個(gè)的字，最后，去除重復(fù)的字。

(2)分別計(jì)算每個(gè)字在正負(fù)情感詞典中出現(xiàn)的次數(shù)N(pos)，N(neg)。

(3)這個(gè)字的情感強(qiáng)度P(ls)就是

P(ls)=N(pos)/(N(pos)+N(neg))

如果系數(shù)大于0.5代表正向字，小于0.5代表負(fù)向字。

3.2 量化情感詞典的構(gòu)建

現(xiàn)有基于情感詞典進(jìn)行情感分類(lèi)的研究方法多以?xún)蓚€(gè)極性詞典即一個(gè)正向情感詞典和一個(gè)負(fù)向情感詞典為基礎(chǔ)實(shí)現(xiàn)情感分類(lèi)。這種方法使得所有的情感詞只有一個(gè)粗粒度的情感傾向，無(wú)法根據(jù)情感詞本身的情感強(qiáng)度進(jìn)行更好的分類(lèi)。為此，我們提出了情感詞典的量化計(jì)算方法，以Hownet情感詞典為基準(zhǔn)，將正負(fù)情感詞典分別標(biāo)注情感強(qiáng)度，情感強(qiáng)度量化值的大小由強(qiáng)到弱分別標(biāo)注為從5到1。

3.3 模糊計(jì)算方法

現(xiàn)在網(wǎng)絡(luò)文本情感分類(lèi)方法，主要基于確定性集合理論，計(jì)算網(wǎng)絡(luò)文本的情感強(qiáng)度和極性。由于自然語(yǔ)言的模糊性，采用確定性集合進(jìn)行計(jì)算時(shí)存在一定的偏差。為此，當(dāng)我們計(jì)算網(wǎng)絡(luò)文本的情感類(lèi)別時(shí)，我們應(yīng)該采取模糊集合來(lái)描述情感強(qiáng)度和情感類(lèi)別的關(guān)系。以文本集合R={ri} 中文本ri的情感強(qiáng)度si(ri)為基礎(chǔ)，我們定義文本集合R={ri} 的正負(fù)情感類(lèi)別為模糊集P和N

P={(ri,μP(ri)|ri∈R)}

N={(ri,μN(yùn)(ri)|ri∈R)}

這里，μP(ri)μN(yùn)(ri) 是文本ri屬于正負(fù)情感類(lèi)別P和N的隸屬函數(shù)。我們選擇2次拋物函數(shù)作為文本ri的正負(fù)向情感類(lèi)別隸屬函數(shù)

(1)

(2)

這里ri是文本，si(ri)是文本ri的情感強(qiáng)度，a，b是決定成員函數(shù)邊界的可調(diào)參數(shù)。

基于網(wǎng)絡(luò)文本的正負(fù)類(lèi)別隸屬度函數(shù)，依據(jù)最大隸屬度原則，我們把模糊集的正負(fù)隸屬度函數(shù)合并為統(tǒng)一的模糊集分類(lèi)函數(shù)。最終，我們得到以下模糊集的分類(lèi)函數(shù)

(3)

我們定義k=(a+b)/2，最終，我們不需要設(shè)定兩個(gè)參數(shù)a和b的值，只需要設(shè)定一個(gè)參數(shù)k的值，就能實(shí)現(xiàn)文本的情感分類(lèi)。在參數(shù)設(shè)定時(shí)，我們使用文章基于多粒度計(jì)算和多準(zhǔn)則融合中的方法實(shí)現(xiàn)參數(shù)k的確定[2]。

4 多分類(lèi)器集成方法

現(xiàn)有的基于自學(xué)習(xí)的情感分類(lèi)方法主要基于單個(gè)分類(lèi)器計(jì)算文本的情感類(lèi)傾向度，然后按照文本可信度，選取偽標(biāo)注文本[2]。因?yàn)椴捎脝我环诸?lèi)器進(jìn)行分類(lèi)時(shí)分類(lèi)精度不高，導(dǎo)致在生成偽標(biāo)注數(shù)據(jù)集時(shí)，會(huì)生成較多錯(cuò)誤標(biāo)注數(shù)據(jù)。

為解決以上存在的問(wèn)題，本文提出了一種基于多分類(lèi)器集成的自學(xué)習(xí)情感分類(lèi)方法，實(shí)現(xiàn)網(wǎng)絡(luò)文本的精準(zhǔn)分類(lèi)。

本文提出的基于多分類(lèi)器集成的學(xué)習(xí)情感分類(lèi)方法基于情感詞的無(wú)監(jiān)督方法通過(guò)以下3個(gè)步驟來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)文本的精確分類(lèi)：①通過(guò)構(gòu)建量化情感詞典的計(jì)算方法，然后按照語(yǔ)言學(xué)的規(guī)則在字、詞、短語(yǔ)、句型4個(gè)語(yǔ)言粒度，作為集成分類(lèi)器中的第一個(gè)分類(lèi)器。②在針對(duì)現(xiàn)有在自學(xué)習(xí)框架的基礎(chǔ)上，使用SVM分類(lèi)器和樸素貝葉斯分類(lèi)器作為第二個(gè)和第三個(gè)分類(lèi)器。③通過(guò)以上3個(gè)分類(lèi)器作為集成分類(lèi)器來(lái)生成和更新偽標(biāo)注數(shù)據(jù)。集成分類(lèi)器有效地減少了偽標(biāo)注數(shù)據(jù)的錯(cuò)誤率，從而提升了標(biāo)注訓(xùn)練數(shù)據(jù)集的精確度，因此在整體上對(duì)自學(xué)習(xí)情感分類(lèi)器在性能上有了較大的提升。

該方法的具體步驟如下。

(1)對(duì)非監(jiān)督分類(lèi)結(jié)果，按照文本情感得分進(jìn)行排序。

(2)統(tǒng)計(jì)正負(fù)情感得分的文本數(shù)量，統(tǒng)計(jì)文本的正負(fù)不均衡性。

(3)借鑒SVM最大分類(lèi)間隔的思想，選擇一部分文本作為已標(biāo)注好的訓(xùn)練數(shù)據(jù)。

選取規(guī)則：用數(shù)量少的類(lèi)別為基準(zhǔn)，選取50%-90%的比例作為訓(xùn)練數(shù)據(jù)個(gè)數(shù)。從最大和最小兩端進(jìn)行選擇。

例如：按分值從大到小順序排列的文本共100個(gè)，其60個(gè)大于0，40個(gè)小于0，我們可以選20個(gè)作為訓(xùn)練集。最大的10個(gè)和最小的10個(gè)。用這些數(shù)據(jù)訓(xùn)練SVM分類(lèi)器和貝葉斯分類(lèi)器。

(4)用訓(xùn)練好的分類(lèi)器對(duì)其余文本進(jìn)行分類(lèi)。

(5)把基于情感詞典的文本分類(lèi)結(jié)果和兩個(gè)分類(lèi)器的文本分類(lèi)結(jié)果求交集，一致的文本作為正確結(jié)果添加到偽標(biāo)注訓(xùn)練集中。

(6)重復(fù)(4)、(5)，直到?jīng)]有新的文本添加到訓(xùn)練集為止。

(7)對(duì)剩余的網(wǎng)絡(luò)文本按照最后得到的2個(gè)情感分類(lèi)器進(jìn)行情感分類(lèi)，求2個(gè)情感分類(lèi)器分類(lèi)結(jié)果的交集，并把交集中的文本作為爭(zhēng)取結(jié)果添加到偽標(biāo)注訓(xùn)練集中。

(8)重復(fù)(7)，直到?jīng)]有新的文本添加到訓(xùn)練集為止。

(9)對(duì)剩余的網(wǎng)絡(luò)文本，采用SVM分類(lèi)器的分類(lèi)結(jié)果作為最終分類(lèi)結(jié)果。

5 實(shí)驗(yàn)及其結(jié)果分析

為驗(yàn)證我們的方法在不同領(lǐng)域文本數(shù)據(jù)集和非平衡文本數(shù)據(jù)集上的性能，我們選擇圖書(shū)文本，酒店評(píng)論和非平衡數(shù)據(jù)酒店評(píng)論作為本次實(shí)驗(yàn)的數(shù)據(jù)集。本次實(shí)驗(yàn)的數(shù)據(jù)集(http://www.datatang.com/data/11936/)由中科院譚松波博士提供集。每個(gè)數(shù)據(jù)都包含有正向評(píng)論和負(fù)向評(píng)論。實(shí)驗(yàn)所用數(shù)據(jù)集如見(jiàn)表1。

表1 文本數(shù)據(jù)集的分布

為驗(yàn)證我們所提情感分類(lèi)方法性能，選取召回率R、準(zhǔn)確率P、精度AC和F1，4個(gè)分類(lèi)指標(biāo)作為標(biāo)準(zhǔn)指標(biāo)[2]。以基于情感詞典的無(wú)監(jiān)督網(wǎng)絡(luò)文本情感分類(lèi)方法SLE[12]，基于情感詞典和規(guī)則的無(wú)監(jiān)督網(wǎng)絡(luò)文本情感分類(lèi)方法SLR[13]，基于多粒度計(jì)算和多準(zhǔn)則融合的方法SLC方法[2]作為比較基準(zhǔn)。在4個(gè)評(píng)論數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果見(jiàn)表2。

分析表2的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，本文方法的性能比SLE，SLR和SLC方法都有明顯的提升。與現(xiàn)有基于多粒度計(jì)算和多準(zhǔn)則融合的方法SLC相比，在書(shū)籍測(cè)試數(shù)據(jù)集中，我們方法提升了4.42%的AC。在酒店測(cè)試的數(shù)據(jù)集中，我們方法提升了1.5%的AC。在非平衡酒店的測(cè)試數(shù)據(jù)集中，我們方法提升了1.41%的AC。實(shí)驗(yàn)結(jié)果充分說(shuō)明了本文方法的有效性。

表2 不同法性能比較

為研究不用k值對(duì)本文方法的影響，分別選取k的值為-1、-0.8、-0.6,、-0.4、-0.2、0、0.2、0.4、0.6、0.8、和1.0作為參數(shù)k的取值，得到本文方法在不同k值下的準(zhǔn)確率、召回率、F1值和精度分類(lèi)結(jié)果，如圖2～圖5所示。

圖2 準(zhǔn)確率指標(biāo)測(cè)試

圖3 召回率指標(biāo)測(cè)試

圖4 F1值指標(biāo)測(cè)試

圖5 精度指標(biāo)測(cè)試

從圖2～圖5可以看出，在3個(gè)不同的評(píng)論數(shù)據(jù)集上，在參數(shù)k的取值大小為0.2時(shí)，本文的方法表現(xiàn)出了更好的性能。

我們的方法之所以取得較好的效果，主要原因在于，在網(wǎng)絡(luò)文本的情感預(yù)分類(lèi)階段，我們構(gòu)造了量化情感詞典，與現(xiàn)有正負(fù)極性的情感詞典相比，我們構(gòu)造的量化情感詞典對(duì)網(wǎng)絡(luò)文本的情感強(qiáng)度計(jì)算具有更豐富和細(xì)致的表現(xiàn)能力。我們基于模糊集合理論對(duì)網(wǎng)絡(luò)文本的情感強(qiáng)度和情感類(lèi)別進(jìn)行建模，較好地刻畫(huà)了情感強(qiáng)度的模糊性。在網(wǎng)絡(luò)文本情感分類(lèi)的自學(xué)習(xí)階段，我們通過(guò)多分類(lèi)器集成，解決了單一分類(lèi)器分類(lèi)精度較低、構(gòu)造偽標(biāo)注訓(xùn)練數(shù)據(jù)集錯(cuò)誤率高的問(wèn)題，進(jìn)一步提升了網(wǎng)絡(luò)文本情感分類(lèi)的精度。

6 結(jié)束語(yǔ)

本文提出了一種基于集成學(xué)習(xí)的情感模糊計(jì)算分類(lèi)方法。對(duì)比已有文獻(xiàn)的相關(guān)文本分類(lèi)算法，分析已有算法存在的問(wèn)題，對(duì)傳統(tǒng)文本分類(lèi)算法進(jìn)行優(yōu)化。針對(duì)相同情感極性情感詞沒(méi)有區(qū)分情感強(qiáng)度問(wèn)題，構(gòu)建了量化情感字典和量化情感詞典。針對(duì)傳統(tǒng)文本分類(lèi)中沒(méi)有考慮情感強(qiáng)度的模糊性問(wèn)題，采用了情感強(qiáng)度的模糊計(jì)算方法。通過(guò)以上兩種方法提高無(wú)監(jiān)督情感預(yù)分類(lèi)的精度。通過(guò)多分類(lèi)器集成的方法可以降低偽標(biāo)注數(shù)據(jù)集的錯(cuò)誤率，從而整體上提高情感分類(lèi)的準(zhǔn)確率和精度。