• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于主動(dòng)學(xué)習(xí)的新聞讀者情緒分類方法

    2017-06-01 11:29:54陳敬劉歡歡李壽山周國棟
    關(guān)鍵詞:語料分類器分類

    陳敬,劉歡歡,李壽山,周國棟

    (蘇州大學(xué)自然語言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)

    基于主動(dòng)學(xué)習(xí)的新聞讀者情緒分類方法

    陳敬,劉歡歡,李壽山*,周國棟

    (蘇州大學(xué)自然語言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)

    讀者情緒分類具體是指針對某個(gè)文本推測讀者可能產(chǎn)生的情緒。針對該新問題,目前遇到的主要挑戰(zhàn)是標(biāo)注語料庫的匱乏問題。文章提出了一種基于主動(dòng)學(xué)習(xí)的讀者情緒分類方法,即在已有少量標(biāo)注樣本的基礎(chǔ)上,利用主動(dòng)學(xué)習(xí)方法挑選優(yōu)質(zhì)樣本,使得使用盡量少的標(biāo)注代價(jià)獲得較好的分類性能??紤]到新聞讀者情緒分類可以同時(shí)使用新聞文本和評論文本的特殊性,提出了分類器融合分類方法,并在主動(dòng)學(xué)習(xí)方面提出了結(jié)合不確定性與新聞評論信息量的挑選策略。實(shí)驗(yàn)表明,分類器融合方法能夠獲得比僅用新聞文本更好的分類性能。此外,文章提出的主動(dòng)學(xué)習(xí)方法能夠有效減小標(biāo)注規(guī)模,在同等標(biāo)注規(guī)模下,獲得比隨機(jī)更佳的分類性能。

    讀者情緒分類;主動(dòng)學(xué)習(xí);分類器融合;評論信息量

    隨著各種社交平臺(tái)的興起,網(wǎng)絡(luò)上用戶的生成內(nèi)容越來越多,產(chǎn)生了大量的文本信息,如新聞、微博、博客等。面對如此龐大且富有情緒表達(dá)的文本信息,完全可以考慮通過探索它們的潛在價(jià)值為人們服務(wù)。因此近年來情緒分析受到計(jì)算語言學(xué)領(lǐng)域研究者們的密切關(guān)注,成為一項(xiàng)基本的熱點(diǎn)研究任務(wù)[1-2]。情緒可以分為兩類:作者情緒(作者在寫作文本時(shí)所表達(dá)的情緒)和讀者情緒(讀者看完文本后所產(chǎn)生的情緒),本文將利用新聞文本與評論文本對新聞的讀者情緒進(jìn)行粗粒度(消極和積極情緒)的探討研究。下面舉例詳細(xì)說明作者情緒與讀者情緒。

    (a) 新聞文本:今天的日本地震很可能是2011年大地震的余震。

    (b) 評論文本:我希望一切都能好,真的好難過,我依舊無法忘記去年的場景。 我的岳父岳母經(jīng)歷了這次地震,多么痛苦啊。

    從以上的新聞文本與評論文本中,我們可以看出新聞文本沒有作者情緒,而新聞文本的讀者情緒為消極情緒。

    在已有的研究工作中,作者的情緒分類研究較多,而讀者的情緒分類研究起步相對較晚,相關(guān)的研究較少。Lin等人[3]利用機(jī)器學(xué)習(xí)方法訓(xùn)練了一個(gè)識(shí)別讀者情緒的分類器,在后期的研究[4]中,通過探索更多有效的特征,獲得了相對更好的分類結(jié)果。Lin和Chen[5]將新聞的讀者情緒分類看作是一個(gè)多標(biāo)簽分類問題,并采用回歸方法得到情緒類別的排序。Bai等人[6]使用一個(gè)帶有特定權(quán)值的情緒詞典構(gòu)建文本向量,然后通過訓(xùn)練SVM和NB模型分別進(jìn)行讀者情緒預(yù)測。Xu等人[7]提出了基于PLDA模型的多標(biāo)簽讀者情緒預(yù)測方法,利用PLDA將特定情緒類型的詞與特定話題結(jié)合,再將PLDA的結(jié)果作為分類的特征用于情緒預(yù)測。Liu等[8]利用新聞和評論兩個(gè)相互獨(dú)立的視圖分別構(gòu)建兩個(gè)分類器進(jìn)行協(xié)同學(xué)習(xí)(Co-training)對新聞讀者的情緒進(jìn)行粗粒度情緒分類研究。葉璐[9]利用主題模型實(shí)現(xiàn)讀者情緒預(yù)測,并且在LDA的基礎(chǔ)上采用加權(quán)方法進(jìn)行改進(jìn),利用WLDA主題模型實(shí)現(xiàn)降維進(jìn)而對讀者情緒進(jìn)行預(yù)測。劉歡歡[10]利用兩個(gè)關(guān)聯(lián)的二部圖子圖(新聞文本二部圖和評論文本二部圖)用于描述新聞文本和評論文本之間的關(guān)聯(lián),進(jìn)行基于標(biāo)簽傳播算法的粗粒度情緒分類;再者又構(gòu)建了特征-標(biāo)簽因子圖(FLFG)模型用于實(shí)現(xiàn)對文本特征和情緒標(biāo)簽間關(guān)聯(lián)的共同學(xué)習(xí),進(jìn)行基于特征-標(biāo)簽因子圖模型的細(xì)粒度情緒分類。溫雯等人[11]先使用Wordvec模型學(xué)習(xí)文本初始的語義表達(dá),在此基礎(chǔ)上結(jié)合各個(gè)情緒類別分別構(gòu)建有代表性的語義詞簇并采用一定準(zhǔn)則篩選出對類別判斷有效詞簇,最終使用多標(biāo)簽分類的方法進(jìn)行新聞讀者情緒分類。

    與以往研究不同的是,本文首先探究了全監(jiān)督學(xué)習(xí)方法下分類器融合方法對新聞讀者情緒分類的效果;再者采用了基于不確定性與評論信息量相結(jié)合的主動(dòng)學(xué)習(xí)算法,并結(jié)合分類器融合方法對新聞讀者情緒進(jìn)行粗粒度的情緒分類研究。

    新聞的讀者情緒分類有一個(gè)特性:既可以用新聞內(nèi)容作為判斷情緒的依據(jù),也可以利用評論內(nèi)容作為判斷情緒的依據(jù)。例如:新聞內(nèi)容的“地震”預(yù)示著讀者的消極情緒;同時(shí),評論文本中的“難過”、“痛苦”等描述也直接清晰表達(dá)了該新聞的讀者情緒為消極情緒。因此,分別利用新聞文本和評論文本構(gòu)建兩個(gè)分類器,繼而提出了基于分類器融合方法用于融合這兩個(gè)分類器進(jìn)一步提高讀者情緒分類性能。

    此外,目前主流的讀者情緒分類方法是基于機(jī)器學(xué)習(xí)的全監(jiān)督學(xué)習(xí)方法。標(biāo)注語料庫的匱乏問題是全監(jiān)督學(xué)習(xí)方法最大的挑戰(zhàn)。針對該挑戰(zhàn),本文探究基于主動(dòng)學(xué)習(xí)的新聞情緒分類方法。具體而言,主動(dòng)學(xué)習(xí)是一種通過挑選優(yōu)質(zhì)樣本進(jìn)行人工標(biāo)注,從而能夠在盡可能使用少的標(biāo)注樣本的情況下保持較好的分類效果。然而,在讀者情緒分類任務(wù)中,傳統(tǒng)的基于不確定性的主動(dòng)學(xué)習(xí)方法在挑選優(yōu)質(zhì)樣本的時(shí)候,樣本的信息量未被充分利用。在讀者情緒分類任務(wù)中,雖然每個(gè)樣本中的新聞文本內(nèi)容都比較充分,但是每個(gè)樣本的評論文本信息差異較大。具體表現(xiàn)為,有些樣本的評論較多,有些樣本的評論較少甚至沒有??紤]到評論文本的信息量可能對讀者情緒分類帶來積極影響,本文同時(shí)考慮樣本不確定因素和評論文本的信息量來挑選優(yōu)質(zhì)樣本,并結(jié)合分類器融合方法改善新聞讀者情緒分類性能。實(shí)驗(yàn)結(jié)果表明本文提出的主動(dòng)學(xué)習(xí)方法能夠明顯優(yōu)于隨機(jī)樣本選擇方法及傳統(tǒng)的基于不確定性的主動(dòng)學(xué)習(xí)方法。

    1 主動(dòng)學(xué)習(xí)方法

    1.1 基于機(jī)器學(xué)習(xí)的讀者情緒分類

    向量空間模型是目前主流的文本表示方式,文本可以用D(document)表示,特征項(xiàng)(Term)用t表示,文本可以表示為D(t1,t2,t3,…,tn),其中t為特征項(xiàng),對于文檔D中的每一個(gè)特征項(xiàng),通常會(huì)預(yù)先設(shè)置一個(gè)權(quán)值表示各特征項(xiàng)的重要程度,例如D(t1,w1;t2,w2;…;tn,wn),簡記為:D(w1,w2,…,wn),其中wk為tk的權(quán)重,1≤k≤n。本文采用的特征為詞特征,借助分詞工具,可以方便地提取出這種特征。

    在本文所用語料中,新聞文本與評論文本對應(yīng)存在?;谌O(jiān)督的學(xué)習(xí)方法,分別利用新聞文本特征和評論文本特征訓(xùn)練分類器,然后采用分類器融合的方法得到最終的分類結(jié)果。主動(dòng)學(xué)習(xí)過程中從未標(biāo)注樣本中挑選不確定性樣本加入已標(biāo)注樣本時(shí),采取新聞文本和評論文本的融合特征來表示最大熵模型特征,而在測試時(shí)所用的特征與基于全監(jiān)督的學(xué)習(xí)方法所用的特征一致,即分別利用新聞文本特征和評論文本特征訓(xùn)練分類器,并利用分類器融合的方法得到最后的實(shí)驗(yàn)結(jié)果。為了更清晰表達(dá)這些特征,表1通過一個(gè)例子來說明。

    表1 新聞文本與評論文本特征以及融合特征的例子

    1.2 分類器融合方法

    本文利用新聞文本和對應(yīng)的評論文本分別構(gòu)建了兩個(gè)分類器,即新聞讀者的情緒分類器和評論作者的情緒分類器,來預(yù)測新聞的讀者情緒。形式上將新聞讀者的情緒分類器記作CN,評論作者的情緒分類器記作Cc。兩個(gè)分類器最終會(huì)分別賦予測試樣本(記作x)一個(gè)后驗(yàn)概率向量,即PN(x)和PC(x):

    其中,PN(c1|x)表示分類器CN預(yù)測樣本x屬于類別c1的概率。PC(c1|x)、PN(c1|x)和PC(c2|x)有類似的定義。

    在多個(gè)分類系統(tǒng)(MCS)的研究中,可以利用多種基于分類器后驗(yàn)概率的融合方法得出最終的分類結(jié)果。一般來說,融合方法可以分為兩種[12]:一種是確定的規(guī)則,例如多數(shù)投票法、乘法規(guī)則和直接求和規(guī)則[13]等;另一種是訓(xùn)練的規(guī)則,例如加權(quán)求和規(guī)則[14]和元學(xué)習(xí)方式[15]等。本文主要采用加權(quán)求和規(guī)則來融合新聞讀者和評論作者的情緒分類器的輸出,即通過求后驗(yàn)概率的加權(quán)和來實(shí)現(xiàn)兩個(gè)分類器的融合,進(jìn)而得到最終的分類結(jié)果,計(jì)算方法如下:

    assigny→cj

    (1)

    其中,參數(shù)λ用來表示分類器的權(quán)重,其值是通過對訓(xùn)練數(shù)據(jù)進(jìn)行全局最優(yōu)搜索調(diào)整所得。在本文實(shí)驗(yàn)中,經(jīng)10倍交叉驗(yàn)證所得,λ的值為0.7。

    1.3 基于不確定性與評論信息量相結(jié)合的主動(dòng)學(xué)習(xí)方法

    傳統(tǒng)的基于不確定性的主動(dòng)學(xué)習(xí)方法是根據(jù)分類結(jié)果的后驗(yàn)概率挑選不確定樣本進(jìn)行人工標(biāo)注[16-17]。不同于傳統(tǒng)的方法,本文方法利用評論信息量輔助傳統(tǒng)的不確定性選擇策略,進(jìn)行未標(biāo)注樣本的選擇,并結(jié)合上述的分類器融合方法進(jìn)行分類。

    1)評論信息量

    (2)

    2) 不確定性與評論信息量相結(jié)合的主動(dòng)學(xué)習(xí)算法

    樣本的不確定性是通過已標(biāo)注樣本構(gòu)建的分類器對其進(jìn)行測試的分類結(jié)果進(jìn)行判定[18-19]。具體通過情緒分類結(jié)果的后驗(yàn)概率進(jìn)行計(jì)算,計(jì)算方法如下:

    (3)

    綜合評論文本的信息量和樣本的不確定性,樣本選擇的打分公式如下:

    (4)

    不確定性與評論信息量相結(jié)合的主動(dòng)學(xué)習(xí)算法的主要步驟如下。

    輸入:已標(biāo)注樣本L,未標(biāo)注樣本U;

    輸出:新的已標(biāo)注樣本L;

    程序:

    循環(huán)N次

    1) 根據(jù)未標(biāo)注樣本U的評論文本算出平均中心向量CR;

    2) 從L中學(xué)習(xí)分類器f;

    3) 使用f對U進(jìn)行分類得出每個(gè)未標(biāo)注樣本的不確定度,即Uncertainty(xi);

    5) 計(jì)算Score(xi),并將U按照值從大到小的次序進(jìn)行排列;

    6) 選擇中前n個(gè)樣本,放入L中。

    2 實(shí)驗(yàn)結(jié)果與分析

    2.1 實(shí)驗(yàn)設(shè)置

    本文從Yahoo! Kimo新聞網(wǎng)站*Yahoo新聞數(shù)據(jù)集[CP/OL].[2015-05-25].http:∥tw.news.yahoo.com中搜集了多個(gè)領(lǐng)域(世界新聞、生活資訊等)的中文新聞?wù)Z料,為了保證新聞的粗粒度情緒標(biāo)簽的準(zhǔn)確性,選擇顯著情緒類別的投票比例在50%以上的新聞?wù)Z料,同時(shí)過濾掉不含評論信息的新聞。最終,含有“積極”情緒的語料有1 497篇,含有“消極”情緒的語料有1 997篇,從“積極”情緒的語料和“消極”情緒的語料中各隨機(jī)抽取1 000篇作為實(shí)驗(yàn)樣本,其中,80%作為訓(xùn)練語料,20%作為測試語料,從訓(xùn)練語料中選取10個(gè)樣本作為主動(dòng)學(xué)習(xí)中的已標(biāo)注樣本集,其余的訓(xùn)練語料都作為未標(biāo)注樣本集。

    本文所用的特征為新聞文本與評論文本的詞特征,考慮到中文句子中詞與詞之間沒有明顯的分詞信息,需要對其進(jìn)行分詞。本文采用目前使用最廣泛的漢語分詞開源工具*Ictclas開源工具[CP/OL].[2011-02-16].http:∥ictclas.org/[EB],即,ICTCLAS分詞工具對收集的中文新聞?wù)Z料進(jìn)行分詞。

    實(shí)驗(yàn)中使用了基于Mallet工具包*Mallet開源工具[CP/OL].[2002-11-06].http:∥mallet.cs.umass.edu/的最大熵分類方法進(jìn)行新聞讀者情緒分類,同時(shí)本文采用準(zhǔn)確率(Accuracy,Acc.)作為新聞讀者情緒分類效果的衡量標(biāo)準(zhǔn)。

    2.2 實(shí)驗(yàn)結(jié)果分析

    2.2.1 全監(jiān)督分類方法的結(jié)果

    在基于全監(jiān)督的學(xué)習(xí)方法下,研究了取訓(xùn)練樣本的10%、20%、40%、60%和80%作為新的訓(xùn)練樣本,以下幾種全監(jiān)督方法的分類效果。

    ?新聞讀者的情緒分類:基于已標(biāo)注的新聞文本訓(xùn)練分類器,對未標(biāo)注的新聞文本進(jìn)行分類;

    ?評論作者的情緒分類:基于已標(biāo)注的評論文本訓(xùn)練分類器,對未標(biāo)注的評論文本進(jìn)行分類;

    ?兩種文本特征融合的情緒分類:將新聞文本和評論文本的特征進(jìn)行融合訓(xùn)練分類器,對未標(biāo)注的新聞文本進(jìn)行分類;

    ?兩種文本分類加權(quán)融合的情緒分類(加權(quán)加法規(guī)則):將新聞讀者和評論作者的情緒分類得到的后驗(yàn)概率采用加權(quán)求和的規(guī)則。通過訓(xùn)練樣本的十倍交叉實(shí)驗(yàn)結(jié)果選取最佳權(quán)重(λ值)為0.7。

    表2給出了上述四種分類方法的分類性能,從表中可以看出:

    (1)基于新聞文本的情緒分類方法性能明顯優(yōu)于基于評論文本的分類方法,這主要是因?yàn)樾侣勎谋舅奈谋緝?nèi)容往往比評論文本多。有些樣本的評論文本比較少,很難有足夠分類能力。

    (2)簡單將兩種文本的特征進(jìn)行疊加并不能提高分類性能,獲得分類效果甚至比單用新聞文本的方法差。然而,采用本文的分類器融合方法能夠穩(wěn)定獲得比新聞文本分類方法更好的分類性能。

    表2 4種全監(jiān)督方法下的實(shí)驗(yàn)結(jié)果

    2.2.2 主動(dòng)學(xué)習(xí)分類方法的結(jié)果

    本實(shí)驗(yàn)比較了以下三種樣本選擇方式用于基于主動(dòng)學(xué)習(xí)的讀者情緒分類:

    ?隨機(jī)方法(RAND):從未標(biāo)注樣本集中隨機(jī)選擇樣本進(jìn)行人工標(biāo)注后加入到已標(biāo)注樣本集中,再基于已標(biāo)注樣本集訓(xùn)練分類器,對未標(biāo)注的新聞文本進(jìn)行分類;

    ?不確定性(UNCE):基于不確定性對未標(biāo)注樣本進(jìn)行選擇,人工標(biāo)注后加入到已標(biāo)注樣本集中,再基于已標(biāo)注樣本集訓(xùn)練分類器,對未標(biāo)注的新聞文本進(jìn)行分類;

    ?基于不確定性與評論信息量相結(jié)合(MULTI):本文提出的主動(dòng)學(xué)習(xí)方法,具體方法見在1.3節(jié)。

    從訓(xùn)練語料中選取10篇語料(積極和消極樣本各5篇)作為初始已標(biāo)注樣本,采用以上三種不同樣本選擇方式的主動(dòng)學(xué)習(xí)方法對新聞讀者情緒進(jìn)行分類。實(shí)驗(yàn)設(shè)定每次選擇最不確定的10個(gè)未標(biāo)注樣本進(jìn)行人工標(biāo)注后加入到已標(biāo)注樣本集中。

    Fig.1 Comparison of experimental results based on the method of active learning圖1 基于主動(dòng)學(xué)習(xí)方法的實(shí)驗(yàn)結(jié)果的比較

    圖1給出了基于三種樣本挑選策略的分類效果,從圖中我們可以看出:

    (1)基于不確定性與基于不確定性與評論信息量相結(jié)合的主動(dòng)學(xué)習(xí)方法都能夠有效地減少標(biāo)注規(guī)模,在同樣的標(biāo)注規(guī)模下能夠獲得比隨機(jī)挑選樣本方法更優(yōu)的性能。例如,基于不確定性與評論信息量相結(jié)合的主動(dòng)學(xué)習(xí)方法在加入50樣本時(shí)就能夠達(dá)到了基于隨機(jī)的主動(dòng)學(xué)習(xí)方法加入200樣本數(shù)的分類效果。

    (2)基于不確定性與評論信息量相結(jié)合的主動(dòng)學(xué)習(xí)方法在樣本比較少的情況下(少于200)能夠優(yōu)于傳統(tǒng)的基于不確定性的主動(dòng)學(xué)習(xí)方法。當(dāng)標(biāo)注樣本較多的時(shí)候,這兩種主動(dòng)學(xué)習(xí)方法的性能表現(xiàn)接近。

    3 本文結(jié)論和下一步工作介紹

    本文針對新聞讀者情緒分類問題提出了一種基于分類器融合的全監(jiān)督學(xué)習(xí)方法,用于組合分別由新聞文本和評論文本訓(xùn)練的兩個(gè)分類器。在此基礎(chǔ)上,本文提出了一種基于不確定性與評論信息量相結(jié)合選擇策略的主動(dòng)學(xué)習(xí)方法,用于減輕監(jiān)督學(xué)習(xí)對于標(biāo)注樣本的依賴。實(shí)驗(yàn)結(jié)果表明,分類器融合方法能夠獲得比僅用新聞文本分類器更佳的分類性能。此外,基于不確定性與評論信息量相結(jié)合選擇策略的主動(dòng)學(xué)習(xí)方法比隨機(jī)樣本選擇策略及傳統(tǒng)的基于不確定性的主動(dòng)學(xué)習(xí)方法獲得更好的分類性能,在少量的已標(biāo)注樣本的情況下就能獲得較高的分類性能。

    本文的研究中僅僅使用詞特征,在下一步研究中,我們將考察更復(fù)雜的語言特征,例如句法、語義特征,進(jìn)一步提升讀者情緒分類性能。此外,我們將嘗試結(jié)合主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法,進(jìn)一步減輕分類方法對標(biāo)注樣本的依賴。

    [1]ZhengC,ShenL,DaiN.ChineseMicroblogEmotionClassificationBasedonClassSequentialRules[J].ComputerEngineering,2016,42(2):184-189.DOI:10.3969/j.issn.1000-3428.2016.02.033.

    [2]ChangYC,ChuCH,ChenCC,et al.LinguisticTemplateExtractionforRecognizingReader-Emotion[J].中文計(jì)算語言學(xué)期刊,2016,21(1):29-50.DOI:10.1111/j.1541-0420.2007.00820.x.

    [3]LinHY,YangC,ChenHH.WhatEmotionsdoNewsArticlesTriggerinTheirReaders[C]∥ProceedingsoftheInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval,2007:733-734.DOI:10.1145/1277741.1277882.

    [4]LinHY,YangC,ChenHH.EmotionClassificationofOnlineNewsArticlesfromtheReader’sPerspective[C]∥ProceedingoftheInternationalConferenceonWebIntelligenceandIntelligentAgentTechnology,2008:220-226.DOI:10.1109/WIIAT.2008.197.

    [5]LinHY,ChenHH.RankingReaderEmotionsUsingPairwiseLossMinimizationandEmotionalDistributionRegression[C]∥ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing,2008:136-144.DOI:10.3115/1613715.1613735.

    [6]BaiS,NingY,YuanS,et al.PredictingReader’sEmotiononChineseWebNewsArticles[C]∥InternationalConferenceonPervasiveComputingandtheNetworkedWorld,2012:16-27.DOI:10.1007/978-3-642-37015-1-2.

    [7]XuR,ZouC,XuJ.Reader’sEmotionPredictionBasedonPartitionedLatentDirichletAllocationModel[C]∥ProceedingsofInternationalConferenceonInternetComputingandBigData,2013:457-464.

    [8]LiuH,LiS,ZhouG,etal.JointModelingofNewsReader’sandCommentWriter’sEmotions[C]∥MeetingoftheAssociationforComputationalLinguistics,2013:511-515.

    [9] 葉璐.新聞文本的讀者情緒自動(dòng)預(yù)測方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué)研究生院,2012.

    [10] 劉歡歡.面向新聞的讀者情緒自動(dòng)分析方法研究[D].蘇州:蘇州大學(xué)研究生院,2015.

    [11] 溫雯,吳彪,蔡瑞初,等.基于多類別語義詞簇的新聞讀者情緒分類[J].計(jì)算機(jī)應(yīng)用,2016,36(8):2076-2081.DOI:10.11772/j.issn.1001-9081.2016.08.2076.

    [12]DuinRPW.TheCombiningClassifier:ToTrainOrNotToTrain[C]∥Proceedingsof16thInternationalConferenceonPatternRecognition(ICPR-02),2002:765-770.

    [13]KittlerJ,HatefM,DuinRPW,et al.OnCombiningClassifiers[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,1998,20(3):226-239.DOI:10.1109/34.667881.

    [14]FumeraG,RoliF.ATheoreticalandExperimentalAnalysisofLinearCombinersforMultipleClassifierSystems[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2005,27(6):942-956.DOI:10.1109/TPAMI.2005.109.

    [15]VilaltaR,DrissiY.APerspectiveViewandSurveyofMeta-learning[J].ArtificialIntelligenceReview,2002,18(2):77-95.DOI:10.1023/A:1019956318069.

    [16] 居勝峰,王中卿,李壽山,等.情感分類中不同主動(dòng)學(xué)習(xí)策略比較研究[C]∥中國計(jì)算語言學(xué)研究前沿進(jìn)展,2011:506-511.

    [17] 劉康,錢旭,王自強(qiáng).主動(dòng)學(xué)習(xí)算法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2013,48(34):1-4.DOI:10.3778/j.issn.1002-8331.1205-0149.

    [18] 居勝峰.基于主動(dòng)學(xué)習(xí)的情感分類方法研究[D].蘇州:蘇州大學(xué)研究生院,2013.

    [19]LiS,XueY,WangZ,ZhouG.ActiveLearningforCross-domainSentimentClassification[C]∥Proceedingofthe22ndInternationalJointConferenceonArtificialIntelligence,2013:2127-2133.

    Active Learning on News Reader Emotion Classification

    CHEN Jing,LIU Huanhuan,LI Shoushan*,ZHOU Guodong

    (NaturalLanguageProcessingLabofSoochowUniversity,Suzhou215006,China)

    Reader emotion classification aims to predict the mood that the reader may have speculated according to some text. For this new issue, the main challenge is the lack of the annotated corpus. In order to alleviate this problem, this paper proposes an active learning approach to reader emotion classification, which is based on a few initial annotated samples, using active learning method to select high-quality sample, making use of the annotating cost as little as possible to get a good classification performance. Considering the specificity that news reader emotion classification, we make use of news text and the comment text and employ classifier combination method to combine them. Moreover, selection strategy combined with uncertainty and news comment information in active learning is proposed.The experiments demonstrate that the method of classifier combination performs better than the method that only using news text. In addition, the proposed active learning method can effectively reduce the dimension scale, and obtain better classification performance than random selection.

    reader emotion classification; active learning; classifier combination; comment information

    10.13451/j.cnki.shanxi.univ(nat.sci.).2017.01.004

    2016-11-20;

    2016-12-16

    國家自然科學(xué)基金重點(diǎn)項(xiàng)目(61331011);國家自然科學(xué)基金(61375073;61273320)

    陳敬(1992-),男,江蘇揚(yáng)州人,碩士研究生。

    TP391

    A

    0253-2395(2017)01-0021-06

    *通信作者:李壽山(LI Shoushan),shoushan.Li@gmail.com

    猜你喜歡
    語料分類器分類
    分類算一算
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
    電子測試(2018年1期)2018-04-18 11:52:35
    教你一招:數(shù)的分類
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語料
    巨鹿县| 宜州市| 滨州市| 子洲县| 孝感市| 内丘县| 平南县| 新野县| 和平县| 五指山市| 泽普县| 延川县| 中江县| 田东县| 法库县| 长治市| 朝阳区| 阿拉尔市| 若羌县| 上蔡县| 黔西| 云安县| 蓝山县| 阳东县| 盐池县| 东方市| 襄城县| 汪清县| 兴安县| 曲阳县| 昭平县| 乳山市| 营山县| 怀来县| 班戈县| 松阳县| 宁强县| 新巴尔虎左旗| 大港区| 石首市| 晋宁县|