• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      第三屆中文傾向性分析評測(COAE2011)語料的構(gòu)建與分析

      2013-04-23 12:26:07廖祥文許洪波姚天昉
      中文信息學(xué)報 2013年1期
      關(guān)鍵詞:傾向性評測語料

      廖祥文,許洪波,孫 樂,姚天昉

      (1. 福州大學(xué) 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院, 福建 福州 350108; 2. 中國科學(xué)院 計算技術(shù)研究所,北京 100190;3. 中國科學(xué)院 軟件研究所,北京 100190; 4. 上海交通大學(xué),上海 200240)

      1 引言

      隨著Web 2.0的迅猛增長,網(wǎng)民能夠在諸如博客、微博、購物網(wǎng)站等媒介上自由發(fā)表觀點評論。文本傾向性分析的目標(biāo)是挖掘民眾對生活中各種對象和事件所表達(dá)出的態(tài)度、意見和情緒的傾向性[1-3],有著廣泛的商業(yè)應(yīng)用前景,已成為自然語言處理領(lǐng)域研究的熱點問題之一。TREC評測[4]、NTCIR評測[5]以及前兩屆中文傾向性分析評測[6-7]推動和加速了傾向性分析研究的發(fā)展。隨著研究的深入展開,也出現(xiàn)了一些新的研究關(guān)注點,例如,Aspect-Based Opinion Mining[8],Context-Sensitive Opinion Mining[9], Domain-Oriented Opinion Mining[10]等。如何結(jié)合中文特點,提供統(tǒng)一的中文傾向性語料促進(jìn)中文傾向性分析在相關(guān)問題上的研究是目前亟待解決的問題。

      為了進(jìn)一步推動中文傾向性分析研究,中國中文信息學(xué)會信息檢索專業(yè)委員會在成功組織前兩屆中文傾向性分析評測的基礎(chǔ)上,以在山東大學(xué)舉行的第七屆全國信息檢索學(xué)術(shù)會議(CCIR2011)為依托,繼續(xù)組織第三屆中文傾向性分析評測(The Third Chinese Opinion Analysis Evaluation-COAE2011)[11]。如表1所示,該評測主要關(guān)注領(lǐng)域和上下文語境(Context)對中文傾向性分析的影響,設(shè)置了領(lǐng)域觀點詞識別、觀點句抽取、評價搭配抽取和觀點檢索四個評測任務(wù),考察詞—句子—篇章等不同粒度的傾向性分析?;谏鲜鲈u測目標(biāo),本次評測從門戶網(wǎng)站、博客、微博、購物網(wǎng)站和論壇等網(wǎng)絡(luò)媒介上,選取電子產(chǎn)品、影視娛樂和金融證券三個領(lǐng)域構(gòu)建語料。

      表1 COAE2011評測任務(wù)設(shè)置

      借鑒前兩屆的語料和已有的傾向性語料構(gòu)建[12],本文主要介紹COAE2011語料獲取、標(biāo)注,評測結(jié)果的評判,以及語料對傾向性分析的影響等詳細(xì)情況。具體安排如下: 第1節(jié)介紹COAE2011語料領(lǐng)域選取、媒介分布等構(gòu)建過程;第2節(jié)介紹標(biāo)注原則與方法,并列出典型的例子;第3節(jié)依據(jù)評測結(jié)果闡述語料如何支撐對文本傾向性評測,并分析領(lǐng)域和上下文語境因素對傾向性的影響。

      2 COAE2011語料構(gòu)建

      本次評測主要關(guān)注影響中文傾向性分析的兩個重要因素: 領(lǐng)域和上下文語境(Context)。因此,本文選取了電子產(chǎn)品、影視娛樂和金融證券三個領(lǐng)域的文檔建立語料集,用以分析領(lǐng)域?qū)χ形膬A向性分析的影響。理想狀態(tài)下,所采集的語料應(yīng)該是來自整個網(wǎng)絡(luò)所有文檔的一個樣本,并且與整個網(wǎng)絡(luò)文檔集同分布。因而,在構(gòu)建語料集時,本文充分考慮媒介的多樣性,依據(jù)領(lǐng)域的分布特點,從門戶網(wǎng)站、專業(yè)網(wǎng)站、購物網(wǎng)、知名博客、微博、論壇等媒介上采集。

      被采集的原始網(wǎng)頁在進(jìn)行抽取、過濾、去重等消除噪聲工作后,形成了本次評測的COAE2011_Corpus_All_Text數(shù)據(jù)集。根據(jù)前兩屆中文傾向性分析評測的經(jīng)驗發(fā)現(xiàn): 如果把COAE2011_Corpus_All_Text數(shù)據(jù)集直接用于任務(wù)2和任務(wù)3的抽取傾向觀點句和評價搭配,可能會導(dǎo)致召回率過低。這不僅會降低各個參評隊伍評測結(jié)果的可比性,而且會給后期的標(biāo)注帶來巨大的困難。為了避免出現(xiàn)上述情況,本文對COAE2011_Corpus_All_Text數(shù)據(jù)集做進(jìn)一步抽樣,每個領(lǐng)域隨機(jī)抽取2 000個文檔,組成COAE2011_Corpus_Sample_Sentence數(shù)據(jù)子集??紤]到各參評單位采用不同的分句工具,分句的精度不同會產(chǎn)生不同的句子集,進(jìn)而導(dǎo)致評判結(jié)果偏差。對COAE2011_Corpus_Sample_Sentence數(shù)據(jù)子集中的文本采用中國科學(xué)院計算技術(shù)研究所提供的自動分句工具統(tǒng)一進(jìn)行了斷句處理,每篇文本均組織成一句話占一行的格式,每行以 結(jié)束。構(gòu)建的兩個評測數(shù)據(jù)集如表2所示。

      表2 COAE2011評測數(shù)據(jù)

      3 COAE2011語料標(biāo)注

      領(lǐng)域觀點詞抽取與極性(任務(wù)1)和觀點檢索(任務(wù)4)使用COAE2011_Corpus_All_Text數(shù)據(jù)集,而中文觀點句抽取(任務(wù)2)和評價搭配抽取(任務(wù)3)則使用COAE2011_Corpus_Sample_Sentence數(shù)據(jù)子集。為減輕標(biāo)注工作量,對于使用COAE2011_Corpus_All_Text數(shù)據(jù)集的兩個任務(wù),使用國內(nèi)外評測常用的Pooling方式,從各個參評隊伍提交的結(jié)果中截取前K個結(jié)果合并形成候選集,用以裁判員人工評判構(gòu)建標(biāo)準(zhǔn)答案。由于COAE2011_Corpus_Sample_Sentence數(shù)據(jù)子集的數(shù)據(jù)規(guī)模較小,對整個數(shù)據(jù)集進(jìn)行標(biāo)注。因而,本屆評測的任務(wù)1和任務(wù)4只標(biāo)注了部分答案,屬于不完全評測,而任務(wù)2和3則屬于完全評測。

      本文構(gòu)建了一個簡易的評測標(biāo)注系統(tǒng),把待標(biāo)注數(shù)據(jù)統(tǒng)一存入數(shù)據(jù)庫,然后通過Apache服務(wù)器生成的標(biāo)注界面呈現(xiàn)給標(biāo)注人員。在標(biāo)注時,評測四個任務(wù)的語料標(biāo)注均采用如下方法: 從待標(biāo)注數(shù)據(jù)庫中選擇一條數(shù)據(jù),隨機(jī)指派給兩個標(biāo)注人員,如果兩個標(biāo)注人員標(biāo)注的結(jié)果一致,則直接寫入已標(biāo)注數(shù)據(jù)庫;如果兩個標(biāo)注人員標(biāo)注的結(jié)果不一致,再指派給第三個標(biāo)注人員標(biāo)注,把多數(shù)一致的標(biāo)注結(jié)果寫入已標(biāo)注數(shù)據(jù)庫。為了減少標(biāo)注誤差,在進(jìn)行每個標(biāo)注任務(wù)時,所有標(biāo)注人員標(biāo)注完前50條數(shù)據(jù)時,集中分析討論標(biāo)注結(jié)果,統(tǒng)一標(biāo)注原則,然后再標(biāo)注剩下的數(shù)據(jù)。

      3.1 領(lǐng)域觀點詞抽取與極性標(biāo)注

      本次評測任務(wù)1共有14支隊伍提交了15個run。由于時間和人力資源的限制,本文采用Pooling方法截取前K=500構(gòu)成待標(biāo)注語料集。標(biāo)注任務(wù)為標(biāo)注觀點詞和觀點詞的極性。在標(biāo)注過程中,根據(jù)參評隊伍提供的待標(biāo)注詞的前后20個字節(jié)上下文,只抽取存在較明顯的評價對象的觀點詞,不考慮像程度副詞、否定詞之類的修飾成分,然后標(biāo)注其極性(+1褒義、-1貶義)。與COAE2009評測不同的是,本次評測只關(guān)注對評價對象的褒貶義評價,而不考慮諸如喜、怒、哀、樂的個人情感。在標(biāo)注時,一個句子如果包含多個觀點詞,那么全部抽取出來作為標(biāo)注答案。例如:

      [01] “能會知道,其附件非常豐富,并且包裝看起來就很”

      標(biāo)注結(jié)果: 豐富 +1

      在標(biāo)注過程中,發(fā)現(xiàn)一些需要處理的特殊情況,并對這些情況做了一些簡要處理。當(dāng)然,這樣的處理只是為了標(biāo)注方便,其合理性仍然值得商榷。具體介紹如下。

      (1) 垃圾串與特殊串的處理

      在任務(wù)1中,垃圾串指的是對于提供的上下文片段內(nèi)容不完整或者語義錯亂的字符串。這些垃圾串雖然出現(xiàn)了有明顯褒貶義的觀點詞,但是根據(jù)上下文語境無法判斷其評價對象和極性,因此不標(biāo)注其觀點詞。典型的例子如下:

      [02] “歐曼牽引車開著舒適我的歐曼牽引車已經(jīng)”

      標(biāo)注結(jié)果: 垃圾串 NULL

      雖然在很多語境下,“舒適”是褒義的,但是由于該上下文片段語義錯亂,不予標(biāo)注。

      特殊串指的是內(nèi)容為文學(xué)描述、祝福語、廣告等的上下文片段。由于任務(wù)1關(guān)注的是對觀點對象進(jìn)行褒貶義評價的觀點詞,因此即使上下文片段中包含諸如“好”、“性價比最高”等有明顯褒貶義的觀點詞,也不標(biāo)注其觀點詞。例如:

      [03] “輕輕的掠過,掀起點點漣漪。徜徉在你的小家輕輕”

      標(biāo)注結(jié)果: 文學(xué)描述 NULL

      [04] “在此,中關(guān)村在線也衷心祝愿lg光存儲事業(yè)部在”

      標(biāo)注結(jié)果: 祝福語 NULL

      [05] “最精準(zhǔn)的券商研究報告…請訪問XX的博客”

      標(biāo)注結(jié)果: 廣告 NULL

      [06] “卓越的XXX培訓(xùn)助各位早日踏上財務(wù)自由之路。”

      標(biāo)注結(jié)果: 廣告 NULL

      (2) 否定詞“不”的處理

      按照任務(wù)要求,只抽取評價對象的觀點詞,而不考慮程度副詞、否定詞等修飾成分。例如,“不完美”、“不完善”中的“不”是否定詞,只抽取出觀點詞,即“完美”、“完善”,并極性標(biāo)為(+1 褒義);但并不是對所有含“不”的觀點詞都做上述處理,在標(biāo)注過程中,發(fā)現(xiàn)對有些帶否定詞“不”的觀點詞,不能簡單地把否定詞去掉。例如,“不俗”,如果簡單地把“不”去掉,只抽取“俗”,那么容易引起歧義。因為在“不俗”一詞中,其詞義是“平凡、普通”。但是對單個“俗”字,還有“不雅,缺乏修養(yǎng)的”等意思。因此,若含“不”的否定觀點詞是兩個字的而且語義結(jié)合緊密,如“不好”、“不俗”、“不錯”,則當(dāng)作一個觀點詞抽取。典型的例子如下:

      [07] “卡威盛高保真音頻有點不地道。”

      標(biāo)注結(jié)果: 地道 +1

      [08] “值得購買,售后服務(wù)不完善,更新不及時”

      標(biāo)注結(jié)果: 完善 +1,及時 +1

      [09] “在取景器中的顯示效果不俗,但拍照成像過程等待”

      標(biāo)注結(jié)果: 不俗 +1

      [10] “輸出略顯不夠,有點失真。價位應(yīng)該很不錯了”

      標(biāo)注結(jié)果: 不夠-1,失真-1,不錯+1

      (3) 組合詞的處理

      本文把兩個或兩個以上語義聯(lián)系緊密構(gòu)成的短語稱為組合詞。這些組合詞雖然不在詞典中,但是如果用以對評價對象進(jìn)行褒貶義評價,則標(biāo)注成一個整體。例如:

      [11] “活到美國去,一個熱情奔放的國家!”

      標(biāo)注結(jié)果: 熱情奔放 +1

      [12] “《聊齋志異》,劇中女性機(jī)智勇敢,聰明絕倫。她們”

      標(biāo)注結(jié)果: 機(jī)智勇敢 +1,聰明絕倫 +1

      3.2 中文觀點句與評價搭配抽取標(biāo)注

      任務(wù)2和任務(wù)3采用COAE2011_Corpus_Sample_Sentence數(shù)據(jù)子集。本文對該數(shù)據(jù)集所有句子進(jìn)行標(biāo)注。其標(biāo)注原則是: 首先標(biāo)注句子的傾向性: 褒義標(biāo)1,貶義標(biāo)-1,既有褒義又有貶義標(biāo)0。對于傾向性句子,再標(biāo)注三元組<評價對象,評價短語,評價極性>。在三元組中,評價對象是指評論針對的對象或?qū)ο蟮膶傩?;評價短語是指修飾成分和評價詞語組合而成的評價單元。修飾成分是指加強(qiáng)、減弱或置反觀點的語言成分,可以是程度副詞、否定詞等。在標(biāo)注過程中,為了減少標(biāo)注偏差和便于后期的處理,對評價對象和評價短語均抽取“最大字串”作為標(biāo)注結(jié)果。 而對于評價極性,只標(biāo)注對評價對象的褒貶義評價(-1表示貶義, 1表示褒義),不考慮喜、怒、哀、樂等個人情感。此外,要注意的是如果一個傾向性句子有多個三元組,則抽取全部三元組。下面介紹在標(biāo)注過程中出現(xiàn)的典型情況。在標(biāo)注時,由于時間和經(jīng)驗局限性,只采取一些簡單的處理方法,其合理性仍有待進(jìn)一步研究。

      (1) 垃圾句與特殊句的處理

      與任務(wù)1一樣,垃圾句指的是內(nèi)容不完整或者語義錯亂的句子。特殊句是指對內(nèi)容為文學(xué)描述、祝福語、廣告等的句子。對這兩類句子,在標(biāo)注時,直接標(biāo)注為“NULL”。例如:

      [13] 支持博主,我的最新博文,內(nèi)容豐富多彩,細(xì)膩情感、出位藝術(shù),歡迎光臨!

      標(biāo)注結(jié)果: 廣告 NULL。

      (2) 轉(zhuǎn)折句的處理

      對于“雖然……但是……”,“但是”、“卻”等轉(zhuǎn)折詞連接的轉(zhuǎn)折句,只有當(dāng)連接的兩部分呈現(xiàn)出不同的褒貶義評價時,才標(biāo)注為“有褒有貶”。例如:

      [14] 這個設(shè)計雖然很新穎,但是毫無時尚感

      標(biāo)注結(jié)果: 首先該句的前半句是褒義,后半句則為貶義的,故把該句標(biāo)注為“有褒有貶0”。在此基礎(chǔ)上,抽取搭配三元組: <設(shè)計,很新穎,1>、<設(shè)計,毫無時尚感,-1>

      [15] 口味還不錯,不過周圍環(huán)境很差

      與[14]不同的是,句子前后兩個半句的評價對象不同。顯然,該句是整體評價“某餐館”,但是句子本身卻省略了整體評價對象。因此,句子的傾向性標(biāo)注為“有褒有貶0”。在此基礎(chǔ)上,抽取評價搭配三元組: <口味,還不錯,1>、<周圍環(huán)境,很差,-1>

      (3) 對影視娛樂數(shù)據(jù)的處理

      在標(biāo)注影視娛樂數(shù)據(jù)時,只有對娛樂影視內(nèi)容、演員表演技能等進(jìn)行褒貶義評價才標(biāo)注為有傾向性。但是,如果采用褒貶義詞描述劇目中的人物、事件等內(nèi)容,而不對劇目進(jìn)行評價,則標(biāo)注為無傾向性。例如:

      [16] 該劇講述了一個音樂制作人靠欺騙觀眾令一個歌手走紅,舞臺上的歌手只有靚麗的外表,他的演唱是由幕后一個其貌不揚(yáng)但才華橫溢的歌手完成的,最終兩人主動揭穿了騙局。

      標(biāo)注結(jié)果: 該句是對劇目內(nèi)容的描述,并不是對劇目本身好壞的評價。雖然用了很多諸如“靚麗”、“其貌不揚(yáng)”、“才華橫溢”等傾向詞,但仍判為無傾向性,而不是有褒有貶。

      (4) 對金融數(shù)據(jù)的處理

      金融數(shù)據(jù)的傾向性表達(dá)較為復(fù)雜,因此關(guān)于金融數(shù)據(jù)的處理,只有對金融產(chǎn)品、現(xiàn)象等進(jìn)行褒貶義評價時才標(biāo)注為有傾向性。但是,對于采用“跌”、“漲”等描述一個事實或現(xiàn)象時,雖然這些詞在其他領(lǐng)域具有很強(qiáng)的褒貶色彩,但是在金融領(lǐng)域中則標(biāo)為無傾向性。例如:

      [17] 至收盤,滬指報2 587.81點,跌0.27%,成交789.8億元;深成指報9 991.40點,跌0.12%,成交629.4億元 。

      標(biāo)注結(jié)果: 無傾向性

      [18] 韓國3月消費(fèi)者信心指數(shù)為2009年7月以來最低,韓國央行周四公布的數(shù)據(jù)顯示,韓國3月消費(fèi)者信心指數(shù)連續(xù)第二個月下跌,至八個月低位,令對經(jīng)濟(jì)復(fù)蘇放緩的擔(dān)憂加重。

      標(biāo)注結(jié)果: 貶義(-1)。抽取的評價搭配三元組為: <對經(jīng)濟(jì)復(fù)蘇放緩的擔(dān)憂 加重-1>。

      此外,在標(biāo)注過程中,參評隊伍的一些老師提出“某股票領(lǐng)漲、某股票跌穿”帶有一定傾向性,確實有一定的道理,由于時間比較倉促,沒有考慮這種細(xì)節(jié)。

      (5) 評價對象省略情況

      語料存在一些句子,評價對象是省略的,但是可以推測出該句具有非常明顯的褒貶義評價。對于這種情況,任務(wù)2標(biāo)為有傾向性,但是在任務(wù)3的評價搭配三元組抽取標(biāo)為空。例如:

      [19] 就是稍貴了一點,但也算物有所值了顯然,該句雖然省略了評價對象,但是具有非常明顯的褒貶義評價。因此,任務(wù)2的標(biāo)注結(jié)果是有褒義有貶義。然而,對于任務(wù)3的評價搭配抽取則標(biāo)注為空。

      3.3 觀點檢索標(biāo)注

      與前兩屆一樣,觀點檢索的目標(biāo)是檢索出與給定查詢不僅主題相關(guān),而且對該主題有褒貶義評價的文檔。其標(biāo)注原則如下: 首先標(biāo)注文檔內(nèi)容與給定查詢是否主題相關(guān);如果相關(guān),則進(jìn)一步判斷文檔內(nèi)容對該主題的褒貶義評價(-1: 貶義、1: 褒義、0: 褒貶義混合、2: 無傾向性)。例如:

      [20] 給定查詢: Iphone

      DOC01: N8的上市讓很多消費(fèi)者將其與iphone 4和三星i9000等產(chǎn)品作比較,注重時尚元素的N8毫不遜色任何機(jī)型。

      標(biāo)注結(jié)果: 不相關(guān)

      DOC02: 外觀上,蘋果 iPhone 4代 16G采用了輕薄時尚的外觀設(shè)計,機(jī)身以黑色為主色調(diào),外殼選用不銹鋼框架打造,表面經(jīng)過烤漆工藝處理,質(zhì)地十分光滑并有著細(xì)膩的光澤度,簡練的線條勾勒出大氣的輪廓,略顯圓潤的邊角過度自然流暢,金屬材質(zhì)的音量調(diào)節(jié)按鍵設(shè)計在左上側(cè),方便日常操作。但是與三星等其它品牌相比,價格仍然偏高。

      標(biāo)注結(jié)果: 相關(guān) 0(褒貶義混合)

      [20] 給定查詢: 房產(chǎn)稅

      DOC03:房產(chǎn)稅會不會出臺,目前對房產(chǎn)業(yè)有什么影響近期房市穩(wěn)定不會有大的動作!

      標(biāo)注結(jié)果: 相關(guān) 2(無傾向性)

      DOC04: 韓令國: 房地產(chǎn)熱是經(jīng)濟(jì)泡沫與民生的雙重災(zāi)難最好的解決方法是對投機(jī)或投資性購房加征高額暴利稅,依我看其稅率為房產(chǎn)價格的40%足矣!

      標(biāo)注結(jié)果: 相關(guān) 1(褒義)

      4 評測結(jié)果分析

      本次評測得到了國內(nèi)同行的熱情支持,總共有20個單位報名參加,其中18支隊伍成功提交結(jié)果: 任務(wù)1共有14支隊伍提交了15個run;任務(wù)2共有17支隊伍提交了20個run;任務(wù)3共有12支隊伍提交了14個run;任務(wù)4共有5支隊伍提交了9個run?;谏鲜鲞^程標(biāo)注的數(shù)據(jù),根據(jù)不同任務(wù)要求選取P@N、Precision、Recall、F1、R-accuracy、Map等評價指標(biāo)對參賽隊伍進(jìn)行評價,具體結(jié)果如表3~5所示。本次評測的目標(biāo)側(cè)重考慮領(lǐng)域和上下文語境對傾向性的影響。因此,首先根據(jù)評測結(jié)果考察領(lǐng)域和語境對傾向性的影響,然后總結(jié)語料、標(biāo)注尚待改進(jìn)之處。

      4.1 領(lǐng)域?qū)A向性的影響分析

      從表3~5可以看出,在觀點詞識別任務(wù)中,對于電子產(chǎn)品、影視娛樂和金融證券三個領(lǐng)域,觀點詞識別P@1000指標(biāo)中值在0.57左右、最佳值約為0.62;召回率三個領(lǐng)域也相差不多,但是均取得較低值: 中值約為0.09、最佳值為0.12左右;而準(zhǔn)確率雖然最佳值金融證券比影視娛樂和電子產(chǎn)品高,但區(qū)別不是很明顯,中值也均集中在0.35左右。

      在觀點句識別任務(wù)中,對于不考慮句子極性的情況,三個領(lǐng)域的準(zhǔn)確率、F1值、P@1000則顯著不同: 電子產(chǎn)品最優(yōu),影視娛樂次之,金融證券最差。電子產(chǎn)品領(lǐng)域的準(zhǔn)確率、F1的中值和最佳值幾乎是金融證券領(lǐng)域的兩倍。如果同時考慮句子極性,三個領(lǐng)域的準(zhǔn)確率、F1值、P@1000雖然略有下降,但是三者之間的仍然保持較大差異。

      在評價搭配抽取任務(wù)中,分別統(tǒng)計了下面三種情況: (1)“評價對象+評價短語+極性”,同時考慮評價對象、評價短語和極性,只有當(dāng)三個元組同時抽取正確,才判為正確;(2)“評價對象”,只考慮評價對象,當(dāng)評價對象抽取正確,就判為正確;(3)“評價短語”,只考慮評價短語,當(dāng)評價短語抽取正確,就判為正確。從表3~5可知,這三種情況的各項指標(biāo)均較低,評價搭配抽取仍然是一個很困難的任務(wù)。但是仍然可以看出,電子產(chǎn)品領(lǐng)域的各項指標(biāo)均高于影視娛樂和金融證券領(lǐng)域。

      需要特別指出的是,觀點檢索的評測任務(wù)設(shè)置并沒有區(qū)別領(lǐng)域,但是查詢主題的設(shè)置基本上是平均分配的。因此,在統(tǒng)計評價指標(biāo)時可以看成針對三個領(lǐng)域設(shè)置分別數(shù)量相當(dāng)?shù)牟樵冎黝}。在此基礎(chǔ)上,可以計算不同領(lǐng)域的準(zhǔn)確率、召回率、F1等評價指標(biāo)。從表3~5計算結(jié)果可知: 電子產(chǎn)品領(lǐng)域的準(zhǔn)確率、召回率、F1值高于影視娛樂和金融證券領(lǐng)域;影視娛樂領(lǐng)域的評價指標(biāo)略高于金融證券領(lǐng)域;但是,三者的差距除了最佳值外,并不是非常顯著。

      表3 電子產(chǎn)品領(lǐng)域的評測結(jié)果

      續(xù)表

      *注: 觀點詞識別、句子識別、句子識別+極性采用的是P@1000的指標(biāo),觀點檢索采用的是P@10的指標(biāo)。

      表4 影視娛樂領(lǐng)域的評測結(jié)果

      *注: 觀點詞識別、句子識別、句子識別+極性采用的是P@1000的指標(biāo),觀點檢索采用的是P@10的指標(biāo)。

      表5 金融證券領(lǐng)域的評測結(jié)果

      續(xù)表

      *觀點詞識別、句子識別、句子識別+極性采用的是P@1000的指標(biāo),觀點檢索采用的是P@10的指標(biāo)。

      綜上所述,領(lǐng)域因素對觀點詞識別和觀點檢索影響不大,而對觀點句識別、評價搭配抽取的影響較為顯著: 電子產(chǎn)品領(lǐng)域所體現(xiàn)出的褒貶評價較為明確,抽取相對容易;影視娛樂和金融證券領(lǐng)域的褒貶評價較為模糊,比較難以判斷。這與標(biāo)注過程中標(biāo)注人員所反映出的難易程度一致。

      4.2 上下文語境對傾向性的影響分析

      在觀點詞識別任務(wù)中,其識別任務(wù)是要素級的。從結(jié)果上看,雖然三個領(lǐng)域的各項評價指標(biāo)相差不大,但準(zhǔn)確率、召回率值偏低,特別是召回率僅達(dá)到0.10左右。準(zhǔn)確率不高一方面是由于抽取算法的不太理想,另一方面可能是標(biāo)注的影響: 標(biāo)注時根據(jù)“以觀點詞為中心的前后各20字節(jié)組成的文本片段”來判斷觀點詞的識別比較困難。召回率偏低則表明評測隊伍的抽取算法抽取的結(jié)果吻合度較低,觀點詞識別任務(wù)仍然是一個比較有挑戰(zhàn)性的任務(wù)。三個領(lǐng)域P@1000的最佳值則均達(dá)到0.60以上。這說明評測隊伍更注重靠前命中率,其置信度排序算法較為有效。因此,雖然評測隊伍可能根據(jù)多種信息源、充分利用上下文語境來進(jìn)行判斷,但是觀點詞識別任務(wù)仍然較為困難。需要強(qiáng)調(diào)的是,在標(biāo)注過程中,根據(jù)“以觀點詞為中心的前后各20字節(jié)組成的文本片段”的上下文語境對本任務(wù)的標(biāo)注影響較大。

      對于觀點句識別任務(wù),句子是表達(dá)的一個完整單位。與“以觀點詞為中心的前后各20字節(jié)組成的文本片段”相比較,句子提供較為豐富的上下文語境信息。從表3~5可以看出,觀點句子識別的各項指標(biāo)仍然較低,這說明僅從句子信息出發(fā)對句子總體極性進(jìn)行判斷仍然有一定的不確定性: 特別是有些句子省略了觀點持有者或評價對象,給傾向性判斷帶來較大的困難。

      評價搭配抽取任務(wù)要求抽取包含“評價對象+評價短語+極性”信息的評價搭配。對于明確的評價搭配,應(yīng)該能較為準(zhǔn)確地判定觀點。然而,該任務(wù)要求從判定為有觀點的句子抽取搭配對,可利用的語境是句子的上下文信息。從表3~5可以看出,本次評測結(jié)果不夠理想,評價搭配抽取的各項評價指標(biāo)非常低,仍然有很大的提升空間。這一方面由于評測的尺度比較嚴(yán)格,另一方面確實反映出自然語言表達(dá)的靈活性、復(fù)雜性和不確定性,需要考慮除了句子的上下文語境以外的信息進(jìn)行抽取。

      觀點檢索任務(wù)提供篇章級的信息和完整的上下文語境,使得參評隊伍能夠充分考慮領(lǐng)域、上下文語境等信息,計算對給定話題的評論強(qiáng)弱。從表3~5可以看出,三個領(lǐng)域的準(zhǔn)確率、召回率、F1值差別不大,但是P@10最佳值達(dá)到0.60以上。這是由于各參評隊伍對更側(cè)重首頁命中率,結(jié)果的全面性有所忽視,導(dǎo)致準(zhǔn)確率較高、召回率很低。從本任務(wù)的評測結(jié)果可以看出,篇章級文本能夠提供較為完整的上下文語境,因而能夠較為準(zhǔn)確計算出對給定查詢的評論強(qiáng)弱。

      綜上所述,上下文語境對傾向性分析產(chǎn)生較大的影響: 觀點詞識別任務(wù)和觀點檢索任務(wù)能夠充分利用篇章的上下文語境,能夠取得較好的結(jié)果;而觀點句識別任務(wù)和評價搭配抽取任務(wù)只能利用句子的上下文語境,各項評價指標(biāo)仍然偏低。

      4.3 語料、標(biāo)注有待改進(jìn)之處

      首先,在標(biāo)注金融證券數(shù)據(jù)時,標(biāo)注人員的原則是在表達(dá)一個金融事實或現(xiàn)象時,標(biāo)注為無傾向性。但是該尺度較難掌握,仍然存在著一定程度的爭議。例如:

      [21] 昨日股市漲了200點但今天跌了300點

      [22] 某股票領(lǐng)漲、某股票跌穿

      上述兩個例子標(biāo)注人員均標(biāo)注為無傾向性。然而,一些同行則認(rèn)為上述例子在一定程度表達(dá)一定的褒貶義色彩。

      其次,對于評價搭配抽取任務(wù),為了便于處理規(guī)定抽取的評價對象和評價短語均取最大字串。在評測時采用了嚴(yán)格尺度,只有跟標(biāo)注答案完全一致的結(jié)果才被判為正確。這樣雖然減輕了標(biāo)注和評測的工作量,但由于過于嚴(yán)格也漏掉了一些近似的正確結(jié)果。例如,

      [23] LED顯示效果非常清晰

      標(biāo)注結(jié)果為:

      在結(jié)果判別時,諸如“< LED 清晰 1>、< LED 非常清晰 1> 和”均判為錯誤。

      此外,由于工作量較大、時間有限,本次評測仍存在許多需要改進(jìn)之處: (1)標(biāo)注結(jié)果存在少量的重復(fù)句子,這是由于標(biāo)注系統(tǒng)在分派任務(wù)的時候是隨機(jī)指派的,每次展現(xiàn)一個句子給標(biāo)注人員,并沒有做近似的去重;(2)媒介覆蓋率有待提高,需要更加科學(xué)采樣以反映整個網(wǎng)絡(luò)數(shù)據(jù)樣本;(3)評測指標(biāo)有待進(jìn)一步考慮。例如,對于觀點檢索任務(wù),可以考慮NDCG指標(biāo)等。

      5 結(jié)論

      為了推動文本傾向性分析研究,在前兩屆文本傾向性分析評測的基礎(chǔ)上中文信息學(xué)會信息檢索專委會舉辦了第三屆中文傾向性分析評測(COAE2011)。該評測主要關(guān)注領(lǐng)域和上下文語境(Context)對中文傾向性分析的影響。本文主要介紹評測語料的構(gòu)建以及其對評測的支撐: 首先介紹第三屆中文傾向性分析評測(COAE2011)的語料構(gòu)建,然后基于標(biāo)注實例闡述電子產(chǎn)品、金融證券和影視娛樂三個不同領(lǐng)域語料的標(biāo)注原則與方法,最后結(jié)合評測結(jié)果分析領(lǐng)域和上下文語境兩種因素對語料中不同領(lǐng)域傾向性的影響。此外,還分析了本次語料尚待改進(jìn)之處,為進(jìn)一步豐富和完善提供參考。COAE2011語料的建立將為中文傾向性分析提供強(qiáng)大的資源支持。

      6 致謝

      感謝中國中文信息學(xué)會信息檢索專業(yè)委員會各位領(lǐng)導(dǎo)的指導(dǎo)與支持;感謝參評隊伍的老師和同學(xué)的熱情參與和積極反饋;感謝福州大學(xué)信息檢索課題組的同學(xué)和福州大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院志愿者的辛苦付出。

      [1] 黃萱菁,趙軍. 中文文本情感傾向性分析[J].中國計算機(jī)學(xué)會通訊[J],2008,4(2): 41-46.

      [2] B Pang, L Lee. Opinion Mining and Sentiment Analysis [J]. Foundations and Trends in Information Retrieval, 2008,2(1-2): 1-135.

      [3] 趙妍妍, 秦兵, 劉挺. 文本情感分析綜述.軟件學(xué)報[J],2010,21(8):1834-1848.

      [4] TREC2008. The 17 Text Retrieval Conference Proceedings [EB/OL], 2008[2011.3.10]. http:trec.nist.gov/pubs/trec17/t17_proceedings.html.

      [5] NTCIR (NII Test Collection for IR Systems) Project [EB/OL], 2009[2011.3.10]. http:research.nii.ac.jp/ntcir/ntcir-ws8/ws-en.html.

      [6] 趙軍,許洪波,黃萱菁,等.中文傾向性分析評測技術(shù)報告[R]. 北京,2008.

      [7] 許洪波,姚天昉,黃萱菁,等.第二屆中文傾向性分析評測技術(shù)報告[R].第二屆中文傾向性分析評測會議,上海,2009.

      [8] B Li, L Zhou, S Feng, et al. A Unified Graph Model for Sentence-Based Opinion Retrieval[C]//Proceedings of ACL’10, Uppsala, Sweden, 2010:1367-1375.

      [9] J Zhu, H Wang, M Zhu, et al. Aspect-Based Opinion Polling from Customer Reviews[J]. IEEE Transactions on Affective Computing, 2011.

      [10] W Du, S Tan, X Cheng, et al. Adapting information bottleneck method for automatic construction of domain-oriented sentiment lexicon[C]//Proceedings of WSDM 2010: 111-120.

      [11] 許洪波,孫樂,姚天昉,等. 第三屆中文傾向性分析評測(COAE2011)總結(jié)報告[R]. 第三屆中文傾向性分析評測會議,山東,2011.

      [12] 徐琳宏,林鴻飛,趙晶.情感語料庫的構(gòu)建和分析[R].中文信息學(xué)報,2008, 22(1):116-122.

      猜你喜歡
      傾向性評測語料
      基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
      次時代主機(jī)微軟XSX全方位評測(下)
      次時代主機(jī)微軟XSX全方位評測(上)
      攻坡新利器,TOKEN VENTOUS評測
      Canyon Ultimate CF SLX 8.0 DI2評測
      中國自行車(2017年1期)2017-04-16 02:54:06
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      關(guān)于醫(yī)患沖突報道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      “沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
      語言與翻譯(2015年4期)2015-07-18 11:07:43
      《苗防備覽》中的湘西語料
      宝坻区| 华坪县| 镇巴县| 务川| 赣州市| 于都县| 赤壁市| 湖南省| 和平县| 云龙县| 绍兴县| 京山县| 腾冲县| 胶州市| 兴义市| 都昌县| 长春市| 桓台县| 灵台县| 旅游| 武义县| 松原市| 伊宁县| 康保县| 牙克石市| 双牌县| 卫辉市| 清河县| 潞西市| 朝阳区| 福建省| 景宁| 吉首市| 谢通门县| 铁岭市| 临安市| 方山县| 惠来县| 荔浦县| 嘉鱼县| 松阳县|