柯永紅,俞士汶,穗志方,宋繼華
(1. 北京大學(xué) 計算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京100871;2. 北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京100875)
基于群體智慧的語料標(biāo)注方法研究
柯永紅1,俞士汶1,穗志方1,宋繼華2
(1. 北京大學(xué) 計算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京100871;2. 北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京100875)
自然語言處理系統(tǒng)的性能和魯棒性在很大程度上取決于建模過程中是否有足夠的深度標(biāo)注語料。傳統(tǒng)的人工標(biāo)注方法難以滿足大規(guī)模、高質(zhì)量的深度語料標(biāo)注需求,該文提出了基于群體智慧的語料標(biāo)注方法,設(shè)計了標(biāo)注模型,并就用戶能力評測、語料篩選、任務(wù)管理、協(xié)作標(biāo)注、行為分析、質(zhì)量控制、決策加總、考核激勵等具體環(huán)節(jié)進(jìn)行分析,提出了解決方案。項(xiàng)目實(shí)踐表明: 基于群體智慧的語料標(biāo)注方法在應(yīng)對創(chuàng)新性很強(qiáng)的自然語言處理研究項(xiàng)目時具有明顯的優(yōu)勢。
群體智慧;語料標(biāo)注;自然語言處理
Abstract: The performance and robustness of the natural language processing system depend strongly on annotated corpus.To meet the requirement of large scale and high quality corpus annotation, this paper describes an annotation method based on collective intelligence, including the system structure, user capacity evaluation, data selection, task management, collaborative tagging, behavior analysis, quality control, judgement and optimaztion. Project practice shows the annotation method based on collective intelligence has significant advantages for natural language processing research projects.
Key words: collective intelligence; corpus annotation; natural language processing
收稿日期: 2016-03-08 定稿日期: 2016-04-13
基金項(xiàng)目: 中國博士后科學(xué)基金(2015M570877);國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃(2014CB340504)
語料庫是自然語言處理研究和應(yīng)用的基礎(chǔ)性資源,經(jīng)過科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語料庫能夠記錄和反映語言的實(shí)際使用情況。自然語言處理系統(tǒng)的性能和魯棒性在很大程度上取決于建模過程中是否有足夠的深度標(biāo)注語料,近年來基于深度學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)(deep neutral network,DNN)模型大行其道,而DNN模型更加凸顯了對大規(guī)模深度標(biāo)注語料的強(qiáng)烈需求。
大規(guī)模、高質(zhì)量的人工標(biāo)注語料十分難以獲得,其原因在于: 傳統(tǒng)的語料庫人工標(biāo)注需要具備專業(yè)知識的人員進(jìn)行,標(biāo)注人員遴選、文本篩選、任務(wù)組織、進(jìn)度協(xié)調(diào)、質(zhì)量檢查、成果匯總、工作量計算等都需要人工完成,難以保證各個環(huán)節(jié)的效率和科學(xué)性。因此,大規(guī)模、高質(zhì)量的語料庫人工標(biāo)注需要投入大量的資金、時間和人力。本研究的目標(biāo)是: 基于群體智慧的思路,探討面向大規(guī)模、高質(zhì)量的語料庫人工標(biāo)注方法。本文的思考來源于解決973項(xiàng)目(國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃2014CB340504: 面向三元空間的互聯(lián)網(wǎng)中文信息處理理論與方法)語料標(biāo)注過程中諸多問題的實(shí)踐。本文不討論標(biāo)注系統(tǒng)的數(shù)學(xué)模型、開發(fā)技術(shù)等技術(shù)細(xì)節(jié),而是討論整體構(gòu)建策略和關(guān)鍵環(huán)節(jié)的實(shí)施辦法。
英國語言學(xué)家Leech在1997年的Introducingcorpusannotation一文中將語料庫標(biāo)注(corpus annotation)定義為“為電子口筆語語料庫文本添加解釋性信息和語言學(xué)信息的活動”。標(biāo)注的具體實(shí)施即是對文本某些元素或特征添加預(yù)訂的標(biāo)簽,通常分為計算機(jī)自動標(biāo)注、機(jī)助人工標(biāo)注和人工標(biāo)注。人工標(biāo)注即由人對各種語言現(xiàn)象進(jìn)行分析判斷并用特定的一套標(biāo)簽對語料進(jìn)行加工處理。傳統(tǒng)人工標(biāo)注的問題是: 標(biāo)注往往由一個或幾個人分散進(jìn)行,費(fèi)時費(fèi)力,而且受到標(biāo)注者的專業(yè)知識、工作態(tài)度、精神狀態(tài)的制約,標(biāo)注的一致性較差,標(biāo)注進(jìn)度和標(biāo)注質(zhì)量難以保證,無法應(yīng)對大規(guī)模、高質(zhì)量的語料庫標(biāo)注需求。
社會標(biāo)注(social amnotation)作為高效的信息資源標(biāo)引、組織和檢索模式,是解決傳統(tǒng)人工標(biāo)注諸多問題的有效手段。文獻(xiàn)[1-2]介紹了社會標(biāo)注的理念和優(yōu)缺點(diǎn),文獻(xiàn)[3-4]論述了社會標(biāo)注的統(tǒng)計特點(diǎn),文獻(xiàn)[5-6]介紹了社會標(biāo)注在信息檢索領(lǐng)域的應(yīng)用。自2005年以來,社會標(biāo)注方法得到廣泛應(yīng)用,如網(wǎng)絡(luò)書簽網(wǎng)站Delicious、圖片共享網(wǎng)站Flickr、學(xué)術(shù)論文標(biāo)注和檢索系統(tǒng)CiteULike、音頻文件標(biāo)注和推薦系統(tǒng)LastFM[7]等。在國內(nèi),將社會標(biāo)注應(yīng)用到語料標(biāo)注仍處于探索階段。李宏言[8]等將社會標(biāo)注應(yīng)用于大數(shù)據(jù)語音語料庫標(biāo)注,并通過工程實(shí)踐和應(yīng)用,驗(yàn)證了社會標(biāo)注在標(biāo)注效率、質(zhì)量和成本等方面的優(yōu)勢。
基于群體智慧(collective intelligence)語料標(biāo)注方法,屬于社會標(biāo)注的范疇。Collective intelligence 可翻譯為群體智慧、集體智慧、集體智能、合作情報等。George Pór將群體智慧定義為: 通過分化與整合、競爭與協(xié)作的創(chuàng)新機(jī)制,人類社區(qū)朝更高的秩序復(fù)雜性及和諧方向演化的能力[9]。維基百科將群體智慧定義為: 群體智慧是一種共享的或者群體的智能,它是從許多個體的合作與競爭中涌現(xiàn)出來的[10]。群體智慧的應(yīng)用場景主要有: 群體協(xié)作完成復(fù)雜任務(wù)、群體決策、群體預(yù)測等。Singh[11]等人探討了網(wǎng)絡(luò)社會中不同文化和專業(yè)背景的人群利用群體智慧創(chuàng)造知識及解決復(fù)雜問題的方式。Lykourentzou[12]等人基于前饋神經(jīng)網(wǎng)絡(luò)的專家匹配算法(EPM),開發(fā)了CorpWiki 系統(tǒng),該系統(tǒng)將機(jī)器學(xué)習(xí)智慧與員工智慧結(jié)合起來,實(shí)現(xiàn)了對員工個人知識的有效利用,促進(jìn)了群體智慧的發(fā)展。Chen X[13]等開發(fā)了一個網(wǎng)絡(luò)平臺,該平臺可以收集大眾的幾何知識,生成即時更新的動態(tài)教科書。我們認(rèn)為,基于群體智慧的語料標(biāo)注是由多個標(biāo)注人員通過群體協(xié)作、互動交流、智慧發(fā)掘和信息共享,貢獻(xiàn)出自己的知識、技能、經(jīng)驗(yàn),并通過有效提煉、加總,產(chǎn)生出優(yōu)于任何個人標(biāo)注的結(jié)果。群體智慧與眾包(Crowdsourcing)是兩個不同的概念,杰夫·豪(Jeff Howe)[14]將眾包定義為: 將傳統(tǒng)上交由指定的機(jī)構(gòu)或個人(通常為雇員或承包商)所做的工作以公開征集的方式外包給一個開放的、非特定的大眾群體來完成。群體智慧和眾包這兩個概念有部分是重疊的,但仍有明顯的區(qū)別: 眾包強(qiáng)調(diào)任務(wù)的分發(fā),簡單的任務(wù)不需要群體智慧的深度參與,如將一本書的不同章節(jié)分給多人錄入到語料庫,雖然最終的成果蘊(yùn)含多個任務(wù)參與者的智慧,但這只是簡單的聚合?;谌后w智慧的語料標(biāo)注方法不僅僅是簡單的將標(biāo)注任務(wù)分工,更需要對標(biāo)注參與者的智慧進(jìn)行發(fā)掘,其結(jié)果必須是經(jīng)過有效歸納和加總得到的、優(yōu)于任何個人的集體性成果。基于群體智慧的成熟標(biāo)注系統(tǒng)非常少見,而在大數(shù)據(jù)和機(jī)器學(xué)習(xí)大行其道的時代背景下,基于群體智慧進(jìn)行語料標(biāo)注,既有強(qiáng)烈的現(xiàn)實(shí)需求,也有廣闊的研究和應(yīng)用前景。
圖1描畫了基于群體智慧的標(biāo)注模型。該模型的輸入項(xiàng)有三個: 標(biāo)注者、待標(biāo)注語料和標(biāo)注規(guī)范。模型的處理部分包含: 能力評測、語料篩選、任務(wù)組織、協(xié)作標(biāo)注、行為分析、質(zhì)量控制、決策加總、考核激勵等,輸出為標(biāo)注語料庫。
3.1 能力評測
如何評估語料標(biāo)注人員具有的“智慧”,是首先需要解決的問題。為此,我們引入用戶能力評測模型。用戶能力評測模型的參數(shù)有四個: 專業(yè)背景評分、標(biāo)注測試評分、標(biāo)注正確率評分、任務(wù)完成情況評分。專業(yè)背景評分是由人工對用戶在注冊時填寫的基本資料,包括教育背景、專業(yè)特長、工作經(jīng)歷等進(jìn)行打分,分值越高,表明用戶潛在標(biāo)注能力越強(qiáng)。用戶通過專業(yè)背景打分后,還要進(jìn)行標(biāo)注能力測試。標(biāo)注測試評分是通過挑選典型的標(biāo)注語料,交由用戶進(jìn)行標(biāo)注,由系統(tǒng)對標(biāo)注結(jié)果自動評分,得分即為用戶的標(biāo)注能力測試成績。標(biāo)注正確率評分是用戶已完成的標(biāo)注任務(wù)的正確率得分。任務(wù)完成情況評分用來評估用戶按照規(guī)定時間完成標(biāo)注任務(wù)的能力。通過用戶能力評測模型,我們可以為用戶建立基本的評價,為后續(xù)的任務(wù)分配提供可靠的依據(jù)。
3.2 語料篩選
就語料庫標(biāo)注來說,一個重要的指標(biāo)是盡可能保證語料的平衡。通常采用語料平滑算法來解決數(shù)據(jù)稀疏問題。但是,語言中高頻詞只占少數(shù),大部分詞都屬于低頻詞,因此在自然語言處理領(lǐng)域,數(shù)據(jù)稀疏問題不可避免。除了詞頻之外,語料平衡往往需要考慮多個因素(如語義角色標(biāo)注中,謂詞、句式、意義組合模式等都可以作為參考),僅僅依靠語料平滑算法,通常難以取得理想的效果。人工語料標(biāo)注通常是一個漸進(jìn)、動態(tài)的過程,在語料平滑算法的效果不夠理想時,標(biāo)注者的專業(yè)知識和經(jīng)驗(yàn)對于平衡語料十分重要。在基于群體智慧的語料標(biāo)注過程中,可以為專家級標(biāo)注者提供語料特征分析、語料檢索、語料統(tǒng)計、詞典對比、語料抽取等工具,由專家級標(biāo)注者通過工具的組合使用,挑選代表性語料進(jìn)入候選標(biāo)注語料。這種方法雖然不如機(jī)器挑選效率高,但是專家用戶挑選的語料往往能夠較好地覆蓋語言現(xiàn)象,在一定程度上解決數(shù)據(jù)稀疏問題。
3.3 任務(wù)組織
社會化的語料標(biāo)注方法,一個難點(diǎn)是給合適的人分配適合的任務(wù)。通過用戶能力評測模型,可以將任務(wù)優(yōu)先分配給能力評測得分較高的用戶。任務(wù)管理模塊主要管理三類任務(wù): 標(biāo)注任務(wù)、質(zhì)檢任務(wù)、裁判任務(wù)。標(biāo)注任務(wù)是根據(jù)設(shè)定的任務(wù)目標(biāo),利用語料篩選模塊自動或人工挑選語料,生成一個任務(wù),挑選合適的任務(wù)執(zhí)行者,并給出建議完成時間。建議完成時間根據(jù)待標(biāo)注語料的規(guī)模和已完成任務(wù)的平均標(biāo)注速度計算生成。質(zhì)檢任務(wù)通常由管理員設(shè)定抽檢比例,隨機(jī)抽取已標(biāo)注的語料,由其他用戶對標(biāo)注結(jié)果進(jìn)行確認(rèn)。確認(rèn)有三種標(biāo)記: 通過、修改、存疑,并可附上個人意見。質(zhì)檢任務(wù)完成后,系統(tǒng)提取標(biāo)記為“修改”和“有疑”的標(biāo)注,生成裁判任務(wù)。裁判任務(wù)由專家用戶承擔(dān),專家用戶自行決定或協(xié)商裁定最終標(biāo)注結(jié)果。
3.4 協(xié)作標(biāo)注
協(xié)作標(biāo)注模塊是基于群體智慧的標(biāo)注系統(tǒng)的核心。協(xié)作標(biāo)注通常有兩種方式: 隔離標(biāo)注和參考標(biāo)注。隔離標(biāo)注是指多個用戶標(biāo)注同樣的語料,這些用戶彼此之間無法看到對方標(biāo)注結(jié)果。隔離標(biāo)注的目的有兩個: 其一,避免用戶互相看到數(shù)據(jù),受到他人標(biāo)注結(jié)果的影響;其二,可以收集差異數(shù)據(jù),進(jìn)行典型差錯分析,進(jìn)而改進(jìn)標(biāo)注規(guī)范和標(biāo)注工具。參考標(biāo)注是指用戶在標(biāo)注時能看到已經(jīng)完成的標(biāo)注,參考的對象既可以是人工標(biāo)注數(shù)據(jù),也可以是機(jī)器自動標(biāo)注的結(jié)果。參考標(biāo)注的好處在于用戶能參考其他用戶的標(biāo)注結(jié)果,能夠提高標(biāo)注的效率和質(zhì)量,但也可能會受到其他用戶的影響。在實(shí)際標(biāo)注過程中,應(yīng)根據(jù)語料標(biāo)注的不同階段和目的選擇對應(yīng)的標(biāo)注方法。
3.5 行為分析
Alag[15]、Doan A[16]和Di Maio[17]等研究認(rèn)為,群體智慧可以分為兩種類型: 直接智慧(或顯性智慧)和間接智慧(或隱性智慧)。直接智慧是用戶直接提供給應(yīng)用程序的,如加在語料上的標(biāo)注、用戶對標(biāo)注的評論等。間接智慧是通過對用戶在應(yīng)用程序內(nèi)或應(yīng)用程序外提供的信息,進(jìn)行收集、聚合和分析之后獲得的智慧。標(biāo)注系統(tǒng)中,用戶的行為數(shù)據(jù)屬于間接智慧,對間接智慧的發(fā)掘和分析往往能得到有價值的深度信息。如用戶登錄系統(tǒng)的次數(shù)越多、標(biāo)注時間越長,這類用戶的標(biāo)注結(jié)果往往更為穩(wěn)定、可靠;用戶在某一類語料上的修改次數(shù)越多,或是標(biāo)注時間越長,說明該類語料的標(biāo)注難度越大,這類語料的標(biāo)注結(jié)果需要重點(diǎn)關(guān)注;用戶的標(biāo)注正確率、召回率可以反映用戶的標(biāo)注能力。通過用戶行為分析,可以為標(biāo)注提供很多非常有價值的數(shù)據(jù),而這類數(shù)據(jù)往往是改進(jìn)標(biāo)注系統(tǒng)、推動標(biāo)注進(jìn)展的關(guān)鍵。
3.6 質(zhì)量控制
質(zhì)量控制大致可以分為三個階段: 標(biāo)注階段、質(zhì)量檢查階段、裁判階段。標(biāo)注階段質(zhì)量控制的重點(diǎn)在于操作規(guī)范的制定和落實(shí)。標(biāo)注規(guī)范應(yīng)清晰明了、可操作性強(qiáng)。同時,應(yīng)提供對應(yīng)的標(biāo)注工具,將標(biāo)注規(guī)范整合到標(biāo)注工具,能在很大程度上避免不規(guī)范的標(biāo)注。通過與現(xiàn)有標(biāo)注結(jié)果的對比和分析,可以就一些常見錯誤自動提示給用戶。標(biāo)注階段質(zhì)量控制得好,可以避免錯誤傳播,大大減少后期的工作量。標(biāo)注完成后,即進(jìn)入質(zhì)量檢查階段。在這一階段,可以采取的方法主要有人工抽檢和自動抽檢。人工抽檢是由項(xiàng)目管理者發(fā)起,隨機(jī)或者指定一批標(biāo)注語料,交由其他標(biāo)注者進(jìn)行交叉標(biāo)注和檢查。自動質(zhì)檢是由系統(tǒng)自動抽取部分語料進(jìn)行特征分析,并在系統(tǒng)中找出相同或者類似的已標(biāo)注語料,將標(biāo)注結(jié)果不一致的地方標(biāo)記出來,等待裁判。此外,為了評估標(biāo)注者的標(biāo)注質(zhì)量,可以引入“陷阱標(biāo)注”: 根據(jù)以往的標(biāo)注結(jié)果,從語料庫中抽取一定比例容易標(biāo)錯的語料,加入到用戶的標(biāo)注任務(wù)中,檢查用戶是否標(biāo)注正確。如果 “陷阱語料”的標(biāo)注正確率較高,說明用戶標(biāo)注結(jié)果可信度較高,否則需要對用戶的標(biāo)注進(jìn)行重點(diǎn)檢查。
3.7 決策加總
人工語料標(biāo)注,最終的目標(biāo)是生成科學(xué)、一致的集體性標(biāo)注成果。設(shè)計有效的決策機(jī)制,對群體的個人智慧進(jìn)行有效加總,是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。為此,我們設(shè)計了如圖2所示的決策加總機(jī)制。
圖2 決策加總機(jī)制
該機(jī)制分為八個步驟: (1)采集分析: 通過交叉標(biāo)注、行為分析、質(zhì)量控制等環(huán)節(jié),采集需要加總的差異性標(biāo)注數(shù)據(jù); (2)目標(biāo)生成: 根據(jù)采集分析得到的數(shù)據(jù),確定決策目標(biāo); (3)群體決策: 基于標(biāo)注數(shù)據(jù)和決策目標(biāo),進(jìn)行群體決策。(4)方案生成: 將群體決策的結(jié)果轉(zhuǎn)化為方案; (5)方案評估: 由群體用戶對方案進(jìn)行分析評分,如果評分過低,應(yīng)繼續(xù)修改方案; (6)方案裁判: 由專家級用戶組成的評判小組進(jìn)行投票,確定方案是否通過; (7)方案輸出: 將裁判通過的方案輸出到已標(biāo)注語料庫; (8)優(yōu)化加總: 對方案進(jìn)行關(guān)聯(lián)分析,評估其影響范圍,優(yōu)化整體方案。
具體操作上,決策加總機(jī)制可以實(shí)現(xiàn)為一個信息聚合模塊,該模塊內(nèi)部包含三個單元,分別是生成方案單元、優(yōu)化方案單元及評估方案單元[18]。在生成、優(yōu)化及評估方案中,有三種手段可以獲取群體智慧,去彌補(bǔ)決策過程中的偏差: 外擴(kuò)、加權(quán)平均和自組織[19]。外擴(kuò)是指在收集和評估決策方案的時候,去尋找外界的幫助,擴(kuò)大參與決策的個體數(shù)量。我們發(fā)現(xiàn)在上述三種手段中,外擴(kuò)實(shí)施起來難度較大,但最為有效。語料標(biāo)注是一個復(fù)雜的系統(tǒng)工程,但在實(shí)際操作過程中,往往只有計算機(jī)工作者的參與,我們應(yīng)該尋求語言學(xué)、心理學(xué)等多領(lǐng)域?qū)<覍W(xué)者的融合和合作,這樣的跨學(xué)科互涉更有利于方案的生成和優(yōu)化。通過生成方案單元、優(yōu)化方案單元及評估方案單元這三個單元的協(xié)作,在充分發(fā)揮群體中的個人智慧的前提下,可以保證最終成果一致,得到深度的群體智慧結(jié)晶。
3.8 考核激勵
人工語料標(biāo)注是一項(xiàng)專業(yè)性較強(qiáng)且枯燥的任務(wù)。如果沒有合適的考核激勵機(jī)制,標(biāo)注質(zhì)量沒有保障,標(biāo)注進(jìn)度無法控制,也不能持續(xù)吸引新的參與者。就語料標(biāo)注系統(tǒng)而言,考核方法主要是計算用戶經(jīng)確認(rèn)的語料標(biāo)注數(shù)量、正確率、完成時間。激勵是保持和提升用戶積極性的重要手段,在我們的項(xiàng)目實(shí)踐中,最有效、最直接的激勵是物質(zhì)獎勵,可以將標(biāo)注正確的語料量和任務(wù)完成時間作為參數(shù)計算標(biāo)注費(fèi)用??蒲蓄I(lǐng)域的語料標(biāo)注者多為學(xué)術(shù)專業(yè)人員,科研的榮譽(yù)感對他們而言是重要的影響因素,可以考慮在項(xiàng)目成果中為貢獻(xiàn)較大的標(biāo)注者署名,同時讓標(biāo)注者獲得標(biāo)注語料庫的部分使用權(quán),這也能在很大程度上促進(jìn)標(biāo)注者提升標(biāo)注質(zhì)量。
為滿足973項(xiàng)目大規(guī)模語料標(biāo)注的需要,我們開發(fā)了基于群體智慧的語料標(biāo)注平臺,其結(jié)構(gòu)如圖3所示。
圖3 基于群體智慧的語料標(biāo)注平臺系統(tǒng)結(jié)構(gòu)
圖3中平臺的結(jié)構(gòu)分為四層: 系統(tǒng)層提供認(rèn)證、日志、權(quán)限、訪問過濾、系統(tǒng)設(shè)置等基本功能;基礎(chǔ)模塊層則實(shí)現(xiàn)了規(guī)范校驗(yàn)、流程控制、質(zhì)量控制、版本控制、結(jié)果加總、鏈接集成等功能;管理工具層包括目錄版本、語料管理、任務(wù)管理、方案管理、資源庫管理等功能;用戶功能層提供了賬號服務(wù)、培訓(xùn)評估、集成標(biāo)注環(huán)境、資源支持等功能。
為評估基于群體智慧的語料標(biāo)注方法在實(shí)際應(yīng)用中的效果,我們選擇了一萬句《人民日報》語料和微博語料作為標(biāo)注樣本,進(jìn)行漢語語義角色標(biāo)注。將標(biāo)注人員分為兩組(均為研究生以上學(xué)歷,計算語言學(xué)專業(yè)背景),分別采用傳統(tǒng)手工語料標(biāo)注方法和基于群體智慧的標(biāo)注方法,并記錄標(biāo)注過程,標(biāo)注結(jié)果對比如表1所示。
從表1可以看出:
(1) 單人平均標(biāo)注速度。由于基于群體智慧的標(biāo)注平臺提供了圖形化的操作界面,且能在 標(biāo) 注 過程中由程序提供輔助標(biāo)注功能,其單人平均標(biāo)注速度優(yōu)于傳統(tǒng)的標(biāo)注方法。
表1 兩種標(biāo)注方法的對比
(2) 完成任務(wù)所需時間?;谌后w智慧的標(biāo)注平臺提供了多人協(xié)作標(biāo)注功能,且能夠在線完成質(zhì)量檢查、爭議裁判。在完成一定規(guī)模的語料標(biāo)注任務(wù)時,其完成任務(wù)所需時間較傳統(tǒng)方法大大縮短。
(3) 標(biāo)注質(zhì)量評價。就個體首輪標(biāo)注質(zhì)量而言,標(biāo)注質(zhì)量取決于語料難度和標(biāo)注者個人能力,傳統(tǒng)方式和基于群體智慧的方式?jīng)]有明顯差異;就總體任務(wù)完成質(zhì)量而言,由于加入了質(zhì)量檢查、爭議裁判,基于群體智慧標(biāo)注方法的一致性好于單人標(biāo)注結(jié)果。
隨著標(biāo)注任務(wù)的進(jìn)行,平臺中標(biāo)注時間、思考時長、修訂記錄、標(biāo)注正確率等數(shù)據(jù)不斷豐富,我們將對這類用戶行為數(shù)據(jù)進(jìn)行挖掘和分析,進(jìn)而優(yōu)化任務(wù)分配、質(zhì)量檢查和偏誤分析。我們也在逐步加入標(biāo)注語料的相似度分析、難度計算、標(biāo)注可信度評分、錯誤驅(qū)動學(xué)習(xí)等模型和功能。可以預(yù)期,基于群體智慧的方式在標(biāo)注效率和質(zhì)量上的優(yōu)勢會更加顯著。
在我們的項(xiàng)目實(shí)踐中,基于群體智慧的標(biāo)注方法在面對一定規(guī)模的語料標(biāo)注任務(wù)時,標(biāo)注效率比傳統(tǒng)的手工標(biāo)注有明顯的提高,標(biāo)注質(zhì)量也有所提升,極大地推動了研究的進(jìn)展。創(chuàng)新性很強(qiáng)的自然語言處理項(xiàng)目實(shí)施過程中,探索的特點(diǎn)非常明顯,就語料標(biāo)注來說,項(xiàng)目早期很可能沒有易用的標(biāo)注系統(tǒng),標(biāo)注規(guī)范是隨著語料標(biāo)注的進(jìn)展逐步提煉、修改、完善,這個過程不但需要充分發(fā)揮每個標(biāo)注者的智慧,而且需要有效的群體協(xié)作、信息發(fā)掘、智慧歸總,唯此方能最終形成科學(xué)的項(xiàng)目成果。這種情況下,基于群體智慧的標(biāo)注方法相比傳統(tǒng)方法有明顯的優(yōu)勢。當(dāng)然,基于群體智慧的標(biāo)注方法也面臨諸多的挑戰(zhàn),如: 需要建立復(fù)雜的模型才能有效挖掘深層的群體智慧;需要設(shè)計有效的機(jī)制,并實(shí)現(xiàn)為易用的系統(tǒng),使之既能讓群體成員充分發(fā)揮個人智慧,又能發(fā)現(xiàn)和歸總?cè)后w智慧,形成權(quán)威、一致、深度的集體性成果;多人標(biāo)注所形成的深度標(biāo)注語料庫的知識產(chǎn)權(quán)歸屬不夠清晰等。整體來看,基于群體智慧的語料標(biāo)注方法,仍處于探索階段,具有廣闊的研究前景和巨大的工程價值。
[1] Mathes A.Folksonomies-cooperative classification and communication through shared metadata [OL]. http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.html,2004.
[2] Lambiotte R,Ausloos M. Collaborative taggingas a tripartite network[C]//Proceedings of the International Conference on Computational Science. Springer-Verlag, 2006: 1114-1117.
[3] Cattuto C, Schmitz C., Baldassarri A, et al. Network properties of folksonomies [J]. AI Communications Journal, Special Issue on Network Analysis in Natural Sciences and Engineering, 2007, 20(4): 245-262.
[4] Cattuto C, Loreto V, Pietronero L. Semiotic dynamics and collaborative tagging [C]//Proceedings of the National Academy of Sciences, 2007(104): 1461-1464.
[5] Sheng hua B, Xian W. Optimizing web search using social annotations[C]//Proceedings of the 16th World Wide Web 2007. New York: ACM, 2007: 501-510.
[6] 靳延安,李瑞軒,文坤梅,等. 社會標(biāo)注及其在信息檢索中的應(yīng)用研究綜述[J]. 中文信息學(xué)報,2010,42(4): 52-62.
[7] 李志云.協(xié)同標(biāo)注研究及其在數(shù)字博物館中的應(yīng)用[J]. 計算機(jī)工程,2008,34(6): 221-223.
[8] 李宏言,范利春,高鵬,等. 大數(shù)據(jù)語音語料庫的社會標(biāo)注技術(shù)[J]. 清華大學(xué)學(xué)報(自然科學(xué)版),2014,53(6): 909-912.
[9] 百度百科. 群體智慧. [EB/OL]. http: / /baike.baidu.com/view /911476.Htm.2010-01-10.
[10] 維基百科. 群體智慧. [EB/OL]. http: / /zh.wikipedia.org/zh-cn/.Html,2010-01-10.
[11] Singh V K, Jalan R, Chaturvedi S K, et al A.K. Collective intelligence based computational approach to web intelligence [C]//Proceedings of 2009 International Conference on Web Information Systems and Mining, Shanghai, China, Nov 7-8, 2009.
[12] Lykourentzou I, Papadaki K, Vergados D J, et al. A self-regulating wiki to promote corporate collective intelligence through expert peermatching [J]. Information Science, 2010(180): 18-38.
[13] Chen X, Li W, Luo J, et al. Open geometry textbook: a case study of knowledge acquisition via collective intelligence [M]. Intelligent Computer Mathematics. Berlin Heidelberg.Springer, 2012: 432-437.
[14] Howe J. The rise of crowdsourcing[J]. Wired, 2006, 14(6): 176-183.
[15] Alag S. Collective intelligence in action [M]. New York: Manning, 2009.
[16] Doan A, Ramakrishnan R, Halevy A Y. Crowdsourcing systems on the world-wide web [J]. Communications of the ACM, 2011, 54(4): 86-96.
[17] Di Maio P. Making sense of collective intelligence [J]. Feedback, 2013(4): 6-22.
[18] 蘇寒,胡笑旋. 基于群體智慧的復(fù)雜問題決策模式[J]. 中國管理科學(xué),2012(20): 783-789.
[19] E. Decisions 2.0: the power of collective intelligence [J]. MIT Sloan Management Review Winner, 2009, 50(2): 45-52.
柯永紅(1981—),博士,講師,主要研究領(lǐng)域?yàn)樵~匯語義學(xué)、計算語言學(xué)。
E-mail: kyh@pku.edu.cn
俞士汶(1938—),教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橛嬎阏Z言學(xué)。
E-mail: yusw@pku.edu.cn
穗志方(1970—),教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橛嬎阏Z言學(xué)。
E-mail: szf@pku.edu.cn
Research on Corpus Annotation Method Based on Collective Intelligence
KE Yonghong1, YU Shiwen1, SUI Zhifang1, SONG Jihua2
(1. MOE Key Laboratory of Computational Linguistics, Peking University, Beijing 100871, China;2. College of Information Science and Technology, Beijing Normal University, Beijing 100875, China)
1003-0077(2017)04-0108-06
TP391
A