徐宸涵 顧宇浩 張志昊 褚曉敏 蔣 峰
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 蘇州 215006)
篇章分析是自然語言處理領(lǐng)域的一個重要研究方向。篇章分析的主要任務(wù)是對自然語言文本的內(nèi)在結(jié)構(gòu)和文本單元間的邏輯語義關(guān)聯(lián)進(jìn)行研究,從而挖掘出文本的結(jié)構(gòu)化和語義信息[1],為自然語言處理的應(yīng)用(如自動文摘[2~4]、機(jī)器翻譯[5~7]、信息抽?。?~9]、問答系統(tǒng)等[10])提供幫助。構(gòu)建一定規(guī)模的篇章結(jié)構(gòu)分析語料資源庫是進(jìn)行科學(xué)有效的篇章結(jié)構(gòu)分析的基礎(chǔ)。現(xiàn)有的篇章語料資源中,英文的主要包括賓州篇章樹庫(PDTB)[11]、修辭結(jié)構(gòu)理論篇章樹庫(RST-DT)等[12],中文的主要包括基于連接依存樹的漢語篇章樹庫(CDTB)[13]和借鑒RST標(biāo)注的漢語篇章語料庫(CJPL)[14]等。就中文語料來說,主要存在兩個問題。第一,絕對數(shù)量不足,相比英文語料的PDTB標(biāo)注的2304篇文章,CDTB由500個文檔組成,標(biāo)注了7310個關(guān)系,而CJPL僅完成了97篇篇章結(jié)構(gòu)標(biāo)注。第二,缺少篇章宏觀結(jié)構(gòu)語料,無論是哪一個中文語料庫都沒有篇章宏觀結(jié)構(gòu)語料資源。
宏觀篇章結(jié)構(gòu)標(biāo)注任務(wù)的起點(diǎn)為扁平的文章段落(圖1中P1~P6葉子);需要標(biāo)注的內(nèi)容為段落之間的關(guān)系(圖1中內(nèi)點(diǎn))和主次(圖1中的箭頭指向主要單元);標(biāo)注任務(wù)的終點(diǎn)為只有一個根的篇章結(jié)構(gòu)樹。此外在標(biāo)注過程中,同時需要產(chǎn)出每個段落的主題句、全文主題等輔助數(shù)據(jù)。
標(biāo)注任務(wù)要求標(biāo)注者對篇章的主旨和內(nèi)容有全面的理解。具體而言,標(biāo)注者需要首先自頂向下通讀文章,把握文章的整體結(jié)構(gòu),然后依據(jù)段落之間的相關(guān)性自底向上逐層組合,并判斷關(guān)系和主次,構(gòu)建上層結(jié)點(diǎn),并最終完成一棵完整的篇章結(jié)構(gòu)樹。
根據(jù)上述分析,開展?jié)h語篇章宏觀結(jié)構(gòu)語料標(biāo)注(以下簡稱“語料標(biāo)注”)是必要且緊迫的。然而,現(xiàn)有的語料批量標(biāo)注流程模式主要有兩種,即純手工標(biāo)注[15]和單機(jī)輔助標(biāo)注[16]。在純手工標(biāo)注流程中,標(biāo)注主體為各標(biāo)注小組,標(biāo)注工具為傳統(tǒng)的紙筆,管理方式為人工控制。標(biāo)注小組各成員首先分別對一份篇章結(jié)構(gòu)生語料進(jìn)行獨(dú)立標(biāo)注,接著通過組內(nèi)討論的形式對有疑問的部分進(jìn)行意見統(tǒng)一,并將一輪標(biāo)注工作計(jì)算的一致率和討論成果交由標(biāo)注小組負(fù)責(zé)人進(jìn)行抽樣交叉檢查,對存有疑問的篇章還要進(jìn)行組間討論。在單機(jī)輔助標(biāo)注流程中,標(biāo)注主體仍然為各標(biāo)注小組,標(biāo)注工具升級為單機(jī)輔助標(biāo)注程序。使用該程序,通過對篇章結(jié)構(gòu)生語料進(jìn)行導(dǎo)入、預(yù)處理、標(biāo)注、導(dǎo)出的標(biāo)準(zhǔn)流程操作,基本將手工獨(dú)立標(biāo)注的部分轉(zhuǎn)移至計(jì)算機(jī)。剩余標(biāo)注流程與純手工標(biāo)注基本一致。
結(jié)合以上兩種標(biāo)注模式可以發(fā)現(xiàn),篇章語料的篇幅長度、結(jié)構(gòu)復(fù)雜性、語義模糊性決定了語料標(biāo)注并不是單純的個人行為,而是綜合了個人行為、集體行為,并且嚴(yán)格遵循一套既定流程的、具有主觀性和特殊性的活動。開展這樣的活動僅依靠人力進(jìn)行流程控制有很大概率會在流程交接環(huán)節(jié)損失不小的效率,產(chǎn)生不可避免的主觀誤差,從而得到并不準(zhǔn)確的標(biāo)注成果評估。例如,小組進(jìn)行組內(nèi)、組間討論實(shí)際操作起來協(xié)作效率很差;對一輪標(biāo)注工作手工計(jì)算一致率時可能導(dǎo)致運(yùn)算失誤;將單機(jī)輔助標(biāo)注成果導(dǎo)入、導(dǎo)出計(jì)算機(jī)的過程同樣增加時間成本等。
針對以上問題,本文提出并實(shí)現(xiàn)了一種基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)(以下簡稱系統(tǒng)),它綜合了標(biāo)注流程控制、用戶管理、語料庫管理三大模塊,對篇章語料標(biāo)注流程的各個部分進(jìn)行了針對性的設(shè)計(jì)和系統(tǒng)性的優(yōu)化。部分系統(tǒng)效果圖見圖2~圖3。
基于本文設(shè)計(jì)的流程控制機(jī)制,該系統(tǒng)具有以下三種優(yōu)勢:第一,語料集中管理:將生語料以任務(wù)的形式進(jìn)行管理標(biāo)注入庫,并為每一任務(wù)狀態(tài)維護(hù)一個標(biāo)志以實(shí)現(xiàn)進(jìn)展跟蹤和自動控制。第二,系統(tǒng)權(quán)限分明:系統(tǒng)設(shè)立標(biāo)注員、審核員、管理員三角色,分權(quán)限分工協(xié)作,契合任務(wù)流程。第三,標(biāo)注過程易于控制:根據(jù)任務(wù)狀態(tài)準(zhǔn)確分配語料到各個角色,收集標(biāo)注成果數(shù)據(jù)及標(biāo)注流程中產(chǎn)生的行為數(shù)據(jù)優(yōu)化控制過程?;谏鲜鲈O(shè)計(jì),系統(tǒng)簡化了語料在各個環(huán)節(jié)的交接過程,極大增強(qiáng)了協(xié)作性,提高了標(biāo)注效率,減輕了工作負(fù)擔(dān)。
相比于微觀結(jié)構(gòu)標(biāo)注(如句法結(jié)構(gòu)等),宏觀篇章結(jié)構(gòu)標(biāo)注由于其需要閱讀的內(nèi)容多、結(jié)構(gòu)界限較為模糊等固有特點(diǎn),導(dǎo)致標(biāo)注者的標(biāo)注結(jié)果帶有更多的主觀成分,不易取得完全相同的看法。為了消除主觀性對標(biāo)注結(jié)果質(zhì)量的影響,需要在標(biāo)注流程上采取協(xié)同的方式,從多個標(biāo)注者的主觀結(jié)果中尋找共性和客觀性。另外,為了解決在標(biāo)注實(shí)踐中出現(xiàn)的語料版本混亂、結(jié)果無法溯源、進(jìn)度難以監(jiān)控等問題,減少不必要的麻煩,提高標(biāo)注效率,亟需一個中心化的標(biāo)注系統(tǒng)協(xié)調(diào)所有語料標(biāo)注參與者的合作。
圖4系統(tǒng)結(jié)構(gòu)與功能
圖4 為本文設(shè)計(jì)的標(biāo)注系統(tǒng)的總體結(jié)構(gòu)與提供的功能。該系統(tǒng)以標(biāo)注流程控制為核心,結(jié)合用戶管理和標(biāo)注后的語料成品庫子系統(tǒng),提供進(jìn)度監(jiān)控、協(xié)同標(biāo)注、版本控制等多種服務(wù),提高工作效率,以期加速語料庫的建設(shè)。嚴(yán)格遵循一套完整的標(biāo)注流程規(guī)范是該系統(tǒng)解決傳統(tǒng)標(biāo)注問題的基本思想。對使用傳統(tǒng)手工標(biāo)注的小組工作時間進(jìn)行統(tǒng)計(jì),獨(dú)立標(biāo)注效率約為6.9篇/時,小組討論效率約7.7篇/時[1],并且未包括數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)整合等中間步驟耗時。使用該系統(tǒng)進(jìn)行標(biāo)注,獨(dú)立標(biāo)注效率約為8.0篇/時,中間步驟耗時幾乎可以忽略,效率有了一個顯著的提升。
純手工標(biāo)注和單機(jī)輔助標(biāo)注要面臨的最大問題就是標(biāo)注流程復(fù)雜,包括人員的分配、標(biāo)注內(nèi)容的提交與審核、績效評定等,而將這些流程規(guī)范化、系統(tǒng)化是本系統(tǒng)的首要任務(wù)。
標(biāo)注流程控制設(shè)計(jì)是系統(tǒng)設(shè)計(jì)的核心,對生語料從上傳到標(biāo)注完成入庫進(jìn)行全面控制管理。流程分為生語料創(chuàng)建(包括生語料入批、人員分配)、標(biāo)注員標(biāo)注、一致性檢查及審核員審核、成果入庫幾個部分。
圖5為標(biāo)注流程示例,圖中包含了3位標(biāo)注員,實(shí)際標(biāo)注人數(shù)可以視情況調(diào)整標(biāo)注環(huán)節(jié)的人員數(shù)量。對單個生語料直接進(jìn)行管理過于精細(xì),管理操作瑣碎,通常,生語料以批的形式進(jìn)行標(biāo)注入庫,可按批次分配標(biāo)注員、審核員。由于標(biāo)注任務(wù)繁重,實(shí)際標(biāo)注過程采用分組的形式進(jìn)行工作,為了避免小組之間產(chǎn)生風(fēng)格差異,還需要進(jìn)行經(jīng)常性的組員輪換。
圖5 標(biāo)注流程的數(shù)據(jù)流轉(zhuǎn)
標(biāo)注進(jìn)度的監(jiān)控將由生語料和生語料批次(即任務(wù))狀態(tài)來描述。具體來說,在標(biāo)注開始時,一份新的生語料由管理員添加到一個任務(wù),并分配相應(yīng)的標(biāo)注員和審核員,此時這些生語料和任務(wù)都應(yīng)處于待標(biāo)注狀態(tài)。當(dāng)且僅當(dāng)一份生語料被分配到的所有標(biāo)注員都完成標(biāo)注,但未通過一致性檢查時,該份生語料改變?yōu)榇龑徍藸顟B(tài);當(dāng)且僅當(dāng)任務(wù)所屬的所有生語料沒有處于待標(biāo)注狀態(tài)時,任務(wù)改變?yōu)榇龑徍藸顟B(tài)。標(biāo)注完成的生語料通過了一致性檢查或?qū)徍藛T完成審核后,改變?yōu)橐淹瓿蔂顟B(tài);當(dāng)且僅當(dāng)任務(wù)所屬的所有生語料都處于已完成狀態(tài),任務(wù)改變?yōu)橐淹瓿蔂顟B(tài)。進(jìn)度監(jiān)控是實(shí)時的,對任務(wù)所屬生語料的增刪、標(biāo)注人員的增刪應(yīng)同步改變狀態(tài)。
標(biāo)注任務(wù)創(chuàng)建到完成的過程類似工廠的流水線,以確保數(shù)據(jù)的規(guī)范和可控。當(dāng)生語料進(jìn)入標(biāo)注流程控制,無論是標(biāo)注員還是審核員,在提交了成果后都不能再修改,保證語料庫中所有的語料都有溯源記錄,同時也實(shí)現(xiàn)了最低程度的版本控制。
根據(jù)上面的論述,設(shè)計(jì)的數(shù)據(jù)庫結(jié)構(gòu)如圖6所示,圖中省略了實(shí)體的標(biāo)識符主鍵屬性。中間結(jié)果表的主鍵為人員標(biāo)識符、任務(wù)批次、生語料標(biāo)識符,其中人員標(biāo)識符和任務(wù)批次是標(biāo)注分配表的復(fù)合外鍵,人員標(biāo)識符和生語料標(biāo)識符是語料分配表的復(fù)合外鍵,除此之外,還需通過存儲過程來保持中間結(jié)果為標(biāo)注分配和語料分配的笛卡爾積。狀態(tài)標(biāo)志用于跟蹤任務(wù)進(jìn)展和結(jié)果保護(hù)(例如當(dāng)入庫之后歷史記錄就不再允許改動),在存儲過程中自動維護(hù)、更新。
圖6 數(shù)據(jù)庫ER圖
通過這種設(shè)計(jì),可以實(shí)現(xiàn)對標(biāo)注各個環(huán)節(jié)的關(guān)鍵數(shù)據(jù)留檔備份,和對任務(wù)進(jìn)度的實(shí)時監(jiān)控。
如果需要在下一批次的任務(wù)中輪換小組成員,只需在新建的任務(wù)批次記錄中設(shè)置不同的人員即可,所以,小組人員組成的概念實(shí)際上被任務(wù)批次的人員分配取代,并且容易實(shí)現(xiàn)對不同的任務(wù)批次分配不同數(shù)量的標(biāo)注人員的需求。
對于多個標(biāo)注者標(biāo)注的不同結(jié)果,為發(fā)揮計(jì)算機(jī)的優(yōu)勢,在將不同標(biāo)注結(jié)果提交審核員之前,系統(tǒng)計(jì)算這些成果的一致性,來側(cè)面衡量標(biāo)注結(jié)果的客觀性,驗(yàn)證標(biāo)注質(zhì)量。一致率不足的需要提交審核員審核。一致率的計(jì)算公式如式(1)所示,式中A、B分別代表兩名標(biāo)注者。
為了避免偶然的標(biāo)注一致對指標(biāo)計(jì)算的干擾,還需使用式(2)進(jìn)行Kappa值的計(jì)算,式中P(A)表示標(biāo)注一致的比例,P(E)表示偶然一致的比例。
系統(tǒng)還實(shí)現(xiàn)了把已標(biāo)注的生語料退回流程重標(biāo)的需求,為此,一個關(guān)鍵的設(shè)計(jì)是將生語料與熟語料統(tǒng)一到兼容的格式定義中。篇章結(jié)構(gòu)的構(gòu)建是自底向上進(jìn)行的,在標(biāo)注過程中,生語料從多根的樹林轉(zhuǎn)變到單根的篇章結(jié)構(gòu)樹,因而根據(jù)此點(diǎn)設(shè)計(jì)出兼容生語料與熟語料的文件格式。
一個完整的標(biāo)注系統(tǒng)同時需要提供標(biāo)注、審核等工具,通過工具可以方便收集人員標(biāo)注過程的各種副產(chǎn)物數(shù)據(jù),如標(biāo)注時長等,可用于對標(biāo)注人員建立用戶畫像,這是手工管理不可能實(shí)現(xiàn)的。最后,系統(tǒng)還需要豐富的格式化轉(zhuǎn)換器以與其它系統(tǒng)一同工作。
用戶管理系統(tǒng)的設(shè)計(jì)充分考慮到了完整的標(biāo)注流程所涉及到的角色與權(quán)限,目標(biāo)是清晰區(qū)分標(biāo)注活動的參與者,便于標(biāo)注活動的管理,提高標(biāo)注效率。圍繞標(biāo)注流程控制設(shè)計(jì),在實(shí)現(xiàn)基礎(chǔ)的用戶創(chuàng)建、注銷等功能之上,系統(tǒng)為防止越級修改增設(shè)了權(quán)限控制功能,為對標(biāo)注活動進(jìn)行更好的檢測增設(shè)了績效評定服務(wù)。
權(quán)限控制分為動態(tài)權(quán)限控制和靜態(tài)權(quán)限控制兩方面。動態(tài)權(quán)限控制在標(biāo)注流程控制中已經(jīng)提到,即在存儲數(shù)據(jù)時使用人員標(biāo)識符作為中間結(jié)果的主鍵。靜態(tài)權(quán)限分成語料庫權(quán)限、用戶管理權(quán)限、使用格式化器的權(quán)限、生語料管理權(quán)限、任務(wù)管理權(quán)限五種共27個具體的權(quán)限。不同的角色擁有的權(quán)限大小有區(qū)別。一般地,標(biāo)注員和審核員禁止被賦予任務(wù)管理權(quán)限,管理員擁有大部分權(quán)限。
績效評定針對標(biāo)注員,依賴于標(biāo)注成果的統(tǒng)計(jì)和行為分析數(shù)據(jù)的收集。標(biāo)注成果統(tǒng)計(jì)較為直接,通過該標(biāo)注員已標(biāo)注的生語料數(shù)、通過一致性檢查概率等數(shù)值體現(xiàn)。由于本系統(tǒng)基于的流程控制的特性,部分從標(biāo)注行為中收集的數(shù)據(jù)也將影響績效評定,故將統(tǒng)計(jì)量羅列在此。對單個標(biāo)注員標(biāo)注單份生語料的流程,系統(tǒng)主要關(guān)注標(biāo)注總時間、正操作次數(shù)、反操作次數(shù)及最大間隔時間這四個數(shù)據(jù)量。
標(biāo)注總時間統(tǒng)計(jì)標(biāo)注員從進(jìn)入該份生語料的標(biāo)注頁面,到提交標(biāo)注成果離開之間的時間差。消除噪音數(shù)據(jù)后,一份生語料的標(biāo)注總時間明顯地與它的復(fù)雜程度呈正相關(guān)。標(biāo)注總時間將被計(jì)算入標(biāo)注員績效。
標(biāo)注員標(biāo)注一份生語料操作的次數(shù)與語料的復(fù)雜程度呈不嚴(yán)格的正相關(guān)。定義正操作次數(shù)為對建立一棵篇章結(jié)構(gòu)樹有促進(jìn)作用的操作,則正操作次數(shù)最后將得到粗略的對生語料的標(biāo)注起到促進(jìn)作用的操作次數(shù),或用于對一份生語料的篇幅長度和復(fù)雜程度進(jìn)行評估,得到相應(yīng)的反饋呈現(xiàn)給審核員。
標(biāo)注一份生語料主要包括了以下操作:選擇關(guān)系類型,選擇關(guān)聯(lián)子節(jié)點(diǎn)個數(shù),選擇中心數(shù),創(chuàng)建新的關(guān)系,刪除關(guān)系,修改邊的權(quán)重和回退操作。由于創(chuàng)建新的關(guān)系的前提是正確配置關(guān)系,因此正操作次數(shù)為避免重復(fù),僅將創(chuàng)建關(guān)系節(jié)點(diǎn)的操作以及修改任意邊的權(quán)重的操作計(jì)算在內(nèi)。刪除已創(chuàng)建節(jié)點(diǎn)和回退操作不計(jì)入正操作,也不扣除正操作次數(shù)。
與正操作數(shù)不同,負(fù)操作次數(shù)統(tǒng)計(jì)了標(biāo)注員在進(jìn)行篇章標(biāo)注時對解構(gòu)一棵篇章結(jié)構(gòu)樹有促進(jìn)作用的操作,包括已有關(guān)系節(jié)點(diǎn)的移除和回退操作。負(fù)操作次數(shù)直觀地給出了在一篇語料標(biāo)注的過程中標(biāo)注員認(rèn)為自己標(biāo)注錯誤的次數(shù),對評估該份生語料和負(fù)責(zé)此次標(biāo)注任務(wù)的標(biāo)注員的績效都能形成參考。
一份語料的標(biāo)注重心或難點(diǎn)能夠通過標(biāo)注的間隔時間有所體現(xiàn),因?yàn)橥ǔ碚f人思考得越久,就表明越不能很有把握得對此處如何標(biāo)注下結(jié)論。
間隔時間用來描述標(biāo)注員在篇章標(biāo)注過程中兩次操作的間隔。系統(tǒng)統(tǒng)計(jì)標(biāo)注員標(biāo)注一份生語料所進(jìn)行的所有操作中,間隔時間最長的若干操作,并對應(yīng)到這些操作所關(guān)聯(lián)的節(jié)點(diǎn)。另外,設(shè)置間隔時間閾值,對小于閾值的間隔時間的操作忽略,判定為正常標(biāo)注??紤]到人的思考習(xí)慣和標(biāo)注習(xí)慣不同,有些標(biāo)注員的標(biāo)注習(xí)慣是仔細(xì)考慮之后再操作,并不會出現(xiàn)太多增刪的二次操作,使用最大間隔時間能夠在一定程度上彌補(bǔ)正負(fù)操作次數(shù)的局限性。
隨著一份生語料任務(wù)被多個標(biāo)注員標(biāo)注,系統(tǒng)中行為數(shù)據(jù)會不斷豐富,在提交審核員審核時,系統(tǒng)將對不同標(biāo)注員的上述數(shù)據(jù)量進(jìn)行均值計(jì)算,最終向?qū)徍藛T提交該份語料的整體難度、標(biāo)注重點(diǎn)段落的提示,以幫助審核員快速定位審核重點(diǎn),提高審核效率。
語料庫管理系統(tǒng)最主要的功能是接收通過合法流程標(biāo)注完成的語料,并對其進(jìn)行管理。語料庫管理的方式如上文所述,以批的形式標(biāo)注入庫,同時保存帶有狀態(tài)標(biāo)記的中間結(jié)果。
為了協(xié)助標(biāo)注人員更好地進(jìn)行標(biāo)注,語料庫管理系統(tǒng)提供部分輔助統(tǒng)計(jì)組件,即篇章語料統(tǒng)計(jì)功能。
褚曉敏等提出[1],通過每個類別的篇章關(guān)系的數(shù)量以及主次關(guān)系,可以推斷某一類文章常用的篇章關(guān)系,以及常用寫作架構(gòu)。因此,系統(tǒng)參考建立了基本篇章語料統(tǒng)計(jì)功能,并實(shí)驗(yàn)性地進(jìn)行了一部分統(tǒng)計(jì),獲得了部分?jǐn)?shù)據(jù),而篇章語料統(tǒng)計(jì)分析數(shù)據(jù)對真實(shí)世界的反饋還有待進(jìn)一步研究。
篇章語料統(tǒng)計(jì)主要分為兩個部分:生語料數(shù)據(jù)庫和熟語料統(tǒng)計(jì)分析。其中,生語料數(shù)據(jù)庫主要為生語料標(biāo)注流程控制提供基本數(shù)據(jù),包括生語料索引表、任務(wù)分配表、審核表等。熟語料統(tǒng)計(jì)分析主要分析已通過審核員審核并入庫的已標(biāo)注語料,具體熟語料統(tǒng)計(jì)項(xiàng)見表1。
表1 熟語料統(tǒng)計(jì)條目
系統(tǒng)數(shù)據(jù)庫采用實(shí)時更新策略,當(dāng)標(biāo)注流程的終端審核員通過審核時,已標(biāo)注語料文件將被收錄至后端熟語料數(shù)據(jù)庫中,數(shù)據(jù)庫會根據(jù)熟語料統(tǒng)計(jì)項(xiàng),對新入庫熟語料進(jìn)行統(tǒng)計(jì)分析,并將結(jié)果更新。
熟語料數(shù)據(jù)庫中已有1200篇已標(biāo)注語料,其中共有6763個段落,最長段落為34段,最短段落為兩段,平均篇章段落數(shù)為5.64,篇章段落分布見圖7。
圖7 篇章段落分布
在篇章關(guān)系方面,并列類關(guān)系數(shù)量為2150個,占比44.12%;因果類關(guān)系數(shù)量為621個,占比12.74%;解說類關(guān)系數(shù)量為2102個,占比43.14%。具體關(guān)系及數(shù)量見表2。并列類關(guān)系和解說類關(guān)系數(shù)量相似,但因果類關(guān)系數(shù)量卻少許多,數(shù)據(jù)集存在不平衡。
表2 熟語料統(tǒng)計(jì)條目
在主次關(guān)系方面,主-次關(guān)系(PS)數(shù)量為3536個,占比72.56%;次-主關(guān)系(SP)數(shù)量為156個,占比3.20%;同等重要(EI)關(guān)系數(shù)量為1181,占比24.24%。具體關(guān)系類主次分布見表3。顯然數(shù)據(jù)集中存在不平衡。
表3 篇章關(guān)系中主次分布
同時統(tǒng)計(jì)了篇章以及段落功能語用,統(tǒng)計(jì)結(jié)果見表4。從數(shù)據(jù)來看,篇章語用以新聞報(bào)道和故事為主,段落語用以情景、補(bǔ)充和總述-導(dǎo)語為主,與已標(biāo)注語料中大部分為新聞報(bào)道語料的特征相符合。
表4 語用分布
本文針對手工標(biāo)注和單機(jī)輔助標(biāo)注漢語篇章宏觀結(jié)構(gòu)流程復(fù)雜、效率不高、標(biāo)注質(zhì)量欠缺的問題,提出一種基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)。它能夠通過本文設(shè)計(jì)的流程控制機(jī)制,消除了多余的可能產(chǎn)生誤差的中間環(huán)節(jié),提升了語料標(biāo)注質(zhì)量,減少了退回重標(biāo)的次數(shù),推動了宏觀篇章語料庫的建設(shè)。在接下來的工作中,本文將充分利用系統(tǒng)內(nèi)收集的標(biāo)注行為數(shù)據(jù),開發(fā)智能流程控制系統(tǒng),進(jìn)一步優(yōu)化語料標(biāo)注流程,提高標(biāo)注效率和準(zhǔn)確度,最終實(shí)現(xiàn)一個智能化流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)。