• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于流程控制的漢語篇章結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)*

    2022-01-15 06:24:12徐宸涵顧宇浩張志昊褚曉敏
    關(guān)鍵詞:審核員語料語料庫

    徐宸涵 顧宇浩 張志昊 褚曉敏 蔣 峰

    (蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 蘇州 215006)

    1 引言

    篇章分析是自然語言處理領(lǐng)域的一個重要研究方向。篇章分析的主要任務(wù)是對自然語言文本的內(nèi)在結(jié)構(gòu)和文本單元間的邏輯語義關(guān)聯(lián)進(jìn)行研究,從而挖掘出文本的結(jié)構(gòu)化和語義信息[1],為自然語言處理的應(yīng)用(如自動文摘[2~4]、機(jī)器翻譯[5~7]、信息抽?。?~9]、問答系統(tǒng)等[10])提供幫助。構(gòu)建一定規(guī)模的篇章結(jié)構(gòu)分析語料資源庫是進(jìn)行科學(xué)有效的篇章結(jié)構(gòu)分析的基礎(chǔ)。現(xiàn)有的篇章語料資源中,英文的主要包括賓州篇章樹庫(PDTB)[11]、修辭結(jié)構(gòu)理論篇章樹庫(RST-DT)等[12],中文的主要包括基于連接依存樹的漢語篇章樹庫(CDTB)[13]和借鑒RST標(biāo)注的漢語篇章語料庫(CJPL)[14]等。就中文語料來說,主要存在兩個問題。第一,絕對數(shù)量不足,相比英文語料的PDTB標(biāo)注的2304篇文章,CDTB由500個文檔組成,標(biāo)注了7310個關(guān)系,而CJPL僅完成了97篇篇章結(jié)構(gòu)標(biāo)注。第二,缺少篇章宏觀結(jié)構(gòu)語料,無論是哪一個中文語料庫都沒有篇章宏觀結(jié)構(gòu)語料資源。

    宏觀篇章結(jié)構(gòu)標(biāo)注任務(wù)的起點(diǎn)為扁平的文章段落(圖1中P1~P6葉子);需要標(biāo)注的內(nèi)容為段落之間的關(guān)系(圖1中內(nèi)點(diǎn))和主次(圖1中的箭頭指向主要單元);標(biāo)注任務(wù)的終點(diǎn)為只有一個根的篇章結(jié)構(gòu)樹。此外在標(biāo)注過程中,同時需要產(chǎn)出每個段落的主題句、全文主題等輔助數(shù)據(jù)。

    標(biāo)注任務(wù)要求標(biāo)注者對篇章的主旨和內(nèi)容有全面的理解。具體而言,標(biāo)注者需要首先自頂向下通讀文章,把握文章的整體結(jié)構(gòu),然后依據(jù)段落之間的相關(guān)性自底向上逐層組合,并判斷關(guān)系和主次,構(gòu)建上層結(jié)點(diǎn),并最終完成一棵完整的篇章結(jié)構(gòu)樹。

    根據(jù)上述分析,開展?jié)h語篇章宏觀結(jié)構(gòu)語料標(biāo)注(以下簡稱“語料標(biāo)注”)是必要且緊迫的。然而,現(xiàn)有的語料批量標(biāo)注流程模式主要有兩種,即純手工標(biāo)注[15]和單機(jī)輔助標(biāo)注[16]。在純手工標(biāo)注流程中,標(biāo)注主體為各標(biāo)注小組,標(biāo)注工具為傳統(tǒng)的紙筆,管理方式為人工控制。標(biāo)注小組各成員首先分別對一份篇章結(jié)構(gòu)生語料進(jìn)行獨(dú)立標(biāo)注,接著通過組內(nèi)討論的形式對有疑問的部分進(jìn)行意見統(tǒng)一,并將一輪標(biāo)注工作計(jì)算的一致率和討論成果交由標(biāo)注小組負(fù)責(zé)人進(jìn)行抽樣交叉檢查,對存有疑問的篇章還要進(jìn)行組間討論。在單機(jī)輔助標(biāo)注流程中,標(biāo)注主體仍然為各標(biāo)注小組,標(biāo)注工具升級為單機(jī)輔助標(biāo)注程序。使用該程序,通過對篇章結(jié)構(gòu)生語料進(jìn)行導(dǎo)入、預(yù)處理、標(biāo)注、導(dǎo)出的標(biāo)準(zhǔn)流程操作,基本將手工獨(dú)立標(biāo)注的部分轉(zhuǎn)移至計(jì)算機(jī)。剩余標(biāo)注流程與純手工標(biāo)注基本一致。

    結(jié)合以上兩種標(biāo)注模式可以發(fā)現(xiàn),篇章語料的篇幅長度、結(jié)構(gòu)復(fù)雜性、語義模糊性決定了語料標(biāo)注并不是單純的個人行為,而是綜合了個人行為、集體行為,并且嚴(yán)格遵循一套既定流程的、具有主觀性和特殊性的活動。開展這樣的活動僅依靠人力進(jìn)行流程控制有很大概率會在流程交接環(huán)節(jié)損失不小的效率,產(chǎn)生不可避免的主觀誤差,從而得到并不準(zhǔn)確的標(biāo)注成果評估。例如,小組進(jìn)行組內(nèi)、組間討論實(shí)際操作起來協(xié)作效率很差;對一輪標(biāo)注工作手工計(jì)算一致率時可能導(dǎo)致運(yùn)算失誤;將單機(jī)輔助標(biāo)注成果導(dǎo)入、導(dǎo)出計(jì)算機(jī)的過程同樣增加時間成本等。

    針對以上問題,本文提出并實(shí)現(xiàn)了一種基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)(以下簡稱系統(tǒng)),它綜合了標(biāo)注流程控制、用戶管理、語料庫管理三大模塊,對篇章語料標(biāo)注流程的各個部分進(jìn)行了針對性的設(shè)計(jì)和系統(tǒng)性的優(yōu)化。部分系統(tǒng)效果圖見圖2~圖3。

    基于本文設(shè)計(jì)的流程控制機(jī)制,該系統(tǒng)具有以下三種優(yōu)勢:第一,語料集中管理:將生語料以任務(wù)的形式進(jìn)行管理標(biāo)注入庫,并為每一任務(wù)狀態(tài)維護(hù)一個標(biāo)志以實(shí)現(xiàn)進(jìn)展跟蹤和自動控制。第二,系統(tǒng)權(quán)限分明:系統(tǒng)設(shè)立標(biāo)注員、審核員、管理員三角色,分權(quán)限分工協(xié)作,契合任務(wù)流程。第三,標(biāo)注過程易于控制:根據(jù)任務(wù)狀態(tài)準(zhǔn)確分配語料到各個角色,收集標(biāo)注成果數(shù)據(jù)及標(biāo)注流程中產(chǎn)生的行為數(shù)據(jù)優(yōu)化控制過程?;谏鲜鲈O(shè)計(jì),系統(tǒng)簡化了語料在各個環(huán)節(jié)的交接過程,極大增強(qiáng)了協(xié)作性,提高了標(biāo)注效率,減輕了工作負(fù)擔(dān)。

    2 基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)

    相比于微觀結(jié)構(gòu)標(biāo)注(如句法結(jié)構(gòu)等),宏觀篇章結(jié)構(gòu)標(biāo)注由于其需要閱讀的內(nèi)容多、結(jié)構(gòu)界限較為模糊等固有特點(diǎn),導(dǎo)致標(biāo)注者的標(biāo)注結(jié)果帶有更多的主觀成分,不易取得完全相同的看法。為了消除主觀性對標(biāo)注結(jié)果質(zhì)量的影響,需要在標(biāo)注流程上采取協(xié)同的方式,從多個標(biāo)注者的主觀結(jié)果中尋找共性和客觀性。另外,為了解決在標(biāo)注實(shí)踐中出現(xiàn)的語料版本混亂、結(jié)果無法溯源、進(jìn)度難以監(jiān)控等問題,減少不必要的麻煩,提高標(biāo)注效率,亟需一個中心化的標(biāo)注系統(tǒng)協(xié)調(diào)所有語料標(biāo)注參與者的合作。

    圖4系統(tǒng)結(jié)構(gòu)與功能

    圖4 為本文設(shè)計(jì)的標(biāo)注系統(tǒng)的總體結(jié)構(gòu)與提供的功能。該系統(tǒng)以標(biāo)注流程控制為核心,結(jié)合用戶管理和標(biāo)注后的語料成品庫子系統(tǒng),提供進(jìn)度監(jiān)控、協(xié)同標(biāo)注、版本控制等多種服務(wù),提高工作效率,以期加速語料庫的建設(shè)。嚴(yán)格遵循一套完整的標(biāo)注流程規(guī)范是該系統(tǒng)解決傳統(tǒng)標(biāo)注問題的基本思想。對使用傳統(tǒng)手工標(biāo)注的小組工作時間進(jìn)行統(tǒng)計(jì),獨(dú)立標(biāo)注效率約為6.9篇/時,小組討論效率約7.7篇/時[1],并且未包括數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)整合等中間步驟耗時。使用該系統(tǒng)進(jìn)行標(biāo)注,獨(dú)立標(biāo)注效率約為8.0篇/時,中間步驟耗時幾乎可以忽略,效率有了一個顯著的提升。

    3 標(biāo)注流程控制

    純手工標(biāo)注和單機(jī)輔助標(biāo)注要面臨的最大問題就是標(biāo)注流程復(fù)雜,包括人員的分配、標(biāo)注內(nèi)容的提交與審核、績效評定等,而將這些流程規(guī)范化、系統(tǒng)化是本系統(tǒng)的首要任務(wù)。

    標(biāo)注流程控制設(shè)計(jì)是系統(tǒng)設(shè)計(jì)的核心,對生語料從上傳到標(biāo)注完成入庫進(jìn)行全面控制管理。流程分為生語料創(chuàng)建(包括生語料入批、人員分配)、標(biāo)注員標(biāo)注、一致性檢查及審核員審核、成果入庫幾個部分。

    圖5為標(biāo)注流程示例,圖中包含了3位標(biāo)注員,實(shí)際標(biāo)注人數(shù)可以視情況調(diào)整標(biāo)注環(huán)節(jié)的人員數(shù)量。對單個生語料直接進(jìn)行管理過于精細(xì),管理操作瑣碎,通常,生語料以批的形式進(jìn)行標(biāo)注入庫,可按批次分配標(biāo)注員、審核員。由于標(biāo)注任務(wù)繁重,實(shí)際標(biāo)注過程采用分組的形式進(jìn)行工作,為了避免小組之間產(chǎn)生風(fēng)格差異,還需要進(jìn)行經(jīng)常性的組員輪換。

    圖5 標(biāo)注流程的數(shù)據(jù)流轉(zhuǎn)

    標(biāo)注進(jìn)度的監(jiān)控將由生語料和生語料批次(即任務(wù))狀態(tài)來描述。具體來說,在標(biāo)注開始時,一份新的生語料由管理員添加到一個任務(wù),并分配相應(yīng)的標(biāo)注員和審核員,此時這些生語料和任務(wù)都應(yīng)處于待標(biāo)注狀態(tài)。當(dāng)且僅當(dāng)一份生語料被分配到的所有標(biāo)注員都完成標(biāo)注,但未通過一致性檢查時,該份生語料改變?yōu)榇龑徍藸顟B(tài);當(dāng)且僅當(dāng)任務(wù)所屬的所有生語料沒有處于待標(biāo)注狀態(tài)時,任務(wù)改變?yōu)榇龑徍藸顟B(tài)。標(biāo)注完成的生語料通過了一致性檢查或?qū)徍藛T完成審核后,改變?yōu)橐淹瓿蔂顟B(tài);當(dāng)且僅當(dāng)任務(wù)所屬的所有生語料都處于已完成狀態(tài),任務(wù)改變?yōu)橐淹瓿蔂顟B(tài)。進(jìn)度監(jiān)控是實(shí)時的,對任務(wù)所屬生語料的增刪、標(biāo)注人員的增刪應(yīng)同步改變狀態(tài)。

    標(biāo)注任務(wù)創(chuàng)建到完成的過程類似工廠的流水線,以確保數(shù)據(jù)的規(guī)范和可控。當(dāng)生語料進(jìn)入標(biāo)注流程控制,無論是標(biāo)注員還是審核員,在提交了成果后都不能再修改,保證語料庫中所有的語料都有溯源記錄,同時也實(shí)現(xiàn)了最低程度的版本控制。

    根據(jù)上面的論述,設(shè)計(jì)的數(shù)據(jù)庫結(jié)構(gòu)如圖6所示,圖中省略了實(shí)體的標(biāo)識符主鍵屬性。中間結(jié)果表的主鍵為人員標(biāo)識符、任務(wù)批次、生語料標(biāo)識符,其中人員標(biāo)識符和任務(wù)批次是標(biāo)注分配表的復(fù)合外鍵,人員標(biāo)識符和生語料標(biāo)識符是語料分配表的復(fù)合外鍵,除此之外,還需通過存儲過程來保持中間結(jié)果為標(biāo)注分配和語料分配的笛卡爾積。狀態(tài)標(biāo)志用于跟蹤任務(wù)進(jìn)展和結(jié)果保護(hù)(例如當(dāng)入庫之后歷史記錄就不再允許改動),在存儲過程中自動維護(hù)、更新。

    圖6 數(shù)據(jù)庫ER圖

    通過這種設(shè)計(jì),可以實(shí)現(xiàn)對標(biāo)注各個環(huán)節(jié)的關(guān)鍵數(shù)據(jù)留檔備份,和對任務(wù)進(jìn)度的實(shí)時監(jiān)控。

    如果需要在下一批次的任務(wù)中輪換小組成員,只需在新建的任務(wù)批次記錄中設(shè)置不同的人員即可,所以,小組人員組成的概念實(shí)際上被任務(wù)批次的人員分配取代,并且容易實(shí)現(xiàn)對不同的任務(wù)批次分配不同數(shù)量的標(biāo)注人員的需求。

    對于多個標(biāo)注者標(biāo)注的不同結(jié)果,為發(fā)揮計(jì)算機(jī)的優(yōu)勢,在將不同標(biāo)注結(jié)果提交審核員之前,系統(tǒng)計(jì)算這些成果的一致性,來側(cè)面衡量標(biāo)注結(jié)果的客觀性,驗(yàn)證標(biāo)注質(zhì)量。一致率不足的需要提交審核員審核。一致率的計(jì)算公式如式(1)所示,式中A、B分別代表兩名標(biāo)注者。

    為了避免偶然的標(biāo)注一致對指標(biāo)計(jì)算的干擾,還需使用式(2)進(jìn)行Kappa值的計(jì)算,式中P(A)表示標(biāo)注一致的比例,P(E)表示偶然一致的比例。

    系統(tǒng)還實(shí)現(xiàn)了把已標(biāo)注的生語料退回流程重標(biāo)的需求,為此,一個關(guān)鍵的設(shè)計(jì)是將生語料與熟語料統(tǒng)一到兼容的格式定義中。篇章結(jié)構(gòu)的構(gòu)建是自底向上進(jìn)行的,在標(biāo)注過程中,生語料從多根的樹林轉(zhuǎn)變到單根的篇章結(jié)構(gòu)樹,因而根據(jù)此點(diǎn)設(shè)計(jì)出兼容生語料與熟語料的文件格式。

    一個完整的標(biāo)注系統(tǒng)同時需要提供標(biāo)注、審核等工具,通過工具可以方便收集人員標(biāo)注過程的各種副產(chǎn)物數(shù)據(jù),如標(biāo)注時長等,可用于對標(biāo)注人員建立用戶畫像,這是手工管理不可能實(shí)現(xiàn)的。最后,系統(tǒng)還需要豐富的格式化轉(zhuǎn)換器以與其它系統(tǒng)一同工作。

    4 用戶管理

    用戶管理系統(tǒng)的設(shè)計(jì)充分考慮到了完整的標(biāo)注流程所涉及到的角色與權(quán)限,目標(biāo)是清晰區(qū)分標(biāo)注活動的參與者,便于標(biāo)注活動的管理,提高標(biāo)注效率。圍繞標(biāo)注流程控制設(shè)計(jì),在實(shí)現(xiàn)基礎(chǔ)的用戶創(chuàng)建、注銷等功能之上,系統(tǒng)為防止越級修改增設(shè)了權(quán)限控制功能,為對標(biāo)注活動進(jìn)行更好的檢測增設(shè)了績效評定服務(wù)。

    權(quán)限控制分為動態(tài)權(quán)限控制和靜態(tài)權(quán)限控制兩方面。動態(tài)權(quán)限控制在標(biāo)注流程控制中已經(jīng)提到,即在存儲數(shù)據(jù)時使用人員標(biāo)識符作為中間結(jié)果的主鍵。靜態(tài)權(quán)限分成語料庫權(quán)限、用戶管理權(quán)限、使用格式化器的權(quán)限、生語料管理權(quán)限、任務(wù)管理權(quán)限五種共27個具體的權(quán)限。不同的角色擁有的權(quán)限大小有區(qū)別。一般地,標(biāo)注員和審核員禁止被賦予任務(wù)管理權(quán)限,管理員擁有大部分權(quán)限。

    績效評定針對標(biāo)注員,依賴于標(biāo)注成果的統(tǒng)計(jì)和行為分析數(shù)據(jù)的收集。標(biāo)注成果統(tǒng)計(jì)較為直接,通過該標(biāo)注員已標(biāo)注的生語料數(shù)、通過一致性檢查概率等數(shù)值體現(xiàn)。由于本系統(tǒng)基于的流程控制的特性,部分從標(biāo)注行為中收集的數(shù)據(jù)也將影響績效評定,故將統(tǒng)計(jì)量羅列在此。對單個標(biāo)注員標(biāo)注單份生語料的流程,系統(tǒng)主要關(guān)注標(biāo)注總時間、正操作次數(shù)、反操作次數(shù)及最大間隔時間這四個數(shù)據(jù)量。

    4.1 標(biāo)注總時間

    標(biāo)注總時間統(tǒng)計(jì)標(biāo)注員從進(jìn)入該份生語料的標(biāo)注頁面,到提交標(biāo)注成果離開之間的時間差。消除噪音數(shù)據(jù)后,一份生語料的標(biāo)注總時間明顯地與它的復(fù)雜程度呈正相關(guān)。標(biāo)注總時間將被計(jì)算入標(biāo)注員績效。

    4.2 正操作次數(shù)

    標(biāo)注員標(biāo)注一份生語料操作的次數(shù)與語料的復(fù)雜程度呈不嚴(yán)格的正相關(guān)。定義正操作次數(shù)為對建立一棵篇章結(jié)構(gòu)樹有促進(jìn)作用的操作,則正操作次數(shù)最后將得到粗略的對生語料的標(biāo)注起到促進(jìn)作用的操作次數(shù),或用于對一份生語料的篇幅長度和復(fù)雜程度進(jìn)行評估,得到相應(yīng)的反饋呈現(xiàn)給審核員。

    標(biāo)注一份生語料主要包括了以下操作:選擇關(guān)系類型,選擇關(guān)聯(lián)子節(jié)點(diǎn)個數(shù),選擇中心數(shù),創(chuàng)建新的關(guān)系,刪除關(guān)系,修改邊的權(quán)重和回退操作。由于創(chuàng)建新的關(guān)系的前提是正確配置關(guān)系,因此正操作次數(shù)為避免重復(fù),僅將創(chuàng)建關(guān)系節(jié)點(diǎn)的操作以及修改任意邊的權(quán)重的操作計(jì)算在內(nèi)。刪除已創(chuàng)建節(jié)點(diǎn)和回退操作不計(jì)入正操作,也不扣除正操作次數(shù)。

    4.3 負(fù)操作次數(shù)

    與正操作數(shù)不同,負(fù)操作次數(shù)統(tǒng)計(jì)了標(biāo)注員在進(jìn)行篇章標(biāo)注時對解構(gòu)一棵篇章結(jié)構(gòu)樹有促進(jìn)作用的操作,包括已有關(guān)系節(jié)點(diǎn)的移除和回退操作。負(fù)操作次數(shù)直觀地給出了在一篇語料標(biāo)注的過程中標(biāo)注員認(rèn)為自己標(biāo)注錯誤的次數(shù),對評估該份生語料和負(fù)責(zé)此次標(biāo)注任務(wù)的標(biāo)注員的績效都能形成參考。

    4.4 最大間隔時間

    一份語料的標(biāo)注重心或難點(diǎn)能夠通過標(biāo)注的間隔時間有所體現(xiàn),因?yàn)橥ǔ碚f人思考得越久,就表明越不能很有把握得對此處如何標(biāo)注下結(jié)論。

    間隔時間用來描述標(biāo)注員在篇章標(biāo)注過程中兩次操作的間隔。系統(tǒng)統(tǒng)計(jì)標(biāo)注員標(biāo)注一份生語料所進(jìn)行的所有操作中,間隔時間最長的若干操作,并對應(yīng)到這些操作所關(guān)聯(lián)的節(jié)點(diǎn)。另外,設(shè)置間隔時間閾值,對小于閾值的間隔時間的操作忽略,判定為正常標(biāo)注??紤]到人的思考習(xí)慣和標(biāo)注習(xí)慣不同,有些標(biāo)注員的標(biāo)注習(xí)慣是仔細(xì)考慮之后再操作,并不會出現(xiàn)太多增刪的二次操作,使用最大間隔時間能夠在一定程度上彌補(bǔ)正負(fù)操作次數(shù)的局限性。

    隨著一份生語料任務(wù)被多個標(biāo)注員標(biāo)注,系統(tǒng)中行為數(shù)據(jù)會不斷豐富,在提交審核員審核時,系統(tǒng)將對不同標(biāo)注員的上述數(shù)據(jù)量進(jìn)行均值計(jì)算,最終向?qū)徍藛T提交該份語料的整體難度、標(biāo)注重點(diǎn)段落的提示,以幫助審核員快速定位審核重點(diǎn),提高審核效率。

    5 語料庫管理

    語料庫管理系統(tǒng)最主要的功能是接收通過合法流程標(biāo)注完成的語料,并對其進(jìn)行管理。語料庫管理的方式如上文所述,以批的形式標(biāo)注入庫,同時保存帶有狀態(tài)標(biāo)記的中間結(jié)果。

    為了協(xié)助標(biāo)注人員更好地進(jìn)行標(biāo)注,語料庫管理系統(tǒng)提供部分輔助統(tǒng)計(jì)組件,即篇章語料統(tǒng)計(jì)功能。

    褚曉敏等提出[1],通過每個類別的篇章關(guān)系的數(shù)量以及主次關(guān)系,可以推斷某一類文章常用的篇章關(guān)系,以及常用寫作架構(gòu)。因此,系統(tǒng)參考建立了基本篇章語料統(tǒng)計(jì)功能,并實(shí)驗(yàn)性地進(jìn)行了一部分統(tǒng)計(jì),獲得了部分?jǐn)?shù)據(jù),而篇章語料統(tǒng)計(jì)分析數(shù)據(jù)對真實(shí)世界的反饋還有待進(jìn)一步研究。

    篇章語料統(tǒng)計(jì)主要分為兩個部分:生語料數(shù)據(jù)庫和熟語料統(tǒng)計(jì)分析。其中,生語料數(shù)據(jù)庫主要為生語料標(biāo)注流程控制提供基本數(shù)據(jù),包括生語料索引表、任務(wù)分配表、審核表等。熟語料統(tǒng)計(jì)分析主要分析已通過審核員審核并入庫的已標(biāo)注語料,具體熟語料統(tǒng)計(jì)項(xiàng)見表1。

    表1 熟語料統(tǒng)計(jì)條目

    系統(tǒng)數(shù)據(jù)庫采用實(shí)時更新策略,當(dāng)標(biāo)注流程的終端審核員通過審核時,已標(biāo)注語料文件將被收錄至后端熟語料數(shù)據(jù)庫中,數(shù)據(jù)庫會根據(jù)熟語料統(tǒng)計(jì)項(xiàng),對新入庫熟語料進(jìn)行統(tǒng)計(jì)分析,并將結(jié)果更新。

    熟語料數(shù)據(jù)庫中已有1200篇已標(biāo)注語料,其中共有6763個段落,最長段落為34段,最短段落為兩段,平均篇章段落數(shù)為5.64,篇章段落分布見圖7。

    圖7 篇章段落分布

    在篇章關(guān)系方面,并列類關(guān)系數(shù)量為2150個,占比44.12%;因果類關(guān)系數(shù)量為621個,占比12.74%;解說類關(guān)系數(shù)量為2102個,占比43.14%。具體關(guān)系及數(shù)量見表2。并列類關(guān)系和解說類關(guān)系數(shù)量相似,但因果類關(guān)系數(shù)量卻少許多,數(shù)據(jù)集存在不平衡。

    表2 熟語料統(tǒng)計(jì)條目

    在主次關(guān)系方面,主-次關(guān)系(PS)數(shù)量為3536個,占比72.56%;次-主關(guān)系(SP)數(shù)量為156個,占比3.20%;同等重要(EI)關(guān)系數(shù)量為1181,占比24.24%。具體關(guān)系類主次分布見表3。顯然數(shù)據(jù)集中存在不平衡。

    表3 篇章關(guān)系中主次分布

    同時統(tǒng)計(jì)了篇章以及段落功能語用,統(tǒng)計(jì)結(jié)果見表4。從數(shù)據(jù)來看,篇章語用以新聞報(bào)道和故事為主,段落語用以情景、補(bǔ)充和總述-導(dǎo)語為主,與已標(biāo)注語料中大部分為新聞報(bào)道語料的特征相符合。

    表4 語用分布

    6 結(jié)語

    本文針對手工標(biāo)注和單機(jī)輔助標(biāo)注漢語篇章宏觀結(jié)構(gòu)流程復(fù)雜、效率不高、標(biāo)注質(zhì)量欠缺的問題,提出一種基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)。它能夠通過本文設(shè)計(jì)的流程控制機(jī)制,消除了多余的可能產(chǎn)生誤差的中間環(huán)節(jié),提升了語料標(biāo)注質(zhì)量,減少了退回重標(biāo)的次數(shù),推動了宏觀篇章語料庫的建設(shè)。在接下來的工作中,本文將充分利用系統(tǒng)內(nèi)收集的標(biāo)注行為數(shù)據(jù),開發(fā)智能流程控制系統(tǒng),進(jìn)一步優(yōu)化語料標(biāo)注流程,提高標(biāo)注效率和準(zhǔn)確度,最終實(shí)現(xiàn)一個智能化流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)。

    猜你喜歡
    審核員語料語料庫
    《語料庫翻譯文體學(xué)》評介
    論提升收銀審核員崗位職責(zé)意識的方法策略
    如何提升收銀審核員的崗位職責(zé)意識
    魅力中國(2019年17期)2019-01-12 20:41:41
    你是否知道審核員的十條規(guī)則?
    中國纖檢(2017年4期)2017-05-15 23:24:20
    把課文的優(yōu)美表達(dá)存進(jìn)語料庫
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    上海質(zhì)量體系審核中心招聘啟事
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    《苗防備覽》中的湘西語料
    19禁男女啪啪无遮挡网站| cao死你这个sao货| 最近最新中文字幕大全免费视频| 亚洲欧美一区二区三区黑人| 亚洲国产av新网站| 久久国产亚洲av麻豆专区| 精品福利观看| avwww免费| 国产伦人伦偷精品视频| 国产国语露脸激情在线看| 久久午夜综合久久蜜桃| 亚洲欧美日韩另类电影网站| kizo精华| 亚洲av国产av综合av卡| 久久久国产一区二区| 天天躁日日躁夜夜躁夜夜| 亚洲全国av大片| 精品人妻熟女毛片av久久网站| 麻豆av在线久日| 国产男人的电影天堂91| 男人爽女人下面视频在线观看| 免费黄频网站在线观看国产| 免费观看av网站的网址| 亚洲国产欧美在线一区| 成人国产一区最新在线观看| 亚洲精品国产精品久久久不卡| 国产色视频综合| 男女高潮啪啪啪动态图| 久久 成人 亚洲| 色婷婷久久久亚洲欧美| 国产亚洲精品一区二区www | 欧美精品人与动牲交sv欧美| 两性夫妻黄色片| 18在线观看网站| 女警被强在线播放| 爱豆传媒免费全集在线观看| 日韩中文字幕视频在线看片| av又黄又爽大尺度在线免费看| 国产免费福利视频在线观看| 男女下面插进去视频免费观看| 视频在线观看一区二区三区| 国产精品成人在线| 免费女性裸体啪啪无遮挡网站| 俄罗斯特黄特色一大片| 免费观看人在逋| 69av精品久久久久久 | 老鸭窝网址在线观看| 大香蕉久久成人网| 国产成人一区二区三区免费视频网站| 国产成人欧美在线观看 | 国产男女超爽视频在线观看| 最新的欧美精品一区二区| 热99re8久久精品国产| 人人妻人人添人人爽欧美一区卜| 999久久久精品免费观看国产| 久久亚洲精品不卡| 久久精品国产亚洲av香蕉五月 | 免费观看av网站的网址| 波多野结衣一区麻豆| 熟女少妇亚洲综合色aaa.| 午夜福利视频精品| 丰满饥渴人妻一区二区三| 免费黄频网站在线观看国产| 亚洲精品粉嫩美女一区| 久久人妻福利社区极品人妻图片| 日韩欧美免费精品| 中国美女看黄片| 别揉我奶头~嗯~啊~动态视频 | 国产日韩欧美视频二区| 乱人伦中国视频| 美女中出高潮动态图| 免费在线观看完整版高清| 午夜福利在线免费观看网站| 精品福利永久在线观看| 麻豆国产av国片精品| 大码成人一级视频| 亚洲色图综合在线观看| 色老头精品视频在线观看| 狠狠精品人妻久久久久久综合| 成年人免费黄色播放视频| 国产欧美日韩综合在线一区二区| 一本大道久久a久久精品| 亚洲欧美色中文字幕在线| 51午夜福利影视在线观看| 日韩中文字幕视频在线看片| 麻豆乱淫一区二区| 高清视频免费观看一区二区| 国产成人一区二区三区免费视频网站| 五月天丁香电影| avwww免费| 亚洲一码二码三码区别大吗| 国产精品 国内视频| 一级a爱视频在线免费观看| 丰满饥渴人妻一区二区三| 人人妻,人人澡人人爽秒播| www.av在线官网国产| 香蕉国产在线看| 波多野结衣一区麻豆| 欧美国产精品一级二级三级| 美国免费a级毛片| 999久久久精品免费观看国产| 80岁老熟妇乱子伦牲交| 男女免费视频国产| 老司机午夜十八禁免费视频| 欧美日韩亚洲国产一区二区在线观看 | 一级片免费观看大全| 日本一区二区免费在线视频| 国产日韩一区二区三区精品不卡| 咕卡用的链子| 午夜激情av网站| av在线app专区| www.av在线官网国产| 嫁个100分男人电影在线观看| 亚洲免费av在线视频| 久久国产亚洲av麻豆专区| 超碰97精品在线观看| 久久人人97超碰香蕉20202| 午夜免费观看性视频| 丝袜美腿诱惑在线| 这个男人来自地球电影免费观看| 精品熟女少妇八av免费久了| 高清av免费在线| 黑人欧美特级aaaaaa片| 99九九在线精品视频| 亚洲专区国产一区二区| 在线观看人妻少妇| 国产一区二区三区综合在线观看| 亚洲av日韩在线播放| 国产熟女午夜一区二区三区| 18禁观看日本| 在线永久观看黄色视频| 国产av精品麻豆| 一区二区三区精品91| 婷婷丁香在线五月| 午夜91福利影院| 欧美日韩亚洲高清精品| 80岁老熟妇乱子伦牲交| 国产成人精品久久二区二区91| 久久久精品国产亚洲av高清涩受| 人人妻人人爽人人添夜夜欢视频| 欧美性长视频在线观看| 啦啦啦视频在线资源免费观看| 丁香六月欧美| av电影中文网址| 国产成人精品久久二区二区免费| 日韩 亚洲 欧美在线| 国产亚洲精品一区二区www | 亚洲五月婷婷丁香| 日本猛色少妇xxxxx猛交久久| 一边摸一边做爽爽视频免费| 19禁男女啪啪无遮挡网站| 亚洲国产av影院在线观看| 国产精品熟女久久久久浪| 他把我摸到了高潮在线观看 | 久久热在线av| 亚洲伊人色综图| 久久99一区二区三区| 国产精品一区二区在线不卡| 人人妻,人人澡人人爽秒播| 成年美女黄网站色视频大全免费| 精品第一国产精品| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲色图 男人天堂 中文字幕| 一级毛片精品| 美女午夜性视频免费| 又大又爽又粗| 亚洲专区字幕在线| 在线观看免费视频网站a站| 免费高清在线观看视频在线观看| 天天躁日日躁夜夜躁夜夜| 在线观看一区二区三区激情| 欧美精品一区二区免费开放| 又黄又粗又硬又大视频| 国产精品久久久人人做人人爽| 一区二区三区精品91| 亚洲成人手机| 在线永久观看黄色视频| 亚洲免费av在线视频| 狂野欧美激情性bbbbbb| 在线观看免费视频网站a站| 国产免费福利视频在线观看| 日韩大片免费观看网站| 久久99热这里只频精品6学生| 97精品久久久久久久久久精品| 国产亚洲精品第一综合不卡| 黄色视频不卡| 亚洲精品久久久久久婷婷小说| 日本猛色少妇xxxxx猛交久久| 免费日韩欧美在线观看| 日本91视频免费播放| 国产在线免费精品| 一区在线观看完整版| 久久综合国产亚洲精品| 日韩 亚洲 欧美在线| 日韩精品免费视频一区二区三区| 亚洲精品中文字幕一二三四区 | 国产精品免费大片| 麻豆乱淫一区二区| 国产免费福利视频在线观看| 日日摸夜夜添夜夜添小说| 亚洲第一av免费看| 国产欧美日韩综合在线一区二区| 99热全是精品| 久久精品国产亚洲av高清一级| 精品第一国产精品| 午夜福利视频在线观看免费| 麻豆av在线久日| 欧美中文综合在线视频| 亚洲一区中文字幕在线| 欧美在线黄色| 大陆偷拍与自拍| bbb黄色大片| 啦啦啦中文免费视频观看日本| 水蜜桃什么品种好| 欧美精品高潮呻吟av久久| 性高湖久久久久久久久免费观看| 久9热在线精品视频| 色视频在线一区二区三区| 亚洲精品久久久久久婷婷小说| 久久午夜综合久久蜜桃| 在线观看一区二区三区激情| 精品国产一区二区久久| 久久久精品区二区三区| 电影成人av| 男男h啪啪无遮挡| 国产真人三级小视频在线观看| 久久精品成人免费网站| 欧美人与性动交α欧美软件| 性高湖久久久久久久久免费观看| 男女国产视频网站| 乱人伦中国视频| 亚洲精品久久久久久婷婷小说| 在线观看舔阴道视频| 国产免费av片在线观看野外av| 精品国产一区二区久久| 国产成人欧美| 中亚洲国语对白在线视频| 国产免费一区二区三区四区乱码| 亚洲久久久国产精品| 可以免费在线观看a视频的电影网站| 国产精品久久久久久精品古装| 久久中文字幕一级| 黑人欧美特级aaaaaa片| 午夜福利一区二区在线看| 久久免费观看电影| 夫妻午夜视频| 午夜91福利影院| 丁香六月天网| 俄罗斯特黄特色一大片| 99久久精品国产亚洲精品| 精品国产国语对白av| 国产精品影院久久| 黑丝袜美女国产一区| 久久久久久亚洲精品国产蜜桃av| 王馨瑶露胸无遮挡在线观看| 国产在线一区二区三区精| 国产精品自产拍在线观看55亚洲 | 久久久国产欧美日韩av| 久久人妻福利社区极品人妻图片| 婷婷丁香在线五月| 一区二区三区激情视频| 久久久久久久久久久久大奶| 午夜91福利影院| 亚洲久久久国产精品| 亚洲精品国产一区二区精华液| 每晚都被弄得嗷嗷叫到高潮| 欧美日韩亚洲综合一区二区三区_| 黑丝袜美女国产一区| 亚洲精品美女久久av网站| 日韩大码丰满熟妇| 91麻豆av在线| 欧美激情久久久久久爽电影 | 精品国内亚洲2022精品成人 | 国产精品偷伦视频观看了| 亚洲欧美日韩高清在线视频 | 欧美av亚洲av综合av国产av| 69av精品久久久久久 | 亚洲成人手机| 啦啦啦免费观看视频1| 满18在线观看网站| 一区二区三区乱码不卡18| 精品人妻熟女毛片av久久网站| www.精华液| 极品少妇高潮喷水抽搐| 操出白浆在线播放| 欧美日韩亚洲高清精品| 亚洲天堂av无毛| 久热爱精品视频在线9| 久久人妻熟女aⅴ| 91精品伊人久久大香线蕉| 亚洲国产精品999| 大片电影免费在线观看免费| 亚洲第一av免费看| 一本色道久久久久久精品综合| 欧美 日韩 精品 国产| 这个男人来自地球电影免费观看| 日韩 亚洲 欧美在线| 国产亚洲精品久久久久5区| 国产99久久九九免费精品| 日韩欧美一区视频在线观看| 最新在线观看一区二区三区| 日韩欧美国产一区二区入口| av福利片在线| 久久久久久久大尺度免费视频| 亚洲精品久久久久久婷婷小说| 成年人午夜在线观看视频| 亚洲人成77777在线视频| 黄色怎么调成土黄色| 亚洲视频免费观看视频| 国产高清videossex| 国产成人系列免费观看| 成人国语在线视频| 97在线人人人人妻| 少妇人妻久久综合中文| 伊人久久大香线蕉亚洲五| 成人手机av| 黄色视频在线播放观看不卡| 天天操日日干夜夜撸| 在线观看舔阴道视频| 国产一区二区激情短视频 | 国产成人精品在线电影| 国产成人精品久久二区二区免费| 久久久国产精品麻豆| 我的亚洲天堂| 在线精品无人区一区二区三| 天堂8中文在线网| 91麻豆精品激情在线观看国产 | 久久久久精品人妻al黑| 欧美精品av麻豆av| 欧美变态另类bdsm刘玥| 伦理电影免费视频| 他把我摸到了高潮在线观看 | 亚洲精品一卡2卡三卡4卡5卡 | 亚洲国产欧美网| 亚洲精品国产精品久久久不卡| 国产成人av激情在线播放| 91麻豆精品激情在线观看国产 | 大香蕉久久网| 日日爽夜夜爽网站| 性高湖久久久久久久久免费观看| 男男h啪啪无遮挡| 黄色视频不卡| 91精品伊人久久大香线蕉| 欧美日本中文国产一区发布| 黄色怎么调成土黄色| 亚洲av美国av| 看免费av毛片| 亚洲国产日韩一区二区| 亚洲 欧美一区二区三区| 一本一本久久a久久精品综合妖精| 欧美少妇被猛烈插入视频| h视频一区二区三区| 狂野欧美激情性xxxx| 国产在线一区二区三区精| 日韩有码中文字幕| 国产深夜福利视频在线观看| 国产成人一区二区三区免费视频网站| 乱人伦中国视频| 国产成人av教育| 18禁观看日本| 老司机午夜十八禁免费视频| 日本五十路高清| 国产精品秋霞免费鲁丝片| 嫩草影视91久久| 国产成人av教育| 成年av动漫网址| 国产国语露脸激情在线看| 狠狠精品人妻久久久久久综合| 亚洲欧美一区二区三区黑人| a级毛片黄视频| 99国产精品一区二区蜜桃av | 久久 成人 亚洲| 亚洲精品粉嫩美女一区| 精品少妇内射三级| 国产成人精品在线电影| 美女福利国产在线| 一个人免费在线观看的高清视频 | 国产精品二区激情视频| 伦理电影免费视频| 人人妻人人爽人人添夜夜欢视频| 精品国产乱子伦一区二区三区 | netflix在线观看网站| 久久女婷五月综合色啪小说| 午夜福利影视在线免费观看| 久久99一区二区三区| 女性被躁到高潮视频| 亚洲精品中文字幕一二三四区 | 美女中出高潮动态图| 2018国产大陆天天弄谢| 欧美黑人精品巨大| 精品一区在线观看国产| 久久亚洲国产成人精品v| www.熟女人妻精品国产| 国产精品免费视频内射| 欧美精品高潮呻吟av久久| 丝袜在线中文字幕| 亚洲成av片中文字幕在线观看| 90打野战视频偷拍视频| 老司机午夜十八禁免费视频| 丁香六月欧美| 天天躁夜夜躁狠狠躁躁| 亚洲激情五月婷婷啪啪| 欧美乱码精品一区二区三区| 1024香蕉在线观看| 国产区一区二久久| 精品国产超薄肉色丝袜足j| 最近中文字幕2019免费版| 久久国产精品人妻蜜桃| 国产日韩欧美在线精品| 久9热在线精品视频| 亚洲一区中文字幕在线| 成人免费观看视频高清| 黑人猛操日本美女一级片| 国产野战对白在线观看| 日本av免费视频播放| 午夜福利影视在线免费观看| 亚洲久久久国产精品| 日本猛色少妇xxxxx猛交久久| a级毛片黄视频| 亚洲精品成人av观看孕妇| 女人久久www免费人成看片| 午夜激情久久久久久久| 午夜视频精品福利| 男女下面插进去视频免费观看| av国产精品久久久久影院| 在线观看免费视频网站a站| 菩萨蛮人人尽说江南好唐韦庄| 激情视频va一区二区三区| 黄片播放在线免费| 国产真人三级小视频在线观看| 女警被强在线播放| 亚洲中文字幕日韩| 久久99一区二区三区| 美女福利国产在线| 亚洲男人天堂网一区| 一本色道久久久久久精品综合| 午夜视频精品福利| 18在线观看网站| 欧美日韩av久久| 香蕉丝袜av| 国产1区2区3区精品| 美女高潮喷水抽搐中文字幕| 午夜成年电影在线免费观看| 日韩一区二区三区影片| 搡老熟女国产l中国老女人| 一区二区日韩欧美中文字幕| 精品国产一区二区久久| 国产视频一区二区在线看| 久久精品人人爽人人爽视色| √禁漫天堂资源中文www| 999久久久精品免费观看国产| 免费观看av网站的网址| 国产精品一区二区免费欧美 | 桃红色精品国产亚洲av| 超碰成人久久| 性高湖久久久久久久久免费观看| 成人18禁高潮啪啪吃奶动态图| 亚洲第一av免费看| 精品一区二区三区四区五区乱码| 亚洲成人免费电影在线观看| 欧美在线一区亚洲| 夜夜骑夜夜射夜夜干| 久久国产精品大桥未久av| 亚洲 欧美一区二区三区| 人人妻人人爽人人添夜夜欢视频| 欧美久久黑人一区二区| 亚洲av日韩精品久久久久久密| 日日夜夜操网爽| 亚洲成av片中文字幕在线观看| 午夜成年电影在线免费观看| 青春草视频在线免费观看| 午夜成年电影在线免费观看| 十八禁网站免费在线| 国产免费一区二区三区四区乱码| 人成视频在线观看免费观看| 天堂俺去俺来也www色官网| 中文字幕人妻熟女乱码| 国产亚洲av片在线观看秒播厂| 日本猛色少妇xxxxx猛交久久| 久久亚洲国产成人精品v| 国产1区2区3区精品| 国产伦人伦偷精品视频| 国产日韩欧美视频二区| 亚洲欧美成人综合另类久久久| 国产精品久久久av美女十八| 国产高清国产精品国产三级| 国产三级黄色录像| 五月天丁香电影| 亚洲五月婷婷丁香| 午夜免费成人在线视频| 法律面前人人平等表现在哪些方面 | 免费在线观看黄色视频的| 男女午夜视频在线观看| 精品一区在线观看国产| 女性生殖器流出的白浆| 亚洲va日本ⅴa欧美va伊人久久 | 91麻豆av在线| 久久久国产欧美日韩av| 国产成人免费观看mmmm| 欧美+亚洲+日韩+国产| 亚洲天堂av无毛| 美女视频免费永久观看网站| 国产精品成人在线| 国产日韩欧美视频二区| 久久久久国内视频| 欧美成人午夜精品| 亚洲精品久久久久久婷婷小说| 97精品久久久久久久久久精品| 亚洲黑人精品在线| 男人爽女人下面视频在线观看| 51午夜福利影视在线观看| 在线观看舔阴道视频| 人人妻人人澡人人爽人人夜夜| 啦啦啦在线免费观看视频4| 国产欧美日韩精品亚洲av| 久久国产精品人妻蜜桃| 国产一卡二卡三卡精品| 国产人伦9x9x在线观看| 热99久久久久精品小说推荐| 免费av中文字幕在线| 国产一区二区三区在线臀色熟女 | 亚洲欧美激情在线| 视频在线观看一区二区三区| 精品少妇一区二区三区视频日本电影| 国产黄频视频在线观看| 成人av一区二区三区在线看 | 午夜精品国产一区二区电影| 18禁黄网站禁片午夜丰满| 久久久久久人人人人人| 最新的欧美精品一区二区| 欧美精品亚洲一区二区| 国产免费福利视频在线观看| 日韩免费高清中文字幕av| 亚洲中文av在线| 一区二区三区四区激情视频| 成年人免费黄色播放视频| 亚洲 欧美一区二区三区| 黄片小视频在线播放| 熟女少妇亚洲综合色aaa.| 亚洲第一av免费看| 大片电影免费在线观看免费| 精品视频人人做人人爽| 法律面前人人平等表现在哪些方面 | 久久中文字幕一级| 我要看黄色一级片免费的| 日本a在线网址| 色婷婷久久久亚洲欧美| 国产成人精品久久二区二区91| 丝袜脚勾引网站| 久久天躁狠狠躁夜夜2o2o| 精品少妇一区二区三区视频日本电影| 久久久久国内视频| 久久久精品区二区三区| 亚洲色图 男人天堂 中文字幕| 久久久久久人人人人人| 国产国语露脸激情在线看| www.自偷自拍.com| 国产麻豆69| 极品少妇高潮喷水抽搐| 两人在一起打扑克的视频| 午夜精品国产一区二区电影| 亚洲人成电影免费在线| 12—13女人毛片做爰片一| 麻豆国产av国片精品| 亚洲精品国产av蜜桃| 日韩制服骚丝袜av| 日韩制服丝袜自拍偷拍| 夜夜夜夜夜久久久久| 国产成人系列免费观看| 亚洲精品国产一区二区精华液| 两个人免费观看高清视频| 免费av中文字幕在线| 国产伦理片在线播放av一区| 国产成人av激情在线播放| 美女高潮到喷水免费观看| 99久久综合免费| 免费女性裸体啪啪无遮挡网站| a级毛片黄视频| 最新的欧美精品一区二区| 婷婷成人精品国产| 国产精品秋霞免费鲁丝片| 波多野结衣av一区二区av| 亚洲国产中文字幕在线视频| 18禁国产床啪视频网站| 青青草视频在线视频观看| 亚洲精品粉嫩美女一区| 99九九在线精品视频| 99re6热这里在线精品视频| 男女边摸边吃奶| av免费在线观看网站| 亚洲激情五月婷婷啪啪| 亚洲精品一卡2卡三卡4卡5卡 | 亚洲国产av影院在线观看| 欧美av亚洲av综合av国产av| √禁漫天堂资源中文www| 国产伦理片在线播放av一区| 脱女人内裤的视频| 天天添夜夜摸| 欧美国产精品va在线观看不卡| 视频在线观看一区二区三区| 自线自在国产av| 老司机福利观看| 91麻豆精品激情在线观看国产 | 建设人人有责人人尽责人人享有的| 亚洲一卡2卡3卡4卡5卡精品中文| 女人高潮潮喷娇喘18禁视频| 国产精品免费大片| 亚洲成av片中文字幕在线观看| 亚洲成人手机| 亚洲一码二码三码区别大吗| 国产视频一区二区在线看| 在线观看免费午夜福利视频| 91成人精品电影| 伦理电影免费视频| 岛国毛片在线播放|