• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于規(guī)則的依存樹庫錯誤自動檢測與分析

    2016-10-12 08:31:11史林林邱立坤亢世勇
    北京大學學報(自然科學版) 2016年1期
    關鍵詞:兼類結點句法

    史林林 邱立坤 亢世勇

    ?

    基于規(guī)則的依存樹庫錯誤自動檢測與分析

    史林林 邱立坤?亢世勇

    魯東大學文學院, 煙臺264025; ?通信作者, E-mail: qiulikun@pku.edu.cn

    嘗試將依存樹轉化為短語結構樹, 并基于規(guī)則的方法自動檢測出人工標注結果中的錯誤。將該方法應用于已經過兩遍人工校對的北京大學多視圖依存樹庫, 從50275個句法樹中發(fā)現1529處錯誤, 正確率為100%。進一步, 所有錯誤可以分為3個層次: 分詞錯誤、詞性與句法角色不符、句法角色錯標。該方法可以有效提高依存樹庫的質量, 并且適用于各類型的依存樹庫。

    樹庫; 詞性; 句法角色; 錯誤檢測

    樹庫是在分詞和詞性標注的基礎上, 對句子中詞與詞之間句法關系進行標注所形成的語料庫。近年來, 樹庫作為訓練和評價統(tǒng)計句法分析器的數據基礎, 越來越受到研究者的重視[1]。在用于訓練統(tǒng)計句法分析器時, 樹庫質量對句法分析器效果有較大影響, 因此提高樹庫質量是一個重要的研究課題。目前已有較多學者探索使用統(tǒng)計方法自動檢測人工標注的樹庫中存在的錯誤[2–5]。此類方法用于輔助人工進行第二遍校對, 在一定程度上可以降低工作量, 提高工作效率。經過兩遍人工校對后的樹庫仍然可能存在一定的錯誤, 其中有許多是因為詞性和句法兩個層面標注不協(xié)調造成的, 也可能是標注人員偶然誤操作導致的。本文把經過兩遍人工校對后的依存樹庫作為處理對象, 試圖找出人工標注結果中的錯誤, 進一步提高樹庫質量。

    本文提出一種基于產生式規(guī)則的錯誤檢測方法, 其基本原理是從依存樹轉換到短語結構樹時, 如果生成短語功能范疇失敗, 則通常是因為依存樹標注錯誤導致。Rambow[6]認為, 短語結構樹和依存樹只是兩種不同的句法表現形式, 在表達能力上并沒有高下之分: 一般地, 短語結構樹中標注有短語功能范疇標記和層次信息, 依存樹中標注有中心語和語法角色信息; 但事實上在短語結構樹中也可以標注中心語和語法角色信息, 在依存樹中也可以標注短語功能范疇標記和層次信息。如果在其中任何一種形式的句法樹中同時標注了中心語、語法角色、層次和短語功能范疇標記信息, 則一定可以無歧義地向另一種句法樹轉換。本文主要考察從常規(guī)依存樹生成常規(guī)短語結構樹中的短語功能范疇的過程, 并在這一過程中基于產生式規(guī)則自動檢測出人工標注錯誤, 進而對錯誤進行分析, 給出各類型錯誤的分布。本文方法在理論上適用于各種類型的依存樹庫, 但是在具體實施時需要為所處理的依存樹庫構建一套產生式規(guī)則, 這套規(guī)則涉及詞性、依存關系類型和短語功能范疇。

    1 基于短語功能推導的錯誤檢測

    1.1 短語功能的可推導性

    對于短語整體功能的可推導性, 漢語學界很早就有過討論。朱德熙[7]提出: “內部構造相同的結構, 功能一般相同; 功能相同的結構, 內部構造不一定相同”。陳保亞[8]則將之總結為結構功能原則, “如果兩個言語片斷的直接成分功能相同, 結構關系相同, 它們的功能也相同”。“這個規(guī)律叫做結構功能原則。根據這一原則, 只要知道了直接成分的功能和結構關系, 結構功能就知道了”。換言之, 如果已知具有依存關系的兩個詞的詞類以及它們之間語法關系的類型, 就可以推導出這兩個詞所構成的短語的整體功能。

    按照結構功能原則, 推導短語整體功能時, 每一步都需要知道直接成分的功能。依存樹中只有詞的功能標記, 沒有短語的功能標記, 但通過遞歸的方式, 可以依次獲得各短語直接成分的功能標記。

    本文使用短語功能標記作為推導的目標標記, 推導短語整體功能的規(guī)則為: 父結點詞類+子結點詞類+語法角色→短語整體功能標記。比如“v+n+VOB→VP”表示父結點詞類為動詞(v)、子結點詞類為名詞(n)、子結點充當父結點的賓語(VOB), 則整個短語的功能類型為動詞性短語VP。

    1.2 依存句法體系

    本文中采用北京大學多視圖依存樹庫(Peking University Multi-view Chinese Treebank, PMT)[9]的詞性體系和依存句法體系。該詞性體系對北京大學2003版詞性標記集[10]進行簡化, 包含33個詞性標記, 如名詞(n)、動詞(v)、形容詞(a)、副詞(d)、狀態(tài)詞(z)、介詞(p)、連詞(c)、助詞(u)、數詞(m)、處所詞(s)、人名(nr)、標點符號(w)等; 依存句法體系中定義了30種句法角色, 如表1所示。

    表1 PMT依存句法標記集

    1.3 推導規(guī)則集的建立

    每個推導規(guī)則可以分為條件和結論兩部分, 例如“v+n+VOB→VP”這一規(guī)則的條件是“v+n+ VOB”, 結論是“VP”。因此, 推導規(guī)則集的建立分為如下兩個部分。

    1)條件庫的自動抽取。給定一個人工檢查過的樹庫, 可以很容易地將所有可能的條件抽取出來。具體步驟為: 遍歷樹庫中每一棵樹, 對樹中的每一條弧, 獲取父結點詞性、子結點詞性和子結點的依存標簽, 將三者連接成一個字符串, 即可生成一個條件, 將條件存儲到條件庫中即可。

    2)人工填寫結論。條件庫中的條件可能存在錯誤, 因此需要進行人工審核。在審核時, 將所有條件按照頻次降序排列, 然后一一判斷。如果認為條件可靠, 則為之添加一個結論(即短語功能標簽); 否則, 將之剔除。

    表2中列出一些高頻的推導規(guī)則作為示例。

    表2 推導規(guī)則示例

    1.4 錯誤自動檢測

    使用前面建立的推導規(guī)則, 可以自動地生成短語結構語法樹所需要的短語功能。如果所遇到的條件是推導規(guī)則中所沒有的, 系統(tǒng)將會認為是一個人工標注錯誤。具體流程如下。

    遍歷每一棵依存樹:

    遍歷每一個結點:

    假定子結點詞性為Pc, 父結點詞性為Ph, 子結點依存關系標簽為R, 通過字符串連接可得到條件“Ph+Pc+R”

    檢索規(guī)則庫中的條件部分:

    如果檢索成功, 則繼續(xù)處理

    如果檢索失敗, 則簡化條件, 將父結點詞性和子結點依存關系標簽連接成條件“Ph+R”, 重新檢索:

    如果檢索成功, 則繼續(xù)處理

    如果檢索失敗, 則將父結點記為人工標注錯誤

    如上所述, 在檢測過程中, 我們在嚴格條件匹配失敗的情況下放松了條件, 使系統(tǒng)對于訓練數據中沒有出現過的條件也能夠匹配, 具有一定的適應能力; 同時也確保錯誤檢測的高正確率。需要說明的是, 如果僅使用嚴格條件匹配, 則可以檢測出更多的人工標注錯誤, 但相應的正確率會降低。

    2 實驗及分析

    2.1 實驗結果

    本文實驗數據為北京大學多視圖依存樹庫中的新聞樹庫[9]。樹庫文本來自人民日報1998年1月份前10天語料(共計14000余句)和2000年1月份全部語料(總計50000多個句子)。在建立規(guī)則庫時, 使用1998年1月份樹庫, 測試時使用2000年1月份樹庫。所有樹庫均經過兩遍校對。

    在建立規(guī)則庫時, 自動抽取的條件數為2279, 經過人工檢測后是843條規(guī)則。被剔除的條件中, 有一些是因為頻次較低且可以被其他規(guī)則所覆蓋, 有一些屬于錯誤標注。

    基于該規(guī)則庫, 使用上述檢測方法, 從測試數據中檢測出1529處錯誤, 正確率為100% (自動檢測出的錯誤經人工判定均為真正的錯誤)。進一步分析發(fā)現, 標注錯誤可以分為詞語切分、詞性標注和句法標注3個層次, 每個層次又有若干個小類。各類錯誤的分布如表3所示。

    表3 錯誤類型及所占比例

    2.2 分詞錯誤

    漢語書面表達方式以漢字作為最小單位, 詞與詞之間沒有空格或其他分隔標記, 因此詞語切分成為漢語文本處理中首先要解決的問題。自動詞語切分中主要的難題是分詞歧義消解和未登錄詞識別。本文在檢測樹庫標注錯誤過程中發(fā)現, 有一些句法標注錯誤是由詞語切分不當所引起的。此類型錯誤共有57處, 占總數的3.70%, 具體又分為組合型歧義和姓名處理不當兩類。

    2.2.1 組合型歧義

    詞語切分歧義一般分為兩種: 交集型歧義和組合型歧義。對于交集型歧義, 可根據字段內部提供的信息或以句法為主的局部上下文信息解決。對于組合型歧義, 切與不切, 導致分詞不同, 詞性不同, 語義不同, 如圖1所示。

    “就是”合在一起, 有助詞、副詞、連詞3個詞性; 分開后, 則為兩個詞“就/d 是/v”, 是狀中結構。圖1中, “就是”顯然為兩個詞, 這樣整個句子才會有一個謂語中心, 有一個根節(jié)點。從依存樹向短語結構樹轉換時, 由于規(guī)則庫中不存在“d+v+ VOB”(父結點為“就是”, 其詞性為d; 子結點為“堅持”, 其詞性為v; 子結點句法關系標注為VOB, 即賓語)這一條件, 檢索失敗; 放松條件后檢索“d+VOB”, 仍然失敗。沒有能夠生成相應短語的功能范疇, 系統(tǒng)中直接顯示出父結點的詞性“d”(即副詞), 進而將之判斷為一個標注錯誤。樹庫中類似詞語包括“就是”、“還是”、“才能”、“只有”等, 在人工校對中, 應根據語境信息判斷該合還是該分。

    2.2.2 姓名處理不當

    在PMT標注體系中, 姓與名應合成一個詞。實際語料中有少數姓名標注不當, 造成錯誤, 如例1中的“廉頗”, 作為人名, 應合在一起(為方便起見, 以下例句中用“P”標識目標詞的父節(jié)點)。

    例1 盛澤田/nr “/w [廉/a_ATT ] [頗/d_SBV] 未/d [老/a_P] ”/w

    2.3 詞性與句法角色標記不符

    非兼類詞在切分的同時一般就可以確定其詞性, 兼類詞的詞性則需要依據上下文語境予以判斷。因此, 詞性標注導致的句法標注錯誤主要由兼類詞詞性標注不當所導致。此類型錯誤有925處, 占總數的60.50%, 包含5種類型: 時間詞與句法角色不符, 動詞與句法角色不符, 形容詞與句法角色不符, 介詞與句法角色不符, 成語、簡稱、習用語處理不當。

    2.3.1 時間詞與句法角色不符

    時間詞可做狀語, 與副詞有類似的語法功能?!巴凇敝浮巴粫r期”, 除做狀語外, 還可以做賓語、定語, 所以作為時間詞更合適?!巴凇卞e標為副詞, 當它充當介詞賓語時就會形成“p+d+POB”這樣的不合法條件, 導致向短語結構樹的轉換失敗,如例2。

    例2 [比/p_P] 上年/t [同期/d_POB] 增加/v 11.1%/m

    2.3.2 動詞與句法角色不符

    1)動詞錯標為介詞。

    在現代漢語中, 單音介詞幾乎都是從動詞發(fā)展而來的, 單音介詞與動詞之間有來源關系和大量的兼類現象[11]。語言是動態(tài)的, 在變化與發(fā)展過程中, 部分動詞虛化為介詞。在虛化過程中, 有的詞虛化比較徹底, 完全失去動詞的意義和功能, 成為典型介詞; 有的還沒有失去動詞性, 有時表現為動詞功能, 有時表現為介詞功能, 這部分詞屬于動介兼類詞。因此在標注動介兼類詞時, 往往難以抉擇, 如例3。

    例3 俄新社/nt 把/p 這/r 篇/q 談話/n 作為/v 獨家/n新聞/n [提供/v_P] [給/p_CMP] 了/u 《/w匈牙利/ns 民族/n 報/n》/w。/w

    動詞的4個特征: ①能用“不”或“沒”否定, ②能帶賓語, ③能帶動態(tài)助詞“著、了、過”, ④能重疊。介詞保存了動詞的前兩個特征, 失去后兩個特征[12]。因此, 判斷動詞和介詞時, 能加動態(tài)助詞或者重疊的是動詞, 反之是介詞。同時, 動詞可單獨使用, 單獨做謂語。例3中, “給”后有時態(tài)助詞“了”, 所以應標注為動詞v。否則, 就會出現介詞與助詞“了”搭配的條件, 導致轉換失敗。

    2)動詞錯標為副詞。

    此類現象包含兩種情況: 一種是“沒有(沒)”, 動詞和副詞的區(qū)分有誤, 如例4; 一種是理解判別錯誤, 將動詞標為副詞, 如例5。

    例4 桃仙/ns 機場/n 已經/d [沒有/d_P] 因/p 飛機/n 延誤/v 滯留/v 的/u [旅客/n_VOB]。/w

    例5 我/v [決心/d_P] 把/p 我/r 的/u 后半生/n [貢獻/v_VOB] 給/p 我國/r的/u 科學/n 事業(yè)/n。/w

    “沒有(沒)”是動副兼類詞。否定人物或事情的存在時是動詞, 否定動作或性狀的存在時是副詞。例4中“沒有”用于否定人物“游客”, 因此應為動詞。例5這種情況, 屬于誤標。

    2.3.3 形容詞與句法角色不符

    郭銳[13]提出用“很[不]~〈賓〉”格式把形容詞和能受“很”修飾的動詞區(qū)分開。然而一些詞既可以帶真賓語(端正態(tài)度), 也可以受“很”修飾, 不適用于“很[不]~〈賓〉”格式。這些詞帶真賓語時體現的是“使動”意義, 應看做詞本身的意義。由于詞義不同, 受“很”修飾和帶真賓語時應看做不同的詞, 處理為形容詞和動詞的兼類詞。

    能否帶真賓語則是形容詞和動詞區(qū)分的標準。自動檢測中, 會將形容詞后帶賓語的情況當做錯誤。這種情況下, 又分為兩種類型: 一是動形兼類, 將動詞標為形容詞, 卻帶賓語, 如例6的“落后”; 二是形容詞詞性正確, 但直接帶了賓語, 如例7。

    例6 在/p 8/m 分鐘/q 時間/n 里/f 將/p 比分/n 追/v 成/v 45:46/m,/w僅/d [落后/a_P] 一/m [分/q_VOB]

    例7 江蘇/ns 玻璃廠/n 的/u 產品/n [走俏/ a_P] [市場/n_VOB]

    2.3.4 介詞與句法角色不符

    1)介詞錯標為連詞。

    介詞和連詞均為虛詞: 介詞用在詞或短語的前面, 構成一個介賓結構, 表示時間、地點、方法、原因等關系; 連詞用來連接詞語或短語, 表示聯(lián)合關系或從屬關系?!耙颉奔鎸俳樵~和連詞, 二者意義上有聯(lián)系, 屬于兼類詞。在實際標注時, 容易判別錯誤, 如例8。

    例8 人們/n [因/c_ADV] 這個/r“/w新/a千年/t ”/w而/c [漾/v_P] 起/v無限/z遐思/n 。/w

    “因”在后接名詞或名詞短語時往往充當介詞, 所構成的介賓結構充當狀語成分。上述例子中“因”后接名詞短語“新千年”, 所以應為介詞。

    2)介詞錯標為副詞。

    漢語中存在少量介副兼類詞, 比如“將”, 需要根據句法功能和語境小心判斷, 如例9。

    例9 [將/d_P] 通過/p 資本/n 市場/n 得到/v的/u [資金/n_POB] ,/w集中/a用于/v集團/n戰(zhàn)略/n發(fā)展/v 產業(yè)/n

    “將”為副詞時, 表示將要; 作為介詞時, 用于引介跟謂詞有關的受事。例9中, “將”引介跟“用于”有關的“資金”。

    2.3.5 成語、簡稱、習用語處理不當

    北京大學2003版詞性標記集中有成語、簡稱、習用語的獨立詞性標記, 但PMT體系中依據語法功能將它們歸入相應的詞類, 即名歸名, 動歸動。成語、簡稱和習用語不是根據句法功能劃分出來的詞類。由于人民日報語料庫中存在一些沒有標注小類的成語、簡稱和習用語, 在進行詞性簡化時也無法將之歸入相應的詞類, 因此在進行句法樹轉換時會導致轉換錯誤, 如例10, 11和12。這類錯誤也是數量最多的錯誤類型, 有529處, 占34.6%。

    例10 效果/n 更/d [是/v_P] 如湯沃雪/i一般/a

    例11 清華/n 、/w 北大/n 、/w對外經貿大/j

    、/w首師大/j 等/u 大多數/m 高校/n 也/d [成立/ v_P] 相關/n 領導/n 小組/n

    例12 失業(yè)/n人員/n 只要/c[不挑不揀/l_P],/w保證/v 隨時/d 提供/v 就業(yè)/n 崗位/n

    例10成語“如湯沃雪”應歸入動詞, 例11簡稱“對外經貿大”和“首師大”應歸入名詞, 例12習用語“不挑不揀”則應歸入動詞。

    以上5種類型是詞性與句法角色不符的錯誤, 經過分析可以得知: 除去誤標情況外, 兼類詞最易引起分歧和錯誤, 比如動介兼類、動形兼類、介連兼類等, 所以, 在詞性標注時應注重兼類詞的判別。其次是未處理成語、習用語和簡稱, 導致出現錯誤, 此種錯誤較容易發(fā)現和改正。如果準確地分析和判別兼類詞, 恰當地處理成語、習用語和簡稱, 仔細地排除誤標情況, 那么依存樹庫中自動檢測出的錯誤就會減少很多。

    2.4 詞性正確, 錯標句法角色

    2.3節(jié)中找到的錯誤是詞性不正確導致的句法角色不符。在自動檢測中, 還有一種錯誤, 即詞性正確但句法角色標注錯誤。此類型錯誤有547處, 占總數的35.80%。

    2.4.1 動賓結構錯標為介賓結構

    動賓結構和介賓結構是兩個區(qū)分度較大的結構, 并且語料中已有正確的動詞詞性, 但標注人員在進行句法標注時忽略了詞性, 因此容易將動詞賓語VOB標記成介賓POB, 如例13和14。

    例13 [隸屬/v_P] 以色列/ns [工黨/n_POB]的/u [羅賓什坦/nr_P]

    例14 未/d [經/v_P] 醫(yī)師/n [注冊/v_POB] 取得/v執(zhí)業(yè)/n證書/n

    例13中的“工黨”和例14中的“注冊”, 實際上是“隸屬”和“經”的賓語VOB, 但被標為介詞賓語POB。這類現象是標注時忽略詞性造成的。

    2.4.2 數詞修飾動詞錯標為數字

    數詞通常跟量詞組成數量短語, 然后再做句法成分。但在新聞中領導人講話時, 會出現“數字+動詞”, 這是強調關于動詞的幾方面內容, 應為狀語, 而不是簡單地標為數字, 如例15。

    例15 [四/m_NUM] 到位/v —/w思想/n 到位/v 、/w感情/n到位/v 、/w工作/v 到位/v 、/w服務/v 到位/v

    2.4.3 連詞句法角色錯標為狀語

    根據PMT句法標注體系, 連詞標為前附加LAD。上文中提到, 介連兼類時, 標注人員容易混淆二者的語法角色。但是, 此類現象并不是因為詞性標注錯誤產生的, 反而是因為忽略詞性而導致前附加LAD錯標為ADV, 如例16。

    例16 從未/d[因/c_ADV] 接受/v 饋贈/v 而/ c向/p 蘇魯希/nr [提供/v_P] 任何/r 方便/n

    2.4.4 數量補語(QUC)錯標

    數量結構有4種語法角色標記: 直接修飾名詞, 在名詞前面, 做數量短語(QUN); 充當名詞的補充成分, 在名詞后面, 通常定語后置時, 做數量補語(QUC); 直接充當謂語動詞的右側子節(jié)點標記, 為補語(CMP); 充當表示變化(包括增加、減少、改變)詞的賓語(VOB)。4種語法角色易混淆, 特別是數量補語和補語的情況, 如例17。

    例17 煤礦/n 企業(yè)/n 工資/n 基金/n 平均/a [保持/v_P] 節(jié)余/v 6/m 個/q [月/n_QUC]

    數量補語和補語補充說明的對象不同, 數量補語針對的是名詞, 而補語針對謂語動詞。因此, 例17中“6個月”應作為“保持”的補語。

    2.4.5 狀中結構與述賓結構混淆

    狀中結構中的修飾語跟中心語會形成種種的語義關系, 其中一種表示描寫性的, 表示動作的變化或情狀的變化, 可以有兩種形式表示: “V(A)+V”和“V(A)地+V”。述賓結構前后是支配與被支配、關涉與被關涉的關系。述語主要由及物動詞充當, 少數由形容詞充當, 賓語一般是體詞或體詞性短語, 也可以是謂詞、謂詞性短語。這樣兩種結構都有“V(A)+V”形式, 導致判斷時出現錯誤, 如例18。

    例18 對/p 那些/r [堅決/a_P] [貫徹/v_VOB] 黨/n 的/u 路線/n 方針/n 政策/n 的/u 干部/n

    2.5 小結

    上述錯誤均為使用本文提出的方法處理已經過兩遍人工校對的樹庫時自動檢測出來的, 可歸為兩類。一是句法標注所依據的分詞和詞性標注結果有誤。句法標注工作是基于已有的分詞和詞性標注結果進行的, 因此這部分錯誤不屬于句法標注過程產生的錯誤。但是, 通過本文的方法將這些錯誤檢測出來, 有助于進一步提升樹庫的質量。二是在進行句法標注時沒有考慮詞性與語法角色之間的選擇限制關系, 憑主觀感覺標注語法角色。在進行句法標注時, 要將詞性和語法角色作為一個整體, 既要看詞性, 又要考慮與之相對應的語法角色, 做到詞類和句法成分的一致。

    3 相關工作

    在依存樹向短語結構樹轉化方面, Xia等[14]對比了3種轉化算法, 僅區(qū)分了論元和修飾語, 而沒有使用依存范疇。Xia等[15]假設一個既定的依存樹與所期望的短語結構樹的平面化版本相同, 進而提出依存樹向短語結構樹轉化的算法, 并且設計了一系列轉化規(guī)則。他們在錯誤分析中發(fā)現并列結構和標點的錯誤占轉化錯誤的32.1%。Bhatt等[16]2011年提出3種依存樹向短語結構樹轉化的情景分析, Bhatt等[17]2012年進一步討論了轉化中的7種空語類現象。

    4 結語

    本文提出一種基于產生式規(guī)則的依存樹庫人工標注錯誤檢測方法, 以經過兩遍人工校對的依存樹庫為處理對象, 取得100%的正確率。由于樹庫已經過兩遍人工校對, 存在的錯誤較少, 因此該方法所檢測出來的錯誤數量較少, 但這些錯誤涉及分詞、詞性標注結果與句法標注之間的不協(xié)調現象, 均屬于硬傷, 修改這些錯誤對于提高樹庫質量具有重要意義。該方法適用于各類型依存樹庫。

    [1]Abeillé A. Treebanks: building and using parsed corpora. Dordrecht: Kluwer Academic Publishers, 2003

    [2]Ambati B, Agarwal R, Gupta M, et al. Error detection for treebank validation // The 9th International work-shop on Asian Language Resources (ALR). Chiang Mai, 2011: 23–30

    [3]Volokh A, Neumann G. Automatic detection and correction of errors in dependency tree-banks // Proceedings of the 49th ACL: Short Papers—Volume 2. Stroudsburg, PA, 2011: 346–350

    [4]Agarwal R, Ambati B, Sharma D. A hybrid approach to error detection in a treebank and its impact on manual validation time // Linguistic Issues in Langu-age Technology. Palo Alto, CA, 2012, 7(1): 1–12

    [5]Agrawal B, Agarwal R, Husain S, et al. An automatic approach to treebank error detection using a depend-ency parser // Lecture Notes in Computer Science. Berlin: Springer, 2013: 294–303

    [6]Rambow O. The simple truth about dependency and phrase structure representations // HLT-NAACL. Los Angeles, 2010: 337–340

    [7]朱德熙. 語法講義. 北京: 商務印刷館, 2003

    [8]陳保亞. 20世紀中國語言學方法論. 山東: 山東教育出版社, 1999

    [9]Qiu Likun, Zhang Yue, Jin Peng, et al. Multi-view Chinese treebanking // Proceedings of COLING. Dublin, 2014: 257–268

    [10]俞士汶, 段慧明, 朱學鋒, 等. 北大語料庫加工規(guī)范: 切分·詞類標注·注音. 漢語語言與計算學報, 2003, 13(2): 121–158

    [11]馬貝加. 在漢語歷時分析中如何區(qū)分動詞和介詞. 中國語文, 2003(1): 59-65

    [12]石毓智, 李訥. 漢語語法化的歷程. 北京: 北京大學出版社, 2001

    [13]郭銳. 現代漢語詞類研究. 北京: 商務印刷館, 2002

    [14]Xia Fei, Palmer M. Converting dependency structures to phrase structures // Proceedings of HLT.Toulouse, 2001: 1–5

    [15]Xia Fei, Rambow O, Bhatt R, et al. Towards a multi-representational treebank // LOT Occasional Series, volume 12. Utrecht: Netherlands Graduate School of Linguistics, 2008: 159–170

    [16]Bhatt R, Rambow O, Xia Fei. Linguistic phenomena, analyses, and representations: understanding conver-sion between treebanks // Proceedings of IJCNLP. Chiang Mai, 2011: 1234–1242

    [17]Bhatt R, Xia Fei. Challenges in converting between treebanks: a case study from the hutb // Proceedings of META-RESEARCH Workshop on Advanced Tree-banking. Istanbul, 2012: 1–8

    Rule-Based Detection and Analysis of Annotation Errors in Dependency Treebank

    SHI Linlin, QIU Likun?, KANG Shiyong

    School of Chinese Language and Literature, Ludong University, Yantai 264025; ?Corresponding author, E-mail: qiulikun@pku.edu.cn

    The authors try to transform dependency tree into phrase structure tree, and detect annotation errors automatically based on manual rules.The method is used in processing Peking University Multi-view Chinese Treebank (PMT). Although PMT has been manually checked twice before processed by this method, 1529 errors are detected among the 50275 sentences and the precision is 100%. The errors mainly belong to three types: word segmentation error, mismatching between POS and syntactic role, and syntactic role error. This method can further improve treebank quality, and be applied to other dependency treebanks.

    treebank; part of speech; syntactic role; error detection

    10.13209/j.0479-8023.2016.005

    TP391

    2015-06-19;

    2015-08-15; 網絡出版日期: 2015-09-29

    國家自然科學基金(61572245, 61103089, 61272215)資助

    猜你喜歡
    兼類結點句法
    句法與句意(外一篇)
    中華詩詞(2021年3期)2021-12-31 08:07:22
    現代韓國語兼類詞表征研究
    ——以《新國語詞典》(第5版)為例
    外國語文(2021年4期)2021-09-16 07:17:50
    述謂結構與英語句法配置
    基于統(tǒng)計的《HSK詞匯等級大綱》動名兼類詞標注研究*
    句法二題
    中華詩詞(2018年3期)2018-08-01 06:40:40
    Ladyzhenskaya流體力學方程組的確定模與確定結點個數估計
    詩詞聯(lián)句句法梳理
    中華詩詞(2018年11期)2018-03-26 06:41:32
    基于Raspberry PI為結點的天氣云測量網絡實現
    基于統(tǒng)計和規(guī)則的常用詞的兼類識別研究
    現代漢語詞匯的兼類問題——由現代漢語形容詞的兼類談起
    文教資料(2012年32期)2012-08-15 00:42:55
    湘潭县| 黔南| 岱山县| 宁津县| 三都| 博白县| 太白县| 富平县| 武邑县| 马尔康县| 龙胜| 寻甸| 乌鲁木齐县| 邵阳市| 镇原县| 和平区| 元氏县| 新和县| 乌苏市| 波密县| 永胜县| 宁远县| 南澳县| 嘉禾县| 沭阳县| 健康| 醴陵市| 阜阳市| 古交市| 大荔县| 巴彦县| 区。| 九江县| 遵化市| 厦门市| 漾濞| 额尔古纳市| 屏东市| 石家庄市| 辽源市| 古丈县|