• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多層協(xié)同糾錯的中文層次句法分析

      2014-02-28 05:12:27蔣志鵬董喜雙
      中文信息學(xué)報(bào) 2014年4期
      關(guān)鍵詞:組塊結(jié)點(diǎn)語料

      蔣志鵬,關(guān) 毅,董喜雙

      (哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)

      1 引言

      層次句法分析是一種典型的自底向上分析方法,其優(yōu)點(diǎn)是時(shí)空開銷小、易于實(shí)現(xiàn),但是錯誤累積問題嚴(yán)重[2]。Abney[3]早在1991年就提出了組塊的概念,并將其應(yīng)用到句法分析中,成為層次句法分析的先驅(qū)。Ramshaw[4]等人在組塊分析中加入{B,I,O}標(biāo)記,將組塊分析轉(zhuǎn)化成序列化標(biāo)注問題,利用基于轉(zhuǎn)換的機(jī)器學(xué)習(xí)方法進(jìn)行組塊分析,間接推動了層次句法分析的發(fā)展。1999年,Ratnaparkhi[5]設(shè)計(jì)了基于最大熵模型的句法分析器,該方法結(jié)合組塊分析的策略,將句法分析過程劃分為詞性標(biāo)注、組塊分析、句法樹構(gòu)建及核對4個(gè)階段,通過最大熵模型預(yù)測每次執(zhí)行的動作(移近/規(guī)約),這種方法的準(zhǔn)確率接近當(dāng)時(shí)的最好水平(Collins,1997),為層次句法分析奠定了基礎(chǔ)。Sagae[6]利用自底向上移進(jìn)歸約的方式進(jìn)行句法分析,該算法的特點(diǎn)是運(yùn)行速度快,實(shí)現(xiàn)簡單,并且能同時(shí)得到依存樹結(jié)構(gòu)。在中文句法分析方面,F(xiàn)ung[7]首次將最大熵模型應(yīng)用于中文句法分析中,在Ratnaparkhi[5]的基礎(chǔ)上加入中文分詞,實(shí)現(xiàn)了基于字的統(tǒng)計(jì)句法分析器。Wang[8]將Sagae[6]的模型應(yīng)用到中文句法分析中,并在預(yù)測時(shí)選擇多種分類器中的最優(yōu)結(jié)果,該模型在保證較高F1值的同時(shí),獲得了更快的解析速度。李軍輝[9]以Ratnaparkhi[5]為基礎(chǔ),將組塊分析過程分解為基本塊分析和復(fù)雜塊分析,并通過引入產(chǎn)生式右側(cè)分值進(jìn)一步提高句法分析的性能,該模型在賓州中文樹庫(CTB2.0)上的F1值為77.4%,達(dá)到了當(dāng)時(shí)的最好水平。2010年,Zhou[10]采用分治策略進(jìn)行句法分析。該方法將句子轉(zhuǎn)化為兩個(gè)部分:最長名詞短語及用中心詞代替最長名詞短語后的新句子。首先利用Berkeley句法分析器識別出輸入句子中的最長名詞短語,對于新句子利用鏈?zhǔn)紺RF模型進(jìn)行組塊分析,再以搜索的策略進(jìn)行解碼,最后將解析后的兩部分合并成一個(gè)完整的句法樹。該方法在CLP2010的完全句法分析評測中F1值為74.8%,只比當(dāng)時(shí)最好的結(jié)果(Berkeley Parser)低了0.36%。

      近幾年,傳統(tǒng)句法分析的研究進(jìn)入瓶頸期,句法糾錯技術(shù)成為提高現(xiàn)有句法分析水平的關(guān)鍵。句法糾錯技術(shù)可以分為限定類型糾錯和不限類型糾錯。不限類型糾錯的研究主要集中在句法樹重排序方面,Collins[11]利用基于歷史模型的句法分析器產(chǎn)生一個(gè)候選句法樹列表,通過引入額外特征對句法樹進(jìn)行重排序,使得句法分析的錯誤率降低了13%,但該方法受列表規(guī)模的限制,排除了一些有潛質(zhì)的候選結(jié)果。針對此缺點(diǎn),Huang[12]提出了森林重排序方法,該方法首先生成一個(gè)句法森林,然后自底向上地為每個(gè)結(jié)點(diǎn)生成候選子樹列表,最終選擇根節(jié)點(diǎn)上評分最高的句法樹。王志國[13]以森林重排序?yàn)榛A(chǔ),引入高階詞匯依存特征進(jìn)行重排序, F1值達(dá)到85.74%,是目前CTB上最好的結(jié)果;限定類型糾錯一般針對句法樹中某一種或幾種結(jié)點(diǎn)標(biāo)記進(jìn)行糾錯,英文方面,介詞結(jié)構(gòu)附加問題(PP Attachment)一直是句法糾錯的熱點(diǎn)問題,常用的糾錯方法包括:單獨(dú)設(shè)計(jì)特征模板[14]、引入語義信息[15]、統(tǒng)計(jì)搭配模式[16]等。中文方面,王錦[17]歸納出7種歧義模式,通過引入語義知識和搭配知識分別進(jìn)行消歧,是中文上鮮有的限定類型糾錯研究,缺點(diǎn)是過分依賴外部資源。綜上所述,常見的句法糾錯研究一般基于概率上下文無關(guān)文法(PCFG),通過引入額外的特征或資源,單獨(dú)訓(xùn)練模型進(jìn)行糾錯,目前還沒有針對層次句法分析框架的糾錯研究。本文以CLP2010評測任務(wù)2*http://www.cipsc.org.cn/clp2010/task2_en.htm中最優(yōu)的層次句法分析系統(tǒng)[10]作為實(shí)驗(yàn)基線,在保留原有系統(tǒng)分層思想及壓縮方式的基礎(chǔ)上,結(jié)合層次框架的特殊性,提出了多層協(xié)同糾錯算法,在不引入任何外部資源及訓(xùn)練新模型的情況下,使得該系統(tǒng)在中文句法分析上的效果達(dá)到了較高的水平。

      2 基于多層協(xié)同糾錯的句法分析

      2.1 系統(tǒng)框架

      圖1 層次句法分析 系統(tǒng)框架

      由于國內(nèi)外的許多句法分析工作都是在自動詞性標(biāo)注基礎(chǔ)上進(jìn)行的[2,8-10],詞性標(biāo)注結(jié)果直接影響句法分析的精度,所以我們將詞性標(biāo)注作為系統(tǒng)框架的重要組成部分。在句法分析階段,我們比較了李軍輝[9]和Zhou[10]的不同分層方式,將句法分析細(xì)分為基本塊分析和復(fù)雜塊分析,分別采用不同的特征模板識別非遞歸組塊和遞歸組塊,這里我們將非遞歸組塊定義為不包含任何組塊的組塊,遞歸組塊定義為包含組塊的組塊,例如,“[pp 用/p 火/n ]”和“[vp 熟/v 食/n]”均為非遞歸組塊,“[vp [pp 用/p 火/n ] [vp 熟/v 食/n] ]”為遞歸組塊。系統(tǒng)以正確分詞的句子作為輸入,依次經(jīng)過詞性標(biāo)注、基本塊分析,識別出非遞歸組塊,再循環(huán)調(diào)用復(fù)雜塊分析,識別出遞歸組塊,最終輸出一個(gè)句法樹。系統(tǒng)整體框架如圖1所示。

      2.2 基于條件隨機(jī)域(CRF)的詞性標(biāo)注

      在詞性標(biāo)注方面,我們以Yang[18]在CIPS-ParsEval-2009中的特征模板作為實(shí)驗(yàn)基線。直接在語料(語料劃分見3.1節(jié))上進(jìn)行測試,詞性標(biāo)注準(zhǔn)確率為93.52%。通過對標(biāo)注結(jié)果進(jìn)行錯誤分析,我們發(fā)現(xiàn)(1)某些專有名詞的字?jǐn)?shù)存在一定的規(guī)律性,例如,標(biāo)注為指人專名(nP)多數(shù)為二字詞或三字詞;(2)某些詞的詞性之間存在一定的搭配關(guān)系,例如,數(shù)詞與量詞經(jīng)常同時(shí)出現(xiàn);(3) 地點(diǎn)專名(nS)和組織機(jī)構(gòu)名(nO)的構(gòu)詞方式存在一定的特點(diǎn),例如,地點(diǎn)專名以“省”、“市”等結(jié)尾。因此,我們在基線特征模板中引入字?jǐn)?shù)、前一詞的詞性作為特征,并針對CRF打分低于0.4的結(jié)果利用規(guī)則輔助判定,即判斷是否符合某些構(gòu)詞規(guī)律,經(jīng)過改進(jìn)后的詞性標(biāo)注準(zhǔn)確率達(dá)到了95.39%。例如,直接利用CRF標(biāo)注“光明鄉(xiāng)”詞性時(shí),識別成名詞(n)的概率最高,在進(jìn)行后處理時(shí),發(fā)現(xiàn)該詞匹配“字?jǐn)?shù):3,尾字:鄉(xiāng)”的規(guī)則,于是該詞詞性變?yōu)榈攸c(diǎn)專名(nS)。調(diào)整后的特征模板如表1所示,訓(xùn)練數(shù)據(jù)的格式如表2所示,其中w0表示當(dāng)前詞,pre為當(dāng)前詞的第一個(gè)字,suf為當(dāng)前詞的最后一個(gè)字,num為當(dāng)前詞的字?jǐn)?shù),pos-1表示前一詞的詞性。

      表1 詞性標(biāo)注特征

      表2 訓(xùn)練數(shù)據(jù)格式

      2.3 層次句法分析實(shí)驗(yàn)基線

      本文將Zhou[10]在CLP2010評測任務(wù)2中的句法分析系統(tǒng)作為實(shí)驗(yàn)基線,使用基本塊識別模塊替換原系統(tǒng)中的最長名詞短語識別模塊,采用多層組塊分析的方式自底向上進(jìn)行句法分析。

      在基本塊分析階段,我們使用實(shí)驗(yàn)室已有的淺層句法分析系統(tǒng),該系統(tǒng)以傳統(tǒng)的{B, I, O}方式[4]結(jié)合MEM識別基本塊,在CIPS-ParsEval-2009評測任務(wù)2漢語基本塊分析中獲得第一名的成績。由于我們使用的語料不需要標(biāo)注基本塊的關(guān)系信息,所以本階段我們只保留基本塊的邊界和成分信息。基本塊分析的處理流程如下:

      第一步,輸入經(jīng)過詞性標(biāo)注的句子,使用MEM進(jìn)行預(yù)測:

      藥物/n@np-B 的/uJDE@np-I 發(fā)現(xiàn)/vN@np-E 與/p@O 原始人/n@np-B 的/uJDE@np-I 采集/vN@np-E

      第二步,合并預(yù)測結(jié)果,形成非遞歸組塊:

      [np 藥物/n 的/uJDE 發(fā)現(xiàn)/vN] 與/p [np 原始人/n 的/uJDE 采集/vN ]

      在復(fù)雜塊分析階段,以經(jīng)過詞性標(biāo)注和基本塊分析的句子作為輸入,使用CRF遞歸地進(jìn)行復(fù)雜塊識別,直到識別出根結(jié)點(diǎn),其中結(jié)點(diǎn)的類別標(biāo)記包括xx_Start, xx_Middle, xx_End,分別表示xx塊的開始結(jié)點(diǎn)、中間結(jié)點(diǎn)和結(jié)束結(jié)點(diǎn),xx_Single表示結(jié)點(diǎn)單獨(dú)成xx塊,Other表示不成塊結(jié)點(diǎn)。復(fù)雜塊分析類似于遞歸地進(jìn)行基本塊分析,除了標(biāo)記和模板不同之外,在選擇合并方式時(shí),考慮到所用語料沒有標(biāo)注中心詞,如果僅靠規(guī)則提取中心詞會引入額外的錯誤,于是我們每層壓縮句子時(shí),以首尾詞的形式替換原組塊,例如,

      第一步,輸入經(jīng)過組塊分析的句子:

      [np 藥物/n 的/uJDE 發(fā)現(xiàn)/vN] 與/p [np 原始人/n 的/uJDE 采集/vN ]

      第二步,保留組塊首尾詞并壓縮句子:

      [np 藥物/n 發(fā)現(xiàn)/vN] 與/p [np 原始人/n 采集/vN]

      第三步,使用CRF進(jìn)行預(yù)測:

      [np 藥物/n 發(fā)現(xiàn)/vN]@np_Start 與/p@np_ Middle [np 原始人/n 采集/vN] @np_End

      ……

      重復(fù)上述步驟直到識別出根結(jié)點(diǎn)。

      本文選擇開源的CRF++*http://crfpp.googlecode.com/svn/trunk/doc/index.html作為標(biāo)注工具。由于CRF++只能進(jìn)行單層標(biāo)注,本文增加了后處理模塊,功能包括: 組塊合并、輸出輸入格式轉(zhuǎn)換、識別根結(jié)點(diǎn),使其能夠遞歸地進(jìn)行序列化標(biāo)注;另外,CRF++訓(xùn)練時(shí)將所有的信息都保留在內(nèi)存中,直到訓(xùn)練結(jié)束再全部寫入模型,這樣增加了訓(xùn)練模型的內(nèi)存消耗,本文將數(shù)據(jù)分兩次寫入模型,即先將特征表達(dá)式相關(guān)信息存入模型,一定程度上降低了訓(xùn)練時(shí)的內(nèi)存使用。

      2.4 基于多層協(xié)同糾錯的層次句法分析方法

      由于層次框架下每層只輸出一個(gè)確定性結(jié)果,導(dǎo)致標(biāo)注歧義帶來的錯誤累積嚴(yán)重。本文提出了多層協(xié)同糾錯算法,有效減少了數(shù)據(jù)傳遞單一性帶來的錯誤累積。

      CRF預(yù)測過程就是對待標(biāo)記數(shù)據(jù)的特征函數(shù)進(jìn)行線性求和,以確定在該上下文環(huán)境中分類的概率,即對預(yù)測結(jié)果進(jìn)行打分*本文所使用的CRF預(yù)測分?jǐn)?shù)均為經(jīng)過歸一化的結(jié)果,歸一化方法見文獻(xiàn)[19],這里不再贅述。。通常來說,預(yù)測分?jǐn)?shù)越高,獲得正確結(jié)果的可能性越大,但是由于概率本身具有不確定性,分?jǐn)?shù)最高的結(jié)果不一定是正確結(jié)果。本文設(shè)計(jì)算法的初衷就是為了糾正那些預(yù)測分?jǐn)?shù)最高的錯誤結(jié)果,不同于僅保留單一結(jié)果的傳統(tǒng)方式,本算法將分?jǐn)?shù)最高及次高的結(jié)果傳入下一層,通過對兩層分?jǐn)?shù)進(jìn)行線性插值,最終確定全局最優(yōu)的標(biāo)注結(jié)果。算法分為確定候選錯誤及多層協(xié)同糾錯兩步進(jìn)行。

      1. 確定候選錯誤

      本文沒有采用傳統(tǒng)的歧義界定方式[19]預(yù)判錯誤,而是提出了一種簡單可行的方法,將預(yù)測分?jǐn)?shù)沒有“明顯差異”的情況均視為可能存在錯誤,“差異”形式化定義如式(1)所示。

      這里,pre1和pren分別表示CRF預(yù)測分?jǐn)?shù)排序第1位及第n位結(jié)果。為了確定diff最合適的閾值,我們在3.1節(jié)提到的調(diào)試集上進(jìn)行實(shí)驗(yàn),計(jì)算前兩個(gè)分?jǐn)?shù)差大于某一閾值時(shí)的錯誤數(shù)量,結(jié)果如圖2所示,圖中縱坐標(biāo)表示調(diào)試集中錯誤標(biāo)記的個(gè)數(shù),橫坐標(biāo)表示diff的取值。

      從曲線整體趨勢看,錯誤數(shù)量隨diff閾值增大而減少,而且當(dāng)閾值大于0.5時(shí)曲線下降較明顯,在調(diào)試集上進(jìn)行糾錯實(shí)驗(yàn)也證明了當(dāng)diff閾值取0.5時(shí)效果最好。

      2. 多層協(xié)同糾錯

      在層次框架下,父序列的上下文環(huán)境對子序列是不可見的,損失的正是對糾錯有益的父序列特征,本文希望將候選錯誤帶入父序列的上下文環(huán)境中,通過引入父序列的特征進(jìn)行糾錯。另一方面,由于CRF對于父子序列的預(yù)測可在同一模型下進(jìn)行,為了避免重復(fù)計(jì)算,本文并沒有訓(xùn)練新的模型,而是采用線性求和的方式獲得最終概率。

      本文首先提出了基于整體預(yù)測分?jǐn)?shù)的多層協(xié)同糾錯算法,該算法的核心思想是每層輸出多個(gè)標(biāo)注序列,分別進(jìn)入下一層產(chǎn)生各自父序列,將子序列與其父序列的整體預(yù)測分?jǐn)?shù)進(jìn)行加權(quán)求和,最終確定本層的標(biāo)注序列。整體糾錯分?jǐn)?shù)計(jì)算如式(2)所示,S為本層序列預(yù)測分?jǐn)?shù),S′為父序列預(yù)測分?jǐn)?shù),α、β為調(diào)節(jié)參數(shù)。

      圖3 父子序列關(guān)系表示

      算法1基于整體預(yù)測分?jǐn)?shù)的多層協(xié)同糾錯算法

      步驟1 輸入待標(biāo)記序列L到CRF++,如果L為根結(jié)點(diǎn)則算法終止,否則保存預(yù)測結(jié)果為多個(gè)<序列,分?jǐn)?shù)>對, 如

      ,按S項(xiàng)由大到小排序,進(jìn)入步驟2;

      整體預(yù)測分?jǐn)?shù)雖然能說明標(biāo)注序列正確的可能性,但是算法1將其作為糾錯的標(biāo)準(zhǔn),容易引入非歧義項(xiàng)的干擾,增加了造成誤判的幾率。于是我們提出了一種更加具有針對性的糾錯算法-基于局部預(yù)測分?jǐn)?shù)的多層協(xié)同糾錯算法,該算法與算法1最大的不同在于,歧義項(xiàng)從序列變成了結(jié)點(diǎn),即跟蹤本層歧義結(jié)點(diǎn)進(jìn)入下一層產(chǎn)生父結(jié)點(diǎn),將該結(jié)點(diǎn)與其父結(jié)點(diǎn)的預(yù)測分?jǐn)?shù)進(jìn)行加權(quán)求和,最終確定本層的標(biāo)注結(jié)果。在計(jì)算局部糾錯分?jǐn)?shù)時(shí),式(2)中的S和S′分別表示歧義結(jié)點(diǎn)和其父結(jié)點(diǎn)的預(yù)測分?jǐn)?shù)。

      算法2基于局部預(yù)測分?jǐn)?shù)的多層協(xié)同糾錯算法

      步驟1 輸入待標(biāo)記序列L到CRF++,如果L為根結(jié)點(diǎn)則算法終止,否則保存預(yù)測結(jié)果為多個(gè)<序列,分?jǐn)?shù)>對,如,其中Li含多個(gè)標(biāo)注結(jié)點(diǎn)ti0, ti1…tin,Si包括各標(biāo)注結(jié)點(diǎn)對應(yīng)的分?jǐn)?shù)si0, si1…sin;

      步驟2 取分?jǐn)?shù)最高的前兩個(gè)序列L0和L1,依次計(jì)算各標(biāo)注結(jié)點(diǎn)分?jǐn)?shù)差sn=s0n-s1n,若各標(biāo)注結(jié)點(diǎn)分?jǐn)?shù)差均大于diff,則直接合并L0為待標(biāo)記序列(見2.3節(jié))返回步驟1;否則進(jìn)入步驟3;

      與算法1相比,算法2僅增加了計(jì)算標(biāo)注結(jié)點(diǎn)分?jǐn)?shù)差的過程,并且獲得了更好的糾錯效果(實(shí)驗(yàn)結(jié)果見3.2節(jié))。在時(shí)間復(fù)雜度方面,該算法的時(shí)間復(fù)雜度可以分為兩部分計(jì)算,其中,CRF++進(jìn)行單層標(biāo)注的時(shí)間復(fù)雜度為O(T2n),T為所有候選標(biāo)記個(gè)數(shù),n為句子中的詞數(shù),當(dāng)最壞情況下每次都執(zhí)行步驟3,標(biāo)注時(shí)間復(fù)雜度變?yōu)镺(2T2n),而計(jì)算標(biāo)注結(jié)點(diǎn)分?jǐn)?shù)差及合并標(biāo)注序列的操作都是線性時(shí)間的O(n),算法2整體時(shí)間復(fù)雜度為O((2T2+3)n),另外,由于每句至多分析n層,所以系統(tǒng)最終的時(shí)間復(fù)雜度為O((2T2+3)n2),要優(yōu)于線圖分析法的O(n3)。

      下面本文將介紹糾錯算法在實(shí)例中的應(yīng)用。以句子“即/v 對/p 檔案/n 實(shí)體/n 管理/vN 系統(tǒng)/n 、/wD 檔案/n 信息/n 開發(fā)/vN 系統(tǒng)/n 及/cC 其/rN 反饋/vN 系統(tǒng)/n 整個(gè)/b 過程/n 的/uJDE 研究/vN 。/wE ”的部分句法樹為例,其中圖4為未加入糾錯算法的部分句法樹,圖5為應(yīng)用算法2糾錯后的部分句法樹,圖中框內(nèi)為產(chǎn)生歧義的子樹。在進(jìn)行第二層組塊分析時(shí),“[np 檔案/n 信息/n]”識別為Other分?jǐn)?shù)為0.518,識別為np_Start分?jǐn)?shù)為0.395,其差值0.123是該層最小差并小于閾值0.5,則被認(rèn)定為存在歧義,在分別合并兩種結(jié)果進(jìn)入第三層后,獲得各自父結(jié)點(diǎn)的分?jǐn)?shù)為0.508和0.624,線性插值后的最終分?jǐn)?shù)為0.511和0.555,所以“[np 檔案/n 信息/n]”在第二層的標(biāo)記選擇np_Start,糾正了底層組塊的標(biāo)注錯誤,部分句法樹從圖4的形式轉(zhuǎn)換成圖5的形式。

      圖4 未加入糾錯算法的部分句法樹

      圖5 應(yīng)用算法2糾錯后的部分句法樹

      3 實(shí)驗(yàn)及分析

      3.1 實(shí)驗(yàn)設(shè)置

      為了方便與基線比較并確定系統(tǒng)參數(shù),我們使用CLP2010任務(wù)2-2訓(xùn)練語料進(jìn)行訓(xùn)練和測試,對該語料按每5句進(jìn)行一次劃分,前4句形成14 023句的訓(xùn)練集,對后1句形成的語料集進(jìn)一步劃分,其中前1 752句作為調(diào)試集,后1 753句作為測試集。在結(jié)果評價(jià)方面,我們采用傳統(tǒng)的準(zhǔn)確率、召回率及F1值作為評價(jià)標(biāo)準(zhǔn),以常用的Evalb*http://nlp.cs.nyu.edu/evalb/作為評價(jià)工具,其中:

      3.2 實(shí)驗(yàn)結(jié)果及分析

      為了確定糾錯算法的最優(yōu)參數(shù),我們在調(diào)試語料上設(shè)置不同的α和β值,實(shí)驗(yàn)結(jié)果如圖6所示,在不同參數(shù)下系統(tǒng)F1值呈凸曲線走勢,當(dāng)α=0.75,β=0.25時(shí)達(dá)到最高點(diǎn)說明糾錯算法以父結(jié)點(diǎn)為主、子結(jié)點(diǎn)起適度輔助作用時(shí)效果最好。

      圖6 α不同取值下的系統(tǒng)F1值分布

      表3為完整測試語料上的實(shí)驗(yàn)結(jié)果,以Berkeley parser作為比較對象。Berkeley parser利用基于層次狀態(tài)分裂的PCFG進(jìn)行無詞匯化句法分析,是目前中文上最好的開源句法分析器[20]。但是由于其自身的魯棒性問題,在3.1節(jié)的測試語料上部分句子會出現(xiàn)錯誤輸出,包括空輸出及破折號錯誤等,F(xiàn)1值僅為76.26%,而本文加入算法2的系統(tǒng)(CLP-2)能夠正常運(yùn)行,F(xiàn)1達(dá)到80.34%。另外,從測試時(shí)間上可以看出,本文的方法比Berkeley parser節(jié)省了近1/3的時(shí)間。

      表3 完整語料實(shí)驗(yàn)結(jié)果

      為了使對比結(jié)果更具說服力,我們將出現(xiàn)錯誤的測試句子刪除,保留剩余的1 622句語料重新測試(Berkeley parser成功分析所有語料)。表4給出了在削減后語料上加入不同糾錯算法后的實(shí)驗(yàn)結(jié)果,其中CLP-0表示基線結(jié)果,CLP-1和CLP-2分別表示新系統(tǒng)加入算法1和算法2后的結(jié)果。為了擴(kuò)大糾錯規(guī)模,本文實(shí)現(xiàn)了CLP-3算法,該算法不是僅僅對CRF中的1-Best結(jié)果糾錯,而是每層保留N-Best組塊進(jìn)入下一層(CRF預(yù)測分?jǐn)?shù)大于0.5的組塊),與各自父組塊的分?jǐn)?shù)進(jìn)行線性求和,最終選擇分?jǐn)?shù)最高的組合方式。另外,本文在糾錯算法中加入Berkeley的結(jié)果進(jìn)行過濾,實(shí)驗(yàn)證明這種簡單的模型融合能夠進(jìn)一步提高解析精度,F(xiàn)1值超過了單獨(dú)使用Berkeley parser。

      表4 削減后語料實(shí)驗(yàn)結(jié)果

      本文使用的CLP2010評測語料來自清華中文樹庫(TCT ver1.0),無論訓(xùn)練還是測試語料規(guī)模都要大于公認(rèn)的賓州中文樹庫語料(CTB 2.0),實(shí)驗(yàn)結(jié)果具有較高的可信度。從實(shí)驗(yàn)結(jié)果可以看出,CLP-1和CLP-2的效果要優(yōu)于CLP-0,證明這兩種糾錯算法在層次系統(tǒng)中是有效的,并且局部預(yù)測分?jǐn)?shù)具有更好的糾錯能力。通過對CLP-3的結(jié)果進(jìn)行分析,我們發(fā)現(xiàn)N-Best的約束條件(例如,候選組塊個(gè)數(shù)及分?jǐn)?shù)閾值)難以確定,很可能引入額外的錯誤組塊,導(dǎo)致糾錯結(jié)果并不十分理想。

      4 結(jié)論與展望

      本文在層次句法分析的框架下,比較了不同分層方式、模型選擇及句子壓縮方式對句法分析結(jié)果的影響,確定了最適合層次句法分析的系統(tǒng)架構(gòu),并針對該框架錯誤累積問題,提出了一種多層協(xié)同判定的糾錯算法,在損失較少解析效率的同時(shí),提高了層間標(biāo)注結(jié)果的正確性,使得層次句法分析準(zhǔn)確率和召回率分別達(dá)到了80.40%和80.94%,成為一種兼具較高解析速度及精度的句法分析方法。

      由于本文只是初步實(shí)現(xiàn)了該糾錯算法,每次只是處理層間概率差最小的候選結(jié)果,我們在下一步的研究中將擴(kuò)展該算法,探索N-Best的約束條件,在保證糾錯精度的同時(shí)提高糾錯召回率。另外,我們還會深入研究錯誤結(jié)果的預(yù)判工作,排除引入深層次信息后帶來的非歧義干擾,進(jìn)一步提高算法糾錯準(zhǔn)確率。

      致謝感謝沈陽航空航天大學(xué)的周俏麗老師給予的寶貴意見,并提供特征模板作為實(shí)驗(yàn)基線,為我們的實(shí)驗(yàn)帶來了很大幫助;感謝蘇州大學(xué)的周國棟老師在中文層次句法分析方面的基礎(chǔ)性研究,感謝實(shí)驗(yàn)室各位同學(xué)對本文工作的支持。

      [1] 劉挺, 馬金山. 漢語自動句法分析的理論與方法[J]. 當(dāng)代語言學(xué), 2009,11(2): 100-112.

      [2] 孟遙,李生,趙鐵軍, 等.四種基本統(tǒng)計(jì)句法分析模型在漢語句法分析中的性能比較[J]. 中文信息學(xué)報(bào), 2003, 17 (3): 1-8.

      [3] S Abney. Parsing by Chunks [J]. Principle-Based Parsing, 1991: 257-278.

      [4] Lance A Ramshaw, Mitchell P Marcus. Text Chunking Using Transformation-Based Learning[C]//Proceedings of the Third ACL Workshop on Very Large Corpora, 1995: 87-88.

      [5] Adwait Ratnaparkhi. Learning to Parse Natural Language with Maximum Entropy Models [J]. Machine Learning, 1999, 34(1-3): 151-175.

      [6] K Sagae, A Lavie. A classifier-based parser with linear run-time complexity[C]//Proceedings of the IWPT’05, 2005: 125-132.

      [7] Pascale Fung, Grace Ngai, YongSheng Yang, and BenFeng Chen. A Maximum-Entropy Chinese Parser Augmented by Transformation-Based Learning[C]//Proceedings of the ACM Transactions on Asian Language Information Processing, 2004: 4-8.

      [8] Mengqiu Wang,Kenji Sagae,and Teruko Mitamura. A fast, accurate deterministic parser for Chinese[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, 2006: 425-432.

      [9] 李軍輝, 周國棟, 朱巧明, 等. 一種改進(jìn)的中文層次句法分析模型研究[C]//第十屆全國計(jì)算語言學(xué)學(xué)術(shù)會議, 2009: 123-129.

      [10] Qiaoli Zhou, Wenjing Lang, Yingying Wang, Yan Wang, and Dongfeng Cai. The SAU Report for the 1st CIPS-SIGHAN-ParsEval-2010[C]//Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP2010), 2010: 304-311.

      [11] Collins M, Koo T. Discriminative reranking for natural language parsing [J]. Computational Linguistics, 2005, 31(1): 25-70.

      [12] Huang L. Forest reranking: Discriminative parsing with non-local features [C]//Proceedings of the ACL 2008, 2008: 1067-1075.

      [13] 王志國, 宗成慶. 基于高階詞匯依存的短語結(jié)構(gòu)樹重排序模型 [J]. 軟件學(xué)報(bào), 2012, 23(10): 2628-2642.

      [14] Enrique Henestroza Anguiano, Marie Candito. Parse Correction with Specialized Models for Difficult Attachment Types[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011: 1222-1233.

      [15] Eneko Agirre, Timothy Baldwin, and David Martinez. Improving Parsing and PP attachment Performance with Sense Information [C]//Proceeding of the ACL 2008, 2008: 317-325.

      [16] Yoon-Hyung Roh, Ki-Young Lee, and Young-Gil Kim. Improving PP Attachment Disambiguation in a Rule-based Parser[C]//Proceedings of the 25th Pacific Asia Conference on Language, Information and Computation, 2011: 559-566.

      [17] 王錦, 陳群秀. 現(xiàn)代漢語語義資源用于短語歧義模式消歧研究 [J]. 中文信息學(xué)報(bào),2007, 21(5): 80-86.

      [18] Xiaorui Yang, Bingquan Liu, Chengjie Sun, and Lei Lin. InsunPOS: a CRF-based POS Tagging System [C]//Proceedings of the CIPS-ParsEval-2009, 2009: 4-6.

      [19] 詹衛(wèi)東, 常寶寶, 俞士汶. 漢語短語結(jié)構(gòu)定界歧義類型分析及分布統(tǒng)計(jì) [J]. 中文信息學(xué)報(bào),1999, 13(3): 9-17.

      [20] Xiao Chen, Changning Huang , Mu Li, et al. Better Parser Combination[C]//Proceedings of the CIPS-ParsEval-2009, 2009.

      [21] John Lafferty, Andrew McCallum, and Fernando Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the Eighteenth International Conference on Machine Learning, 2001: 282-289.

      猜你喜歡
      組塊結(jié)點(diǎn)語料
      橫浪作用下大型上部組塊雙船浮托安裝動力響應(yīng)特性試驗(yàn)研究
      Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      陸豐7-2油田導(dǎo)管架平臺上部組塊低位浮托安裝關(guān)鍵技術(shù)
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      基于Raspberry PI為結(jié)點(diǎn)的天氣云測量網(wǎng)絡(luò)實(shí)現(xiàn)
      英語詞匯組塊學(xué)習(xí)路徑研究——組塊法
      詞匯組塊層次網(wǎng)絡(luò)
      海丰县| 长沙县| 迁西县| 安仁县| 高雄县| 常山县| 西藏| 石河子市| 宝兴县| 静安区| 滦南县| 宁化县| 启东市| 海晏县| 台安县| 阿拉善左旗| 阿拉善盟| 奎屯市| 乌什县| 镇巴县| 乌兰察布市| 沂南县| 通许县| 温州市| 原阳县| 桑植县| 大方县| 沂南县| 闻喜县| 临沧市| 永顺县| 牙克石市| 丰镇市| 巴青县| 上饶县| 清水河县| 乌拉特后旗| 富裕县| 延边| 万载县| 桃源县|