藏語(yǔ)句法功能組塊的邊界識(shí)別

2013-10-15 01:52:18龍從軍

中文信息學(xué)報(bào) 2013年6期

李琳，龍從軍，江荻

（1.中國(guó)社會(huì)科學(xué)院研究生院，北京102488；2.中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所，北京100081；3.中央民族大學(xué) 民族語(yǔ)言監(jiān)測(cè)分中心，北京100081）

1 引言

句法分析是自然語(yǔ)言處理的基礎(chǔ)技術(shù)，被廣泛地應(yīng)用到機(jī)器翻譯、信息抽取等諸多研究領(lǐng)域。目前句法分析技術(shù)的一個(gè)重要發(fā)展趨勢(shì)是由完全句法分析轉(zhuǎn)向部分句法分析的研究?；趬K的部分句法分析可以降低句法分析的復(fù)雜性，提高局部分析的準(zhǔn)確性，從而為進(jìn)一步的完全句法分析和語(yǔ)義分析奠定基礎(chǔ)。英漢句法分析的研究成果很多［1－10］，尤其是組塊邊界識(shí)別的研究為藏語(yǔ)組塊邊界的識(shí)別提供了較好的經(jīng)驗(yàn)和技術(shù)積累。

對(duì)藏語(yǔ)句法組塊理論及識(shí)別方法探討已經(jīng)有了較多成果。文獻(xiàn)［11］從藏語(yǔ)的高層單位（短語(yǔ)、結(jié)構(gòu)及句法成分組）切入，提出了現(xiàn)代藏語(yǔ)句法特征的組塊描述體系，該系統(tǒng)包括八種類型的藏語(yǔ)句法組塊。在此基礎(chǔ)上，文獻(xiàn)［12］對(duì)該描述體系進(jìn)行了擴(kuò)充。文獻(xiàn)［13］通過藏語(yǔ)助動(dòng)詞的句法分布特征，探討了識(shí)別帶助動(dòng)詞的謂語(yǔ)組塊；文獻(xiàn)［14］討論了藏語(yǔ)形容詞謂語(yǔ)句的謂語(yǔ)結(jié)構(gòu)和形式標(biāo)記并進(jìn)行實(shí)驗(yàn)；文獻(xiàn)［15］提出了依靠右邊界的名詞組塊識(shí)別方法；文獻(xiàn)［16］提出了識(shí)別藏語(yǔ)判定句的主語(yǔ)和賓語(yǔ)的方法；文獻(xiàn)［17］討論了藏語(yǔ)述說動(dòng)詞句賓語(yǔ)的識(shí)別方法。

目前對(duì)藏語(yǔ)組塊的研究主要是采用規(guī)則的方法對(duì)不同類型的組塊進(jìn)行識(shí)別。在前人對(duì)藏語(yǔ)句法組塊的描述基礎(chǔ)上，本文提出了基于CRFs模型的藏語(yǔ)功能組塊邊界識(shí)別方法。從實(shí)踐角度對(duì)藏語(yǔ)功能組塊邊界進(jìn)行識(shí)別，并對(duì)錯(cuò)誤結(jié)果進(jìn)行分析，為進(jìn)一步的組塊邊界識(shí)別與組塊類型標(biāo)注積累經(jīng)驗(yàn)。

2 藏語(yǔ)功能組塊體系

功能組塊描述體系是自頂向下描述句子的基本骨架［10］，在該體系中描述單元可以是句子層面的謂詞和與它相關(guān)聯(lián)的體詞，如謂詞與各種論元。由于藏語(yǔ)具有豐富的句法標(biāo)記，描述單元之間的關(guān)系更加清晰，因此能夠借鑒英漢組塊識(shí)別的方法，從高層語(yǔ)言單位切入分析藏語(yǔ)句法結(jié)構(gòu)和句法功能組塊。

現(xiàn)代藏語(yǔ)總的語(yǔ)序是主語(yǔ)－賓語(yǔ)－謂語(yǔ)，表達(dá)完整意義的擴(kuò)展句法語(yǔ)序是：主語(yǔ)＋（間接賓語(yǔ)）＋（直接賓語(yǔ)）＋（結(jié)果補(bǔ)語(yǔ)）＋（狀語(yǔ)）＋動(dòng)詞＋（狀態(tài)補(bǔ)語(yǔ)）［12］。從句法成分的各個(gè)位置上看，藏語(yǔ)句子中與句法組塊存在對(duì)應(yīng)關(guān)系的句法成分有主、賓、謂、狀、補(bǔ)①定語(yǔ)與中心語(yǔ)之間的標(biāo)記不能或者極少作為組塊邊界標(biāo)記，因此本文不單獨(dú)列示。，名詞或體詞的修飾語(yǔ)組塊未單獨(dú)列出。根據(jù)這些研究成果，本文建立了藏語(yǔ)功能組塊描述體系，如表1所示。

表1 藏語(yǔ)功能組塊描述體系

3 基于CRFs的藏語(yǔ)功能組塊識(shí)別

3.1 藏語(yǔ)功能組塊標(biāo)注集

為了將識(shí)別功能組塊邊界問題轉(zhuǎn)化為序列標(biāo)注問題，本文采用Start／End標(biāo)記集［18］來標(biāo)記功能組塊。標(biāo)記集中的每個(gè)標(biāo)記均由兩部分構(gòu)成：第一部分是詞語(yǔ)所屬功能組塊的類型標(biāo)記，具體如表1所示；第二部分為該詞語(yǔ)在功能組塊中的位置，起始位置用B表示，內(nèi)部位置用I表示，結(jié)束位置用E表示，只包含一個(gè)詞的塊用U表示；在這兩部分標(biāo)記之間用“－”來分隔。對(duì)于不屬于這幾類功能組塊的單詞和符號(hào)，統(tǒng)一使用N來標(biāo)記。

3.2 條件隨機(jī)域模型

藏語(yǔ)功能組塊邊界識(shí)別問題可以轉(zhuǎn)化為序列標(biāo)注問題，本文利用CRFs模型建立功能組塊的序列標(biāo)注模型。CRFs模型是一個(gè)基于無(wú)向圖的條件概率模型，具有表達(dá)長(zhǎng)距離依賴性和交疊性特征的能力，能夠較好地解決標(biāo)注（分類）偏置等問題，并求得全局的最優(yōu)解。CRFs模型在各類序列標(biāo)注問題中都顯示出了很好的處理效果，例如，詞類標(biāo)注、專有名詞識(shí)別、語(yǔ)義角色標(biāo)注等。選擇CRFs模型是因?yàn)樗軌蛉我馓砑佑行У奶卣飨蛄?，從而綜合利用詞、詞性等多層次的語(yǔ)言信息。

具體計(jì)算問題可以描述如下：設(shè)輸入的序列為X＝x1x2x3…xn，其中xi為一個(gè)詞語(yǔ)，并帶有相應(yīng)的詞性標(biāo)記，相應(yīng)的輸出序列為Y＝y(tǒng)1y2y3…yn，其中yi是標(biāo)注了功能塊標(biāo)記的詞語(yǔ)。則對(duì)一個(gè)輸入序列X進(jìn)行標(biāo)注的過程就是為其尋找一個(gè)最優(yōu)的輸出標(biāo)記序列Y的過程。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)語(yǔ)料及評(píng)價(jià)參數(shù)

實(shí)驗(yàn)使用Taku Kudo開發(fā)的開源CRF＋＋軟件包0.53。實(shí)驗(yàn)語(yǔ)料采用拉薩藏語(yǔ)口語(yǔ)語(yǔ)料庫(kù)，該語(yǔ)料庫(kù)標(biāo)注了詞性和功能組塊的邊界信息。由于標(biāo)注語(yǔ)料較少，我們采用交叉驗(yàn)證的方式，將語(yǔ)料平均分為4份，進(jìn)行了4次試驗(yàn)。試驗(yàn)結(jié)果是這4次試驗(yàn)數(shù)據(jù)的平均值。每次實(shí)驗(yàn)對(duì)語(yǔ)料按8∶2進(jìn)行劃分，其中訓(xùn)練集包含800個(gè)句子，測(cè)試集包含200個(gè)句子。使用自然語(yǔ)言處理常用的評(píng)價(jià)方法對(duì)功能組塊邊界識(shí)別性能進(jìn)行評(píng)價(jià)：

（1）準(zhǔn)確率（Precision）：

P＝（正確功能組塊數(shù)／召回組塊總數(shù)）×100%

（2）召回率（Recall）：

R＝（正確功能組塊數(shù)／功能組塊總數(shù)）×100%

（3）F－1測(cè)度（F－1measure）：

F＝（2×P×R）／（P＋R）

4.2 特征模板

CRFs模型識(shí)別功能塊邊界的關(guān)鍵在于特征的選擇，其恰當(dāng)與否會(huì)對(duì)識(shí)別結(jié)果產(chǎn)生直接的影響。通常來講，豐富的上下文特征對(duì)于識(shí)別精確率的提高有著積極的作用，但會(huì)給訓(xùn)練和測(cè)試過程帶來很大的開銷。因此，應(yīng)在保證實(shí)驗(yàn)效果的情況下，所選取的特征應(yīng)盡可能少。本文在進(jìn)行特征選擇的時(shí)候，考慮到詞和詞性及其上下文之間存在著的種種依賴關(guān)系，嘗試將當(dāng)前位置的前后兩個(gè)詞及詞性作為特征。這種組合包括了詞和詞性標(biāo)記的組合信息，可以對(duì)模型提供更豐富的識(shí)別信息。本實(shí)驗(yàn)利用不同模板進(jìn)行了分組實(shí)驗(yàn)，詳見表3。

表3 功能塊邊界識(shí)別特征模板

4.3 實(shí)驗(yàn)結(jié)果

利用表2的特征模板，利用訓(xùn)練語(yǔ)料對(duì)CRFs模型進(jìn)行訓(xùn)練，再利用得到的模型對(duì)測(cè)試語(yǔ)料進(jìn)行標(biāo)注，最后得到功能組塊邊界識(shí)別結(jié)果。表4為在不同特征模板下訓(xùn)練的CRF模型自動(dòng)識(shí)別功能組塊的效果。

表4 CRFs識(shí)別結(jié)果

實(shí)驗(yàn)結(jié)果表明，采用template3時(shí)識(shí)別模型效果最好，F(xiàn)值達(dá)到了83.56%。這比template1提升了9.8%，比template2提升了6.6%，說明前一個(gè)詞和當(dāng)前詞轉(zhuǎn)移概率特征的加入，使得系統(tǒng)能夠識(shí)別出更多的功能塊，尤其對(duì)功能塊準(zhǔn)確率的提高更為明顯。template4的實(shí)驗(yàn)效果不如template3好，這證明采用“前一個(gè)詞和當(dāng)前詞的轉(zhuǎn)移概率特征”比“后一個(gè)詞和當(dāng)前詞的轉(zhuǎn)移概率特征”效果好。雖然豐富的上下文特征能夠提高模型的性能，然而template3的效果卻比template5要好，這說明在某些情況下，過多的上下文特征，反而會(huì)使識(shí)別效果下降。

4.4 錯(cuò)誤分析

在使用CRFs模型對(duì)功能組塊邊界進(jìn)行識(shí)別后，錯(cuò)誤率仍然較高，主要的原因有以下幾個(gè)方面。

（1）復(fù)雜名詞組塊分析錯(cuò)誤：藏語(yǔ)名詞組塊功能多樣、結(jié)構(gòu)復(fù)雜，尤其是遇到名詞組塊嵌套的情況，其識(shí)別結(jié)果往往出現(xiàn)錯(cuò)誤。

（3）由于可用的訓(xùn)練語(yǔ)料過少，數(shù)據(jù)稀疏問題影響了CRFs模型的識(shí)別效果。而且對(duì)于句子結(jié)構(gòu)的不同理解，也給標(biāo)注造成一些不一致的情況。由于功能組塊標(biāo)注是采用人工標(biāo)注，在工作中難免存在主觀因素的影響。如果能夠采用機(jī)器初步標(biāo)注，后期再進(jìn)行人工校對(duì)的方式，就可以避免標(biāo)注手法不一致對(duì)結(jié)果的影響。

5 結(jié)束語(yǔ)

在以往研究的基礎(chǔ)上，本文將CRFs模型引入藏語(yǔ)功能組塊邊界識(shí)別工作，嘗試使用不同語(yǔ)言信息構(gòu)造特征模板，進(jìn)而構(gòu)建不同的識(shí)別模型。實(shí)驗(yàn)結(jié)果表明，基于統(tǒng)計(jì)的方法在塊邊界識(shí)別中效果比較明顯。在下一步工作當(dāng)中，我們一方面要進(jìn)一步擴(kuò)大訓(xùn)練語(yǔ)料和確定更優(yōu)的特征，另一方面可以引入錯(cuò)誤驅(qū)動(dòng)的方法對(duì)處理結(jié)果加以校正。

［1］Abney S P.Parsing by chunks［M］.Springer Netherlands，1992.

［2］周俏麗，劉新，郎文靜，等.基于分治策略的組塊分析［J］.中文信息學(xué)報(bào)，2012，26（5）：120－128.

［3］周強(qiáng).漢語(yǔ)基本塊描述體系［J］.中文信息學(xué)報(bào)，2007，21（3）：21－27.

［4］周俊生，戴新宇，陳家俊等.基于大間隔方法的漢語(yǔ)組塊分析［J］.軟件學(xué)報(bào)，2009，20（4）：870－877.

［5］黃德根，王瑩瑩.基于SVM的組塊識(shí)別及其錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法［J］.中文信息學(xué)報(bào)，2006，20（6）：17－24.

［6］周強(qiáng)，李玉梅.漢語(yǔ)塊分析測(cè)評(píng)任務(wù)設(shè)計(jì)［J］.中文信息學(xué)報(bào)，2010，24（1）：123－128.

［7］黃德根，于靜.分布式策略與CRFs相結(jié)合識(shí)別漢語(yǔ)組塊［J］.中文信息學(xué)報(bào)，2009，23（1）：16－22.

［8］李國(guó)臣，王瑞波，李濟(jì)洪.基于條件隨機(jī)場(chǎng)模型的漢語(yǔ)功能塊自動(dòng)標(biāo)注［J］.計(jì)算機(jī)研究與發(fā)展，2010（002）：336－343.

［9］劉海霞，黃德根.語(yǔ)義信息與CRF結(jié)合的漢語(yǔ)功能塊自動(dòng)識(shí)別［J］.中文信息學(xué)報(bào)，2011，25（5）：53－59.

［10］周強(qiáng)，趙穎澤.漢語(yǔ)功能塊自動(dòng)分析［J］.中文信息學(xué)報(bào)，2007，21（5）：18－24.

［11］江荻.現(xiàn)代藏語(yǔ)組塊分詞的方法與過程［J］.民族語(yǔ)文，2003，4：31－39.

［12］江荻.面向及其處理的現(xiàn)代藏語(yǔ)句法規(guī)則和詞類、組塊標(biāo)注集.江荻、孔江平，中國(guó)民族語(yǔ)言工程研究新進(jìn)展［M］，北京：社會(huì)科學(xué)文獻(xiàn)出版社，2005：13－106.

［13］龍從軍，江荻.現(xiàn)代藏語(yǔ)帶助動(dòng)詞的謂語(yǔ)組塊及其識(shí)別.江荻、孔江平，中國(guó)民族語(yǔ)言工程研究新進(jìn)展［M］，北京：社會(huì)科學(xué)文獻(xiàn)出版社，2005：123－135.

［14］Jiang Di，Hu Hong－yan.The construction and identification approaches of adjectival predicate in modern Tibetan［J］.Studies in Language and Linguistics，2005，25（2）：115－122.

［15］黃行，孫宏開，江荻，等.現(xiàn)代藏語(yǔ)名詞組塊的類型及形式標(biāo)記特征［C］／／全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議（JSCL－2005）論文集.2005.

［16］黃行，江荻.現(xiàn)代藏語(yǔ)判定動(dòng)詞句主賓語(yǔ)的自動(dòng)識(shí)別方法［J］.，孫茂松，語(yǔ)言計(jì)算與基于內(nèi)容的文本處理，2003：172.

［17］江荻.藏語(yǔ)述說動(dòng)詞小句賓語(yǔ)及其標(biāo)記［J］.中文信息學(xué)報(bào)，2007，21（4）：111－115.

［18］Manabu Sassano and Takehito Utsuro.Named Entity Chunking Techniques in Supervised Learning for Japanese Named Entity Recognition［C］／／Proceedings of COLING 2000：705－711.