桑樂園,黃德根
(大連理工大學(xué)電信學(xué)部計(jì)算機(jī)學(xué)院,遼寧大連116024)
介詞短語(Preposition Phrase,PP)是漢語中一種重要的短語類型,對(duì)句法分析、機(jī)器翻譯、信息檢索有著重要作用。介詞[1]起標(biāo)記作用,與名詞、名詞短語或其他詞語構(gòu)成PP,充當(dāng)狀語、賓語、補(bǔ)語等成分,用于補(bǔ)充謂語或說明賓語。PP的正確識(shí)別能夠大大降低句法分析的難度,提高機(jī)器翻譯的性能,對(duì)信息檢索及文本分類效果都有較大的提升。因此,PP識(shí)別作為自然語言處理的一部分,具有重要的意義。
國內(nèi)外學(xué)者針對(duì)PP的自動(dòng)定界問題展開了各種探索和研究。在英語方面的代表性方法包括:基于規(guī)則的轉(zhuǎn)換算法[2],啟發(fā)式無監(jiān)督的統(tǒng)計(jì)算法[3],基于句法分析及語義分析的消歧算法[4]等,這些方法針對(duì)英語PP的構(gòu)詞規(guī)則,應(yīng)用到漢語PP識(shí)別上效果較差。由于漢語PP內(nèi)部結(jié)構(gòu)復(fù)雜且定界不明,目前識(shí)別結(jié)果的F-值大都在90%左右。漢語PP識(shí)別的方法[5-8]集中在淺層句法分析上,即在分詞及詞性標(biāo)注后,用一個(gè)模型將PP作為一個(gè)整體識(shí)別出來。干俊偉等人[5]提出了基于三元統(tǒng)計(jì)模型的方法,首先利用搭配模板獲取可信搭配關(guān)系,依據(jù)可信搭配關(guān)系識(shí)別PP,然后利用三元統(tǒng)計(jì)模型與規(guī)則相結(jié)合的方法識(shí)別可信搭配關(guān)系未識(shí)別出來的PP,文中的三元統(tǒng)計(jì)模型中只考慮了介詞、后界的詞性及后詞的詞性三個(gè)特征,考慮的特征少,其F-值僅為87.37%;奚建清等人[6]提出了基于HMM模型的PP識(shí)別方法,并應(yīng)用依存語法進(jìn)行錯(cuò)誤校正,由于PP內(nèi)部結(jié)構(gòu)比較復(fù)雜,利用簡(jiǎn)單特征函數(shù)無法涵蓋其所有特性,而HMM模型無法使用復(fù)雜特征,其F-值僅為85.67%;盧朝華等人[7]提出了基于最大熵模型的PP識(shí)別方法,并采用基于依存語法的錯(cuò)誤界定方法對(duì)識(shí)別結(jié)果進(jìn)行校正,由于最大熵模型不能統(tǒng)計(jì)特征的強(qiáng)度,并且數(shù)據(jù)稀疏問題嚴(yán)重,其F-值為88.22%;張杰[8]提出了基于多層CRFs的PP識(shí)別方法,并采用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法對(duì)識(shí)別結(jié)果進(jìn)行校正,識(shí)別F-值達(dá)到91.95%,是目前發(fā)表的識(shí)別結(jié)果最好的方法,但文中對(duì)PP的分析局限在詞上,沒有考慮PP的內(nèi)部成分特點(diǎn),仍有提升空間。PP是由介詞與其他實(shí)體短語一起構(gòu)成,若先對(duì)語料進(jìn)行實(shí)體短語識(shí)別,可以簡(jiǎn)化PP的內(nèi)部結(jié)構(gòu),從而降低PP識(shí)別的復(fù)雜性??紤]到PP中介詞后面的短語大多是由名詞短語構(gòu)成,本文提出基于名詞短語識(shí)別的PP識(shí)別方法。
漢語名詞短語識(shí)別[9-12]分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。Cardie等人[9]提出了一種基于基本名詞短語(Base Noun Phrase,BNP)的詞性串的規(guī)則剪枝方法;錢小飛等人[11]則提出了一種基于CRF模型的最長(zhǎng)名詞短語(Maximal Noun Phrase,MNP)識(shí)別方法,并制定了基于邊界信息和內(nèi)部結(jié)構(gòu)信息的規(guī)則庫對(duì)識(shí)別結(jié)果進(jìn)行校正;孫玉祥[12]提出了基于CRF模型的簡(jiǎn)單名詞短語(Simple Noun Phrase,SNP)的識(shí)別方法,并利用基于語義分析的規(guī)則庫對(duì)識(shí)別結(jié)果進(jìn)行校正。BNP簡(jiǎn)單易識(shí)別,但易將作為整體結(jié)構(gòu)的短語割裂細(xì)化,形成粒度過小的短語結(jié)構(gòu),失去了在PP識(shí)別中加入名詞短語識(shí)別的意義;而MNP識(shí)別粒度大,有利于句子整體結(jié)構(gòu)分析,但卻合并了一些PP到MNP內(nèi),反而使識(shí)別PP的效果降低;SNP是指內(nèi)部不包含復(fù)雜修飾成分的名詞短語,其復(fù)雜程度介于BNP和MNP之間,既能保留充分的語法信息,又能夠減少歧義問題,進(jìn)而提高PP識(shí)別的精度和效率,因此本文采用融入SNP信息到PP識(shí)別方法中對(duì)其進(jìn)行優(yōu)化。
綜上,本文提出一種基于SNP的PP識(shí)別方法,即通過分詞融合將SNP信息融入到語料中,并對(duì)其訓(xùn)練得到多層PP識(shí)別模型,再使用該模型識(shí)別測(cè)試語料中的PP,最后使用規(guī)則校正其識(shí)別結(jié)果,得到最終識(shí)別結(jié)果。
本文把SNP識(shí)別問題及PP識(shí)別問題視為序列標(biāo)注問題,即通過CRF模型對(duì)測(cè)試語料進(jìn)行序列標(biāo)注,識(shí)別出SNP及PP。首先,把語料進(jìn)行分詞及詞性標(biāo)注,即把句子處理為S=word(1)/pos(1)word(2)/pos(2)…word(i)/pos(i)…word(n)/pos(n)格式(其中word(i)為句子中的第i個(gè)詞,pos(i)為第i個(gè)詞的詞性,n為句子S中含有詞的個(gè)數(shù))。目標(biāo)為獲得一個(gè)對(duì)應(yīng)的標(biāo)注序列T=T(1)T(2)…T(n),使得該序列在所有可能的標(biāo)注序列中概率最大,其中SNP識(shí)別過程中T(i)∈{B,I,O},B表示SNP的起始詞,I表示SNP的內(nèi)部詞語,O表示SNP的外部詞語,而PP識(shí)別過程中T(i)∈{B,I,E,O},B表示PP的起始邊界,I表示PP的內(nèi)部詞語,E表示PP的后邊界,O表示PP的外部詞語。
通過CRF機(jī)器學(xué)習(xí)模型[13]能夠充分地利用詞語的上下文信息特征,使用無向圖理論使序列標(biāo)注的結(jié)果達(dá)到整個(gè)序列上的全局最優(yōu),適用于詞性標(biāo)注及淺層句法分析任務(wù)。
本文使用線性鏈CRF,即給定參數(shù)Λ=(λ1,λ2,...,λn),定義在觀測(cè)序列X=x1,x2,...,xT上對(duì)應(yīng)的狀態(tài)序列Y=y(tǒng)1,y2,...,yT的條件概率為式(1)。
其中ZX是所有狀態(tài)序列的歸一化因子,fk(yt-1,yt,x,t)為關(guān)于整個(gè)觀測(cè)序列X、位置t以及位置t-1標(biāo)記的二值特征向量函數(shù),λk是在訓(xùn)練中得到的fk的權(quán)重,k的取值范圍取決于模版中特征的數(shù)量。訓(xùn)練的目標(biāo)是為CRF模型找到最優(yōu)的λ值,找到后即可用Viterbi算法對(duì)未標(biāo)記序列(測(cè)試語料)進(jìn)行序列標(biāo)注。序列標(biāo)注的任務(wù)就是求出使條件概率PΛ(Y|X)最大的Y,即最大可能的標(biāo)記序列為式(2)。
對(duì)語料進(jìn)行SNP識(shí)別后,依據(jù)識(shí)別出的SNP對(duì)詞語進(jìn)行分詞及詞性標(biāo)注合并,將融合后的SNP的詞性標(biāo)記為“COM-NOUN”。舉例如下:
初始分詞及詞性標(biāo)注為:給/PREP自身/PERSON-PRON和/CNJ他人/PERSON-PRON的/DE-1生命/COM-NOUN財(cái)產(chǎn)/COM-NOUN安全/COM-NOUN造成/NVERB嚴(yán)重/ADJ威脅/NVERB-N。/WJ
識(shí)別出來的SNP為:生命財(cái)產(chǎn)安全、嚴(yán)重威脅
分詞融合后的分詞及詞性標(biāo)注為:給/PREP自身/PERSON-PRON和/CNJ他人/PERSONPRON的/DE-1生命財(cái)產(chǎn)安全/COM-NOUN造成/NVERB嚴(yán)重威脅/COM-NOUN。/WJ
首先,使用CRF構(gòu)建SNP識(shí)別模型,并使用該模型識(shí)別語料中的SNP,使用規(guī)則庫校正其識(shí)別結(jié)果得到SNP識(shí)別結(jié)果;之后,依據(jù)SNP識(shí)別結(jié)果對(duì)語料進(jìn)行分詞融合,采用CRF構(gòu)建多層PP識(shí)別模型;最后,利用建立的PP識(shí)別模型識(shí)別PP,并通過錯(cuò)誤驅(qū)動(dòng)方法及語義分析確定轉(zhuǎn)換規(guī)則集,校正識(shí)別出的PP,得到最終結(jié)果。
本文使用CRF模型對(duì)語料進(jìn)行SNP識(shí)別,并且針對(duì)PP內(nèi)名詞短語的特性制定了規(guī)則庫進(jìn)行結(jié)果校正。
3.1.1 特征抽取及特征模板
本文使用的特征為詞特征(word)、詞性特征(pos),選取特征窗口大小為5,特征模板如表1所示,其中括號(hào)中的數(shù)字表示詞的位置,如word(-1)表示當(dāng)前詞的前詞,word(0)表示當(dāng)前詞,word(1)表示當(dāng)前詞的后詞。
表1 SNP識(shí)別特征模板
3.1.2 規(guī)則庫
依據(jù)PP內(nèi)名詞短語的特性制定以下規(guī)則,該規(guī)則能較好地校正SNP識(shí)別結(jié)果,并在最大程度上不合并PP的后界和后詞,明顯提升PP的識(shí)別效果。
1)若識(shí)別出的SNP的前詞為程度副詞時(shí),該程度副詞修飾SNP的第一個(gè)詞,且第一個(gè)詞為形容詞,則將程度副詞合并到SNP中。如識(shí)別出的SNP為“好結(jié)果”,“好”的前詞為副詞“更”,合并“更”到短語內(nèi),則SNP為“更好結(jié)果”;
2)短語內(nèi)部包含并列成分,采用語義相似度和詞語組合數(shù)據(jù)庫方法進(jìn)行并列消歧,分為三種情況,如表2所示;
表2 并列歧義的三種情形
3)若SNP后界為機(jī)構(gòu)名時(shí),則SNP的后界為其前詞;
4)若SNP的后界為“全部”、“全程”等副詞,則SNP的后界為副詞的前詞;
5)當(dāng)SNP的前詞為介詞“沿”、“依”時(shí),若組成SNP的前兩個(gè)詞為名詞,且SNP由三個(gè)或三個(gè)以上詞構(gòu)成時(shí),則其前界為名詞的后詞,否則,標(biāo)記不是SNP;
6)若SNP的后界為“每個(gè)”等指示性代詞,則SNP的后界為其前詞。
3.2.1 特征抽取及特征模板
本文使用張杰[8]的特征抽取方式,使用原子特征模板和復(fù)合特征模板,選擇特征窗口的大小為5。原子特征模板即基本特征,選擇以下基本特征:
1)詞特征(word);
2)詞性特征(pos):即詞性標(biāo)注;
3)候選前界特征(CFB):即當(dāng)前分句中該詞前是否存在候選介詞。若存在候選介詞,則標(biāo)記為該介詞,若不存在,則標(biāo)記為“N”;
4)候選后界特征(CLB):即當(dāng)前詞是否可以作為介詞短語的后界。使用式(3)計(jì)算當(dāng)前詞作為后界的概率,本文選擇閾值為0.05,即若概率大于0.05,則標(biāo)記該特征為“Y”,否則標(biāo)為“N”。
5)候選后詞特征(CLW):即當(dāng)前詞是否可以作為介詞短語后面的詞。利用式(4)計(jì)算當(dāng)前詞作為后詞的概率,本文選擇的閾值為0.05,即若概率大于0.05,則標(biāo)記該特征為“Y”,否則標(biāo)為“N”。
6)詞長(zhǎng)特征:即當(dāng)前詞的長(zhǎng)度。復(fù)合模板側(cè)重特征間的搭配關(guān)系,提高了介詞短語識(shí)別的精度。復(fù)合特征模板如表3所示,其中括號(hào)中的數(shù)字表示詞的位置,如word(0)表示當(dāng)前詞。
表3 PP識(shí)別特征模板
3.2.2 轉(zhuǎn)換規(guī)則集
該轉(zhuǎn)換規(guī)則集由兩部分構(gòu)成,一部分是通過錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)(Transformation-based error-driven learning,TBL)自動(dòng)獲??;另一部分是通過語義分析得到的固定搭配[1]。TBL的基本思想是通過錯(cuò)誤驅(qū)動(dòng)來修改標(biāo)記結(jié)果,根據(jù)預(yù)先設(shè)計(jì)好的轉(zhuǎn)換模板和目標(biāo)函數(shù)尋找修正錯(cuò)誤最多的轉(zhuǎn)換規(guī)則,用生成的規(guī)則對(duì)標(biāo)注結(jié)果進(jìn)行修正。重復(fù)上述過程,直到無新規(guī)則產(chǎn)生。這部分規(guī)則由觸發(fā)條件和轉(zhuǎn)換規(guī)則組成。在進(jìn)行結(jié)果校正時(shí),若滿足觸發(fā)條件,用相應(yīng)的轉(zhuǎn)換規(guī)則對(duì)當(dāng)前結(jié)果進(jìn)行修改。例如,若分句為“統(tǒng)統(tǒng)/ADV記/COM-VERB在/PREP參加保險(xiǎn)者/COM-NOUN的/DE-1名下/COM-NOUN”,其標(biāo)注結(jié)果為“O O B E O O”,滿足觸發(fā)條件介詞為“在”且其前面是動(dòng)詞,若分句中存在“的”,則標(biāo)記“的”后的詞為“E”,介詞后的詞到“的”標(biāo)記為“I”(轉(zhuǎn)換條件),因此修改標(biāo)注結(jié)果為“O O B I I E”。固定搭配是通過對(duì)PP進(jìn)行語義分析得到的,如“對(duì)……來說”、“當(dāng)……時(shí)”。當(dāng)進(jìn)行結(jié)果校正時(shí),若當(dāng)前分句滿足固定搭配,則修改其標(biāo)注結(jié)果。例如,若一個(gè)分句滿足“對(duì)……來說”規(guī)則,則將“對(duì)”和“來說”兩詞中間的詞標(biāo)注結(jié)果改為“I”,“來說”的標(biāo)注結(jié)果改為“E”,“來說”后詞的標(biāo)注結(jié)果改為“O”。
本文的實(shí)驗(yàn)語料是《人民日?qǐng)?bào)》2000年的語料,該語料經(jīng)過NIHAO分詞工具[14]進(jìn)行分詞及詞性標(biāo)注,為保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,進(jìn)行了人工校正。訓(xùn)練語料需格式化使其適合CRF訓(xùn)練,而測(cè)試語料需刪除不包含PP的句子后再進(jìn)行格式化,然后使用CRF進(jìn)行序列標(biāo)注。所有語料共包含7 049個(gè)PP。本文將語料平均分成五份,即語料1,語料2,語料3,語料4,語料5。實(shí)驗(yàn)采用五倍交叉驗(yàn)證,即用其中四份作為訓(xùn)練語料,另一份作為測(cè)試語料,進(jìn)行五次實(shí)驗(yàn)。本文將五次實(shí)驗(yàn)結(jié)果的平均值作為最后的識(shí)別結(jié)果。
本文針對(duì)PP識(shí)別進(jìn)行了四個(gè)對(duì)比實(shí)驗(yàn):實(shí)驗(yàn)1是直接使用PP識(shí)別模型對(duì)測(cè)試語料進(jìn)行PP識(shí)別得到的實(shí)驗(yàn)結(jié)果;實(shí)驗(yàn)2是首先對(duì)測(cè)試語料進(jìn)行SNP識(shí)別,分詞融合后使用PP識(shí)別模型對(duì)測(cè)試語料進(jìn)行PP識(shí)別得到的實(shí)驗(yàn)結(jié)果;實(shí)驗(yàn)3是對(duì)實(shí)驗(yàn)1的實(shí)驗(yàn)結(jié)果利用規(guī)則庫處理后得到的實(shí)驗(yàn)結(jié)果;實(shí)驗(yàn)4是對(duì)實(shí)驗(yàn)2的實(shí)驗(yàn)結(jié)果進(jìn)行規(guī)則處理后得到的實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)2的精確率、召回率及F值比實(shí)驗(yàn)1分別提高了0.57%、0.56%、0.56%,說明加入簡(jiǎn)單名詞短語識(shí)別后的PP識(shí)別的效果有了明顯的提高;加入規(guī)則后,實(shí)驗(yàn)3和實(shí)驗(yàn)4的精確率、召回率、F-值分別提高了0.53個(gè)百分點(diǎn)和1.28個(gè)百分點(diǎn),說明規(guī)則庫對(duì)識(shí)別效果是有明顯的提升作用,實(shí)驗(yàn)4比實(shí)驗(yàn)3的F-值多提升0.75個(gè)百分點(diǎn),說明規(guī)則庫更適合SNP識(shí)別后的PP識(shí)別。
表4 PP識(shí)別結(jié)果
參照表5中各個(gè)參考文獻(xiàn)PP的識(shí)別結(jié)果可知,HMM模型識(shí)別PP的效果最差,這是由于介詞短語內(nèi)部結(jié)構(gòu)比較復(fù)雜,使用簡(jiǎn)單特征函數(shù)不能涵蓋其關(guān)鍵特性,致使識(shí)別效果最差;三元模型只考慮三個(gè)基本特征,忽略了其他比較重要的特征,如后詞、后界,致使識(shí)別結(jié)果的F-值僅為87.37%;最大熵模型不忽略PP的任意特征,使其識(shí)別效果高于前兩個(gè)文獻(xiàn)的識(shí)別結(jié)果,但最大熵模型不能統(tǒng)計(jì)特征強(qiáng)度,降低了部分重要特征的權(quán)重,使其實(shí)驗(yàn)結(jié)果仍差強(qiáng)人意;CRF模型能夠較好的利用上下文信息,并且通過特征的重要性對(duì)其加權(quán),使識(shí)別結(jié)果較好;本文通過對(duì)PP內(nèi)部結(jié)構(gòu)進(jìn)行分析,把SNP信息融入到PP識(shí)別方法中,降低了PP內(nèi)部的復(fù)雜結(jié)構(gòu),提高了識(shí)別的精度和效率,精確率、召回率及F-值,分別比文獻(xiàn)[8]的方法高1.04%、1.03%、1.04%,說明了該方法的有效性。
表5 與其他文獻(xiàn)的結(jié)果對(duì)比
本文提出了融合簡(jiǎn)單名詞短語信息的介詞短語自動(dòng)識(shí)別方法,首先抽取語料中的簡(jiǎn)單名詞短語;之后將簡(jiǎn)單名詞短語融合為單一的名詞,并標(biāo)注其詞性為普通名詞;最后通過多層CRFs模型識(shí)別介詞短語。該方法通過降低介詞短語內(nèi)部結(jié)構(gòu)的復(fù)雜性,提高了識(shí)別結(jié)果,其F-值為92.99%。實(shí)驗(yàn)結(jié)果表明,本文方法比目前發(fā)表的最好的實(shí)驗(yàn)結(jié)果高1.03個(gè)百分點(diǎn),驗(yàn)證了簡(jiǎn)單名詞短語信息在介詞短語識(shí)別中的重要性。接下來我們將加入簡(jiǎn)單名詞短語內(nèi)部的詞性等細(xì)粒度信息,并且尋找更優(yōu)的規(guī)則對(duì)簡(jiǎn)單名詞短語識(shí)別結(jié)果進(jìn)行校正,以進(jìn)一步提高介詞短語識(shí)別的性能。
[1] 張誼生,張斌.現(xiàn)代漢語虛詞[M].上海:華東師范大學(xué)出版社,2000.
[2] Brill E,Resnik P.A rule-based approach to prepositional phrase attachment disambiguation[C]//Proceedings of the 15th conference on Computational linguistics-Volume 2.Association for Computational Linguistics,1994:1198-1204.
[3] Ratnaparkhi A.Statistical models for unsupervised prepositional phrase attachment[C]//Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics-Volume 2.Association for Computational Linguistics,1998:1079-1085.
[4] Branigan H P,Pickering M J,McLean J F.Priming prepositional-phrase attachment during comprehension[J].Journal of Experimental Psychology:Learning,Memory,and Cognition,2005,31(3):468-481.
[5] 干俊偉,黃德根.漢語介詞短語的自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2005,19(4):17-23.
[6] 奚建清,羅強(qiáng).基于HMM的漢語介詞短語自動(dòng)識(shí)別研究[J].計(jì)算機(jī)工程,2008,33(3):172-173,182.
[7] 盧朝華,黃廣君,郭志兵.基于最大熵的漢語介詞短語識(shí)別研究[J].通信技術(shù),2010(05):181-183,186.
[8] 張杰.基于多層CRFs的漢語介詞短語識(shí)別研究[D].大連:大連理工大學(xué)碩士學(xué)位論文,2013.
[9] Cardie C,Pierce D.Error-driven pruning of treebank grammars for base noun phrase identification[C]//Proceedings of the 17th international conference on Computational linguistics-Volume 1.Association for Computational Linguistics,1998:218-224.
[10] 胡乃全,朱巧明,周國棟.混合的漢語基本名詞短語識(shí)別方法[J].計(jì)算機(jī)工程,2009,35(20):199-201.
[11] 錢小飛,侯敏.基于混合策略的漢語最長(zhǎng)名詞短語識(shí)別[J].中文信息學(xué)報(bào),2013,27(6):16-22.
[12] 孫玉祥.漢語簡(jiǎn)單名詞短語自動(dòng)識(shí)別的研究[D].大連:大連理工大學(xué)碩士學(xué)位論文,2014.
[13] Lafferty J,McCallum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning 2001:282-289.
[14] Degen H,Deqin T.Context information and fragments based cross-domain word segmentation[J].China Communications,2012,9(3):49-57.