于江德,胡順義,余正濤
(1.安陽師范學(xué)院計算機(jī)與信息工程學(xué)院,河南安陽455000;2.昆明理工大學(xué)信息工程與自動化學(xué)院,云南昆明650051)
在中文信息處理領(lǐng)域,漢語詞法分析是一項重要的基礎(chǔ)性研究課題。它不僅是句法分析、語義分析、篇章理解等深層中文信息處理的基礎(chǔ),也是機(jī)器翻譯、問答系統(tǒng)、信息檢索和信息抽取等應(yīng)用的關(guān)鍵環(huán)節(jié)[1-3]。漢語詞法分析包括漢語分詞、詞性標(biāo)注與命名實體識別三項子任務(wù),在國內(nèi)外一些相關(guān)的評測中,常常將它們作為三個獨(dú)立的子任務(wù)進(jìn)行評測。在已有的研究中,大部分研究者也習(xí)慣將三項子任務(wù)獨(dú)立起來加以考慮,習(xí)慣于將漢語分詞和詞性標(biāo)注依次處理,分詞之后再在詞序列基礎(chǔ)上考慮詞性標(biāo)注問題。這種將漢語詞法分析的三項子任務(wù)獨(dú)立處理的方法,雖然符合人們對漢語詞法分析的認(rèn)知規(guī)律,但容易造成錯誤向上傳遞放大累加,且多類信息難以整合利用的不足。針對這一問題,本文提出一種三位一體字標(biāo)注的漢語詞法分析方法,該方法將漢語詞法分析過程看作字序列的標(biāo)注過程,在每個字的標(biāo)記中融合了詞位、詞性、命名實體三類信息,采用序列數(shù)據(jù)標(biāo)注模型之一的最大熵模型實現(xiàn)了漢語分詞、詞性標(biāo)注、命名實體識別三位一體的漢語詞法分析。并在Bakeoff2007語料上進(jìn)行了實驗,分析了最大熵模型迭代次數(shù)對標(biāo)注性能的影響,將字標(biāo)注漢語分詞,詞語序列基礎(chǔ)上漢語詞性標(biāo)注,字標(biāo)注命名實體識別作為Baseline,通過大量實驗對比了它們和三位一體字標(biāo)注漢語詞法分析方法的性能。
對于漢語詞法分析這一問題,國內(nèi)外已經(jīng)進(jìn)行了大量研究,在已有的研究中,多數(shù)研究將漢語詞法分析的三項子任務(wù)獨(dú)立起來進(jìn)行,也有一些學(xué)者對漢語詞法分析的分詞、詞性標(biāo)注、命名實體識別三項任務(wù)的一體化進(jìn)行了探索。白栓虎在1996年就提出了基于統(tǒng)計的漢語詞語切分和詞性標(biāo)注一體化模型,在詞語切分中充分利用詞性標(biāo)注的信息,來消除切分歧義[4]。劉群、張華平等提出了基于層疊隱馬模型的漢語詞法分析方法,將漢語分詞、詞性標(biāo)注、切分排歧和未登錄詞識別集成到一個完整的理論框架中[2]。文獻(xiàn)[5]深入比較了分詞、詞性標(biāo)注兩步走和一體化的優(yōu)劣,認(rèn)為基于字標(biāo)注的一體化分詞和詞性標(biāo)注方法是最佳方案,其分詞系統(tǒng)獲得了SIGHAN2003四個測試語料中三項封閉測試第一,同時又肯定了兩步走方案在訓(xùn)練和測試時間上的優(yōu)勢。石民等探索了古代漢語,特別是先秦文獻(xiàn)中的詞語切分和詞性標(biāo)注一體化的方法[6]。文獻(xiàn)[7-9]也都研究了漢語分詞和詞性標(biāo)注的一體化問題。
本文在前人研究的基礎(chǔ)上提出一種三位一體字標(biāo)注的漢語詞法分析方法,該方法將漢語詞法分析三個子任務(wù)全部統(tǒng)一到字標(biāo)注的框架中,在每個字的標(biāo)記中包含了詞位、詞性、命名實體三類信息,形式為“詞位_詞性或命名實體類別”,字標(biāo)記由兩部分組成,中間用下劃線隔開,下劃線之前是詞位信息,之后是詞性或命名實體類別信息。其中,詞位是指該字在所構(gòu)成的特定詞語中所占據(jù)的構(gòu)詞位置,本研究中規(guī)定字只有四種詞位:B(詞首)、M(詞中)、E(詞尾)和S(單字成詞)。根據(jù)字序列標(biāo)記中的詞位信息就可以實現(xiàn)漢語分詞。詞性是該字所在的特定詞語所屬詞語類別。本文所用詞性標(biāo)注集為北京大學(xué)計算語言學(xué)研究所的詞性標(biāo)注集。如果該字所在的詞語為命名實體,則標(biāo)記中下劃線后為相應(yīng)命名實體類別。本文研究的命名實體包括人名、地名、組織機(jī)構(gòu)名三類,分別用PER、LOC、ORG標(biāo)識。根據(jù)字序列標(biāo)記中的詞性和命名實體類別部分可以分別實現(xiàn)漢語詞性標(biāo)注和命名實體識別。三位一體字標(biāo)注漢語詞法分析就是把詞法分析過程看作是一個字序列的標(biāo)注過程。如果一個漢語字串中每個字的標(biāo)記都確定了,那么該漢語字串的分詞、詞性標(biāo)注、命名實體識別也就完成了。例如,要對字串序列“中國政府順利恢復(fù)對香港行使主權(quán),”進(jìn)行詞法分析,只要得到該字串的標(biāo)注結(jié)果(圖1),然后再根據(jù)三位一體字標(biāo)注漢語詞法分析的思想,由標(biāo)注結(jié)果中的詞位部分可以得到分詞結(jié)果,由詞性或命名實體類別部分可以得到詞性標(biāo)注和命名實體識別結(jié)果,綜合這些結(jié)果就得到相應(yīng)的詞法分析結(jié)果。據(jù)此得到該字串的漢語詞法分析結(jié)果為“中國政府/ORG順利/ad恢復(fù)/v對/p香港/LOC行使/v主權(quán)/n,/wd”。
圖1 三位一體字標(biāo)注示意圖
另外,三位一體字標(biāo)注的漢語詞法分析中還有幾個問題需要注意:(1)對于漢語真實文本中包含的標(biāo)點(diǎn)符號、西文字母、數(shù)字等少量非漢字字符和漢字是否應(yīng)該同等對待?(2)標(biāo)注結(jié)果中多字詞的多個字的標(biāo)記中,每個字的詞性或命名實體類別標(biāo)記部分未必一致,這時該如何確定該詞的詞性或命名實體類別呢?是取詞首字的,還是詞尾字的或詞中字的標(biāo)記作為整個詞的詞性或命名實體類別的呢?例如,字標(biāo)注結(jié)果“希B_v望M_v工M_n程E_n”使得詞語“希望工程”可以選取詞性“動詞v”,也可以選取“名詞n”。本文根據(jù)實驗對比選取詞尾字的標(biāo)記作為整個詞語的詞性或命名實體類別。
由于最大熵模型可以有效地把各種約束條件整合在一起,近年來在自然語言處理領(lǐng)域被廣泛應(yīng)用[10-14]。本文采用最大熵模型實現(xiàn)三位一體字標(biāo)注,本小節(jié)重點(diǎn)解釋最大熵模型如何對三位一體字標(biāo)注建模。
最大熵模型是建立在最大熵理論基礎(chǔ)之上的。最大熵理論反映了自然界的一條基本原則:事物是約束和自由的統(tǒng)一體,并且在約束下事物總是爭取最大自由度,即最大熵。因此,在已知條件下,熵最大的事物,最可能接近它的真實狀態(tài)。基于最大熵理論對一個事物建模時,往往只掌握該事物的部分情況,對其他情況一無所知。建模時,對于已知的部分要盡量地擬合,使模型符合已知的情況。對于未知情況,讓可能出現(xiàn)的每種結(jié)果保持平均分布,使該事物的熵最大,這樣構(gòu)建的模型就是最大熵模型。
對于三位一體字標(biāo)注漢語詞法分析問題,給定一些訓(xùn)練樣本(x,y),其中x表示上下文,即字序列,y表示字的標(biāo)注序列,可根據(jù)這些已知的樣本構(gòu)建一個能夠?qū)嶋H問題進(jìn)行準(zhǔn)確描述的概率統(tǒng)計模型p(y|x)用來預(yù)測未知的標(biāo)記。該模型的概率分布與訓(xùn)練語料中的經(jīng)驗概率分布應(yīng)該相符。最大熵原理表明,x,y的正確分布應(yīng)該是在滿足訓(xùn)練語料中已知條件(約束)的情況下熵最大的分布,這樣構(gòu)建的模型是最大熵模型,其一般形式為式(1)。
其中,
Z(x)為歸一化因子,保證對所有可能的上下文x及其標(biāo)注y,p(y|x)=1。fi(x,y)是特征函數(shù),k為特征函數(shù)的數(shù)目,參數(shù)λi是反映特征函數(shù)fi對于模型重要程度的權(quán)重。這些特征函數(shù)用來描述已知的約束條件,一般情況下特征函數(shù)是一個二值函數(shù),形式如式(3)所示。
基于最大熵模型進(jìn)行三位一體字標(biāo)注首先要建立模型,其中的關(guān)鍵問題是針對三位一體字標(biāo)注這個特定任務(wù)為模型選擇合適的上下文特征,即篩選出對最大熵模型有表征意義的上下文特征,包括選取適當(dāng)?shù)纳舷挛姆秶驮O(shè)定特征模板集,即樣本窗口的大小設(shè)定和特征模板集的構(gòu)建。
3.2.1 樣本窗口的大小設(shè)定
采用最大熵模型進(jìn)行三位一體字標(biāo)注漢語詞法分析時,上下文將為正確的標(biāo)注提供所需的語言知識和相關(guān)資源。通常情況下,上下文的選取是基于當(dāng)前字左右一定范圍進(jìn)行的,這個固定的范圍被稱為“窗口”。窗口中的上下文實質(zhì)是一個特定樣本,所以將該窗口稱為“樣本窗口”。進(jìn)行詞法分析時所需的語言知識將從該窗口產(chǎn)生的大量樣本中進(jìn)行統(tǒng)計學(xué)習(xí)得到。建模時首先要考慮上下文范圍,即樣本窗口開設(shè)大小問題,這需要通過對比實驗看看多大的樣本窗口使得漢語詞法分析的性能最好。圖2是可能的樣本窗口的圖示,顯然可以根據(jù)需要來選取上下文的范圍,即樣本窗口的大小??梢韵薅颖敬翱谑恰?字窗口”,即使用當(dāng)前字前后各兩個字作為上下文。也可以限定樣本窗口是“3字窗口”,即使用當(dāng)前字前后各一個字作為上下文。
圖2 可能的樣本窗口
3.2.2 特征模板集的構(gòu)建
統(tǒng)計語言建模中上下文特征的刻畫是通過特征模板實現(xiàn)的。特征模板的主要功能是定義上下文中某些特定位置的語言成分或信息與某類待預(yù)測事件的關(guān)聯(lián)情況。由于本文是根據(jù)一個字串序列中的當(dāng)前字及其上下文來確定該字的標(biāo)記信息,因此就由該字前后出現(xiàn)的字、字的組合、詞位、詞性、命名實體類別等信息及這些信息出現(xiàn)的位置來確定上下文特征。習(xí)慣上,特征模板可以看作是對一組上下文特征按照共同的屬性進(jìn)行的抽象。在最大熵模型的訓(xùn)練學(xué)習(xí)中,每個特征都對應(yīng)了一組特征函數(shù),這些特征函數(shù)對最大熵模型的訓(xùn)練至關(guān)重要。而這些特征又是通過特征模板擴(kuò)展來的,所以設(shè)定合適的特征模板集就顯得尤為重要。
在使用MaxEnt工具包進(jìn)行三位一體字標(biāo)注漢語詞法分析時,在圖2所示的可能樣本窗口下,可以將上下文特征按照特征模板中出現(xiàn)的字與當(dāng)前字的字距屬性進(jìn)行抽象。表1給出了“5字窗口”下常用的十個特征模板及其表征的意義。表中的Cn代表當(dāng)前字和當(dāng)前字相距若干字位的字。例如,C0表示當(dāng)前字,C1表示當(dāng)前字的后一個字,C-1表示當(dāng)前字的前一個字,依此類推。從表1可以看到,最后一行的特征模板是:T-1T0,該模板用于表征上下文中相鄰兩個字標(biāo)記的轉(zhuǎn)移特征Ti-1→Ti。
表1 特征模板列表
根據(jù)圖2給出的可能樣本窗口,如果限定樣本窗口是“5字窗口”,則這一具體任務(wù)的上下文特征是指當(dāng)前字本身、以及當(dāng)前字前后各兩個字及其字標(biāo)記所組成的特征。針對三位一體字標(biāo)注漢語詞法分析這一具體任務(wù),“5字窗口”下常見上下文特征抽象為表1中列出的十類,記這種模板集為TMPT-10,該特征模板集包含的模板如表2所示。如果限定樣本窗口是“3字窗口”,即使用當(dāng)前字前后各一個字作為樣本窗口,則這一具體任務(wù)的字特征是指當(dāng)前字本身、以及當(dāng)前字前后各一個字及其標(biāo)記所組成的特征,此時的特征模板集為六特征模板集:TMPT-6。
表2 特征模板集列表
為了對漢語詞法分析中的特征模板有個“量”的認(rèn)識,我們從多個角度進(jìn)行定量分析并設(shè)計了相關(guān)實驗。表2列出了實驗中用到的幾組特征模板集。其中,序號1~3的特征模板集是“5字窗口”的模板集,序號4~6的特征模板集是“3字窗口”的模板集。另外,后綴“Single”和“Double”分別表示相應(yīng)特征模板集中的只有單個字的特征模板集和有雙字組合構(gòu)成的特征模板集。例如,T10-Single是指TMPT-10中單個字特征模板。另外,這六組特征模板集中都包含字標(biāo)記轉(zhuǎn)移特征。
本文所有實驗的軟硬件環(huán)境為:實驗所用計算機(jī)型號為DELL Optiplex 760臺式機(jī),其主要參數(shù)為:中央處理器:Intel(R)Core(TM)2Quad CPU Q8200 2.33GHZ;內(nèi)存:4GB;操作系統(tǒng):Microsoft Windows XP。
圖3 語料處理過程示意圖
本文采用的訓(xùn)練語料和測試語料是SIGHAN舉辦的第四屆國際漢語語言處理評測Bakeoff2007所使用的語料,是由北京大學(xué)(PKU)提供的漢語詞性標(biāo)注語料和命名實體語料,其中漢語詞性標(biāo)注語料大小為8.42MB,詞數(shù)為1 116 574個。命名實體語料大小為11.2MB。這兩種語料所標(biāo)注的文本內(nèi)容完全相同,進(jìn)行三位一體字標(biāo)注漢語詞法分析訓(xùn)練或測試時需要將這兩種語料進(jìn)行處理后融合到一起,圖3是語料處理過程的示意圖。首先是將原詞性標(biāo)注語料拆分為一字一標(biāo)記的格式,此時的標(biāo)記形式為“詞位_詞性類別”,然后再根據(jù)命名實體語料將所有命名實體的那部分字的標(biāo)記修改為“詞位_命名實體類別”,融合后的語料大小為15.0MB。然后將90%作為訓(xùn)練語料,10%作為測試語料。統(tǒng)計發(fā)現(xiàn),這些語料中共有字標(biāo)記257種,由于標(biāo)記較多,所以本文的實驗采用最大熵模型實現(xiàn),而沒有采用序列數(shù)據(jù)標(biāo)注模型條件隨機(jī)場(conditional random fields,CRFs)實現(xiàn),因為采用CRF++工具包訓(xùn)練時,在標(biāo)記類別多和語料較大的情況下不能正常進(jìn)行訓(xùn)練,而最大熵模型則沒有此類問題。采用Max-Ent工具包進(jìn)行模型訓(xùn)練時,還需要對融合后的語料進(jìn)行預(yù)處理,按照設(shè)定的樣本窗口和特征模板集將語料處理為一行一個事件的語料,也就是對每一個樣本按照特征模板集擴(kuò)展出相應(yīng)的上下文特征作為一個事件。
在對三位一體字標(biāo)注漢語詞法分析進(jìn)行性能評估時,本文采用兩類評估方法。一類是對設(shè)定的特征模板集進(jìn)行整體評價,采用的評價指標(biāo)是字標(biāo)注準(zhǔn)確率。該準(zhǔn)確率表示在測試語料全部字標(biāo)注中,正確的所占的比值;另一類是該方法和傳統(tǒng)分步處理的分詞、詞性標(biāo)注、命名實體識別的性能進(jìn)行對比,采用的評估指標(biāo)如下所述。
在對漢語分詞性能進(jìn)行評估時,采用了常用的五個評測指標(biāo):準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F值(F)、未登錄詞召回率(OOV RR)、詞表詞召回率(IV RR)。準(zhǔn)確率表示在切分的全部詞語中,正確的所占的比值。召回率指正確切分的詞語占標(biāo)準(zhǔn)答案中詞語的比值。綜合指標(biāo)F值是綜合準(zhǔn)確率和召回率兩個值進(jìn)行評價的一種辦法。OOV RR和 IV RR分別指測試中未登錄詞和詞表詞的召回率。
在對漢語詞性標(biāo)注性能進(jìn)行評估時,采用了常用的評測指標(biāo):標(biāo)注精度。標(biāo)注精度表示在對全部詞語標(biāo)注的詞性中,正確標(biāo)注詞性的詞語所占的比值。
在對漢語命名實體識別進(jìn)行評估時,采用了常用的三個評測指標(biāo):準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F值(F)。準(zhǔn)確率表示在識別的全部命名實體中,正確的所占的比值。召回率指正確識別的命名實體占標(biāo)準(zhǔn)答案中的比值。F值是綜合準(zhǔn)確率和召回率兩個值進(jìn)行評價的一種辦法。
4.3.1 實驗設(shè)計
本文設(shè)計了兩個階段的實驗,分別配合兩類評估方法對三位一體字標(biāo)注的漢語詞法分析性能進(jìn)行評估。第一個階段是在測試語料的字標(biāo)注結(jié)果上進(jìn)行的,采用字標(biāo)注的準(zhǔn)確率進(jìn)行評估。在第一階段結(jié)果的基礎(chǔ)上,第二個階段分別就漢語分詞、詞性標(biāo)注、命名實體識別三項子任務(wù)的性能進(jìn)行三組對比實驗:(1)三位一體字標(biāo)注漢語詞法分析的分詞性能和基于字標(biāo)注的漢語分詞性能對比實驗;(2)三位一體字標(biāo)注漢語詞法分析的詞性標(biāo)注性能和詞序列基礎(chǔ)上的漢語詞性標(biāo)注性能對比實驗;(3)三位一體字標(biāo)注漢語詞法分析的命名實體識別性能和基于字標(biāo)注的命名實體識別性能對比實驗。
4.3.2 三位一體字標(biāo)注的漢語詞法分析性能
我們首先分別使用表2中序號為1~6的六組特征模板集,在預(yù)處理后的訓(xùn)練語料上進(jìn)行了三位一體字標(biāo)注漢語詞法分析的訓(xùn)練,訓(xùn)練時采用不同迭代次數(shù),最大熵模型迭代次數(shù)從50增加到400,間隔50。表3給出了使用這六組特征模板集在部分迭代次數(shù)下的訓(xùn)練過程記錄數(shù)據(jù)。綜合分析表3中的數(shù)據(jù)可以得出如下結(jié)論:(1)同等條件下,訓(xùn)練出的模型大小與擴(kuò)展出的特征數(shù)成正比,訓(xùn)練出的模型大小隨迭代次數(shù)的變化很小。(2)模型訓(xùn)練的時間長短和擴(kuò)展出的特征數(shù)并沒有必然聯(lián)系,和訓(xùn)練的迭代次數(shù)成正比。
表3 PKU語料上不同迭代次數(shù)的訓(xùn)練過程記錄數(shù)據(jù)
然后分別采用訓(xùn)練出的模型,對測試語料進(jìn)行三位一體字標(biāo)注測試,測試的字標(biāo)注準(zhǔn)確率如表4所示。從表4中的數(shù)據(jù)可以得出如下結(jié)論:(1)迭代次數(shù)到一定值時標(biāo)注準(zhǔn)確率不再提升,甚至有少許下降。例如,對于TMPT-10特征模板集來說,迭代次數(shù)從50增加到100,標(biāo)注準(zhǔn)確率增加最多,之后趨于平緩,迭代次數(shù)為200時,標(biāo)注準(zhǔn)確率達(dá)到了最高,之后有少許下降。所以第二階段的對比實驗都是在迭代次數(shù)為200下進(jìn)行的。(2)從樣本窗口大小的角度來分析,對比序號1~3和序號4~6的特征模板集下的標(biāo)注性能,可見“5字窗口”下的標(biāo)注性能比“3字窗口”的好。所以第二階段的對比實驗中,三位一體字標(biāo)注漢語詞法分析都是在“5字窗口”下進(jìn)行的。
表4 不同迭代次數(shù)的三位一體漢語詞法分析標(biāo)注準(zhǔn)確率
4.3.3 三位一體字標(biāo)注詞法分析與其他方法比較
在三位一體字標(biāo)注的基礎(chǔ)上,第二個階段分別就漢語分詞、詞性標(biāo)注、命名實體識別三項任務(wù)的性能進(jìn)行對比實驗。首先是對三位一體字標(biāo)注漢語詞法分析中的分詞性能和基于單一字標(biāo)注的漢語分詞性能進(jìn)行對比。其中,單一字標(biāo)注漢語分詞采用條件隨機(jī)場模型實現(xiàn),設(shè)定的樣本窗口大小和特征模板集和三位一體字標(biāo)注方法相同,都是“5字窗口”和TMPT-10。表5給出了本文方法和字標(biāo)注方法漢語分詞性能對比。從表5的數(shù)據(jù)中可以看到,三位一體字標(biāo)注的漢語詞法分析中的漢語分詞性能比單一字標(biāo)注的漢語分詞方法的性能的綜合指標(biāo)F值提高了2.3個百分點(diǎn),這說明在字的標(biāo)記中融入詞性和命名實體的信息使?jié)h語分詞性能有一定的提高。
表5 不同方法的漢語分詞結(jié)果
然后對三位一體字標(biāo)注漢語詞法分析的詞性標(biāo)注性能和詞序列基礎(chǔ)上的漢語詞性標(biāo)注性能進(jìn)行了對比實驗。其中,詞序列基礎(chǔ)上的方法也采用最大熵模型實現(xiàn),設(shè)定的樣本窗口為“3詞語窗口”,特征模板集為“W-1,W0,W1,T-1T0”。表6給出了本文方法和詞序列基礎(chǔ)上的漢語詞性標(biāo)注性能對比情況,其中對于多字詞的詞性選取的是詞尾字的詞性標(biāo)記。從表6的數(shù)據(jù)可以看到,三位一體字標(biāo)注中的漢語詞性標(biāo)注性能比基于詞序列的漢語詞性標(biāo)注性能提高了0.7個百分點(diǎn)。
表6 不同方法的漢語詞性標(biāo)注結(jié)果
最后對三位一體字標(biāo)注漢語詞法分析的命名實體識別性能和基于單一字標(biāo)注的命名實體識別性能進(jìn)行對比實驗。其中,單一字標(biāo)注的命名實體識別采用條件隨機(jī)場模型實現(xiàn),設(shè)定的樣本窗口大小和特征模板集分別為“5字窗口”和TMPT-10。表7給出了實驗結(jié)果。從表7中的數(shù)據(jù)可見,本文的方法比單一字標(biāo)注的方法提高了兩個百分點(diǎn)多。
表7 不同方法的中文命名實體識別結(jié)果
在中文信息處理領(lǐng)域,漢語詞法分析是其中一項重要的基礎(chǔ)性研究課題。針對漢語詞法分析中分詞、詞性標(biāo)注、命名實體識別三項子任務(wù)分步處理時多類信息難以整合利用,且錯誤向上傳遞放大的不足,本文提出一種三位一體字標(biāo)注的漢語詞法分析方法,該方法將漢語詞法分析過程看作字序列的標(biāo)注過程,將每個字的詞位、詞性、命名實體三類信息融合到該字的標(biāo)記中,采用最大熵模型經(jīng)過一次標(biāo)注實現(xiàn)漢語詞法分析的三項任務(wù)。實驗結(jié)果表明,三位一體字標(biāo)注方法的分詞、詞性標(biāo)注、命名實體識別的性能都有不同程度的提升。今后將進(jìn)一步完善該方法,力爭能在中文信息處理的實際任務(wù)中推廣應(yīng)用。
[1] 姜維,王曉龍,關(guān)毅,等.基于多知識源的中文詞法分析系統(tǒng)[J].計算機(jī)學(xué)報,2007,30(1):137-145.
[2] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機(jī)研究與發(fā)展,2004,41(8):1421-1429.
[3] 孫曉,黃德根.基于最長次長匹配分詞的一體化中文詞法分析[J].大連理工大學(xué)學(xué)報,2010,50(6):1028-1034.
[4] 白栓虎.漢語詞切分及詞性自動標(biāo)注一體化方法[J].中文信息學(xué)報,1996,(2):46-48.
[5] Hwee Tou Ng,Jin Kiat Low.Chinese part-of-speech tagging:One-at-a-time or all-at-once?Word-based or character-based?[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,Barcelona:ACL Press,2004:277-284.
[6] 石民,李斌,陳小荷.基于CRF的先秦漢語分詞標(biāo)注一體化研究[J].中文信息學(xué)報,2010,24(2):39-45.
[7] LUO Xiaoqiang.A maximum entropy Chinese character-based parser[C]//Proceedings of the 2003Conference on Empirical Methods in Natural Language Processing,Sapporo,Japan:ACL Press,2003:192-199.
[8] Jiang Wenbin,Huang Liang,Liu Qun,et al.A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics,Columbus:ACL Press,2008:897-904.
[9] 朱聰慧,趙鐵軍,鄭德權(quán).基于無向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J].電子與信息學(xué)報,2010,32(3):700-704.
[10] Berger A L,Della-Pietra S A,Della-Pietra V J.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):39-71.
[11] 劉挺,車萬翔,李生.基于最大熵分類器的語義角色標(biāo)注[J].軟件學(xué)報,2007,18(3):565-573.
[12] 何徑舟,王厚峰.基于特征選擇和最大熵模型的漢語詞義消歧[J].軟件學(xué)報,2010,21(6):1287-1295.
[13] 趙巖,王曉龍,劉秉權(quán),等.融合聚類觸發(fā)對特征的最大熵詞性標(biāo)注模型[J].計算機(jī)研究與發(fā)展,2006,43(2):268-274.
[14] 張貫虹,斯·勞格勞,烏達(dá)巴拉.融合形態(tài)特征的最大熵模型蒙古文詞性標(biāo)注模型[J].計算機(jī)研究與發(fā)展,2011,48(12):2385-2390.