• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙層條件隨機場的漢語詞性標注方法研究

      2016-02-20 05:57:18王藝帆王希杰
      安陽師范學院學報 2016年5期
      關(guān)鍵詞:語料機場漢語

      王藝帆,王希杰

      (1.華中科技大學 電子信息與通信學院,湖北 武漢 430000;2.安陽師范學院 計算機與信息工程學院,河南 安陽 455000)

      ?

      基于雙層條件隨機場的漢語詞性標注方法研究

      王藝帆1,王希杰2

      (1.華中科技大學 電子信息與通信學院,湖北 武漢 430000;2.安陽師范學院 計算機與信息工程學院,河南 安陽 455000)

      針對漢語詞性標注中詞性類別劃分較細、類別較多的問題,提出一種利用雙層條件隨機場進行漢語詞性標注的方法,該方法將漢語詞性標注分為兩個階段,每個階段采用一層條件隨機場建模實現(xiàn)。第一階段底層條件隨機場根據(jù)上下文產(chǎn)生每個詞語的詞性粗分結(jié)果;第二階段高層條件隨機場將詞語及其粗分結(jié)果作為上下文特征對每個詞語的詞性進一步細分,產(chǎn)生最終詞性標記。利用CRF++0.53工具包,在國際漢語分詞評測Bakeoff2007(國際漢語分詞評測)的NCC和CTB語料上進行了實驗,結(jié)果表明該方法可行且可以獲得較好的標注結(jié)果。

      漢語詞性標注;雙層條件隨機場;上下文特征;特征模板;詞性粗分結(jié)果

      0 引言

      語言中的一個詞在詞典中可以兼具多種詞性,所謂詞性標注就是給實際語言環(huán)境中的每一個詞分配一個唯一的、正確的詞性標記。作為自然語言處理領(lǐng)域的一項基礎(chǔ)課題,詞性標注不僅是句法、語義及篇章理解的基礎(chǔ),也是自動問答、機器翻譯、信息檢索等后續(xù)應(yīng)用技術(shù)的關(guān)鍵[1]。根據(jù)使用技術(shù)的不同,大致可以將詞性標注分為基于規(guī)則的標注方法、基于變換的標注方法[2]及基于統(tǒng)計的標注方法,隨著近年統(tǒng)計語言模型的普遍應(yīng)用,用基于統(tǒng)計語言模型的標注方法來解決漢語詞性標注問題已經(jīng)成為了當前主流方法。目前常用的統(tǒng)計語言模型主要有N元語法模型[3]、最大熵模型[4]、SVM[5]、隱馬爾科夫模型[6]及條件隨機場[7,8]等。綜合分析這些文獻,利用統(tǒng)計語言模型實現(xiàn)中文詞性標注的實質(zhì)就是一個為“詞串序列”中的“詞”標注合適的詞性標簽的序列數(shù)據(jù)標注問題。

      條件隨機場[9](conditionalrandomfields,CRFs)是一個用來對序列數(shù)據(jù)進行標注的優(yōu)秀的條件概率模型,是由Lafferty等人于2001年首次提出的。由于條件隨機場可以擬合任意的特征,并且有效解決了其它統(tǒng)計語言模型中的標注偏置問題[10],因此近年來CRFs在自然語言處理的許多領(lǐng)域中得到了成功的應(yīng)用,如漢語自動分詞[11]、組塊分析和短語識別[12]、命名實體識別[13]等。在使用條件隨機場對序列數(shù)據(jù)標注進行建模時,上下扮演了所需語言知識提供者的角色[9],在模型訓練過程中,CRFs根據(jù)特征模板擴展出的上下文特征統(tǒng)計得出標注過程中所需的語言知識并對這些語言知識進行量化。由于在詞性標注中使用的詞性標注集合一般都比較大,分類種類較多,導致利用CRFs對上下文進行建模時,將會擴展出數(shù)以億計的上下文特征。如此大規(guī)模的上下文特征會使得CRFs模型的訓練時間太長,甚至可能會導致某些條件隨機場工具包(例如,CRF++工具包)直接崩潰,使得CRFs建模過程不能完成。針對這一問題,本文結(jié)合條件隨機場建模過程,深入分析了上下文特征的表示方法和上下文特征產(chǎn)生的機理,在此基礎(chǔ)上提出了基于雙層條件隨機場的漢語詞性標注方法,并在Bakeoff2007提供的CTB和NCC語料上進行了大量對比實驗,實驗結(jié)果表明該方法可行且可以獲得較好的詞性標注結(jié)果。

      1 基于CRFs的漢語詞性標注

      1.1 條件隨機場定義

      條件隨機場是一種判定性無向圖模型(discriminativemodel),它以輸入結(jié)點的值作為條件來計算輸出結(jié)點值的概率,在給定標記序列S和觀察序列O的情況下,它通過條件概率P(s/o)來預測新輸入序列中最可能的標記序列。

      圖1 線鏈CRFs的結(jié)構(gòu)圖

      線鏈條件隨機場是一種最簡單且最重要的條件隨機場,此模型假設(shè)在各輸出節(jié)點間存在一階馬爾可夫獨立性,其輸出節(jié)點被無向邊連接成一條線性鏈(如圖1所示)。

      (1)

      其中,ZO是歸一化因子,確保所有可能的狀態(tài)序列的條件概率的和為1,其定義為:

      (2)

      fk(st-1,st,o,t)為特征函數(shù),通常是一個二值表征函數(shù)。

      λk需要從訓練語料中來學習,表示特征函數(shù)fk(st-1,st,o,t)的權(quán)重,取值范圍是-∞到+∞。特征函數(shù)可以整合任何特征,包括狀態(tài)轉(zhuǎn)移特征st-1→st(對詞性標注任務(wù),狀態(tài)轉(zhuǎn)移特征是指詞性的轉(zhuǎn)移特征),以及觀察序列O在時刻t(當前詞語位置)的所有特征。

      對于由公式(1)定義的CRFs模型,在已知輸入詞串序列O的情況下,最可能的詞性序列可由公式(3)求出:

      (3)

      類似于隱馬爾可夫模型,條件隨機場模型也可以使用維特比解碼(Viterbi decoding)算法來求解最佳的標注序列。

      1.2 條件隨機場對詞性標注的建模

      使用條件隨機場進行漢語詞性標注時首先要建立模型,其實質(zhì)就是用CRFs對上下文中的詞語序列和詞性序列進行建模。采用條件隨機場進行漢語詞性標注建模時,上下文是正確標注詞性所需語言知識的提供者,通常用“上下文特征”來表示這些蘊含于上下文中的特定的語言知識,并用“特征模板”對上下文特征進行描述和表示??梢詫⑻卣髂0蹇醋魇菍σ唤M具有共同屬性的上下文特征的抽象,其主要功能是定義上下文中某些特定位置的語言成分與某類待預測事件的關(guān)聯(lián)情況。在漢語詞性標注中一個詞的詞性是由該詞及其上下文信息來確定的,因此特征模板中應(yīng)該包含待標注詞及該詞前、后出現(xiàn)的詞或詞語組合以及這些詞或詞語組合出現(xiàn)的位置,表1中給出了一些詞性標注中常用特征模板及其含義。

      表1 特征模板列表 Table 1 List of feature templates

      表1中的Wn是單詞語特征模板,其中n表示某個詞和當前詞之間的相對距離,如W0表示的就是當前詞,W1代表當前詞后邊的一個詞,W-1代表當前詞的前一個詞,依此類推。除了單詞語特征模板,常用的還有雙詞語特征模板,即每個特征模板由上下文中的兩個詞語組合而成,表1中的前3個模板是單詞語特征模板,后三個就是雙詞語特征模板。表1中最后邊的特征模板T-1T0表示上下文中相鄰兩個詞的詞性轉(zhuǎn)移特征。對于“中國/ns政府/n順利/ad恢復/v”這個詞語序列,在當前詞為“順利”時,各特征模板擴展出的上下文特征如表1第三列所示。

      在統(tǒng)計語言建模中根據(jù)設(shè)定的特征模板集可以從訓練語料中擴展出大量的上下文特征,如果一個訓練語料中包含3萬個不同的詞語,則每個單詞語特征模板都會產(chǎn)生3萬個上下文特征,而雙詞語特征模板理論上將會產(chǎn)生9億個上下文特征。實質(zhì)上,Crf++工具包產(chǎn)生的上下文特征個數(shù)等于上下文特征數(shù)乘以給定詞性標記集中的標記種類的個數(shù)。由于在詞性標注中一般所用到的詞性標注集合都比較大,因此用CRFs對中文詞性標注進行建模時,往往會產(chǎn)生數(shù)以億計的特征,這導致模型訓練時間過長,甚至無法訓練。

      1.3 基于雙層條件隨機場的漢語詞性標注

      在已有的漢語詞性標注研究中,語料中所給出的詞性標注集合一般都比較細、比較大,如在美國科羅拉多大學(CTB)提供的訓練語料中共出現(xiàn)了32種詞性標記,而中國教育部國家語委(NCC)提供的語料中的詞性標記更是達到了47種。標注集合之所以這么大,觀察其標注集可知,主要是由于對一些詞性的劃分過細造成的,如在CTB語料中僅名詞就被分成了NN、NR、NT三種類型,而NCC語料中的名詞更是被細分成了11種類型。由前面的分析可知,CRFs在訓練過程中產(chǎn)生的特征數(shù)是上下文特征個數(shù)與詞性標注集中標記種類的個數(shù)的乘積,標注集合越大產(chǎn)生的特征就越多,CRFs在訓練的時候就越困難,甚至會出現(xiàn)無法訓練的現(xiàn)象。針對這一問題,本文設(shè)計了基于雙層條件隨機場的詞性標注方法,其核心思想是將詞性標注分為兩個階段進行,第一階段底層條件隨機場按名詞、動詞等詞性產(chǎn)生粗分結(jié)果,第二階段高層條件隨機場結(jié)合底層的粗分結(jié)果,將每一個詞的詞性進一步細分。第一階段作者使用自己設(shè)計的工具軟件對CTB和NCC語料進行預處理,訓練語料的格式分為兩列,第一列為詞,第二列為詞性標記,但這里的詞性標記僅僅是粗分結(jié)果,即僅僅是名稱(n)、動詞(v)等詞性,并沒有對這些詞性進行細分。經(jīng)過第一次預處理后,CTB語料中的詞性標記被減少成了15種,NCC語料中的標記減少到了21種,訓練語料中的詞性標記集合大大減小,使得訓練可以順利進行。訓練完成后,使用得到的模型對測試語料進行預測,可以得到每一個詞的粗分結(jié)果,即每一個詞將被標記上名詞、動詞、形容詞等詞性。第二階段的訓練語料被分成了三列,第一列是詞,第二列是粗分詞性,第三列是細分詞性,主要目的是讓CRFs學習每一類詞性被進一步細分的概率,如某一個名詞被進一步細分成NN、NR或是NT的概率。在訓練完成得到模型后,將第一次預測的帶有粗分結(jié)果的測試文件作為第二次預測的輸入文件,經(jīng)過預測后得到詳細的細分結(jié)果,然后將細分結(jié)果進行處理,去除掉中間第二列的粗分結(jié)果后,和標準答案進行對比評測,最后給出評測結(jié)果。

      2 實驗設(shè)計及結(jié)果分析

      2.1 實驗設(shè)計

      如前所述,對詞性標注建模時,上下文將為條件隨機場提供所需的語言知識和相關(guān)資源,這就是上下文特征,統(tǒng)計語言建模中用特征模板來表示上下文特征。常用的特征模板有單詞性特征模板和雙詞性特征模板兩類,文獻[14]對常用的這兩類模板進行了定量分析并得出了“雙詞語特征模板對詞性標注的精度沒有提高的結(jié)論”,根據(jù)這一結(jié)論,本實驗中沒有采用雙詞語特征模板。一個具體的特征模板在模板集中表示的時候,通常以%x[m,n]來表示,其中的m和n為整數(shù),m表示的是以當前字為基準的一個相對行坐標,而n表示的是一個以0為起始的絕對列坐標。本實驗采用的所有特征模板如表2所示。

      表2 特征模板列表

      其中前三個模板用于第一層條件隨機場的訓練,后三個模板用于第二層條件隨機場的訓練。對于“中國/ns政府/n順利/ad恢復/v”這個詞語序列,在當前詞為“政府”時,各特征模板擴展出的上下文特征如表2第三列所示。另外要說明的是,在第一層和第二層的條件隨機場訓練時均用到了詞性轉(zhuǎn)移特征模板。

      2.2 性能評估

      在評估漢語詞性標注性能時,采用Bakeoff中常用的評測指標:標注精度(Accuracy)。標注精度表示已正確標注詞性的詞語在全部詞語的標注詞性中所占的比值。計算公式如下:

      (4)

      2.3 實驗結(jié)果及其分析

      設(shè)計好特征模板后,在Bakeoff2007提供的訓練語料上進行了訓練。由于沒有標準測試語料,實驗過程中分別在兩種語料的后面截取一部分作為測試語料,剩余的部分作為訓練語料。在兩種語料上進行訓練時得到的相關(guān)數(shù)據(jù)如表3所示。

      表3 NCC和CTB語料上的訓練過程記錄數(shù)據(jù)

      表中3的訓練層數(shù)指的是第一層條件隨機場訓練還是第二層條件隨機場訓練,兩層訓練過程中用到的原始訓練數(shù)據(jù)是一樣的,只是在第二層訓練時在訓練數(shù)據(jù)中增加了第三列的詞性細分結(jié)果。分析表3中的數(shù)據(jù)可以看出,訓練數(shù)據(jù)的大小和訓練過程中產(chǎn)生的特征數(shù)不成正比,比如在第二層訓練中,NCC的訓練語料小于CTB的訓練語料,但訓練時產(chǎn)生的特征數(shù)卻遠遠大于CTB語料產(chǎn)生的特征數(shù),而兩種語料在訓練時采用的特征模板又是一樣的,這主要就是因為NCC語料中的詞性標記的種類數(shù)要大于CTB語料中詞性標記的種類個數(shù)。但采用雙層條件隨機場進行訓練時,兩次訓練過程均能夠順利進行。在兩次訓練完成后,對兩次訓練得到的模型均進行了測試,其測試結(jié)果如表4所示。

      表4 詞性標注結(jié)果

      由于在第一階段中的標注錯誤在第二階段中有可能被放大,比如在第一層訓練中如果將一個名詞錯標為了動詞,則在第二階段進行細分時一定也會產(chǎn)生錯誤。為了評測第一階段模型對第二階段模型的影響,對兩個階段的模型均進行了測試并進行了評估,從表4中的數(shù)據(jù)也可以看出,第一階段的標注結(jié)果確實影響到了第二階段的標注,但是總體來說影響并不是太大。

      3 結(jié)論及進一步研究展望

      漢語詞性標注是中文信息處理領(lǐng)域中一項重要的基礎(chǔ)研究課題,本文深入分析了條件隨機場對漢語詞性標注建模時上下文特征的表示方法和上下文特征產(chǎn)生的內(nèi)在機理,在此基礎(chǔ)上提出了基于雙層條件隨機場的詞性標注方法,并采用CRF++工具包在Bakeoff2007提供的NCC和CTB兩種語料上進行了訓練和測試,實驗證明該方法是可行的。但從表3中的實驗數(shù)據(jù)可以看出,在第二階段的建模過程中,產(chǎn)生的特征數(shù)還是比較多的,這就導致訓練的時間比較長,因此能否進一步利用層疊條件隨機場進一步減少每層建模中的特征數(shù),進而優(yōu)化漢語詞性標注的建模過程將是下一步的研究重點。

      [1]姜維,王曉龍,關(guān)毅,等. 基于多知識源的中文詞法分析系統(tǒng)[J]. 計算機學報, 2007,30(1):137-145.

      [2]BrillEric.Transformation-basederror-drivenparsing[A]/ /ProceedingsofthethirdInternationalWorkshoponParsingTechnologies[C].Tilburg,Netherlands, 1993.

      [3]趙巖,王曉龍,劉秉權(quán),等. 融合聚類觸發(fā)對特征的最大熵詞性標注模型[J]. 計算機研究與發(fā)展, 2006, 43(2):268-274.

      [4]魏歐,吳健,孫玉芳. 基于統(tǒng)計的漢語詞性標注方法的分析與改進[J]. 軟件學報,2000,11(4): 473-480.

      [5]劉群,張華平,俞鴻魁,等. 基于層疊隱馬模型的漢語詞法分析[J]. 計算機研究與發(fā)展, 2004, 41(8):1421-1429.

      [6]王麗杰,車萬翔,劉挺.基于SVMTool的中文詞性標注[J].中文信息學報,2009,23(7):16-21.

      [7]姜維,關(guān)毅,王曉龍. 基于條件隨機域的詞性標注模型[J].計算機工程與應(yīng)用,2006,21:13-16.

      [8]洪銘材,張闊,唐杰,李涓子.基于條件隨機場(CRFs)的中文詞性標注方法[J].計算機科學,2006,33(10):148-155.

      [9]PEREIRALJ,MCCALLUMFA.Conditionalrandomfields:probabilisticmodelsforsegmentingandlabelingsequencedata[A].Proceedingsof18thIntConfonMachineLearning.SanFrancisco[C].USA:AAAIPress, 2001: 282-289.

      [10]NianwenXue.ChineseWordSegmentationasCharacterTagging[J] .ComputationalLinguisticsandChineseLanguageProcessing, 2003 , 8 (1) : 29-48.

      [11]于江德,睢丹,樊孝忠. 基于字的詞位標注漢語分詞[J]. 山東大學學報(工學版),2010, 40(5):117-122.

      [12]馮沖,陳肇雄,黃河燕,等. 基于條件隨機域的復雜最長名詞短語識別[J]. 小型微型計算機系統(tǒng),2006,27(6):1134-1139.

      [13]周俊生,戴新宇,尹存燕,等. 基于層疊條件隨機場模型的中文機構(gòu)名自動識別[J]. 電子學報, 2006,34(5):804-809.

      [14]于江德,周宏宇,余正濤,等. 基于單個詞語特征模板的漢語詞性標注[J]. 山西大學學報(自然科學版),2011,34(4): 513-517.

      [責任編輯:江雪]

      The Quantitative Analysis of the Context Effective Range in Chinese Word Segmentation Based on Word Boundary Tagging

      WANG Yi-fan1,WANG Xi-jie2

      (1.School of Electronic Information and Communications,Huazhong University of Science and Technology, Wuhan 430000, China;2.School of Computer and Information Engineering, Anyang Normal University, Anyang 455002, China)

      Chinese part-of-speech tagging often has the problem of too many well defined lexical catalogs. To improve this problem, the paper proposes a Chinese part-of-speech tagging method based on Dual-Layer conditional random fields. The approach divides the tagging procedure into two stages, each of which uses single-lyer conditional random fields to complete modeling. The first stage using context achieves coarse-grained part-of-speech tagging of each word. Taken the coarse-grained result as features, the second stage further produces sequences of fine-grained part-of-speech tags. Closed evaluations are performed on NCC and CTB corpus from the Bakeoff-2007, and comparative experiments are performed on different feature templates. Experimental results show that this approach can obtain better pos tagging set.

      Chinese part-of-speech tagging; Dual-layer conditional random fields; Context; Feature templates; Coarse-grained part-of-speech tagging

      2016-05-15

      國家自然科學基金項目(60663004);河南省高等學校青年骨干教師項目(2009GGJS-108)

      王藝帆(1995-),男,河南安陽人,主要從事自然語言處理、機器學習等研究。

      TP391

      A

      1671-5330(2016)05-0087-05

      猜你喜歡
      語料機場漢語
      機場罷工
      學漢語
      金橋(2022年6期)2022-06-20 01:36:16
      輕輕松松聊漢語 后海
      金橋(2020年11期)2020-12-14 07:52:56
      如何避免GSM-R無線通信系統(tǒng)對機場電磁干擾
      追劇宅女教漢語
      面部識別使機場安檢提速
      漢語不能成為“亂燉”
      華人時刊(2017年17期)2017-11-09 03:12:08
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      最有創(chuàng)意的機場
      華語電影作為真實語料在翻譯教學中的應(yīng)用
      永丰县| 涞水县| 平武县| 营山县| 会同县| 赣州市| 石渠县| 祁阳县| 同仁县| 万全县| 汤阴县| 汕头市| 眉山市| 弋阳县| 长乐市| 襄汾县| 泽库县| 南部县| 兴化市| 芷江| 济南市| 浙江省| 遂溪县| 湖北省| 溧阳市| 荣成市| 太湖县| 泰安市| 余姚市| 东阳市| 山东省| 仪陇县| 高阳县| 上高县| 巴彦淖尔市| 罗山县| 西丰县| 鄂伦春自治旗| 双城市| 托里县| 紫阳县|