• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于PCFG模型的哈薩克語句法分析

      2015-09-18 02:33:37尚文清古麗拉阿東別克于智娟新疆大學(xué)信息科學(xué)與工程學(xué)院烏魯木齊830046國家語言資源監(jiān)測與研究中心少數(shù)民族語言中心哈薩克和柯爾克孜語言基地烏魯木齊830046
      現(xiàn)代計算機(jī) 2015年14期
      關(guān)鍵詞:哈薩克語文法語料

      尚文清,古麗拉·阿東別克,?!∧?,于智娟(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊830046;2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言中心哈薩克和柯爾克孜語言基地,烏魯木齊830046)

      基于PCFG模型的哈薩克語句法分析

      尚文清1,2,古麗拉·阿東別克1,2,牛娜1,2,于智娟1,2
      (1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊830046;2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言中心哈薩克和柯爾克孜語言基地,烏魯木齊830046)

      為了實現(xiàn)哈薩克語的句法分析,研究概率上下無關(guān)文法,結(jié)合哈薩克語自身的語法特征得到哈薩克語的概率上下無關(guān)文法,獲取哈薩克語PCFG參數(shù),結(jié)合自底向下的Viterbi算法進(jìn)行句法分析的歧義消除,進(jìn)而實現(xiàn)一種有自學(xué)習(xí)能力的哈薩克語句法分析器,哈薩克語句子分析達(dá)到不錯的效果。實驗結(jié)果顯示,PCFG模型可以適用于到哈薩克語的句法分析研究。

      概率上下無關(guān)文法;哈薩克語;句法分析;句法樹;Viterbi算法

      現(xiàn)代哈薩克語短語識別及其語塊庫構(gòu)建技術(shù)研究(No.61063025)、現(xiàn)代哈薩克語句法分析與樹庫構(gòu)建關(guān)鍵技術(shù)研究(No.61063062)

      0 引言

      句法分析是將句子描述成分析樹的一個過程,它是自然語言處理中的一個基本問題[1],如機(jī)器翻譯、信息獲取、自動文摘等都要依賴句法分析。從上世紀(jì)50年代開始人們對自然語言處理至今,語言的研究層次主要分為詞法分析、短語分析、句法分析語義分析和語用分析,句法分析一直是自然語言研究中的阻礙。目前各種語言(如英語、漢語等)在句法分析方面都取得了很好的研究成果,句法分析的方法主要為基于規(guī)則和統(tǒng)計的方法。近些年,基于統(tǒng)計學(xué)習(xí)模型的句法分析已經(jīng)是研究者們的熱點(diǎn)[1]。

      哈薩克語語言處理方面,目前已經(jīng)完成了對哈薩克語的詞法分析的研究、哈薩克語基本名詞短語自動識別和動詞短語自動識別等相關(guān)工作并且已經(jīng)取得了很好的效果。哈薩克語在句法方面的工作才剛剛起步。本文首先簡要介紹了PCFG(Probabilistic Context Free Grammar)模型,對模型中的三個問題進(jìn)行了相應(yīng)的解決;重點(diǎn)描述了哈薩克語的PCFG文法的獲取方法、過程及對Viterbi算法過程的描述;然后通過對哈薩克語的分析結(jié)果進(jìn)行分析;最后,對哈薩克語的句法分析下一步的研究方向提出了一些想法。

      1 PCFG模型

      1.1PCFG的原理

      CFG(Context Free Grammar)是獲取語言中句法規(guī)則的一種方式[2]。它包括了終結(jié)符(如)、非終結(jié)符(如NP)、開始字符(如S)、規(guī)則的產(chǎn)生式集合(如S→NP)。使用CFG對句子進(jìn)行分析可以得到不同的分析結(jié)果。PCFG把概率引入上下文無關(guān)文法,將統(tǒng)計方法和規(guī)則方法進(jìn)行了有效的融合,具有十分重要的意義,概率上下無關(guān)文法通過為每條產(chǎn)生式規(guī)則指派一個概率值,擴(kuò)展了一個上下無關(guān)文法的描述體系,即A→姿,p(A→姿)并且滿足ΣA→姿P(A→姿)=1。它是最簡單最常用的概率語法模型[3],通過判定概率只返回一個分析結(jié)果。

      1.2PCFG的三個問題

      (1)對于一個語法G,句子S的分析概率為P(S,G)。P(t,G)是分析的句子S中的句法分析樹t的概率,它為所有施用規(guī)則概率之積,其中t∈S。句子S的分析概率如公式(1)所示。

      (2)句子S有多個分析結(jié)果,最優(yōu)樹的概率為P(s),使用公式(2)選擇概率最大的分析樹為最優(yōu)樹。

      Viterbi算法[4]是使用動態(tài)規(guī)則算法找到句子中最可能的句法分析樹,不管它找到多少子樹,它只選擇概率最大的一個。如:韋特比變量γij(A)為非終結(jié)符Α經(jīng)由某一推導(dǎo)而產(chǎn)生wiwi+1…wj的最大概率,Ψ(A)為最佳推導(dǎo)。其中動態(tài)規(guī)則公式為:

      (3)一個已知的句子,語法規(guī)則的概率設(shè)定可以使用EM算法在未標(biāo)注的句子上訓(xùn)練PCFG參數(shù),也可以從樹庫中進(jìn)行PCFG估計。

      2 哈薩克語概率上下無關(guān)文法的獲取和分析算法

      從未標(biāo)注句子中訓(xùn)練PCFG參數(shù)[5]依賴于初始設(shè)定的參數(shù),本文使用從樹庫中進(jìn)行PCFG估計。通過從標(biāo)注好的樹庫中獲取上下無關(guān)文法,得到一個符合哈薩克語句法的概率上下無關(guān)文法規(guī)則集[6],將規(guī)則在樹庫中出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計獲取PCFG參數(shù)。將獲取的參數(shù)與哈薩克語上下無關(guān)文法規(guī)則集相結(jié)合,形成初始的哈薩克語PCFG文法。

      2.1PCFG概率參數(shù)的估計

      模型的訓(xùn)練[7]是語法學(xué)習(xí)的過程,即從樹庫中進(jìn)行PCFG參數(shù)獲取。PCFG中概率的獲?。喝绠a(chǎn)生式A→BC的概率獲取如公式(6)所示。

      其中count(A→BC)是指產(chǎn)生式A→BC在樹庫中出現(xiàn)的次數(shù)。

      count(A→*)是指A非終結(jié)符推出任何組合的次數(shù)。

      具體的偽代碼描述為:

      For each tree in the Treebank

      Get the context-free rules from the tree

      For each(L->R)context-free of rule

      Update the count of L

      Update the count of(L->R)

      For each(L->R)context-free of rule in the Treebank

      Count(L)=the count of L!Count(L->R)=the count of(L->R)P

      rob(L->R)=Count(L->R)/Count(L)

      2.2規(guī)則集的自動獲取

      從樹庫中獲取規(guī)則集的過程為:首先,將樹庫如圖1(a)轉(zhuǎn)換為樹的形式如圖1(b),然后將樹的形式轉(zhuǎn)為CFG規(guī)則。則訓(xùn)練樹庫中獲取PCFG文法的過程的偽代碼為:

      For tree in treebank,parsed_sents():

      Perform optional tree transformation

      Correspond to the non-terminal nodes of the tree generate the productions

      哈薩克語規(guī)則集的獲取,首先,先將哈薩克語熟語料用相應(yīng)的方法進(jìn)行處理,將處理過的熟語料按照上述的方式可以直接獲取文法規(guī)則;然后,將獲取的文法規(guī)則用哈薩克語的反相應(yīng)方法進(jìn)行處理得到正確的哈薩克語的規(guī)則集;根據(jù)PCFG概率參數(shù)獲取方法得到適合哈薩克語句法的PCFG文法如圖1(b)。

      圖1 哈薩克語PCFG

      2.3哈薩克語PCFG句法分析器

      根據(jù)哈薩克語的句法特點(diǎn)和標(biāo)注好的樹庫信息,結(jié)合PCFG模型的特點(diǎn),形成了一個自動學(xué)習(xí)的哈薩克語概率句法分析器。它可以根據(jù)給定的標(biāo)注樹庫,對樹庫進(jìn)行學(xué)習(xí),得到一個正確的哈薩克語的概率上下無關(guān)文法,并以此作為此分析器的知識,然后利用算法對生語料進(jìn)行分析,得到了較好的分析結(jié)果。其對應(yīng)的結(jié)構(gòu)圖如圖2所示。

      即當(dāng)訓(xùn)練樹庫如圖1(a)所示。句子進(jìn)行訓(xùn)練可以得到PCFG文法如圖1(c)所示。

      圖2 哈薩克語句法分析器結(jié)構(gòu)

      3 實驗結(jié)果

      本文在Windows 7環(huán)境下使用Python語言[8]和NLTK自然語言[8]處理工具編寫的哈薩克語分析器界面如圖3所示。其中訓(xùn)練語料為如圖1(a)所示的樹庫存放在txt文本中,測試語料如圖3原始文件所示,存放在txt文本中,一句占用一行。

      圖3 哈薩克語句法分析界面

      表1 哈薩克語測試結(jié)果

      通過對300個哈薩克語句子進(jìn)行封閉性測試,測試結(jié)果如圖3輸出結(jié)果所示。測試數(shù)據(jù)結(jié)果如表1所示。結(jié)果顯示基于PCFG模型的哈薩克語句法分析效果很好,但也有些句子沒有正確地分析成功,原因主要有:

      (1)一些句子沒有匹配正確的規(guī)則

      (2)某些句子的順序比較難

      (3)某些句子比較長

      4 結(jié)語

      本文描述了基于概率上下無關(guān)文法適用于哈薩克語和NLTK自底向上的Viterbi算法分析技術(shù)。NLTK是自然語言處理工具。由于哈薩克語的句法分析剛剛起步,很多方面還不成熟,例如語料規(guī)模比較小、語料題材的選取等使得哈薩克語的句法分析器不夠完善??傊?,本文的哈薩克語概率分析器對一些相對簡單的句子分析效果比較好,下一步,我們對基于短語結(jié)構(gòu)的哈薩克語句法分析從以下幾個方面改進(jìn):①訓(xùn)練語料的不斷擴(kuò)充和修改;②參數(shù)的訓(xùn)練;③自動獲取哈薩克語的相關(guān)的結(jié)構(gòu)信息,盡量提高系統(tǒng)的運(yùn)行效率;④改進(jìn)算法等方面進(jìn)行探索研究。

      [1]吳偉成,周俊生,曲維光.基于統(tǒng)計學(xué)習(xí)模型的句法分析方法綜述[J].中文信息學(xué)報2013,27(3):9~19

      [2]馮志偉.基于短語結(jié)構(gòu)語法的自動句法分析.當(dāng)代語言學(xué)2000,2(2):84~98

      [3]Booth T L,Thompson R A.Applying Probabihty Measures to Abstract Languages.IEEE Tmnsactiom on Computers,1973,C-22(5):442~450

      [4]D.Mckee,K.Krebsbach.A learning Natural Language Parser[J],2004.https://www2.lawrence.edu/fast/krebsbak/Research/Publications/ pdf/mics08-mckee.pdf

      [5]張瑞嶺.一個上下文無關(guān)文法獲取過程的設(shè)計和實現(xiàn)[J].軟件學(xué)報,1998,9(8):601~605

      [6]王鵬,戴新宇,陳家俊,王啟祥.基于規(guī)則的漢語句法分析方法研究.計算機(jī)工程與應(yīng)用[J],2003:29

      [7]周強(qiáng).漢語句法知識的自動獲取研究.中國中文信息學(xué)會二十周年學(xué)術(shù)會議,2001[c]

      [8]Stenven Bird,Ewan Klein Edward Loper[M].Natural Language Processing with Python.O’Reilly Media,Inc.2009:291~322

      Probabilistic Context Free Grammars;Kazakh;Syntactic Parser;Syntactic Tree;Viterbi Algorithm

      Syntactic Analysis of Kazakh Language Based on PCFG Model

      SHANG Wen-qing1,2,Gulila·Altenbek1,2,NIU Na1,2,YU Zhi-juan1,2
      (1.Department of Information Science and Engineering,Xinjiang University,Urumqi830046)(2.National Language Resource Monitoring and Research Center,Minority Language Center,Hazakh and Kirgiz Language Base,Urumqi 830046)

      Introduces the work of Kazakh language in language processing,does the technology research on the construction of corpus annotation of syntax,analyzes the method to study the Kazakh syntax,and combined with the existing parsing model,it can learn that Kazakh probabilistic context free grammars from the annoted syntactic corpus,and then puts forward a self-learning Kazakh syntax parser.Experimental results show that it perform well.

      1007-1423(2015)14-0007-04

      10.3969/j.issn.1007-1423.2015.14.002

      尚文清(1988-),女,河北衡水人,研究生碩士,研究方向為自然語言信息處理

      古麗拉·阿東別克(1962-),女,新疆烏魯木齊人,博士,博士生導(dǎo)師,研究方向為自然語言信息處理

      牛娜(1989-),女,新疆伊犁人,研究生碩士,研究方向為自然語言信息處理

      于智娟(1988-),女,新疆沙灣人,研究生碩士,研究方向為自然語言信息處理

      2015-04-08

      2015-05-13

      猜你喜歡
      哈薩克語文法語料
      關(guān)于1940 年尼瑪抄寫的《托忒文文法》手抄本
      Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
      文法有道,為作文注入音樂美
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      哈薩克語附加成分-A
      《苗防備覽》中的湘西語料
      哈薩克語比喻及其文化特征
      語言與翻譯(2014年2期)2014-07-12 15:49:28
      “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
      語言與翻譯(2014年2期)2014-07-12 15:49:13
      虎林市| 张家港市| 乐业县| 屯昌县| 宝清县| 扶绥县| 新化县| 平远县| 肇东市| 黔江区| 永宁县| 古浪县| 密山市| 灵宝市| 山东省| 怀化市| 龙游县| 固原市| 裕民县| 胶州市| 巴彦淖尔市| 宜黄县| 宜宾县| 恩施市| 霞浦县| 合川市| 惠东县| 吴旗县| 中牟县| 通化市| 砚山县| 怀安县| 金沙县| 防城港市| 闵行区| 从化市| 顺平县| 基隆市| 白银市| 比如县| 宿松县|