• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      依存句法分析研究綜述

      2013-04-29 15:06:15石翠
      智能計算機與應(yīng)用 2013年6期
      關(guān)鍵詞:統(tǒng)計分析方法規(guī)則

      石翠

      摘要:依存句法分析是對自然語言進(jìn)行自動分析構(gòu)建句子對應(yīng)的依存樹的一種方法,是自然語言處理重要的一部分,但目前依存句法分析的準(zhǔn)確率并不高。介紹了依存句法結(jié)構(gòu)并對依存句法的分析方法進(jìn)行了總結(jié)與綜述,介紹了基于規(guī)則的依存句法、基于統(tǒng)計的依存句法和規(guī)則與統(tǒng)計相結(jié)合的依存句法的分析方法。最后,分析了漢語依存句法分析的困難和優(yōu)勢。

      關(guān)鍵詞:依存句法; 規(guī)則; 統(tǒng)計; 分析方法

      中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A文章編號:2095-2163(2013)06-0047-03

      0引言

      任何一種句法分析都是依賴于某種語法理論的。依存語法的含義是用詞與詞之間的依存關(guān)系來描述語言結(jié)構(gòu)。計算語言學(xué)家Robinson總結(jié)了依存語法的4條公理[1]:

      (1)一個句子中只有一個獨立成分不依存于其他任何成分;

      (2)句子的其他成分都必須依存于某一成分;

      (3)任何一個成分都不能依存于兩個或兩個以上的其他成分;

      (4)如果成分A直接依存于成分B,而成分C位于A和B之間,則C依存于A或者B,或者依存于A和B之間的某一成分。

      為了直觀描述句子的形式模型,可根據(jù)句法模型將一個句子中各成分之間的關(guān)系顯式表達(dá)為某種句法結(jié)構(gòu)圖形式,以便于人對句子的理解以及機器的自動學(xué)習(xí)。圖1例示了一個句子的依存結(jié)構(gòu),(a)為依存樹;(b)為有向圖;(c)為依存投影樹。

      1依存句法分析方法

      依存句法分析是針對給定的句子序列應(yīng)用某一依存語法體系對自然語言進(jìn)行自動分析構(gòu)建句子對應(yīng)的依存樹的一種方法。一般來說,句法分析方法可分為基于規(guī)則的分析方法、基于統(tǒng)計的分析方法以及統(tǒng)計與規(guī)則相結(jié)合的方法。

      1.1基于規(guī)則的依存句法分析方法

      基于規(guī)則方法的基本思路是由人工組織語法規(guī)則,建立語法知識庫,通過條件約束和檢查來實現(xiàn)句法結(jié)構(gòu)歧義的消除[2]。

      1.1.1基于泰尼埃理論的依存句法分析

      泰尼埃的句法理論本質(zhì)上是一種基于虛圖式的句法分析理論和實圖式的分析表示體系。該理論認(rèn)為任何句子都可以納入句子的虛式圖中,分析的過程即是將句子納入句子圖式的過程,而此過程的進(jìn)行,必須通過轉(zhuǎn)用。因此,可以說泰尼埃的依存句法分析理論以轉(zhuǎn)用操作為代表。

      Giguet[3]等人構(gòu)建了泰尼埃式法語依存句法分析器,但在具體實現(xiàn)過程中,該系統(tǒng)結(jié)合了組塊分析和依存分析方法,先進(jìn)行一種被稱作非遞歸短語(nr-短語)成分的識別,然后在此基礎(chǔ)上進(jìn)行組塊的連接,其中后一個過程通過使用連接規(guī)則而最終實現(xiàn)。該分析器采用了不同技術(shù)分層構(gòu)建的原則,降低了依存關(guān)系選擇時的復(fù)雜度,提高了分析器的效率。

      Tapanainen和Jarvinen構(gòu)建了一種非投影的依存句法分析器,實現(xiàn)了泰尼埃理論。此分析器中共有約2 500條規(guī)則,并提出了功能依存語法(Functionality Dependency Grammar, FDG)的理論框架,展示了依存語法形式化體系的普遍性和描寫能力[4]。

      1.1.2基于上下文無關(guān)文法的依存句法分析

      上下文無關(guān)文法的依存句法分析是一種類似于短語結(jié)構(gòu)句法分析的方法,將詞與詞之間的依存關(guān)系看作成分結(jié)構(gòu)(Constituent structure)來進(jìn)行分析。Hays將依存規(guī)則定義為“一種有關(guān)句法單位價的描述”,由一個支配成分和有限數(shù)量的從屬成分構(gòu)成[5]。以依存規(guī)則為基礎(chǔ),提出了句子語法合格性的判定過程,被稱為決策過程(a decision procedure)。此決策過程即為Cocke-Younger-Kasami(CYK)算法中的Cocke的過程。

      Lombardo和Lesmo對Early算法進(jìn)行改進(jìn),構(gòu)建了依存句法分析器,在效率上取得很大優(yōu)勢。該方法對“預(yù)測”(predictive)部分進(jìn)行了預(yù)處理,通過將其編譯為句法分析表的方法來優(yōu)化識別效率。依存規(guī)則轉(zhuǎn)化為句法分析表的過程需要兩個步驟,一是將規(guī)則轉(zhuǎn)化為轉(zhuǎn)移圖,二是將圖映射到句法分析表中[6]。

      1.1.3基于約束的依存分析方法

      該方法是以約束依存文法(constraint dependency grammar,CDG)為基礎(chǔ),針對依存語法沒有嚴(yán)格的形式化描述而提出,并已成為目前依存句法分析技術(shù)研究和實現(xiàn)中眾家關(guān)注的方法之一。這是一種以語法為驅(qū)動的分析方法,但區(qū)別于生成語法中的重寫規(guī)則,而采用消去法來分析句子結(jié)構(gòu)。其分析過程是采用約束滿足問題來進(jìn)行描述的有限構(gòu)造問題[7]。主要分為三步:

      (1)采用約束依存語法,建立約束集合;

      (2)根據(jù)已規(guī)定好的約束對不滿足約束的分析進(jìn)行剪枝;

      (3)判斷是否存在不確定性問題,更新約束集合,重復(fù)(2)直到構(gòu)建一棵完整的合法的依存樹。

      由德國漢堡大學(xué)的Menzel等人提出的“加權(quán)約束依存語法”(Weighted constraint dependency grammars, WCDG)[8]是對CDG方法的擴展,引入了加權(quán)約束機制。系統(tǒng)中的所有規(guī)則都按照一定的優(yōu)先級測度來排序,以對語法規(guī)則的重要性進(jìn)行衡量。

      1.2基于統(tǒng)計的依存句法分析方法

      由于大規(guī)模語料庫的構(gòu)建,目前依存分析方法中以統(tǒng)計分析方法為主流。統(tǒng)計的方法利用統(tǒng)計學(xué)的原理,從語料庫中獲取分析過程所需的知識。統(tǒng)計方法基于以下假設(shè):語料庫是唯一的信息源,所有的知識(除統(tǒng)計模型的構(gòu)造方法外)均可從中獲得;語言知識在統(tǒng)計意義上得到解釋,所有參量可通過統(tǒng)計或訓(xùn)練從語料庫中自動獲取[9]。

      Eisner提出三個依存句法分析的詞匯化概率模型,同時采取自底向上的CYK算法[10],同時引入了加權(quán)雙詞匯化語法(weighted bilexical grammar)。加權(quán)雙詞匯化語法中的語法規(guī)則由限定一詞擴展為限定兩個詞,基于此的概率句法分析器的主要工作即是估計詞w被詞p所修飾的概率。

      Yamada 等人[11]提出一個基于移進(jìn)-歸約(Shift-reduce)算法的決策式分析模型。該方法從左至右遍歷句子過程中構(gòu)建依存樹,模型使用三種動作:移進(jìn)(Shift)、左?。↙eft)和右弧(Right)。建樹的過程即是判斷當(dāng)前,節(jié)點對應(yīng)該采用哪種動作的過程,因此可將其看作分類問題,采用支持向量機的方法解決該分類問題。該模型不但擴展了依存分析方法,也形成了一種更加簡單易行的依存分析方法。

      投射句可采用自底向上的Eisner動態(tài)規(guī)劃算法[10]。而對于非投射句,則采用如圖2所示的Chu-Liu-Edmonds算法[12]。

      ① 保留每個節(jié)點中權(quán)數(shù)最高的入邊,形成圖GM=(V, M);

      ② 如果GM中存在環(huán),將GM中的環(huán)看做一個節(jié)點,重新計算每條邊的權(quán)值,形成新圖GC,轉(zhuǎn)到①;

      ③ 否則,返回GM;

      ④ 刪除環(huán)內(nèi)多余的邊。

      輸出:生成的由圖和環(huán)內(nèi)的邊組成的最優(yōu)有向圖

      1.3統(tǒng)計與規(guī)則相結(jié)合的依存句法分析方法

      基于規(guī)則的分析方法需人工編寫語法規(guī)則,以此構(gòu)建語法知識庫,通過條件約束等實現(xiàn)句法分析中的結(jié)構(gòu)消歧。大量的語言學(xué)家認(rèn)為規(guī)則可以涵蓋絕大多數(shù)的自然語言現(xiàn)象,但通過實踐表明,這種規(guī)則的構(gòu)建過程是非常困難的。因此,目前的句法分析系統(tǒng)大多在以下幾個方面進(jìn)行權(quán)衡折衷:

      (1)更多地關(guān)注淺層句法分析。當(dāng)前的許多問題只利用淺層句法信息就可以解決,因此完全句法分析則被放棄,而是轉(zhuǎn)向各種淺層句法分析,其中最具代表性的就是組塊分析、最長名詞短語識別;

      (2)從已有的語料中自動提取概率模型,利用此模型來最大化待處理結(jié)構(gòu)的相似性。這是一種有效的方法,但依賴大量的語料,生成的模型也難于理解;

      (3)針對特定問題,結(jié)合統(tǒng)計與規(guī)則方法的優(yōu)勢。

      2結(jié)束語

      從目前的依存句法分析研究成果來看,漢語的依存分析沒有得到很好的發(fā)展,與英語等印歐語言相比滯后很多。迄今為止,漢語的依存句法分析在開放集上的最好結(jié)果UA指標(biāo)不到85%,而且沒有大規(guī)模的漢語依存樹庫、由此而造成漢語分析困難的原因主要有如下幾個方面:

      (1)漢語屬于少數(shù)孤立語語言中的一種,同一詞可以擔(dān)任多種句法成分而沒有形態(tài)的變化,短語擔(dān)任不同句法成分時也無形態(tài)變化,這種無形態(tài)的變化將給排歧造成極大的困難;

      (2)漢語存在普遍的遞歸性,復(fù)合名詞、動詞短語多;

      (3)漢語的語法作用通過虛詞和詞序來表達(dá),虛詞在句中沒有實際的意義,常常被省略掉;而漢語的詞序又相當(dāng)靈活;

      (4)漢語的語法功能類型較多;

      (5)漢語的標(biāo)點符號帶有比英語標(biāo)點符號更多的信息。

      雖然漢語與英語相比在句法分析上存在上述困難,但在另一方面漢語也有一些自身的優(yōu)勢。漢語自身的優(yōu)勢有:

      (1)漢語的詞雖然沒有形態(tài)變化,但如果漢語詞的詞性或語義角色確定了,就會受到與其他語言相比更強的語法約束,比如在漢語中只有動詞和介詞擁有右從屬者;

      (2)一些漢語語塊具有明顯的邊界標(biāo)志,如介詞短語“在……里”;

      (3)漢語的偏正修飾語只能在中心詞之前,沒有后置定語,也沒有定語從句,不需要分析從句引導(dǎo)詞的從屬問題。

      現(xiàn)在亟待解決的問題是構(gòu)建大規(guī)模的語料庫,尋找漢語自身的規(guī)律,提高句法分析的精度。

      參考文獻(xiàn):

      [1]ROBINSON J. Dependency structures and transformational rules[J]. Language,1970, 46(2):259-285.

      [2]GIGUET E, VERGNE J. Syntactic analysis of unrestricted French[C] //Proceedings for the the International Conference on Recent Advances in Natural Languages Processing (RANLP`97), 1997: 276-281.

      [3]TAPANAINEN P, JARVINEN T. A non-projective dependency parser [C]// Proceedings of the 5th Conference on Applied Natural Language Processing, 1997: 64-71.

      [4]HAYS D. Dependency theory: a formalism and some observatoins[J] . Language, 1964: 511-525.

      [5]LOMBARDO V, LESMO L. An early-type recognizer for dependency grammar[C]//Proc. COLING, 1996: 723-728.

      [6]MARUYAMA H. Structural disambiguation with constraint propagation[C]// ACL-90, 1990:31-38.

      [7]MENZEL W, SCHRODER I, KOTH K, et al. Modeling dependency grammar with restricted constraints[J]. Traitement Automatique des Languages, 2002,41(1):113-144.

      [8]周強. 基于語料庫和面向統(tǒng)計學(xué)的自然語言處理技術(shù)介紹[J]. 計算機科學(xué),1995,22(4):36-40.

      [9]TAPANAINEN P, JARVINEN T. A non-projective dependency parser[C]// Proceedings of the 5th Conference on Applied Natural Language Processing, 1997: 64-71.

      [10]AMUELSSON C. A statistical theory of dependency syntax[C]//COLING, 2000: 684-690.

      [11]CRAMMER K, SINGER Y. Ultraconservative online algorithms for multiclass problem[J]. Journal of Machine Learning Research, 2003,1(3):951-991.

      [12]CARRERAS X. Experiments with a high-order projective dependency parser[C]// EMNLP-CoNLL2007, 2007:957-961.

      猜你喜歡
      統(tǒng)計分析方法規(guī)則
      撐竿跳規(guī)則的制定
      基于EMD的MEMS陀螺儀隨機漂移分析方法
      數(shù)獨的規(guī)則和演變
      一種角接觸球軸承靜特性分析方法
      重型機械(2020年2期)2020-07-24 08:16:16
      中國設(shè)立PSSA的可行性及其分析方法
      中國航海(2019年2期)2019-07-24 08:26:40
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      TPP反腐敗規(guī)則對我國的啟示
      2008—2015我國健美操科研論文的統(tǒng)計與分析
      人間(2016年27期)2016-11-11 17:33:19
      山東省交通運輸投資計劃管理信息系統(tǒng)的設(shè)計
      我國居民收入與消費關(guān)系的統(tǒng)計分析
      石楼县| 乐陵市| 北碚区| 竹溪县| 常山县| 高淳县| 循化| 河南省| 永登县| 河源市| 麦盖提县| 磴口县| 东阿县| 黑龙江省| 眉山市| 连州市| 德保县| 岳普湖县| 钟祥市| 吕梁市| 三门县| 普格县| 丽江市| 阳东县| 荣成市| 永仁县| 浦县| 治多县| 太湖县| 克山县| 鄱阳县| 涡阳县| 砀山县| 临高县| 舞阳县| 昭通市| 南木林县| 绥棱县| 惠水县| 加查县| 安新县|