• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      動詞次范疇英漢論元對應(yīng)關(guān)系獲取

      2010-07-18 03:11:46朱聰慧趙鐵軍韓習(xí)武鄭德權(quán)
      中文信息學(xué)報 2010年2期
      關(guān)鍵詞:論元英漢知識庫

      朱聰慧,趙鐵軍,韓習(xí)武,鄭德權(quán)

      (1.教育部—微軟語言語音重點實驗室,哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001;2.計算機科學(xué)與技術(shù)學(xué)院,黑龍江大學(xué),黑龍江哈爾濱150001)

      1 引言

      近年來詞匯知識庫的重要性無論在計算語言學(xué)界還是在理論語言學(xué)研究中都日益增長,動詞的次范疇化(subcategorization)信息是國內(nèi)外公認的該知識庫中不可缺少的組成部分。次范疇化,又稱次語類化,是根據(jù)句法信息的進一步劃分;動詞次范疇化即動詞大語類的細化。同其他詞類相比,動詞表現(xiàn)形式最為復(fù)雜,在句法結(jié)構(gòu)中活動能力最強,大多數(shù)其他句法成分都要跟它發(fā)生一定的結(jié)合或限制關(guān)系;動詞是一般句子里最重要的部分,以動詞為謂語或謂語中心詞的句子最多,句型最為豐富。

      關(guān)于動詞次范疇化理論及其詞匯知識自動獲取的研究已經(jīng)在英、漢、德、捷克、西班牙、希臘等的語言中取得了很大程度的進展[1-2],并在不同程度上建設(shè)了有助于單語信息處理的次范疇化詞匯知識庫。但是在多語言、跨語言信息交流日益頻繁的今天,世界上跨語言次范疇化理論研究仍然很少,并且不成體系;更缺少系統(tǒng)地自動獲取雙語或多語次范疇化知識的實踐性研究和相關(guān)研究方案。

      英語和漢語都屬于世界上最具有影響力的語種,英漢相關(guān)的信息處理量極大,并且二者在單語動詞次范疇化理論研究和自動獲取方面又都有著相對較好的科研成果。本文在漢英雙語次范疇化形式描寫的基礎(chǔ)上,基于約90萬漢英平行句對的語料庫,進行了自動獲取跨語言次范疇化論元對應(yīng)關(guān)系的自動抽取;并將自動獲取的論元對應(yīng)關(guān)系,加入了統(tǒng)計機器翻譯系統(tǒng),實驗證明,加入了論元對應(yīng)關(guān)系的機器翻譯系統(tǒng),在Blue Score上提升了3.42%,N IST分數(shù)上有2.48%的提升,這說明了跨語言次范疇研究的價值。

      文章其余部分組織如下:第二節(jié)簡要介紹了提出的漢英雙語動詞次范疇化的形式描寫機制;第三節(jié)介紹了基于加強學(xué)習(xí)策略的英漢雙語動詞次范疇論元對應(yīng)關(guān)系地自動抽取方法;第四節(jié)是對應(yīng)關(guān)系自動抽取的實驗結(jié)果,以及融合了英漢論元對應(yīng)關(guān)系的統(tǒng)計機器翻譯系統(tǒng)的性能提升;最后,給出了結(jié)論。

      2 次范疇化的句法形式描寫

      “次范疇化”本質(zhì)上是一個子類劃分的過程。近代的語言學(xué)理論大都與動詞次范疇化現(xiàn)象有關(guān),這些論述隨著語言學(xué)基礎(chǔ)理論的發(fā)展而有所變化。特別是20世紀80年代開始廣為傳播的詞匯主義傾向(lexicalism trend)對次范疇化相關(guān)理論在句法和語義方面都產(chǎn)生了深遠的影響。早期研究從句法和語義連接的角度出發(fā),賦予論元特定的語義角色,認為論元的語義結(jié)構(gòu)決定謂語的功能和次范疇;在詞匯主義的影響下,研究者開始把次范疇化信息看作是詞匯本身所特有的屬性,即動詞自身的特性就決定了它做謂語時可能進入的次范疇類別。

      在這一歷史過程中,對計算語言學(xué),甚至是計算機科學(xué)的發(fā)展,起到了較大的促進作用的理論主要包括:管約論(Government-binding Theory)、格語法(Case G rammar)、廣義短語結(jié)構(gòu)語法(Generalized Phrase-Structure Gramm ar)、范疇語法(Categorial Theory)、詞匯功能語法(Lexical-Functional G rammar)、配價理論(Valency Theory)、中心詞驅(qū)動的短語結(jié)構(gòu)法(Head-Driven Phrase-Structure G rammar)等等。這些不同的語法為動詞次范疇化的形式描寫和自動獲取提供了基礎(chǔ)的理論指導(dǎo)和具體實施的可能。

      次范疇化句法描述的主要手段和工具是謂詞論元(argum ent)結(jié)構(gòu),由謂詞論元分布來形式化描述的句法結(jié)構(gòu)一般稱為次范疇框架(subcategorization frame),英文往往縮寫為SCF或SF、目前相關(guān)研究中單詞動詞次范疇化框架或多或少地納入了如下7種信息[1]:

      1.論元的數(shù)碼和類型,即特定謂語動詞在某一上下文中所要求的搭配成分和該成分的句法標志;

      2.謂語動詞的意義,即特定謂語動詞在某一次范疇框架中表現(xiàn)出的語義和部分語用;

      3.謂語論元結(jié)構(gòu)的語義表示,即次范疇框架本身句法所界定的語義特性或差異;

      4.句法層和語義層之間的關(guān)系映射,即動詞的表現(xiàn)形式和意義、次范疇框架的表現(xiàn)形式和意義等集合上的二元關(guān)系;

      5.選擇傾向或限制,即動詞在句法和語義上傾向于或不能選擇哪一類成分作論元;

      6.謂補成分中可理解論元的控制,即次范疇化框架中那些論元可以省略或替代而不影響語義理解;

      7.句型變化,即可以相互轉(zhuǎn)換而不改變基本語義表達的不同次范疇化框架。

      以上信息中,前兩項是最基本的次范疇化內(nèi)容;第三項可以看作是根據(jù)句法意義對前兩項的一種分類;第四項是在句法和語義連接層面上對前三項的進一步細化;第五、六項是對第一項在語義和語用上的補充;最后一項是特定謂語動詞所有的SCFs集合上可能的一種等價關(guān)系。除此之外,大部分SCF研究成果還都收集了動詞SCF基于學(xué)習(xí)語料的概率或概率分布。

      受傳統(tǒng)語言學(xué)理論的影響,各種手工或自動的動詞次范疇化獲取研究往往基于不同的謂詞論元形式描寫。早期手工的或小規(guī)模的自動獲取研究一般都以單一的方法來形式化論元,例如何萬順基于句法功能構(gòu)建的26個漢語動詞次范疇化框架[3];Brent基于論元的句法范疇設(shè)定6個英語動詞SCF[4]等等。近年來規(guī)模較大的動詞SCF自動獲取研究一般都采用綜合描寫的方法來完成論元的形式化,例如A nna Korhonen關(guān)于英語SCF的研究[1]和Sabine shulte im Walde關(guān)于德語SCF的研究[5]。表1給出了動詞次范疇化研究中具有代表性的集中論元描寫形式。表中縮略語都是采用的語言學(xué)慣例:SUBJ為主語,OBJ為賓語,OBJ2為間接賓語,XCOMP為不定補語,SCOMP為子句補語,NCOMP是名詞性補語,OBL是詞匯功能語法中的其他功能,NP是名詞短語,INF是不定式短語,S指子句,PP是介詞短語,ADJP或JP指形容詞短語,ADVP指副詞短語,WH是疑問詞等等(具體解釋請參考相關(guān)文獻)。

      表1 幾種論元描寫形式

      確定了論元的種類和描寫形式之后,還要規(guī)范謂詞論元構(gòu)成的SCF排列順序,也就是要確定每一個論元在SCF中相對于謂詞和其他論元的位置。表2的例子給出了英語SCF No.26[1]和漢語 No.67[6]的論元構(gòu)成方式:前者包括手工詞典COMLEX,ANIT的分類標記和語義子類型“RAISed(提升)”,后者僅由句法論元按一定順序構(gòu)成(英語SCF語義子類型規(guī)定了句法結(jié)構(gòu)所包含的意義,還包括‘EQUI',‘PVERB',‘DMOV T',‘EXTRAP',‘NONE'等等)。至于論元之間蘊含的實體關(guān)系,文獻[7]利用卷積樹核對中文實體關(guān)系抽取做了深入的研究。

      表2 論元組織形式的例子

      次范疇化形式描寫中句法和語義成分的比重是很難單純確定的,只有根據(jù)不同自然語言處理任務(wù)進行適當(dāng)?shù)恼{(diào)整。次范疇化自動獲取及其相關(guān)信息的應(yīng)用都涉及到次范疇化框架的分析,而次范疇化框架的分析實質(zhì)上是一個由表象到本質(zhì)的認知過程,因此次范疇框架最好形式化那些句法功能的外在信息,即可觀察的句法特征。并且一些較為實用的自然語言處理工具,如詞法分析器和句法分析器等,也使得句法SCF較語義SCF更容易獲取。只有較好的單語獲取結(jié)果和兼容性強的句法模式才能保障跨語言次范疇化分析的可行性。

      因此在漢英動詞次范疇論元對應(yīng)關(guān)系的自動獲取任務(wù)中采用了句法描寫的形式。漢語直接采用文獻[6]的138類別純句法描寫的SCF基礎(chǔ)類型;表3給出了英語句法SCF所包含的論元類型,AS表示‘a(chǎn)s'IT表示‘it',RP表示小品詞等等。

      表3 英語句法論元類型

      3 基于加強學(xué)習(xí)策略的英漢論元對應(yīng)關(guān)系抽取

      現(xiàn)有的次范疇化研究大都側(cè)重于單語動詞的謂語形式,只有針對那些包含可能對齊關(guān)系的雙語句對進行跨語言SCF分析,雙語SCF的自動獲取才能更為可行,獲取結(jié)果才會更易于語言學(xué)解釋。因此,當(dāng)前首要任務(wù)是抽取可能對齊的論元對應(yīng)關(guān)系,即英漢SCF在組成成分上的對應(yīng)關(guān)系。

      圖1 英漢論元對應(yīng)關(guān)系獲取流程

      我們收集了一些雙語平行語料,分別經(jīng)過英漢句法分析器為句子添加了相關(guān)句法信息。其中英語句法分析采用的是Collins的中心詞驅(qū)動的句法分析,而漢語句法分析采用的是哈爾濱工業(yè)大學(xué)機器智能與翻譯研究室開發(fā)的完全句法分析器。添加句法信息后,我們認為距離句法推導(dǎo)開始符號“S”最近的動詞就是該句的核心動詞。分別尋找出英漢句子的核心動詞后,如果兩個核心動詞在雙語詞典中有定義,則此句對保留;否則,刪除此句對。經(jīng)過以上的處理,共有約90萬句對保留了下來。SCF分析器為添加句法信息后的句子標注相應(yīng)的SCF類別,其中漢語SCF分析器采用的是文獻[8]提出的可以容忍句法噪音的分析器,漢語動詞SCF論元識別精度為93.43%。而對應(yīng)英文句子,手工分析了文獻[1]附錄A給出的180個例句和部分典型語料,歸納了66條句法論元識別和論元組合規(guī)則,并應(yīng)用這些規(guī)則進行SCF類型獲取。在1 000句英文句子的開發(fā)語料上的測試結(jié)果表明,英語論元識別結(jié)果的精確率約為92.6%。接下來,我們設(shè)計了一種基于主動學(xué)習(xí)策略的雙語SCF論元對應(yīng)關(guān)系獲取器。它只以一條中英文的NP論元是等價的啟發(fā)式規(guī)則(“漢語論元的NP=英文論元NP”)為初始種子,主動學(xué)習(xí)器就可以利用現(xiàn)有的知識庫,在平行語料上自動抽取相應(yīng)的論元對應(yīng)關(guān)系,并將新的對應(yīng)關(guān)系加入知識庫,用于后續(xù)的關(guān)系獲取,整體獲取流程見圖1。

      3.1 SCF論元對應(yīng)關(guān)系主動獲取算法

      為了避免傳統(tǒng)切分方法需要人工確定論元對應(yīng)規(guī)則的缺點,我們提出了一種基于主動學(xué)習(xí)策略的論元對應(yīng)關(guān)系自動抽取方法。這種方法幾乎不需要任何先驗的語言學(xué)知識,而且可以直接在句法分析器的輸出結(jié)果上以雙語平行語料為基礎(chǔ)進行對應(yīng)關(guān)系的獲取。我們的方法首先用一些簡單的對應(yīng)關(guān)系初始化知識庫,然后根據(jù)當(dāng)前知識庫里已有的論元對,在平行語料上不斷地抽取新的論元對應(yīng)關(guān)系,并將新的對應(yīng)加入知識庫,以便后續(xù)抽取時繼續(xù)使用。如此不斷迭代,逐漸擴展論元對應(yīng)關(guān)系知識庫。理論上,在初始化論元知識庫時,只需要加入“NP(漢語)=NP(英文)”(沒有任何句法嵌套關(guān)系的一個漢語名詞性論元詞和英文名詞論元是等價的)這一條規(guī)則,就可以完成論元知識庫的建立,我們在實驗中確實也只用了這一條規(guī)則初始化知識庫。算法簡要流程如下:

      圖2中是兩組平行句對處理的例子。在處理第一個例子時,知識庫中只有一條初始化對應(yīng)關(guān)系“漢語NP=英文NP”,根據(jù)算法步驟(1),找到核心動詞對應(yīng)關(guān)系“V[殺害了]=V[murdered]”;然后根據(jù)步驟(2),在剩下的論元中尋找能與當(dāng)前知識庫中已有的對應(yīng)關(guān)系相匹配的對應(yīng),在本例中為“NP[劉胡蘭]=NP[Liu Hulan]”;因為英漢SCF論元中剩余未匹配論元的數(shù)量都為1,所以將剩余的論元對應(yīng)關(guān)系,“BIP[被敵人]=NP[The enem y]”作為新抽取的論元對應(yīng)關(guān)系加入知識庫,即算法步驟(4)。接下來處理例子中的第二個句對,此時知識庫中已經(jīng)增加了一條新的對應(yīng)關(guān)系,同理找到核心動詞的對應(yīng)關(guān)系“V[涂]=V[painted]”;此時,根據(jù)步驟(2),可以找到兩條對應(yīng)關(guān)系符合現(xiàn)有知識庫的描述 ,“NP[墻]=NP[the wall]”和“BIP[被老孫]=NP[Lao Sun]”;最后根據(jù)步驟(4),“JP[黑了]=AP[Blace]”又被作為新的對應(yīng)關(guān)系加入知識庫。通過處理這兩組平行句對后,論元對應(yīng)關(guān)系知識庫增加了兩條新的論元對應(yīng)關(guān)系,如此反復(fù)進行,最終就可以得到該數(shù)據(jù)集上的論元對應(yīng)關(guān)系知識庫。

      圖2 英漢論元對應(yīng)關(guān)系抽取樣例

      4 實驗結(jié)果

      如前所述,從90萬漢英雙語句對中應(yīng)用我們提出的論元對應(yīng)關(guān)系自動抽取方法,共抽出約270萬對含有詞形信息的英漢動詞次范疇論元對應(yīng)關(guān)系,而去掉詞形信息,自動抽取的英漢SCF論元類型對應(yīng)關(guān)系共16類,詳見表4。

      表4 自動抽取的英漢論元對應(yīng)關(guān)系

      因為SCF框架中的論元不是標準的短語結(jié)構(gòu),而自動抽取的對應(yīng)關(guān)系中的論元有很多只是標準短語的一部分,或者是多個不同短語的組合,所以很難單純確定自動抽取的對應(yīng)關(guān)系的正確性。而為了驗證我們自動抽取的英漢論元對應(yīng)關(guān)系的有效性,我們將這些對應(yīng)關(guān)系加入了基于phrase的SM T系統(tǒng)。借鑒文獻[9]在SM T系統(tǒng)中調(diào)整規(guī)則集屬性的方法,我們在沒抽取對應(yīng)關(guān)系之前,我們使用GIZA++獲得了詞對齊信息,并將此信息和英漢對應(yīng)關(guān)系匹配后,加入了SM T系統(tǒng)中的規(guī)則表(Phrase Table),我們將使用原始Phrase Tablet的翻譯系統(tǒng)作為基準系統(tǒng)。系統(tǒng)的訓(xùn)練數(shù)據(jù)是我們收集的約90萬英漢句對,而測試語料為美國國家標準與技術(shù)研究院(National Institute of Standards and Technology,簡稱NIST)2003年的漢英機器翻譯評測語料,包括漢語句子506個,每個漢語句子對應(yīng)16個手工翻譯的參考答案。

      表5 融合論元關(guān)系前后SMT性能

      由表5可以看出加入論元對應(yīng)關(guān)系后,BLUE分數(shù)增加了0.013 7(提升3.42%),NIST分數(shù)增加了0.171 4(提升2.48%)。這在統(tǒng)計機器翻譯的評測中是具備一定顯著意義的。這是因為未經(jīng)擴展的Phrase Tab le中的英漢短語對,大都是基于詞對齊的方法獲取的,其中大都是標準的單詞和短語的英漢對應(yīng)關(guān)系。而我們通過擴展加入了大量單詞串的對應(yīng)。這些對應(yīng)中的單詞串不一定是標準短語,與原有英漢短語對有很大的不同,也就是說經(jīng)過擴展,Phrase Table中增加了很多額外的雙語對應(yīng)信息,所以提高了SM T的性能。由此可見,我們從真實語料中自動抽取論元對應(yīng)關(guān)系,對統(tǒng)計機器翻譯的性能提升方具有一定的實用性價值。

      5 結(jié)論

      本文提出了一個基于主動學(xué)習(xí)策略的英漢動詞次范疇論元對應(yīng)關(guān)系自動抽取方法。這種方法幾乎不需要任何先驗的語言學(xué)知識,可以在真實的雙語平行語料上自動發(fā)現(xiàn)英漢論元的對應(yīng)關(guān)系,并抽取出含有詞形信息論元對。將自動獲取的英漢論元關(guān)系融入基于Phrase的SM T系統(tǒng)后,翻譯的性能有了明顯提高,說明了我們方法自動抽取的對應(yīng)關(guān)系的有效性,也為統(tǒng)計機器翻譯的研究提供了新的研究方向。

      [1] Korhonen A.Subcategorization acquisition[D].Trinity H all University of Cambridge,2001.

      [2] Han Xi-wu,Zhao Tie-jun,Qi Hao-liang,et al.Subcategorization acquisition and evaluation for Chinese Verbs[C]//p roceedings of the COLING 2004,Sw itzerland,2004:723-728.

      [3] Her O S.G rammatica l functions and verb Subcategorization in mandarin Chinese[D].University of Haw aii,1990.

      [4] Brent M.From grammar to lexicon:unsupervised learning of lexical syntax[J].Computational Linguistics,1993,19(3):243-262.

      [5] Sabine Shu lte im W alde.Inducing German semantic verb classes from purely syntactic Subcategorization information[C]//Proceedings of the 40thAnnual Meeting o f the Association for Com putational linguistics,USA,2002:223-230.

      [6] 韓習(xí)武.漢語動詞次范疇化自動獲取技術(shù)的研究[D].哈爾濱工業(yè)大學(xué),2005.

      [7] 黃瑞紅,孫樂,馮元勇,黃云平.基于核方法的中文實體關(guān)系抽取研究[J].中文信息學(xué)報,2008,22(5):102-108.

      [8] Conghui Zhu,Tiejun Zhao and Xiw u Han.Chinese Verb Subcategorization A cquisition from Noisy Dataon Sentence Level[C]//Proceedings of 2009 World Congress on Com puter Science and Information Engineering,USA,2009:239-244.

      [9] 方李成,宗成慶.基于層次短語的統(tǒng)計翻譯系統(tǒng)中規(guī)則冗余度的高效約束方法[C]//第四屆全國學(xué)生計算語言學(xué)會議論文集,太原,2008:303-309.

      猜你喜歡
      論元英漢知識庫
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
      成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
      基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
      高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
      商務(wù)英語翻譯中英漢褒貶義詞的應(yīng)用探討
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      淺談英漢習(xí)語的文化差異及翻譯方法
      英漢文化中的委婉語應(yīng)用對比分析
      英語中動構(gòu)式中施事論元句法隱含的認知研究
      配位方式支配模式論元結(jié)構(gòu)
      扎赉特旗| 长葛市| 枞阳县| 宿州市| 拜城县| 社会| 棋牌| 吕梁市| 永丰县| 长垣县| 澄迈县| 丰顺县| 陕西省| 屯昌县| 仪征市| 永嘉县| 满洲里市| 武川县| 武安市| 伊金霍洛旗| 桦川县| 江华| 桑日县| 彭州市| 鹤山市| 陆河县| 苍南县| 莫力| 左贡县| 五华县| 昭苏县| 筠连县| 无棣县| 本溪市| 普安县| 东乡县| 秦安县| 宁国市| 古浪县| 民和| 利津县|