• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于輕語義λ-演算的漢語陳述句靈活語序研究

      2016-05-04 01:15:38劉冬寧鄧春國滕少華張巍梁路
      中文信息學(xué)報 2016年3期
      關(guān)鍵詞:劉強(qiáng)陳述句語序

      劉冬寧,鄧春國,滕少華,張巍,梁路

      (廣東工業(yè)大學(xué) 計算機(jī)學(xué)院,廣東 廣州 510006)

      基于輕語義λ-演算的漢語陳述句靈活語序研究

      劉冬寧,鄧春國,滕少華,張巍,梁路

      (廣東工業(yè)大學(xué) 計算機(jī)學(xué)院,廣東 廣州 510006)

      目前,自然語言處理已經(jīng)從句法、語法層面走向輕語義層面。對于漢語陳述句的處理,傳統(tǒng)的方法是采用Lambek演算來進(jìn)行處理。但是傳統(tǒng)的Lambek演算無法處理漢語中的靈活語序問題,而現(xiàn)有的方法,如加入模態(tài)詞、新連接詞等,又因為其進(jìn)一步使得本已是NP-hard的Lambek演算時間復(fù)雜度變大,并不適合當(dāng)前的計算機(jī)處理?;诖?,該文提出了λ-Lambek演算,即采用Lambek演算來對漢語陳述句進(jìn)行句法演算,并通過Curry-Howard對應(yīng)理論與λ-演算來對漢語陳述句進(jìn)行輕語義模型的構(gòu)建。λ-Lambek演算不僅能夠?qū)h語陳述句進(jìn)行輕語義演算,而且還能對漢語陳述句靈活語序進(jìn)行處理。

      Lambek演算;λ-演算;中文陳述句;靈活語序;語義

      1 引言

      自然語言處理在日常生活當(dāng)中扮演著重要角色[1-3]。隨著大數(shù)據(jù)時代的到來,半結(jié)構(gòu)化的自然語言在計算機(jī)處理中有著更高的要求[4],如機(jī)器翻譯、語義搜索等需要更加快速、準(zhǔn)確地處理大量自然語言數(shù)據(jù),并且需要涉及自然語言中語義或輕量級語義的處理。傳統(tǒng)的方法已難以滿足大數(shù)據(jù)時代的要求,例如,基于概率模型的統(tǒng)計方法難以準(zhǔn)確地進(jìn)行語義分析,而一些過于強(qiáng)調(diào)語義邏輯的方法又會使計算機(jī)進(jìn)行處理的時間復(fù)雜度更高。與此同時,基于Lambek演算的自然語言處理有著許多優(yōu)點,它是上下文無關(guān)的[5-6](context-free)、具有代數(shù)語義(Algebra)、關(guān)系語義(Relation)的模型,并能通過Curry-Howard對應(yīng)理論與-演算引入輕量級語義[7]處理。而且由于Lambek演算沒有收縮(contraction)、弱化(weakening)和交換律(exchange)這三條結(jié)構(gòu)規(guī)則的特點[8],使得Lambek演算在自然語言處理中是可判定的。但同時也因為其缺少了交換律(exchange)規(guī)則,使得不能處理靈活語序。在前人研究中,為了處理漢語陳述句中的靈活語序,分別在Lambek演算中加入了新模態(tài)詞和新連接詞。雖然這些方法在邏輯、數(shù)學(xué)和語言學(xué)范疇內(nèi)形式完美,但其使原本已是NP—Hard的Lambek演算變得更為復(fù)雜,在程序處理中運(yùn)行效率極低,因此并不可行。基于此,本文提出了λ-Lambek演算,通過Curry-Howard 對應(yīng)理論將Lambek演算和λ-演算結(jié)合起來,以解決漢語陳述句靈活語序處理的問題,并且有較高的執(zhí)行效率。

      2 相關(guān)技術(shù)

      2.1 Lambek演算

      Lambek演算是由著名的加拿大學(xué)者Joachim Lambek在1958年提出,用于自然語言處理中的句法分析。Lambek演算是基于句法類型的演算,即句子片段中每一個詞語都用一個類型表示,形成類型序列,然后通過類型序列來進(jìn)行演算,從而判定句子的合法性。Lambek演算是上下文無關(guān)的(context-free),而且具有代數(shù)語義(Algebra)、關(guān)系語義(Relation)的模型,它的連接詞只有三個,即積運(yùn)算(product)“”、左余運(yùn)算(left residuation)“”和右余運(yùn)算(right residuation)“/”。Lambek演算擁有四條規(guī)則(表1),并具有切割可消除性(cut-free),這些優(yōu)點使得Lambek演算在形式完美的同時運(yùn)算簡單,因此適合計算機(jī)的處理。

      其中,規(guī)則Ⅰ描述了類型消去演算,規(guī)則Ⅱ描述了Lambek演算的結(jié)合性,規(guī)則Ⅲ描述了Lambek演算的傳遞性,規(guī)則Ⅳ描述了演算中的類型是可以提升的,即從簡單類型提升到復(fù)雜類型。

      表1 Lambek演算規(guī)則

      設(shè)類型序列S={t1,t2,…,tn},其中tk為類型數(shù)組(k=1,2,…,n)。根據(jù)表1中的規(guī)則,Lambek演算的過程可歸納成以下五步。

      Step1 列出句子或句子片段中每一個詞語所有可能的類型,記于數(shù)組tk中;

      Step2 對類型序列中每一組類型進(jìn)行組合,得到類型序列數(shù)組arrayS;

      Step3 選取類型序列數(shù)組中一個類型序列arrayS[i]={t1[a],t2[b],…,tn[c]},其中a、b、c分別為類型數(shù)組t1、t2、t3的一個取值;

      Step4 對每個類型序列組合arrayS[i]進(jìn)行類型演算;

      Step5 if演算結(jié)果為s,then結(jié)束計算,并輸出句子合法,else 跳到step3直到所有類型序列組合都計算完。

      2.2 λ-演算

      λ-演算[9-11]是一套用于數(shù)學(xué)定義、函數(shù)應(yīng)用和遞歸的形式系統(tǒng),它是由Alonzo Church 和 Stephen Cole Kleene 在 20 世紀(jì)30年代提出的,在1936年,Alonzo Church運(yùn)用其證明了判定性問題(Entscheidungsproblem)的一個否定的答案。λ-演算在自然語言處理中可以對語義模型進(jìn)行描述。

      定義1 設(shè)λ-term為λ-演算中的一個表達(dá)式,則其BNF定義為<λ-team>∷=|<λ-team><λ-team>|λ.<λ-team>|(<λ-team>)。

      在λ-演算中,有三種運(yùn)算: α-變換,β-歸約和η-變換。α-變換意味著λ表達(dá)式中的變元是可以替換的,但不改變原來含義;β-歸約表達(dá)了函數(shù)代入的語義;η-變換表達(dá)了函數(shù)的等價性,即如果對于任意的x,如果有f(x)=g(x),則f和g具有函數(shù)等價性。

      3 λ-演算及其漢語陳述句靈活語序的處理

      (1)

      (2)

      (3)

      因為這種足夠弱,使得Lambek演算無法處理漢語陳述句的靈活語序。對于陳述句“劉強(qiáng)愛看言情片[13]”,我們通過Lambek演算,如式(4)所示。

      (4)

      其中(I)表示使用表1中的規(guī)則I,由此可見句子“劉強(qiáng)愛看言情片”是合法的,但是對于其話題句靈活語序“言情片劉強(qiáng)愛看”,我們無法使得該句子通過Lambek演算式

      (5)

      (5)因此,Lambek演算對于漢語陳述句靈活語序的處理是不可行的。因此,我們必須通過某種方式使得句子的演算順序變得能夠使用Lambek演算來進(jìn)行處理?,F(xiàn)有的方法是加入模態(tài)詞(Modality),如鄒崇理[14]提出的方法Moortgat[15]提出的方法和劉冬寧[16]提出的方法,但是這些加入了模態(tài)詞的方法,會使得原已是NP-hard的Lambek演算變得更復(fù)雜,從而不適合計算機(jī)的計算,而且不能進(jìn)行輕量級語義處理。針對這個問題,我們通過Curry-Howard對應(yīng)理論,將Lambek演算和λ-演算對應(yīng)起來,從而實現(xiàn)漢語陳述句靈活語序的處理。對應(yīng)后的Lambek演算如式(6)~式(12)所示。

      (6)

      (7)

      (8)

      (9)

      (10)

      (11)

      (12)

      根據(jù)Curry-Howard對應(yīng)理論及定義1,我們對λ-Lambek演算進(jìn)行定義。

      定義2 設(shè)λ-Lambek表達(dá)式(簡寫為“λL-team”)為一個二元組,λL-team={λ-team,TYPE },其中TYPE為單詞類型。

      定義3 設(shè)λ-Lambek演算的句子序列為LS,則LS=(λL-team)*,即句子由若干個λ-team組成。

      對應(yīng)的λ-Lambek演算過程如式(13)所示。λyx.Verb(x,y) Noun

      (13)

      由此可見句子“劉強(qiáng)愛看言情片”是合法句子。對于其靈活語序“言情片劉強(qiáng)愛看”,其演算模型是無法通過演算得到合法句子類型s,其演算過程如式(14)所示。Noun λyx.Verb(x,y)

      (14)

      因此,無論是傳統(tǒng)的Lambek演算,還是Lambek演算與λ-演算結(jié)合起來的方法都無法對漢語陳述句中的靈活語序進(jìn)行處理。傳統(tǒng)的方法是在Lambek演算中加入了模態(tài)詞,但是其使得本已是NP-hard的Lambek演算變得更復(fù)雜,不適合在計算機(jī)中進(jìn)行計算。為此,我們對λ-Lambek演算中的λL-team進(jìn)行預(yù)處理,即修改部分λL-team,從而將靈活語序變成常規(guī)語序,以便于進(jìn)行λ-Lambek演算。整體的演算流程如圖1所示。

      圖1 λ-Lambek演算流程圖

      (15)

      由此可見,句子“言情片劉強(qiáng)愛看”是合法的。

      (16)

      除此之外,如果陳述句不是簡單句,而是用了形容詞等修飾,則該句子也能通過λ-Lambek演算,例如句子“愛看動人的言情片劉強(qiáng)”,其中形容詞“動人

      (17)

      由此可見,對于各種靈活語序的λ-Lambek演算, 我們需要對其詞語的λL-team根據(jù)其靈活語序

      的結(jié)構(gòu)進(jìn)行修改,然后再對其進(jìn)行演算。

      4 λ-演算及其漢語陳述句靈活語序的處理與應(yīng)用

      傳統(tǒng)的Lambek演算只能對句子進(jìn)行句法判定,即判定句子句法的合法性,但是不能進(jìn)行輕語義的演算。而λ-演算不僅對Lambek進(jìn)行了補(bǔ)充,使之能夠處理漢語言中靈活語序的問題,而且還能進(jìn)行輕語義的演算。

      定義4 設(shè)w為輕語義模型中詞語語義的λL-team,函數(shù)w=sem(parameters[])為語義函數(shù),其中函數(shù)名sem為詞語的語義,parameters[]為詞語集{w1,w2,…},表示單詞w的語義作用在詞語集parameters[]之上。

      根據(jù)定義4,令“劉強(qiáng)”的λL-team為λx.LIUx,“言情片”的λL-team為λx.xYAN,“愛看”的λL-team為λyx.LIKE(x,y),則句子“劉強(qiáng)愛看言情片”的語義演算如式(18)所示。

      (18)

      演算最終得到語義單詞LIKE(LIU,YAN),其表示動詞“愛看”的主語是“劉強(qiáng)”,謂語是“言情片”。

      定義5 設(shè)λ-Lambek演算的樹模型為T,則T的BNF定義為T=(T,T) | leaf,其中l(wèi)eft為詞語的語義。

      因此,我們可以通過λ-Lambek演算得到一棵語義二叉樹模型T。λ-Lambek演算過程中,每一個詞語是葉子節(jié)點,在每一次的E或/E演算都得到父節(jié)點,最終生成一棵二叉樹。

      二叉樹模型T有兩個性質(zhì): 樹的根節(jié)點對應(yīng)的句法類型必為s;語義相同但語序不同的二叉樹模型T形狀不一致,但其根節(jié)點一致,即表示含有相同語義。

      (19)

      對于句子“愛看動人的言情片劉強(qiáng)”,其演算流程如式(20)所示。

      (20)

      對應(yīng)的二叉樹模型如圖2(b)所示。

      圖2 句子“動人的言情片劉強(qiáng)愛看”和“愛看動人的言情片劉強(qiáng)”的二叉樹模型

      5 實驗驗證

      Lambda是一個函數(shù)式表達(dá)式,因此λ-Lambek演算能夠方便地通過計算機(jī)程序來實現(xiàn)。

      定義6 設(shè)λL-team的數(shù)據(jù)結(jié)構(gòu)為一個三元組,其中name表示λL-team的含義,function表示λL-team的lambda函數(shù),type表示句法類型。

      表2 λ-Lambek演算詞匯表

      為了通過程序?qū)嶒瀸崿F(xiàn)λ-Lambek演算,首先需要采集一定的實現(xiàn)數(shù)據(jù),即詞匯表,本實驗采用已經(jīng)經(jīng)過預(yù)處理的詞匯表,選出的部分?jǐn)?shù)據(jù)如表2所示。實驗分別對句子“劉強(qiáng)愛看言情片”、“愛看動人的言情片劉強(qiáng)”和“言情片愛看劉強(qiáng)”進(jìn)行了程序驗證,結(jié)果如圖3~圖5所示。

      圖3 句子“劉強(qiáng)愛看言情片”的程序判定結(jié)果

      圖4 句子“愛看動人的言情片劉強(qiáng)”的程序判定結(jié)果

      圖5 句子“愛看劉強(qiáng)言情片”的程序判定結(jié)果

      由圖3可以看出,對于簡單句子“劉強(qiáng)愛看言情片”,在演算中只需要進(jìn)行兩次函數(shù)代入操作(/E和E)既可得到合法句子的判定結(jié)果。由圖4可以看出,對于復(fù)雜靈活語序,如“愛看動人的言情片劉強(qiáng)”,在演算中需要進(jìn)行三次函數(shù)代入操作以及一次β操作。由圖5可以看出,對于語義上錯誤的句子“愛看劉強(qiáng)言情片”,由于“劉強(qiáng)”的lambda函數(shù)代入“愛看”中無法消去,從而在程序判定中得到“句子非法”,因此該λ-Lambek演算同樣能夠判定非法句子。通過實驗可以證明lambda演算不僅在形式上能夠?qū)h語陳述句靈活語序進(jìn)行判定,還能通過程序進(jìn)行判定,并且有較高的執(zhí)行效率。

      6 結(jié)束語

      對于自然語言處理,基于Lambek的演算有著許多優(yōu)點,它是上下文無關(guān)的,具有代數(shù)語義(Algebra)、關(guān)系語義(Relation)的模型,并能通過Curry-Howard對應(yīng)理論與λ-演算引入輕量級語義處理。但是由于Lambek演算也存在一些限制,例如由于缺少了Exchange規(guī)則,導(dǎo)致不能處理漢語陳述句中的靈活語序?;诖?,本文采用了λ-Lambek演算,即通過Curry-Howard對應(yīng)理論將λ-演算和Lambek演算結(jié)合起來,對漢語陳述句靈活語序進(jìn)行處理。λ-Lambek演算并不改變Lambek演算的時間復(fù)雜度,因此能很好地適應(yīng)計算機(jī)的計算。除此之外,λ-Lambek演算還能進(jìn)行輕量級語義演算,而且通過演算能得到輕語義的二叉樹模型,從而實現(xiàn)句子的輕量級語義分析,并且能夠通過程序進(jìn)行判定。在后續(xù)的工作中,我們將對漢語陳述句進(jìn)行語義分析,從而為語義搜索和機(jī)器翻譯提供有力的工具。

      [1] John Atkinson,Juan Matamala. Evolutionary Shallow Natural Language Parsing[J].Computational intelligence,2012,28(2): 156-175.

      [2] Christian Bitter,David A. Elizondo,Yingjie Yang. Natural language processing: a prolog perspective[J].Artificial Intelligence Review,2010,33(1/2): 151-173.

      [3] 孫茂松,劉挺,姬東鴻,等. 語言計算的重要國際前沿[J].中文信息學(xué)報,2014,28(1): 1-7.

      [4] 彭煒明,宋繼華,王寧,等. 漢語傳統(tǒng)語法及其在中文信息處理中的應(yīng)用展望[J].中文信息學(xué)報,2012,26(4): 50-60.

      [5] Joachim Lambek. The Mathematics of Sentence Structure[J].The American Mathematical Monthly,1958,65(3): 153-169.

      [6] Michal Kozak.Cyclic Involutive Distributive Full Lambek Calculus is Decidable[J].Journal of logic and computation,2011,21(2): 231-252.

      [7] 張亮,尹存燕,陳家駿. 基于語義樹的中文詞語相似度計算與分析[J]. 中文信息學(xué)報,2010,24(6): 23-30.

      [8] Bayu Surarso,H. Ono. Cut elimination in noncommutative substructural logics[J].Reports on Mathematical Logic,1996(30): 13-29.

      [9] JL Krivine. Lambda Calculus,Types and Models[M]. Ellis Horwood,1993(98): 105-110.

      [10] Hindley R.,Seldom J. Introduction to Combinators and lambda-calculus [M]. London: Cambridge University Press,1986: 87-100.

      [11] Gerhard J?ger,Anaphora and Type Logical Grammar[M].Springer Netherlands,2005,24:119-125.

      [12] 劉冬寧,湯庸,滕少華,等. 基于時態(tài)數(shù)據(jù)庫的極小子結(jié)構(gòu)邏輯系統(tǒng)[J]. 計算機(jī)學(xué)報,2013(8): 1592-1561.

      [13] 鄒崇理.多模態(tài)范疇邏輯研究[J].哲學(xué)研究,2006,09: 115-121.

      [14] Bernardi,Moortgat.Continuation semantics for the Lambek-Grishin calculus[J].Information & Computation,2010,208(5): 397-416.

      [15] 劉冬寧,湯庸,黃昌勤,等. 基于時態(tài)查詢語言的并發(fā)Lambek演算及范疇語法[J].智能系統(tǒng)學(xué)報,2009,6: 245-250.

      Research of Flexible Word Order in Chinese StatementsBased on Lightweight Semantic λ-calculus

      LIU Dongning,DENG Chunguo,TENG Shaohua,ZHANG Wei,LIANG Lu

      (School of Computer,Guangdong University of Technology,Guangzhou,Guangdong 510006,China)

      Now natural language processing has shifted from syntactic/lexical level to lightweight semantic level. As for the natural language processing of Chinese narrative sentences,the traditional method is using Lambek calculus,Which to process the Chinese statements with a flexible word order. And the present methods,such as adding modal words or new conjunctions,are not suitable for computer processing because they will increase the complexity of the NP-hard Lambek calculus. In response,this paper puts forward the λ-Lambek calculus,which uses Lambek calculus for the syntactic calculus of Chinese statements,and builds the lightweight semantic model of Chinese statements by Curry-Howard theory and λ-calculus. The λ-Lambek calculus can not only process the lightweight semantic calculus for Chinese statements,but also process the statements of flexible word order in Chinese.

      Lambek calculus;λ-calculus;Chinese statements;flexible word order;semantic

      劉冬寧(1979-),博士,副教授,主要研究領(lǐng)域為人工智能邏輯、數(shù)據(jù)庫與協(xié)同計算。E?mail:liudn@gdut.edu.cn鄧春國(1988-),碩士研究生,主要研究領(lǐng)域為自然語言處理、數(shù)據(jù)挖掘。E?mail:cidgee@outlook.com滕少華(1952-),博士,教授,主要研究領(lǐng)域為數(shù)據(jù)庫與協(xié)同計算。E?mail:shteng@gdut.edu.cn

      2014-02-24 定稿日期: 2014-06-18

      國家自然科學(xué)基金(61402118,61272067,61104156,61370229);國家科技支撐計劃課題 (2013BAH72B01)

      1003-0077(2016)03-0023-07

      TP391

      A

      猜你喜歡
      劉強(qiáng)陳述句語序
      詞句練習(xí)
      劉強(qiáng)畫廊
      滿文簡單句式之陳述句
      西夏語陳述句到一般疑問句的轉(zhuǎn)換方式
      西夏學(xué)(2020年2期)2020-01-24 07:43:34
      語序類語法填空題的解題技巧
      as引導(dǎo)狀語從句的倒裝語序
      劉強(qiáng)作品
      漢韓“在”字句的語序類型及習(xí)得研究
      劉強(qiáng)作品
      劉強(qiáng)作品
      凤山县| 连城县| 宁远县| 济阳县| 晋中市| 栾川县| 涿州市| 鹤山市| 金平| 泗阳县| 蒲城县| 喀喇沁旗| 株洲市| 措美县| 蒙城县| 德阳市| 和顺县| 辰溪县| 久治县| 鞍山市| 监利县| 三穗县| 库车县| 大庆市| 鲁山县| 精河县| 稷山县| 嘉定区| 开封市| 黄石市| 河南省| 南昌市| 垦利县| 郸城县| 普宁市| 伊川县| 红原县| 崇阳县| 青浦区| 亳州市| 利津县|