鄒崇理
(四川師范大學(xué)邏輯與信息研究所,四川成都610068)
【邏輯學(xué)研究】
從CTL到CCG
——邏輯語(yǔ)義學(xué)的新模式
鄒崇理
(四川師范大學(xué)邏輯與信息研究所,四川成都610068)
[欄目主持人]北京大學(xué)哲學(xué)系陳波教授
[主持人語(yǔ)]本期發(fā)表兩篇文章。一是鄒崇理教授的《從CTL到CCG——邏輯語(yǔ)義學(xué)的新模式》,該文介紹和評(píng)述了范疇語(yǔ)法CG的兩個(gè)現(xiàn)代版本——范疇類型邏輯CTL和組合范疇語(yǔ)法CCG,它們各自的基本構(gòu)想及其內(nèi)容,以及各自的優(yōu)勢(shì)和弱勢(shì)。鑒于這些理論所處理的自然語(yǔ)言現(xiàn)象非常復(fù)雜,由此導(dǎo)致它們?cè)诩夹g(shù)上也非常復(fù)雜,即使弄懂它們也需要相應(yīng)的知識(shí)基礎(chǔ)和學(xué)術(shù)功力,也是一件很不容易的事情。當(dāng)然,最理想的狀況是在弄懂的基礎(chǔ)上再做一些結(jié)合漢語(yǔ)的獨(dú)立研究工作。二是曾祥云教授的《當(dāng)代中國(guó)名辯理論研究的重要開拓者——評(píng)李先焜先生的名辯符號(hào)學(xué)研究及其理論貢獻(xiàn)》,該文概述了李先焜先生在名辯符號(hào)學(xué)研究上的貢獻(xiàn),對(duì)其作出高度評(píng)價(jià):“作為當(dāng)代名辯研究的重要開拓者,李先焜先生居功至偉。他不僅開創(chuàng)了當(dāng)代名辯符號(hào)學(xué)研究范式,打破了名辯邏輯化研究傳統(tǒng),使我國(guó)名辯研究重獲生機(jī)與活力,而且運(yùn)用符號(hào)學(xué)分析工具,對(duì)儒家正名理論、名家名學(xué)和墨家名辯等先秦諸子思想,給出了精辟獨(dú)到、令人信服的解讀。正是在他的積極倡導(dǎo)與大力推動(dòng)下,我國(guó)名辯符號(hào)學(xué)研究范式已取代傳統(tǒng)的名辯邏輯化研究范式,成為了當(dāng)代名辯理論研究的主要范式,并呈現(xiàn)出前所未有的蓬勃興旺發(fā)展態(tài)勢(shì),使我國(guó)名辯研究走向了一個(gè)新時(shí)代?!蔽覀儜?yīng)該對(duì)像李先生這樣作出扎實(shí)研究的學(xué)術(shù)前輩表示真誠(chéng)的敬意。我同時(shí)主張,在中國(guó)邏輯史研究中還是百花齊放比較好,名辯學(xué)、數(shù)理邏輯、傳統(tǒng)形式邏輯、非形式邏輯、論辯學(xué)等等工具都可以拿來(lái)用,關(guān)鍵在于:最后取得什么樣的研究成果,它們是否基于扎實(shí)的史料、可靠的詮釋和精辟的見解,以及對(duì)后來(lái)者的啟迪如何。
范疇類型邏輯CTL和組合范疇語(yǔ)法CCG,是范疇語(yǔ)法CG的兩個(gè)現(xiàn)代版本。CTL采用傳統(tǒng)的邏輯語(yǔ)義學(xué)方式,其特點(diǎn)是強(qiáng)調(diào)計(jì)算的思想、基于規(guī)則的思路和研究邏輯工具本身的性質(zhì)。就面向自然語(yǔ)言計(jì)算機(jī)處理的任務(wù)而言,CTL的短板是顯然的,即對(duì)自然語(yǔ)言的豐富多樣的具體現(xiàn)象,尤其是對(duì)語(yǔ)詞的研究非常不充分。CCG則挑戰(zhàn)傳統(tǒng),大膽創(chuàng)新,提出新的研究模式,構(gòu)筑大規(guī)模的詞庫(kù),關(guān)注大量的規(guī)則例的應(yīng)用,以此滿足了計(jì)算機(jī)的自然語(yǔ)言系統(tǒng)處理大規(guī)模真實(shí)文本的需求。而如果全面系統(tǒng)地考慮語(yǔ)義因素,CCG的詞庫(kù)和規(guī)則例也可能需要大的調(diào)整。CCG的下一步研究任重而道遠(yuǎn)。
邏輯語(yǔ)義學(xué);范疇類型邏輯;組合范疇語(yǔ)法
范疇類型邏輯CTL和組合范疇語(yǔ)法CCG的根源同是范疇語(yǔ)法CG。CG最早開啟了邏輯語(yǔ)義學(xué)面向自然語(yǔ)言計(jì)算機(jī)處理的思路。上個(gè)世紀(jì)30-40年代,波蘭邏輯學(xué)家Ajduciewicz提出了CG;50年代計(jì)算語(yǔ)言學(xué)之父Bar-Hillel和數(shù)學(xué)家Lambek的工作使CG同自然語(yǔ)言的計(jì)算機(jī)信息處理關(guān)聯(lián)起來(lái);80年代至今,CG發(fā)展出兩個(gè)現(xiàn)代版本——范疇類型邏輯CTL和組合范疇語(yǔ)法CCG。就面向自然語(yǔ)言計(jì)算機(jī)處理這樣的任務(wù)而言,CTL采用的是傳統(tǒng)的邏輯語(yǔ)義學(xué)方式,而CCG則挑戰(zhàn)傳統(tǒng),大膽創(chuàng)新,提出新的研究模式。要從CTL那里比較出CCG的“創(chuàng)新”,有必要先談?wù)凜TL的特點(diǎn)及其短板。
CTL的特點(diǎn),即CTL的基本精神可以概括為:計(jì)算的思想、基于規(guī)則的思路和研究邏輯工具的性質(zhì)。
自然語(yǔ)言是一個(gè)符號(hào)系統(tǒng),由若干或長(zhǎng)或短的符號(hào)串構(gòu)成。這個(gè)系統(tǒng)是動(dòng)態(tài)的,不斷由較小的符號(hào)串構(gòu)造出較大的符號(hào)串。從CG和CTL的視角看來(lái),這種構(gòu)造生成過(guò)程就是計(jì)算過(guò)程(也是邏輯推演過(guò)程),這就是CTL的計(jì)算思想。怎樣把自然語(yǔ)言的生成構(gòu)造變成計(jì)算的過(guò)程?
首先,需要給自然語(yǔ)言各類語(yǔ)詞貼上顯示“計(jì)算的標(biāo)簽”,這種標(biāo)簽就是范疇。范疇分為原子范疇和復(fù)合范疇,表示句子的范疇s和表示名稱的范疇n為原子范疇,復(fù)合范疇A/B和BA又叫函子范疇,體現(xiàn)出“計(jì)算的涵義”。CTL給自然語(yǔ)言若干詞條指派范疇的工作就形成了所謂詞庫(kù)的內(nèi)容,如[1]157:
其次,對(duì)詞條指派了范疇后,CTL確立的范疇計(jì)算原則是:若表達(dá)式α的范疇是A/B并且表達(dá)式β的范疇是B,則表達(dá)式αβ的范疇是A;若表達(dá)式α的范疇是A并且表達(dá)式β的范疇是AB,則表達(dá)式αβ的范疇是B。上述原則被抽象為CTL系統(tǒng)的邏輯定理T1:(A/B)B→A和T2:A(AB)→B,也叫“函項(xiàng)運(yùn)算貼合”的規(guī)則。
根據(jù)上述定理,英語(yǔ)句“John likes fresh milk”在CTL那里合語(yǔ)法的求解計(jì)算推導(dǎo)過(guò)程就是:
上圖表明:由“fresh”和“milk”構(gòu)成“fresh milk”,變成由范疇“n/n”和“n”依據(jù)定理1計(jì)算出范疇“n”;由“l(fā)ikes”和“fresh milk”構(gòu)成“l(fā)ikes fresh milk”,對(duì)應(yīng)由范疇“(ns)/n”和“n”依據(jù)定理1計(jì)算出范疇“ns”;最后由“John”和“l(fā)ikes fresh milk”構(gòu)成語(yǔ)句“John likes fresh milk”,對(duì)應(yīng)由范疇“n”和“ns”依據(jù)定理2獲得范疇“s”,計(jì)算于是中止,計(jì)算過(guò)程獲得解s,句子合語(yǔ)法。這就是CTL的計(jì)算思想,把自然語(yǔ)言的構(gòu)造生成變成了范疇的計(jì)算推演過(guò)程。
美國(guó)著名的語(yǔ)言學(xué)大師喬姆斯基(N.Chomsky)提出:人腦先天具有構(gòu)造生成語(yǔ)言的創(chuàng)造能力。人類語(yǔ)言知識(shí)的本質(zhì)就是語(yǔ)言知識(shí)如何構(gòu)成的問(wèn)題,其核心是德國(guó)學(xué)者洪堡特(W.Humboldt)指出的“有限手段的無(wú)限使用”。Gamut寫道:“一個(gè)合格的語(yǔ)言使用者能夠解釋數(shù)量無(wú)限的句子,這種解釋是基于對(duì)有窮數(shù)量詞匯意義的理解和數(shù)量有窮的句法規(guī)則的運(yùn)用。”[2]141因此,構(gòu)造生成自然語(yǔ)言的機(jī)制可以概括成兩個(gè)特征:
a.有窮多的詞條作為出發(fā)點(diǎn);
b.依據(jù)有窮多規(guī)則去構(gòu)造和理解無(wú)窮多的語(yǔ)句。人具有構(gòu)造自然語(yǔ)言的機(jī)制,人就能夠構(gòu)造從來(lái)沒(méi)有看見到的句子,也可以理解從來(lái)沒(méi)有聽說(shuō)過(guò)的句子,人能夠構(gòu)造和理解的句子是無(wú)窮多的。自然語(yǔ)言中的復(fù)雜句子要有多長(zhǎng)有多長(zhǎng),是無(wú)窮多的。怎樣來(lái)構(gòu)造無(wú)窮多的復(fù)雜長(zhǎng)句子?邏輯的遞歸組合思想恰好派上用場(chǎng),CTL推出了有關(guān)定理來(lái)體現(xiàn)邏輯的遞歸組合精神。這些定理起到構(gòu)造生成語(yǔ)言所依據(jù)的有窮多規(guī)則的作用,這就是CTL基于規(guī)則的思路。
自然語(yǔ)言中的復(fù)雜長(zhǎng)句子有:
(1)That that something is wrong is known to the public is usual.
(2)Mary likes a man such that he has a son such that he loves a girl such that she hates a boss. CTL反復(fù)使用對(duì)應(yīng)定理1或定理2的“函項(xiàng)運(yùn)算貼合”的規(guī)則,就能夠生成構(gòu)造出(1)這樣的主語(yǔ)從句鑲嵌的復(fù)雜長(zhǎng)句子,以下是計(jì)算推演的樹圖:
CTL還通過(guò)在系統(tǒng)中假設(shè)諸如結(jié)合或交換等結(jié)構(gòu)公設(shè),推出一系列函子范疇的組合規(guī)則及其置換規(guī)則,用于自然語(yǔ)言許多復(fù)雜現(xiàn)象的構(gòu)造分析。
CTL強(qiáng)調(diào)計(jì)算的思想和基于規(guī)則的思路使得它成為分析自然語(yǔ)言句法語(yǔ)義構(gòu)造生成的有力工具。不僅如此,CTL作為邏輯語(yǔ)義學(xué)的重要分支,還是傳承和延伸邏輯理性主義精神的產(chǎn)物,這表現(xiàn)為從理論角度去深入探討邏輯工具本身的性質(zhì)。
從模態(tài)邏輯的角度看,CTL是在自然語(yǔ)言分析領(lǐng)域內(nèi)產(chǎn)生的模態(tài)邏輯,系統(tǒng)的語(yǔ)義解釋基于可能世界語(yǔ)義框架,這里的可能世界是自然語(yǔ)言若干長(zhǎng)長(zhǎng)短短的符號(hào)串,可能世界之間的可及關(guān)系體現(xiàn)為自然語(yǔ)言符號(hào)串之間的毗連關(guān)系,這些毗連具有滿足自然語(yǔ)言符號(hào)串自身特色的各種性質(zhì)。CTL以公理表述的方式確立了系統(tǒng)的可靠性和完全性證明,以Gentzen表述的方式解決了系統(tǒng)的可判定性問(wèn)題。
從子結(jié)構(gòu)邏輯角度考察CTL的Lambek演算,導(dǎo)致針對(duì)結(jié)構(gòu)規(guī)則而言的“結(jié)構(gòu)層級(jí)”和針對(duì)邏輯系統(tǒng)而言的“子結(jié)構(gòu)邏輯”層級(jí)的確立。這是一個(gè)強(qiáng)度遞減的系統(tǒng)層級(jí),經(jīng)典命題邏輯是其中最強(qiáng)的系統(tǒng),Lambek演算是其中最弱的系統(tǒng)。在直覺主義邏輯以下,各系統(tǒng)的區(qū)別由結(jié)構(gòu)規(guī)則P、C和M的去留決定,概述如下:
從結(jié)構(gòu)角度研究CTL,獲得許多細(xì)化結(jié)果,對(duì)自然語(yǔ)言具有更多的表達(dá)力。
CTL是邏輯語(yǔ)義學(xué)的重要理論,但就服務(wù)于自然語(yǔ)言的計(jì)算機(jī)信息處理而言,CTL作為邏輯語(yǔ)義學(xué)的傳統(tǒng)模式,其短處是顯然的。前文我們談到的自然語(yǔ)言構(gòu)造機(jī)制的a特征和b特征,CTL基于規(guī)則的思路對(duì)“依據(jù)有窮多規(guī)則去構(gòu)造和理解無(wú)窮多的語(yǔ)句”的b特征的刻畫是很到位的,但對(duì)“有窮多的詞條作為出發(fā)點(diǎn)”的a特征的揭示則不充分,這集中表現(xiàn)在CTL對(duì)自然語(yǔ)言若干詞條指派范疇的工作不給力。在CTL那里,重點(diǎn)關(guān)注的是系統(tǒng)推出的定理所對(duì)應(yīng)的規(guī)則,而自然語(yǔ)言的詞庫(kù)僅僅是服務(wù)于規(guī)則分析例句所需要的輔助手段,并沒(méi)有專注研究,其詞庫(kù)完全沒(méi)有反映出自然語(yǔ)言構(gòu)造機(jī)制a特征的實(shí)際情況。
2.1 CTL的公理表述沒(méi)有詞庫(kù)的內(nèi)容
作為CTL公理表述(axiomatic presentation)的代表,Lambek演算由一條公理和五條規(guī)則所構(gòu)成:
2.2 CTL的Gentzen表述只有隱性的詞庫(kù)
就刻畫自然語(yǔ)言構(gòu)造機(jī)制特征a和描述自然語(yǔ)言詞條的實(shí)際情況而言,CTL的Gentzen表述對(duì)待詞庫(kù)的態(tài)度也不積極,其關(guān)注焦點(diǎn)仍然是自然語(yǔ)言句法分析所需要的定理規(guī)則、Cut規(guī)則的消去及系統(tǒng)判定問(wèn)題的解決。如Lambek演算的Gentzen表述為:
這里,第一條[Ax]是公理,其余7條乃是推演規(guī)則。Gentzen表述關(guān)注給自然語(yǔ)言的構(gòu)造提供范疇運(yùn)算的規(guī)則,令規(guī)則就是:
與之類似,Gentzen表述中仍然沒(méi)有詞庫(kù)的地位。關(guān)于自然語(yǔ)言語(yǔ)句“Zaphod hates Livia”的構(gòu)造推演是這樣:
上述推演圖中見不到詞條。為了說(shuō)明例句的方便,才在推演最后得到的后承“?”的前件下方附上范疇“np”對(duì)應(yīng)的詞條“Zaphod”,范疇“(nps)/np”對(duì)應(yīng)的詞條“hates”和范疇“np”對(duì)應(yīng)的詞條“Livia”??梢哉f(shuō),詞條是附加上去的額外東西,Gentzen表述中的詞庫(kù)是隱藏不露的東西。
2.3 CTL的ND表述給出了詞條的位置
CTL的ND表述(natural deduction presentation)如下:
ND有兩大類初始符號(hào):
定義基于原子范疇的集合A和3個(gè)范疇算子,所有范疇的集合為:
定義基于結(jié)構(gòu)變項(xiàng)的可數(shù)無(wú)窮集合V,結(jié)構(gòu)樹的集合為:
這里可以把V看作是自然語(yǔ)言詞條的集合,S├F意味結(jié)構(gòu)樹S屬于范疇F?!皩儆凇币馕秾?duì)初始的結(jié)構(gòu)變項(xiàng)(詞條)配備范疇,意味把詞條抽象成范疇。這就形成詞庫(kù)的內(nèi)容,如:
由于詞庫(kù)的作用,ND就把具體的自然語(yǔ)言詞條同抽象的范疇聯(lián)系在一起,而ND的[/E]和[E]之類規(guī)則更能保持這種聯(lián)系,就使自然語(yǔ)言的毗連生成和范疇的運(yùn)算推演始終對(duì)應(yīng)進(jìn)行。例如:
在上圖最后結(jié)果的斷定符號(hào)“├”的左邊,詞條以結(jié)構(gòu)樹的面貌出現(xiàn)了。CTL的ND表述,詞條和詞庫(kù)開始顯露。但其內(nèi)容簡(jiǎn)單,一個(gè)詞條對(duì)應(yīng)一個(gè)范疇,意味一個(gè)詞條只有一種用法,與自然語(yǔ)言的實(shí)際情況相差甚遠(yuǎn),遠(yuǎn)遠(yuǎn)談不上是真正的詞庫(kù)。
以上列舉的CTL對(duì)待自然語(yǔ)言詞條詞庫(kù)的種種不作為態(tài)度,源于邏輯語(yǔ)義學(xué)的開創(chuàng)理論蒙太格語(yǔ)法MG。在MG構(gòu)建的英語(yǔ)部分語(yǔ)句系統(tǒng)PTQ那里,詞庫(kù)為9類基本語(yǔ)詞[3]250:
BIV={run,walk,talk,rise,change}
BT={John,Mary,Bill,ninety,he0,he1,…}
BTV={find,lose,eat,love,date,be,seek,conceive}
BIV/IV={rapidly,slowly,voluntarily,allegedly}
BCN={man,woman,park,fish,pen,unicorn,price,temperature}
Bt/t={necessarily}
B(IV/IV)/T={in,about}
BIV/T={believe that,assert that}
BIV//IV={try to,wish to}
Be=Bt=?
該詞庫(kù)包含的詞類太少,且一個(gè)詞條只能歸入一類,這遠(yuǎn)遠(yuǎn)不能覆蓋自然語(yǔ)言豐富多樣的詞條用法。在專有名詞集合BT中,還有作為構(gòu)造量化表達(dá)式技術(shù)手段的加標(biāo)代詞,這些是自然語(yǔ)言中所沒(méi)有的表達(dá)式。PTQ的主要任務(wù)是以邏輯語(yǔ)義學(xué)的方式描述自然語(yǔ)言量化表達(dá)式和內(nèi)涵語(yǔ)境等現(xiàn)象,而詞庫(kù)僅僅是服務(wù)于這些任務(wù)的輔助手段,具有太多人工的痕跡。自然語(yǔ)言詞條多種用法的實(shí)際情況被PTQ忽視了,這種做法直接導(dǎo)致CTL對(duì)待詞庫(kù)的消極態(tài)度。
首先,從揭示自然語(yǔ)言構(gòu)造機(jī)制兩特征的角度看,CTL顧此失彼。CTL顧及到的是語(yǔ)言構(gòu)造特征b的刻畫,即基于有窮多的規(guī)則去構(gòu)造無(wú)窮多的句子。CTL失掉的是語(yǔ)言構(gòu)造特征a的描述,即有窮多的詞條作為構(gòu)造語(yǔ)言的出發(fā)點(diǎn)。沒(méi)有實(shí)實(shí)在在的詞條詞庫(kù)的確立,語(yǔ)句構(gòu)造的多樣性也要打折扣。
其次,從哲學(xué)方法論角度看,自然語(yǔ)言詞條多種用法的收集統(tǒng)計(jì)采用的是經(jīng)驗(yàn)主義的方法,而通過(guò)邏輯系統(tǒng)推出構(gòu)造自然語(yǔ)言無(wú)窮多語(yǔ)句所需要的規(guī)則工具則是理性主義的做法。CTL基于規(guī)則的思路貫徹的是理性主義的精神,而對(duì)待自然語(yǔ)言詞條詞庫(kù)的消極態(tài)度步入的則是忽視經(jīng)驗(yàn)主義方法的路徑。理性主義方法和經(jīng)驗(yàn)主義方法各執(zhí)一端都是不完美的,二者的結(jié)合才是值得推崇的。CTL缺乏詞庫(kù)的研究是一種漠視經(jīng)驗(yàn)主義方法的單一理性主義,是偏執(zhí)一端的產(chǎn)物。
再次,CTL對(duì)待詞庫(kù)的不作為不利于吸取語(yǔ)言學(xué)的研究成果。邏輯語(yǔ)義學(xué)和語(yǔ)言學(xué)同樣把自然語(yǔ)言作為研究對(duì)象,但二者研究的側(cè)重是不同的。通常語(yǔ)言學(xué)大都關(guān)注作為構(gòu)造語(yǔ)言出發(fā)點(diǎn)的詞條的研究。人類要使用語(yǔ)言,必須掌握構(gòu)造語(yǔ)言的原子材料——單詞或詞條,這是我們學(xué)習(xí)一門語(yǔ)言首先要懂得的知識(shí)。一門語(yǔ)言常用的詞條有幾千條,總數(shù)是幾萬(wàn)乃至幾十萬(wàn)條。語(yǔ)言學(xué)的研究對(duì)掌握語(yǔ)言構(gòu)造機(jī)制來(lái)說(shuō)是必要且重要的工作,語(yǔ)言學(xué)的工作成果之一是編撰的各種各樣的詞典,CTL應(yīng)該構(gòu)建足夠大的詞庫(kù)來(lái)對(duì)應(yīng)語(yǔ)言學(xué)詞典中至少是詞條多種句法功能的內(nèi)容。CTL沒(méi)有詞庫(kù)或只有象征性的詞庫(kù),就無(wú)法吸取或?qū)诱Z(yǔ)言學(xué)的研究成果。
最后,由于當(dāng)今計(jì)算機(jī)的儲(chǔ)存量超大,關(guān)于自然語(yǔ)言的計(jì)算機(jī)系統(tǒng)可以建立海量的語(yǔ)料數(shù)據(jù)庫(kù),分析的對(duì)象是大規(guī)模的真實(shí)文本。從計(jì)算機(jī)自然語(yǔ)言處理的角度看,沒(méi)有正式詞庫(kù)設(shè)置的CTL離分析大規(guī)模真實(shí)文本的需求差之甚遠(yuǎn),CTL關(guān)于自然語(yǔ)言詞條的研究對(duì)計(jì)算機(jī)人工智能領(lǐng)域來(lái)說(shuō)是不能滿意的。
5.1 CCG總括
CTL作為自然語(yǔ)言的邏輯語(yǔ)義學(xué)理論,沿用傳統(tǒng)的模式,忽視詞庫(kù)的構(gòu)建,導(dǎo)致理論研究和實(shí)際需求的脫節(jié)。邏輯語(yǔ)義學(xué)為順應(yīng)信息時(shí)代的潮流,必須有所創(chuàng)新。其結(jié)果便產(chǎn)生了邏輯語(yǔ)義學(xué)的新模式——組合范疇語(yǔ)法CCG。從CTL到CCG,彌補(bǔ)了傳統(tǒng)邏輯語(yǔ)義學(xué)研究的不足,徹底貫徹了詞匯主義的思路,在構(gòu)建自然語(yǔ)言詞庫(kù)方面下了不少的工夫,極大擴(kuò)充了詞庫(kù)的容量。與之同時(shí),CCG還傳承了邏輯語(yǔ)義學(xué)的理性主義精神,大量啟用函子范疇的組合規(guī)則和置換規(guī)則,使得規(guī)則的使用進(jìn)一步具體化。如國(guó)外的賓州英文CCG樹庫(kù)[4]84和國(guó)內(nèi)的清華中文CCG樹庫(kù)[5]以及筆者主持的國(guó)家重大課題的成果社科中文CCG樹庫(kù)[6]687的情況分別是:
賓州英文CCG庫(kù)提取了75669個(gè)詞條和48934個(gè)語(yǔ)句,涉及到929552個(gè)詞例。清華中文CCG庫(kù)詞條和句子的提取來(lái)源于包含文學(xué)、學(xué)術(shù)、新聞、應(yīng)用四大體裁的語(yǔ)料,盡可能多地覆蓋了漢語(yǔ)的各種語(yǔ)言現(xiàn)象。
5.2 CCG構(gòu)建龐大的詞庫(kù)
CCG的詞匯主義思想彌補(bǔ)了CTL忽視詞庫(kù)的短板。在掌握大規(guī)模真實(shí)文本的基礎(chǔ)上提取了作為自然語(yǔ)言構(gòu)造出發(fā)點(diǎn)的有窮多詞條,確定了這些詞條在各種語(yǔ)境下的不同詞例用法,每種用法用一個(gè)范疇表示,這就是CCG所謂一個(gè)詞條對(duì)應(yīng)多個(gè)范疇的做法,據(jù)此構(gòu)建了龐大的詞庫(kù)。
賓州英文CCG詞庫(kù):
清華中文CCG詞庫(kù):
社科中文CCG詞庫(kù):
上述數(shù)據(jù)見出,平均一個(gè)詞條被指派的范疇是十多個(gè)。CCG采用從詞條到詞例的多范疇指派方法,其詞庫(kù)挑戰(zhàn)了邏輯語(yǔ)義學(xué)“一詞對(duì)應(yīng)一范疇”的傳統(tǒng)做法。
社科中文CCG詞庫(kù)采用多范疇指派方法,其中的詞條(包括輔助符號(hào))被指派范疇數(shù)量最多的前10名詞條是:
在社科中文CCG詞庫(kù)中,被指派數(shù)十個(gè)范疇的詞條非常普遍,如“在”、“是”和“有”等詞條,“的”詞條被指派的范疇甚至多達(dá)上百個(gè)以上。從社科中文CCG的詞庫(kù)看出,常用詞被指派的范疇數(shù)量較多,漢語(yǔ)詞條具有依賴語(yǔ)境的多種用法。以下是該CCG庫(kù)中具有不同范疇指派的“的”的部分例句:
①春節(jié)前的一天下午,一群西裝革履的臺(tái)商來(lái)到東莞企石鎮(zhèn)人民鎮(zhèn)政府。
②雖然四十年的航天投資總額還不及前蘇聯(lián)、美國(guó)一年的航天投資。
③而臺(tái)商對(duì)澳門的捐助,坦白說(shuō),還不如在珠海投資的港商。
④不同于上一代父母才開始接觸ABC,如今英文已經(jīng)是小學(xué)生生活的一部分。
⑤這首歌的詞曲作者是意大利著名作曲家巴廖克,在開幕式上巴廖克本人與60歲的男高音歌
唱家雷斯科托共同演唱了這首會(huì)歌。
清華CCG詞庫(kù)采用多范疇指派方法,對(duì)漢語(yǔ)詞條“學(xué)”就有7種不同的范疇指派[5]:
(表1)
按照傳統(tǒng)做法,詞條“學(xué)”可分別歸入7個(gè)不同的基本語(yǔ)詞類:
BNP={…,學(xué),…}
BSNP={…,學(xué),…}
B(SNP)/NP={…,學(xué),…}
B(SNP)/(SNP)={…,學(xué),…}
B(S(SNP))/NP={…,學(xué),…}
B((SNP)/NP)/(SNP)={…,學(xué),…}
B((SNP)PP)/NP={…,學(xué),…}
宋彥和黃昌寧等學(xué)者認(rèn)為:在清華中文CCG詞庫(kù)中,一共有10個(gè)原子范疇,包括M(量詞)、MP(數(shù)量短語(yǔ))、NP(名詞及名詞短語(yǔ))、SP(方位詞及方位短語(yǔ))、TP(時(shí)間短語(yǔ))、PP(介詞短語(yǔ))、S(句子)等等,在此基礎(chǔ)上,一共可獲得763個(gè)不同的范疇類型。按照傳統(tǒng)標(biāo)準(zhǔn),清華中文CCG詞庫(kù)中就有763個(gè)用范疇標(biāo)記的基本語(yǔ)詞類:B1,B2,……,B762,B763。比較蒙太格語(yǔ)法的PTQ語(yǔ)句系統(tǒng)的9個(gè)基本語(yǔ)詞類和CTL的Lambek演算的7類語(yǔ)詞構(gòu)成的小小詞庫(kù),CCG的詞庫(kù)是真夠大的!可以覆蓋自然語(yǔ)言詞條豐富多樣的用法。
5.3 CCG基于規(guī)則的思路
CCG發(fā)揚(yáng)CTL長(zhǎng)處,傳承CTL基于規(guī)則的思路,延續(xù)了CTL的邏輯遞歸精神。“在自然語(yǔ)言處理的研究中,語(yǔ)言符號(hào)的遞歸性起著很大的作用。機(jī)器翻譯的實(shí)質(zhì),就是把源語(yǔ)言中無(wú)限數(shù)目的句子,通過(guò)有限的規(guī)則,自動(dòng)地轉(zhuǎn)換為目標(biāo)語(yǔ)言無(wú)限數(shù)目的句子。如果機(jī)器翻譯的規(guī)則系統(tǒng)不充分利用語(yǔ)言符號(hào)的遞歸性,要實(shí)現(xiàn)這樣的轉(zhuǎn)換是非常困難的,甚至是不可能的”[7]33。
CTL構(gòu)建的邏輯系統(tǒng)可以推出若干定理規(guī)則,這些定理規(guī)則中的大多數(shù)對(duì)自然語(yǔ)言的分析來(lái)說(shuō)是不用或很少使用的。CCG采取夠用即可的實(shí)用主義態(tài)度,集中關(guān)注在自然語(yǔ)言分析中需要使用的那些定理規(guī)則,從CTL那里推出所需要的規(guī)則,這是對(duì)邏輯精神的傳承。而對(duì)語(yǔ)言分析不怎么用的那些規(guī)則,以及邏輯系統(tǒng)的理論問(wèn)題如邏輯工具的性質(zhì)討論等內(nèi)容就暫時(shí)舍去。CCG中函子范疇前向組合的規(guī)則“X/ Y,Y/Z→X/Z”被推出的過(guò)程如下:
更重要的是,CCG從應(yīng)用實(shí)踐的角度發(fā)展了CTL基于規(guī)則的思路。CCG不滿足于CTL提供的規(guī)則普遍模式,而是把規(guī)則放到具體語(yǔ)言環(huán)境中去獲得大量的規(guī)則例,即規(guī)則的具體使用。如在清華中文CCG庫(kù)那里,就下述語(yǔ)句分析樹而言[8]14,
就涉及了8個(gè)規(guī)則例:
CTL關(guān)于函項(xiàng)右貼合運(yùn)算的規(guī)則“X/Y,Y→X”在CCG那里就變成了具有較大數(shù)量的規(guī)則例,如賓州CCG庫(kù)的這個(gè)規(guī)則就有如下規(guī)則例[4]86:
整個(gè)賓州CCG庫(kù)竟有3262個(gè)具體的規(guī)則例!CTL沒(méi)有規(guī)則例只有規(guī)則的普遍模式,而蒙太格語(yǔ)法PTQ系統(tǒng)中的17條句法規(guī)則體現(xiàn)了潛在的規(guī)則例概念,但數(shù)量極為有限,距離自然語(yǔ)言句法構(gòu)造的實(shí)際情況相差甚遠(yuǎn)!CCG則極大地?cái)U(kuò)大了規(guī)則例的數(shù)量和范圍,使得邏輯的普遍規(guī)則同語(yǔ)言分析的具體實(shí)踐結(jié)合起來(lái),從而發(fā)展了CTL基于規(guī)則的思路。
5.4 CCG的創(chuàng)新價(jià)值
CCG的創(chuàng)新價(jià)值在于:從揭示自然語(yǔ)言構(gòu)造機(jī)制兩特征的角度看,CCG是兼容并舉的,深入細(xì)致去研究語(yǔ)言構(gòu)造的機(jī)制。從龐大的詞庫(kù)中有窮多的詞條出發(fā),使用CCG規(guī)則去構(gòu)造分析無(wú)窮多的句子;從哲學(xué)方法論角度看,語(yǔ)言詞條多種用法的收集和統(tǒng)計(jì)是經(jīng)驗(yàn)主義的做法,是CCG的擅長(zhǎng)。而邏輯規(guī)則的使用在CCG那里賦予了新的“生命力”,CCG并沒(méi)有放棄理性主義的追求,CCG是經(jīng)驗(yàn)主義和理性主義相結(jié)合的產(chǎn)物;CCG基于自然語(yǔ)言的實(shí)際語(yǔ)料,構(gòu)建了容量足夠大的詞庫(kù),關(guān)注詞條在各種各樣語(yǔ)境下的不同用法,這是對(duì)語(yǔ)言學(xué)工作的敬畏和尊崇,有利于充分吸取語(yǔ)言學(xué)研究詞匯的成果;就計(jì)算機(jī)自然語(yǔ)言處理而言,CCG的詞庫(kù)設(shè)置較大程度滿足了分析大規(guī)模真實(shí)文本的需要,CCG關(guān)于自然語(yǔ)言詞條以及句法語(yǔ)義構(gòu)造規(guī)則的研究給計(jì)算機(jī)人工智能領(lǐng)域展示出誘人的前景。
由于CCG的創(chuàng)新價(jià)值,所以基于CCG設(shè)計(jì)的計(jì)算機(jī)自然語(yǔ)言分析器在諸多形式語(yǔ)言學(xué)理論自動(dòng)分析中是速度最快的?!霸?009年約翰霍普金斯大學(xué)舉行的夏季研討班上,研究人員通過(guò)采用優(yōu)化的句法分析算法,使CCG句法分析在維基百科語(yǔ)料上達(dá)到每秒超過(guò)100句的分析速度”[5],而基于中心語(yǔ)驅(qū)動(dòng)語(yǔ)法的計(jì)算機(jī)處理軟件幾秒鐘才能完成一個(gè)語(yǔ)句的分析。CCG=語(yǔ)言學(xué)實(shí)踐的詞庫(kù)+邏輯學(xué)精神的規(guī)則,CCG是滿足計(jì)算機(jī)自然語(yǔ)言自動(dòng)分析需求的邏輯語(yǔ)義學(xué)新模式。
即將結(jié)束本文之際,我們?cè)俅螌?duì)比邏輯語(yǔ)義學(xué)傳統(tǒng)模式和CCG新模式:為什么傳統(tǒng)模式只有至多9類基本語(yǔ)詞的詞庫(kù),而CCG的詞庫(kù)竟可以分出700多類基本語(yǔ)詞?傳統(tǒng)模式的規(guī)則例只有為數(shù)不多的幾十條,而CCG卻可能有上千條?這種巨大的反差使我們不得不去思考其中的緣由。坦白說(shuō),這是傳統(tǒng)的邏輯語(yǔ)義學(xué)模式需要考慮自然語(yǔ)言的語(yǔ)義而受到限制的結(jié)果。大家知道,賓州英文CCG庫(kù)、清華中文CCG庫(kù)和社科中文CCG庫(kù)都是轉(zhuǎn)換之前的形式語(yǔ)言學(xué)理論分析模式的結(jié)果,這些分析模式大都限于句法而不考慮語(yǔ)義,故CCG基本是句法分析的產(chǎn)物。如果全面系統(tǒng)地考慮語(yǔ)義因素,CCG的詞庫(kù)和規(guī)則例可能需要大的調(diào)整,語(yǔ)詞類和規(guī)則例的數(shù)量會(huì)有所減少,筆者對(duì)此產(chǎn)生了一些具體的研究思路,這里由于篇幅所限,留待今后的文章。CCG的下一步研究任重而道遠(yuǎn)!
[1]Lambek J.The Mathematics of Sentence Structure[M]//W Buszkowski.Categorial Grammar.Amsterdam/Philadelphia:John Benjamins Publishing Company,1988.
[2]Gamut,L.T.F.Logic,Language and Meaning,vol.II:Intensional Logic and Logical Grammar[M].Chicago and London:University of Chicago Press,1991.
[3]Montague,R.The Proper Treatment of Quantification in Ordinary English[M]//R.Thomason.Formal Philosophy.New Haven:Yale University Press,1974.
[4]Hockenmaier,J.,M.Steedman.CCGbank:User’s Manual[R].Department of Computer&Information Science Technical Reports,2005.
[5]宋彥,黃昌寧,等.中文CCG樹庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),2012,(3).
[6]鄒崇理,等.國(guó)家社會(huì)科學(xué)基金重大課題“自然語(yǔ)言信息處理的邏輯語(yǔ)義學(xué)研究”結(jié)項(xiàng)報(bào)告[R].2016.
[7]馮志偉.自然語(yǔ)言的計(jì)算機(jī)處理[M].上海:上海外語(yǔ)教育出版社,1996.
[8]周強(qiáng).CCG與漢語(yǔ)分析[R].中國(guó)社會(huì)科學(xué)院哲學(xué)研究所學(xué)術(shù)報(bào)告,2012.
[責(zé)任編輯:熊顯長(zhǎng)]
B81
A
1001-4799(2017)02-0042-09
2016-11-28
國(guó)家社會(huì)科學(xué)基金重大資助項(xiàng)目:12&ZD119
鄒崇理(1953-),男,四川成都人,四川師范大學(xué)邏輯與信息研究所特聘教授,中國(guó)社會(huì)科學(xué)院哲學(xué)研究所研究員、博士生導(dǎo)師,主要從事自然語(yǔ)言邏輯研究。