邵澤國
(1.上海師范大學(xué) 語言研究所,上海200234;2.上海電子信息職業(yè)技術(shù)學(xué)院,上海201411)
自20世紀(jì)40年代人類開始研究機器翻譯以來,“使計算機具有人的語言能力”就成為了人們一直追逐的美好愿望。這一愿望驅(qū)使了語言科學(xué)與計算機科學(xué)的結(jié)合,從而誕生了計算語言學(xué)。經(jīng)過幾十年的發(fā)展,這一交叉學(xué)科涉及的學(xué)科領(lǐng)域不斷擴大,同時在不同的學(xué)科視角下對該學(xué)科有著不同的定義和命名。本文從語言科學(xué)的視角來觀察這一新學(xué)科,提出了一些不成熟的看法。
俞士汶的研究中這樣定義計算語言學(xué)[1]:“計算語言學(xué)(Computational Linguistics)指的是這樣一門學(xué)科,它通過建立形式化的數(shù)學(xué)模型來分析、處理自然語言,并在計算機上用程序來實現(xiàn)分析和處理的過程,從而達到以機器模擬人的全部或者部分語言能力的目的?!睆纳鲜龆x中可以解析出:(1)計算語言學(xué)將人文科學(xué)(語言學(xué))與自然科學(xué)(數(shù)學(xué)、計算機科學(xué))緊密地結(jié)合在一起,是人文科學(xué)與自然科學(xué)的一個橋梁;(2)這門學(xué)科的研究本體是人類語言(自然語言),其目標(biāo)是“使計算機具有人的語言能力”;(3)計算語言學(xué)是一個典型的邊緣交叉學(xué)科,涉及到語言科學(xué)、計算機科學(xué)和數(shù)學(xué)。
隨著人們對該學(xué)科的逐步認(rèn)識和不斷研究,如今計算語言學(xué)已開始涉及更多的學(xué)科領(lǐng)域,例如認(rèn)知學(xué)、邏輯學(xué)、心理學(xué)、社會學(xué)、人類學(xué)等。而同時人們把用計算機處理自然語言的過程在不同時期或不同側(cè)重點時又稱為自然語言處理(Natural Language Processing)、自然語言理解(Natural Language Understanding)、人類語言技術(shù)(Human Language Technology)、計量語言學(xué)(Quantitative Linguistics)、數(shù)理語言學(xué)(Mathematical Linguistics)等。
機器翻譯是人類最早用計算機來處理非數(shù)值運算的應(yīng)用,它首次將自然語言與計算機聯(lián)系在一起。上世紀(jì)60年代,機器翻譯的研究步入了一個低谷,從而引發(fā)人們重新審視語言的計算機處理。很快人們發(fā)現(xiàn)語言的計算機處理過程不同于一般的數(shù)值計算,它不是一個簡單的機械過程,應(yīng)該注意對自然語言的理解。隨后人們開始嘗試用計算機來理解語言的含義。通過對語言的分析和計算讓機器能夠解釋語言,這樣的一個研究范疇被人們稱為自然語言理解。隨著人們對“理解”的日益加深——計算機對語言的理解離不開或者說根基于計算機對語言數(shù)據(jù)的處理,隨之焦點從“理解”變成了“處理”,即而有了自然語言處理。
隨著更多學(xué)科的滲入,人們開始細(xì)化、區(qū)分計算機對自然語言處理的過程。若在這個過程中側(cè)重于從計算的角度來看待語言學(xué)的性質(zhì),或以自然語言為對象來研究算法,則稱之為計算語言學(xué),它是用計算機來模擬人去分析、處理自然語言。如果是專注于對自然語言進行各種類型的信息處理和加工技術(shù)的研究,且強調(diào)計算機實現(xiàn),則稱之為自然語言處理。若是以計算機作為工具手段,用數(shù)理統(tǒng)計方法來研究和描述自然語言,對自然語言進行計量研究,通過計算機的處理來獲取語言中隱含的數(shù)量規(guī)律則稱為計量語言學(xué)。如果是專注于以數(shù)學(xué)方法來刻畫語言的各種特點,從而形成表述嚴(yán)密的語言理論體系,則稱之為數(shù)理語言學(xué)。
自然語言是人類文明的一個結(jié)晶,它具有人的一定屬性。有些學(xué)者認(rèn)為計算語言學(xué)更接近于人類學(xué)的研究范疇,于是在人類學(xué)的領(lǐng)域里,人們開始用“人類語言技術(shù)”這一更確切的術(shù)語來命名面向人類語言的處理技術(shù)的研究。
事實上,計算語言學(xué)與自然語言處理、自然語言理解、人類語言技術(shù)、計量語言學(xué)、數(shù)理語言學(xué)相互之間沒有嚴(yán)格的界限,一般人們會用計算語言學(xué)或自然語言處理來命名計算機處理自然語言的過程。
計算語言學(xué)的發(fā)展歷程按照時間節(jié)點分為3個階段:萌芽期、發(fā)展期和應(yīng)用期。
(1)萌芽期
計算語言學(xué)的萌芽期是指20世紀(jì)50~60年代。1954年,美國喬治敦(Georgetown)大學(xué)與IBM公司合作,在IBM-701型計算機上進行了俄語翻譯成英語的機器翻譯實驗,這是世界上首次將計算機應(yīng)用在非數(shù)值計算的信息處理領(lǐng)域。這一實驗標(biāo)志著計算語言學(xué)的誕生。
該階段的計算機語言學(xué)僅局限于機器翻譯的研究,并且人們只是將語言作為一種特殊數(shù)據(jù)類型的數(shù)據(jù)交給計算機來計算,并沒有將這種數(shù)據(jù)賦予語言的特性。
(2)發(fā)展期
計算語言學(xué)的發(fā)展期是指20世紀(jì)60~80年代。在此期間,人們除了繼續(xù)機器翻譯研究,還出現(xiàn)了對語言信息檢索的研究。這個時期最重要的標(biāo)志是人們開始注重計算機對語言的 “理解”。比較有代表性的研究成果有:①20世紀(jì)60年代,出現(xiàn)了一批基于諾姆·喬姆斯基(CHOMSKY N,美國語言學(xué)家)的轉(zhuǎn)換—生成語法的語言處理系統(tǒng)。如麻省理工學(xué)院拉法勒(RAPHAEL B)的信息檢索系統(tǒng)SIR、韋森鮑姆的ELIZA。這些系統(tǒng)采用的主要技術(shù)是模式識別中的句法匹配,但沒有成熟的句法分析;②1972年伍茲(Woods)在他的自然語言信息檢索系統(tǒng)(LUNAR)中提出了著名的擴充轉(zhuǎn)移網(wǎng)絡(luò)ATN(Augmented Transition Network)。同年,威諾甘德(WINOGAND T)的自然語言理解系統(tǒng)(SHRDLU)嵌入了一個句法分析程序、一個語義分析程序、一個問題求解器,是一個句法、語義和推理的組合系統(tǒng)。1975年,香克(SCHANK R)設(shè)計了基于本人概念從屬理論的MARGIE(Meaning Analysis,Response Generation,and Inference on English) 系 統(tǒng),系統(tǒng)由概念分析器、推理器和篇章生產(chǎn)器3部分組成。
(3)應(yīng)用期
自20世紀(jì)80年代至今統(tǒng)稱為計算語言學(xué)的應(yīng)用期,這時人們開始將計算語言學(xué)更多地稱為自然語言處理。這個階段有兩個重要的變化:一是一些計算語言學(xué)(自然語言處理)系統(tǒng)開始走出實驗室,逐漸成為被社會接受的實用系統(tǒng);二是基于統(tǒng)計的計算語言學(xué)處理方法開始出現(xiàn)并逐漸成熟。
在此期間計算語言學(xué)反過來促進語言科學(xué)的發(fā)展表現(xiàn)得尤為明顯,涌現(xiàn)出了各種新的語法體系,如Gazder的廣義短語結(jié)構(gòu)語法(Generalied Phrase Structure Grammar)、Bresnan 與 Kaplan 的 詞 匯 功 能 語 法 (Lexical Functional Grammar)、KAY M 的功能合一語法(Functional Unification Grammar)等。到了20世紀(jì) 90年代,隨著計算機技術(shù)的發(fā)展,特別是關(guān)系型數(shù)據(jù)庫技術(shù)的成熟,語料庫語言學(xué)(Corpus Linguistice)的研究蔚然成風(fēng),許多國家和學(xué)術(shù)機構(gòu)相繼推出了不同語種的超大型語料庫或知識庫。
這些成果大大提高了計算語言學(xué)(自然語言處理)系統(tǒng)的能力,涌現(xiàn)出了諸如美國的METAL和LOGOS、日本的PIVOT和HICAT、法國的ARIANE以及德國的SUSY等著名的實用性系統(tǒng)。
計算語言學(xué)的研究方法一般分為基于規(guī)則的方法、基于統(tǒng)計的方法以及規(guī)則與統(tǒng)計相結(jié)合的方法。有學(xué)者從方法論上又將基于規(guī)則的方法稱為理性主義方法,將基于統(tǒng)計的方法稱為經(jīng)驗主義方法[2-3]。
(1)基于規(guī)則的方法
基于規(guī)則的方法(簡稱規(guī)則法)通常是先由語言學(xué)家撰寫“規(guī)則庫”(例如“詞典”),再由計算機科學(xué)家編寫算法程序,對“規(guī)則庫”進行解釋和執(zhí)行,如圖1所示。具體地說,就是由句法分析器按照設(shè)定的自然語言語法把輸入句分析為句法結(jié)構(gòu),再根據(jù)語義規(guī)則把語法符號結(jié)構(gòu)映射到語義符號結(jié)構(gòu)。
(2)基于統(tǒng)計的方法
基于統(tǒng)計的方法(簡稱統(tǒng)計法)是通過對語料庫中的訓(xùn)練數(shù)據(jù)來估計統(tǒng)計模型中的參數(shù),從而建立統(tǒng)計性的語言處理模式。這里“語料庫”由語言學(xué)家建立,計算機科學(xué)家負(fù)責(zé)建立統(tǒng)計模型、利用語料庫訓(xùn)練模型參數(shù)以及編寫算法解決問題,如圖2所示。
(3)規(guī)則統(tǒng)計相結(jié)合的方法
規(guī)則統(tǒng)計相結(jié)合的方法(簡稱規(guī)則統(tǒng)計法)是規(guī)則法與統(tǒng)計法的融合,充分吸收兩者的優(yōu)點。規(guī)則方法易于表達復(fù)雜的語言知識且語言知識的表達較直觀、靈活;但語言知識的覆蓋率低,缺乏統(tǒng)一的語言知識沖突解決機制。而統(tǒng)計方法的統(tǒng)計模型提供了統(tǒng)一的沖突解決機制,且大規(guī)模數(shù)據(jù)保證了語言知識的大覆蓋率;但它不善于表示復(fù)雜的、深層次的語言知識,對于數(shù)據(jù)稀缺的語言沒有好的解決方案。
統(tǒng)計方法在發(fā)展過程中不斷改進,逐漸吸收規(guī)則方法的優(yōu)點來彌補自身的缺陷,統(tǒng)計模型趨于復(fù)雜,甚至一些模型直接建立在規(guī)則表示的基礎(chǔ)上,從而能夠表達很復(fù)雜的語言知識。兩者的巧妙融合形成了規(guī)則統(tǒng)計法。目前來看該方法將成為計算語言學(xué)的主流方法。
屬于漢藏語系的中國在計算機語言學(xué)方面的研究與應(yīng)用目前還落后于印歐語系的歐美等國家,這是由漢語自身的特點以及國內(nèi)計算機技術(shù)相對落后造成的。但近年來,我國的計算語言學(xué)的研究在理論以及應(yīng)用方面都取得了可喜的成績。最典型的理論方面的研究成果是黃曾陽(中國科學(xué)院聲學(xué)研究所)的概念層次網(wǎng)絡(luò)理論(Hierarchical Net Work of Concept);應(yīng)用方面的代表有北京大學(xué)的《現(xiàn)代漢語語法信息詞典》、清華大學(xué)的《漢語語素數(shù)據(jù)庫》、董振東的《知網(wǎng)》(How Net)、潘悟云的漢語方言地理信息系統(tǒng)平臺、中國社會科學(xué)院文學(xué)研究所的千萬詞級漢語語料庫、臺灣中央研究院的千萬級古代、近代、現(xiàn)代漢語語料庫及清華大學(xué)的《ZW大型通用漢語語料庫》等。
雖然國外的計算語言學(xué)(自然語言處理)技術(shù)比國內(nèi)先進,但國外的很多理論和方法很難照搬應(yīng)用在漢語言處理上。原因在于表意體系的漢語與表音體系的印歐語在自身特征上有很大的差異。印歐語在詞匯、語法、語用、語境諸層面上有明顯的特征區(qū)分,相互間又有對應(yīng)關(guān)系。但漢語在各層面上很難劃分,特別是句法和語法間的界限相當(dāng)模糊。另外,漢語沒有嚴(yán)格意義上的形態(tài)變化(形態(tài)標(biāo)記),對詞沒有一致認(rèn)可的定義,沒有明顯的分詞的自然形態(tài)界限??偟膩碚f漢語的計算機處理要難于印歐語的處理,突出的幾個問題是:
(1)漢語的歧義
歧義是自然語言的普遍現(xiàn)象,當(dāng)語言形式不能完全決定語言內(nèi)容(語義)時即稱為歧義。在語言的語音、詞匯、句法、語境上都存在歧義現(xiàn)象。漢語言文字是字形、字音分離的文字(不考慮有音無字的民族語),所以一字多音、一音多字現(xiàn)象特別多。再加上漢語詞匯較難定義,句法、語法界限模糊,使得漢語的排歧相當(dāng)困難。目前多是綜合利用語法和語義知識,結(jié)合字典、語法規(guī)則庫及上下文信息來進行排歧,但效果并不理想,特別是無法解決語境歧義。
(2)漢語語法兼類
語法兼類即詞的同形異類,同一形式的詞具有兩種或兩種以上的語法功能類別。如“連”這個詞兼有副詞、介詞、動詞、名詞和量詞5種詞性。兼類詞雖然數(shù)量不多,但出現(xiàn)的頻率較高,且越是常用詞,其兼類現(xiàn)象越嚴(yán)重。
(3)分詞
多數(shù)中文句子是一長串連續(xù)的漢字(而不是以空格或其他分隔標(biāo)記分開的單詞),并且詞匯缺少明顯的形態(tài)變化[4]。
(4)詞性標(biāo)注
建立句法結(jié)構(gòu)樹的首要任務(wù)是詞性標(biāo)注,即明確文本中所有語法兼類詞在具體語境下所屬的詞性。在語法平面內(nèi)現(xiàn)有的詞性標(biāo)注法有:基于規(guī)則的方法、基于統(tǒng)計的方法、基于神經(jīng)網(wǎng)絡(luò)的方法、規(guī)則與統(tǒng)計混合法。
(5)電子詞典
電子詞典包含了語料加工處理所需的有關(guān)詞的各種語言學(xué)知識,包括分詞、詞性標(biāo)注、短語分析等。電子詞典的規(guī)模和質(zhì)量決定了計算機處理語言的成敗,目前高質(zhì)量、大規(guī)模的漢語電子詞典還在建設(shè)中。
(6)規(guī)則庫
語言是有規(guī)則的,規(guī)則是可以描述和處理的。規(guī)則庫就是把語言學(xué)知識歸納成一套文法規(guī)則,用于判斷匹配成的句子是否合法。
最典型的語言學(xué)知識表示方法有依存語法(Dependency Grammar)、格語法(Case Grammar)、語法樹方法(Syntax Tree)、轉(zhuǎn)換生成語法(Transformational Generative Grammar)、擴充轉(zhuǎn)移網(wǎng)絡(luò)法(Augmented Transition Network)、語義網(wǎng)絡(luò)(Semantic Network)理論、蒙塔鳩語法(Montague Grammar)、系統(tǒng)語法(System Grammar)、概念依存理論(Conceptual Dependency Theory)和現(xiàn)代語法理論。
20世紀(jì)80年代后,國外又推出了一些新的語法理論和方法,較有影響力的有廣義短語結(jié)構(gòu)語法(Generalized Phrase Structure Grammar)、頭驅(qū)動的短語結(jié)構(gòu)語法(Head-driven Phrase Structure Grammar)、 詞匯功能語法(Lexical Functional Grammar)、 功能 合 一 語 法 (Functional Unification Grammar)、 鏈 語 法 (Link Grammar)、 范 疇 語 法(Categorial Grammar)、依存語法(Dependency Grammar)和樹嫁接語法(Tree Adjoining Grammar)。
而以上這些文法規(guī)則多是國外學(xué)者基于印歐語言對象的研究成果,要么完全不適用于漢語處理,要么需要系統(tǒng)改造后才能適用于漢語處理。
(7)統(tǒng)計信息庫
統(tǒng)計信息庫包含了對語料庫信息的各種統(tǒng)計結(jié)果,如帶詞性標(biāo)注的詞頻統(tǒng)計、鄰接詞同現(xiàn)概率統(tǒng)計和短語結(jié)構(gòu)分布信息等,它為基于統(tǒng)計的語料庫處理技術(shù)提供了客觀的語言分布數(shù)據(jù)。這些數(shù)據(jù)可以認(rèn)為是計算機從大規(guī)模語料中獲得的語言學(xué)知識,不僅有助于計算機信息處理,更對語言學(xué)研究起到推動作用。同電子詞典一樣,漢語的統(tǒng)計信息庫還處于發(fā)展建設(shè)階段。
1950年,圖靈(Alan Mathison Turing)提出了被后人稱之為人工智能直接起源之一的著名的“圖靈測試”。而這個測試正是機器理解人類語言的典型例子,所以有的學(xué)者把計算語言學(xué)(自然語言處理)看作是人工智能的一個分支。語言是人類智能與智慧的高度表現(xiàn),因而對計算機語言學(xué)的研究也有助于人們揭開人類智能的奧秘、認(rèn)識自己,為智能科學(xué)的發(fā)展和突破貢獻力量。
作為一個邊緣交叉學(xué)科,自然語言處理的發(fā)展受益于相關(guān)學(xué)科的發(fā)展,同時也會促進相關(guān)學(xué)科,特別是信息科學(xué)、語言學(xué)、認(rèn)知學(xué)、心理學(xué)的進步。計算語言學(xué)立足于實驗、理論和計算來實現(xiàn)計算機對語言文字信息的自動分析和理解,是實用性很強、應(yīng)用范圍很廣的學(xué)科,它為國民經(jīng)濟的發(fā)展和社會的進步帶來了動力。隨著信息化時代的到來,特別是近幾年來網(wǎng)絡(luò)信息的大爆炸,計算語言學(xué)被認(rèn)為是處理信息網(wǎng)絡(luò)世界中語言載體的核心技術(shù)。如今,計算語言學(xué)已在機器翻譯、信息檢索、人機交互、語音識別、語音合成、文本分類、自動文摘、問答系統(tǒng)等應(yīng)用領(lǐng)域里發(fā)揮了重要作用,這正是該學(xué)科的研究意義和實用價值所在。
語言是人類智慧的最重要特征,可以說人類的語言和大腦是世界上最復(fù)雜的兩樣?xùn)|西,而計算機是研究它們的最有效的輔助工具。因此對計算語言學(xué)的研究及其成果的應(yīng)用是人類社會發(fā)展必須且必將邁過的一道坎。另外值得一提的是,近期越來越多的學(xué)者指出漢語是世界上方言語種最多、文獻資料最豐富、唯一保持歷史延續(xù)性的語言,對漢語的計算語言學(xué)研究不僅對重樹我國文明大國的地位有著積極的推動作用,更重要的是,未來國際計算語言學(xué)研究的突破極有可能發(fā)生在中國。
[1]俞士汶.計算語言學(xué)概論[M].北京:商務(wù)印書館,2007.
[2]馮志偉.自然語言處理的形式模型[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2010.
[3]江銘虎.自然語言處理[M].北京:高等教育出版社,2006.
[4]俞士汶,黃居仁.計算語言學(xué)前瞻[M].北京:商務(wù)印書館,2005.