□馮志偉
《牛津計算語言學手冊》評介
□馮志偉
我從事計算語言學教學和研究已經(jīng)50多年,在這半個多世紀的漫長歲月中,針對計算語言學的跨學科性質,我在北京大學學習過語言學,在中國科學技術大學研究生院學習過信息科學,在法國格勒諾布爾理科醫(yī)科大學學習過數(shù)學,前后花了將近20年的時間更新自己的知識,成為跨學科背景的計算語言學家。現(xiàn)在我們已經(jīng)進入了信息網(wǎng)絡時代,以自然語言信息處理作為研究目標的計算語言學正越來越受到語言學家的關注。然而,由于大多數(shù)語言學家僅具有文科背景,他們對于計算語言學中涉及的數(shù)學知識和計算機知識了解不多,盡管他們懷著關注計算語言學的強烈愿望,可是一旦看到計算語言學的專業(yè)文獻、接觸到其中的數(shù)學和計算機方面的問題,往往望而生畏,敬而遠之。他們精研通達的語言學知識,難以與數(shù)學知識和計算機知識融會貫通起來,這是十分可惜的!
我常常想,如果有計算語言學家能夠用一般語言學家可以理解的方式,深入淺出地闡述計算語言學的原理和方法,一定會吸引更多的語言學家參加到計算語言學的隊伍中,更好地推動我國計算語言學的教學和研究。
2004年我在英國伯明翰大學訪問時,在伯明翰市中心的一個書店里偶然發(fā)現(xiàn)了Ruslan Mitkov主編的《牛津計算語言學手冊》,很快就被它簡潔明了、深入淺出的寫作風格吸引住了。我覺得這本書就是我多年來夢寐以求的深入淺出的計算語言學著作,非常適合文科背景的語言學家閱讀,決心把這本書引進到國內來。
2005年回國之后,我馬上找到外語教學與研究出版社的朋友,向他們介紹這本書的價值。他們被我的誠意感動,很快就決定引進這本書,并且與牛津大學出版社商量,雙方一致同意合作在國內出版。2009年9月,《牛津計算語言學手冊》正式在國內發(fā)行。這是一件大快人心的好事!
本書由Ruslan Mitkov教授主編,收錄了包括語言學家、計算機專家和語言工程人員在內的49位學者撰寫的38篇針對計算語言學主要領域的綜述性文章,各章的寫作風格力求一致,使得全書前后關聯(lián)、渾然一體、可讀性強?!杜=蛴嬎阏Z言學手冊》內容豐富、深入淺出,全面地反映了國外計算語言學的最新成果,是我們了解國外計算語言學發(fā)展動向的一個窗口,正好滿足了我國語言學界學習和了解國外計算語言學的研究成果和最新動態(tài)的要求。
本書主編Ruslan Mitkov是計算語言學家及語言工程專家,畢業(yè)于德國德累斯頓大學(Dr esd en University),現(xiàn)為英國伍爾弗漢普頓大學(University of Wolverhampton)教授。他的研究興趣是回指消解、機器翻譯和自動索引,曾于2002年出版過名為《回指消解》()的專著。著名計算語言學家Martin Kay(馬丁?凱伊)為本書作序。Martin Kay是美國斯坦福大學語言學教授,曾任計算語言學會主席、國際計算語言學委員會主席,是國際計算語言學界的領軍人物。
本書內容分三大部分:1.與計算語言學有關的語言學基礎理論(1~9章);2.計算語言學中自然語言的處理、方法與資源(10~26章);3.計算語言學的應用(27~38章),幾乎涵蓋了計算語言學的所有領域。書末有按照字母順序編排的計算語言學術語表,每個術語均有簡要的定義和解釋,便于讀者查詢。下面分別介紹各章的內容。
第1章“音系學”(phonology)介紹了描寫音系學和計算音系學的基本知識,著重介紹了非線性音系學中的有限狀態(tài)模型、音位的特征-值矩陣描述方法以及音系學研究中的計算工具。
第2章“形態(tài)學”(morphology)介紹了諸如語素、詞、屈折、派生等形態(tài)學的基本知識,分析了形態(tài)學對于音系學的影響,著重介紹計算形態(tài)學中的有限狀態(tài)分析方法,并介紹了雙層形態(tài)學和雙層規(guī)則的形式化描述方法。最后介紹了結構段形態(tài)學。
第3章“詞典學”(lexicography)首先簡要地回顧了詞典學的發(fā)展歷史,接著討論了人編詞典在計算機應用中的不足,說明了計算詞典學對于傳統(tǒng)的詞典編纂技術提出的挑戰(zhàn)。本章著重討論了詞匯在計算語言學中的功能以及計算技術在詞典編纂中的作用;說明了計算技術改變了詞典編纂工作的面貌,為新型詞典的編纂提供了有力的技術手段。本章強調指出,計算機輔助的詞典編纂應該成為今后詞典編纂工作的發(fā)展方向。
第4章“句法學”(syntax)首先列舉了一些有趣的句法現(xiàn)象,分析了這些現(xiàn)象在計算上的意義,接著介紹正則語法和有限狀態(tài)語法、上下文無關的短語結構語法、轉換語法、擴充轉移網(wǎng)絡、各種基于約束的特征結構語法(功能語法、詞匯功能語法、中心語驅動的短語結構語法、PATR語法)。最后,介紹了兩種在語言學和計算上有意義的句法框架(廣義短語結構語法、樹鄰接語法)。
第5章“語義學”(semantics)集中介紹了計算語義學的基本內容。首先討論語義的表示問題,介紹了語義的高階邏輯(higher-order-logic)表示法和語義的特征值矩陣(Attribute-Value Matrix)表示法。其次討論句法語義接口,介紹了“并行對應模型”(Parallel Correspondence Model,簡稱PCM);針對 Frege的“組成性原則”(principle of compositionality),介紹了“非組成性的語義學”。最后介紹了語義解釋的動態(tài)模型。
第6章“話語”(discourse)首先列舉了一些話語平面的現(xiàn)象,闡明“話語”研究的對象是句子之間的關聯(lián)問題,計算語言學中的話語研究要揭示句子之間關聯(lián)的機制。接著討論參照表示(referring expressions)和話語結構(discourse structure),說明參照表示的工作原理和參照表示的選擇方法,并討論主題(theme)與述題(rheme)、話題(topic)與焦點(focus),以及預設(presupposition)、蘊含(implicature)等問題。最后討論“話語樹”(discourse tree),介紹了“修辭結構理論”(rhetorical structure theory)和“中心理論”(centering theory)。
第7章“語用學和對話”(pragmatics and dialogue)討論語用學及其在計算機對話模型中的應用。首先介紹言語行為(speech act)、言外語力(illocutionary force)、合作原則(cooperative principle,簡稱CP)、關聯(lián)(relevance)等語用學的基本概念,并且介紹了意圖(intention)、信念(belief)、知識(knowledge)和推論(inference)等與概念表達有關的問題。著重討論了計算語用學中的對話模型(dialogue model),說明了從話語行為到對話行為的計算機制,并介紹了對話的管理模型(dialogue management models)。
第8章“形式語法與形式語言”(formal grammars and languages)介紹形式語言理論的基本知識,分別論述了形式語法和自動機,把形式語法看成是語言的生成裝置,把自動機看成語言的識別裝置。為了便于文科背景的讀者理解本章的內容,對于一些基本概念都給出了定義和實例;為了避免抽象的數(shù)學推理,對于一些基本的結論不在數(shù)學上加以證明。首先介紹了Chomsky的形式語法,給出了形式語法的Chomsky分類,分別討論了上下文無關語言(context-free languages)、線性和正則語言(linear and regular languages)、半線性語言(semilinear languages)、上下文有關語言(contextsensitive languages)、柔性上下文有關語言(mildly context-sensitive languages)。接著介紹自動機理論,分別討論了有限自動機(finite automata)、下推自動機(pushdown automata)、線性有界自動機(linear bounded automata)、圖靈機(Turing machine)。
第9章“計算復雜性”(complexity)介紹自然語言處理中的計算復雜性問題。首先介紹計算復雜性的度量方法和計算復雜性的類別,分別討論了多項式算法(Polynomial algorithm,簡稱P)和非確定多項式算法(Nondeterministic Polynomial algorithm,簡稱NP),并介紹了自然語言處理中關于“NP完全問題”(NP-complete problem)的一些研究。接著討論正則語言問題的計算復雜性,介紹了確定性(determinism)和非確定性(non-determinism)的概念、線性(linearity)和有限狀態(tài)特性(finite-stateness)的概念,說明了有限狀態(tài)方法的可應用性。然后討論上下文無關語言的計算復雜性,介紹了基于搜索的上下文無關識別(search-based context-free recognition)、自頂向下識別(top-down recognition)、線性時間與空間中的確定性語法識別(deterministic grammar recognition in linear time and space)。最后討論了概率語法和啟發(fā)式搜索、并行處理和實際效用等問題,說明計算復雜性分析在理解自然語言的復雜性以及在建立實際的自然語言處理系統(tǒng)中的用途。
第10章“文本切分”(text segmentation)介紹兩方面的內容:一方面是“詞例還原”(tokenization),一方面是“句子分離”(sentence splitting)。詞例還原的目標是把文本中的單詞、標點符號、數(shù)字、字母數(shù)字字符切分出來,以便進行進一步處理。本章分別介紹了單詞自動切分、縮寫切分(例如:“Mr.,Dr.,kg.”中的小黑點)、連字符處理(例如:“self-asessment,fortytwo,F(xiàn)-16”中的連字符)的技術,并且討論了漢語和日語等東方語言中有關“詞例還原”(也就是“切詞”)的特殊問題。句子分離的目標是把文本中的句子分離出來,在很多自然語言處理系統(tǒng)中,都需要進行句子分離。本章介紹了基于規(guī)則的句子分離、基于統(tǒng)計的句子分離、非規(guī)范輸入文本中的句子分離等技術。
第11章“詞類標注”(part-of-speech tagging)介紹了詞類標注器(POS tagger)的設計技術以及兼類詞的排歧(disambiguation)方法。簡要回顧了詞類標注發(fā)展的歷史,介紹了基于局部性手寫規(guī)則的詞類標注器、基于n-元語法的詞類標注器、基于隱馬爾科夫模型(Hidden Markov Models)的詞類標注器、基于機器學習的詞類標注器、基于全局性手寫規(guī)則的詞類標注器、基于混合方法的詞類標注器,重點介紹了手工排歧語法(handwritten disambiguation grammars)。
第12章“句法剖析”(parsing)介紹了自動句法剖析的基本概念和關鍵技術。句法剖析的深度因自然語言處理的具體要求的不同而不同,有淺層的句法剖析(shallow parsing),也有深層的句法剖析(deep parsing)。本章首先介紹了淺層句法剖析,這種剖析只要把句子剖析為語塊(chunks)就可以了。之后,介紹了依存剖析(dependency parsing)。在介紹上下文無關剖析(context-free parsing)時,比較詳細地討論了CYK算法、自底向上剖析、左角分析法、自底向上的活性線圖分析法(bottom-up active chart)。在介紹基于合一的剖析(unification-based parsing)時,討論了特征-值矩陣。剖析時可能得到若干個結果,因此,本章還討論了剖析結果的排歧問題。最后,討論了剖析算法準確性的評測、剖析程序的效率以及剖析語法覆蓋面的度量方法等問題。
第13章“詞義排歧”(word-sense disambiguation,簡稱WSD)討論如何利用上下文來確定多義詞的準確意義。首先介紹了在計算語言學研究早期所提出的WSD優(yōu)選語義學方法、詞專家剖析方法。這些方法由于缺乏可供使用的詞匯資源,出現(xiàn)了“知識獲取的瓶頸問題”(knowledge acquisition bottleneck)。這些問題由于大規(guī)模詞匯庫和知識庫的出現(xiàn)而得到緩解,又由于統(tǒng)計方法和機器學習方法的應用而可以從語料庫中獲取精確的數(shù)據(jù)。近年來,在WSD中普遍使用基于詞典的方法、聯(lián)結主義方法(connectionist)、統(tǒng)計方法、機器學習方法,取得了很大的進步。最后討論WSD的評測,介紹了SENSEVAL的評測活動,并介紹WSD的一些實際應用。
第14章“回指消解”(anaphora resolution)首先列舉了一些回指現(xiàn)象,說明了回指現(xiàn)象的各種變體。接著討論回指消解所需要的知識源、回指消解的過程、回指消解在自然語言處理中的應用。最后回顧了回指消解研究的發(fā)展歷史和現(xiàn)狀,討論了今后回指消解研究中應當注意的問題。
第15章“自然語言生成”(natural language generation,簡稱NLG)介紹了自然語言生成研究的理論和實踐問題,力圖說明在人們的心智上以及在計算機中,語言究竟是怎樣產(chǎn)生出來的。自然語言生成是一個知識密集的問題,可以從語言學、認知科學和社會學的角度來探討??梢园炎匀徽Z言生成看成一個映射問題,也可以把它看成一個選擇問題,還可以把它看成一個規(guī)劃問題。自然語言生成可以分為四個問題:宏觀規(guī)劃(macroplanning)、微觀規(guī)劃(microplanning)、表層實現(xiàn)(surface realization)、物理表達(physical presentation)。對于宏觀規(guī)劃,介紹了說話內容的規(guī)劃、文本的規(guī)劃,以及使用修辭結構理論的規(guī)劃方法;對于微觀規(guī)劃,著重介紹了詞匯生成的問題。最后介紹了表層生成的技術。
第16章“語音識別”(speech recognition)研究如何把作為聲學信號的聲波轉換為單詞的序列。現(xiàn)在,最有效的語音識別方法是語音信號統(tǒng)計建模的方法。本章簡要地介紹了語音識別中的主要方法和技術:聲學語音信號的建模、語音識別中的詞匯表示、語音識別中的語言模型和解碼。重點介紹獨立于說話人的大詞匯量連續(xù)語音識別(large-vocabulary continuous speech recognition,簡稱LVCSR)的最新的技術。目前,語音識別主要應用于自動聽寫機的設計、口語對話系統(tǒng)、語音文獻的自動轉寫、語音信息檢索等領域中。最后討論了語音識別技術未來的研究前景。
第17章“文本-語音合成”(text-to-speech synthesis,簡稱TTS)介紹文本-語音合成的最新成果。TTS既涉及自然語言處理技術,也涉及數(shù)字信號的處理技術。本章主要從自然語言處理的角度來介紹TTS。首先介紹TTS系統(tǒng)的概貌以及它的商業(yè)應用價值。然后描述TTS系統(tǒng)的功能結構以及TTS系統(tǒng)的組成部分,TTS系統(tǒng)中的自動形態(tài)-句法分析、自動語音分析、自動韻律生成,說明了如何從文本中近似地計算語音的聲調和時長。最后介紹了聲波生成的兩種技術:規(guī)則合成技術(synthesis by rules)與毗連合成技術(concatenative synthesis)。
第1 8章“有限狀態(tài)技術”(f i n i t e-s t a t e technology)首先舉例介紹有限狀態(tài)語言、詞匯轉錄機、重寫規(guī)則等基本概念,然后介紹基本正則表達式的運算方法和復雜的正則表達式,最后討論有限狀態(tài)網(wǎng)絡的形式特性。
第19章“統(tǒng)計方法”(statistical methods)介紹了計算語言學中的統(tǒng)計方法。目前,統(tǒng)計方法已經(jīng)成為自然語言處理的主流方法。本章首先介紹數(shù)理統(tǒng)計的基本概念(如:樣本空間、概率測度、隨機變量、條件概率、熵、隨機過程)以及如何把它們應用于自然語言的模擬問題,分別介紹了隱馬爾科夫模型(hidden Markov models)和最大熵模型(maximum-entropy models),最后介紹了這些模型的一些技術細節(jié),如:韋特比搜索(Viterbi search)、最大熵方程(maximum-entropy equation)等。
第20章“機器學習”(machine learning)介紹了如何通過有指導的訓練實例(supervised training examples)來自動地獲取語言資源中蘊含的決策樹(decision-tree)和規(guī)則(rules),描述了怎樣從經(jīng)過標注的訓練實例中進行推理的各種算法和知識表達技術,并介紹了如何使用已經(jīng)獲得的知識來進行分類的基于實例的分類方法(instance-based categorization),較詳細地介紹了k-鄰近分類算法(k nearest-neighbour categorization algorithm)。這些機器學習的技術可以應用來解決計算語言學中的形態(tài)分析、詞類標注、句法剖析、詞義自動排歧、信息抽取、前指消解等各種各樣的問題。
第21章“詞匯知識的獲取”(lexical knowledge acquisition)首先介紹了詞匯知識自動獲取的一些背景,包括詞匯知識的形式、詞匯知識獲取的資源和工具、單詞的共現(xiàn)和相似度。然后介紹了從語料庫中自動獲取詞匯的搭配關系(lexical collocation)和聯(lián)想關系(lexical association)的方法,詞匯相似度(similarity)計算與敘詞表(thesaurus)構建的方法,動詞的次范疇框架(subcategorization frame)的獲取方法;分析了詞匯語義學(lexical semantics)和詞匯知識獲取的關系。最后介紹了從機器可讀的詞典中獲取詞匯知識的方法。由于在自然語言處理中越來越重視詞匯知識的作用,自然語言處理的形式模型中越來越多地采用“詞匯化”(lexicalized)的方法,詞匯知識的自動獲取是當前計算語言學研究的亮點之一。
第22章“評測”(evaluation)專門討論自然語言處理系統(tǒng)的評測問題。評測是推動自然語言處理研究發(fā)展的一個重要手段,評測的結果對于自然語言處理系統(tǒng)的投資者、開發(fā)者和使用者都是很有價值的。在自然語言處理技術發(fā)展的早期主要使用基于技術的評測(technology-based evaluation),在自然語言處理技術比較成熟時,就可以使用以用戶為中心的評測(user-centred evaluation)。根據(jù)評測時的輸入與輸出,評測技術又可以分為分析成分的評測(evaluation of analysis components)、輸出技術的評測(evaluation of output technologies)和交互系統(tǒng)的評測(evaluation of interactive systems)。分析成分的評測把語言映射為它的內部表達作為輸出(例如:有標記的片段、樹形圖、抽象的意義表達式等)。輸出技術的評測要把處理的結果用具體的語言表示出來(例如:文摘、生成的文本、翻譯的譯文等)。這種評測可以分別使用內部評測指標(intrinsic measures)和外部評測指標(extrinsic measures)來進行。交互系統(tǒng)的評測容許用戶與系統(tǒng)進行交互。本章總結了評測的各種技術,并指出它們的優(yōu)點和缺點。
第23章“子語言和可控語言”(sublanguage andcontrolled language)首先討論了在限定語義領域中的計算語言學,指出了在當前的水平之下,在某些限定領域中應用自然語言處理技術的必要性。然后舉例說明了某些自發(fā)形成的子語言,分析了子語言的特性,討論了子語言在機器翻譯、文本數(shù)據(jù)抽取、自然語言生成、自動文摘中的應用問題。接著討論可控語言,分析了使用可控語言的必要性和局限性,介紹了可控語言的一個實例——簡化英語AECMA。最后討論子語言與可控語言的關系,分析了把子語言轉變?yōu)榭煽卣Z言的途徑。
第24章“語料庫語言學”(corpus linguistics)主要討論了語料庫在自然語言處理中的應用問題。首先從語料的抽樣框架、語料的代表性、語料的平衡性等方面說明了建立語料庫的基本要求,簡要地回顧了語料庫的發(fā)展歷史,然后著重地討論了語料庫的標注(annotation)問題。標注過的語料庫的優(yōu)點是:開發(fā)和研究上的方便性、使用上的可重用性、功能上的多樣性和分析上的清晰性。學術界對于語料庫標注的批評主要來自兩方面:一方面認為,語料庫經(jīng)過標注之后失去了客觀性,所得到的語料庫是不純粹的;另一方面認為,手工標注的語料庫準確性高而一致性差,自動或半自動的標注一致性高而準確性差,語料庫的標注難以做到兩全其美,而目前大多數(shù)的語料庫標注都需要人工參與,因而很難保證語料庫標注的一致性。在分析了語料庫在自然語言處理中的應用問題之后,作者指出,不論標注過的語料庫,還是沒有標注過的語料庫,在自然語言處理中都是有用的,語料庫語言學有助于計算語言學的發(fā)展。
第25章“知識本體”(ontology)討論了知識本體及其在自然語言處理中的應用。首先,分別介紹了哲學傳統(tǒng)的知識本體、認知和人工智能傳統(tǒng)的知識本體、語言學傳統(tǒng)的知識本體,并討論了語言學中的知識本體與詞匯語義學的關系;然后,說明在自然語言處理中,知識本體可以用來幫助系統(tǒng)進行語言的結構分析(例如:英語中的PP附著問題、錯拼更正、句法檢錯、語音識別),也可以用來進行局部的自然語言理解(例如:信息檢索中的問題搜索、文本分類),并具體說明了知識本體在信息檢索、信息抽取、自動文摘、語義相似度計算、詞義排歧中的應用。
第26章“樹鄰接語法”(tree-adjoining grammar,簡稱TAG)介紹一種局部化的語法形式模型:樹鄰接語法(TAG)和詞匯化的樹鄰接語法(lexicalized treeadjoining grammar,簡稱LTAG)。首先討論上下文無關語法CFG的局部化問題,說明TAG與CFG的不同:TAG以句法結構樹作為核心操作對象,在樹的基礎上來組織語言知識,它的產(chǎn)生式規(guī)則也對應著樹結構,它以線性的一維形式來表達二維的樹結構;而CFG以符號串作為操作對象,CFG是一個基于符號串的形式語法,而TAG是基于樹的形式語法。然后討論上下文無關語法CFG的詞匯化問題,介紹了LTAG。LTAG對于TAG的擴充主要在于把每一個初始樹(initial tree)和輔助樹(auxiliary tree)都與某一個或某一些叫作“錨點”(anchor)的具體單詞關聯(lián)起來。最后討論LTAG的一些重要特性及其與別的形式系統(tǒng)的關系。
第27章“機器翻譯:總體回顧”(m a c h i n e translation:general overview)介紹了從20世紀50年代到90年代的基于規(guī)則的機器翻譯系統(tǒng)(rule-based machine translation,簡稱rule-based MT)的主要概念和方法:直接翻譯方法、中間語言方法、轉換方法、基于知識的方法,并介紹了主要的機器翻譯工具,簡要回顧了機器翻譯的歷史。
第28章“機器翻譯:新近的發(fā)展”(m a ch i n e translation:latest developments)介紹了當前機器翻譯系統(tǒng)的研究、開發(fā)和應用的情況,討論了經(jīng)驗主義的機器翻譯系統(tǒng):基于實例的機器翻譯(example-based MT)和統(tǒng)計機器翻譯(statistical MT),并把它們與傳統(tǒng)的基于規(guī)則的機器翻譯系統(tǒng)進行了對比,同時還介紹了把各種方法融為一爐的混合機器翻譯系統(tǒng)(hybrid MT)。當前基于規(guī)則的機器翻譯的開發(fā)中,回指消解的研究以及基于中間語言和基于知識的機器翻譯的研究取得較大進展,本章也做了介紹;此外,還介紹了口語的機器翻譯,討論了少數(shù)民族語言和不發(fā)達語言的機器翻譯前景,討論了因特網(wǎng)上的機器翻譯(特別是網(wǎng)頁翻譯)問題。最后,本章介紹了譯者的電子翻譯工具,特別討論了雙語語料庫、翻譯記憶、雙語上下文索引等問題,并介紹了一些面向譯者的詞處理工具。
第29章“信息檢索”(information retrieval)主要介紹了文本的信息檢索。信息檢索系統(tǒng)的任務在于,對于用戶提出的提問或者命題,給出與之有關的文獻集合,作為檢索的結果。首先分析了信息檢索系統(tǒng)的軟件組成成分,包括文獻處理、提問處理、檢索匹配技術。然后討論自然語言處理技術對于信息檢索的推動和促進作用,講述了如何使用自然語言處理所得到的形態(tài)信息、短語信息、句法信息來改進信息檢索中的索引技術,并且指出,當前的趨向是使用語義信息來進行信息檢索。最后展望信息檢索的發(fā)展前景。
第30章“信息抽取”(information extraction,簡稱IE)討論如何從自由文本中自動地識別特定的實體(entities)、關系(relation)和事件(events)的方法和技術。本章主要討論兩種類型的信息抽取:一種是名稱的自動抽?。╡xtraction of names),一種是事件的自動抽?。╡xtraction of events),并介紹書寫抽取規(guī)則的方法。對于名稱的自動抽取,本章介紹了名稱標注器(name tagger);對于事件的自動抽取,介紹了事件識別器(event recognizer)。同時,還介紹了如何從已經(jīng)標注了有關名稱或事件信息的文本語料庫中自動地學習和抽取規(guī)則的方法,這種方法也就是信息抽取的統(tǒng)計模型。最后,介紹了信息抽取的評測和應用。
第31章“問答系統(tǒng)”(question answering,簡稱QA)討論如何從大規(guī)模真實的聯(lián)機文本中對于指定的提問找出正確回答的方法和技術,這是文本信息處理的一個新的發(fā)展趨向。由于QA要對指定的提問給出一套數(shù)量不多的準確回答,在技術上,它更接近于信息檢索(information r e t r i e v a l),而與傳統(tǒng)的文獻檢索(d o c u m e n t retrieval)有較大的區(qū)別——QA要生成一個相關文獻的表作為對于用戶提問的回答。與信息抽取相比,QA要回答的提問可以是任何提問,而信息抽取只需要抽取事先定義的事件和實體。在開放領域的QA系統(tǒng)中,使用有限狀態(tài)技術和領域知識,把基于知識的提問處理、新的文本標引形式以及依賴于經(jīng)驗方法的回答抽取技術結合起來,這樣,就把信息抽取技術大大地向前推進了一步。本章首先介紹了QA系統(tǒng)的類別和QA系統(tǒng)的體系結構,接著介紹了開放領域QA系統(tǒng)中的提問處理、開放領域QA系統(tǒng)中的提問類型以及關鍵詞抽取技術,并討論了開放領域QA系統(tǒng)中的文獻處理方法和提問抽取方法,最后展示了QA系統(tǒng)的發(fā)展前景。
第32章“自動文摘”(text summarization)介紹對單篇或多篇文本進行自動文摘的方法。首先討論自動文摘的性質和自動文摘的過程。接著介紹自動文摘的三個階段:第一階段是主題辨認(topic identification),第二階段是主題融合(topic fusion),第三階段是文摘生成(summary generation);并介紹了多文本的自動文摘。最后,介紹自動文摘的評測方法,討論了自動文摘評測的兩個指標:壓縮比(compression ratio,簡稱CR)和內容保留率(retention ratio,簡稱RR)。
第33章“術語抽取和自動索引”(term extraction and automatic indexing)介紹術語自動處理的技術。術語廣泛地出現(xiàn)在科技文獻中,術語的自動識別對于科技文獻的分析、理解、生成、翻譯具有關鍵性作用。隨著網(wǎng)絡的普及和數(shù)字技術的發(fā)展,出現(xiàn)在互聯(lián)網(wǎng)、政府、工業(yè)部門和數(shù)字圖書館中的專業(yè)文獻日益增多,術語的自動處理對于這些文獻的信息檢索、跨語言問答、多媒體文本自動索引、計算機輔助翻譯、自動文摘等都具有重要作用。本章把面向術語的語言自動處理分為術語發(fā)現(xiàn)(term discovery)和術語識別(term recognition)兩個部門,分別介紹了主要的技術和系統(tǒng),最后介紹了雙語言術語的自動抽取技術。
第34章“文本數(shù)據(jù)挖掘”(text data mining,簡稱TDM)介紹了本文數(shù)據(jù)挖掘技術。文本數(shù)據(jù)挖掘的目的在于從大規(guī)模真實文本數(shù)據(jù)中發(fā)現(xiàn)或推出新的信息,找出文本數(shù)據(jù)集合的模型,發(fā)現(xiàn)文本數(shù)據(jù)中所隱含的趨勢,從文本數(shù)據(jù)的噪聲中分離出有用的信號。本章首先討論文本數(shù)據(jù)挖掘與信息檢索的區(qū)別,分析了文本數(shù)據(jù)挖掘與計算語言學和范疇元數(shù)據(jù)(category metadata)的關系。本章舉出實例,具體說明了怎樣使用生物醫(yī)學文獻中的文本數(shù)據(jù)來推測偏頭痛(migraine headaches)的病因,怎樣使用專利文獻中的文本數(shù)據(jù)來揭示專利文本與已經(jīng)發(fā)表的研究文獻之間的關系,并介紹了LINDI(Linking Information for Novel Discovery and Insight)系統(tǒng)。這個系統(tǒng)的軟件能夠根據(jù)大規(guī)模的文本集合來發(fā)現(xiàn)文本中蘊含的重要的新信息。
第35章“自然語言接口”(natural language interaction簡稱NLI)介紹計算機自然語言接口系統(tǒng)。這樣的NLI系統(tǒng)可以把用戶使用的口頭自然語言或書面自然語言提出的問題轉化為計算機可以處理的形式。首先介紹了NLI系統(tǒng)的基本組成部分、意義表達語言(meaning representation language,簡稱MRL)、同義互訓軟件(paraphraser)、問題生成軟件(response generator)以及可移植工具(portability tools)。然后介紹口語對話系統(tǒng)(spoken dialogue systems,簡稱SDS),分別介紹了SDS的單詞識別軟件、任務模型、用戶模型、話語模型、對話管理軟件、消息生成軟件、語音合成軟件。最后討論SDS系統(tǒng)的靈活性、現(xiàn)狀以及將來的應用前景。
第36章“多模態(tài)和多媒體系統(tǒng)中的自然語言”(natural language in multimodal and multimedia systems)討論自然語言在多模態(tài)系統(tǒng)和多媒體系統(tǒng)應用中的重要作用,說明了怎樣把自然的口語或書面語與多媒體輸入?yún)f(xié)同地融合為一體,怎樣把自然語言與其他的媒體結合起來以生成更加有效的輸出,怎樣使用自然語言處理技術來改善多媒體文獻的存取。首先介紹包含自然語言的多模態(tài)和多媒體輸入的分析問題,討論了怎樣把自然語言處理技術作為多模態(tài)分析的基礎,怎樣把不同的模態(tài)結合起來的技術。接著介紹包含自然語言的多媒體輸出的生成問題,討論了怎樣把自然語言處理技術作為多媒體生成的基礎,并討論了不同模態(tài)的協(xié)調問題(包括不同模態(tài)的配置、不同模態(tài)輸出的裁剪、模態(tài)輸出中空間和時間的配合)。還討論了用于多媒體數(shù)據(jù)存取的自然語言處理技術(包括基于自然語言處理的圖形和圖像檢索、圖形和圖像數(shù)據(jù)庫的自然語言接口、多媒體信息的自然語言摘要)。最后討論在多媒體環(huán)境中使用語言的問題。
第37章“計算機輔助語言教學中的自然語言處理”(natural language processing in computerassisted language learning)介紹在計算機輔助語言教學(computer-assisted language learning,簡稱CALL)中使用自然語言處理技術的問題。首先介紹CALL的發(fā)展歷史,接著介紹在自然語言處理背景下的CALL,語料庫與CALL,雙語語料庫,討論自然語言處理技術在形態(tài)學教學、語法教學、偏誤的識別與診斷中的應用。最后討論自然語言處理技術在CALL中應用的評估問題。
第38章“多語言的在線自然語言處理”(multilingual on-line natural language processing)討論在因特網(wǎng)上的多語言處理問題。因特網(wǎng)現(xiàn)在已經(jīng)發(fā)展成多語言的網(wǎng)絡,英語獨霸互聯(lián)網(wǎng)天下的局面已經(jīng)成為歷史,非英語的網(wǎng)站越來越多,語言障礙日益嚴重。為了克服語言障礙,機器翻譯當然是一個最重要的手段,除了機器翻譯之外的各種使用自然語言處理技術的多語言處理工具也雨后春筍般地開發(fā)出來。本章介紹了語種辨別(language identification)、跨語言信息檢索(cross-language information retrieval,簡稱CLIR)、雙語言術語對齊(bilingual terminology alignment)和語言理解助手(comprehension aids)4個方面的研究情況。語種辨別的目的在于讓計算機自動地判斷書面文本是用什么語言寫的,這顯然是多語言自動處理必須經(jīng)過的第一步??缯Z言信息檢索CLIR的目的在于使用一種語言提問來檢索其他語言文本的信息。本章介紹了在CLIR中的譯文發(fā)現(xiàn)技術(finding translation)、翻譯變體的修剪技術(pruning translation alternatives)和翻譯變體的加權技術(weighting translation alternatives)。在這些應用中,雙語言詞典或多語言詞典是最重要的資源,而這些詞典的覆蓋面可以通過使用雙語言術語對齊的技術來加以提升。語言理解助手的功能在于給用戶提供軟件工具來理解外語書寫的文本,而不必使用全自動機器翻譯的技術。本章介紹了施樂公司歐洲研究中心(Xerox Research Centre Europe,簡稱XRCE)的語言理解助手LocoLex和語義模型,并介紹了施樂公司使用語言助手來改善數(shù)字圖書館Callimaque的技術。
本章最后附有各章作者簡介、計算語言學術語表、作者索引和主題索引,便于讀者查閱。
本書是手冊性的專著,有如下三個明顯特點:
1.深入淺出。本書各章寫作風格一致,內容協(xié)調,渾然一體,特別適合對計算語言學感興趣和初入門的讀者閱讀。本書使用流暢的文筆和有趣的實例來介紹艱深的技術問題,尤其適合文科背景的讀者閱讀。
2.專家執(zhí)筆。本書的38章分別由各個領域內的46位知名專家執(zhí)筆,由于這些專家具有所屬領域的精湛知識,對于自己的領域有深刻的理解,有力地保證了本書的學術質量和專業(yè)水平。
3.涵蓋全面。本書幾乎涵蓋了計算語言學的所有領域,反映了當前計算語言學的最新成就,使我們對計算語言學能夠獲得全面而系統(tǒng)的認識。
我國曾經(jīng)翻譯出版過有關計算語言學和自然語言處理的大部頭專著,如馮志偉和孫樂翻譯的《自然語言處理綜論》(電子工業(yè)出版社,2005)被稱為自然語言處理教材的“黃金標準”。但是,這部專著主要針對理工科背景的讀者而寫,數(shù)學公式較多,文科背景的讀者閱讀和理解起來常常會感到困難。與《自然語言處理綜論》相比,本書盡量避免使用繁難的數(shù)學公式,文筆淺顯而流暢,內容新穎而有趣,更適合文科背景的讀者閱讀。目前,計算語言學這個新興的學科不僅吸引了大量理工科背景的研究人員,同時也有不少文科背景的研究人員投身到計算語言學的研究行列中來。本書的上述特點正好可以滿足文科背景研究人員的需要。當然,由于本書內容涵蓋面廣、專業(yè)性強,對理工科背景的研究人員也有很大的參考價值。
Ruslan Mitkov(editor),2003,The Oxford Handbook of Computational Linguistics,Oxford University Press,784 pp.2009年9月,由外語教學與研究出版社、牛津大學出版社合作在國內出版,ISBN:978-7-5600-6913-3.
(馮志偉 浙江杭州 杭州師范大學外語學院 310036)