亢世勇 王興隆 謝曉艷
詞典編纂是一項異常繁重而又極其嚴(yán)謹(jǐn)?shù)墓ぷ?。在高科技迅猛發(fā)展的今天,傳統(tǒng)的詞典編纂方式已不能適應(yīng)現(xiàn)代社會發(fā)展新形勢的需要。早在20世紀(jì)50年代中期,國外就有專家嘗試用計算機(jī)進(jìn)行圖書編目、資料管理等工作,如R.Busa在世界范圍內(nèi)首先采用卡片穿孔機(jī)來處理文獻(xiàn)古籍,以便編制其作品的一般詞匯索引與重要語詞索引。自1956年起,這類工作采用了計算機(jī)技術(shù),課題范圍也有所擴(kuò)大,其中包括編纂頻率詞典、倒排詞典、為詞典卡片庫準(zhǔn)備卡片、處理語言材料等。進(jìn)入60年代后,法國、英國、聯(lián)邦德國、瑞士等西方國家,先后開展了詞典編纂自動化、計算機(jī)化的研究,將計算機(jī)引入到了詞典編纂的全過程,改變了傳統(tǒng)的詞典編纂模式,極大地提高了詞典編纂的效率,詞典的內(nèi)、外在質(zhì)量得到很大的改善。(鄭恩培,陸汝占1999)
今天,西方國家在計算機(jī)輔助詞典編纂方面已經(jīng)取得了一系列的成果,主要是一些新型詞典的出版,如:“牛津”系列詞典,包括《牛津兒童圖解詞典》、《牛津基礎(chǔ)英語學(xué)習(xí)詞典》、《牛津成人英語圖解詞典》等;“朗文系列”詞典,包括《幼兒學(xué)習(xí)詞典》、《少年學(xué)習(xí)詞典》、《成人初學(xué)者詞典》等;“柯林斯COBUILD系列”詞典,包括《柯林斯COBUILD高級英語學(xué)習(xí)詞典》、《柯林斯COBUILD積極型英語詞典》等。這些詞典的出版和熱銷,印證了計算機(jī)輔助詞典編纂的重要性和緊迫性。
而在我國,20世紀(jì)80年代前,由于漢字的輸入和存儲技術(shù)不過關(guān),計算機(jī)輔助詞典編纂技術(shù)進(jìn)展不大。80年代后,漢字輸入和存儲技術(shù)取得重大突破,各種漢字輸入平臺層出不窮,受其影響,計算機(jī)技術(shù)在漢語詞典編纂中有了一定的應(yīng)用,如利用計算機(jī)輔助編制資料卡片、索引等,但這種應(yīng)用只是局部的,效果有限,影響也不大。
我國真正的計算機(jī)輔助詞典編纂系統(tǒng)是從20世紀(jì)90年代開始的,至今已形成了蓬勃發(fā)展的局面。從整體來看,當(dāng)前我國計算機(jī)輔助詞典編纂系統(tǒng)的優(yōu)勢是:可以比較充分地利用語料庫的資源和技術(shù),比如利用語料庫提供詞典例證、輔助詞典釋義、輔助義項劃分、輔助詞典立目、輔助語用注釋、提供句法信息、輔助語法注釋、揭示文化信息、揭示同義詞的分布和使用等。這些功能在章宜華的專著《計算詞典學(xué)與新型詞典》中曾著重介紹。
計算機(jī)輔助詞典編纂系統(tǒng)是為詞典的編纂、編輯、排版以及詞典的修訂工作而編制的專門的文字處理平臺和管理軟件。詞典編纂的整個過程包括詞典信息的錄入、例句的提取、語料庫信息的統(tǒng)計分析、語義排版以及詞典文本的編輯等。目前,在詞典學(xué)研究和辭書出版領(lǐng)域,自動化、數(shù)字化、計算機(jī)化的編輯操作已經(jīng)涉及詞典編纂的各個方面,如資料的收集和存儲、編纂過程以及詞典發(fā)布的形式等。利用計算機(jī)技術(shù)、信息技術(shù)進(jìn)行詞典編纂已經(jīng)成為詞典編纂領(lǐng)域發(fā)展的必然趨勢。
眼下,我國的計算機(jī)輔助詞典編纂已取得了長足的發(fā)展,我們將重點(diǎn)介紹一下目前國內(nèi)比較有代表性的計算機(jī)輔助詞典編纂系統(tǒng)(工具),由于計算機(jī)輔助辭書編纂系統(tǒng)是一個廣義的概念,因此我們從以下幾個方面分別介紹:
(1)商務(wù)印書館與南京大學(xué)聯(lián)合開發(fā)的“‘CONULEXID’詞典編纂系統(tǒng)”
該系統(tǒng)采用CLIENT/SERVER的局域網(wǎng)結(jié)構(gòu),較好地實現(xiàn)了數(shù)個客戶端對服務(wù)器內(nèi)語料庫資源不同程度的獲取和共享,提高了語料資源的利用率。它包括詞典編輯和詞典維護(hù)兩個子系統(tǒng)。系統(tǒng)的主要功能包括詞典錄入、例句選取、綜合文章查詢、文章句式統(tǒng)計及文章詞頻統(tǒng)計等。這個輔助編纂系統(tǒng)已經(jīng)成功應(yīng)用到了《新時代英漢大詞典》的編纂、編輯和出版過程中。(章宜華2007)
(2)上海交通大學(xué)的陸汝占等開發(fā)的“漢語詞典編纂一體化環(huán)境”
它的功能主要包括語料的采集、加工處理、詞典編纂管理、詞典質(zhì)量檢測、詞典編纂過程中的自檢等。該系統(tǒng)主要由語料庫、詞典編纂、詞典檢測三個子系統(tǒng)構(gòu)成。語料庫子系統(tǒng)的主要功能是對語料庫進(jìn)行管理、加工和查詢。詞典編纂子系統(tǒng)致力于實現(xiàn)詞典編纂過程的便利化。該子系統(tǒng)又分為詞典格式轉(zhuǎn)換、詞典查詢、詞典自檢、詞典編輯、詞典編纂項目管理五個次子系統(tǒng)。詞典檢測子系統(tǒng)又包括詞表構(gòu)成、查詢、詞概念關(guān)系庫編輯系統(tǒng)三個小子系統(tǒng)。經(jīng)試用,此漢語詞典編纂系統(tǒng)得到了好評,其結(jié)果是令人鼓舞的。(陸汝占2001)
(3)山西大學(xué)開發(fā)的“基于語料庫的漢語辭書編纂輔助系統(tǒng)”
系統(tǒng)總體上分為“電子辭書數(shù)據(jù)庫及其查詢模塊”、“現(xiàn)代漢語語料庫及其檢索模塊”及“電子詞典編輯模塊”,各組模塊可分可合,既可以獨(dú)立使用,又可以聯(lián)合使用。它將軟件工具、語料庫及其他電子詞典資源有機(jī)結(jié)合,成為一個具有資源建庫、語料檢索、信息統(tǒng)計等功能的應(yīng)用平臺。該系統(tǒng)提供多種輸出方式,從而為漢語辭書編纂人員提供較為強(qiáng)大的電子信息服務(wù)。它主要是基于靜態(tài)的語料,為了保持更新,山西大學(xué)在此基礎(chǔ)上進(jìn)一步設(shè)計完成了基于因特網(wǎng)的漢語辭書編纂輔助系統(tǒng)。(張紹麒2005)
(4)北京大學(xué)計算語言學(xué)研究所開發(fā)的“計算機(jī)輔助詞典開發(fā)和管理系統(tǒng)”
該系統(tǒng)主要用于詞典檢索、編輯、排序、校訂、檢測、版本比較、自動翻譯、任務(wù)管理等。它主要包括四個子系統(tǒng):詞典編輯、自動檢測、自動翻譯、項目管理。詞典編輯子系統(tǒng)主要對數(shù)據(jù)庫格式的詞典文件進(jìn)行編輯和整理。自動檢測子系統(tǒng)保證了屬性填寫的正確性和一致性。自動翻譯子系統(tǒng)可利用詞法分析器,在計算機(jī)自動獲取的英語譯文的基礎(chǔ)上,將編輯工作轉(zhuǎn)化為校訂工作。項目管理子系統(tǒng)可全面掌握修訂信息,及時發(fā)現(xiàn)和防止漏校的信息。(王惠,李康年2004)
(5)廣東外語外貿(mào)大學(xué)詞典學(xué)研究中心開發(fā)的“基于微觀數(shù)據(jù)結(jié)構(gòu)的雙語詞典生成系統(tǒng)”(簡你DICT-Generator系統(tǒng))
該系統(tǒng)是基于廣域網(wǎng)環(huán)境設(shè)計開發(fā)的計算機(jī)輔助詞典編纂及生成平臺,適用多語種外漢詞典的編纂和自動生成。它主要使用VB.NET和VC++.NET編寫,采用Microsoft.SQL server 2000數(shù)據(jù)庫存儲詞典數(shù)據(jù)庫和語料庫數(shù)據(jù)庫。該系統(tǒng)主要包括語料庫接口、詞典編纂或數(shù)據(jù)錄入、詞典數(shù)據(jù)庫、詞典審定、詞典生成和管理等幾大功能模塊,其中詞典數(shù)據(jù)庫和生成模塊是該系統(tǒng)的核心部分,語料庫、詞典編纂和管理模塊是為它服務(wù)的。
該系統(tǒng)將詞典編纂中的體例結(jié)構(gòu)和微觀信息結(jié)構(gòu)設(shè)計,以及詞典信息的格式化編排和排版等繁瑣的工作流程計算機(jī)化,改變了傳統(tǒng)的詞典編纂方式,提高了工作效率。此外,該系統(tǒng)通過互聯(lián)網(wǎng)建立了安全、穩(wěn)定的詞典編纂及生成平臺,實現(xiàn)了互聯(lián)網(wǎng)上的詞典編纂,詞典編纂人員可以在世界上任何地方、任何時間使用該系統(tǒng)共同參與詞典的編纂工作。該系統(tǒng)打破了現(xiàn)今詞典編纂生成的局限,實現(xiàn)了詞典編纂生成全過程數(shù)字化、自動化、規(guī)范化,它將語料處理、詞典編纂、詞典出版和工作管理等領(lǐng)域的操作有機(jī)融合在一起,實現(xiàn)了全方位、多角度的詞典信息處理數(shù)字化,最大限度地利用現(xiàn)有資源,能高效率地完成詞典編纂、修訂和出版工作。(劉輝等2006)
由于該系統(tǒng)是在10多年前設(shè)計的,原來的開發(fā)平臺和技術(shù)工具已經(jīng)不適應(yīng)數(shù)字化信息處理的需求;因此,在兩年前廣東外語外貿(mào)大學(xué)詞典學(xué)研究中心就開始對該系統(tǒng)進(jìn)行升級改造,利用 C#.net2010,Sql 2005,ASP.Net,XML Edit進(jìn)行詞典數(shù)據(jù)和詞典生成平臺建設(shè)。改造后的平臺界面將更加友好,數(shù)據(jù)處理能力更強(qiáng)大,索引更智能化。
(6)教育部語言文字應(yīng)用研究所承擔(dān)的“基于語料庫的數(shù)字化辭書編纂平臺”
該系統(tǒng)突破了傳統(tǒng)的辭書編纂概念,建立了一種新型的辭書編纂模式。它是國家863計劃“中文信息處理基礎(chǔ)應(yīng)用研究”課題的子課題,以國家語言文字工作委員會大規(guī)?,F(xiàn)代漢語語料庫為基礎(chǔ),以數(shù)字化典范辭書為目標(biāo),以語義計算理論為基礎(chǔ),以語言信息處理的計算機(jī)技術(shù)為支撐,研制辭書的知識獲取、自動生成、檢查檢測、審核評價等技術(shù)和集成化的輔助操作平臺。具體研究內(nèi)容包括辭書編纂的新模式研究、數(shù)字化辭書生成系統(tǒng)、辭書雷同檢查和沖突檢測技術(shù)、語料庫在辭書編纂中的應(yīng)用、語言處理技術(shù)應(yīng)用于辭書編纂等。該系統(tǒng)提供了多樣化的辭書編纂工具,并提倡和建立了辭書編纂的新理念、新模式,使計算機(jī)輔助辭書編纂達(dá)到了新的高度。
(7)商務(wù)印書館開發(fā)的“辭書語料庫及編纂系統(tǒng)”
它是該館在新的歷史時期為實現(xiàn)辭書編纂現(xiàn)代化、鞏固與保持在工具書出版領(lǐng)域的領(lǐng)先地位而確立的重大科技項目。項目一期工程于2004年11月通過了新聞出版總署、中國出版集團(tuán)組織的專家驗收。該系統(tǒng)建立了從語料采集、辭書編纂到編輯出版的辭書編纂現(xiàn)代化一體化系統(tǒng),開創(chuàng)了一種新型的漢語辭書編纂模式,在辭書編纂現(xiàn)代化方面取得了突破。項目二期工程主要致力于語料的采集與加工、核心工具書數(shù)據(jù)庫、中小學(xué)語文教材教輔語料庫、例句查詢系統(tǒng)、例句優(yōu)選系統(tǒng)、辭書數(shù)據(jù)庫排版系統(tǒng)、小學(xué)生辭書編纂平臺等。
該系統(tǒng)已形成較完善的“三庫兩平臺”架構(gòu),即語料庫、數(shù)據(jù)庫、資源庫和辭書編纂編輯平臺、辭書數(shù)據(jù)庫排版平臺(系統(tǒng)),以實現(xiàn)從語料采集、辭書編纂編輯到排版出版等環(huán)節(jié)的全過程現(xiàn)代化、數(shù)字化。商務(wù)印書館在此基礎(chǔ)上開發(fā)了跨庫例句查詢系統(tǒng),集成了核心工具書數(shù)據(jù)庫、基礎(chǔ)語料庫、例句語料庫、教材教輔語料庫等多庫查詢功能。正在開發(fā)例句優(yōu)選系統(tǒng),建立基于句法功能、搭配、詞類、詞頻、句長等條件的分項組合查詢功能,以提高例句選擇的效率和有效性。
該系統(tǒng)是基于《現(xiàn)代漢語詞典》修訂需求開發(fā)的詞典編輯軟件,包括編輯、排序、檢索、匯總、排版、管理等模塊。其中編輯、排序、檢索、匯總模塊已完成,并進(jìn)行了相當(dāng)長時間的多方面測試。排版、管理等模塊有待進(jìn)一步開發(fā)。該系統(tǒng)的最終目標(biāo)是要建立一個綜合、全面、高效的詞典編輯信息化處理平臺,徹底實現(xiàn)詞典編輯的無紙化和計算機(jī)化。(張紹麒2005)
(9)學(xué)者張衛(wèi)國提出的“計算機(jī)輔助編纂系統(tǒng)設(shè)計方案”
它由語料庫系統(tǒng)、數(shù)據(jù)庫系統(tǒng)和編輯軟件等三個子系統(tǒng)構(gòu)成,包括現(xiàn)代漢語共時描寫語料庫、語文詞典數(shù)據(jù)庫、語文詞典編輯應(yīng)用軟件三部分。
實際上,隨著信息技術(shù)的高速發(fā)展,為數(shù)不少的詞典編輯輔助平臺已經(jīng)研發(fā)出來,投入使用且取得了不錯的成果。(張紹麒2005)
(1)北京語言大學(xué)語言信息處理研究所開發(fā)的“漢語語料檢索軟件”(CCRL)
CCRL的檢索目標(biāo)包括字串、詞串、詞屬性串及詞與詞屬性的混合串,是一種面向語言教學(xué)研究的漢語語料檢索軟件系統(tǒng)。它具有自動分詞、自動建立索引、索引檢索速度快、可支持多用戶遠(yuǎn)程檢索等十個突出特點(diǎn)。CCRL使人們擺脫了收集卡片的體力勞動,還可以進(jìn)行大規(guī)模的語言現(xiàn)象調(diào)查工作。使用該軟件不需要進(jìn)行人工標(biāo)注就能對任何生語料全自動地生成索引并進(jìn)行檢索,能最大限度地提高準(zhǔn)確率和查全率,大大提高了語言研究水平,促進(jìn)了語言教學(xué)和語言信息處理的發(fā)展。CCRL在應(yīng)用過程已經(jīng)取得多項有意義的研究成果。(張紹麒2005)2003年1月,CCRL 1.0版開發(fā)成功;2003年5月,測試版正式發(fā)布;2004年1月,CCRL通過了教育部鑒定。
(2)清華大學(xué)計算機(jī)系司憲策和孫茂松開發(fā)的“基于WEB的漢語例句自動檢索系統(tǒng)”
WEB是一個動態(tài)性和時效性很強(qiáng)的語料來源,能及時反映新詞語、新用法。隨著WEB規(guī)模的擴(kuò)大和信息社會的發(fā)展,網(wǎng)絡(luò)成了語料的重要來源。傳統(tǒng)的搜索引擎查詢方式比較煩瑣,效率也不高。該系統(tǒng)是基于WEB的漢語例句自動檢索系統(tǒng),可以自動地利用搜索引擎來得到與給定詞匯相關(guān)的文檔和信息,并從文檔中提出詞匯所在的句子。它分為采集和查詢兩層,較好地克服了開發(fā)過程中的句子分割、例句去重、術(shù)語定義的粗提取等難題。它先用網(wǎng)絡(luò)爬蟲得到詞匯相關(guān)網(wǎng)頁并從中抽取例句放在磁盤上,然后系統(tǒng)根據(jù)用戶的配置對例句進(jìn)行過濾和處理,以得到用戶想要的例句。該系統(tǒng)在詞典編纂過程中得到了現(xiàn)實應(yīng)用,魯東大學(xué)亢世勇在編纂《現(xiàn)代漢語新詞語詞典》的過程中就使用了它,收到了很好的效果。
到長大,你會發(fā)現(xiàn),身邊凈是隨口的贊美“你又瘦了”“你真不錯”……不是你真的逆生長,也不是你真的很優(yōu)秀,只是沒人在乎你的成長。爛泥扶不上墻,那不扶也罷;朽木不可雕也,扔回原處就是。
(3)北京大學(xué)計算語言學(xué)研究所開發(fā)的“漢英雙語語料庫檢索系統(tǒng)”
該系統(tǒng)運(yùn)行環(huán)境為微軟Windows系列平臺,主要采用C++語言實現(xiàn)。它可實現(xiàn)漢英語特定詞的檢索、漢英語特定模式的檢索、檢索結(jié)果的選擇和篩選、檢索結(jié)果的聚類排序、漢英詞語的詞頻統(tǒng)計、搭配信息的統(tǒng)計分析等六個方面的檢索和語料分析需求。該系統(tǒng)立足于雙語語料庫,通過語料索引進(jìn)行加載語料、瀏覽語料、詞頻統(tǒng)計、語料檢索、結(jié)果排序、搭配分析等方面的工作。它可以針對詞典編纂專家、語言學(xué)家的特殊需求提供高效、靈活的高級檢索手段,并進(jìn)一步提供檢索結(jié)果的經(jīng)驗統(tǒng)計數(shù)據(jù),為詞典編纂人員做出科學(xué)合理的編寫或研究決策提供強(qiáng)有力的保證和支持。(張紹麒2005)
上海辭書出版社開發(fā)的“辭書質(zhì)量技術(shù)保障系統(tǒng)”。該保障系統(tǒng)主要包括參見系統(tǒng)、交叉處理、審定名詞、機(jī)構(gòu)組織、國名地名和詞目表、詞表索引六個部分,參見系統(tǒng)與交叉處理部分主要利用系統(tǒng)數(shù)據(jù)庫的超鏈接功能進(jìn)行工作,審定名詞等部分則主要利用復(fù)合數(shù)據(jù)庫、計算機(jī)檢索等相關(guān)技術(shù)開展工作,它們的共同目標(biāo)都是最大程度地保證辭書質(zhì)量。該系統(tǒng)的核心,是將書稿的電子文檔或辭書排版的數(shù)字化文件,轉(zhuǎn)換成相應(yīng)的書稿數(shù)據(jù)庫。這些數(shù)據(jù)庫文件需達(dá)到數(shù)據(jù)交換平臺的一致性、數(shù)據(jù)的規(guī)整性、非純文本數(shù)據(jù)的可視性、數(shù)據(jù)的可檢索性及數(shù)據(jù)的可遷移性等方面的要求。另外,辭書質(zhì)量技術(shù)數(shù)據(jù)庫還需建立一些諸如歷史紀(jì)年數(shù)據(jù)庫、國名數(shù)據(jù)庫、機(jī)構(gòu)組織數(shù)據(jù)庫等之類的復(fù)核數(shù)據(jù)庫。利用辭書質(zhì)量技術(shù)保障系統(tǒng),減輕了編輯人員在處理書稿時的復(fù)核工作量,提高了核查工作的效率,是一個較為實用的計算機(jī)輔助詞典質(zhì)量保障系統(tǒng)。(樂嘉民2007)
南京理工大學(xué)開發(fā)的辭書數(shù)據(jù)庫排版系統(tǒng)。該系統(tǒng)由辭書錄入、排版和瀏覽、檢索兩個子系統(tǒng)組成。它以XML文件為數(shù)據(jù)交換媒介,以數(shù)據(jù)庫為存貯介質(zhì)、以方正書版和方正RIP為排版輸出引擎,針對辭書排版的特點(diǎn),提供了包括錄入、存貯、排版、預(yù)覽、輸出和檢索的全套解決方案,解決辭書出版中比較突出的資源共享、檢索、查詢、借庫更新等難題,為編輯審讀文稿提供了便利,縮短了出版周期,降低了出版成本。(張紹麒2005)該系統(tǒng)較為有效地改善了我國的詞典排版系統(tǒng)。
(1)北京大學(xué)計算語言學(xué)研究所開發(fā)的“基于語料庫的雙語詞典編纂平臺”
該系統(tǒng)由通過互聯(lián)網(wǎng)連接在一起的兩個部分組成:一部分位于高性能服務(wù)器上,為編寫人員提供服務(wù)。另一部分位于詞典編寫人員的詞典編輯工作臺上。這樣,詞典編寫人員就可以通過本地詞典編輯工作臺接受來自高性能服務(wù)器所提供的服務(wù),并在其所提供的服務(wù)內(nèi)容的基礎(chǔ)上做出正確、合理、高效的詞典編寫決策。該系統(tǒng)設(shè)定了語料庫與參考詞典的定制和索引、詞典編纂項目管理條目與釋義詞表的生成管理等11項功能目標(biāo)。其中語料的檢索和統(tǒng)計是核心功能之一,它可以進(jìn)一步為詞典編寫人員提供詞頻表的生成、詞的檢索、表達(dá)式檢索、檢索結(jié)果的聚類排序、搭配及搭配強(qiáng)度的統(tǒng)計分析等5項功能。(常寶寶2006)
(2)解放軍國際關(guān)系學(xué)院李德俊開發(fā)的“漢英詞典編纂自動化平臺CpsDict系統(tǒng)”
解放軍國際關(guān)系學(xué)院的李德俊研發(fā)了擁有完整知識產(chǎn)權(quán)的漢英詞典編纂系統(tǒng)。目前來講,國內(nèi)還沒有真正進(jìn)行基于平行語料庫的雙語詞典編纂研究和實踐,以及相關(guān)軟件的開發(fā)和使用。該系統(tǒng)是我國第一個基于平行語料庫的雙語詞典編纂系統(tǒng)。它的功能主要是檢索對等詞、自動提取例證、研究搭配、提供關(guān)鍵詞的語境等。面對傳統(tǒng)雙語詞典編纂中釋義不當(dāng)、以解釋代替釋義詞、缺乏必要的語用信息、例證不當(dāng)或重復(fù)等弊端,該系統(tǒng)都較好地予以克服,滿足雙語詞典編纂自動化的要求。
(3)北京大學(xué)計算語言學(xué)研究所開發(fā)的面向語言學(xué)家和詞典編纂專家的漢英雙語語料庫檢索系統(tǒng)。以上已做過介紹,這里不再贅述。
語料建設(shè)WEB語料平行語料語料檢索例句提取數(shù)據(jù)統(tǒng)計詞典比較詞典編輯詞典排序詞典生成詞典檢測質(zhì)量保證詞典排版管理系統(tǒng)廣東外語外貿(mào)大學(xué):基于微觀數(shù)據(jù)結(jié)構(gòu)的雙語詞典生成系統(tǒng)++ + +商務(wù)印書館與南京大學(xué):“CONULEXID”詞典編纂系統(tǒng)+ + + +上海交通大學(xué):漢語詞典編纂一體化環(huán)境+++ + +山西大學(xué):基于語料庫的漢語辭書編纂輔助系統(tǒng)++ +北京大學(xué):計算機(jī)輔助詞典開發(fā)和管理系統(tǒng)++ + + +
通過各個系統(tǒng)自身的介紹以及完成的情況,我們可以從“語料建設(shè)”、“WEB語料”、“平行語料”、“語料檢索”、“例句提取”、“數(shù)據(jù)提取”、“詞典比較”、“詞典編輯”、“詞典排序”、“詞典生成”、“詞典檢測”、“質(zhì)量保證”、“詞典排版”、“系統(tǒng)管理”等功能模塊來對各個系統(tǒng)進(jìn)行單一性和比較性考察。需要說明的是,以下圖表中,“+”表示此功能模塊在該系統(tǒng)中顯著一些,也就是說,功能模塊的考察是相對的。
(續(xù)表)
通過上表我們可以發(fā)現(xiàn):
(1)不同的計算機(jī)輔助詞典編纂系統(tǒng)側(cè)重點(diǎn)是不太一致的。這樣的優(yōu)點(diǎn)是不同類型、特點(diǎn)的詞典可以選用不同的詞典編纂系統(tǒng),再就是體現(xiàn)學(xué)術(shù)上百花齊放、百家爭鳴的宗旨,有利于編纂系統(tǒng)的整體推進(jìn);缺點(diǎn)是反映出目前我國的詞典編纂系統(tǒng)的共享率有待提高,發(fā)展層次和功能良莠不齊。這導(dǎo)致重復(fù)建設(shè)和一定程度上的資源浪費(fèi)。
(2)從所列出的功能模塊看,有幾個是比較集中的,比如“語料建設(shè)”、“語料檢索”、“詞典編輯”、“系統(tǒng)管理”等。從學(xué)科角度上看,這反映了當(dāng)前我國多數(shù)的計算機(jī)輔助詞典編纂系統(tǒng)主要還是屬于語料庫詞典學(xué)的范疇。
追求詞典編纂的自動化是我們的目標(biāo),也是計算詞典學(xué)的主要任務(wù),即開發(fā)詞典的計算機(jī)輔助編纂系統(tǒng)和自動生成系統(tǒng)。這樣,不僅可以大大解放人力,還可以提高效率,增強(qiáng)辭書的科學(xué)性。語料庫詞典學(xué)和計算詞典學(xué)與當(dāng)前我國的計算機(jī)輔助詞典編纂系統(tǒng)的關(guān)系如下圖:
(3)對衡量自動化程度比較重要的模塊如“詞典生成”、“詞典排序”、“詞典檢測”等,多數(shù)系統(tǒng)是不具備的。上邊我們說了,這屬于更高層次的詞典編纂自動化領(lǐng)域的內(nèi)容,是計算詞典學(xué)所追求的目標(biāo),也應(yīng)該是我國計算機(jī)輔助詞典編纂系統(tǒng)以后努力的方向。
(4)指向“平行語料”模塊的計算機(jī)輔助詞典編纂系統(tǒng)比較少。這反映了在當(dāng)前雙語詞典的市場需求比較大的形勢下,可以輔助進(jìn)行雙語詞典編纂的系統(tǒng)是比較缺乏的。
(5)指向“WEB語料”模塊的計算機(jī)輔助詞典編纂系統(tǒng)比較少。當(dāng)前的系統(tǒng)多是靜態(tài)的或人工建設(shè)的語料庫,當(dāng)前WEB網(wǎng)中大量的非數(shù)據(jù)結(jié)構(gòu)信息是我們?nèi)≈槐M、用之不竭的新鮮資源,WEB語料的另一個優(yōu)勢是它可以保持很大的動態(tài)性。因此,WEB語料庫的開發(fā)與建設(shè),包括檢索系統(tǒng)的完善,也是我國計算機(jī)輔助辭書編纂領(lǐng)域今后要努力的方向。
(6)指向“詞典檢測”和“質(zhì)量保障”模塊的計算機(jī)輔助詞典編纂系統(tǒng)比較少。詞典的編纂不是朝夕之功,必須反復(fù)檢測、修訂、改善,因此,從計算機(jī)輔助詞典編纂方面來看,是離不開一個成熟的檢測或保障系統(tǒng)的。
上述計算機(jī)輔助編纂系統(tǒng)的開發(fā)只是計算詞典學(xué)和語料庫詞典學(xué)發(fā)展的一個縮影,隨著信息技術(shù)的進(jìn)一步發(fā)展,將會有更多功能齊全、技術(shù)先進(jìn)的辭書編纂系統(tǒng)被開發(fā)出來,詞典編纂、出版過程將發(fā)生更加深刻的變化:第一,數(shù)據(jù)輸入方式更加便捷。利用計算機(jī)多媒體處理技術(shù)開發(fā)的語音輸入法、圖文識別技術(shù)等應(yīng)用到辭書編纂中去,能有效提高辭書編纂的效率、質(zhì)量。第二,出現(xiàn)商品化的辭書編寫專用軟件,辭書編纂的時效性得到保證。第三,信息高速公路帶來了便利,辭書編纂人員利用網(wǎng)絡(luò)與世界各地的同行進(jìn)行快速信息交流、學(xué)術(shù)研討、合作開發(fā),辭書的科學(xué)性、實用性增強(qiáng)。
但是,計算機(jī)輔助詞典編纂系統(tǒng)應(yīng)該只是我們暫時的目的或任務(wù),最后的目標(biāo)是要達(dá)到完全的自動化,排除過多的人工因素,實現(xiàn)詞典的自動生成。如下圖:
從這個目標(biāo)上說,目前能初步具備這個功能的為數(shù)極少,其中的代表就是廣東外語外貿(mào)大學(xué)的“基于語料庫的WEB詞典編纂及自動生成系統(tǒng)”和“基于網(wǎng)絡(luò)的詞典輔助編纂及生成系統(tǒng)”等,其他的系統(tǒng)主要多是輔助人工進(jìn)行語料的建設(shè)、檢索、篩選、排序,例句的提取,以及詞典的檢測、排版、修訂等。
總之,我國的計算機(jī)輔助詞典編纂系統(tǒng)呈現(xiàn)出了欣欣向榮的蓬勃局面,但如要實現(xiàn)真正的詞典編纂和生成的自動化,還需要各個系統(tǒng)互相借鑒、通力合作,更需要轉(zhuǎn)變發(fā)展的思維和方式,積極進(jìn)行理論創(chuàng)新和技術(shù)革新,力爭從語料庫詞典學(xué)領(lǐng)域慢慢轉(zhuǎn)型到計算詞典學(xué),實現(xiàn)兩個領(lǐng)域的優(yōu)勢互補(bǔ),這樣,真正的計算機(jī)自動詞典編纂系統(tǒng)才能得到開發(fā)與應(yīng)用。
1.常寶寶.基于語料庫的雙語詞典編纂平臺的構(gòu)建.辭書研究,2006(5).
2.樂嘉民.辭書質(zhì)量技術(shù)保障系統(tǒng)的研發(fā)與應(yīng)用.中國編輯,2007(1).
3.劉輝等.基于語料庫的WEB詞典編纂及自動生成系統(tǒng)設(shè)計與實現(xiàn).沈陽師范大學(xué)學(xué)報,2006(3).
4.陸汝占.漢語辭書編纂一體化環(huán)境(上)、(下).辭書研究,2001(2)、(3).
5.王惠,李康年.大型詞典編纂的計算機(jī)輔助開發(fā)與管理系統(tǒng).辭書研究,2004(2).
6.張紹麒.辭書與數(shù)字化研究.上海:上海辭書出版社,2005.
7.章宜華.關(guān)于計算詞典學(xué)理論框架的探討.辭書研究,2007(6).
8.鄭恩培,陸汝占.漢語詞典編纂計算機(jī)化的若干問題.語言文字應(yīng)用,1999(2).