我國計算機(jī)輔助詞典編纂系統(tǒng)初步調(diào)查研究

2012-05-09 09:42:50亢世勇王興隆謝曉艷

辭書研究 2012年3期

亢世勇王興隆謝曉艷

一、引言

詞典編纂是一項異常繁重而又極其嚴(yán)謹(jǐn)?shù)墓ぷ?。在高科技迅猛發(fā)展的今天，傳統(tǒng)的詞典編纂方式已不能適應(yīng)現(xiàn)代社會發(fā)展新形勢的需要。早在20世紀(jì)50年代中期，國外就有專家嘗試用計算機(jī)進(jìn)行圖書編目、資料管理等工作，如R．Busa在世界范圍內(nèi)首先采用卡片穿孔機(jī)來處理文獻(xiàn)古籍，以便編制其作品的一般詞匯索引與重要語詞索引。自1956年起，這類工作采用了計算機(jī)技術(shù)，課題范圍也有所擴(kuò)大，其中包括編纂頻率詞典、倒排詞典、為詞典卡片庫準(zhǔn)備卡片、處理語言材料等。進(jìn)入60年代后，法國、英國、聯(lián)邦德國、瑞士等西方國家，先后開展了詞典編纂自動化、計算機(jī)化的研究，將計算機(jī)引入到了詞典編纂的全過程，改變了傳統(tǒng)的詞典編纂模式，極大地提高了詞典編纂的效率，詞典的內(nèi)、外在質(zhì)量得到很大的改善。(鄭恩培，陸汝占1999)

今天，西方國家在計算機(jī)輔助詞典編纂方面已經(jīng)取得了一系列的成果，主要是一些新型詞典的出版，如:“牛津”系列詞典，包括《牛津兒童圖解詞典》、《牛津基礎(chǔ)英語學(xué)習(xí)詞典》、《牛津成人英語圖解詞典》等;“朗文系列”詞典，包括《幼兒學(xué)習(xí)詞典》、《少年學(xué)習(xí)詞典》、《成人初學(xué)者詞典》等;“柯林斯COBUILD系列”詞典，包括《柯林斯COBUILD高級英語學(xué)習(xí)詞典》、《柯林斯COBUILD積極型英語詞典》等。這些詞典的出版和熱銷，印證了計算機(jī)輔助詞典編纂的重要性和緊迫性。

而在我國，20世紀(jì)80年代前，由于漢字的輸入和存儲技術(shù)不過關(guān)，計算機(jī)輔助詞典編纂技術(shù)進(jìn)展不大。80年代后，漢字輸入和存儲技術(shù)取得重大突破，各種漢字輸入平臺層出不窮，受其影響，計算機(jī)技術(shù)在漢語詞典編纂中有了一定的應(yīng)用，如利用計算機(jī)輔助編制資料卡片、索引等，但這種應(yīng)用只是局部的，效果有限，影響也不大。

我國真正的計算機(jī)輔助詞典編纂系統(tǒng)是從20世紀(jì)90年代開始的，至今已形成了蓬勃發(fā)展的局面。從整體來看，當(dāng)前我國計算機(jī)輔助詞典編纂系統(tǒng)的優(yōu)勢是:可以比較充分地利用語料庫的資源和技術(shù)，比如利用語料庫提供詞典例證、輔助詞典釋義、輔助義項劃分、輔助詞典立目、輔助語用注釋、提供句法信息、輔助語法注釋、揭示文化信息、揭示同義詞的分布和使用等。這些功能在章宜華的專著《計算詞典學(xué)與新型詞典》中曾著重介紹。

二、計算機(jī)輔助詞典編纂系統(tǒng)(工具)介紹

計算機(jī)輔助詞典編纂系統(tǒng)是為詞典的編纂、編輯、排版以及詞典的修訂工作而編制的專門的文字處理平臺和管理軟件。詞典編纂的整個過程包括詞典信息的錄入、例句的提取、語料庫信息的統(tǒng)計分析、語義排版以及詞典文本的編輯等。目前，在詞典學(xué)研究和辭書出版領(lǐng)域，自動化、數(shù)字化、計算機(jī)化的編輯操作已經(jīng)涉及詞典編纂的各個方面，如資料的收集和存儲、編纂過程以及詞典發(fā)布的形式等。利用計算機(jī)技術(shù)、信息技術(shù)進(jìn)行詞典編纂已經(jīng)成為詞典編纂領(lǐng)域發(fā)展的必然趨勢。

眼下，我國的計算機(jī)輔助詞典編纂已取得了長足的發(fā)展，我們將重點(diǎn)介紹一下目前國內(nèi)比較有代表性的計算機(jī)輔助詞典編纂系統(tǒng)(工具)，由于計算機(jī)輔助辭書編纂系統(tǒng)是一個廣義的概念，因此我們從以下幾個方面分別介紹:

(一)計算機(jī)輔助詞典本體編纂平臺或系統(tǒng)

(1)商務(wù)印書館與南京大學(xué)聯(lián)合開發(fā)的“‘CONULEXID’詞典編纂系統(tǒng)”

該系統(tǒng)采用CLIENT/SERVER的局域網(wǎng)結(jié)構(gòu)，較好地實現(xiàn)了數(shù)個客戶端對服務(wù)器內(nèi)語料庫資源不同程度的獲取和共享，提高了語料資源的利用率。它包括詞典編輯和詞典維護(hù)兩個子系統(tǒng)。系統(tǒng)的主要功能包括詞典錄入、例句選取、綜合文章查詢、文章句式統(tǒng)計及文章詞頻統(tǒng)計等。這個輔助編纂系統(tǒng)已經(jīng)成功應(yīng)用到了《新時代英漢大詞典》的編纂、編輯和出版過程中。(章宜華2007)

(2)上海交通大學(xué)的陸汝占等開發(fā)的“漢語詞典編纂一體化環(huán)境”

它的功能主要包括語料的采集、加工處理、詞典編纂管理、詞典質(zhì)量檢測、詞典編纂過程中的自檢等。該系統(tǒng)主要由語料庫、詞典編纂、詞典檢測三個子系統(tǒng)構(gòu)成。語料庫子系統(tǒng)的主要功能是對語料庫進(jìn)行管理、加工和查詢。詞典編纂子系統(tǒng)致力于實現(xiàn)詞典編纂過程的便利化。該子系統(tǒng)又分為詞典格式轉(zhuǎn)換、詞典查詢、詞典自檢、詞典編輯、詞典編纂項目管理五個次子系統(tǒng)。詞典檢測子系統(tǒng)又包括詞表構(gòu)成、查詢、詞概念關(guān)系庫編輯系統(tǒng)三個小子系統(tǒng)。經(jīng)試用，此漢語詞典編纂系統(tǒng)得到了好評，其結(jié)果是令人鼓舞的。(陸汝占2001)

(3)山西大學(xué)開發(fā)的“基于語料庫的漢語辭書編纂輔助系統(tǒng)”

系統(tǒng)總體上分為“電子辭書數(shù)據(jù)庫及其查詢模塊”、“現(xiàn)代漢語語料庫及其檢索模塊”及“電子詞典編輯模塊”，各組模塊可分可合，既可以獨(dú)立使用，又可以聯(lián)合使用。它將軟件工具、語料庫及其他電子詞典資源有機(jī)結(jié)合，成為一個具有資源建庫、語料檢索、信息統(tǒng)計等功能的應(yīng)用平臺。該系統(tǒng)提供多種輸出方式，從而為漢語辭書編纂人員提供較為強(qiáng)大的電子信息服務(wù)。它主要是基于靜態(tài)的語料，為了保持更新，山西大學(xué)在此基礎(chǔ)上進(jìn)一步設(shè)計完成了基于因特網(wǎng)的漢語辭書編纂輔助系統(tǒng)。(張紹麒2005)

(4)北京大學(xué)計算語言學(xué)研究所開發(fā)的“計算機(jī)輔助詞典開發(fā)和管理系統(tǒng)”

該系統(tǒng)主要用于詞典檢索、編輯、排序、校訂、檢測、版本比較、自動翻譯、任務(wù)管理等。它主要包括四個子系統(tǒng):詞典編輯、自動檢測、自動翻譯、項目管理。詞典編輯子系統(tǒng)主要對數(shù)據(jù)庫格式的詞典文件進(jìn)行編輯和整理。自動檢測子系統(tǒng)保證了屬性填寫的正確性和一致性。自動翻譯子系統(tǒng)可利用詞法分析器，在計算機(jī)自動獲取的英語譯文的基礎(chǔ)上，將編輯工作轉(zhuǎn)化為校訂工作。項目管理子系統(tǒng)可全面掌握修訂信息，及時發(fā)現(xiàn)和防止漏校的信息。(王惠，李康年2004)

(5)廣東外語外貿(mào)大學(xué)詞典學(xué)研究中心開發(fā)的“基于微觀數(shù)據(jù)結(jié)構(gòu)的雙語詞典生成系統(tǒng)”(簡你DICT-Generator系統(tǒng))

該系統(tǒng)是基于廣域網(wǎng)環(huán)境設(shè)計開發(fā)的計算機(jī)輔助詞典編纂及生成平臺，適用多語種外漢詞典的編纂和自動生成。它主要使用VB．NET和VC++．NET編寫，采用Microsoft．SQL server 2000數(shù)據(jù)庫存儲詞典數(shù)據(jù)庫和語料庫數(shù)據(jù)庫。該系統(tǒng)主要包括語料庫接口、詞典編纂或數(shù)據(jù)錄入、詞典數(shù)據(jù)庫、詞典審定、詞典生成和管理等幾大功能模塊，其中詞典數(shù)據(jù)庫和生成模塊是該系統(tǒng)的核心部分，語料庫、詞典編纂和管理模塊是為它服務(wù)的。

該系統(tǒng)將詞典編纂中的體例結(jié)構(gòu)和微觀信息結(jié)構(gòu)設(shè)計，以及詞典信息的格式化編排和排版等繁瑣的工作流程計算機(jī)化，改變了傳統(tǒng)的詞典編纂方式，提高了工作效率。此外，該系統(tǒng)通過互聯(lián)網(wǎng)建立了安全、穩(wěn)定的詞典編纂及生成平臺，實現(xiàn)了互聯(lián)網(wǎng)上的詞典編纂，詞典編纂人員可以在世界上任何地方、任何時間使用該系統(tǒng)共同參與詞典的編纂工作。該系統(tǒng)打破了現(xiàn)今詞典編纂生成的局限，實現(xiàn)了詞典編纂生成全過程數(shù)字化、自動化、規(guī)范化，它將語料處理、詞典編纂、詞典出版和工作管理等領(lǐng)域的操作有機(jī)融合在一起，實現(xiàn)了全方位、多角度的詞典信息處理數(shù)字化，最大限度地利用現(xiàn)有資源，能高效率地完成詞典編纂、修訂和出版工作。(劉輝等2006)

由于該系統(tǒng)是在10多年前設(shè)計的，原來的開發(fā)平臺和技術(shù)工具已經(jīng)不適應(yīng)數(shù)字化信息處理的需求;因此，在兩年前廣東外語外貿(mào)大學(xué)詞典學(xué)研究中心就開始對該系統(tǒng)進(jìn)行升級改造，利用 C#．net2010，Sql 2005，ASP．Net，XML Edit進(jìn)行詞典數(shù)據(jù)和詞典生成平臺建設(shè)。改造后的平臺界面將更加友好，數(shù)據(jù)處理能力更強(qiáng)大，索引更智能化。

(6)教育部語言文字應(yīng)用研究所承擔(dān)的“基于語料庫的數(shù)字化辭書編纂平臺”

該系統(tǒng)突破了傳統(tǒng)的辭書編纂概念，建立了一種新型的辭書編纂模式。它是國家863計劃“中文信息處理基礎(chǔ)應(yīng)用研究”課題的子課題，以國家語言文字工作委員會大規(guī)?，F(xiàn)代漢語語料庫為基礎(chǔ)，以數(shù)字化典范辭書為目標(biāo)，以語義計算理論為基礎(chǔ)，以語言信息處理的計算機(jī)技術(shù)為支撐，研制辭書的知識獲取、自動生成、檢查檢測、審核評價等技術(shù)和集成化的輔助操作平臺。具體研究內(nèi)容包括辭書編纂的新模式研究、數(shù)字化辭書生成系統(tǒng)、辭書雷同檢查和沖突檢測技術(shù)、語料庫在辭書編纂中的應(yīng)用、語言處理技術(shù)應(yīng)用于辭書編纂等。該系統(tǒng)提供了多樣化的辭書編纂工具，并提倡和建立了辭書編纂的新理念、新模式，使計算機(jī)輔助辭書編纂達(dá)到了新的高度。

(7)商務(wù)印書館開發(fā)的“辭書語料庫及編纂系統(tǒng)”

它是該館在新的歷史時期為實現(xiàn)辭書編纂現(xiàn)代化、鞏固與保持在工具書出版領(lǐng)域的領(lǐng)先地位而確立的重大科技項目。項目一期工程于2004年11月通過了新聞出版總署、中國出版集團(tuán)組織的專家驗收。該系統(tǒng)建立了從語料采集、辭書編纂到編輯出版的辭書編纂現(xiàn)代化一體化系統(tǒng)，開創(chuàng)了一種新型的漢語辭書編纂模式，在辭書編纂現(xiàn)代化方面取得了突破。項目二期工程主要致力于語料的采集與加工、核心工具書數(shù)據(jù)庫、中小學(xué)語文教材教輔語料庫、例句查詢系統(tǒng)、例句優(yōu)選系統(tǒng)、辭書數(shù)據(jù)庫排版系統(tǒng)、小學(xué)生辭書編纂平臺等。

該系統(tǒng)已形成較完善的“三庫兩平臺”架構(gòu)，即語料庫、數(shù)據(jù)庫、資源庫和辭書編纂編輯平臺、辭書數(shù)據(jù)庫排版平臺(系統(tǒng))，以實現(xiàn)從語料采集、辭書編纂編輯到排版出版等環(huán)節(jié)的全過程現(xiàn)代化、數(shù)字化。商務(wù)印書館在此基礎(chǔ)上開發(fā)了跨庫例句查詢系統(tǒng)，集成了核心工具書數(shù)據(jù)庫、基礎(chǔ)語料庫、例句語料庫、教材教輔語料庫等多庫查詢功能。正在開發(fā)例句優(yōu)選系統(tǒng)，建立基于句法功能、搭配、詞類、詞頻、句長等條件的分項組合查詢功能，以提高例句選擇的效率和有效性。

該系統(tǒng)是基于《現(xiàn)代漢語詞典》修訂需求開發(fā)的詞典編輯軟件，包括編輯、排序、檢索、匯總、排版、管理等模塊。其中編輯、排序、檢索、匯總模塊已完成，并進(jìn)行了相當(dāng)長時間的多方面測試。排版、管理等模塊有待進(jìn)一步開發(fā)。該系統(tǒng)的最終目標(biāo)是要建立一個綜合、全面、高效的詞典編輯信息化處理平臺，徹底實現(xiàn)詞典編輯的無紙化和計算機(jī)化。(張紹麒2005)

(9)學(xué)者張衛(wèi)國提出的“計算機(jī)輔助編纂系統(tǒng)設(shè)計方案”

它由語料庫系統(tǒng)、數(shù)據(jù)庫系統(tǒng)和編輯軟件等三個子系統(tǒng)構(gòu)成，包括現(xiàn)代漢語共時描寫語料庫、語文詞典數(shù)據(jù)庫、語文詞典編輯應(yīng)用軟件三部分。

實際上，隨著信息技術(shù)的高速發(fā)展，為數(shù)不少的詞典編輯輔助平臺已經(jīng)研發(fā)出來，投入使用且取得了不錯的成果。(張紹麒2005)

(二)計算機(jī)輔助詞典語料檢索系統(tǒng)或軟件

(1)北京語言大學(xué)語言信息處理研究所開發(fā)的“漢語語料檢索軟件”(CCRL)

CCRL的檢索目標(biāo)包括字串、詞串、詞屬性串及詞與詞屬性的混合串，是一種面向語言教學(xué)研究的漢語語料檢索軟件系統(tǒng)。它具有自動分詞、自動建立索引、索引檢索速度快、可支持多用戶遠(yuǎn)程檢索等十個突出特點(diǎn)。CCRL使人們擺脫了收集卡片的體力勞動，還可以進(jìn)行大規(guī)模的語言現(xiàn)象調(diào)查工作。使用該軟件不需要進(jìn)行人工標(biāo)注就能對任何生語料全自動地生成索引并進(jìn)行檢索，能最大限度地提高準(zhǔn)確率和查全率，大大提高了語言研究水平，促進(jìn)了語言教學(xué)和語言信息處理的發(fā)展。CCRL在應(yīng)用過程已經(jīng)取得多項有意義的研究成果。(張紹麒2005)2003年1月，CCRL 1．0版開發(fā)成功;2003年5月，測試版正式發(fā)布;2004年1月，CCRL通過了教育部鑒定。

(2)清華大學(xué)計算機(jī)系司憲策和孫茂松開發(fā)的“基于WEB的漢語例句自動檢索系統(tǒng)”

WEB是一個動態(tài)性和時效性很強(qiáng)的語料來源，能及時反映新詞語、新用法。隨著WEB規(guī)模的擴(kuò)大和信息社會的發(fā)展，網(wǎng)絡(luò)成了語料的重要來源。傳統(tǒng)的搜索引擎查詢方式比較煩瑣，效率也不高。該系統(tǒng)是基于WEB的漢語例句自動檢索系統(tǒng)，可以自動地利用搜索引擎來得到與給定詞匯相關(guān)的文檔和信息，并從文檔中提出詞匯所在的句子。它分為采集和查詢兩層，較好地克服了開發(fā)過程中的句子分割、例句去重、術(shù)語定義的粗提取等難題。它先用網(wǎng)絡(luò)爬蟲得到詞匯相關(guān)網(wǎng)頁并從中抽取例句放在磁盤上，然后系統(tǒng)根據(jù)用戶的配置對例句進(jìn)行過濾和處理，以得到用戶想要的例句。該系統(tǒng)在詞典編纂過程中得到了現(xiàn)實應(yīng)用，魯東大學(xué)亢世勇在編纂《現(xiàn)代漢語新詞語詞典》的過程中就使用了它，收到了很好的效果。

到長大，你會發(fā)現(xiàn)，身邊凈是隨口的贊美“你又瘦了”“你真不錯”……不是你真的逆生長，也不是你真的很優(yōu)秀，只是沒人在乎你的成長。爛泥扶不上墻，那不扶也罷；朽木不可雕也，扔回原處就是。

(3)北京大學(xué)計算語言學(xué)研究所開發(fā)的“漢英雙語語料庫檢索系統(tǒng)”

該系統(tǒng)運(yùn)行環(huán)境為微軟Windows系列平臺，主要采用C++語言實現(xiàn)。它可實現(xiàn)漢英語特定詞的檢索、漢英語特定模式的檢索、檢索結(jié)果的選擇和篩選、檢索結(jié)果的聚類排序、漢英詞語的詞頻統(tǒng)計、搭配信息的統(tǒng)計分析等六個方面的檢索和語料分析需求。該系統(tǒng)立足于雙語語料庫，通過語料索引進(jìn)行加載語料、瀏覽語料、詞頻統(tǒng)計、語料檢索、結(jié)果排序、搭配分析等方面的工作。它可以針對詞典編纂專家、語言學(xué)家的特殊需求提供高效、靈活的高級檢索手段，并進(jìn)一步提供檢索結(jié)果的經(jīng)驗統(tǒng)計數(shù)據(jù)，為詞典編纂人員做出科學(xué)合理的編寫或研究決策提供強(qiáng)有力的保證和支持。(張紹麒2005)

(三)計算機(jī)輔助詞典質(zhì)量保障系統(tǒng)

上海辭書出版社開發(fā)的“辭書質(zhì)量技術(shù)保障系統(tǒng)”。該保障系統(tǒng)主要包括參見系統(tǒng)、交叉處理、審定名詞、機(jī)構(gòu)組織、國名地名和詞目表、詞表索引六個部分，參見系統(tǒng)與交叉處理部分主要利用系統(tǒng)數(shù)據(jù)庫的超鏈接功能進(jìn)行工作，審定名詞等部分則主要利用復(fù)合數(shù)據(jù)庫、計算機(jī)檢索等相關(guān)技術(shù)開展工作，它們的共同目標(biāo)都是最大程度地保證辭書質(zhì)量。該系統(tǒng)的核心，是將書稿的電子文檔或辭書排版的數(shù)字化文件，轉(zhuǎn)換成相應(yīng)的書稿數(shù)據(jù)庫。這些數(shù)據(jù)庫文件需達(dá)到數(shù)據(jù)交換平臺的一致性、數(shù)據(jù)的規(guī)整性、非純文本數(shù)據(jù)的可視性、數(shù)據(jù)的可檢索性及數(shù)據(jù)的可遷移性等方面的要求。另外，辭書質(zhì)量技術(shù)數(shù)據(jù)庫還需建立一些諸如歷史紀(jì)年數(shù)據(jù)庫、國名數(shù)據(jù)庫、機(jī)構(gòu)組織數(shù)據(jù)庫等之類的復(fù)核數(shù)據(jù)庫。利用辭書質(zhì)量技術(shù)保障系統(tǒng)，減輕了編輯人員在處理書稿時的復(fù)核工作量，提高了核查工作的效率，是一個較為實用的計算機(jī)輔助詞典質(zhì)量保障系統(tǒng)。(樂嘉民2007)

(四)計算機(jī)輔助詞典排版系統(tǒng)

南京理工大學(xué)開發(fā)的辭書數(shù)據(jù)庫排版系統(tǒng)。該系統(tǒng)由辭書錄入、排版和瀏覽、檢索兩個子系統(tǒng)組成。它以XML文件為數(shù)據(jù)交換媒介，以數(shù)據(jù)庫為存貯介質(zhì)、以方正書版和方正RIP為排版輸出引擎，針對辭書排版的特點(diǎn)，提供了包括錄入、存貯、排版、預(yù)覽、輸出和檢索的全套解決方案，解決辭書出版中比較突出的資源共享、檢索、查詢、借庫更新等難題，為編輯審讀文稿提供了便利，縮短了出版周期，降低了出版成本。(張紹麒2005)該系統(tǒng)較為有效地改善了我國的詞典排版系統(tǒng)。

(五)計算機(jī)輔助雙語詞典編纂系統(tǒng)

(1)北京大學(xué)計算語言學(xué)研究所開發(fā)的“基于語料庫的雙語詞典編纂平臺”

該系統(tǒng)由通過互聯(lián)網(wǎng)連接在一起的兩個部分組成:一部分位于高性能服務(wù)器上，為編寫人員提供服務(wù)。另一部分位于詞典編寫人員的詞典編輯工作臺上。這樣，詞典編寫人員就可以通過本地詞典編輯工作臺接受來自高性能服務(wù)器所提供的服務(wù)，并在其所提供的服務(wù)內(nèi)容的基礎(chǔ)上做出正確、合理、高效的詞典編寫決策。該系統(tǒng)設(shè)定了語料庫與參考詞典的定制和索引、詞典編纂項目管理條目與釋義詞表的生成管理等11項功能目標(biāo)。其中語料的檢索和統(tǒng)計是核心功能之一，它可以進(jìn)一步為詞典編寫人員提供詞頻表的生成、詞的檢索、表達(dá)式檢索、檢索結(jié)果的聚類排序、搭配及搭配強(qiáng)度的統(tǒng)計分析等5項功能。(常寶寶2006)

(2)解放軍國際關(guān)系學(xué)院李德俊開發(fā)的“漢英詞典編纂自動化平臺CpsDict系統(tǒng)”

解放軍國際關(guān)系學(xué)院的李德俊研發(fā)了擁有完整知識產(chǎn)權(quán)的漢英詞典編纂系統(tǒng)。目前來講，國內(nèi)還沒有真正進(jìn)行基于平行語料庫的雙語詞典編纂研究和實踐，以及相關(guān)軟件的開發(fā)和使用。該系統(tǒng)是我國第一個基于平行語料庫的雙語詞典編纂系統(tǒng)。它的功能主要是檢索對等詞、自動提取例證、研究搭配、提供關(guān)鍵詞的語境等。面對傳統(tǒng)雙語詞典編纂中釋義不當(dāng)、以解釋代替釋義詞、缺乏必要的語用信息、例證不當(dāng)或重復(fù)等弊端，該系統(tǒng)都較好地予以克服，滿足雙語詞典編纂自動化的要求。

(3)北京大學(xué)計算語言學(xué)研究所開發(fā)的面向語言學(xué)家和詞典編纂專家的漢英雙語語料庫檢索系統(tǒng)。以上已做過介紹，這里不再贅述。

語料建設(shè)WEB語料平行語料語料檢索例句提取數(shù)據(jù)統(tǒng)計詞典比較詞典編輯詞典排序詞典生成詞典檢測質(zhì)量保證詞典排版管理系統(tǒng)廣東外語外貿(mào)大學(xué):基于微觀數(shù)據(jù)結(jié)構(gòu)的雙語詞典生成系統(tǒng)++ + +商務(wù)印書館與南京大學(xué):“CONULEXID”詞典編纂系統(tǒng)+ + + +上海交通大學(xué):漢語詞典編纂一體化環(huán)境+++ + +山西大學(xué):基于語料庫的漢語辭書編纂輔助系統(tǒng)++ +北京大學(xué):計算機(jī)輔助詞典開發(fā)和管理系統(tǒng)++ + + +

三、計算機(jī)輔助詞典編纂系統(tǒng)(工具)的功能考察與比較

通過各個系統(tǒng)自身的介紹以及完成的情況，我們可以從“語料建設(shè)”、“WEB語料”、“平行語料”、“語料檢索”、“例句提取”、“數(shù)據(jù)提取”、“詞典比較”、“詞典編輯”、“詞典排序”、“詞典生成”、“詞典檢測”、“質(zhì)量保證”、“詞典排版”、“系統(tǒng)管理”等功能模塊來對各個系統(tǒng)進(jìn)行單一性和比較性考察。需要說明的是，以下圖表中，“+”表示此功能模塊在該系統(tǒng)中顯著一些，也就是說，功能模塊的考察是相對的。

(續(xù)表)

通過上表我們可以發(fā)現(xiàn):

(1)不同的計算機(jī)輔助詞典編纂系統(tǒng)側(cè)重點(diǎn)是不太一致的。這樣的優(yōu)點(diǎn)是不同類型、特點(diǎn)的詞典可以選用不同的詞典編纂系統(tǒng)，再就是體現(xiàn)學(xué)術(shù)上百花齊放、百家爭鳴的宗旨，有利于編纂系統(tǒng)的整體推進(jìn);缺點(diǎn)是反映出目前我國的詞典編纂系統(tǒng)的共享率有待提高，發(fā)展層次和功能良莠不齊。這導(dǎo)致重復(fù)建設(shè)和一定程度上的資源浪費(fèi)。

(2)從所列出的功能模塊看，有幾個是比較集中的，比如“語料建設(shè)”、“語料檢索”、“詞典編輯”、“系統(tǒng)管理”等。從學(xué)科角度上看，這反映了當(dāng)前我國多數(shù)的計算機(jī)輔助詞典編纂系統(tǒng)主要還是屬于語料庫詞典學(xué)的范疇。

追求詞典編纂的自動化是我們的目標(biāo)，也是計算詞典學(xué)的主要任務(wù)，即開發(fā)詞典的計算機(jī)輔助編纂系統(tǒng)和自動生成系統(tǒng)。這樣，不僅可以大大解放人力，還可以提高效率，增強(qiáng)辭書的科學(xué)性。語料庫詞典學(xué)和計算詞典學(xué)與當(dāng)前我國的計算機(jī)輔助詞典編纂系統(tǒng)的關(guān)系如下圖:

(3)對衡量自動化程度比較重要的模塊如“詞典生成”、“詞典排序”、“詞典檢測”等，多數(shù)系統(tǒng)是不具備的。上邊我們說了，這屬于更高層次的詞典編纂自動化領(lǐng)域的內(nèi)容，是計算詞典學(xué)所追求的目標(biāo)，也應(yīng)該是我國計算機(jī)輔助詞典編纂系統(tǒng)以后努力的方向。

(4)指向“平行語料”模塊的計算機(jī)輔助詞典編纂系統(tǒng)比較少。這反映了在當(dāng)前雙語詞典的市場需求比較大的形勢下，可以輔助進(jìn)行雙語詞典編纂的系統(tǒng)是比較缺乏的。

(5)指向“WEB語料”模塊的計算機(jī)輔助詞典編纂系統(tǒng)比較少。當(dāng)前的系統(tǒng)多是靜態(tài)的或人工建設(shè)的語料庫，當(dāng)前WEB網(wǎng)中大量的非數(shù)據(jù)結(jié)構(gòu)信息是我們?nèi)≈槐M、用之不竭的新鮮資源，WEB語料的另一個優(yōu)勢是它可以保持很大的動態(tài)性。因此，WEB語料庫的開發(fā)與建設(shè)，包括檢索系統(tǒng)的完善，也是我國計算機(jī)輔助辭書編纂領(lǐng)域今后要努力的方向。

(6)指向“詞典檢測”和“質(zhì)量保障”模塊的計算機(jī)輔助詞典編纂系統(tǒng)比較少。詞典的編纂不是朝夕之功，必須反復(fù)檢測、修訂、改善，因此，從計算機(jī)輔助詞典編纂方面來看，是離不開一個成熟的檢測或保障系統(tǒng)的。

四、結(jié) 語

上述計算機(jī)輔助編纂系統(tǒng)的開發(fā)只是計算詞典學(xué)和語料庫詞典學(xué)發(fā)展的一個縮影，隨著信息技術(shù)的進(jìn)一步發(fā)展，將會有更多功能齊全、技術(shù)先進(jìn)的辭書編纂系統(tǒng)被開發(fā)出來，詞典編纂、出版過程將發(fā)生更加深刻的變化:第一，數(shù)據(jù)輸入方式更加便捷。利用計算機(jī)多媒體處理技術(shù)開發(fā)的語音輸入法、圖文識別技術(shù)等應(yīng)用到辭書編纂中去，能有效提高辭書編纂的效率、質(zhì)量。第二，出現(xiàn)商品化的辭書編寫專用軟件，辭書編纂的時效性得到保證。第三，信息高速公路帶來了便利，辭書編纂人員利用網(wǎng)絡(luò)與世界各地的同行進(jìn)行快速信息交流、學(xué)術(shù)研討、合作開發(fā)，辭書的科學(xué)性、實用性增強(qiáng)。

但是，計算機(jī)輔助詞典編纂系統(tǒng)應(yīng)該只是我們暫時的目的或任務(wù)，最后的目標(biāo)是要達(dá)到完全的自動化，排除過多的人工因素，實現(xiàn)詞典的自動生成。如下圖:

從這個目標(biāo)上說，目前能初步具備這個功能的為數(shù)極少，其中的代表就是廣東外語外貿(mào)大學(xué)的“基于語料庫的WEB詞典編纂及自動生成系統(tǒng)”和“基于網(wǎng)絡(luò)的詞典輔助編纂及生成系統(tǒng)”等，其他的系統(tǒng)主要多是輔助人工進(jìn)行語料的建設(shè)、檢索、篩選、排序，例句的提取，以及詞典的檢測、排版、修訂等。

總之，我國的計算機(jī)輔助詞典編纂系統(tǒng)呈現(xiàn)出了欣欣向榮的蓬勃局面，但如要實現(xiàn)真正的詞典編纂和生成的自動化，還需要各個系統(tǒng)互相借鑒、通力合作，更需要轉(zhuǎn)變發(fā)展的思維和方式，積極進(jìn)行理論創(chuàng)新和技術(shù)革新，力爭從語料庫詞典學(xué)領(lǐng)域慢慢轉(zhuǎn)型到計算詞典學(xué)，實現(xiàn)兩個領(lǐng)域的優(yōu)勢互補(bǔ)，這樣，真正的計算機(jī)自動詞典編纂系統(tǒng)才能得到開發(fā)與應(yīng)用。

1．常寶寶．基于語料庫的雙語詞典編纂平臺的構(gòu)建．辭書研究，2006(5)．

2．樂嘉民．辭書質(zhì)量技術(shù)保障系統(tǒng)的研發(fā)與應(yīng)用．中國編輯，2007(1)．

3．劉輝等．基于語料庫的WEB詞典編纂及自動生成系統(tǒng)設(shè)計與實現(xiàn)．沈陽師范大學(xué)學(xué)報，2006(3)．

4．陸汝占．漢語辭書編纂一體化環(huán)境(上)、(下)．辭書研究，2001(2)、(3)．

5．王惠，李康年．大型詞典編纂的計算機(jī)輔助開發(fā)與管理系統(tǒng)．辭書研究，2004(2)．

6．張紹麒．辭書與數(shù)字化研究．上海:上海辭書出版社，2005．

7．章宜華．關(guān)于計算詞典學(xué)理論框架的探討．辭書研究，2007(6)．

8．鄭恩培，陸汝占．漢語詞典編纂計算機(jī)化的若干問題．語言文字應(yīng)用，1999(2)．