梁琳
摘 要:文章闡述了古籍?dāng)?shù)字化的涵義、分類、發(fā)展現(xiàn)狀,介紹了古籍書目數(shù)據(jù)庫的建立,指出了古籍?dāng)?shù)字化工作的重要性和其面臨的問題。
關(guān)鍵詞:古籍?dāng)?shù)字化 發(fā)展 歷程 現(xiàn)狀 問題
中文古籍?dāng)?shù)字化起始于20世紀(jì)70年代末80年代初,至今已走過了30年的歷程。古籍?dāng)?shù)字化將中國最古老的文獻(xiàn)與世界最先進(jìn)的數(shù)字化技術(shù)完美地結(jié)合在一起,蘊(yùn)載著中華數(shù)千年之文明,彰顯著現(xiàn)代信息技術(shù)之優(yōu)勢,成為互聯(lián)網(wǎng)時(shí)代中華文化展現(xiàn)和傳播的一道亮麗風(fēng)景。
一、古籍的涵義
古籍是指辛亥革命(公元1911年)之前歷朝的寫本、刻本、稿本、活字本、石印本、鉛印本、拓本等等。辛亥革命以后影印的線裝古籍(如《四部備要》、《四部叢刊》)都屬于古籍。古籍可以分為普通古籍和善本古籍,善本古籍更為珍貴。
二、古籍?dāng)?shù)字化的理論
(一)古籍?dāng)?shù)字化的涵義
古籍?dāng)?shù)字化,是指利用現(xiàn)代信息技術(shù)對(duì)古籍文獻(xiàn)進(jìn)行加工處理,使其轉(zhuǎn)化為電子數(shù)據(jù)形式,通過光盤、網(wǎng)絡(luò)等一切虛擬介質(zhì)保存和傳播。數(shù)字化是古籍再生性保護(hù)的重要手段,代表著古籍整理的未來發(fā)展方向。
(二)古籍?dāng)?shù)字化的分類
我國古籍?dāng)?shù)字化經(jīng)歷了數(shù)據(jù)庫版、光盤版、網(wǎng)絡(luò)版三個(gè)建設(shè)階段。數(shù)據(jù)庫版古籍包括書目數(shù)據(jù)庫和全文數(shù)據(jù)庫兩種形式。光盤版古籍一般有圖像版、全文版和圖文版三種類型。網(wǎng)絡(luò)版古籍主要是將數(shù)字化的古籍資源在網(wǎng)絡(luò)上有償或無償發(fā)布,供互聯(lián)網(wǎng)用戶使用,這是目前古籍?dāng)?shù)字化的主要目標(biāo)。
古籍?dāng)?shù)字化是對(duì)古籍或古籍內(nèi)容的再現(xiàn)和加工,屬于古籍整理的范疇,是古籍整理的一部分。
三、古籍?dāng)?shù)字化的發(fā)展現(xiàn)狀
隨著數(shù)字圖書館的發(fā)展,網(wǎng)絡(luò)的普及,越來越多的讀者習(xí)慣于使用電子版的資料庫以及網(wǎng)絡(luò)上的信息資源。古籍的數(shù)字化最早是從計(jì)算機(jī)技術(shù)發(fā)達(dá)的美國開始的。我國古籍?dāng)?shù)字化始于20世紀(jì)80年代,但是研究和成果較少。直至進(jìn)入90年代以后,隨著我國計(jì)算機(jī)的普及網(wǎng)絡(luò)技術(shù)的介入,才有了古籍?dāng)?shù)字化的雛形。90年代中期以后,國家圖書館制訂了一個(gè)龐大的古籍特藏文獻(xiàn)數(shù)字化計(jì)劃,如碑砧菁華、西夏碎金、敦煌遺珍、數(shù)字方志、中華再造善本、永樂大典等。
古籍?dāng)?shù)字化是保護(hù)與傳承珍貴古籍的重要手段之一,通過拍照掃描等現(xiàn)代技術(shù)將古籍以數(shù)字方式加以再現(xiàn)。可以真實(shí)、清晰的反映出古籍原貌,并借助互聯(lián)網(wǎng)等媒介提供大眾使用。江蘇科學(xué)院的專家首次研制出的《紅樓夢》檢索系統(tǒng)翻開了我國古籍?dāng)?shù)字化的新一頁。國家古籍整理出版規(guī)劃領(lǐng)導(dǎo)小組制定了《中國古籍整理出版十年規(guī)劃和“八五”計(jì)劃》,其中確定的任務(wù)之一就是擴(kuò)大整理典籍輸入微機(jī)工作的試點(diǎn)工作,最好做出能夠發(fā)型的古籍電子版。20世紀(jì)末,文淵閣《四庫全書》電子版的出現(xiàn)標(biāo)志著我國古籍?dāng)?shù)字化進(jìn)入了一個(gè)新的階段。經(jīng)過幾十年的探索與開發(fā),古籍?dāng)?shù)字化的規(guī)模得以擴(kuò)展,最具代表性的有《四部叢刊》電子版、《康熙字典》電子版、《古籍圖書集成》電子版、《史記》全文檢索系統(tǒng)、文淵閣的《四庫全書》電子版等等不勝枚舉。
四、古籍書目數(shù)據(jù)庫建立
(一)古籍書目數(shù)據(jù)庫。我國最早建立古籍書目數(shù)據(jù)庫的有國家圖書館、遼寧圖書館、南京圖書館等。目前,擁有古籍館藏的機(jī)構(gòu)大部分都建立了古籍書目數(shù)據(jù)庫,提供古籍的收藏信息和版本情況。至少有幾十個(gè)公共圖書館網(wǎng)站能夠提供古籍書目檢索。如:南京圖書館的古籍書目數(shù)據(jù)庫,收錄范圍古籍線裝書,數(shù)據(jù)量有十幾萬條;大連圖書館的善本數(shù)據(jù)庫,數(shù)據(jù)量一千余條等;這些數(shù)據(jù)庫方便廣大讀者和研究學(xué)者對(duì)古籍典藏的應(yīng)用。
(二)古籍聯(lián)合目錄數(shù)據(jù)庫。聯(lián)合目錄(union catalogue)是指一種聯(lián)合兩所以上圖書館館藏目錄的數(shù)據(jù)庫。使用者從單一窗口網(wǎng)站來檢索國內(nèi)多所圖書館的館藏,其能提供給使用者知道哪個(gè)圖書館有收藏他所需要的館藏資訊。古籍館藏書目數(shù)據(jù)庫只反映了某一圖書館的古籍特藏情況,無法全面系統(tǒng)地反映某一地區(qū)的古籍收藏狀況。我國開始嘗試著建立古籍聯(lián)合目錄數(shù)據(jù)庫,解決古籍資源的共建共享問題。如:1989年東北三省近60家圖書館聯(lián)合編撰的《東北地區(qū)古籍線裝書聯(lián)合目錄》、1998年武漢華中理工大學(xué)出版社出版的《中南、西南地區(qū)省市圖書館館藏古籍稿本提要(附抄本聯(lián)合目錄)》、1985年中華書局出版的《中國地方志聯(lián)合目錄》,著錄中國各省、市、自治區(qū)的公共、科研單位、大專院校圖書館、博物館、歷史館、檔案館等190個(gè)單位所收藏的自南朝宋至1949年的方志8200余種。1994年四川大學(xué)出版的《四川省高校圖書館古籍善本聯(lián)合目錄》。
現(xiàn)代信息技術(shù)的發(fā)展為聯(lián)合編目的實(shí)現(xiàn)提供了強(qiáng)大的技術(shù)支持。我國及海外一些收藏機(jī)構(gòu)為此做出了積極的努力,開始了實(shí)現(xiàn)聯(lián)合編目的歷程。現(xiàn)主要的古籍聯(lián)合編目項(xiàng)目有:中國古籍善本書目聯(lián)合導(dǎo)航系統(tǒng)(http://202.96.31.45)、全國高等教育文獻(xiàn)保障系統(tǒng)(CALIS)的古籍聯(lián)合目錄數(shù)據(jù)庫(http://opac.calis.edu.cn/)等等。
(三)古籍全文數(shù)據(jù)庫。古籍全文數(shù)據(jù)庫指對(duì)古籍的全文進(jìn)行數(shù)字化處理,直接為用戶提供古籍的全文閱讀或全文檢索等服務(wù)。由于全文檢索的實(shí)現(xiàn),極大地提高了查全率。古籍全文檢索數(shù)據(jù)庫幾乎涉及中國古籍的各種類型,包括史書系列、編年體史書系列、文學(xué)古籍系列、宗教等各個(gè)方面。
1998年上海人民出版社與香港迪志文化出版有限公司以及書同文公司共同合作開發(fā)了文淵閣《四庫全書》電子版。北京大學(xué)劉俊文教授組織編纂的中國基本古籍庫光盤系統(tǒng),收集了上起先秦,下迄民國,共薈萃重要典籍1萬余種,每種典籍有一個(gè)通行版本的全文信息,另附1—2個(gè)珍貴版本的圖像資料,總計(jì)20億字,版本圖像2000萬頁。所收書籍涵蓋全部中國歷史與文化,其內(nèi)容總量相當(dāng)于3部《四庫全書》。截止 2004 年底,網(wǎng)上可見的中文古籍?dāng)?shù)據(jù)庫約70多個(gè)。北京大學(xué)主持的 CALIS 項(xiàng)目及南京大學(xué)圖書館 CANAL項(xiàng)目古籍子項(xiàng)目已取得階段性成果。endprint
五、古籍?dāng)?shù)字化工作
古籍?dāng)?shù)字化工作是一項(xiàng)系統(tǒng)化工程,技術(shù)含量較高,涉及多學(xué)科知識(shí)。古籍?dāng)?shù)字化主要應(yīng)用于古籍整理與學(xué)術(shù)研究、古籍保護(hù)與傳承等方面。古籍?dāng)?shù)字化的兩大關(guān)鍵要素是古籍和數(shù)字化。古籍是數(shù)字化的對(duì)象,是數(shù)字化工作的核心內(nèi)容,而數(shù)字化是技術(shù)手段,是古籍內(nèi)容的表現(xiàn)形式。在整個(gè)數(shù)字化過程中,古籍內(nèi)容專家負(fù)責(zé)古籍的遴選、鑒定與整理,完成古籍?dāng)?shù)字化版本鑒別和古籍內(nèi)容??薄S?jì)算機(jī)和數(shù)字化技術(shù)專家通過信息處理技術(shù),將古籍內(nèi)容付諸實(shí)踐,經(jīng)過內(nèi)容轉(zhuǎn)化,開發(fā)數(shù)字產(chǎn)品。因此,在古籍?dāng)?shù)字化工作中,古籍內(nèi)容專家和技術(shù)專家缺一不可,二者相互協(xié)調(diào)和配合,才能將古籍文獻(xiàn)通過數(shù)字形式展現(xiàn)出來。
古籍?dāng)?shù)字化的另一個(gè)重點(diǎn)工作是古籍?dāng)?shù)字化標(biāo)準(zhǔn)和規(guī)范。由于古籍文獻(xiàn)的復(fù)雜性,比如文獻(xiàn)版本的選擇,古籍的分類,古籍的用字等,數(shù)字化工作將用到統(tǒng)一的數(shù)字資源描述,數(shù)據(jù)格式編碼等一系列標(biāo)準(zhǔn)規(guī)范。數(shù)字化建設(shè)者應(yīng)立足于古籍保存、內(nèi)容服務(wù)的長遠(yuǎn)規(guī)劃,建設(shè)標(biāo)準(zhǔn)體系,有利于古籍?dāng)?shù)字化工作的可持續(xù)發(fā)展。從2008年開始,國家圖書館數(shù)字圖書館工程進(jìn)行研制符合現(xiàn)實(shí)要求又具備前瞻性的標(biāo)準(zhǔn)規(guī)范,包括字符編碼、古籍用字規(guī)范、生僻字與避諱字處理規(guī)范、專門元數(shù)據(jù)規(guī)范、對(duì)象數(shù)據(jù)加工標(biāo)準(zhǔn)、管理元數(shù)據(jù)規(guī)范、數(shù)字資源長期保存規(guī)范等20余個(gè)標(biāo)準(zhǔn)規(guī)范。標(biāo)準(zhǔn)規(guī)范項(xiàng)目的研制成果在實(shí)踐中有效地指導(dǎo)古籍?dāng)?shù)字資源的建設(shè)和應(yīng)用系統(tǒng)的研制開發(fā),進(jìn)一步提高古籍?dāng)?shù)字化建設(shè)水平,促進(jìn)古籍?dāng)?shù)字資源建設(shè)與服務(wù)的共建共享。
六、古籍?dāng)?shù)字化建設(shè)面臨的主要問題
古籍?dāng)?shù)字化工作從最初的摸索嘗試、零星制作到當(dāng)前的規(guī)模開發(fā),己經(jīng)取得令人矚目的成就,一批基礎(chǔ)性的古籍文獻(xiàn)被開發(fā)為真正意義上的數(shù)字化產(chǎn)品,并成功走向市場。雖然如今古籍?dāng)?shù)字化正欣欣向榮發(fā)展,但是發(fā)展中遇到的新問題也需要我們重視并加以解決。
我國的古籍?dāng)?shù)字化雖然取得了一定的成績,但問題仍然凸顯,還存在著一些問題有待解決,主要表現(xiàn)在:
(一)缺乏統(tǒng)一規(guī)劃,重復(fù)建設(shè)嚴(yán)重。古籍?dāng)?shù)字化尚處在發(fā)展的初級(jí)階段,我國古籍?dāng)?shù)量龐大,且分散收藏各地。從全國古籍?dāng)?shù)字化工作來看,基本處于一種缺乏宏觀管理和調(diào)控的狀態(tài)。出版界和圖書館界各方缺乏合作,從而造成古籍?dāng)?shù)字化產(chǎn)品的重復(fù)建設(shè)和質(zhì)量、內(nèi)容格式等方面的標(biāo)準(zhǔn)不統(tǒng)一。一些機(jī)構(gòu)會(huì)首選讀者需求量高、社會(huì)影響巨大、經(jīng)濟(jì)效益明顯的產(chǎn)品,造成了古籍?dāng)?shù)字化產(chǎn)品的雜亂無序、重復(fù)投入。如文淵閣《四庫全書》就先后有3家制作單位對(duì)其進(jìn)行過影像的數(shù)字化出版,電子版的《二十五史》也有不下4種。這造成資源的重復(fù)開發(fā),浪費(fèi)了巨大的人力、物力和財(cái)力。文淵閣《四庫全書》至少已有三家進(jìn)行過影像的數(shù)字化(上海人民出版社與迪志文化出版有限公司的光盤版,武漢大學(xué)出版社的光盤版,“中美百萬冊書數(shù)字圖書館”的網(wǎng)絡(luò)版等)。
(二)缺乏統(tǒng)一標(biāo)準(zhǔn),阻礙資源共享。由于信息技術(shù)的快速發(fā)展和商業(yè)機(jī)構(gòu)發(fā)展利益的需要,古籍?dāng)?shù)字化對(duì)象數(shù)據(jù)格式在選擇上也面臨繁多和復(fù)雜的局面,這其中有國際標(biāo)準(zhǔn)、事實(shí)標(biāo)準(zhǔn),也有商業(yè)標(biāo)準(zhǔn)。
古籍著錄大部分采用繁體字著錄,但也有采用簡體字著錄的。由于選擇字庫不同,使得數(shù)據(jù)的交換無法直接進(jìn)行,而只能通過專門的軟件作為中介,進(jìn)行格式和文字的統(tǒng)一。由于著錄標(biāo)準(zhǔn)上的差異,今后即便能將這些數(shù)據(jù)匯入統(tǒng)一的數(shù)據(jù)庫進(jìn)行檢索或跨庫檢索,也會(huì)給讀者的使用帶來諸多不便,導(dǎo)致無法真正實(shí)現(xiàn)國家乃至世界范圍內(nèi)的資源共享。
(三)缺乏經(jīng)費(fèi)支撐,區(qū)域發(fā)展不均。近年來包括國家圖書館、上海圖書館、北京大學(xué)圖書館、浙江大學(xué)CADAL管理中心等在內(nèi)的古籍收藏機(jī)構(gòu)已啟動(dòng)了一批古籍?dāng)?shù)字化工程項(xiàng)目,憑借資金、資源、人才上的優(yōu)勢,各自取得了十分顯著的成果。但大多數(shù)圖書館由于經(jīng)費(fèi)匱乏、技術(shù)力量薄弱,古籍?dāng)?shù)字化工作仍然比較落后,一般還停留在圖書掃描、部分普通書目數(shù)據(jù)庫建設(shè)等簡單數(shù)字化階段,還有一些公共圖書館這方面的工作至今尚未啟動(dòng)。
(四)無統(tǒng)一發(fā)布平臺(tái),不利用戶查詢。由于古籍?dāng)?shù)字化成果沒有統(tǒng)一的發(fā)布平臺(tái),各單位、各系統(tǒng)按照自己的規(guī)則發(fā)布,存在光盤版、網(wǎng)絡(luò)版、局域網(wǎng)發(fā)布等多種方式,其中局域網(wǎng)發(fā)布又占了很大比例,因此雖然已有大量古籍?dāng)?shù)字化產(chǎn)品,但讀者能夠看到的卻不多。從國家古籍保護(hù)中心對(duì)全國圖書館進(jìn)行的調(diào)研中發(fā)現(xiàn),古籍書目數(shù)據(jù)庫大部分對(duì)外開放,而絕大部分圖書館的全文影像數(shù)字化產(chǎn)品只提供在館閱覽,不提供互聯(lián)網(wǎng)服務(wù),用戶利用非常不便。
上述問題的存在,嚴(yán)重阻礙和制約了古籍?dāng)?shù)字化工作的深入開展。古籍?dāng)?shù)字化工作迫切需要統(tǒng)一規(guī)劃,統(tǒng)一標(biāo)準(zhǔn),合作共建,資源共享。五千年的存世古籍,肩負(fù)著厚重的中華文明,凝聚著民族智慧,是祖先留給我們的一筆龐大的精神遺產(chǎn),傳承文明是時(shí)代賦予我們每一個(gè)古籍工作者義不容辭的責(zé)任,古籍?dāng)?shù)字化任道重遠(yuǎn)。
參考文獻(xiàn):
[1]王桂平.我國古籍?dāng)?shù)字化的現(xiàn)狀及展望.圖書情報(bào)知識(shí),2000年第4期
[2]陳秉仁.古籍善本數(shù)字化的嘗試.現(xiàn)代圖書情報(bào)技術(shù),1998年第1期
[3]潘德利.中文古籍?dāng)?shù)字化進(jìn)程和展望. 圖書情報(bào)工作,2002年第7期
[4]錢律進(jìn).我國古籍?dāng)?shù)字化發(fā)展策略探析. 中國科技信息.2012年第9期
[5]葉莉.對(duì)古籍?dāng)?shù)字化進(jìn)程中若干問題的思考.圖書館界, 2010年4期
[6]單傳花.淺談古籍整理工作的意義及末來發(fā)展趨勢.佳木斯教育學(xué)院學(xué)報(bào).2012第12期
[7]王玲玲.利用計(jì)算機(jī)進(jìn)行古籍整理的方法分析.大眾文藝,2010年第5期
[8]梁斌. 關(guān)于古籍?dāng)?shù)字化建設(shè)的思考和建議. 重慶圖情研究. 2014年第3期endprint