左丹
【摘 要】 本文在區(qū)分古典文獻(xiàn)與古籍概念的基礎(chǔ)上,闡述了我國(guó)古典文獻(xiàn)數(shù)字化的理論研究和實(shí)踐探索。分析了古典文獻(xiàn)數(shù)字化存在的問題,有針對(duì)性的提出對(duì)策:各機(jī)構(gòu)應(yīng)堅(jiān)持高質(zhì)量、獨(dú)特性、效用型、多樣性等選題原則;在技術(shù)實(shí)現(xiàn)過程中,要對(duì)文獻(xiàn)內(nèi)容進(jìn)行深度挖掘;建立統(tǒng)一的標(biāo)準(zhǔn)規(guī)范體系;法律、技術(shù)、意識(shí)三方面做好知識(shí)產(chǎn)權(quán)保護(hù);培養(yǎng)復(fù)合型人才;加強(qiáng)機(jī)構(gòu)間合作。
【關(guān)鍵詞】 古典文獻(xiàn);數(shù)字化;古籍
計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)改變了人們認(rèn)識(shí)感知世界的方式,為傳統(tǒng)行業(yè)帶來(lái)了方法革新。文字識(shí)別、全文檢索、數(shù)據(jù)庫(kù)等技術(shù)則為古典文獻(xiàn)數(shù)字化提供了技術(shù)條件,使得古典文獻(xiàn)保護(hù)和國(guó)學(xué)研究煥發(fā)新的生機(jī)與活力。
一、引言
1、古典文獻(xiàn)與古籍
古典文獻(xiàn)與古籍是兩個(gè)極為類似但實(shí)質(zhì)有所區(qū)別的概念,應(yīng)對(duì)此加以區(qū)分。
古典文獻(xiàn),即加以歷史限定的文獻(xiàn)?!段墨I(xiàn)著錄總則》把文獻(xiàn)定義為“記錄有知識(shí)的一切載體”,吳楓先生將古典文獻(xiàn)定義為“五四運(yùn)動(dòng)前雕版、活字版和手抄的古籍文獻(xiàn),同時(shí)包括文書、卷冊(cè)、碑銘、拓本等”。[1]在《現(xiàn)代漢語(yǔ)大詞典》中,古籍指“古代典籍。泛指古書”,文獻(xiàn)指“有歷史價(jià)值或參考價(jià)值的圖書資料”。由此可見,古籍專指古書,文獻(xiàn)指一切資料,古籍是文獻(xiàn)的組成部分。
古典文獻(xiàn)與古籍的區(qū)別體現(xiàn)在載體形態(tài)與內(nèi)容性質(zhì)上。[2]從載體形態(tài)來(lái)說(shuō),文獻(xiàn)從甲骨、金石、簡(jiǎn)牘、縑帛到紙張,形態(tài)多樣,而古籍的載體多為紙張;從內(nèi)容性質(zhì)來(lái)說(shuō),甲骨卜辭、金石刻文都是重要的歷史文獻(xiàn),這與多為冊(cè)籍的古籍不同,同時(shí),信札、契約、家譜等也不屬于古籍的范疇。
由此應(yīng)明確,古典文獻(xiàn)的內(nèi)涵大于古籍,古典文獻(xiàn)數(shù)字化應(yīng)在古籍?dāng)?shù)字化的范圍上加以拓展。
2、古典文獻(xiàn)數(shù)字化
當(dāng)前,對(duì)于古籍?dāng)?shù)字化的概念界定已達(dá)成共識(shí),是指以利用和保護(hù)古籍為目的,采用計(jì)算機(jī)技術(shù)將文字或圖形轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的數(shù)字符號(hào),從而制成古籍文獻(xiàn)數(shù)據(jù)庫(kù)的一項(xiàng)系統(tǒng)工作。[3]由此可將古典文獻(xiàn)數(shù)字化定義為:利用計(jì)算機(jī)技術(shù)對(duì)各種載體形態(tài)、內(nèi)容類型的古典文獻(xiàn)進(jìn)行處理,將其轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的數(shù)字符號(hào)并加以描述組織,最終形成數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)等形式的數(shù)字產(chǎn)品,通過光盤、網(wǎng)絡(luò)等介質(zhì)進(jìn)行保存?zhèn)鞑?,并提供瀏覽、檢索、下載等服務(wù)的過程。
中文古典文獻(xiàn)是中華文明的燦爛成果,古典文獻(xiàn)數(shù)字化是現(xiàn)代技術(shù)發(fā)展背景下的必然趨勢(shì),更是古典文獻(xiàn)形制演變的必然。[4]其在資源共享與利用,國(guó)學(xué)研究,文化保存、交流與傳播等方面有重要意義。
二、古典文獻(xiàn)數(shù)字化的現(xiàn)狀
1988年,曹書杰在其文章中首次以論文形式探討了將計(jì)算機(jī)應(yīng)用到古籍整理的可能性與有效性。[5]自此,我國(guó)學(xué)者開始了古典文獻(xiàn)數(shù)字化的理論研究與實(shí)踐探索,并取得了進(jìn)展。
1、古典文獻(xiàn)數(shù)字化理論研究
理論研究包含基礎(chǔ)理論、數(shù)字化技術(shù)、回顧與綜述、應(yīng)用研究四個(gè)主題方向。
在基礎(chǔ)理論方面,1999年,史睿在其文章中指出“古籍?dāng)?shù)字化的理論問題比技術(shù)問題更重要”,[6]由此,越來(lái)越多的學(xué)者開始關(guān)注理論問題研究,如毛建軍在總結(jié)彭江岸等的研究基礎(chǔ)上,[7]重新界定了古籍?dāng)?shù)字化的概念,并對(duì)古籍?dāng)?shù)字化的性質(zhì)、要素、目的和原則進(jìn)行闡釋。顧夢(mèng)婷則論述了古典文獻(xiàn)數(shù)字化的意義,[8]指出其有利于推動(dòng)文獻(xiàn)信息的共享和利用,有利于古典文獻(xiàn)的使用和保存,有利于古典文獻(xiàn)的??薄⒐{注等。
也有學(xué)者對(duì)數(shù)字化過程中涉及的關(guān)鍵技術(shù)展開研究,包括漢字識(shí)別、元數(shù)據(jù)、本體、GIS技術(shù)等。如李璐結(jié)合《四庫(kù)全書》電子版的開發(fā)過程,[9]分析了圖文結(jié)合方式建立古籍全文數(shù)據(jù)庫(kù)的系統(tǒng)流程與原理;吳茗通過案例分析總結(jié)了在古籍?dāng)?shù)字化過程中引入GIS的技術(shù)實(shí)現(xiàn)路徑;[10]張軍亮等設(shè)計(jì)應(yīng)用二值圖像水印技術(shù)實(shí)現(xiàn)古籍?dāng)?shù)字化圖像版權(quán)保護(hù)的實(shí)現(xiàn)方案,[11]并通過實(shí)驗(yàn)證明該方法的有效性;肖懷志等以《三國(guó)志》歷史年代知識(shí)元的抽取、存儲(chǔ)和表示為例,將語(yǔ)義網(wǎng)技術(shù)應(yīng)用到古典文獻(xiàn)數(shù)字化之中。[12]
一些學(xué)者梳理了我國(guó)古典文獻(xiàn)數(shù)字化的研究成果,包括理論綜述和實(shí)踐總結(jié)。如徐清對(duì)2001-2005年間的研究成果進(jìn)行回顧,[13]將這一時(shí)期的研究分為基礎(chǔ)理論研究、現(xiàn)有數(shù)字資源、數(shù)字化資源的選擇等七個(gè)方面;楊朝霞介紹了香港、臺(tái)灣、大陸三地的數(shù)字資源成果;[14]毛建軍則從漢字字符集、系統(tǒng)功能、古籍元數(shù)據(jù)、理論基礎(chǔ)四方面進(jìn)行了回顧與思考。[15]
應(yīng)用研究是指對(duì)古典文獻(xiàn)數(shù)字化應(yīng)用過程中產(chǎn)生的問題進(jìn)行研究,包括文獻(xiàn)選題、知識(shí)產(chǎn)權(quán)、標(biāo)準(zhǔn)體系、出版、保護(hù)等。胡德華、[16]沈洋、[17]李小平[18]等研究了醫(yī)藥古籍文獻(xiàn)數(shù)字化中的知識(shí)產(chǎn)權(quán)和標(biāo)準(zhǔn)體系構(gòu)建問題;張文亮等[19]利用實(shí)地走訪和網(wǎng)絡(luò)調(diào)查的方法,分析我國(guó)古籍?dāng)?shù)字化標(biāo)準(zhǔn)體系現(xiàn)狀,針對(duì)其存在的問題提出了優(yōu)化策略;[20]吳小君等[21]探討了大數(shù)據(jù)時(shí)代下數(shù)字化古典文獻(xiàn)出版的新趨勢(shì):數(shù)據(jù)化出版、交互式出版、構(gòu)建大數(shù)據(jù)出版平臺(tái),創(chuàng)新古典文獻(xiàn)出版產(chǎn)業(yè)鏈。
2、古典文獻(xiàn)數(shù)字化實(shí)踐探索
數(shù)據(jù)庫(kù)、多媒體等數(shù)字技術(shù)的發(fā)展為古典文獻(xiàn)數(shù)字化創(chuàng)造了條件與契機(jī),而中文字符集、漢字光學(xué)識(shí)別等具體問題的解決使得我國(guó)古典文獻(xiàn)數(shù)字化實(shí)踐正式拉開序幕。自20世紀(jì)80年代中期開始,我國(guó)開始嘗試古籍文獻(xiàn)數(shù)字化工作,至今已近40年,取得了極大的成果。
依據(jù)所應(yīng)用計(jì)算機(jī)技術(shù)的類型及數(shù)字化成品的形式,可將我國(guó)古典文獻(xiàn)數(shù)字化實(shí)踐分為三個(gè)發(fā)展階段:電子圖片瀏覽階段、全文檢索階段和古典文獻(xiàn)自動(dòng)標(biāo)引與整理階段。古典文獻(xiàn)數(shù)字化的成果以索引數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)兩種形式存在,多以光盤或網(wǎng)絡(luò)作為載體。其中頗具代表性的項(xiàng)目有:廣西大學(xué)《古今圖書集成》索引數(shù)據(jù)庫(kù)、《文淵閣四庫(kù)全書》電子版、《四部叢刊》電子版、上海圖書館古籍知識(shí)庫(kù)、華東師范大學(xué)數(shù)字方志項(xiàng)目、中華古籍善本國(guó)際聯(lián)合書目系統(tǒng)、國(guó)際敦煌項(xiàng)目等。
三、古典文獻(xiàn)數(shù)字化存在的問題
盡管我國(guó)古典文獻(xiàn)數(shù)字化研究與實(shí)踐已經(jīng)取得了多項(xiàng)成果,但仍存在一些問題,具體表現(xiàn)為:選題類型單一、數(shù)字化水平較低、標(biāo)準(zhǔn)規(guī)范不一、產(chǎn)權(quán)保護(hù)不足、專業(yè)人才缺失、機(jī)構(gòu)合作缺乏等。
選題類型單一主要表現(xiàn)在載體類型單一和選題大量重復(fù)兩方面。在理論研究上,我國(guó)學(xué)者多集中于“古籍?dāng)?shù)字化”研究,忽視了與冊(cè)籍形態(tài)古籍不同的甲骨卜辭、金石刻文等其他重要古典文獻(xiàn)。在實(shí)踐探索上,大都著眼于紙質(zhì)形態(tài)的著名古代文獻(xiàn),如《四庫(kù)全書》、《古今圖書集成》等。這不利于文獻(xiàn)保存與傳播的完整性、多樣性。近年隨著技術(shù)發(fā)展,特殊形態(tài)古典文獻(xiàn)數(shù)字化項(xiàng)目出現(xiàn),如國(guó)際敦煌項(xiàng)目在其網(wǎng)站上提供了數(shù)萬(wàn)冊(cè)件繪畫、藝術(shù)品、紡織品、歷史照片與地圖,[22]上海圖書館建立了家譜知識(shí)服務(wù)平臺(tái)等。但這類項(xiàng)目數(shù)量較少,還處于初步探索階段,需要進(jìn)一步的關(guān)注與實(shí)踐。此外,古典文獻(xiàn)數(shù)字化選題呈現(xiàn)追逐熱門現(xiàn)象,如數(shù)字化的《四庫(kù)全書》不少于4種,電子版的《二十五史》也有四種以上。[23]選題重復(fù)問題造成了資源浪費(fèi)和小眾文獻(xiàn)的流失。
數(shù)字化水平較低表現(xiàn)在數(shù)字化程度淺和準(zhǔn)確度低兩方面。我國(guó)的古典文獻(xiàn)數(shù)字化工作歷經(jīng)圖片掃描、漢字識(shí)別、標(biāo)題索引等發(fā)展階段,已基本實(shí)現(xiàn)全文檢索功能,但這仍處于淺層外部特征層面,未實(shí)現(xiàn)語(yǔ)義內(nèi)容層面的描述與組織,不利于古典文獻(xiàn)的深度挖掘和高效利用。此外,在文字轉(zhuǎn)換、檢索功能等方面,我們做的也并不完善,錯(cuò)字漏字、查準(zhǔn)率低等問題依舊存在。
在標(biāo)準(zhǔn)規(guī)范方面,盡管已有《古籍描述元數(shù)據(jù)著錄規(guī)范》等規(guī)范性文件出現(xiàn),但由于早期標(biāo)準(zhǔn)不一,古典文獻(xiàn)數(shù)字化工作在著錄規(guī)則、數(shù)據(jù)格式、文字編碼等方面存在諸多差異。從版權(quán)的角度來(lái)說(shuō),開發(fā)方為了保護(hù)版權(quán),避免經(jīng)濟(jì)損失,通常會(huì)開發(fā)自己的專有數(shù)據(jù)庫(kù)系統(tǒng),由此導(dǎo)致文件格式各異,不利于資源的共享、集成和交換。[24]
產(chǎn)權(quán)保護(hù)問題出現(xiàn)在數(shù)字化過程和用戶使用過程中,包括原古典文獻(xiàn)版權(quán)保護(hù)、自建數(shù)據(jù)庫(kù)使用權(quán)保護(hù)、惡意下載、非法傳播等。自古典文獻(xiàn)數(shù)字化建設(shè)始,產(chǎn)權(quán)糾紛就時(shí)有發(fā)生。產(chǎn)權(quán)保護(hù)不足一方面侵犯了他人利益,違反了法律規(guī)定,另一方面也不利于古典文獻(xiàn)數(shù)字化工作的進(jìn)行。
在專業(yè)人才缺失方面,古典文獻(xiàn)數(shù)字化是一項(xiàng)復(fù)雜的系統(tǒng)工程,要求參與者既擁有古典文獻(xiàn)知識(shí),又掌握計(jì)算機(jī)技術(shù)。二者在學(xué)科設(shè)置和知識(shí)內(nèi)容上差別甚大,專業(yè)人才的缺失會(huì)影響數(shù)字化工作的質(zhì)量與效率。
在機(jī)構(gòu)合作方面,各機(jī)構(gòu)或出于利益的訴求,或出于文獻(xiàn)的珍貴性,大都獨(dú)立開發(fā)或與技術(shù)公司合作,這不利于資源的共享共建。盡管已有中華古籍善本國(guó)際聯(lián)合書目、CALIS古籍聯(lián)機(jī)目錄等聯(lián)合系統(tǒng)出現(xiàn),但用戶在不擁有訪問權(quán)限的情況下難以使用全文數(shù)據(jù)。館際互借、文獻(xiàn)傳遞服務(wù)速度較慢,也無(wú)法及時(shí)滿足用戶需求。
四、古典文獻(xiàn)數(shù)字化的對(duì)策
針對(duì)現(xiàn)存的問題,提出對(duì)策如下:
1、各機(jī)構(gòu)應(yīng)堅(jiān)持高質(zhì)量、獨(dú)特性、效用型、多樣性等選題原則。不拘泥于古典文獻(xiàn)的載體形態(tài),不盲目追求熱度,選擇符合社會(huì)需求和學(xué)術(shù)研究需要的高質(zhì)量文獻(xiàn),并避免過度重復(fù)。同時(shí),國(guó)家應(yīng)立足全局,統(tǒng)籌規(guī)劃,使得全國(guó)古典文獻(xiàn)數(shù)字化工作朝著更加科學(xué)的方向發(fā)展。
2、在技術(shù)實(shí)現(xiàn)過程中,一方面要關(guān)注保存、瀏覽、下載、檢索等基礎(chǔ)功能的質(zhì)量,如完善和優(yōu)化檢索功能等;另一方面要對(duì)文獻(xiàn)內(nèi)容進(jìn)行深度挖掘,以展現(xiàn)文獻(xiàn)內(nèi)部的隱含知識(shí)信息,幫助用戶更好的理解和利用文獻(xiàn)。
3、建立統(tǒng)一的標(biāo)準(zhǔn)規(guī)范體系,包括選題標(biāo)準(zhǔn)、資源發(fā)布標(biāo)準(zhǔn)、資源生產(chǎn)標(biāo)準(zhǔn)、資源保存標(biāo)準(zhǔn)等。同時(shí)建立標(biāo)準(zhǔn)保障機(jī)制,確保標(biāo)準(zhǔn)規(guī)范的施行。[25]
4、在知識(shí)產(chǎn)權(quán)保護(hù)問題上,可以從法律、技術(shù)、意識(shí)三方面去努力。完善相關(guān)法律法規(guī),加強(qiáng)執(zhí)法力度;數(shù)字化過程中可采取訪問控制、數(shù)字水印等技術(shù)保護(hù)措施;通過宣傳、講座等途徑培養(yǎng)社會(huì)公眾的著作權(quán)保護(hù)意識(shí)等。
5、培養(yǎng)復(fù)合型人才,包括專業(yè)教育、專題培訓(xùn)等;此外還應(yīng)加強(qiáng)不同領(lǐng)域?qū)I(yè)人才的合作與交流,建立綜合性團(tuán)隊(duì)。
6、加強(qiáng)機(jī)構(gòu)間合作,建設(shè)全國(guó)統(tǒng)一合作平臺(tái),促進(jìn)古典文獻(xiàn)數(shù)字化資源的共建共享。
【參考文獻(xiàn)】
[1] 吳楓. 中國(guó)古典文獻(xiàn)學(xué)[M]. 中華書局, 2015.
[2] 許逸民. 古籍整理釋例[M]. 中華書局, 2011.
[3][7] 毛建軍. 古籍?dāng)?shù)字化的概念與內(nèi)涵[J]. 圖書館理論與實(shí)踐, 2007(4)82-84.
[4][8] 顧夢(mèng)婷. 中文古典文獻(xiàn)數(shù)字化的意義[J]. 青春歲月, 2015(8).
[5][15] 毛建軍. 古籍?dāng)?shù)字化研究的回顧與思考[J]. 國(guó)家圖書館學(xué)刊, 2007.16(3)62-65.
[6] 史睿. 論中國(guó)古籍的數(shù)字化與人文學(xué)術(shù)研究[J]. 國(guó)家圖書館學(xué)刊, 1999(2)28-35.
[9] 李璐. 古籍全文數(shù)據(jù)庫(kù)建設(shè)的技術(shù)與實(shí)踐[J]. 圖書館學(xué)研究, 2004(11)22-25.
[10] 吳茗. GIS技術(shù)在古籍?dāng)?shù)字化資源建設(shè)中的應(yīng)用[J]. 圖書館學(xué)刊, 2016.38(4)55-58.
[11] 張軍亮, 朱學(xué)芳. 基于二值圖像水印的古籍?dāng)?shù)字化圖像版權(quán)保護(hù)及其實(shí)現(xiàn)[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2010(9)79-83.
[12] 肖懷志, 李明杰. 基于本體的歷史年代知識(shí)元在古籍?dāng)?shù)字化中的應(yīng)用——以《三國(guó)志》歷史年代知識(shí)元的抽取、存儲(chǔ)和表示為例[J]. 圖書情報(bào)知識(shí), 2005(3)28-33.
[13] 徐清. 2001—2005年我國(guó)中文古籍?dāng)?shù)字化研究綜述[J]. 圖書情報(bào)工作, 2006.50(8)139-143.
[14] 楊朝霞. 古籍?dāng)?shù)字資源述略[J]. 大學(xué)圖書館學(xué)報(bào), 2000.18(3)15-19.
[16][20] 胡德華,朱啟貞.醫(yī)藥古籍文獻(xiàn)數(shù)字化問題及對(duì)策[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2017(01)1-6.
[17] 沈洋,胡德華,李小平,李黎,馬佳.醫(yī)藥古籍文獻(xiàn)數(shù)字化知識(shí)產(chǎn)權(quán)問題[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2017(01)7-10.
[18] 李小平,張憶雄,沈洋,宋曦玲.醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系的構(gòu)建[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2017(01)11-14.
[19] 張文亮, 尚奮宇. 我國(guó)古籍?dāng)?shù)字化標(biāo)準(zhǔn)體系現(xiàn)狀調(diào)查及優(yōu)化策略[J]. 國(guó)家圖書館學(xué)刊, 2015.24(6)83-89.
[21] 吳小君, 龔捷. 大數(shù)據(jù)時(shí)代古典文獻(xiàn)出版發(fā)展新趨勢(shì)[J]. 出版發(fā)行研究, 2013(9)76-79.
[22] 國(guó)際敦煌項(xiàng)目[EB/OL]. [2017-02-15]. http://idp.nlc.gov.cn/.
[23] 王立清. 略論我國(guó)古籍?dāng)?shù)字化的選題[J]. 圖書情報(bào)工作, 2005.49(3)62-64.
[24] 邵正坤. 古籍?dāng)?shù)字化的困局及應(yīng)對(duì)策略[J]. 圖書館學(xué)研究, 2014(12)32-34.
[25] 張文亮, 薄麗輝. 我國(guó)古籍?dāng)?shù)字化標(biāo)準(zhǔn)體系現(xiàn)狀及應(yīng)對(duì)策略研究[J]. 新世紀(jì)圖書館, 2016(2)38-42.
【作者簡(jiǎn)介】
左 丹,南京大學(xué)信息管理學(xué)院碩士在讀研究生.