林竹鳴,朱翠萍
(1.中國出版雜志社 編輯部,100122;2.北京師范大學 文學院,北京 100875)
古籍數字化最早是從美國開始的,以20世紀70年代末的OCLC(Online Computer Library Center,聯機計算機圖書館中心)和RLIN(Research Libraries Information Network,學術研究圖書館信息網絡)為標志,先后推出了《朱熹大學章句索引》《王陽明傳習錄索引》《戴震原善索引》等數據庫[1]25。
80年代以后,中國的臺灣、香港和大陸才相繼開始了中文古籍數字化項目,例如:1989年,臺灣中研院提出了“數字典藏計劃”;香港中文大學中國文化研究所成立了“古文獻數據庫中心”(CHANT Center);90年代,中國國家圖書館制訂了包含碑砧菁華、西夏碎金、敦煌遺珍、數字方志、甲骨文、永樂大典在內的一個龐大的古籍特藏文獻數字化計劃。
但“古籍數字化”的概念直到21世紀才被明確提出。這一時期,網絡信息技術得到了突飛猛進地發(fā)展,古籍文獻庫建設獲也取得了前所未有的機遇。于是,大型、綜合性數據庫便應運而生,例如:北京愛如生數字化技術研究中心研制了“中國基本古籍庫”“中國方志庫”等;北京時代瀚堂科技有限公司推出了“龍語瀚堂典籍數據庫”;北京國學時代文化傳播股份有限公司研發(fā)了“國學寶典”;北京書同文數字化技術有限公司在與香港迪志文化出版有限公司合作研發(fā)了《文淵閣四庫全書》之后,又獨立開發(fā)了《四部叢刊》全文檢索版。這些大型數據庫的出現,標志著大數據模式已經進入到了古籍整理領域。
“長期以來,各古籍收藏單位多是根據自身業(yè)務需要,規(guī)劃并開展館藏數字化工作,基本處于一種缺乏宏觀管理和調控的狀態(tài),極易造成資源的重復建設?!盵2]109例如:文淵閣《四庫全書》就有三種電子版[3]107:
表格1文淵閣《四庫全書》電子化版本展示
《二十五史》的數字版本竟達到了七種之多,見下表[3]99,111,135:
表格2《二十五史》電子化版本展示
在沒有特殊價值和制作特色的情況下,重復制作近似度較大的數據,無疑會造成人力、物力、財力的極大浪費。
“古籍在不同時期的流通過程中往往刻有多種本子”[4]31,不同版本之間,存在著字體、版式、印紙、墨色、刀法、裝幀等方面的差異,記錄保存諸多版本之間的差異也是數據庫的重要價值之一。但是很多古籍數據庫在研發(fā)的過程中對古籍版本的鑒別意識不強,再加上“古籍版本搜求的不易”[4]31,導致大家采取了版本回避的策略,甚者在沒有注釋說明或者體例說明的情況下,將不同版本的處理策略雜糅到一個庫中,這樣一來,古籍數據庫在保真性方面,自然不夠到位。
盡管有些制作單位注意區(qū)分了版本,例如:書同文公司和愛如生公司都開發(fā)了“清代實錄”數據庫,其區(qū)別在于:書同文公司采用的是中國第一歷史檔案館的底本,愛如生公司采用的是臺灣的版本。但是,由于這些數據庫沒有明確標示數據的版本來源,也沒有列出不同版本的差異之處,無形之中會削弱數據的公信力。
1.字符集偏小。由于古籍文獻年代久遠,所使用的文字是與現代標準漢字不同的繁體字,同時含有大量的異體字、罕用字。一旦字庫依據的字符集所收之字不夠全,古籍中很多字就無法正常顯示。例如:我國的“中國大百科全書網絡版”數據庫所依托的字符集是GB2312-80,該字符集僅含6,763個漢字。我們在利用該數據庫進行資源檢索時,就會發(fā)現許多字無法顯示,導致想要的信息也無法完整獲取。例如我們在該數據庫中查詢“
圖1 網絡版《中國大百科全書》檢索情況演示
再點擊“檢索”,結果為“0”,如圖2:
圖2 網絡版《中國大百科全書》檢索情況演示
2.字符集不統(tǒng)一。標準化一直是困擾古籍數字化的一個問題,這主要是因為古籍文獻中的文字相當繁雜,不僅有篆、隸、楷、行、草等寫法的不同,更有繁、簡、俗、異、古等書體之異,甚至還有不同國家和地區(qū)在字形選取方面的差異。因為我國大陸多用GB18030-2005,臺灣地區(qū)多用BIG5碼,香港地區(qū)用的是HKSCS-2004,日本用JISXO213-2004。如果不同國家或地區(qū)使用不同的字符集,那么,在一個地區(qū)可以顯示的內容,到了另一個地區(qū)便成為亂碼,結果便是資源無法共享。即使像文淵閣《四庫全書》那樣改用最新的國際標準編碼Unicode統(tǒng)一編碼字符集,并且還單獨定義了11000個在《四庫全書》(小學類)中使用的特殊漢字,也還會遇到不能正常顯示的情況,最后,不得不以圖片格式代替。下圖圓圈中的字就是只能以圖片格式呈現的漢字:
圖3 《文淵閣四庫全書電子版》顯示情況演示
檢索的準確性是衡量檢索程序性能的一個重要標準,但大多數的檢索程序的準確性難以令人滿意。比如在文淵閣《四庫全書》中檢索含有“籑”字的資料時,顯示結果卻是含有“撰”字的內容,如下圖:
圖4 《文淵閣四庫全書電子版》檢索情況演示
顯然查詢結果失真了。如果使用者不仔細,則會以訛傳訛,將“撰”當成了“籑”。
就目前來講,古籍數字化建設的規(guī)模和速度已經相當可觀了,但是,數字化古籍資料的使用卻令人堪憂,我們以古籍資料使用比較集中的高校圖書館為例來說明情況:經統(tǒng)計,大陸47所在古籍研究方面有專長的重點大學的圖書館,購買使用的古籍庫有61個,獲購量最多的是《中國基本古籍庫》,有25家;其次是《大成老舊刊全文數據庫》,有21家;再次是《文淵閣四庫全書電子版》,有13家。另外幾個獲購量大的數據庫是《中國歷代石刻史料匯編》、《四部叢刊》和《翰堂典藏古籍庫》等。其他的數據庫只有為數不多的幾家,甚至只有一家在使用。這說明古籍資源庫在高校圖書館并沒有大規(guī)模使用,即使某些高校圖書館購買了古籍數據庫,在使用這些數據資源的時候,一般也僅限于普通檢索,很少深層挖掘這些數據資源背后的價值,更沒有數據深加工的需求和能力。如果沒有需求刺激,僅靠政府資助,古籍數據庫制作的經費就不充足,更新的周期自然也會延緩。
針對上述古籍數字化工作中存在的問題,為了更好地開展該項工作,我們應該努力從以下幾個方面著手:
數字化是古籍保存、整理和利用的未來發(fā)展方向,也是數字圖書館建設的重要組成部分。我們應該通過統(tǒng)籌規(guī)劃,共同建設,使所有的古籍數字化成果在最大范圍內提供服務和利用,成果使用者再在先期基礎上做進一步加工處理,從而避免重復已有的工作。統(tǒng)籌協(xié)調的工作,可以委派國家古籍保護中心統(tǒng)一執(zhí)行,根據現有的情況和條件,編制符合實際需求的數字化工作手冊,進而再擬定目錄、培訓人員、加工制作。
同時也要避免“狹義共享”。目前來看,很多數字資源被限定在共建單位之間“共享”,受眾面很窄。耗費了很多人力、物力開發(fā)出來的資源,因為受眾范圍太小,不能夠充分利用,而社會上一些相關單位,想利用這些資源,卻又沒有使用權限。甚至有些資源開發(fā)出來之后,只是作為一個階段性展示成果,而沒有后續(xù)的使用或更新,對于這類成果,我們姑且稱其為“僵尸”成果,這類成果一般涉及的范圍很小,普及率較低,只要不是做相關課題研究的,基本用不到,所以,這類成果一旦展示完畢,就會被擱置在一個小角落里,塵封起來。
鑒于古籍數字化資源存在著資源分散、建置多元、數據多樣的特點,古籍數字化資源整合工作勢在必行。我們可以通過建立古籍數字資源導航系統(tǒng),為用戶提供一個相對集中的查詢平臺。各古籍整理單位可以通過付費的方式,向該平臺索取基礎資源,如果對其所獲得的基礎資源又做了深加工的工作,經過專家評審獲得一定的認可之后,再通過該平臺發(fā)布,并獲取相應的經濟回報。這樣,既可以避免重復工作所占用的成本,又能幫助大家獲得最全面、最新鮮的數據資源,從而推動古籍整理工作高效、低廉、有序地向前發(fā)展。
電子古籍不僅應實現傳統(tǒng)的特征檢索(題名、作者、關鍵詞),以還應實現正異、正訛、新舊、簡繁、中日、漢喃等不同形體漢字的關聯檢索,實現由一個字到字所在意義段、所屬分部的關聯檢索,實現帝王年號、干支紀年與公元紀年的在線換算功能,并能提供釋義、釋形、避諱等背景知識的檢索。另外,還應該開辟一個讀者批注功能,便于使用者在閱讀數據庫的時候,隨時糾正或補充不正確的內容,并能實時反饋回數據庫加工方。在經過嚴格考證之后,及時完善更新數據庫??傊?,數字化古籍應該是一個增值了的信息庫和有效的研究工作平臺,從某種意義上說,古籍數字化的價值不僅在于它能從浩如煙海的文獻中瞬間檢索資料的功能,更在于整理之后的相互解釋、相互支撐,形成知識鏈的結構功能價值,這才是古籍數字化的最高目標。
古籍數字化是未來古籍整理的必然趨勢,也是一項長期復雜的工程。只有各方力量相互配合,協(xié)調發(fā)展,才能建成一個資源共享、合作共贏的工作平臺。也只有這樣,才能從根本上改變古籍整理的方式,改變在傳統(tǒng)學科領域做研究的方法,從而借助現代科技手段,提高研究的效率和深度。
[1]李明杰,肖秋慧.中國古籍數字化資源調查與分析[J].圖書館雜志,2002(5):25-28.
[2]梁愛民,陳荔京.古籍數字化與共建共享[J].圖書館學刊,2012(5):108-112.
[3]毛建軍.古籍數字化理論與實踐[M].北京:航空工業(yè)出版社,2009.
[4]孫琴.國內古籍特色數據庫建設現狀分析[J].四川圖書館學報,2006(2):30-32.