孫琴
(蘇州大學,215123)
中美百萬冊書數字圖書館合作計劃(簡稱CADAL,China-America Digital Academic Library)是一個由國家投資,作為公共服務體系一部分的數字圖書館項目。從2002年開始到現在,CADAL取得了重大成就,特別是古籍、民國期刊、民國圖書數據庫的建設,其模式、質量與影響,堪為國內特色數據庫建設的模范。
CADAL的檢索功能有:快速檢索、高級檢索、圖像檢索、視頻檢索、書法字檢索。分類檢索有:古籍、民國期刊、民國圖書、現代圖書、學位論文、繪畫、視頻、英文。檢索字段有書名、作者、關鍵字、描述,可以全文瀏覽,全文檢索,逐頁保存與打印,但因為古籍與民國書刊的界定困難,有些詳細信息中沒有書刊的出版年介紹。古籍、民國書刊等珍貴文獻的數字化,極大地方便了讀者的閱讀,有利于數字資源的長期保存與進一步開發(fā)利用。其數據的開發(fā)與利用模式,值得國內古籍與民國文獻特色數據庫學習與借鑒。如南京大學民國史研究中心的陳蘊茜副教授最近要找一本貴陽文通書局1947年出版的《甘肅夏河藏民調查》,她打開CADAL網站,幾秒鐘就找到了。如果在幾年前,她必須去一趟北京的國家圖書館才能借到這本書。[2]
CADAL項目從開始即建立自己的網站(http://www.cadal.cn/),詳細公布了該數據庫的項目背景、項目動態(tài)、技術規(guī)范、機構組織、合作伙伴、資金來源、版權公告等,用戶隨時可以動態(tài)地從各方面來了解該數據庫的進展。網站提供具體項目的具體負責人、聯系地址、電話與Email等聯系方式,有利于用戶了解該項目,監(jiān)督該項目,以及提供相關信息與建議,這是非常值得借鑒。目前,國內很多特色數據庫的建設只在小范圍內進行論證,或者為了申請某個課題而臨時上馬,之后便進行閉門造車。整個數據庫的建設過程外人根本無從了解,更談不上建議與監(jiān)督。
目前,國內古籍數據庫還沒有統(tǒng)一的規(guī)范與標準,各古籍與民國文獻特色數據庫在建設過程中無章可循,從而導致古籍與民國文獻特色數據庫近來雖發(fā)展蓬勃,但又良莠不齊。為了保障數據庫的質量,CADAL項目開始就明確提出,擬數字化古籍選目的著錄要求原則上應與《CALIS古籍聯機合作編目規(guī)則》保持一致,但考慮到CALIS項目的進度不能滿足本項目的實際需要,又參照《CALIS古籍聯機合作編目規(guī)則》中基本級次著錄的要求,制訂了《CADAL項目擬數字化古籍選目著錄格式》,從《著錄要求》、《著錄內容》來規(guī)范古籍數據庫的建設。這樣,各成員館在參建過程中,就有章可依,嚴格按照要求數字化,從而有效避免低質建設。
隨著CADAL項目成員館的不斷增加,為了在古籍與民國文獻資源數字化中盡量避免重復交叉,南京大學圖書館作為CADAL項目管理中心古籍子項目的牽頭單位,特別制定了《關于CADAL項目古籍選目協調工作的原則》,從《古籍數字化工作各階段的基本要求》、《古籍選目范圍》、《古籍選目查重、申報和著錄要求》來協調古籍數據庫的建設,并適時更新《擬數字化書目查重》,各參建單位在數字化前必須先在網上查重,這在很大程度上避免了無意義的重復建設。
近年來,國內特色數據庫的建設蓬勃發(fā)展,大小圖書館都開始圍繞自身的資源進行特色數據庫建設,但很多圖書館并沒有明確目標,如數據庫的規(guī)模,所依托的技術平臺??陀^而言,很多圖書館只是想把自己的部分資源數字化,如首都圖書館的《古籍插圖庫》,其實只是從首圖館藏古籍文獻中揀選制作,包括人物、小說、戲曲、軍事、宗教(佛教、道教)、動物、植物、風景、建筑、歷史故事等許多類,但每一類數量很少。而且首都圖書館的古籍館藏在國內并不豐富,該庫也未能利用地理優(yōu)勢,對國家圖書館、北京大學圖書館等周圍大型圖書館的古籍資源加以利用,只是局限于本館館藏資源。這種類型的古籍特色數據庫在中小型圖書館中很有代表性,很多圖書館為了躋身于數字化行列,擴大本館在數字化建設中的影響,根本不進行可行性論證,只是利用本館的人力把本館的部分資源加以數字化,并建設成特色數據庫。就數據庫的質量與投入的人力、物力、財力而言,這些數據庫并不成功。
CADAL 采用開放式電子書標準,采用600dpi分辨率進行掃描,有別于目前國內電子書大都需要專用閱讀器和低顯示精度的狀況,將大大方便讀者的閱讀,有利于數字資源的長期保存與進一步開發(fā)利用。但這在古籍、民國書刊以及珍貴文物數字化過程中難以實現,如古籍多以線裝裝訂,紙張脆,不能用力按壓書籍進行掃描。即使如此,還是難以保證掃描質量,并會嚴重損壞古書的原貌。所以,為了實現這一標準,CADAL成員館在掃描錄入時,需先把書進行分拆,一頁一頁平鋪掃描,再由古籍修復專家穿線修補復原,但很多書已經非常脆弱,尤其是民國書刊,已發(fā)黃、發(fā)脆、變酸,并且民國書刊多采用雙面印刷和機械裝訂,傳統(tǒng)的古籍修復技術無法適用。這不可避免地在某種程度上對古籍與民國書刊以及珍貴文物造成了損壞。在掃描過程中,掃描儀的光源、熱源會對文獻的紙張、文字、裝幀產生影響,尤其是掃描時拆開書刊,必然會破壞到文物的品相,拆分掃描后,有時難以恢復原樣。那么,究竟是文獻的原生性重要還是文獻的內容重要,這一直在圖書館學術界爭論不休。有些大館為了維持文獻的原生性,拒絕數字化過程中的破壞,拒絕傳統(tǒng)的翻閱,在某種程度上使這些文獻的價值難以實現,變相地造成了一本書的“死去”。而數字化雖對其品相有一定的損壞,但可以更方便讀者利用,可實現這些文獻的最大價值,讓每一本書都“活起來”。隨著電子文獻的開放,可以原則上不再對公眾開放紙本文獻,從而減少翻閱,長久地保存在恒溫恒濕的書庫中,這是否可以理解為一種真正意義上的保護。
根據《著作權法》和《信息網絡傳播權保護條例》,CADAL中尚處于版權保護期的現代圖書和學位論文,因授權范圍的限制,目前只能限制在館藏單位圖書館和授權用戶使用。無版權的古籍資源,免費向公眾開放;民國書刊向項目參建單位和合作單位圖書館局域網開放服務。對于作者或出版社提出有版權爭議的圖書資料,及時從網站撤出。目前,各大圖書館為了加強對古籍與民國文獻的保護,限制讀者復印、拍照,有些珍貴文獻甚至有條件閱覽,這對讀者從事學術科研極為不便。有些圖書館雖已經對古籍與民國文獻數字化或做成縮微膠卷,但收費不菲,并多有用戶限制,如只對本校師生開放。在國內的特色數據庫建設中,公共圖書館的建設資源多能免費共享,如國家圖書館的《民國期刊》數據庫,但高校圖書館的特色資源基本上只對本校師生開放,校外讀者無權共享這些數字化特色資源。這實際上是“奇貨自居”在數字化上的一種反映。所以,很多圖書館絲毫不考慮自身的技術、人力、物力、財力的限制,不進行可行性論證,只是依賴本館一些獨特的、有研究價值的文獻資源和一些特色收藏進行數字化建設,常常導致無疾而終、有始無終或有名無實?,F在,特色數據庫建設已成為國內圖書館數字化進程中不可或缺的內容,很多圖書館擁有一些自建的特色數據庫,并且在版權保護等因素下,近來已逐漸向古籍與民國文獻資源數字化擴展,但并沒有充分考慮這部分資源的特殊性、重要性與敏感性,從而造就了古籍與民國文獻資源特色數據庫表面上的熱鬧非凡與嚴重的低質量重復建設。
誠然,CADAL項目中的古籍與民國文獻數據庫不是其他普通特色數據庫所能比擬的,它資金充足,技術先進,資源豐富。但是,CADAL建設過程中在對數據庫質量的嚴格把關,各參建單位的協作精神,古籍與民國文獻選目與著錄時的嚴格要求等,值得各古籍與民國文獻特色數據庫建設時加以借鑒。
目前,各大圖書館都熱衷于依靠自身資源自建特色數據庫,他們難以相互合作,更不可能與專業(yè)數據庫公司共建。很多單位認為對館藏特色資源的數字化建設可以提高本館在圖書館界中的影響,并且為了限制館藏資源的外流而迫使讀者回歸。但又常囿于技術支持與各方面因素,數據庫建設質量難以保障,而且,很多建設單位不愿共享自己的建設成果。另一方面,專業(yè)數據庫公司亦難以找到合適的合作單位,如一些館藏單位對高額的版權支付費的索取,加大了專業(yè)文獻數據庫的建設成本。如《中國基本古籍庫》,因為建設過程中高昂的版權費等因素,使得國內很多學術機構望洋興嘆,從而使如此高質量的古籍特色數據庫難以普及。近來,我國參加CADAL項目的高校從原來的16家擴增到近40家,截止到2008年1月27日,該數據庫中已數字化古籍190405冊、民國圖書114202冊、民國期刊6578冊、繪畫3427件,有效地滿足了用戶對古籍與民國文獻資源的需求。
[1]肖 卓.CADAL項目與古籍整理[J].圖書與情報,2005,(4):82-84.
[2]且 休.世界最大公益數字圖書館館藏突破150萬冊[N].浙江日報,2007-11-28.
[3]關于CADAL項目古籍選目協調工作的原則[EB/OL].http://www.cadal.cn/.2009-11-20
[4]高等學校中英文圖書數字化國際合作項目[EB/OL].http://www.cadal.cn/.2009-11-20.