劉志江
摘 要:隨著數(shù)字技術的發(fā)展、經驗的積累以及國家政策、資金的扶持,古籍數(shù)字化參與主體日益增多,古籍數(shù)字化不斷取得豐碩的成果,同時也出現(xiàn)了諸多問題。本文認為,為了促進古籍數(shù)字化工作健康有序開展,需要建立全國性的領導機構,建立統(tǒng)一的標準規(guī)范,培養(yǎng)更多的專業(yè)人才。
關鍵詞:古籍 數(shù)字化 標準規(guī)范 人才培養(yǎng)
所謂數(shù)字化,就是把文字符號轉化為數(shù)字符號,也就是把傳統(tǒng)的語言文字表達形式改變成計算機能識別的數(shù)字表達形式。而古籍數(shù)字化就是從利用和保護古籍的目的出發(fā),采用計算機技術、網絡信息技術、大數(shù)據技術等,將常見的語言文字或圖形符號轉化為能被計算機識別的數(shù)字符號,從而制成古籍數(shù)據庫,用以揭示古籍文獻信息資源的一項系統(tǒng)工作。隨著信息化時代的到來,具有存儲量大、檢索方便等優(yōu)點的古籍數(shù)據庫,必將迎來快速發(fā)展。
一、古籍數(shù)字化的現(xiàn)狀
古籍數(shù)字化,不僅是古籍再生性保護的核心方法,更是促進古籍利用的關鍵手段。我國的古籍數(shù)字化工作開始于20世紀80年代,經過幾十年的發(fā)展,逐步形成了以古籍存藏單位、高??蒲性核?、商業(yè)公司、出版機構為主的開發(fā)主體。在古籍數(shù)字化的過程中,這些主體由于建設目的、技術標準、人力物力投入等方面存在著一些差異,這也導致不同主體建設的古籍數(shù)字化資源各具特色。但從總體上來看,都有力地保護了古籍資源,數(shù)字化也取得豐碩成果。
(一)建設主體多元
近年來,隨著互聯(lián)網的普及以及黨和國家對中華優(yōu)秀傳統(tǒng)文化的重視,我國古籍數(shù)字化開發(fā)多點開花,取得了一系列成果,呈現(xiàn)出一派欣欣向榮的景象。如古籍存藏單位幾乎都開始了古籍數(shù)字化建設,特別是國家圖書館,開發(fā)了“中華古籍資源庫”“海外中華古籍書目數(shù)據庫”等重點古籍數(shù)據庫,僅“中華古籍資源庫”已在線發(fā)布古籍資源超過3.2萬部。高??蒲性核_發(fā)的古籍數(shù)據庫主要服務于教學和科研,數(shù)據庫具有智能性和探索性特色。如北京大學的“北大國學二十五史研習系統(tǒng)”、中南民族大學的“唐宋文學編年地圖”等。商業(yè)公司中規(guī)模較大、且有一定影響的有書同文數(shù)字化技術有限公司、愛如生數(shù)字技術有限公司等,他們主要根據市場需求進行開發(fā),如開發(fā)的中國基本古籍庫、國學寶典等。出版單位目前較為成熟的產品有中華書局的“中華經典古籍庫”、上海交通大學出版社“地方歷史文獻數(shù)據庫”、國家圖書館出版社的“中華再造善本數(shù)據庫”等。
(二)資源類型豐富
目前,古籍數(shù)字化產品類型十分豐富,從數(shù)據載體上看,不僅包括磁盤類文獻和硬盤類文獻,還開發(fā)出了網絡版、U盤版及便攜式閱讀器版等。從數(shù)據庫類型上看,主要包括古籍電子索引、古籍書目數(shù)據庫和古籍全文數(shù)據庫以及可供征引的點校本數(shù)據庫。據筆者粗略統(tǒng)計,近20年來,國內外利用計算機技術開發(fā)研制了近500種古籍數(shù)字化資源,其中包括80余種古籍電子索引,近148種古籍書目數(shù)據庫和近270種古籍全文數(shù)據庫。這些古籍數(shù)字化資源包含內容也十分龐大,如愛如生數(shù)字技術有限公司開發(fā)的古籍數(shù)字化產品,除中國基本古籍庫外還有中國方志庫、中國譜牒庫等20個全文檢索、圖文對照的大型數(shù)據庫等,分類詳細,為古籍整理和學術研究提供了重要的參考資料。
(三)功能日益完善
各類古籍數(shù)據庫不僅不斷擴充容量和種類,還積極完善各項使用功能。如提供高效精準的檢索方式,方便用戶快速查找資料;原古籍影像圖片及錄入文字可以左右對照;添加紀年換算、聯(lián)機字典、人名標引等小工具;提供經過??闭淼母哔|量古籍數(shù)字化內容,便于用戶進行標記引用;利用計算機技術進行經典比對,提高書稿編校質量。另外,有些古籍數(shù)據庫還具有出版的功能,通過平臺發(fā)布眾包的古籍整理任務,認證用戶經過一定的培訓后,可以在線領取任務,開展古籍整理工作,有利于充分利用社會上各類專業(yè)人才參與古籍整理出版事業(yè),促進大型古籍整理項目的出版。
(四)系統(tǒng)開放度高
學術界和圖書館界在古籍數(shù)字化的過程中起到了至關重要的作用,他們借助互聯(lián)網、大數(shù)據、云服務等高新技術,率先對館藏特色文獻和珍貴古籍進行數(shù)字化,實時在線公布,促進資源共享,提高利用效率。大部分圖書館建設的古籍數(shù)據庫通過互聯(lián)網完全對讀者開放,其余的數(shù)據庫只需讀者注冊該館會員或在該館IP范圍內就可以免費訪問。如國家圖書館的“中華古籍資源庫”、中國臺北“中研院”的“古漢籍善本數(shù)位化資料庫檢索系統(tǒng)”都可以通過互聯(lián)網直接進行訪問檢索,十分便捷。
二、現(xiàn)存的主要問題
經過幾十年的發(fā)展,我國的古籍數(shù)字化工作雖然取得了不少成績,但也存在不少問題,主要表現(xiàn)在以下幾個方面。
(一)工作缺乏統(tǒng)籌
長期以來,古籍存藏單位、高??蒲袡C構、企業(yè)根據自身發(fā)展需要,規(guī)劃開展了古籍數(shù)字化工作,但由于缺乏國家層面的宏觀管理和統(tǒng)籌,各部門各單位之間各自為政,缺乏交流與合作,熱點項目重復建設,冷門項目少有問津,不僅在資源共享和建設方面未能形成有效的合力,還造成了重復建設和建設盲區(qū)并存的問題。如《四庫全書》《二十四史》等,多家單位都通過自造字庫的形式對其進行數(shù)字化,而個別古籍存藏單位僅考慮自身利益,拒絕資源共享,致使一些珍貴的古籍還未實現(xiàn)數(shù)字化。同時,經過精細??钡?、可征引的古籍數(shù)據庫資源較少。長遠來看,只有在相關機構的統(tǒng)一規(guī)劃和協(xié)調下,發(fā)揮各方優(yōu)勢,古籍數(shù)字化工作才能更加高效、快速、健康地開展。另外,由于沒有統(tǒng)一規(guī)劃和指導,還缺乏統(tǒng)一的發(fā)布平臺,大部分單位開發(fā)的古籍數(shù)字化系統(tǒng)只在局域網發(fā)布,不方便讀者使用。
(二)標準尚不統(tǒng)一
由于開發(fā)主體多元,各單位在古籍元數(shù)據制作、古籍標引、古籍影像采集、古籍著錄、數(shù)據格式、檢索語言、傳輸方式等方面都存在差異。大家往往都是根據自身需要制定相應的數(shù)字化標準,至今尚未形成全國性的標準,這給古籍資源整合和數(shù)據兼容帶來了很大的障礙。如在古籍元數(shù)據制作方面,數(shù)據格式目前就有txt、doc、html、exe、pdf、wdl、dg、ebk等20余種,導致數(shù)據交換不順暢,難以共享使用。再如在古籍影像采集方面,標尺擺放、色標使用、圖像分辨率高低等也存在不同標準,也使不同單位之間的數(shù)據資源無法共享使用。此外,古籍著錄也尚未執(zhí)行統(tǒng)一的分類表和分類原則,造成了書目數(shù)據不準確的問題,如不同的書被著錄成一種書,或一種書被著錄為多種書,版本說明張冠李戴等,給讀者的使用和研究帶來極大不便。
(三)技術仍是瓶頸
古籍數(shù)字化并不是簡單地將古籍文字錄入計算機,還涉及漢語信息處理、計算機技術等諸多方面,目前來看,在古籍字符、字庫、輸入法、文本加工、檢索等方面還存在不少問題,嚴重制約了古籍數(shù)字化進程。如計算機用字的處理,當前通用的是Unicode編碼字符集,從基本集到擴展E集,共有8萬余個國際標準編碼的漢字。即便如此,依然有很大一部分古籍整理作品中的字形無法表示。再如輸入法問題,古籍文本輸入主要采用人工輸入與光學字符識別(OCR)掃描輸入,人工輸入效率低,成本高。OCR掃描輸入也存在圖像質量不高,掃描速度低,單位成本高,識別率低等技術性問題,特別是豎排繁體字,識別效果依然不理想。另外,在檢索程序的快速性和準確性上也難以令人滿意,如在《四庫全書》中檢索 “尺子”時,“尺予”“尺于”“斥予”“斥于”“斥子”等條目都被檢索出來,大大影響效率。
(四)人才培養(yǎng)滯后
古籍數(shù)字化工作不僅涉及版本、目錄、??钡葌鹘y(tǒng)文獻學專業(yè)知識,同時也涉及計算機技術、信息科學等學科知識,是傳統(tǒng)學術方法與現(xiàn)代科學技術的結合。但目前從事古籍數(shù)字化工作的人才非常少,特別是既具備古籍整理知識又能熟練應用現(xiàn)代信息技術的高層次人才更為匱乏。雖然我國部分高校開設古籍整理的相關專業(yè),如北京大學、首都師范大學等高校已經開始培養(yǎng)古籍數(shù)字化研究生,個別高校也已經開設古籍數(shù)字化相關課程。但全國開展古籍數(shù)字化人才培養(yǎng)的高校還是少數(shù),每年的招生人數(shù)還很有限,尤其是有很多學生雖然讀的是古典文獻或計算機等相關專業(yè),等到畢業(yè)時,卻紛紛改行從事其他行業(yè)的工作。另外,由于古籍數(shù)字化企業(yè)的薪資與互聯(lián)網公司相比非常低,技術人才往往很難留住。因此,古籍資源數(shù)字化專門人才的培養(yǎng)亟待提上日程。
(五)經費較為缺乏
古籍進行數(shù)字化,離不開資金的支持,我國現(xiàn)存的古籍按品種計約15萬種,按版本計約40萬版本,如果全部進行數(shù)字化,需要一大筆資金。目前,一批大型圖書館、高校、數(shù)字企業(yè)憑借自身資源優(yōu)勢,取得了不少成果,但由于古籍開發(fā)的成本較高,很多存藏單位由于缺少經費,無法購置必需的設備和軟件,也缺乏足夠的人力和相關的計算機技術人才,古籍數(shù)字化工作仍然比較落后,還有一些存藏單位古籍數(shù)字化工作尚未開展,導致一些很有價值的古籍資源無法進行數(shù)字化,傳播和利用嚴重受限。另外,一些基于大數(shù)據深度開發(fā)面向具體應用的古籍數(shù)據庫,由于前期需要大量資金的投入,導致這方面的工作遠遠落后于國外。
三、古籍數(shù)字化未來發(fā)展建議
我國悠久的歷史流傳下來的古籍卷帙浩繁,運用現(xiàn)代化手段對這些中華民族的寶貴文化遺產進行深入合理的開發(fā)利用,實現(xiàn)資源共建共享,是傳承中華優(yōu)秀傳統(tǒng)文化、弘揚民族精神的重要途徑,對推動中華文化創(chuàng)造性轉化和創(chuàng)新性發(fā)展具有重大意義。
(一)加強統(tǒng)籌規(guī)劃管理
古籍數(shù)字化建設是一項長期的、龐大的系統(tǒng)工程,需要國家加強頂層設計統(tǒng)籌規(guī)劃,避免各自為政重復浪費。一是建議由全國性的權威機構負責古籍數(shù)字化的統(tǒng)籌工作,加強協(xié)調規(guī)劃管理,統(tǒng)籌團結各方面力量,加強溝通合作,統(tǒng)一規(guī)劃、統(tǒng)一標準、資源共享,形成協(xié)同高效的古籍數(shù)字化資源開發(fā)新格局。二是建立古籍聯(lián)合數(shù)據庫開放總平臺,將各類單位建設開發(fā)的古籍數(shù)據庫進行統(tǒng)一規(guī)劃并實行系統(tǒng)化管理,同時盡量免費向廣大讀者提供文獻獲取、傳遞等信息服務,實現(xiàn)資源的共建共享,充分發(fā)揮文獻資源的價值。三是推動數(shù)字人文研究和古籍的深度整理,鼓勵協(xié)調相關單位采用社會科學的方法論和電腦運算工具,如超文本、資料視覺化、統(tǒng)計學、文本探勘、數(shù)位制圖等,對古籍數(shù)據進行深度挖掘。另外,積極推動國內古籍整理出版骨干企業(yè)加強古籍數(shù)字化項目合作,強強聯(lián)合,資源共享,形成合力,開發(fā)符合用戶需求和學術規(guī)范的產品。
(二)完善古籍數(shù)字化標準
標準是古籍數(shù)字化資源整合的重要基礎。國家應整合現(xiàn)有資源,借鑒國內外相關標準,制定全國統(tǒng)一的古籍數(shù)字化標準。一是要推動古籍數(shù)字化行業(yè)標準建設,積極聯(lián)系相關機構進行古籍數(shù)字化的相關標準規(guī)范研究,由行業(yè)標準上升為國家標準。二是要加強存儲標準建設,應該按照實用性的原則實現(xiàn)文獻存儲格式的標準化,協(xié)調聯(lián)合骨干企業(yè),開發(fā)統(tǒng)一的文件存儲格式,進而向全國推廣。三是制定專門的數(shù)據加工標準,掃描時標尺擺放、色標使用、圖像分辨率高低、內存大小等都需制定明確的標準,規(guī)范數(shù)據加工流程。
(三)開發(fā)古籍數(shù)字化技術
技術在數(shù)字出版領域占據重要作用,只有不斷開發(fā)完善的漢字關聯(lián)表、準確的歷史紀年換算工具、在線顯示超大字符集和版權保護技術等,才能保障古籍數(shù)字化工作的開展。一是要加快 “中華字庫工程”“國家數(shù)字圖書館漢字規(guī)范處理”的開發(fā),不斷擴容字庫。二是持續(xù)優(yōu)化OCR系統(tǒng),梳理整理本古籍的特殊體例和要求,建立相關的數(shù)據加工規(guī)范,通過技術升級,提升掃描錄入的速度和準確率。三是提升數(shù)據庫檢索技術,制訂標準化的數(shù)字化全文檢索系統(tǒng),在關鍵詞檢索、條件檢索、邏輯檢索、模糊檢索、組配檢索等方面制定標準規(guī)范。
(四)加大政策資金扶持
古籍數(shù)字化是公益性文化事業(yè),中央財政應該對古籍數(shù)字化工作給予必要的資金支持和保障。一是要對列入《國家珍貴古籍名錄》的古籍和國家古籍重點保護單位給予重點支持。二是要制定鼓勵政策,積極吸納社會資金參與、支持古籍保護工作。三是要依托財政資金重點建設一批代表國家水準的古籍數(shù)字化平臺,統(tǒng)籌規(guī)劃并實施一批具有計量統(tǒng)計、定位查詢和可視化功能的重點項目,提高我國古籍數(shù)字化整體水平。
(五)培養(yǎng)古籍數(shù)字人才
人才是事業(yè)發(fā)展的基礎,古籍數(shù)字化建設需要培養(yǎng)一批既通古籍知識又能熟練運用計算機技術的新型人才。相關部門要制訂人才培養(yǎng)規(guī)劃,多渠道、分層次培養(yǎng)古籍數(shù)字化人才。一是在有條件的高等院校設置古籍數(shù)字化專業(yè),培養(yǎng)一批技術精湛、素質較高的人才。二是推動出版單位與高校研究機構加強合作、建設培訓基地,構建學位教育、項目培養(yǎng)、職業(yè)培訓相結合的古籍數(shù)字化人才培養(yǎng)體系,加強古籍數(shù)字化人才的學位培養(yǎng)和在職培訓。三是積極開展國際與地區(qū)間古籍數(shù)字化人才的交流與合作。最終形成古籍數(shù)字化人才培訓長效機制,培養(yǎng)一批業(yè)務骨干,為古籍數(shù)字化建設提供人才保障。
古籍是中華優(yōu)秀傳統(tǒng)文化的重要載體,古籍數(shù)字化是古籍整理出版的一種重要形式,是古籍保護、利用和傳播的全新路徑。作為融合傳統(tǒng)文化與現(xiàn)代技術、傳統(tǒng)出版與新興媒體的新業(yè)態(tài),古籍數(shù)字化工作的重要性和必要性日益彰顯。做好古籍數(shù)字化工作,是傳承發(fā)展中華優(yōu)秀傳統(tǒng)文化的重要手段,是滿足廣大讀者閱讀需求和專業(yè)人員研究的迫切需求,也是出版業(yè)數(shù)字化轉型升級的必由之路。
參考文獻:
[1]許靜.古籍數(shù)字化面臨的新問題及對策研究[J].內蒙古科技與經濟,2013(15):157-158.
[2]毛建軍.韓國古籍數(shù)字化的建設與啟示[J].圖書館建設,2012(4):40-42.
[3]梁愛民,陳荔京.古籍數(shù)字化與共建共享[J].國家圖書館學刊,2012(7):110-112.
[4]張文亮,彭媛媛.英國古籍數(shù)字化標準建設現(xiàn)狀及其啟示[J].新世紀圖書館,2016(5):85-89.
(作者單位系人民出版社)