作為內(nèi)容出版與信息技術(shù)結(jié)合的新型出版模式,古籍?dāng)?shù)字出版利用現(xiàn)代信息技術(shù)對古代文獻(xiàn)進(jìn)行整理、研究與保護(hù),并以電子數(shù)據(jù)的方式傳播與使用,為人類文明成果的集結(jié)與分析研究提供了更新穎的視角、更廣闊的領(lǐng)域和更豐富的可能。
中華古籍是中華文化延續(xù)和傳承的重要載體。從古迄今,對先賢存留下來的文獻(xiàn)進(jìn)行整理與研究便是后人綿延不絕的一項(xiàng)基本工作。這對于保護(hù)中華民族賴以生存發(fā)展的文化根基,對于繼承和發(fā)揚(yáng)民族優(yōu)秀文化傳統(tǒng)、增強(qiáng)民族自信心和凝聚力都具有重要而深遠(yuǎn)的意義。
一、數(shù)字出版技術(shù)給古籍出版帶來新的契機(jī)
古籍不僅是珍貴的歷史文獻(xiàn),它還是文物,是不能再生的資源。由于年代久遠(yuǎn),古籍紙張極易風(fēng)化粉碎、殘破、變形、霉變,當(dāng)前為保護(hù)好古籍只好限制了古籍的使用。時(shí)至今日,利用現(xiàn)代科技對古籍進(jìn)行數(shù)字化保護(hù)與利用,已經(jīng)迫在眉睫。
我國古籍的數(shù)字化始于20世紀(jì)80年代初,歷經(jīng)近30年的發(fā)展,已完成了以下三個方面的轉(zhuǎn)變:數(shù)字內(nèi)容由單一的書目學(xué)術(shù)機(jī)構(gòu)數(shù)據(jù)向全文數(shù)據(jù)、圖像數(shù)據(jù)和圖文數(shù)據(jù)相結(jié)合的轉(zhuǎn)變;載體形式由單機(jī)版向光盤版、網(wǎng)絡(luò)版的轉(zhuǎn)變;系統(tǒng)功能由檢索工具向知識工具、研究工具的轉(zhuǎn)變[1]。由此可見,數(shù)字出版技術(shù)的不斷進(jìn)步,促使古籍?dāng)?shù)字出版物的數(shù)字化程度越來越高,形式呈現(xiàn)多樣化特點(diǎn),系統(tǒng)的功能逐步完善,其學(xué)術(shù)研究和文化建設(shè)的價(jià)值越來越明顯。例如,《四庫全書》《二十五史》等大型的古籍?dāng)?shù)據(jù)庫除了能進(jìn)行多途徑的全文檢索,一般都配有各種知識輔助工具,如聯(lián)機(jī)古漢語字典、年號與公元紀(jì)年對照表,字?jǐn)?shù)、字頻、詞頻的統(tǒng)計(jì)信息,參考數(shù)據(jù)的匯集,不同版本比勘校對的接口、異體字的匯聚顯示、在線標(biāo)點(diǎn)斷句等功能,這些知識工具極大地改善了古籍研究的條件,提高了古籍整理的效率和精確度,同時(shí)也開闊了古籍整理工作者的眼界,有利于古籍研究領(lǐng)域新研究方法和研究成果的運(yùn)用[2]。
作為內(nèi)容出版與信息技術(shù)結(jié)合的新型出版模式,古籍?dāng)?shù)字出版利用現(xiàn)代信息技術(shù)對古代文獻(xiàn)進(jìn)行整理、研究與保護(hù),并以電子數(shù)據(jù)的方式傳播與使用,為人類文明成果的集結(jié)與分析研究提供了更新穎的視角、更廣闊的領(lǐng)域和更豐富的可能。
二、“天一閣藏古籍珍本數(shù)字出版工程”的立項(xiàng)背景
“天一閣藏古籍珍本數(shù)字出版工程”立足新型的出版模式,依托天一閣豐富而獨(dú)特的古籍資源,邀請古籍專家參與項(xiàng)目運(yùn)作,通過數(shù)字技術(shù),實(shí)現(xiàn)優(yōu)秀典藏的數(shù)字出版與優(yōu)秀文化的數(shù)字化傳播。
寧波歷來是中華藏書文化的重地,歷代著名的藏書樓有80余座,歷經(jīng)440余年的天一閣是我國現(xiàn)存最古老的私人藏書樓。天一閣館內(nèi)現(xiàn)藏各類古籍30多萬卷,其中善本8萬余卷,絕大部分是明代的刻本和鈔本,其中不少已是海內(nèi)孤本,尤以明代地方志、科舉錄、政書等最為珍貴。天一閣所藏豐富而獨(dú)特的古籍,一直是中外學(xué)者青睞有加的學(xué)術(shù)資源。這些資源具有重要的史料價(jià)值和很高的文化價(jià)值,是不可再生的寶貴財(cái)富?!疤煲婚w藏古籍珍本數(shù)字出版工程”項(xiàng)目由寧波出版社主持,與天一閣博物館合作完成。寧波出版社與天一閣博物館有著長期而密切的聯(lián)系,曾合作出版了《天一閣藏明代科舉錄選刊》《天一閣藏明代地方志補(bǔ)刊》《宋元四明六志》《天一閣集》《天一閣珍藏系列》等多部的古籍叢書,積累了一定的古籍出版經(jīng)驗(yàn)。
三、“天一閣藏古籍珍本數(shù)字出版工程”的整體架構(gòu)與實(shí)施路徑
“天一閣藏古籍珍本數(shù)字出版工程”項(xiàng)目的設(shè)計(jì)目的是通過數(shù)字技術(shù)將天一閣藏古籍珍本轉(zhuǎn)換成圖片和文本數(shù)據(jù),并通過主題詞編輯技術(shù)建設(shè)一個古籍資源數(shù)據(jù)庫,在此基礎(chǔ)上建立的“天一閣藏古籍珍本數(shù)字資源平臺”(網(wǎng)站)將提供網(wǎng)絡(luò)瀏覽、智能檢索、分析處理、研究支持、互動交流,并可進(jìn)行包括紙質(zhì)、光盤、電子等多種介質(zhì)的出版,從而達(dá)到數(shù)字出版技術(shù)對古籍的保護(hù)和綜合開發(fā)利用。
1.整體架構(gòu)
根據(jù)系統(tǒng)的運(yùn)作方式以及人員工作場所等要求,整個項(xiàng)目分為三個相對獨(dú)立的子系統(tǒng)。第一,數(shù)據(jù)采集系統(tǒng)。主要負(fù)責(zé)完成古籍的數(shù)字化轉(zhuǎn)換,并做好編目歸類,同時(shí)將圖像、文本存儲至相應(yīng)的目錄結(jié)構(gòu)內(nèi),在此基礎(chǔ)上可對古籍進(jìn)行分類和普通查詢檢索等管理功能。第二,數(shù)據(jù)加工系統(tǒng)。負(fù)責(zé)處理從數(shù)據(jù)采集系統(tǒng)接收到的圖像數(shù)據(jù)和文本數(shù)據(jù),經(jīng)過主題詞編輯等人工分析、專家審核、錄入校對等處理流程,生成一個包含圖像數(shù)據(jù)、文本數(shù)據(jù)、主題詞數(shù)據(jù)等有關(guān)聯(lián)的規(guī)范化、標(biāo)準(zhǔn)化的古籍資源數(shù)據(jù)庫,在此基礎(chǔ)上實(shí)現(xiàn)智能檢索、分析處理等功能。第三,數(shù)據(jù)發(fā)布與展示系統(tǒng)。主要負(fù)責(zé)對數(shù)據(jù)加工系統(tǒng)產(chǎn)生的格式文檔或原件圖像進(jìn)行信息補(bǔ)充和發(fā)布,供國內(nèi)外用戶或互聯(lián)網(wǎng)用戶查詢、閱覽;同時(shí)能為紙質(zhì)圖書、光盤、電子書等多種介質(zhì)的出版輸入有關(guān)格式的原始資料。
2.實(shí)施路徑與階段性任務(wù)
綜合項(xiàng)目的各種實(shí)際需求,確定了如下項(xiàng)目實(shí)施路徑,并確立了階段性任務(wù)。第一階段:介質(zhì)轉(zhuǎn)換。分階段、分批次對古籍進(jìn)行全文掃描或數(shù)碼拍照,將其轉(zhuǎn)換成數(shù)字圖像形式。同時(shí),對古籍進(jìn)行全文本計(jì)算機(jī)錄入。數(shù)字化轉(zhuǎn)換目標(biāo)包括文本轉(zhuǎn)換成數(shù)字圖像和可編輯的全文本信息。在保護(hù)古籍不受物理損壞的前提下,采取掃描和數(shù)碼拍照兩種方式相結(jié)合進(jìn)行照片錄入工作。全文本的計(jì)算機(jī)錄入采用OCR掃描識別和手工鍵盤輸入兩種方式。為解決OCR掃描輸入對古籍文本的識別率低,鍵盤錄入速度慢、字庫少、對冷僻字的輸入需要專門定制的輸入法等問題,故此,采用北大方正的超大字庫,該種字庫包含了中國大部分的繁體漢字,基本可以滿足字庫需求。同時(shí)采用北大方正的新典碼輸入法,以適應(yīng)冷僻字的輸入。第二階段:主題詞編輯。在介質(zhì)轉(zhuǎn)換的同時(shí),對圖片文件和錄入文件進(jìn)行多層次的校對勘誤。在此項(xiàng)工作的基礎(chǔ)上,安排專人對轉(zhuǎn)換后的古籍進(jìn)行主題詞提煉、編輯,建立對應(yīng)的主題詞數(shù)據(jù)庫,通過專家審稿和核定后,納入“天一閣藏古籍珍本數(shù)據(jù)庫”相關(guān)系統(tǒng),為后續(xù)應(yīng)用所需的數(shù)據(jù)庫建設(shè)服務(wù)。第三階段:數(shù)據(jù)庫建設(shè)和相應(yīng)軟件的研發(fā)。由于天一閣古籍珍本數(shù)量龐大,所以數(shù)據(jù)庫的建設(shè)過程也是分階段、分批次進(jìn)行的。在數(shù)據(jù)庫建設(shè)的過程中,逐步進(jìn)行相關(guān)應(yīng)用軟件的開發(fā),包括智能檢索系統(tǒng)、統(tǒng)計(jì)和分析系統(tǒng)、網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)庫支持系統(tǒng)、研究支持系統(tǒng)、學(xué)術(shù)互動與交流系統(tǒng)、后臺管理系統(tǒng)等模塊。第四階段:拓展應(yīng)用。結(jié)合天一閣珍本、善本多,需注意版權(quán)保護(hù)的特點(diǎn),古籍?dāng)?shù)字化后建設(shè)的平臺應(yīng)用包括:基于因特網(wǎng)數(shù)據(jù)發(fā)布的Web瀏覽。Web應(yīng)用提供高精度古籍?dāng)?shù)字圖像和全文檢索內(nèi)容,供讀者查閱,提供免費(fèi)瀏覽和付費(fèi)下載兩種方式,并采用DRM技術(shù)實(shí)現(xiàn)數(shù)字版權(quán)管理;提供一套逐步完善的智能化數(shù)據(jù)庫檢索應(yīng)用,并可根據(jù)不同權(quán)限給予學(xué)術(shù)研究互動功能,研究互動的內(nèi)容亦可納入數(shù)據(jù)庫,使數(shù)據(jù)庫資源不斷更新,為建設(shè)新的研究社區(qū)打下基礎(chǔ);制作成多種介質(zhì)產(chǎn)品進(jìn)行出版發(fā)行。出版產(chǎn)品的內(nèi)容包括已數(shù)字化的原始文本,也可包含在研究互動中產(chǎn)生的新的學(xué)術(shù)信息。第五階段:社區(qū)建設(shè)。研究社區(qū)基于原始數(shù)據(jù)庫之上,并將形成新的學(xué)術(shù)交流社區(qū),對原始數(shù)據(jù)的研究探討、互動交流也將形成新的學(xué)術(shù)資源,這是Web3.0技術(shù)和古籍研究群體的一次對接,也是新的信息技術(shù)對出版資源的進(jìn)一步探索。第六階段:系統(tǒng)對接。在實(shí)現(xiàn)自身原定功能之外,將進(jìn)一步考慮與其他古籍?dāng)?shù)字化工程及公共文化服務(wù)相關(guān)網(wǎng)絡(luò)的對接,如與公益性數(shù)字圖書館、其他古籍?dāng)?shù)據(jù)庫的共享使用等,以建成開放式的網(wǎng)絡(luò)結(jié)構(gòu)和可擴(kuò)充的存儲體系。
四、搭建古籍?dāng)?shù)字出版平臺——“天一閣藏古籍珍本數(shù)字出版工程”的預(yù)期成果
“天一閣藏古籍珍本數(shù)字出版工程”將產(chǎn)生兩個方面的影響。第一,預(yù)期社會效益?!疤煲婚w藏古籍珍本數(shù)字出版工程”引進(jìn)新的數(shù)字出版技術(shù),實(shí)現(xiàn)珍稀古籍的數(shù)字轉(zhuǎn)換、多界面閱讀、智能檢索、研究支持、多介質(zhì)出版等,是出版企業(yè)轉(zhuǎn)型升級、尋求新的出版生產(chǎn)方式的努力探索;對天一閣所藏珍稀古籍進(jìn)行全新而深入的數(shù)字出版,不僅解決了古籍的保護(hù)和開發(fā)利用之間的矛盾,還將給學(xué)術(shù)界帶來豐富的研究資料,從而推動其開展深入研究。該項(xiàng)目建設(shè)的古籍?dāng)?shù)字出版平臺,通過網(wǎng)絡(luò)與數(shù)字技術(shù)實(shí)現(xiàn)古籍研究的交流,并與國家其他大型文化數(shù)據(jù)庫保持良性對接,從而實(shí)現(xiàn)古籍?dāng)?shù)字出版成果的共享,進(jìn)一步推動出版成果為公共文化服務(wù)。第二,預(yù)期經(jīng)濟(jì)效益。“天一閣藏古籍珍本數(shù)字出版工程”順利實(shí)施后,可將3萬冊古籍珍本全部實(shí)現(xiàn)數(shù)字化存儲、智能化檢索和研究學(xué)習(xí)功能。其產(chǎn)品盈利途徑包括:銷售用于收藏和饋贈的紙質(zhì)高仿珍本圖書;面向國內(nèi)外圖書館系統(tǒng)和廣大讀者銷售電子書;網(wǎng)絡(luò)付費(fèi)下載;有償提供數(shù)據(jù)庫檢索服務(wù);數(shù)據(jù)庫銷售。從2014年開始,陸續(xù)有各類產(chǎn)品面世。隨著項(xiàng)目平臺的不斷完善和對相關(guān)產(chǎn)品的進(jìn)一步推廣,預(yù)期的經(jīng)濟(jì)效益將會出現(xiàn)逐年遞增的良性局面。
(作者單位:寧波出版社)
參考文獻(xiàn)
[1] 李明杰,俞優(yōu)優(yōu).中文古籍?dāng)?shù)字化的主體構(gòu)成及協(xié)作機(jī)制初探[J] . 圖書與情報(bào),2010(1):34-44.
[2] 楊牧之.關(guān)于古籍整理與出版的幾點(diǎn)建議[J]. 編輯之友,2010(8):6-9.