徐力
(海天出版社 重大項目組,廣東 深圳 518033)
古籍網(wǎng)絡(luò)化整理與出版初探
徐力
(海天出版社 重大項目組,廣東 深圳 518033)
古籍網(wǎng)絡(luò)化整理與出版,是計算機(jī)網(wǎng)絡(luò)環(huán)境下全新的古籍整理方法、思想和策略。在厘清相關(guān)基本概念的基礎(chǔ)上,結(jié)合計算機(jī)網(wǎng)絡(luò)的特點,對古籍網(wǎng)絡(luò)化整理和出版的實現(xiàn)進(jìn)行了探討,涉及總體策略,基本過程和模式,管理與技術(shù)(如云計算),從古籍總體情況調(diào)查、目錄及版本信息著錄及可進(jìn)行的“整理性”操作到對文字的關(guān)鍵詞標(biāo)注等宏觀整理,對古籍文字進(jìn)行???、標(biāo)點等微觀整理,古籍的網(wǎng)絡(luò)化整理與古籍的網(wǎng)絡(luò)化出版的關(guān)系,已有資源的保護(hù)和利用等方面。
古籍;古籍整理;古籍?dāng)?shù)字化;古籍網(wǎng)絡(luò)化整理;古籍網(wǎng)絡(luò)化出版;云計算
從上世紀(jì)八十年代將“計算機(jī)化”、“電子化”等概念引入“古籍領(lǐng)域”至今,對計算機(jī)及其網(wǎng)絡(luò)的利用,在整理、研究、出版、利用古籍方面,可以說已經(jīng)取得了令人欣喜的成果。[1]
一是一些圖書館將館藏古籍書目信息上網(wǎng),有的還通過數(shù)據(jù)交換建立了聯(lián)合古籍目錄,如中國國家圖書館的“中華古籍善本國際聯(lián)合書目系統(tǒng)”。二是進(jìn)行了一些大型的古籍“數(shù)字化”工程,比如“中國基本古籍光盤庫”、“國學(xué)寶典”、“文淵閣四庫全書”、“古今圖書集成”、“全唐詩”,中國國家圖書館和上海等地方圖書館對館藏善本進(jìn)行的數(shù)字化等等。[2][3]三是相關(guān)理論研究得到重視,比如,已經(jīng)于2007年、2009年舉辦了兩屆高水平的“中國古籍?dāng)?shù)字化國際學(xué)術(shù)研討會”。[4]
但據(jù)筆者觀察,古籍領(lǐng)域?qū)τ谟嬎銠C(jī)及其網(wǎng)絡(luò)的利用還有很大的潛力,還有很多事情要做。僅就古籍的整理與出版而論,到目前為止,我們還停留在“數(shù)字化”階段,重視了對計算機(jī)的利用,而還未重視對計算機(jī)網(wǎng)絡(luò)的利用。本文擬明確提出“古籍的網(wǎng)絡(luò)化整理與出版”概念,并從整體上進(jìn)行一些初步探討。
需要預(yù)為說明的是,近年來備受關(guān)注的“古籍?dāng)?shù)字化”,是筆者所說的“古籍的網(wǎng)絡(luò)化整理”的基礎(chǔ),但并非一回事?!肮偶木W(wǎng)絡(luò)出版”應(yīng)當(dāng)包含在近年來比“古籍?dāng)?shù)字化”更加熱鬧的“網(wǎng)絡(luò)/數(shù)字出版”概念之中,但它是以“古籍的網(wǎng)絡(luò)化整理”為前提的。而且,在“古籍的網(wǎng)絡(luò)化整理”概念下,古籍的整理與出版,將是二而一的。
要討論上面提出的問題,先得簡略討論一下“古籍”、“古籍整理”、“古籍出版”與“古籍?dāng)?shù)字化”等相關(guān)概念,這有助于理解本文提出的“古籍的網(wǎng)絡(luò)化整理與出版”概念和一些技術(shù)表述的適用范圍。
(一)古籍
古籍即古代的典籍。其中的“古代”是一個人為的斷代問題。在一個人為給定的時間以前形成的典籍,可以稱之為古籍。我國現(xiàn)定的時間為1912年之前。
典籍,大致地說,載有文圖的簡、帛、紙、葉、皮、骨、板等物,皆可稱為典籍。但有些情形,比如碑刻、壁畫、壁題、鐘鼎、盤盞、錢幣、瓦當(dāng)之類,皆或有圖或有文或圖文皆備,卻未必可稱為典籍。我們需對典籍作一些限定:以承載圖文為主要目的,以傳達(dá)、傳播圖文所含意義為其基本而非附屬、附帶的使用功能。此界定能較準(zhǔn)確地反映典籍的本質(zhì),比如,帶字甲骨,有些碑刻如“石經(jīng)”便在此界定之內(nèi),而題文繪圖的扇子、屏風(fēng)等卻可視情形排除在外。
事實上,我國古代典籍現(xiàn)在所能見者,最主要的部分是紙質(zhì)書籍;而且,在不作特別說明的情況下,古籍,許多人常常僅指我國古代的漢字典籍;本文也屬于這種情況。
(二)古籍整理
我國的古代典籍,源遠(yuǎn)流長。在千百年的傳布過程中,手抄版刻,難免產(chǎn)生錯、漏、衍、亂、漫漶、蟲噬、壞缺等等問題,比諸信息傳播理論,就是信號在傳播過程中產(chǎn)生了噪音、丟失、變形。古籍有了這些問題就會“失真”。清除“失真”,還原其本來面目,同時進(jìn)行一些便于利用的工作,便是對古籍的整理。
古籍整理指的是對其所承載的圖文的整理;而對于其“物”本身的處理,如修補(bǔ)、保護(hù),雖與圖文整理有關(guān)聯(lián)但不應(yīng)算在古籍整理之內(nèi),當(dāng)可歸于“文物整理”之中。
古籍中的圖,整理相對簡單,而且相對于文字其量也較少。所以,事實上,古籍整理主要是對古籍中文字的整理。
古籍整理最基本的目標(biāo)是“還原”,雖然無論從理論還是事實上,絕對的“還原”都是無法做到的,但就像數(shù)學(xué)中對于“無窮大”“無窮小”的逼近一樣,“還原”是必須確立的古籍整理的基本原則,否則整理古籍就失去了意義。這個“原”是古籍創(chuàng)生時在語言運(yùn)用及意義表達(dá)方面的本來面目,而非其物理特性。為便于利用而對古籍進(jìn)行的整理主要有:各種分類歸集(包括編目、著錄、分類、專集、輯佚、排序、索引、提要、輯錄、匯輯等等),使之在整體“呈現(xiàn)”方面結(jié)構(gòu)化、系統(tǒng)化;在還原(主要是進(jìn)行文字校勘)的基礎(chǔ)上對文字的形式規(guī)整(如異體處理、繁簡轉(zhuǎn)換)、標(biāo)點,使之在文字上規(guī)范化。(嚴(yán)格地講,將標(biāo)點算作整理是值得討論的,因為不同的標(biāo)點可能形成截然不同的文本。注釋、索隱和翻譯之類,不能算作整理,而應(yīng)該歸于研究。)
我們可以將對古籍圖文內(nèi)容的“還原”和文字規(guī)范等看作微觀整理,把對古籍在整體上進(jìn)行的編目、分類、索引、輯錄等等工作看作宏觀整理。
(三)古籍出版
古籍出版包括古籍原本 (如影印)、整理本(如排印、拓印、??薄?biāo)點、歸集、索引)以及帶注釋、索隱、翻譯等研究性內(nèi)容的“解讀本”的出版。從本質(zhì)上講,出版就是公之于眾。整理古籍是為了更好地利用,為了能夠利用古籍及對其整理的成果,就必然要將它們公之于眾,所以古籍整理與古籍出版緊密相關(guān)。
(四)古籍?dāng)?shù)字化
古籍?dāng)?shù)字化是電子計算機(jī)引入后的概念,最初多稱“計算機(jī)化”、“電子化”。分為兩個層次:一是古籍文圖的數(shù)字圖像/影像化,一是古籍文字的數(shù)字編碼化。通過電子掃描、數(shù)碼照相等技術(shù)手段,可以將古籍的圖文處理成用計算機(jī)能識別和處理的以“0”和“1”描述的圖像/影像數(shù)字信息,進(jìn)行保存、傳輸。對古籍圖文數(shù)字圖像/影像化后能夠永續(xù)使用,可最大限度地保護(hù)古籍原件。字符在計算機(jī)中是以數(shù)字編碼方式存在的。將古籍中的文字通過多種手段以字符方式輸入計算機(jī),就是對古籍作數(shù)字編碼化處理?,F(xiàn)在的普遍做法,是在古籍文圖的數(shù)字圖像/影像化基礎(chǔ)上采用OCR (光學(xué)字符識別)技術(shù),再輔以人工校對,使文字從整體的圖像中分離出來,成為計算機(jī)能識別的獨(dú)立字符。
古籍?dāng)?shù)字化后,利用計算機(jī)可對古籍作進(jìn)一步整理、研究,進(jìn)而予以更充分的利用。
現(xiàn)在,絕大部分計算機(jī)是通過網(wǎng)路聯(lián)結(jié)在一起的,不光是信息可以在計算機(jī)之間進(jìn)行交流,計算機(jī)的處理能力也能相互利用?!霸朴嬎恪备拍詈蛻?yīng)用已經(jīng)越來越普及,計算機(jī)網(wǎng)絡(luò)的功能更加強(qiáng)大、便捷、高效,應(yīng)用更加豐富,成本卻更加低廉。計算機(jī)網(wǎng)絡(luò)有強(qiáng)大的存儲、處理能力,可以隨時在線,資源可以不斷積累,并及時更新。古籍整理可以充分利用計算機(jī)網(wǎng)絡(luò)的這些特點,在古籍?dāng)?shù)字化的前提下,進(jìn)行網(wǎng)絡(luò)化操作。
(一)古籍的宏觀整理網(wǎng)絡(luò)化
1.目錄、版本信息的分布式著錄與聯(lián)網(wǎng)目錄
宏觀層次的古籍整理,從邏輯上講,首先應(yīng)該進(jìn)行古籍調(diào)查,弄清其存在的狀況。
雖然可以有新的古籍被發(fā)現(xiàn),但不會再有新古籍被“創(chuàng)造”出來,所以古籍總體的客觀存在是確定的。古籍的存在狀態(tài),無外乎“已為世所知”和“未為世所知”兩種。已為世所知的古籍在藏地、所有權(quán)、保存狀態(tài)、管理及利用規(guī)定等方面,都各不相同。如何能夠?qū)⑺鼈兏鞣N信息調(diào)查清楚并完整地著錄在案?如何能讓需要者了解到全面的情況?已為世所知的,由于各種原因可能消失,或者有可能最終被認(rèn)定為不是古籍而被清除出列;同樣,未為世所知的可能會被發(fā)現(xiàn)。實際上,“已為世所知”的古籍的外延在一定程度上是動態(tài)的。如何能及時更新?
傳統(tǒng)(非網(wǎng)絡(luò)化)的方法是有條件的收藏者做目錄和版本登記,再出版或進(jìn)行有限的交換。使用者需要購買目錄或者去藏地查閱。由于顯而易見的原因,已知古籍不可能盡被登記在冊,而不同藏地的登記也很難統(tǒng)一整合,全面及最新情況也就很難為需要者所盡能知悉和利用。而且登記信息格式和項目各依己見,還可能會出現(xiàn)同一典籍被登記為不同典籍之類的混亂情況。
如果所有收藏者以統(tǒng)一標(biāo)準(zhǔn)和格式將各自的古籍目錄與版本著錄進(jìn)網(wǎng)絡(luò),通過技術(shù)和管理手段聯(lián)接在一起,需要者只要能聯(lián)網(wǎng),有權(quán)限,坐在家中便可以輕易獲得全部信息。
筆者所主張的古籍整理的網(wǎng)絡(luò)化,在調(diào)查與著錄古籍信息方面的基本形式、要求和步驟應(yīng)該是:
首先利用網(wǎng)絡(luò),按目錄學(xué)與版本學(xué)原理研制出完善的著錄標(biāo)準(zhǔn)和格式。
可以將已有的格式和標(biāo)準(zhǔn)比如北京圖書館提出的CNMARC格式、GB3792.7《古籍著錄規(guī)則》等公布在網(wǎng)上,讓大家討論,這比起傳統(tǒng)的大多限于“業(yè)內(nèi)人士”的開會研討來,可以最廣泛地搜集意見,進(jìn)行最充分的爭論,達(dá)成最廣泛的認(rèn)同,因而確定的標(biāo)準(zhǔn)和格式也必定最完善、最具生命力。同時也是對全社會的動員和宣傳。
這個標(biāo)準(zhǔn)與格式應(yīng)該是盡可能完備又必須具備可擴(kuò)展性、兼容性,既要能與現(xiàn)代一般圖書并庫處理又要能反映古籍特點,因為我們的認(rèn)識和需要總是在發(fā)展變化,而先前的各種投入也需要盡可能保護(hù),普適性和個性需要得到同樣的重視,而古籍與現(xiàn)代典籍從文化史的發(fā)展角度看是同質(zhì)的。很重要的一點,也是特別的一點,是要根據(jù)一些古籍名稱不甚規(guī)范的特點,設(shè)立一些古籍本身并沒有的相關(guān)性信息(知識)項目,如名稱別名,著者別號等等,以備相關(guān)查詢。比如,要查《紅樓夢》的所有版本,在結(jié)果中如何能將《石頭記》等也包括在內(nèi)?
其次按標(biāo)準(zhǔn)格式進(jìn)行分布式著錄。
所謂分布式著錄,是指按地區(qū)比如以省區(qū)為單位進(jìn)行著錄,數(shù)據(jù)保存于本地。(許多私人及小的收藏單位是沒有條件進(jìn)行網(wǎng)絡(luò)著錄的,因而應(yīng)該相對集中。)這不光是因為網(wǎng)絡(luò)本身是分布式的,更重要的是這比全國統(tǒng)一著錄、保存、維護(hù)更有效率。分布式,再配合實行互為鏡像,數(shù)據(jù)的安全性與效率也會更高。最關(guān)鍵的一點,是能基本吻合古籍實物收藏的基本格局,有利于后續(xù)工作的進(jìn)行。當(dāng)然分布著錄需要統(tǒng)一驗收,以保證著錄的質(zhì)量。
然后進(jìn)行聯(lián)網(wǎng)組合,在重要節(jié)點互作鏡像,設(shè)立全國統(tǒng)一的管理網(wǎng)站,實行數(shù)據(jù)定期維護(hù)、更新及異地備份、統(tǒng)一備份機(jī)制,以確保數(shù)據(jù)能時刻為全社會提供正常服務(wù)。
2007年2月啟動了首次全國古籍普查 (還擬進(jìn)行海外中國古籍的調(diào)查),國家圖書館的“中國國家古籍保護(hù)中心”在網(wǎng)絡(luò)上開通了“全國古籍普查平臺”作為工作與發(fā)布平臺,最終目的是要弄清全國古籍的數(shù)量與保存狀態(tài),建立全國性的古籍聯(lián)合目錄。(請注意,是“聯(lián)合”而非“聯(lián)網(wǎng)”。)此前國內(nèi)外已經(jīng)有許多古籍收藏者在傳統(tǒng)的古籍調(diào)查結(jié)果基礎(chǔ)上,進(jìn)行了計算機(jī)著錄,有的還上了網(wǎng),比如前文提及的中國國家圖書館的“中華古籍善本國際聯(lián)合書目系統(tǒng)”。本次普查充分考慮到了對以前的機(jī)錄工作的利用,專門設(shè)置了對MARC數(shù)據(jù)、EXCEL數(shù)據(jù)、ACCESS數(shù)據(jù)等的導(dǎo)入口。
研究了相關(guān)資料后,筆者個人認(rèn)為,雖然本次古籍普查利用了網(wǎng)絡(luò),卻并不能認(rèn)為開始了古籍的網(wǎng)絡(luò)化整理。因為網(wǎng)絡(luò)化是方法,更是觀念,不是簡單地通過網(wǎng)絡(luò)將信息集中起來,而是要與后續(xù)工作,通過網(wǎng)絡(luò)有機(jī)地聯(lián)結(jié)在一起。[5]
網(wǎng)絡(luò)化的普查、著錄工程永遠(yuǎn)無法徹底完成,而應(yīng)該是以全國普查為基礎(chǔ),為起點,將調(diào)查、著錄、維護(hù)工作經(jīng)?;C(jī)制長效化。
2.分類等傳統(tǒng)整理工作動態(tài)化
各地有關(guān)機(jī)構(gòu)將本地古籍按統(tǒng)一標(biāo)準(zhǔn)、格式著錄在案,再聯(lián)網(wǎng)并在重要網(wǎng)絡(luò)節(jié)點設(shè)置鏡像,形成多個囊括全球古籍資源的虛擬古籍圖書館,并建立日常維護(hù)機(jī)制,按一定的規(guī)則提供給全社會使用。這只是最基礎(chǔ)的一步。
接下來,有需要的使用者可以在自己的終端上,根據(jù)自己的需要對海量的數(shù)據(jù)進(jìn)行各種形式的分類、篩選、排序等處理。這些在傳統(tǒng)方式包括目前比較簡單的計算機(jī)使用方式下很費(fèi)事甚至無法完成的事情,可以利用計算機(jī)網(wǎng)絡(luò)以云計算方式輕松做到,只要在著錄的時候?qū)⒂嘘P(guān)信息輸入進(jìn)去。而且,通過后續(xù)的各種研究,將越來越多的相關(guān)信息按統(tǒng)一的標(biāo)準(zhǔn)和格式不斷輸入計算機(jī),還能逐漸將古籍的內(nèi)在關(guān)聯(lián)進(jìn)行各種樹狀梳理,進(jìn)而建立各種專門主題的虛擬古籍庫。最重要的是,做這些工作,幾乎是隨心所欲的,動態(tài)的,隨時可以進(jìn)行的,是由使用者進(jìn)行的??梢哉f是以基本信息的不變而應(yīng)各種需要的萬變。(這就是我們強(qiáng)調(diào)著錄標(biāo)準(zhǔn)要盡可能完備,要讓大家充分討論,要有可擴(kuò)展性等的主要原因。)
這實際上是將傳統(tǒng)方式下的這部分宏觀整理工作,最終變成了使用者在網(wǎng)絡(luò)方式下對古籍基本信息的利用過程。
相應(yīng)地,全國統(tǒng)一的古籍整理管理網(wǎng)站一個重要的功能是保存使用者的各種分類、篩選、排序等操作結(jié)果,如此可在提高后續(xù)相同、相關(guān)查詢效率的同時,分析出更多有價值的數(shù)據(jù)。
總之,涉及古籍目錄、版本等的宏觀整理的一切相關(guān)事項,都是在網(wǎng)絡(luò)環(huán)境下,依賴網(wǎng)絡(luò),以網(wǎng)絡(luò)運(yùn)作方式進(jìn)行的。與非網(wǎng)絡(luò)方式相比,在觀念與工作方式、效率、信息數(shù)量、信息結(jié)構(gòu)等等方面,是有天壤之別的。
(二)古籍?dāng)?shù)字化過程的網(wǎng)絡(luò)化
光有網(wǎng)絡(luò)化的目錄、版本等信息而無古籍具體內(nèi)容,在一定程序上可以看作是一個美麗的外殼。在此基礎(chǔ)上,必須進(jìn)行的下一步就是古籍圖文內(nèi)容的數(shù)字化。這是又一基礎(chǔ)性工程。有了它,古籍微觀整理和目錄、版本信息之外的宏觀整理如分類匯輯、輯佚等等的網(wǎng)絡(luò)化,才能進(jìn)行。
上文提到古籍圖文數(shù)字化有兩個層次,第一個層次是古籍的原態(tài)轉(zhuǎn)錄,第二個層次是對其中的文字進(jìn)行字符化。第一個層次是整體的、死的,第二個層次是解析的、活的。一些相關(guān)工作本身即屬于整理的范疇,比如文字手寫體改為印刷體,反差較小的圖增加反差,污臟的去除。
原態(tài)轉(zhuǎn)錄的關(guān)鍵是物理指標(biāo)的確定,如掃描或者照相精度、對比度,顏色體系、文檔格式、存儲介質(zhì)等等,最終目標(biāo)是一次成像永續(xù)使用。已經(jīng)有不少的古籍完成了這方面的工作,但是存在文件格式不統(tǒng)一的問題,并且大多是以光盤單機(jī)、多機(jī)版(局域網(wǎng))為使用方式而非全網(wǎng)絡(luò)方式,目前只有中國國家圖書館有部分資源,對全網(wǎng)絡(luò)公眾開放。
應(yīng)該按照一定的分級,逐漸將全部古籍,數(shù)字影像/圖像化。這不是技術(shù)問題,也不是財力問題,而是觀念問題。許多古籍被認(rèn)為價值不大,其實可能是不方便利用,以前無人利用才沒有顯示出其價值。古籍是越為人知曉,越為人所用,其價值才越大的;不用就無用。
古籍文字字符化的關(guān)鍵是足夠大的字符集的研制、管理。我國歷史上出現(xiàn)過的漢字字符,有人說8萬多,有人說大約在12萬,還有人說要達(dá)到15萬~16萬,還沒有一個確數(shù);[6]比較確實的是中華書局和中國友誼出版公司出版的《中華字?!肥兆?5568個。但不管如何,一定比我們的現(xiàn)行標(biāo)準(zhǔn)字符集要多不少?,F(xiàn)在國際標(biāo)準(zhǔn)的漢字字匯和我國的GB18030已經(jīng)擴(kuò)充至70195個漢字[7],“國際標(biāo)準(zhǔn)超大字符集字體支持包5.4”已經(jīng)可以支持75000個漢字,方正超大字庫解決方案也可以支持7萬多漢字。[8][9]大字符集的研制和使用,是耗費(fèi)十分巨大的工程。現(xiàn)在的漢字編碼空間可以達(dá)到150萬,是足夠的??梢钥紤]在已有標(biāo)準(zhǔn)系統(tǒng)之上增加不同頻度的分級字庫,并可動態(tài)管理:一方面可以向字符集中添加經(jīng)過審查的新的字符,另一方面是能夠向使用者動態(tài)傳遞非系統(tǒng)字符以及使用環(huán)境。
古籍大字符集研制的難點在于要真實反映古籍中的文字實態(tài)。這是一個在統(tǒng)一框架下逐漸完備的過程,需要統(tǒng)一工具(字符制作及管理軟件)分布制作、集中審核、共享使用,還需要提供有效查詢和比對,避免重復(fù)與混亂。(比如可以上傳未確定的文字圖像到字符管理中心,經(jīng)過比對確實屬于字符庫中未有的字符后,分發(fā)到有資格進(jìn)行字符制作的節(jié)點進(jìn)行制作,經(jīng)過審查再加入字符庫,同時發(fā)布到OCR圖文集和校對字符集中……)
在解決足夠大字符集策略 (而非完整的大字符集)之后,便可以進(jìn)行由圖像向字符的轉(zhuǎn)換。(可以通過必要的技術(shù)協(xié)議,充分利用已有的字符資源。)基本的程序是,可以先用OCR系統(tǒng)識別大部分,作為一個基礎(chǔ),再將原圖像和OCR的結(jié)果同時發(fā)布在網(wǎng)絡(luò)上,再進(jìn)行網(wǎng)絡(luò)化的有序的人工審校。這是巨大的工程,可以借鑒一些開放式百科網(wǎng)站的全球(網(wǎng)絡(luò))協(xié)作模式,加強(qiáng)審校管理。
這個過程與字符集的研制與管理,是交叉、雙向的。
讓操作系統(tǒng)支持能夠滿足古籍需要的超級大字庫,是不現(xiàn)實的。只能采用“外掛”形式,而讓每個有古籍需求的系統(tǒng)都安裝超級大字庫,成本也是相當(dāng)高的??梢栽诓煌墓偶畔鬏攩卧獌?nèi)包含環(huán)境信息,在需要時將所需要的字符等資源傳遞過去,并后臺調(diào)整終端的系統(tǒng)狀態(tài)。
有關(guān)滿足古籍需要的字符集的研制、管理與使用,古籍文字校對,都以網(wǎng)絡(luò)環(huán)境為基礎(chǔ),進(jìn)行網(wǎng)絡(luò)化的處理。
(三)古籍內(nèi)容的網(wǎng)絡(luò)化整理
有了前兩項工程的基礎(chǔ),古籍的微觀整理和一些高級的宏觀整理,便可利用網(wǎng)絡(luò)進(jìn)行。
網(wǎng)絡(luò)中有了總體的目錄、版本信息,有了原態(tài)轉(zhuǎn)錄的古籍圖文影像/圖像,有了經(jīng)過字符化的原態(tài)古籍文字,可以查到同種古籍的不同版本,可以查到可引證的其他古籍,有各種工具書,便具備了校勘、標(biāo)點等的條件。(工具書數(shù)字化是古籍整理的輔助工程,其中有些工具書本身就是古籍。)
可以通過一定的程序,選擇底本,列出所有參校本、參考本、相關(guān)資料,再通過一定的程序確定初始整理者,后續(xù)整理者(完善者),再通過一定的程序確定審訂者,同時通過技術(shù)手段自動記錄???、標(biāo)點過程,保存經(jīng)過審核的有價值的不同意見,開放評論……,通過嚴(yán)格的權(quán)限管理,便可以網(wǎng)絡(luò)環(huán)境下進(jìn)行古籍的??薄Ⅻc校等工作。
當(dāng)然,這需要相應(yīng)的程序和管理支持。最關(guān)鍵的是古籍整理者的觀念要轉(zhuǎn)變,要有團(tuán)隊協(xié)作精神,在網(wǎng)絡(luò)化整理方式下,一個項目不會是一個人從頭做到尾的,整理工作可以根據(jù)不同的策略進(jìn)行分解,而系統(tǒng)會將每個有貢獻(xiàn)者忠實地記錄在案。(可以匿名或者筆名,但后臺注冊是實名。)
可以對校勘、標(biāo)點的古籍進(jìn)行質(zhì)量分級管理,對不同級別可以進(jìn)行不同的操作。比如經(jīng)過??薄?biāo)點的古籍在通過最高級別的嚴(yán)格審訂后,可以被視為“標(biāo)準(zhǔn)版本”(第一屆和第二屆“中國古籍?dāng)?shù)字化國際學(xué)術(shù)研討會”提出了“古籍電子定本工程”概念)[10],雖然依然永久地處于不斷優(yōu)化之中,但可開放全部功能,提供給公眾進(jìn)行全面利用。
而過去進(jìn)行的輯佚、分類匯集等等比較高級的古籍整理,只需通過網(wǎng)絡(luò)預(yù)先申請關(guān)鍵詞,通過審核后,整理者通過專用界面在古籍內(nèi)容相應(yīng)的地方進(jìn)行關(guān)鍵詞標(biāo)注等操作就行了,而無需實際另行抄錄。使用者需要某類資料,比如有關(guān)“徽州”的內(nèi)容,只需簡單地在關(guān)鍵詞列表中查到“徽州”一詞進(jìn)行點擊,而且可以進(jìn)行條件精確限定,便能準(zhǔn)確找到需要的資料。如果沒有某關(guān)鍵詞,可以進(jìn)行申請,發(fā)布消息讓全網(wǎng)絡(luò)進(jìn)行標(biāo)注。在使用過程如果發(fā)現(xiàn)標(biāo)注不當(dāng),可以通過一定的程序進(jìn)行糾正。
整理者越多,使用者越多,被發(fā)掘出來的信息就越多,最終的質(zhì)量就會越高。
統(tǒng)而言之,可以按照統(tǒng)一的規(guī)范,在互聯(lián)網(wǎng)上建立古籍整理網(wǎng)絡(luò)。對于古籍的一切整理活動,都可以在這個網(wǎng)絡(luò)中通過一定的規(guī)程進(jìn)行。這個網(wǎng)絡(luò)有全面開放的前臺界面和嚴(yán)格的后臺管理。前臺界面是人與古籍信息、古籍打交道,后臺管理是對人和古籍及其相關(guān)信息進(jìn)行管理,管理依據(jù)統(tǒng)一的規(guī)范和協(xié)議。人的行為有旁觀,有議論或評論,有各級整理操作,有后臺處理……而信息有:完善的古籍目錄著錄信息,有古籍圖文的數(shù)字化影像/圖像,有字符化的古籍原始文字,有處于正在校勘、標(biāo)點過程中的古籍內(nèi)容,有讓大家審查的點校成果,有通過審查的古籍標(biāo)準(zhǔn)版本,有各種整理操作規(guī)程,有整理需要用到各種輔助資源,有各環(huán)節(jié)處理的歷史信息……
將過去已經(jīng)整理的古籍,重新發(fā)布到網(wǎng)絡(luò)上,在這基礎(chǔ)上進(jìn)行網(wǎng)絡(luò)化的完善??梢詫⑦^去的古籍整理成果納入網(wǎng)絡(luò)化的古籍整理體系之中。
(四)網(wǎng)絡(luò)化的古籍出版
從上文我們可以發(fā)現(xiàn),古籍的網(wǎng)絡(luò)化整理,同時又是網(wǎng)絡(luò)化的古籍出版。
具體來講,涉及出版的有:總體的目錄(相當(dāng)于目錄與版本著作),原始圖文數(shù)字化影像/圖像(相當(dāng)于影印本),原始文字字符化文檔(相當(dāng)于原樣排印本),經(jīng)過審訂的“標(biāo)準(zhǔn)”文檔(相當(dāng)于點校本),各種動態(tài)查詢、篩選(相當(dāng)于分類索引),各種關(guān)鍵詞標(biāo)注(相當(dāng)于匯輯),各環(huán)節(jié)歷史記錄(相當(dāng)于匯校匯評)……
發(fā)布到網(wǎng)絡(luò)上的古籍,在前端的頁面呈現(xiàn)方式上,與傳統(tǒng)的紙質(zhì)書的頁面有許多不同的地方,比如它可以進(jìn)行“超級連接”,可以折疊、浮現(xiàn)、縮放等等動態(tài)化處理等等。與傳統(tǒng)出版相比有一個最大的不同是它還多出了個“后臺”狀態(tài),也就是在計算機(jī)及網(wǎng)絡(luò)的內(nèi)部的狀態(tài)。除了前面提到的它是電子/數(shù)字化的之外,其內(nèi)部結(jié)構(gòu)和相互關(guān)系,可以是十分復(fù)雜的,是由程序(計算機(jī)命令)控制的。而程序是由人預(yù)先編制,并可以提供界面由人進(jìn)行操作的,由此可以實現(xiàn)傳統(tǒng)紙質(zhì)呈現(xiàn)方式根本無法擁有的功能,并且,在前端顯示于一屏的內(nèi)容,也許來自相距十萬八千里的不同地方。還有許許多多的新特點,而最根本的是,網(wǎng)絡(luò)狀態(tài)下它既是“定”的又是“活”的,可以按一定的規(guī)則“成長”的,而傳統(tǒng)的紙本是“死”的。
網(wǎng)絡(luò)化的古籍整理過程,實際上也就是網(wǎng)絡(luò)化的古籍出版過程。由于網(wǎng)絡(luò)化的古籍整理是動態(tài)的、積累性的,網(wǎng)絡(luò)化的古籍出版,也同樣是動態(tài)的、積累性的。
(五)云計算與古籍整理、出版的網(wǎng)絡(luò)化
古籍目錄及版本等基本信息與海量的圖文內(nèi)容的數(shù)字化之間如何連接起來?數(shù)字化的圖文與對它們的操作如何管理?所需要的各種軟件如何配備?等等,這些都是網(wǎng)絡(luò)構(gòu)架的策略問題。這個問題也就是古籍的網(wǎng)絡(luò)化整理在技術(shù)上如何實現(xiàn)的問題。
近年來的計算機(jī)網(wǎng)絡(luò)及計算(處理)服務(wù)的概念中有個熱詞叫做“云計算”。[11]云計算的技術(shù)細(xì)節(jié)我們并不需要知道,我們只要知道它幾乎可以無所不能地滿足我們的任何存儲、計算(處理)要求就夠了。用云計算平臺解決古籍?dāng)?shù)字化的巨量信息的存儲與管理,整理過程以及整理后的利用所需要的巨量的計算(處理)能力,通用及專用軟件的開發(fā),全球訪問所要求的無縫、無礙接入等等,幾乎是唯一的最佳選擇。我國的云計算從2008年開始迅猛發(fā)展,完全可以輕松滿足古籍整理與出版網(wǎng)絡(luò)化的各種需求。
在上文討論普查信息登記、大字符集、關(guān)鍵詞標(biāo)注等問題時的策略等,也已經(jīng)體現(xiàn)了云計算的一些思想。為大家津津樂道的一些數(shù)字化古籍文本的具體利用,像全文/全庫搜索、模糊查詢、頻度統(tǒng)計等等,對于云計算,不過是十分基本的處理事務(wù)。
云計算只涉及深層的網(wǎng)絡(luò)構(gòu)架、技術(shù)應(yīng)用策略等等問題,整理者只需要提出問題和要求,其余讓技術(shù)人員在后臺實現(xiàn),并不需要改變終端個人的電腦使用方式。這是十分重要的。在云計算支持下的古籍網(wǎng)絡(luò)化整理,整理者、使用者個人改變的只是整體的策略觀念,而非具體的技術(shù)操作。對古籍整理而言,技術(shù)上也只是已有技術(shù)在新的策略下的重新組合而已。
現(xiàn)有古籍?dāng)?shù)字化下開發(fā)的技術(shù),幾乎無一例外地可以移植到古籍網(wǎng)絡(luò)化整理與出版概念下,已有的資源可以得到最大限度地利用。
計算機(jī)的最大特點是功能強(qiáng)大,計算機(jī)網(wǎng)絡(luò)的最大特點是“網(wǎng)”,它的節(jié)點是分布式的又是相互聯(lián)系的,而且是開放的,可以將全球各個角落的力量匯集起來。對于利用它進(jìn)行古籍整理而言,可以說只有我們想不到的事,而沒有它做不到的事。但是,每一個通過這張網(wǎng)參與古籍整理的人,如果各行其是,帶來的將是一片空前的混亂而不是我們期望的空前的好處,甚至根本無法進(jìn)行。在網(wǎng)絡(luò)的背后需要強(qiáng)大的、權(quán)威的組織者、管理者,需要共同的理念,需要強(qiáng)大的技術(shù)支持,需要專家團(tuán)隊起中堅作用。所有人都需要遵守統(tǒng)一的標(biāo)準(zhǔn)和約定,對參與者,對古籍本身,對整理過程及其各階段結(jié)果,都要有科學(xué)、嚴(yán)格的分級管理。而標(biāo)準(zhǔn)的制定,各項技術(shù)指標(biāo)的開發(fā)也將是十分復(fù)雜的事情。同時,通過網(wǎng)絡(luò)方式整理的古籍,它是“活”的,是成長的,隨著時間的增加,對其修正、優(yōu)化就越多,它就越完善。
通過網(wǎng)絡(luò)進(jìn)行古籍整理,相關(guān)信息空前公開,管理空前透明,可以消滅重復(fù)勞動,可以杜絕粗制濫造、越整理越亂的現(xiàn)象,網(wǎng)絡(luò)環(huán)境中的大量協(xié)同使整理的速度會是空前快的,整理可以最大程度社會化、由小眾的書齋進(jìn)入大眾的視野,可以充分地吸取其他專業(yè)的智慧與知識,整理成果可以不斷完善,可以真正為公眾使用而發(fā)揮更多更大的作用……。
古籍是全社會、全人類的共同財富,對其進(jìn)行整理與出版應(yīng)該是公益的。任何公益的事業(yè),都是全社會的,任何全社會的事業(yè),都應(yīng)該是由政府或者其他能夠代表公眾意愿的組織進(jìn)行組織、管理而讓全社會參與和監(jiān)督的。古籍整理和出版的網(wǎng)絡(luò)化,應(yīng)該由國家組織實施。國家對于古籍整理的規(guī)劃和管理,將更加有效。由于很大程度上利用了公共資源而非專門資源,使得總體成本將大幅減少。社會公眾參與度增加,全社會對我國傳統(tǒng)文化的認(rèn)識也必將大大深化。[12]
本文只是提出“古籍的網(wǎng)絡(luò)化整理和出版”的概念,從大的框架、策略方面提出古籍網(wǎng)絡(luò)化整理很粗略的設(shè)想,許多方面只是點到即止,其中已經(jīng)及應(yīng)該涉及的任何方面,都是十分復(fù)雜的課題,需要多方探討,不是短時間之內(nèi)能夠完全實現(xiàn)的。但是,筆者堅信,這是一個必然的發(fā)展方向,而且現(xiàn)在就可以開始進(jìn)行。
[1]耿元驪.三十年來中國古籍?dāng)?shù)字化研究綜述 (1979-2009)[OL].[2009-08-18].http:∥www.guoxue.com/ wk/000652.htm.
[2]陳力.中國古籍?dāng)?shù)字化的現(xiàn)狀與展望(上)[J].古籍整理出版情況簡報,2004(4);中國古籍?dāng)?shù)字化的現(xiàn)狀與展望(下)[J].古籍整理出版情況簡報,2004(5).
[3]藍(lán)永.論古籍整理的新方式[D].山東大學(xué),2007.
[4]國學(xué)網(wǎng).第二屆中國古籍?dāng)?shù)字化國際學(xué)術(shù)研討會隆重開幕[EB].[2009-8-18].http:∥www.guoxue.com/zt/gjszh02/.
[5]中國國家古籍保護(hù)中心.“全國古籍普查平臺”使用說明(試用本)[N/OL].[2010-05-25].http:∥www.nlc.gov.cn/ service/others/gujibhw/download/gjpc-11.pdf.
[6]daofu.方正宋體S-超大字符集的使用問題[EB/OL].[2011-3-25].http:∥www.pkucn.com/viewthread.php?tid=267029.
[7]代紅.我國漢字編碼標(biāo)準(zhǔn)的發(fā)展過程 [J].中國標(biāo)準(zhǔn)化,2008(7).[2008-12-9].http:∥www.cesi.a(chǎn)c.cn/cesi/fuwu/ hangyedongtai/2008/1229/4366.html.
[8]漢典網(wǎng).如何顯示和輸入七萬多漢字?[OB/OL].[2009-03-15].http:∥www.zdic.net/appendix/f18.htm.
[9]北大方正電子有限公司.方正超大字庫解決方案 [OB/ OL].[2009-05-11].http:∥www.foundertype.com/index/ oldbooks.html.
[10]楊琳.理想電子古籍的標(biāo)準(zhǔn)[J/OL].中國典籍與文化,2009(4).[2009-08-18].http:∥www.guoxue.com/ wk/000649.htm.
[11]Michael Mille.云計算[M].姜進(jìn)磊,孫瑞志,向勇,史美林,譯.北京:機(jī)械工業(yè)出版社,2009.
[12]王立清,魏瑞敏.我國古籍?dāng)?shù)字化建設(shè)國家控制與管理政策探討 [J/OL].情報資料工作,2009(2).[2009-08-18].http:∥www.guoxue.com/wk/000653.htm.
Z121
A
2095-0683(2011)04-0022-06
2011-06-27
徐力(1964-),男,四川渠縣人,海天出版社重大項目組副編審。
責(zé)任編校 秋晨