●胡以濤a,宋葉b
(南京農(nóng)業(yè)大學(xué)a.圖書(shū)館;b.人文社會(huì)科學(xué)學(xué)院,南京210095)
抄寫(xiě)本方志古籍?dāng)?shù)字化整理與實(shí)踐
●胡以濤a,宋葉b
(南京農(nóng)業(yè)大學(xué)a.圖書(shū)館;b.人文社會(huì)科學(xué)學(xué)院,南京210095)
古籍;數(shù)字化;地方志;抄寫(xiě)本
簡(jiǎn)要介紹了南京農(nóng)業(yè)大學(xué)抄寫(xiě)本地方志古籍?dāng)?shù)字化整理過(guò)程,并通過(guò)實(shí)踐摸索提出了“圖文對(duì)照+文檔附件”的整理模式,以期為類似古籍整理工作提供經(jīng)驗(yàn)借鑒。
隨著中文信息處理技術(shù)的日趨成熟,其應(yīng)用也從普通文本處理向古籍文本領(lǐng)域拓展,古籍?dāng)?shù)字化整理成為古籍保存利用的重要手段之一。由于古籍本身版本、形制、詞匯等差異性較大,普通的數(shù)字化加工整理方法并不完全適用于古籍整理。對(duì)古籍文獻(xiàn)如明清地方志進(jìn)行數(shù)字化加工時(shí),應(yīng)根據(jù)古籍的特點(diǎn),選擇適宜的整理方法。
上世紀(jì)五六十年代,著名農(nóng)史學(xué)家、中國(guó)農(nóng)業(yè)遺產(chǎn)研究室(現(xiàn)中華農(nóng)業(yè)文明研究院)創(chuàng)始人萬(wàn)國(guó)鼎教授組織專業(yè)研究人員60多名,分赴全國(guó)40多個(gè)城市、100多個(gè)文史單位,從8000多部方志中摘抄了3600多萬(wàn)字的農(nóng)史資料。該抄寫(xiě)本方志資料內(nèi)容涉及農(nóng)業(yè)生產(chǎn)的各個(gè)方面,以動(dòng)植物品種資源和相關(guān)的種植飼養(yǎng)技術(shù)為主,具有極高的科技、經(jīng)濟(jì)和史料價(jià)值,成為世界上唯一一套明清方志古籍農(nóng)業(yè)資料,受到國(guó)內(nèi)外相關(guān)學(xué)者的高度重視。然而由于這套保存于線裝書(shū)文庫(kù)的孤本農(nóng)業(yè)資料全由手工抄寫(xiě)而成,隨著時(shí)間的推移,紙質(zhì)日漸脆破,字跡逐漸模糊,亟待加強(qiáng)保護(hù)和搶救。開(kāi)展抄寫(xiě)本地方志數(shù)字化整理工作,能擴(kuò)大農(nóng)業(yè)科技古籍的共享范圍,提高公共服務(wù)水平,對(duì)于弘揚(yáng)我國(guó)傳統(tǒng)文化,為現(xiàn)代農(nóng)業(yè)的可持續(xù)發(fā)展服務(wù)具有重要意義,是一項(xiàng)十分迫切的工作。
近年來(lái),研究院在各級(jí)項(xiàng)目的支持下,從事過(guò)一部分地方志的數(shù)字化整理工作,已有一定的研究與實(shí)踐基礎(chǔ),如博士生衡中青關(guān)于地方志的研究,完成了《方志物產(chǎn)·廣東》信息系統(tǒng)的設(shè)計(jì)和構(gòu)建。[1]本文在借鑒前人研究的基礎(chǔ)上,參考古籍?dāng)?shù)字化整理的一般方法,如古籍?dāng)?shù)字化工作過(guò)程及相關(guān)元數(shù)據(jù)、建庫(kù)技術(shù)等介紹,[2]結(jié)合南京農(nóng)業(yè)大學(xué)明清方志農(nóng)業(yè)物產(chǎn)數(shù)據(jù)庫(kù)建設(shè)項(xiàng)目的具體實(shí)施實(shí)踐,進(jìn)一步梳理了地方志數(shù)字化整理的過(guò)程及要注意的關(guān)鍵問(wèn)題。
抄寫(xiě)本地方志,主要指人工摘抄的明清時(shí)期地方志資料,按歷史資料分期,其應(yīng)屬于古籍整理范疇。毛建軍認(rèn)為古籍?dāng)?shù)字化就是從利用和保護(hù)古籍的目的出發(fā),采用計(jì)算機(jī)技術(shù),將常見(jiàn)的語(yǔ)言文字或圖形符號(hào)轉(zhuǎn)化為能被計(jì)算機(jī)識(shí)別的數(shù)字符號(hào),從而制成古籍文獻(xiàn)書(shū)目數(shù)據(jù)庫(kù)和古籍全文數(shù)據(jù)庫(kù),用以揭示古籍文獻(xiàn)信息資源的一項(xiàng)系統(tǒng)工作。[3]
目前國(guó)內(nèi)主要采取三種整理模式,分別為圖像版、文字(全文)版、圖文版。這三種模式各有優(yōu)劣。(1)圖像版全文數(shù)字化古籍是指將古籍書(shū)頁(yè)進(jìn)行原文圖像掃描,存儲(chǔ)在光盤(pán)或計(jì)算機(jī)硬盤(pán)等介質(zhì)上,從而為讀者提供文字圖像信息服務(wù)。圖像版數(shù)字化古籍的優(yōu)勢(shì)是:技術(shù)實(shí)現(xiàn)容易,運(yùn)行成本低廉,可以保存古籍原貌;其缺陷是:占據(jù)空間大,不能檢索。(2)文字版數(shù)字化古籍是指將古籍書(shū)頁(yè)轉(zhuǎn)換成文本字符的形式,存儲(chǔ)在光盤(pán)或計(jì)算機(jī)硬盤(pán)等介質(zhì)上,并附加全文檢索和鏈接系統(tǒng)等功能,從而為讀者提供全文閱讀或全文檢索服務(wù)。文字版數(shù)字化古籍的優(yōu)勢(shì):儲(chǔ)存空間小,可以利用計(jì)算機(jī)進(jìn)行多角度、多范圍的檢索、排序、分析數(shù)據(jù),并可進(jìn)行編輯、打印,使用起來(lái)非常方便;其缺陷是:文字輸入難度較大,開(kāi)發(fā)成本高,不能保持古籍原貌。(3)圖文版數(shù)字化古籍就是圖像版與文字版的結(jié)合。圖文版數(shù)字化古籍將數(shù)據(jù)庫(kù)中加入了原文圖像,將全文檢索數(shù)據(jù)和底本圖像頁(yè)面版式相互對(duì)照,研究者可根據(jù)需要隨時(shí)參考原文圖像。顯然,圖文版數(shù)字化古籍是最理想的數(shù)字化古籍開(kāi)發(fā)模式,其投入也相對(duì)較多。
然而,由于古籍文本一般是繁體中文,且非常用字較多,盡管目前已開(kāi)發(fā)了中文超大字符集,如統(tǒng)一碼(Unicode)的CJK、CJK-ExtA、CJK-ExtB包括7萬(wàn)余漢字通用Unicode字體支持,但古籍文字的錄入與顯示依然是個(gè)難題。基于此,在抄寫(xiě)本地方志整理中,提出了改進(jìn)版的圖文版整理模式——“圖文對(duì)照+文檔附件”,即采用原始掃描圖像+簡(jiǎn)體中文文本+繁體中文文檔相結(jié)合的模式,既能實(shí)現(xiàn)圖文對(duì)照,又可以適應(yīng)簡(jiǎn)體中文檢索,最終還能充分利用繁體中文文檔。該模式生成的主要材料及獲取方法如下表所示。
表數(shù)字化整理后形成素材類型及目的
在抄寫(xiě)本地方志數(shù)字化過(guò)程中,通過(guò)分析地方志紙本材料,結(jié)合整理利用的需要,選擇合適的整理模式,在此基礎(chǔ)上制定加工整理具體流程(如圖1所示),其數(shù)字化整理過(guò)程包括以下四個(gè)階段。
圖1 地方志數(shù)字化流程
3.1 準(zhǔn)備階段
準(zhǔn)備階段需詳細(xì)了解地方志古籍的數(shù)量、紙質(zhì)情況、內(nèi)容體例、類型分布等,并根據(jù)共享使用的需要選擇合適的數(shù)字化整理模式。為了實(shí)現(xiàn)一次加工,多次使用,避免重復(fù)建設(shè),選擇了改進(jìn)型的圖文對(duì)照模式,即采用“圖文對(duì)照+文檔附件”的模式進(jìn)行整理,該模式能保證整個(gè)整理過(guò)程的高效率、最優(yōu)化,滿足不同用途對(duì)資源格式的需要。
3.2 加工階段
加工階段是數(shù)字化整理的基礎(chǔ)工作,只有獲得高質(zhì)量的原始圖像和精準(zhǔn)原文文字,才能確保后期建庫(kù)共享的質(zhì)量。
(1)圖像掃描處理。為了便于歸檔整理,本次整理按照抄寫(xiě)本地方志的省份建立一級(jí)文件夾,按照書(shū)籍的原始數(shù)字編號(hào)建立二級(jí)文件夾,然后掃描文件依次采用掃描軟件自動(dòng)流水生成,名稱為file0001. jpg~file9999.jpg。掃描分辨率設(shè)置為300dpi,真彩模式,保存為jpg文件,每頁(yè)原始圖像文件大約在4M左右。這樣一本書(shū)掃描完成后,掃描圖像數(shù)據(jù)可以直接用來(lái)原始存檔,可適用于圖像打印、印刷出版等。后期為了網(wǎng)上發(fā)布的需要,采用photoshop的批處理功能,把每本書(shū)的掃描圖像文件夾批量生成小圖片,依次命名為sfile0001.jpg~sfile9999.jpg。
(2)文字錄入校對(duì)。手抄本方志由人工抄寫(xiě)完成,考慮到其字體差異以及繁體中文的字體構(gòu)造復(fù)雜等特點(diǎn),采用OCR文字識(shí)別效果不理想,因此,文字錄入校對(duì)工作主要采用人工手動(dòng)完成。為防止錄入時(shí)文件名與頁(yè)面不對(duì)應(yīng),提高錄入質(zhì)量,保證錄入后文件中的復(fù)雜繁體中文的正常查看顯示,設(shè)計(jì)了計(jì)算機(jī)自動(dòng)生成書(shū)頁(yè)圖像對(duì)應(yīng)文檔的批處理應(yīng)用程序(如圖2所示)。首先建一個(gè)空word文檔templete.doc,通過(guò)批處理程序CreatDco.bat,根據(jù)掃描完成的原始數(shù)據(jù)圖像文件名,批量生成與原圖像文件同名的Word文檔,然后將生成的文檔發(fā)給錄入人員,由錄入人員在空白word文里錄入相應(yīng)的繁體中文,從而確保了文檔與圖像的正確對(duì)照。
特別需要注意的是:在進(jìn)行上述工作之前,需要在常用Windows xp系統(tǒng)下安裝支持Unicode的字體文件和安裝合適的輸入法,以確保系統(tǒng)能正常顯示、輸入手稿中的冷僻繁簡(jiǎn)字。[4]
文字錄入工作完成后,由熟悉古籍及古漢語(yǔ)知識(shí)的本專業(yè)研究生或?qū)I(yè)教師擔(dān)任文字校對(duì)員,可通過(guò)圖文對(duì)照模式進(jìn)行一次全面校稿,并由審核老師對(duì)完成任務(wù)進(jìn)行二校及抽樣校對(duì),確保正確率在98%以上,以保證最終完成的古籍?dāng)?shù)字化資源的質(zhì)量。
圖2 生成圖像對(duì)應(yīng)文件名的空白Word文檔批處理程序
3.3 建庫(kù)階段
建庫(kù)階段主要進(jìn)行整個(gè)數(shù)字化加工支撐平臺(tái)的開(kāi)發(fā)或選擇。
(1)系統(tǒng)選擇。古籍?dāng)?shù)字化工作已有20多年的歷史,已有一些成熟的商業(yè)化加工平臺(tái)。本次加工選擇了由北京新星快威數(shù)碼技術(shù)有限公司開(kāi)發(fā)的“DⅠPS數(shù)字文獻(xiàn)處理系統(tǒng)3.0”,其集成了信息資源的采集挖掘、加工整理、數(shù)據(jù)庫(kù)建設(shè)管理、內(nèi)容發(fā)布與檢索利用等功能,適應(yīng)大量資源管理。
(2)分類建庫(kù)。通過(guò)選擇的平臺(tái),可以按照系統(tǒng)已有模版,建立地方志圖文數(shù)據(jù)庫(kù)。首先根據(jù)資源特點(diǎn),參考系統(tǒng)提供的數(shù)據(jù)庫(kù)例子和自己的經(jīng)驗(yàn),設(shè)計(jì)數(shù)據(jù)庫(kù)的庫(kù)結(jié)構(gòu)(包括地方志圖文庫(kù)字段,每個(gè)字段的類型、作用,庫(kù)的顯示、檢索風(fēng)格等等);其次制定方志文獻(xiàn)的分類表,如一級(jí)分類采用方志綜合、方志物產(chǎn)、方志分類,二級(jí)分類按照省份設(shè)立,分別為全國(guó)、北京、上海、天津、江蘇....;然后創(chuàng)建數(shù)據(jù)庫(kù);最后在“數(shù)據(jù)加工系統(tǒng)”中獲取數(shù)據(jù)庫(kù)庫(kù)結(jié)構(gòu)。
(3)標(biāo)引入庫(kù)。標(biāo)引入庫(kù)前,為了實(shí)現(xiàn)任務(wù)的批量處理,往往需要對(duì)加工階段形成的圖像和文字?jǐn)?shù)據(jù)做進(jìn)一步處理。圖像的處理,可按照書(shū)頁(yè)掃描圖像對(duì)應(yīng)的文件夾,采用photoshop進(jìn)行批處理;文字的處理,主要是借助已完成審校錄入的繁體中文文檔,通過(guò)批處理工具,如文檔批處理工具(BacthDoc5.9)批量進(jìn)行繁簡(jiǎn)轉(zhuǎn)化、類型轉(zhuǎn)化,把doc文檔轉(zhuǎn)換為txt文檔。接下來(lái)通過(guò)批量上傳工具,開(kāi)展入庫(kù)工作,在“數(shù)據(jù)加工系統(tǒng)”中新建作業(yè)、導(dǎo)出經(jīng)處理審校的資源,并進(jìn)行一定的分類、標(biāo)引后進(jìn)行資源上載,上傳到系統(tǒng)平臺(tái)對(duì)應(yīng)目錄即可。
3.4 共享階段
根據(jù)共享的需要,一般以網(wǎng)上數(shù)據(jù)庫(kù)形式和單機(jī)光盤(pán)形式進(jìn)行發(fā)布。網(wǎng)上數(shù)據(jù)庫(kù)形式,是直接利用該平臺(tái)實(shí)現(xiàn)共享發(fā)布;單機(jī)光盤(pán)形式,是采用本平臺(tái)配套的光盤(pán)加工生成工具直接生成。
以上簡(jiǎn)要介紹了南京農(nóng)業(yè)大學(xué)抄寫(xiě)本地方志古籍?dāng)?shù)字化整理的過(guò)程,并通過(guò)實(shí)踐摸索提出了優(yōu)化升級(jí)的改進(jìn)版圖文對(duì)照模式,為類似古籍的數(shù)字化整理提供了一套行之有效地解決方案。古籍?dāng)?shù)字化整理的過(guò)程繁多,在具體加工整理實(shí)踐過(guò)程中,要求很高的專業(yè)基礎(chǔ)知識(shí),需要投入大量的人力物力,盲目行事或浮淺理解容易造成加工質(zhì)量粗糙、重復(fù)投資。建議在古籍?dāng)?shù)字化整理工作中,應(yīng)該注重分工與協(xié)作建設(shè),注重質(zhì)量把控,制定統(tǒng)一標(biāo)準(zhǔn),減少低水平重復(fù)。在古籍選擇上應(yīng)選擇急需保護(hù)、利用價(jià)值高的文獻(xiàn),開(kāi)展相關(guān)工作,以取得更大的效益。
[1]衡中青.地方志知識(shí)組織及內(nèi)容挖掘研究——以《方志物產(chǎn)廣東》為例[D].南京:南京農(nóng)業(yè)大學(xué),2007.
[2]曹玲.農(nóng)業(yè)古籍?dāng)?shù)字化整理研究[D].南京:南京農(nóng)業(yè)大學(xué),2006.
[3]毛建軍.古籍?dāng)?shù)字化的概念與內(nèi)涵[J].圖書(shū)館理論與實(shí)踐,2007(4):82-84.
[4]徐健,肖卓.古籍?dāng)?shù)字化中的漢字錄入與顯示[J].圖書(shū)與情報(bào),2006(6):79-82.
G250.74
A
1005-8214(2014)08-0101-03
胡以濤(1980-),男,南京農(nóng)業(yè)大學(xué)圖書(shū)館館員;宋葉(1983-),女,南京農(nóng)業(yè)大學(xué)人文社會(huì)科學(xué)學(xué)院講師。
2013-07-15[責(zé)任編輯]李金甌
本文系中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金、南京農(nóng)業(yè)大學(xué)人文社會(huì)科學(xué)重大招標(biāo)項(xiàng)目“明清方志數(shù)字化整理”(項(xiàng)目編號(hào):SKZD201202)研究成果之一。