古籍善本數(shù)字化處理與數(shù)據(jù)庫構(gòu)建技術(shù)初探

2018-12-24 03:26:26肖志芳通訊作者

信息記錄材料 2018年12期

郭晨，肖志芳（通訊作者）

（井岡山大學電子與信息工程學院江西吉安 343009）

1 引言

古籍善本是古代文明的載體，是人類進步的歷史記錄，也是世界文明的珍貴遺產(chǎn)，這些遺產(chǎn)至今仍然發(fā)出璀璨的光芒[1]。其中引人矚目的一個實例就是諾貝爾獎獲得者屠呦呦在她的獲獎感言中講到“當年，每每遇到研究困境時，我就一遍又一遍溫習中醫(yī)古籍，正是葛洪《肘后備急方》有關‘青蒿一握，以水二升漬，絞取汁，盡服之’的記載，給了我靈感和啟發(fā)，并最終突破了科研瓶頸”。而當下，這些珍貴的古籍善本正遭受著失去一本將可能永不復見的極大危險。類似的悲劇已發(fā)生過多次，如：我國最早的科學巨著《墨子》、兵書始祖《陰符》、醫(yī)學巨著《黃帝外經(jīng)》以及《連山》、《歸藏》等。而當前存世的古籍善本隨著歲月的流逝也存在著巨大的保存挑戰(zhàn)。如何才能妥善的保存好這些歷史文明的無上瑰寶，并且讓它在新世紀里仍然能發(fā)揮出卓越的光芒，這是當下的重要研究課題，也是人類迫切需要解決的重要問題。

2 古籍善本的現(xiàn)狀

根據(jù)國家圖書館的有關統(tǒng)計，目前全國各地的國有館藏單位擁有的古籍善本總數(shù)超過五千萬冊。但是保存狀態(tài)參差不齊，相當一部分狀態(tài)堪憂。古籍善本從材質(zhì)上分為寫本、刻本、稿本、抄本和石印本，按照裝訂又有線裝、卷軸裝、經(jīng)折裝、包背裝之分[2]。當前，古籍善本保存的主要問題還在保管設備上，許多單位的古籍善本和普通書籍共用書庫，并且書庫環(huán)境較差，保存設備老化落后，管理人員不專業(yè)，并且存在著非專業(yè)的修補，具體呈現(xiàn)出來的問題包括：蟲蛀、鼠嚙、水濕、霉爛、老化、絮化、粘連、酸化、脆化以及各種污染損害等[3]，有些損毀嚴重的已無法進行正常的翻頁和移動。其中呈現(xiàn)出的具體問題都與紙質(zhì)密切關聯(lián)，古籍善本由于材質(zhì)成分使得紙質(zhì)的穩(wěn)定性存在著較大的風險，需要特別關注。

3 古籍善本數(shù)字化處理技術(shù)

古籍善本數(shù)字化處理就是借助現(xiàn)代信息技術(shù)對原書進行光學掃描，在此基礎上進一步進行數(shù)字化加工處理以形成基礎數(shù)據(jù)單元，形成數(shù)據(jù)庫。古籍善本的數(shù)字化技術(shù)主要包括古籍善本掃描技術(shù)、數(shù)字式照相技術(shù)和光學文字識別技術(shù)。

3.1 古籍善本掃描技術(shù)

圖形圖像是現(xiàn)代信息的主要信息形式，其具有的直觀性是其他信息形式無法比擬的，所以才有了“有圖有真相”的論點。事實上幾乎所有人都更容易接收來自于視角的感受，人們對于它的記憶更加深刻而持久。由于現(xiàn)代信息社會是一個數(shù)字的時代，所以各種圖像都需要進

行所謂的數(shù)字化處理。數(shù)字處理簡單來說就是把一副物理存在的圖像編輯成計算機可以打開和還原的圖像。通過掃描儀，以像素為最小單位記錄下圖像的每一個坐標位置、亮度以及相關顏色信息。具體流程是通過對物理圖像進行光學掃描得到光學圖像，然后利用光電轉(zhuǎn)換器把光學圖像轉(zhuǎn)換成模擬電信號，進而進行數(shù)/模轉(zhuǎn)換，把模擬電信號轉(zhuǎn)換成數(shù)字電信號，最后通過計算機接口把數(shù)字電信號轉(zhuǎn)變成數(shù)字圖像，如下圖1所示。

圖1 掃描流程圖

3.2 光學文字識別技術(shù)

光學文字識別技術(shù)（Optical Character Recognition，簡稱 OCR）是從圖片中獲取文字的主要技術(shù)手段，它受到OCR軟件識別精度的影響。由于古籍善本的字體多樣，印刷效果也差距很大，所以需要綜合多方面的因素進行考慮，將光學字元識別、人工輸入校正等相關技術(shù)結(jié)合起來。同時在OCR識別之后，需要進一步引入全文比對和人工校對進行修正。完整的光學文字識別是從古籍善本圖像中的文字以及書寫符號的切割開始，把數(shù)字圖像中的每一個文字每一個符號截斷下來，進而通過模式匹配轉(zhuǎn)換成可識別的文字和符號保存在文字庫中。這個過程同樣可能存在著誤識別，因此需要保持切割的文字，以便后續(xù)進一步進行人工校對。

4 古籍善本的數(shù)據(jù)庫構(gòu)建

古籍善本的價值在于傳承、研究和教學，進一步拓展之后可具有共享、交換和流通功能[4]。因此為了讓古籍善本能更好的發(fā)揮其文化價值的同時兼顧保護，有必要利用現(xiàn)代信息技術(shù)進行處理之后再進行發(fā)布。古籍善本的數(shù)字化儲存可以利用開放源代碼的DSpace數(shù)字存儲系統(tǒng)[5]。DSpace數(shù)字存儲系統(tǒng)是2003年麻省理工學院與惠普公司共同研發(fā)的一種開源系統(tǒng)，是當前使用最為廣泛的資源管理與再利用系統(tǒng)。DSpace數(shù)字存儲系統(tǒng)適用于數(shù)字化數(shù)據(jù)庫的構(gòu)建并且提供了較為彈性的定制化模塊。DSpace數(shù)字存儲系統(tǒng)主要分為社區(qū)（Community）、集合（Collection）兩種框架。其中社區(qū)又可以包含社區(qū)或者多個集合，而每一個集合又由一系列的項目（Item）組成，項目進一步包含文件和元數(shù)據(jù)兩種。DSpace數(shù)字存儲系統(tǒng)的組織樹[6]如下圖2所示。

圖2 DSpace數(shù)字存儲系統(tǒng)的組織樹

以內(nèi)容管理發(fā)布為設計目標，對數(shù)字資源進行收集、存儲、索引、保存和重新發(fā)布。根據(jù)《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》和《信息與文獻—文件檔案數(shù)字化實施指南》等相關標準，遵循分步實施、標準統(tǒng)一、數(shù)據(jù)共享的原則，以基于元數(shù)據(jù)抽取的多條件整合為方式，建立古籍善本數(shù)據(jù)庫。具體的建設將首先對需求進行分析，然后經(jīng)過專業(yè)的軟件對需求進行建模之后，形成古籍善本數(shù)據(jù)庫的需求規(guī)格說明書，進而根據(jù)需求規(guī)格說明書進行古籍善本數(shù)據(jù)庫的構(gòu)建，在進行必要的測試之后上線運行。

5 總結(jié)

本文以古籍善本的保存現(xiàn)狀為基礎，繼而探討了古籍善本的數(shù)字化處理技術(shù)和古籍善本的數(shù)據(jù)庫構(gòu)建方法等關聯(lián)技術(shù)。本文的研究為古籍善本的數(shù)字化保存和開發(fā)利用提供了一些新的思路，具有一定的指導價值。