(中山大學(xué)資訊管理學(xué)院 廣東廣州 510006)
大型文獻(xiàn)數(shù)字化項(xiàng)目的理論框架至今未能得到明晰界定,直接影響了大型文獻(xiàn)數(shù)字化項(xiàng)目的建設(shè)和數(shù)字資源的共建共享。構(gòu)建大型文獻(xiàn)數(shù)字化項(xiàng)目的理論框架,首先應(yīng)該界定大型文獻(xiàn)數(shù)字化項(xiàng)目的概念,在此基礎(chǔ)上,對(duì)大型文獻(xiàn)數(shù)字化項(xiàng)目的性質(zhì)、類型、意義進(jìn)行梳理與總結(jié),并且對(duì)相關(guān)術(shù)語進(jìn)行辨析,從而為大型文獻(xiàn)數(shù)字化項(xiàng)目的建設(shè)奠定理論基礎(chǔ)。
國內(nèi)外學(xué)者對(duì)于“大型文獻(xiàn)數(shù)字化項(xiàng)目”概念的界定,大體可分為“過程”、“技術(shù)”、“資源”、“內(nèi)容組織”4個(gè)維度。
1.1.1 過程說
很多學(xué)者都認(rèn)為大型文獻(xiàn)數(shù)字化項(xiàng)目是一種生產(chǎn)過程:Karen Coyle認(rèn)為大型數(shù)字化項(xiàng)目就是以工業(yè)化生產(chǎn)模式對(duì)資料進(jìn)行數(shù)字轉(zhuǎn)換,在這一過程中人工干預(yù)被降到最低〔1〕。Paul Conway認(rèn)為大型文獻(xiàn)數(shù)字化項(xiàng)目是一種超大規(guī)模的轉(zhuǎn)換過程,這種以“生產(chǎn)為導(dǎo)向”的數(shù)字化需要嚴(yán)格的生產(chǎn)流程規(guī)劃和適合的外包服務(wù)商〔2〕。David R Meincke認(rèn)為數(shù)字化過程應(yīng)該是以生產(chǎn)為導(dǎo)向,即需要具備高度自動(dòng)化,而且必須以海量資源為基礎(chǔ),具備高速度〔3〕。從中可以總結(jié)出,作為一種生產(chǎn)過程,大型文獻(xiàn)數(shù)字化項(xiàng)目強(qiáng)調(diào)的是高度自動(dòng)化的工業(yè)化生產(chǎn)模式,能夠?qū)崿F(xiàn)海量資源的數(shù)字化,并且具備較高的生產(chǎn)效率。
1.1.2 技術(shù)說
技術(shù)因素是大型文獻(xiàn)數(shù)字化項(xiàng)目概念的核心。Karen Coyle認(rèn)為大型文獻(xiàn)數(shù)字化項(xiàng)目利用光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)對(duì)掃描圖片進(jìn)行識(shí)別從而形成可檢索文檔而不必再進(jìn)行修改〔4〕。John A.Kunze認(rèn)為“所謂大型數(shù)字化,就是在世界主要的圖書館對(duì)報(bào)紙、圖書、視頻等文獻(xiàn)進(jìn)行大規(guī)模的掃描”〔5〕。潘德利提出“古籍?dāng)?shù)字化就是采用計(jì)算機(jī)技術(shù)對(duì)古籍文獻(xiàn)進(jìn)行加工與處理,制成古籍文獻(xiàn)書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻(xiàn)中蘊(yùn)涵的極其豐富的信息資源,為古籍開發(fā)利用奠定良好的基礎(chǔ)”〔6〕。李國新強(qiáng)調(diào)“數(shù)字化古籍必須對(duì)古籍原典做出具有計(jì)算機(jī)瀏覽、檢索、利用特點(diǎn)的深度開發(fā)。古籍?dāng)?shù)字化應(yīng)具備4個(gè)基本特征,即實(shí)現(xiàn)文本字符的數(shù)字化,具有基于超鏈接設(shè)計(jì)的瀏覽閱讀環(huán)境,具有強(qiáng)大的檢索功能,具有研究支持功能”〔7〕。劉琳、吳洪認(rèn)為“所謂古籍?dāng)?shù)字化,就是將古代典籍中以文字符號(hào)記錄的信息輸入計(jì)算機(jī),從而實(shí)現(xiàn)了整理、存儲(chǔ)、傳輸、檢索等手段的計(jì)算機(jī)化”〔8〕。毛建軍指出“古籍?dāng)?shù)字化就是從利用和保護(hù)古籍的角度出發(fā),采用計(jì)算機(jī)技術(shù),將常見的語言文字或圖形符號(hào)轉(zhuǎn)化為能被計(jì)算機(jī)識(shí)別的數(shù)字符號(hào),從而制成古籍文獻(xiàn)書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻(xiàn)信息資源的一項(xiàng)系統(tǒng)工作”〔9〕。從中可以總結(jié)出,大型文獻(xiàn)數(shù)字化項(xiàng)目所需要的關(guān)鍵技術(shù)有轉(zhuǎn)換技術(shù)如掃描、拍照、光學(xué)字符識(shí)別技術(shù)、信息組織和檢索技術(shù)以及數(shù)字資源長期保存技術(shù)等。
1.1.3 資源說
文獻(xiàn)資源是大型文獻(xiàn)數(shù)字化項(xiàng)目的客體,也是概念界定的主要對(duì)象。Karen Coyle認(rèn)為大型文獻(xiàn)數(shù)字化項(xiàng)目是將整個(gè)圖書館館藏不加選擇地轉(zhuǎn)換。大型文獻(xiàn)數(shù)字化項(xiàng)目的目標(biāo)不是創(chuàng)造館藏而是全部數(shù)字化,即數(shù)字化所有印刷型文獻(xiàn)〔10〕。Paul Conway認(rèn)為大型文獻(xiàn)數(shù)字化就是數(shù)字化成果的不斷積累,也可以稱之為對(duì)海量資源的數(shù)字化〔11〕。David R Meincke針對(duì)圖片資源提出大型文獻(xiàn)數(shù)字化項(xiàng)目需具備一定的數(shù)量,而且相對(duì)于一些小型的選擇性數(shù)字化項(xiàng)目而言,數(shù)字化應(yīng)該是不加區(qū)別〔12〕。宋琳琳等結(jié)合大型文獻(xiàn)數(shù)字化項(xiàng)目開展情況的調(diào)研,認(rèn)為“資源選擇是大型文獻(xiàn)數(shù)字化項(xiàng)目的必要組成部分”〔13〕。綜上而言,大型文獻(xiàn)數(shù)字化項(xiàng)目的資源首先必須以海量資源為基礎(chǔ),其次是否需要對(duì)資源進(jìn)行選擇,成為分歧的焦點(diǎn)。
1.1.4 內(nèi)容組織說
徐清通過對(duì)古籍?dāng)?shù)字化概念的分析總結(jié)了研究趨勢(shì),認(rèn)為“與以往的研究側(cè)重于從存儲(chǔ)介質(zhì)改變的角度、從技術(shù)層面來認(rèn)知所不同的是,近年來的研究者更側(cè)重于從對(duì)古籍資源深度開發(fā)的角度來解釋,賦予了古籍?dāng)?shù)字化更鮮明的學(xué)術(shù)特性和文化色彩”〔14〕。Paul Conway認(rèn)為大型文獻(xiàn)數(shù)字化項(xiàng)目需要對(duì)重要的資源進(jìn)行組織以支持未來使用〔15〕。David R Meincke認(rèn)為數(shù)字化的數(shù)量和高速度必須以保證高質(zhì)量元數(shù)據(jù)為前提〔16〕。李明杰認(rèn)為“從本質(zhì)上講,古籍?dāng)?shù)字化不是一個(gè)單純的技術(shù)問題,而是一個(gè)文化問題和學(xué)術(shù)問題。古籍?dāng)?shù)字化是以保存與普及傳統(tǒng)文化為基本目的的,以知識(shí)發(fā)現(xiàn)的功能服務(wù)學(xué)術(shù)研究為最高目標(biāo)的,在對(duì)傳統(tǒng)紙質(zhì)古籍進(jìn)行??闭淼幕A(chǔ)上,利用計(jì)算機(jī)技術(shù)將其轉(zhuǎn)換成可讀、可檢索及實(shí)現(xiàn)了語義關(guān)聯(lián)和知識(shí)重組的數(shù)字化信息的過程”〔17〕。陳力認(rèn)為“古籍?dāng)?shù)字化工作應(yīng)該是數(shù)字圖書館建設(shè)的重要組成部分,古籍的特殊性應(yīng)在統(tǒng)一標(biāo)準(zhǔn)規(guī)范的框架下進(jìn)行細(xì)化,采用開放式的、分層次的、結(jié)構(gòu)化的數(shù)據(jù)庫來組織和揭示資源,要特別注意在古籍與古籍之間、古籍與現(xiàn)代普通圖書之間建立起有機(jī)的聯(lián)系,以為讀者提供一個(gè)完整的知識(shí)體系”〔18〕。綜上所述,大型文獻(xiàn)數(shù)字化項(xiàng)目應(yīng)該加強(qiáng)對(duì)資源內(nèi)容的組織,建立高質(zhì)量的元數(shù)據(jù)、增強(qiáng)其與其它資源的整合。
綜合上述學(xué)者對(duì)于大型文獻(xiàn)數(shù)字化項(xiàng)目的概念界定,本文首先從語詞切分的角度,將其劃分為“大型”、“文獻(xiàn)”、“數(shù)字化”、“項(xiàng)目”4個(gè)維度,并分別解釋,然后再對(duì)其特點(diǎn)進(jìn)行總結(jié)歸納,從而定義大型文獻(xiàn)數(shù)字化項(xiàng)目的概念。
1.2.1 大型
《現(xiàn)代漢語詞典》對(duì)“大型”解釋為“形狀大或規(guī)模大”〔19〕。在本文中,“大型”作為修飾詞,可以從以下幾個(gè)方面體現(xiàn):
(1)數(shù)量多
很多大型文獻(xiàn)數(shù)字化項(xiàng)目以數(shù)量多而著稱。Google Book Search于2010年8月發(fā)表聲明“經(jīng)過嚴(yán)密的統(tǒng)計(jì),全球的圖書共有129,864,880 冊(cè)”〔20〕。Google Book Search 通過和出版商及圖書館的合作協(xié)議,預(yù)計(jì)數(shù)字化圖書數(shù)量將達(dá)到3000萬冊(cè);目前已和G5圖書館合作達(dá)成數(shù)字化1500萬冊(cè)圖書的合作協(xié)議?!懊绹洃洝?American Memory)已擁有數(shù)字化資源總量接近900萬冊(cè)〔21〕;截至2011年10月,美國加州大學(xué)圖書館已完成3,143,711冊(cè),1,037,424,630 頁資源的數(shù)字化,其中公共領(lǐng)域的資源達(dá)475,200 冊(cè)〔22〕。
(2)速度快
除了數(shù)字化資源總量超過百萬冊(cè),其年均數(shù)字化速度也十分可觀,IMLS發(fā)布的《美國博物館與圖書館技術(shù)與數(shù)字化環(huán)境掃描》(Status of Technology and Digitization in the Nation's Museums and Libraries)指出,圖書館、博物館和檔案館均開展了數(shù)字化工作,而且數(shù)字化的規(guī)模日益擴(kuò)大,分別有16.5%的博物館、12.2%的大型公共圖書館、19.3%的大學(xué)圖書館和12%的檔案館年均數(shù)字化的數(shù)量超過25,000頁〔23〕。所以,本文所指的海量資源即參照上述項(xiàng)目,限定為在建大型文獻(xiàn)數(shù)字化的生產(chǎn)能力接近2萬頁,已建成的大型數(shù)字化項(xiàng)目的數(shù)字化總量應(yīng)該接近一百萬冊(cè)。
(3)規(guī)模大
這主要是指大型文獻(xiàn)數(shù)字化項(xiàng)目的參與機(jī)構(gòu)眾多。大型文獻(xiàn)數(shù)字化項(xiàng)目肩負(fù)著保護(hù)文化遺產(chǎn)的重要使命,單憑一個(gè)機(jī)構(gòu)很難實(shí)現(xiàn),所以需要相關(guān)機(jī)構(gòu)合作完成。合作建設(shè)大型文獻(xiàn)數(shù)字化項(xiàng)目已成為一種趨勢(shì);以Google Book Search為例,其合作的對(duì)象主要是出版社、圖書館和作者,其官方網(wǎng)站顯示,100多個(gè)國家或地區(qū)的10,000多個(gè)出版商和作者參與了該項(xiàng)目;截至2011年10月,與其簽訂合作協(xié)議的圖書館共有28個(gè),其中包括7個(gè)美國以外的圖書館:牛津大學(xué)(英國)、馬德里康普魯騰塞大學(xué)(西班牙)、加泰羅尼亞國立圖書館(西班牙)、洛桑大學(xué)圖書館(瑞士)、根特大學(xué)(比利時(shí))和慶應(yīng)義塾大學(xué)(日本)〔24〕。為了實(shí)現(xiàn)科羅拉多州歷史、文化、政府和工業(yè)等相關(guān)領(lǐng)域資源的保存,科羅拉多州的圖書館、博物館、檔案館和歷史機(jī)構(gòu)合作開展科羅拉多數(shù)字化項(xiàng)目(Colorado Digitization Project),不僅有利于文化遺產(chǎn)的保存,同時(shí)也支持教育和科研的發(fā)展〔25〕。所以,參與機(jī)構(gòu)的數(shù)量及多樣化也是限定大型文獻(xiàn)數(shù)字化項(xiàng)目的一個(gè)必要條件。
(4)影響力大
這主要體現(xiàn)為使用量大和獲得充足的經(jīng)費(fèi)支持。歐洲數(shù)字圖書館開館當(dāng)天,由于用戶訪問量超過網(wǎng)站設(shè)計(jì)最高容量500萬人次/小時(shí),最高時(shí)段達(dá)到設(shè)計(jì)容量的3倍,導(dǎo)致網(wǎng)站多次癱瘓,于2008年11月22日宣布暫時(shí)關(guān)閉一段時(shí)間,1個(gè)月后才重新開放〔26〕。2004年以來,JISC已經(jīng)獲得用于數(shù)字化項(xiàng)目的經(jīng)費(fèi)高達(dá)2400萬英鎊,“美國記憶”自建設(shè)以來也獲得了超過7500萬美元的資助〔27〕。
綜上所述,本文將“大型”限定為數(shù)字化資源數(shù)量大,總量接近一百萬冊(cè),年均生產(chǎn)量接近兩萬頁;原則上由多個(gè)機(jī)構(gòu)合作建設(shè),獲得充足的經(jīng)費(fèi)支持且數(shù)字化成果使用率高。
1.2.2 文獻(xiàn)
根據(jù)《文獻(xiàn)情報(bào)術(shù)語國際標(biāo)準(zhǔn)(草案)》(ISO/DIS5127),文獻(xiàn)是指在存貯、檢索、利用或者傳遞記錄信息的過程中,可作為一種單元處理的,在載體內(nèi)、載體上或者依附載體而存貯有信息或數(shù)據(jù)的載體。根據(jù)中國國家標(biāo)準(zhǔn)《文獻(xiàn)著錄總則》(GB/T 3792.1-2009),文獻(xiàn)是指記錄有知識(shí)的一切載體〔28〕。本文在認(rèn)可上述定義的同時(shí),對(duì)大型文獻(xiàn)數(shù)字化項(xiàng)目的文獻(xiàn)類型進(jìn)行如下限定:其載體以印刷型資源為主,主要涵蓋圖書、期刊、報(bào)紙等印刷型文檔和地圖、手稿、活動(dòng)圖像、樂譜、唱片、照片、海報(bào)及視頻資源等。
1.2.3 數(shù)字化
目前學(xué)術(shù)界對(duì)于數(shù)字化的界定主要呈現(xiàn)廣義和狹義兩個(gè)層面。從廣義上來講,數(shù)字化經(jīng)常作為一個(gè)歷史概念出現(xiàn),相對(duì)于“前電腦”時(shí)代而言,用來描述一種現(xiàn)代化、全球化的基于網(wǎng)絡(luò)的社會(huì)形態(tài)。從狹義上講,數(shù)字化就是指從印刷型信息資源向數(shù)字資源的轉(zhuǎn)換過程,比如數(shù)字化一本圖書,或是數(shù)字化圖書館館藏。其常被用于圖書館或是其它機(jī)構(gòu)開展的數(shù)字化項(xiàng)目中,其目的是為了增加檢索或是方便保存?!秷D書情報(bào)學(xué)在線詞典》(Online Dictionary for Library and Information Science)認(rèn)為:“數(shù)字化是將數(shù)據(jù)轉(zhuǎn)換成數(shù)字格式,并用于計(jì)算機(jī)處理的過程。在信息系統(tǒng)中,數(shù)字化經(jīng)常用來表示通過掃描設(shè)備,實(shí)現(xiàn)從印刷型文檔或是圖片到二進(jìn)制信號(hào)的轉(zhuǎn)換,以便實(shí)現(xiàn)計(jì)算機(jī)處理和顯示。在電信領(lǐng)域,數(shù)字化通常用來形容從持續(xù)的模擬信號(hào)向脈沖數(shù)字信號(hào)的轉(zhuǎn)換。”〔29〕《新編圖書館學(xué)情報(bào)學(xué)辭典》將數(shù)字化定義為“將數(shù)據(jù)轉(zhuǎn)換成數(shù)字的過程。在信息系統(tǒng)中,數(shù)字通常指將印刷文本或圖像(相片、插圖和地圖等)轉(zhuǎn)換為數(shù)字信號(hào),采用某種掃描設(shè)備,使結(jié)果可以顯示在屏幕上”〔30〕。很多知名信息組織機(jī)構(gòu)也認(rèn)可該定義,澳大利亞國家圖書館將“數(shù)字化”定義為“一種從圖書館館藏中創(chuàng)建原有館藏?cái)?shù)字化替代品的過程”〔31〕。NISO和IMLS對(duì)于數(shù)字化的定義是“為獲得數(shù)字資源而進(jìn)行的轉(zhuǎn)換、創(chuàng)建和維護(hù)資源的過程,以便于資源可以通過電腦瀏覽”〔32〕。在本文中,筆者將“數(shù)字化”界定為相關(guān)機(jī)構(gòu)開展的將傳統(tǒng)的非數(shù)字型資源通過掃描、拍照等技術(shù)轉(zhuǎn)換成計(jì)算機(jī)可以讀取、識(shí)別和利用的數(shù)字資源的過程。
1.2.4 項(xiàng)目
項(xiàng)目是為創(chuàng)造獨(dú)特的產(chǎn)品、服務(wù)或成果而進(jìn)行的臨時(shí)性工作。項(xiàng)目的“臨時(shí)性”是指項(xiàng)目有明確的起點(diǎn)終點(diǎn),但是項(xiàng)目所創(chuàng)造的產(chǎn)品、服務(wù)或成果一般不具有臨時(shí)性。項(xiàng)目的“獨(dú)特性”是因?yàn)槠浣ㄔO(shè)過程中的不確定性。項(xiàng)目可以創(chuàng)造以下內(nèi)容:一種產(chǎn)品,既可以是其它產(chǎn)品的組成部分,也可以本身就是終端產(chǎn)品;一種能力,用來提供某種服務(wù);一種成果,例如結(jié)果或文件〔33〕。本文對(duì)“項(xiàng)目”限定為以創(chuàng)建數(shù)字信息資源,提供數(shù)字信息服務(wù)為目的的臨時(shí)性工作,該工作需要以生產(chǎn)、加工為導(dǎo)向,實(shí)現(xiàn)一定程度的自動(dòng)化,并且具備較高的生產(chǎn)效率。
綜合上文分別對(duì)“大型”、“文獻(xiàn)”、“數(shù)字化”、“項(xiàng)目”的分析,本文將“大型文獻(xiàn)數(shù)字化項(xiàng)目”的概念定義為:大型機(jī)構(gòu)或是多個(gè)機(jī)構(gòu)合作開展,以創(chuàng)建數(shù)字信息資源、提供數(shù)字信息服務(wù)為目的,通過掃描、拍照等轉(zhuǎn)換技術(shù),將傳統(tǒng)的非數(shù)字型資源轉(zhuǎn)換成計(jì)算機(jī)可以讀取和識(shí)別的數(shù)字資源的工作。同時(shí)需要具備以下特征:一是數(shù)字化資源數(shù)量大,總量接近一百萬冊(cè),年均生產(chǎn)量接近兩萬頁;二是需要以生產(chǎn)、加工為導(dǎo)向,實(shí)現(xiàn)一定程度的自動(dòng)化,并且具備較高的生產(chǎn)效率;三是獲得充足的經(jīng)費(fèi)支持且數(shù)字化成果使用率高。
UNESCO頒布的《保存數(shù)字遺產(chǎn)憲章》(Charter on the Preservation of the Digital Heritage)將“原生數(shù)字資源(Digital Original)”定義為除了數(shù)字形式外、別無其它形式的數(shù)字資源〔34〕。數(shù)字保存聯(lián)盟(Digital Preservation Coalition,DPC)認(rèn)為原生數(shù)字資源一般認(rèn)為其必須僅以數(shù)字版本的形式存在,如果說該資源是由實(shí)體文獻(xiàn)數(shù)字化處理而來,那就不屬于原生數(shù)字資源〔35〕。而大型文獻(xiàn)數(shù)字化項(xiàng)目的信息資源是指通過數(shù)字化加工而產(chǎn)生的原始文獻(xiàn)的數(shù)字化替代品或數(shù)字化復(fù)本(Digital Copy/Digital Double),比如一本圖書經(jīng)過數(shù)字化后,既可以以圖片的形式出現(xiàn),也可以經(jīng)過文字識(shí)別后以數(shù)字文檔的形式出現(xiàn)。此類信息資源與原生數(shù)字資源相比最大的特點(diǎn)就是存在一個(gè)與之相對(duì)應(yīng)的原始文獻(xiàn)。所以,本文將大型文獻(xiàn)數(shù)字化項(xiàng)目的信息資源限定為非原生數(shù)字資源,即實(shí)體信息資源通過數(shù)字化轉(zhuǎn)換而生成數(shù)字格式、能夠滿足人類需求的數(shù)字資源。
資源保存就是確保資源在一定環(huán)境中的可用,數(shù)字化是實(shí)現(xiàn)資源保存的一種方式,但這并不意味著數(shù)字化就是數(shù)字資源保存。資源保存關(guān)注的是資源的穩(wěn)定化處理,而數(shù)字化是一種格式轉(zhuǎn)換方式,格式轉(zhuǎn)換是一種可以接受的資源保存方法。ARL的保存委員會(huì)認(rèn)可了數(shù)字化作為數(shù)字保存的可選模式之一,鼓勵(lì)大力推廣〔36〕。數(shù)字化所生成的原始資源的數(shù)字化替代品,常存在穩(wěn)定性、可靠性、永久性等無法保證的問題;但是數(shù)字化在數(shù)字保存方面的作用不可小覷,通過對(duì)易損、瀕危和使用價(jià)值大的資源的數(shù)字化,不僅可以有效降低對(duì)原件的使用,保護(hù)信息資源;同時(shí)也可以增加信息資源的利用率。所以,要達(dá)到資源保存的目的,需要數(shù)字化生成的格式足夠穩(wěn)定,甚至穩(wěn)定性超過原始資源;另外,還要建立一系列標(biāo)準(zhǔn),規(guī)范數(shù)字化工作,對(duì)一些重要的生產(chǎn)記錄通過元數(shù)據(jù)進(jìn)行長期保存。
基于上文對(duì)“大型文獻(xiàn)數(shù)字化項(xiàng)目”概念的界定,我們可以將大型文獻(xiàn)數(shù)字化項(xiàng)目的基本性質(zhì)定位為:大型文獻(xiàn)數(shù)字化項(xiàng)目是對(duì)具有重要史料價(jià)值和使用價(jià)值的文獻(xiàn)進(jìn)行再現(xiàn)和加工,屬于信息資源建設(shè)的范疇,是信息資源加工和組織的一部分,而不僅僅是文獻(xiàn)載體的轉(zhuǎn)換。大型文獻(xiàn)數(shù)字化項(xiàng)目的最終結(jié)果是將數(shù)字化后的文獻(xiàn)資源通過組織加工并保存,進(jìn)而制成書目數(shù)據(jù)庫、全文數(shù)據(jù)庫、信息門戶或數(shù)字圖書館等,實(shí)現(xiàn)信息資源的共建共享,從而達(dá)到利用和保護(hù)文獻(xiàn)資源的目的。大型文獻(xiàn)數(shù)字化項(xiàng)目不僅涉及信息組織的知識(shí)和技能,諸如古籍方面的版本、目錄、???,以及分類法、主題法、本體、主題圖、關(guān)聯(lián)數(shù)據(jù)等;而且還涵蓋當(dāng)代最新的信息技術(shù),如掃描轉(zhuǎn)換技術(shù)、文字識(shí)別技術(shù)、長期保存技術(shù)、網(wǎng)絡(luò)通信技術(shù)、語義網(wǎng)等;需要從項(xiàng)目管理的角度進(jìn)行規(guī)劃與建設(shè)。
根據(jù)大型文獻(xiàn)數(shù)字化項(xiàng)目的建設(shè)目的和功能,可以將大型文獻(xiàn)數(shù)字化項(xiàng)目劃分為基于保存、基于發(fā)現(xiàn)、基于傳遞、基于閱讀、基于研究和基于機(jī)器處理6種類型。
基于保存的大型文獻(xiàn)數(shù)字化項(xiàng)目是為了實(shí)現(xiàn)信息資源的長期保存。通過減少用戶對(duì)原件直接利用從而保護(hù)那些載體不穩(wěn)定、價(jià)值高、利用率高或是需要修復(fù)的文獻(xiàn)。此類項(xiàng)目有以下特點(diǎn):一是項(xiàng)目建設(shè)過程必須基于信息資源的長期保存,要有長遠(yuǎn)眼光,能預(yù)見未來發(fā)展的需要。二是項(xiàng)目的關(guān)鍵環(huán)節(jié)是數(shù)字資源格式的選擇。在格式選擇過程中,要盡可能涵蓋所有細(xì)節(jié),以便未來的資源重現(xiàn)。理想的格式應(yīng)該基于開源軟件或是通用標(biāo)準(zhǔn),而且項(xiàng)目建設(shè)過程中,用于長期保存和提供給用戶檢索的格式應(yīng)該不同,用于長期保存的格式強(qiáng)調(diào)對(duì)資源毫無遺漏的全面重現(xiàn)如TIFF格式,而將其用于檢索則會(huì)造成傳輸和顯示負(fù)擔(dān);提供用戶檢索使用宜采用JPEG等其它格式。JSTOR在數(shù)字化過程中首先將期刊的每頁掃描生成600 dpi的黑白TIFF圖像用于保存,然后再對(duì)這些圖片進(jìn)行OCR識(shí)別進(jìn)而生成PDF格式的數(shù)字文本,提供給用戶檢索使用〔37〕。
基于發(fā)現(xiàn)的大型文獻(xiàn)數(shù)字化項(xiàng)目的主要功能是用于檢索,提高原始文獻(xiàn)的利用率,如能滿足本館主要讀者需求的文獻(xiàn)、轉(zhuǎn)換為數(shù)字拷貝會(huì)受到讀者廣泛使用的文獻(xiàn)、具有重要?dú)v史或知識(shí)內(nèi)容的國家珍善本、相對(duì)而言不太為人了解的館藏文獻(xiàn)、數(shù)字化后可能成為新的館藏的文獻(xiàn)、數(shù)字化后能實(shí)現(xiàn)原始文獻(xiàn)信息增值的文獻(xiàn)、數(shù)字化后有利于克服傳統(tǒng)文獻(xiàn)利用障礙的文獻(xiàn)等〔38〕。此類型項(xiàng)目傾向于大規(guī)模的自動(dòng)化生產(chǎn),首先通過掃描生成相似文檔,然后利用OCR進(jìn)行識(shí)別;OCR通常將一本書或一篇文章分解成最基本的文本,然后經(jīng)過簡單的文本加工組織,創(chuàng)建索引目錄或是展示片段內(nèi)容。此類項(xiàng)目最顯著的特征就是其目的并不是為了方便讀者閱讀和文獻(xiàn)資源的長期保持,僅僅是為了方便檢索而建立。Google Book Search就是最典型的代表。
基于傳遞的大型文獻(xiàn)數(shù)字化項(xiàng)目主要是從用戶的角度出發(fā),針對(duì)網(wǎng)絡(luò)環(huán)境下用戶不經(jīng)常進(jìn)圖書館查找資料,而更傾向于通過網(wǎng)絡(luò)傳遞獲取資源的新方式而建設(shè)的。數(shù)字文檔是一種理想的資源傳遞載體,而且可以針對(duì)用戶特定的需求而開展,這種按需數(shù)字化的方式可以有效降低數(shù)字化復(fù)本的重復(fù)率。為了使用戶通過網(wǎng)絡(luò)查找報(bào)紙信息,美國數(shù)字報(bào)紙項(xiàng)目(National Digital Newspaper Program,NDNP)將美國1880-1910年間的報(bào)紙全文進(jìn)行了數(shù)字化,方便公眾閱讀;并且還提供1690年以來所有的報(bào)紙目錄和基本信息〔39〕。
目前用戶閱讀的很多數(shù)字資源都是原生數(shù)字資源,大型文獻(xiàn)數(shù)字化項(xiàng)目正在將印刷型資源進(jìn)行數(shù)字化以便提供閱讀,而且這種發(fā)展趨勢(shì)越演越烈。古登堡計(jì)劃最初是為了方便英文經(jīng)典著作的閱讀,國內(nèi)的漢王電紙書也是此領(lǐng)域的成功案例。要實(shí)現(xiàn)最終閱讀目的,需要設(shè)備、標(biāo)準(zhǔn)和市場(chǎng)幾方面協(xié)同發(fā)展。首先,實(shí)現(xiàn)基于閱讀的數(shù)字化設(shè)備應(yīng)該具備以下特征:除了有良好的界面和字體,還必須能提供紙質(zhì)圖書的很多特征,如頁碼、書簽、目錄導(dǎo)航,還要提供各種標(biāo)記;同時(shí),提供字典鏈接,注釋和標(biāo)注,應(yīng)該實(shí)現(xiàn)格式兼容。其次還應(yīng)該建立數(shù)字圖書的開放標(biāo)準(zhǔn),并減少電子書利潤限制。
基于研究的大型文獻(xiàn)數(shù)字化項(xiàng)目主要包含以下方面:一是對(duì)一些參考工具書數(shù)字化,將其變成數(shù)據(jù)庫,從而方便參考工具書的利用和展示。二是對(duì)一些方便研究的連續(xù)文本,如研究指南、操作手冊(cè)等進(jìn)行數(shù)字化,此類項(xiàng)目需要一定的持續(xù)性,通過數(shù)量累積提供研究參考。三是實(shí)現(xiàn)數(shù)字化內(nèi)容的全文檢索,這需要在OCR的基礎(chǔ)上對(duì)數(shù)字資源進(jìn)行深度挖掘,因?yàn)閮H憑閱讀和簡單導(dǎo)航無法有效提高科研效率,通過這種方式既可以獲取全文,又能方便準(zhǔn)確高效地找到所需要的資源,這也是通過大型文獻(xiàn)數(shù)字化項(xiàng)目實(shí)現(xiàn)信息增值的主要體現(xiàn)。南京農(nóng)業(yè)大學(xué)建立的民國農(nóng)業(yè)文獻(xiàn)數(shù)據(jù)庫將相關(guān)文獻(xiàn)資料以及研究論文都進(jìn)行了數(shù)字化,并且建立了知識(shí)元數(shù)據(jù)庫,利用數(shù)據(jù)挖掘技術(shù)從相關(guān)數(shù)據(jù)源中抽取各種實(shí)詞如人名、地名、書名等,理清此間關(guān)系,使用XML進(jìn)行置標(biāo),從而建立語義詞典,輔助科學(xué)研究〔40〕。
很多數(shù)據(jù)文檔并不是給用戶閱讀的,但是可以方便用戶檢索,比如人口普查數(shù)據(jù)、調(diào)查統(tǒng)計(jì)數(shù)據(jù)、還有用于氣候和生態(tài)學(xué)研究的地圖數(shù)據(jù)和衛(wèi)星數(shù)據(jù)。這些數(shù)據(jù)文件可以一定的文件格式,尤其是便于數(shù)據(jù)庫導(dǎo)入的格式保存,通過數(shù)字化技術(shù)將其轉(zhuǎn)換成二進(jìn)制語言,再利用一些應(yīng)用程序進(jìn)行處理從而生成新數(shù)據(jù);對(duì)于這些數(shù)據(jù)的數(shù)字化也是大型文獻(xiàn)數(shù)字化項(xiàng)目的一個(gè)重要內(nèi)容。
大型文獻(xiàn)數(shù)字化項(xiàng)目可以降低原件丟失與損壞的風(fēng)險(xiǎn)、補(bǔ)償原件的作用、使館藏機(jī)構(gòu)更有效率地管理資源并提供服務(wù)、滿足用戶對(duì)資源的多種需求、提高原始資源的利用率、支持新型研究并擴(kuò)大研究對(duì)象,方便有償服務(wù)的開展。具體體現(xiàn)為以下3個(gè)方面。
非數(shù)字型文獻(xiàn)資源受限于載體,用戶對(duì)其發(fā)現(xiàn)獲取取決于信息組織成果的豐富及深入,對(duì)其獲取使用則局限于該文獻(xiàn)的復(fù)本數(shù)量。而對(duì)于那些瀕危的歷史文獻(xiàn),其利用價(jià)值也會(huì)顯著降低。通過大型文獻(xiàn)數(shù)字化項(xiàng)目獲取原始文獻(xiàn)的數(shù)字拷貝,可以擴(kuò)大受眾面,豐富用戶的選擇范圍;通過全文檢索可以豐富數(shù)字資源的發(fā)現(xiàn)途徑,提升特殊館藏的使用率,使館藏機(jī)構(gòu)更有效率地管理資源并提供服務(wù)。
具有珍貴史料價(jià)值、瀕危的歷史文獻(xiàn)是大型文獻(xiàn)數(shù)字化項(xiàng)目的首要加工對(duì)象。這些原始文獻(xiàn)的數(shù)字替代品可以有效降低原始文獻(xiàn)丟失和損壞的風(fēng)險(xiǎn),延長文化遺產(chǎn)的生命周期,而且可以滿足用戶對(duì)珍貴文獻(xiàn)的使用需求,將文化遺產(chǎn)的價(jià)值發(fā)揚(yáng)光大。
通過建設(shè)數(shù)字資源并對(duì)其進(jìn)行深入組織,大型文獻(xiàn)數(shù)字化項(xiàng)目可以提供并完善知識(shí)服務(wù),提供電子書借閱服務(wù),滿足用戶在科研、教學(xué)、學(xué)習(xí)等方面的需求。由于擁有共同的目標(biāo),大型文獻(xiàn)數(shù)字化項(xiàng)目可以廣泛發(fā)動(dòng)社會(huì)各方力量參與建設(shè),首先可以實(shí)現(xiàn)文化遺產(chǎn)保護(hù)機(jī)構(gòu)之間的合作,擴(kuò)大信息資源的擁有量,為信息服務(wù)奠定基礎(chǔ);其次可以實(shí)現(xiàn)與商業(yè)機(jī)構(gòu)的合作,借助其經(jīng)費(fèi)和技術(shù)支持,開發(fā)數(shù)字出版、學(xué)術(shù)搜索、電子書服務(wù)等新業(yè)務(wù)。
綜上所述,大型文獻(xiàn)數(shù)字化項(xiàng)目的內(nèi)涵、性質(zhì)、類型、意義等是大型文獻(xiàn)數(shù)字化項(xiàng)目理論框架的基本元素,對(duì)上述元素進(jìn)行界定和歸納,可以明確大型文獻(xiàn)數(shù)字化項(xiàng)目的研究對(duì)象,促進(jìn)其在理論研究與實(shí)踐操作中的發(fā)展。
1.Karen Coyle.Mass Digitization of Books.The Journal of Academic Librarianship,2006,32(6):641 -645
2.Paul Conway.Tec(h)tonics:Reimagining Preservation.College &Research Library News,2008,11(69).〔2011 -10 -06〕.http://www.a(chǎn)la.org/ala/mgrps/divs/acrl/publications/crlnews/2008/nov/techtonics.cfm
3.David R Meincke.Towards an Evaluation of Mass Digitized Photograph Collections.University of North Carolina at Chapel Hill,2010
4.Karen Coyle.Mass Digitization of Books.The Journal of Academic Librarianship,2006,32(6):641 -645
5.John Kunze.Where Preservation Meets Mass Digitization.〔2011 -10-26〕.http://lauc.ucmercedlibrary.info/lauc_mass_dig.ppt
6.潘德利.中國古籍?dāng)?shù)字化進(jìn)程和展望.圖書情報(bào)工作,2002(7):117-120
7.李國新.中國古籍資源數(shù)字化的進(jìn)展與任務(wù).大學(xué)圖書館學(xué)報(bào)2002(1):21 -26,41
8.劉琳,吳洪澤.古籍整理學(xué).成都:四川大學(xué)出版社,2003:335
9.毛建軍.古籍?dāng)?shù)字化的概念與內(nèi)涵.圖書館理論與實(shí)踐,2007(4):82-84
10.Karen Coyle.Mass Digitization of Books.The journal of Academic Librarianship,2006,32(6):641 -645
11.Paul Conway.Tec(h)tonics:Reimagining Preservation.College &Research Library News,2008,11(69).〔2011 -10 -16〕http://www.a(chǎn)la.org/ala/mgrps/divs/acrl/publications/crlnews/2008/nov/techtonics.cfm
12.David R Meincke.Towards an Evaluation of Mass Digitized Photograph Collections.University of North Carolina at Chapel Hill,2010
13.宋琳琳,黃如花.大型數(shù)字化項(xiàng)目的概念限定與術(shù)語辨析.圖書情報(bào)工作,2009(11):23-28
14.徐清.2001-2005年我國中文古籍?dāng)?shù)字化研究綜述.圖書情報(bào)工作,2006(8):139-143
15.Paul Conway.Tec(h)tonics:Reimagining Preservation.College &Research Library News,2008,11(69).〔2011 -10 -06〕http://www.a(chǎn)la.org/ala/mgrps/divs/acrl/publications/crlnews/2008/nov/techtonics.cfm
16.David R Meincke.Towards an Evaluation of Mass Digitized Photograph Collections.Chapel Hill:University of North Carolina,2010
17.李明杰.中文古籍?dāng)?shù)字化基本理論問題芻議.圖書館論壇,2005(5):97-100
18.陳力.中文古籍?dāng)?shù)字化方法之檢討.國家圖書館學(xué)刊,2005(5):11-16
19.中國社會(huì)科學(xué)院.現(xiàn)代漢語詞典.北京:商務(wù)印書館,2007:579
20.Google.全球圖書總量統(tǒng)計(jì).〔2011 -10 -15〕.http://booksearch.blogspot.com/2010/08/books-of-world-stand-up-and-be-counted.html
21.American Memory.Resource Statistic .〔2011 -09 -18〕.http://memory.loc.gov/ammem/about/about.html
22.CDL Resource Statistic.〔2011 -10 -15〕.http://www.cdlib.org/services/collections/massdig/
23.IMLS.Status of Technology and Digitization in the Nation's Museums and Libraries .〔2011 -10 -13〕.http://www.imls.gov/resources/Tech-Dig05/Technology%2BDigitization.pdf
24.Google Book Search.Cooporation Libraries.〔2011 -10 -15〕.http://www.google.com/googlebooks/history.html
25.Colorado Digitization Project.Cooporation Institutions .〔2011 -10 -11〕.http://www.bcr.org/dps/cdp/archive/projects/backyard/index.html
26.楊駿.歐洲數(shù)字圖書館的尷尬事.〔2011-10-11〕.http://paper.people.com.cn/rmrbhwb/html/2008 -11/29/content_148355.htm
27.American Memory.Supporting the National Digital Library Program.〔2011 -10 -15〕.http://memory.loc.gov/ammem/about/sponsors.html
28.中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局,中國國家標(biāo)準(zhǔn)管理委員會(huì).文獻(xiàn)著錄總則.北京:中國標(biāo)準(zhǔn)出版社,2010:59
29.Joan M.Reitz.Online Dictionary for Library and Information Science.〔2011 -10 -15〕.http://lu.com/odlis/odlis_d.cfm
30.丘東江.新編圖書館學(xué)情報(bào)學(xué)辭典.北京:科學(xué)技術(shù)文獻(xiàn)出版社,2006:289
31.NISO.Digitisation.〔2011 -10 -10〕.http://www.nla.gov.a(chǎn)u/policy/digitisation.html
32.NISO Framework Working Group.A Framework of Guidance for Building Good Digital Collections .〔2011 -09 -21〕.http://www.niso.org/publications/rp/framework3.pdf
33.(美)項(xiàng)目管理協(xié)會(huì).項(xiàng)目管理知識(shí)體系指南.王勇,張斌譯.北京:電子工業(yè)出版社,2009:6
34.UNESCO.Charter on the Preservation of the Digital Heritage .〔2011-09 - 21〕.http://portal.unesco.org/ci/en/files/13367/106761360511 Charter_ch.pdf/Charter_ch.pdf
35.Digital Preservation Coalition.Introduction - Definitions and Concepts.〔2011 -09 -19〕.http://www.dpconline.org/advice/preservationhandbook/introduction/definitions-and-concepts
36.ARL.ARL Endorses Digitization as an Acceptable Preservation Reformatting Option .〔2011 -09 -27〕.http://www.a(chǎn)rl.org/news/pr/digitization.shtml
37.JSTOR.Digitization Standards& Processes.〔2011 -10 -10〕.http://about.jstor.org/content- collections/journals - archive - collections/digitization-standards-processes
38.劉家真.館藏文獻(xiàn)數(shù)字化的原則與方法.中國圖書館學(xué)報(bào),2001(5):42-45
39.NEH.National Digital Newspaper Program.〔2011 - 10 - 10〕.http://www.neh.gov/projects/ndnp.html
40.王雅戈.民國農(nóng)業(yè)文獻(xiàn)數(shù)字化整理及信息組織研究.南京:南京農(nóng)業(yè)大學(xué),2007:90