摘 要:將珍貴館藏?cái)?shù)字化是新時(shí)代公共圖書(shū)館特色化提升影響力的有效途徑,體現(xiàn)了現(xiàn)代科技與傳統(tǒng)文獻(xiàn)知識(shí)信息的結(jié)合,更凸顯了傳統(tǒng)圖書(shū)館的發(fā)展要求,順應(yīng)了歷史發(fā)展趨勢(shì),為特色珍貴文化傳播打開(kāi)了新的信息傳播途徑。
關(guān)鍵詞:特色館藏;古籍文獻(xiàn);數(shù)字化;OCR識(shí)別;版權(quán)
Abstract: The rare collection is the new era of digital public libraries characteristics of an effective way to enhance the impact of embodied knowledge of modern information technology and documentation as well as traditional library development requirements,conforms to historical trends,featuring precious cultural communication open the new information and communication channels.
Keywords: Special Collection; ancient literature; digital; OCR recognition; copyright
進(jìn)入21世紀(jì),人類(lèi)便步入了數(shù)字化信息時(shí)代,在全新的數(shù)字化生活中,人們提出了全球化的主張,而實(shí)現(xiàn)全球化的重點(diǎn)就是構(gòu)建起一個(gè)能夠保存和傳播人類(lèi)文明、保證信息傳播便捷的數(shù)字化地球,這也為數(shù)字圖書(shū)館的建設(shè)發(fā)展帶來(lái)了機(jī)遇,館藏?cái)?shù)字化是網(wǎng)絡(luò)世界對(duì)圖書(shū)館這樣一個(gè)強(qiáng)大的信息存儲(chǔ)、處理和服務(wù)體系的迫切需求,如果圖書(shū)館能夠以自身館藏資源為原料,生產(chǎn)出更多樣的信息產(chǎn)品,那么就可以更好的滿(mǎn)足新時(shí)代的需要。這種現(xiàn)代信息技術(shù)與圖書(shū)館的完美結(jié)合,能夠有效地提升圖書(shū)館的信息服務(wù)能力。而要想有別于眾多數(shù)字圖書(shū)館體現(xiàn)自身特色,那就唯有在數(shù)字化館藏中重點(diǎn)將資源特色化,有針對(duì)性的應(yīng)對(duì)讀者需求。
近年來(lái),圖書(shū)館館藏資源的電子化、虛擬化、特色化問(wèn)題受到了圖書(shū)館界與相關(guān)人士的積極關(guān)注和研究,對(duì)這種特殊的數(shù)字化館藏所具有的不受地理位置和時(shí)間限制,僅通過(guò)相互連接的計(jì)算機(jī)網(wǎng)絡(luò),把分布在世界各地各具特色的數(shù)據(jù)庫(kù)和知識(shí)庫(kù)有組織的互聯(lián),并能夠超越了空間和時(shí)間的約束的借閱方式報(bào)以極大地?zé)崆?,這也是時(shí)代沖擊下,圖書(shū)館被推到數(shù)字化變革的發(fā)展浪頭上的結(jié)果。
1 圖書(shū)館館藏資源電子化、虛擬化、特色化具備了傳統(tǒng)紙質(zhì)館藏不具備的大量?jī)?yōu)勢(shì)。
1)可以輕松解決資源跨時(shí)空限制,實(shí)現(xiàn)超大規(guī)模知識(shí)的集成化、網(wǎng)絡(luò)化。圖書(shū)館館藏資源電子化、虛擬化是數(shù)字圖書(shū)館的基礎(chǔ),它將存貯在傳統(tǒng)物質(zhì)介質(zhì)上的圖、文、聲、像等信息轉(zhuǎn)化為具有聲、光、圖像、影視等多媒體形式,存儲(chǔ)的載體也相繼轉(zhuǎn)變成了更加方便攜帶的光盤(pán)、硬盤(pán),這些數(shù)字化資源通過(guò)網(wǎng)絡(luò)系統(tǒng)服務(wù)器設(shè)備(域名服務(wù)器、代理服務(wù)器、光盤(pán)塔服務(wù)器、打印服務(wù)器)、網(wǎng)絡(luò)交換設(shè)備(中心交換機(jī)、工作組交換機(jī))、遠(yuǎn)程通訊設(shè)備(遠(yuǎn)程訪(fǎng)問(wèn)服務(wù)器、路由器)等方式實(shí)現(xiàn)資源的跨地域傳輸。同時(shí),利用這些資源和設(shè)備還可以實(shí)現(xiàn)與其它數(shù)字網(wǎng)絡(luò)對(duì)接、館藏資源互借互補(bǔ),既能使各個(gè)圖書(shū)館通過(guò)網(wǎng)絡(luò)交換數(shù)字化館藏,又可以使大眾方便的使用到分散在不同城市的圖書(shū)館信息資源。
2)數(shù)字化后的館藏資源對(duì)傳統(tǒng)文獻(xiàn)資源的檢索方式起到了極大地拓展作用,不但可以將過(guò)去流通率不高的珍貴文獻(xiàn)古籍善本再生,而且還可以實(shí)現(xiàn)用很低的成本將印刷版的書(shū)籍報(bào)刊逆向生成排版文件,令圖書(shū)館文獻(xiàn)檢索實(shí)現(xiàn)了智能化,打破傳統(tǒng)文獻(xiàn)檢索的局限,用戶(hù)只需懂得一些基本電腦操作方法,就可以在短短的四到五秒左右的時(shí)間里檢索到自己所需的資料。
這些傳統(tǒng)形式僅能間接地查找到館藏資源分布,而不能得到具體內(nèi)容(如圖1所示傳統(tǒng)檢索形式)。館藏資源數(shù)字化后,可以按檢索者的特定方式對(duì)所查的文獻(xiàn)進(jìn)行智能分析,并且還可以自行組織和編輯,不僅速度快,而且查找準(zhǔn)確率高,實(shí)現(xiàn)了以往不具備的全文檢索、文本摘錄、多級(jí)導(dǎo)航等功能。甚至達(dá)到了對(duì)多媒體的圖像、視頻進(jìn)行顏色、灰度、大小的檢索;對(duì)聲音的音調(diào)、曲調(diào)、旋律的檢索,大大增強(qiáng)了檢索形式的多樣化。
3)圖書(shū)館特色館藏資源數(shù)字化后可以更方便存儲(chǔ),特別是對(duì)珍貴文獻(xiàn)資源的數(shù)字化后,就能更好的保護(hù)珍貴資源。隨著高密度存貯技術(shù)的發(fā)展,一塊1TB的硬盤(pán)上就可以記錄上萬(wàn)本書(shū)籍,這樣大的數(shù)據(jù)貯存不但攜帶方便而且更便于保存。
4)數(shù)字化信息的存儲(chǔ)、傳輸,不僅成本低、效率高,而且能夠適應(yīng)排版、網(wǎng)絡(luò)數(shù)據(jù)處理等不斷發(fā)展的需要。目前我國(guó)有很多歷史遺留下來(lái)的大量書(shū)籍善本、報(bào)刊雜志等紙質(zhì)珍品急需保護(hù)性數(shù)字化備份。備份后不但能把前輩留下來(lái)的古老文獻(xiàn),利用現(xiàn)代最新科技,通過(guò)數(shù)字化處理讓其煥發(fā)出新的活力,而且也為古籍資源的保護(hù)和開(kāi)發(fā)提供了便利條件,將那些過(guò)去秘不示人的“鎮(zhèn)館之寶”轉(zhuǎn)化成數(shù)字資源,可以令更多的讀者欣賞到珍貴的古籍資源,豐富了借閱渠道和文化傳播途徑。
2 數(shù)字化特色館藏可以實(shí)現(xiàn)資源互補(bǔ)、二次館藏,有利于文化的交流和傳承
數(shù)字化館藏并非將圖書(shū)館的館藏資源都進(jìn)行數(shù)字化加工處理,而是重點(diǎn)突出特色化的館藏資源,每個(gè)圖書(shū)館都有自身的特色館藏,能將這些特色館藏進(jìn)行數(shù)字化,不但有利于圖書(shū)館文獻(xiàn)資源的保護(hù),而且利用網(wǎng)絡(luò)技術(shù)還可以實(shí)現(xiàn)將分布在各地的大量特色數(shù)字館藏資源共享,使人們能夠有機(jī)會(huì)欣賞到更多、更珍貴的資源??v觀目前各個(gè)圖書(shū)館構(gòu)建的數(shù)字館,基本上都是千篇一律,不但更新慢而且可以突出自身館藏特色的很少、缺乏針對(duì)性,大多都鏈接各種數(shù)據(jù)庫(kù),如:超星數(shù)據(jù)庫(kù)、中國(guó)學(xué)術(shù)期刊數(shù)據(jù)庫(kù)等。數(shù)字圖書(shū)館缺乏特色化、針對(duì)性的館藏,是目前制約數(shù)字圖書(shū)館發(fā)展的瓶頸。
3 數(shù)字化信息的處理技術(shù)
對(duì)圖書(shū)館書(shū)籍?dāng)?shù)字化技術(shù)的研究工作吸引了大批的人才和資金,近年來(lái),獲得了大批具有我國(guó)自主知識(shí)產(chǎn)權(quán)的技術(shù)成果,現(xiàn)就書(shū)籍?dāng)?shù)字化技術(shù)做簡(jiǎn)要論述:
數(shù)字化加工的流程圖:
1)從紙質(zhì)資源到數(shù)字資源,最關(guān)鍵的第一步就是圖像的掃描和獲取,掃描儀在掃描前都需要針對(duì)不同的書(shū)籍進(jìn)行分辨率的設(shè)置,分辨率是和圖像相關(guān)的一個(gè)重要概念,它是衡量圖像細(xì)節(jié)表現(xiàn)力的技術(shù)參數(shù),它的單位是dpi(dot per inch)即指每英寸長(zhǎng)度內(nèi)的點(diǎn)數(shù),該值越大掃描出的圖形文件所占磁盤(pán)空間也就越多,即文件的大小與其圖形分辨率的平方成正比。比如:對(duì)于書(shū)籍保存比較好的年代較近的書(shū)籍一般采用300dpi的掃描分辨率,但對(duì)于年代久遠(yuǎn)、紙質(zhì)變色的古籍善本,可以適當(dāng)將分辨率提高到500dpi。設(shè)置完分辨率,機(jī)器就開(kāi)始進(jìn)行逐點(diǎn)掃描并存儲(chǔ)為圖片,存儲(chǔ)的格式可以是TIFF、JPEG、BMP等。
2)針對(duì)掃描后的圖像中可能會(huì)出現(xiàn)的旋轉(zhuǎn)、柔化問(wèn)題,要對(duì)圖像進(jìn)行旋轉(zhuǎn)復(fù)位、剪切、去污、調(diào)整亮度、對(duì)比度和色調(diào)、銳化等處理,其中亮度和對(duì)比度的調(diào)整對(duì)整個(gè)數(shù)字加工尤為重要,直接影響到后面的計(jì)算機(jī)文字識(shí)別。
3)圖像處理好后,要想實(shí)現(xiàn)數(shù)字化資源的全文檢索、文本摘錄、多級(jí)導(dǎo)航以便檢索者快速檢索并查閱,對(duì)照?qǐng)D片進(jìn)行文字輸入是根本不可能的,這樣會(huì)花費(fèi)大量人力去錄入,假如僅僅對(duì)處理好的圖片進(jìn)行關(guān)鍵字命名,也不可能實(shí)現(xiàn)全文檢索。這就需要光學(xué)字符的自動(dòng)識(shí)別技術(shù)(OCR)的幫忙了,它可以利用計(jì)算機(jī)將圖片中的文字自動(dòng)識(shí)別出來(lái),并保存為文本格式,這種方式可以實(shí)現(xiàn)漢字信息的高速輸入,只要將掃描并處理好的圖像輸入計(jì)算機(jī),就可以通過(guò)OCR軟件自動(dòng)識(shí)別并轉(zhuǎn)化為文本,不論是印刷體還是手寫(xiě)體的圖像,都可以通過(guò)計(jì)算機(jī)辨認(rèn)出來(lái)。
我國(guó)OCR技術(shù)的發(fā)展,起步于20世紀(jì)70年代末,雖然起步晚,但自1986年以后,我國(guó)文字識(shí)別技術(shù)(OCR)的研究在漢字建模和識(shí)別方法上都取得了創(chuàng)新性的豐碩成果。它的基本原理就是采用光電轉(zhuǎn)換裝置將圖片中的漢字或字符轉(zhuǎn)換成電信號(hào),并送入計(jì)算機(jī)自動(dòng)辨認(rèn),閱讀,因此,漢字識(shí)別歸根到底是圖像識(shí)別問(wèn)題。目前比較流行的OCR軟件很多,英文OCR主要有Omnipage,中文識(shí)別主要有清華紫光OCR、尚書(shū)、漢王等,盡管漢字字量大,字形復(fù)雜,但OCR技術(shù)已經(jīng)相當(dāng)成熟,不僅能識(shí)別黑白印刷體漢字,還能識(shí)別灰度和彩色印刷體漢字,識(shí)別速度快,識(shí)別正確率達(dá)到99%以上,能識(shí)別宋體、黑體、楷體等多種字符的簡(jiǎn)繁體,并且可以對(duì)不同字號(hào)的文字混排進(jìn)行識(shí)別,大大減輕了文字輸入的勞動(dòng)強(qiáng)度、節(jié)省了人力、降低了費(fèi)用。
從圖3中可以看出OCR軟件的整個(gè)加工過(guò)程:圖像處理模塊集成了圖像掃描,圖像銳化等圖像處理加工功能,提高掃描圖像的清晰度。文字識(shí)別不能做到一目十行,版面劃分模塊就是自動(dòng)將圖像逐行分割,然后再一個(gè)字一個(gè)字的辨認(rèn),即單字識(shí)別后在進(jìn)行合并,文字識(shí)別模塊通過(guò)對(duì)不同樣本漢字的特征進(jìn)行提取,完成識(shí)別,自動(dòng)查找可疑字體,并通過(guò)前后聯(lián)想等模糊識(shí)別技術(shù)對(duì)較難識(shí)別的漢字進(jìn)行彌補(bǔ)性識(shí)別。然后再通過(guò)文字編輯模塊對(duì)識(shí)別的文字進(jìn)行修改、編輯。
4)計(jì)算機(jī)識(shí)別并非不出錯(cuò),以最新的漢王OCR易識(shí)全能圖文識(shí)別系統(tǒng)軟件為例,以每分鐘錄入6000字的速度,連續(xù)識(shí)別1000頁(yè)保存完好的現(xiàn)代書(shū)籍文獻(xiàn),也會(huì)出現(xiàn)0.78%的識(shí)別錯(cuò)誤率,雖然已經(jīng)很不錯(cuò)了,但圖書(shū)館肩負(fù)著知識(shí)傳播的責(zé)任,首要保證數(shù)字書(shū)籍資料的正確性,所以最后還需要專(zhuān)人輔助校驗(yàn)計(jì)算機(jī)識(shí)別的文字,并輔以人工排版、留下圖書(shū)館標(biāo)識(shí)等。
4 圖書(shū)館館藏?cái)?shù)字化帶來(lái)便利的同時(shí)也會(huì)伴隨著數(shù)字化版權(quán)保護(hù)等問(wèn)題
特色館藏資源的數(shù)字化可以有效地提高公共圖書(shū)館的綜合實(shí)力,提高圖書(shū)館的影響力。但是好多圖書(shū)館都心懷畏忌,主要是害怕特色館藏?cái)?shù)字化后被竊取、流失,這種因?yàn)榘踩a(chǎn)生的恐慌只能導(dǎo)致圖書(shū)館數(shù)字化進(jìn)程走向一個(gè)矛盾的極端。國(guó)家863計(jì)劃專(zhuān)項(xiàng)研究專(zhuān)家組組長(zhǎng),中國(guó)工程院院士,何德全院士指出:“信息安全保障能力是21世紀(jì)綜合國(guó)力、經(jīng)濟(jì)競(jìng)爭(zhēng)實(shí)力、生存發(fā)展能力的重要組成部分”。每個(gè)館“鎮(zhèn)館藏書(shū)”的價(jià)值都是無(wú)法估量的,將這些寶貝數(shù)字化后,一定會(huì)顧慮版權(quán)安全問(wèn)題,其實(shí)大可以放心。數(shù)字館藏的版權(quán)保護(hù)問(wèn)題一直是開(kāi)發(fā)數(shù)字圖書(shū)館研究的熱點(diǎn),目前做得比較成功的超星電子圖書(shū)就是一個(gè)很好的例子,在紙張圖文資料數(shù)字化技術(shù)及相關(guān)應(yīng)用與推廣方面都取得了長(zhǎng)足進(jìn)展。
數(shù)字版權(quán)管理(Digital Right Management)技術(shù)已日漸完善,特色館藏?cái)?shù)字化在技術(shù)上也相當(dāng)成熟,目前我國(guó)對(duì)保護(hù)數(shù)字信息版權(quán)方面大多依賴(lài)加密技術(shù)解決非授權(quán)拷貝問(wèn)題,實(shí)現(xiàn)對(duì)珍貴數(shù)字館藏的加鎖。特色館藏?cái)?shù)字化后,圖書(shū)館在堅(jiān)持無(wú)償服務(wù)于普通知識(shí)需求的同時(shí),對(duì)增值性的或需要專(zhuān)門(mén)授權(quán)的珍貴特色書(shū)籍,可以采用有償服務(wù),通過(guò)那些對(duì)數(shù)字書(shū)籍版本支付的版權(quán)使用費(fèi),獲得圖書(shū)館特色化服務(wù)和書(shū)籍善本保護(hù)的資金支持。例如,在網(wǎng)絡(luò)上,將閱覽權(quán)限進(jìn)行有針對(duì)性的開(kāi)放,可以實(shí)現(xiàn)有效的屏蔽無(wú)權(quán)訪(fǎng)問(wèn)者所進(jìn)行非法獲取館藏?cái)?shù)字資源的行為。細(xì)化到具體管理,圖書(shū)館可以利用辦借閱證人員的實(shí)名認(rèn)證,來(lái)確定用戶(hù)的閱覽權(quán)限的信用關(guān)系,對(duì)需要參閱珍貴數(shù)字館藏的讀者,可以開(kāi)辟專(zhuān)用網(wǎng)絡(luò)通道,并利用數(shù)字水印技術(shù),避免非法復(fù)制和盜用,服務(wù)中可以適當(dāng)收取服務(wù)費(fèi)用,用于資源的維護(hù)和開(kāi)發(fā)。
總之,將珍貴館藏?cái)?shù)字化是新時(shí)代公共圖書(shū)館特色化提升影響力的有效途徑,體現(xiàn)了現(xiàn)代高科技和文獻(xiàn)知識(shí)信息以及傳統(tǒng)圖書(shū)館的發(fā)展要求,順應(yīng)了歷史發(fā)展趨勢(shì),為特色珍貴文化傳播打開(kāi)了新的信息傳播途徑。古代先賢們留下的珍貴古籍善本和寶貴文獻(xiàn)如果能利用現(xiàn)代科技進(jìn)行數(shù)字化加工傳播,無(wú)疑會(huì)使我國(guó)古文明煥發(fā)出新的生機(jī)。
參考文獻(xiàn)
[1]楊向明.現(xiàn)代化圖書(shū)館鉤沉[C].北京:中國(guó)廣播電視出版社,2005.
[2]郭連生.讀者失信行為調(diào)查分析與高校圖書(shū)館誠(chéng)信教育[J].圖書(shū)館工作與研究,2008(8);72-74.
[3]劉乃強(qiáng).關(guān)于我國(guó)基層圖書(shū)館的現(xiàn)狀與思考[J].大學(xué)圖書(shū)情報(bào)學(xué)刊,2009(6);6-9.
[4]魯松,楊云.基于普適計(jì)算的智能圖書(shū)館系統(tǒng)的構(gòu)建[J].情報(bào)雜志,2008(9);36-39.
作者簡(jiǎn)介
李晶晶(1980-),女,開(kāi)封市圖書(shū)館。