馮中華 王利賢
南京水利科學(xué)研究院科技信息研究中心
本文通過(guò)對(duì)館藏科研報(bào)告進(jìn)行數(shù)字化掃描的實(shí)踐,對(duì)掃描過(guò)程中面臨或存在的一些問(wèn)題,經(jīng)過(guò)分析,提出解決這些問(wèn)題的對(duì)策,為相關(guān)單位在數(shù)字化過(guò)程中解決類似問(wèn)題提供參考,從而提高館藏資源數(shù)字化建設(shè)的進(jìn)程。
科研報(bào)告的管理在于更好地發(fā)揮作用,在網(wǎng)絡(luò)環(huán)境下,科研人員更希望通過(guò)網(wǎng)絡(luò)直接閱讀相關(guān)的科研報(bào)告。為此,必須加快科研報(bào)告的數(shù)字化建設(shè)以滿足在網(wǎng)絡(luò)條件下科研人員對(duì)科研報(bào)告查閱的需求,從而實(shí)現(xiàn)科研報(bào)告的共享,促進(jìn)科研人員開展創(chuàng)新性的科研工作??蒲袌?bào)告數(shù)字化建設(shè)包括多個(gè)環(huán)節(jié),數(shù)字化掃描就是其中的首要環(huán)節(jié)、關(guān)鍵環(huán)節(jié),掃描產(chǎn)品的好壞直接影響整個(gè)數(shù)字化建設(shè)的質(zhì)量。本文通過(guò)對(duì)一個(gè)歷史悠久、館藏專業(yè)資源豐富的科研型專業(yè)圖書館在科研報(bào)告數(shù)字化掃描工作中面臨或存在的問(wèn)題進(jìn)行分析,提出合理的、可行的解決方法,為類似科研型機(jī)構(gòu)圖書館的數(shù)字化掃描提供借鑒,從而提高數(shù)字化掃描的質(zhì)量與效率。
館藏科研報(bào)告由于歷史悠久,情況不一。一些報(bào)告紙張發(fā)黃變脆,一些報(bào)告內(nèi)容字跡變淡、插圖不清;一些報(bào)告紙張材質(zhì)復(fù)雜多樣,有復(fù)印紙、稿紙、機(jī)打紙、銅版紙、圖紙和相紙等,一些報(bào)告紙張大小也不統(tǒng)一,這些情況都給掃描帶來(lái)了問(wèn)題,只有理清掃描中可能出現(xiàn)的問(wèn)題,才有助于提高掃描的質(zhì)量和效率。
館藏科研報(bào)告掃描是專業(yè)圖書館數(shù)字化建設(shè)過(guò)程中的關(guān)鍵環(huán)節(jié),而很多專業(yè)圖書館的管理人員對(duì)具體的掃描工作還是比較陌生的,特別是遇到一些特殊情況更是無(wú)從下手,多數(shù)人對(duì)掃描儀的設(shè)置、功能不勝了解,對(duì)掃描軟件更是顯得陌生,這將會(huì)影響具體的掃描工作。
館藏科研報(bào)告掃描必須要有相應(yīng)的基礎(chǔ)設(shè)施,目前,多數(shù)專業(yè)型圖書館軟、硬件基礎(chǔ)設(shè)施配備并不齊全。在掃描管理軟件方面也是參差不齊,功能不統(tǒng)一,由于需求不同,軟件在規(guī)范性、開放性、共享性方面較差,導(dǎo)致軟件的使用層次不一。在硬件方面,一般的掃描儀大多是適合A4 以下的紙張,對(duì)于超過(guò)A4 紙張的頁(yè)面就無(wú)能為力,這樣就會(huì)造成掃描內(nèi)容不完整。由于基礎(chǔ)設(shè)施的配置與維修需要相當(dāng)?shù)慕?jīng)費(fèi)投入,在軟、硬件基礎(chǔ)設(shè)施不能滿足掃描要求的情況,需要找出應(yīng)對(duì)措施。
館藏科研成果報(bào)告在掃描時(shí),多數(shù)需要拆裝后掃描,最后再重新裝訂。在這個(gè)過(guò)程中,經(jīng)常會(huì)發(fā)生掃描件順序錯(cuò)亂、頁(yè)面顛倒,導(dǎo)致掃描件與原件不符;同時(shí),在原件重新裝訂恢復(fù)過(guò)程中也會(huì)出現(xiàn)類似情況,有的還會(huì)出現(xiàn)紙張破損,這些問(wèn)題都需要有相應(yīng)的解決辦法。
在掃描過(guò)程時(shí),一些頁(yè)面漏掃、一些頁(yè)面重復(fù)掃的現(xiàn)象時(shí)有發(fā)生;在掃描同一篇報(bào)告時(shí),有的頁(yè)面清晰度不同,有的頁(yè)面有插圖,有的頁(yè)面文字偏小,由于參數(shù)設(shè)置不變,導(dǎo)致掃描件內(nèi)容參差不齊,雖然在掃描前會(huì)根據(jù)一些規(guī)范文件提出相應(yīng)要求,但不同的人理解、執(zhí)行上差異較大,導(dǎo)致掃描件質(zhì)量各不相同;掃描后對(duì)原件的恢復(fù)沒(méi)有按照相應(yīng)的流程進(jìn)行處理,導(dǎo)致恢復(fù)的原件也是千差萬(wàn)別,有的導(dǎo)致對(duì)原件造成損害。
在掃描中,一般有黑白二值、灰度、彩色等三種色彩模式,對(duì)待不同的頁(yè)面需要選擇不同的色彩模式,這個(gè)問(wèn)題將影響掃描件的清晰度、存儲(chǔ)大小和OCR 識(shí)別利用;分辨率參數(shù)大小設(shè)置問(wèn)題,也將影響掃描件的清晰度、存儲(chǔ)大小和OCR 識(shí)別利用;掃描件的最終存儲(chǔ)格式選擇問(wèn)題,對(duì)數(shù)字化管理系統(tǒng)的存儲(chǔ)和網(wǎng)絡(luò)利用會(huì)產(chǎn)生不小的影響。
對(duì)專業(yè)圖書館來(lái)說(shuō),為了適應(yīng)當(dāng)前網(wǎng)絡(luò)技術(shù)和滿足用戶迫切需求,需要盡快將一些具有特色和利用價(jià)值較高的資源進(jìn)行數(shù)字化掃描,不然面臨成本問(wèn)題。第一,需要掃描資源的選擇,將會(huì)影響數(shù)字化建設(shè)的經(jīng)濟(jì)成本;第二,掃描設(shè)施的購(gòu)置和維護(hù)、管理系統(tǒng)軟硬件配置等,也會(huì)增加數(shù)字化建設(shè)的經(jīng)濟(jì)成本;第三,掃描人員的工資成本,也是數(shù)字化建設(shè)的經(jīng)濟(jì)成本之一;第四,由于人員熟練程度、設(shè)施性能高低、管理平臺(tái)建設(shè)規(guī)劃等等,是數(shù)字化建設(shè)必須考慮的時(shí)間成本問(wèn)題。
多數(shù)科研報(bào)告涉及技術(shù)、成果等需要保密的信息,所以科研報(bào)告的數(shù)字化工作一般不實(shí)行外包,但大量的科研報(bào)告進(jìn)行數(shù)字化掃描,需要投入大量的人力。但一般專業(yè)圖書館管理人員本身相對(duì)較少,因此,需要快速、高效、高質(zhì)量的完成報(bào)告的掃描工作,必須對(duì)管理人員進(jìn)行專項(xiàng)培訓(xùn),提高員工素質(zhì),從而彌補(bǔ)人員不足、操作不熟練等問(wèn)題。比如,可以舉辦掃描儀使用方法與技巧培訓(xùn),掃描軟件使用方法與技巧培訓(xùn),掃描規(guī)范性流程培訓(xùn)等。
軟、硬件基礎(chǔ)設(shè)施是專業(yè)圖書館數(shù)字化建設(shè)不可缺少的基本條件,是館藏特色資源開發(fā)利用的基礎(chǔ)。先進(jìn)齊全的軟、硬件基礎(chǔ)設(shè)施在很大程度上能夠提高掃描的效率和質(zhì)量。由于各專業(yè)圖書館在經(jīng)費(fèi)投入中都明顯不足,因此,在制定館藏特色資源數(shù)字化掃描方案中應(yīng)考慮到其所需的軟、硬件掃描設(shè)備的適用性、兼容性、通用性問(wèn)題,避免各自為政的情況,提升基礎(chǔ)條件。
在硬件方面,可以考慮配備穩(wěn)定性好、性價(jià)比高的計(jì)算機(jī)、掃描儀等成套設(shè)備,從而滿足掃描大數(shù)據(jù)的穩(wěn)定快速處理、掃描文件的高清晰度的要求,經(jīng)費(fèi)允許,可以考慮配置掃描A3 頁(yè)面以下的掃描儀,如果原件頁(yè)面再大,可以采用分塊掃描,然后再利用photoshop 圖像處理軟件進(jìn)行拼接;軟件方面,如果經(jīng)費(fèi)允許,可以投入一定的經(jīng)費(fèi),開發(fā)一套功能完備的掃描管理軟件,在經(jīng)費(fèi)緊張的情況下,也可以使用一些普通的掃描軟件和管理軟件完成掃描數(shù)據(jù)的處理等工作??傊挥熊?、硬件基礎(chǔ)設(shè)施同時(shí)具備,才能滿足館藏特色資源數(shù)字化建設(shè)的基本要求。
在掃描時(shí),出現(xiàn)漏掃、重復(fù)掃描的主要原因:一是沒(méi)有相應(yīng)的規(guī)范和流程;二是報(bào)告整理不規(guī)范;三是工作人員工作粗心。掃描后原件的恢復(fù)不好,出現(xiàn)頁(yè)面倒置、頁(yè)碼錯(cuò)亂,甚至出現(xiàn)原件損害。因此,必須對(duì)掃描全過(guò)程進(jìn)行規(guī)范化管理,在各個(gè)階段制定相應(yīng)的規(guī)范流程。
掃描前,做好需要掃描報(bào)告的清單,然后按照清單做好整理工作,出庫(kù)掃描原件需管理人員和掃描人員雙方查驗(yàn)、簽字確認(rèn)。掃描中,需要統(tǒng)一掃描標(biāo)準(zhǔn),包含清晰度要求、歪斜誤差控制數(shù)、掃描文件命名規(guī)則、文件存儲(chǔ)格式等;在掃描過(guò)程中,需要翻動(dòng)紙張時(shí),不要用力過(guò)度,注意保護(hù)脆弱紙張;為了確保質(zhì)量,必須指定質(zhì)量校核員,校核掃描圖像的清晰度、完整性、歪斜度等。掃描后,需要按報(bào)告原順序進(jìn)行恢復(fù),確保頁(yè)碼不亂、頁(yè)面不顛倒、紙張不破損等,從而保證原件恢復(fù)效果,原件返還入庫(kù)需要管理人員與掃描人員雙方查驗(yàn)、簽字確認(rèn)。各階段按規(guī)范的流程進(jìn)行管理,不僅能提高掃描的質(zhì)量,還能避免返工現(xiàn)象,提高掃描進(jìn)度。
在掃描中,針對(duì)不同的報(bào)告需要采用不同的色彩模式、分辨率和存儲(chǔ)格式,保證不同紙質(zhì)報(bào)告掃描后的圖像在清晰度與存儲(chǔ)大小達(dá)到最佳平衡點(diǎn),既能夠清晰完整地保持圖像,又有利于節(jié)省存儲(chǔ)空間,方便掃描資源的網(wǎng)絡(luò)傳輸、存儲(chǔ)、共享和使用。經(jīng)過(guò)大量成果報(bào)告掃描的實(shí)踐,為紙質(zhì)成果報(bào)告掃描的參數(shù)設(shè)置提出以下建議。
1.無(wú)底色、白底黑字、對(duì)比度較高、文字較大的文字型頁(yè)面,采用黑白模式,分辨率設(shè)置為150dpi;
2.無(wú)底色、白底黑字、對(duì)比度一般、文字較小的文字型頁(yè)面,采用黑白模式,分辨率設(shè)置為300dpi;
3.無(wú)底色、白底黑字、對(duì)比度較差的文字型頁(yè)面,采用灰度模式,分辨率設(shè)置為200dpi;
4.單一底色、文字色彩單一的文字型頁(yè)面,采用灰度模式,分辨率設(shè)置為300dpi;
5.文字為彩色、文字密集或手寫、文字太小、底色發(fā)黃且年代久遠(yuǎn)等文字型文件以及照片等采用彩色模式,分辨率設(shè)置為300dpi。
如果原件本身就不清晰,比較模糊,這種情況就要在亮度、對(duì)比度、分辨率等方面加以協(xié)調(diào)處理了。
在存儲(chǔ)格式方面,需要考慮可用性(包括OCR 識(shí)別)、國(guó)際通用性、網(wǎng)絡(luò)傳輸速度等多個(gè)方面,我們根據(jù)各種文本格式、圖像格式進(jìn)行比較,最終采用pdf 雙層格式。這種格式是一種獨(dú)立文檔,可以很好地保持檔案的原貌,可以通過(guò)識(shí)別利用,而且網(wǎng)絡(luò)傳輸速度快,可以邊下載邊閱讀,已經(jīng)成為全世界電子文檔分發(fā)公開的實(shí)際標(biāo)準(zhǔn)。針對(duì)紙張大小不一的情況,我們將A4 及以下的頁(yè)面全都按A4 頁(yè)面存儲(chǔ),大于A4 的頁(yè)面保持不變,保證掃描成果質(zhì)量和讀者順暢閱讀。
首先,在前期準(zhǔn)備工作,將需要數(shù)字化掃描報(bào)告的清單應(yīng)盡量做到精細(xì)化。館藏報(bào)告量大,數(shù)字化掃描工作要采取逐步推進(jìn)、有的放矢、部分優(yōu)先的原則,在有限的資金和時(shí)間投入下,優(yōu)先掃描利用頻率高、保存價(jià)值高、損毀度高的報(bào)告,對(duì)于那些利用頻率低、保存價(jià)值低、不太重要的報(bào)告可以延后掃描,這樣不僅可以減少大量的人力和財(cái)力投入,還可以有效地節(jié)省時(shí)間,提高掃描的效率,加快數(shù)字化進(jìn)程。其次,在采購(gòu)中盡量選擇性價(jià)比高、保養(yǎng)成本低的掃描設(shè)備;在軟件方面,盡量選擇成熟、價(jià)格低、通用性好的管理軟件,不必追求功能多、價(jià)格高、不通用的軟件;在設(shè)備使用中,要求員工一定按正確的操作規(guī)程使用,降低設(shè)備的維修率,提高設(shè)備的使用壽命,從而節(jié)省成本。最后,要節(jié)省成本,還需從人的素質(zhì)提高入手,在真正開始掃描之前,做好掃描人員的培訓(xùn)工作尤其重要,掃描人員掌握了熟練的技能,既可以提高掃描成果的質(zhì)量,又可以節(jié)省時(shí)間成本,從而加快掃描進(jìn)度。