馮雪
【摘要】在現(xiàn)今檔案數(shù)字化已成為一種潮流,推動館藏檔案數(shù)字化建設(shè),逐步實現(xiàn)對數(shù)字檔案信息資源的網(wǎng)絡(luò)化管理以及多渠道提供檔案信息資源利用已成為大勢所趨。在現(xiàn)今階段各個檔案部門大多數(shù)已開展檔案數(shù)字化工作,對檔案數(shù)字化工作有了一定經(jīng)驗,數(shù)字化的基本工作流程都能做的很好,但面對海量的館藏和有限的經(jīng)費(fèi)如何保質(zhì)保量地完成檔案數(shù)字化是一個值得深入探討的問題。
【關(guān)鍵詞】紙質(zhì)檔案;數(shù)字化;鑒選;儲存格式;OCR;安全性
檔案資源的數(shù)字化是當(dāng)前數(shù)字化檔案建設(shè)工作的基礎(chǔ)、關(guān)鍵,在現(xiàn)今階段各個檔案部門大多數(shù)已開展檔案數(shù)字化工作,并已積累了一定經(jīng)驗,建立了較好的工作流程。本文僅就目前紙版檔案數(shù)字化工作中需要注意的幾點問題進(jìn)行論述。
一、檔案數(shù)字化必要性的鑒選
鑒選是企業(yè)檔案數(shù)字化處理的第一步,檔案數(shù)字化處理需要大量的資金和人力投入,所以鑒選顯得尤為重要。鑒選要遵循以下原則:一是以有效性為原則,注重內(nèi)容的真實性。不管是原件,還是復(fù)制件,只要內(nèi)容是真實的,都應(yīng)該鑒選為數(shù)字化處理的范圍。二是以利用為原則,具有較高利用價值的檔案應(yīng)進(jìn)行數(shù)字化處理,以便利用者能得到快捷方便的服務(wù)。對利用頻率過低的檔案可暫緩進(jìn)行數(shù)字化轉(zhuǎn)換,甚至不進(jìn)行數(shù)字化轉(zhuǎn)換。三是以搶救性保護(hù)為原則,防止珍貴檔案缺失。在鑒選時,對一些形成時間較長,歷史價值較高,甚至已經(jīng)破損的檔案,本著搶救的需要出發(fā),可先考慮進(jìn)行數(shù)字化處理。四是以系統(tǒng)性為原則。數(shù)字化后的檔案必須具有邏輯上的完整性與系統(tǒng)性,不能只數(shù)字化其中一部分或幾部分,保證其信息的關(guān)聯(lián)性,增加其利用的可靠性。
二、選擇數(shù)字檔案的存儲格式
掃描之后圖像文件有許多存儲格式,長久可行的存儲優(yōu)勢決定文檔存儲格式。下面對實際工作中經(jīng)常使用的幾種存儲格式進(jìn)行比較,以便于利用。
JPEG格式是目前網(wǎng)絡(luò)上最常用的圖像格式,它可以把文件壓縮到最小的格式。由于它是一種有損壓縮,圖像中重復(fù)或不重要的資料會被丟失,因此容易造成圖像數(shù)據(jù)的損傷,壓縮比越大,品質(zhì)就越低,不過JPEG壓縮技術(shù)也能在獲得極高的壓縮率的同時能展現(xiàn)十分豐富生動的圖像。由于JPEG格式的文件尺寸較小,下載速度快,所以它已成為網(wǎng)絡(luò)上最受歡迎的圖像格式。
JPEG2000作為JPEG的升級版相比優(yōu)勢明顯,同時支持有損和無損壓縮。且向下兼容,隨著檔案信息網(wǎng)絡(luò)傳輸?shù)拈_展,這一格式也可以成為檔案數(shù)字化的標(biāo)準(zhǔn)格式。
TIFF格式是一種主要用來存儲包括照片和藝術(shù)圖在內(nèi)的圖像的文件格式,可以制作質(zhì)量非常高的圖像,因而經(jīng)常用于出版印刷。TIFF格式為無損壓縮文件,壓縮率低,占用空間較大,但是畫質(zhì)高于JPEG格式,一般應(yīng)用于珍貴檔案的數(shù)字化。
CEB格式文檔轉(zhuǎn)換過程中采用了“高保真”技術(shù),從而可以使CEB格式的電子書最大限度地保持原來的樣式,目前在政府機(jī)關(guān)電子政務(wù)公文處理中使用比較廣泛。
PDF格式,可以保證打印精確的顏色和準(zhǔn)確的打印效果,即PDF會忠實地再現(xiàn)原稿的每一個字符、顏色以及圖象。這種文件格式與操作系統(tǒng)平臺無關(guān),這一特點使它成為數(shù)字化信息傳播的理想文檔格式。
紙版檔案數(shù)字化可以根據(jù)用途分別選擇存儲方式。對于主要用于利用用途的可以選擇尺寸較小的格式,可以有較快的網(wǎng)絡(luò)傳輸時間和調(diào)用速度。對以備份為目的的可以選擇圖像清晰、分辨率高的存儲格式。但也應(yīng)考慮到到存儲成本和維護(hù)費(fèi)用。在實際工作中選擇何種存儲方式受經(jīng)費(fèi)、軟硬件設(shè)備、目的等多方面因素的制約,在數(shù)字化工作中可根據(jù)自己的實際情況的選擇適合自己的存儲方式。
三、提高OCR文字識別率
OCR文字識別軟件可以把圖片轉(zhuǎn)換成可以編輯的文字,支持JPG、PNG、GIF、BMP、DOC等圖片格式。在對數(shù)字化檔案進(jìn)行OCR識別后,生成可以直接檢索的文件,可以在文件中進(jìn)行選擇、復(fù)制與檢索的操作,然后進(jìn)行快速的關(guān)鍵詞的查找,從而實現(xiàn)對數(shù)據(jù)的管理和利用。用于OCR識別的紙質(zhì)檔案掃描最好選擇≥200dpi分辨率不要超過300dpi,過高的分辨率會造成OCR辨認(rèn)困難,特別是在一些存在輕微掃描失真的掃描儀上。在掃描中做到以下幾點:盡量將掃描原稿放正,否則會使字符識別困難;在掃描前人工手動清除稿件上的各種干擾小點,避免形成怪異字符;在掃描前對原稿進(jìn)行水平矯正,保證所有文字的水平;對于一些紙張較薄的稿件,掃描時可能會因為透明而受到背面文字干擾,此時應(yīng)使用灰度掃描。
四、注意檔案數(shù)字化的信息安全性
一是確保數(shù)字化檔案信息內(nèi)容不被泄露。要建立相應(yīng)的規(guī)章制度和技術(shù)手段,根據(jù)其信息價值的不同,對掃描檔案進(jìn)行安全風(fēng)險評估,遵循原始檔案的保密性,對一些重要的核心檔案可以脫機(jī)備份,防止數(shù)據(jù)泄密。采取委托加工方式數(shù)字化服務(wù)的,必須與承包單位簽訂保密協(xié)議、加強(qiáng)數(shù)字化現(xiàn)場安全管理等措施,防止檔案信息外流。檔案數(shù)字化后的副本在利用中要根據(jù)用戶訪問權(quán)限,控制訪問范圍和操作權(quán)限。二是與紙質(zhì)檔案相比較,數(shù)字檔案由于其不穩(wěn)定性、易修改性和對設(shè)備的依賴性等特點,其保管的安全性會受到威脅。一旦所保存的數(shù)據(jù)被破壞或丟失,就會對整個電子文檔系統(tǒng)的價值造成嚴(yán)重的影響。實施數(shù)字檔案備份后,在數(shù)字檔案信息遭到破壞后,具有較強(qiáng)的可恢復(fù)性。數(shù)字檔案備份要堅持備份形式的多樣性,可以使用光盤、移動硬盤或服務(wù)期在線備份但在此基礎(chǔ)上還要進(jìn)行異地備份。注意備份的周期的規(guī)律性與備份內(nèi)容的完整性,保證數(shù)字檔案信息安全。