文/王 偲 郭金光
檔案數(shù)字化加工中關(guān)鍵質(zhì)量節(jié)點控制及其應(yīng)對措施
文/王偲郭金光
在信息化、網(wǎng)絡(luò)化高速發(fā)展的今天,檔案數(shù)據(jù)外包成為檔案數(shù)字化工作的主要手段。外包工作的關(guān)鍵則是檔案數(shù)據(jù)質(zhì)量。文章針對目前檔案數(shù)字化外包過程中存在的一些問題提出自己的看法,對如何保障外包檔案數(shù)據(jù)質(zhì)量的幾個關(guān)鍵點進(jìn)行分析,并提出了具體解決措施
近年來,各級檔案館(室)和立檔單位的檔案數(shù)字化工作一般都采用外包給數(shù)字化公司的方式,檔案館(室)則只需要按照有關(guān)標(biāo)準(zhǔn),對數(shù)據(jù)質(zhì)量進(jìn)行檢查驗收,合格后在數(shù)字檔案館應(yīng)用系統(tǒng)進(jìn)行掛接,數(shù)字檔案即可進(jìn)入利用環(huán)節(jié)。但由于種種原因,數(shù)字化檔案的質(zhì)量控制問題一直困擾著檔案館(室),如目錄數(shù)據(jù)不完善甚至出錯,目錄數(shù)據(jù)和數(shù)字化原文不匹配等等,導(dǎo)致在利用過程中檢索準(zhǔn)確性差、效率低下等問題。解決這些問題,需要檔案部門參照相關(guān)標(biāo)準(zhǔn),從源頭上控制,從而減少錯誤出現(xiàn)。
檔案數(shù)字化按照流程通常分為檔案整理、目錄建庫、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)質(zhì)檢、數(shù)據(jù)掛接、數(shù)據(jù)驗收等7個子環(huán)節(jié),如下環(huán)節(jié)易出現(xiàn)差錯。
1、檔案整理不規(guī)范。檔案頁號編寫重復(fù)或不連續(xù),導(dǎo)致掃描圖像名稱與頁號不符,文件編寫頁號與其圖像總數(shù)不相符。此差錯出現(xiàn)頻率較高,且在質(zhì)檢中不易被發(fā)現(xiàn)。
2、圖像處理不達(dá)標(biāo)。掃描分辨率低,圖像處理失真、變形、傾斜、不完整等問題,對于大幅面檔案采用分幅掃描后需進(jìn)行圖像拼接的圖片命名不規(guī)范。
3、目錄建庫不完善。目錄數(shù)據(jù)著錄項目不完整或錯誤,合成PDF文件后檔號命名不規(guī)范,導(dǎo)致無法與對應(yīng)的目錄數(shù)據(jù)掛接。
1、建章立制不夠完善。一是掃描質(zhì)量要求不高?!都堎|(zhì)檔案數(shù)字化技術(shù)規(guī)范》中規(guī)定:“需要進(jìn)行OCR漢字識別的檔案,掃描分辨率建議選擇大于或等于200dp i”,筆者在實際操作中,對200dp i、300dpi、500dp i的圖片進(jìn)行了對比,結(jié)果顯示dp i值越高,圖片清晰度越高,OCR識別效果越好,存儲空間越大。但是掃描、合成PDF、OCR識別等各個環(huán)節(jié)效率降低,成本增加。而當(dāng)掃描分辨率為300dp i時,圖像效果、儲存空間和工作效率較為科學(xué),不失為一種比較好的選擇,這就需要在決策層面上與時俱進(jìn)。二是制度規(guī)范不完善。應(yīng)該制定和完善《現(xiàn)場管理制度》《保密制度》《設(shè)備使用制度》等制度規(guī)范,以制度管人管事。
2、管理不夠科學(xué)。一是專業(yè)掃描公司為了節(jié)約成本,提高效率,往往忽視了各個環(huán)節(jié)的規(guī)范化操作要求,甚至對一些圖片進(jìn)行“批量”處理,忽略了各個圖像的個性差異。二是沒有嚴(yán)格按照操作流程操作。各工作環(huán)節(jié)協(xié)作缺失,沒有對上一環(huán)節(jié)進(jìn)行檢查,比如一卷檔案頁號出現(xiàn)漏編或者重復(fù),圖像掃描時就會漏掃或?qū)σ豁摍n案重復(fù)掃描,出現(xiàn)類似錯誤不可避免,所以在合成PDF時如果不對前面兩環(huán)節(jié)進(jìn)行核查,此后很難發(fā)現(xiàn)和糾正錯誤。
3、人員素質(zhì)原因。檔案數(shù)字化工作人員除了要具備計算機(jī)基礎(chǔ)知識和檔案業(yè)務(wù)知識外,還需要較強(qiáng)的耐心和責(zé)任心,而人員素質(zhì)千差萬別,尤其是在工作量和勞動強(qiáng)度較大的情況下,這一問題尤為突出。
環(huán)節(jié)一:檔案整理。檔案整理是一項基礎(chǔ)性工作,整理規(guī)范化、標(biāo)準(zhǔn)化有利于今后查閱利用。應(yīng)在檔案數(shù)字化加工之前,嚴(yán)格按照檔案整理有關(guān)規(guī)則規(guī)范整理。對沒有編頁或編頁不規(guī)范的檔案使用2B鉛筆重新進(jìn)行編頁,編頁位置應(yīng)在檔案頁面的底端中部編寫頁號,編頁不應(yīng)壓蓋檔案內(nèi)容,當(dāng)頁面底端中部已有頁號時,應(yīng)將原頁號用鉛筆劃去以示區(qū)分,編頁方法為阿拉伯?dāng)?shù)字從“1”開始依次編寫頁號,應(yīng)保證每卷或每件頁號編寫的連續(xù)性。編頁碼時要從方便掃描的原則出發(fā),如用膠水粘貼的檔案在不破壞頁面的前提下盡可能分成單頁,合格證、發(fā)票、介紹信等不規(guī)則紙張均要編頁碼,使之掃描為一個完整頁面,編頁碼環(huán)節(jié)也要逐卷登記,要素包括全宗號、目錄號、保管期限、案卷號,原有頁碼,現(xiàn)有頁碼,有無卷內(nèi)目錄等,以便出錯時檢查有依據(jù)。
環(huán)節(jié)二:檔案掃描。掃描儀分辨率設(shè)置為300dpi、24位真彩色格式,圖像命名按三位數(shù)字,如001、002……的次序依次命名。一是掃描時盡量保持紙張端正、平整,減輕圖形處理壓力,按照所編頁碼,逐頁掃描檔案,對產(chǎn)生的圖像依次命名,確保頁面上編寫的頁碼等同于掃描圖片的名稱。二是對于大幅面檔案采用分幅掃描后需進(jìn)行拼接的圖像分幅掃描時,應(yīng)使各分幅尺寸相近、技術(shù)參數(shù)一致,相鄰圖像之間必須有部分重疊,重疊面積應(yīng)達(dá)到各分幅面積的5%以上,分副圖像應(yīng)分別命名為該頁“頁號+后綴字母或.數(shù)字”,確保不占用其他頁號,如頁號為006的頁面掃描時產(chǎn)生三幅圖像,為防止圖像命名混淆和在拼接時便于識別,命名為006A,006B,006C或者006.1,006.2,006.3。三是掃描環(huán)節(jié)時檢查檔案整理,尤其是頁碼編寫正確與否,杜絕返工的關(guān)鍵環(huán)節(jié),若發(fā)現(xiàn)檔案整理不達(dá)標(biāo),存在頁碼漏編、重編問題,要及時更正錯誤再進(jìn)行掃描,達(dá)到檔案實體和電子文件一一對應(yīng),為合成PDF掃清障礙。
環(huán)節(jié)三:圖像處理。一是方向調(diào)整。應(yīng)對方向不正確的圖像進(jìn)行旋轉(zhuǎn)還原,具體方向按照閱讀習(xí)慣、文字端正原則而定。二是糾偏,對偏斜的圖像進(jìn)行糾偏處理,以達(dá)到視覺上基本感覺不偏斜為準(zhǔn),偏斜不宜超過3度。三是去污。應(yīng)對在掃描過程中產(chǎn)生的污線、污點、黑邊等影響圖像質(zhì)量的雜質(zhì)進(jìn)行去污處理。去污過程中,不能刪除檔案內(nèi)容信息。四是圖像拼接,對大幅面的檔案進(jìn)行分幅掃描后形成的多幅圖像,應(yīng)進(jìn)行拼接處理,合并為一個完整的圖像,拼接時應(yīng)確保拼接處平滑地融合,拼接后整幅圖像無明顯拼接痕跡,完成拼接的圖片按照頁號命名。
環(huán)節(jié)四:文件命名及目錄建庫。圖像處理完成后,合成的PDF文件以檔號命名保存。合成PDF時,要翻閱紙質(zhì)檔案認(rèn)真核對目錄數(shù)據(jù)中的每一項內(nèi)容,對和紙質(zhì)檔案不一致的目錄數(shù)據(jù)進(jìn)行修改、添加或刪除。在修改目錄時,注意批復(fù)類檔案應(yīng)該和報告合并作為一條而無需補(bǔ)充著錄。
環(huán)節(jié)五:OCR識別。OCR識別后的雙層PDF因同時兼顧視覺效果和檢索便捷性,極大地方便了電子文件的管理。現(xiàn)階段主要通過 AdobeAcrobatXIPro軟件進(jìn)行識別,識別采取批量識別和單個識別結(jié)合的方法,即批量識別遇到障礙后,對此文件進(jìn)行單個識別,再對之后的批量識別。通過觀察縮略圖,可以對圖紙、手寫(如會議記錄)等識別效率低下的檔案不識別,以提高工作效率。
環(huán)節(jié)六:數(shù)據(jù)質(zhì)檢。一是要特別注意檔案數(shù)字化過程中全宗、目錄、案卷等檔案組成單位的完整性,不宜進(jìn)行隨意分割,不應(yīng)因為一個全宗年代久遠(yuǎn)紙質(zhì)較差不方便掃描而只抽取便于掃描的部分?jǐn)?shù)字化,從而破壞檔案的整體價值。二是圖像質(zhì)量檢查,對掃描處理后的圖像是否清晰、完整進(jìn)行檢查,遺漏的應(yīng)進(jìn)行補(bǔ)掃,不符合質(zhì)量要求的圖像,重新進(jìn)行處理或重掃。三是應(yīng)對目錄數(shù)據(jù)庫著錄項目的完整性、著錄內(nèi)容的規(guī)范性進(jìn)行檢查,對質(zhì)量不合格的目錄數(shù)據(jù)進(jìn)行修改或重新著錄。對PDF文件的檢查要注意幾個等量關(guān)系,即PDF文件數(shù)量要等于目錄條目數(shù)量,掃描頁面數(shù)量等于編寫頁碼數(shù)量并且等于檔案目錄中條目頁數(shù)的累計值,如果上述等量關(guān)系不成立,則之前某一環(huán)節(jié)出錯,需要倒查,修改,還可以通過觀察縮略圖糾錯,因為一份檔案首頁和其他頁有著明顯的區(qū)別,可以大致作一判斷。
檔案數(shù)據(jù)資源是數(shù)字檔案館建設(shè)的核心內(nèi)容,科學(xué)嚴(yán)謹(jǐn)?shù)墓ぷ髁鞒淌菣n案數(shù)字化加工的基礎(chǔ),加強(qiáng)管理是解決數(shù)據(jù)質(zhì)量問題的重要措施,工作人員的責(zé)任心和業(yè)務(wù)素質(zhì)更是保證工作質(zhì)量和效率的關(guān)鍵,對今后檔案保存、查閱、利用尤為重要。作為一名蘭臺人,應(yīng)該肩負(fù)起工作使命,不管是自行開展檔案數(shù)字化加工還是外包給企業(yè)實施,都應(yīng)本著對歷史負(fù)責(zé)的態(tài)度,把好檔案數(shù)字化制作的每一個關(guān)口,控制好關(guān)鍵質(zhì)量節(jié)點,從結(jié)果控制向過程控制轉(zhuǎn)變,確保數(shù)據(jù)信息無錯誤,真正做到為歷史負(fù)責(zé),為現(xiàn)實服務(wù),替未來著想。
(作者單位:漢中市農(nóng)業(yè)科學(xué)研究所漢中市檔案局)