方草地
摘要:隨著我國檔案事業(yè)的飛速發(fā)展,紙質檔案難以滿足日常利用和保管需求。而檔案結合現(xiàn)代化技術進行數(shù)字化處理后,能進行異地查看、異地保管等,也更有利于檔案的保護和利用。本文對紙質檔案數(shù)字化流程和要求進行了簡單的介紹,希望對檔案工作者有所啟發(fā)幫助。
關鍵詞:檔案;檔案數(shù)字化;數(shù)字化流程
1組織與管理的確定
在《紙質檔案數(shù)字化規(guī)范》DAT 31-2017中,明確提出一、應建立紙質檔案數(shù)字化工作組織,對數(shù)字化工作進行統(tǒng)籌規(guī)劃、組織實施、協(xié)調管理、安全保障、技術保障、監(jiān)督檢查、成果驗收等,確保數(shù)字化工作的順利開展。二、應配備具有相應能力的工作人員,包括熟悉檔案業(yè)務并具有較高的調查研究水平和良好的組織領導能力的管理人員。三、基礎設施(一)配備專用加工場地,并進行合理布局,形成檔案存放、數(shù)字化前處理、檔案著錄、檔案掃描、圖像處理、質量檢查等工作區(qū)域。(二)、加工場地的選擇及溫濕度等環(huán)境的控制有利于檔案實體的保護。場地內應配備可覆蓋全部場地的防火、防水、防有害生物、防盜報警、視頻監(jiān)控等安全管理的設施設備。(三)合理規(guī)劃、配備和管理紙質檔案數(shù)字化設施設備,確保設施設備安全、先進,能夠滿足數(shù)字化工作的需要。四、工作方案(一)在充分調研的基礎上,制定科學合理的工作方案,確保紙質檔案數(shù)字化工作達到預期目標。(二)紙質檔案數(shù)字化工作方案應包括數(shù)字化對象、工作目標、工作內容、成本核算、數(shù)字化技術方法和主要技術指標、驗收依據、人員安排、責任分工、進度安排、安全管理措施等內容。數(shù)字化對象的確定應綜合考慮檔案的珍貴程度、開放程度、利用率、亟待搶救程度、數(shù)字化資金情況等因素。
只有做好前期工作的組織與管理,配備相應的人員和設施設備,制定符合要求的辦法,才能對工作流程進行控制,才能對數(shù)字化質量進行把關。組織與管理的確定,人員設備和場地的選擇,直接關系到檔案數(shù)字化工作的全過程,相關人員需要提高認識,編制對應的工作規(guī)劃和方案,才能滿足數(shù)字化工作的要求。
2數(shù)字化前處理
在進行數(shù)字化前,還要做相應的數(shù)字化處理工作,以便于數(shù)字化工作的開展。其中有:確定掃描頁、編制頁號、目錄數(shù)據準備、拆除裝訂、技術修復等內容,另外還需注意每一步工作都需要嚴格按照工作要求、崗位制度要求來進行。員工崗前需要進行專業(yè)培訓和保密培訓,并且需要簽訂保密協(xié)議等,入場工作人員不能攜帶手機、硬盤、相機等,禁止私自拷貝、上傳工作圖片。
3目錄數(shù)據庫建立
目錄數(shù)據庫的建立主要有:目錄數(shù)據庫數(shù)據規(guī)則、數(shù)據庫選擇、數(shù)據庫結構的設計、錄入數(shù)據庫。內容重點為數(shù)據庫的選擇上數(shù)據字段長度、字段類型、字段內容要求等,在紙質檔案目錄準備與目錄數(shù)據庫建立工作中均應嚴格遵守,避免后續(xù)掛接對應不上。數(shù)據庫除特殊要求以外也應考慮轉換為通用數(shù)據格式,以便于數(shù)據交換和利用。在結構上還要注意保持檔案的內在聯(lián)系,有利于管理和利用。
4檔案的掃描
4.1掃描設備
檔案掃描應根據紙質檔案原件實際情況、數(shù)字化目的、數(shù)字化規(guī)模、計算機網絡和存儲條件等選擇相應的掃描設備,在設備的選擇上要注意對檔案實體的保護,盡量采用對檔案實體破壞性小的掃描設備進行數(shù)字化。對于超出所使用掃描儀掃描尺寸的檔案可采用更大幅面掃描儀進行掃描(如工程圖紙),也可以采用小幅面掃描儀分幅掃描后進行圖像拼接的方式處理,如果采用拼接方式處理的,需要留有足夠的重疊區(qū)域,采用軟件拼接的,重疊部分不應小于三分之一。
4.2色彩模式
為最大限度保留檔案原件信息,便于多種方式的利用,宜全部采用彩色模式進行掃描。如果頁面為黑白兩色,并且字跡清晰、不帶插圖的檔案,也可采用黑白二值模式進行掃描。如果頁面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,也可采用灰度模式掃描。
4.3掃描分辨率
綜合考慮數(shù)字圖像后期利用方式等因素的前提下選擇掃描的分辨率,通常要求掃描分辨率不小于200dpi;一般的屏幕閱讀,采用黑白二值、灰度、彩色幾種模式對資料進行掃描時,其分辨率選擇300dpi;需要進行OCR漢字識別的資料,選擇分辨率為300dpi;特殊情況下,如文字偏小、過于密集、清晰度較差等,可適當提高分辨率。
4.4存儲格式
紙質檔案數(shù)字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式,也可從網絡瀏覽速度、易操作性、存儲空間占用等方面進行綜合考慮,將圖像轉換為PDF或雙層PDF等其他格式。需要注意的是,采用OCR識別的需要存儲為雙層PDF,同一批檔案應采用相同的存儲格式。
4.5圖像的命名和處理
圖像命名方式的選擇應確保圖像命名的唯一性,應以檔號為基礎進行命名,另外還需考慮是單頁存儲或者是多頁存儲,選擇對應的方式命名。
圖像在處理時,要考慮圖像的實際情況,選擇圖像拼接、旋轉及糾偏、裁邊、去污等操作工序進行處理,以保證圖像的質量。并且,處理完的圖像應進行質量檢查,發(fā)現(xiàn)不符合質量要求的,要及時重掃并重新處理檢查。
5數(shù)據掛接與驗收移交
在完成掃描工作后應借助相關軟件對數(shù)據庫中的目錄數(shù)據與其對應的紙質檔案數(shù)字圖像進行掛接,以實現(xiàn)目錄數(shù)據與數(shù)字圖像的關聯(lián)。掛接完成后,應逐條對掛接結果進行檢查,包括目錄數(shù)據與紙質檔案數(shù)字圖像對應的準確性、已掛接數(shù)字圖像與實際掃描數(shù)量的一致性、數(shù)字圖像是否能正常打開等,發(fā)現(xiàn)錯誤及時進行糾正。
檔案部門應成立專門的驗收組對數(shù)字化成果進行驗收,采用計算機自動檢驗與人工抽查的標準進行檢驗。采用計算機自動檢驗的,需要合格率為100%,不能采用計算機檢驗的,人工檢驗率不得小于5%,其中數(shù)據庫與圖像的對應上,合格率為100%,其他內容合格率為95%。
6結束語
通過本文我們知道了檔案數(shù)字化工作的流程和要求,在2021年1月1日實施的《中華人民共和國檔案法》中,特別提到各級人民政府應當將檔案信息化納入信息化發(fā)展規(guī)劃,保障電子檔案、傳統(tǒng)載體檔案數(shù)字化成果等檔案數(shù)字資源的安全保存和有效利用。檔案館和機關、團體、企業(yè)事業(yè)單位以及其他組織應當加強檔案信息化建設,并采取措施保障檔案信息安全。所以作為檔案工作者,提高對數(shù)字化工作的認識是必不可少的,希望本文對相關工作人員在檔案數(shù)字化工作中有所幫助。
參考規(guī)范
[1]《中華人民共和國檔案法》
[2]《中華人民共和國保守國家秘密法》
[3]《紙質檔案數(shù)字化規(guī)范》DAT 31-2017