1.徐 媚 2.沈繼紅
1.國網(wǎng)新疆電力公司昌吉供電公司 2.國網(wǎng)新疆電力公司新湖供電公司
庫藏檔案數(shù)字化質(zhì)量檢測(cè)初探
1.徐 媚 2.沈繼紅
1.國網(wǎng)新疆電力公司昌吉供電公司 2.國網(wǎng)新疆電力公司新湖供電公司
針對(duì)國網(wǎng)昌吉供電公司庫藏檔案數(shù)字化過程中存在的數(shù)字化檔案掃描件檢測(cè)數(shù)量大、掃描件達(dá)標(biāo)率不高、工作效率低等問題,通過研發(fā)檢測(cè)工具,實(shí)際應(yīng)用,統(tǒng)一了數(shù)字化檔案掃描件的檢測(cè)標(biāo)準(zhǔn),降低了檔案工作人員檢測(cè)強(qiáng)度。
檔案;數(shù)字化;質(zhì)量檢測(cè)
隨著紙質(zhì)檔案數(shù)字化工作至上而下逐步的展開與完善,紙質(zhì)檔案如何通過現(xiàn)代計(jì)算機(jī)技術(shù)快速得到利用,是整個(gè)檔案行業(yè)所面臨的重大課題。國網(wǎng)公司自2010年開始在全系統(tǒng)實(shí)施檔案數(shù)字化,同步開展存量檔案數(shù)字化、增量檔案電子化工作。據(jù)統(tǒng)計(jì),截止到2014年年底,僅國網(wǎng)昌吉供電公司開展存量檔案數(shù)字化量就達(dá)383萬頁,2014年當(dāng)年增量數(shù)字化檔案達(dá)205萬頁。如此大量的數(shù)字化檔案是否符合《國家電網(wǎng)公司紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》是當(dāng)前檔案工作人員面臨的一個(gè)難題。
在人員、時(shí)間各方面條件有限的情況下,面對(duì)大量的數(shù)字化檔案,檔案工作人員在抽檢過程中發(fā)現(xiàn)很多數(shù)字化檔案的質(zhì)量不過關(guān),如:數(shù)字化檔案掃描件中存在大量黑點(diǎn)、掃描件傾斜角度過大、分辨率過高或過低、用真彩色或灰度的黑白掃描件代替黑白二值等現(xiàn)象。數(shù)字化的各項(xiàng)指標(biāo)只能憑借檔案工作人員肉眼識(shí)別,導(dǎo)致評(píng)判標(biāo)準(zhǔn)不統(tǒng)一,檢查方和移交方矛盾激化。
原因一是沒有統(tǒng)一的掃描軟件來滿足標(biāo)準(zhǔn)的需要;二是檢測(cè)的檔案人員沒有合適的檢測(cè)工具。尋找一種有效的方法(技術(shù)手段)快速檢測(cè)并挑出不符合標(biāo)準(zhǔn)的檔案掃描件,是當(dāng)前檔案數(shù)字化工作中的一大難題。
(一)數(shù)字化檔案掃描件主要存儲(chǔ)形式
1.以原始掃描圖像格式存儲(chǔ)。國家檔案局頒布的標(biāo)準(zhǔn),以單頁的TIFF格式文件和JPG格式文件進(jìn)行存儲(chǔ)和應(yīng)用。
2.以多頁TIFF文件格式存儲(chǔ)。是將原始掃描數(shù)據(jù)進(jìn)行二次加工,通過TIFF文件格式以多頁鏈表的特點(diǎn),將原始掃描圖像數(shù)據(jù)文件,添加轉(zhuǎn)換成TIFF文件的頁面中。
3.以多頁P(yáng)DF文件格式存儲(chǔ)。包括單圖像層和雙層兩種。將原始掃描圖像“腳本化”包裝處理后,合成到一個(gè)文件的頁面中。
目前國網(wǎng)公司文字材料類檔案統(tǒng)一采用的是多頁P(yáng)DF文件圖像頁面的檢查,在數(shù)字化檔案掃描件的檢測(cè)時(shí),需要在加載文件的同時(shí)獲取每一頁的圖像信息。
(二)數(shù)字化檔案掃描件檢測(cè)原理
針對(duì)上述的電子檔案掃描圖像的檢測(cè)指標(biāo),利用計(jì)算機(jī)軟件程序批量的來完成檢測(cè)任務(wù),是一種切實(shí)可行的辦法,其具體的方法和原理如下:
1.圖像顏色數(shù)的檢測(cè)?!昂诎锥怠眻D像是指用于存放黑與白色像素?cái)?shù)量為“1bit”的圖像,一個(gè)字節(jié)可以存放8個(gè)像素點(diǎn)。彩色256色黑白圖和真彩色黑白圖的每像素所占的bit位數(shù),為8bit和24bit??梢灾苯訌膱D像的DIB數(shù)據(jù)結(jié)構(gòu)頭中,直接獲取出當(dāng)前讀取圖像的單位像素所占的bit數(shù)量,從而獲得圖像的顏色信息是否符合標(biāo)準(zhǔn)。檢測(cè)中發(fā)現(xiàn),很多用戶錯(cuò)將16/256色或真彩色黑白圖像當(dāng)作黑白二值圖像進(jìn)行存儲(chǔ),這是人工檢測(cè)時(shí)很難發(fā)現(xiàn)的問題。
2.圖像分辨率的檢測(cè)。對(duì)于原始數(shù)據(jù)(單頁的TIFF和JPG文件)和多頁TIFF文件而言,文件結(jié)構(gòu)本身內(nèi)置了分辨率字段,用來保存了掃描時(shí)填寫的圖像水平分辨率和垂直分辨率數(shù)值。要準(zhǔn)確的檢測(cè)出圖像分辨率,需要根據(jù)圖像尺寸來重新計(jì)算,A4頁面的尺寸為827x1169像素,水平方向分辨率=W/827*100,垂直方向分辨率=H/1169*100。由于掃描圖像在優(yōu)化處理過程中,圖像糾偏操作可造成圖像尺寸變大,圖像切變操作可造成圖像尺寸變小,因此,W/827和H/1169結(jié)果并非整數(shù),而是一個(gè)取值區(qū)間。在這個(gè)區(qū)間范圍內(nèi)的數(shù)值,所計(jì)算出來的分辨率是一個(gè)近似值,根據(jù)這個(gè)近似值所在頻帶來判斷圖像分辨率是否達(dá)標(biāo)。
3.圖像傾斜角度的檢測(cè)。檢測(cè)指標(biāo)主要針對(duì)黑白二值圖像的檢測(cè)操作。對(duì)于彩色圖像數(shù)據(jù),可以先進(jìn)行“高清化”處理,并將圖像底色替換為白色,將其轉(zhuǎn)換為文字內(nèi)容與底色有很高對(duì)比程度的圖像,然后再對(duì)其進(jìn)行黑白二值化轉(zhuǎn)換。先統(tǒng)計(jì)出水平和垂直方向上的“權(quán)值”數(shù)組,作為圖像內(nèi)容版面分析的原始依據(jù)。然后,在得到圖像內(nèi)容區(qū)間范圍內(nèi)順序采樣,并對(duì)每一份采樣矩陣中的數(shù)據(jù)進(jìn)行分析,最終計(jì)算得出整個(gè)頁面的平均斜率值,將該值轉(zhuǎn)換為圖像的傾斜角度,根據(jù)該角度值來是否符合標(biāo)準(zhǔn)。
4.圖像去污質(zhì)量檢測(cè)。指標(biāo)的檢測(cè),重點(diǎn)針對(duì)圖像黑邊框情況進(jìn)行檢測(cè),黑點(diǎn)的檢測(cè)目前還沒有足夠的理論依據(jù)。
5.圖像頁面是否加載的檢測(cè)。對(duì)于多頁的PDF格式文件,由于其使用的制作軟件不同,其頁面數(shù)據(jù)格式不完全相同。為了對(duì)掃描后圖像進(jìn)行優(yōu)化處理,很多制作軟件會(huì)在原有PDF頁面的基礎(chǔ)之上,插入修改過后的圖像數(shù)據(jù)節(jié)點(diǎn),用來保存修改痕跡;或者插入“Shape”繪圖節(jié)點(diǎn),來覆蓋掉圖像中的黑色邊框。加載PDF文件頁面的成功與否,直接影響到其它指標(biāo)項(xiàng)的檢測(cè)。
6.圖像圖層數(shù)量的檢測(cè)。對(duì)于多頁P(yáng)DF文件存儲(chǔ)的檔案圖像數(shù)據(jù),是通過加載PDF文件的交叉引用表(xref),來獲取每一頁圖像數(shù)據(jù)的Stream流對(duì)象,同時(shí)統(tǒng)計(jì)其數(shù)量。原始?xì)w檔的PDF文件應(yīng)該只有一個(gè)圖像層??赏ㄟ^判斷圖像層數(shù)量的檢查,來確認(rèn)電子檔案是否被非法篡改過改,并進(jìn)一步確認(rèn)其真實(shí)性、可利用性。
7.文本層數(shù)據(jù)的檢測(cè)。雙層PDF文件,是指PDF文件中的每個(gè)頁面中會(huì)同時(shí)存在兩種類型數(shù)據(jù):一是光柵圖像數(shù)據(jù),二是矢量文本數(shù)據(jù)。通過將雙層PDF文件頁面中隱含的文字信息提取出來的方法,判斷其頁面中是否存在文字內(nèi)容。
國網(wǎng)昌吉供電公司通過檢測(cè)軟件的應(yīng)用,統(tǒng)一了數(shù)字化檔案掃描件的檢測(cè)標(biāo)準(zhǔn),降低了檔案工作人員檢測(cè)強(qiáng)度,提高了工作效率,同時(shí)也減少了檢測(cè)人與被檢測(cè)人直接矛盾關(guān)系。國家/行業(yè)標(biāo)準(zhǔn)的建立,需要有配套的檢測(cè)措施,才能更好為行業(yè)創(chuàng)造出更有價(jià)值的成果。數(shù)字化檔案掃描件是否符合標(biāo)準(zhǔn)、是否達(dá)標(biāo)的檢測(cè)方法和技術(shù)手段,是紙質(zhì)檔案數(shù)字化工作中必不可少的重要一環(huán)。
[1]《中央企業(yè)檔案信息化建設(shè)工作指引》(國資廳發(fā)[2014]2號(hào))
[2]《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(GBDA/T31-2005)
[3]《PortableDocumentFormat-ReferenceManualVersion1.3》
[4]《國家電網(wǎng)公司紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(Q/GDW135-2006)