鄧嘉墚
(蘇州大學社會學院 蘇州 215123)
研究探索
檔案掃描圖像清晰度控制
鄧嘉墚
(蘇州大學社會學院 蘇州 215123)
掃描圖像清晰與否,是評價掃描圖像質量優(yōu)劣的關鍵。掃描圖像的清晰度取決于掃描儀在掃描時所用的設置參數(shù),包括分辨率,亮度與對比度。本文試用定量分析的方法,分析檔案掃描圖像的清晰度與各掃描參數(shù)的關系,得到控制掃描圖像質量的方法。
掃描圖像 清晰度 OCR 掃描參數(shù)
紙質檔案數(shù)字化,是指使用掃描儀或數(shù)碼相機等數(shù)碼設備對紙質檔案進行數(shù)字化加工,將其轉化為存儲在磁帶、磁盤、光盤等載體上并能被計算機識別的數(shù)字圖像或數(shù)字文本的處理過程[1]。作為紙質檔案數(shù)字化的最初產(chǎn)物,掃描圖像質量的優(yōu)劣,決定了檔案數(shù)字化過程的效率與之后對數(shù)字化成果的開發(fā)、利用。掃描圖像質量受到多方面因素的影響,其中,掃描圖像的清晰與否,無疑是評判掃描圖像質量優(yōu)劣的關鍵。
清晰度通常用來表示人眼看到的圖像細節(jié)及其邊界的清晰程度,是由外部環(huán)境和設備客觀性能的綜合結果造成人對圖像的主觀感覺[2]。對檔案掃描圖像而言,清晰度是指掃描圖像對檔案原件細節(jié)的表現(xiàn)程度。掃描圖像的清晰度由圖像輸入端,即掃描儀所設置的掃描參數(shù)決定,包括:分辨率、亮度和對比度。
掃描圖像清晰與否,看似感官、因人而異,但它對掃描圖像后期的開發(fā)、利用至關重要。筆者希望用定量的方法,對在不同設置參數(shù)環(huán)境下得到掃描圖像的清晰程度做出比較分析,得到掃描圖像清晰度與各掃描設置參數(shù)之間的定量關系。考慮到部分紙質檔案在得到掃描圖像的同時,會進行錄入操作或做全文數(shù)字化——用OCR識別技術將掃描后的圖像文件轉化成文本文件,并建立文本與圖像頁面之間的對應關系[3]246,決定利用掃描圖像的OCR(光學字符識別)率的高低來映射掃描圖像的清晰度,使掃描圖像的清晰度能以數(shù)量的方式直觀地表現(xiàn)出來。
下文定量測試選用了一面314字符數(shù)A4大小的紙質檔案,在保持其他參數(shù)不變的情況下,分別改變掃描儀的分辨率、亮度與對比度三參數(shù)之一的設置,對該檔案掃描得到掃描圖像。用較為成熟的OCR軟件ABBYY FineReader 12對掃描圖像做字符識別,再與原紙質檔案字符數(shù)做比得出OCR率。OCR率越高,則代表該掃描圖像的清晰度越高,反之亦然。之后,比較分析得到各設置參數(shù)與OCR率的關系,即分辨率、亮度與對比度的參數(shù)設置對掃描圖像清晰度的影響,找到控制掃描圖像質量的方法。
分辨率是掃描過程中最為重要的一個參數(shù),代表了掃描儀在單位長度內掃描圖像包含的取樣點數(shù)或像素數(shù),一般用每英寸點數(shù)(dpi)表示。下文中,筆者在保持其他掃描參數(shù)不變的情況下,對同一份紙質檔案,分別用100dpi、200dpi、300dpi、600dpi與1200dpi作為掃描分辨率設置所用參數(shù),得到不同的掃描圖像。之后,對這些掃描圖像做OCR,得到OCR率,如下表。
表1 分辨率與OCR率比較
如上表1,可以看出掃描分辨率設置與OCR率的關系,100dpi下掃描圖像的OCR率遠小于其他幾組分辨率下掃描圖像的OCR率,即驗證了在低分辨率(100dpi)設置下,掃描圖像的清晰度并不能很好地支持OCR。換而言之,要得到較為清晰的掃描圖像,應適當加大掃描檔案所采用的分辨率大小,如《紙質檔案數(shù)字化技術規(guī)范》中建議“掃描分辨率應不小于200dpi,綜合考慮信息技術的不斷發(fā)展,為最大限度地采集檔案信息,滿足后續(xù)多種利用目的需要,掃描分辨率建議不小于300dpi”[1]。又如杭州市檔案館在紙質檔案數(shù)字化的一期工程中,就將掃描分辨率定為300dpi,浙江省檔案館的數(shù)字化掃描分辨率一般在200~300dpi左右,有的高達600dpi[4]10-13。
當然,為追求更好的清晰度,一味地增加掃描分辨率并不可取。通過上表可知該檔案掃描圖像在300dpi下得到較高OCR率后,再增加掃描分辨率,得到的OCR率并不隨之增加,反而,在使用1200dpi掃描時,得OCR率較200dpi至600dpi時所得數(shù)據(jù)明顯降低。在使用600dpi或1200dpi分辨率時,所得掃描圖像可經(jīng)數(shù)十倍放大而仍能表現(xiàn)其細節(jié),感官上確實更清晰了,但實際操作中,掃描儀的分辨度設置越高,掃描單份檔案耗時越長,產(chǎn)生的圖像文件大?。ù鎯θ萘浚┮搽S之變大,OCR的時間也隨之增加,甚至當分辨率達到一定數(shù)值,如本文1200dpi后,還會導致OCR率下降的情況。面對浩如煙海亟待數(shù)字化的紙質檔案,不合理使用過高的掃描分辨率,會產(chǎn)生大量的數(shù)據(jù)冗余,使檔案掃描與圖像利用過程變得耗時費力,并不可取。
從提高檔案掃描圖像質量出發(fā),掃描圖像的清晰度優(yōu)劣,不僅局限于感官上的清晰度高低,也應考慮到圖像的掃描過程與后期利用的效率。檔案掃描前,應綜合權衡,選用合適的分辨率,獲得更“優(yōu)”的清晰度。
亮度與對比度是掃描過程中另外兩個重要指標,亮度設置用于調節(jié)掃描后生成圖像的明暗效果,對比度設置用來調節(jié)掃描后生成圖像中最亮的白色與最暗的黑色之間的差異程度。亮度與對比度的設置,在掃描過程中共同作用于掃描圖像,它們相互聯(lián)系,又各有特點,本節(jié)放在一起討論,便于比較分析。亮度與對比度都是調節(jié)掃描后生成圖像顯示效果的特定指標。兩者的區(qū)別在于:亮度設置作用于掃描圖像中所有的像素點,調高掃描亮度,則掃描圖像所有的像素點的色值都會隨之提亮,使掃描圖像整體被提亮,反之亦然,如下圖(1)展示了亮度設置由低到高對掃描圖像的影響。
圖一
對比度設置雖然也作用于整幅掃描圖像,但是只作用于圖像中最亮的白色與最暗的黑色之間的差異程度。增加掃描對比度,掃描圖像的明暗區(qū)域差異范圍變大,反之亦然,如下圖(2)展示了對比度設置由低到高對掃描圖像的影響。
圖二
依照上文所述方法,分別對亮度、對比度做定量分析,得到如下表2、表3。
表2 亮度與OCR率對比
表3 對比度與OCR率對比
1.亮度。通過表2,可以發(fā)現(xiàn)當采用+30亮度設置時,掃描圖像的OCR率最高,達到92.4%,高于其他亮度設置下掃描圖像的OCR率。通過圖一與表2相互對照,能發(fā)現(xiàn)除去OCR率最高的+30亮度,在其他幾組亮度設置下,掃描圖像的OCR率與文件存儲容量改變幅度不大,但圖片在感官上趨于過暗或過亮,對檔案原件的還原度變差,保真度下降,掃描圖像的清晰度變“劣”,影響掃描圖像后期的查閱與利用。
2.對比度。通過表3,可以發(fā)現(xiàn)當采用0對比度設置時,得到掃描圖像的OCR率最高,為91.1%,為幾組數(shù)據(jù)中的最高值。在0對比度下掃描后,增加或減小掃描對比度的設置,所得掃描圖像的OCR率都逐漸減小,當采用-90對比度對檔案文件掃描時,OCR率為零,感官上也無法辨別檔案上的內容,如圖二1.jpg。區(qū)別于亮度,在采用不同對比度掃描時,產(chǎn)生的掃描圖像的存儲容量大小隨對比度增加而增加。當對比度設置大于0后,掃描圖像的OCR率逐漸減小,但掃描圖像的存儲容量仍隨對比度設置增大而增大,產(chǎn)生了掃描圖像數(shù)據(jù)的冗余,在不能有效提高OCR率的同時,造成了存儲空間的浪費。
綜上,筆者在300dpi、30亮度與0對比度設置下,對上文比較中所使用的紙質檔案掃描并比較原文件,得出OCR率為92.0%。在保證掃描圖像清晰度的同時,合理控制了掃描圖像的文件大小。
檔案掃描圖像清晰度,不論高低,而論優(yōu)劣。在進行紙質檔案掃描時,應綜合分析檔案原件的實際情況,并從之后對掃描圖像的利用需求出發(fā),設置合適的分辨度、亮度和對比度,以期得到更優(yōu)的掃描圖像清晰度,提高檔案掃描圖像的質量。
[1]紙質檔案數(shù)字化技術規(guī)范 [S].中華人民共和國行業(yè)標準DA/T31-2005.國家檔案局,2005.
[2]關劍波.傳統(tǒng)膠片影像與數(shù)字影像清晰度比較[C].國際博物館影像技術研討會,2005.
[3]張照余.檔案信息化理論與實踐[M].中國檔案出版社,2007.
[4]傅榮校,翁敏曦.檔案數(shù)字化掃描與存儲格式比較研究[J].檔案與建設,2006(11).
Discussion on the Clarity of Scanned Image of Archives
Deng Jialiang
(Society School of Soochow University,Suzhou 215213,China)
Clarity is undoubtedly the key to the quality of scanned image.The clarity depends on the parameters of scanners set in scanning,including resolution,brightness and contrast ratio.In this paper,the method of quantitative analysis is used to show the relationship between the clarity of digital image and the parameters in order to find the method to improve the quality of the scanned image.
canned image;clarity;OCR;scanning parameters
10.16565/j.cnki.1006-7744.2017.09.09
鄧嘉墚,蘇州大學圖書情報與檔案管理專業(yè)研究生,主要研究方向為檔案數(shù)字化。
G270.7
A
2017-03-27