鞏 霞,魏浩然
(1. 山東理工大學(xué),山東 淄博 255049;2. 德克薩斯大學(xué)達(dá)拉斯分校,美國德克薩斯州理查德森市75080)
檔案是個(gè)人經(jīng)歷和歷史進(jìn)程的真實(shí)記錄,是社會(huì)和國家的寶貴財(cái)富。由于國內(nèi)保存的大部分是手寫的紙質(zhì)檔案,在檔案保存過程中,檔案上的文字會(huì)受光照、浸水、氧化等因素的影響,變得難以辨識(shí)與保存。依據(jù)檔案書寫中字跡材料的不同,可以分為最耐久的字跡材料、比較耐久的字跡材料、不耐久的字跡材料三種類型。其中最耐久的字跡材料包括墨汁、墨和黑色油墨等。比較耐久的字跡材料包括藍(lán)黑墨水、碳素墨水、藍(lán)色油墨、紅色油墨和印泥等。不耐久的字跡材料包括純藍(lán)墨水、紅墨水、復(fù)印紙、圓珠筆和銀泰油等[1]。
純藍(lán)墨水書寫的檔案耐光、耐水性差,極易褪色,導(dǎo)致字跡難以辨識(shí)。在1996年對(duì)上海市48家各級(jí)各類檔案館館藏永久卷檔案的調(diào)查中,純藍(lán)墨水書寫的檔案占總檔案的比例在2-3%左右[2]。圖1展示了建國前、50年代、60年代、70年代等不同時(shí)期中,純藍(lán)墨水書寫的檔案所占比例的變化。由于純藍(lán)墨水檔案容易出現(xiàn)字跡褪色,針對(duì)藍(lán)色墨水檔案的修復(fù)變得尤為緊要。
圖1 不同時(shí)期純藍(lán)墨水檔案所占比例的變化
近年來,檔案搶救與數(shù)字化工作正大力開展。目前主要有兩種對(duì)紙質(zhì)檔案進(jìn)行保護(hù)的方式,一種是對(duì)破損檔案進(jìn)行物理修復(fù),盡可能恢復(fù)紙質(zhì)檔案原貌并呈現(xiàn)信息。另一種是對(duì)檔案進(jìn)行數(shù)字化,將紙質(zhì)檔案轉(zhuǎn)化為數(shù)字檔案[3]。
圖2 純藍(lán)墨水手寫檔案
隨著數(shù)字信號(hào)處理技術(shù)在圖像和視頻處理領(lǐng)域的發(fā)展[4-8],將圖像增強(qiáng)技術(shù)運(yùn)用到手寫檔案的褪色修復(fù)中,會(huì)極大地提高褪色文檔的辨識(shí)度。然而至今國內(nèi)尚缺乏使用圖像增強(qiáng)技術(shù)修復(fù)手寫檔案的研究,主要原因在于,檔案館館藏檔案只有褪色后的檔案,而并不知道褪色前檔案上所寫的準(zhǔn)確內(nèi)容。這使得圖像增強(qiáng)技術(shù)帶來的效果提升,變得難以衡量。
為解決上述問題,本文從以下三個(gè)方面做出了探索:
1) 提供了首個(gè)中文純藍(lán)墨水手寫文檔的數(shù)據(jù)集。通過模擬手寫文檔浸水的過程,本數(shù)據(jù)集提供了褪色前的文檔圖片和褪色后的文檔圖片。本數(shù)據(jù)集可以使用以下鏈接下載(提取碼:1234 ):https://pan.baidu.com/s/11E3p1JP2o9 INah4i-nyr2A
2) 提出了一種衡量中文文檔增強(qiáng)效果的評(píng)價(jià)方法;
3) 提供了一種基于圖像增強(qiáng)技術(shù)的彩色文檔修復(fù)方法,并給出了實(shí)驗(yàn)結(jié)果。
在之后的部分里,第二章介紹了純藍(lán)墨水手寫檔案數(shù)據(jù)集,并描述了模擬浸水的過程。第三章介紹了一種基于圖像增強(qiáng)技術(shù)的彩色檔案修復(fù)的具體實(shí)現(xiàn)方法。第四章介紹了一種衡量中文文檔增強(qiáng)效果的評(píng)價(jià)方法,并給出了第三章中方法的實(shí)驗(yàn)結(jié)果。
由于檔案館館藏檔案只有褪色后的檔案,而并不知道褪色前檔案上所寫的準(zhǔn)確內(nèi)容,導(dǎo)致無法衡量圖像增強(qiáng)技術(shù)帶來的修復(fù)效果。為了解決這個(gè)問題,本文提供了褪色前的純藍(lán)墨水手寫檔案圖片,并模擬檔案浸水過程,提供了浸水褪色后的檔案的圖片。
本文的純藍(lán)墨水手寫檔案,內(nèi)容是一份四頁紙手寫的入黨申請(qǐng)書,使用了普通信紙、英雄牌鋼筆和上海墨水廠生產(chǎn)的英雄牌高級(jí)純藍(lán)墨水233。四頁檔案分別包含漢字242個(gè),253個(gè),254個(gè)和253個(gè)。圖2(a)和圖2(b)分別展示了褪色前檔案的第二頁和第四頁。
在得到褪色前的手寫檔案后,檔案的1、2頁在水中浸泡兩分鐘,檔案的3、4頁在水中浸泡三分鐘。之后拿出曬干,得到褪色后的手寫檔案圖片。圖3展示了褪色后的手寫檔案,其中3(a)為第2頁,在水中浸泡了兩分鐘,圖3(b)為文檔的第4頁,在水中浸泡了三分鐘。本數(shù)據(jù)集可以通過引言中的鏈接獲取。
圖3 浸水后純藍(lán)墨水手寫檔案
文本將Gamma變換應(yīng)用于彩色圖像的不同信道,并在不同信道合并前進(jìn)行了了色彩規(guī)整。圖4展示了本方法的實(shí)現(xiàn)流程。
圖4 彩色檔案圖像增強(qiáng)流程圖
彩色圖像首先按照紅綠藍(lán)三個(gè)信道,分別進(jìn)行Gamma變換,Gamma變換通過對(duì)每個(gè)像素的乘積非線性變換運(yùn)算,將灰度過高或者過低的圖片進(jìn)行修正,增強(qiáng)了圖片對(duì)比度[9]。Gamma變換的公式為
S=Crγ
(1)
r為圖像每個(gè)信道的輸入值,取值范圍為[0,1]。γ為伽馬因子大小,當(dāng)γ值大于1,會(huì)拉伸圖像中灰度級(jí)較高的區(qū)域,壓縮灰度級(jí)較低部分;當(dāng)γ值小于1時(shí),會(huì)拉伸灰度級(jí)較低部分,而壓縮灰度級(jí)較高部分。C為灰度縮放系數(shù),按照不同場(chǎng)景取1或255。S為經(jīng)過伽馬變換后的單個(gè)信道輸出值。每個(gè)信道經(jīng)過Gamma變換后,又進(jìn)行了色彩規(guī)整操作,色彩規(guī)整將每個(gè)信道處理后的平均值,規(guī)整到本信道輸入時(shí)的狀態(tài),以保證恢復(fù)后的圖像與原圖像的色彩相似度。
使用上文所述的方法,圖5 展示了彩色檔案圖像增強(qiáng)后的效果。其中5(a)為原文檔第2頁,在水中浸泡兩分鐘后的修復(fù)效果,圖5(b)為原文檔的第4頁,在水中浸泡三分鐘后的修復(fù)效果。
圖5 圖像增強(qiáng)后的檔案
為了對(duì)圖像增強(qiáng)后的文字檔案閱讀效果進(jìn)行評(píng)價(jià),本文采用了8位朗讀者對(duì)圖像增強(qiáng)處理前后的材料進(jìn)行了分別朗讀辨識(shí)。這8位朗讀者都具有熟練的識(shí)字能力,他們來自不同的年齡段,包含2位退休教師,2位中年教師,2位青年教師和2位播音主持專業(yè)在讀學(xué)生。為了實(shí)驗(yàn)的準(zhǔn)確性,每位朗讀者只閱讀檔案一次,不存在重復(fù)閱讀相同內(nèi)容的情況。在相同年齡段的兩位朗讀者中,一人朗讀修復(fù)前第1頁,修復(fù)后第2頁,修復(fù)前第3頁和修復(fù)后第4頁。另一人朗讀修復(fù)后第1頁,修復(fù)前第2頁,修復(fù)后第3頁和修復(fù)前第4頁
本文使用了字正確率(wordcorrect,簡(jiǎn)寫為W.Corr)和單頁朗讀用時(shí)兩項(xiàng)指標(biāo)來衡量檔案圖像增強(qiáng)的效果。由于中文文檔每個(gè)字占有基本相似的空間大小,不易出現(xiàn)漏讀字和插入額外字的情況。相比于計(jì)算復(fù)雜的字錯(cuò)率(word error rate),字正確率更簡(jiǎn)潔,更適用于評(píng)價(jià)中文閱讀體驗(yàn)。字正確率(W.Corr)的計(jì)算公式為
W.Corr=(N-S-D)/N
(2)
其中N為文檔的字?jǐn)?shù),S為朗讀中替換的字?jǐn)?shù),D為朗讀中漏掉或未能辨別出的字?jǐn)?shù)。單頁朗讀用時(shí)是朗讀一頁文檔的平均用時(shí),可以衡量獲取文檔有效信息的難易程度。
表1描述了所有朗讀者,在朗讀不同類型文檔時(shí)的平均字正確率。表1顯示了朗讀修復(fù)后的文檔能得到更高的正確率。
表1 平均字正確率(%)
表2描述了所有朗讀者,在朗讀不同類型文檔時(shí)的平均單頁朗讀用時(shí)。表2顯示了朗讀浸水3分鐘文檔比朗讀浸水2分鐘文檔用時(shí)更長,同時(shí)也顯示出,朗讀修復(fù)后的文檔用時(shí)更短。
表2 單頁朗讀用時(shí)(秒)
以上實(shí)驗(yàn)證明,本文提出的彩色手寫文檔增強(qiáng)方法,可以提高浸水文檔的辨識(shí)度,減少閱讀誤差,也可以更快速的獲取文檔信息。
由于純藍(lán)墨水手寫檔案耐水性差,浸水后極易褪色。本文提供了首個(gè)中文純藍(lán)墨水手寫文檔的數(shù)據(jù)集,通過模擬文檔浸水的過程,提供了褪色前的文檔圖片和褪色后的文檔圖片,使得檔案修復(fù)的效果可以衡量。之后,本文提供了一種基于圖像增強(qiáng)技術(shù)的彩色文檔修復(fù)方法,并給出了一種衡量中文文檔增強(qiáng)效果的評(píng)價(jià)方法和實(shí)驗(yàn)結(jié)果。來自8位朗讀者的實(shí)驗(yàn)結(jié)果表明,這種圖像增強(qiáng)技術(shù)的處理可以提高閱讀過程中的字正確率,并可以大幅減少完成閱讀的用時(shí)。