馮炎
摘要: 藏文古籍是藏民族優(yōu)秀文化寶庫中的一顆璀璨明珠。由于年代久遠(yuǎn)及保存不當(dāng),古籍退化嚴(yán)重。二值化算法能夠?qū)⑼嘶偶械奈谋竞捅尘胺指铋_,更好地揭示古籍所記載內(nèi)容,解決藏文古籍圖像二值化時存在的質(zhì)量差、對比度漸變、不均勻光照及字跡模糊等問題。參考文獻的實驗結(jié)果表明,眾多的二值化算法中沒有一個能夠處理所有的古籍退化類型及所有的古籍圖像數(shù)據(jù)庫。為促進藏文古籍的保護和傳播,對退化藏文古籍圖像二值化研究迫在眉睫。該研究是古籍?dāng)?shù)字化和全文檢索的必要步驟,蘊藏著巨大的應(yīng)用價值。
關(guān)鍵詞:藏文古籍; 古籍圖像;二值化
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)27-0144-03
Abstract: Tibetan ancient document is a shining pearl of Tibetan cultural treasure-house. However, many environmental factors and improper handling cause them to suffer a high degree of degradation of various types. Binarization can segment the text from ancient document image accurately and better reveal the contents recorded in the document. As show in the Experimental Results of reference files, a problem associated with all the proposed binarization algorithms is that they can not deal with all types of degradation and with different datasets. In order to promote the protection and dissemination of Tibetan ancient document, the study of degraded Tibetan ancient document image binarization is imminent, it is also important for the ensuing document image processing tasks such as document digitization and full text retrieval and provides a huge potential market for application.
Key words: Tibeten Ancient; Historical Document Image; Binarization
1引言
藏文古籍是研究藏族歷史、政治、文化和醫(yī)藥等方面不可多得的珍貴史料,凝聚著千百年來藏族人民的智慧,受到國內(nèi)外藏學(xué)專家的高度重視,具有重要的學(xué)術(shù)價值。長期以來,由于遭受了自然和人為因素的損壞,這些古籍均出現(xiàn)了不同程度的退化,有些是由于顏色退化引起的字跡不清晰,有些是由于較重的酥油污漬及人為的涂抹標(biāo)記引起的印跡模糊,有些是水浸污染引起的墨跡擴散模糊。古籍所采用的古藏紙易受腐蝕、發(fā)黃變脆、色澤暗淡,經(jīng)不起反復(fù)翻閱和利用。
近年來,人們越來越重視藏文古籍的保護和修復(fù)工作[1],但還面臨許多問題和困難。若采用傳統(tǒng)的原生性保護修復(fù)對本已脆弱的古籍原件進行操作,會造成無法挽救的損失,古籍?dāng)?shù)字化因其在技術(shù)上的優(yōu)勢及成本較低的優(yōu)點,是古籍再生性保護的一種重要方式,可以更好地揭示古籍所記載內(nèi)容。古籍?dāng)?shù)字化時先對古籍文獻進行掃描(不能掃描的進行拍照),然后對影印本進行二值化,將退化古籍圖像中的文本和背景分割開,達到妥善保護原件的目的,為藏文古籍?dāng)?shù)字化奠定基礎(chǔ)。
目前,多數(shù)藏文古籍文獻已完成寫本編目、整理工作,部分古籍文獻的影印本也已面世,為清晰顯示古籍所記載內(nèi)容,現(xiàn)在古籍二值化大多是通過Photoshop等圖像處理軟件對影印本進行人工處理。由于文獻的頁面數(shù)量極大,不但耗費大量的人力和時間,而且人工操作誤差較大,還有圖像處理工具的局限性,古籍中大量的低對比度藏文文字的修復(fù)效果基本無法令人滿意,古籍原件的退化也大大增加了修復(fù)人員的工作難度。
2國內(nèi)外研究現(xiàn)狀
古籍圖像是一種非常特殊的數(shù)字圖像,其復(fù)雜程度遠(yuǎn)甚于普通圖像。古籍圖像處理和其他圖像處理技術(shù)一樣,是當(dāng)今計算機應(yīng)用領(lǐng)域的熱點。為提高古籍圖像的質(zhì)量,人們研究了大量的方法和技術(shù),這些方法中最重要的預(yù)處理步驟就是分離古籍圖像的前景和背景。自20世紀(jì)70年代起,圖像分割就以其在圖像處理中的重要性受到人們的高度重視,也吸引了很多研究人員為之付出了巨大的努力。
古籍圖像分割具有相當(dāng)?shù)碾y度[1]。由于邊緣和噪聲在頻率域反映為同是高頻分量,對這樣的圖像進行分割的結(jié)果常常把噪聲當(dāng)成字符而分割出來,從而給真正字符的分割帶來困難。圖像二值化[2]是古籍圖像中文本和背景分割常用的方法。圖像二值化就是將圖像像素分為兩類,黑色的像素作為前景,而白色像素的作為背景,從而將文本與背景分離。圖像二值化算法分為全局閾值法和局部閾值法。全局閾值法如Otsu[3]提出的算法,但無法能處理復(fù)雜背景的古籍文檔的情況。局部閾值法如Niblack[4]的算法,可以處理復(fù)雜背景,由于只考慮了文檔的局部信息,容易將背景噪聲當(dāng)成字符處理。
Gatos 等[5]提出一個自適應(yīng)二值化方法,該算法采用了低通濾波器和前景背景估計算法。文獻[6]采用了多尺度Sauvola算法[7],然后通過統(tǒng)計方法來恢復(fù)丟失的筆劃。文獻[8]中,Valizadeh等將圖像影射到二維特征空間,從而將前景和背景區(qū)分來,然后將特征空間分成更小的區(qū)域,接著應(yīng)用Niblack [9] 的算法將它們分割成文本和背景。Lu等[10]提出了基于背景估計和筆劃寬度估計的二值化方法,首先,通過一維迭代高斯平滑算法來估計文本圖像背景,然后采用L1范數(shù)梯度圖像來加快對筆劃的二值化。在H-DIBCO09 會議[11]所提交的43個算法中,該算法獲得了第一名。Su等[12]使用局部最大和最小算法來構(gòu)造一個局部對比度圖像,通過一個滑動窗口在這個圖像上移動來確定局部閾值,在H-DIBCO10 會議[13]所提交的17個算法中,該算法獲得了第一名。
文獻[14]采用了局部對比度圖像和Canny邊緣圖相結(jié)合的算法生成更加魯棒的特征圖,這個算法優(yōu)越于文獻[10][12]的采用的算法[15]。Farrahi Moghaddam 等[7]提出了一個多尺度的二值化算法,算法對輸入圖像的不同尺度分別用與Sauvola算法不同的參數(shù)進行二值化處理,然后合并輸出結(jié)果從而產(chǎn)生最終輸出結(jié)果,這個算法在不同的尺度用不同的參數(shù)。作為對比,Lazzara 和Gerard [16]提出了多尺度Sauvola算法,該算法采用相同的二值化算法參數(shù)對圖像的不同尺度進行二值化,然后將不同尺度的二值化圖像合并產(chǎn)生最終結(jié)果。綜合性算法由于結(jié)果令人滿意而受到了越來越多的關(guān)注,不同的算法結(jié)合使用時可以互補優(yōu)缺點,從而提高輸出結(jié)果。文獻[17]提出了全局和局部自適應(yīng)的二值化方法對手寫文本圖像二值化處理。結(jié)果顯示,這個算法性能很好,然而,它僅限于處理手寫文本圖像。
這些年,提出了很多基于學(xué)習(xí)的算法,有三種算法[18-20]試圖通過特征圖來提高其他二值化算法的輸出結(jié)果,有些算法試圖確定每個圖像二值化算法的最優(yōu)參數(shù)[21,22]。在文獻[18][20]中,提出了一個自我訓(xùn)練的文本圖像二值化方法,輸入的像素依賴所采用的二值化算法被分為三類型:前景、背景和不確定類型,然后通過k均值算法或馬爾科夫隨機域算法,將前景和背景像素劃分為不同的簇,最后不確定的像素劃分到最近的簇并加標(biāo)記,最后決策時所使用的特征是像素亮度和局部圖像對比度。文獻[19]通過改進對比度特征,提出了另外一個綜合性算法。Lelore 和Bouchara [23]通過粗閾值算法,將圖像像素也分為三個類型,其中,無法確定類型的像素通過與前景相似的超分辨率來確定。Howe [14]提出了一個基于拉普拉斯圖像的全局能量函數(shù)最優(yōu)化方法,在這個方法中,采用一系列的訓(xùn)練圖像用于最優(yōu)化算法,接著,Howe在文獻[21]中通過調(diào)整每個圖像的兩個關(guān)鍵參數(shù)來改進了前面的方法。文獻[22]中提出了一個基于學(xué)習(xí)框架的最優(yōu)參數(shù)自動選擇方法,通過提取特征和所確定的最優(yōu)參數(shù),然后學(xué)習(xí)所提取的特征和最優(yōu)參數(shù)之間的關(guān)系,文獻說該方法對每個文本圖像二值化方法所采用的參數(shù)均有效。為了自適應(yīng)調(diào)節(jié)算法中的參數(shù),Pellegrini [24]、Becker等[25]采用競賽算法(Racing algorithms)來自動選擇學(xué)習(xí)算法中的參數(shù),從實驗結(jié)果可知,競賽算法能夠有效調(diào)節(jié)算法中的參數(shù)。
綜上所述,雖然這一課題的研究已經(jīng)有了相當(dāng)多的研究成果,從文獻[15]的實驗結(jié)果可知,目前這些算法沒有一個能夠處理所有的文本圖像退化類型及所有的數(shù)據(jù)庫中的文本圖像,并且還存在其他一些缺陷與不足,主要包括計算耗時、需要的先驗知識較多等。
3 結(jié)論
由于每種古籍所遭受的退化環(huán)境不一樣,古籍中的不同的文字均有不同的直方圖及不同的統(tǒng)計特點,每種文字還有自己獨特的筆劃特點,目前,關(guān)于古籍二值化的研究基本上還處于初期的探索階段,而且針對藏文古籍二值化的研究非常少見,現(xiàn)有的大多數(shù)處理算法多以印刷體古籍圖像為處理對象,在對退化的木刻版藏文古籍及手寫藏文古籍圖像進行處理時效果不理想,要最終形成成熟的應(yīng)用技術(shù),還可能需要更具創(chuàng)新性的研究。
參考文獻:
[1]S L,C Z,P G Remote Sensing Image Deblurring Based on Grid Computation[J].Journal of China University of Mining and Technology,2006,1 6(4):409-4 1 2.
[2] Stathis, Pavlos, ErginaKavallieratou, and Nikos Papamarkos. "An evaluation survey of binarization algorithms on historical documents." Pattern Recognition, 2008.ICPR 2008.19th International Conference on. IEEE, 2008.
[3] Otsu.A Threshold Selection Method from Gray-Level Histograms.IEEE Transactions on Systems,Man and Cybernetics,1979,9(1):62-66.
[4] Niblack W. An Introduction to Digital Image Processing. Prentice-Hall,Englewood Cliffs,NJ,1986:115-116.
[5] B. Gatos, I. Pratikakis, and S. Perantonis, “Adaptive degraded document image binarization,” Pattern Recognit., 2006,39(3):317–327.
[6] R. Hedjam, R. F. Moghaddam, and M. Cheriet, “A spatially adaptive statistical method for the binarization of historical manuscripts and degraded document images,” Pattern Recognit., vol. 44, no. 9, pp. 2184–2196, 2011.
[7] R. F. Moghaddam and M. Cheriet, “A multi-scale framework for adaptive binarization of degraded document images,” Pattern Recognit., 2010, 43(6):2186–2198.
[8] M. Valizadeh and E. Kabir, “Binarization of degraded document image based on feature space partitioning and classification,” Int. J. Document Anal. Recognit., 2010,15(1):57–69.
[9] W. Niblack, An Introduction to Digital Image Processing. Englewood Cliffs, NJ, USA: Prentice-Hall, 1986.
[10] S. Lu, B. Su, and C. Tan, “Document image binarization using background estimation and stroke edges,” Int. J. Document Anal. Recognit., 2010,13(4):303–314.
[11] B. Gatos, K. Ntirogiannis, and I. Pratikakis, “ICDAR 2009 document image binarization contest (DIBCO 2009),” in Proc. 10th ICDAR, 2009:1375–1382.
[12] B. Su, S. Lu, and C. Tan, “Binarization of historical document images using the local maximum and minimum,” in Proc. 9th IAPR Int. Workshop DAS, 2010:159–166.
[13] I. Pratikakis, B. Gatos, and K. Ntirogiannis, “H-DIBCO 2010— Handwritten document image binarization competition,” in Proc. ICFHR, 2010:727–732.
[14] B. Su, S. Lu, and C. L. Tan, “Robust document image binarization technique for degraded document images,” IEEE Trans. Image Process., 2013,22(4):1408–1417.
[15] H. Ziaie Nafchi, R. Farrahi Moghaddam, and M. Cheriet, “Phase-based binarization of ancient document images: Model and applications,”Image Processing, IEEE Transactions on, vol. 23, no. 7, pp. 2916–2930, July 2014.
[16] G. Lazzara and T. Geraud, “Efficient multiscale Sauvolas binarization,” in Proc. IJDAR, Jul. 2013, pp. 1–19.
[17] K. Ntirogiannis, B. Gatos, and I. Pratikakis, “A combined approach for the binarization of handwritten document images,” Pattern Recognit. Lett., 2014 (35):3–15.
[18] B. Su, S. Lu, and C. L. Tan, “A self-training learning document binarization framework,” in Proc. 20th ICPR, Aug. 2010:3187–3190.
[19] B. Su, S. Lu, and C. L. Tan, “Combination of document image binarization techniques,” in Proc. ICDAR, Sep. 2011:22–26.
[20] B. Su, S. Lu, and C. L. Tan, “A learning framework for degraded document image binarization using Markov random field,” in Proc. 21st ICPR, 2012:3200–3203.
[21] N. Howe, “Document binarization with automatic parameter tuning,” Int. J. Document Anal. Recognit., 2013,16(3):247–258.
[22] M. Cheriet, R. F. Moghaddam, and R. Hedjam, “A learning framework for the optimization and automation of document binarization methods,” Comput. Vis. Image Understanding, 2013,117(3):269–280.
[23] T. Lelore and F. Bouchara, “Super-resolved binarization of text based on the fair algorithm,” in Proc. ICDAR, 2011:839–843.
[24]Pellegrini, P. Application of two nearest neighbor approaches to a rich vehicle routing problem. Technical Report TR/IRIDIA/2005-015 IRIDIA, Université Libre de Bruxelles,2005
[25] Becker, S., Gottlieb, J., & Stützle, T. Applications of racing algorithms: An industrial perspective. In Proceedings of the seventh international conference on artificial evolution EA05 (pp. 271–283). Berlin, Heidelberg: Springer-Verlag,2006.