王夢(mèng)錦 擁措 李善琛
摘要:該文主要介紹了在過去十幾年內(nèi)自然場(chǎng)景文本檢測(cè)最常用的算法以及其研究趨勢(shì),仔細(xì)闡述了藏文在文本檢測(cè)與識(shí)別上的發(fā)展歷程,講述了眾多研究學(xué)者根據(jù)藏文文字的結(jié)構(gòu)特征,音節(jié)符特征等方面進(jìn)行研究,為后期的藏文古籍文獻(xiàn)檢測(cè)試驗(yàn)打下基礎(chǔ)。
關(guān)鍵詞:藏文古籍文該文獻(xiàn);文本檢測(cè);深度學(xué)習(xí);OCR
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)10-0204-04
隨著電子科技和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,移動(dòng)電話,相機(jī)和其他的移動(dòng)端的普及,基于傳統(tǒng)的文本搜索已經(jīng)不能滿足人們的日常需求,人們意識(shí)到識(shí)別復(fù)雜場(chǎng)景下圖片上的文字的必要性。順應(yīng)時(shí)代與信息科技發(fā)展的需求,藏文古籍文獻(xiàn)數(shù)字化也變得必不可少。藏文古籍文獻(xiàn)的數(shù)字化,有助于藏文古籍文獻(xiàn)的保存與文化傳承,有效促進(jìn)西藏文化的發(fā)展。但藏文古籍文獻(xiàn)的文本環(huán)境特殊,可用數(shù)據(jù)集較少,再加上掃描或者用相機(jī)進(jìn)行拍照錄入時(shí),會(huì)導(dǎo)致其分辨率降低。而藏文古籍文獻(xiàn)本身就存在眾多問題,隨著時(shí)代的變遷,介于藏文古籍文獻(xiàn)的保存完好程度來看,不同的文獻(xiàn)會(huì)出現(xiàn)不一樣的清晰度,字體的大小,顏色,尺寸也大不相同,有些文獻(xiàn)會(huì)出現(xiàn)字跡模糊,文字扭曲等現(xiàn)象,還有一些非文字區(qū)域出現(xiàn)類似于文字的紋理,其干擾檢測(cè)的準(zhǔn)確率。
針對(duì)以上困難,國內(nèi)外專家對(duì)其進(jìn)行多次的研究,最常見的算法來源于國外,如文獻(xiàn)等;但我國國內(nèi)對(duì)這些經(jīng)典算法改進(jìn)迅速,如文獻(xiàn)等。文本檢測(cè)傳統(tǒng)方法有:SWT、MSER等;深度學(xué)習(xí)的方法有:R-CNN、Fast R-CNN、Faster R-CNN、CTPN等。本文將自然場(chǎng)景文本檢測(cè)的算法進(jìn)行總結(jié),闡述了藏文在文字檢測(cè)、識(shí)別上發(fā)展歷程。
1文本檢測(cè)研究現(xiàn)狀
1.1自然場(chǎng)景文本檢測(cè)研究現(xiàn)狀
傳統(tǒng)文檔分析與現(xiàn)代文檔分析區(qū)別在于數(shù)據(jù)集外觀上的不同,傳統(tǒng)的文檔分析所用的是光學(xué)字符識(shí)別(Optical Charac-ter Recognition,OCR),OCR技術(shù)這一概念是早在20世紀(jì)20年代由德國的一位科學(xué)家提出,后來由美國的一位科學(xué)家將其運(yùn)用到文字識(shí)別上。OCR發(fā)展到至今其技術(shù)已經(jīng)相當(dāng)成熟,但由于OCR技術(shù)都運(yùn)用文本文檔字符排列整齊、背景相對(duì)于簡(jiǎn)單等特點(diǎn),他是運(yùn)用傳統(tǒng)的算法對(duì)其進(jìn)行識(shí)別,其識(shí)別率較高;而場(chǎng)景文本檢測(cè)則具有多樣性、復(fù)雜性與不確定性,它包含了不同的文字、語言、不同的字體結(jié)構(gòu),每一個(gè)文字又有可能存在不同的大小,顏色,字體,亮度等,復(fù)雜程度大,識(shí)別率不高。
我國在20世紀(jì)90年代才開始對(duì)自然場(chǎng)景文本檢測(cè)的研究,相對(duì)于其他國家而言起步較晚,但自然場(chǎng)景文本識(shí)別在我國發(fā)展迅速,目前已成為計(jì)算機(jī)視覺與模式識(shí)別、文檔分析與識(shí)別領(lǐng)域的一個(gè)研究熱點(diǎn),一些國際頂級(jí)會(huì)議,如:CVPR(國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議)、ICCV(國際計(jì)算機(jī)視覺大會(huì))、EC-CV(歐洲計(jì)算機(jī)視覺會(huì)議),已將其列為重要主題之一。特別是自2003年以來,自然場(chǎng)景文本檢測(cè)定期在國際學(xué)術(shù)會(huì)議一文檔分析與識(shí)別國際會(huì)議(International Conference on DocumentAnalysis and Recognition,ICDAR)上進(jìn)行比賽,作為該領(lǐng)域最重要的權(quán)威比賽之一。該比賽分析了自然場(chǎng)景文本檢測(cè)在其領(lǐng)域的研究現(xiàn)狀和發(fā)展趨勢(shì),及時(shí)地跟蹤和促進(jìn)該技術(shù)的研究和發(fā)展。2011年10月,ICDAR首次在國內(nèi)舉辦,由清華大學(xué)電子工程系的丁曉晴教授擔(dān)任大會(huì)主席。此次會(huì)議有助于我國文字識(shí)別研究的發(fā)展以及國際學(xué)術(shù)界的交流。文字檢測(cè)的效果主要分為P:準(zhǔn)確率(Precision,),R:召回率(Recall)和F:標(biāo)準(zhǔn)指數(shù)。這三個(gè)指標(biāo)的公式為:
經(jīng)過ICDAR比賽給出的不同類型的數(shù)據(jù)集進(jìn)行訓(xùn)練后,由于數(shù)據(jù)集的圖片不同,其評(píng)價(jià)指標(biāo)也有所不同。隨著越來越多的研究人員加入這個(gè)領(lǐng)域進(jìn)行研究,越來越多的公開數(shù)據(jù)集可以提供給這些研究人員來進(jìn)行對(duì)自己的想法進(jìn)行研究。自此使自然場(chǎng)景文本檢測(cè)的技術(shù)的瓶頸與難點(diǎn)得以解決,以下就是ICDAR大賽上具有權(quán)威性的檢測(cè)數(shù)據(jù):
由此可見,經(jīng)過研究學(xué)者們這些年的努力,使自然場(chǎng)景文本檢測(cè)在我國有了飛躍般的發(fā)展。目前自然場(chǎng)景文本識(shí)別是眾多研究者研究的對(duì)象,主要分為三部分:文本檢測(cè),文本識(shí)別和端到端的文本識(shí)別嘲。文本檢測(cè)是對(duì)圖片中的文字進(jìn)行定位,為后期的文字識(shí)別服務(wù),提高文字識(shí)別的準(zhǔn)確率。自然場(chǎng)景文本檢測(cè)主要經(jīng)歷了兩個(gè)階段:首先是基于傳統(tǒng)算法的文本檢測(cè),后在2014年前后出現(xiàn)了基于深度學(xué)習(xí)的方法,目前基于深度學(xué)習(xí)的方法已經(jīng)成了該領(lǐng)域的主流技術(shù)。
1.2藏文文本檢測(cè)研究現(xiàn)狀
目前為止還沒有看到有關(guān)于藏文方面的文本檢測(cè)的相關(guān)文獻(xiàn),但藏文識(shí)別有關(guān)工作從20世紀(jì)90年代開始就有相關(guān)的研究人員對(duì)其進(jìn)行研究,研究的主要方向都是端到端的文字識(shí)別,中國藏文識(shí)別的主要研究核心力量是由這5所高校的科研團(tuán)隊(duì)組成:西北民族大學(xué)、西藏大學(xué)、中國科學(xué)院軟件研究所、青海師范大學(xué)、西安電子科技大學(xué)。
1999年西北民族學(xué)院的周毛仁增將藏文字形結(jié)構(gòu)進(jìn)行了分析跟統(tǒng)計(jì),提出抓住單字,部件之間的分解與組合對(duì)藏文文字識(shí)別,這個(gè)方法對(duì)編碼輸入很有用處,其按照藏文的字型結(jié)構(gòu)特點(diǎn),在理論上通過黑像素總數(shù)、用邊熵、黑像素段及單部件四個(gè)方向進(jìn)行藏文字形的統(tǒng)計(jì)分析。
2001年清華自動(dòng)化系的王浩軍,趙南元,鄧鋼鐵三人將文字識(shí)別系統(tǒng)中的一些預(yù)處理方法成功運(yùn)用到藏文識(shí)別系統(tǒng)上,在此基礎(chǔ)上,他們考慮到藏文本身的書寫方式,提出了一些新的處理方法,并在這些方面上都取到了良好的效果㈣。
2008年西藏大學(xué)的普次仁教授為了提高藏文文字的識(shí)別率,提出了一些技術(shù)方案,在數(shù)字圖像識(shí)別技術(shù)的基礎(chǔ)上,對(duì)在有外界干擾的情況下,從二值化,特征提取等方面提高了藏文文字的識(shí)別率。
2013年西藏大學(xué)的白瑪玉珍同學(xué)在藏文文字特征的提取方法上進(jìn)行了研究,從藏文的結(jié)構(gòu)上提出來一些新的算法:網(wǎng)絡(luò)點(diǎn)陣圖形投影法,由于藏文的機(jī)構(gòu)復(fù)雜筆畫密度較小,使用該方法應(yīng)用到藏文識(shí)別中會(huì)具備更好的效果。
2016西藏民族大學(xué)信息工程學(xué)院的陳小瑩對(duì)不同藏文文本中不規(guī)范文本進(jìn)行分類后,針對(duì)不同文字文本制定出不同的規(guī)范化處理方法,最后達(dá)到實(shí)現(xiàn)對(duì)藏文文本的規(guī)范化處理。
2017年西安電子科技大學(xué)的袁道昱在藏族同胞的幫助下將基于深度學(xué)習(xí)和特征提取的文字識(shí)別方法,用到了藏文音節(jié)識(shí)別的研究中,本文統(tǒng)計(jì)出500多種最常用的藏文音節(jié)字,同時(shí)采集出60套手寫藏文音節(jié)字樣本,建立了三萬多個(gè)藏文手寫音節(jié)字樣本的數(shù)據(jù)庫,在預(yù)處理步驟中,為了保留藏文音節(jié)字的特殊結(jié)構(gòu)信息,該文獻(xiàn)用線性歸一化的方法,與非線性歸一化、平滑處理等方法進(jìn)行結(jié)合,最大限度上保留了手寫藏文音節(jié)字的原始信息,去除了冗余,更方便于特征的提取與分類識(shí)別。
2017年艾金勇提出了一套層次化、基于規(guī)則的藏文文本規(guī)范處理方案的藏文信息處理,該方案準(zhǔn)確的分析整理了藏文文本中各種不規(guī)范得文本類型,根據(jù)這些不同的文本類型分別設(shè)計(jì)不同類型的規(guī)范化算法,并用程序?qū)崿F(xiàn)了藏文文本的規(guī)范化。
2018年張西群就藏文歷史文獻(xiàn)圖像的文本區(qū)域相較其他區(qū)域角點(diǎn)密度比較大的問題,提出了一種基于塊投影的藏文歷史文獻(xiàn)文本提取方法,該方法通過結(jié)合連通區(qū)域分類信息和角點(diǎn)密度信息,對(duì)均分的藏文歷史文獻(xiàn)的圖像塊進(jìn)行過濾;分析過濾后圖像塊的投影,可以獲取文本區(qū)域的近似邊緣位置;結(jié)合文本區(qū)域的近似邊緣位置和文本區(qū)域邊緣搜索策略可以搜索得到文本區(qū)域的近似邊緣;最后為了矯正由于字符粘連等造成的文本區(qū)域邊緣不規(guī)則,通過矯正策略對(duì)文本區(qū)域邊緣點(diǎn)進(jìn)行坐標(biāo)矯正。
2018年張西群,馬龍龍,段立娟,劉澤宇,吳健就針對(duì)基于卷積降噪自編碼器的藏文歷史文獻(xiàn)版面分析方面做出研究,此次研究提出了一種新的方法,就是將藏文歷史文獻(xiàn)圖像進(jìn)行超像素聚類獲得超像素塊,再利用卷積降噪自編碼器從中提取特征,最后再使用SVM分類器對(duì)其進(jìn)行分類預(yù)測(cè),從而提取出文獻(xiàn)版面的各個(gè)部分;此方法在藏文歷史文獻(xiàn)的數(shù)據(jù)集上多次實(shí)驗(yàn)表明,該方法能夠?qū)Σ匚臍v史文獻(xiàn)的不同版面元素進(jìn)行有效的分離。
2018年李顏興就主要分析了藏文文本中影響切分的藏文筆畫的原因以及主要因素,提出了兩種方法,該兩種方法都是基于基線的文本行切割方法,其中一種方法是通過模板匹配的方式來計(jì)算圖像前半部分,從而估算文本行的個(gè)數(shù)以及基線的起始位置撮后通過動(dòng)態(tài)追蹤點(diǎn)的方法構(gòu)建基線;而另一種則是使用Sobel算子,提取每個(gè)在藏文音節(jié)中的基線。自左向右連接基線構(gòu)成文本行的基線。最后通過分析基線之間的連通部件,進(jìn)一步確定文本行切分位置。
2自然場(chǎng)景文本檢測(cè)算法
在過去的20年內(nèi),研究人員就針對(duì)復(fù)雜彩色圖像中的文字檢測(cè)提出來眾多算法,尤其是近10年內(nèi),研究頗多,文獻(xiàn)就是專門研究場(chǎng)景圖片文字檢測(cè)的,其檢測(cè)的主要兩個(gè)核心步驟是:候選文本區(qū)域提取與文本/非文本區(qū)域。而算法一般來說可以分為基于傳統(tǒng)的算法與基于深度學(xué)習(xí)的算法這二大類。
2.1基于傳統(tǒng)的文字檢測(cè)算法
基于紋理及連通區(qū)域的算法大多是將文字看成某種的特定的紋理特征或者某類特定的區(qū)域。首先,我們可以用一些方法在圖像中提取候選區(qū)域作為文字的候選,這些特殊包括顏色特征、紋理特征、邊緣特征、筆畫寬度變換、極值區(qū)域等㈣。這類算法最主要的是在提取文字候選區(qū)域,最常用的經(jīng)典方法是SWTt211(Slroke Width Transform,筆畫寬度變換)和MSER(Maxi-mallv Stable Extremal Regions,最大穩(wěn)定極值區(qū)域)。圖1為基于連通區(qū)域的文本檢測(cè)算法流程:
SWT算法是有Epshtein等人在2010年提出的一種建立于邊緣檢測(cè)的算法上的算法,這一方法最大的優(yōu)勢(shì)在于:筆畫特征基本上屬于穩(wěn)住獨(dú)有的特征。
MSER是2002年作為一種放射區(qū)域提取方法被提出直到2010年才被引入文字檢測(cè)領(lǐng)域。它是一種圖形結(jié)構(gòu),對(duì)于圖像的平移,旋轉(zhuǎn),放射變換等具有不變性。用一個(gè)閾值給圖像做二值化處理,極值區(qū)域邊界包括區(qū)域內(nèi)大部分的像素值為1,極值區(qū)域邊界外的像素值大部分為0,最大穩(wěn)定極值區(qū)域就是指區(qū)域內(nèi)的像素值與區(qū)域外的像素值差異明顯,并且區(qū)域的面積不會(huì)隨著閾值的改變而改變。有些連通區(qū)域面積隨閾值上升變化較小,其公式為:
MSER的特點(diǎn)是:對(duì)圖像灰度具有仿射變換的不變性;具有相同閾值范圍內(nèi)所支持的區(qū)域才會(huì)被選擇的穩(wěn)定性;無須任何平滑處理就可以實(shí)現(xiàn)多尺度檢測(cè),即小的和大的結(jié)構(gòu)都可以被檢測(cè)到。
2.2基于深度學(xué)習(xí)的算法
深度學(xué)習(xí)是近些年來人工智能方面最熱門的一類方法,自2012年深度學(xué)習(xí)在ImageNet上面大放異彩之后,大家就注意到深度學(xué)習(xí)在計(jì)算機(jī)在視覺領(lǐng)域的巨大潛力。我們先對(duì)比一下傳統(tǒng)的文本檢測(cè)與基于深度學(xué)習(xí)的目標(biāo)檢測(cè)之間的不同點(diǎn)f表4來源網(wǎng)絡(luò)):
而在文本檢測(cè)領(lǐng)域方面最常用的方法有以下幾種:基于候選框的文本檢測(cè)(Proposal-based)、基于分割的文本檢測(cè)(Seg-mentation-based)、基于兩者方法混合的文本檢(Hybrid-based)、其他方法的文本檢測(cè)。近年來,人們嘗試采用CNN網(wǎng)絡(luò)進(jìn)行文本檢測(cè),最經(jīng)典的算法就是基于Faster-RCNN、SSD、RFCN等。
3文本檢測(cè)數(shù)據(jù)集
現(xiàn)階段,網(wǎng)絡(luò)上有著各種不同的數(shù)據(jù)集供研究學(xué)者參考實(shí)驗(yàn),以此提高檢測(cè),識(shí)別的準(zhǔn)確率,藏文在數(shù)據(jù)集上并沒有公開的數(shù)據(jù)集,需要自己申請(qǐng),并對(duì)申請(qǐng)到的少量數(shù)據(jù)集采用殘差網(wǎng)絡(luò)進(jìn)行圖像處理,將一張圖片進(jìn)行處理后會(huì)產(chǎn)生很多虛擬圖片,對(duì)這些圖片在進(jìn)行訓(xùn)練。以下表5為公開實(shí)驗(yàn)數(shù)據(jù)集的特點(diǎn):
4總結(jié)與展望
從20世紀(jì)90年代開始,就有相關(guān)的研究人員對(duì)藏文進(jìn)行研究,由于藏文的結(jié)構(gòu)特殊,它是由30個(gè)輔音,4個(gè)元音組成,而藏字又分為烏金跟烏梅,這就大大提升了文字檢測(cè)的難,眾多研究學(xué)者就此根據(jù)藏文的結(jié)構(gòu)特點(diǎn),文字特征等方面對(duì)藏文進(jìn)行識(shí)別;也有一些研究學(xué)者從藏文的音節(jié)符出發(fā),提出了新的處理方法;這些方法對(duì)后期藏文文獻(xiàn)的識(shí)別做出巨大貢獻(xiàn)。由于藏文是7世紀(jì)中期,也就是吐蕃贊普松贊干布(617-650)執(zhí)政時(shí)期,創(chuàng)制的文字,后期邀請(qǐng)了印度、尼泊爾、克什米爾、中原內(nèi)地等周邊國度和區(qū)域的學(xué)者,協(xié)調(diào)吐蕃譯師吞彌桑布扎翻譯了大量佛教文獻(xiàn),而這些文獻(xiàn)是人工手寫翻譯,故有著許多的難點(diǎn),人工手寫,必定帶有書寫者不同的寫字習(xí)慣,文本行可能會(huì)存在不同方向,彎曲,旋轉(zhuǎn),扭曲等樣式,在進(jìn)行文字檢測(cè)中,很容易出現(xiàn)錯(cuò)誤。時(shí)間的流逝,會(huì)使部分古籍上的文字變得模糊不清,再加上我們對(duì)這些古籍進(jìn)行數(shù)字化錄入時(shí),掃描出的圖片會(huì)受到但是天氣,燈光等不同自然條件的影響,使檢測(cè)困難加大,便有專家學(xué)者在在前人研究的基礎(chǔ)上,提出用神經(jīng)網(wǎng)絡(luò)對(duì)藏文古籍進(jìn)行研究。這些研究學(xué)者提出的新的處理方法,使藏文古籍文獻(xiàn)的檢測(cè)識(shí)別率提升,也為后人提供了較大的研究基礎(chǔ)。
自然場(chǎng)景下得到的圖片若用在自然場(chǎng)景下得藏文文本檢測(cè)的話,這將大大提升了藏族人民的生活質(zhì)量?,F(xiàn)階段自然場(chǎng)景文本識(shí)別技術(shù)在一些特定的領(lǐng)域有了一些新的應(yīng)用,比如:智能交通系統(tǒng)(如:美國Hi-Teeh公司的See/Car svstem以及香港Asia Vision Technology公司的VECON-VIS等);基于內(nèi)容的視頻檢索系統(tǒng)f如:美國卡耐基梅隆大學(xué)的Informe-dia DigitalVideo Library以及美國哥倫比亞大學(xué)的Web Seek等1:可穿戴/便攜式視覺系統(tǒng)(美國麻省理工學(xué)院的Finger Reader以及Goggles等),除了上述應(yīng)用以外,一些研究者還將自然場(chǎng)景文本檢測(cè)技術(shù)應(yīng)用到圖像理解,文種識(shí)別等領(lǐng)域,相比自然場(chǎng)景文本檢測(cè)技術(shù)的潛在應(yīng)用市場(chǎng),上述應(yīng)用只是“冰山一角”在生活方面,自然場(chǎng)景文本識(shí)別可以輔助無人駕駛車來讀取交通標(biāo)識(shí)信息,通過識(shí)別來提高形式規(guī)劃能力等,自然場(chǎng)景文本檢測(cè)將會(huì)隨著時(shí)代的進(jìn)行,在時(shí)代發(fā)展的驅(qū)動(dòng)下不斷擴(kuò)展,不斷成熟。