• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文檔識別及其在藏文古籍識別中的應(yīng)用探討

      2017-02-24 22:41:43李振江
      求知導(dǎo)刊 2016年35期

      李振江

      摘 要:文檔識別技術(shù)能自動識別文檔中的文本、圖片、表框等信息,為紙質(zhì)文檔的全文數(shù)字化提供了便利。文章分析了文檔識別過程中預(yù)處理、版面分析、行字切分、特征提取以及分類的流程,對文檔識別技術(shù)的發(fā)展做了一個簡單的綜述,并結(jié)合藏文古籍識別的具體應(yīng)用,對該技術(shù)在藏文古籍識別方面的應(yīng)用難點進(jìn)行了探討。

      關(guān)鍵詞:文檔識別;版面分析;藏文古籍

      中圖分類號:G273.3

      文獻(xiàn)標(biāo)識碼:A

      一、引言

      從20世紀(jì)90年代開始,文檔分析與識別吸引了越來越多的研究者,目前有多個專門的國際會議對該項工作進(jìn)行研究。

      例如,ICDAR(International Conference on Document Analysis and Recognition),ICFHR(International Conference on Frontiers in Handwriting Recognition),DAS(IAPR International Workshop on Document Analysis Systems)等,在相關(guān)領(lǐng)域的期刊(IEEE Transaction on Pattern Analysis and Machine Intelligence、Pattern Analysis and Applications、International Journal of Computer Vision、International Journal on Document Analysis and Recognition等)上也有大量文檔分析識別相關(guān)的論文出現(xiàn),整個領(lǐng)域的研究工作處在一個快速發(fā)展的階段。

      二、文檔識別流程

      從文檔識別工作的流程步驟上來說,可以分為圖像預(yù)處理與版面分析、行字切分、特征提取與分類等模塊[1]。

      1. 預(yù)處理與版面分析

      預(yù)處理階段主要工作是去噪以及圖像的增強和修復(fù),之后進(jìn)行版面分析,將圖像分為文字區(qū)域以及非文字區(qū)域,獲取結(jié)構(gòu)以便于重編和出版。文字區(qū)域需要進(jìn)一步確定該區(qū)域的文字是屬于題目、正文、標(biāo)注或者其他信息等;對于非文字區(qū)域,則要判別其是插圖、背景或者是噪音,并按照判別結(jié)果分別加以處理。在版面分析過程中,需要考慮的是不同類型區(qū)域特征選擇的問題和不同的分析方法及其效果評價。

      2. 文本行字切分

      對于完成了預(yù)處理以及版面分析后抽取的文字區(qū)域,需要進(jìn)一步的檢測,將文本行以及單字進(jìn)行分割。在古籍文檔中,文本大多為約束文本和非約束文本混合出現(xiàn),其文本行往往是不一致的傾斜和彎曲,如何動態(tài)調(diào)整切分距離,自適應(yīng)處理傾斜和彎曲文本是這一步需要考慮的問題。對于切分好的文本行,需要選擇合理的文字切分算法對單個字符進(jìn)行分割。

      3.特征提取與分類

      基于統(tǒng)計的方法是模式識別的一種經(jīng)典方法,目前在文檔分析識別上使用較為廣泛的方法有SVM方法、貝葉斯方法、隱馬爾可夫模型等,其關(guān)鍵在于統(tǒng)計同一種字符所特有的共有性質(zhì)或者相對穩(wěn)定的分類特征作為識別向量。這種向量應(yīng)當(dāng)具有穩(wěn)定的二維平面特征、水平或者垂直直方圖特征等。在統(tǒng)計方法中,這個邊界是基于每個類的模式的概率分布的,這點必須預(yù)先知道或通過學(xué)習(xí)獲得。

      三、文檔識別的發(fā)展

      從文檔識別研究的文字類型上來說,由于文檔識別技術(shù)最初源于西方國家,因此拉丁文字符文檔識別發(fā)展最早,目前成果也最多。隨著其他國家地區(qū)科研水平的提高,越來越多的非拉丁字符識別技術(shù)有了長足發(fā)展。例如中文、日文、阿拉伯文、斯拉夫文、蒙古文、孟加拉文、藏文等。

      從文檔識別研究的對象上來說,其源于OCR技術(shù),最初的目標(biāo)是識別特定字體的印刷字符,后來發(fā)展到多字體的混編的印刷文檔,隨后,手寫體文檔的識別成為一個研究的新內(nèi)容。與此同時,研究對象的時間也不僅僅局限于現(xiàn)代文檔的識別研究,大量的古籍、歷史文檔、古代手稿、藝術(shù)作品成為新的研究對象。

      四、藏文古籍識別

      1.藏文古籍識別的意義

      藏族擁有悠久輝煌的文化歷史,在我國,藏文古籍文檔規(guī)模宏大,其數(shù)量僅次于漢語古籍文檔。為了更好地保護(hù)和利用這些文檔資料,對其進(jìn)行全文數(shù)字化是一個亟待完成的工作。目前國內(nèi)外已有一些藏文數(shù)據(jù)庫建成使用,例如“尼泊爾-德國手稿文獻(xiàn)保存計劃”、藏文文獻(xiàn)輸入計劃、藏傳佛教資料信息中心等。然而現(xiàn)有的數(shù)據(jù)庫,大都是將藏文古籍文獻(xiàn)掃描成圖加以保存,不便于對其進(jìn)行檢索以及深度開發(fā)利用,更好的手段是利用文檔識別方法,對其內(nèi)容進(jìn)行識別并轉(zhuǎn)換為內(nèi)碼形式進(jìn)行保存。

      2. 藏文古籍字體

      藏文自吞彌桑布札創(chuàng)制后經(jīng)過千余年的實踐創(chuàng)新,字體發(fā)展到幾十種。從大的方面講,可歸納為烏金體與烏梅體兩大類。烏金體即有冠體,整體書寫效果整齊劃一。吐蕃時期王室發(fā)布的文告、執(zhí)照以及碑文、鐘銘,特別是佛經(jīng)寫卷幾乎都是用烏金體書寫的。依據(jù)后弘期刊印的藏文書籍“軟字精校精刻”的要求,其大都采用烏金體[2]。

      3. 藏文識別現(xiàn)狀

      目前,就國內(nèi)外公開發(fā)表的文獻(xiàn)來看,鮮見藏文古籍文檔分析識別的相關(guān)研究工作。而脫機(jī)藏文字符識別工作已從最初的印刷體藏文識別開始向手寫藏文識別研究發(fā)展。其基本思路都是先通過對藏文字符的基本特征的研究,然后根據(jù)這些特征選擇設(shè)計相應(yīng)的算法對字符進(jìn)行切分,再做傾斜矯正、版面分析及歸一化處理。經(jīng)過上述的處理后,得到一個較為理想的二值圖像,然后對這個處理后的二值圖像利用適合的算法進(jìn)行識別。最后是對識別的結(jié)果用識別算法或上下文的關(guān)系來糾正誤識字和拒識字,提高識別率和適應(yīng)性,降低系統(tǒng)的誤識率。研究思路都是從藏文字符的自身特征出發(fā),運用各種已有的識別技術(shù)來進(jìn)行特征提取、分類,進(jìn)而識別。

      五、藏文古籍識別應(yīng)用

      總的來說,藏文古籍識別的研究尚處于起步階段,其中大部分工作集中在現(xiàn)代藏文字符識別方面,而在藏文古籍文檔識別中,字符識別只是其中的一個模塊,且藏文古籍中梵音藏文字符占很大一部分;除了字符識別外,藏文古籍識別還在版面分析、文字切分等方面有大量工作等待完成。藏文古籍文檔識別研究中,還存在多方面的困難。

      第一,藏文古籍文檔版面質(zhì)量差,導(dǎo)致獲取的圖像中存在大量噪音,同時圖像的前景中還存在字符內(nèi)容缺失、線條斷裂等其他質(zhì)量退化問題。如何合理的去噪,且在去噪的同時修補損失區(qū)域是做好藏文古籍識別的前提條件。

      第二,藏文古籍文檔版面復(fù)雜,文字、背景有多種顏色,常常在文中嵌圖,通常文字周圍都有邊框且橫豎排文字混編。必須做好版面分析工作,正確高效的將文檔中不同類型的元素一一區(qū)分。

      第三,藏文古籍中使用的字符集異常龐大,包括基本藏文字符集中獨立成字的169個字符、擴(kuò)充集A中1536個垂直預(yù)組合字符、擴(kuò)充集B中5669個垂直預(yù)組合字符,排除這三種字符集中重復(fù)的字符,字符總數(shù)共計7240類。如何獲取這7240個類別的樣本數(shù)據(jù),合理的設(shè)計分類器對這種稀疏樣本、高類別問題進(jìn)行分類是必須要解決的問題。

      參考文獻(xiàn):

      [1]Kai Chen,Mathias Seuret,Hao Wei,etal.Ground truth model, tool, and dataset for layout analysis of historical documents[J].Document Recognition and Retrieval XXII,2015(9402).

      [2]先 巴.藏文古籍版本研究——以藏文古籍印本為中心[J].西藏研究,2016(3):99-110.

      望奎县| 满洲里市| 涟源市| 军事| 闻喜县| 博爱县| 甘孜| 南郑县| 新津县| 乌苏市| 东港市| 淄博市| 宜丰县| 富顺县| 三穗县| 邛崃市| 辽源市| 上饶县| 鄂州市| 噶尔县| 太白县| 南部县| 夏津县| 洛川县| 武陟县| 延川县| 朝阳市| 普洱| 合山市| 乐山市| 涟源市| 石河子市| 芦山县| 云霄县| 长阳| 柘城县| 安徽省| 洛川县| 大埔区| 东阳市| 岐山县|