劉宗凡
編者按:光學(xué)字符識(shí)別(OCR),是將圖像中的文字識(shí)別為可編輯的文字的技術(shù)。OCR技術(shù)極大地推動(dòng)了紙質(zhì)書(shū)籍?dāng)?shù)字化的進(jìn)程,使得浩如煙海的存量書(shū)籍轉(zhuǎn)化為數(shù)字版本成為可能,是數(shù)字化圖書(shū)館建立過(guò)程中當(dāng)之無(wú)愧的最大功臣。當(dāng)OCR技術(shù)插上人工智能的翅膀,更是將應(yīng)用拓展到很多行業(yè),如場(chǎng)景文字識(shí)別、手寫(xiě)識(shí)別、車(chē)牌識(shí)別、證件識(shí)別、汽車(chē)VIN碼識(shí)別、發(fā)票識(shí)別、智能交通……使相應(yīng)領(lǐng)域的工作方式和效率得到了前所未有的革新。因此,我們將分兩期探討光學(xué)字符識(shí)別(OCR)的發(fā)展以及使用。
OCR(Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(如掃描儀或數(shù)碼相機(jī))檢查字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程,即采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過(guò)識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。傳統(tǒng)的OCR技術(shù)已經(jīng)發(fā)展了幾十年,如今在人工智能(AI)的推動(dòng)下,OCR技術(shù)又煥發(fā)出了新的活力。
● 漢字OCR發(fā)展沿革
我國(guó)使用漢字的歷史源遠(yuǎn)流長(zhǎng),漢字的識(shí)別遠(yuǎn)比數(shù)字、西文要棘手,主要體現(xiàn)在以下三個(gè)方面。
1.數(shù)量龐大
和10個(gè)數(shù)字、26個(gè)英文字母相比較,漢字的數(shù)量可以說(shuō)是一個(gè)天文數(shù)字。1994年出版的《中華字?!肥珍浟?7019個(gè)漢字,目前計(jì)算機(jī)上最全的字庫(kù),收錄了91251個(gè)漢字。國(guó)標(biāo)GB2312-80字符集有6763個(gè)漢字,其中一級(jí)漢字3755個(gè),使用頻度已經(jīng)覆蓋99.7%的使用范圍,二級(jí)漢字3008個(gè),兩級(jí)漢字總使用頻度達(dá)到了99.99%。所以,目前主要解決一級(jí)漢字的識(shí)別。即使這樣,漢字識(shí)別也屬于大類(lèi)別數(shù)的模式識(shí)別問(wèn)題。
2.結(jié)構(gòu)復(fù)雜
漢字的結(jié)構(gòu)性很強(qiáng)。漢字可以看作是部件的組合,稱(chēng)之為偏旁、部首或字根,是筆畫(huà)的有意義的組合。筆畫(huà)和部首的排列組合,構(gòu)成了結(jié)構(gòu)異常復(fù)雜的漢字。
3.相似字多
很多漢字之間差別很小,有些僅表現(xiàn)為某一個(gè)筆畫(huà)位置或形態(tài)的微小變化。這些漢字即使由人來(lái)識(shí)別也容易出錯(cuò),機(jī)器識(shí)別的難度可想而知。
正是由于這些原因,漢字的識(shí)別一直落后于西文。國(guó)際上最早展開(kāi)對(duì)漢字識(shí)別的研究是在1966年,BIM公司發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文,利用簡(jiǎn)單的模板匹配法,能夠識(shí)別1000個(gè)印刷體漢字。
1977年?yáng)|芝綜合研究所研制出可以識(shí)別2000個(gè)單體印刷漢字的識(shí)別系統(tǒng);20世紀(jì)80年代初期,日本武藏野電氣研究所研制出可以識(shí)別2300個(gè)多體漢字的印刷體漢字識(shí)別系統(tǒng),識(shí)別率達(dá)到99.88%,識(shí)別速度大于100字/秒。
我國(guó)對(duì)漢字識(shí)別的研究主要分為三個(gè)階段:①探索階段(1979—1985年)。我國(guó)對(duì)漢字的識(shí)別研究是從20世紀(jì)90年代開(kāi)始的,研制出了模擬識(shí)別軟件和系統(tǒng),發(fā)表了一些論文成果,為漢字的識(shí)別打下了堅(jiān)實(shí)的基礎(chǔ)。②研制階段(1986—1988年)。這三年是漢字識(shí)別技術(shù)研究的高潮期,總共有11個(gè)單位進(jìn)行了14次印刷體漢字識(shí)別的成果鑒定,識(shí)別率高達(dá)99.5%以上,識(shí)別速度達(dá)到10~14字/秒。由于印刷體文字形狀發(fā)生了變化,軟件的適應(yīng)性和抗干擾性比較差,實(shí)際上識(shí)別率是比較差的,還達(dá)不到實(shí)用的效果。③實(shí)用階段(1989年至今)。國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)、國(guó)家重點(diǎn)科技攻關(guān)計(jì)劃、國(guó)家自然科學(xué)基金和軍事基礎(chǔ)研究基金都對(duì)印刷體漢字識(shí)別這一研究課題給予了極大的重視和大力的支持。目前,印刷體漢字識(shí)別和聯(lián)機(jī)手寫(xiě)漢字識(shí)別走向?qū)嵱没?,其技術(shù)水平和當(dāng)前世界最高水平并駕齊驅(qū)。清華大學(xué)電子工程系研制由清華紫光集團(tuán)推出的TH-OCR、漢王集團(tuán)推出的漢王OCR、尚書(shū)OCR,是我國(guó)印刷體漢字識(shí)別領(lǐng)域的翹楚。
2016年,阿爾法狗與世界冠軍李世石在圍棋領(lǐng)域的驚世駭俗的一戰(zhàn),極大地推動(dòng)了人工智能研究的熱潮,以深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)技術(shù)為代表的人工智能思想,在各個(gè)領(lǐng)域都得到了研究和應(yīng)用。OCR技術(shù)在人工智能的推動(dòng)下,進(jìn)入了一個(gè)新的發(fā)展階段。和傳統(tǒng)OCR聚焦在印刷體漢字識(shí)別上不同,人工智能助推下的OCR對(duì)手寫(xiě)體的識(shí)別更上一層樓,在各種不同復(fù)雜背景環(huán)境下的文字識(shí)別也進(jìn)入實(shí)用階段。iOS15剛剛推出的圖片識(shí)別文字(Live Text)功能,就是蘋(píng)果公司人工智能研究的成果。我國(guó)互聯(lián)網(wǎng)科技公司也扎堆人工智能跑道,百度、搜狗、騰訊、有道等都推出了OCR接口,可供我們使用或軟件調(diào)用??梢灶A(yù)見(jiàn),類(lèi)似Live Text功能的軟件將很快普及,各種復(fù)雜環(huán)境下的文字識(shí)別(場(chǎng)景文字識(shí)別)將不斷提高識(shí)別率和識(shí)別速度,達(dá)到好用、易用的目的。
● 傳統(tǒng)漢字OCR原理
目前現(xiàn)存大量傳統(tǒng)漢字OCR軟件的技術(shù)線路如下圖所示。
1.文件管理
通過(guò)掃描儀、手機(jī)、相機(jī)等儀器采集需要識(shí)別的文字圖片。
2.圖像增強(qiáng)
圖像增強(qiáng)即是對(duì)圖像的成像進(jìn)行修正,特別是手機(jī)、相機(jī)拍攝的圖片,如果不進(jìn)行修正,將極大地影響文字識(shí)別率。處理過(guò)程包括灰度化、二值化、幾何變換(透視、扭曲、旋轉(zhuǎn)等)、畸變校正、圖像增強(qiáng)和光線校正、圖像平滑、行字切分等。
(1)灰度化
我們得到的文字圖片大多是彩色的,無(wú)疑會(huì)有很多干擾信息,對(duì)文字識(shí)別很不利。通過(guò)灰度化處理,將原本由三維描述的像素點(diǎn)映射為一維描述的像素點(diǎn),可以排除多余的干擾。
(2)二值化
所謂二值化,就是把灰度值圖像信號(hào)轉(zhuǎn)化為只有黑和白的二值圖像信號(hào),將漢字從圖像中分離出來(lái)。通常先確定像素的閾值,然后用像素的值和閾值比較,確定這個(gè)像素點(diǎn)為1或0。如果閾值太小,保留的信息過(guò)多,許多無(wú)用信息就會(huì)干擾以后的處理;如果閾值太大,則會(huì)丟失正常的信息,最終使得文字信息不完整,無(wú)法準(zhǔn)確識(shí)別。
(3)行字切分