肖艷玲
摘要隨著國民經(jīng)濟(jì)的不斷發(fā)展和法治社會的不斷完善,對面電力業(yè)務(wù)量的不斷增加,面對規(guī)范化要求不斷提高,如何甄別客戶提交海量的申請材料中各種證書文件的真?zhèn)喂ぷ鞒闪穗娏I(yè)務(wù)流程中的重要環(huán)節(jié),一旦使虛假的證件通過審批,將給電力正常工作帶來極大的風(fēng)險和不穩(wěn)定因素。
同時由于人工鑒別印章真?zhèn)?,對人員的要求也十分高,需要有長期的工作經(jīng)驗(yàn)積累,而這個經(jīng)驗(yàn)又無法在別人身上復(fù)制推廣,因此往往只有少數(shù)固定的幾名乃至一名工作人員能勝任鑒別工作,導(dǎo)致了已經(jīng)海量的鑒別工作成了整個業(yè)務(wù)審批工作的瓶頸所在,不但降低了整體的電力服務(wù)效率,也大大提高了客戶的等待時間,造成了客戶的不滿和投訴。為了很打破這個瓶頸,提高工作的效率,降低虛假證件通過的風(fēng)險,必須要從信息化手段入手,設(shè)計一種智能化識別平臺,支撐大多數(shù)的工作人員都能快速、準(zhǔn)確的識別證件的印章真?zhèn)?,最大限度的降低虛假證件通過的風(fēng)險。
關(guān)鍵詞:OCR; 鑒別印章; 信息化; 風(fēng)險
一、 前言
目前電力公司對各種證件的有效性的鑒別仍處于人工鑒別階段。而傳統(tǒng)的人工鑒別真?zhèn)?,由于工作人員的責(zé)任心、主觀意識、業(yè)務(wù)熟練程度、身體疲勞等不確定因素和人眼本身的弱點(diǎn)造成的誤判,將給電力企業(yè)帶來極大的隱患和漏洞。
通過本項(xiàng)目設(shè)計、開發(fā)一種面向客戶提交的申請材料的真?zhèn)巫R別輔助設(shè)備,以幫助用檢人員能快速有效的辨別真?zhèn)危蕴岣唠娏ζ髽I(yè)的管理水平,減少人員工作量,提高工作效率。
二、 國內(nèi)外研究水平綜述
目前,ocr(圖形識別,為人工智能的一種)技術(shù)經(jīng)過多年的發(fā)展,已經(jīng)取得了很多突破性的發(fā)展,例如我們常見的“指紋識別”、“虹膜識別”、“車牌識別”等,雖然本次項(xiàng)目的技術(shù)要求要比這些都高,但是基于神經(jīng)網(wǎng)絡(luò)方法的基本圖像處理技術(shù)已經(jīng)很成熟。再結(jié)合目前流行的高斯濾波算法和去噪技術(shù),為本項(xiàng)目研發(fā)奠定了技術(shù)基礎(chǔ)。
OCR是英文Optical Character Recognition的縮寫,即光學(xué)字符識別。它通過掃描和攝像等光學(xué)輸入方式獲取圖像信息,通過對圖像灰度化、灰度圖二值化、細(xì)化、濾波平滑去噪等圖像處理技術(shù)和幾何形態(tài)學(xué)、圖形模板匹配方法與神經(jīng)網(wǎng)絡(luò)學(xué)等識別算法進(jìn)行識別和定位,并按通用格式存儲在文本文件中。
OCR的概念是在1929年由德國科學(xué)家Tausheck最先提出來的,后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進(jìn)行識別的想法。我國研究識別技術(shù)的起步比較晚,20世紀(jì)70年代末才開始進(jìn)行OCR的研究工 作。
隨著OCR技術(shù)的廣泛應(yīng)用,它正逐漸被人們所知曉。國際軟件巨頭微軟在研發(fā) XP系統(tǒng)的時候,就意識到OCR的市場需求,在發(fā)布的Office 2003中全面配裝了TH-OCR;硬件方面的領(lǐng)袖企業(yè)英特爾公司也確定TH-OCR為MMX技術(shù)支持項(xiàng)目。近期,一些大公司意識到OCR的好處,開始在自己的產(chǎn)品中捆綁OCR技術(shù)。Google已經(jīng)啟動OCR軟件的開發(fā)工作,隨著Google啟動OCR開發(fā)工 作,OCR應(yīng)用進(jìn)入了全面爆發(fā)時代。
2011年10月成功研發(fā)了“電費(fèi)卡戶號識別系統(tǒng)”,運(yùn)用OCR技術(shù)識別電力公司統(tǒng)一的電費(fèi)卡號,成功率高達(dá)99%,識別時間<200ms,設(shè)備已經(jīng)在全省推廣使用,運(yùn)行至今,得到了13個地市公司的一致認(rèn)可,電費(fèi)卡識別器的成功研發(fā)為印章識別平臺的開發(fā)提供了技術(shù)前提。
三、 項(xiàng)目的理論和實(shí)踐依據(jù)
3.1理論依據(jù)
OCR系統(tǒng)從輸入影像到最后的結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、特征抽取、比對識別等過程。
影像輸入:透過光學(xué)儀器,如影像掃描儀、傳真機(jī)或攝影器材,將影像轉(zhuǎn)入計算機(jī)。影像設(shè)備的分辨率越高,輸入的影像越清晰,就越能增進(jìn)OCR軟件的處理效率。
影像前處理:影像前處理是OCR系統(tǒng)中解決問題最多的一個模塊,從得到一個不是黑就是白的二值化影像。影像前處理過程包含了影像正規(guī)化、去除噪聲、影像矯正等的影像處理,及圖文分析、文字行與字分離的文件前處理。
特征抽?。禾卣鞒槿】?分為兩類:一為統(tǒng)計的特征,如文字區(qū)域內(nèi)的黑/白點(diǎn)數(shù)比,當(dāng)文字區(qū)分成好幾個區(qū)域時,這一個個區(qū)域黑/白點(diǎn)數(shù)比之聯(lián)合,就成了空間的一個數(shù)值向量,在比對 時,基本的數(shù)學(xué)理論就足以應(yīng)付了。而另一類特征為結(jié)構(gòu)的特征,如文字影像細(xì)線化后,取得字的筆劃端點(diǎn)、交叉點(diǎn)之?dāng)?shù)量及位置,或以筆劃段為特征,配合特殊的 比對方法,進(jìn)行比對。
對比識別:根據(jù)不同的特征特性,選用不同的數(shù)學(xué)距離函數(shù),比對方法有,歐式空間的比對方法、松弛比對法 (Relaxation)、動態(tài)程序比對法(Dynamic Programming,DP),以及類神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫建立及比對、HMM(Hidden Markov Model)…等,為了使識別的結(jié)果更穩(wěn)定,也可利用各種特征比對方法的相異互補(bǔ)性,使識別出的結(jié)果,其準(zhǔn)確率特別的高。
3.2實(shí)現(xiàn)技術(shù)關(guān)鍵和難點(diǎn)
1、印鑒采集技術(shù)
印鑒圖像的采集是整個印章系統(tǒng)的基礎(chǔ),它由硬件和軟件兩項(xiàng)關(guān)鍵技術(shù)組成。本次項(xiàng)目中采用了國內(nèi)外目前最新的成熟技術(shù),軟件充分利用目前最先進(jìn)的數(shù)值圖像處理等前沿理論方法和技術(shù),經(jīng)過潛心研究,設(shè)計出處理算法,該算法在色度學(xué)和光度學(xué)的配合下,將證件上印章與證件底紋等背景噪音完全剝離,清晰地錄入印章圖像。在印章結(jié)構(gòu)多方面分析上,對印章圖像進(jìn)行邊界標(biāo)定、壓縮、過濾等預(yù)處理,進(jìn)一步提高采集印章的準(zhǔn)確度。
2、旋轉(zhuǎn)重合技術(shù)
旋轉(zhuǎn)重合技術(shù)是印鑒識別系統(tǒng)中很重要的一項(xiàng)關(guān)鍵技術(shù),是系統(tǒng)識別基礎(chǔ)。它有兩項(xiàng)重要指標(biāo):旋轉(zhuǎn)速度和旋轉(zhuǎn)精度。以很高的精確度在0.2秒內(nèi)自動地完成任意角度各類印章(方章、圓章、橢圓章)快速旋轉(zhuǎn)重合的系統(tǒng)。
四、 項(xiàng)目研究內(nèi)容和實(shí)施方案
1、硬件設(shè)備
利用柜臺現(xiàn)有計算機(jī),采用USB接口的CMOS,固定位置,配合固定燈光。直接獲得高精度清晰數(shù)字圖像。連接框圖如下:
2、印章數(shù)據(jù)庫模塊:
用于建立、刪除、修改和更換各個單位的印章圖片、客戶資料等業(yè)務(wù)。作為基礎(chǔ)對比圖片數(shù)據(jù)保留在系統(tǒng)中。
3、驗(yàn)印自動識別模塊:
通過圖像采集設(shè)備提取印章,與印章數(shù)據(jù)庫中的圖片進(jìn)行比對,通過信息提取、印章配準(zhǔn)、誤差分析等方法,自動判別印鑒真?zhèn)?,顯示兩章差異并給出識別結(jié)果。
1)利用物理光學(xué)的多譜系圖象分離技術(shù)及形狀分析,把掃描待驗(yàn)印章從無關(guān)背景的徹底分離。
2)調(diào)出數(shù)據(jù)庫中的印章,利用非線性規(guī)劃的高速算法使備案印章與去除背景的待驗(yàn)印章圖像重合,印鑒圖象是一個二維隨機(jī)函數(shù),兩幅相同或相近的印鑒圖象其函數(shù)是相關(guān)的,圖象越接近,相關(guān)度越高。
3)利用OCR識別算法,分析每一塊誤差的大小、形狀及與周圍信息的關(guān)系,對各點(diǎn)的誤差進(jìn)行多級多維的模糊推理,既能非常有效地濾掉了印鑒正常使用中的隨機(jī)誤差又敏銳的鑒別假印鑒所造成的圖象偏差。得出正確結(jié)論。
4、人工驗(yàn)證干預(yù)模塊:
系統(tǒng)驗(yàn)印無法自動通過,使用驗(yàn)印人工干預(yù)模塊進(jìn)行驗(yàn)印。