劉慶 李義 李鴻杰 陳茜
摘 要:電力設(shè)備銘牌圖片中,其文字的排版格式不一、字體格式復(fù)雜多樣,在電腦端OCR文字識別軟件基礎(chǔ)上,研究出一種自然環(huán)境里中文文本的檢測與識別,并開發(fā)具有該相關(guān)功能的軟件,應(yīng)用在電腦端實現(xiàn)OCR的應(yīng)用場景。
關(guān)鍵詞:電力設(shè)備銘牌;文字識別;OCR
中圖分類號:TM63 文獻標(biāo)識碼:A 文章編號:1671-2064(2019)23-0131-01
1 問題
目前電力系統(tǒng)中運行的各類設(shè)備,其設(shè)備銘牌上提供了設(shè)備的品牌、廠家、型號、產(chǎn)品名稱以及各類電力參數(shù)信息,在電力生產(chǎn)過程中,電力公司需要熟悉這些技術(shù)參數(shù),便于了解設(shè)備的性能,記錄設(shè)備的技術(shù)參數(shù)存檔。同時在維護過程中,需要通過這些信息,讓設(shè)備廠家的客服能迅速了解設(shè)備可能的問題。由于各種電力設(shè)備的生產(chǎn)廠家生產(chǎn)的設(shè)備銘牌,其風(fēng)格差異很大,采用現(xiàn)有的OCR識別系統(tǒng),無法滿足實際工作中眾多電力設(shè)備銘牌的識別需求。
2 背景綜述
目前電力系統(tǒng)運行中的設(shè)備銘牌照片采集時,通過手機或者相機采集的照片很不規(guī)范、且銘牌照片收集后,需要花費大量的人工進行照片上設(shè)備參數(shù)的識別,特別費時費力,且因各種原因,人工識別照片上的數(shù)字時經(jīng)常會存在疏忽,造成部分設(shè)備參數(shù)不準(zhǔn)確。通過電力設(shè)備銘牌照片識別技術(shù)的應(yīng)用,可以規(guī)范快速安全采集銘牌照片,完成在自然環(huán)境里中文文本的檢測與識別,收集到設(shè)備的電氣參數(shù)信息。
OCR的識別過程,分為以下幾步:圖像獲取、圖像的預(yù)處理、特征提取、文字的識別、版面恢復(fù)、后期處理以及校對等功能組成。
(1)首先需要將圖像進行載入,目前常見的圖像格式有JPEG、PNG、PDF、IMG等圖像格式,不同的圖像格式分別有不同的存儲格式、以及不同的壓縮方式。
(2)圖像的預(yù)處理主要包括灰度化、二值化、去燥、傾斜度調(diào)整、字符切割等。第一步是圖像二值化采用閾值分割技術(shù),擅長處理物體與背景具有強烈對比度的圖像分割??梢园淹ㄟ^相機拍攝的銘牌圖像簡單地劃分為前景與背景區(qū)域,對劃分區(qū)域的彩色圖像進行灰度化處理,在圖像灰度化處理之后只含有前景色和背景色,通常情況下前景信息用黑色表示,背景信息用白色表示。第二步是去燥,所謂去燥就是對圖像進行噪聲去除,對圖像文件上定義噪聲特征,然后根據(jù)這個特征完成去燥處理。第三步是圖像傾斜度的調(diào)整,就是在實際的拍照環(huán)節(jié)中,人們往往很難做到圖像的完全水平垂直,使得拍攝的結(jié)果圖像會出現(xiàn)一定的傾斜,為了讓計算機更好的識別圖像上的文字信息,需要對傾斜的圖像進行水平或垂直調(diào)整,最后得到一個水平垂直的圖像結(jié)果。
(3)特征提取,該步驟是希望找出圖像中候選的文字區(qū)域特征,將圖片劃分N個段落,改過程就是版面分析,但實際圖片的復(fù)雜性和多樣性,因此不會有一個固定不變的最優(yōu)分割模型。
(4)文字識別,字符識別方法特征提取方法為主。主要分為兩類:一類為模式識別,向OCR程序喂送各種格式的字符用來識別、對比文檔中的字符。另一類為特征檢測,OCR程序使用一套規(guī)則來識別電子文檔中字符和數(shù)字的特征。這些特征包括斜線、交叉線或曲線的數(shù)量等。例如,大寫字母\“A”\可以存儲為兩條對角線中間與水平線相接。
(5)版面的恢復(fù),就是在對識別出來的文字,按照原有圖像文檔的先后順序,保持其原有上下左右的段落位置不變,按順序的輸出為可編輯的文字內(nèi)容,可導(dǎo)出為pdf、word等格式文檔。
(6)后期處理及校對,對于得到的文字內(nèi)容,根據(jù)其特定的語言及上下文關(guān)系,對結(jié)果進行最后的校正,得到最終的可編輯的文字內(nèi)容。
OCR程序有不同的算法來實現(xiàn),但總的來說都是基于字符、詞語或文本塊來識別。當(dāng)字符識別成功后,會被轉(zhuǎn)換成ASCII碼,用來作進一步處理。用戶可以存儲為電子文檔,識別并糾正文字或復(fù)雜格式方面的錯誤。計算機視覺技術(shù)讓計算機程序或者叫機器人能夠看懂圖像,并能夠識別出圖像中的元素,而不是靠人工配置的選擇器識別圖像。計算機視覺技術(shù)是一種算法,這種算法通過混合使用人工智能、OCR、文字模糊匹配和錨定系統(tǒng),實現(xiàn)類似人類的圖像識別能力。
OCR技術(shù)提供一種可靠的技術(shù)手段,實現(xiàn)了電子圖片上文字信息進行數(shù)字化的轉(zhuǎn)換,對特定格式圖片內(nèi)容進行算法識別,讓OCR在日常的生活和工作中進行了眾多的應(yīng)用。
對于電力設(shè)備銘牌印刷形式的多樣性,本研究項目提出根據(jù)設(shè)備銘牌圖片實際情況,自動對圖片中文字進行識別,并以可編輯的自由文本輸出識別結(jié)果,以解決在自然環(huán)境里無特定樣式的圖片中文字識別,提高OCR技術(shù)在實際自然場景下的應(yīng)用能力。
3 方案設(shè)計
電力設(shè)備銘牌上的信息,包含廠家的品牌、產(chǎn)品型號、生產(chǎn)日期、產(chǎn)品名稱、設(shè)備電氣參數(shù)等信息。在進行識別時,需要自動選定識別區(qū)域,通過各個識別區(qū)域的自動識別,獲取設(shè)備銘牌上的文字內(nèi)容。
選擇電力設(shè)備的圖像并輸入后,經(jīng)過一系列的加工和處理,包括文字方向校正等,使得文字基本能達到水平位置,得到一張可用于識別的圖像。系統(tǒng)自動選擇可識別區(qū)域,如圖1所示。
然后依次進行各個識別區(qū)域的字符識別,得到各個識別區(qū)域的字符內(nèi)容,最后進行識別結(jié)果的保存和導(dǎo)出。
4 應(yīng)用場景
電力設(shè)備銘牌圖片經(jīng)過OCR的文字識別,輸出得到可編輯的文本信息,電力公司可將該信息保存為電子檔案信息,便于日后的維護及與設(shè)備廠商的溝通聯(lián)系。
(1)首先用戶操作加載采樣圖片。
(2)圖片預(yù)覽。
(3)圖片識別后的信息預(yù)覽。如圖2、圖3所示。
(4)已識別數(shù)據(jù)列表功能:該功能默認(rèn)顯示以時間排序展示所有用戶已識別的識別,其中包括識別設(shè)備的時間、識別設(shè)備的名稱,識別設(shè)備的用戶。用戶可以通過篩選方式顯示某一段時間內(nèi)的識別設(shè)備。如圖4所示。