信手拈來的OCR

2021-08-28 10:03:42

中國信息技術(shù)教育 2021年15期

高手論技

編者按：目前，OCR技術(shù)在各行業(yè)中的應(yīng)用方興未艾。我們可以在通訊軟件、辦公軟件甚至在線網(wǎng)站中找到OCR的使用方法，極大地方便了我們的工作和生活。當(dāng)然，目前人工智能還處于初級階段，更好的場景文字識別將隨著人工智能的發(fā)展而不斷發(fā)展。

應(yīng)用沙龍

主持人：

劉宗凡廣東省四會市四會中學(xué)

嘉? 賓：

邱元陽? 河南省安陽縣職業(yè)中專

金琦? 浙江師范大學(xué)附屬中學(xué)

倪俊杰? 浙江省桐鄉(xiāng)市鳳鳴高中

楊磊? 天津市第五中學(xué)

從1929年德國科學(xué)家Taushek取得的一項光學(xué)字符識別（Optical Character Recognition，簡稱OCR）的專利算起，OCR已經(jīng)發(fā)展了將近100年。漢字的OCR技術(shù)從20世紀(jì)70年代末開始進入研究階段，也經(jīng)歷了近50年。OCR技術(shù)的成熟，使得汗牛充棟的書籍變成電子圖書館，我們足不出戶就可以在網(wǎng)上檢索海量書籍。OCR技術(shù)推動了文化的保存、整理、普及、研究，是數(shù)字化浪潮中一朵漂亮的浪花。

隨著工人智能的發(fā)展，OCR技術(shù)更是如虎添翼，在各行各業(yè)得到了廣泛的應(yīng)用，極大地方便了我們的工作和生活。

人工智能（AI）影響下的OCR

楊磊：典型的OCR的技術(shù)路線如圖1所示。其中識別準(zhǔn)確率的關(guān)鍵技術(shù)是文字檢測和文本識別，這兩部分是OCR技術(shù)的核心。

以深度學(xué)習(xí)為主要特征的人工智能，改善了OCR的準(zhǔn)確度和速度，使得OCR走出了印刷體文字的識別范疇，我們隨手一拍的場景文字，都可以被OCR較為準(zhǔn)確地識別出來。

隨著人工智能對科技的全方位影響，OCR在人工智能的助力下邁進了一個新領(lǐng)域。基于深度學(xué)習(xí)的keras-ocr庫提供了方便易用的OCR模型和端到端的訓(xùn)練流程來構(gòu)建新的OCR模型。keras-ocr庫支持Python3.6和TensorFlow2.0.0。

首先安裝庫：

pip install keras-ocr

加載庫

import matplotlib.pyplot as plt

import keras_ocr

加載預(yù)訓(xùn)練模型

detector and recognizer.pipeline = keras_ocr.pipeline.Pipeline（）

導(dǎo)入圖片

images = [keras_ocr.tools.read（img） for img in ['./1.jpg'，'./2.jpg'] ]

預(yù)測文本

prediction_groups = pipeline.recognize（images）

顯示結(jié)果

fig，axs=plt.subplots（nrows=len（images），figsize=（10，20））

for ax，image， predictions in zip（axs，images，prediction_groups）：

keras_ocr.tools.drawAnnotations（image=image，

predictions=predictions，ax=ax）

由識別結(jié)果可以看出，當(dāng)圖2中文字發(fā)生扭轉(zhuǎn)，識別的準(zhǔn)確率變低。上述程序是一個訓(xùn)練好的模型，由于其使用的數(shù)據(jù)集與當(dāng)前所識別圖片相差過大，導(dǎo)致原模型泛化能力下降。如果想對特定圖片進行識別，可以通過特定圖片訓(xùn)練模型，對參數(shù)進行微調(diào)。本例使用的是英文OCR，中文識別相對而言難度有所增加，有興趣的讀者可以繼續(xù)研究。

OCR技術(shù)在各行各業(yè)的應(yīng)用

倪俊杰：1.OCR在銀行中的應(yīng)用

票據(jù)憑證是銀行賬務(wù)處理流程的重要內(nèi)容。銀行票據(jù)電子影像數(shù)據(jù)庫是銀行業(yè)務(wù)信息化的數(shù)據(jù)基礎(chǔ)，有了這個數(shù)據(jù)基礎(chǔ)，才有可能開展銀行業(yè)務(wù)的各種信息化處理工作。但由于銀行票據(jù)業(yè)務(wù)復(fù)雜，多數(shù)銀行仍停留在“人工分散處理+紙質(zhì)庫房保存+人工查詢”的階段，成為阻礙金融電子化的薄弱環(huán)節(jié)。而借助OCR識別技術(shù)，可以使票據(jù)處理達到“自動集中處理+電子安全保存+數(shù)據(jù)有效應(yīng)用”的目標(biāo)，不但保留了原始單據(jù)的圖像文件，而且對圖像文件進行OCR識別后可以自動建立票據(jù)索引，還可以通過系統(tǒng)接口進一步完成單據(jù)與前臺數(shù)據(jù)的勾對工作，快速找出有問題的單據(jù)，并能根據(jù)建立的索引很快找出原始圖像，進行查詢和審核，能高效、快捷準(zhǔn)確地完成事后監(jiān)督的工作，從而大大減輕操作員的工作量，減少差錯率，提高銀行業(yè)務(wù)的自動化和智能化水平。

2.OCR在快遞行業(yè)的應(yīng)用

OCR識別技術(shù)不僅能夠快速從快遞單據(jù)上提取識別手機號碼，讓快遞員快速聯(lián)絡(luò)快遞主人，還能快速提取快遞面單上的聯(lián)系人、目的地城市、地址等重要信息，并與系統(tǒng)數(shù)據(jù)進行匹配，實現(xiàn)自動分揀，可以在短時間內(nèi)，準(zhǔn)確完成大量包裹的自動分揀，讓工作變得更簡單快捷，切實滿足中小型快遞物流分發(fā)網(wǎng)點快速發(fā)展的訴求。

3.OCR在圖書資料管理中的應(yīng)用

在圖書資料管理中，OCR文字識別可以代替人工錄入，將圖片上的文字識別出來，即將圖片上的文字變?yōu)榭删庉嫷奈谋?，以便于檢索分類，大大提高了工作效率，同時避免對珍貴的史料造成損壞，文字識別對紙質(zhì)材料的數(shù)字化轉(zhuǎn)型有重要的意義。

4.OCR在視頻審查中的應(yīng)用

借助OCR識別技術(shù)，可以識別視頻中的文字，對互聯(lián)網(wǎng)視頻內(nèi)容進行識別審核、監(jiān)控，篩除掉違規(guī)的視頻、廣告，如一些敏感、不健康的詞匯等，達到高效審查的目的。

值得注意的是，2020年9月28日，在2020AIIA人工智能開發(fā)者大會上，主辦方正式發(fā)布國內(nèi)首份智能文字識別（OCR）能力測評與應(yīng)用白皮書。白皮書指出，OCR技術(shù)已在金融、保險、醫(yī)療、交通、教育等諸多行業(yè)有了深入成熟的應(yīng)用。未來隨著傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型，OCR應(yīng)用范圍和場景將進一步擴展，市場規(guī)模將進一步增大。有權(quán)威機構(gòu)預(yù)測，2025年全球OCR市場規(guī)模將達到133.81億美元。

方便易用的文字識別工具—— QQ

邱元陽：雖然各種OCR軟件層出不窮，軟件功能也越來越強大，識別速度和準(zhǔn)確率也在不斷提高，但是很多時候，我們需要的是一款隨手可用的文字識別工具。

在PC版的QQ中，新增了“屏幕識圖”功能，可以用屏幕截圖的方式來識別屏幕上任意可見區(qū)域的文字。這一功能位于截圖功能組，快捷鍵是“Ctrl+Alt+O”。

QQ的屏幕識圖其實就是一種OCR功能，只是內(nèi)置到QQ軟件中了。對辦公一簇來說，QQ是計算機上必備的軟件，有了文字識別功能，可以非常方便地解決網(wǎng)頁文字不能復(fù)制、圖片文字不能提取等常見問題，只要是屏幕上能看到的文字，都可以通過它來識別并復(fù)制下來。這比很多OCR軟件需要加載圖片和文件來進行識別要簡便得多，并且不需要安裝專門的軟件。

在手機版的QQ中，也有類似的文字識別功能。點擊右上角的“+”號，用手機“掃一掃”，再點擊屏幕下方的“轉(zhuǎn)文字”，按提示拍下需要提取的文字，軟件即開始進行文字識別。識別完成后，可以復(fù)制文字，或者提取全文，導(dǎo)出文檔。

無論是PC版還是手機版QQ，其文字識別功能都能在識別后進行編輯，以糾正識別錯誤，并且還能即時進行文字翻譯。

日常辦公軟件中的OCR工具——OneNote和WPS

金琦：從OCR使用體驗上來說，我們?nèi)粘６枷矚g放將辦公素材在Office軟件中編輯，如果能脫離第三方軟件，即在辦公文檔里中添加圖片，就可以隨用隨取圖片中的文字素材，在需要用的時候復(fù)制粘貼即可，這樣辦公操作豈不是更加方便？那怎么識別辦公文檔中的圖片文字呢？我們從兩大辦公軟件，即微軟Office系列和金山WPS Office來說明。

在安裝最新的微軟Office產(chǎn)品時，大家可以看到是有OCR文字識別工具安裝選項，但讀者會發(fā)現(xiàn)安裝完畢后找不到單獨的OCR文字識別工具。事實上OCR文字識別功能可在微軟Office中的OneNote組件中調(diào)用。以微軟OneNote 2016為例，可以右擊要識別的圖片，選擇“復(fù)制圖片中的文本”，就可以直接復(fù)制出來，為其他Office辦公套件所用，這就是OCR文字識別工具在微軟辦公產(chǎn)品中的功能體現(xiàn)。

而金山WPS Office則更進一步，直接可以使用WPS Office打開各種文檔，如w文字（相當(dāng)于微軟Word）、P演示（相當(dāng)于微軟PowerPoint）等，選擇需要轉(zhuǎn)換的圖片，在“圖片工具”中點擊“圖片轉(zhuǎn)文字”，會進入到“金山OCR文字識別”功能。而且相對于微軟辦公產(chǎn)品有更多的轉(zhuǎn)換方式（提取文字、轉(zhuǎn)換文檔、轉(zhuǎn)換表格）可選。

隨手可用的OCR——在線識別

劉宗凡：如果我們不想在計算機上安裝軟件，只要能連上網(wǎng)絡(luò)，就可以嘗試直接在線進行文字識別。筆者推薦兩個網(wǎng)站。

（1）OCR Spaceh（網(wǎng)址 ttps：//ocr.space/）。

操作步驟如下：

①在 Upload image or PDF file （.png，.jpg，.webp or .PDF）后的文本框點擊“選擇文件”。

②在Language后的下拉框中選擇語言，如果是中文選擇“ChineseSimplified”。

③在“Select OCR Engine to use：”選擇OCR引擎。默認引擎1速度快，支持語言多;引擎2對數(shù)字和特殊符號識別更好。

④點擊“Start OCR！”，開始進行識別，結(jié)果將在下面的文本框中顯示。可以下載相應(yīng)的文本文件（TXT）。

這個網(wǎng)站的優(yōu)點是沒有任何限制，對中、英文印刷體的識別率非常高。不足之處是識別結(jié)果只有文本文件下載，對排版的保留不是很完美;另一個不足是對中文手寫體基本無法識別。

（2）極客在線OCR（網(wǎng)址：http：//www.gkocr.com/）。

極客對印刷體的識別率非常高，但有每天10張圖片識別的限制，另外識別結(jié)果也只有文本文件格式。極客對中文手寫體的識別率可以達到85%左右。

OCR軟件的不足之處

邱元陽：目前的OCR軟件，其文字識別還不夠智能化，對識別后的結(jié)果沒有進行語法校對，經(jīng)常會把“一”“-”“_”等類似符號混淆，這幾乎是所有常見OCR軟件的通病。

識別錯誤在所難免，但是糾錯過程完全交給用戶，不僅會加重用戶的負擔(dān)，還會出現(xiàn)錯誤遺漏。錯誤較多時，甚至比重新輸入一遍都耗時耗力。目前的語音輸入識別率非常高，當(dāng)需要OCR識別的內(nèi)容比較短小時，普通話較好的用戶可以直接把屏幕上的文字朗讀一遍，基本上就能完全識別了。

智能化不足還體現(xiàn)在對背景的識別和處理上。大多數(shù)OCR軟件并不能直接忽略背景，而是通過二值化和降噪算法來消除背景的影響，但是并不能完全去除復(fù)雜的背景，因而會直接影響最終的識別結(jié)果。特別是背景中有雜亂的線條甚至是干擾字符時，幾乎無法處理。這個缺陷在進行網(wǎng)絡(luò)用戶登錄時身份驗證的設(shè)計上被利用起來，開發(fā)所謂的“圖片驗證碼”，用于解決避免程序化登錄的問題。這些圖片驗證碼，用人眼是可以識別的，用機器的OCR幾乎都無法識別，很好地解決了防止用機器和程序代替人進行網(wǎng)上批量登錄的問題。

二值化處理的另一個問題是，有時要識別的主體文字是一種特殊的顏色，人工肉眼識別時可以很方便地判斷誰是文字誰是背景，但二值化的結(jié)果，卻忽略了文字顏色，自己給自己設(shè)置了識別障礙。

優(yōu)秀的智能化OCR軟件，應(yīng)該能夠判斷出文字主體與背景，直接將文字主體與背景區(qū)分開來，忽略背景和排除干擾圖形之后再進行識別，并利用相應(yīng)語言的語法規(guī)則，對識別結(jié)果進行自我糾錯。

當(dāng)機器的OCR識別能力與人工識別接近時，OCR的應(yīng)用領(lǐng)域就會更進一步地拓展，甚至?xí)龠M計算機視覺研究的進步。這可能需要人工智能的參與，而不是傳統(tǒng)的識別算法。

OCR雖然在近一百年取得了長足的進展，印刷體的識別達到了非常高的準(zhǔn)確度，但是在目前人工智能正處于初級階段的情況下，OCR功能同樣受到很大的制約。可以預(yù)見，當(dāng)人工智能技術(shù)得到突破的時候，OCR同樣會在實用性上取得突破，期待這一天早日到來。