高手論技
編者按:目前,OCR技術(shù)在各行業(yè)中的應(yīng)用方興未艾。我們可以在通訊軟件、辦公軟件甚至在線網(wǎng)站中找到OCR的使用方法,極大地方便了我們的工作和生活。當(dāng)然,目前人工智能還處于初級階段,更好的場景文字識別將隨著人工智能的發(fā)展而不斷發(fā)展。
應(yīng)用沙龍
主持人:
劉宗凡 廣東省四會市四會中學(xué)
嘉? 賓:
邱元陽? 河南省安陽縣職業(yè)中專
金 琦? 浙江師范大學(xué)附屬中學(xué)
倪俊杰? 浙江省桐鄉(xiāng)市鳳鳴高中
楊 磊? 天津市第五中學(xué)
從1929年德國科學(xué)家Taushek取得的一項光學(xué)字符識別(Optical Character Recognition,簡稱OCR)的專利算起,OCR已經(jīng)發(fā)展了將近100年。漢字的OCR技術(shù)從20世紀(jì)70年代末開始進入研究階段,也經(jīng)歷了近50年。OCR技術(shù)的成熟,使得汗牛充棟的書籍變成電子圖書館,我們足不出戶就可以在網(wǎng)上檢索海量書籍。OCR技術(shù)推動了文化的保存、整理、普及、研究,是數(shù)字化浪潮中一朵漂亮的浪花。
隨著工人智能的發(fā)展,OCR技術(shù)更是如虎添翼,在各行各業(yè)得到了廣泛的應(yīng)用,極大地方便了我們的工作和生活。
人工智能(AI)影響下的OCR
楊磊:典型的OCR的技術(shù)路線如圖1所示。其中識別準(zhǔn)確率的關(guān)鍵技術(shù)是文字檢測和文本識別,這兩部分是OCR技術(shù)的核心。
以深度學(xué)習(xí)為主要特征的人工智能,改善了OCR的準(zhǔn)確度和速度,使得OCR走出了印刷體文字的識別范疇,我們隨手一拍的場景文字,都可以被OCR較為準(zhǔn)確地識別出來。
隨著人工智能對科技的全方位影響,OCR在人工智能的助力下邁進了一個新領(lǐng)域。基于深度學(xué)習(xí)的keras-ocr庫提供了方便易用的OCR模型和端到端的訓(xùn)練流程來構(gòu)建新的OCR模型。keras-ocr庫支持Python3.6和TensorFlow2.0.0。
首先安裝庫:
pip install keras-ocr
加載庫
import matplotlib.pyplot as plt
import keras_ocr
加載預(yù)訓(xùn)練模型
detector and recognizer.pipeline = keras_ocr.pipeline.Pipeline()
導(dǎo)入圖片
images = [keras_ocr.tools.read(img) for img in ['./1.jpg','./2.jpg'] ]
預(yù)測文本
prediction_groups = pipeline.recognize(images)
顯示結(jié)果
fig,axs=plt.subplots(nrows=len(images),figsize=(10,20))
for ax,image, predictions in zip(axs,images,prediction_groups):
keras_ocr.tools.drawAnnotations(image=image,
predictions=predictions,ax=ax)
由識別結(jié)果可以看出,當(dāng)圖2中文字發(fā)生扭轉(zhuǎn),識別的準(zhǔn)確率變低。上述程序是一個訓(xùn)練好的模型,由于其使用的數(shù)據(jù)集與當(dāng)前所識別圖片相差過大,導(dǎo)致原模型泛化能力下降。如果想對特定圖片進行識別,可以通過特定圖片訓(xùn)練模型,對參數(shù)進行微調(diào)。本例使用的是英文OCR,中文識別相對而言難度有所增加,有興趣的讀者可以繼續(xù)研究。
OCR技術(shù)在各行各業(yè)的應(yīng)用
倪俊杰:1.OCR在銀行中的應(yīng)用
票據(jù)憑證是銀行賬務(wù)處理流程的重要內(nèi)容。銀行票據(jù)電子影像數(shù)據(jù)庫是銀行業(yè)務(wù)信息化的數(shù)據(jù)基礎(chǔ),有了這個數(shù)據(jù)基礎(chǔ),才有可能開展銀行業(yè)務(wù)的各種信息化處理工作。但由于銀行票據(jù)業(yè)務(wù)復(fù)雜,多數(shù)銀行仍停留在“人工分散處理+紙質(zhì)庫房保存+人工查詢”的階段,成為阻礙金融電子化的薄弱環(huán)節(jié)。而借助OCR識別技術(shù),可以使票據(jù)處理達到“自動集中處理+電子安全保存+數(shù)據(jù)有效應(yīng)用”的目標(biāo),不但保留了原始單據(jù)的圖像文件,而且對圖像文件進行OCR識別后可以自動建立票據(jù)索引,還可以通過系統(tǒng)接口進一步完成單據(jù)與前臺數(shù)據(jù)的勾對工作,快速找出有問題的單據(jù),并能根據(jù)建立的索引很快找出原始圖像,進行查詢和審核,能高效、快捷準(zhǔn)確地完成事后監(jiān)督的工作,從而大大減輕操作員的工作量,減少差錯率,提高銀行業(yè)務(wù)的自動化和智能化水平。
2.OCR在快遞行業(yè)的應(yīng)用
OCR識別技術(shù)不僅能夠快速從快遞單據(jù)上提取識別手機號碼,讓快遞員快速聯(lián)絡(luò)快遞主人,還能快速提取快遞面單上的聯(lián)系人、目的地城市、地址等重要信息,并與系統(tǒng)數(shù)據(jù)進行匹配,實現(xiàn)自動分揀,可以在短時間內(nèi),準(zhǔn)確完成大量包裹的自動分揀,讓工作變得更簡單快捷,切實滿足中小型快遞物流分發(fā)網(wǎng)點快速發(fā)展的訴求。
3.OCR在圖書資料管理中的應(yīng)用
在圖書資料管理中,OCR文字識別可以代替人工錄入,將圖片上的文字識別出來,即將圖片上的文字變?yōu)榭删庉嫷奈谋?,以便于檢索分類,大大提高了工作效率,同時避免對珍貴的史料造成損壞,文字識別對紙質(zhì)材料的數(shù)字化轉(zhuǎn)型有重要的意義。
4.OCR在視頻審查中的應(yīng)用
借助OCR識別技術(shù),可以識別視頻中的文字,對互聯(lián)網(wǎng)視頻內(nèi)容進行識別審核、監(jiān)控,篩除掉違規(guī)的視頻、廣告,如一些敏感、不健康的詞匯等,達到高效審查的目的。
值得注意的是,2020年9月28日,在2020AIIA人工智能開發(fā)者大會上,主辦方正式發(fā)布國內(nèi)首份智能文字識別(OCR)能力測評與應(yīng)用白皮書。白皮書指出,OCR技術(shù)已在金融、保險、醫(yī)療、交通、教育等諸多行業(yè)有了深入成熟的應(yīng)用。未來隨著傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型,OCR應(yīng)用范圍和場景將進一步擴展,市場規(guī)模將進一步增大。有權(quán)威機構(gòu)預(yù)測,2025年全球OCR市場規(guī)模將達到133.81億美元。
方便易用的文字識別工具—— QQ
邱元陽:雖然各種OCR軟件層出不窮,軟件功能也越來越強大,識別速度和準(zhǔn)確率也在不斷提高,但是很多時候,我們需要的是一款隨手可用的文字識別工具。
在PC版的QQ中,新增了“屏幕識圖”功能,可以用屏幕截圖的方式來識別屏幕上任意可見區(qū)域的文字。這一功能位于截圖功能組,快捷鍵是“Ctrl+Alt+O”。
QQ的屏幕識圖其實就是一種OCR功能,只是內(nèi)置到QQ軟件中了。對辦公一簇來說,QQ是計算機上必備的軟件,有了文字識別功能,可以非常方便地解決網(wǎng)頁文字不能復(fù)制、圖片文字不能提取等常見問題,只要是屏幕上能看到的文字,都可以通過它來識別并復(fù)制下來。這比很多OCR軟件需要加載圖片和文件來進行識別要簡便得多,并且不需要安裝專門的軟件。
在手機版的QQ中,也有類似的文字識別功能。點擊右上角的“+”號,用手機“掃一掃”,再點擊屏幕下方的“轉(zhuǎn)文字”,按提示拍下需要提取的文字,軟件即開始進行文字識別。識別完成后,可以復(fù)制文字,或者提取全文,導(dǎo)出文檔。
無論是PC版還是手機版QQ,其文字識別功能都能在識別后進行編輯,以糾正識別錯誤,并且還能即時進行文字翻譯。
日常辦公軟件中的OCR工具——OneNote和WPS
金琦:從OCR使用體驗上來說,我們?nèi)粘6枷矚g放將辦公素材在Office軟件中編輯,如果能脫離第三方軟件,即在辦公文檔里中添加圖片,就可以隨用隨取圖片中的文字素材,在需要用的時候復(fù)制粘貼即可,這樣辦公操作豈不是更加方便?那怎么識別辦公文檔中的圖片文字呢?我們從兩大辦公軟件,即微軟Office系列和金山WPS Office來說明。
在安裝最新的微軟Office產(chǎn)品時,大家可以看到是有OCR文字識別工具安裝選項,但讀者會發(fā)現(xiàn)安裝完畢后找不到單獨的OCR文字識別工具。事實上OCR文字識別功能可在微軟Office中的OneNote組件中調(diào)用。以微軟OneNote 2016為例,可以右擊要識別的圖片,選擇“復(fù)制圖片中的文本”,就可以直接復(fù)制出來,為其他Office辦公套件所用,這就是OCR文字識別工具在微軟辦公產(chǎn)品中的功能體現(xiàn)。
而金山WPS Office則更進一步,直接可以使用WPS Office打開各種文檔,如w文字(相當(dāng)于微軟Word)、P演示(相當(dāng)于微軟PowerPoint)等,選擇需要轉(zhuǎn)換的圖片,在“圖片工具”中點擊“圖片轉(zhuǎn)文字”,會進入到“金山OCR文字識別”功能。而且相對于微軟辦公產(chǎn)品有更多的轉(zhuǎn)換方式(提取文字、轉(zhuǎn)換文檔、轉(zhuǎn)換表格)可選。
隨手可用的OCR——在線識別
劉宗凡:如果我們不想在計算機上安裝軟件,只要能連上網(wǎng)絡(luò),就可以嘗試直接在線進行文字識別。筆者推薦兩個網(wǎng)站。
(1)OCR Spaceh(網(wǎng)址 ttps://ocr.space/)。
操作步驟如下:
①在 Upload image or PDF file (.png,.jpg,.webp or .PDF)后的文本框點擊“選擇文件”。
②在Language后的下拉框中選擇語言,如果是中文選擇“ChineseSimplified”。
③在“Select OCR Engine to use:”選擇OCR引擎。默認引擎1速度快,支持語言多;引擎2對數(shù)字和特殊符號識別更好。
④點擊“Start OCR!”,開始進行識別,結(jié)果將在下面的文本框中顯示。可以下載相應(yīng)的文本文件(TXT)。
這個網(wǎng)站的優(yōu)點是沒有任何限制,對中、英文印刷體的識別率非常高。不足之處是識別結(jié)果只有文本文件下載,對排版的保留不是很完美;另一個不足是對中文手寫體基本無法識別。
(2)極客在線OCR(網(wǎng)址:http://www.gkocr.com/)。
極客對印刷體的識別率非常高,但有每天10張圖片識別的限制,另外識別結(jié)果也只有文本文件格式。極客對中文手寫體的識別率可以達到85%左右。
OCR軟件的不足之處
邱元陽:目前的OCR軟件,其文字識別還不夠智能化,對識別后的結(jié)果沒有進行語法校對,經(jīng)常會把“一”“-”“_”等類似符號混淆,這幾乎是所有常見OCR軟件的通病。
識別錯誤在所難免,但是糾錯過程完全交給用戶,不僅會加重用戶的負擔(dān),還會出現(xiàn)錯誤遺漏。錯誤較多時,甚至比重新輸入一遍都耗時耗力。目前的語音輸入識別率非常高,當(dāng)需要OCR識別的內(nèi)容比較短小時,普通話較好的用戶可以直接把屏幕上的文字朗讀一遍,基本上就能完全識別了。
智能化不足還體現(xiàn)在對背景的識別和處理上。大多數(shù)OCR軟件并不能直接忽略背景,而是通過二值化和降噪算法來消除背景的影響,但是并不能完全去除復(fù)雜的背景,因而會直接影響最終的識別結(jié)果。特別是背景中有雜亂的線條甚至是干擾字符時,幾乎無法處理。這個缺陷在進行網(wǎng)絡(luò)用戶登錄時身份驗證的設(shè)計上被利用起來,開發(fā)所謂的“圖片驗證碼”,用于解決避免程序化登錄的問題。這些圖片驗證碼,用人眼是可以識別的,用機器的OCR幾乎都無法識別,很好地解決了防止用機器和程序代替人進行網(wǎng)上批量登錄的問題。
二值化處理的另一個問題是,有時要識別的主體文字是一種特殊的顏色,人工肉眼識別時可以很方便地判斷誰是文字誰是背景,但二值化的結(jié)果,卻忽略了文字顏色,自己給自己設(shè)置了識別障礙。
優(yōu)秀的智能化OCR軟件,應(yīng)該能夠判斷出文字主體與背景,直接將文字主體與背景區(qū)分開來,忽略背景和排除干擾圖形之后再進行識別,并利用相應(yīng)語言的語法規(guī)則,對識別結(jié)果進行自我糾錯。
當(dāng)機器的OCR識別能力與人工識別接近時,OCR的應(yīng)用領(lǐng)域就會更進一步地拓展,甚至?xí)龠M計算機視覺研究的進步。這可能需要人工智能的參與,而不是傳統(tǒng)的識別算法。
OCR雖然在近一百年取得了長足的進展,印刷體的識別達到了非常高的準(zhǔn)確度,但是在目前人工智能正處于初級階段的情況下,OCR功能同樣受到很大的制約。可以預(yù)見,當(dāng)人工智能技術(shù)得到突破的時候,OCR同樣會在實用性上取得突破,期待這一天早日到來。