• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    OCR發(fā)票識別應(yīng)用淺述

    2017-04-15 12:09:12
    福建質(zhì)量管理 2017年1期
    關(guān)鍵詞:字符識別字符票據(jù)

    曾 東

    (重慶工程職業(yè)技術(shù)學(xué)院 重慶 402260)

    OCR發(fā)票識別應(yīng)用淺述

    曾 東

    (重慶工程職業(yè)技術(shù)學(xué)院 重慶 402260)

    在經(jīng)濟(jì)活動中,個(gè)人或者企事業(yè)單位會用到大量的發(fā)票,傳統(tǒng)方法是將票據(jù)信息手工錄入計(jì)算機(jī)系統(tǒng),工作效率低下、出錯(cuò)率較高、業(yè)務(wù)處理時(shí)效低。OCR(Optical Character Recognition)票據(jù)信息識別技術(shù)的研發(fā)改變了票據(jù)業(yè)務(wù)處理模式,依托于計(jì)算機(jī)軟硬件,將紛繁復(fù)雜的工作交給計(jì)算機(jī)完成,從而節(jié)省了大量人力物力,優(yōu)化了資源配置,提升了工作效率,具有強(qiáng)大的優(yōu)勢。

    OCR;發(fā)票識別;票據(jù)識別

    一、引言

    OCR是光學(xué)字符識別技術(shù)的簡稱,字符識別是模式識別的一個(gè)重要分支,其工作原理是通過掃描儀、數(shù)碼相機(jī)等光學(xué)輸入設(shè)備獲取紙張上的文字圖片信息,采用光學(xué)方式將文檔資料轉(zhuǎn)換成黑白點(diǎn)陣的圖像文件,再利用模式識別算法分析文字體態(tài)特征,判斷識別出字符文字,進(jìn)而通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,并按通用格式存儲在文本文件或者數(shù)據(jù)庫中,還可通過文字處理或編輯軟件等再進(jìn)一步加工。

    經(jīng)過了數(shù)十年的發(fā)展,OCR技術(shù)在文檔識別方面的有了很大的進(jìn)步。在市場上已經(jīng)推出了很多成功的商業(yè)軟件,如漢王公司的文本王、清華文通TH-OCR、尚書OCR、蒙恬OCR以及丹青OCR等,其應(yīng)用范圍也越來越廣泛,不僅僅局限于個(gè)人或中小企業(yè)的辦公自動化,在金融、稅務(wù)、數(shù)字圖書館等領(lǐng)域也已經(jīng)開始了大規(guī)模地應(yīng)用。它的發(fā)展推進(jìn)了將文檔資料和各類紙質(zhì)存儲信息的數(shù)字化進(jìn)程,加速了信息資源開發(fā)利用共享,輕松實(shí)現(xiàn)了紙質(zhì)文檔的電子化,快速提高了工作效率,有效提升了人們的學(xué)習(xí)工作質(zhì)量。

    二、OCR發(fā)票識別需求背景

    在經(jīng)濟(jì)活動中應(yīng)用到大量的單證,為了將這些數(shù)量巨大、種類繁多的單證輸入計(jì)算機(jī)系統(tǒng),需要進(jìn)行相應(yīng)的數(shù)據(jù)錄入工作。在現(xiàn)階段,傳統(tǒng)的手工錄入仍然是主要的工作方式,需要投入大量的成本和時(shí)間,不僅抬高了運(yùn)營成本,而且錄入速度也難以提升,錯(cuò)誤率也很難降低,對提高業(yè)務(wù)處理時(shí)效、提升服務(wù)品質(zhì)帶來了負(fù)面影響。

    相對于傳統(tǒng)的手工錄入方式來說,OCR識別的速度遠(yuǎn)快于手工錄入,可以節(jié)省大量人力資源,優(yōu)化資源配置,使人員分配于更加有意義的工作,具有強(qiáng)大的優(yōu)勢。盡管目前的OCR技術(shù)的識別率雖然很難達(dá)到100%,但其質(zhì)量仍然高于大批量手工錄入。

    針對上述情況,建立一套通用的OCR服務(wù)及管理平臺,可以為企業(yè)提供高速度、低成本的數(shù)據(jù)采集工具,為多個(gè)應(yīng)用系統(tǒng)提供通用服務(wù),提高業(yè)務(wù)處理時(shí)效,降低錯(cuò)誤率,為業(yè)務(wù)快速發(fā)展提供有力的支撐。

    三、OCR發(fā)票識別現(xiàn)狀

    在票據(jù)識別方面,該項(xiàng)技術(shù)的研究應(yīng)用已逐漸廣泛,市場上較為著名的有清華文通的TH-OCR系統(tǒng)和漢王的尚書OCR系統(tǒng)等。票據(jù)識別技術(shù)可用于各類表單識別,譬如銀行客戶申請表、保險(xiǎn)客戶申請表、金融票據(jù)(如支票、匯票)、醫(yī)療費(fèi)用單證、收費(fèi)發(fā)票等;各類個(gè)人證件識別,譬如可識別身份證、駕駛證、行駛證等;各類企業(yè)證件識別,譬如可識別企業(yè)營業(yè)執(zhí)照、組織機(jī)構(gòu)代碼證等;各類車牌照識別,譬如道路上各種車牌照,如藍(lán)牌、黃牌、警牌、農(nóng)用車牌等。

    發(fā)票識別是票據(jù)識別的一個(gè)小分支。有關(guān)數(shù)據(jù)顯示,中國每年會開具2000億張紙幣發(fā)票,約合紙張12萬噸,大約是86萬棵成年樹木。如果一單發(fā)票的成本需要1.6元,唯品會每年打印發(fā)票約合人民幣兩千多萬,京東則每年花費(fèi)將近兩個(gè)億。發(fā)票內(nèi)容是很重要的公司數(shù)據(jù),在供應(yīng)商管理、合同管理、報(bào)銷管理、稅務(wù)認(rèn)證、客戶管理等各業(yè)務(wù)方面都需要使用。

    眾所周知,財(cái)務(wù)數(shù)據(jù)多以表格和漢字出現(xiàn),而這就是自動識別系統(tǒng)中最困難的地方。這些問題主要包括票據(jù)紙張不一、表格線分布不均勻、長短不一,以及漢字結(jié)構(gòu)復(fù)雜、相似字多等等。這也就造成了票據(jù)識別的難度要高于一般紙質(zhì)文檔的識別。對于傳統(tǒng)的紙質(zhì)文檔和單一的字符識別已經(jīng)取得了相當(dāng)大的進(jìn)展,但是對包括復(fù)雜表格和字符的圖像仍存在一些問題。

    四、OCR發(fā)票識別軟件工作流程

    發(fā)票單據(jù)識別OCR是一款通用的數(shù)據(jù)批量采集軟件,適用于各種具有表格特征的發(fā)票單據(jù),通過掃描、圖像處理、自動分類、OCR識別技術(shù),將表格圖像中的數(shù)據(jù)信息準(zhǔn)確、快速、真實(shí)地提取并保存,數(shù)據(jù)結(jié)果可導(dǎo)出為標(biāo)準(zhǔn)的數(shù)據(jù)格式,如Excel表,與企事業(yè)單位的ERP、CRM等系統(tǒng)實(shí)現(xiàn)無縫結(jié)合。軟件系統(tǒng)支持中英文、數(shù)字、符號等多類型字符的手寫體、印刷體識別。OCR軟件識別基本流程描述如下:

    掃描:通過掃描儀等設(shè)備將目標(biāo)文檔(各類發(fā)票)以文檔圖像的形式讀入系統(tǒng)。

    預(yù)處理:圖像在生成過程中,由于成像系統(tǒng)本身具有非線性或者攝像時(shí)視角不對,會使生成的圖像產(chǎn)生幾何失真,此外在拍照的過程中,由于各種原因文檔圖像經(jīng)常會出現(xiàn)一定程度的傾斜。而圖像傾斜將會影響文字識別的效果。因此,在進(jìn)行版面分析之前,進(jìn)行傾斜檢測和校正十分重要。通過對文檔圖像預(yù)處理提高了圖像的質(zhì)量,減小各種噪聲對后續(xù)過程的影響。

    版面分析:將圖像文件中所包含的直線、文本表格、圖像等不同性質(zhì)的劃分開來,并將文本部分按照段落,標(biāo)題等進(jìn)行切分,以便于下一步的處理。

    版面識別:對版面分析中的各個(gè)分欄的性質(zhì)及順序做出判斷與識別,同時(shí),對于文本性質(zhì)的分欄,指出它是橫排還是豎排,是正文還是標(biāo)題,以及各個(gè)段落基于復(fù)雜度的自適應(yīng)中文版面分析方法研究的先后順序,從而保證識別后的文件的語義關(guān)系。通常把版面分析與版面識別統(tǒng)稱為版面理解。

    字符切分:將文字區(qū)域的字符進(jìn)行切分,為字符識別做準(zhǔn)備。

    字符識別:識別單個(gè)字符,將其轉(zhuǎn)化為字符編碼。

    后處理與版面重構(gòu):將前幾步的處理結(jié)果進(jìn)行進(jìn)一步處理,輸出目標(biāo)文件格式。

    當(dāng)然,生成目標(biāo)格式文件的同時(shí)可以將票據(jù)要素詳細(xì)信息定向入庫存儲,方便后續(xù)查詢共享等操作。

    使用OCR識別技術(shù)實(shí)現(xiàn)自動錄單,通過批量掃描識別的方式采集發(fā)票數(shù)據(jù),大大提高數(shù)據(jù)采集的效率,降低了人力物力開銷。

    OCR識別錄單方式是對傳統(tǒng)錄入方式的一個(gè)顛覆,基于先進(jìn)的圖像處理、OCR&ICR(智能字符識別)技術(shù),把繁重重復(fù)的工作交給計(jì)算機(jī)去處理,充分發(fā)揮了計(jì)算機(jī)信息處理技術(shù)的優(yōu)勢,錄單主體的變更帶來的是錄單效率本質(zhì)的提高,這也是OCR識別技術(shù)研究的初衷。

    評價(jià)OCR識別軟件系統(tǒng)的主要性能指標(biāo)有識別對象、識別率、誤識率、拒識率、可靠性、識別速度等。

    五、結(jié)束語

    隨著科技的發(fā)展,OCR識別技術(shù)將會衍生到人工智能的很多產(chǎn)品當(dāng)中,將有廣闊的市場,但前路漫漫,針對不同的復(fù)雜場景依然保持較好的識別性能,還需要更加深入研究,進(jìn)一步提升識別可靠性。

    [1]黃宇.OCR技術(shù)在金融領(lǐng)域的應(yīng)用[J].金融電子化,2001(1):86-88.

    [2]彭健.基于OCR技術(shù)的金融和財(cái)務(wù)票據(jù)自動錄入與管理系統(tǒng)[J].渝州大學(xué)學(xué)報(bào),1999(14-3):50-54.

    [3]張艷.票據(jù)自動處理系統(tǒng)中若干關(guān)鍵技術(shù)研究[D].南京理工大學(xué),2008.

    [4]田大增.視覺文檔圖像識別預(yù)處理[D].河北大學(xué),2007.

    曾東(1987.12-),男,漢族,重慶云陽人,教師,碩士研究生,重慶工程職業(yè)技術(shù)學(xué)院,物聯(lián)網(wǎng)技術(shù)與應(yīng)用。

    猜你喜歡
    字符識別字符票據(jù)
    尋找更強(qiáng)的字符映射管理器
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
    儀表字符識別中的圖像處理算法研究
    基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識別
    機(jī)加工件點(diǎn)陣字符識別研究
    河南科技(2014年3期)2014-02-27 14:05:36
    陵川县| 鄂托克前旗| 翼城县| 鄢陵县| 普兰店市| 瑞安市| 成都市| 五寨县| 塘沽区| 新源县| 五家渠市| 马鞍山市| 揭阳市| 民丰县| 阿克陶县| 阳春市| 广安市| 东乡| 诸暨市| 苏州市| 清镇市| 易门县| 望都县| 当阳市| 桓台县| 汉川市| 鄂伦春自治旗| 大化| 罗江县| 女性| 嘉祥县| 马龙县| 莱阳市| 喀喇沁旗| 龙井市| 南涧| 宜都市| 祁门县| 武冈市| 汝阳县| 平远县|