王攀娜 楊昆
編者按:隨著人工智能、大數(shù)據(jù)等信息技術(shù)的不斷發(fā)展,OCR文字識別技術(shù)逐漸應用于審計領(lǐng)域,成為重要的審計技術(shù)創(chuàng)新工具。文章探討如何將OCR文字識別技術(shù)應用于審計,發(fā)現(xiàn)OCR文字識別技術(shù)與審計系統(tǒng)相結(jié)合、與智能審計工具共建數(shù)字化審計平臺、助力構(gòu)建數(shù)據(jù)共享平臺三條路徑,并分析了基于OCR文字識別技術(shù)實現(xiàn)審計技術(shù)創(chuàng)新的保障措施,以期通過OCR文字識別技術(shù)實現(xiàn)審計技術(shù)創(chuàng)新,提高審計工作效率。
在大數(shù)據(jù)、區(qū)塊鏈、云計算、人工智能等創(chuàng)新技術(shù)的驅(qū)動下,將OCR文字識別等智能技術(shù)融合到審計實務工作中,可以為審計工作提供數(shù)字化賦能。使用OCR文字識別技術(shù),可以大大提高數(shù)據(jù)的準確性,將審計人員從枯燥繁重的工作中解脫出來,節(jié)省鍵盤輸入的人力和時間,為審計技術(shù)打下非結(jié)構(gòu)化數(shù)據(jù)采集的基礎(chǔ),推進審計技術(shù)創(chuàng)新。
OCR文字識別技術(shù)介紹
OCR文字識別技術(shù)概念
光學字符識別(Optical Character Recognition,OCR),通稱為文字識別,通過光學輸入設備獲取紙張上的文字圖片信息,再以通用格式存儲為文本文件。OCR是一種高效、快捷的自動文字輸入方法,實現(xiàn)了計算機認字技術(shù),是計算機視覺研究領(lǐng)域中模式識別和人工智能領(lǐng)域的一種應用。OCR系統(tǒng)性能好壞的衡量指標主要包括識別速度、識別比例、產(chǎn)品的穩(wěn)定性、用戶界面是否友好、使用的方便性和可行性等。OCR文字識別是實現(xiàn)文字高速錄入的一項關(guān)鍵技術(shù),在身份信息識別、金融票據(jù)識別、合同信息提取等商業(yè)場景中都有比較成熟的應用。
OCR文字識別的處理流程主要包括圖像處理和文字識別,具體處理流程見圖1。圖像處理包括圖像輸入、圖像預處理、版面分析和字符切割四個步驟。圖像輸入是通過電子信號處理讀取圖像。圖像預處理指將圖像處理為有文字的黑色和沒有文字的白色區(qū)域、去除圖像成形的噪音、校正傾斜的文字和數(shù)字等。版面分析是將文檔圖片進行段落和行的劃分。字符切割是將粘連在一起的文字、段筆等情況進行切割。文字識別過程包括特征提取、字符識別、版面恢復以及后處理四個步驟。特征提取是識別字符圖像的關(guān)鍵特征,通過降維處理以便后續(xù)進行字符識別。字符識別是根據(jù)數(shù)學的向量特征,進行字符識別。版面恢復是根據(jù)原文檔的排版情況,識別格式,將結(jié)果輸出。后處理是將識別出來的文檔與原文檔進行比對校正。
OCR文字識別技術(shù)的應用場景
近年來,文字識別技術(shù)作為一項采集圖片信息的工具,已經(jīng)在很多實踐案例中都得到了運用。具體來看,OCR文字識別技術(shù)的應用場景大致可分為:通用類,表格、文檔、網(wǎng)絡圖片等任意格式圖片;證件類,身份證、駕駛證、行駛證、護照等證件圖片;票據(jù)類,增值稅發(fā)票、機動車銷售發(fā)票、醫(yī)療發(fā)票等各種發(fā)票;行業(yè)類,物流面單、醫(yī)療化驗單據(jù)等多種行業(yè)特定類型圖片;定制模板,用戶自定義識別模板。
OCR文字識別技術(shù)應用于審計的路徑
我們認為OCR文字識別技術(shù)運用到審計工作場景的路徑主要包括如下三個方面。
OCR文字識別技術(shù)與審計系統(tǒng)的連接
1.實時性
審計系統(tǒng)需要及時獲取相關(guān)的審計數(shù)據(jù),并在短時間內(nèi)做出專業(yè)判斷,借助OCR技術(shù)可實現(xiàn)審計系統(tǒng)的實時計算。此外,OCR文字識別技術(shù)可實現(xiàn)審計數(shù)據(jù)的持久存儲。OCR在審計中的應用主要分為圖像采集模塊、OCR文字識別模塊和審計模塊三個部分,中間通過Redis和Kafaka兩個傳輸工具實現(xiàn)。
(1)圖像采集模塊。圖片采集是OCR技術(shù)應用的基礎(chǔ),實現(xiàn)系統(tǒng)的圖像輸入流程,主要功能是對圖像進行預處理,包括去除噪聲、二值化、校正傾斜等,然后發(fā)布到Redis的圖形通道中。
(2)OCR文字識別模塊。通過調(diào)用Redis的圖形通道獲取到初步處理后的圖片,進行文本檢測,包括文本行分隔和文字分隔;最后將圖片中的信息還原為可被計算機識別的信息,識別之后將文字發(fā)布到Kafaka文字通道。
(3)審計模塊。通過Kafaka文字通道,將OCR文字識別模塊識別信息傳遞到審計模塊,進行信息實時計算和持久化存儲。Redis和Kafaka是文字識別技術(shù)與審計系統(tǒng)連接框架系統(tǒng)中的消息傳輸工具,因為圖像采集和文字識別速度不同,文字識別和審計模塊處理速度不同,各模塊間直接進行數(shù)據(jù)的傳遞可能導致消息堵塞。使用Redis和Kafaka作為緩沖,可為系統(tǒng)的穩(wěn)定性提供保證。
2.全量審計
在對公客戶信貸舞弊風險年審時,審計人員需要從行內(nèi)信貸系統(tǒng)中隨機抽取100個有貸款的對公客戶信息,通過比對貸款投向信息與企業(yè)營業(yè)執(zhí)照的經(jīng)營范圍是否匹配來識別舞弊信號。審計人員要手動錄入企業(yè)名稱、經(jīng)營范圍信息、統(tǒng)一社會信用代碼等,然后開始后續(xù)工作。使用到OCR具體工作流程見圖2。審計人員只需要獲取全量的企業(yè)營業(yè)執(zhí)照的照片,并導入到文字識別工具中,即可獲得可編輯的文本信息。為進一步提高審計效率,還可先設計一份數(shù)據(jù)匯總表單,規(guī)定自己所需的信息,將這些文字版企業(yè)營業(yè)執(zhí)照變成更可觀的表單。將節(jié)省下來的時間用在發(fā)現(xiàn)舞弊信號等方面,有效降低抽樣審計導致的重要信息遺漏風險,并提高審計的質(zhì)量。
OCR文字識別應用于智能審計技術(shù)
OCR文字識別技術(shù)有助于審計實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)采集,助推其他審計技術(shù)發(fā)揮功效,使得應用范圍可以拓展到更多社會實踐工作領(lǐng)域中。融合OCR文字識別、機器人流程自動化、高級數(shù)據(jù)分析等多種新興審計技術(shù),將為審計工作提供數(shù)字化賦能。智能審計數(shù)字化平臺通過數(shù)據(jù)加工、轉(zhuǎn)化、存儲、交換、關(guān)聯(lián)共享和管理等專業(yè)化處理,對數(shù)據(jù)的組合分析、交叉驗證,以實現(xiàn)全面分析。動態(tài)、真實地反映審計對象的相關(guān)信息,幫助審計部門識別各種審計風險。目前該技術(shù)應用于審計數(shù)據(jù)采集、文檔審閱、底稿編制、海量合同文本、錄音等非結(jié)構(gòu)數(shù)據(jù)等方面發(fā)揮了巨大的優(yōu)勢。
在審計業(yè)務中,審計人員需要閱讀大量的合同,提取合同名稱、合同簽訂雙方名稱、簽訂時間、結(jié)算方式等信息,與單位財務報表進行對照、核查,形成初步審計報告。借助OCR文字識別技術(shù)和數(shù)據(jù)分析技術(shù),幫助審計人員發(fā)現(xiàn)合同條款中的潛在風險。審核合同時,如果合同信息未電子化,審計人員很難發(fā)現(xiàn)多個合同中存在建設內(nèi)容部分重復或全部重復的情況。使用OCR文字識別技術(shù)將合同信息電子化,建立合同信息庫,對合同數(shù)據(jù)進行重復篩查和關(guān)聯(lián)匹配。通過將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)殡娮踊问剑倮脭?shù)據(jù)分析功能,將轉(zhuǎn)換后的數(shù)據(jù)與現(xiàn)存的結(jié)構(gòu)化數(shù)據(jù)進行關(guān)聯(lián),通過匹配進行核對,實現(xiàn)多點聯(lián)動審計。
OCR文字識別技術(shù)助力構(gòu)建共享平臺
OCR文字識別技術(shù)是共享中心的關(guān)鍵所在,在傳統(tǒng)的共享中心數(shù)據(jù)的采集主要是人工來進行文字的轉(zhuǎn)化,將紙質(zhì)文件上的數(shù)據(jù)錄入到系統(tǒng)中,但OCR改變了人工錄入數(shù)據(jù)的工作模式,從源頭上提高數(shù)據(jù)的準確性。尤其是伴隨著數(shù)據(jù)的不斷增加,數(shù)據(jù)不斷復雜化,借助OCR將為共享中心的發(fā)展提供更有力的支撐。
使用OCR文字識別技術(shù)將紙質(zhì)文件數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)上傳至共享中心,可簡化審計工作流程。通過OCR文字識別技術(shù)構(gòu)建共享中心,內(nèi)部審計人員可在業(yè)務前端直接抓取數(shù)據(jù),看見原始憑證的圖像,不必再通過財務人員傳遞才能獲得,超越了業(yè)務地點時間的限制,解決了時滯問題和舞弊。OCR文字識別技術(shù)能規(guī)避手動輸入可能的錯誤,實現(xiàn)自動驗證發(fā)票真?zhèn)?,從發(fā)票臺賬取數(shù),掃描識別時直接驗證發(fā)票真?zhèn)危档投悇诊L險。
OCR文字識別技術(shù)應用于審計的保障措施
為了實現(xiàn)OCR文字識別技術(shù)在審計工作中的應用,下面探討其保障措施。
探尋新型審計模式
隨著內(nèi)外環(huán)境的快速變化,需要探尋符合時代發(fā)展的新型審計模式。在業(yè)務風險越來越隱蔽的情況下,審計人員必須形成數(shù)據(jù)思維,統(tǒng)籌分析信息。審計人員需要更多地考慮未來審計工作模式的轉(zhuǎn)變,改進創(chuàng)新審計技術(shù)。將各種前沿技術(shù)應用于審計的核心流程中,識別并評估日常工作中可以標準化和自動化的場景,為審計中的關(guān)鍵審計流程提供了全新的數(shù)字化解決方案,提高了工作效率。
構(gòu)建智能審計平臺
伴隨著信息技術(shù)的快速發(fā)展、數(shù)據(jù)應用的持續(xù)拓展,搭建智能化審計平臺,可以實現(xiàn)基于OCR文字識別開展審計工作。參考全球領(lǐng)先的專業(yè)服務機構(gòu)德勤公司的做法,從計劃和風險評估到控制測試再到實質(zhì)性測試,以及最后的結(jié)論與報告階段。
(1)計劃和風險評估階段,使用自動式綜合性數(shù)據(jù)分析,可快速實現(xiàn)報表、會計科目及分錄的可視化分析,聚焦高風險科目,揭示異常風險。
(2)控制測試階段,借助數(shù)字化流程挖掘和設計工具,自動跟蹤業(yè)務流程,通過動態(tài)視圖可視化呈現(xiàn),幫助企業(yè)更直觀了解流程運行情況,識別異常操作業(yè)務,進而深入分析企業(yè)內(nèi)控流程中的潛在風險。
(3)實質(zhì)性測試階段,利用數(shù)據(jù)動態(tài)可視化技術(shù)、機器人流程自動化技術(shù)結(jié)合第三方數(shù)據(jù)平臺,對企業(yè)圖譜、股權(quán)結(jié)構(gòu)、關(guān)系圖譜等信息進行挖掘和展示,對企業(yè)關(guān)聯(lián)交易進行展示,輔助審計人員對客戶關(guān)聯(lián)關(guān)系及關(guān)聯(lián)交易進行充分挖掘,從而提升風險防范能力,保障審計質(zhì)量。
(4)結(jié)論與報告階段,德勤公司自主研發(fā)的“勤報通”工具能實現(xiàn)報告審閱流程的高度自動化與智能化,還能通過健康檢查全面快捷地識別報告中的錯誤情況,改進報告質(zhì)量,提高審計交付的質(zhì)量。
保障數(shù)據(jù)的安全性和準確性
信息技術(shù)通過計算機程序自動處理,可大大提高工作效率,但不可忽視風險。OCR文字識別技術(shù)應用于審計過程中,數(shù)據(jù)的安全性和準確性是必須面對的重要問題。如采用OCR審計無形資產(chǎn)的形成和攤銷時,要考慮數(shù)據(jù)獲取是否準確,是否能支持最終形成的審計結(jié)論。要注重對數(shù)據(jù)的管理和保護,設置好數(shù)據(jù)訪問和存儲的權(quán)限,嚴格限制訪問,采用授權(quán)機制來保證審計數(shù)據(jù)的安全。使用OCR文字識別技術(shù)提取數(shù)據(jù)時,可使用一定措施來提高識別準確度。對圖像進行文字識別時,保證光線盡量充足和穩(wěn)定,且文字的背景最好是純白的背景,這樣能去除干擾因素,進一步保證文字識別技術(shù)的識別準確率。在文字識別技術(shù)處理流程中,最后一步的人工對比和校正也將保證輸出數(shù)據(jù)的準確性。
結(jié)語
數(shù)據(jù)時代的到來,審計數(shù)據(jù)的載體變得越來越多樣化,圖片、照片、影像等資料承載著豐富的審計數(shù)據(jù)信息。為了了解藏在這些信息背后的復雜關(guān)系和潛在風險,審計需要將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為可審計的數(shù)字或文本信息,揭開審計對象之間的復雜關(guān)系。OCR文字識別技術(shù)為智慧審計打下了 非結(jié)構(gòu)化數(shù)據(jù)采集的基礎(chǔ),如機器人流程自動化技術(shù)、自然語言處理技術(shù)等。OCR文字識別技術(shù)與審計系統(tǒng)結(jié)合、與智能審計工具結(jié)合、助力構(gòu)建共享中心這三方面的應用,進一步落實到數(shù)據(jù)采集、信息審核、審計抽樣三階段具體審計工作流程當中,有助于推進審計智能化水平,提升審計工作的社會服務價值。
參考文獻:
[1]汪莉,葉健彪.基于OCR的審計技術(shù)創(chuàng)新與實現(xiàn)[J].中國內(nèi)部審計,2019(04):44-47.
[2]徐超,陳勇.大數(shù)據(jù)技術(shù)與方法在審計監(jiān)督中的應用研究[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究,2021,38(05):135-153.
[3]余玉苗,徐慧慧.利用機器學習提升內(nèi)部審計價值——讀《機器學習強化保證》[J].財務與會計,2020(12):86-87.
[4]張晶,李雅琴,王博文.光學字符識別(OCR)技術(shù)在內(nèi)部審計中的實踐應用[J].納稅,2020,14(01):275.
[5]趙文華.德勤探路審計中的人工智能應用[N].中國會計報,2017-03-03(010).
第一作者:王攀娜(1980—),四川自貢人,副教授、博士、碩士生導師,現(xiàn)就職于重慶銀行博士后科研工作站。