文/暨南大學(xué) 羅琦 李云 李俊 周煒
隨著科學(xué)技術(shù)的快速發(fā)展,人工智能越來越多地應(yīng)用于人們的生活之中,智能交通、智能醫(yī)療、智能家居、智能票務(wù)系統(tǒng)等給人們的日常生活帶來了更大的便捷。基于人工智能大數(shù)據(jù)的高校智能財(cái)稅一體化服務(wù)平臺(tái)系統(tǒng)的開發(fā)和應(yīng)用,解決了傳統(tǒng)高校會(huì)計(jì)中的諸多問題,實(shí)現(xiàn)了票據(jù)、憑證、賬簿、報(bào)表等各環(huán)節(jié)的自動(dòng)化、流程化、透明化?;谌斯ぶ悄芗夹g(shù)的高校會(huì)計(jì)票據(jù)系統(tǒng)通過對(duì)原始票據(jù)進(jìn)行掃描、文本自動(dòng)識(shí)別和人工校驗(yàn),建立了票據(jù)影像電子數(shù)據(jù)庫(kù),其能運(yùn)用“互聯(lián)網(wǎng)+”、大數(shù)據(jù)挖潛、“云會(huì)計(jì)”、深度學(xué)習(xí)、智能算法等智能技術(shù),通過計(jì)算機(jī)自動(dòng)生成各類會(huì)計(jì)憑證,實(shí)現(xiàn)憑證制單、審核、沖正、過賬、結(jié)賬等基礎(chǔ)會(huì)計(jì)核算。人工智能技術(shù)與高校財(cái)務(wù)會(huì)計(jì)專業(yè)業(yè)務(wù)的深度融合,實(shí)現(xiàn)了高校會(huì)計(jì)信息處理的自動(dòng)性、精準(zhǔn)性、實(shí)效性和完整性,提升了會(huì)計(jì)信息處理的效率,降低了高校的運(yùn)營(yíng)成本[1]。
人工智能技術(shù)主要包括計(jì)算機(jī)視覺、語(yǔ)音識(shí)別和自然語(yǔ)言處理。計(jì)算機(jī)視覺,顧名思義,就是利用攝像頭,使圖像通過鏡頭傳至圖像傳感器,最后變?yōu)橐幌盗袛?shù)字圖像信息,并通過對(duì)圖像信息的處理,完成對(duì)目標(biāo)數(shù)據(jù)的提取。語(yǔ)音識(shí)別是將人們的發(fā)音內(nèi)容從模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào),利用聲學(xué)模型、語(yǔ)言模型和解碼器轉(zhuǎn)換為計(jì)算機(jī)語(yǔ)言后,進(jìn)行相應(yīng)可讀輸入,轉(zhuǎn)換形式包括字符序列、二進(jìn)制編碼等。自然語(yǔ)言處理作為人工智能技術(shù)中的一個(gè)重要技術(shù),其同樣是充分利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行相應(yīng)文字?jǐn)?shù)據(jù)的分析、處理等操作。人工智能技術(shù)充當(dāng)了語(yǔ)言研究的有力工具,能實(shí)現(xiàn)自然語(yǔ)言的有效量化?;谌斯ぶ悄芗夹g(shù)的高校會(huì)計(jì)票據(jù)識(shí)別技術(shù)主要運(yùn)用票據(jù)圖像采集、圖像模板匹配、圖像預(yù)處理、OCR識(shí)別、數(shù)據(jù)校驗(yàn)、特征數(shù)據(jù)提取比對(duì)、智能字符識(shí)別等技術(shù)實(shí)現(xiàn)會(huì)計(jì)信息的智能化采集與處理[2]。
會(huì)計(jì)流程主要是通過發(fā)票憑證等紙質(zhì)材料或其掃描電子文檔,進(jìn)行一系列核對(duì)工作,確認(rèn)某筆業(yè)務(wù)是否真實(shí)且合規(guī),最終完成業(yè)務(wù)閉環(huán)。其中,核對(duì)紙質(zhì)材料是一項(xiàng)耗費(fèi)較大人力的工作,其需要初步確認(rèn)本次業(yè)務(wù)中需要的資料是否符合要求,如核對(duì)發(fā)票購(gòu)買方及銷售方的名稱、納稅人識(shí)別號(hào)、地址、開戶行信息,核對(duì)發(fā)票金額、稅率、總金額,核對(duì)開票日期是否合理、發(fā)票號(hào)碼是否有連號(hào)重復(fù)等現(xiàn)象等,在重復(fù)工作中浪費(fèi)大量的人力。如果使用圖像識(shí)別技術(shù)自動(dòng)完成核對(duì)工作,便能大大節(jié)省人力。會(huì)計(jì)票據(jù)識(shí)別流程如圖1所示。
圖1 會(huì)計(jì)票據(jù)識(shí)別流程
(一)圖像分類算法。1.基于卷積神經(jīng)網(wǎng)絡(luò)算法的圖像分類技術(shù)。圖像分類算法的經(jīng)典模型結(jié)構(gòu)主要有AlexNet、LeNet、GoogLeNet、ResNet 等類型,圖像分類采用卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行圖像分類。以高校研發(fā)經(jīng)費(fèi)報(bào)賬所需材料為例,一般需要合同、發(fā)票、費(fèi)用支出申請(qǐng)表、購(gòu)買小票等材料。例如,將2000 份已發(fā)生的業(yè)務(wù)的合同、發(fā)票、費(fèi)用支出申請(qǐng)表、購(gòu)買小票作為輸入圖像數(shù)據(jù)集,在完成訓(xùn)練后,能初步建立圖像分類模型,后續(xù)通過該算法便可以判斷該圖像屬于何種類型。2.基于模板匹配算法的圖像分類技術(shù)。由于基于卷積神經(jīng)網(wǎng)絡(luò)算法的圖像分類技術(shù)并不能達(dá)到百分百的準(zhǔn)確率,仍有一定的誤識(shí)別率,因此本文采用模板識(shí)別法,進(jìn)一步提升圖像分類的準(zhǔn)確性。同時(shí),對(duì)于誤識(shí)別率的圖片進(jìn)行人工分類,進(jìn)一步提升基于卷積神經(jīng)網(wǎng)絡(luò)算法的圖像分類的識(shí)別準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)是計(jì)算機(jī)視覺技術(shù)最經(jīng)典的模型結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積、池化、激活函數(shù)、批歸一化、丟棄法等模塊應(yīng)用。在計(jì)算機(jī)視覺中,卷積神經(jīng)網(wǎng)絡(luò)的輸入是由原始像素值或是經(jīng)過居中、縮放等簡(jiǎn)單預(yù)處理的像素值組成。利用神經(jīng)網(wǎng)絡(luò)加速器,通過參數(shù)初始化、隨機(jī)梯度消減處理、非擠壓激活函數(shù)、正則化等技術(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。從像素到分類結(jié)果獲取數(shù)據(jù)集,通過尺度不變特征變換、加速魯棒特征等特征提取算法,調(diào)整輸入數(shù)據(jù),將圖像邊緣、顏色、紋理等特征提取存入線性模型等分類器中,對(duì)分類器進(jìn)行系統(tǒng)訓(xùn)練。計(jì)算機(jī)視覺應(yīng)用體系如圖2所示。
圖2 計(jì)算機(jī)視覺應(yīng)用體系
深度學(xué)習(xí)對(duì)計(jì)算資源要求很高,訓(xùn)練可能需要數(shù)百個(gè)迭代周期,每次迭代都需要通過代價(jià)高昂的許多線性代數(shù)層傳遞數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)通過Dropout控制全連接層的模型復(fù)雜度,采用權(quán)重衰減方法,進(jìn)一步擴(kuò)充了數(shù)據(jù)容量,在訓(xùn)練時(shí)增加了翻轉(zhuǎn)、裁切和變色等大量的圖像增強(qiáng)數(shù)據(jù)。多層卷積和池化層組合作用在輸入圖片上,在網(wǎng)絡(luò)的最后加入多組全連接層,ReLU 激活函數(shù)一般加在卷積或者全連接層的輸出上,網(wǎng)絡(luò)中通常還會(huì)加入Dropout,從而有效地減少了圖像過擬合現(xiàn)象。經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。在卷積神經(jīng)網(wǎng)絡(luò)中,設(shè)置了圖像像素點(diǎn)的空間鄰域內(nèi)作為計(jì)算范圍,卷積核參數(shù)的數(shù)目也遠(yuǎn)小于全連接層。卷積核本身與輸入圖片大小無關(guān),卷積核對(duì)空間鄰域內(nèi)物體邊緣特征、物體拐角處的特征等特征模式進(jìn)行提取。圖像上不同區(qū)域可以共享同一個(gè)卷積核,且可不受輸入圖片大小限制。
圖3 經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(二)圖像預(yù)處理。完成圖片分類后,對(duì)特定圖片需要進(jìn)行預(yù)處理。對(duì)于常見的發(fā)票、支付憑單,采用模板匹配方法進(jìn)行抽取數(shù)據(jù)。首先,匹配指定位置,如“通用報(bào)銷單”“經(jīng)費(fèi)卡號(hào)”“填寫日期”,如三者經(jīng)過OCR識(shí)別后均判定為相應(yīng)的文字,則能判定其為相應(yīng)材料;如三者中有其中某一者識(shí)別為非相應(yīng)文字,則判定為非對(duì)應(yīng)材料。圖4、圖5所示分別為發(fā)票圖像識(shí)別圖和支付憑證的圖像預(yù)處理效果圖。
圖4 發(fā)票圖像識(shí)別圖
圖5 支付憑證的圖像預(yù)處理效果圖
(三) OCR 識(shí)別算法。文字識(shí)別是指電子設(shè)備檢查紙上打印的字符,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程。目前,對(duì)于印刷體的文字識(shí)別技術(shù)已經(jīng)較為成熟,其主要通過二值化、噪聲去除、傾斜校正、字符切割、字符識(shí)別、版面恢復(fù)等過程進(jìn)行識(shí)別。
圖像二值化是將彩色圖像或多灰度圖像轉(zhuǎn)換成只有兩個(gè)黑白灰度的圖像,圖像二值化處理主要通過脫色處理、黑白分割技術(shù)實(shí)現(xiàn)[3]。對(duì)于各類財(cái)務(wù)彩色票據(jù)掃描采集的圖像進(jìn)行脫色(灰度處理),利用RGB 三種顏色系列的平均值計(jì)算算法,將彩色像素轉(zhuǎn)換成灰度像素,并使用平均值表示灰度像素的灰度(0-255),再進(jìn)行灰度值封裝后與系統(tǒng)閾值比較,從而進(jìn)行像素為黑色(1)、白色(0)判定。像素為1時(shí),為字符圖像;像素為0時(shí),需要進(jìn)行灰度差別轉(zhuǎn)換,再利用動(dòng)態(tài)閾值判斷,實(shí)現(xiàn)圖像二值化分割。在票據(jù)圖像采集時(shí),對(duì)于圖傾斜的,還需要利用傾斜識(shí)別算法,對(duì)圖像水平度進(jìn)行校正。會(huì)計(jì)票據(jù)圖像在傳輸、轉(zhuǎn)換、存儲(chǔ)、打印等處理過程中,容易受信號(hào)疊加、系統(tǒng)衰落、非線性處理等隨機(jī)因素的影響,造成圖像粗糙、質(zhì)量下降、特征淹沒等問題,需要采用均值濾波、中值濾波與維納濾波等算法進(jìn)行降噪處理,從而獲得合適統(tǒng)計(jì)特性,確保能準(zhǔn)確地對(duì)字符進(jìn)行分割和識(shí)別[4]。
將預(yù)處理后的材料進(jìn)行文字OCR 識(shí)別,將材料內(nèi)的文字信息進(jìn)行提取。已經(jīng)完成預(yù)處理的材料,可以快速識(shí)別指定位置的文字;對(duì)于未預(yù)處理的材料,則直接全量識(shí)別文本,但識(shí)別出的文本會(huì)有大量的不可用信息,需要定義數(shù)據(jù)的數(shù)據(jù)抽取算法[5]。使用OCR 表單識(shí)別系統(tǒng),可提供完整、高效的財(cái)務(wù)電子單據(jù),通過拍照掃描,系統(tǒng)能自動(dòng)采集數(shù)據(jù)信息。據(jù)有關(guān)研究,通過高效合理的OCR 預(yù)識(shí)別引擎,可以有效提高標(biāo)注人員30%左右的標(biāo)注效率。高校電子系統(tǒng)內(nèi)置了OCR 識(shí)別框不貼合、標(biāo)注對(duì)象不符、標(biāo)簽和屬性錯(cuò)誤等多種錯(cuò)誤類型,支持會(huì)計(jì)主管針對(duì)票務(wù)特點(diǎn)自定義錯(cuò)誤類型。標(biāo)注數(shù)據(jù)支持通用json 格式輸出,面向不同客戶的需求,系統(tǒng)提供了多種在線格式輸出數(shù)據(jù)。同時(shí),所有OCR 預(yù)識(shí)別票據(jù)數(shù)據(jù)均可導(dǎo)入數(shù)據(jù)平臺(tái)系統(tǒng)支持實(shí)際業(yè)務(wù),還可自動(dòng)生成標(biāo)準(zhǔn)AI 數(shù)據(jù)集用于算法迭代,強(qiáng)化了系統(tǒng)處理能力。
(四)數(shù)據(jù)校驗(yàn)。數(shù)據(jù)校驗(yàn)方式主要包括奇偶校驗(yàn)、循環(huán)冗余CRC 校驗(yàn)(Cyclic Redundancy Check)、異或BCC校驗(yàn)(Block Check Character)、縱向冗余LRC校驗(yàn)(Longitudinal Redundancy Check)、累加和檢驗(yàn)(CheckSum)、MD5 等校驗(yàn)方法。數(shù)據(jù)在傳輸?shù)倪^程中會(huì)受到各種干擾因素的影響,如脈沖干擾、隨機(jī)噪聲干擾和人為干擾等,會(huì)造成數(shù)據(jù)差錯(cuò)。為了能夠控制傳輸過程的差錯(cuò),必須采用有效的數(shù)據(jù)校驗(yàn)。通常用一種指定的算法對(duì)原始數(shù)據(jù)計(jì)算出的一個(gè)校驗(yàn)值,接收方用同樣的算法計(jì)算一次校驗(yàn)值,如果兩次計(jì)算得到的檢驗(yàn)值相同,則說明數(shù)據(jù)是完整的。高校財(cái)務(wù)人員對(duì)抽取的數(shù)據(jù)需要進(jìn)行相應(yīng)的數(shù)據(jù)校驗(yàn),校驗(yàn)規(guī)則包括下列幾種:金額類不得含有非數(shù)字字符;納稅人識(shí)別號(hào)必須遵循其相應(yīng)的規(guī)則;金額及其稅率必須相匹配;發(fā)票號(hào)不得與系統(tǒng)內(nèi)的其他發(fā)票號(hào)重號(hào)。電子專票采用可靠的電子簽名代替原發(fā)票專用章,采用經(jīng)過稅務(wù)數(shù)字證書簽名的電子發(fā)票監(jiān)制章代替原發(fā)票監(jiān)制章,高校財(cái)務(wù)人員可以利用電子票務(wù)系統(tǒng),查閱、驗(yàn)證電子專票、電子簽名、電子發(fā)票監(jiān)制章等的有效性。利用高校財(cái)務(wù)系統(tǒng)在線驗(yàn)證電子發(fā)票有效性如圖6所示。
圖6 驗(yàn)證電子發(fā)票監(jiān)制章
(五)數(shù)據(jù)比對(duì)及存檔管理。將數(shù)據(jù)抽取后,需要與系統(tǒng)數(shù)據(jù)進(jìn)行比對(duì),從而判斷是否存在相應(yīng)的經(jīng)費(fèi)卡號(hào)。如:紙質(zhì)網(wǎng)報(bào)單的編號(hào)是否與系統(tǒng)內(nèi)的網(wǎng)報(bào)單編號(hào)一致;報(bào)賬人員錄入的金額與發(fā)票金額是否一致;發(fā)票金額與業(yè)務(wù)發(fā)生金額是否一致;發(fā)票號(hào)是否與系統(tǒng)內(nèi)已有發(fā)票號(hào)碼重復(fù);發(fā)票日期是否與系統(tǒng)內(nèi)合同簽訂日期形成倒掛關(guān)系,即發(fā)票開具日期早于合同簽訂日期;是否已經(jīng)具備了本次業(yè)務(wù)所以應(yīng)準(zhǔn)備的材料。通過校驗(yàn)后,對(duì)所呈現(xiàn)的結(jié)果進(jìn)行人工審核。對(duì)于電子專票的比對(duì),重點(diǎn)在于防范虛假入賬及重復(fù)報(bào)銷方面。目前,電子發(fā)票進(jìn)行打印之后,其紙質(zhì)材料僅僅作為電子發(fā)票的載體,并不具備相應(yīng)的防偽認(rèn)證等功能,并且這種打印材料能夠自行進(jìn)行復(fù)制。在電子發(fā)票的報(bào)銷中必須有效規(guī)避打印件重復(fù)報(bào)銷的問題,對(duì)于高校而言有必要針對(duì)性地完善內(nèi)控機(jī)制。財(cái)政部、國(guó)家檔案局《關(guān)于規(guī)范電子會(huì)計(jì)憑證報(bào)銷入賬歸檔的通知》(財(cái)會(huì)〔2020〕6 號(hào)文)就相關(guān)工作進(jìn)行了一定說明,為電子發(fā)票打印件報(bào)銷工作提供了一定指導(dǎo)。利用驗(yàn)證數(shù)字簽名、直連發(fā)票查驗(yàn)平臺(tái)驗(yàn)證、發(fā)票號(hào)碼驗(yàn)證等方法,能有效驗(yàn)證電子發(fā)票的真?zhèn)涡约胺婪吨貜?fù)報(bào)銷。在高校財(cái)務(wù)管理中,相關(guān)人員應(yīng)充分利用高校財(cái)務(wù)信息系統(tǒng),根據(jù)國(guó)家相關(guān)要求執(zhí)行檔案管理和歸檔保存工作。對(duì)于相應(yīng)的電子會(huì)計(jì)憑證而言,須嚴(yán)格按照國(guó)家檔案部門規(guī)定的存檔格式和電子標(biāo)準(zhǔn)格式進(jìn)行存儲(chǔ),在利用電子專票進(jìn)行報(bào)賬時(shí),也必須將紙質(zhì)打印件和電子專票一并收集,入庫(kù)存檔保存。
同時(shí),高校財(cái)務(wù)信息系統(tǒng)對(duì)數(shù)據(jù)的規(guī)范存儲(chǔ)有著重要作用,其能夠?qū)ο鄳?yīng)的憑證進(jìn)行完整的讀取和接收,在相關(guān)報(bào)賬憑證等財(cái)務(wù)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,會(huì)經(jīng)過抽取、清洗、篩選、歸類等步驟,按照國(guó)家檔案行政管理部門的相關(guān)要求和規(guī)定的格式進(jìn)行處理,以保證數(shù)據(jù)的質(zhì)量,便于后續(xù)的查找和分析。高校財(cái)務(wù)信息系統(tǒng)對(duì)于基礎(chǔ)財(cái)務(wù)數(shù)據(jù)規(guī)范存儲(chǔ)的作用主要體現(xiàn)在三個(gè)方面:第一,作為一種高效的工具,財(cái)務(wù)數(shù)據(jù)庫(kù)可以隨時(shí)提供反映高校資金狀況、存借款情況等財(cái)務(wù)數(shù)據(jù)資料,為管理者提供實(shí)時(shí)信息,減少查找時(shí)間。第二,財(cái)務(wù)數(shù)據(jù)庫(kù)隨著日常財(cái)務(wù)業(yè)務(wù)的開展,會(huì)不斷加入更多的資料信息,其能使高校得到的財(cái)務(wù)信息更為準(zhǔn)確。第三,財(cái)務(wù)數(shù)據(jù)為高校所有級(jí)別的決策制定過程提供了各類數(shù)據(jù)支持,是財(cái)務(wù)相關(guān)系統(tǒng)的核心組件。
通過使用人工智能技術(shù)中的計(jì)算機(jī)視覺技術(shù),采用基于卷積神經(jīng)網(wǎng)絡(luò)算法的圖像分類技術(shù),基于模板匹配算法的圖像分類技術(shù)、OCR 識(shí)別技術(shù),基于專家經(jīng)驗(yàn)的數(shù)據(jù)校驗(yàn)及比對(duì)算法,可以使會(huì)計(jì)票據(jù)業(yè)務(wù)中的人工部分大大減少,解放人力,提質(zhì)增效,使其可以內(nèi)控制度的完善。