胡晉宜
【摘? 要】論文通過(guò)對(duì)文字識(shí)別技術(shù),特別是中文手寫(xiě)識(shí)別技術(shù)的分析和文字識(shí)別技術(shù)的應(yīng)用研究,及檔案工作的回顧分析,探索并提出文字識(shí)別技術(shù)在檔案工作中的應(yīng)用場(chǎng)景,為數(shù)字化時(shí)代的檔案工作提供思路。
【Abstract】Through the analysis of character recognition technology, especially the Chinese handwriting recognition technology, the research of the application of character recognition technology, and the retrospective analysis of archives work, this paper explores and puts forward the application scenarios of character recognition technology in the archives work, and provides ideas for the archives work in the digital era.
【關(guān)鍵詞】文字識(shí)別;檔案管理;應(yīng)用場(chǎng)景
【Keywords】character recognition; archives management; application scenarios
【中圖分類(lèi)號(hào)】G270.7? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號(hào)】1673-1069(2020)09-0180-02
1 引言
數(shù)據(jù)采集是所有工作的起點(diǎn),并決定了解決效果的上限。利用文字識(shí)別技術(shù),目前大量的文檔采集從專(zhuān)有設(shè)備轉(zhuǎn)向了普通手機(jī),數(shù)據(jù)采集者也從專(zhuān)業(yè)辦公人員轉(zhuǎn)向普通用戶(hù)。
2 文字識(shí)別技術(shù)現(xiàn)狀分析
計(jì)算機(jī)文字識(shí)別,又名光學(xué)字符識(shí)別、OCR識(shí)別,是利用光學(xué)技術(shù)和電子信息技術(shù)把印在或?qū)懺诩埳系奈淖痔崛〕鰜?lái),并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受、人又可以理解的形式。OCR技術(shù)是實(shí)現(xiàn)文字高速輸入的一項(xiàng)核心技術(shù)。
2.1 文字識(shí)別技術(shù)的發(fā)展
2.1.1 西文識(shí)別技術(shù)的發(fā)展
在OCR技術(shù)中,印刷體文字識(shí)別是開(kāi)展最早、技術(shù)上最為成熟的一個(gè)。早在20世紀(jì)20年代末期德國(guó)科學(xué)家最早取得了光學(xué)字符識(shí)別的專(zhuān)利。西方國(guó)家為了將大量報(bào)章雜志、文件材料和票據(jù)表格等紙質(zhì)材料輸入計(jì)算機(jī)進(jìn)行信息處理,從20世紀(jì)50年代就開(kāi)始了西文文字識(shí)別技術(shù)的研究。隨著信息技術(shù)的飛速發(fā)展與研究人員的不斷探索和完善,西文文字識(shí)別技術(shù)現(xiàn)已逐漸滲透于各行各業(yè)。
2.1.2 中文識(shí)別技術(shù)的發(fā)展
第一,中文印刷體識(shí)別技術(shù)的發(fā)展。
與印刷體西文文字識(shí)別相比,漢字的印刷體識(shí)別技術(shù)的研究是在字母和數(shù)字的印刷體識(shí)別基礎(chǔ)上發(fā)展起來(lái)的,發(fā)源于20世紀(jì)60年代。60年代中期,BIM公司的工作人員發(fā)表了首篇關(guān)于印刷體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法,識(shí)別了一千個(gè)印刷體漢字。從70年代以來(lái),日本研究人員在漢字識(shí)別方面做了許多探索和發(fā)明,其中比較著名的系統(tǒng)有70年代東芝綜合研究所研制的可以識(shí)別兩千個(gè)獨(dú)立印刷體漢字的識(shí)別系統(tǒng);80年代早期,日本武藏野電氣研究所研制的可以識(shí)別兩千三百個(gè)連續(xù)漢字的識(shí)別系統(tǒng),代表了當(dāng)時(shí)漢文OCR識(shí)別的最高水平。此外,日本的松下、富士等公司也有其研制的印刷體漢字識(shí)別系統(tǒng)。這些系統(tǒng)在方法上,大都采用基于K-L數(shù)字轉(zhuǎn)換的計(jì)算方法,使用了大量專(zhuān)用設(shè)備,甚至有的相當(dāng)于大型機(jī),價(jià)格不菲,所以并沒(méi)有得到普及和推廣。
印刷體的中文識(shí)別自20世紀(jì)80年代中期規(guī)模發(fā)展以來(lái),清華大學(xué)、中科院、沈陽(yáng)自動(dòng)化研究所等一眾單位分別研制并開(kāi)發(fā)出了可以量產(chǎn)的印刷體中文OCR識(shí)別系統(tǒng)。尤其是由清華電子工程系研制的清華文字識(shí)別產(chǎn)品和由漢王開(kāi)發(fā)的尚書(shū)文字識(shí)別產(chǎn)品,它們占據(jù)著OCR技術(shù)的領(lǐng)先地位,并擁有最多的OCR客戶(hù),代表著印刷體中文OCR技術(shù)的未來(lái)發(fā)展趨勢(shì)。目前,印刷體中文識(shí)別技術(shù)已經(jīng)從簡(jiǎn)單的文字識(shí)別逐漸發(fā)展到了表格的自動(dòng)識(shí)別、自動(dòng)輸入的研究階段,圖片文字混合、各種語(yǔ)言混合下的內(nèi)容提取、語(yǔ)義理解,各種卡片、票據(jù)的識(shí)別和歷史文獻(xiàn)的識(shí)別等都逐漸開(kāi)展起來(lái)。多種相關(guān)的識(shí)別系統(tǒng)如雨后春筍般應(yīng)運(yùn)而生,如紫光文通推出的名片識(shí)別系統(tǒng)和慧視屏幕文字圖像識(shí)別系統(tǒng)等。這些新的識(shí)別系統(tǒng)的出現(xiàn),標(biāo)志著印刷體中文識(shí)別技術(shù)的應(yīng)用領(lǐng)域得到了擴(kuò)展。
第二,中文手寫(xiě)識(shí)別技術(shù)的發(fā)展。
中文手寫(xiě)識(shí)別由于信息的獲取形式不同,可以劃分為非在線中文手寫(xiě)識(shí)別和在線中文手寫(xiě)識(shí)別兩種。在線中文手寫(xiě)識(shí)別所處理的手寫(xiě)體漢字是書(shū)寫(xiě)者通過(guò)物理設(shè)備在線輸入獲取的文字信號(hào),筆畫(huà)的順序通過(guò)計(jì)時(shí)器采樣實(shí)時(shí)輸入計(jì)算機(jī)中。非在線中文手寫(xiě)識(shí)別所處理的手寫(xiě)漢字是通過(guò)掃描設(shè)備或手機(jī)攝像頭等圖片抓取設(shè)備采集到的手寫(xiě)漢字圖片。
近年來(lái),百度OCR技術(shù)在檢測(cè)、識(shí)別和端到端三個(gè)核心技術(shù)領(lǐng)域多次取得并保持了世界第一的排名,具備較明顯的領(lǐng)先優(yōu)勢(shì)。騰訊集團(tuán)的數(shù)平精準(zhǔn)推薦團(tuán)隊(duì)研發(fā)了一種適用于各個(gè)角度漢字的點(diǎn)對(duì)點(diǎn)提取方法,能夠有效解決文字尺度不一、形態(tài)萬(wàn)千和檢測(cè)器對(duì)標(biāo)準(zhǔn)過(guò)于敏感等問(wèn)題,大幅提高了測(cè)試步驟的準(zhǔn)確度。
2.2 文字識(shí)別技術(shù)的應(yīng)用
目前,印刷體文字識(shí)別技術(shù)已經(jīng)達(dá)到完全實(shí)用的程度,即使對(duì)像素不高的印刷體漢字識(shí)別率也達(dá)到90%以上,使用場(chǎng)景更加廣泛,能達(dá)到各種不同用戶(hù)的操作需求,包括:①證件OCR識(shí)別:證件OCR識(shí)別最開(kāi)始是基于PC的,近幾年開(kāi)始向手機(jī)端發(fā)展,主要有安卓、蘋(píng)果平臺(tái)的SDK,目前成熟的有駕駛證識(shí)別、行駛證識(shí)別、身份證識(shí)別、護(hù)照識(shí)別等。②文檔OCR識(shí)別:這類(lèi)技術(shù)主要是在掃描儀的基礎(chǔ)上,目前識(shí)別率也非常高。手機(jī)端的文檔OCR識(shí)別,近幾年也有不少成功的應(yīng)用案例。③票據(jù)類(lèi)OCR識(shí)別:這項(xiàng)技術(shù)也稱(chēng)要素識(shí)別的文字識(shí)別技術(shù),最初運(yùn)用于金融業(yè),主要在銀行的后臺(tái)中有非常成功的應(yīng)用案例。
3 人事檔案工作現(xiàn)狀分析
目前,市場(chǎng)上有各種可計(jì)算的智能化人事信息系統(tǒng)[1],然而這些系統(tǒng)推廣起來(lái)難度都很大,這其中一個(gè)原因是各個(gè)單位工作人手不足無(wú)法將龐大的信息數(shù)字化,所以初始化的工作大多數(shù)仍然依托于各個(gè)軟件開(kāi)發(fā)公司,大多數(shù)單位的人事和業(yè)務(wù)工作本身就是分開(kāi)設(shè)科、分開(kāi)辦公,在互不了解工作流程的情況下很容易將重要信息遺漏。沒(méi)有將圖像識(shí)別技術(shù)與信息系統(tǒng)融合的信息系統(tǒng)只能是個(gè)偽信息系統(tǒng),人們只不過(guò)把原本在Excel里的工作移到了信息系統(tǒng)里,不但沒(méi)有減少反而增加了工作量。
將文字識(shí)別技術(shù)融入人事檔案領(lǐng)域,將帶來(lái)一次智能化的飛躍。當(dāng)目標(biāo)系統(tǒng)識(shí)別了足夠完整的檔案數(shù)據(jù)時(shí),根據(jù)一定的算法,機(jī)器完全可以替代人工。
4 文字識(shí)別技術(shù)的應(yīng)用場(chǎng)景初探
4.1 電子檔案自動(dòng)排序
根據(jù)最新的《干部人事檔案工作條例》及中共組織部工作規(guī)劃[2,3],干部人事檔案分為十大類(lèi),其中,又可以分為各個(gè)次級(jí)類(lèi)目,檔案根據(jù)所屬類(lèi)目和時(shí)間順序依次排列。應(yīng)用了文字識(shí)別技術(shù)的系統(tǒng)識(shí)別到標(biāo)題中的關(guān)鍵詞時(shí),系統(tǒng)可以自動(dòng)判斷該頁(yè)內(nèi)容的所屬類(lèi)目,并根據(jù)生成時(shí)間將電子檔案依照順序排列起來(lái)。工作人員將未經(jīng)整理的檔案內(nèi)容通過(guò)掃描或拍照輸入系統(tǒng)內(nèi)部,一份排列完整、自帶目錄的電子檔案隨即生成,并且隨時(shí)可供打印成檔案副本。
4.2 干部任免、職稱(chēng)晉升自動(dòng)更新
干部任免工作是各單位人事組織部門(mén)的重要工作,應(yīng)用了文字識(shí)別技術(shù)的系統(tǒng)識(shí)別到任免文號(hào)、時(shí)間和任職情況后,自動(dòng)更新干部的職務(wù)、單位、任職時(shí)間等信息。在職稱(chēng)晉升時(shí),也可以自動(dòng)識(shí)別并更新職稱(chēng)級(jí)別和專(zhuān)業(yè)技術(shù)職務(wù)。
4.3 名冊(cè)報(bào)表自動(dòng)輸出
根據(jù)文字識(shí)別技術(shù)輸入的電子檔案內(nèi)容,存儲(chǔ)在系統(tǒng)內(nèi)部的數(shù)據(jù)庫(kù)中,該系統(tǒng)除了存儲(chǔ)檔案并實(shí)現(xiàn)一系列人事信息的抓取工作外,還可以根據(jù)檔案內(nèi)容生成名冊(cè)、統(tǒng)計(jì)人員情況并形成各種統(tǒng)計(jì)報(bào)表,供決策者和人力資源工作者研究和使用。這類(lèi)功能在以往的人事系統(tǒng)內(nèi)非常常見(jiàn),但基于文字識(shí)別技術(shù)的系統(tǒng)有效地解決了輸入端的問(wèn)題,大大減少了必要工作的時(shí)間和降低了工作的難度。
4.4 工資核定自動(dòng)對(duì)接
除此之外,該數(shù)據(jù)庫(kù)還可以?xún)?nèi)置事業(yè)單位工資算法,根據(jù)學(xué)歷、任免和職稱(chēng)等內(nèi)容計(jì)算出勞動(dòng)者工資,減少計(jì)算的差錯(cuò)率,并減少手動(dòng)查檔的步驟,大大提升工作效率。與財(cái)務(wù)系統(tǒng)對(duì)接后,工資核定及發(fā)放將完全流程化、機(jī)械化、制度化[4]。
本文認(rèn)為未來(lái)工作人員只需要拍一張照片,系統(tǒng)就能迅速把有效信息自動(dòng)更新到數(shù)據(jù)庫(kù)里,根據(jù)系統(tǒng)就能夠迅速地將準(zhǔn)確又全面的個(gè)人信息展現(xiàn)出來(lái),為單位和學(xué)校提供更加精準(zhǔn)定位的人才。
【參考文獻(xiàn)】
【1】暢育超.人事檔案管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2013(3):43-49.
【2】組通字〔2012〕4號(hào).2011-2015年全國(guó)組織系統(tǒng)信息化工作規(guī)劃[Z].
【3】中組發(fā)〔2014〕9號(hào).關(guān)于進(jìn)一步從嚴(yán)管理干部檔案的通知[Z].
【4】李紅菊.論高校人事檔案信息化的必要性——以事業(yè)單位養(yǎng)老保險(xiǎn)業(yè)務(wù)為例[J].長(zhǎng)江叢刊,2018(23):221.