• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    自動(dòng)著錄技術(shù)在戶籍檔案數(shù)字化中的應(yīng)用研究與實(shí)踐

    2022-07-11 00:49:00李新功
    北京檔案 2022年6期
    關(guān)鍵詞:人工智能數(shù)字化

    李新功

    摘要:為適應(yīng)社會(huì)的數(shù)字化轉(zhuǎn)型,公安機(jī)構(gòu)在全國范圍內(nèi)開展了戶籍檔案數(shù)字化工作。面對(duì)戶籍檔案數(shù)字化工作在組卷復(fù)雜、紙張狀況較差且著錄工作量大等方面的挑戰(zhàn),實(shí)現(xiàn)數(shù)字化工作的智能化與自動(dòng)化成為探索焦點(diǎn),所以采用自動(dòng)著錄技術(shù)勢(shì)在必行。該文對(duì)采用自動(dòng)著錄技術(shù)的必要性、技術(shù)框架及系統(tǒng)實(shí)現(xiàn)邏輯等展開介紹與分析。

    關(guān)鍵詞:戶籍檔案 數(shù)字化 PaddleOCR 人工智能

    隨著我國國民經(jīng)濟(jì)和社會(huì)發(fā)展的第十四個(gè)五年規(guī)劃綱要的發(fā)布,“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國”迅速成為工作中的焦點(diǎn)。這也為檔案行業(yè)的發(fā)展帶來了新機(jī)遇。近幾年,檔案行業(yè)的全流程管理研究紛紛著眼于自動(dòng)分類、自動(dòng)著錄及智能鑒定等領(lǐng)域。公安機(jī)構(gòu)也投入了大量資源開展戶籍檔案數(shù)據(jù)建設(shè)、戶籍檔案數(shù)字化建設(shè)工作。本文根據(jù)實(shí)踐中遇到的戶籍檔案需要大規(guī)模著錄問題,研究利用百度飛槳平臺(tái)(PaddlePaddle)加以解決。作為世界頂級(jí)的深度學(xué)習(xí)平臺(tái),飛槳平臺(tái)以百度公司多年深度學(xué)習(xí)技術(shù)的研究和業(yè)務(wù)應(yīng)用為基礎(chǔ),集深度學(xué)習(xí)核心訓(xùn)練和推理框架、基礎(chǔ)模型庫、端到端開發(fā)套件、豐富的工具組件于一體,是中國首個(gè)自主研發(fā)、功能完備、開源開放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)。[1]飛槳平臺(tái)匯聚開發(fā)者數(shù)量達(dá)370萬,服務(wù)14萬家企事業(yè)單位,產(chǎn)生了42.5萬個(gè)模型。[2]它是百度公司的開源平臺(tái),體量輕是其最大的特點(diǎn)之一。PaddleOCR是飛槳平臺(tái)上的細(xì)分應(yīng)用平臺(tái),非常適合檔案行業(yè)解決大規(guī)模自動(dòng)著錄問題。本文提及的自動(dòng)著錄技術(shù)研究及實(shí)踐就是基于這個(gè)細(xì)分平臺(tái)而完成的。

    (一)采用自動(dòng)著錄技術(shù)是戶籍檔案全面數(shù)字化的社會(huì)要求

    本文所稱戶籍檔案,是指常住戶口登記、暫住登記及居住證管理、居民身份證管理、人口信息管理等相關(guān)戶籍資料。目前在戶籍管理中,仍然以紙質(zhì)檔案居多。紙質(zhì)戶籍檔案管理有著諸多弊端,難以查詢,難以追溯,難以獲得完整的信息,難以關(guān)聯(lián),所以引發(fā)了一系列社會(huì)問題。在不少地方,“老、破、舊”的戶籍檔案不在少數(shù),其紙張發(fā)黃發(fā)脆,字跡暈染、模糊,手寫體居多。

    在這次戶籍檔案數(shù)字化進(jìn)程中,無論從管理、技術(shù)還是實(shí)施角度,戶籍檔案信息系統(tǒng)的建設(shè)并不是重點(diǎn)和難點(diǎn),反而是億級(jí)紙質(zhì)檔案數(shù)字化的工作才是重點(diǎn)和難點(diǎn),而難上加難的就是應(yīng)對(duì)海量數(shù)據(jù)的著錄。舉個(gè)例子,某省有近50億頁戶籍檔案需要數(shù)字化,目前僅完成1.2億頁的工作量。其中某個(gè)下屬市28個(gè)分局共有905.7萬卷、3761萬頁戶籍檔案,僅完成了405萬頁的數(shù)字化副本在戶籍檔案系統(tǒng)中的掛接,占比大約為10.8%,也就是說歷史戶籍檔案數(shù)字化程度較低。所以采用自動(dòng)著錄技術(shù)勢(shì)在必行,這是戶籍檔案全面數(shù)字化的社會(huì)要求,可以確保戶籍檔案信息可用、可查、可追溯。

    (二)采用自動(dòng)著錄技術(shù)是戶籍檔案深度數(shù)字化的新要求

    近兩年,公安機(jī)構(gòu)在全國全面展開了戶籍檔案信息化的工作:在建設(shè)戶籍檔案管理系統(tǒng)的同時(shí)將紙質(zhì)檔案數(shù)字化,并將數(shù)字化副本按照要求掛接到系統(tǒng)中,以便查詢。但是此次公安部部署的戶籍檔案信息化工作不同于以往,呈現(xiàn)出以下特點(diǎn):第一,此次工作部署更加落地,在全國范圍全面推進(jìn),有的省份公安系統(tǒng)甚至提出了信息化量化管理指標(biāo),同時(shí)優(yōu)先配套財(cái)政費(fèi)用,有效保障該項(xiàng)工作所需資源。第二,此次戶籍檔案數(shù)字化并非僅僅著眼于檔案管理視角,而是從數(shù)據(jù)觀視角出發(fā),提出了深化戶籍檔案數(shù)字化的實(shí)施要求,要求著錄戶籍檔案80%或以上的內(nèi)容。有別于以往的標(biāo)準(zhǔn)檔案內(nèi)容著錄要求,戶籍檔案深度數(shù)字化反映在以下兩個(gè)方面:一是橫向擴(kuò)展,對(duì)于每個(gè)級(jí)別的著錄內(nèi)容要求都有所增加,例如案卷級(jí)著錄信息標(biāo)準(zhǔn)字段是檔號(hào)、案卷題名、保管期限等,而此次著錄要求除了標(biāo)準(zhǔn)字段外增加了不少其他字段,比如卷宗編碼,它是業(yè)務(wù)流水編碼,以及卷宗編碼的條形碼、檔號(hào)的條形碼以及原類別號(hào)等十幾個(gè)字段。二是縱向擴(kuò)展,著錄層級(jí)從標(biāo)準(zhǔn)的案卷層級(jí)、卷內(nèi)文件層級(jí)擴(kuò)展到具體的每一頁頁面層級(jí),并且擴(kuò)展到頁面中的字段級(jí)別,數(shù)據(jù)顆粒度細(xì)化到詞/詞組級(jí)別。這也符合未來檔案數(shù)據(jù)化的要求:向檔案內(nèi)容要數(shù)據(jù),從內(nèi)容中提取數(shù)據(jù),將數(shù)據(jù)顆粒度細(xì)化,為將來精準(zhǔn)檢索、數(shù)據(jù)關(guān)聯(lián)利用、數(shù)據(jù)挖掘和分析及深度展示檢索結(jié)果做準(zhǔn)備。

    深度學(xué)習(xí)為OCR賦能,也為自動(dòng)著錄帶來了新機(jī)遇。本研究就是抓住了此機(jī)遇,開發(fā)了基于PaddleOCR技術(shù)平臺(tái)的自動(dòng)著錄應(yīng)用系統(tǒng)。

    (一)深度學(xué)習(xí)為OCR技術(shù)賦能,為自動(dòng)著錄夯實(shí)基礎(chǔ)

    OCR是英文Optical Character Recognition(光學(xué)字符識(shí)別)的縮寫。簡(jiǎn)單來說,OCR識(shí)別包括以下基本步驟:第一步是圖像預(yù)處理;第二步是文字檢測(cè);第三步是文字截??;第四步是字符識(shí)別。其中第一到第三步屬于文本檢測(cè)階段,而第四步才是文字識(shí)別階段。傳統(tǒng)的OCR技術(shù)在檔案行業(yè)的應(yīng)用一直處于尷尬狀態(tài),因?yàn)闄n案門類繁多、紙張情況復(fù)雜,錯(cuò)誤率比較高。而且手寫體、表格、字體上的不規(guī)范都會(huì)造成識(shí)別錯(cuò)誤,如果在錯(cuò)誤識(shí)別的結(jié)果上再改錯(cuò),效率比較低,甚至不如直接人工著錄。所以在相當(dāng)長(zhǎng)的一段時(shí)間,OCR未被大規(guī)模使用和推廣。但是在人工智能研究快速推進(jìn)的技術(shù)環(huán)境下,OCR也開始了與深度學(xué)習(xí)的融合,產(chǎn)生出多種算法、模型和應(yīng)用,這也是本研究能夠有所推進(jìn)的根本原因。

    目前融合在OCR深度學(xué)習(xí)文本檢測(cè)階段的算法大致分為以下幾類:第一類是基于目標(biāo)檢測(cè)的方法,一般是預(yù)測(cè)得到文本框后,通過NMS(Non Maximum Sup? pression)篩選得到最終文本框,多是四點(diǎn)文本框。該檢測(cè)法對(duì)較大彎曲文本場(chǎng)景效果還不是太理想。典型算法為EAST(An Efficient and Accu? rate Scene Text Detector)、Text Box等方法。第二類是基于分割的方法,即將文本行當(dāng)成分割目標(biāo),然后通過分割結(jié)果構(gòu)建外接文本框,可以處理彎曲文本,但是對(duì)于文本交叉場(chǎng)景問題效果不理想。典型算法為DB(Differentiable Binarization)等方法,目前最常用的有效方法是二者的混合。OCR識(shí)別階段,其輸入數(shù)據(jù)一般是文本行,背景信息不多,文字占據(jù)主要部分,識(shí)別算法目前可以分為兩類:一類是基于CTC(Connectionist Tem? poral Classification)的算法,常用的算法組合為CNN(Convolu? tional Neural Network)+RNN(Recurrent Neural Net? works)+CTC。目前也有一些算法嘗試在網(wǎng)絡(luò)中加入transformer模塊等。另一類是基于Attention的方法,即識(shí)別算法的文字預(yù)測(cè)模塊是基于Attention的,常用算法組合是CNN+RNN+Attention。本文研究的Pad? dleOCR平臺(tái)充分融合了以上主要算法,是深度學(xué)習(xí)對(duì)OCR的賦能,大大提高了OCR結(jié)果的容錯(cuò)力:一是提高了正確率;二是提高了對(duì)字體的容納度。這使得OCR技術(shù)在檔案行業(yè)的應(yīng)用舊貌換新顏,使得戶籍檔案數(shù)字化的大量著錄工作有可能采用自動(dòng)著錄技術(shù)來高效完成。這是自動(dòng)著錄技術(shù)應(yīng)用的基礎(chǔ)。

    (二)基于PaddleOCR細(xì)分平臺(tái)的自動(dòng)著錄系統(tǒng)架構(gòu)介紹

    研究發(fā)現(xiàn)自動(dòng)著錄成為可能后,我們利用Pad? dleOCR細(xì)分平臺(tái)自主開發(fā)了應(yīng)用于戶籍檔案數(shù)字化的自動(dòng)著錄系統(tǒng),圖1就是其系統(tǒng)框架圖。在圖中,核心框架和模型算法被封裝在百度的飛槳平臺(tái)中,這是基礎(chǔ)層。本文研發(fā)時(shí)直接調(diào)用此內(nèi)容。在模型訓(xùn)練系統(tǒng)中,先采集和選取多種樣本例如中文印刷體、英文印刷體、繁體中文、中文手寫體等樣本,并對(duì)大量樣本進(jìn)行標(biāo)注,通過Paddle框架訓(xùn)練成對(duì)應(yīng)的訓(xùn)練模型。這里,訓(xùn)練模型的準(zhǔn)確性與樣本的數(shù)量與完整度有很大關(guān)系。在服務(wù)部署過程中,經(jīng)過樣本訓(xùn)練出來的模型通常體積較大,為了提高加載速度與運(yùn)行速度,需要用到Paddle-Slim功能對(duì)模型進(jìn)行壓縮。Paddle-Hub提供多種預(yù)訓(xùn)練模型,可以方便快速地完成預(yù)訓(xùn)練模型的預(yù)測(cè)。Paddle-Serv? ing用于服務(wù)部署,可將模型作為單獨(dú)的Web服務(wù)進(jìn)行部署,這是中間層。自主開發(fā)部分集中在應(yīng)用接口、版面識(shí)別模板庫和業(yè)務(wù)應(yīng)用這幾大部分。利用應(yīng)用接口,在Paddle-Serving的基礎(chǔ)上自主進(jìn)行開發(fā),然后封裝成為完整的Web RESTful API接口,自動(dòng)著錄系統(tǒng)可以整合這層應(yīng)用,形成Web應(yīng)用、桌面應(yīng)用、移動(dòng)應(yīng)用等。研發(fā)最核心的部分在于兩部分:一是版面識(shí)別模板庫,這也是應(yīng)用特點(diǎn)的體現(xiàn)。在戶籍檔案數(shù)字化應(yīng)用中,紙質(zhì)檔案是按照各種標(biāo)準(zhǔn)整理組卷完成的案卷,并非雜亂無序的數(shù)據(jù)樣本,所以可以根據(jù)在數(shù)字化工作中采集的數(shù)據(jù)樣本進(jìn)行訓(xùn)練和分析,從而形成戶籍檔案行業(yè)的模板庫。例如,我們可以針對(duì)同一類別的檔案的版面進(jìn)行版面標(biāo)注,標(biāo)注需要提取的結(jié)構(gòu)化數(shù)據(jù)具體在版面中的位置,形成模板庫,相同版面提供多個(gè)不同的標(biāo)注樣本數(shù)據(jù),可以提高版面模版的識(shí)別精度。二是業(yè)務(wù)應(yīng)用部分。利用版面識(shí)別模板庫和文本識(shí)別的Web應(yīng)用接口,可以構(gòu)建對(duì)應(yīng)的版面識(shí)別應(yīng)用,有效識(shí)別各種戶籍檔案數(shù)字化業(yè)務(wù)場(chǎng)景中較為固定的版面文本數(shù)據(jù),從非結(jié)構(gòu)化數(shù)據(jù)中快速提取結(jié)構(gòu)化數(shù)據(jù)。

    (三)自動(dòng)著錄系統(tǒng)的實(shí)現(xiàn)邏輯

    自動(dòng)著錄系統(tǒng)的主要實(shí)現(xiàn)邏輯是:進(jìn)入自動(dòng)著錄界面后分兩種情況,第一種情況是該類戶籍檔案沒有做過自動(dòng)著錄,故而沒有相應(yīng)的著錄模板,所以需要制作模板。系統(tǒng)利用“OCR模板制作功能”,首先在數(shù)值化副本圖的左邊圖片區(qū)域?qū)D片整體進(jìn)行框選(見圖2),然后右邊將出現(xiàn)相對(duì)應(yīng)的電子版表格;其次根據(jù)需要對(duì)所有需要著錄的字段一一對(duì)應(yīng)到各自的目標(biāo)位置后,再進(jìn)行保存,此時(shí)制作模板完成;最后點(diǎn)擊“智能OCR”,那么按照模板將完成該頁面的一鍵自動(dòng)著錄。

    第二種情況是“不使用模板-定向識(shí)別OCR功能”。這是指在系統(tǒng)中已經(jīng)建立了模板,或曾經(jīng)著錄過類似的內(nèi)容,在這種情況下,不需要建立模板,只需要按照第一種情況的簡(jiǎn)化步驟直接完成操作即可。

    三、結(jié)語

    本研究不僅推進(jìn)了戶籍檔案著錄數(shù)字化過程中自動(dòng)化、智能化的研究與應(yīng)用,也為檔案數(shù)據(jù)化管理提出了新的解決思路和技術(shù)工具,使得檔案數(shù)據(jù)化管理更加落地。

    其成果主要體現(xiàn)在以下幾個(gè)方面:第一,它充分體現(xiàn)了研發(fā)與實(shí)踐的閉環(huán)過程:研發(fā)、驗(yàn)證、修正、推廣、大規(guī)模使用,并沒有僅僅停留在研究和思考的層面,也沒有僅僅停留在實(shí)驗(yàn)室驗(yàn)證的層面,而是進(jìn)行了大規(guī)模的使用和驗(yàn)證,至今已經(jīng)助力完成了超過兩千萬頁戶籍檔案著錄數(shù)字化的工作。第二,已經(jīng)產(chǎn)生并持續(xù)產(chǎn)生了商業(yè)化價(jià)值,為大大小小的戶籍檔案數(shù)字化外包商提供了產(chǎn)品化服務(wù),服務(wù)金額已經(jīng)近千萬元,并持續(xù)提供商業(yè)服務(wù)中。第三,自動(dòng)著錄系統(tǒng)大大提高了戶籍檔案數(shù)據(jù)內(nèi)容提取和轉(zhuǎn)換的效率及準(zhǔn)確率,將錯(cuò)誤率從18%降低到3%以下,效率至少提高了300%,縮短了項(xiàng)目實(shí)施周期,大幅降低了數(shù)字化的成本。

    當(dāng)然,本文的研究和實(shí)踐也還有不盡人意之處,該技術(shù)對(duì)手寫體的辨識(shí)準(zhǔn)確率并沒有達(dá)到90%;同時(shí)對(duì)著錄內(nèi)容的一致性有一定要求,因?yàn)榻0逍枰ū容^長(zhǎng)的時(shí)間,也會(huì)影響效率。隨著需要數(shù)字化的戶籍檔案數(shù)量增多、數(shù)據(jù)模型的積累,數(shù)據(jù)訓(xùn)練的效果會(huì)越來越好,自動(dòng)化、智能化水平也會(huì)相應(yīng)提高,其實(shí)施效率和應(yīng)用層面的效果也會(huì)越來越好。

    注釋及參考文獻(xiàn):

    [1]馮建周,余揚(yáng),劉磊.基于飛槳框架的三階遞進(jìn)式機(jī)器學(xué)習(xí)教學(xué)模式探索與實(shí)踐[J].計(jì)算機(jī)教育,2021(10):28-32.

    [2]百度百科.飛槳(百度深度學(xué)習(xí)平臺(tái)PaddlePaddle中文名)[EB/OL].[2022-04-12].https://baike.baidu.com/ item/%E9%A3%9E%E6%A1%A8/23472642?fr=aladdin.

    作者單位:中國人民大學(xué)信息資源管理學(xué)院

    猜你喜歡
    人工智能數(shù)字化
    我校新增“人工智能”本科專業(yè)
    數(shù)字化:讓夢(mèng)想成為未來
    家紡業(yè)亟待數(shù)字化賦能
    論經(jīng)濟(jì)學(xué)數(shù)字化的必要性
    英語文摘(2019年9期)2019-11-26 00:56:32
    高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
    高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
    2019:人工智能
    商界(2019年12期)2019-01-03 06:59:05
    人工智能與就業(yè)
    數(shù)讀人工智能
    小康(2017年16期)2017-06-07 09:00:59
    數(shù)字化制勝
    新龙县| 尉氏县| 乌海市| 资中县| 景东| 永宁县| 进贤县| 井冈山市| 塔城市| 桂阳县| 伊金霍洛旗| 贡觉县| 长汀县| 郯城县| 名山县| 天水市| 涟水县| 太保市| 黎平县| 霍州市| 万宁市| 辽中县| 龙山县| 乌兰浩特市| 项城市| 香格里拉县| 二手房| 太仆寺旗| 安远县| 泗水县| 尼木县| 商丘市| 广安市| 水富县| 蕉岭县| 历史| 雷波县| 富顺县| 光泽县| 普陀区| 滦平县|