• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    AI賦能:探索人工智能在檔案開放審核中的應(yīng)用

    2024-07-31 00:00:00于海娟
    檔案天地 2024年7期

    2023年,一款能聊天、會(huì)作詩的程序ChatGPT橫空出世,隨后一系列大語言模型產(chǎn)品如谷歌bard及國內(nèi)百度文心一言、復(fù)旦大學(xué)Moss相繼推向市場,將人工智能(AI)技術(shù)推向了新一輪高潮,成為社會(huì)上最“火”的技術(shù)話題。人工智能呈現(xiàn)的深度學(xué)習(xí)、跨界融合、人機(jī)協(xié)同等新特征,使其在眾多領(lǐng)域應(yīng)用中取得了突破性進(jìn)展,為經(jīng)濟(jì)社會(huì)發(fā)展注入了新動(dòng)能。同時(shí),AI的應(yīng)用場景也越來越多,逐步走入老百姓的日常生活,如隨處可見的人臉識(shí)別、翻譯助手、服務(wù)機(jī)器人等。目前,我國政府正處于數(shù)字化轉(zhuǎn)型的關(guān)鍵期,檔案部門也在積極探索和尋找利用人工智能、大數(shù)據(jù)等新一代信息技術(shù)推進(jìn)檔案管理模式變革的新途徑和新方法。人工智能應(yīng)用于檔案管理的落地實(shí)踐過程中,當(dāng)前最受關(guān)注且已真正實(shí)現(xiàn)成果轉(zhuǎn)換的是賦能檔案開放審核。

    一、人工智能審核的現(xiàn)實(shí)依據(jù)

    檔案開放審核工作量大,與現(xiàn)有人力資源矛盾突出。檔案開放審核是檔案開放利用的基礎(chǔ),也是檔案工作中的難點(diǎn)問題,隨著新《檔案法》《國家檔案館檔案開放辦法》的實(shí)施,檔案開放審核越來越受重視。然而,目前檔案開放審核工作大部分停留在純?nèi)斯徍穗A段,需要大量專業(yè)工作人員參與。依靠人工逐字逐句審核、判斷,工作量大,工作效率低,制約了檔案開放的進(jìn)程。傳統(tǒng)的檔案開放審核模式已難以適應(yīng)海量館藏檔案開放審核工作要求,急需技術(shù)變革,將開放審核人員從重復(fù)、繁重的腦力判斷工作中解放出來。

    2019年,國家檔案局發(fā)布的《國家檔案局科技項(xiàng)目立項(xiàng)選題指南》中首次出現(xiàn)“人工智能”一詞。隨后幾年,AI+檔案應(yīng)用研究一直出現(xiàn)在《選題指南》中。2022年和2023年度的《選題指南》更是將“AI+檔案開放審核”列為重點(diǎn)課題項(xiàng)目。在國家檔案局剛剛發(fā)布的2024年選題指南中,“檔案解密與開放的技術(shù)創(chuàng)新”“人工智能大模型應(yīng)用”也是熱點(diǎn)議題。

    加大開放力度已是檔案館的現(xiàn)實(shí)趨勢,各地檔案館都在積極制定開放審核辦法或引入技術(shù)手段加以落實(shí),以更好地處理過程中的協(xié)同、權(quán)責(zé)優(yōu)先等問題。人工智能檔案開放審核作為AI檔案應(yīng)用場景落地的重要突破口,目前研發(fā)已經(jīng)取得階段性成果,產(chǎn)生很多優(yōu)秀案例。

    自2019年以來,部分檔案館陸續(xù)通過課題研究結(jié)合試點(diǎn)應(yīng)用的方式,開展了基于人工智能的檔案開放審核研究和應(yīng)用實(shí)踐。比如,青島市檔案館“人工智能技術(shù)在檔案開放劃控中的應(yīng)用”研究、江蘇省檔案館“基于語義分析的檔案館劃控開放智能鑒定的研究”、浙江省檔案館“基于NLP技術(shù)的檔案智能輔助開放審核研究”、安徽省檔案館“人工智能技術(shù)在檔案劃控上的應(yīng)用研究”、福建省檔案館開展“基于數(shù)字檔案的人工智能檔案開放審核系統(tǒng)實(shí)現(xiàn)研究”、上海靜安區(qū)檔案館“AI+檔案開放審核關(guān)鍵技術(shù)研究及實(shí)踐應(yīng)用”等。

    二、人工智能審核實(shí)現(xiàn)路徑

    通過文獻(xiàn)研究和案例分析不難發(fā)現(xiàn),目前各單位已經(jīng)研究建立的檔案開放審核模型都是基于本館的少數(shù)檔案數(shù)據(jù)訓(xùn)練得出,能否適用于所有檔案尚有待驗(yàn)證。實(shí)際上,目前市場上還沒有出現(xiàn)具有普適性、可以推廣應(yīng)用的檔案智能開放審核系統(tǒng)或工具。但目前已有的實(shí)踐案例足以證明人工智能技術(shù)在我國檔案工作中的應(yīng)用前景廣闊,也為我們探索實(shí)現(xiàn)人工智能審核提供了寶貴的實(shí)戰(zhàn)經(jīng)驗(yàn)。

    實(shí)現(xiàn)人工智能審核的整體思路:首先使用通用OCR技術(shù)提取檔案全文,然后利用自然語言處理的中文分詞、詞性標(biāo)注、關(guān)鍵詞提取、關(guān)鍵詞相似度分析、自動(dòng)分類等技術(shù),建立一種基于規(guī)則和語義驅(qū)動(dòng)的開放審核模型,并且通過深度學(xué)習(xí)算法不斷對(duì)其進(jìn)行訓(xùn)練和學(xué)習(xí),從而優(yōu)化開放審核模型,協(xié)助檔案鑒定人員開展檔案開放審核工作,提出開放審核建議。其中涉及的一些關(guān)鍵技術(shù)和準(zhǔn)備工作如下:

    (一)文檔預(yù)處理

    涉密文件篩查。按照有關(guān)規(guī)定,涉密文件不開放,首先要對(duì)預(yù)開放文檔進(jìn)行涉密篩查,運(yùn)用神經(jīng)網(wǎng)絡(luò)、自然語言處理、深度學(xué)習(xí)等AI技術(shù),智能識(shí)別文本中的密級(jí)標(biāo)識(shí),將檢出的涉密文件從開放審核隊(duì)列中剔除。

    OCR識(shí)別。OCR是一種能夠?qū)⒓堎|(zhì)文檔、圖片等中文、符號(hào)、數(shù)字等信息轉(zhuǎn)換為計(jì)算機(jī)可以識(shí)別處理的電子文本的技術(shù),掃描的數(shù)字化副本經(jīng)OCR識(shí)別后生成文本信息,為檔案開放審核做好數(shù)據(jù)準(zhǔn)備。識(shí)別檔案文本時(shí)面臨著手寫體識(shí)別的難題,特別是大批20世紀(jì)五六十年代的手寫體檔案、歷史檔案,掃描圖像識(shí)別率很低。但是,隨著AI技術(shù)的發(fā)展,這一問題也并非不能解決,可以通過優(yōu)化OCR的算法和使用更高精度的OCR引擎來提高識(shí)別率,并對(duì)極少量無法識(shí)別的數(shù)據(jù)采取手工標(biāo)注的方式來進(jìn)行補(bǔ)充。目前,中國第一歷史檔案館開發(fā)的滿文圖像識(shí)別軟件、科大訊飛OCR識(shí)別技術(shù)、中科院自動(dòng)化研究所的手寫字掃描識(shí)別技術(shù),能夠較準(zhǔn)確地識(shí)別手寫字體。

    文檔分類。從自然語言處理領(lǐng)域來看,檔案開放審核大致屬于“文本分類”問題,通過對(duì)文本與圖像內(nèi)容進(jìn)行智能分庫、敏感詞標(biāo)注,輔助開放審核系統(tǒng)快速判斷文檔類型并與審核規(guī)則匹配,進(jìn)一步提升開放審核效率。

    (二)構(gòu)建規(guī)則庫

    規(guī)則庫基于本館館藏的敏感詞庫,如“會(huì)議記錄”“統(tǒng)計(jì)報(bào)表”“簡歷表”等;基于相關(guān)法律法規(guī)、專家經(jīng)驗(yàn)而積累的規(guī)則知識(shí),如涉及個(gè)人隱私、科技科研、外事、非正式文件等不開放的情況,為下一步根據(jù)規(guī)則庫確定技術(shù)實(shí)現(xiàn)方法、配置規(guī)則與實(shí)施審核奠定了規(guī)則基礎(chǔ)。

    福建省檔案館在審核中收集整理了近600個(gè)敏感詞,并聯(lián)動(dòng)省公安廳網(wǎng)安部門吸收了部分當(dāng)前網(wǎng)絡(luò)敏感、關(guān)鍵字詞,設(shè)計(jì)制定了開放審核檔案關(guān)鍵詞表,建立了檔案開放審核動(dòng)態(tài)管理敏感詞庫;安徽省檔案館在實(shí)踐中構(gòu)建了包括2000多個(gè)敏感詞的檔案劃控敏感詞庫、5000多條知識(shí)點(diǎn)的檔案劃控知識(shí)庫和2000多條規(guī)則的檔案劃控規(guī)則庫。

    (三)優(yōu)化開放審核模型

    “人工”與“智能”到底是什么關(guān)系?關(guān)于這點(diǎn)最經(jīng)典的回答是“無人工不智能”,這是因?yàn)樵诤芏嗳斯ぶ悄茼?xiàng)目實(shí)施過程中往往需要花費(fèi)大量的時(shí)間和精力完成對(duì)用于訓(xùn)練AI數(shù)據(jù)的處理。智能檔案開放審核系統(tǒng)的成熟度取決于開放審核模型的成熟度,在開放審核過程中需根據(jù)人工審核反饋結(jié)果不斷優(yōu)化模型,特別是針對(duì)誤差樣本進(jìn)行強(qiáng)化訓(xùn)練和迭代,不斷提高開放審核準(zhǔn)確率。

    總之,引入人工智能技術(shù)必然能極大地提升檔案開放審核工作效率,但在當(dāng)前環(huán)境下仍然存在一些問題,如人工智能技術(shù)尚不成熟、沒有可套用的通用算法模型、開放審核模型開發(fā)難度大、投入成本高等,我們還需繼續(xù)強(qiáng)化智能審核技術(shù)的學(xué)習(xí)、調(diào)研,探索以合理適當(dāng)?shù)姆绞揭肴斯ぶ悄芗夹g(shù),推動(dòng)館藏檔案的科學(xué)有序開放。

    展望未來,隨著人工智能技術(shù)在文本乃至圖像、音視頻處理等方面的發(fā)展,將在智能庫房管理、資源建設(shè)、服務(wù)利用等方面,與檔案工作有更多相互結(jié)合的應(yīng)用場景。這些都需要繼續(xù)深入探索研究,以新技術(shù)賦能檔案工作,充分發(fā)揮檔案數(shù)據(jù)資源要素的優(yōu)勢,持續(xù)推動(dòng)檔案工作服務(wù)中心大局和社會(huì)民生。

    作者單位:河北省檔案館(河北省地方志編纂委員會(huì)辦公室)

    当阳市| 二连浩特市| 宣威市| 邓州市| 保定市| 陇西县| 凉城县| 重庆市| 拉萨市| 昭平县| 苗栗市| 常宁市| 长丰县| 准格尔旗| 迁西县| 桐柏县| 涞源县| 莲花县| 高安市| 汉川市| 丁青县| 云浮市| 红桥区| 濮阳县| 互助| 安仁县| 柘城县| 民权县| 望江县| 富川| 海口市| 壶关县| 巴青县| 竹溪县| 吉首市| 卫辉市| 新田县| 保德县| 景东| 唐山市| 施秉县|