摘? 要:隨著大數(shù)據(jù)在各行業(yè)應(yīng)用的廣泛深入,取得良好的成果,許多檔案行業(yè)學(xué)者對檔案信息在大數(shù)據(jù)應(yīng)用方面進(jìn)行了研究和實(shí)踐,通過采用人工智能技術(shù)對檔案信息進(jìn)行預(yù)處理,如利用OpenCV算法對文本檔案進(jìn)行OCR識別,采用ASR技術(shù)對音視頻檔案進(jìn)行語音識別,采用人工智能技術(shù)進(jìn)行人臉識別等。對獲得的數(shù)字化檔案信息采用隱馬爾科夫模型進(jìn)行結(jié)構(gòu)化,最后形成“一人一檔,一事一檔”等大數(shù)據(jù)應(yīng)用實(shí)踐。
關(guān)鍵詞:OCR;語音識別;人臉識別;數(shù)據(jù)結(jié)構(gòu)化;一人一檔;一事一檔
中圖分類號:TP39? ? ? ? ?文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2021)23-0142-03
Preliminary Practice of Application of Big Data in Archival Information
ZHU Mengling
(Guangdong Yunxun Information Technology Co., Ltd., Huizhou? 516000, China)
Abstract: With the extensive and in-depth application of big data in various industries, good results have been achieved, many scholars in the archives industry have studied and practiced the application of big data in archives information. They preprocess archives information by using artificial intelligence technology, such as OCR recognition of text archives by using OpenCV algorithm, ASR (automatic speech recognition) technology is used for speech recognition of audio and video archives, and artificial intelligence technology is used for face recognition. The obtained digital archives information is structured by hidden Markov model (HMM), and finally forms big data application practices such as “one file for one person, one file for one thing”.
Keywords: OCR; speech recognition; face recognition; data structure; one file for one person; one file for one thing
0? 引? 言
我們國家在電子政務(wù)方面自動化、標(biāo)準(zhǔn)化、網(wǎng)絡(luò)化漸趨完善,每天都產(chǎn)生大量的反映政務(wù)活動的各種格式的電子檔案,結(jié)合國家對政府檔案行業(yè)“存量數(shù)字化、增量電子化”的要求,各地綜合檔案館積累了海量的電子檔案文件,為下一步利用這些海量的檔案信息資源進(jìn)行政務(wù)大數(shù)據(jù)的應(yīng)用實(shí)踐打下基礎(chǔ)。
隨著新一代信息技術(shù)的發(fā)展,尤其是人工智能和大數(shù)據(jù)技術(shù)的日漸成熟和廣泛應(yīng)用,大數(shù)據(jù)技術(shù)已體現(xiàn)出有其廣闊的應(yīng)用前景,在交通出行、安防、個(gè)性化信息推送、消費(fèi)等各方面都有成功的應(yīng)用,大數(shù)據(jù)也展示出了其巨大的商業(yè)應(yīng)用價(jià)值,而檔案因其數(shù)據(jù)量龐大,格式多樣,存在跨時(shí)空、跨領(lǐng)域、跨行業(yè)的特點(diǎn),涵蓋了政務(wù)活動、社會活動、經(jīng)濟(jì)活動的方方面面,使檔案天然的具有大數(shù)據(jù)屬性,在此背景下,檔案的利用模式將發(fā)生重大變革,從被動用檔轉(zhuǎn)變成主動用檔。檔案信息資源的大數(shù)據(jù)應(yīng)用場景將集中在歷史場景還原、人物和事件軌跡聚合、政務(wù)輔助決策等方面。
本文將從檔案信息資源在大數(shù)據(jù)應(yīng)用中的“一人一檔”“一事一檔”等方面進(jìn)行政務(wù)大數(shù)據(jù)應(yīng)用實(shí)踐的探討,從技術(shù)準(zhǔn)備和實(shí)踐路徑等方面進(jìn)行概括,提出我們的檔案大數(shù)據(jù)應(yīng)用思路和技術(shù)方案。
1? 技術(shù)準(zhǔn)備
在檔案信息化的基礎(chǔ)上,將大數(shù)據(jù)技術(shù)和人工智能技術(shù)應(yīng)用到檔案數(shù)據(jù)中,融合OCR文本識別、音視頻文件語音文本識別、聲像檔案人臉識別,對非結(jié)構(gòu)化的電子檔案數(shù)據(jù)完成結(jié)構(gòu)化處理,通過多維度的關(guān)聯(lián)匯聚,將相關(guān)檔案以時(shí)間軸和GIS空間結(jié)合,生動形象的展現(xiàn)出人物和事物的發(fā)展軌跡。
1.1? 傳統(tǒng)的數(shù)字化檔案文件經(jīng)過OCR識別后形成文本數(shù)據(jù)
基于人工智能的OCR技術(shù)通常使用OpenCV算法庫,通過圖像處理和統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法從圖像中提取文本信息,包括二值化、噪聲濾波、相關(guān)域分析、AdaBoost等。將檔案庫中的紙質(zhì)檔案,通過掃描、系統(tǒng)掛接、圖像準(zhǔn)備、文本識別、提取檔案信息、保存識別到的文本信息。由于OCR識別存在一定的誤差,系統(tǒng)要能夠允許對識別后的OCR文本做修改,以保證深度學(xué)習(xí)的準(zhǔn)確率,同時(shí)為大數(shù)據(jù)分析打好基礎(chǔ)。OCR識別還可用于全文檢索等檔案模塊,在海量的檔案數(shù)據(jù)中,快速定位想要查找的檔案文件甚至文件段落,對檔案工作有很好的推動作用。
將上傳的PDF、OFD、Word等檔案文件進(jìn)行OCR識別,形成文本,可查看以及粘貼復(fù)制,同時(shí)也能進(jìn)行大數(shù)據(jù)檢索。OCR識別界面如圖1所示。
1.2? 音視頻檔案進(jìn)行語言識別后形成文本數(shù)據(jù)
語音識別涉及的領(lǐng)域包括:數(shù)字信號處理、聲學(xué)、語音學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、人工智能等,是一門涵蓋多個(gè)學(xué)科領(lǐng)域的交叉科學(xué)技術(shù)?;谌斯ぶ悄艿囊粢曨l檔案語音識別就是讓系統(tǒng)對音視頻檔案進(jìn)行音頻提取,提取后對原始音頻進(jìn)行部分消除噪聲來增強(qiáng)語音信號,且按一定時(shí)間進(jìn)行切割并生成音頻文件進(jìn)行語音信號的特征提取,這一過程能更好地尋找語音的內(nèi)在特征,然后再通過語言模型訓(xùn)練,計(jì)算語言特征提取后的特征矢量與每個(gè)聲學(xué)模型的距離來進(jìn)行模式匹配,最后通過語音模型語法規(guī)則進(jìn)行語音匹配,輸出識別結(jié)果。
音視頻檔案語音識別的應(yīng)用可以很好地解決地方口音、方言和少數(shù)民族語言帶來的音視頻檔案識別問題,且該應(yīng)用識別音頻輸出的文本信息可用于檔案音視頻檢索,而不再僅限于傳統(tǒng)的著錄信息檢索,相比較傳統(tǒng)的檢索方式,應(yīng)用音視頻文本檢索后,檢索效率可以有很大的提高,提高了檔案人員的工作效率也提高了公眾對檔案的利用率;通過音視頻關(guān)鍵字和OCR識別的文本檔案、通過互聯(lián)網(wǎng)收集的檔案信息一起進(jìn)行大數(shù)據(jù)分析,這將會大大提高聲像檔案的利用率,提升檔案工作人員的工作效率。音頻檔案語音識別界面圖如圖2所示。
1.3? 聲像檔案提取人臉信息
局部二值模式(local binary pattern,LBP)的人臉識別方法源于紋理分析領(lǐng)域。它首先計(jì)算圖像中每個(gè)像素與其局部鄰域點(diǎn)在亮度上的序關(guān)系,然后對二值序關(guān)系進(jìn)行編碼形成局部二值式,最后采用多區(qū)域直方圖作為圖像的特征描述。該方法在FERET人臉圖像數(shù)據(jù)庫上取得了很好地識別性能。人臉識別后將識別到的人臉保存在數(shù)據(jù)庫中,作為查詢匹配庫。采取提取人臉外部矩形框、人臉面部輪廓特征提取、計(jì)算人臉特征、比較人臉特征、判斷是否小于閾值等流程實(shí)現(xiàn)人臉識別和特征提取以及結(jié)果匹配,最終實(shí)現(xiàn)人臉檢索,其中計(jì)算人臉特征使用Resnet將人臉特征用128維向量標(biāo)識,比較人臉特征采用計(jì)算歐式距離的方法。
根據(jù)以上人工智能算法提取人臉的特征數(shù)據(jù)、屬性數(shù)據(jù),將聲像檔案中的人臉數(shù)據(jù)提取后結(jié)構(gòu)化并匯聚整合,建立檔案人臉庫。檔案管理者也可通過對比檔案人臉庫,編輯標(biāo)識人物姓名、身份、身體特征信息,完成聲像人物標(biāo)注,形成描述統(tǒng)一、內(nèi)容完備的人臉庫。建立人臉庫后再歸檔該人物聲像檔案可實(shí)現(xiàn)自動識別歸類,比如還原某位優(yōu)秀共產(chǎn)黨員歷史時(shí)只需搜索該人臉或者姓名、身份等信息,該人物在庫中的所有相關(guān)聲像檔案立刻展現(xiàn)。與文本檔案OCR識別相結(jié)合,可形成人物鏈,可將該人物的文本檔案和聲像檔案相結(jié)合匯聚成個(gè)人檔案概覽。聲像人臉提取與檢索界面圖如圖3所示。
1.4? 數(shù)據(jù)要素提取和結(jié)構(gòu)化
OCR識別完成了對檔案文本文件和音視頻文件轉(zhuǎn)換成可深入利用的數(shù)據(jù),但這些數(shù)據(jù)均為原始的非關(guān)系型數(shù)據(jù),要進(jìn)行大數(shù)據(jù)分析和利用,需首先基于人工智能技術(shù)對這些非關(guān)系型數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,使非關(guān)系型數(shù)據(jù)轉(zhuǎn)換成關(guān)系型數(shù)據(jù)庫。在結(jié)構(gòu)化的過程中結(jié)合時(shí)空關(guān)系和人臉特征模型,構(gòu)成更廣泛的人、事、時(shí)空的關(guān)聯(lián)性。
借助世界上最大的多語種語料庫,進(jìn)行分詞粗分、細(xì)分、強(qiáng)制、合并、校正、詞性標(biāo)注、命名實(shí)體識別、依存句法分析、成分句法分析、語義依存分析、語義角色標(biāo)注、詞干提取、詞法語法特征提取、抽象意義表示等過程,提取人名、地名、事件等信息。使用隱馬爾科夫模型(Hidden Markov Model,HMM)作為語音信號的統(tǒng)計(jì)模型,采用前向-后向算法、Baum_Welch算法以及Viterbi解碼算法對檔案文件識別后的OCR文本進(jìn)行中文分詞,對數(shù)據(jù)要素進(jìn)行提取,提取后進(jìn)行抽象意義表示,即完成數(shù)據(jù)要素的提取和結(jié)構(gòu)化。數(shù)據(jù)要素提取和機(jī)構(gòu)化相關(guān)圖示如圖4所示。
2? 實(shí)踐路徑
(1)經(jīng)OCR和視頻文本識別后產(chǎn)生海量的文本數(shù)據(jù),雖經(jīng)過了檔案邏輯的多維編目、元數(shù)據(jù)的提取和標(biāo)注等操作,但對事物內(nèi)所包含的有機(jī)信息依然有限,要進(jìn)行大數(shù)據(jù)應(yīng)用,需先按照“人物、事件、時(shí)間、原因、結(jié)果”等主要要素,職務(wù)、單位、行為、場所、等細(xì)分要素進(jìn)行結(jié)構(gòu)化,對文本中所包含的主要要素、細(xì)分要素進(jìn)行基于人工智能的自動識別和提取、聚合,完成數(shù)據(jù)清洗和預(yù)處理,建立龐大的關(guān)系型主動利用檔案大數(shù)據(jù)庫,提供了檔案大數(shù)據(jù)應(yīng)用的堅(jiān)實(shí)基礎(chǔ)和無限可能性。
(2)對檔案信息大數(shù)據(jù)最直觀的利用進(jìn)行多維度組合分析,因檔案大數(shù)據(jù)完成了結(jié)構(gòu)化,產(chǎn)生主要要素和細(xì)分要素相結(jié)合的多維度要素,有時(shí)空、事件、人物、單位機(jī)構(gòu)等,可對各類要素多維度進(jìn)行組合分析,使用諸如回歸、聚類、關(guān)聯(lián)值、異常值等數(shù)據(jù)挖掘方式,也可按照時(shí)空維度的方式,結(jié)合GIS地圖,可直觀立體地表現(xiàn)出事件所產(chǎn)生的時(shí)間和空間信息,涉及到人物時(shí),可將關(guān)系型檔案大數(shù)據(jù)和人臉特征信息結(jié)合,建立起檔案大數(shù)據(jù)和圖片、音視頻的關(guān)聯(lián)關(guān)系。其中在聲像檔案進(jìn)行拍攝時(shí),可打開拍攝設(shè)備中記錄時(shí)間和GPS經(jīng)緯度的參數(shù),則可自動獲得產(chǎn)生聲像檔案時(shí)的時(shí)空要素。
(3)在數(shù)字檔案信息要素中,人物和事件是最為核心的要素,也是檔案最為直觀的分析對象,在結(jié)構(gòu)化后,可使用聚類的方式對人物要素進(jìn)行聚合,包括人名、職務(wù)、單位、行為等,結(jié)合聲像檔案中的人臉等要素,按時(shí)間軸線為主,GIS空間為表現(xiàn)形式,聚合成時(shí)空環(huán)境中的一人一檔,若要查看某位同志的職業(yè)升遷,則可通過一人一檔形成的時(shí)間軸,直觀地看出職位變動以及該人物參加的活動等;
也可按照事件進(jìn)行檔案大數(shù)據(jù)利用,如“城市更新”“軌道建設(shè)”“鄉(xiāng)村振興”“疫情防治”等具體事件進(jìn)行多維聚合,以時(shí)空為表現(xiàn)形式,形成一事一檔的利用模式。實(shí)踐路徑如圖5所示。實(shí)踐結(jié)果界面圖如圖6實(shí)踐結(jié)果圖。
3? 結(jié)? 論
信息技術(shù)的大范圍應(yīng)用使得各類生產(chǎn)活動中所產(chǎn)生的數(shù)據(jù)量逐漸增多,這必定會為檔案管理工作帶來較大的難度,對于檔案事業(yè)來說,信息技術(shù)的普及及應(yīng)用既是機(jī)遇又是挑戰(zhàn),信息量和數(shù)據(jù)量的大幅度增長不僅會增加檔案管理負(fù)擔(dān),還突出表現(xiàn)了原有檔案管理模式中的不足,在信息化的背景下,要求檔案管理工作根據(jù)當(dāng)前的發(fā)展形勢進(jìn)行創(chuàng)新與整改,全面提升檔案管理的信息化水平和管理效率,為人們提升更加高效的檔案服務(wù)。而在信息化的基礎(chǔ)上,應(yīng)加大對檔案海量數(shù)據(jù)的分析力度,做到檔案大數(shù)據(jù)的主動用檔。檔案大數(shù)據(jù)的主動用檔的利用場景,不僅限于一人一檔及一事一檔,在歷史場景還原、政務(wù)輔助決策、事件和人物的規(guī)律性分析等方面均可發(fā)揮作用,在新一代信息技術(shù),尤其是隨著人工智能技術(shù)和大數(shù)據(jù)技術(shù)的日漸成熟,對檔案的價(jià)值挖掘提供了無限的想象空間和可能性,“大數(shù)據(jù)+檔案”是形成主動用檔、智能用檔,讓檔案發(fā)揮更大利用價(jià)值的重要途徑。
參考文獻(xiàn):
[1] 趙甲信.關(guān)于加快推進(jìn)縣域檔案信息化建設(shè)工作步伐的幾點(diǎn)體會 [J].陜西檔案,2008(6):30.
[2] 趙鵬,李光.檔案工作落實(shí)科學(xué)發(fā)展觀的關(guān)鍵——實(shí)現(xiàn)檔案實(shí)物化管理向信息化管理的轉(zhuǎn)變 [J].山東檔案,2005(5):7-9.
[3] 陶水龍.大數(shù)據(jù)特征的分析研究 [J].中國檔案,2017(12):58-59.
[4] 陳菲.大數(shù)據(jù)視角下的檔案利用問題研究——由提高數(shù)據(jù)加工能力談起 [J].機(jī)電兵船檔案,2017(3):74-76.
[5] 王玲,張妍妍.大數(shù)據(jù)時(shí)代檔案工作面臨的大機(jī)遇與大挑戰(zhàn) [J].蘭臺世界,2014(17):15-16.
作者簡介:朱夢玲(1997—),女,漢族,湖北黃岡人,工科學(xué)士學(xué)位,本科,研究方向:檔案大數(shù)據(jù)。