藺文卓
摘 要:檔案數(shù)據(jù)化是大數(shù)據(jù)時代的必然發(fā)展趨勢,隨著5G時代的到來,必將加快檔案數(shù)據(jù)化的進程。檔案界要獨立潮頭,就必須融入數(shù)據(jù)化的大潮,步入數(shù)據(jù)化時代。為了加快數(shù)據(jù)化步伐提供借鑒,筆者對數(shù)據(jù)化的理念、檔案數(shù)據(jù)化國家戰(zhàn)略、實現(xiàn)路徑進行了粗淺的分析,提出了建立管理數(shù)據(jù)庫、增量檔案數(shù)據(jù)化、采用挖掘技術等建議。
關鍵詞:檔案;數(shù)據(jù)化;發(fā)展;路徑
DOI:10.12249/j.issn.1005-4669.2020.25.075
隨著計算機技術和網(wǎng)絡技術的飛速發(fā)展,我國的檔案工作經(jīng)歷了三個階段:第一階段是以紙質(zhì)檔案為核心的紙質(zhì)檔案開發(fā)利用階段,第二階段是以數(shù)字化為核心的數(shù)字檔案開發(fā)利用階段,第三階段是數(shù)據(jù)化檔案開發(fā)利用階段。就目前的檔案管理情況看,我國現(xiàn)階段仍處在第一階段或第一或第二階段相融合的時期,即紙質(zhì)檔案與數(shù)字化檔案并存時期。未來,我國的檔案工作將進入數(shù)據(jù)化時代,并對其進行全面的數(shù)據(jù)化研究,為國家經(jīng)濟建設和行政管理提供全新的借鑒。
1 數(shù)據(jù)化的核心理念
近年來,隨著大數(shù)據(jù)技術的出現(xiàn),數(shù)字革命的到來,引發(fā)了數(shù)據(jù)化浪潮。數(shù)據(jù)化的直接結果是,推動了文化革命和產(chǎn)業(yè)革命,使得各項決策均以數(shù)據(jù)為依托,以數(shù)據(jù)模型的分析結果為依據(jù),進而實現(xiàn)科學決策。那么,什么才是真正意義上的數(shù)據(jù)化呢?
從檔案管理的視角看,我認為檔案數(shù)據(jù)化的實質(zhì)是將檔案信息轉(zhuǎn)化為計算機可以閱讀和理解的檔案信息資源的過程,將利用檔案的途徑由“頁面閱讀”轉(zhuǎn)化為“內(nèi)容控制”“信息開發(fā)”。實質(zhì)是,將數(shù)字檔案資源轉(zhuǎn)換為可供閱讀、分析和處理的數(shù)據(jù)資源的過程,并進一步轉(zhuǎn)化為可制表分析的數(shù)據(jù)形態(tài),進而實現(xiàn)檔案服務模式的創(chuàng)新。如何實現(xiàn)由數(shù)字化向數(shù)據(jù)化的轉(zhuǎn)換呢?這就要求我們引入智能化的技術,通過OCR光學字符識別技術對紙質(zhì)檔案進行掃描,然后將圖片的文字轉(zhuǎn)化為數(shù)字化格式,形成文字集合;對于圖像、音視頻文件可通過音頻的文字轉(zhuǎn)換,形成文字數(shù)據(jù),建立數(shù)據(jù)化文字形態(tài)。
2 檔案數(shù)據(jù)化的國家戰(zhàn)略
我國的檔案數(shù)據(jù)化戰(zhàn)略,經(jīng)歷了從管理到實際應用轉(zhuǎn)化的認知過程。尤其是運用大數(shù)據(jù)后給工作帶來的效益,對它的認識空前提高,歷經(jīng)12年的發(fā)展逐漸實現(xiàn)了由數(shù)據(jù)到數(shù)據(jù)化的轉(zhuǎn)變,并上升為國家戰(zhàn)略。2011年,《全國檔案事業(yè)發(fā)展“十二五”規(guī)劃》指出,“加強檔案信息系統(tǒng)安全技術防范技術管理……,確保檔案數(shù)據(jù)及檔案網(wǎng)絡設備設施安全?!笔菍n案數(shù)據(jù)的首次提及。
2016年國家檔案局頒布的《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》提出“建立開放檔案信息資源社會化共享服務平臺,制定檔案數(shù)據(jù)開放計劃?!边@一時期,國家層面的部署直接轉(zhuǎn)入到數(shù)據(jù)服務
領域。
2017年,國家檔案局局長李明華在全國檔案安全工作會議上強調(diào),“做好檔案數(shù)據(jù)的安全備份,確保檔案數(shù)據(jù)、信息系統(tǒng)及網(wǎng)絡始終可用可控?!边@里有兩層意思:一是要保證數(shù)據(jù)安全,二是要保證數(shù)據(jù)的網(wǎng)絡化,提高數(shù)據(jù)的可利用性。
2019年,國家檔案局原局長楊冬權在檔案從業(yè)者安全保護專題研討會上的講話則實現(xiàn)了從檔案數(shù)據(jù)到數(shù)據(jù)化的升華。楊冬權強調(diào),“過去我們搞檔案數(shù)字化,是把紙質(zhì)檔案掃描成圖片,這些圖片上的檔案還需要人來讀,不能夠成為數(shù)據(jù),由電腦來處理。今后,我們還應該把這些圖片轉(zhuǎn)化為電腦可以讀的字,變成電腦可以任意檢索的數(shù)據(jù),讓它和其他的大數(shù)據(jù)一樣,進入大數(shù)據(jù)系統(tǒng),可以任意的檢索、主動的推送、深度的挖掘,變成人工智能、人的智慧、人的外腦?!边@里雖然沒有提及數(shù)據(jù)化的概念,但其中提到的將數(shù)字化的圖片轉(zhuǎn)化為電腦可以讀的字,變成電腦可以任意檢索的數(shù)據(jù),并實現(xiàn)主動推送、深度挖掘,則集中體現(xiàn)檔案數(shù)據(jù)化的根本要義。
同年,國家檔案局制定了DA/T75—2019和DA/T82—2019兩項檔案專業(yè)標準,分別對檔案數(shù)據(jù)硬磁盤離線存儲和基于文檔型非關系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲進行規(guī)范。這兩個專業(yè)標準雖然只規(guī)定了檔案數(shù)據(jù)硬磁盤離線存儲和非關系型檔案數(shù)據(jù)存儲,但卻從根本上彰顯了我國檔案數(shù)據(jù)化管理和應用的戰(zhàn)略步驟,使檔案數(shù)據(jù)化邁上了國家戰(zhàn)略的快車道。
3 檔案數(shù)據(jù)化的實現(xiàn)路徑
自我國工業(yè)和信息化部2016年12月印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020)》,標志著我國大數(shù)據(jù)時代的到來。歷經(jīng)5年的融合發(fā)展,截至目前,大數(shù)據(jù)已經(jīng)在電商、城市規(guī)劃、科學研究等領域大有作為,并開始介入檔案信息資源領域,成為檔案工作創(chuàng)新的引擎。為了實現(xiàn)檔案資源的數(shù)據(jù)化目標,筆者認為檔案界應采取一系列措施,進行全新的數(shù)據(jù)化實踐。
1)建立數(shù)據(jù)化關聯(lián)數(shù)據(jù)庫,實現(xiàn)存量檔案數(shù)據(jù)化。以往的檔案信息資源是互不關聯(lián)的獨信息,很難為大數(shù)據(jù)技術所應用。這就要求檔案部門,從檔案工作的實際出發(fā),在數(shù)字化檔案數(shù)據(jù)庫的基礎上,通過OCR光學字符識別技術、音視頻文字轉(zhuǎn)換技術,對數(shù)字化的JPG圖形檔案進行格式轉(zhuǎn)換,形成適應大數(shù)據(jù)利用的數(shù)據(jù)化的數(shù)據(jù)庫。根據(jù)大數(shù)據(jù)分析體系的要求,檔案資源的數(shù)據(jù)化一是要能夠?qū)崿F(xiàn)互聯(lián)網(wǎng)平臺的分享和瀏覽;二是要適應數(shù)據(jù)挖掘的需要,在數(shù)據(jù)之間建立相應的關聯(lián),為數(shù)據(jù)挖掘、分析提供數(shù)據(jù)支撐;三是數(shù)據(jù)的類型要符合可制表分析的數(shù)據(jù)形態(tài)。
2)做好增量檔案數(shù)據(jù)化。增量檔案是檔案大家族中不可或缺的重要資源,是保持檔案資源連續(xù)性的重要步驟。由于增量檔案大多是現(xiàn)實工作中形成的、具有保存價值的歷史記錄,其形成過程既有紙質(zhì)文件,又有電子文件,要做足數(shù)據(jù)化的工作比以前要輕松得多。但是在數(shù)據(jù)化的進程中,數(shù)字化并不等于數(shù)據(jù)化。因為只有將掃描后形成的圖片實現(xiàn)智能識讀,并進入可列表分析、挖掘才能說是實現(xiàn)了初步的數(shù)據(jù)化。因此,做好增量檔案的數(shù)據(jù)化同樣是一項艱苦、繁復的工作。為了實現(xiàn)上述目標,一是要做足增量檔案的數(shù)字化,二是要加快管理數(shù)據(jù)庫的建設,三是要加快光學字符識別技術、音視頻文字轉(zhuǎn)換技術的應用,四是要加快挖掘技術的應用,進而實現(xiàn)一切皆數(shù)據(jù),數(shù)據(jù)源可追溯的目標。
3)利用挖掘技術實施挖掘分析。挖掘技術是互聯(lián)網(wǎng)時代,尤其是云計算時代的核心技術,旨在通過對海量數(shù)據(jù)對某一經(jīng)濟現(xiàn)象和社會現(xiàn)象的智能分析,找出事物的規(guī)律性,對政治、經(jīng)濟、文化、社會的走勢、動態(tài)提供理論模型,為未來事態(tài)發(fā)展提供掌控依據(jù)。檔案數(shù)據(jù)挖掘工作,就是要對數(shù)據(jù)化的檔案進行智能化、情報化檢索,并利用數(shù)據(jù)之間的關聯(lián)性,實現(xiàn)精細化分析,進而找出事物間的規(guī)律,服務社會。
4 結束語
檔案數(shù)據(jù)化是檔案數(shù)字化的子集,數(shù)據(jù)化是數(shù)字化進程中的一個方向。只有實現(xiàn)數(shù)據(jù)化,浩繁的檔案才能為廣大的群眾所利用。檔案作為一個龐大的系統(tǒng),必將在未來,尤其是在21世紀的互聯(lián)網(wǎng)時代發(fā)揮更大的作用。這就依賴于檔案的數(shù)據(jù)化,尤其是存、增量數(shù)據(jù)庫的建設和挖掘技術的全面應用。