孫贇 王冠華 劉文毅
如今互聯(lián)網(wǎng)時代高新技術迅猛發(fā)展,各行各業(yè)都迎來巨大變化,新技術給檔案工作也帶來了新變化,各級各類檔案館深入貫徹國家信息化發(fā)展規(guī)劃,及時跟進大數(shù)據(jù)和AI的發(fā)展應用,推進數(shù)字化檔案館建設。新的技術為黃河流域生態(tài)保護和高質(zhì)量發(fā)展的工作提供了新手段,黃河檔案資料的利用也提出了新要求。文章闡述了大數(shù)據(jù)時代黃河檔案信息數(shù)字化面臨的問題,分析現(xiàn)狀以及平臺建設的內(nèi)容助力黃河流域生態(tài)保護和高質(zhì)量發(fā)展。
黃河是中華民族的母親河、中華文明的搖籃,黃河流域生態(tài)保護和高質(zhì)量發(fā)展上升為國家戰(zhàn)略,對黃河檔案的管理和利用是實現(xiàn)國家戰(zhàn)略的重要一環(huán)。為了黃河檔案的信息化、數(shù)字化得到長遠的發(fā)展,檔案管理部門把大量紙質(zhì)檔案進行了數(shù)字化加工,成績斐然。但因為沒有統(tǒng)一的標準和執(zhí)行規(guī)范,黃河檔案管理部門重復和過度建設線上平臺,并且相互之間不能互聯(lián)互通,嚴重阻礙了黃河檔案信息資源的共建共享。對此,我們提出構(gòu)建以大數(shù)據(jù)為基礎的黃河檔案信息資源共享平臺,運用共享數(shù)據(jù)庫技術、數(shù)據(jù)檢索技術、及人工智能技術等現(xiàn)代化先進技術手段將紙質(zhì)文件、電子資料、聲音視頻文件進行高度數(shù)字化處理,打造網(wǎng)絡共享平臺。在保障數(shù)據(jù)安全、成果無誤的前提下,以網(wǎng)絡共享形式傳輸有關黃河的信息資源、宣傳工作成果,以實現(xiàn)黃河檔案信息的便捷利用和資源共享。
傳統(tǒng)的檔案主要通過紙張進行存儲,長期保存有一定的風險,資料被查閱時,翻閱檔案原件或者利用不當,都會磨損甚至損壞檔案原件,很難保證檔案資料的長期保存,以至于一些珍貴檔案借閱程序復雜,影響其利用價值。早期的數(shù)字化項目旨在對數(shù)據(jù)進行編碼以進行系統(tǒng)分析,現(xiàn)在正在嘗試無需前往檔案館操縱實物,試圖以一種開放式的查詢方式來分享獨特的檔案資料。隨著對數(shù)字檔案館研究和認識的不斷深入,全世界都在大力促進檔案資源的信息化建設。
如今,檔案儲存的載體已從紙張向硬盤、光盤等電子儲存設備轉(zhuǎn)變,在查找檔案時不會影響到檔案原件,而且還能借助于現(xiàn)代信息技術,對缺損、不易辨別檔案進行深度修復。特別是美國國家檔案館發(fā)現(xiàn)其收集的電子文件種類日益豐富,除了文本文件、數(shù)據(jù)庫文件之外,還有電子郵件、地理空間數(shù)據(jù)、數(shù)字影像等結(jié)構(gòu)復雜的數(shù)據(jù),同時大眾也希望能夠通過在線方式獲取數(shù)字檔案。愛因斯坦的數(shù)千份文件被進行了數(shù)字化處理,普林斯頓大學出版社已經(jīng)以數(shù)字格式出版了近3000篇文章,占愛因斯坦論文的10%。緊隨美國之后,歐盟、澳大利亞、新加坡等國也先后著手推進檔案信息數(shù)字化、網(wǎng)絡一體化建設。我國同樣高度重視檔案資源信息化,2020年兩會期間,檔案信息化受到社會各界高度關注,有代表提出重視歷史檔案資料的組織和整理,提倡結(jié)合數(shù)字化、信息化的方式,保護性利用歷史檔案資源。
目前數(shù)字檔案館中已被數(shù)字化的資料僅占檔案記錄的一小部分,數(shù)字化程度還比較低。部分檔案館缺乏資金支持,數(shù)字化能力有限,需要政府及社會基金予以支持。檔案資源管理系統(tǒng)需求設計、功能要求各不相同,編寫平臺的編程語言存在差異,流程環(huán)節(jié)沒有統(tǒng)一,無法做到交互共享形成各自為政的分割局面。各單位缺乏整體合作意識,都在著眼本單位的檔案資源體系建設,形成數(shù)據(jù)孤島,同一份數(shù)據(jù)存在于多個業(yè)務系統(tǒng)內(nèi)且內(nèi)容不一致,缺少統(tǒng)一的數(shù)據(jù)標準、數(shù)據(jù)管理流程及可靠的管理工具,出現(xiàn)質(zhì)量問題時往往無法有效追溯并修正。部分檔案館服務理念滯后,缺乏資源的協(xié)調(diào)與合作,跨部門、跨系統(tǒng)的合作較少,合作的力度不足。黃河檔案資源標準化體系建設不完善,同時數(shù)據(jù)來源繁多,格式類型千差萬別,海量數(shù)據(jù)也造成管理的壓力,同時也影響到資源的有效使用。
同時數(shù)字化檔案資源還面臨網(wǎng)絡安全的威脅,網(wǎng)絡環(huán)境下,存在檔案數(shù)據(jù)泄露、濫用、惡意破壞、病毒攻擊以及隱私侵犯等風險,并且部分平臺缺乏安全的共享渠道[3]。網(wǎng)絡安全保障與大數(shù)據(jù)和云計算技術發(fā)展不夠同步,法律法規(guī)也還不夠健全,數(shù)據(jù)隱私保護不夠成熟,目前還無法做到全方位保護。設備損壞、操作失誤以及惡意竊取等都會對云平臺中的數(shù)據(jù)造成安全威脅,各類檔案以及大數(shù)據(jù)平臺均面臨的數(shù)據(jù)信息安全問題,備受爭議。
建設黃河檔案信息資源共享平臺是檔案數(shù)字化的關鍵一步,也是檔案工作融入國家大數(shù)據(jù)發(fā)展戰(zhàn)略的主要目標,打破時間、空間上的障礙,使得資源技術共享成為現(xiàn)實,充分利用檔案信息資源為黃河流域生態(tài)保護和高質(zhì)量發(fā)展提供便捷的數(shù)據(jù)支持。
(一)共享平臺的管理
數(shù)字檔案館分為平臺建設、平臺運維、資料提供、資源利用四個方面的人員,在不同階段發(fā)揮著重要作用。黃河檔案信息資源共享平臺需要有效化的管理,分為用戶端和管理員端更好的為檔案數(shù)據(jù)共享做好服務工作。登陸用戶端,可以瀏覽黃河發(fā)展演變、地質(zhì)、時空、環(huán)境、生態(tài)、水利、歷史、文化、遙感影像等9個分類檔案資料,實現(xiàn)了信息共享。平臺建立了一套存儲格式標準體系,分級分類存儲,利于管理和調(diào)用。每個分類的檔案可以實現(xiàn)內(nèi)容的檢索,從而進行查看自己感興趣的內(nèi)容,同時用戶可以將用戶的意見反饋給管理員端。
用戶可以通過在平臺注冊賬號登錄共享平臺,實現(xiàn)個人瀏覽,平臺根據(jù)驗證信息對不同用戶類型提供相應服務,管理員通過賬號和密碼可以登錄管理界面,不僅可以對管理員賬戶進行增改刪查,而且能對檔案內(nèi)容按照分類的增改刪查,還能實現(xiàn)對意見反饋內(nèi)容的查詢,同時該平臺涉及后臺數(shù)據(jù)庫,包括用戶表、意見表、內(nèi)容表和分類表等。
(二)共享平臺實現(xiàn)的功能
黃河檔案信息資源共享平臺可以實現(xiàn)一下功能:信息接收功能、檔案存儲功能、數(shù)據(jù)選擇歸類、數(shù)據(jù)轉(zhuǎn)換、質(zhì)量控制、數(shù)據(jù)融合、安全脫密和數(shù)據(jù)監(jiān)控預警功能等。同時基于大數(shù)據(jù)、智能檢索的數(shù)字檔案館應當具備外部匯交資料的接收和交換能力、對原有資源進行數(shù)字化處理、格式轉(zhuǎn)換、脫密保障等功能[5]。通過預留接口和數(shù)據(jù)轉(zhuǎn)換可以吸收所有外來資料,資料上傳之前不需要處理,上傳之后進行統(tǒng)一處理、格式轉(zhuǎn)換。采用超融合服務器,對接收的檔案資料進行儲存、備份,強化數(shù)據(jù)庫運營管理,優(yōu)化記錄邏輯與物理順序間對應關系,提高數(shù)據(jù)存取速度。對元數(shù)據(jù)進行統(tǒng)一管理管理,提供元數(shù)據(jù)分類和建模、血緣關系和影響分析,方便數(shù)據(jù)的跟蹤和回溯。支持數(shù)據(jù)質(zhì)量核查,照檢查規(guī)則配置中的編碼規(guī)則進行檢查,并進行數(shù)據(jù)完整性、精確性、關聯(lián)性核查,保證數(shù)據(jù)質(zhì)量,數(shù)據(jù)核查結(jié)果進行可視化處理,及時反饋問題。平臺靈活運營讓數(shù)據(jù)共享交換變得隨時隨地、按需和便捷,充分調(diào)度計算設施、存儲設備、應用程序等資源,滿足用戶多元化、復雜的需求,降低了開發(fā)、管理的難度。
(三)共享平臺的數(shù)據(jù)安全
數(shù)據(jù)安全是共享平臺的關鍵,確保檔案數(shù)據(jù)安全和網(wǎng)絡傳輸安全是實現(xiàn)檔案數(shù)據(jù)共享的前提。數(shù)據(jù)安全也是黃河檔案信息資源共享平臺務必加強的地方,抓好數(shù)據(jù)安全與服務、發(fā)展的內(nèi)在關系,強化安全管理,提高安全意識,健全防范機制,通過采用各種技術和管理措施,確保網(wǎng)絡數(shù)據(jù)的可用性、完整性和保密性。從外部威脅防御、內(nèi)部風險控制、數(shù)據(jù)追責溯源、數(shù)據(jù)共享與交換、終端安全、云安全等多層面入手,在保證數(shù)字檔案館平臺安全運營的前提下,盡可能為用戶提供優(yōu)質(zhì)的服務。利用具有高效接口兼容多種數(shù)據(jù)格式,采用在線和離線相結(jié)合的方法接收不同格式保存的數(shù)字資源,打造了數(shù)據(jù)庫防水壩、數(shù)據(jù)庫審計、數(shù)據(jù)庫透明加密、數(shù)據(jù)庫防火墻、數(shù)據(jù)脫密、等一系列數(shù)據(jù)安全措施,建立有效安全體系、提升安全防御能力。
建設一套完備的數(shù)據(jù)采集、儲存格式標準體系,數(shù)據(jù)經(jīng)過標準化統(tǒng)計分類,分級分類儲存,利于管理和調(diào)用。在檔案共享的基礎上,對相關信息進行關聯(lián),探索高效的關聯(lián)方式,在查詢過程中,輸入某一名詞則其他相關資料或事件也會出現(xiàn)。再結(jié)合深度學習和機器學習來訓練模型,使信息檢索更加精準便利、提高檔案數(shù)據(jù)的使用效率。可以通過指定文件所在目錄進行高效檢索,并內(nèi)置文件解析器,可對Text、HTML、XML、RTF、MS OFFICE文檔 (Word、Execl、Powerpoint)、ODF和PDF等二百余種文件格式自動解析檢索。運用基于webservice的數(shù)據(jù)推送和數(shù)據(jù)提取接口,以及線點ICF數(shù)據(jù)交換協(xié)議進行數(shù)據(jù)采集和索引。全面優(yōu)化的相似度算法,更準確地找到與檢索詞相關內(nèi)容,根據(jù)不同數(shù)據(jù)結(jié)構(gòu)和用戶要求,設計權重分布,從而優(yōu)化結(jié)果排序。數(shù)據(jù)內(nèi)容在儲存的過程中以文件的形式被保存,優(yōu)化對核心要素的識別,保障在短時間內(nèi)對檔案資源內(nèi)容的高效檢索。
黃河檔案屬于歷史檔案,并且檔案形式多樣,基于其特殊性,其利用和共享的程度一直較低。研究黃河檔案數(shù)字化建設,推進檔案信息化進程,保證公眾可以借助網(wǎng)絡途徑在檔案館中便捷地獲取需要的電子檔案信息。這種方式打破了傳統(tǒng)檔案查詢空間地域的限制,極大地提升了檔案資源的傳輸和利用效率。實現(xiàn)了黃河檔案管理的數(shù)字化共享,有利于推動黃河檔案信息資源的開放共享,實現(xiàn)檔案資源的自身價值,推動黃河流域生態(tài)保護和高質(zhì)量發(fā)展。
作者單位:河南省有色金屬地質(zhì)礦產(chǎn)局第七地質(zhì)大隊
基金項目:河南省檔案科技項目2020-X-30——“云上黃河”檔案館研究
河南省檔案科技項目2020-X-29—— 河南省地質(zhì)檔案數(shù)據(jù)資源共建共享研究