韓向邁
(一)大數(shù)據(jù)的概念
從字義來看,大數(shù)據(jù)(big data)顧名思義,指 的是海量的資料,巨量的數(shù)據(jù),這些資料數(shù)據(jù)來源于世 界各地,信息量龐大,常用的軟件工具無法在有限的時(shí) 間范圍內(nèi)對(duì)這些海量數(shù)據(jù)資料進(jìn)行獲取、管理、分析和處 理,是一種新的思維方式。無論在生活、工作還是學(xué)習(xí)中 ,我們無時(shí)無刻不在進(jìn)行著數(shù)據(jù)的收集、篩選、處理、分 析和應(yīng)用等工作。
客觀來講,目前針對(duì)大數(shù)據(jù)的概念并沒有準(zhǔn)確 的界定,這是因?yàn)榇髷?shù)據(jù)商業(yè)特征顯著,若其應(yīng)用背景 不同.研究者的切入點(diǎn)不同,其概念也會(huì)存在顯著的差異 。在實(shí)際應(yīng)用中,大數(shù)據(jù)的概念因?qū)嶋H情況而有所不同。
(二)大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)應(yīng)用技術(shù)是一種非結(jié)構(gòu)性的數(shù)據(jù)處理技 術(shù),在處理規(guī)模較大的信息數(shù)據(jù)量時(shí),應(yīng)用數(shù)據(jù)化的思維 與先進(jìn)的數(shù)據(jù)分析技術(shù),提取關(guān)鍵、有價(jià)值的信息,并且 能夠快速而高效地處理這些數(shù)據(jù),進(jìn)而推動(dòng)工作進(jìn)程。
數(shù)據(jù)信息大量化特點(diǎn)(Volume)。大數(shù)據(jù)用于搜 集、存儲(chǔ)和運(yùn)算數(shù)量復(fù)雜的信息,在云空間的背景下,數(shù)據(jù) 儲(chǔ)存空間加大。而當(dāng)前,檔案信息數(shù)量也呈現(xiàn)出“幾何式” 增長(zhǎng)態(tài)勢(shì),數(shù)字信息數(shù)量龐大,數(shù)字化管理已成為必然趨 勢(shì)。
數(shù)據(jù)的復(fù)雜多樣化特點(diǎn)(Variety)。不同的數(shù) 據(jù)源,購(gòu)物信息、影像資料、行程軌跡、地理位置等信息, 繁雜多樣的類型數(shù)據(jù)要求數(shù)據(jù)的處理能力必須要提高。要 求能夠?qū)?shù)據(jù)進(jìn)行系統(tǒng)的整理、篩選、計(jì)算等操作,進(jìn)而 轉(zhuǎn)換為結(jié)構(gòu)數(shù)據(jù)。大數(shù)據(jù)是處理海量數(shù)據(jù)的利器,更是為 處理不同來源、不同格式的多元化數(shù)據(jù)提供了可能。
數(shù)據(jù)價(jià)值密度低的特點(diǎn)(Value)。價(jià)值是大數(shù) 據(jù)的核心特征,數(shù)據(jù)信息采集具有時(shí)效性,若因?yàn)閿?shù)據(jù)采 集得不夠及時(shí),數(shù)據(jù)不連續(xù),數(shù)據(jù)樣本不夠全面,則數(shù)據(jù) 便會(huì)失去其真實(shí)性。而當(dāng)數(shù)據(jù)符合收集條件,所需處理的 數(shù)據(jù)量也在允許范圍內(nèi),那么運(yùn)用大數(shù)據(jù)技術(shù)運(yùn)算可以得 到更確切的反饋。對(duì)檔案管理來講,檔案信息量龐大,大 數(shù)據(jù)技術(shù)能夠?qū)A康臋n案信息數(shù)據(jù)進(jìn)行運(yùn)算,并合理地 分析利用,發(fā)揮數(shù)據(jù)最大化的價(jià)值效益。
數(shù)據(jù)信息高速運(yùn)行特點(diǎn)(Velocity)。大數(shù)據(jù)背景下,檔案管理工作要求能及時(shí)快速地響應(yīng)突如其來的變化 ,要求數(shù)據(jù)分析要快速、準(zhǔn)確,即便是異地檔案信息也能 快速獲得、闡發(fā)與處置。此外,若采用數(shù)據(jù)分析和分布式 處理模式,對(duì)儲(chǔ)存的檔案信息進(jìn)行全面的檢索、決策,則 能夠從中可獲取更高價(jià)值的信息。
檔案學(xué)是以檔案現(xiàn)象為研究對(duì)象,以揭示檔案現(xiàn)象的本質(zhì)和規(guī)律為目標(biāo),探討檔案信息資源的辦理、開 創(chuàng)的理論、原則與方式的學(xué)科。檔案學(xué)知識(shí)的利用有助于 深化檔案管理工作和檔案管理的科學(xué)程度,能夠更有效地 開發(fā)利用檔案信息資源,為人類社會(huì)的現(xiàn)代化發(fā)展服務(wù)。
在現(xiàn)代社會(huì)中,檔案隨處可見,與我們息息相關(guān),檔案以不同形式存在于我們的社會(huì)工作生活中,是人 類有意識(shí)地記實(shí)保留下來的書面標(biāo)記,是個(gè)人、社會(huì)組織 和國(guó)家機(jī)構(gòu)在社會(huì)活動(dòng)中具備保留代價(jià)的筆墨、丹青、音 頻、影像以及其他各種方式的歷史記錄。檔案在社會(huì)實(shí)踐 中的基本作用為:憑證作用、參考作用和情感作用。
檔案主要由4個(gè)基本要素組成:檔案的構(gòu)成者 ,分別為個(gè)人、社會(huì)組織和國(guó)家機(jī)構(gòu);檔案具體內(nèi)容,是 檔案承載的常識(shí)信息及人類文明智慧結(jié)晶;檔案形式,指 的是載體形式、信息記錄和表達(dá)形式,檔案的形式多種多 樣;檔案的本質(zhì),是直接的、原始的歷史記錄,是歷史的 最真實(shí)的憑證。
檔案開啟了人類的文明時(shí)代,五千多年以來, 人類以文字為載體來記錄重要的數(shù)據(jù)信息,檔案由此形成 ,并隨著人類文明的發(fā)展逐漸完善。遠(yuǎn)古時(shí)代,人類主要 是用肢體語言進(jìn)行交流和傳遞信息,但這種傳遞方式不能 將信息完整地保存下來;到了原始社會(huì)后期人類嘗試用結(jié) 繩、結(jié)珠、編貝和積石等原始實(shí)物來幫助記錄時(shí)事;直至 后來出現(xiàn)紙質(zhì)檔案,再到近現(xiàn)代音頻、圖片、電子文件等 檔案形式產(chǎn)生,它們記錄了人類的每一步歷史足跡,構(gòu)成 了人類的檔案信息財(cái)富。
從古至今,人類一直很重視對(duì)檔案的保存和利 用,設(shè)置專門的館室并選派專門的人員進(jìn)行管理。在幾千 年的日積月累中,檔案信息的數(shù)據(jù)量翻倍增長(zhǎng)。
(一)大數(shù)據(jù)與檔案同為信息范疇
通過閱讀丁海濱教授出版的檔案學(xué)類圖書,對(duì) 檔案學(xué)有一個(gè)大致的了解。從古至今,人類一直都在用自 己的方法記錄著重要的信息,以滿足人們生產(chǎn)生活的需要 ,久而久之,檔案這一概念油然而生。在如今的信息化時(shí) 代,紙張并不是記錄檔案信息的唯一載體,記錄檔案的載 體多種多樣,記錄形式也不盡相同。我們的生活發(fā)生了深 刻的變化,數(shù)字經(jīng)濟(jì)、數(shù)字化行程等大數(shù)據(jù)技術(shù)產(chǎn)物層出 不窮,尤其在新冠疫情防控期間,大數(shù)據(jù)技術(shù)在我國(guó)社會(huì) 生活的各領(lǐng)域發(fā)揮著極為重要的作用。在收集、存儲(chǔ)檔案 信息方面,大數(shù)據(jù)的運(yùn)用有著深遠(yuǎn)的意義。
(二)大數(shù)據(jù)與檔案同為人類文明瑰寶
大數(shù)據(jù)與檔案共同承載著人類社會(huì)的智慧文明 ,同為人類的瑰寶。檔案是人類活動(dòng)的記錄工具,新技術(shù) 環(huán)境下檔案資源種類日益豐富。社會(huì)媒體、全媒體、融合 媒體等新技術(shù)平臺(tái)產(chǎn)生的檔案資源,如大量網(wǎng)頁信息等, 對(duì)于這些檔案資源的采集與長(zhǎng)期保存,傳統(tǒng)的檔案開發(fā)與 保存的方法就顯得無能為力。大數(shù)據(jù)收集信息數(shù)據(jù)量大, 與傳統(tǒng)紙質(zhì)實(shí)物檔案不同的是,大數(shù)據(jù)是借助互聯(lián)網(wǎng)在 線上獲取信息,所存儲(chǔ)的數(shù)據(jù)也是雜亂無章的。而這些雜 亂無章的數(shù)據(jù)是人類在日常生產(chǎn)生活無意識(shí)產(chǎn)生的,這樣 看來檔案學(xué)與大數(shù)據(jù)并無直接聯(lián)系。但我國(guó)檔案學(xué)基礎(chǔ)理 論研究已經(jīng)并將繼續(xù)證明,任何科學(xué)的研究方法都不可能 獨(dú)立于特定學(xué)科而孤立存在。檔案學(xué)也是如此,近些年來 ,檔案學(xué)相關(guān)工作自覺地參與集體記憶,存在于社會(huì)記 憶的一部分,而社會(huì)記憶是碎片化的,也就是人類生活產(chǎn) 生的碎片化數(shù)據(jù)信息。
(三)大數(shù)據(jù)與檔案相輔相成
大數(shù)據(jù)與檔案之間是密不可分的,具有共通性 。大數(shù)據(jù)加工并保存所得的信息一般存儲(chǔ)在線上數(shù)據(jù)庫中 ,可隨時(shí)調(diào)動(dòng)和查詢利用。而檔案信息一般以實(shí)物存儲(chǔ)在 館室中,在現(xiàn)實(shí)生活中,對(duì)于重要的檔案信息,比如企 業(yè)管理合同,學(xué)生的學(xué)籍,家庭中的開支賬簿等重要信 息文件,我們都會(huì)進(jìn)行備份以備不時(shí)之需。在傳統(tǒng)的檔 案信息記錄之中,大多是以紙質(zhì)實(shí)物作為備份文件,以實(shí) 物形態(tài)存在,在信息安全方面具有一定優(yōu)勢(shì),但傳統(tǒng)的紙 質(zhì)實(shí)物檔案不易保存與利用。以數(shù)據(jù)形態(tài)存在于檔案大家 族中,具有長(zhǎng)久保存利用的優(yōu)勢(shì),但也會(huì)存在數(shù)據(jù)信息泄 漏的風(fēng)險(xiǎn)。在現(xiàn)代信息化時(shí)代,檔案信息的備份多以電子 版文件為主,攜帶方便,可以隨時(shí)查詢、獲取有效信息。 大數(shù)據(jù)與檔案都會(huì)涉及收集、管理、應(yīng)用,兩者取長(zhǎng)補(bǔ)短 、相輔相成。
所謂數(shù)據(jù)化管理就是利用計(jì)算機(jī)網(wǎng)絡(luò)等其他手 段,對(duì)有用的信息進(jìn)行數(shù)字化處理,這種方式簡(jiǎn)易、效率 高,改變了繁冗復(fù)雜的傳統(tǒng)檔案管理模式。自人類社會(huì)進(jìn) 入信息時(shí)代以來,以微機(jī)應(yīng)用為核心的各項(xiàng)業(yè)務(wù)信息化與 自動(dòng)化處理建設(shè)已提上日程,檔案數(shù)字化建設(shè)也是如此。 依托當(dāng)代新型檔案信息管理系統(tǒng),實(shí)現(xiàn)紙質(zhì)檔案的數(shù)字網(wǎng) 絡(luò)化管理。檔案作為社會(huì)信息資源的重要集合,其代表的 社會(huì)價(jià)值更是難以衡量,同時(shí)也為大數(shù)據(jù)發(fā)展提供了堅(jiān)實(shí) 的信息基礎(chǔ)。從目前的實(shí)際情況來看,檔案數(shù)據(jù)化是檔案 數(shù)字化的進(jìn)一步拓展,既是檔案數(shù)據(jù)的內(nèi)容體現(xiàn),也是 檔案價(jià)值分析與挖掘的基礎(chǔ)。傳統(tǒng)的檔案管理工作模式在 當(dāng)今信息化發(fā)展的時(shí)代已不再適用。檔案管理工作正在 逐漸實(shí)現(xiàn)數(shù)字化,實(shí)現(xiàn)數(shù)據(jù)的簡(jiǎn)化。
紙張等非數(shù)字化介質(zhì)為載體的檔案信息數(shù)據(jù), 如保存?zhèn)洳榈膱D紙、賬本、圖稿、合約等,長(zhǎng)期以來存放 在各個(gè)檔案館室中,這樣會(huì)給檔案信息的存放、管理和使 用帶來巨大的困難,致使檔案工作進(jìn)度緩慢,效率低。一 方面,隨著信息量的爆發(fā)式增長(zhǎng),實(shí)物檔案信息數(shù)量變得 更加龐大,存儲(chǔ)這些實(shí)物檔案需要耗費(fèi)大量的人力物力; 另一方面,大數(shù)據(jù)時(shí)代背景下,要求信息具備時(shí)效性,而 這些實(shí)物檔案限制了信息的流通性,致使這些信息不能得 到有效的利用,造成信息資源的浪費(fèi)。而檔案數(shù)字化管理 可以彌補(bǔ)實(shí)物儲(chǔ)存檔案信息的缺點(diǎn),檔案數(shù)字化管理能夠 更加快速、精準(zhǔn)地檢索信息,且可以隨時(shí)隨地查閱檔案信 息,若出現(xiàn)數(shù)據(jù)更新,數(shù)字化檔案可以及時(shí)快速替換掉過 時(shí)數(shù)據(jù),為檔案價(jià)值最大化利用創(chuàng)造良好的環(huán)境條件。 在檔案數(shù)字化管理過程中,大數(shù)據(jù)技術(shù)會(huì)將零散的、不同 的信息資源存儲(chǔ)在數(shù)據(jù)庫中,進(jìn)行初步的運(yùn)算分析,對(duì)數(shù) 據(jù)信息分門別類,便于連接網(wǎng)絡(luò)以后能夠進(jìn)行有效的資源 共享。
(一)大數(shù)據(jù)時(shí)代下檔案學(xué)學(xué)科發(fā)展情況
在大數(shù)據(jù)時(shí)代背景下,海量數(shù)據(jù)信息中有許多 信息是具有重要價(jià)值的,是促進(jìn)我國(guó)社會(huì)進(jìn)步重要數(shù)據(jù)資 源,因此,檔案學(xué)學(xué)科的學(xué)習(xí)研究需要有一個(gè)全新的方 向。在學(xué)科教育上,增加學(xué)習(xí)研究?jī)?nèi)容,在實(shí)踐中深化 檔案學(xué)內(nèi)容研究程度,緊跟時(shí)代的步伐,開辟一條適合 我國(guó)檔案學(xué)發(fā)展之路。大數(shù)據(jù)時(shí)代下,豐富檔案學(xué)研究 內(nèi)容勢(shì)在必行。
(二)大數(shù)據(jù)時(shí)代下檔案工作發(fā)展態(tài)勢(shì)
人類記憶和把握事物發(fā)展規(guī)律的關(guān)鍵在于檔案 信息的記錄,它記錄著人類歷千年來的智慧文明寶藏。檔 案的存在對(duì)人類的發(fā)展和社會(huì)生活是必不可少的,檔案 數(shù)字化管理為我國(guó)文明的傳承帶來了新的思維方式,例 如文化檔案信息以數(shù)據(jù)化形式儲(chǔ)存,大家可以隨時(shí)隨地 了解各地文化習(xí)俗,促進(jìn)民族團(tuán)結(jié),滿足社會(huì)需求,推 動(dòng)社會(huì)現(xiàn)代化發(fā)展。
檔案管理工作對(duì)于企業(yè)和單位而言至關(guān)重要, 檔案工作就是用科學(xué)的原則和方法管理檔案信息。就目 前而言,檔案管理工作存在效率低、利用率低等問題, 傳統(tǒng)的管理模式已不再適用。檔案工作的信息化將是社 會(huì)發(fā)展的必然趨勢(shì),建立電子檔案系統(tǒng),將相關(guān)檔案信 息資料通過大數(shù)據(jù)技術(shù)的處理保存于線上數(shù)據(jù)庫中,必 要時(shí)可以對(duì)其信息文件設(shè)置密碼,以防檔案資料丟失。
在現(xiàn)代檔案管理工作中,不僅要有先進(jìn)技術(shù)的 應(yīng)用,還要打造優(yōu)質(zhì)人才隊(duì)伍,提高機(jī)關(guān)檔案工作人員的 業(yè)務(wù)認(rèn)知,統(tǒng)一信息的搜集標(biāo)準(zhǔn),加強(qiáng)各方面工作監(jiān)管 力度,以保障檔案接收工作的完整性,準(zhǔn)確性;建立 完善的網(wǎng)絡(luò)檔案管理系統(tǒng),推進(jìn)檔案工作的順利進(jìn)行, 實(shí)現(xiàn)資源共享,降低試錯(cuò)成本,提高工作效率。
(一)有利于提升數(shù)據(jù)分析處理能力
大數(shù)據(jù)應(yīng)用范圍愈來愈大,數(shù)據(jù)分析形式更加 復(fù)雜化,數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)的主要組成部分。為實(shí) 現(xiàn)檔案信息數(shù)字化,需要改變傳統(tǒng)檔案管理的理念與思維 ,學(xué)習(xí)和深化檔案信息化理念,真正意識(shí)到將大數(shù)據(jù)技術(shù) 融入檔案管理工作當(dāng)中的重要性,真正將檔案管理工作與 單位的未來發(fā)展聯(lián)系在一起,進(jìn)行智能化管理和個(gè)性化服 務(wù)。將大數(shù)據(jù)技術(shù)應(yīng)用到檔案工作當(dāng)中,能夠有效提升 工作機(jī)關(guān)在檔案信息數(shù)據(jù)的分析處理能力。在此背景下, 機(jī)關(guān)工作人員能夠正確快速地在檔案信息數(shù)據(jù)庫中提取 出有用的信息,進(jìn)而挖掘信息的潛在價(jià)值,充分有效地 利用檔案信息資源,并及時(shí)更新數(shù)據(jù)信息,保證信息的 時(shí)效性與準(zhǔn)確性。
(二)有利于加強(qiáng)數(shù)據(jù)檢索質(zhì)量
檔案的存儲(chǔ)是其管理工作中一個(gè)至關(guān)重要的步 驟,當(dāng)前,檔案資料信息數(shù)量和規(guī)模不斷增加,結(jié)合實(shí)際 情況,實(shí)現(xiàn)檔案信息資料的數(shù)據(jù)化存儲(chǔ)是具有現(xiàn)實(shí)意義的 。在以往的檔案存儲(chǔ)中,大多以紙質(zhì)檔案為主,在進(jìn)行數(shù) 據(jù)檢索時(shí),往往要耗費(fèi)更多的精力,加大數(shù)據(jù)檢索成本, 數(shù)據(jù)檢索質(zhì)量也得不到保障。將大數(shù)據(jù)技術(shù)應(yīng)用到檔案管 理工作中,管理人員需要轉(zhuǎn)變檔案管理理念和改進(jìn)檔案管 理工作方式,積極應(yīng)用數(shù)據(jù)結(jié)構(gòu)分析法、功能分類法等方 法對(duì)檔案進(jìn)行分類管理,同時(shí)利用Spark、Hive、Impala等計(jì)算機(jī)程序進(jìn)行整合,便于對(duì)檔案信息的查詢分析;借助PowerBI、Qlikview等平臺(tái)對(duì)檔案信息數(shù)據(jù)進(jìn)行可 視化分析,觀察數(shù)據(jù)信息間的關(guān)聯(lián),有利于對(duì)檔案資源進(jìn) 行整合。從而精準(zhǔn)數(shù)據(jù)檢索信息,提高檢索準(zhǔn)確性和數(shù)據(jù)檢 索質(zhì)量,能夠保障后續(xù)工作的順利開展,起到事半功倍的效果。
(三)有利于加大信息存儲(chǔ)量
利用大數(shù)據(jù)技術(shù)建立檔案信息數(shù)據(jù)庫,儲(chǔ)存信息空間更大,能更好地滿足數(shù)據(jù)存儲(chǔ)的需要,這種儲(chǔ)存方式,不僅可以提升空間存儲(chǔ)量,且相較于傳統(tǒng)的紙質(zhì)檔案 存儲(chǔ),將信息存儲(chǔ)在數(shù)據(jù)庫中更不易受外力因素的影響而 損壞,可以有效確保數(shù)據(jù)的安全性;隨著數(shù)據(jù)庫技術(shù)的提 高,對(duì)于無關(guān)緊要的數(shù)據(jù),沒有意義的數(shù)據(jù)會(huì)自動(dòng)進(jìn)行清 理,節(jié)省存儲(chǔ)空間,且不必耗費(fèi)更多的精力。
總之,大數(shù)據(jù)本身存在的價(jià)值很高,雖然大數(shù)據(jù)會(huì)存在個(gè)人隱私泄露的隱患,但其更多的是給我們的工 作生活帶來了極大便利,對(duì)未來的科學(xué)技術(shù)與經(jīng)濟(jì)發(fā)展產(chǎn) 生了巨大影響。隨著大數(shù)據(jù)與信息技術(shù)的快速發(fā)展,各領(lǐng) 域都充分地認(rèn)識(shí)到此項(xiàng)技術(shù)在檔案工作中發(fā)揮著舉足輕重 的作用。檔案工作應(yīng)在夯實(shí)檔案開放利用、數(shù)字化等工 作的基礎(chǔ)上,充分運(yùn)用大數(shù)據(jù)技術(shù)挖掘數(shù)據(jù)資源,追求既 有專業(yè)深度又有跨學(xué)科研究廣度的發(fā)展趨勢(shì)。從多方運(yùn)用 其成果,加大對(duì)其的投入和運(yùn)維,如此能推動(dòng)檔案工作 水平的提升和優(yōu)化,提高我國(guó)信息資源開發(fā)利用能力。