馮曉霞 馮曉玲
摘要:2012年“大數(shù)據(jù)”一詞被介紹到中國,如何在大數(shù)據(jù)時代取得更大的發(fā)展,成為社會各界探討的熱點。大數(shù)據(jù)對各行各業(yè)的發(fā)展帶來了巨大的影響,檔案工作也不例外。本文主要介紹了“大數(shù)據(jù)”的內(nèi)涵,從大數(shù)據(jù)的概念、價值作用以及大數(shù)據(jù)的特點三個方面介紹大數(shù)據(jù),在此基礎(chǔ)上,結(jié)合現(xiàn)階段檔案工作館的發(fā)展,對大數(shù)據(jù)背景下檔案工作館遇到的機(jī)遇和挑戰(zhàn)做簡單的分析,真正了解大數(shù)據(jù)對檔案工作發(fā)展的影響。
關(guān)鍵詞:大數(shù)據(jù);信息;檔案館
中圖分類號:G271 文獻(xiàn)標(biāo)識碼:A 文章編號:1005-5312(2019)0b-0284-01
一、“大數(shù)據(jù)”的概念
(一)“大數(shù)據(jù)”的概念
大數(shù)據(jù)不是對數(shù)據(jù)量大小的定量描述,而是一種在種類繁多、數(shù)量龐大的多樣數(shù)據(jù)中進(jìn)行的快速信息獲得。大數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的總和,是對海量數(shù)據(jù)的管理;大數(shù)據(jù)的核心是海量數(shù)據(jù)的決策,日常生活中智能設(shè)備、物聯(lián)網(wǎng)、社交網(wǎng)站等產(chǎn)生的半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于在學(xué)習(xí)、工作中產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)。如何處理這些半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)成為大數(shù)據(jù)的主要業(yè)務(wù)與內(nèi)容。
綜上所述,大數(shù)據(jù)的概念可以總結(jié)為:大數(shù)據(jù)是指通過對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的挖掘、分析,進(jìn)而為社會決策提供數(shù)據(jù)依據(jù)的一種數(shù)據(jù)研究。
(二)“大數(shù)據(jù)”的作用、價值
通過對大數(shù)據(jù)概念的理解,可以歸納為以下幾個方面:一是通過數(shù)據(jù)的分析、挖掘,為企業(yè)的可持續(xù)發(fā)展做出科學(xué)預(yù)測,減小企業(yè)發(fā)展風(fēng)險,實現(xiàn)企業(yè)的科學(xué)發(fā)展。為社會經(jīng)濟(jì)的發(fā)展提供科學(xué)的分析依據(jù)。二是對用戶的研究分析,從海量數(shù)據(jù)中的深度分析,挖掘利用者的行為習(xí)慣和愛好,充分了解利用者的需求。三是有助于提高信息安全,為信息安全部門應(yīng)對安全威脅提供有效途徑。四是通過對公共大數(shù)據(jù)的分析、挖掘,可提高公共機(jī)構(gòu)的執(zhí)行能力,減少錯誤數(shù)據(jù)的負(fù)面作用,幫助政府節(jié)省開支,為政府決策提供可靠依據(jù)。
(三)“大數(shù)據(jù)”的特點
業(yè)界認(rèn)為滿足“4V”(Variety、Velocity、Volume、value,即種類多、流量大、容量大、價值高)指標(biāo)的數(shù)據(jù)才可稱為大數(shù)據(jù)。
1.容量大:數(shù)據(jù)量級已從TB(1012字節(jié))發(fā)展至PB乃至zB,可稱海量、巨量乃至超量。
2.多樣化:數(shù)據(jù)類型繁多,愈來愈多為網(wǎng)頁、圖片、視頻、圖像與位置信息等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)信息。
3.快速化:數(shù)據(jù)流往往為高速實時數(shù)據(jù)流,而且往往需要快速、持續(xù)的實時處理;處理工具亦在快速演進(jìn),軟件工程及人工智能等均可能介入。
4.價值高和密度低:以視頻安全監(jiān)控為例,連續(xù)不斷的監(jiān)控流中,有重大價值者可能僅為一兩秒的數(shù)據(jù)流;360。全方位視頻監(jiān)控的“死角”處,可能會挖掘出最有價值的圖像信息。
二、“大數(shù)據(jù)”背景下的檔案工作館現(xiàn)狀
(一)大數(shù)據(jù)背景下檔案工作現(xiàn)狀
檔案工作是一項基礎(chǔ)性的工作,是對各類信息的綜合管理。隨著社會的發(fā)展,檔案工作的對象和工作內(nèi)容都在不斷地發(fā)展改進(jìn),檔案的范圍從紙質(zhì)檔案擴(kuò)展到了音像檔案、電子檔案,檔案工作的方式也從手工擴(kuò)展到了計算機(jī),這些變化都展現(xiàn)出了檔案工作與時俱進(jìn)的特性。然而目前在計算機(jī)技術(shù)快速發(fā)展的背景下,檔案工作的發(fā)展出現(xiàn)了一些問題,這些問題或多或少地影響了目前檔案工作的發(fā)展。
(二)電子檔案的管理水平參差不齊
計算機(jī)應(yīng)用已經(jīng)滲透到了各個方面,電子文件、電子檔案已經(jīng)在各個行業(yè)中得到了廣泛的運用,然而關(guān)于電子檔案的收集、歸檔等基礎(chǔ)性工作卻沒有得到良好的指導(dǎo)和規(guī)范,導(dǎo)致大量電子文件、電子檔案信息資源的流失。各單位對電子文件、電子檔案的收集、歸檔流程、規(guī)范都有所不同,導(dǎo)致目前電子檔案的管理水平良莠不齊。
(三)檔案信息資源建設(shè)發(fā)展緩慢
在大數(shù)據(jù)背景下,檔案信息資源的建設(shè)更加需要綜合各類檔案信息,只有將檔案信息資源池建設(shè)好,才能夠進(jìn)一步地建設(shè)數(shù)字檔案館,才能夠發(fā)揮檔案信息資源的真正價值。
(四)大數(shù)據(jù)背景下的檔案工作多體現(xiàn)在硬件設(shè)施的現(xiàn)代化,而缺乏對檔案工作實質(zhì)性地改革
檔案人員信息處理能力不足,綜合性檔案人才缺乏。
當(dāng)前檔案工作大多還停留在傳統(tǒng)檔案工作模式中,檔案資源的開發(fā)利用也多是以檔案匯編、檔案編纂資料的形式開展,并沒有很好地利用網(wǎng)絡(luò)、計算機(jī)技術(shù)、大數(shù)據(jù)技術(shù)對檔案資源進(jìn)行深度地分析整合。如何將檔案信息資源進(jìn)行深度的開發(fā),不僅是對檔案館存儲能力提出更高的要求,更對數(shù)據(jù)的分析、挖掘能力提出更生層次的挑戰(zhàn),如何從如此復(fù)雜大量的數(shù)據(jù)中找出有效的信息,分析出有效的數(shù)據(jù),為用戶提供更加準(zhǔn)確的信息服務(wù)都將是檔案工作館面臨的新問題。