文/鐘奕思
2010 年,全球數(shù)據(jù)量跨入了ZB時代,根據(jù)國際數(shù)據(jù)資訊(IDC)公司監(jiān)測,全球數(shù)據(jù)量大約每兩年翻一番,預(yù)計到2020 年,全球?qū)碛?5ZB的數(shù)據(jù)量,信息數(shù)據(jù)以驚人的速度爆炸式地增長。同時,信息數(shù)據(jù)已經(jīng)滲透到社會生活的方方面面,深刻影響著我們的生活工作乃至國家經(jīng)濟、社會發(fā)展,大數(shù)據(jù)時代已經(jīng)到來。
大數(shù)據(jù)是以目前的工具和信息處理能力無法有效采集、管理、處理和分析的信息或數(shù)據(jù)集合。一般認為,大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)和交互數(shù)據(jù)。大數(shù)據(jù)是數(shù)字化信息時代的產(chǎn)物。伴隨著信息數(shù)據(jù)爆炸性增長、數(shù)據(jù)類型增加、信息流動速度增快,人們面臨著信息數(shù)據(jù)處理難度增大的狀況。
大數(shù)據(jù)的特點可用“4V”來描述:(1)Volume(體量),數(shù)據(jù)量龐大是大數(shù)據(jù)最明顯的特征,數(shù)據(jù)規(guī)模往往達到PB 級。(2)Variety(多樣化),大數(shù)據(jù)包括了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)以及交互數(shù)據(jù),而且以非結(jié)構(gòu)化數(shù)據(jù)為主;不同類型數(shù)據(jù)在數(shù)據(jù)來源、編碼方式、數(shù)據(jù)格式、應(yīng)用特征等多個方面存在差異。(3)Velocity(速度),大數(shù)據(jù)快速動態(tài)變化,形成流式數(shù)據(jù),要求實時處理,快速反應(yīng)。(4)Vitality(密度),大數(shù)據(jù)規(guī)模龐大、增長速度快,但信息價值密度反而降低,隱藏在海量數(shù)據(jù)中的有用信息并沒有隨著數(shù)據(jù)量的增長相應(yīng)增長,反而使我們獲取有用信息的難度加大。
在大數(shù)據(jù)時代背景下,檔案部門、檔案管理工作也受到“大數(shù)據(jù)”洪潮的影響,出現(xiàn)了新變化。檔案部門面臨著大數(shù)據(jù)帶來的挑戰(zhàn)。
(一)檔案部門大數(shù)據(jù)的來源。檔案部門保管的數(shù)據(jù)信息主要來源于兩方面:一是檔案館(室)收集的檔案資源,包括檔案館(室)接收的電子文件、數(shù)碼照片、音頻、視頻,以及紙質(zhì)檔案、傳統(tǒng)載體聲像檔案數(shù)字化轉(zhuǎn)換形成的數(shù)字資源等。二是檔案部門管理檔案、開展業(yè)務(wù)過程中產(chǎn)生的數(shù)據(jù),包括檔案管理系統(tǒng)數(shù)據(jù)庫文件、備份數(shù)據(jù),檔案管理系統(tǒng)與各業(yè)務(wù)系統(tǒng)對接形成的交換數(shù)據(jù),智能庫房傳感器收集到的庫房監(jiān)控數(shù)據(jù),檔案網(wǎng)站、官方微博數(shù)據(jù)等。在大數(shù)據(jù)時代,各種機構(gòu)在業(yè)務(wù)活動中產(chǎn)生的數(shù)據(jù)和信息大量增長,導(dǎo)致最終作為檔案保存下來的文件及信息數(shù)據(jù)相應(yīng)增多;檔案館(室)收集的檔案資源增加,進而導(dǎo)致檔案部門在管理活動中產(chǎn)生的信息數(shù)據(jù)也隨之增加。檔案部門保管的檔案資源和檔案管理信息數(shù)據(jù)增長迅速、數(shù)量巨大,這些構(gòu)成了檔案部門的大數(shù)據(jù)。
(二)檔案部門大數(shù)據(jù)的特征。
1.信息數(shù)據(jù)量劇增。各機構(gòu)在業(yè)務(wù)活動中產(chǎn)生的信息數(shù)據(jù)急劇增長,導(dǎo)致檔案部門收集保管的檔案資源快速增加。據(jù)統(tǒng)計,2008年,全國各級國家檔案館共保存檔案1.93億卷,較上年增加1769萬卷,增幅達10%,而到2011 年,各級國家檔案館館藏已達3.3億卷,到2020 年,各級國家檔案館館藏將達到6 億多卷。檔案數(shù)字資源和信息化檔案數(shù)據(jù)增長更是迅速。在“十一五”期間,某特大型企業(yè)檔案館在信息化規(guī)劃項目中統(tǒng)一推廣實施檔案管理系統(tǒng),目前已建成的檔案目錄中心覆蓋集團各單位,保存數(shù)據(jù)量高達400余萬卷案卷、4000 余萬件檔案,館藏存儲量已由GB 向TB 級和PB級轉(zhuǎn)變。隨著檔案信息化的開展、數(shù)字檔案館(室)的建設(shè)以及檔案信息資源整合,各地各級檔案館(室)保存的檔案目錄信息和全文數(shù)據(jù)呈幾何級數(shù)增長,存儲數(shù)據(jù)量達到海量規(guī)模,形成一個巨大的檔案資源庫。
2.信息數(shù)據(jù)類型多樣化。一方面,就檔案部門管理的檔案資源而言:傳統(tǒng)的檔案管理,管理對象以紙質(zhì)檔案為主,檔案部門對檔案信息的管理也是對檔案實體的管理。而在現(xiàn)今大數(shù)據(jù)時代,檔案部門管理的檔案類型多樣化,不但有傳統(tǒng)的紙質(zhì)檔案,還有大量的數(shù)字資源。檔案部門保管的信息數(shù)據(jù)范圍不僅包括數(shù)字資源本身的信息內(nèi)容,還包括其結(jié)構(gòu)、背景信息、元數(shù)據(jù)。檔案部門保管的檔案信息數(shù)據(jù)范圍擴大了。另一方面,從檔案部門日常管理、提供服務(wù)產(chǎn)生的信息數(shù)據(jù)而言:隨著檔案信息化的開展,檔案部門日常管理活動形成大量的信息數(shù)據(jù),如檔案管理系統(tǒng)數(shù)據(jù)庫文件、備份數(shù)據(jù),檔案管理系統(tǒng)與各業(yè)務(wù)系統(tǒng)對接形成的交換數(shù)據(jù),智能庫房傳感器收集到的庫房監(jiān)控數(shù)據(jù)等;檔案部門通過網(wǎng)站建設(shè)、官方微博等渠道開展網(wǎng)絡(luò)服務(wù),與利用者進行交互交流,從中搜集到的利用者信息(如利用者的地理位置、搜索歷史、搜索時間、瀏覽記錄等數(shù)據(jù))也越來越多。檔案部門管理的信息數(shù)據(jù)來源拓寬,類型多樣化。而且,檔案部門管理的信息數(shù)據(jù)結(jié)構(gòu)也在逐漸發(fā)生變化,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)類型增多。網(wǎng)頁、音頻、圖像和視頻等數(shù)字資源在檔案館(室)藏中的比重逐漸增加,成為未來館藏的重要來源。大量增加的利用者信息數(shù)據(jù)也將在利用服務(wù)中發(fā)揮重要作用。
3.信息數(shù)據(jù)流動速度快。以紙質(zhì)檔案為主的傳統(tǒng)檔案管理中,信息數(shù)據(jù)的流動往往與紙質(zhì)檔案實體的傳遞同步,信息數(shù)據(jù)的流動基本依附于實體,因此信息數(shù)據(jù)的流動速度受到限制。而在大數(shù)據(jù)時代,檔案信息數(shù)據(jù)的傳播、傳遞并不依附于載體,尤其對于數(shù)字化的檔案資源,借助計算機網(wǎng)絡(luò)傳播,信息數(shù)據(jù)流動速度大大加快,甚至可以實現(xiàn)網(wǎng)絡(luò)上的實時交互。
4.信息價值密度降低,有用信息獲取難度增大。隨著檔案信息數(shù)據(jù)急劇增長、類型多樣化,隱藏在海量數(shù)據(jù)中的有用信息卻沒有隨著數(shù)據(jù)量的增長而相應(yīng)增長,反而使我們獲取有用信息的難度加大。我們感受最為明顯的是,隨著檔案管理系統(tǒng)數(shù)據(jù)量的增大,在進行檔案查詢時,需要的信息容易埋沒在大量的不需要的數(shù)據(jù)中,增加了查詢的時間,降低檢索性能。單一檔案館(室)內(nèi)保存的檔案信息數(shù)據(jù)格式、編碼方式、應(yīng)用特征等形式多樣化,各館(室)之間更是差異明顯,從而形成了大量的異構(gòu)數(shù)據(jù),使得“信息孤島”問題突出,檔案信息數(shù)據(jù)共享、異構(gòu)數(shù)據(jù)信息整合面臨困難。檔案部門與利用者網(wǎng)絡(luò)交互產(chǎn)生的大量數(shù)據(jù),以非結(jié)構(gòu)化、半結(jié)構(gòu)化的形式存在,如何從中提取出有用的信息、提升檔案服務(wù)質(zhì)量,也是我們面臨的難題。
檔案部門收集管理的檔案資源以及管理檔案、開展業(yè)務(wù)活動過程中產(chǎn)生的龐大數(shù)據(jù)信息,構(gòu)成了檔案部門大數(shù)據(jù)的來源。這些數(shù)據(jù)信息增長迅速、類型多樣化、流動速度加快、價值密度降低的特點和變化,給檔案部門在檔案保管、鑒定、利用等環(huán)節(jié)帶來了新的挑戰(zhàn)。
(一)大數(shù)據(jù)帶來的檔案保管壓力。與檔案信息數(shù)據(jù)急劇增長伴隨而來的是檔案保管的壓力。目前,不僅傳統(tǒng)檔案管理會出現(xiàn)“脹庫”,即由于庫房容量有限導(dǎo)致新增加的檔案無法正常存儲到庫房中,而且數(shù)字資源的保存也面臨著類似的問題,常常會碰到無法向數(shù)據(jù)庫中增加新的檔案數(shù)據(jù)的情況。近年來,在各級檔案工作評估檢查中,由于檔案庫房緊張導(dǎo)致檔案未能集中統(tǒng)一管理、整理質(zhì)量不夠規(guī)范的問題已時有出現(xiàn)。隨著電子文件的廣泛應(yīng)用、數(shù)字檔案館(室)建設(shè)的逐步推進,各級各類檔案館(室)保管的數(shù)字資源急劇增長,存儲數(shù)據(jù)量達到海量規(guī)模,對檔案信息數(shù)據(jù)存儲設(shè)備的存儲空間、運算速度提出了更高的要求。伴隨著檔案管理大數(shù)據(jù)時代的到來,檔案信息數(shù)據(jù)存儲空間的問題日益嚴峻。
(二)大數(shù)據(jù)帶來的鑒定難題。在大數(shù)據(jù)時代,檔案信息數(shù)據(jù)總量大,而且增長速度快,尤其是電子文件以指數(shù)級的驚人速度增長。雖然我們知道這些浩瀚的信息數(shù)據(jù)中蘊藏著巨大的“金礦”,但我們想要從中“淘金”比以往針對紙質(zhì)文件的傳統(tǒng)檔案鑒定更為困難。一方面,各機構(gòu)業(yè)務(wù)活動形成的信息數(shù)據(jù)增加,在歸檔保存時,檔案人員需要鑒定判斷的文件量隨之增大。面對著巨量的電子文件,檔案人員逐一閱讀每一份電子文件的原文恐怕實在是無能為力。而另一方面,大數(shù)據(jù)時代檔案信息數(shù)據(jù)存儲空間緊張,合理準確判斷文件的去留顯得更為重要。只有把好鑒定這一關(guān),將有保存價值的文件留存下來、不具備保存價值的文件剔除掉,才能保障有限的儲存空間用于保存真正具有價值的信息數(shù)據(jù),最大限度地發(fā)揮檔案信息數(shù)據(jù)存儲空間的作用。因此,怎樣讓有限的存儲空間得到更為有效的利用,也對檔案人員的鑒定提出了更高的要求。合理、準確、快速地鑒定檔案文件、信息數(shù)據(jù)的存毀,成為檔案部門和檔案人員在大數(shù)據(jù)時代面臨的嚴峻挑戰(zhàn)。
(三)大數(shù)據(jù)帶來的信息有效利用挑戰(zhàn)。檔案作為一種原始信息記錄,是國家、社會、機構(gòu)歷史的重要見證,在大數(shù)據(jù)時代,其價值與作用更加凸顯。信息的價值在于利用,面對海量的檔案信息數(shù)據(jù),只有通過開發(fā)和利用,才能使檔案信息的價值得以體現(xiàn)和發(fā)揮。但數(shù)據(jù)爆炸式增長和數(shù)據(jù)類型多樣化,給檔案利用開發(fā)帶來檢索難題和開發(fā)困境。
隨著機構(gòu)保存檔案數(shù)據(jù)量的增長,在進行檔案查詢時,需要的信息容易被淹沒在大量不需要的數(shù)據(jù)中。運用過去傳統(tǒng)的檔案檢索手段,依靠手工著錄、卡片檢索已經(jīng)難以實現(xiàn)海量信息檢索的要求;即使借助于現(xiàn)代化的檔案管理系統(tǒng),面對海量數(shù)據(jù)時,檢索性能常常急劇下降,容易出現(xiàn)查詢時間長、響應(yīng)速度慢的情況,甚至無法響應(yīng)。因此,如何在大量的檔案中快速而準確地找到所需的信息,是大數(shù)據(jù)時代檔案利用中需要解決的首要問題。
更進一步講,目前知識管理已經(jīng)成為檔案管理發(fā)展的趨勢和方向,檔案利用者的利用需求已不僅限于數(shù)據(jù)或文件的利用,更希望能夠獲得數(shù)據(jù)背后的信息以及信息蘊藏的知識。因此,檔案利用服務(wù)也應(yīng)由提供數(shù)據(jù)、信息轉(zhuǎn)變?yōu)樘峁┲R。然而,知識不是自然生成的,也不會簡單地存在于信息集合中,需要經(jīng)過抽取和挖掘才能展示出來。在傳統(tǒng)紙質(zhì)檔案時代,檔案數(shù)量不多,依靠人工抽取、挖掘知識還可實行,但在大數(shù)據(jù)時代海量檔案存在、非結(jié)構(gòu)化數(shù)據(jù)、異構(gòu)數(shù)據(jù)盛行的狀況下,則會變得心有余而力不足。
隨著檔案網(wǎng)絡(luò)服務(wù)、數(shù)字檔案館、社交網(wǎng)絡(luò)等興起,檔案部門收集到的利用者個人信息、檢索歷史、瀏覽記錄等數(shù)據(jù)將越來越多。通過對這些數(shù)據(jù)的分析,檔案部門可以更好地了解利用者偏好,推測其利用需求,這對于檔案部門以利用者需求為導(dǎo)向、提高服務(wù)質(zhì)量具有重要意義。但這些數(shù)據(jù)信息大多以非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)形式存在。相對于結(jié)構(gòu)化數(shù)據(jù),非機構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的開發(fā)挖掘難度更大。要對利用者數(shù)據(jù)進行分析挖掘,檔案部門需要足夠的技術(shù)支持。而且,對于這些數(shù)據(jù)的應(yīng)用,還會涉及到利用者的隱私問題,例如個人數(shù)據(jù)能夠保存多久,保存后被用于何種用途,怎樣保證個人數(shù)據(jù)不會泄露等,這些都是檔案部門需要考慮和注意的問題。
因此,如何合理利用大數(shù)據(jù),分析推測利用者需求,在海量數(shù)據(jù)中抽取和挖掘有用的信息和知識,整合異構(gòu)信息,共享館際間資源,有針對性地為利用者提供深層次的信息和知識,是大數(shù)據(jù)時代檔案利用服務(wù)工作需要努力解決的問題。
檔案管理迎來了大數(shù)據(jù)時代。檔案部門保管和保存的信息數(shù)據(jù)數(shù)量劇增、類型多樣化、流動速度加快、有用信息提取難度增大,這些給檔案工作帶來挑戰(zhàn)。檔案部門必須增強信息意識,重視蘊藏在海量檔案信息數(shù)據(jù)中的“寶藏”,積極采取有效策略,做好基礎(chǔ)平臺建設(shè),重視技術(shù)研發(fā)與應(yīng)用,提高檔案信息數(shù)據(jù)有效保存、快速鑒定、合理開發(fā)的能力,應(yīng)對大數(shù)據(jù)給檔案部門帶來的挑戰(zhàn),讓檔案資源和檔案工作在大數(shù)據(jù)時代實現(xiàn)價值,煥發(fā)活力。