劉國(guó)華,李澤鋒
摘 要:依據(jù)大數(shù)據(jù)定義,簡(jiǎn)要分析檔案資源符合大數(shù)據(jù)特征,構(gòu)建檔案工作中的大數(shù)據(jù)框架,指出目前檔案工作開(kāi)展大數(shù)據(jù)條件尚不具備,但應(yīng)從服務(wù)觀念、檔案信息質(zhì)量、檔案資源云平臺(tái)構(gòu)建三個(gè)方面為大數(shù)據(jù)應(yīng)用做好準(zhǔn)備,并以鄭州市為案例分析了大數(shù)據(jù)試點(diǎn)的研究思路與實(shí)施路徑。
關(guān)鍵詞:大數(shù)據(jù);檔案信息化;主動(dòng)服務(wù)
1 大數(shù)據(jù)研究現(xiàn)狀
1.1 大數(shù)據(jù)含義。大數(shù)據(jù)(big data),或稱(chēng)“巨量資料”,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到獲取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的數(shù)據(jù),即不能用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法。[1]亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser提到一個(gè)簡(jiǎn)單定義:大數(shù)據(jù)就是任何超過(guò)一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。[2]
上述定義盡管表述不完全一致,如何定義大數(shù)據(jù)到目前為止仍然沒(méi)有具體的標(biāo)準(zhǔn)形態(tài),但基本體現(xiàn)了大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。
1.2 研究現(xiàn)狀。通過(guò)對(duì)CNKI以大數(shù)據(jù)為主題詞檢索,得到相關(guān)文獻(xiàn)4434條。進(jìn)一步縮小范圍,在圖書(shū)情報(bào)與檔案一級(jí)學(xué)科中檢索,獲得文獻(xiàn)39篇,其中檔案學(xué)方面文章2篇。這些文章研究角度各異,或從圖書(shū)館服務(wù)角度,或從競(jìng)爭(zhēng)情報(bào)角度等,偏重于圖書(shū)情報(bào)二級(jí)學(xué)科。檔案學(xué)方面,周楓[3]剖析了大數(shù)據(jù)給檔案館帶來(lái)的影響,并據(jù)此提出了大數(shù)據(jù)時(shí)代檔案館生存與發(fā)展的相關(guān)策略;李小晨[4]介紹了在檔案管理中運(yùn)用大數(shù)據(jù)技術(shù)的策略。
國(guó)外對(duì)大數(shù)據(jù)研究較深,檔案領(lǐng)域中也已有實(shí)際應(yīng)用。如EMC與梵蒂岡檔案館合作將82000件珍貴古代手稿數(shù)字化,通過(guò)大數(shù)據(jù)讓更多人通過(guò)互聯(lián)網(wǎng)閱讀原版手稿。[5]
從以上分析可以看出,大數(shù)據(jù)已成為我國(guó)信息研究方面的熱點(diǎn),但在檔案學(xué)方面的研究尚未開(kāi)始。本文擬從大數(shù)據(jù)與檔案工作的關(guān)系、架構(gòu)、實(shí)施可行性等方面進(jìn)行分析,并就大數(shù)據(jù)在檔案工作進(jìn)行試點(diǎn)展開(kāi)討論。
2 大數(shù)據(jù)框架構(gòu)建
2.1 檔案資源符合大數(shù)據(jù)特征
(1)檔案數(shù)據(jù)體量巨大(Volume)。目前,單個(gè)國(guó)家綜合檔案館檔案資源總量基本達(dá)到了TB級(jí),考慮到每個(gè)檔案館檔案資源的不同,以及各類(lèi)檔案部門(mén)保存的檔案數(shù)量,必將達(dá)到PB級(jí)甚至EB級(jí)。據(jù)統(tǒng)計(jì),2011年,各級(jí)國(guó)家檔案館館藏已達(dá)3.3億卷,到2020年,館藏將達(dá)到6億多卷。[6]如果加上企事業(yè)各類(lèi)檔案部門(mén)館藏,將是一個(gè)海量資源庫(kù)。
目前,各類(lèi)檔案館正在開(kāi)展數(shù)字化建設(shè)與電子文件管理,進(jìn)行資源整合。如,鄭州市檔案館擬對(duì)850萬(wàn)卷檔案進(jìn)行數(shù)字化,并對(duì)鄭州市所屬5區(qū)6縣的檔案資源建設(shè)統(tǒng)一的資源整合平臺(tái)。
(2)檔案資源種類(lèi)繁多(Variety)。檔案資源以文本類(lèi)為主,還有大量的音視頻檔案、照片圖片檔案、圖紙、憑證檔案、地理信息、網(wǎng)絡(luò)日志等,都是非結(jié)構(gòu)化數(shù)據(jù),描述這些檔案資源的元數(shù)據(jù)又是結(jié)構(gòu)化數(shù)據(jù)。海量結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的混合正是傳統(tǒng)數(shù)據(jù)處理難以解決的問(wèn)題,符合大數(shù)據(jù)的多樣性特征。
(3)檔案價(jià)值高,但價(jià)值密度低。檔案留存著社會(huì)的歷史記憶,具有很高的歷史價(jià)值。然而對(duì)當(dāng)前應(yīng)用來(lái)說(shuō),海量檔案信息,每次可能利用的數(shù)據(jù)非常少,存在著價(jià)值密度低的特點(diǎn)。如視頻,連續(xù)不間斷攝制過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。這些檔案信息蘊(yùn)含著巨大潛能,需要人員、流程與技術(shù)的密切配合,方能將其轉(zhuǎn)化為更大的真正價(jià)值。
(4)處理速度要求高。大數(shù)據(jù)要求實(shí)時(shí)或近乎實(shí)時(shí)的處理速度,這對(duì)企事業(yè)單位來(lái)說(shuō)沒(méi)問(wèn)題,對(duì)于國(guó)家檔案館來(lái)說(shuō)好像要求過(guò)高,其實(shí)不然。傳統(tǒng)檔案利用方式是被動(dòng)等待用戶(hù)來(lái)查找原始信息,給社會(huì)留下“故紙堆”印象。如果改被動(dòng)服務(wù)為及時(shí)、準(zhǔn)確的主動(dòng)服務(wù),這種主動(dòng)服務(wù)不僅提供檔案原始信息,還應(yīng)提供BI、預(yù)測(cè)分析、內(nèi)容分析、輔助決策分析等。
2.2 檔案工作中大數(shù)據(jù)架構(gòu)分析。其實(shí)大數(shù)據(jù)并不是現(xiàn)在才有的,也并不神秘,古已有之。檔案學(xué)中的檔案編纂與編研實(shí)際上就是大數(shù)據(jù)的處理過(guò)程,如,檔案編研工作的一般程序是選題、選材、加工編輯、總纂與審核。其中選材包括搜集素材、確定素材與考訂素材三個(gè)步驟。這個(gè)過(guò)程是人工處理,在浩瀚的檔案中選取合適的數(shù)據(jù)不是一件容易的事,有時(shí)還需要到其他檔案館去查找,這是一個(gè)長(zhǎng)期而艱巨的任務(wù),往往需要幾個(gè)月甚至數(shù)年去完成。
在信息化時(shí)代,可以依托信息技術(shù)構(gòu)建大數(shù)據(jù)處理流程,如圖1所示。
圖1 大數(shù)據(jù)處理流程
圖1中,數(shù)據(jù)源是各檔案館館藏檔案資源,這些館藏資源應(yīng)該是數(shù)字化結(jié)果或電子文件。目前,各級(jí)各類(lèi)檔案館正在大力開(kāi)展檔案數(shù)字化與電子文件管理項(xiàng)目建設(shè),為大數(shù)據(jù)數(shù)據(jù)源奠定了基礎(chǔ)。為順利實(shí)現(xiàn)下一步信息整合與治理,應(yīng)在標(biāo)準(zhǔn)基礎(chǔ)上構(gòu)建全國(guó)性電子文件與數(shù)字化成果管理與服務(wù)體系,如基于OAIS的全國(guó)性管理體系。[7]
高速網(wǎng)絡(luò)則是為了海量檔案資源的傳輸。以TB甚至PB級(jí)的數(shù)據(jù)依賴(lài)Internet傳輸將耗費(fèi)太長(zhǎng)時(shí)間,數(shù)據(jù)容易丟失,必須以High-Performance Networks(如UltraScience Net、ESnet5/OSCARS等)為基礎(chǔ),以便順利將數(shù)據(jù)傳輸集中于一個(gè)大的服務(wù)器集群進(jìn)行信息整合與治理、大數(shù)據(jù)處理。
信息整合與治理則是在超級(jí)計(jì)算機(jī)或服務(wù)器集群中對(duì)傳輸來(lái)的各級(jí)各類(lèi)檔案數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量治理并管理信息生命周期。通過(guò)聚類(lèi)、相似性分析等分析檔案數(shù)據(jù)間的有機(jī)聯(lián)系。
大數(shù)據(jù)處理包含語(yǔ)境搜索、數(shù)據(jù)倉(cāng)庫(kù)、Hadoop系統(tǒng)。語(yǔ)境搜索指對(duì)檔案信息進(jìn)行索引與聯(lián)邦搜索,在上一步信息整合基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)上下文協(xié)作洞察。數(shù)據(jù)倉(cāng)庫(kù)是檔案數(shù)據(jù)按照預(yù)定規(guī)則進(jìn)行存儲(chǔ),進(jìn)行先進(jìn)的數(shù)據(jù)庫(kù)內(nèi)分析。Hadoop系統(tǒng)是一個(gè)分布式基礎(chǔ)架構(gòu),實(shí)現(xiàn)一個(gè)分布式文件系統(tǒng),適合超大數(shù)據(jù)集即大數(shù)據(jù),可以經(jīng)濟(jì)高效方式分析PB級(jí)的結(jié)構(gòu)化與非結(jié)構(gòu)化信息。
可視化顯示利用最佳的可視化組合,收集、提取并探索大數(shù)據(jù)的處理結(jié)果。
數(shù)據(jù)分析包括BI報(bào)告、預(yù)測(cè)分析、內(nèi)容分析、輔助決策分析等。在國(guó)家級(jí)檔案館,內(nèi)容分析是主要工作;在企事業(yè)單位,預(yù)測(cè)、BI、輔助決策更為有幫助。
將上面內(nèi)容整合,可以得到圖2所示的檔案信息大數(shù)據(jù)平臺(tái)框架。
圖2 檔案信息大數(shù)據(jù)平臺(tái)框架
3 大數(shù)據(jù)在檔案信息化工作中應(yīng)用的思考
3.1 可行性分析。盡管從理論上分析了檔案信息大數(shù)據(jù)平臺(tái)框架,但目前實(shí)施還是有相當(dāng)?shù)碾y度。實(shí)施大數(shù)據(jù)戰(zhàn)略需要“數(shù)據(jù)到位+應(yīng)用明確+手段成熟”的三位一體的戰(zhàn)略。這三個(gè)條件缺一不可,也即大數(shù)據(jù)發(fā)展的關(guān)鍵要素一是要擁有足夠多的大數(shù)據(jù),二是要有迫切且明確的大數(shù)據(jù)研究需求推動(dòng),三是要有一定的技術(shù)積累和成熟度。
從這三個(gè)條件來(lái)看,檔案部門(mén)準(zhǔn)備得并不充分。檔案館具有足夠多的數(shù)據(jù),但這些數(shù)據(jù)大部分以傳統(tǒng)介質(zhì)存在,檔案數(shù)字化并沒(méi)有覆蓋所有館藏,電子文件管理剛開(kāi)始走上正軌起步,大數(shù)據(jù)收集最重要,但這是一件長(zhǎng)期且困難的事情。檔案部門(mén)長(zhǎng)期以來(lái)利用思想是提供原始信息的被動(dòng)查詢(xún),還談不上迫切且明確的大數(shù)據(jù)研究需求,即使在企事業(yè)單位,檔案部門(mén)也很難做到主動(dòng)提供服務(wù),利用好大數(shù)據(jù),依然需要敏銳的洞察和創(chuàng)新的思維,這是檔案部門(mén)比較欠缺的。一定的技術(shù)積累與成熟度對(duì)于檔案部門(mén)目前更是困難。
綜合上述分析,大數(shù)據(jù)目前在我國(guó)檔案部門(mén)開(kāi)展有相當(dāng)大的難度。如果依靠檔案部門(mén)自己,目前幾乎是不可行的。但并不表示面對(duì)大數(shù)據(jù),檔案部門(mén)無(wú)所作為,可以做好迎接大數(shù)據(jù)的準(zhǔn)備工作,同時(shí)借助外力開(kāi)展試點(diǎn)工作。
3.2 做好大數(shù)據(jù)應(yīng)用準(zhǔn)備
(1)轉(zhuǎn)變服務(wù)觀念。目前大多數(shù)檔案部門(mén)依然是幾十年前的服務(wù)觀念:被動(dòng)等待利用者。提供的服務(wù)主要還是檔案信息內(nèi)容。隨著檔案信息化工作的開(kāi)展,檔案目錄、部分檔案全文經(jīng)數(shù)字化后上網(wǎng)供利用者瀏覽,這是主動(dòng)服務(wù)思想的體現(xiàn)。一些檔案部門(mén)也在嘗試開(kāi)展進(jìn)一步的主動(dòng)服務(wù)工作,如,北京房山區(qū)提出“基于數(shù)據(jù)挖掘的檔案信息資源深度開(kāi)發(fā)與利用”等,盡管是傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用,但服務(wù)的主動(dòng)性已有了很大提升。
面對(duì)大數(shù)據(jù),這種轉(zhuǎn)變尚不夠。大數(shù)據(jù)數(shù)據(jù)量大、查詢(xún)分析復(fù)雜,更重要的是精準(zhǔn)把握利用者的需求。然而利用者很多時(shí)候并不知道準(zhǔn)確的需求,需要檔案管理人員主動(dòng)深入了解業(yè)務(wù),明確需求,準(zhǔn)備相應(yīng)數(shù)據(jù),尤其對(duì)企事業(yè)單位檔案部門(mén)更應(yīng)該如此。
(2)治理檔案質(zhì)量。治理檔案質(zhì)量,首先是數(shù)量。各級(jí)檔案館應(yīng)繼續(xù)大力開(kāi)展檔案數(shù)字化項(xiàng)目,盡可能將館藏傳統(tǒng)檔案進(jìn)行數(shù)字化,如果數(shù)字化率較低,數(shù)據(jù)肯定不全有遺漏;抓緊實(shí)施電子文件管理工程,進(jìn)行電子文件收集管理與保存工作。
由于與載體的不可分離,同一份傳統(tǒng)檔案可能在多個(gè)全宗或立檔單位都存在,在大數(shù)據(jù)處理前需要查重,以免增加超級(jí)計(jì)算機(jī)或服務(wù)器集群的負(fù)擔(dān)。查重有兩種方法,一是利用檔案目錄。各檔案部門(mén)基本都已建設(shè)自己館藏的檔案條目,先把條目上傳,根據(jù)條目比對(duì)檔案的重復(fù)性,將結(jié)果反饋給相應(yīng)檔案部門(mén)。以一個(gè)檔案部門(mén)為主進(jìn)行數(shù)字化,其他部門(mén)或下載拷貝或通過(guò)鏈接關(guān)聯(lián)相應(yīng)檔案。該方法條目上傳到上一級(jí)檔案部門(mén)(如省級(jí)檔案館甚至國(guó)家檔案局),由上級(jí)檔案部門(mén)統(tǒng)籌安排數(shù)字化。該方法優(yōu)點(diǎn)是節(jié)省資源,有限的資源可以盡可能多地?cái)?shù)字化,缺點(diǎn)是協(xié)調(diào)、統(tǒng)籌不容易。另一種方法則是各部門(mén)分別數(shù)字化自己的館藏,將數(shù)字化結(jié)果全部上傳到數(shù)據(jù)治理計(jì)算機(jī),由數(shù)據(jù)治理計(jì)算機(jī)進(jìn)行全文比對(duì)查重。該方法優(yōu)點(diǎn)是比對(duì)準(zhǔn)確,缺點(diǎn)是資源有所浪費(fèi),同時(shí)加重了數(shù)據(jù)治理服務(wù)器的負(fù)擔(dān)。
(3)規(guī)劃全國(guó)性或區(qū)域性的檔案資源云服務(wù)。
大數(shù)據(jù)的基礎(chǔ)是云計(jì)算,同時(shí)檔案信息資源的整合也應(yīng)該建立在云計(jì)算基礎(chǔ)之上,可以考慮建設(shè)全國(guó)或區(qū)域性的公有云,實(shí)現(xiàn)全國(guó)或區(qū)域內(nèi)檔案條目的集中與共享,實(shí)現(xiàn)查重檔案的存放與共享,甚至可以實(shí)現(xiàn)區(qū)域內(nèi)所有電子文件、數(shù)字檔案的存儲(chǔ),下級(jí)檔案部門(mén)保留檔案鏈接地址即可。這樣的前提是訪問(wèn)公有云是高速網(wǎng)絡(luò)。公有云下,區(qū)域內(nèi)檔案部門(mén)可以建設(shè)自己的私有云。檔案云資源的建設(shè)使得大數(shù)據(jù)平臺(tái)有了強(qiáng)有力的數(shù)據(jù)支撐。
(4)借助外力,試點(diǎn)開(kāi)展大數(shù)據(jù)研究。本文以鄭州市為案例,簡(jiǎn)要分析開(kāi)展大數(shù)據(jù)的試點(diǎn)研究路徑。鄭州市新檔案館2011年建成,信息化建設(shè)較為完備,構(gòu)建了涵蓋鄭州市下轄6區(qū)5縣的檔案信息整合平臺(tái)。可以考慮以此為公有云基礎(chǔ),將6區(qū)5縣檔案館藏目錄及數(shù)字化成果納入進(jìn)來(lái),對(duì)檔案信息進(jìn)行整合。鄭州大學(xué)建設(shè)了高性能計(jì)算中心,包含90個(gè)瘦計(jì)算節(jié)點(diǎn)、10個(gè)胖計(jì)算節(jié)點(diǎn),共2336個(gè)計(jì)算核心,理論峰值49.7萬(wàn)億次,56GbIB計(jì)算網(wǎng)絡(luò),以此作為服務(wù)器集群硬件進(jìn)行信息治理與大數(shù)據(jù)計(jì)算。河南教育網(wǎng)(Hernet)于2014年建設(shè)成10G光網(wǎng)絡(luò),鄭州市新檔案館通過(guò)Hernet(河南教育網(wǎng))將數(shù)據(jù)傳輸?shù)洁嵵荽髮W(xué),依托鄭州大學(xué)進(jìn)行大數(shù)據(jù)試點(diǎn)處理。處理結(jié)果通過(guò)河南教育網(wǎng)傳輸?shù)洁嵵菔袡n案局,提請(qǐng)專(zhuān)家分析數(shù)據(jù)。假定要分析研究鄭州市霧霾形成原因及變化,可采取以下大數(shù)據(jù)試點(diǎn)研究路徑:6區(qū)5縣的工業(yè)信息、汽車(chē)信息等理論上形成霧霾原因的相關(guān)信息—河南教育網(wǎng)—鄭州市新館信息平臺(tái)—查重—河南教育網(wǎng)—鄭州大學(xué)高性能計(jì)算中心—河南教育網(wǎng)—鄭州市新館服務(wù)器集群—專(zhuān)家分析—分析報(bào)告、輔助決策。這樣一個(gè)過(guò)程還需要分析建模,并作更進(jìn)一步的研究。
﹡本文是國(guó)家社科基金項(xiàng)目“檔案網(wǎng)站信息資源開(kāi)發(fā)與服務(wù)(09BTQ029)”階段性成果。
參考文獻(xiàn):
[1]維克托·邁爾-舍爾維恩、肯尼斯·庫(kù)克耶.《大數(shù)據(jù)時(shí)代》[M].杭州:浙江人民出版社,2013:39.
[2]一個(gè)亞馬遜數(shù)據(jù)科學(xué)家關(guān)于大數(shù)據(jù)時(shí)代的職業(yè)分析.http://www.i#cn/article/0Z22H12013.html(檢索日期:2013年12月20日).
[3]周楓.大數(shù)據(jù)時(shí)代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8).
[4]李小晨.大數(shù)據(jù)時(shí)代背景下的檔案管理探討[J].云南檔案,2013(6).
[5]EMC:大數(shù)據(jù)先鋒,http://china.emc.com/microsites/bigdata2013W3/index.htm?reg=IN1&M=06388987-2697-4CE4-A2E0-764926E1C82F.
[6]楊冬權(quán).關(guān)于隨館藏?cái)?shù)量增加而相應(yīng)增加各級(jí)國(guó)家檔案館人員編制的提案[N].中國(guó)檔案報(bào),2013-3-7,第001版.
[7]李澤鋒.基于OAIS的電子文件服務(wù)體系構(gòu)建[J].檔案學(xué)通訊,2011(7).
(作者單位:鄭州航空工業(yè)管理學(xué)院 來(lái)稿日期:2013-12-20)