陳雪燕 于英香
(上海大學(xué) 上海 200444)
2015年國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》(以下簡稱《綱要》),《綱要》中明確指出,大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)成為“國家基礎(chǔ)性戰(zhàn)略資源”,“堅(jiān)持創(chuàng)新驅(qū)動發(fā)展,加快大數(shù)據(jù)部署,深化大數(shù)據(jù)應(yīng)用,已成為穩(wěn)增長、促改革、調(diào)結(jié)構(gòu)、惠民生和推動政府治理能力現(xiàn)代化的內(nèi)在需要和必然選擇”。[1]2016年國家檔案局印發(fā)的《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》中明確規(guī)定要“制定檔案數(shù)據(jù)開放計(jì)劃”,“優(yōu)先推動與民生保障服務(wù)相關(guān)的檔案數(shù)據(jù)開放”。2017年12月27日,國家檔案局局長李明華在全國檔案局長館長會議上強(qiáng)調(diào),當(dāng)前屬于“大數(shù)據(jù)”時(shí)代,我國要加速檔案工作轉(zhuǎn)型升級,“檔案工作正在經(jīng)歷一個(gè)從接收保管紙質(zhì)檔案到接收保管電子檔案,從管檔案實(shí)體到管檔案數(shù)據(jù),從手工操作到信息化智能化操作,從檔案資源分散利用到聯(lián)網(wǎng)共享的變革過程”。[2]2018年,國務(wù)院為規(guī)范科學(xué)數(shù)據(jù)管理,保障科學(xué)數(shù)據(jù)安全,印發(fā)了《科學(xué)數(shù)據(jù)管理辦法》,明確了科學(xué)數(shù)據(jù)管理分工負(fù)責(zé)體制、各責(zé)任主體的職責(zé)以及從采集、匯交、保存到共享利用、安全保密等規(guī)定。[3]可以看出,隨著大數(shù)據(jù)的縱深發(fā)展,檔案工作的話語體系也緊扣時(shí)代旋律開始積極向檔案數(shù)據(jù)方面轉(zhuǎn)變。作為大數(shù)據(jù)治理進(jìn)程中的重要組成,作為國家治理能力轉(zhuǎn)型的重要力量,檔案工作從傳統(tǒng)檔案管理向新時(shí)代檔案數(shù)據(jù)管理的轉(zhuǎn)型勢在必行。
1.1.1 檔案大數(shù)據(jù)
從現(xiàn)有研究來看,大部分持有“檔案大數(shù)據(jù)”觀的學(xué)者傾向于將其理解為檔案數(shù)據(jù)的集合。例如,魯?shù)挛湔J(rèn)為檔案大數(shù)據(jù)可以看作是一定時(shí)間空間內(nèi)檔案數(shù)據(jù)的集合,其核心內(nèi)容是挖掘提取有價(jià)值信息,進(jìn)行科學(xué)預(yù)測。[4]康蠡等人則認(rèn)為“檔案大數(shù)據(jù)是與檔案活動密切相關(guān)的各種有價(jià)值的、難以在可接受時(shí)間內(nèi)分析處理的數(shù)據(jù)集”。[5]樊樹娟也認(rèn)為檔案大數(shù)據(jù)是以檔案資源為核心、必須借助先進(jìn)的信息技術(shù)手段進(jìn)行管理、開發(fā)與服務(wù)的大規(guī)模數(shù)據(jù)集。[6]于英香則指出學(xué)界對于檔案大數(shù)據(jù)的概念炒地過熱而出現(xiàn)了誤讀,并通過比較檔案數(shù)據(jù)與大數(shù)據(jù)的實(shí)時(shí)動態(tài)性相異、與大數(shù)據(jù)的預(yù)測與決策性特征相背離、管理技術(shù)與大數(shù)據(jù)技術(shù)偏離等,指出當(dāng)前“檔案大數(shù)據(jù)概念”有泛化傾向。[7]
1.1.2 檔案數(shù)據(jù)
縱觀目前CNKI中收錄的以“檔案數(shù)據(jù)”為主題的文獻(xiàn),很容易發(fā)現(xiàn):在所有圍繞“檔案數(shù)據(jù)”的討論中,沒有一篇文章清晰地界定它的概念,只有少數(shù)學(xué)者對“檔案數(shù)據(jù)”與其他相關(guān)概念如“檔案大數(shù)據(jù)”做了簡單的區(qū)分,大部分研究都是直接以“檔案數(shù)據(jù)”作為前綴直陳自己要講的主題,如檔案數(shù)據(jù)離線備份、檔案數(shù)據(jù)分發(fā)利用等。于英香認(rèn)為,大數(shù)據(jù)背景下的檔案數(shù)據(jù)“既包括傳統(tǒng)小數(shù)據(jù)管理狀態(tài)下的電子文件與數(shù)字檔案資源, 也包括網(wǎng)絡(luò)環(huán)境下重要的網(wǎng)頁資源和社交媒體文件資源”。[8]基于現(xiàn)有研究中對檔案數(shù)據(jù)的描述,本文認(rèn)為,檔案數(shù)據(jù)既包括檔案內(nèi)容、檔案實(shí)體本身,還包括檔案采集、處理、存儲、開發(fā)、利用等全過程所形成的元數(shù)據(jù)和生成的新數(shù)據(jù)。
1.1.3 檔案數(shù)據(jù)管理
“檔案數(shù)據(jù)管理”可分解為“檔案數(shù)據(jù)+管理”和“檔案+數(shù)據(jù)管理”兩種定義規(guī)則,提出檔案管理對象由“文件”、“資源”到“數(shù)據(jù)”和用數(shù)據(jù)管理的方法研究檔案兩種理解路徑,最后綜合兩種規(guī)則指出:檔案數(shù)據(jù)管理的內(nèi)涵是在“數(shù)據(jù)管理理論的范疇內(nèi)研究如何管理紛繁復(fù)雜的檔案數(shù)據(jù)”。[9]這種定義方法較為綜合、全面地考慮到“檔案數(shù)據(jù)管理”這一新概念的內(nèi)涵和外延,比較合理。根據(jù)這種方法,結(jié)合金波等人對“數(shù)據(jù)管理”的定義,本文認(rèn)為檔案數(shù)據(jù)管理就是運(yùn)用云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)、智慧工程等現(xiàn)代技術(shù)對檔案數(shù)據(jù)進(jìn)行有效的收集、處理、存儲、挖掘和利用,以保障檔案數(shù)據(jù)長期可用,實(shí)現(xiàn)檔案數(shù)據(jù)的價(jià)值和增值。[10]
學(xué)界圍繞檔案數(shù)據(jù)采集的研究主要討論了檔案信息化時(shí)代或大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)采集面臨的難點(diǎn)并提出相應(yīng)的對策建議。茅敏指出大數(shù)據(jù)環(huán)境下項(xiàng)目檔案數(shù)據(jù)的采集需要更依賴互聯(lián)網(wǎng)和現(xiàn)代化技術(shù),在存儲時(shí)要注意結(jié)構(gòu)化處理以供后續(xù)處理。[11]呂立新先說明了組織機(jī)構(gòu)代碼電子檔案數(shù)據(jù)采集面臨的不規(guī)范、質(zhì)量低、格式不一、可識別性差等問題,進(jìn)而提出配備專業(yè)人員,依據(jù)現(xiàn)有標(biāo)準(zhǔn)、辦法促進(jìn)代碼電子檔案數(shù)據(jù)采集的規(guī)范化、格式化。[12]路宏偉等人指出檔案數(shù)據(jù)采集抽取過程面臨的主要障礙有接口標(biāo)準(zhǔn)不統(tǒng)一、紙質(zhì)檔案與電子數(shù)據(jù)同步困難、金融價(jià)值估值偏低和缺乏隱私評級系統(tǒng)等。[13]張倩指出,大數(shù)據(jù)時(shí)代高校檔案數(shù)據(jù)應(yīng)采用一種面向業(yè)務(wù)、制定策略、鏈接檔案大數(shù)據(jù)集、非盲目性的“全息式”采集策略。[14]
目前學(xué)界關(guān)于檔案數(shù)據(jù)的存儲問題主要圍繞存儲介質(zhì)、存儲環(huán)境、存儲策略、安全存儲、長期保存幾個(gè)方面展開。劉家真指出,檔案數(shù)據(jù)的存儲介質(zhì)應(yīng)符合一次寫入、不可更改、耐久性、技術(shù)壽命長、市場支持穩(wěn)定、適宜脫機(jī)保存等要求。[15]李洪湖介紹了溫州市鹿城區(qū)檔案局建設(shè)的檔案數(shù)據(jù)安全存儲及智慧監(jiān)管平臺,能夠在多套檔案數(shù)據(jù)之間進(jìn)行數(shù)據(jù)同步,利用數(shù)據(jù)智能恢復(fù)技術(shù)保證儲存數(shù)據(jù)的可用性,對數(shù)據(jù)利用進(jìn)行監(jiān)管,防止數(shù)據(jù)被非法利用等。[16]杜琳琳介紹了國家檔案局科研所與其他兩家單位針對海量檔案信息的長期安全保存問題合力研發(fā)的檔案數(shù)據(jù)硬盤離線存儲系統(tǒng)。[17]歐陽靜芝闡述了檔案數(shù)據(jù)中心作為“資源管理器”、“系統(tǒng)開發(fā)器”的內(nèi)涵,指出其具有收集范圍廣類型多,采用先進(jìn)的管理設(shè)備和技術(shù)、平臺,以數(shù)據(jù)化為根本手段的特點(diǎn)。[18]
關(guān)于該主題的研究主要圍繞檔案數(shù)據(jù)備份、恢復(fù)的策略,異地異質(zhì)備份機(jī)制及實(shí)施情況,檔案數(shù)據(jù)備份、恢復(fù)帶來的一系列問題等展開。楊劍云分析了造成檔案數(shù)據(jù)損毀的邏輯故障和物理故障,提出了檔案數(shù)據(jù)恢復(fù)的具體方法和策略。[19]何畏指出檔案數(shù)據(jù)備份存在著目標(biāo)不明確、思路不清晰、方法不科學(xué)、存在安全隱患等問題,進(jìn)一步提出要制定適度可用、經(jīng)濟(jì)、安全可行的檔案數(shù)據(jù)備份策略。[20]袁也等人提出數(shù)據(jù)恢復(fù)后數(shù)字檔案真實(shí)性認(rèn)證的重要性,提出了不同檔案數(shù)據(jù)恢復(fù)程序下認(rèn)證數(shù)字檔案真實(shí)性的建議。[21]馬雁云分析了電子檔案數(shù)據(jù)存儲的載體和方式,設(shè)計(jì)了一種基于云存儲的安全存取方案,將檔案數(shù)據(jù)遷移到公有云中保存。[22]
大數(shù)據(jù)時(shí)代,技術(shù)給檔案管理帶來的主要變化體現(xiàn)在對檔案數(shù)據(jù)進(jìn)行挖掘。張文元等人指出實(shí)現(xiàn)深度挖掘需要建立以數(shù)據(jù)挖掘技術(shù)為核心的信息系統(tǒng),構(gòu)建以人為本的用戶關(guān)系管理,保證數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)隱私安全,借力“智慧因子”完善數(shù)據(jù)挖掘技術(shù)等。[23]楊茜雅將語義本體的概念引入企業(yè)檔案數(shù)據(jù)分析流程,構(gòu)建將檔案數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系、分析結(jié)果直接展示的電子檔案知識圖譜系統(tǒng),實(shí)現(xiàn)電子檔案智能化管理。[24]
檔案數(shù)據(jù)在經(jīng)過處理之后主要的應(yīng)用領(lǐng)域是用戶的數(shù)據(jù)分析及個(gè)性化推送。田偉等人面向興趣利用集問題、事務(wù)共同利用集問題、檔案異名檢索問題的具體特點(diǎn),分別設(shè)計(jì)出各自的協(xié)同過濾矩陣和個(gè)性化推薦的實(shí)現(xiàn)流程,[25]在其系列研究中提出了檔案用戶數(shù)據(jù)分析引擎的架構(gòu),并基于協(xié)同過濾和向量建模等技術(shù)提出了一些具體功能的實(shí)現(xiàn)策略。[26]
綜上所述,目前檔案學(xué)界關(guān)于檔案數(shù)據(jù)管理的相關(guān)概念尚不明確,存在概念泛化、內(nèi)涵模糊的問題;對于檔案數(shù)據(jù)管理的研究雖然分層次、分流程、分階段地引進(jìn)了大數(shù)據(jù)技術(shù)的應(yīng)用,但仍然沿襲著傳統(tǒng)檔案管理的模式思維,尚未用一種全新的數(shù)據(jù)管理思維來規(guī)劃檔案管理工作?;诖?,本文在了解檔案數(shù)據(jù)管理研究現(xiàn)狀的基礎(chǔ)上,先指出傳統(tǒng)檔案管理到檔案數(shù)據(jù)管理的轉(zhuǎn)變,分析檔案數(shù)據(jù)管理與傳統(tǒng)檔案管理的融合與沖突之處,再進(jìn)一步梳理、總結(jié)傳統(tǒng)檔案管理向檔案數(shù)據(jù)管理轉(zhuǎn)型的要素和重點(diǎn)。
傳統(tǒng)檔案管理主要指現(xiàn)實(shí)工作中以檔案實(shí)體和檔案內(nèi)容為管理重心的普遍現(xiàn)象。盡管新興技術(shù)不斷給檔案管理實(shí)踐帶來新的機(jī)遇與挑戰(zhàn),盡管學(xué)科交叉融合不斷給檔案管理實(shí)踐提供新的思維路徑和選擇,檔案管理工作的實(shí)際重心仍然沒有發(fā)生質(zhì)的轉(zhuǎn)移。在經(jīng)典的D-I-K-W(數(shù)據(jù)-信息-知識-智慧)金字塔層次概念體系中,數(shù)據(jù)的價(jià)值被認(rèn)為是低于信息的,但在大數(shù)據(jù)時(shí)代,技術(shù)賦予了“數(shù)據(jù)”直接通向“知識”乃至“智慧”的可能性。這時(shí)“數(shù)據(jù)”的內(nèi)涵也不再拘泥于“通過觀察或測量得到的原始數(shù)據(jù)”,其概念外延已經(jīng)被拓展到與“大數(shù)據(jù)”比肩而立的地步,大有“萬物皆數(shù)”的勢頭。檔案數(shù)據(jù)管理時(shí)代的到來決定了我們必須以“全數(shù)據(jù)”的眼光看待檔案,對已經(jīng)結(jié)束和正在進(jìn)行的檔案工作進(jìn)行重新審視,不斷發(fā)掘被我們忽視的檔案數(shù)據(jù)。
從收集整理環(huán)節(jié)來看,傳統(tǒng)的檔案管理是先將歸檔范圍內(nèi)的文件材料收齊之后再按照規(guī)定處置。體制內(nèi)的歸檔范圍本就是清晰明了的,行政管理機(jī)構(gòu)之外的歸檔范圍則主要依據(jù)歸檔對象的主要業(yè)務(wù)來劃定,比較模糊。檔案數(shù)據(jù)管理通過設(shè)計(jì)并預(yù)定義檔案數(shù)據(jù)的收集規(guī)則,可以針對不同來源、不同類型的檔案數(shù)據(jù)制定相應(yīng)的元數(shù)據(jù)方案,提供多途徑的數(shù)據(jù)收集方式,實(shí)時(shí)探測業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)變化,主動捕獲、抓取包括檔案實(shí)體數(shù)據(jù)、檔案內(nèi)容信息、檔案存儲情況的描述數(shù)據(jù)以及檔案利用情況的描述數(shù)據(jù)、檔案管理全流程形成的行為數(shù)據(jù)等。
從鑒定環(huán)節(jié)來看,傳統(tǒng)的檔案管理要經(jīng)歷兩次價(jià)值判定,第一次是在歸檔之前初步判定文件材料是否屬于歸檔范圍,是否有價(jià)值而能從文件成為檔案,應(yīng)歸為保管期限中的永久、長期還是短期等;第二次是在歸檔之后,要對檔案進(jìn)行價(jià)值復(fù)審,判斷其現(xiàn)有的保存情況是否需要發(fā)生變更。對檔案數(shù)據(jù)進(jìn)行處理,首先要提供檔案數(shù)據(jù)處理解決方案,如格式轉(zhuǎn)換方案、封裝方案、四性檢測方案等,同時(shí)與檔案數(shù)據(jù)采集功能進(jìn)行集成整合、協(xié)同工作。其次要經(jīng)過檔案數(shù)據(jù)的清洗、過濾、除噪,鑒定合格后的檔案數(shù)據(jù)才能進(jìn)入統(tǒng)一存儲和管理庫。最后要實(shí)現(xiàn)對檔案數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)挖掘、數(shù)據(jù)檢索、語義分析、聚類分析等,使計(jì)算機(jī)能夠根據(jù)特定的業(yè)務(wù)目標(biāo)自動發(fā)現(xiàn)、抽取、加工檔案數(shù)據(jù),提供決策參考。
從存儲保管來看,傳統(tǒng)的檔案管理主要是對檔案實(shí)體(以卷或件為單位)進(jìn)行庫房密集架存儲保管,或在信息管理系統(tǒng)或平臺內(nèi)著錄保存。在數(shù)字檔案館(室)建設(shè)的推進(jìn)過程中也有對數(shù)字化的檔案存儲載體和檔案承載內(nèi)容的管理。以上情況中存儲、保管檔案的安全指標(biāo)都是相對可控的,風(fēng)險(xiǎn)較小。檔案數(shù)據(jù)維護(hù)可以引入?yún)^(qū)塊鏈等新興技術(shù)作為檔案數(shù)據(jù)的存儲容器,確保檔案數(shù)據(jù)的安全、長期存儲;可以制定完善、詳細(xì)的備份策略,科學(xué)選用備份介質(zhì)、備份系統(tǒng)、備份地點(diǎn),實(shí)現(xiàn)多層次備份;可以對檔案數(shù)據(jù)采集接收、鑒定處理、提供利用實(shí)行全過程的監(jiān)督,實(shí)行對檔案數(shù)據(jù)的合規(guī)性、數(shù)據(jù)缺失、數(shù)據(jù)異常等情況智能判斷并實(shí)時(shí)觸發(fā)報(bào)警機(jī)制。
從開發(fā)角度看,傳統(tǒng)檔案管理中的編研工作還停留在專題匯編、資料匯編的提供信息資源的層面,尚未接觸到知識、智慧的高度。從利用角度來看,傳統(tǒng)的檔案管理下反映出來的管用關(guān)系十分被動:檔案工作人員被動地接收并保管被移交的檔案,并被動地用有限的檔案回應(yīng)用戶的用檔需求;用戶只能用檔案部門有且有權(quán)公開的檔案,檔案部門只提供公開范圍內(nèi)負(fù)載用戶需要內(nèi)容的檔案實(shí)體或電子文件。檔案數(shù)據(jù)服務(wù)首先是提供智能化的檔案數(shù)據(jù)檢索方式,建立一站式檢索門戶,并可以通過應(yīng)用專業(yè)的檢索引擎實(shí)現(xiàn)檢索詞智能擴(kuò)展、檢索結(jié)果智能優(yōu)化等增強(qiáng)功能。其次要為檔案數(shù)據(jù)存儲和管理庫建立智能的檢索模型,如數(shù)據(jù)相關(guān)關(guān)系檢索模型、語義關(guān)聯(lián)檢索模型、上下文關(guān)系檢索模型、交叉關(guān)系檢索模型、近義詞檢索模型、熱詞檢索模型等,利用數(shù)據(jù)挖掘與分析技術(shù)實(shí)現(xiàn)以問題為導(dǎo)向的查用服務(wù)。
來源原則一直以來被視為檔案學(xué)的支柱理論之一,在電子文件時(shí)代來源原則的地位及意義也重新得到重視。對于來源原則,無論是傳統(tǒng)的檔案管理還是檔案數(shù)據(jù)管理都表現(xiàn)出推崇與尊重:傳統(tǒng)的檔案收集、整理工作十分注重全宗的完整性,強(qiáng)調(diào)以機(jī)關(guān)單位為中心的文件的完整性和存儲位置的關(guān)聯(lián)性;電子文件時(shí)代十分強(qiáng)調(diào)元數(shù)據(jù),離開元數(shù)據(jù)便無所謂來源的“考據(jù)”。檔案數(shù)據(jù)管理時(shí)代,任何類型的檔案數(shù)據(jù)采集都離不開對元數(shù)據(jù)的關(guān)注。認(rèn)同來源原則的專業(yè)基礎(chǔ)地位是新舊檔案管理范式的關(guān)鍵契合點(diǎn)。同時(shí),檔案數(shù)據(jù)管理在沿用來源原則時(shí)也與傳統(tǒng)檔案管理產(chǎn)生了沖突,最主要表現(xiàn)在檔案數(shù)據(jù)管理和傳統(tǒng)檔案管理對“來源明確性”的需求沖突。毫無疑問,傳統(tǒng)檔案管理從始至終強(qiáng)調(diào)“來源”的明確性,清晰確定的“來源”是確保檔案“證據(jù)”作用、“憑證”價(jià)值的最有力證明。舉例來說,用戶在日常的信息檢索中總是有意從“官網(wǎng)”獲取信息,這表明“來源”本身就代表著不證自明的“真實(shí)可信”。檔案數(shù)據(jù)管理中雖然檔案數(shù)據(jù)的采集依舊強(qiáng)調(diào)“來源”的明確性,但在檔案數(shù)據(jù)呈現(xiàn)給用戶時(shí)卻經(jīng)常需要“來源”被“匿名”化。在網(wǎng)頁檔案數(shù)據(jù)或者社交媒體檔案數(shù)據(jù)分析過程中經(jīng)常需要對數(shù)據(jù)進(jìn)行挖掘,這時(shí)檔案數(shù)據(jù)本身的關(guān)聯(lián)性極易使檔案數(shù)據(jù)的匿名性被破壞,使挖掘?qū)ο蟮纳矸輸?shù)據(jù)“不言自明”。這就好比要某位用戶做一份完全匿名的問卷以獲得問卷設(shè)計(jì)者所需的信息,即使問卷上沒有提問用戶身份,但有該用戶形成的其他龐大數(shù)據(jù)做線索支撐,通過關(guān)聯(lián)性挖掘技術(shù)很容易推算出用戶的真實(shí)身份。要回應(yīng)某種數(shù)據(jù)需求,計(jì)算機(jī)必須不遺余力地挖掘這一需求牽涉的全部數(shù)據(jù)以呈現(xiàn)最準(zhǔn)確的分析結(jié)果,對于全部數(shù)據(jù)的來源,“挖掘者”固然一清二楚,但來源一旦被利用者掌握就觸碰到了數(shù)據(jù)法律和數(shù)據(jù)倫理的紅線。
傳統(tǒng)檔案管理主要采用“直接鑒定”的方法,即判斷一份文件是否有價(jià)值主要通過檔案工作人員一件、一卷地直接去看文件的內(nèi)容。到了電子文件時(shí)代,內(nèi)容鑒定和技術(shù)鑒定自然而然地成為檔案鑒定的“一體兩翼”。檔案數(shù)據(jù)管理更加強(qiáng)調(diào)“技術(shù)鑒定”的重要性,這時(shí)“技術(shù)鑒定”實(shí)際上就是從技術(shù)方面考慮檔案數(shù)據(jù)的準(zhǔn)確性、可讀性。首先是檔案數(shù)據(jù)原始性的鑒定。單軌制環(huán)境中,檔案數(shù)據(jù)原始性的鑒定主要表現(xiàn)為反映同一內(nèi)容的檔案數(shù)據(jù)在系統(tǒng)中或可形成多個(gè)版本,怎樣判定那一個(gè)版本具備原始性,當(dāng)前環(huán)境下解決這一問題最有效的技術(shù)手段是時(shí)間戳;其次是檔案數(shù)據(jù)真實(shí)性的鑒定。數(shù)字簽名技術(shù)以密碼學(xué)的方式從技術(shù)上保證了檔案數(shù)據(jù)的真實(shí)性、保密性和認(rèn)證性,代表了簽名者的身份,同時(shí)保障了檔案數(shù)據(jù)不易篡改性和不易抵賴性;[27]檔案數(shù)據(jù)的可讀性鑒定也是一項(xiàng)重要內(nèi)容,包括可讀狀態(tài)檢測、無差錯(cuò)讀取技術(shù)檢測等;最后是檔案數(shù)據(jù)的安全性鑒定,主要是鑒定檔案數(shù)據(jù)存儲環(huán)境是否受到病毒污染、網(wǎng)絡(luò)攻擊等。很容易看出,檔案數(shù)據(jù)管理中鑒定的程序已經(jīng)被各種技術(shù)的應(yīng)用所取代。在鑒定原則上,檔案管理新舊范式的融合之處在于對技術(shù)鑒定的沿用,沖突之處在于,相較內(nèi)容鑒定而言檔案數(shù)據(jù)管理表現(xiàn)出對技術(shù)鑒定的絕對側(cè)重,甚至已經(jīng)舍棄了傳統(tǒng)檔案鑒定奉為圭臬的內(nèi)容依據(jù)。造成這一差異的原因在于檔案數(shù)據(jù)管理強(qiáng)調(diào)一種“全數(shù)據(jù)”的留存以便進(jìn)行后續(xù)的各類數(shù)據(jù)分析處理,重點(diǎn)關(guān)注內(nèi)容的鑒定思維發(fā)生了轉(zhuǎn)移。當(dāng)然,從普通用戶角度能看到的只是他們需要從中獲取有價(jià)值信息的檔案數(shù)據(jù),而為了保證這種價(jià)值能夠被實(shí)現(xiàn),檔案數(shù)據(jù)管理部門要鑒定的將是這“一角”數(shù)據(jù)后面的整座“冰山”。
在開放利用過程中,無論是傳統(tǒng)的檔案管理還是檔案數(shù)據(jù)管理都面臨著同一個(gè)抉擇:檔案開放中知情權(quán)與隱私權(quán)的平衡。傳統(tǒng)檔案管理下關(guān)注隱私保護(hù)的重點(diǎn)在于維護(hù)國家主體的隱私權(quán),那些附有“密級”屬性的檔案一般只有解密后才能公開提供利用(這個(gè)時(shí)候其實(shí)檔案信息本身已經(jīng)喪失了時(shí)效性,其實(shí)現(xiàn)的主要價(jià)值已經(jīng)不是對信息知情需求的回應(yīng)而變成了“存史資證”功能),還有大部分檔案從產(chǎn)生之初直至銷毀都不會公開。這一階段,國家敘事的隱私維護(hù)主要依賴物理隔絕的方式,檔案制度中對于個(gè)人檔案隱私權(quán)保護(hù)的內(nèi)容既不多也不明確。大數(shù)據(jù)技術(shù)的深度應(yīng)用使得檔案數(shù)據(jù)開放利用中的隱私數(shù)據(jù)保護(hù)矛盾更加凸出,這一時(shí)期的隱私指向主要是個(gè)體的隱私權(quán),即檔案數(shù)據(jù)中涉及個(gè)體隱私的數(shù)據(jù)應(yīng)具備不受侵?jǐn)_、不被干涉、不被泄露和隨意開放的權(quán)利。同時(shí),檔案管理新舊范式面對開放利用存在的最大沖突主要指向檔案數(shù)據(jù)資源的供需狀況和開放共享限度本身的矛盾。上文所設(shè)想的檔案數(shù)據(jù)管理勾勒了一幅檔案利用的美好藍(lán)圖:以問題為導(dǎo)向,用戶根據(jù)需求提出問題,計(jì)算機(jī)據(jù)此設(shè)計(jì)檢索方案,經(jīng)過一系列復(fù)雜的數(shù)據(jù)處理,最后以與用戶期望最佳匹配的結(jié)果呈現(xiàn)信息。然而,這一宏大設(shè)想的關(guān)鍵前提是必須要有大而全的檔案數(shù)據(jù)庫作為支撐。假如忽略檔案數(shù)據(jù)分散在不同的存儲系統(tǒng)中這一情況,即使所有的檔案數(shù)據(jù)統(tǒng)一在一個(gè)庫中存儲管理,也仍然要面對開放共享限度的問題:那些不開放的檔案數(shù)據(jù)是否也在這個(gè)庫中存儲?如果是,檔案數(shù)據(jù)管理中檔案開放共享的限度是否將逐漸消解;如果不是,在上下文關(guān)系被破壞、數(shù)據(jù)關(guān)聯(lián)與數(shù)據(jù)挖掘無法順暢推進(jìn)的情況下如何有效回應(yīng)檔案利用需求又將成為最大的難題。
美國《時(shí)代》周刊曾經(jīng)一針見血地指出,美國總統(tǒng)奧巴馬成功擊敗對手羅姆尼贏得連任的制勝絕招在于數(shù)據(jù)挖掘。奧巴馬團(tuán)隊(duì)能推翻美國總統(tǒng)選舉歷史上以籌資定勝負(fù)的定律,得益于其敏銳的數(shù)據(jù)意識:他們用將近兩年的時(shí)間搜集匯總獨(dú)立零散的選民數(shù)據(jù)庫,利用數(shù)據(jù)挖掘?qū)Σ煌x民群體進(jìn)行建模預(yù)測并根據(jù)實(shí)際情況不斷動態(tài)調(diào)整,掌握了捐贈者和投票人的動向,與此同時(shí)羅姆尼團(tuán)隊(duì)仍然延用著早期的統(tǒng)計(jì)方法。[28]可見,數(shù)據(jù)意識的養(yǎng)成對于身處博弈時(shí)代的現(xiàn)代人具有突出的意義。大數(shù)據(jù)時(shí)代,檔案管理不應(yīng)再將管理對象局限于傳統(tǒng)的檔案數(shù)據(jù),還要關(guān)注檔案實(shí)時(shí)新數(shù)據(jù)。檔案人員的數(shù)據(jù)意識應(yīng)該敏銳地映射到檔案內(nèi)容數(shù)據(jù)、結(jié)構(gòu)數(shù)據(jù)、背景數(shù)據(jù)和檔案業(yè)務(wù)活動數(shù)據(jù)以外的檔案數(shù)據(jù)世界:政府開放的數(shù)據(jù),社交媒體歸檔數(shù)據(jù),網(wǎng)頁歸檔數(shù)據(jù),智慧檔案館的運(yùn)行維護(hù)數(shù)據(jù),物聯(lián)網(wǎng)對檔案館、人和物全面感知的數(shù)據(jù)等等……只有意識到這些數(shù)據(jù)的存在,只有走出局限于檔案內(nèi)容憑證價(jià)值和情報(bào)價(jià)值的狹隘視野,重視起檔案數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)挖掘以及數(shù)據(jù)融合產(chǎn)生的檔案數(shù)據(jù)價(jià)值增值空間,才能真正建立起適應(yīng)檔案數(shù)據(jù)管理的數(shù)據(jù)意識,才能有意識地去部署檔案數(shù)據(jù)管理工作的格局。[29]
過去很長一段時(shí)間內(nèi),為呼應(yīng)國家檔案局“存量數(shù)字化、增量電子化”的檔案管理變革要求,檔案理論與實(shí)踐界都風(fēng)風(fēng)火火地展開了檔案數(shù)字化的理論研究與實(shí)踐推進(jìn)。但是,數(shù)字化僅僅是把紙質(zhì)檔案變成計(jì)算機(jī)可讀的圖像文本格式提供利用,這個(gè)轉(zhuǎn)化并未使檔案本身的價(jià)值得到提升,只是便利了檔案的利用,優(yōu)化了利用的途徑。數(shù)據(jù)化則要求將紙質(zhì)檔案、聲像檔案、音/視頻檔案、數(shù)字化檔案等存量檔案和不斷產(chǎn)生的電子的增量檔案轉(zhuǎn)化為可供計(jì)算機(jī)和用戶使用、處理和分析的數(shù)據(jù)化文本。這就要運(yùn)用到光學(xué)字符識別技術(shù)、語音識別技術(shù)、格式轉(zhuǎn)換技術(shù)等,將檔案數(shù)字內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并建立數(shù)據(jù)化后的檔案數(shù)據(jù)庫,方便計(jì)算機(jī)掛接、存取、調(diào)用、分析和處理。從“數(shù)字化”到“數(shù)據(jù)化”的過程實(shí)際上體現(xiàn)了一種從“提供利用”到“深度應(yīng)用”、從“價(jià)值實(shí)現(xiàn)”到“挖掘價(jià)值”的檔案管理思維轉(zhuǎn)變過程。從“數(shù)字化”到“數(shù)據(jù)化”的轉(zhuǎn)型之路,圖書館一直走在檔案館的前面。數(shù)字圖書館建設(shè)早期,主要工作還停留在利用掃描技術(shù)將紙本資源數(shù)字化,提供簡單檢索,這實(shí)際上只是把知識從實(shí)體書架搬遷到虛擬書架上;但很快隨著數(shù)據(jù)意識的養(yǎng)成和數(shù)據(jù)化技術(shù)的發(fā)展,數(shù)字化圖像開始被進(jìn)一步轉(zhuǎn)換為數(shù)據(jù)化文本,經(jīng)過分析處理后,這些數(shù)據(jù)成為“計(jì)算機(jī)時(shí)代喚醒書寫文明所蘊(yùn)含的財(cái)富”。[30]檔案管理有數(shù)據(jù)化作為物質(zhì)前提還需要具備數(shù)據(jù)能力作為輔助,二者缺一不可。數(shù)據(jù)能力包括了檔案管理系統(tǒng)或平臺能依據(jù)明確的歸檔規(guī)則自動捕獲或抓取檔案數(shù)據(jù)的能力,檔案數(shù)據(jù)的安全存儲、備份的能力,使檔案數(shù)據(jù)邏輯化、系統(tǒng)化的處理能力,從檔案數(shù)據(jù)中提取、挖掘有價(jià)值信息的能力,集成檔案數(shù)據(jù)系統(tǒng)與其他業(yè)務(wù)系統(tǒng)接口,實(shí)現(xiàn)數(shù)據(jù)共享交換的能力,檔案數(shù)據(jù)運(yùn)行維護(hù)全流程的管控能力等。數(shù)據(jù)能力的提高,是充分挖掘檔案數(shù)據(jù)價(jià)值的根本舉措。[31]
數(shù)字檔案館(室)建設(shè)的實(shí)踐經(jīng)驗(yàn)讓我們了解到,我國檔案工作實(shí)踐的推進(jìn)習(xí)慣于采用試點(diǎn)成功——經(jīng)驗(yàn)推廣——引起國家關(guān)注——國家頂層設(shè)計(jì)——全國范圍推行的模式開展。這主要由我國檔案管理事業(yè)體系龐大、分支眾多的客觀實(shí)際所決定。反觀國外,英國、美國、澳大利亞、新西蘭的數(shù)字轉(zhuǎn)型計(jì)劃均是自上而下的實(shí)施進(jìn)路。從國家層面制定戰(zhàn)略、布局行動路線是檔案數(shù)據(jù)管理轉(zhuǎn)型的有力保障。首先,政策層面要制定有針對性的,可操作性強(qiáng)的檔案數(shù)據(jù)管理制度和貫徹檔案數(shù)據(jù)生命周期的標(biāo)準(zhǔn)規(guī)范(這部分設(shè)計(jì)應(yīng)與已有的電子文件管理制度一脈相承、有所更新),針對政府、企業(yè)、社區(qū)等不同組織制定檔案數(shù)據(jù)管理辦法,還要重點(diǎn)關(guān)注統(tǒng)籌協(xié)調(diào)不同領(lǐng)域的檔案數(shù)據(jù)開放共享機(jī)制;其次,法律層面要建立健全檔案數(shù)據(jù)安全和檔案數(shù)據(jù)知識產(chǎn)權(quán)的相關(guān)法律法規(guī),明晰管理和使用過程中的責(zé)任主體、權(quán)利和義務(wù);最后,國家層面應(yīng)積極引導(dǎo)檔案工作者、技術(shù)人員、社會群體、用戶等利益相關(guān)者的檔案數(shù)據(jù)管理協(xié)同機(jī)制構(gòu)建。從傳統(tǒng)檔案管理轉(zhuǎn)向檔案數(shù)據(jù)管理是革命性的轉(zhuǎn)變,僅依靠檔案工作者的單薄力量是遠(yuǎn)遠(yuǎn)不夠的,其中大量的技術(shù)問題必須依靠現(xiàn)代信息技術(shù)工作者的參與來解決。國家層面引導(dǎo)構(gòu)建檔案數(shù)據(jù)利用反饋機(jī)制也可以支撐檔案數(shù)據(jù)分析處理、提供利用變得更加精準(zhǔn)。此外,還有諸如財(cái)政資金支持、數(shù)據(jù)管理人才教育培養(yǎng)等也需要從國家層面布局部署。
檔案界對于國內(nèi)外政府開放數(shù)據(jù)運(yùn)動的討論如火如荼,但對于檔案數(shù)據(jù)開放的研究卻不多。檔案數(shù)據(jù)作為國家和社會共有的資源,向社會提供開放服務(wù)既是責(zé)任也是義務(wù)。檔案數(shù)據(jù)開放的最終目的在于實(shí)現(xiàn)“任何人對檔案數(shù)據(jù)自由、免費(fèi)地訪問、獲取、使用和分享”。[32]檔案數(shù)據(jù)開放過程中重點(diǎn)需要關(guān)注的是:第一,在建立檔案數(shù)據(jù)開放(系統(tǒng))平臺,提高檔案部門處理數(shù)據(jù)、提供高質(zhì)量檔案數(shù)據(jù)的能力之余,幫助用戶打破技術(shù)壁壘,降低檔案數(shù)據(jù)的獲取難度,解決利用檔案數(shù)據(jù)的技術(shù)限制。第二,守住數(shù)據(jù)倫理的底線,做到檔案數(shù)據(jù)開放和涉及隱私的檔案數(shù)據(jù)保密的平衡,界定開放范圍、明確開放權(quán)責(zé),制定并完善檔案數(shù)據(jù)權(quán)、隱私權(quán)、數(shù)據(jù)重用和數(shù)據(jù)安全等相關(guān)法律法規(guī),為檔案數(shù)據(jù)開放提供法律保障。第三,要鼓勵企業(yè)、公民挖掘開發(fā)檔案數(shù)據(jù),國家和政府可以做出一些利益讓渡,更多地以“公共文化服務(wù)”的站位引領(lǐng)促進(jìn)檔案數(shù)據(jù)開放,使檔案潛在的多重價(jià)值從“沉睡”中被喚醒,釋放檔案數(shù)據(jù)價(jià)值的提升空間。
早從2005年開始,國外一些高校圖書館便設(shè)立“數(shù)據(jù)館員”一職,2011年以后國外設(shè)置該崗位的高校圖書館數(shù)量更是急劇上升,足以見其對于經(jīng)過系統(tǒng)和專業(yè)的訓(xùn)練,在數(shù)據(jù)管理、保存、存儲等方面具有行業(yè)資格的數(shù)據(jù)人才的迫切需求。[33]在我國學(xué)者對國外iSchools圖書情報(bào)與檔案管理碩士學(xué)位項(xiàng)目的調(diào)研中發(fā)現(xiàn),加州大學(xué)伯克利分校信息學(xué)院、印第安納大學(xué)伯明頓分校信息與計(jì)算學(xué)院、謝菲爾德大學(xué)信息學(xué)院、雪城大學(xué)信息學(xué)院、華盛頓大學(xué)信息學(xué)院、墨爾本大學(xué)信息學(xué)院、南澳大利亞大學(xué)信息技術(shù)與數(shù)學(xué)科學(xué)學(xué)院均開設(shè)了“數(shù)據(jù)科學(xué)”培養(yǎng)項(xiàng)目。這從側(cè)面反映出信息前沿科學(xué)對于傳統(tǒng)圖情檔學(xué)科教育的滲入以及國外市場對于“數(shù)據(jù)型人才”的需求正在增加。[34]而在筆者對國內(nèi)幾所擁有iSchools成員資格的大學(xué)相關(guān)專業(yè)所開設(shè)的研究生課程內(nèi)容調(diào)研中,尚未發(fā)現(xiàn)有開設(shè)“數(shù)據(jù)科學(xué)”課程或培養(yǎng)項(xiàng)目的院校。與信息資源管理學(xué)、情報(bào)學(xué)、圖書館學(xué)相比長期處于學(xué)科劣勢地位的檔案學(xué)專業(yè),理應(yīng)從物換星移的信息環(huán)境變化中敏捷地把握變革的時(shí)機(jī),培養(yǎng)和發(fā)展檔案“專業(yè)中的數(shù)據(jù)科學(xué)”。在傳統(tǒng)的檔案學(xué)科教育體系中增開數(shù)據(jù)科學(xué)教育,在以檔案學(xué)專業(yè)能力培養(yǎng)為基的前提下,將統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)的某些課程融合進(jìn)來,系統(tǒng)教授學(xué)生數(shù)據(jù)挖掘、數(shù)據(jù)管理、數(shù)據(jù)分析的能力。這種教育培養(yǎng)的對象不應(yīng)局限在高等院校學(xué)子本身,也應(yīng)向檔案界有志之士開放,通過項(xiàng)目制培養(yǎng),面向業(yè)務(wù)需求靈活設(shè)計(jì)課程內(nèi)容,合理選擇線上教學(xué)、線下講座、實(shí)操培訓(xùn)等培養(yǎng)方式。只有主動求新求變,才能為檔案管理順利轉(zhuǎn)型為檔案數(shù)據(jù)管理輸送其所必需的的、兼具檔案“軟”知識與數(shù)據(jù)“硬”技能的復(fù)合型人才,才能從容應(yīng)對“數(shù)據(jù)為王”時(shí)代發(fā)起的挑戰(zhàn),才能在與諸多相關(guān)學(xué)科的競爭中立于不敗之地。