林偉宏/浙江省檔案館
當(dāng)今社會(huì)已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,世界是互聯(lián)的,資源是互通的。檔案工作機(jī)構(gòu)的理念、目標(biāo)、方式、手段也應(yīng)當(dāng)主動(dòng)求變,才能更緊密、更高效地融入大數(shù)據(jù)治理、融入數(shù)字化變革,才能在大數(shù)據(jù)時(shí)代占據(jù)一席之地。大數(shù)據(jù)與檔案兩者之間的異同和關(guān)系、大數(shù)據(jù)怎么形成檔案、檔案怎么形成大數(shù)據(jù)不是本文討論的重點(diǎn),本文重點(diǎn)討論的是省域范圍內(nèi)如何構(gòu)建一個(gè)整體上的檔案大數(shù)據(jù)。
本文所指的檔案大數(shù)據(jù)包括檔案資源大數(shù)據(jù)、檔案管理大數(shù)據(jù)、檔案開發(fā)大數(shù)據(jù)等。如圖1所示,檔案資源大數(shù)據(jù)是指檔案工作中存量數(shù)字化、增量電子化所形成的大數(shù)據(jù);檔案管理大數(shù)據(jù)是指檔案管理過程數(shù)字化所形成的大數(shù)據(jù);檔案開發(fā)大數(shù)據(jù)是指檔案編研、知識(shí)挖掘等開發(fā)利用過程中形成的大數(shù)據(jù)。
圖1
某個(gè)機(jī)構(gòu)或個(gè)人擁有的數(shù)據(jù)夠多、數(shù)據(jù)量夠大,通常來說這個(gè)機(jī)構(gòu)或個(gè)人擁有的就是大數(shù)據(jù)。但是,究竟多少數(shù)量以上、多少容量以上才能稱為大數(shù)據(jù),并沒有明確的指標(biāo)?,F(xiàn)在,大多數(shù)檔案機(jī)構(gòu)都分別擁有大量的檔案資源數(shù)據(jù)。經(jīng)過多年來的檔案信息化建設(shè),一般每家檔案機(jī)構(gòu)都有幾十萬條、幾百萬條、幾千萬條目錄,幾十萬頁、幾百萬頁、幾千萬頁、幾億頁全文。再加上數(shù)字檔案館、數(shù)字檔案室、檔案利用服務(wù)平臺(tái)等系統(tǒng)中形成的大量檔案管理數(shù)據(jù),以及數(shù)字形式的檔案編研、檔案展覽等開發(fā)成果,可以說每家檔案機(jī)構(gòu)都擁有檔案大數(shù)據(jù)。但是檔案機(jī)構(gòu)的大數(shù)據(jù)是否互聯(lián)互通,有沒有一個(gè)整體上的檔案大數(shù)據(jù),是我們必須回答的一個(gè)問題。
筆者認(rèn)為,除了寄存、征集等有特殊約定要求的內(nèi)容,以及有涉密管理要求、不宜聯(lián)網(wǎng)使用的內(nèi)容外,檔案數(shù)據(jù)作為公共數(shù)據(jù),整體上可以形成一個(gè)區(qū)域性檔案大數(shù)據(jù)的概念(圖2)。在全國范圍內(nèi),所有檔案機(jī)構(gòu)的可聯(lián)網(wǎng)使用的檔案數(shù)據(jù)整體就是一個(gè)全國檔案大數(shù)據(jù);在一個(gè)省的范圍內(nèi),所有檔案機(jī)構(gòu)的可聯(lián)網(wǎng)使用的檔案數(shù)據(jù)整體就是一個(gè)省域的檔案大數(shù)據(jù)。
圖2
結(jié)合浙江省近年來的實(shí)際工作,特別是結(jié)合浙江省檔案數(shù)據(jù)共享中心建設(shè),筆者對(duì)構(gòu)建省域檔案大數(shù)據(jù)、實(shí)現(xiàn)共建共享有如下粗淺的思考。
這是建設(shè)主體問題,要明確由單一主體建設(shè)到聯(lián)合主體建設(shè)。國家檔案館、機(jī)關(guān)、國有企事業(yè)單位檔案室,從機(jī)構(gòu)性質(zhì)看,應(yīng)該是公共檔案資源的管理者,履行公共檔案資源的收集、保管、利用職責(zé),當(dāng)然也是檔案數(shù)據(jù)資源的管理者、檔案大數(shù)據(jù)的建設(shè)者。但是,它們不是檔案數(shù)據(jù)資源的所有者,檔案資源是國家的,檔案數(shù)據(jù)資源也歸國家所有。按照《關(guān)于加強(qiáng)數(shù)字政府建設(shè)的指導(dǎo)意見》(國發(fā)〔2022〕14號(hào))國家構(gòu)建開放共享的數(shù)據(jù)資源體系的要求,以及《檔案法》建設(shè)檔案信息資源共享服務(wù)平臺(tái),推動(dòng)檔案數(shù)字資源跨區(qū)域、跨部門共享利用的要求,這些檔案機(jī)構(gòu)都應(yīng)該積極參與檔案信息資源共享服務(wù)平臺(tái)的數(shù)據(jù)資源建設(shè),而不應(yīng)該抱有“我的資源我舍不得拿出去”的想法。所以,構(gòu)建省域檔案大數(shù)據(jù),平臺(tái)的建設(shè)可以由省里統(tǒng)一完成;資源的建設(shè)不同于以往各地?cái)?shù)字檔案館、數(shù)字檔案室建設(shè),資源建設(shè)的主體不再是一家檔案館、一家檔案室這樣的單一主體,而是區(qū)域內(nèi)的各家機(jī)構(gòu)的聯(lián)合主體。這些檔案機(jī)構(gòu)既是省域檔案大數(shù)據(jù)資源建設(shè)的主體,也是各自所提供的數(shù)字資源的管理主體。各個(gè)主體根據(jù)檔案的實(shí)際情況履行利用管控、開發(fā)等職責(zé),同步形成檔案管理大數(shù)據(jù)、檔案開發(fā)大數(shù)據(jù)。
這是發(fā)展規(guī)劃問題。省域檔案大數(shù)據(jù)肯定不同于原先各個(gè)檔案機(jī)構(gòu)各自在局域網(wǎng)構(gòu)建自己的檔案資源庫、資源池,更應(yīng)該強(qiáng)調(diào)規(guī)劃先行。檔案工作有自己的特殊性,檔案有開放的、有限制的,有涉密的、有敏感的,有涉及知識(shí)產(chǎn)權(quán)的、有涉及個(gè)人信息的,有條目信息、有全文信息。構(gòu)建共建共享的省域檔案大數(shù)據(jù),肯定不能眉毛胡子一把抓,必須要按照分類分級(jí)、先易后難、統(tǒng)一標(biāo)準(zhǔn)等原則逐步實(shí)施,而且不能越過安全保密、意識(shí)形態(tài)等紅線。檔案大數(shù)據(jù)的應(yīng)用也要根據(jù)實(shí)際分成不同等級(jí):社會(huì)公眾可自由獲取、檔案機(jī)構(gòu)工作人員可按權(quán)限查詢、僅限數(shù)據(jù)提供檔案機(jī)構(gòu)工作人員可查詢及權(quán)益相關(guān)用戶匹配等不同等級(jí)。
這是數(shù)據(jù)匯集問題。主要指的是檔案數(shù)據(jù)資源在符合法律法規(guī)、政策規(guī)定的前提下,盡可能多地從檔案機(jī)構(gòu)的局域網(wǎng)搬遷至政務(wù)網(wǎng)絡(luò)(一般是政務(wù)外網(wǎng)),從而實(shí)現(xiàn)檔案機(jī)構(gòu)間的互聯(lián)互通和遠(yuǎn)程訪問。放在政務(wù)外網(wǎng)上的檔案數(shù)據(jù)資源,還可以根據(jù)實(shí)際開放和控制情況,向互聯(lián)網(wǎng)提供一定數(shù)量的信息。當(dāng)然,這些檔案資源能夠從局域網(wǎng)搬出來,必須要經(jīng)過一些必要的處理,包括檔案開放審核、數(shù)據(jù)脫敏脫密、細(xì)化數(shù)據(jù)顆粒度、草稿正文分離等基礎(chǔ)工作,工作量肯定是不小的。各地檔案館經(jīng)過努力可以匯集共享的檔案資源大致可以劃分為:館藏開放檔案資源、民生檔案資源、可開放的專題檔案資源,以及非密檔案脫敏目錄、檔案編研成果、檔案網(wǎng)上展廳等。檔案資源從局域網(wǎng)復(fù)制到政務(wù)外網(wǎng),可以直接上傳到浙江省檔案數(shù)據(jù)共享中心項(xiàng)目平臺(tái),也可以放在各檔案機(jī)構(gòu)在政務(wù)外網(wǎng)上部署的區(qū)域數(shù)字檔案管理服務(wù)一體化平臺(tái)(圖3)。但是如果放在區(qū)域數(shù)字檔案管理服務(wù)一體化平臺(tái),需要實(shí)現(xiàn)和省檔案數(shù)據(jù)共享中心的系統(tǒng)對(duì)接。
圖3
這是數(shù)據(jù)治理問題。檔案數(shù)據(jù)資源從局域網(wǎng)搬到政務(wù)外網(wǎng)后,將會(huì)暴露出一些原來外界看不到或者想不到的問題。如,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、格式不規(guī)范、差錯(cuò)比例高等??梢哉f,聯(lián)網(wǎng)環(huán)境下省域檔案大數(shù)據(jù)的構(gòu)建過程,必定同時(shí)是問題數(shù)據(jù)糾正補(bǔ)齊的過程。因此,浙江省檔案數(shù)據(jù)共享中心在數(shù)據(jù)匯集的推進(jìn)過程中,允許各檔案機(jī)構(gòu)先把尚有質(zhì)量問題的數(shù)據(jù)匯集上來,再開展數(shù)據(jù)治理。治理過程中,數(shù)據(jù)提供方(各檔案機(jī)構(gòu))和檔案數(shù)據(jù)共享中心平臺(tái)建設(shè)方(省檔案館)可以雙向發(fā)力,批量地或逐個(gè)地通過技術(shù)手段或人工方式排查問題、糾正錯(cuò)誤、補(bǔ)齊缺漏,從而逐步提高整體數(shù)據(jù)質(zhì)量。
這是數(shù)據(jù)共享問題。長期以來,檔案機(jī)構(gòu)對(duì)檔案資源偏向于不共享,習(xí)慣于“一對(duì)一”提供服務(wù),甚至覺得“我的檔案不共享才體現(xiàn)我的資源有價(jià)值”。但是,大數(shù)據(jù)的理念截然相反,要共享才能挖掘價(jià)值。因此,檔案大數(shù)據(jù)在構(gòu)建中要樹立共享導(dǎo)向,檔案目錄、檔案全文、編研成果和網(wǎng)上展廳等,都要盡可能地實(shí)現(xiàn)共享,具體實(shí)踐中可以根據(jù)實(shí)際情況采取自由獲取、管控利用等不同的分層共享方式。通過資源共享,可以進(jìn)一步完善檔案便民利用服務(wù)機(jī)制,發(fā)揮檔案數(shù)據(jù)集中優(yōu)勢,提高在線利用用戶體驗(yàn);也可以促進(jìn)聯(lián)合編研、協(xié)同辦展等館際協(xié)同業(yè)務(wù);還有助于形成規(guī)模效應(yīng)、集聚效應(yīng),有利于檔案資源從信息向知識(shí)的提煉挖掘。
省域檔案大數(shù)據(jù)的直接來源是省域范圍內(nèi)所有檔案機(jī)構(gòu)的可聯(lián)網(wǎng)使用的檔案數(shù)據(jù),初始來源包括實(shí)體檔案存量數(shù)字化,數(shù)字檔案增量電子化,以及檔案管理開發(fā)過程數(shù)據(jù)的積累沉淀等。當(dāng)前,檔案載體正處于紙質(zhì)載體向電子載體轉(zhuǎn)換的重要時(shí)期,電子文件單套制管理必然是電子文件管理模式調(diào)整的目標(biāo)和方向。相比而言,存量紙質(zhì)檔案數(shù)字化早一天、晚一天對(duì)匯集來說只是時(shí)間問題,增量電子文件、電子信息更容易散失、損毀,增量電子化歸檔、數(shù)字化管理開發(fā)對(duì)匯集來說會(huì)關(guān)系到數(shù)據(jù)有還是沒有的問題。因此,檔案機(jī)構(gòu)尤其要善于從辦公系統(tǒng)、業(yè)務(wù)系統(tǒng)等外部大數(shù)據(jù)中找出最重要、最關(guān)鍵、最有價(jià)值的數(shù)據(jù),以適當(dāng)?shù)男问叫纬蓹n案資源大數(shù)據(jù),還要善于從檔案管理開發(fā)過程中積累沉淀形成檔案管理大數(shù)據(jù)、開發(fā)大數(shù)據(jù)。
各檔案機(jī)構(gòu)形成各自的檔案大數(shù)據(jù)后,構(gòu)建省域檔案大數(shù)據(jù)的步驟是:篩選—匯集—治理—共享。
首先,做好篩選。確定好需要匯集的檔案資源的類型和標(biāo)準(zhǔn),包括文書檔案、科技檔案、會(huì)計(jì)檔案、業(yè)務(wù)檔案要匯集哪一些類型,未開放檔案是否需要匯集、是否能匯集,匯集檔案目錄還是檔案全文,檔案全文數(shù)據(jù)中的草稿和文件辦理單是否要去除,各地檔案開發(fā)成果是否要匯集等。全省各檔案機(jī)構(gòu)按照統(tǒng)一標(biāo)準(zhǔn)從各自資源總庫中篩選出可共享資源。
其次,開展匯集。各檔案機(jī)構(gòu)按照統(tǒng)一技術(shù)要求對(duì)共享資源進(jìn)行數(shù)據(jù)處理和轉(zhuǎn)換,匯集上傳至省級(jí)檔案信息資源共享服務(wù)平臺(tái)。相對(duì)來說,檔案機(jī)構(gòu)中檔案館更為全面、更為專業(yè),檔案室數(shù)據(jù)更廣泛、更新鮮,省域檔案大數(shù)據(jù)構(gòu)建初期可以先匯集檔案館的大數(shù)據(jù),條件成熟時(shí)再擴(kuò)大到檔案室的大數(shù)據(jù)匯集。
再次,進(jìn)行治理。治理是從容缺容錯(cuò)到完整規(guī)范的過程。進(jìn)行治理,一方面使平臺(tái)上匯集的共享資源提高數(shù)據(jù)質(zhì)量,另一方面推動(dòng)各檔案機(jī)構(gòu)檔案管理日常業(yè)務(wù)實(shí)現(xiàn)標(biāo)準(zhǔn)化、規(guī)范化。
最后,實(shí)現(xiàn)共享。以共享的理念和方式構(gòu)建省域檔案大數(shù)據(jù),提升檔案機(jī)構(gòu)從檔案大數(shù)據(jù)中挖掘知識(shí)的能力,推動(dòng)方便人民群眾的檔案利用體系建設(shè),打造泛在可及、智慧便捷、公平普惠的檔案數(shù)字化服務(wù)體系。