趙 躍 邢琳悅 段先娥
近年來,數(shù)字人文、計算檔案學(xué)、智慧檔案館、人工智能等“數(shù)據(jù)”驅(qū)動的研究領(lǐng)域成為檔案學(xué)研究的熱點和前沿,正推動檔案“數(shù)據(jù)”范式的興起[1],并引發(fā)檔案界人士對檔案“數(shù)據(jù)”價值的廣泛關(guān)注[2][3],呼吁要推動檔案數(shù)字化向數(shù)據(jù)化的轉(zhuǎn)變[4-6],因為只有將檔案數(shù)字資源轉(zhuǎn)化為“數(shù)據(jù)態(tài)”,才能進行數(shù)據(jù)的關(guān)聯(lián)、挖掘和分析,實現(xiàn)檔案資源的數(shù)據(jù)價值[7];還有學(xué)者基于創(chuàng)新檔案服務(wù)模式、實現(xiàn)智慧檔案館面向計算的全媒體檔案信息管理等需求,提出要推動檔案數(shù)字化向數(shù)據(jù)化、語義化的轉(zhuǎn)變[8-9]。這些成果的紛紛出現(xiàn),寄予了檔案界對大數(shù)據(jù)時代突破檔案信息資源深度開發(fā)瓶頸、創(chuàng)新檔案服務(wù)模式以及推動檔案管理業(yè)務(wù)流程智慧化的迫切希望[10],但其研究內(nèi)容更側(cè)重于對檔案數(shù)據(jù)化概念、意義等基本問題的探討。近年來,有學(xué)者雖零星提出一些面向數(shù)字人文推進數(shù)據(jù)化的思路[11-12],但尚無學(xué)者專門關(guān)注如何推進數(shù)據(jù)化。本文通過分析檔案數(shù)據(jù)化面臨的問題,進而提出檔案數(shù)據(jù)化的路徑與策略,以期對實踐部門推進檔案數(shù)據(jù)化有所啟示。
近些年來,數(shù)據(jù)驅(qū)動和技術(shù)賦能似乎成為檔案事業(yè)發(fā)展和檔案學(xué)研究的方向標(biāo)。無論是數(shù)字人文學(xué)科的滲透,還是作為超學(xué)科興起的計算檔案學(xué),都讓檔案學(xué)者因檔案館館藏豐富的檔案資源而感到欣喜。但實際上,我國檔案領(lǐng)域與數(shù)字人文或計算檔案學(xué)領(lǐng)域的協(xié)同幾乎處于萌芽狀態(tài),距離實現(xiàn)數(shù)據(jù)驅(qū)動和技術(shù)賦能還較遠。筆者認為,檔案數(shù)據(jù)化是檔案部門以用戶需求和業(yè)務(wù)需要為導(dǎo)向,將數(shù)字檔案資源(包括數(shù)字化轉(zhuǎn)換形成的數(shù)字檔案資源和歸檔電子文件)轉(zhuǎn)換為可供閱讀、分析和處理檔案數(shù)據(jù)資源的過程[13]。但檔案機構(gòu)要實現(xiàn)這一過程的轉(zhuǎn)變,仍面臨諸多困境。
1.思維保守,創(chuàng)新乏力。檔案工作中的保守思維在改革與轉(zhuǎn)型的當(dāng)下,已成為阻礙我國檔案數(shù)據(jù)化進程的一堵厚墻。這種保守思維首先體現(xiàn)在檔案開放領(lǐng)域。長期以來,檔案保密與檔案開放的矛盾及其博弈造就了極強的安全保密觀,卻并未帶來檔案開放的突破。在現(xiàn)行的檔案安全工作中,檔案機構(gòu)往往強調(diào)運用法律、政策、行政、制度、技術(shù)、設(shè)備等各種手段來確保涉密文件和檔案的安全,形成了嚴(yán)格的檔案安全責(zé)任制,各級檔案館領(lǐng)導(dǎo)對安全問題非常重視,對檔案的解密、開放問題持小心謹(jǐn)慎的態(tài)度。有學(xué)者發(fā)現(xiàn):檔案館在保密和開放的執(zhí)行和把握過程中,博弈“權(quán)衡利弊取其輕”占據(jù)了主導(dǎo)地位,即寧可緊閉大門不出事,也不能因為開放檔案后不可預(yù)料的結(jié)果而受到法律的嚴(yán)懲[14]。在“公開危險,保密安全”的保守思維驅(qū)使下,檔案管理部門普遍存在著“保密過度而開放不足”現(xiàn)象[15],嚴(yán)重影響檔案開放水平。
保守思維還體現(xiàn)為部分檔案機構(gòu)“小而全”的資源獨占思維。有的機構(gòu)認為檔案是自家資源,不愿共享,發(fā)布在互聯(lián)網(wǎng)上意味著失去了對核心資源的絕對控制權(quán)與主體地位[16-17]。當(dāng)前,全國各地已建成的各級各類數(shù)字檔案館數(shù)量和規(guī)模可觀,但從共享的角度來看,只不過是一座座“資源孤島”,檔案資源的可獲知性和可獲得性并未取得突破性進展。很多檔案資源很難通過網(wǎng)絡(luò),尤其是互聯(lián)網(wǎng)獲取。部分檔案館雖在網(wǎng)絡(luò)發(fā)布檔案開放目錄,但仍要求查檔者到其館藏所在地查閱、摘抄、復(fù)制。總之,不可否認,檔案特有的政治性、秘密性、敏感性規(guī)定了檔案信息資源必須得到有效管控[18],但過分強調(diào)檔案安全保密,造成檔案安全工作與檔案開放工作的失衡,就會在一定程度上阻礙檔案開放進程。檔案開放工作的龜速發(fā)展,加上資源獨占思維及其共同作用下導(dǎo)致的“重存輕用”工作機制,嚴(yán)重阻礙了檔案事業(yè)的改革和創(chuàng)新,也阻礙當(dāng)前檔案數(shù)據(jù)化推進?,F(xiàn)有的檔案思維模式和工作機制下,檔案數(shù)據(jù)化極有可能陷入“可為而不能為甚至不敢為”的窘境。
2.統(tǒng)籌依賴,動力不足。政策導(dǎo)向和規(guī)劃引領(lǐng)歷來是我國檔案工作前進的重要動力。2016 年發(fā)布的《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》提出“全面推進檔案資源存量數(shù)字化、增量電子化、利用網(wǎng)絡(luò)化”的檔案信息化目標(biāo)。不僅如此,規(guī)劃中還提到要探索與大數(shù)據(jù)行動的融合——“建立開放檔案信息資源社會化共享服務(wù)平臺,制定檔案數(shù)據(jù)開放計劃”。盡管國家層面首次創(chuàng)造性地使用“檔案數(shù)據(jù)開放”的概念,但此處“檔案數(shù)據(jù)”更多是指目錄數(shù)據(jù),而非從檔案內(nèi)容中提取的數(shù)據(jù)。2019 年底國家檔案局發(fā)布的《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》(DA/T 77-2019)提出,“檔案OCR 應(yīng)納入數(shù)字檔案館(室)資源建設(shè)范疇,統(tǒng)籌規(guī)劃、有序?qū)嵤?,逐步實現(xiàn)常態(tài)化”。該規(guī)范同時還提出了檔案數(shù)據(jù)化后的幾個應(yīng)用目標(biāo)場景,指出“檔案OCR 應(yīng)科學(xué)開展,有利于實現(xiàn)檔案信息檢索和計算機輔助編目、編研開發(fā)、數(shù)據(jù)挖掘”。這對推進我國檔案數(shù)據(jù)化工作具有重要指導(dǎo)意義,盡管如此,國家層面也尚未提出推進檔案數(shù)據(jù)化的行動計劃,如何解決檔案數(shù)據(jù)化與數(shù)據(jù)化后應(yīng)用之間的脫節(jié),實現(xiàn)數(shù)據(jù)化、語義化、智慧化與應(yīng)用場景開發(fā)的一體化發(fā)展,仍需國家層面的政策引導(dǎo)與統(tǒng)籌推進。一直以來,受自上而下檔案管理體制的影響,我國地方檔案機構(gòu)對國家層面的統(tǒng)籌規(guī)劃形成了很強的依賴性。由于國家層面還沒有明確的關(guān)于檔案數(shù)據(jù)化的政策動向,因此很多地方檔案機構(gòu)也缺乏探索檔案數(shù)據(jù)化道路的主動性與積極性。
值得一提的是,近年來,浙江省在檔案部門融入大數(shù)據(jù)、“互聯(lián)網(wǎng)+”等新興趨勢中進行了大膽且有益的探索,在檔案事業(yè)的改革與轉(zhuǎn)型中成為典范。2018 年9月,浙江省委辦公廳、省政府辦公廳聯(lián)合印發(fā)《關(guān)于加快推進新時代檔案資源建設(shè)的意見》,在加快推進檔案資源建設(shè)數(shù)字化轉(zhuǎn)型方面,提出要推進檔案數(shù)字化成果全文識別,2022 年底前,全省各級各類國家綜合檔案館完成館藏重點檔案數(shù)據(jù)化,省、市、縣(市、區(qū))直屬機關(guān)和國有企事業(yè)單位完成與“最多跑一次”改革相關(guān)的專業(yè)檔案數(shù)據(jù)化[19]。顯然,在推進“檔案資源”向“數(shù)據(jù)資源”[20]的深刻變革與數(shù)據(jù)化轉(zhuǎn)型當(dāng)中浙江省已經(jīng)完成了頂層設(shè)計,但檔案數(shù)據(jù)化工作并不等同于“數(shù)字化成果全文識別”,因此,如何進一步統(tǒng)籌推進檔案數(shù)據(jù)化還有待在實踐中進一步探索完善。盡管我國地方檔案事業(yè)的發(fā)展中有浙江省這樣的“改革先鋒”,但國家政策與規(guī)劃層面對檔案數(shù)據(jù)化行動的不確定性,也使得地方檔案部門探索檔案數(shù)據(jù)化動力明顯不足。規(guī)劃缺失、動力不足以及由此帶來的地方檔案部門領(lǐng)導(dǎo)重視程度低、缺乏相應(yīng)的經(jīng)費支持,成為當(dāng)前推進檔案數(shù)據(jù)化面臨的一大困境。
3.人才不足,技術(shù)薄弱。一直以來,檔案信息化人才緊缺,尤其是具備計算機等專業(yè)背景的技術(shù)型人才的嚴(yán)重缺乏,已經(jīng)成為檔案信息化建設(shè)的瓶頸。大數(shù)據(jù)時代的到來,檔案部門對數(shù)據(jù)庫建設(shè)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、知識組織、人工智能等方向的技術(shù)型和復(fù)合型人才的需求更甚。而當(dāng)前的檔案專業(yè)人才現(xiàn)狀卻不容樂觀:一是檔案人才專業(yè)結(jié)構(gòu)、年齡結(jié)構(gòu)和層次結(jié)構(gòu)的不合理。我國現(xiàn)有檔案專業(yè)人才年齡偏大、高學(xué)歷人才偏少、現(xiàn)代技術(shù)人才嚴(yán)重不足。二是檔案專業(yè)人才技能不高。據(jù)統(tǒng)計,按照檔案專業(yè)程度來看,全國各級檔案行政管理部門和綜合檔案館現(xiàn)有專職人員中碩士研究生以上學(xué)歷的比例僅為0.39%[21]。三是信息素養(yǎng)和信息挖掘能力極弱。大部分檔案工作人員信息素養(yǎng)偏低,對檔案信息資源的收集、挖掘和綜合分析能力弱[22]。人才結(jié)構(gòu)的失衡,尤其是管理型、技術(shù)型、業(yè)務(wù)型人才配置的失衡,已經(jīng)成為阻礙檔案工作改革與轉(zhuǎn)型的重要因素,也是檔案數(shù)據(jù)化工作缺乏動力的重要原因。
檔案數(shù)據(jù)化工作不僅面臨人才緊缺的困境,在檔案數(shù)據(jù)化技術(shù)層面同樣面臨巨大的挑戰(zhàn)。經(jīng)過十多年的不斷發(fā)展,紙質(zhì)檔案、錄音錄像檔案數(shù)字化已經(jīng)形成一套比較成熟的技術(shù)解決方案,光學(xué)識別(OCR)、語音識別(ASR)等技術(shù)也逐漸運用到檔案數(shù)字化當(dāng)中。盡管如此,目前檔案數(shù)字化技術(shù)也僅僅實現(xiàn)了對數(shù)字檔案的目錄檢索、全文檢索,很多隱藏在檔案內(nèi)容中的關(guān)系及知識并沒有得到有效的揭示和呈現(xiàn),例如,情感關(guān)系、人物關(guān)系、時空關(guān)系、語言與語義特征、公文用語特征、公文程式特征等。因此,檔案數(shù)據(jù)化開發(fā)與應(yīng)用將涉及數(shù)據(jù)庫開發(fā)、知識組織與知識發(fā)現(xiàn)等眾多領(lǐng)域的技術(shù)方法。例如,文本編碼、語義描述、本體建模、自然語言處理、文本分析、可視化技術(shù)、機器學(xué)習(xí)技術(shù)等。然而,上述很多技術(shù)并未應(yīng)用到檔案部門。在數(shù)字化階段,大多數(shù)檔案機構(gòu)通過外包的方式來解決人才與技術(shù)不足的困境。但從目前來看,不僅是檔案部門對檔案數(shù)據(jù)化技術(shù)把握不足,很多第三方公司對檔案數(shù)據(jù)化技術(shù)解決方案的準(zhǔn)備同樣不足。因此,檔案數(shù)據(jù)化開發(fā)的人才緊缺與技術(shù)不足的狀況,給檔案數(shù)據(jù)化開發(fā)項目的部署與實施帶來巨大的挑戰(zhàn)。
4.開發(fā)不足,服務(wù)被動。當(dāng)前,以檢索、編研為核心的檔案信息資源開發(fā)深度明顯不足。檔案部門擁有大量有價值的“一手資料”,且檔案編研工作早已成為檔案部門的常規(guī)性工作,但始終難以突破“有編無研”的瓶頸。檔案數(shù)字化曾為檔案信息資源開發(fā)帶來曙光,因為它既強調(diào)將檔案信息從檔案實體剝離并存儲在數(shù)字載體上,也強調(diào)對數(shù)字化檔案的重新組織并實現(xiàn)序化與內(nèi)容的開發(fā)。但當(dāng)前我國檔案數(shù)字化實踐往往只關(guān)注前者,也就是實現(xiàn)“模數(shù)轉(zhuǎn)換”的數(shù)字化加工。伴隨著檔案數(shù)字化工作的不斷推進,不少檔案機構(gòu)已進入“后數(shù)字化”階段,管控著大量以PDF、圖片等格式保存的數(shù)字檔案資源,但這些資源大多停留在簡單的組織、檢索、利用層面,內(nèi)容層面的開發(fā)與挖掘還未引起足夠重視[23]??梢姡瑱n案數(shù)字化雖提升了檔案部門的存取能力,但未能突破檔案編研的困境。
另一層面,檔案服務(wù)創(chuàng)新離不開檔案資源開發(fā)端的努力,檔案資源開發(fā)的程度將直接影響檔案服務(wù)的能力和質(zhì)量。檔案數(shù)字化雖實現(xiàn)了為檔案制作數(shù)字化副本和網(wǎng)絡(luò)環(huán)境下的檔案獲取,但并沒有從根本上改變檔案服務(wù)的被動性。數(shù)字化后的檔案文本存在兩方面缺陷:一是數(shù)字化文本仍然需要用戶有意識地進行檢索,沒有建立檔案信息間完整的聯(lián)系;二是數(shù)字化文本中的信息依然只能依靠人的閱讀,才能轉(zhuǎn)化為有用的信息。此外,檔案公共服務(wù)平臺建設(shè)水平的低下同樣是造成檔案服務(wù)被動的因素,檔案機構(gòu)多將檔案網(wǎng)站平臺定位為“政務(wù)型”平臺開展建設(shè),網(wǎng)站服務(wù)偏向于政務(wù)類、業(yè)務(wù)類信息發(fā)布與信息服務(wù),基于檔案資源而提供的主動服務(wù)和知識服務(wù)明顯不足。近些年來興起的檔案社交媒體服務(wù)平臺和移動服務(wù)平臺雖在一定程度上拓展了檔案機構(gòu)主動服務(wù)的渠道,但其針對檔案資源所提供的服務(wù)方式和服務(wù)質(zhì)量并未得到較大的提升,未能拓展檔案數(shù)據(jù)服務(wù)與知識服務(wù)的功能??傊?,檔案資源整合與深度開發(fā)的不足,檔案公共服務(wù)平臺和能力的局限,對檔案數(shù)據(jù)化的推進造成一定的影響。
檔案數(shù)據(jù)化工作都是通過相關(guān)項目的開展來驅(qū)動的。馬里蘭州檔案館奴隸制遺產(chǎn)項目在2001 年發(fā)起之初,其實想要通過案例研究利用馬里蘭州立檔案館的檔案來講述奴隸的故事和非裔美國人在馬里蘭取得的成就。但隨著項目的開展,為了利用新興的檢索工具改善用戶的閱讀體驗,項目組又啟動了數(shù)字化項目,通過掃描、轉(zhuǎn)錄、數(shù)據(jù)整合、清理和存儲,實現(xiàn)了數(shù)據(jù)化流程,并通過后期的數(shù)據(jù)可視化、數(shù)據(jù)分析等,提供基于網(wǎng)絡(luò)的呈現(xiàn)和利用[24]。另外,上海圖書館從2014 年起探索基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的數(shù)字人文項目建設(shè)模式,其建設(shè)過程的首要步驟就是實現(xiàn)各類資源的數(shù)據(jù)化[25]。通過這些項目的驅(qū)動,在項目完成過程中施行數(shù)據(jù)化工作,達到推進檔案數(shù)據(jù)化的目的。除了上述專題檔案開發(fā)項目與數(shù)字人文類項目,檔案部門還可探索并適時發(fā)起智慧檔案建設(shè)項目、計算檔案學(xué)研究項目、開放檔案數(shù)據(jù)項目、知識服務(wù)項目等,通過這些項目來驅(qū)動檔案數(shù)據(jù)化的開展。針對檔案數(shù)據(jù)化相關(guān)項目在檔案機構(gòu)的實施,筆者提出以下策略建議。
1.轉(zhuǎn)變思維方式,做好檔案數(shù)據(jù)化規(guī)劃。推進檔案數(shù)據(jù)化工作,首先要求檔案工作者摒棄不敢開放的保守思維和“小而全”的資源獨占思維,推動“存取”思維向“開發(fā)”思維的轉(zhuǎn)變、數(shù)字化思維向數(shù)據(jù)化思維的轉(zhuǎn)變。著眼于數(shù)據(jù)時代的社會需求與用戶需求的變化,通過數(shù)據(jù)化以及智慧檔案建設(shè)來推進檔案開放利用深度與廣度,提升檔案業(yè)務(wù)工作智能化水平,面向未來、面向社會積極尋求新的職能拓展與服務(wù)轉(zhuǎn)型。在我國檔案事業(yè)改革與轉(zhuǎn)型的十字路口,國家檔案局需要對檔案數(shù)據(jù)化的發(fā)展前景有清晰的認識,適時將檔案數(shù)據(jù)化納入未來“十四五”檔案信息化建設(shè)規(guī)劃以及“十四五”時期國家重點檔案保護與開發(fā)規(guī)劃當(dāng)中,統(tǒng)籌推進全國智慧檔案建設(shè)工作。地方檔案機構(gòu)也要努力尋求檔案工作與大數(shù)據(jù)戰(zhàn)略以及智慧社會發(fā)展的融合,發(fā)揮積極性,充當(dāng)排頭兵,積極爭取地方政府和財政的支持,探索檔案數(shù)據(jù)化的可行路徑與實施方案,盡快研制檔案數(shù)據(jù)化標(biāo)準(zhǔn)與指南。
2.發(fā)掘業(yè)務(wù)需求,明確檔案數(shù)據(jù)化目標(biāo)。明確的目標(biāo)是檔案數(shù)據(jù)化項目走向?qū)嵺`的重要牽引力,而在明確檔案數(shù)據(jù)化目標(biāo)之前,應(yīng)開展需求研究,充分發(fā)掘檔案數(shù)據(jù)化的業(yè)務(wù)需求。當(dāng)前,有學(xué)者闡釋了檔案數(shù)據(jù)化對于突破檔案信息資源深度開發(fā)瓶頸、創(chuàng)新檔案服務(wù)模式以及推動檔案管理業(yè)務(wù)流程智慧化等方面的重要意義[26]。筆者認為,檔案部門應(yīng)認識到檔案數(shù)據(jù)化的意義,全面檢視改革與轉(zhuǎn)型時期檔案工作的“痛點”與“創(chuàng)新點”。首先,梳理哪些“痛點”可以借助檔案數(shù)據(jù)化更好地解決。例如,能否通過檔案數(shù)據(jù)化解決檔案開放鑒定人力不足與效率低下的問題,實現(xiàn)基于檔案內(nèi)容的智能化鑒定,通過對涉密信息、敏感信息和隱私信息的批量標(biāo)注、比對與劃控,提升檔案開放鑒定效率[27-28]。其次,梳理哪些“創(chuàng)新點”可以通過檔案數(shù)據(jù)化來實現(xiàn)。例如,能否通過檔案數(shù)據(jù)化進一步帶動以“開發(fā)”為導(dǎo)向的知識化和智慧化進程,充分挖掘各類型各專業(yè)檔案的數(shù)據(jù)價值,進而拓展檔案服務(wù)方式,實現(xiàn)檔案信息服務(wù)向數(shù)據(jù)服務(wù)、信息服務(wù)、知識服務(wù)、智慧服務(wù)的“全對象”“全層級”服務(wù)的轉(zhuǎn)變??傊?,無論是提升檔案鑒定、檔案編研等常規(guī)工作的效率,還是拓展檔案服務(wù)方式,都是檔案數(shù)據(jù)化的業(yè)務(wù)需求,檔案部門應(yīng)以業(yè)務(wù)需求為導(dǎo)向,明確檔案數(shù)據(jù)化項目的目標(biāo),致力于實現(xiàn)檔案工作的精細化與智能化水準(zhǔn),帶動檔案數(shù)據(jù)化項目走向?qū)嵺`。
3.引入成熟技術(shù),促進檔案數(shù)據(jù)化開發(fā)。檔案數(shù)據(jù)化開發(fā)不僅僅是數(shù)字化后數(shù)字媒體的內(nèi)容識別和簡單的元數(shù)據(jù)著錄,而且是在數(shù)字化的基礎(chǔ)上,以“需求”與“目標(biāo)”為導(dǎo)向,進一步推進數(shù)字檔案實現(xiàn)數(shù)據(jù)化、知識化和智慧化的過程。例如,面向數(shù)字人文的檔案數(shù)據(jù)化開發(fā)就是要按照知識單元的方式來組織領(lǐng)域知識,從而構(gòu)造一個模擬領(lǐng)域應(yīng)用的知識環(huán)境。要做到這一步,通常的“文本化”是不夠的,雖然文本化能夠支持基于字符匹配的全文檢索,但字符串還不是嚴(yán)格意義上的數(shù)據(jù),必須把字符串所表達的人名、事物名、時間、地點等析取出來,賦予獨立的標(biāo)識符。本體技術(shù)、語義網(wǎng)技術(shù)(關(guān)聯(lián)數(shù)據(jù))等是專門針對知識單元(語義單位)提供解決方案的技術(shù),在數(shù)字人文等領(lǐng)域已有成功的應(yīng)用[29]。當(dāng)前,檔案機構(gòu)在推進檔案數(shù)據(jù)化、知識化和智慧化方面并未形成技術(shù)體系,眾多檔案機構(gòu)并不具備檔案數(shù)據(jù)化開發(fā)的技術(shù)能力,且眾多第三方檔案服務(wù)提供商并沒有成熟的檔案數(shù)據(jù)化開發(fā)技術(shù)解決方案。因此,亟待引入數(shù)據(jù)管理、知識組織、數(shù)字人文等領(lǐng)域的成熟技術(shù),促進檔案數(shù)據(jù)化開發(fā)。例如,自然語言處理、ETL 技術(shù)、文本編碼、語義描述、本體建模、圖數(shù)據(jù)庫、多媒體搜索、語義搜索、關(guān)聯(lián)數(shù)據(jù)、名稱實體抽取、API 數(shù)據(jù)服務(wù)等[30]。當(dāng)然,不僅僅要關(guān)注上述底層基礎(chǔ)技術(shù),還要關(guān)注數(shù)據(jù)組織平臺建設(shè)相關(guān)技術(shù)方案以及數(shù)據(jù)間的互聯(lián)互通技術(shù)方案(共享與互操作)等等。
4.尋求廣泛合作,挖掘檔案的多元價值。由于檔案機構(gòu)在數(shù)據(jù)挖掘、自然語言處理、數(shù)字人文、知識組織等領(lǐng)域人才、技術(shù)的嚴(yán)重不足,加上檔案部門支持資金的薄弱,檔案機構(gòu)在檔案數(shù)據(jù)化建設(shè)當(dāng)中,同樣可以積極尋求館際合作、拓展跨界合作,跳出傳統(tǒng)的合作圈子或合作思路,尋求新的合作伙伴和合作方式。當(dāng)前,檔案部門在檔案數(shù)據(jù)化開發(fā)當(dāng)中,最需要尋求的合作伙伴無疑是計算機科學(xué)、數(shù)據(jù)科學(xué)、人工智能、數(shù)字人文等領(lǐng)域的機構(gòu),甚至與從事數(shù)字藝術(shù)、文化創(chuàng)意等方向的機構(gòu)或團隊合作,依靠內(nèi)容、技術(shù)、設(shè)計、創(chuàng)意的跨界與融合來推進檔案數(shù)據(jù)化開發(fā)。這方面,NARA 的“二戰(zhàn)”日裔美國人拘留營檔案的數(shù)據(jù)管護項目、馬里蘭州檔案館的奴隸制遺產(chǎn)項目都是尋求合作的典型案例。首先,可以與擁有較強技術(shù)實力的研究機構(gòu)合作,包括數(shù)字人文、大數(shù)據(jù)、人工智能、數(shù)據(jù)科學(xué)、計算機科學(xué)等領(lǐng)域的相關(guān)研究機構(gòu),尋求專家知識支持和技術(shù)力量的加入,通過合作項目或橫向課題等合作形式推動檔案數(shù)據(jù)化相關(guān)項目的設(shè)計;其次,可以通過與掌握豐厚財力、人力、物力資源的商業(yè)機構(gòu)合作來推動智慧檔案開發(fā)、管理與服務(wù);此外,在不同地區(qū)之間,可以在國家檔案局的組織下“統(tǒng)一標(biāo)準(zhǔn)、協(xié)同行動”,通過檔案機構(gòu)縱向與橫向的共建共享,將中國檔案開放平臺打造成為國家級開放檔案數(shù)據(jù)平臺和國家級數(shù)字人文研究基礎(chǔ)設(shè)施。
5.探索檔案眾包,充分利用公眾的力量。公民眾包的興起讓公眾參與檔案工作從“線下”走向“線上”,在檔案信息資源開發(fā)工作中受到國內(nèi)外廣泛關(guān)注。2016年,上海圖書館啟動盛宣懷檔案眾包項目,將盛宣懷家族1850 年至1936 年間包括日記、文稿、信札、電報、賬冊、電文、合同、章程等在內(nèi)的檔案發(fā)布在自建的眾包平臺,吸引公眾完成元數(shù)據(jù)著錄與全文轉(zhuǎn)錄任務(wù)。英國倫敦大學(xué)學(xué)院“斯萊德檔案項目”(Slade Archive Project),借助大眾標(biāo)引進行元數(shù)據(jù)庫的構(gòu)建和完善。眾包在解決開放檔案數(shù)據(jù)化這一“勞動密集型”工作上具有獨特優(yōu)勢,它可在數(shù)字資源轉(zhuǎn)化為數(shù)據(jù)資源的過程中發(fā)揮積極作用,為深度開發(fā)檔案信息資源(例如,檔案編研、知識發(fā)現(xiàn)與決策支持)提供數(shù)據(jù)基礎(chǔ)[31]。有學(xué)者指出,檔案機構(gòu)可鼓勵公眾參與,例如,通過抄寫將文檔或地理歷史地圖數(shù)據(jù)化;對傳統(tǒng)檔案進行編目、標(biāo)記和分類;評論或討論檔案內(nèi)容,添加背景信息(如個人經(jīng)歷或記憶)來替代敘述和解釋[32]。盡管當(dāng)前我國檔案機構(gòu)尚未有成功的眾包項目問世,但不可否認的是,眾包必然是互聯(lián)網(wǎng)環(huán)境下帶動檔案數(shù)據(jù)化的一條重要且可行的路徑。參考聶勇浩和董子晗[33]提出的檔案信息資源建設(shè)眾包實施框架,檔案機構(gòu)在推進檔案數(shù)據(jù)化眾包項目中設(shè)計層面要順應(yīng)國家政策與機構(gòu)戰(zhàn)略目標(biāo)、選擇適當(dāng)?shù)娜蝿?wù)內(nèi)容與形式,在運作層面需要考慮平臺的搭建與質(zhì)量控制機制,管理層面則應(yīng)當(dāng)建立參與者的激勵機制與成果的評估機制。
6.重視人才興檔,提升檔案數(shù)據(jù)化能力。人才問題盡管是個老生常談的問題,但面對檔案數(shù)據(jù)化趨勢,其已成為推進檔案工作數(shù)據(jù)轉(zhuǎn)型亟待解決的問題。面對檔案機構(gòu)人才結(jié)構(gòu)的失衡,當(dāng)務(wù)之急是引入并培育技術(shù)型人才,面向計算機科學(xué)、數(shù)據(jù)科學(xué)、情報學(xué)等學(xué)科招聘一批專業(yè)技術(shù)人才,或者通過內(nèi)部崗位調(diào)整以及在職人才培訓(xùn),提升檔案機構(gòu)開展檔案數(shù)據(jù)化的能力,緩解過渡時期檔案機構(gòu)人才結(jié)構(gòu)失衡的矛盾。從長遠來看,要改革檔案學(xué)人才培養(yǎng)模式,才能改善人才需求缺口。在數(shù)據(jù)時代,培養(yǎng)具有技術(shù)、業(yè)務(wù)和管理能力的復(fù)合型檔案專業(yè)人才已是共識。有學(xué)者指出:數(shù)據(jù)時代的檔案工作者要成為具有交叉學(xué)科背景的復(fù)合型人才,需要具備網(wǎng)狀知識背景結(jié)構(gòu),既需通曉檔案專業(yè)知識,也要不斷提高運用數(shù)據(jù)挖掘、文本分析、可視化與數(shù)據(jù)設(shè)計等數(shù)字技術(shù)及工具的能力[34]。當(dāng)前,國外檔案教育已經(jīng)開始關(guān)注新興技術(shù),例如美國西蒙斯學(xué)院檔案與保存專業(yè)學(xué)生在檔案館實習(xí)中掌握數(shù)字人文技術(shù)[35]。檔案高等教育和檔案中等教育改革,也應(yīng)重視在課程體系建設(shè)中加入計算檔案學(xué)、數(shù)據(jù)科學(xué)、數(shù)字資產(chǎn)管理等學(xué)科和領(lǐng)域的相關(guān)理論課程與實習(xí)實踐課程,并且重視發(fā)揮高校數(shù)字人文實驗室、人工智能實驗室等在檔案學(xué)專業(yè)創(chuàng)新性人才培養(yǎng)中的作用。
7.保障檔案安全,解除檔案開放的隱憂。檔案開放是檔案數(shù)據(jù)化工作的重要前提,也是制約檔案工作數(shù)據(jù)轉(zhuǎn)型的重要因素。2020 年新修訂的《中華人民共和國檔案法》明確規(guī)定,要提高檔案開放的效率,將檔案開放的期限由30 年縮短為25 年?!度珖鴻n案事業(yè)發(fā)展“十三五”規(guī)劃綱要》也曾提出“制定檔案數(shù)據(jù)開放計劃”。這些舉措流露出檔案部門要擴大開放與利用,改變檔案管理保守、保密形象的趨勢,但也對檔案部門帶來巨大的壓力,不僅僅包括前文所述的開放鑒定工作的壓力,還包括對檔案安全問題的擔(dān)憂。從檔案開放走向檔案數(shù)據(jù)開放,不僅僅是檔案開放形式的變化,還意味著開放內(nèi)容的數(shù)據(jù)化、開放平臺的網(wǎng)絡(luò)化,而這無疑將為檔案部門增添新的“安全風(fēng)險”。因此,檔案部門若要推進檔案數(shù)據(jù)化項目,必先做好檔案開放鑒定工作以及檔案安全保障工作,識別檔案數(shù)據(jù)化項目以及檔案數(shù)據(jù)開放等工作所帶來的安全風(fēng)險因子,評估風(fēng)險大小,依據(jù)評估結(jié)果采取相應(yīng)的風(fēng)險防控措施,做好安全保障。只有這樣,才能解除檔案開放的隱憂,檔案部門才能以更加開放包容的新姿態(tài)融入數(shù)據(jù)時代,推動檔案數(shù)據(jù)化項目走向?qū)嵺`。
當(dāng)前,我國檔案事業(yè)正處在改革與轉(zhuǎn)型的十字路口,檔案法規(guī)的修訂、數(shù)字轉(zhuǎn)型的倒逼、新興技術(shù)的驅(qū)動、機構(gòu)改革的推動等,讓未來幾年的檔案工作充滿新機遇,又面臨新挑戰(zhàn)。面對機遇與挑戰(zhàn),變革與創(chuàng)新是必然趨勢,也是發(fā)展之道。檔案部門作為歷史信息資源的最大擁有者,亟待抓住改革與轉(zhuǎn)型的契機,創(chuàng)新管理技術(shù)與服務(wù)模式,推進數(shù)字檔案資源數(shù)據(jù)化、語義化和智慧化進程。因此,筆者認為,檔案數(shù)據(jù)化開發(fā)或檔案數(shù)據(jù)資源開發(fā)就是通過數(shù)據(jù)化、語義化和智慧化等手段,將數(shù)字資源開發(fā)成數(shù)據(jù)資源的過程。本文分析了檔案數(shù)據(jù)化走向?qū)嵺`面臨的困境,提出了檔案部門推進檔案數(shù)據(jù)化的策略,希望能夠引起檔案部門對檔案數(shù)據(jù)化的關(guān)注,推動檔案數(shù)據(jù)化工作突破困境,走向?qū)嵺`。