陶玉芳/上海大學圖書情報檔案系
互聯(lián)網(wǎng)的誕生和發(fā)展改變了人們的生活方式,也改變了文件形成、傳播、整理、保管、利用的形式。文件中的信息大多會以文本、圖像、視頻、音頻等的數(shù)字化形式在互聯(lián)網(wǎng)空間中留存下來,如何對數(shù)字化檔案進行有效的管理成了檔案學研究的熱點話題。計算科學技術(shù)的迅速發(fā)展,使高效處理和分析大量的數(shù)據(jù)內(nèi)容成為可能,這推動了檔案數(shù)據(jù)化管理的發(fā)展。數(shù)據(jù)挖掘、可視化、人工智能等計算科學技術(shù)的發(fā)展以及其在檔案工作領(lǐng)域中的應用,促成了檔案學與計算科學的交叉學科“計算檔案學”(Computational Archival Science,CAS)的誕生。
計算思維是運用計算機科學的思維方式和基礎(chǔ)概念進行問題解答、系統(tǒng)設計,像計算機科學家一樣思考問題、理解問題、解決問題等一系列涵蓋計算機科學的思維活動[1]。計算思維就是指能夠創(chuàng)造性地利用計算機領(lǐng)域的方法和思想分析問題,建立問題解決過程的數(shù)學模型,然后通過編寫程序和算法解決問題,并遷移運用的一種思維。計算思維是人們應用計算科學的原理、思想和方法解決問題中形成的一種普適性思維。后現(xiàn)代主義理論的盛行和計算機技術(shù)的發(fā)展應用,使得檔案學研究和檔案職業(yè)理論與實踐重塑與變革。將計算科學的方法和工具應用于檔案問題、從根本上將計算思維與檔案實踐相結(jié)合,為檔案學研究提供了更大可能性。
2018年第三屆計算檔案學研討會將計算檔案學定義為:一個整合計算和檔案理論、方法、資源的跨學科領(lǐng)域,既支持可靠和真實的記錄/檔案的產(chǎn)生和保存,又解決大規(guī)模的記錄/檔案的處理、分析、存儲和獲取,以期改善效率、生產(chǎn)率和精度,支持記錄、鑒定、整理和描述,長期保存和獲取決策,以及使用檔案材料進行研究[2]。由概念可以看出,計算檔案學是將計算理論、方法應用到檔案管理中,以期實現(xiàn)檔案的真實性、長期保存、檔案大數(shù)據(jù)的分析和獲取的目標。作為一個新的研究領(lǐng)域,計算檔案學更加重視對數(shù)據(jù)本身的使用,但是對數(shù)據(jù)的強調(diào)只是起點,通過數(shù)據(jù)挖掘提升檔案管理的效率以及保證檔案的真實性和長期保存才是更重要的研究方向。
計算檔案學雖然加上了一個“學”,但它并不是一門新的學科或新的理論,而是一個新的研究范式或一套新的研究方法。計算檔案學是當代檔案學借助計算機、互聯(lián)網(wǎng)與人工智能技術(shù)等計算科學技術(shù),對檔案進行管理,并研究與解釋檔案及檔案工作的一種新的范式或思維方式,其目的是要克服既有檔案學研究方法的局限與不足,達到對檔案學研究的真實認知與科學解釋。
雖然計算檔案學的概念提出較晚,但是計算技術(shù)、方法、資源在檔案及檔案工作中的應用在此之前就有了很長一段時間的探索,可以說計算檔案學是在檔案數(shù)據(jù)化管理發(fā)展和大數(shù)據(jù)時代檔案學研究方法與范式變革的內(nèi)外環(huán)境中產(chǎn)生的。
21世紀初,大數(shù)據(jù)、人工智能等新一代信息技術(shù)開始推動檔案信息化向縱深發(fā)展,檔案工作也開始從數(shù)字時代邁入數(shù)據(jù)時代。海量數(shù)字化檔案數(shù)據(jù)的處理、分析和存儲、長期保存和交流都需要計算科學技術(shù)的應用,檔案數(shù)據(jù)化管理逐漸引起檔案界的關(guān)注。檔案信息化工作主要進行以紙質(zhì)文件掃描、數(shù)字檔案館建設、數(shù)字檔案利用服務為主的“數(shù)字化”檔案管理實踐,這些實踐初步解決了由紙質(zhì)到數(shù)字的載體轉(zhuǎn)換、數(shù)據(jù)存儲和方便利用等問題,但是對檔案信息內(nèi)容深度挖掘并充分實現(xiàn)檔案的價值卻還存在一定的困難,檔案管理迫切需要從“數(shù)字化”向“數(shù)據(jù)化”演進[3]。大數(shù)據(jù)時代的檔案數(shù)據(jù)有著數(shù)量大,類型多、來源多樣化、價值密度低、增長速度快以及數(shù)據(jù)真實性的特征,紙質(zhì)時代檔案管理的方法及理念已經(jīng)無法實現(xiàn)對檔案數(shù)據(jù)的有效管理,而計算技術(shù)的應用為檔案數(shù)據(jù)化管理提供了新的途徑。以數(shù)據(jù)為基礎(chǔ),以計算為手段的計算檔案學為高效推動計算技術(shù)應用于檔案領(lǐng)域提供了有力理論依據(jù),從而能著手開展對數(shù)據(jù)化檔案管理的深度探索,解決檔案管理中存在的真實性、長期保存、數(shù)據(jù)管理與分析、個性化服務等問題。
在電子文件時代,檔案研究得以從經(jīng)驗為主的思辨范式向?qū)嵶C研究轉(zhuǎn)變,研究方法也從定性描述和理論思辨轉(zhuǎn)向定性與定量結(jié)合分析。計算檔案學的誕生響應檔案學研究發(fā)展的需求,為檔案領(lǐng)域的研究提供了有力的新工具與方法,幫助研究者獲得對檔案管理和認知規(guī)律更深刻的理解。新技術(shù)應用在不斷增加檔案管理體系復雜性的同時,也為認識和理解這種復雜性提供了新的工具和方法,新一代計算科學技術(shù)與檔案理論相融合,帶來了基于數(shù)據(jù)科學的檔案研究范式轉(zhuǎn)變。計算檔案學以計算為核心方法的研究,以新興的研究方法適應新的檔案環(huán)境,不僅體現(xiàn)在其數(shù)據(jù)工具和分析方法的變革,更體現(xiàn)在方法論層次的變革;不僅是一種使用海量數(shù)據(jù)的現(xiàn)象和采用各種算法作為分析工具的趨勢,更是探討檔案管理過程與問題的新理論、新方法乃至新范式。
計算檔案學對其研究者提出了方法論和思維轉(zhuǎn)換融合的挑戰(zhàn)。隨著數(shù)字記錄的進步和日益復雜信息系統(tǒng)的性質(zhì),能否達到對數(shù)字檔案的形成、處理、長期保存、可獲取、真實性保管的目的,取決于更深入和更綜合的檔案理論、原理和方法與計算科學理論的融合。這兩個領(lǐng)域都不能單獨達到這個要求:沒有計算機科學的檔案科學,缺乏必要的技術(shù)支持和有效的檔案數(shù)據(jù),同時沒有檔案科學的計算機科學缺乏產(chǎn)生值得信賴的記憶和證據(jù)所需的數(shù)據(jù)。計算檔案學需要研究者了解檔案數(shù)據(jù)特征和計算科學研究工具,分析各種計算方法、工具的應用性及局限性,結(jié)合檔案專業(yè)的特征,做出合理的分析應用。
計算檔案科學(Computational Archival Science,CAS)概念是在2016年4月在馬里蘭大學(University of Maryland,College Park)召開的主題為尋找新知識:大數(shù)據(jù)時代的檔案記錄的CAS座談會上正式提出的[4],這開啟了對計算檔案學的研究。2016年至2019年連續(xù)召開四屆計算檔案學研討會,對計算檔案學的概念、計算科學技術(shù)、方法應用于具體檔案管理等方面進行了探討。目前關(guān)于計算檔案學的研究主要包括以下幾個方面:
一是探討計算檔案學可能性以及定義計算檔案學的概念。Nathaniel Payn[5]通過對檔案學、信息學、計算科學的分析,依據(jù)之前對計算檔案學的認識,將計算檔案學定義為“基于檔案學、信息學和計算科學的跨學科領(lǐng)域,包括計算技術(shù)方法和數(shù)據(jù)資源、設計模式、社會技術(shù)構(gòu)造和人機交互,并將其應用于海量數(shù)據(jù)記錄或檔案(大數(shù)據(jù))的處理、分析、存儲、長期保存和訪問,目的是改善和優(yōu)化效率、真實性、可信任性、來源、生產(chǎn)率、計算過程、信息結(jié)構(gòu)和設計、精度和人類技術(shù)交互,以支持獲取、鑒定、整理和描述、保存、交流、傳輸、分析和訪問決策”,并提出計算檔案學未來研究重點:機器學習和預測研究;自然語言理解研究;高性能計算研究;人機交互研究;分布式賬本研究(包括區(qū)塊鏈技術(shù));信息累積、存儲、搜索和發(fā)現(xiàn)研究;神經(jīng)生物學,尤其是人腦如何處理信息的研究;支持計算檔案學的有關(guān)系統(tǒng)設計;將計算檔案學與特定領(lǐng)域結(jié)合研究,如運輸與網(wǎng)絡、金融服務與銀行、自然資源與地球物理學、新聞學等。William Underwood、David Weintrop等人通過分析檔案學研究生課程的內(nèi)容以及其中包含的計算思維和計算方法,試圖開發(fā)系列計算思維課程計算,將其納入檔案學科教學的教學大綱中[6]。Michael Kurtz、Daina Bouquin等人討論了檔案教育工作者之間進行合作并共享計算技術(shù)、策略和工具以發(fā)展和提高學生在學術(shù)和專業(yè)教育中的計算技能的可能性[7]。
二是計算方法與技術(shù)在檔案實踐中的應用。歐洲大屠殺研究基礎(chǔ)設施項目(European Holocaust Research Infrastructure,EHRI)通過開發(fā)新的數(shù)字工具連接分散的信息資源,建立新平臺,使用諸如文本挖掘、關(guān)系挖掘、可視化等高級計算技術(shù)處理大量的有關(guān)大屠殺檔案材料,提供一個在線空間,用戶可以在其中自由訪問和下載工具和工作流程,以便于分析檔案文件和展示自己的內(nèi)容[8]。Nathaniel Payne、Jason R. Baron分析自動分類的方法并探討其可行性來設計自動分類系統(tǒng),研究有關(guān)數(shù)字檔案的自動化分類方法的問題[9]。Pascal Dugenie、Nuno Freire、Daan Broeder運用集成計算服務、大數(shù)據(jù)技術(shù)研究植物標本圖像的數(shù)字化保存和分析,以及如何從自然和文化遺產(chǎn)領(lǐng)域的分布式科學語料庫中構(gòu)建新知識[10]。Ji-Ping Lin介紹了有關(guān)臺灣原住民開放研究數(shù)據(jù)的內(nèi)容,利用檔案關(guān)聯(lián)、地理編碼和高性能內(nèi)存計算技術(shù)來構(gòu)建臺灣原住民不同維度的人口統(tǒng)計和發(fā)展的研究數(shù)據(jù),并將計算方法、技術(shù)應用到檔案數(shù)據(jù)收集、清理、清洗、處理、探索和豐富數(shù)字記錄中[11]。William Underwood、Richard Marciano、Sandra Laib以及美國馬蘭里大學信息研究學院團隊介紹了第二次世界大戰(zhàn)日裔美國人集中營記錄的索引卡的語言分析,以及如何使用插件和擴展提取相關(guān)內(nèi)容的元數(shù)據(jù)[12]。Todd Goodall、Maria Esteva、Sandra Sweat和Alan C. Bovik使用自動視頻質(zhì)量評估算法(Video Quality Assessment,VQA)來判定數(shù)字視頻集合的質(zhì)量,將計算模型應用于視頻鑒定和保存,并推進了數(shù)字視頻檔案的管理[13]。Bethany G. Anderson、Christopher J. Prom、Kevin Hamilton、James A. Hutchinson使用算法揭示檔案材料中的知識背景,并基于機器學習算法的計算方法從數(shù)字化文本中生成一份檔案網(wǎng)絡和實體關(guān)系圖,以尋求訪問檔案資料的途徑,使人文學者能夠更好地理解控制論思想的發(fā)展,并使科學家和工程師能重復利用和獲取控制論數(shù)據(jù)[14]。Richard Marciano、William Underwood等通過第二次世界大戰(zhàn)集中營中個人身份信息自動檢測的案例,討論了九種計算思維如何應用于檔案管理實踐中,這九種計算思維包括創(chuàng)建數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、可視化數(shù)據(jù)、設計計算模型、建立數(shù)據(jù)計算模型、計算機編程、開發(fā)模塊化計算解決方案、系統(tǒng)故障排除和調(diào)試[15]。Hoda Hamouda、Jessica Bushey、Victoria Lemieux等將檔案學和計算科學結(jié)合起來,從檔案文獻學的角度設計出一個分析框架來檢測和分類假視頻,包括三個階段:對假視頻進行分類以便對其進行命名;構(gòu)造一個檢測假視頻的模型;依此模型建立解決方案以保證視頻不被“偽造”或篡改。其對假視頻的辨別不僅僅是依賴于對視頻內(nèi)容、作者的動機的分析,而是將其擴展到對視頻元數(shù)據(jù)以及形成背景的分析[16]。
三是計算檔案學研究中涉及的倫理問題。Lyneise Williams在藝術(shù)史和物質(zhì)文化研究中,通過分析報紙對巴拿馬次中量級拳擊冠軍選手Alfonso Brown的描述,證明了對數(shù)字化再生技術(shù)的掌握不足會在歷史記錄中導致已經(jīng)被邊緣化的有色群體,和其他代表性不足的人群的認識的消除和扭曲[17]。網(wǎng)絡信息存檔有助于構(gòu)建一代人的集體記憶,然而以被遺忘權(quán)為代表的個人數(shù)據(jù)保護權(quán)利體系在一定程度上對網(wǎng)絡信息存檔造成了限制。為了在集體記憶與個人遺忘之間取得平衡,網(wǎng)絡信息存檔機構(gòu)需要采用更具適應性的個人數(shù)據(jù)保護規(guī)則,堅持“通過設計保護隱私”原則的同時,提升對被遺忘權(quán)的審查能力,形成與數(shù)據(jù)主體、數(shù)據(jù)性質(zhì)、數(shù)據(jù)來源有關(guān)的評估標準[18]。
由以上綜述可以看出,對計算檔案學的研究內(nèi)容大多注重在計算技術(shù)、方法、資源應用于檔案管理中,但是其中還有較多的內(nèi)容缺乏與局限性。一是停留在對計算檔案學概念的探討,對該領(lǐng)域計算思維與檔案學思維的深度融合的探討程度還較為淺顯;二是雖然已經(jīng)有人對計算檔案學的知識體系進行了探討,但并沒有具體的學科知識框架結(jié)構(gòu),還需進一步的研究;三是計算檔案學的發(fā)展不免引起一系列擔憂,數(shù)據(jù)化往往會放大傳統(tǒng)檔案學研究中所面臨的倫理問題,以及催生了一些新倫理問題,如隱私權(quán)問題、個人數(shù)據(jù)權(quán)利問題、電子文件時代檔案公布權(quán)設置合理性問題、算法歧視問題等,這些都需要進一步的研究。
計算檔案學作為一門新的領(lǐng)域,急需開展理論研究,對實踐經(jīng)驗進行系統(tǒng)化總結(jié)沉淀、反思與分析,提煉抽象出學科的基礎(chǔ)理論,為學科發(fā)展提供必要的知識框架,并指導行業(yè)發(fā)展方向,制定技術(shù)應用的規(guī)范與標準。計算檔案學具有跨學科的綜合屬性,形成了獨特的融合數(shù)據(jù)科學技術(shù)與檔案學的研究內(nèi)容。計算檔案學的知識框架需要在研究檔案管理問題的基礎(chǔ)上,從檔案的角度,以計算為核心方法解決檔案的真實性,以及檔案大數(shù)據(jù)的分析、整理、鑒定、長期保存和獲取等問題。檔案領(lǐng)域的獨特性對數(shù)據(jù)科學技術(shù)應用提出了新的要求,建立計算檔案學跨學科的知識結(jié)構(gòu)需要針對性地研究適合檔案管理需求的理論框架、技術(shù)手段和研究方法。計算檔案學是正在不斷發(fā)展的學科,更需要對豐富的實踐經(jīng)驗進行系統(tǒng)性、理論化研究,抽象成規(guī)律和規(guī)范,不斷凝練學科的核心概念與內(nèi)涵,建立學科的理論體系,規(guī)范學科的研究與實踐,指導學科的健康發(fā)展。
計算檔案學涉及數(shù)據(jù)科學、檔案學等多個領(lǐng)域,因而計算檔案學的知識框架的構(gòu)建需要梳理各個不同理論體系之間的關(guān)系,圍繞檔案的核心,建立具有內(nèi)部一致性和體系化的理論框架。理論框架的縱向構(gòu)建需要闡述計算檔案學的歷史發(fā)展,橫向框架則需以計算科學、人工智能、檔案學等學科交叉融合作為理論基礎(chǔ),構(gòu)建學科多元一致的理論框架,以達成對檔案現(xiàn)象和規(guī)律的本質(zhì)認識,更好地為社會實踐服務。同時,還需要不斷建構(gòu)計算檔案學研究的理論基礎(chǔ)、實踐規(guī)范以及對操作化的具體解讀,綜合應用多種研究方法推動檔案領(lǐng)域數(shù)據(jù)化革命。其中,計算檔案學需要綜合利用各種數(shù)據(jù),不僅僅是大數(shù)據(jù),也包含小數(shù)據(jù),應用計算方法和資源獲得對檔案領(lǐng)域更深刻、更清晰的認識;在研究方法層面注重與其他研究方法和思辨方法的融合,以支持檔案學研究轉(zhuǎn)向多維度的分析。
面對技術(shù)發(fā)展趨勢和社會實踐需求,將計算科學技術(shù)方法、思維應用到檔案管理實踐中,解決檔案管理的實際問題也是目前計算檔案學應關(guān)注的主要內(nèi)容。宏觀層面,大數(shù)據(jù)環(huán)境下,應結(jié)合數(shù)據(jù)科學技術(shù)發(fā)展的特點和檔案發(fā)展的需求,構(gòu)建檔案大數(shù)據(jù)戰(zhàn)略規(guī)劃、檔案職業(yè)發(fā)展規(guī)劃等頂層設計方面的研究。全國檔案“十三五”規(guī)劃綱要中指出需要構(gòu)建智慧檔案館建設藍圖,關(guān)注電子文件管理發(fā)展,試行電子文件單軌制,超越小數(shù)據(jù)管理探索大數(shù)據(jù)檔案管理,走向檔案數(shù)據(jù)開放[19]。
微觀層面,應針對檔案管理工作的具體內(nèi)容開展研究,包括將數(shù)據(jù)科學技術(shù)應用到檔案資源建設、檔案利用服務、檔案信息開發(fā)、檔案信息保全以及專門檔案管理等方面,開發(fā)數(shù)字工具建立檔案信息資源庫,利用文本挖掘、關(guān)系挖掘、可視化等對檔案信息資源進行開發(fā)利用。如在檔案編研中融入數(shù)字人文理念,從三個層面將兩者深入融合:在信息收集層面,引入布拉德福定律以及引文分析輔助獲取檔案信息資源;在信息分析層面,引入文本挖掘技術(shù)深入分析潛在的內(nèi)容;在信息表示層面,借助詞表、本體、可視化工具等對編研成果進行再加工和可視化展示[20]。
一是發(fā)揮學術(shù)共同體作用,推進學會建立和發(fā)展。學術(shù)共同體是學科發(fā)展的產(chǎn)物,影響著學科的發(fā)展。學術(shù)共同體是指專門研究某一領(lǐng)域?qū)W者群體,他們擁有共同的價值觀念、學科發(fā)展信念,對于該領(lǐng)域的理論、規(guī)律、實踐都有一致性認識。在當代,專業(yè)性的學會組織是使促進學術(shù)共同體發(fā)展的重要力量。為推動計算檔案學的長足發(fā)展,需要積極推動計算檔案學學會的成立,并在學會的組織下定期召開國內(nèi)和國際學術(shù)研討會,創(chuàng)辦專業(yè)期刊。由于不同的學科領(lǐng)域長久以來獨立發(fā)展,擁有獨立的學術(shù)規(guī)范、語言體系和研究實踐系統(tǒng),往往會造成跨領(lǐng)域研究與合作困難。計算檔案學的發(fā)展需要研究者們打破學科的壁壘,共同推動對計算檔案學基本問題的研究并形成共識。二是依托學歷體系建立人才培養(yǎng)計劃。計算檔案學的發(fā)展對檔案學專業(yè)人員掌握的技能要求更高。目前國內(nèi)檔案學的教育和科研培養(yǎng)對檔案專業(yè)的學生要求比較寬泛,更偏向于檔案專業(yè)知識教學,過于單一化,這使得學生對于其他領(lǐng)域的知識認知較為單一,專業(yè)技術(shù)的應用得不到有效開拓和發(fā)展[21]。計算檔案學的跨領(lǐng)域特征對研究者綜合能力要求較高,不僅要求其要擁有檔案學的專業(yè)知識,還要求掌握相關(guān)的數(shù)據(jù)科學技術(shù)如數(shù)據(jù)檢索、數(shù)據(jù)清洗、數(shù)據(jù)整合、數(shù)據(jù)挖掘、數(shù)據(jù)建模、數(shù)據(jù)可視化等,并培養(yǎng)其計算思維。在大學或研究機構(gòu)建立獨立的學系,吸引一批研究者從事計算檔案學的研究,可以為計算檔案學提供職業(yè)化發(fā)展支持。三是建立產(chǎn)學研一體化平臺,凝聚社會各界力量促進計算檔案學研究與實踐的同步發(fā)展。通過搭建產(chǎn)學研一體化平臺,建立平衡計算檔案學理論與實踐研究的生態(tài)體系,培養(yǎng)計算檔案學領(lǐng)域人才,促進計算檔案學研究與應用的同步發(fā)展。
隨著大規(guī)模檔案數(shù)據(jù)集的出現(xiàn)以及數(shù)據(jù)化檔案管理能力的提高,計算檔案學的出現(xiàn)有其必然性。相對于傳統(tǒng)的檔案學研究,計算檔案學為我們理解檔案現(xiàn)象及其規(guī)律提供了新的途徑和方式,但是計算檔案學并非要取代傳統(tǒng)的檔案學,兩者關(guān)系并非相互對立。傳統(tǒng)檔案學研究將會繼續(xù)存在下去,但在不斷完善和發(fā)展過程中,兩者會逐漸擴散融合,為檔案學的發(fā)展帶來更大的機遇。