楊茜茜
摘要:我國新修訂的《檔案法》圍繞促進檔案開放,從需求保障和供給要求兩個方面作出了多重規(guī)定,在此背景下,我國綜合檔案館需積極開展檔案開放鑒定。文章采用規(guī)范性研究方法,通過檔案開放鑒定方法層面的問題和現(xiàn)狀分析,以及開放鑒定的過程解析,從概念層面提出了包括開放鑒定統(tǒng)一描述框架、主體概念表達、客體特征分析和概念特征匹配的檔案開放鑒定方法框架,并對構(gòu)建該框架所需的可用技術(shù)方法進行了梳理,提出知識圖譜、圖像文本識別、元數(shù)據(jù)自動抽取、語義分析和數(shù)字取證是目前助力檔案開放鑒定工作實現(xiàn)數(shù)字化轉(zhuǎn)型可依賴的主要技術(shù)方法。
關(guān)鍵詞:檔案館;開放鑒定;方法;技術(shù)
分類號:G273
Archival Appraisal for the Public Access in Chinese ComprehensiveArchives:ConstructionofFrameworkoftheMethods
Yang Qianqian
(School of Information Management of Sun Yat-sen University, Guangzhou, Guangdong, 510006)
Abstract:The newly revised Archives Law of the Peoples Republic of China has included multiple regulations on promoting the openness of archives from the aspects of demand guarantee and supply requirements. Within this background, Chinese comprehensive archives must undertake its responsibility of archival appraisal for the public access actively. As normative research, based on the analysis of current issues and the substantial process of archival appraisal for the public access, this paper puts forward a conceptual framework of the archival appraisal methods for the public access of records, which comprises four parts as“unified descriptive schema”,“subject concepts expression”,“object characteristics analysis”, and“mapping of the concepts and characteristics”. The corresponding requirements on the available technological methods for this framework have also been discussed, finding that the methods of the knowledge graph, image and character recognition, automated metadata extraction, semantic analysis, and digital forensics are available for the digital transformation of AFA.
Keywords:Archives;AppraisalforPublicAccess;Method;Technology
我國新修訂的《檔案法》于2020年6月20日通過了第十三屆全國人大常委會第十九次會議審議,將于2021年1月1日起施行。新《檔案法》中一個重要的修訂要點便是加大了檔案開放的力度,在明確賦予社會主體檔案利用權(quán)利的同時,也將縣級以上各級檔案館的檔案開放年限從30年縮短至25年,并進一步明確了檔案開放的職責(zé)劃分[1]。在此背景下,我國綜合檔案館勢必要進一步加強檔案開放工作,加快檔案向社會開放的步伐,提高檔案開放利用效率。開放鑒定是綜合檔案館履行檔案開放義務(wù)的主要途徑,同時也是維護各方檔案權(quán)利的一項重要制度安排。在檔案開放時限縮短、檔案類型趨于復(fù)雜、檔案數(shù)量不斷增加的背景下,除了建立檔案開放鑒定的常態(tài)化工作機制之外,也有必要對檔案開放鑒定所能采取的方法進行探討,以提升檔案開放鑒定的專業(yè)化、精細化程度,更好地保障檔案開放鑒定工作的順利開展。
由于檔案開放工作的機制差異,在實施信息自由法律的國家和地區(qū)中,與我國語境下的開放鑒定具有相同實質(zhì)者的工作程序大多融合于政府信息公開或公共信息自由獲取的體系中。但也存在少數(shù)國家,如斯洛文尼亞,在政府信息公開的概念界定中明確將公共檔案館的檔案與政府信息的范疇相區(qū)分[2],從而將公共檔案館所開展的公共性檔案開放利用與政府信息公開活動相區(qū)分。在這一背景下,檔案開放鑒定的方法需求也存在較大差異。統(tǒng)一于信息自由法律框架之下的檔案開放,其對于公共檔案是否開放以及如何開放的判斷主要是基于檔案特征和信息自由法律法規(guī)的比對,從而主動完成檔案開放,在這一過程中,開放鑒定工作的標準化程度較高;而在檔案開放責(zé)任獨立于政府信息公開的情況下,其對于開放鑒定的方法需求則取決于對檔案開放規(guī)則的界定。
總體而言,目前國內(nèi)外對于檔案開放鑒定的具體方法研究尚不多見。在我國,賀軍、李揚新等人從程序規(guī)制的角度對檔案開放流程的實施方法進行了研究[3]。在實踐方面,青島市檔案館建立了敏感詞庫,并開發(fā)相應(yīng)的軟件對檔案進行掃描和篩選[4]。在國外,受到《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR)頒布的影響,相關(guān)研究大多聚焦于信息自由法律框架下檔案開放和個人隱私保護之間的矛盾協(xié)調(diào)問題,在方法論層面,旨在通過一定的分析規(guī)則和模型,從檔案中識別出個人隱私信息,從而避免因檔案開放造成的個人隱私泄露。在這一背景下,以BitCurator項目[5]為代表的研究和英國國家檔案館開展的一些調(diào)查[6]都體現(xiàn)出,在鑒定中利用數(shù)字取證(Digital Forensics)或電子發(fā)現(xiàn)(E-Discovery)工具對個人信息進行識別,在數(shù)字環(huán)境下是必要且可行的。此外,在強調(diào)以開放利用為目的的檔案收集中,以葡萄牙國家檔案館為代表的實踐活動則開始探索語義檔案信息系統(tǒng)的建設(shè),基于檔案的內(nèi)容及檔案之間的關(guān)系,建立檔案著錄詞匯的數(shù)據(jù)模型,并構(gòu)建語義映射和知識圖譜[7]用以輔助相關(guān)工作的開展。同時,在其他檔案鑒定工作中進行的自動化方法探索也具有一定的啟發(fā)性。如澳大利亞國家檔案館自2015年起就開始探索能夠支持電子文件鑒定實現(xiàn)自動化的途徑,并研究了自動化元數(shù)據(jù)抽取、語義分析、分類和本體構(gòu)建、數(shù)據(jù)關(guān)聯(lián)等多種方法。該項目團隊目前已完成第一階段的研究,通過對保管期限表進行語義分析,形成了以XML為描述方式的鑒定標準概念模型。下一步則計劃采用機器學(xué)習(xí)的方式對模型進行檢驗[8]。這樣的方法路徑實際也可用于檔案開放鑒定中。
從上述研究概況中可見,機器學(xué)習(xí)方法和數(shù)字內(nèi)容調(diào)查分析型工具使用已經(jīng)成為推動檔案鑒定適應(yīng)數(shù)字化環(huán)境的重要途徑。盡管尚未有針對我國語境下檔案開放鑒定方法的專門研究,但從其他相關(guān)研究中仍可以有所借鑒。文章作為一個概念性研究,將采用規(guī)范性研究方法,首先對檔案開放鑒定的方法障礙進行剖析,以開放鑒定的方法論過程為基礎(chǔ),探討開放鑒定方法框架的構(gòu)建,并對實現(xiàn)這一方法框架的技術(shù)需求進行分析,以期為今后進一步推動綜合檔案館的檔案開放鑒定專業(yè)化、精細化奠定基礎(chǔ)。
檔案開放鑒定問題涉及價值導(dǎo)向、工作機制、程序制度和技術(shù)方法等多個層面,文章主要從技術(shù)方法層面對檔案開放鑒定所面臨的障礙進行分析。
2.1檔案數(shù)據(jù)化程度較低與大規(guī)模內(nèi)容解析之間的矛盾
檔案開放鑒定需要經(jīng)過對檔案內(nèi)容的解讀分析才能形成開放與否的判斷。一方面,新《檔案法》要求“縣級以上各級檔案館的檔案,應(yīng)當自形成之日起滿二十五年向社會開放;經(jīng)濟、教育、科技、文化等類檔案,可以少于二十五年向社會開放”,且“檔案館不按規(guī)定開放利用的,單位和個人可以向檔案主管部門投訴”。這體現(xiàn)了檔案開放程度不斷擴大的法治導(dǎo)向,代表著檔案開放需求側(cè)的權(quán)利保障。另一方面,從檔案開放的供給側(cè)來看,不僅存量檔案存在難以識讀、來源背景信息有限以及文字轉(zhuǎn)換等問題,如近代廣東海關(guān)檔案中有大量手寫體文字,并涉及英語、法語、德語、葡萄牙語等8種外語,給開放鑒定帶來一定困難,而且增量檔案也具有概念范疇擴大、檔案類型趨于復(fù)雜、檔案數(shù)量劇增、電子檔案比例上升等特點。
作為檔案開放責(zé)任主體的綜合檔案館,如果采用傳統(tǒng)手工方式對檔案進行逐一鑒定,顯然難以適應(yīng)需求側(cè)所提出的檔案開放要求;而如果采用數(shù)字化工具輔助進行檔案開放鑒定,則取決于檔案數(shù)據(jù)的粒度——檔案數(shù)據(jù)粒度越細,數(shù)據(jù)化工具輔助開放鑒定的可用程度就越高。從信息和數(shù)據(jù)科學(xué)的角度理解,數(shù)據(jù)是認識論信息的一種,知識則是與數(shù)據(jù)有交叉的另一種認識論信息的子集,智慧是可用且有用的知識,智能是付諸行動的智慧[9]。我國現(xiàn)有的檔案開放鑒定主要還是針對傳統(tǒng)載體檔案進行,目前針對傳統(tǒng)檔案載體和內(nèi)容的處理以數(shù)字化掃描和目錄數(shù)據(jù)掛接為主,可以初步實現(xiàn)案卷級或文件級檔案的檢索和瀏覽,但檔案數(shù)據(jù)化粒度仍停留在傳統(tǒng)目錄整理的程度。從認識論信息的角度看,上述做法從檔案中所能揭示出的信息并未比傳統(tǒng)手工條件下的更多且更豐富,也尚未深入知識層面,更遠未達到智慧和智能的層面。因此,對于檔案開放鑒定而言,目前整體檔案數(shù)據(jù)化程度較低,難以直接采用信息分析工具展開大規(guī)模的內(nèi)容解析。
2.2檔案開放鑒定實施的知識系統(tǒng)化程度不足
檔案開放鑒定是以檔案鑒定標準、檔案來源背景特征、檔案內(nèi)容特征、檔案鑒定專業(yè)知識等多種信息為支撐,并從認知層面對檔案作為客體的特征及其開放的必要性進行評估和判斷的過程,本質(zhì)上是一項“知識密集型”工作。而當前我國的檔案開放鑒定工作,大多仍是以檔案開放鑒定人員自身的專業(yè)知識和經(jīng)驗等“隱性知識”為主要“生產(chǎn)要素”,尚未將檔案開放鑒定知識系統(tǒng)化,導(dǎo)致檔案開放鑒定存在標準化程度不高、過程不透明等問題[10]。通過筆者的文獻調(diào)研可知,我國各級綜合檔案館中,安排專職人員承擔(dān)開放鑒定工作的做法尚不多見,多數(shù)檔案館都在需要進行開放鑒定時臨時組建跨部門工作小組,或?qū)㈤_放鑒定的職責(zé)移交各單位檔案室;同時,對開放鑒定過程的記錄管理[11]也尚未形成規(guī)范化、標準化的做法。這些都在一定程度上表明,我國的檔案開放鑒定知識系統(tǒng)化程度不足,檔案開放鑒定的專業(yè)化程度發(fā)展較慢,不利于從整體上構(gòu)建成熟的開放鑒定方法體系。
2.3個人信息權(quán)利保護的新要求
長期以來,開放性和個人隱私保護及公共安全之間的平衡是檔案館面臨的一大議題[12]。新《檔案法》中明確指出:“利用檔案涉及知識產(chǎn)權(quán)、個人信息的,應(yīng)當遵守有關(guān)法律、行政法規(guī)的規(guī)定?!边@意味著在檔案開放中,需更加關(guān)注知識產(chǎn)權(quán)和個人信息保護。2020年全國人大常委會工作報告中提出,下一步將推動制定并出臺個人信息保護法、數(shù)據(jù)安全法等法律,這都可能會對檔案開放中的信息保護和數(shù)據(jù)安全帶來一定影響,對檔案開放鑒定提出更高要求。
歐盟《通用數(shù)據(jù)保護條例》的實施情況表明:個人信息權(quán)利保護與檔案開放之間的平衡是目前檔案館面臨的難點之一,這為我國的實踐提供了啟示。首先,數(shù)據(jù)保護所遵循的“最小化”原則要求檔案提供利用時要盡可能隱去可能導(dǎo)致自然人主體被識別的個人信息,這使檔案開放鑒定需要著重識別檔案中包含的個人信息及其開放利用可能帶來的指向性。其次,數(shù)據(jù)保護原則上對以公共利益或科學(xué)歷史研究為目的的個人信息收集和利用保留豁免,但在實際工作中,如何評估個人信息收集和利用的目的,如何界定公共利益和科學(xué)歷史研究的用途[13]則成為檔案開放鑒定的另一主要內(nèi)容。再次,一些檔案館也開始嘗試以開放數(shù)據(jù)的方式向社會提供檔案利用[14],這種方式更要求檔案館在將檔案轉(zhuǎn)化為開放數(shù)據(jù)之前,要對其中可能被揭示的個人信息進行鑒定,并要將這些信息的隱匿過程自動化。這些都對開放鑒定的具體方法邏輯提出新的要求。
檔案開放鑒定的過程是指方法論意義上的檔案開放鑒定方法及其步驟設(shè)計。通過分析檔案開放鑒定的過程,從頂層設(shè)計層面為檔案開放鑒定的整體方法構(gòu)建及其技術(shù)需求提供了框架。筆者在互聯(lián)網(wǎng)上對國內(nèi)外公開的檔案開放鑒定具體實施辦法和實施細則進行了檢索,并從中篩選出9份文本用于開放鑒定的過程解析(表 1)。這9份文本較為具體地對檔案開放鑒定的實施細則進行描述,致力于為過程解析提供更具參考性的信息。立足于對多份檔案開放鑒定相關(guān)政策制度的內(nèi)容分析,文章將檔案開放鑒定的基本過程描述為圖1所示的7個環(huán)節(jié)。
3.1確定開放鑒定標準
(2)元數(shù)據(jù)自動抽取屬于信息抽取的一個分支,具體可分為兩種:一是基于規(guī)則的方法,二是采用機器學(xué)習(xí)的方法[25]。一般來說,針對網(wǎng)絡(luò)信息資源或其他結(jié)構(gòu)化程度相對較高的信息資源類型,采用基于規(guī)則的方法進行元數(shù)據(jù)抽取的效率較高;而對于掃描形成的數(shù)字資源而言,則更適合使用機器學(xué)習(xí)的方法[26]。
(3)數(shù)字取證。數(shù)字取證本身由一系列的技術(shù)構(gòu)成[27]。國外在檔案領(lǐng)域使用數(shù)字取證工具的,大多是為從檔案中找出含有涉及個人隱私的信息內(nèi)容,從而將這些信息內(nèi)容排除在檔案利用服務(wù)范圍之外,以達到對數(shù)據(jù)保護的基本要求。對此,檔案領(lǐng)域已開發(fā)出專門針對檔案內(nèi)容分析的數(shù)字取證工具,如BitCurator等,并將其應(yīng)用在檔案收集環(huán)節(jié),也就是在檔案收集過程中就對相關(guān)的敏感信息進行挖掘和標識,為檔案開放利用提供依據(jù)。因此,對于增量檔案資源來說,檔案開放鑒定工作應(yīng)趨于前移,即在檔案形成收集或移交環(huán)節(jié)就對檔案的開放特征和屬性進行標識,減少檔案開放鑒定的滯后性。
4.4概念特征匹配
概念特征匹配是將客體特征分析的結(jié)果與主體概念表達進行匹配的過程,是確定檔案開放內(nèi)容的實質(zhì)過程,類似于“查找詞典”。匹配結(jié)果可以表現(xiàn)為對檔案開放性特征的整體描述,以及識別出不適宜開放的內(nèi)容等,呈現(xiàn)給檔案開放鑒定的專業(yè)人員進行人工決策。在這一過程中,檔案開放鑒定工作借助一定的算法實現(xiàn)了對檔案內(nèi)容的深度理解。在建立算法和完善算法的過程中,應(yīng)當建立起人機協(xié)作的關(guān)系,通過算法來提高檔案開放鑒定人工決策的效率和準確度,并針對這一過程建立機器學(xué)習(xí)機制,加強知識積累,實現(xiàn)開放鑒定科學(xué)化、常態(tài)化。
語義分析是目前可實現(xiàn)概念特征匹配的主要技術(shù)方法。語義分析是指自然語言處理領(lǐng)域內(nèi)對語義進行識別、理解并作出判斷的過程。語義分析包含多種具體方法,從分析粒度看,包括詞語、句子或篇章級;從運用目的看,包括文本分類、意圖識別、情感分析等。就檔案開放鑒定而言,語義分析是分別對主體概念表達和客體特征兩方面的語義進行分析,尤其針對敏感信息、個人隱私、商業(yè)秘密等范疇下的內(nèi)容特征,并在此基礎(chǔ)上對主體概念和客體特征的實質(zhì)語義進行匹配,從而提高開放鑒定的精準度。
文章所提出的檔案開放鑒定方法框架是以主客體檔案價值觀和知識管理為理論基礎(chǔ)的,一方面,強調(diào)客體檔案價值特征對主體檔案價值評估的契合性,以此來理解檔案開放鑒定的實質(zhì)過程和方法需求;另一方面,強調(diào)主客體價值關(guān)系的顯性化表達,以此實現(xiàn)檔案開放鑒定過程的專業(yè)化、規(guī)范化和精細化。要在更大程度上實現(xiàn)檔案開放鑒定的人機協(xié)作,仍然是一個有待探索的廣泛領(lǐng)域,文章作為初步的概念性研究,尚未能對具體的檔案開放鑒定算法模型或是實驗部分進行更深入的研究。除對算法的研究之外,在上述方法框架和技術(shù)方法需求分析基礎(chǔ)上,業(yè)界和學(xué)界還需進一步深入到檔案開放鑒定的具體業(yè)務(wù)要求中,對檔案開放鑒定的內(nèi)容標準和歷史邏輯進行研究,才能為技術(shù)方法的合理運用提供實質(zhì)性依據(jù);同時,還需從檔案開放鑒定工作開展的業(yè)務(wù)層面,對檔案部門和技術(shù)供應(yīng)部門的協(xié)作方式、檔案部門的專業(yè)能力轉(zhuǎn)型等相關(guān)問題進行持續(xù)的探索。
*本文系2018年廣東省檔案局科研項目“綜合檔案館檔案開放鑒定的程序制度與方法研究”(項目編號:YDK-210-2018)階段性研究成果。
[1]國家檔案局.新修訂的《中華人民共和國檔案法》解讀[EB/OL].[2020- 07- 20].http://www.saac.gov.cn/daj/yaow/ 202007/bd61bfb7b1404b2ca3c12f1652b2c915.shtml.
[2]王敬波.政府信息公開:國際視野與中國發(fā)展[M].北京:法律出版社,2016:6.
[3]賀軍,李揚新,吳玉婷.檔案開放程序規(guī)制構(gòu)建的流程與方法[J].北京檔案,2015(3): 17-20.
[4]青島市檔案局館.不斷探索檔案開放鑒定的新路徑[EB/ OL].[2020-07-20].http://www. saac.gov.cn/news/2016-11/21/content_165841.htm.
[5]Lee C.Archival application of digital forensics methods for authenticity, description and access provision[J].Comma,2012(2):133-140.
[6][8]Rolan G,Humphries G,Jeffrey L,et al.More human than human? Artificial intelligence in the archive[J].Archives & Manuscripts,2019(2): 179-203.
[7]Fitzgerald R M. Waking to Normal: Examining Archival Appraisal in Data-Driven Society[J/OL].[2020-07-15].https://doi. org/10.31235/osf.io/2befk.
[9]葉繼元,陳銘,謝歡,華薇娜.數(shù)據(jù)與信息之間邏輯關(guān)系的探討——兼及DIKW概念鏈模式[J].中國圖書館學(xué)報,2017(3): 34-43.
[10][14]Goudarouli E,Sexton A,Sheridan J.The Challenge of the Digital and the Future Archive:Through the Lens of The NationalArchives UK[J].Philosophy & Technology, 2019:173–183.
[11]Suderman J. An accountability framework for archival appraisal[J].ESARBICAJournal,2004: 51-61.
[12]Rosengren A.Openness, Privacy and the Archive: Arguments on openness and privacy in Swedish national archival regulation 1987–2004[EB/OL].[2020-07-20].https:// www.diva-portal.org/smash/get/diva2:971682/FULLTEXT01.pdf.
[13]Rockefeller Archive Center. Report on the General Data Protection Regulations for the Rockefeller ArchiveCenter[EB/ OL].[2020-06-22].https://docs.rockarch.org/ gdpr-report.
[15]錢海峰.《北京市區(qū)縣檔案館館藏檔案開放工作管理辦法》解讀[J].北京檔案,2015(5): 10-13.
[16]遼寧省檔案館.遼寧省檔案館檔案利用制度[EB/OL].[2020- 07- 21].http://www. lnsdag.org.cn/lnsdaj/dazy/dzdayls/list. html.
[17]廣西壯族自治區(qū)檔案局.廣西壯族自治區(qū)檔案局關(guān)于印發(fā)《廣西壯族自治區(qū)各級國家檔案館檔案開放鑒定辦法》(試行)的通知[EB/OL].[2020-07-21]. http://www.gxdaj.com. cn/index.php?m=content&c=index&a=show&catid=78&id=5115.
[18]寧波市奉化區(qū)檔案局.關(guān)于印發(fā)《寧波市奉化區(qū)檔案館檔案開放鑒定暫行辦法的通知[EB/OL].[2020-07-20].http://daj. fh.gov.cn/zcfg/glgf/201905/t20190529_369425. html.
[19]珠海市斗門區(qū)人民政府.珠海市斗門區(qū)人民政府辦公室關(guān)于印發(fā)珠海市斗門區(qū)檔案館開放檔案實施細則的通知[EB/OL].[2020-07-21].http://www.doumen.gov.cn/gkmlpt/ content/2/2425/post_2425007.html#2324.
[20]National Archives of Australia. Access to records under the Archives Act[EB/OL].[2020-07-20].https://www.naa.gov.au/ help- your- research/ using- collection/ access- records- under- archives-act.
[21]National Archives of Australia. Access Examination Policy–personal, business and professional affairs of a person[EB/ OL].[2020-07-20].https://www.naa.gov.au/ about-us/our-organisation/accountability-and-reporting/access-examination- policy-personal-business-and-professional-affairs-person.
[22]The U.S. National Archives and Records Administration. Access Restriction Status[EB/OL].[2020- 07- 22].https:// www.archives.gov/research/catalog/lcdrg/authority_lists/accesslist. html.
[23]Archives New Zealand. Access[EB/OL].[2020-07-22]. https://archives.govt.nz/ files/Access.
[24]The Venice Atlas. Mapping Cadasters-Final Report[EB/ OL].[2020-07-28].http:// veniceatlas.epfl.ch/mapping-cadastersfinal-report/.
[25]張秀秀,馬建霞.PDF科技論文語義元數(shù)據(jù)的自動抽取研究[J].現(xiàn)代圖書情報技術(shù),2009(2):102-106.
[26]陳淑平,梁東魁.基于機器學(xué)習(xí)的掃描圖書元數(shù)據(jù)自動抽取研究[J].現(xiàn)代情報,2013(6): 45-48.
[27]蔣平,黃淑華,楊莉莉.數(shù)字取證[M].北京:清華大學(xué)出版社,中國人民公安大學(xué)出版社, 2007:71-102.