張正強
(國防大學(xué)政治學(xué)院 上海 200433)
國際標(biāo)準(zhǔn)化組織于2016年最新發(fā)布了文件檔案領(lǐng)域中的核心國際標(biāo)準(zhǔn)《ISO 15489-1:redline:2016信息與文獻(xiàn)-文件管理-第1部分:概念與原則》(簡稱“ISO 15489-1紅標(biāo)版”,下同)。該國際標(biāo)準(zhǔn)是在國際文件檔案領(lǐng)域中影響最為廣泛的標(biāo)準(zhǔn),在國際上其采標(biāo)率達(dá)到百分之九十以上,所以,該國際標(biāo)準(zhǔn)是國際文件檔案工作者在文件檔案領(lǐng)域共同的智慧結(jié)晶。
該國際標(biāo)準(zhǔn)在文件檔案管理的基本原則中首次從元數(shù)據(jù)視角明確了文件和檔案的構(gòu)成,指出文件和檔案是由“內(nèi)容和元數(shù)據(jù)”兩部分構(gòu)成。所謂元數(shù)據(jù),就是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,所以,文件和檔案的“內(nèi)容”實際上就是“數(shù)據(jù)”,而文件和檔案的“元數(shù)據(jù)”就是關(guān)于文件和檔案“內(nèi)容”這一數(shù)據(jù)的背景、結(jié)構(gòu)和管理等方面的數(shù)據(jù)。
在當(dāng)今時代,電子文件是文件和檔案的主要組成部分,顯然,電子文件的構(gòu)成,也必然由“內(nèi)容和元數(shù)據(jù)”兩部分構(gòu)成,所以,沒有電子文件元數(shù)據(jù),就沒有電子文件,也就沒有電子檔案,由此,也就決定了“電子文件元數(shù)據(jù)是電子文件管理的命脈”的這一地位與作用。
對于電子文件元數(shù)據(jù)的作用與功能,在文件檔案領(lǐng)域做過許多研究與探討,但對其做出權(quán)威系統(tǒng)闡述的最早的是2006年國際標(biāo)準(zhǔn)化組織正式發(fā)布的國際標(biāo)準(zhǔn)ISO/TS 23081-1:2006《信息與文件-文件管理過程-文件元數(shù)據(jù)-第1部分:原則》,在該標(biāo)準(zhǔn)中,基于電子文件管理流程,提出了10個方面的功能:
(1)自始至終地保護(hù)作為憑證的文件,確保其可利用性和可提供使用性;
(2)便于對文件的理解;
(3)支持和確保文件的憑證價值;
(4)保證文件的真實性、可靠性和完整性;
(5)對文件的利用、文件的內(nèi)容及文件利用的產(chǎn)權(quán)提供支持和管理;
(6)支持高效率的檢索;
(7)在創(chuàng)建和管理電子文件的不同的技術(shù)和業(yè)務(wù)環(huán)境中,支持文件的捕獲,從而支持互操作策略的實施,以及文件的長期可利用性;
(8)以結(jié)構(gòu)化的、可靠的和有意義的方式提供文件與其創(chuàng)建、管理背景信息的邏輯關(guān)聯(lián);
(9)為識別數(shù)字文件的形成(或捕獲)環(huán)境提供支持,同時對維護(hù)文件的技術(shù)環(huán)境管理提供支持,以便可以復(fù)制文件;
(10)為高效、成功地從一種環(huán)境(或計算機(jī)平臺)向另一種環(huán)境(或計算機(jī)平臺)遷移提供支持,或者為其它的保管戰(zhàn)略提供支持。
2007年國際標(biāo)準(zhǔn)化組織又正式頒布了國際標(biāo)準(zhǔn)ISO 23081-2:2007《信息與文件-文件管理過程-文件元數(shù)據(jù)第2部分:概念與實施》,該標(biāo)準(zhǔn)又進(jìn)一步從八個方面再次對電子文件元數(shù)據(jù)的功能進(jìn)行強調(diào):
(1)在業(yè)務(wù)系統(tǒng)中捕獲與管理文件;
(2)保證系統(tǒng)的互操作;
(3)支持文件的風(fēng)險管理;
(4)保證文件的跨機(jī)構(gòu)利用與檢索;
(5)防止非授權(quán)利用文件;
(6)確保機(jī)構(gòu)業(yè)務(wù)工作可持續(xù)地展開;
(7)確保電子文件的長期保存;
(8)確保檔案系統(tǒng)中的元數(shù)據(jù)捕獲。
2010年11月10日,聯(lián)合國教科文組織向全世界發(fā)布的《世界檔案宣言》中明確指出:在國際文件與檔案領(lǐng)域要保證文件和檔案的真實性、可靠性、完整性和可用性。所以,電子文件,不管其形式與結(jié)構(gòu)如何,都必須具有真實性、可靠性、完整性和可用性,只有這樣,才能進(jìn)一步實現(xiàn)電子文件具有權(quán)威性的證據(jù)價值和憑證價值。由此,從這個意義上而言,概括地講,電子文件元數(shù)據(jù)的功能:就是保證電子文件的真實性、可靠性、完整性和可用性,進(jìn)而保證電子文件所應(yīng)具有的權(quán)威性的證據(jù)價值和憑證價值。
電子文件元數(shù)據(jù)的概念本體是指在概念層次上由電子文件元數(shù)據(jù)元素及其關(guān)系所構(gòu)成的結(jié)構(gòu)體系。這個體系在直讀(人讀)層面上,就表現(xiàn)為電子文件元數(shù)據(jù)的邏輯結(jié)構(gòu)體系。電子文件元數(shù)據(jù)的邏輯結(jié)構(gòu)體系是一個帶有分面的結(jié)構(gòu)體系。對于這一結(jié)構(gòu)體系在最新發(fā)布的國際標(biāo)準(zhǔn)ISO 15489-1紅標(biāo)版中又明確的規(guī)定為兩部分:一部分是實體分面,另一部分是屬性分面。
實體分面主要包括四個亞面:文件亞面、責(zé)任者亞面、職能業(yè)務(wù)亞面和法規(guī)亞面。然后在每一個實體亞面下再細(xì)分出子類,各亞面細(xì)分如下:
(1)對于文件亞面,分出了件、案卷、全宗和全宗群等子類;
(2)對于責(zé)任人員亞面,分出了人員、單位、部門和機(jī)構(gòu)等子類;
(3)對于職能業(yè)務(wù)亞面,分出了處置、活動、機(jī)構(gòu)職能和社會職能等子類;
(4)對于法規(guī)亞面,分出了業(yè)務(wù)規(guī)章、政策和法規(guī)等子類。
由此,經(jīng)過以上各亞面的細(xì)分就形成了完整的電子文件元數(shù)據(jù)的實體分面,如下圖1所示:
電子文件元數(shù)據(jù)的屬性分面主要由六個亞面構(gòu)成,即:描述亞面、使用亞面、計劃事件亞面、事件歷史亞面和關(guān)系亞面構(gòu)成,然后,再在每一個屬性亞面下再細(xì)分出子類,各亞面細(xì)分如下:
(1)對于描述亞面,分出了題名、分類、提要、存貯位置、所有權(quán)、外部標(biāo)識符等子類;
(2)對于使用亞面,分出了技術(shù)環(huán)境、權(quán)限、利用、文件使用對象、語種、完整性、文件類別等子類;
(3)對于計劃事件亞面,分出了事件時間、事件類型、事件描述、事件關(guān)系、觸發(fā)事件等子類;
(4)對于事件歷史亞面,分出了事件時間、事件類型、事件描述、事件關(guān)系、事件編號等子類;
(5)關(guān)系亞面,分出了關(guān)系標(biāo)識符、相關(guān)實體的標(biāo)識符、關(guān)系類型、關(guān)系時間等子類。
由此,經(jīng)過以上各亞面的細(xì)分就形成了完整的電子文件元數(shù)據(jù)的屬性分面,如下圖2所示
然后將電子文件元數(shù)據(jù)的實體分面與屬性分面進(jìn)行組配,就可以基于概念邏輯地形成一個個具體的元數(shù)據(jù),如下圖3所示。
從以上電子文件元數(shù)據(jù)的實體與屬性兩個分面可以看出:實體分面采用的是一種劃分標(biāo)準(zhǔn),屬性分面采用的是另一種劃分標(biāo)準(zhǔn),這種多維劃分的分面體系與傳統(tǒng)的一維劃分的線型體系相比,其結(jié)構(gòu)顯得十分簡潔、十分靈活,結(jié)構(gòu)體系的性能就能大大提高。電子文件元數(shù)據(jù)的這種分面結(jié)構(gòu)體系就構(gòu)成了電子文件元數(shù)據(jù)的概念本體,具有強大的優(yōu)勢,其可以:
(1)對文件進(jìn)行標(biāo)識并對文件進(jìn)行檢索;
(2)將文件與所變更的規(guī)章制度、政策和法規(guī)關(guān)聯(lián)起來;
(3)將文件與責(zé)任者以及將授權(quán)與權(quán)限與相關(guān)文件關(guān)聯(lián)起來;
(4)將文件與其相關(guān)的業(yè)務(wù)活動關(guān)聯(lián)起來;
(5)對文件進(jìn)行留痕,如對利用規(guī)定的變更過程進(jìn)行留痕或?qū)ξ募w移至新的系統(tǒng)的過程進(jìn)行留痕。
由于電子文件元數(shù)據(jù)的概念本體具有如此強大的優(yōu)勢,從而使其為進(jìn)一步實現(xiàn)電子文件的功能與作用從概念體系上奠定了邏輯基礎(chǔ)。
電子文件元數(shù)據(jù)的概念本體,雖然具有很強的優(yōu)勢,但畢竟是供直讀(人讀)的結(jié)構(gòu),對于這種結(jié)構(gòu),計算機(jī)還無法讀取。所以,還必須將其映射并描述為計算機(jī)可讀的語言本體,只有這樣,才能真正地實現(xiàn)與發(fā)揮電子文件元數(shù)據(jù)在管理電子文件中的功能與作用。
電子文件元數(shù)據(jù)的語言本體是指采用本體語言來完整地映射與描述電子文件元數(shù)據(jù)的概念本體所構(gòu)成的形式化語言結(jié)構(gòu)體系。本體語言主要是指RDFS[3](資源描述框架)、OWL[5](Web 本體語言)或SKOS[4](簡約知識體系)等,電子文件元數(shù)據(jù)的語言本體之所以可以對電子文件元數(shù)據(jù)的概念本體完整地進(jìn)行映射與描述,這是由于其形式化語言結(jié)構(gòu)體系的本質(zhì)特性所決定的。
凡是語言都是由語詞、句子和語法這三個基本要素構(gòu)成的,因此,電子文件元數(shù)據(jù)語言本體的形式化語言結(jié)構(gòu)體系,也同樣是由語詞、句子和語法這三個基本要素構(gòu)成的。
首先,電子文件元數(shù)據(jù)語言本體的語詞是基于控制的語詞,故在語詞構(gòu)成體系上:
(1)電子文件元數(shù)據(jù)語言本體可通過其所具有的表達(dá)實體概念的類別詞,來映射與描述電子文件元數(shù)據(jù)概念本體的實體分面中的一個個具體的表達(dá)類別概念的元數(shù)據(jù)元素;
(2)電子文件元數(shù)據(jù)語言本體可通過其所具有的表達(dá)屬性概念的屬性詞,來映射與描述電子文件元數(shù)據(jù)概念本體的屬性分面中的一個個具體的表達(dá)屬性概念的元數(shù)據(jù)元素;
(3)電子文件元數(shù)據(jù)語言本體可通過其所具有的表達(dá)具體實例概念的實例詞,來映射與描述電子文件元數(shù)據(jù)概念本體中的一個個具體的表達(dá)實例概念的元數(shù)據(jù)元素;
由此,可以看出電子文件元數(shù)據(jù)語言本體的語詞在映射與表達(dá)概念本體中的元數(shù)據(jù)概念時具有精確的一一對應(yīng)性,從而排除了一般自然語言中語詞的“一詞多義”與“多義一詞”的現(xiàn)象,因而具有“一詞一義”與“一義一詞”的“概念詞”的本質(zhì)特性。
其次,電子文件元數(shù)據(jù)語言本體的句子是基于組配的句子,故在句子構(gòu)成體系上:
(1)電子文件元數(shù)據(jù)語言本體利用資源、屬性和屬性值這三元組形式來進(jìn)行組配形成句子,其中,表示資源的一元在句子的層面就是主語,表示屬性的一元在句子的層面就是謂語,而表示屬性值的一元在句子的層面就是賓語。所以可以十分有效實現(xiàn)電子文件概念本體的實體分面和屬性分面中各個元數(shù)據(jù)元素的組配。
(2)電子文件元數(shù)據(jù)語言本體利用資源、屬性和屬性值這三元組形式來進(jìn)行組配形成句子,由于在該句子中的主語、謂語和賓語都是基于控制的概念詞,因而可以十分準(zhǔn)確地映射與描述電子文件元數(shù)據(jù)分面結(jié)構(gòu)的邏輯體系。
(3)電子文件元數(shù)據(jù)語言本體利用資源、屬性和屬性值這三元組形式來進(jìn)行組配形成句子,從而規(guī)定并規(guī)范了句子結(jié)構(gòu),使其映射與描述的電子文件元數(shù)據(jù)概念本體的分面結(jié)構(gòu)所形成的邏輯體系具有跨平臺的互操作性,達(dá)到了高度的標(biāo)準(zhǔn)化。
由此,可以看出電子文件元數(shù)據(jù)語言本體的句子具有靈活的組配性、嚴(yán)密的邏輯性和高度的規(guī)范性的本質(zhì)特性。
再次,電子文件元數(shù)據(jù)語言本體的語法是基于描述邏輯的語法,所謂描述邏輯亦稱為概念語言邏輯,就是建立在概念和屬性之上的形式規(guī)范,具有推理機(jī)制,故在語法構(gòu)成體系上:
(1)電子文件元數(shù)據(jù)語言本體的類公理是基于描述邏輯的語法表達(dá)的公理,其反映的是不同概念類之間所對應(yīng)的實際電子文件對象間的真實關(guān)系,且這真實關(guān)系是公認(rèn)的事實并構(gòu)成了類的推理規(guī)則,通過類公理可以構(gòu)建起電子文件元數(shù)據(jù)類等級結(jié)構(gòu)的類系及類橫向關(guān)系的類列與同位類,因此,可以對電子文件元數(shù)據(jù)進(jìn)行類推理。
(2)電子文件元數(shù)據(jù)語言本體的屬性公理亦是基于描述邏輯的語法表達(dá)的公理,屬性可以是電子文件元數(shù)據(jù)類與類中的元數(shù)據(jù)元素之間的關(guān)系,也可以是指定特定的值,通過屬性公理,其可以推理出電子文件屬性與類之間的關(guān)系,因此,可以對電子文件元數(shù)據(jù)進(jìn)行關(guān)系推理。
(3)由于電子文件元數(shù)據(jù)語言本體的公理是基于描述邏輯語法所表達(dá)的公理,可以將具體的電子文件元數(shù)據(jù)與電子文件元數(shù)據(jù)概念本體進(jìn)行核對檢查,即判斷某一個體是否為某個類的實例,因此,可以進(jìn)行電子文件元數(shù)據(jù)的一致性檢測和實例檢測。
由此,可以看出電子文件元數(shù)據(jù)語言本體的語法具有類推理的特性,屬性推理的特性和一致性檢測和實例檢測特性,因而在建立電子文件元數(shù)據(jù)本體時運用其語言本體的語法可以從概念或?qū)傩酝茖?dǎo)出隱含的概念或?qū)傩?,這就是電子文件元數(shù)據(jù)本體比傳統(tǒng)的電子文件元數(shù)據(jù)數(shù)字化、信息化更為智能化的方面。
當(dāng)今,在人類由信息時代邁向知識時代的進(jìn)程中,又迎來了人工智能這一歷史性發(fā)展階段。2017年在我國全國兩會上,“人工智能“第一次被寫入政府工作報告,2017年7月,我國首部國家級人工智能規(guī)劃——新一代人工智能發(fā)展規(guī)劃——正式出臺,將人工智能提高到了國家發(fā)展的戰(zhàn)略高度。由此我國的智慧城市、智慧工業(yè)、智慧農(nóng)業(yè)、智慧交通等等的“智慧+”建設(shè)在各個領(lǐng)域蓬勃興起。各個領(lǐng)域的電子文件全面地記錄了各個領(lǐng)域的實踐活動,而電子文件又是當(dāng)今檔案館管理的重中之重,由此,又迎來了我國檔案館由傳統(tǒng)檔案館建設(shè)、數(shù)字檔案館建設(shè)向當(dāng)今智慧檔案館建設(shè)這一新的時代高度邁進(jìn)的歷史機(jī)遇。
在建設(shè)智慧檔案館的全生命過程中,要使電子文件的捕獲、登記、分類、標(biāo)引、鑒定、保管、存儲、跟蹤、監(jiān)視、審計和檢索、利用的全過程都得到有效的控制與智能化管理,就必須建立基于本體的電子文件元數(shù)據(jù)。因為沒有電子文件“元數(shù)據(jù)”,就沒有電子文件,而沒有基于“本體”的電子文件元數(shù)據(jù),就沒有“智慧”檔案館,之所以如此,這是因為智慧檔案館的概念本體是智慧檔案館之所以有“智慧”的內(nèi)在根據(jù),而智慧檔案館的語言本體則是智慧檔案館之所以有“智慧”的運行方式和顯現(xiàn)形式,由此,建立基于本體的電子文件元數(shù)據(jù)就成為建設(shè)智慧檔案館的關(guān)鍵與核心。
目前,在我國要建立基于本體的電子文件元數(shù)據(jù),其概念本體可以依據(jù)與遵循的標(biāo)準(zhǔn)是國際標(biāo)準(zhǔn)23081,這是一個系列標(biāo)準(zhǔn),共有三個部分,第一部分已被我國采標(biāo),并于2013年已正式發(fā)布,其標(biāo)準(zhǔn)名為GB/T 26163.1-2010《信息與文獻(xiàn)—文件管理流程—文件元數(shù)據(jù)—第1部分:原則》,但該國際標(biāo)準(zhǔn)的第二部分ISO 23081-2:2009《信息與文獻(xiàn)—文件元數(shù)據(jù)管理—第2部分:概念和實施(Information and documentation—Managing metadata for records—Part 2:Conceptual and implementation issues)》和第三部分ISO 23081-3:2011《信息與文獻(xiàn)—文件元數(shù)據(jù)管理—第3部分:自評方法(Information and documentation—Managing metadata for records—Part 3:Self-assessment method)》這兩個部分目前還未被我國采標(biāo),所以,在依據(jù)與遵循我國國家標(biāo)準(zhǔn)GB/T 26163.1-2010的同時還要依據(jù)與遵循國際標(biāo)準(zhǔn)23081的第二與第三部分。
對于電子文件元數(shù)據(jù)概念本體,還有一項可供參考的標(biāo)準(zhǔn)就是國際標(biāo)準(zhǔn)化組織與2014年10月15日正式發(fā)布的國際標(biāo)準(zhǔn)ISO21127《信息與文獻(xiàn)—文化遺產(chǎn)信息交換用參考本體(Information and documentation—Areference ontology for the interchangeof cultural heritage information)》,這也是一個涉及檔案領(lǐng)域元數(shù)據(jù)概念本體的國際標(biāo)準(zhǔn)。
關(guān)于電子文件元數(shù)據(jù)語言本體的標(biāo)準(zhǔn),目前在我國還未有國家標(biāo)準(zhǔn)與檔案領(lǐng)域的行業(yè)標(biāo)準(zhǔn),2011年發(fā)布的檔案行業(yè)標(biāo)準(zhǔn)DB32/T1893-2011《電子檔案基礎(chǔ)元數(shù)據(jù)數(shù)據(jù)庫結(jié)構(gòu)和封裝格式》還不是一個元數(shù)據(jù)的本體語言標(biāo)準(zhǔn)。
但是,在國際上,國際標(biāo)準(zhǔn)化組織與國際電工委員會聯(lián)合于2013年專門發(fā)布了一項標(biāo)準(zhǔn),即ISO/IECTR20943-6《信息技術(shù)—保證元數(shù)據(jù)注冊內(nèi)容一致性程序—第六部分:本體建構(gòu)框架》可供參考。
綜上所述,我們可以很清楚地看出:智慧檔案館是新時代的新生事物,其建設(shè)與發(fā)展面臨著巨大的挑戰(zhàn):如在我國檔案學(xué)的教學(xué)方面,相關(guān)教學(xué)內(nèi)容還未跟上;在我國智慧檔案館科學(xué)研究方面關(guān)于電子文件元數(shù)據(jù)本體研究的科研人才還偏少,科研項目有質(zhì)量的成果還不多;在我國檔案領(lǐng)域的標(biāo)準(zhǔn)規(guī)范方面相關(guān)標(biāo)準(zhǔn)還亟待制定,等等。然而,唯物辯證法的基本觀點又告訴我們:事物都是一分為二的。正是建設(shè)與發(fā)展智慧檔案館所面臨的這些巨大的挑戰(zhàn)才構(gòu)成了其建設(shè)與發(fā)展的巨大動力,推動著我國檔案館由傳統(tǒng)檔案館建設(shè)、數(shù)字檔案館建設(shè)向智慧檔案館建設(shè)的高度不斷前進(jìn)。