金 勇,馬 力
(湖北工業(yè)大學(xué)管理學(xué)院,湖北武漢430068)
網(wǎng)絡(luò)論文管理系統(tǒng)采用了OAIS(Open Archival Information System)參考模型[1]來進(jìn)行論文信息的交換和管理.OAIS的主要目的是為了在一段不確定的時(shí)期內(nèi)為特定的群體保存信息,其作為一種圖書情報(bào)界比較成熟的元數(shù)據(jù)管理模型,廣泛應(yīng)用于數(shù)字圖書館、數(shù)字檔案館的元數(shù)據(jù)建設(shè)中.本文為網(wǎng)絡(luò)論文和其他網(wǎng)絡(luò)文獻(xiàn)共享系統(tǒng)建立了一個(gè)通用的元數(shù)據(jù)管理信息模型.
1.1.1 信息對(duì)象 OAIS參考模型中的核心概念——信息同時(shí)包含數(shù)據(jù)及其相應(yīng)的表示信息,故信息對(duì)象就由一個(gè)數(shù)據(jù)對(duì)象和相應(yīng)的表示信息組成.數(shù)據(jù)對(duì)象可以是一個(gè)物理實(shí)體或數(shù)字對(duì)象,而表示信息則用來對(duì)數(shù)據(jù)進(jìn)行全面的解釋,將其轉(zhuǎn)化成有意義的信息.OAIS中的所有信息類型都是以該信息對(duì)象為基礎(chǔ)的.
1.1.2 數(shù)據(jù)對(duì)象 數(shù)據(jù)對(duì)象可以是一個(gè)物理實(shí)體,還可以是一個(gè)數(shù)字對(duì)象.無論是物理實(shí)體還是數(shù)字對(duì)象,要成為網(wǎng)絡(luò)論文管理系統(tǒng)中長(zhǎng)久保存的信息對(duì)象,還需要相應(yīng)的表示信息.
1.1.3 表示信息 對(duì)于物理實(shí)體而言,其表示信息一般是關(guān)于其物理可見屬性的觀察和分析的結(jié)果,這部分信息將是信息對(duì)象的組成部分.表示信息可能包含對(duì)其他表示信息的引用,因?yàn)楸硎拘畔⒈旧砭褪且粋€(gè)信息對(duì)象,它本身就擁有自己的數(shù)據(jù)對(duì)象和表示信息,如此往復(fù)下去形成一個(gè)遞歸的嵌套,這一現(xiàn)象被稱為表示網(wǎng)絡(luò)".
1.1.4 OAIS中信息對(duì)象類型劃分 以O(shè)AIS模型實(shí)現(xiàn)的信息管理系統(tǒng)需要長(zhǎng)期保存的信息類型有許多種,每一種信息都包含數(shù)據(jù)對(duì)象和充分解釋數(shù)據(jù)的表示信息,故每種信息都被視為一個(gè)完整的信息對(duì)象.OAIS中的各類信息對(duì)象根據(jù)其內(nèi)容和在操作中的功能劃分有:內(nèi)容信息對(duì)象、保存描述信息對(duì)象、包信息對(duì)象和描述信息對(duì)象.
用OAIS中長(zhǎng)期保存信息并方便特定用戶訪問信息所需要的信息對(duì)象,來模擬完成這些功能所需要的概念信息結(jié)構(gòu)[2].
1.2.1 信息包(區(qū)別與包信息) 信息包是一個(gè)支持長(zhǎng)期保存信息的概念結(jié)構(gòu).一個(gè)信息包是一個(gè)包含兩類信息對(duì)象的容器——內(nèi)容信息和保存描述信息PDI.信息包同時(shí)又和另兩類信息對(duì)象聯(lián)系:包信息和包描述.信息流程中使用的信息包有好幾類,這些信息包分別被用來結(jié)構(gòu)化并保存不同流程階段的OAIS信息.信息從論文信息生產(chǎn)者到OAIS階段,
或從OAIS到論文消費(fèi)者階段,每一階段的信息要求都不同.圖1是一個(gè)信息包的概念視圖.該圖表明一個(gè)信息包可以包含0或1個(gè)內(nèi)容對(duì)象及0或多個(gè)PDI對(duì)象,并僅與一個(gè)包信息相關(guān)聯(lián),該包信息唯一的識(shí)別限定這個(gè)信息包.信息包同時(shí)還可與0或多個(gè)包描述相關(guān)聯(lián),包描述給出了內(nèi)容對(duì)象的說明以達(dá)到高效訪問.
圖1 信息包的概念視圖
1.2.2 信息包的種類 伴隨著OAIS各個(gè)功能的處理交互,出現(xiàn)的信息流中主要有3類信息包:提交信息包SIP、存檔信息包AIP和發(fā)布信息包DIP.區(qū)別OAIS中保存的信息包、提交給OAIS和OAIS發(fā)布的信息包是非常必要的.許多提交給OAIS的信息包所包含的表示信息或PDI沒有達(dá)到OAIS保存信息的要求,而且其信息的組織方式也不符合OAIS組織信息的要求.最后,OAIS提供給消費(fèi)者的信息也可能不滿足發(fā)布信息的要求.于是,通過用3種類型的信息包SIP、AIP和DIP來承載不同流程階段的論文信息,能大大簡(jiǎn)化論文檔案信息處理流程中的信息流研究問題.
提交信息包SIP是指在論文信息生產(chǎn)者向OAIS提交論文信息階段封裝論文信息的信息包.它的形式和具體內(nèi)容一般由論文信息生產(chǎn)者和OAIS之間協(xié)商而定.在OAIS內(nèi)部,一個(gè)或多個(gè)SIP被轉(zhuǎn)換成一個(gè)或多個(gè)AIP并加以保存.對(duì)于一個(gè)內(nèi)容信息對(duì)象,AIP封裝了它完整的PDI集合.一個(gè)AIP可能包含多個(gè)其他AIP的集合.對(duì)于消費(fèi)者的訂閱請(qǐng)求,OAIS還要將多個(gè)AIP或一個(gè)AIP的部分內(nèi)容轉(zhuǎn)換成DIP的形式以提供給消費(fèi)者.DIP總是要以一種消費(fèi)者可清晰辨別所需信息內(nèi)容的格式展現(xiàn)出來.根據(jù)發(fā)布媒介和消費(fèi)者要求的不同,DIP將以不同的格式呈現(xiàn)出來.
SIP和DIP的精確信息內(nèi)容以及它們與相應(yīng)的AIP之間的關(guān)系取決于網(wǎng)絡(luò)論文管理系統(tǒng)和論文信息生產(chǎn)者、論文信息消費(fèi)者之間達(dá)成的協(xié)議.它們的邏輯模型和圖1給出的信息包模型是一致的.
1.2.3 論文元數(shù)據(jù)信息包AIP 論文元數(shù)據(jù)信息包AIP中也有一個(gè)被稱作PDI的信息對(duì)象.但是,AIP中的保存描述信息對(duì)象PDI比普通信息包中的要求更多.普通信息包中PDI對(duì)象都是可選的,但在一個(gè)AIP中必須包括所有類型的PDI對(duì)象,每一類型的PDI內(nèi)容都有助于判斷包內(nèi)容.
每個(gè)AIP都和一個(gè)結(jié)構(gòu)化的描述信息相關(guān)聯(lián),該結(jié)構(gòu)化的描述信息稱為包描述",包描述使得論文信息消費(fèi)者可以定位感興趣的信息、分析信息并訂閱需要的信息.將一個(gè)訪問幫助需要的信息稱為關(guān)聯(lián)描述",一個(gè)包描述可能包含多個(gè)關(guān)聯(lián)描述,其數(shù)量取決于各類訪問幫助的數(shù)量.
1.2.4 特殊的AIP和包描述 這一部分對(duì)兩種特殊類型的 AIP進(jìn)行了闡述:論文元數(shù)據(jù)信息單元AIU和論文元數(shù)據(jù)信息集合AIC,它們都是AIP的子類型,AIU中保存的是不可再分的原子類型的信息內(nèi)容;而AIC則將多個(gè)AIP(AIU或其他的AIC)以主題層次方式組合起來,這種方式使得消費(fèi)群的訪問更靈活高效.從概念上講,一個(gè)AIC組合的所有AIP都包含在該AIC的內(nèi)容信息對(duì)象中.由此,AIU和AIC的差別就在于它們的內(nèi)容信息對(duì)象、包描述和包信息的復(fù)雜度.從信息保存的角度看,AIU和AIC之間的差別就非常明顯:一個(gè)AIU被視為僅包含單個(gè)內(nèi)容信息對(duì)象,并由一套PDI來描述它;而一個(gè)AIC的內(nèi)容信息則往往包含其他多個(gè)AIC或AIU的集合,并且其中的每個(gè)AIC或AIU都有其自身的PDI.另外,整個(gè)AIC還需要一個(gè)PDI來描述內(nèi)容集合信息.
與AIU和AIC相對(duì)應(yīng)的還有兩種特殊類型的包描述——單元描述和集合描述,它們都是包描述的子類型.單元描述的功能體現(xiàn)在提高訪問AIU內(nèi)容的效率;同樣,集合描述的功能則體現(xiàn)在高效訪問AIC內(nèi)容.
1.2.5 論文元數(shù)據(jù)信息單元AIU及相應(yīng)的單元描述 AIU可以被視為論文管理系統(tǒng)保存的原子信息".一個(gè)AIU僅包含一個(gè)內(nèi)容信息對(duì)象(該內(nèi)容信息對(duì)象可能包括多個(gè)文件的信息)和一套PDI.當(dāng)一個(gè)信息對(duì)象被提交給OAIS時(shí),一個(gè)單元描述就被創(chuàng)建了,這個(gè)單元是包描述的子類型,它是由從內(nèi)容信息和PDI提取的信息,并加上OAIS特有的信息(比如唯一標(biāo)識(shí)符)而形成的.
單元描述是一種特殊類型的包描述,它常常包含了描述AIU內(nèi)容信息的一系列關(guān)聯(lián)描述.同一般包描述相類似,所有的單元描述都必須至少提供一個(gè)針對(duì)檢索幫助的關(guān)聯(lián)描述.
1.2.6 論文元數(shù)據(jù)信息集合AIC及相應(yīng)的集合描述 一個(gè)AIC的內(nèi)容信息由完整的包含自身內(nèi)容信息、PDI及相關(guān)包信息和包描述的AIP組成.
集合描述也是包描述的一個(gè)子類型,但它附加了更多的結(jié)構(gòu)以更好描述AIC復(fù)雜的內(nèi)容信息.集合描述中有兩種新的關(guān)聯(lián)描述類型——全局描述和成員描述.前者是針對(duì)整個(gè)集合的描述,而后者則分別對(duì)集合中的成員進(jìn)行描述.
信息包及其相關(guān)的對(duì)象經(jīng)歷不同生命周期階段中邏輯上的和物理上的轉(zhuǎn)變.圖2描述了OAIS運(yùn)作過程中的主要數(shù)據(jù)流走向.這些數(shù)據(jù)流不包括管理數(shù)據(jù).
圖2 頂層數(shù)據(jù)流圖
論文生產(chǎn)者實(shí)體中的數(shù)據(jù)一般以任何生產(chǎn)者想要的形式呈現(xiàn).然而當(dāng)這些數(shù)據(jù)將要進(jìn)入OAIS保存時(shí),生產(chǎn)者需要和論文管理者協(xié)商并產(chǎn)生一個(gè)提交協(xié)議.這個(gè)協(xié)議定義了信息的內(nèi)容、格式及相應(yīng)SIP的預(yù)期加入時(shí)間.SIP才是生產(chǎn)者提交給OAIS的信息包.
通過建立一個(gè)數(shù)據(jù)提交會(huì)話來將SIP不斷地轉(zhuǎn)移到OAIS.在一個(gè)生產(chǎn)者和OAIS之間傳遞數(shù)據(jù)的過程中,可以產(chǎn)生一個(gè)或多個(gè)數(shù)據(jù)提交會(huì)話.邏輯上,可以將數(shù)據(jù)提交會(huì)話看成一系列內(nèi)容數(shù)據(jù)對(duì)象和描述對(duì)象的集合,盡管這些描述對(duì)象物理上既可以包含于一個(gè)數(shù)字對(duì)象,也可以被分割成多個(gè)不同的描述個(gè)體.除了SIP之外,數(shù)據(jù)提交會(huì)話還要包含信息對(duì)象到其承載媒介的映射信息,比如信息對(duì)象的編碼、在文件中的邏輯位置描述等.
一旦SIP進(jìn)入OAIS,它的形式和內(nèi)容就要發(fā)生變化,因?yàn)橐粋€(gè)OAIS往往不會(huì)將數(shù)據(jù)以其進(jìn)入OAIS時(shí)的SIP格式保存.事實(shí)上,數(shù)據(jù)的提交格式和保存格式不太可能是一模一樣的.另外,在數(shù)據(jù)提交階段,統(tǒng)一標(biāo)識(shí)符等在OAIS中唯一標(biāo)識(shí)信息包的信息是沒有必要的,然而一旦信息包被保存在OAIS中,這類標(biāo)識(shí)信息就是必要的了.
SIP和AIP之間的映射不一定是一對(duì)一的,可能出現(xiàn)多個(gè)SIP轉(zhuǎn)換成一個(gè)AIP、一個(gè)SIP轉(zhuǎn)換成多個(gè)AIP、多個(gè)SIP轉(zhuǎn)換成多個(gè)AIP的情況.
采集功能將數(shù)據(jù)提交會(huì)話中獲得的SIP轉(zhuǎn)換成一組AIP和包描述,AIP保存于論文檔案存儲(chǔ)系統(tǒng)中,包描述則交由數(shù)據(jù)管理功能實(shí)體處理.
此外,采集功能實(shí)體還要?jiǎng)澐直徊杉男畔?duì)象,歸類屬于已有集合的信息對(duì)象,并發(fā)送修改相應(yīng)集合描述的消息.OAIS和外部組織可提供額外的關(guān)聯(lián)描述,能足夠靈活地包容新描述,還需要協(xié)調(diào)數(shù)據(jù)管理系統(tǒng)和論文檔案存儲(chǔ)器之間的數(shù)據(jù)更新,提供合適的協(xié)調(diào)機(jī)制和錯(cuò)誤恢復(fù)能力.
論文元數(shù)據(jù)存儲(chǔ)功能實(shí)體獲取采集階段產(chǎn)生的AIP并將其并入永久檔案庫(kù)存.數(shù)據(jù)管理功能實(shí)體則獲取采集階段產(chǎn)生的包描述并將其并入已有的集合描述中.這一階段的數(shù)據(jù)轉(zhuǎn)換主要是將采集階段產(chǎn)生的邏輯數(shù)據(jù)模型映射為檔案永久存儲(chǔ)系統(tǒng)(比如DBMS數(shù)據(jù)庫(kù)管理系統(tǒng)或HFMS層次文件管理系統(tǒng))的存儲(chǔ)格式.
OAIS的內(nèi)部視圖也就是存檔信息的永久存儲(chǔ)表示狀態(tài),故所有的編碼和映射機(jī)制都已經(jīng)完整記錄下來.這里,數(shù)據(jù)轉(zhuǎn)換過程主要是通過軟件(如HFMS或DBMS)方式來實(shí)現(xiàn)的.在這種情況下,OAIS需要維持一個(gè)有效的數(shù)據(jù)轉(zhuǎn)換軟件或細(xì)致的內(nèi)部格式文檔,使得將來數(shù)據(jù)可以無丟失地移植到其他系統(tǒng).
當(dāng)一個(gè)論文信息消費(fèi)者想使用OAIS中的數(shù)據(jù)時(shí),他可以使用查找?guī)椭鷣矶ㄎ桓信d趣的信息.查找?guī)椭梢越o消費(fèi)者展示一個(gè)本地化的相關(guān)結(jié)果庫(kù)存視圖,以方便消費(fèi)者選擇需要的AIP.為了創(chuàng)建這種幫助用戶定位AIP或AIC的關(guān)聯(lián)描述和查找?guī)椭?OAIS需要消耗大量的時(shí)間和精力.在訪問實(shí)體中,消費(fèi)者需要?jiǎng)?chuàng)建一個(gè)搜索會(huì)話,在這個(gè)搜索會(huì)話中,消費(fèi)者通過使用OAIS查找?guī)椭鷣矶ㄎ恍枨笮畔?這樣的搜索過程往往是迭代往復(fù)的,首次進(jìn)行寬范疇的搜索,再逐步縮小前一次的搜索范圍直到找到滿意的結(jié)果為止.
一旦消費(fèi)者選準(zhǔn)了需要的OAIS信息,他就可以使用訂閱幫助來發(fā)送訂閱請(qǐng)求.消費(fèi)者可以定制數(shù)據(jù)發(fā)布會(huì)話的物理細(xì)節(jié),如載體類型、對(duì)象格式等.訂閱過程還允許消費(fèi)者定制從AIP到DIP的轉(zhuǎn)換細(xì)節(jié).
訪問功能還要通過數(shù)據(jù)管理功能獲得訂閱協(xié)議,僅當(dāng)訂閱協(xié)議的條件滿足時(shí),訪問功能才處理訂閱要求:向論文檔案存儲(chǔ)實(shí)體和數(shù)據(jù)管理實(shí)體發(fā)送AIP和相關(guān)包描述的請(qǐng)求,存儲(chǔ)實(shí)體和數(shù)據(jù)管理實(shí)體則發(fā)送被請(qǐng)求對(duì)象的拷貝,訪問實(shí)體再將收到的AIP和相關(guān)的包描述轉(zhuǎn)換成一組DIP,并將這些DIP保存到分布式的物理媒介上,等待在數(shù)據(jù)發(fā)布會(huì)話中傳遞給消費(fèi)者.根據(jù)OAIS提供服務(wù)的水平和消費(fèi)者訂閱要求的不同,這一轉(zhuǎn)換過程的復(fù)雜度也有很大不同.最簡(jiǎn)單的情況下,DIP僅復(fù)制收到的AIP和包描述.最復(fù)雜的情況下,當(dāng)OAIS提供劃分子集服務(wù)時(shí),信息對(duì)象的粒度都會(huì)發(fā)生變化,發(fā)布過程就要產(chǎn)生新的DIP和相關(guān)包描述.在沒有任何轉(zhuǎn)換的要求下,DIP和AIP之間的映射是一對(duì)一的,然而隨著劃分子集服務(wù)的使用,可能產(chǎn)生IP和AIP之間的映射不是一對(duì)一的,如多個(gè)DIP對(duì)一個(gè)AIP或一個(gè)DIP對(duì)多個(gè)AIP的情況.
電子文檔是網(wǎng)絡(luò)論文共享平臺(tái)的核心信息資源,如何通過網(wǎng)絡(luò)論文共享平臺(tái)對(duì)電子文檔進(jìn)行一體化管理,如何實(shí)現(xiàn)信息基礎(chǔ)設(shè)施的有效整合,以支持文檔一體化管理,對(duì)于網(wǎng)絡(luò)論文共享平臺(tái)建設(shè)至關(guān)重要.網(wǎng)絡(luò)論文共享系統(tǒng)元數(shù)據(jù)管理模型的建設(shè)是一個(gè)長(zhǎng)期的過程,還有待于深入研究.
[1] NASA.Reference Model for an Open Archival Information System(OAIS)[S].CCSDS 650.-B-1.Blue Book.Issue 1.Washington D.C.January 2002:25-39.
[2] Busse S R D,Kutsche U Leser,Weber H.Federated Information Systems:Concepts,Terminology and Architectures[R].Technische Universit¨at Berlin,1999.