董曉莉(國家圖書館)
隨著社會創(chuàng)新速度的加快,圖書館、檔案館、博物館等數據樞紐角色被弱化,資源保障正在從線性發(fā)展模式向實時化的非線性創(chuàng)新模式轉變,保存服務對象的復雜性、數據動態(tài)性、流變性及資源采集渠道的異構性更強。通過保存機構間的協(xié)作實現對保存數字資源的保存與利用,有效保障具有真實性和有效性的資源發(fā)現,已經成為驅動保存機構創(chuàng)新發(fā)展的必然。隨著各保存機構資源保障的開放性和協(xié)作利用需求的突顯,如何根據用戶需求實現針對具有真實性和有效性保存數字對象的精準推送、充分發(fā)揮協(xié)同服務作用,成為各保存機構服務深化和創(chuàng)新的目標。
近年來,隨著數字出版物、政府記錄以及數字化文獻數量的不斷增加,用戶對保存數字對象利用需求的多元化和差異化越來越顯著,對圖書館、檔案館和博物館現有保存系統(tǒng)的可持續(xù)性和保存數字對象的可持續(xù)性以及便捷實用性提出了挑戰(zhàn)。如何對現有保存系統(tǒng)進行合理改造,為保存機構提供強大且可持續(xù)增長的異構數字對象的收集、處理能力,有效增強現有保存系統(tǒng)資源內容的發(fā)現能力,提供真實可信的異構數字對象的采集與發(fā)現能力,構建標準、開放、可橫向擴展的保存系統(tǒng)是目前亟需解決的問題。針對保存系統(tǒng)的流程再造并非要替換現有的保存系統(tǒng),而是通過引入外掛“資源庫”(如保存庫目錄索引、臨時存儲庫等)的方式,實現基于保存系統(tǒng)內部資源內容、元數據以及信息包的不同顆粒度的信息檢索。資源庫的重點集中于信息包內的細粒度搜索和文件級別的隨機處理,并非僅限于目前針對保存數字對象的元數據和信息包的訪問。
目前,包括圖書館、檔案館以及博物館在內的數字資源長期保存系統(tǒng)基本都遵循OAIS(Open Archival Information System)[1]參考模型構建,其工作流程主要針對有效提交信息包(Submission Information Package,SIP)的接收、歸檔信息包(Archival Information Package,AIP)的存儲以及當客戶端請求,提取AIP并重新打包形成發(fā)布信息包(Dissemination Information Package,DIP)為主,其信息保存與提供的形式主要以信息包為最小單元。為增強保存系統(tǒng)對資源的發(fā)現能力,需要對原有保存系統(tǒng)進行適度改造,以實現對全文元數據的抽取和精確搜索。根據OAIS參考模型,長期保存系統(tǒng)通常被劃分成攝入模塊、歸檔存儲模塊、數據管理模塊、保存規(guī)劃模塊、信息訪問模塊和系統(tǒng)管理模塊六大實體功能模塊,基于此可以構建形成標準的長期保存系統(tǒng)。[2]因此,結合OAIS參考模型研究基于資源發(fā)現的單機構長期保存系統(tǒng)模型具有先天的架構優(yōu)勢,尤其是與OAIS的功能模塊有機結合,既能夠保留原有保存系統(tǒng)的功能,保證覆蓋現有最基本和最核心的長期保存業(yè)務環(huán)節(jié),又可以配合OAIS信息模型提供的元數據框架和信息包概念,保證保存信息在機構內部和協(xié)作機構系統(tǒng)內的有效流轉,促進協(xié)作模式下保存系統(tǒng)不同顆粒度資源的有效保存和發(fā)現。支持資源發(fā)現的單點保存系統(tǒng)模型見圖1。
如圖1所示,支持資源發(fā)現的保存系統(tǒng)模型共分成八大模塊,除了攝入模塊、歸檔存儲模塊(信息包倉儲模塊)、數據管理模塊(元數據倉儲模塊)、信息訪問模塊(訪問顯示模塊)、保存規(guī)劃模塊、系統(tǒng)管理模塊外,還增加了查詢服務模塊和臨時存儲模塊。
圖1 支持資源發(fā)現的單點保存系統(tǒng)模型
攝入模塊:該模塊主要負責對被保存資源的資源攝入管理,其遵循保存機構預先設定的資源攝取規(guī)則完成對提交數字對象的檢測、轉換和規(guī)范,識別數字保存對象的相關技術特征并執(zhí)行攝入操作,保證攝取過程中所有數字對象在處理過程中的完整性、真實性和可理解性。具體涉及從數字資源提供者那里接受提交信息包(SIP),對SIP包進行核查并確保其質量符合要求,完成信息包中文獻內容信息和元數據信息的抽取和拆分,按照相關的數據格式和文件標準生成符合歸檔存儲系統(tǒng)要求的存檔信息包(AIP),抽取提交信息包(SIP)中的元數據信息和文獻內容信息并提交到臨時存儲模塊,從AIP包中抽取描述信息(DescriptiveInformation)并提交到元數據倉儲模塊,協(xié)調實現對信息包倉儲模塊和元數據倉儲模塊的功能設置和完善。信息包中針對每一個文件的抽取都是獨立進行的。抽取的過程與保存機構預設的保存規(guī)則、服務目標以及文件類型緊密相關。如針對一份報紙的抽取,將涉及作者、題名、主體內容、發(fā)行商、發(fā)行日期、文件格式、大小、存儲介質、數字化工具等內容,此外還涉及該文件信息包、全文信息的唯一標識符等信息。以上信息一旦建立,即存入臨時存儲區(qū)。
臨時存儲模塊:經過攝入模塊加工處理后的元數據信息和每個數字對象文件信息被存儲到臨時存儲模塊。臨時存儲模塊通過API與查詢服務模塊相連接并向查詢服務模塊提供元數據信息與資源內容信息。由于資源類型各異,因此該API的設計應當采用基于參數的高度可配置和可定制的模式。查詢服務模塊通過API完成對臨時存儲模塊數據的抽取和重新索引,以支持對元數據和資源內容信息訪問。
信息倉儲模塊:元數據倉儲模塊和信息包倉儲模塊共同構成了數字資源長期信息保存?zhèn)}儲模塊。信息倉儲模塊主要負責管理數字對象、數字對象相關元數據及其二者之間的相關關系,并提供對數字對象的導入、導出、查詢、訪問等服務。具體包括:對數字對象描述信息和保存庫系統(tǒng)管理數據的載入、維護和訪問存??;從攝取單元接收AIP信息包,并將它們存儲到信息包倉儲系統(tǒng)中;為查詢服務模塊提供元數據、AIP包以實現對已保存數字對象信息包的提取和利用;負責管理和維護信息倉儲。信息倉儲模塊通過API與查詢服務模塊相連接,可根據查詢反饋結果隨時調整API的參數設置,以實現基于不同類資源組成的復雜查詢,并基于不同的資源特征進行排序,為用戶提供定制查詢服務。
查詢服務模塊:查詢服務模塊提供索引和查詢功能。當在信息倉儲模塊和臨時存儲模塊中增加、刪除或更新記錄時,將觸發(fā)查詢服務模塊更新索引記錄。為與信息倉儲模塊和臨時存儲模塊中信息一一對應,索引記錄以結構化的數據結構存儲并構建數據指針和唯一標識符。為保證信息的一致性,同一信息包的元數據、數字對象文件以及信息包被看做是一組記錄,它們擁有相同的唯一標識符。該模塊提供信息包及信息包內細粒度的搜索和文件內容的隨機處理,其支持基于文件和抽取元數據(如信息包中所包含文件的MIME類型、大小、名稱等內容)的小范圍搜索。當訪問顯示模塊所接收到的用戶搜索需求被提交到查詢信息模塊時,該模塊將根據索引信息進行評估,隨后將用戶所需信息的可選內容片段及關聯關系信息的排序列表反饋到訪問顯示模塊。查詢服務模塊通過API與信息倉儲模塊和臨時存儲模塊相連,以支持對多源異構數據的訪問。同時,該模塊通過HTTP接口與訪問顯示模塊連接。
訪問顯示模塊:該模塊相當于查詢服務模塊的客戶端,主要負責與用戶進行通信并提供保存信息的查詢和傳遞服務,主要包括訪問活動協(xié)同、DIP生成和資源傳遞三個部分的職責。該模塊接受用戶的訪問請求,根據用戶的資源訪問權限,將符合用戶需求的元數據、文件信息或信息包反饋給用戶。
基于資源發(fā)現的保存系統(tǒng)的核心是保證系統(tǒng)的可擴展性和較高的開放性,而信息包的構建是提高系統(tǒng)間互操作性和協(xié)作性的必然需求。首先,各保存機構需要確保所接收和提供訪問的數字對象、AIP信息包和元數據是按照通用的標準化格式構建的,以滿足資源保存與發(fā)現系統(tǒng)間的互操作性要求。首先,信息包、數字對象以及元數據都應當是標準化的格式,以保證不受系統(tǒng)間差異的限制;其次,數字對象、元數據及其所需的任何其他信息應組合在同一個概念信息包中,且所有組件都使用同一唯一標識;再次,每個概念信息包都應當包含有足夠的信息,以保證數據信息在不同的資源保存與發(fā)現系統(tǒng)間傳遞時,可以進行有效性和可信性驗證;最后,每個概念信息包的構建方式都應當保證信息內容可以被長期理解,而無需參考外部系統(tǒng)或標準,即信息包的核心技術和語義的使用原則必須遵循通用的標準。
OAIS參考模型中所定義的SIP、AIP、DIP信息包規(guī)范的內容是不可知的,因為其容許對任何數據信息和元數據信息進行打包。為了保證保存信息的完整性、真實性和可信性,在構建信息包時,需要考慮與保存信息資源相關的環(huán)境信息、來源信息等內容。例如,一個典型的資源保存發(fā)現系統(tǒng)應當包含所有被聚合的信息、與信息有關的元數據及其與其他實體的關系、信息分類標準、用戶訪問控制策略、規(guī)則定義、術語定義、信息搜索技術、存儲技術等。[3]所有這些數據、元數據信息以及數字對象信息構成了一個具體的完整的信息包。在協(xié)作系統(tǒng)間進行信息交換時,這些數據信息必須一起傳輸,以保持整個信息包的完整性、真實性和可理解性。為保證系統(tǒng)間細粒度級別上的互操作性,信息包通用模型必須提供信息類型的詳細說明、與特定類型內容相關的精確元數據、數字對象、資源內容以及保存發(fā)現系統(tǒng)環(huán)境信息等內容。信息包通用模型見圖2。
圖2 信息包通用模型
圖2 所示的信息包通用模型符合OAIS規(guī)范,以靈活的數據組件形式構建,其容許將任何元數據、資源對象、數據信息、相關模式和資源內容打包成單個概念信息包,以支持在各保存系統(tǒng)間無縫傳輸、保存和重用。包中的元數據可以分為描述型元數據、保存型元數據以及其他類型元數據:描述型元數據主要用于查找和理解數據信息,保存型元數據主要用于確保資源信息、元數據和整個信息包完整性和真實性,其他類型元數據指其他任何類型被資源保存與發(fā)現系統(tǒng)或保存機構認為有關的元數據(如管理型元數據等)。該信息包通用模型可以包含單個實體的一個或多個表示信息,單個表示信息可以表示特定數據信息也可以表示整個信息包甚至復制整個模型結構。通過模型中文檔類型元素可以實現對特定表示信息的有效區(qū)分,如保存機構可以在根元數據元素中僅包含通用的描述性元數據,在各自的表示信息中保存詳細的元數據信息。通過這種方式,可以在不危及原始元數據完整性和真實性的前提下,提供將不同仿真環(huán)境或利用環(huán)境的描述信息單獨表示的可能。由于整個信息包通用模型采用靈活的數據組件形式構建,因此各機構可以結合不同資源類型和使用目的選擇是否分割保存元數據信息。同時,該模型可以靈活嵌入保存資源所依托的個性化的環(huán)境信息(如權限信息、說明文檔、使用模式、數據字典等),以保證信息包的可持續(xù)利用,達到信息包自我維護的目的。METS標準是實現系統(tǒng)間互操作的主要工具,它容許根據公認的規(guī)則驗證信息包內的所有內容信息。[4]因此,為保證信息包及其組件的持久性及獨特性。元數據與相關數據信息的可連接性、信息包內所有組件的標準化,信息包通用模型必須包含“METS.xml”的強制性核心元數據文件,該文件內應包含信息包的標識信息和描述信息包本身及其構成組件的結構信息。
這里以古籍數字資源的保存為例,說明上述信息包通用模型的使用。在對古籍數字信息對象進行分析時,首先需要對其顆粒度進行界定。本例僅以冊為最小單位進行古籍對象顆粒度的基本劃分,對其實施資源保存與發(fā)現活動。確定以冊作為古籍數字對象的最小知識實體后,在保存過程中需要對最小知識實體所對應的表現進行標識、存儲和維護。如在應用過程中,一個.tar文件就是一冊相關古籍的表現,將其單獨進行封裝,并記錄文件初始的沿革履歷信息、對象間的關系信息、描述信息、權利描述、環(huán)境信息等。古籍數字對象信息可以抽象概括出相似的結構特征(見圖3)。Book1即一冊古籍,其由一組元數據文件、一系列圖像文件、相關的許可說明文件、技術說明文件構成。事件可以驅動Book1變?yōu)锽ook1’,對于古籍數字對象而言,Book1和Book1’是不同的兩冊古籍,但是他們之間存在著衍生關系。代理與Book1不直接相關,但可以通過事件間接地影響B(tài)ook1。圖3中,與事件相關的代理主要包括4種類型:人、組織、軟件和物理設備。如,古籍數字資源長期保存管理者通過復制工具,制作了一份Book1的副本Book1’、一本或多本Book構成一個Collection、如多冊數字古籍構成一種數字古籍。
圖3 古籍數字對象信息包應用模型
圖3 中的一個圖像文件即一頁古籍資源,如一個TIFF圖像文件由不同格式的比特流(Bit Stream)組成,這些比特流在物理上沒有本質的不同(都是二進制編碼),這些二進制編碼必須依賴于一系列具有引用關系的呈現信息構成的呈現網絡來進行表述。因此,信息包應包含對該圖像文件所依賴的軟件環(huán)境信息、硬件環(huán)境信息、應用程序信息、格式信息等內容進行詳細的記錄和描述。
在結構上,可以分成簡單古籍信息對象和復雜古籍信息對象,而復雜古籍信息對象由簡單古籍信息對象構成。如圖3中的一個TIFF文件就是一個簡單信息對象,而多個TIFF文件構成了一冊古籍,該冊古籍是一個復雜信息對象。復雜信息對象是一個邏輯對象,它可以進一步包含簡單信息對象或其他復雜信息對象,而這些信息對象是該復雜信息對象的組件。圖3中的TIFF文件是簡單信息對象,Book和Collection屬于復雜信息對象。
在功能上可以分成種、冊、頁等古籍對象。如多冊古籍可以聚合成為一種古籍資源,每冊古籍又由多卷聚合而成,每個卷由一篇或多篇古籍文章構成,每篇文章由一頁或多頁構成。由于本例確定以冊作為最小知識實體,因此每種古籍、每冊古籍的描述元數據、技術元數據、保存元數據可以選擇分種、冊兩級進行放置,這種分層數據模型很好地定義了倉儲中的數據結構。我們將信息包之間的關系存儲在管理元數據組件的數據庫中,這保證了協(xié)作模式下基于多源異構資源發(fā)現的保存系統(tǒng)是一個閉環(huán)控制系統(tǒng),具有良好的自適應性。
在該模型中,以一冊古籍信息對象為中心將該信息對象所涉及的各種信息串聯起來,涵蓋了需要保存的一冊古籍對象的基本元素:元數據、文件(頁)、許可說明文件、技術說明文件等(見下表)。上述例子中的每冊古籍構成了一個獨立的信息體,它具有相應的元數據、對象數據、相關技術文件、說明文件、權限控制、許可協(xié)議、表現形式等。
表 古籍數字對象信息包應用模型的基本元素
在具體存儲實現過程中,應當保證該模型具有自包含、自描述、獨立性等特性,就像一個容器,可以承載該信息對象的所有信息,同時可以包含或關聯其他信息對象。通過該信息對象模型,可以承載表示信息對象內容的數據流;通過結構元數據、資源命名規(guī)則控制、對象數據存儲結構控制等手段,有效體現信息對象的結構;通過將對象與相關服務建立關聯,一個對象可以同時有多重呈現方式;通過信息對象相互之間的關聯關系可以有效體現其各種古籍對象關系,并實現古籍資源的有效組合和復用。在模型應用過程中,可以基于不同的資源分類、權限信息、許可協(xié)議建立不同控制域,定義不同的應用場景。[5]針對模型中所涉及的模板文件、相關的Schema文件、技術說明、許可說明等公共重要文件,可以在根元素中進行定義和描述,以增強信息對象模型的靈活性、可擴展性和可繼承性。
目前,我國的數字資源長期保存政策和策略尚不完善,且機構間在數字資源長期保存領域的研究與實踐工作缺乏有效的溝通和協(xié)調,跨機構、行業(yè)、區(qū)域的合作關系松散,缺乏統(tǒng)一規(guī)范的合作規(guī)范和制度,特別是各保存機構長期保存的技術能力參差不齊。因此,為最大限度地提供有效的保存和利用服務,我國基于資源發(fā)現的長期保存協(xié)作系統(tǒng)建設可以考慮采用有機融合分布式存儲和信息處理機制的集中分散式架構,即由某一權威機構作為合作保存的中心機構,由其主導并協(xié)調指導其他機構共同完成保存任務,通過采用集中管理—分布存儲—集中發(fā)現的資源保存與服務模式,保障可信保存信息資源的協(xié)同保存與利用,改變目前重保存輕利用、重數量輕管理的粗放保存服務模式。在該服務模式和系統(tǒng)架構下,中心機構負責完成保存政策、運行機制、合作機制、保存策略等方面的全局性指導,并通過共享基礎設施、功能設計標準框架等方式完成機構間的共享與協(xié)作;在統(tǒng)一的資源采集政策下,各分支機構獨立完成資源的收集、加工、審核、管理和存儲;利用分布式的保存策略和多副本安全策略,保證種類各異的保存資源分布式存儲于地理位置分散的各合作保存機構內部;通過規(guī)范的數據集中整合流程,保證資源保存形式的一致性,便于更新以及為用戶集中揭示資源,實現保存資源的全方位揭示。[6]該系統(tǒng)架構通過機構間的合作保存有效規(guī)避了單機構保存有可能存在的風險;通過共享基礎設施,降低開發(fā)成本;通過共享功能設計標準框架,有效降低管理成本;通過資源的多副本保存,有效提高資源的安全性和完整性。在系統(tǒng)構建過程中,解決協(xié)作模式下多源、異構信息資源的協(xié)同發(fā)現是協(xié)作模式下保存系統(tǒng)建設的基礎和核心。本文提出一種基于異構數據庫協(xié)同的系統(tǒng)模型(見圖4),該模型吸納了數據庫、元數據、中間件、LDAP目錄服務等思想。采用CSCW體系解耦其中的聯邦結構,[7]協(xié)同查詢處理、事務管理、完整性約束模塊,訪問底層數據庫,較好地屏蔽了異構性。
圖4 協(xié)作模式下基于多源異構資源發(fā)現的保存系統(tǒng)架構
協(xié)作模式下基于多源異構資源發(fā)現保存系統(tǒng)的構建可以首先構建一個基于集中元數據目錄的服務,基于該服務,集中保存發(fā)現服務能以統(tǒng)一接口透明地訪問各分支節(jié)點多源異構的數據倉儲資源。該服務可以采用以下方法實現:將各分支機構數據庫的位置和元數據信息注冊到LDAP目錄中,以便用戶通過目錄服務查詢到所需要的數據庫資源的位置和相關元數據信息;根據應用需求、用戶授權以及資源所處的分支節(jié)點的位置來訪問各個分子節(jié)點的數據倉儲資源。由于目前的主流數據庫基本都是關系型數據庫,結構上基本是同構的,且均基于相同的元數據標準,所以元數據大體結構上相似,這就為以統(tǒng)一方式獲取和保存元數據信息提供了可能。
協(xié)作模式下,機構間的協(xié)調控制器采用基于Agent[8]的三層協(xié)作模型實現。其中,中心節(jié)點的Agent負責收集協(xié)作保存與發(fā)現聯合體系內信息資源保存與發(fā)現任務,并在對不同分支節(jié)點的資源保存情況、系統(tǒng)空閑情況以及存儲空間和計算能力等影響因素進行綜合評估后,完成任務的分配。任務一經分配,將觸發(fā)各分支節(jié)點的Agent驅動分支節(jié)點的保存與發(fā)現系統(tǒng)完成數字信息的保存與利用任務。基于Agent的協(xié)作模型可以實現各保存機構異構倉儲系統(tǒng)組件和任務的管理與監(jiān)控,實現各保存機構異構倉儲系統(tǒng)間的組件和任務協(xié)作。各系統(tǒng)間的級聯采用CSCW的聯邦結構,能夠有效解決多源異構保存資源庫的協(xié)同問題。當用戶需要訪問某一數據庫時,先向機構間的協(xié)同控制器發(fā)出請求,無需直接與所要訪問的數據庫發(fā)生作用。協(xié)調控制器是底層各保存機構保存?zhèn)}庫的神經中樞,負責各保存?zhèn)}儲庫之間的聯系與消息傳輸,協(xié)調各保存?zhèn)}儲庫之間的消息轉換以及任務的規(guī)劃、分解和管理。
整個系統(tǒng)的具體執(zhí)行過程如下:用戶在集中保存發(fā)現服務提供的可視化界面上輸入信息保存與利用需求,機構間協(xié)同控制器將其提交至聯邦結構的CSCW數據庫中間件,中間件的協(xié)調控制器在通信處理器的支持下調用集中元數據目錄服務,協(xié)同信息處理、保存管理、完整性約束等模塊向不同的分支節(jié)點數據庫發(fā)出操作指令,并將取得的結果傳遞給保存發(fā)現服務。當各分支機構的保存數據倉儲節(jié)點所攝入的資源發(fā)生修改、更新、刪除等變更時,各保存節(jié)點將提交元數據注冊與更新需求,并觸發(fā)集中元數據目錄服務重新完成元數據的更新以及索引的構建。
現代信息環(huán)境下,保存機構所依賴的資源體系、資源獲取渠道、表現形式、利用形式與服務環(huán)境均發(fā)生了重大變革。本文針對上述目標,結合目前保存系統(tǒng)存在的不足,通過對單機構保存系統(tǒng)結構的改造,實現了基于不同級別數字對象的發(fā)現,并在此基礎上探討了基于資源發(fā)現的數字資源長期保存信息包的構建以及協(xié)作模式下基于資源發(fā)現保存系統(tǒng)的構建方法。但基于資源發(fā)現的數字資源長期保存系統(tǒng)的建設與服務需要考慮更多復雜的因素(如知識產權、政策環(huán)境等),這是未來需要進一步研究的方向。