• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關聯(lián)數(shù)據(jù)的語義數(shù)字檔案館框架設計研究

      2015-06-25 20:53:51石華
      檔案管理 2015年4期
      關鍵詞:元數(shù)據(jù)

      石華

      摘??要:本文介紹了關聯(lián)數(shù)據(jù)概念,提出了基于關聯(lián)數(shù)據(jù)的語義數(shù)字檔案館概念,并設計了語義數(shù)字檔案館的框架,該框架具有四個層次:數(shù)據(jù)發(fā)布層、數(shù)據(jù)網(wǎng)、數(shù)據(jù)存取整合保存層和應用層。其核心是用RDF三元組替換檔案數(shù)據(jù)庫,將傳統(tǒng)的檔案數(shù)據(jù)發(fā)布為關聯(lián)檔案數(shù)據(jù),實現(xiàn)檔案數(shù)據(jù)的共享、擴展和重用。

      關鍵詞:語義數(shù)字檔案館;關聯(lián)數(shù)據(jù);元數(shù)據(jù);RDF

      Abstract:This?paper?pointed?out?the?concepts?of?linked?data?,?proposed?a?conception?of?Semantic?Digital?Archives?on?based?on?linked?data,?and?designed?the?framework?of?the?Semantic?Digital?Archives,?which?includes?four?layers-?publication?layer,web?of?data?,data?access?integration?and?storage?layer?and?application?layer.The?core?of?the?framework?is?migrating?traditional?archive?data?to?Linked?Archive?Data?which?is?sharable,?extensible,?and?easily?re-usable.

      Key?words:Semantic?digital?Archives;Linked?data;Metadata;RDF

      1??前言

      關聯(lián),或者說“互相聯(lián)系”的概念對于檔案行業(yè)并不陌生,比如檔案整理就要求保持文件之間的有機聯(lián)系,還有“參引”的概念等。檔案人員花費大量的人力物力來著錄檔案數(shù)據(jù),其目的之一就是揭示檔案和檔案責任者或其他背景之間的聯(lián)系,但其中的許多內(nèi)在聯(lián)系,并不能為計算機所理解和使用。檔案數(shù)據(jù)被局限于各個不同的軟件系統(tǒng)和數(shù)據(jù)庫中,沒有和網(wǎng)絡資源整合在一起。檔案數(shù)據(jù)基本上沒有成為一種廣為人知的網(wǎng)絡存在,能夠被方便地查找、標識、選擇、獲取、利用及為第三方開發(fā)新的應用。近年來,關聯(lián)數(shù)據(jù)LD(Linked?Data)技術的興起,第一次為上述目標的實現(xiàn)提供了一種可能。

      2??語義網(wǎng)及關聯(lián)數(shù)據(jù)概述

      2.1??語義網(wǎng)與關聯(lián)數(shù)據(jù)概念。萬維網(wǎng)的發(fā)明人蒂姆·博納斯-李將下一代互聯(lián)網(wǎng)稱為“語義網(wǎng)”,并解釋說“語義網(wǎng)就是數(shù)據(jù)網(wǎng)”。所謂“語義”,是指遵循一個統(tǒng)一的標準,給每一片信息賦予一個計算機都能理解的“意義”,也就是“元數(shù)據(jù)”。在當前使用的萬維網(wǎng)上,網(wǎng)頁是信息資源的基本組織單位,每個網(wǎng)頁都有一個網(wǎng)址,即“統(tǒng)一資源標識”(URI),它們通過開發(fā)者定義的鏈接連接起來,用戶可以從一個網(wǎng)頁跳躍切換到另一個網(wǎng)頁,即網(wǎng)上沖浪。

      在語義網(wǎng)上,數(shù)據(jù)將像網(wǎng)頁一樣,成為組織資源的單位。一個數(shù)據(jù),可以像萬維網(wǎng)上的網(wǎng)頁一樣獲得一個網(wǎng)址(即統(tǒng)一資源標識URI),同時,還有統(tǒng)一的語義對它進行描述。這樣,語義網(wǎng)上的數(shù)據(jù),就不再是一個死的數(shù)字,而是一個活的“細胞”,它可以被定位,還擁有和其他數(shù)據(jù)語義一致的標簽,這意味著它可以和其他數(shù)據(jù)相聯(lián)。之所以稱之為相“聯(lián)”,而不是相“連”,是因為,它們并不是像網(wǎng)頁一樣通過一個鏈接簡單連在一起,而是通過數(shù)據(jù)之間內(nèi)在的關系掛起鉤來,“聯(lián)”在一起。這種關系,不是隨便定義的,而是基于數(shù)據(jù)的含義和屬性產(chǎn)生的。?這種相聯(lián),就像兩個數(shù)據(jù)庫通過“主鍵”(Primary?key)相聯(lián)起來一樣,不同的是,這里的“主鍵”,是一個數(shù)據(jù)的元數(shù)據(jù)。

      “語義網(wǎng),從某種程度上來說,就像一個全球性的數(shù)據(jù)庫。……語義網(wǎng)不僅僅是把數(shù)據(jù)放上網(wǎng),它還要在數(shù)據(jù)之間創(chuàng)建聯(lián)接,數(shù)據(jù)一旦聯(lián)接,計算機和人都可以對數(shù)據(jù)進行探索:通過一個數(shù)據(jù)發(fā)現(xiàn)另外一些相關的數(shù)據(jù)。”[1]這將是一次劃時代的革命。而關聯(lián)數(shù)據(jù)是一種推薦的最佳實踐,用來在語義網(wǎng)中使用URI(統(tǒng)一資源標識符,即網(wǎng)址)和RDF(資源描述框架)發(fā)表、分享、連接各類數(shù)據(jù)、信息和知識(引自維基百科)。蒂姆·博納斯-李概括出在網(wǎng)上發(fā)布關聯(lián)數(shù)據(jù)的四原則:

      1.使用URI(統(tǒng)一資源標識符)作為任何事物的標識名稱。

      2.使用HTTP?URI,任何人可以定位到具體的對象。

      3.當有人訪問名稱時,提供有用的信息。

      4.盡可能提供相關的URI,以使人們可以發(fā)現(xiàn)更多的信息。[2]

      關聯(lián)數(shù)據(jù)可以說是語義網(wǎng)的一個簡化實現(xiàn)。

      2.2???RDF?三元組舉例說明。RDF(Resource?Description?Framework)是一種信息資源描述框架,使用主體、謂詞、客體三段式描述現(xiàn)實世界實體(thing),回答兩種問題:

      a.這個實體(thing)是什么?(屬性-值)

      b.這個實體(thing)和其他實體(thing)有什么關系?

      這兩種問題的答案都可以用三元組來描述,如:

      姚明????出生于(birth?Place)??????上海

      ①[主體]?②[謂語(屬性)]??③[客體(值)]

      圖1??三段式舉例

      這個三元組就是RDF的表達方式:主體-謂詞-客體結構。

      謂詞、客體均盡可能使用已有的URI,如“姚明”可使用一個已有的唯一的網(wǎng)址

      http://dbpedia.org/page/Yao_Ming,“上海”也使用一個已經(jīng)存在的網(wǎng)址

      http://dbpedia.org/page/Shanghai,這樣就可以生成一個RDF三元組:

      圖2??RDF三元組

      三元組的客體部分也可以變?yōu)橹黧w,能產(chǎn)生新的三段式。比如上海,還可以有自己的屬性和值。謂詞、客體允許其他人使用自己的數(shù)據(jù)。三段式的任何一部分都可以回答檢索問題,三段式的任何一部分都可以集中很多信息。比如來自某小學的姚明的畢業(yè)證書,可以與某網(wǎng)站上姚明的照片自動關聯(lián),只要兩者生成的RDF三元組中“姚明”使用的是同一個URI。信息從而不僅僅是信息,已經(jīng)轉化為相互聯(lián)接的知識。這種聯(lián)接是格式化數(shù)據(jù)的相聯(lián),不是文本的相聯(lián),是機器可理解和可處理的數(shù)據(jù),是對現(xiàn)有數(shù)據(jù)的再利用,可產(chǎn)生新的資源,其又被利用、再利用,可無限擴展下去。

      這種自動關聯(lián),稱之為RDF鏈接。RDF鏈接是關聯(lián)數(shù)據(jù)技術應用最大的價值,它不僅可以對實體的內(nèi)部資源進行鏈接,還能夠?qū)崿F(xiàn)實體與實體之間的鏈接,從而將各自獨立分布的實體織成數(shù)據(jù)網(wǎng)絡,使得用戶能跟隨RDF鏈接從一個實體遍歷到另一個實體,獲取更多更加標準化和規(guī)范化的數(shù)據(jù)資源。如下圖:

      圖3??RDF鏈接

      3??語義數(shù)字檔案館概念及基本框架

      本文提出了語義數(shù)字檔案館概念,主要利用關聯(lián)數(shù)據(jù)發(fā)布數(shù)字檔案館資源、擴展資源發(fā)現(xiàn)服務、實現(xiàn)數(shù)據(jù)整合與語義檢索服務、實現(xiàn)異構關聯(lián)數(shù)據(jù)的開放與復用。

      從目前檔案部門數(shù)據(jù)來看,大部分是格式化的數(shù)據(jù),如excel或dbf,也有非格式化的數(shù)據(jù)如PDF等,均不具備語義表達功能,要對這些分布、異構的數(shù)據(jù)進行共享和操作是很困難的,改變檔案數(shù)據(jù)著錄和發(fā)布標準,按照關聯(lián)數(shù)據(jù)標準對現(xiàn)有檔案數(shù)據(jù)進行改造、發(fā)布,顯得尤為重要。

      本文設計了一個基于關聯(lián)數(shù)據(jù)的語義數(shù)字檔案館基本架構,其功能層有三層:數(shù)據(jù)發(fā)布層,數(shù)據(jù)存取、整合和保存層,數(shù)據(jù)應用層。

      圖4??基于關聯(lián)數(shù)據(jù)的語義數(shù)字檔案館框架

      數(shù)據(jù)發(fā)布層主要由數(shù)據(jù)發(fā)布者構成,是核心部分數(shù)據(jù)網(wǎng)的數(shù)據(jù)提供者。各機構以關聯(lián)數(shù)據(jù)的形式發(fā)布本機構的信息資源。根據(jù)關聯(lián)數(shù)據(jù)的發(fā)布原則,首先確立每一個獨立存在的實體對象(例如單位、人員、事件、文檔),賦予其唯一的URI作為標識,將傳統(tǒng)數(shù)據(jù)轉成RDF三元組數(shù)據(jù)集。數(shù)字檔案館可將元數(shù)據(jù)集、機構、名人、事件等作為規(guī)范文檔發(fā)布為關聯(lián)數(shù)據(jù)。部分允許開放的檔案目錄數(shù)據(jù)也可以發(fā)布為關聯(lián)數(shù)據(jù)。

      數(shù)據(jù)應用層由關聯(lián)數(shù)據(jù)消費者即查詢者構成,它們主要是應用數(shù)據(jù)網(wǎng)中的數(shù)據(jù),來滿足自身的數(shù)據(jù)需求,其消費方式包括瀏覽、發(fā)現(xiàn)、抓取、檢索、混搭、推理、展現(xiàn)。

      數(shù)據(jù)存取、整合和保存層,處于中間一層,由關聯(lián)數(shù)據(jù)的第三方參與者構成。它提供了一系列基礎服務,如本體詞匯的維護、不同本體詞匯間的相互映射、數(shù)據(jù)標識的規(guī)范控制等。這一層其實是關聯(lián)數(shù)據(jù)網(wǎng)的基礎設施,構建了數(shù)據(jù)發(fā)布者和消費者間的橋梁。

      檔案部門可以存在于這三個功能層中,它可以作為數(shù)據(jù)的發(fā)布者而成為發(fā)布層的主要組成部分;它又可以成為關聯(lián)數(shù)據(jù)的消費者。更重要的是,檔案部門以其天然的權威性,可成為數(shù)據(jù)存取、整合和保存層的主力軍。其工作包括:制定域名策略,以保證URIs的一致性、穩(wěn)定性,提高效率和質(zhì)量;創(chuàng)建和維護URIs,保證URIs的持久性;保存元數(shù)據(jù)和屬性值詞匯;長期保存和維護數(shù)據(jù)集;?實現(xiàn)不同本體詞匯之間的相互映射。

      語義數(shù)字檔案館用RDF三元組替換檔案數(shù)據(jù)庫,用統(tǒng)一資源標識符(URIs)標識每一份檔案(無論是電子還是實物檔案)。

      4??檔案數(shù)據(jù)轉換為RDF三元組過程

      傳統(tǒng)上檔案的著錄數(shù)據(jù)是兩維結構,如:

      表1??檔案著錄數(shù)據(jù)舉例

      ID

      題名

      責任者

      主題詞

      年度

      檔案A

      54321

      市檔案局關于檔案宣傳活動的通知

      鄭州市檔案局

      宣傳、通知

      2011

      檔案B

      76543

      市檔案局關于召開2013年度檔案培訓班的通知

      鄭州市檔案局

      培訓、通知

      2013

      采用RDF三段式表示以上著錄數(shù)據(jù),如下圖:

      圖5??三段式表示檔案數(shù)據(jù)

      由上圖,將檔案數(shù)據(jù)根據(jù)其性能分為三類:數(shù)據(jù)集、元數(shù)據(jù)集和取值詞匯。取值詞匯作為客體,有些值是常數(shù),如2013,而有些則是可以識別的實體,如“鄭州市檔案局”。

      例如,“檔案A”相對應的URI可以定為檔案館Z所在網(wǎng)址+館內(nèi)唯一ID號?http://MyArchiveZ.com/54321

      為簡化URI的書寫,定義一個由URI確定的命名空間(Name?Space),maz指代所有檔案館Z發(fā)布的RDF,http://MyArchiveZ.com/54321可表示為?maz:54321。

      屬性盡可能使用已有的URI,如:題名title,來自DC(都柏林核心元數(shù)據(jù)元素集,圖書館使用,已發(fā)布為關聯(lián)數(shù)據(jù)),URI為http://purl.org/dc/terms/title(dct:title)

      生成的RDF三元組如下:

      5??基于關聯(lián)數(shù)據(jù)的語義數(shù)字檔案館應用前景

      “關聯(lián)數(shù)據(jù)”自2006年提出至今,受到各界的廣泛關注,研究的深度和廣度都得到不斷拓展,應用領域也有長足的進步。然而問題和困難還是存在的,關聯(lián)數(shù)據(jù)的發(fā)展還有很長的路要走。但是其資源數(shù)量的龐大性、人機互動的靈活性以及信息發(fā)布的高效性,都決定了它未來發(fā)展的必然性。面對大環(huán)境,檔案部門作為信息的采集者、儲存者和提供者,將關聯(lián)數(shù)據(jù)這一前端技術應用到工作中已是大勢所趨。

      基于關聯(lián)數(shù)據(jù)的語義數(shù)字檔案館,不僅大大提高檔案資源的利用率,而且在更大程度上滿足社會公眾的文化需求,其優(yōu)勢如下:

      5.1??從封閉的數(shù)據(jù)到開放的數(shù)據(jù)。目前檔案數(shù)據(jù)存儲在各自的數(shù)據(jù)庫中,沒有與網(wǎng)絡上其他數(shù)據(jù)資源整合。其實檔案數(shù)據(jù)和網(wǎng)絡上其他類型的資源,可以在日期、機構、人物、全宗、事件等方面實現(xiàn)互連。檔案數(shù)據(jù)覆蓋眾多部門、機構、團體,經(jīng)常需要數(shù)據(jù)交換與轉換,也就是需要數(shù)據(jù)開放。關聯(lián)數(shù)據(jù)技術本身并不要求將數(shù)據(jù)開放,但是該技術隨時可以將數(shù)據(jù)發(fā)布為關聯(lián)的開放的數(shù)據(jù)。不僅可以在本單位內(nèi)使用、外部各種的應用也可以獲取并使用,數(shù)據(jù)成為網(wǎng)上的資源,不僅是人可讀的資源,還可以被電腦所使用,可在更大范圍內(nèi)被任意鏈接和重用,發(fā)揮數(shù)據(jù)的最大價值,消除信息孤島。

      5.2??從固定的數(shù)據(jù)到可混搭的數(shù)據(jù)。關聯(lián)數(shù)據(jù)間可以隨意混搭,甚至可以和其他關聯(lián)數(shù)據(jù)的不同片段進行混搭。通過自下而上發(fā)布數(shù)據(jù)的方法,關聯(lián)數(shù)據(jù)技術為檔案部門提供了改善著錄現(xiàn)狀的機會。過去描述檔案數(shù)據(jù),一條記錄作為一個獨立的整體,不能產(chǎn)生高粒度的信息。有了關聯(lián)數(shù)據(jù)技術,同一資源可以以分散的方式由不同的責任者提供不同的著錄數(shù)據(jù),而這些數(shù)據(jù)可以整合在一起。文件生成部門提供某文件的原始數(shù)據(jù),如題名、責任者等;檔案室添加文件歸檔時的信息,如歸檔時間、保管期限、室編件號等;檔案館添加館藏信息,如檔案館、館編件號等,查檔用戶可添加附加信息,如在維基百科的鏈接等。檔案館人員為所有這些與本文件相關的信息生成頁面和鏈接,作為關聯(lián)數(shù)據(jù)發(fā)布到萬維網(wǎng)上。無數(shù)據(jù)冗余,每個流程只創(chuàng)建自己的部分數(shù)據(jù);無需下載到本地,所有數(shù)據(jù)都“聯(lián)邦”鏈接;責任明確:哪個流程的元數(shù)據(jù)出問題,不會影響其他;無需統(tǒng)一工作平臺:以數(shù)據(jù)為中心,流到哪個平臺就在哪個平臺加工。系統(tǒng)各組成部分松散耦合,互相聯(lián)系卻互不干擾,整個系統(tǒng)成為一個不斷增長的有機體。

      關聯(lián)數(shù)據(jù)技術可以幫助機構提高內(nèi)部數(shù)據(jù)的整合過程,另一優(yōu)勢是數(shù)據(jù)發(fā)布者可以將發(fā)布的數(shù)據(jù)的部分信息開放。即使機構內(nèi)部的數(shù)據(jù)沒有完全開放,關聯(lián)數(shù)據(jù)技術也可以提高機構內(nèi)部數(shù)據(jù)的發(fā)布過程。

      5.3??從低質(zhì)量的數(shù)據(jù)到高質(zhì)量的數(shù)據(jù)。關聯(lián)數(shù)據(jù),能夠有效維護各單位不同類型數(shù)據(jù)的一致與完整性,為查詢者從大量的信息資源中獲取所需要的信息和問題提供解決方案。如,同一責任者“鄭州市人民政府”在不同單位可能簡稱不一,應該統(tǒng)一為同一名稱,但這樣做費時費力。如果將“鄭州市人民政府”賦予唯一的URI,各單位都引用這個URI,就可以保障數(shù)據(jù)的一致性,并減少數(shù)據(jù)冗余。檔案部門的資源可以跨領域得到廣泛的參引?;ヂ?lián)網(wǎng)的域名系統(tǒng)保證了URI的穩(wěn)定性、可信性和可持續(xù)性,這和檔案部門的長期保存信息資源的使命是一致的。

      5.4??擺脫數(shù)據(jù)格式和軟件商的限制。所有的技術都是有壽命的,每一階段代表性技術都不例外。關聯(lián)數(shù)據(jù)描述的數(shù)據(jù)(包含語義),不受限于數(shù)據(jù)格式(語法或者格式),因此,保證了關聯(lián)數(shù)據(jù)不會被格式的變化所淘汰。通過一般開源軟件就可以滿足開發(fā)需要。

      6??關聯(lián)數(shù)據(jù)技術在應用中可能遇到的問題

      6.1??技術難題:要實現(xiàn)基于關聯(lián)數(shù)據(jù)的語義數(shù)字檔案館,需要運用一些語義網(wǎng)的技術,例如SPARQL和OWL等,需要工具和技術支持。

      6.2??各相關系統(tǒng)封閉問題:關聯(lián)數(shù)據(jù)最大的阻礙就是封閉,如果其他數(shù)字檔案館、數(shù)字檔案室、OA系統(tǒng)都不開放,關聯(lián)數(shù)據(jù)也就無計可施。需要鼓勵更多的數(shù)據(jù)提供者參與進來,并且保證用戶能夠規(guī)范使用這些數(shù)據(jù)。

      6.3??關聯(lián)數(shù)據(jù)的監(jiān)管問題:如果某一數(shù)據(jù)源的數(shù)據(jù)被修改或刪除,數(shù)據(jù)源之間的關聯(lián)很可能發(fā)生斷鏈現(xiàn)象,從而使得基于關聯(lián)數(shù)據(jù)的應用程序發(fā)生錯誤。需建立起有效的監(jiān)測和修正機制以維護關聯(lián)數(shù)據(jù)的參照完整性和數(shù)據(jù)更新的同步性。

      盡管基于關聯(lián)數(shù)據(jù)的語義數(shù)字檔案館目前只是一個框架,也有可能遇到各種問題,但關聯(lián)數(shù)據(jù)是在語義網(wǎng)時代,提供對任何網(wǎng)上資源和數(shù)字對象進行著錄和規(guī)范控制的基礎技術。關聯(lián)數(shù)據(jù)技術為檔案行業(yè)帶來了千載難遇的新機遇,若能利用好這個機遇,檔案行業(yè)將成功實現(xiàn)向數(shù)字化、網(wǎng)絡化、開放化的華麗轉身,在網(wǎng)絡時代創(chuàng)造新的輝煌。

      參考文獻:

      [1]涂子沛.大數(shù)據(jù)[M].桂林:廣西師范大學出版社,2013:284.

      [2]劉煒,胡小菁,錢國富,張春景,夏翠娟.RDA與關聯(lián)數(shù)據(jù)[J].中國圖書館學報,2011(197):35~42.

      (作者單位:河南省鄭州市檔案局科技教育處???來稿日期:2015-04-20)

      猜你喜歡
      元數(shù)據(jù)
      遼寧省交通行業(yè)數(shù)據(jù)管控平臺設計與開發(fā)的研究
      計算機時代(2017年2期)2017-03-06 20:28:25
      元數(shù)據(jù)國際交換共享的客家古民居數(shù)字記憶工程建設
      基于來源的組織機構元數(shù)據(jù)構建研究
      檔案管理(2017年1期)2017-01-17 19:09:04
      元數(shù)據(jù)與社會化標簽在微視頻搜索中的應用
      軟件導刊(2016年11期)2016-12-22 21:55:33
      高等院校智慧校園建設規(guī)劃與實現(xiàn)
      歸檔網(wǎng)絡信息價值判斷的元數(shù)據(jù)描述研究綜述
      利用VB讀取中國知網(wǎng)過刊數(shù)據(jù)提取元數(shù)據(jù)的研究
      財會信息資源元數(shù)據(jù)標準的研究
      基于隱語義模型和用戶信任的個性化推薦模型
      職業(yè)教育專業(yè)教學資源庫資源建設研究
      軟件(2015年11期)2016-01-12 07:52:36
      古浪县| 内黄县| 灵台县| 鄂尔多斯市| 辽宁省| 义马市| 黑龙江省| 宿州市| 申扎县| 济宁市| 呼伦贝尔市| 神农架林区| 蕲春县| 高青县| 潜江市| 枣阳市| 巫溪县| 林口县| 叶城县| 凉山| 沙田区| 资兴市| 巴彦淖尔市| 体育| 璧山县| 山丹县| 潮安县| 长沙市| 绥化市| 华容县| 克东县| 和政县| 南充市| 江川县| 双柏县| 平阳县| 浏阳市| 广宁县| 民乐县| 黑水县| 保靖县|