劉雪梅
(蘭州大學(xué)圖書館,甘肅 蘭州 730000)
?
基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識庫服務(wù)模式構(gòu)建與實(shí)現(xiàn)?
劉雪梅
(蘭州大學(xué)圖書館,甘肅 蘭州 730000)
[摘要]資源建設(shè)是機(jī)構(gòu)知識庫可持續(xù)發(fā)展的瓶頸,機(jī)構(gòu)知識庫價值的實(shí)現(xiàn)很大程度上得益于豐富的資源存儲。將關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用于機(jī)構(gòu)知識庫,構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識庫服務(wù)模式,采用D2R工具并以蘭州大學(xué)機(jī)構(gòu)知識庫條目數(shù)據(jù)為例對該模式進(jìn)行了研究。研究表明,利用關(guān)聯(lián)數(shù)據(jù)可以擴(kuò)展機(jī)構(gòu)知識庫的資源發(fā)現(xiàn)途徑,提升其服務(wù)能力。
[關(guān)鍵詞]機(jī)構(gòu)知識庫關(guān)聯(lián)數(shù)據(jù)資源發(fā)現(xiàn)
機(jī)構(gòu)知識庫在開放獲取運(yùn)動的背景下應(yīng)運(yùn)而生,它是大學(xué)和科研機(jī)構(gòu)收集、保存和傳播數(shù)字知識資產(chǎn)的重要媒介。近幾年來,機(jī)構(gòu)知識庫發(fā)展迅速,目前,在OpenDOAR上注冊的機(jī)構(gòu)知識庫已達(dá)2989個。筆者在“機(jī)構(gòu)知識庫質(zhì)量評價研究”[1]中通過調(diào)查訪問及文獻(xiàn)查閱,發(fā)現(xiàn)資源建設(shè)是影響國內(nèi)目前機(jī)構(gòu)知識庫發(fā)展最為核心的因素,機(jī)構(gòu)知識庫內(nèi)容單一、存儲量少的現(xiàn)象已成為機(jī)構(gòu)知識庫可持續(xù)發(fā)展的瓶頸。如何豐富機(jī)構(gòu)知識庫的內(nèi)容,加強(qiáng)機(jī)構(gòu)庫的資源發(fā)現(xiàn)能力,提升用戶對機(jī)構(gòu)庫的認(rèn)知度和滿意度,從而有利于機(jī)構(gòu)知識庫的推廣應(yīng)用成為目前亟待解決的問題。
關(guān)聯(lián)數(shù)據(jù)[2]由“互聯(lián)網(wǎng)之父”TimBerners-Lee于2006年首次提出,它是指在語義網(wǎng)上發(fā)布、共享、鏈接各類數(shù)據(jù)、信息和知識的一種方式。其采用RDF三元組模型存儲數(shù)據(jù),用URI地址鏈接到其他資源實(shí)現(xiàn)資源間的語義跳轉(zhuǎn),是未來語義網(wǎng)的關(guān)鍵技術(shù)之一。2007年,W3C發(fā)起了開放關(guān)聯(lián)數(shù)據(jù)運(yùn)動,網(wǎng)絡(luò)上以W3C推薦的關(guān)聯(lián)數(shù)據(jù)集的數(shù)量和數(shù)據(jù)集之間的關(guān)聯(lián)都在快速增加。圖書館在這場運(yùn)動中扮演了關(guān)聯(lián)數(shù)據(jù)集的提供者和消費(fèi)者。因此,2008年瑞典國家圖書館首次以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布了LIBRIS國家書目,并與DBPedia進(jìn)行了關(guān)聯(lián),此后,關(guān)聯(lián)數(shù)據(jù)在圖書館行業(yè)的應(yīng)用迅速發(fā)展。筆者在上述研究的基礎(chǔ)上,將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于機(jī)構(gòu)知識庫,構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識庫服務(wù)模式,并采用D2R工具和技術(shù)進(jìn)行實(shí)現(xiàn),從而提升機(jī)構(gòu)知識庫的資源發(fā)現(xiàn)能力。
關(guān)聯(lián)數(shù)據(jù)采用RDF三元組作為數(shù)據(jù)模型,用URI地址標(biāo)識數(shù)據(jù),并通過HTTP協(xié)議在互聯(lián)網(wǎng)上進(jìn)行發(fā)布。將機(jī)構(gòu)知識庫的條目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),可以實(shí)現(xiàn)“內(nèi)外”兩層的關(guān)聯(lián)。即首先揭示了機(jī)構(gòu)知識庫條目數(shù)據(jù)集內(nèi)部之間的語義關(guān)聯(lián)關(guān)系,進(jìn)而通過與外部關(guān)聯(lián)數(shù)據(jù)集比如Web數(shù)字資源、商業(yè)數(shù)據(jù)庫資源等其他數(shù)據(jù)資源進(jìn)行關(guān)聯(lián),拓展了機(jī)構(gòu)庫的資源發(fā)現(xiàn)途徑,豐富了機(jī)構(gòu)庫的存儲內(nèi)容。筆者構(gòu)建的基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識庫服務(wù)模式如圖1所示。
圖1 基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識庫服務(wù)模式
本模式的優(yōu)越性在于利用URI標(biāo)識元數(shù)據(jù)的實(shí)體對象,引入了一個機(jī)器可以理解和處理的技術(shù)框架。本模式以機(jī)構(gòu)知識庫為主體對象,通過實(shí)現(xiàn)“內(nèi)外”兩層數(shù)據(jù)集的關(guān)聯(lián),從而提供基礎(chǔ)服務(wù)。例如通過Web瀏覽器實(shí)現(xiàn)HTML網(wǎng)頁瀏覽與導(dǎo)航,也可以利用關(guān)聯(lián)數(shù)據(jù)瀏覽器,如Tabulator、Marble等,通過RDF鏈接在數(shù)據(jù)源之間進(jìn)行瀏覽;除此之外,還可以通過SPARQL查詢實(shí)現(xiàn)語義檢索等?;谠撃J?,筆者將機(jī)構(gòu)知識庫條目數(shù)據(jù)的描述、組織、發(fā)布劃分為數(shù)據(jù)層、關(guān)聯(lián)層兩個層次。
2.1數(shù)據(jù)層
數(shù)據(jù)層是指機(jī)構(gòu)知識庫中存儲的條目數(shù)據(jù),每個條目數(shù)據(jù)都用DC元數(shù)據(jù)規(guī)范進(jìn)行描述,其中包括題名、作者、期刊、基金等。元數(shù)據(jù)主要是為人而設(shè)計(jì)的,缺乏明確的語義化定義,機(jī)器無法直接理解。
2.2關(guān)聯(lián)層
鑒于機(jī)構(gòu)庫元數(shù)據(jù)的局限性,筆者構(gòu)建了數(shù)據(jù)關(guān)聯(lián)層,將機(jī)構(gòu)庫中的條目數(shù)據(jù)關(guān)聯(lián)化,實(shí)現(xiàn)數(shù)據(jù)之間的語義化跳轉(zhuǎn),以便計(jì)算機(jī)進(jìn)行理解和處理。筆者抽取出元數(shù)據(jù)中的概念和屬性,采用本體描述語言,構(gòu)建元數(shù)據(jù)本體[4],基于該本體,將機(jī)構(gòu)知識庫中的元數(shù)據(jù)轉(zhuǎn)換為RDF三元組格式的語義元數(shù)據(jù),并采用D2R工具根據(jù)關(guān)聯(lián)數(shù)據(jù)原則[5]進(jìn)行發(fā)布,如圖2所示。機(jī)構(gòu)知識庫條目數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)化后,不僅可以實(shí)現(xiàn)機(jī)構(gòu)知識庫內(nèi)部條目數(shù)據(jù)之間的關(guān)聯(lián),而且可以實(shí)現(xiàn)與外部關(guān)聯(lián)數(shù)據(jù)集的關(guān)聯(lián),為用戶提供更豐富的檢索結(jié)果。
3.1抽取實(shí)體關(guān)系與關(guān)系數(shù)據(jù)庫的建立
本實(shí)驗(yàn)以蘭州大學(xué)機(jī)構(gòu)知識庫管理學(xué)院的期刊論文為例,主要抽取了科研人員(Person)、基金項(xiàng)目(foundation)、研究部門(organization)、期刊論文(Paper)、期刊(Journal)這5種核心實(shí)體類,實(shí)體關(guān)系如圖3所示。
圖3 IR中的實(shí)體類及關(guān)系
啟動postgresql,建立lzuir數(shù)據(jù)庫。在lzuir數(shù)據(jù)庫中分別建立這5個實(shí)體類對應(yīng)的數(shù)據(jù)表,實(shí)體的屬性對應(yīng)為數(shù)據(jù)表中的各列,實(shí)體間的關(guān)系對應(yīng)于表間的關(guān)系,并為各個表設(shè)置相應(yīng)的主鍵和外鍵。不同表之間的關(guān)系對應(yīng)如下:
①科研人員和研究機(jī)構(gòu)的關(guān)系。一個科研人員必定屬于某個機(jī)構(gòu),相應(yīng)地,某個機(jī)構(gòu)下面包括N個科研人員。
②科研人員和基金項(xiàng)目的關(guān)系。一個科研人員可以主持多個基金項(xiàng)目,而一個基金項(xiàng)目必定由一個科研人員主持。
③期刊論文和科研人員的關(guān)系。一篇期刊論文可以由多個作者合作完成,相應(yīng)地,一個科研人員可以是多篇期刊論文的作者。
④期刊論文和研究機(jī)構(gòu)的關(guān)系。一篇期刊論文屬于某個研究機(jī)構(gòu),而一個研究機(jī)構(gòu)下面有多篇期刊論文。
⑤期刊論文和期刊的關(guān)系。一篇期刊論文必定對應(yīng)一個期刊,相應(yīng)地,某個期刊下面必定包括多篇期刊論文。
⑥期刊論文和基金項(xiàng)目的關(guān)系。一篇期刊論文屬于某個基金項(xiàng)目的科研成果,相應(yīng)地,一個基金項(xiàng)目可以產(chǎn)出多篇期刊論文作為科研成果。
3.2利用RDF進(jìn)行語義標(biāo)注和關(guān)聯(lián)
語義標(biāo)注[6]是使用計(jì)算機(jī)可理解的屬性來描述資源的相關(guān)陳述。類、屬性和實(shí)體標(biāo)注都是通過創(chuàng)建一些陳述來實(shí)現(xiàn)的。在OWL本體標(biāo)注語言中,已經(jīng)預(yù)定義了很多基本屬性,筆者使用RDF+OWL語言進(jìn)行標(biāo)注。筆者定義的實(shí)體關(guān)系中會復(fù)用到一些關(guān)聯(lián)詞表,分別是FOAF,DC,VCARD等,而外部數(shù)據(jù)源是DBpedia。
3.3基于D2R的數(shù)據(jù)語義映射和轉(zhuǎn)換
關(guān)聯(lián)數(shù)據(jù)的發(fā)布方式主要有3種,根據(jù)數(shù)據(jù)量的規(guī)模和更新頻率對應(yīng)不同的發(fā)布方式。第一種方式針對數(shù)據(jù)量較小的情況,將其生成靜態(tài)的RDF文件進(jìn)行發(fā)布;第二種方式針對數(shù)據(jù)量較大的情況,將其存儲到RDF存儲器中,并采用Pubby[8]服務(wù)器前端進(jìn)行操作;第三種方式針對數(shù)據(jù)的更新頻率比較大的情況,在請求數(shù)據(jù)的過程中,將其映射為虛擬的RDF格式,這種方式用到的工具主要有D2R、Triplify[9]等。本文的機(jī)構(gòu)知識庫因?yàn)閿?shù)據(jù)請求操作比較頻繁,因此采用第三種方式進(jìn)行發(fā)布,使用的工具是D2R。D2R的核心是D2RQ Engine,它的功能是實(shí)現(xiàn)RDB2RDF,主要采用D2RQMapping文件將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)映射為虛擬的RDF格式進(jìn)行發(fā)布。筆者在java開發(fā)環(huán)境中,對D2RQMapping進(jìn)行編程,主要步驟如下:
(1)使用D2RQ工具生成映射文件,D2R的映射語言D2RQMapping是基于RDF和OWL進(jìn)行描述的,自身生成的映射無法滿足需求,因此筆者根據(jù)實(shí)際需要對蘭州大學(xué)機(jī)構(gòu)知識庫抽取的核心實(shí)體類進(jìn)行RDF語義標(biāo)注,以期刊論文為例,將實(shí)體關(guān)系進(jìn)行RDF關(guān)聯(lián)轉(zhuǎn)換,部分代表性的代碼如下:
(2)將蘭州大學(xué)機(jī)構(gòu)知識庫關(guān)聯(lián)到外部數(shù)據(jù)源,仍以期刊論文為例,部分代表性的代碼如下:
3.4關(guān)聯(lián)數(shù)據(jù)的發(fā)布與訪問
在D2R的DOS路徑下,執(zhí)行D2R-Server.bat腳本,運(yùn)行生成映射文件lzuir.n3,啟動關(guān)聯(lián)數(shù)據(jù)發(fā)布服務(wù)。在瀏覽器中輸入訪問地址http://localhost:2020,顯示出D2R的運(yùn)行入口界面(如圖4),圖中可看到已將機(jī)構(gòu)知識庫條目數(shù)據(jù)發(fā)布為含有語義的關(guān)聯(lián)數(shù)據(jù)源,提供了HTML瀏覽、RDF瀏覽和SPARQL端點(diǎn)查詢3類服務(wù)入口。
圖4 D2R的服務(wù)首頁
從圖中可以看到,5個數(shù)據(jù)表分別映射為不同的實(shí)體類。以蘭州大學(xué)機(jī)構(gòu)知識庫中的一篇期刊論文為例(如圖5所示),可以看到paper數(shù)據(jù)表中的各個列被映射為資源的屬性特征,點(diǎn)擊圖中的相關(guān)鏈接都可以得到對應(yīng)元數(shù)據(jù)的詳細(xì)信息。例如點(diǎn)擊圖5的鏈接http://localhost:2020/resource/person/1,就可以得到該論文的作者信息,如圖6所示。從圖中也可以看出,這些元數(shù)據(jù)信息,有的來自于機(jī)構(gòu)知識庫本身,有的來自外部數(shù)據(jù)源,卻相互關(guān)聯(lián)在一起,構(gòu)成了一個輕量的關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)。
圖5 語義化的論文元數(shù)據(jù)
圖6 語義化的作者元數(shù)據(jù)
筆者將關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用于機(jī)構(gòu)知識庫,構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識庫服務(wù)模式,并以蘭州大學(xué)機(jī)構(gòu)知識庫的條目數(shù)據(jù)為例,使用D2R工具將條目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),對該模式進(jìn)行了實(shí)現(xiàn)。通過實(shí)證研究表明,該模式的實(shí)現(xiàn)有助于從根本上擴(kuò)展機(jī)構(gòu)知識庫的資源發(fā)現(xiàn)途徑,提升機(jī)構(gòu)知識庫的服務(wù)能力。
參考文獻(xiàn):
[1]劉雪梅,刀克群.基于模糊綜合評價法的機(jī)構(gòu)知識庫評價模型[J].情報探索,2015(5):22-24.
[2]歐石燕.面向關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字圖書館資源描述與組織框架設(shè)計(jì)與實(shí)現(xiàn)[J].中國圖書館學(xué)報,2012(2):58-71.
[3]賀文君.SPARQL聯(lián)合查詢及其應(yīng)用[D].大連:大連海事大學(xué),2014(6).
[4]劉煒,李大玲,夏翠娟.元數(shù)據(jù)與知識本體[J].圖書館雜志,2004(6):50-54.
[5]金燕,江閃閃.基于四原則的關(guān)聯(lián)數(shù)據(jù)發(fā)布方法研究[J].圖書館理論與實(shí)踐,2013(5):77-80.
[6] HebelerJ,etal.SemanticWebProgramming[M].Wiley,2009.
[7]沈志宏,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布流程與關(guān)鍵問題研究——以科技文獻(xiàn)、科學(xué)數(shù)據(jù)發(fā)布為例[J].中國圖書館學(xué)報,2013 (2):53-62.
[8] CyganiakR,BizerC.Pubby:Alinkeddatafrontendfor SPARQLendpoints[EB/OL].[2012-05-10].http://wifo5-03. informatik.uni-mannheim.de/pubby/.
[9]AuerS,DietzoldS,LehmannJ.Triplify-light-weightlinked datapublicationfromrelationaldatabases[C].Proceedingsof the18thInternationalConferenceonWorldWideWeb.New York:ACM,2009:621-630.
[10]張靜,馬春娥.如何利用D2R發(fā)布LinkedData[EB/OL]. [2011-04-20].http://www.ibm.com/developerworks/cn/web/ 1003_zhangjing_d2r/.
劉雪梅女,1987年生。碩士,館員。研究方向:數(shù)字圖書館。
[分類號]G250.7
*本文系蘭州大學(xué)圖書館2015年科研項(xiàng)目(編號:LZUL[201502])研究成果之一。
收稿日期:(2016-01-19;責(zé)編:楊新寬。)