盧玉紅 孫曉鳳
(1.成都中醫(yī)藥大學(xué)圖書館,四川 成都 611137;2.青島遠(yuǎn)洋船員職業(yè)學(xué)院,山東 青島 266071)
作為一種發(fā)布和鏈接數(shù)據(jù)的規(guī)范,關(guān)聯(lián)數(shù)據(jù)能夠幫助現(xiàn)有的文件網(wǎng)絡(luò)進化為富含語義的、計算機能夠理解的數(shù)據(jù)網(wǎng)絡(luò)。因此至2006年被提出以后,它受到了社會各界的廣泛關(guān)注,企業(yè)、政府、各類研究機構(gòu)都紛紛加入到研究行列中來,圖書館也不例外。
關(guān)聯(lián)數(shù)據(jù)是在現(xiàn)有萬維網(wǎng)技術(shù)與架構(gòu)上,實現(xiàn)各類數(shù)據(jù)、信息和知識之間語義關(guān)聯(lián)的一種規(guī)范。它利用統(tǒng)一資源標(biāo)識符(Uniform Resource I-dentifier,以下簡稱URI)命名數(shù)據(jù),采用資源描述框架(Resource Description Framework,以下簡稱RDF)在網(wǎng)絡(luò)上發(fā)布和鏈接數(shù)據(jù),并通過超文本傳輸協(xié)議(Hyper Text Transport Protocol,以下簡稱HTTP)揭示和獲取這些數(shù)據(jù)。目的是通過對萬事萬物及其相互之間關(guān)系進行機器可讀的描述,使現(xiàn)有的文件網(wǎng)絡(luò)進化為一個富含語義的、互聯(lián)互通的數(shù)據(jù)網(wǎng)絡(luò)[1]。
關(guān)聯(lián)數(shù)據(jù)的提出者——蒂姆·伯納斯·李認(rèn)為創(chuàng)建關(guān)聯(lián)數(shù)據(jù)應(yīng)該遵守以下四個原則[2]:①使用URIs作為任何事物的標(biāo)識名稱;②使用HTTP URI,使任何人都可以訪問這些標(biāo)識名稱;③當(dāng)有人訪問某個URI時,提供有用的信息(采用RDF、SPARQL標(biāo)準(zhǔn));④盡可能提供更多鏈接,以指向其它相關(guān)的URI,便于用戶發(fā)現(xiàn)更多的相關(guān)信息。作為建立關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的基礎(chǔ)指導(dǎo)原則,關(guān)聯(lián)數(shù)據(jù)四原則建議盡可能地建立自身數(shù)據(jù)與外部數(shù)據(jù)之間的關(guān)聯(lián),而不具體規(guī)定必須使用某種特殊的、私有的協(xié)議或者應(yīng)用程序接口,這實際上就決定了關(guān)聯(lián)數(shù)據(jù)的通用性和開放性。
(1)擁有良好的描述能力
由于RDF能描述各類復(fù)雜的關(guān)系,因此關(guān)聯(lián)數(shù)據(jù)也具有了描述各類數(shù)據(jù)語義關(guān)系的能力。同時關(guān)聯(lián)數(shù)據(jù)還提倡建立和發(fā)布不同數(shù)據(jù)之間的關(guān)聯(lián),這些關(guān)聯(lián)可以把各自為政的“數(shù)據(jù)孤島”鏈接起來,形成一個全面的知識庫,而一個數(shù)據(jù)與其它數(shù)據(jù)之間的鏈接,又恰恰可以反過來描述這個數(shù)據(jù)本身,就像字典里的詞語一樣,一個詞語代表了什么,往往是通過與其相關(guān)的另外一些詞來說明的。
(2)普遍適用的數(shù)據(jù)發(fā)布方式
關(guān)聯(lián)數(shù)據(jù)的基本原則沒有對描述對象的內(nèi)部組織機制、系統(tǒng)調(diào)用接口等提出具體要求,并獨立于任何具體的工具,只和相關(guān)的Web標(biāo)準(zhǔn)有關(guān),因此人們可以使用多種方式來實現(xiàn),這使得關(guān)聯(lián)數(shù)據(jù)成為一種普遍適用的數(shù)據(jù)關(guān)聯(lián)發(fā)布機制[3]。
(3)實現(xiàn)成本低廉
關(guān)聯(lián)數(shù)據(jù)是建立在目前的Web體系之上的,它采用的技術(shù)是現(xiàn)有的技術(shù),它也不需要推翻目前的一些網(wǎng)絡(luò)基礎(chǔ)和架構(gòu),只是需要在現(xiàn)有的系統(tǒng)之上搭建一個支持?jǐn)?shù)據(jù)發(fā)布的機制即可,因此關(guān)聯(lián)數(shù)據(jù)實現(xiàn)成本低廉。
(4)具有良好的開放性
關(guān)聯(lián)數(shù)據(jù)試圖構(gòu)建一個開放的數(shù)據(jù)環(huán)境,強調(diào)數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián),這種彼此之間的互聯(lián)本身就是一種開放。另外關(guān)聯(lián)數(shù)據(jù)的實現(xiàn)技術(shù)簡單,每個人都可以發(fā)布自己的數(shù)據(jù),并且發(fā)布者不會被強制采用一個集中的數(shù)據(jù)存儲中心,或者一套統(tǒng)一的關(guān)系表達方式,他們可以把數(shù)據(jù)存儲在本地,采用自己認(rèn)為合適的描述詞表來表達數(shù)據(jù)之間的關(guān)系。
多年來,圖書館一直通過代碼化的字段來描述資源的內(nèi)容和外在特征,這樣做大大強化了資源的數(shù)據(jù)結(jié)構(gòu)描述,有利于資源在圖書館之間進行交換與共享。但是這種線性的,缺乏語義聯(lián)系的組織方式不能很好地區(qū)分信息對象的實體層次和相互之間的關(guān)系,無法很好地對信息對象的各種表現(xiàn)形式進行集中,也不能很好地揭示信息對象本身的衍變關(guān)系。這樣的狀況不僅容易讓圖書館重復(fù)進行信息對象描述,造成工作效率低下,還會致使圖書館的資源服務(wù)效果不理想,影響用戶對信息的識別和選擇[4]。另一方面,目前圖書館的各類資源數(shù)據(jù)還處在一個比較封閉的環(huán)境中,雖然近年來圖書館也開始利用各類技術(shù)(如API、聯(lián)邦檢索等)來實現(xiàn)內(nèi)外部數(shù)據(jù)的融合,但是由于技術(shù)本身的復(fù)雜和標(biāo)準(zhǔn)的差異,大范圍的數(shù)據(jù)融合還是比較難以實現(xiàn),這也極大地影響了圖書館資源服務(wù)的開展。而關(guān)聯(lián)數(shù)據(jù)可以采用規(guī)范的組織模式來對數(shù)據(jù)之間或者各個數(shù)據(jù)屬性之間的關(guān)系進行序化,充分揭示它們之間的內(nèi)在語義關(guān)聯(lián),提高圖書館資源服務(wù)的效率和準(zhǔn)確率。與此同時,關(guān)聯(lián)數(shù)據(jù)可以將圖書館的資源與外部的相關(guān)數(shù)據(jù)鏈接起來,實現(xiàn)內(nèi)外部數(shù)據(jù)的互聯(lián),這樣不僅可以幫助圖書館利用外部的數(shù)據(jù),擴大資源范圍,還可以讓外部的用戶(人或者機器)順著這些鏈接來到圖書館,進而增加圖書館服務(wù)的受眾面。
大量的數(shù)據(jù)被發(fā)布為關(guān)聯(lián)數(shù)據(jù)以后,圖書館可以利用這些富含語義的數(shù)據(jù)構(gòu)建豐富的應(yīng)用,或者改善現(xiàn)有的應(yīng)用,以提升自身的信息服務(wù)能力。具體而言,關(guān)聯(lián)數(shù)據(jù)在圖書館中可以應(yīng)用在以下幾個方面:
(1)資源發(fā)現(xiàn)服務(wù)
為了擴大圖書館資源的檢索面和提高檢索效率,資源發(fā)現(xiàn)服務(wù)應(yīng)運而生,為圖書館書目目錄增加了額外的豐富信息,例如圖書封面、外部評級、評論等,并為圖書館的眾多資源提供了單一的檢索入口。但是,這些數(shù)據(jù)只是簡單地被導(dǎo)入到目錄中,或是鏈接到具體的記錄上,鏈接的建立是處在目錄層次上,實際能提供給用戶的詳細(xì)信息是很有限的[5]。實施資源發(fā)現(xiàn)服務(wù)的目的就是為了擴大檢索面,為用戶提供更多、更全的信息,而關(guān)聯(lián)數(shù)據(jù)則允許圖書館關(guān)聯(lián)到更廣泛的信息資源,用戶檢索某一資源時,可以很自然地根據(jù)資源鏈接到作者信息,再根據(jù)作者信息找到其所著的其它研究成果,根據(jù)這些研究成果又可以找到一些相似作者或相似研究等等,這無形中就擴大了用戶發(fā)現(xiàn)所需資源的路徑。目前,已經(jīng)出現(xiàn)了的一些關(guān)聯(lián)數(shù)據(jù)的倉儲和搜索引擎可以幫助圖書館來擴展資源發(fā)現(xiàn)的途徑。
(2)資源推薦服務(wù)
圖書館除了擁有大量的文獻資源外,還保存有大量的用戶借閱信息,而用戶的借閱信息可以真實地反映出用戶的興趣。圖書館可以對這些信息進行數(shù)據(jù)挖掘,分析用戶的借閱規(guī)律,再根據(jù)這些規(guī)律向用戶實施個性化的主動信息推送服務(wù)[6]。但是圖書館的用戶信息、借閱信息和圖書館的資源信息是存儲在不同的系統(tǒng)中,要實現(xiàn)數(shù)據(jù)的融合需要跨越系統(tǒng)間隔障礙。借助于關(guān)聯(lián)數(shù)據(jù),可以在這些不同的系統(tǒng)上層搭建關(guān)聯(lián)數(shù)據(jù)層,將來自不同系統(tǒng)的數(shù)據(jù)進行關(guān)聯(lián),再依據(jù)這些數(shù)據(jù)之間的關(guān)聯(lián)找出用戶可能感興趣的資源,最后主動推送給用戶。例如根據(jù)用戶的借閱信息,可以在圖書館資源庫中找到其它相關(guān)信息,把這些相關(guān)信息推送給用戶的同時,還可以依據(jù)借閱信息之間的相關(guān)性分析出相關(guān)讀者群,再依據(jù)他們的借閱信息進行資源相互推薦。
(3)數(shù)據(jù)融合
隨著數(shù)字化資源的不斷增加,現(xiàn)在的圖書館已經(jīng)出現(xiàn)了由信息資源擁有者轉(zhuǎn)變?yōu)樾畔①Y源使用者的趨勢[7],為了能應(yīng)用外界豐富的資源,圖書館開始對數(shù)據(jù)融合高度重視。發(fā)現(xiàn)圖書館內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)之間的關(guān)系,建立兩者之間的關(guān)聯(lián),不僅可以擴展數(shù)據(jù)搜索與獲取的范圍,還可以擴大用戶鏈接回圖書館的機率。由英國聯(lián)合信息系統(tǒng)委員會(Joint Information Systems Committee,以下簡稱JISC)支持的LOCAH(Linked Open Copac and Archives Hub)項目致力于利用關(guān)聯(lián)數(shù)據(jù)技術(shù)把Copac(一個由英國國家圖書館、多個大學(xué)圖書館和專業(yè)圖書館合作構(gòu)建的聯(lián)合目錄)中的書目數(shù)據(jù)和檔案中心的檔案數(shù)據(jù)融合起來發(fā)布為可用的關(guān)聯(lián)開放數(shù)據(jù),并與其它數(shù)據(jù)集建立關(guān)聯(lián),提供可視化的瀏覽與檢索方式,以便研究者們能發(fā)現(xiàn)影響他們研究結(jié)果的資源,同時也讓隱藏起來的資源能暴露出來以供需要的人使用。目前這個項目發(fā)布的數(shù)據(jù)已經(jīng)和DBPedia、BBC、LCSH、OCLC的名稱規(guī)范數(shù)據(jù)集建立了關(guān)聯(lián)[8]。
(4)增值服務(wù)
單純地把圖書館的數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布出來是遠(yuǎn)遠(yuǎn)不夠的,用戶需要的往往不是數(shù)據(jù),而是利用數(shù)據(jù)生成的增值服務(wù),圖書館應(yīng)該利用自身的數(shù)據(jù)優(yōu)勢,將可用的數(shù)據(jù)利用起來,發(fā)揮數(shù)據(jù)應(yīng)有的價值。例如圖書館可以利用自身數(shù)據(jù)優(yōu)勢來提供抽詞服務(wù)[9]。
目前,圖書館在這方面的應(yīng)用還是一個空白,但是在圖書館以外,已經(jīng)有很好的關(guān)聯(lián)數(shù)據(jù)服務(wù)模式值得圖書館學(xué)習(xí),湯姆森路透公司的Open-Calais就是一個很好的學(xué)習(xí)案例。OpenCalais是湯姆森路透公司W(wǎng)eb服務(wù)融入到Drupal內(nèi)容管理平臺中的產(chǎn)物,它可以利用自然語言處理、機器學(xué)習(xí)等技術(shù)來分析用戶上傳的內(nèi)容,發(fā)現(xiàn)其中的各種實體,并將這些實體提取出來并以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布,以便搜索引擎發(fā)現(xiàn)和索引[10]。
(5)語義標(biāo)簽
標(biāo)簽是用戶參與資源建設(shè)的一個重要工具,它允許用戶采用任意詞語對信息資源進行標(biāo)注,便于資源的組織與管理。但由于語義模糊、用戶非專業(yè)性、自由詞分類復(fù)雜等因素,利用標(biāo)簽來進行圖書館信息組織和檢索的效率低下,而將關(guān)聯(lián)數(shù)據(jù)與標(biāo)簽技術(shù)相結(jié)合而產(chǎn)生的語義標(biāo)簽則可以為此提供一個有效的解決途徑。語義標(biāo)簽使用數(shù)據(jù)網(wǎng)絡(luò)中已經(jīng)存在的實體構(gòu)成用戶標(biāo)簽的通用受控詞表,每個標(biāo)簽都有著各自的關(guān)聯(lián)關(guān)系。圖書館又恰恰擁有大量由專業(yè)人員制作并維護的受控詞表,并且有些已經(jīng)發(fā)布成為了關(guān)聯(lián)數(shù)據(jù),它們可以成為語義標(biāo)簽通用受控詞表的主力軍[11]。
Faviki就是一款語義標(biāo)簽工具,它以URI的形式表示相關(guān)概念、概念屬性,并在標(biāo)簽之間建立起了語義鏈接,用戶可以根據(jù)某一個標(biāo)簽就發(fā)現(xiàn)豐富的相關(guān)資源,目前Faviki的語義標(biāo)簽主要來源于 DBpedia[12]。
關(guān)聯(lián)數(shù)據(jù)是一個新興的事物,圖書館應(yīng)該積極地嘗試引進此類新的技術(shù)或者概念到自己服務(wù)中來,以便應(yīng)對來自外界知識服務(wù)機構(gòu)的競爭沖擊,當(dāng)然,關(guān)聯(lián)數(shù)據(jù)在圖書館服務(wù)中的具體應(yīng)用不限于上面提到的幾種方式,隨著關(guān)聯(lián)數(shù)據(jù)種類和數(shù)量的增多,相應(yīng)的應(yīng)用會逐漸豐富起來。
[1]劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書館學(xué)報,2011(2):5-12.
[2]Berners-Lee T.Linked Data- Design Issues[EB/OL].[2014-05-12].http://www.w3.org/DesignIssues/LinkedData.html.
[3]沈志宏,等.語義網(wǎng)環(huán)境下數(shù)據(jù)溯源表達模型研究綜述[J].現(xiàn)代圖書情報技術(shù),2011(4):1-8.
[4]白海燕,等.基于本體和關(guān)聯(lián)數(shù)據(jù)的書目組織語義化研究[J].現(xiàn)代圖書情報技術(shù),2010(9):18-27.
[5]黃永文.關(guān)聯(lián)數(shù)據(jù)驅(qū)動的Web應(yīng)用研究[J].圖書館雜志,2010,29(7):55-59.
[6]雷蕾.基于關(guān)聯(lián)規(guī)則的個性化圖書推薦研究[J].情報探索,2011(1):49-50.
[7]程煥文.知識應(yīng)發(fā)現(xiàn)而美麗——圖書館發(fā)現(xiàn)系統(tǒng)創(chuàng)新研討會暨中山大學(xué)發(fā)現(xiàn)系統(tǒng)開通儀式上的講話[EB/OL].(2013-03-29).[2014-04-02].http://blog.sina.com.cn/s/blog_4978019f0102e2if.html.
[8]Ruddock B.Linked Data and the LOCAH project[J].Business Information Review,2011,28(2):105-112.
[9]林海青,等.圖書館關(guān)聯(lián)數(shù)據(jù):機會與挑戰(zhàn)[J].中國圖書館學(xué)報,2012(1):55-65.
[10]OpenCalais[EB/OL].[2014-02-14].http://drupal.org/project/opencalais/.
[11]李亞婷,等.Web環(huán)境下關(guān)聯(lián)數(shù)據(jù)的應(yīng)用[J].情報理論與實踐,2010,33(11):122-125.
[12]bblfish.Faviki:social bookmarking for 2010[EB/OL].[2014-01-12].https://blogs.oracle.com/bblfish/entry/faviki_social_bookmarking_for_2010.