田 寧
(天津農(nóng)學(xué)院圖書(shū)館,天津 300384)
在信息“爆炸”的時(shí)代,用戶(hù)想從海量信息里準(zhǔn)確而全面地獲得自己所需要的信息越來(lái)越困難。因此信息服務(wù)機(jī)構(gòu)應(yīng)整合一切信息資源,為用戶(hù)提供更深層次的、一體化的符合用戶(hù)需求的信息資源服務(wù)。從我國(guó)的實(shí)際情況來(lái)看,傳統(tǒng)的以文獻(xiàn)為主的信息資源整合是比較成功的。但是隨著數(shù)字化的發(fā)展和互聯(lián)網(wǎng)的廣泛使用,對(duì)信息資源的整合提出了新的要求,關(guān)聯(lián)數(shù)據(jù)的適時(shí)應(yīng)用為信息資源的深度整合提供了解決方法。
關(guān)聯(lián)數(shù)據(jù)的概念來(lái)自于W3C,Tim Berners-Lee于2006年首次提出關(guān)聯(lián)數(shù)據(jù)的基本思想及4條原則,隨后逐漸發(fā)展,并得到了信息機(jī)構(gòu)、政府部門(mén)、企業(yè)等多方面的重視和關(guān)注,成為推動(dòng)語(yǔ)義網(wǎng)發(fā)展的重要力量[1]。關(guān)聯(lián)數(shù)據(jù)通過(guò)網(wǎng)絡(luò)把以前沒(méi)有關(guān)聯(lián)的相關(guān)數(shù)據(jù)聯(lián)接起來(lái),關(guān)聯(lián)數(shù)據(jù)的最終目標(biāo)是使用關(guān)聯(lián)數(shù)據(jù)就像是用一個(gè)單一的全球數(shù)據(jù)庫(kù)Web。關(guān)聯(lián)數(shù)據(jù)技術(shù)作為一種新的語(yǔ)義發(fā)布工具是目前數(shù)字資源揭示和利用的一項(xiàng)重要技術(shù),其在整合孤立的數(shù)據(jù)、提供開(kāi)放的元數(shù)據(jù)服務(wù)、實(shí)現(xiàn)語(yǔ)義互操作和實(shí)現(xiàn)數(shù)據(jù)的Web服務(wù)等方面具有廣闊的應(yīng)用前景。
關(guān)聯(lián)數(shù)據(jù)是一種在網(wǎng)絡(luò)中發(fā)布、分享、聯(lián)接結(jié)構(gòu)化數(shù)據(jù)的方法,它主要建立在3種技術(shù)的基礎(chǔ)上:用統(tǒng)一資源標(biāo)識(shí)符 (Uniform Resource Identifier,URI) 來(lái)指代任何資源;用RDF三段式來(lái)描述和聯(lián)接任何資源,RDF三段式,即事物——特性——值,其中的任何一部分都可以集中很多信息,都可以回答檢索問(wèn)題[2];用HTTP來(lái)描述資源或者檢索對(duì)資源的描述。
信息機(jī)構(gòu)應(yīng)用關(guān)聯(lián)數(shù)據(jù)主要是利用關(guān)聯(lián)數(shù)據(jù)整合分布式異構(gòu)數(shù)據(jù)源的能力,把信息機(jī)構(gòu)在發(fā)展過(guò)程中積累的大量的異構(gòu)數(shù)據(jù)源整合成采用相同存儲(chǔ)方式的業(yè)務(wù)數(shù)據(jù),以便于用戶(hù)訪(fǎng)問(wèn)。利用關(guān)聯(lián)數(shù)據(jù)擴(kuò)展資源也是圖書(shū)館界應(yīng)用關(guān)聯(lián)數(shù)據(jù)的主要方式之一,如通過(guò)關(guān)聯(lián)數(shù)據(jù)擴(kuò)展其目錄檢索界面、瀏覽更多更新結(jié)果和展示更多館藏信息等;利用關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)融合與語(yǔ)義檢索服務(wù);利用關(guān)聯(lián)數(shù)據(jù)在學(xué)術(shù)研究和學(xué)術(shù)交流中發(fā)揮更大的作用;跨機(jī)構(gòu)的關(guān)聯(lián)數(shù)據(jù)的開(kāi)放與應(yīng)用;關(guān)聯(lián)數(shù)據(jù)有助于實(shí)現(xiàn)一次寫(xiě)入、多次使用的目的。圖書(shū)館為了多種目的需要重復(fù)使用書(shū)目數(shù)據(jù),關(guān)聯(lián)數(shù)據(jù)這時(shí)便發(fā)揮了作用。圖書(shū)館關(guān)聯(lián)數(shù)據(jù)是結(jié)構(gòu)化的,可以提供快速的再利用,有助于在更大范圍內(nèi)提供開(kāi)放擴(kuò)展服務(wù),實(shí)現(xiàn)圖書(shū)館與教學(xué)系統(tǒng)之間的集成。
信息機(jī)構(gòu)都有著豐富的信息資源,但不同的信息機(jī)構(gòu)以及同一信息機(jī)構(gòu)內(nèi)部的各種信息資源采用的標(biāo)準(zhǔn)和遵循的協(xié)議很有可能不太一致,導(dǎo)致全國(guó)各個(gè)信息機(jī)構(gòu)以及各信息機(jī)構(gòu)內(nèi)部的信息資源不能實(shí)現(xiàn)充分的整合和一站式的檢索。對(duì)于信息機(jī)構(gòu)來(lái)說(shuō),不僅浪費(fèi)了勞力來(lái)進(jìn)行重復(fù)建設(shè),而且形成了大量的冗余數(shù)據(jù);同時(shí)對(duì)于用戶(hù)來(lái)說(shuō),既增加了信息查找的難度,也降低了信息資源的利用率。關(guān)聯(lián)數(shù)據(jù)的適時(shí)提出和應(yīng)用為解決這些問(wèn)題提供了新的思路,因此需要對(duì)信息機(jī)構(gòu)進(jìn)行基于關(guān)聯(lián)數(shù)據(jù)的信息資源整合,來(lái)減少冗余數(shù)據(jù)、提高信息資源利用率并創(chuàng)建面向用戶(hù)的友好的統(tǒng)一查詢(xún)視圖,以便用戶(hù)可以方便快捷地獲取信息資源。
信息資源整合是根據(jù)一定的需要,對(duì)各個(gè)相對(duì)獨(dú)立的信息資源系統(tǒng)中的數(shù)據(jù)對(duì)象、功能結(jié)構(gòu)進(jìn)行融合、類(lèi)聚和重組,重新結(jié)合為一個(gè)新的有機(jī)整體,形成一個(gè)效能更好、效率更高的信息資源體系,從而保證信息資源得到更好的利用[3]。筆者所述的信息資源整合是基于新興的關(guān)聯(lián)數(shù)據(jù)技術(shù)的信息資源整合,指的是傳統(tǒng)資源與各類(lèi)數(shù)字資源的整合。將不同類(lèi)型、不同載體的信息資源及其服務(wù)、系統(tǒng)進(jìn)行有機(jī)結(jié)合,將現(xiàn)有的大量異構(gòu)系統(tǒng)及龐大的信息資源重新組織和整合起來(lái),形成一個(gè)統(tǒng)一提供服務(wù)和便于讀者利用的整合環(huán)境,信息資源的整合就是要按照信息資源之間的內(nèi)在知識(shí)關(guān)聯(lián)進(jìn)行優(yōu)化、重組,形成系統(tǒng)化、智能化的資源集合體,提供更加便捷的信息服務(wù)。整合后的信息資源服務(wù)優(yōu)勢(shì)在于它賦予了用戶(hù)強(qiáng)大的信息資源檢索和獲取能力。與傳統(tǒng)信息資源整合不同,此整合包括一切與用戶(hù)需求相關(guān)的信息資源,是理想狀態(tài)的不受資源的載體、形式、類(lèi)型、系統(tǒng)和機(jī)構(gòu)的限制的整合。
基于關(guān)聯(lián)數(shù)據(jù)的信息資源整合分為縱向信息資源整合和橫向信息資源整合,見(jiàn)圖1。
圖1 需要整合的信息資源
縱向整合是整合每個(gè)信息機(jī)構(gòu)內(nèi)部的所有信息資源,即全部館藏資源所包含的信息,包括紙質(zhì)文獻(xiàn)資源(如圖書(shū)、期刊、報(bào)紙等)、數(shù)字文獻(xiàn)資源(電子圖書(shū)、電子期刊、數(shù)據(jù)庫(kù)、各種光盤(pán)等)、網(wǎng)絡(luò)資源、各種信息系統(tǒng)等。根據(jù)劃分的依據(jù)不同這些資源還可以劃分為實(shí)體資源和虛擬資源等。不論按哪種劃分方式這些資源不僅有些部分是重合的,而且涉及的數(shù)據(jù)平臺(tái)和使用方法等還各不相同,所以需要經(jīng)過(guò)搜集整理排序,去冗存精整合成格式統(tǒng)一的信息資源。
橫向整合是將各個(gè)信息機(jī)構(gòu)(例如圖書(shū)館、情報(bào)研究所、檔案館、博物館等)的所有信息資源聯(lián)合起來(lái)進(jìn)行整合。我國(guó)有許多相同(級(jí)別不同)或不同的信息機(jī)構(gòu),每個(gè)信息機(jī)構(gòu)都承擔(dān)著一定的社會(huì)職能,在公共文化服務(wù)體系中有重要的地位,其所擁有的館藏資源有很多相同和不同之處,隨著數(shù)字信息技術(shù)的發(fā)展和網(wǎng)絡(luò)環(huán)境的形成以及人民群眾對(duì)精神文化的要求越來(lái)越高,實(shí)際環(huán)境要求這些信息機(jī)構(gòu)應(yīng)合作起來(lái)為用戶(hù)提供更好的可共享的信息服務(wù)。但是這些信息機(jī)構(gòu)擁有的信息資源格式和技術(shù)各異且壁壘重重,要達(dá)到上述要求就需要通過(guò)關(guān)聯(lián)數(shù)據(jù)將其信息資源完美地整合在一起。
信息資源整合是一個(gè)復(fù)雜的過(guò)程,具體分為以下幾個(gè)步驟,見(jiàn)圖2。
圖2 基于關(guān)聯(lián)數(shù)據(jù)的信息資源整合過(guò)程
第一步就是對(duì)信息機(jī)構(gòu)的全部館藏資源進(jìn)行數(shù)字化整合(許多信息機(jī)構(gòu)已經(jīng)把一部分或者大部分的館藏資源數(shù)據(jù)化了),即將各類(lèi)資料文獻(xiàn)轉(zhuǎn)化為有序的數(shù)字化資源,通過(guò)對(duì)印刷型文獻(xiàn)資料、音視頻資料進(jìn)行數(shù)字化加工,轉(zhuǎn)化為數(shù)字格式的資源,以數(shù)字化方式存儲(chǔ)。這一步是對(duì)所有館藏資料進(jìn)行縱向信息資源整合的過(guò)程。
第二步就是把所有的數(shù)字資源創(chuàng)建成關(guān)聯(lián)數(shù)據(jù)形式。數(shù)字化后的信息資源主要包括元數(shù)據(jù)和對(duì)象數(shù)據(jù)兩種。把這兩種數(shù)據(jù)通過(guò)規(guī)范形式的描述轉(zhuǎn)換成為RDF(資源描述框架)記錄,在這個(gè)描述信息里需要建立這個(gè)內(nèi)容對(duì)象的內(nèi)部結(jié)構(gòu)和內(nèi)容,還需要建立與其他內(nèi)容對(duì)象的關(guān)聯(lián)描述。
第三步是把創(chuàng)建的關(guān)聯(lián)數(shù)據(jù)通過(guò)網(wǎng)絡(luò)發(fā)布出去。關(guān)聯(lián)數(shù)據(jù)完全建立在已有的Web技術(shù)基礎(chǔ)上,把轉(zhuǎn)換的RDF記錄在Web上發(fā)布出去是以4個(gè)基本原則為基礎(chǔ)的,可采用以下兩種方法:支持HTTP的內(nèi)容協(xié)商機(jī)制,能根據(jù)客戶(hù)端信息請(qǐng)求的類(lèi)型決定返回的是HTML的表示形式還是RDF的表示形式;或者支持采用帶“#”號(hào)(hash)的URL方式定位到RDF中具體的數(shù)據(jù)資源[4]。
第四步是構(gòu)建關(guān)聯(lián)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)關(guān)系的構(gòu)建包括內(nèi)部關(guān)聯(lián)關(guān)系的構(gòu)建和外部關(guān)聯(lián)關(guān)系的構(gòu)建。在形成RDF記錄時(shí),這個(gè)記錄里就已經(jīng)建立了與其他內(nèi)容對(duì)象的關(guān)聯(lián)描述,這個(gè)關(guān)聯(lián)描述就是內(nèi)部關(guān)聯(lián)關(guān)系的構(gòu)建。關(guān)聯(lián)數(shù)據(jù)瀏覽器支持用戶(hù)通過(guò)RDF鏈接在數(shù)據(jù)源之間進(jìn)行瀏覽,將獲取的RDF數(shù)據(jù)進(jìn)行影射解析、提取、合并等處理后,形成虛擬的或者是實(shí)際的RDF數(shù)據(jù)庫(kù),可以通過(guò)RDF API或者SPARQL語(yǔ)言訪(fǎng)問(wèn),這個(gè)數(shù)據(jù)庫(kù)則是外部關(guān)聯(lián)關(guān)系的構(gòu)建。
第二三四這3個(gè)步驟是構(gòu)建關(guān)聯(lián)數(shù)據(jù)的過(guò)程,同時(shí)也是進(jìn)行橫向信息資源整合的過(guò)程,這個(gè)過(guò)程理論上是應(yīng)該可以把所有信息機(jī)構(gòu)的信息資源整合在一起的。
第五步構(gòu)建可以瀏覽關(guān)聯(lián)數(shù)據(jù)的統(tǒng)一視圖。關(guān)聯(lián)數(shù)據(jù)是可以提供多個(gè)分布式異構(gòu)數(shù)據(jù)源的整合的關(guān)聯(lián)的訪(fǎng)問(wèn),將來(lái)自不同數(shù)據(jù)源的同一對(duì)象進(jìn)行集成,返回關(guān)于該對(duì)象的所有相關(guān)信息的統(tǒng)一視圖。目前關(guān)聯(lián)數(shù)據(jù)瀏覽器主要有Tabulator、Marble、Disco、LinkSailor等。但是這些瀏覽器在關(guān)聯(lián)數(shù)據(jù)的導(dǎo)航和檢索結(jié)果顯示方面還不太符合用戶(hù)的使用習(xí)慣。考慮到面向用戶(hù)的友好性方面,應(yīng)該按照實(shí)體對(duì)象的類(lèi)型,提供方便直觀(guān)的以實(shí)體為中心的關(guān)聯(lián)數(shù)據(jù)瀏覽器服務(wù),以顯示關(guān)聯(lián)數(shù)據(jù)技術(shù)的優(yōu)勢(shì)。
第六步是維護(hù)關(guān)聯(lián)數(shù)據(jù)的鏈接。隨著關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的不斷擴(kuò)展和關(guān)聯(lián)數(shù)據(jù)的開(kāi)放性特征,關(guān)聯(lián)數(shù)據(jù)源很可能會(huì)有所變動(dòng),這樣數(shù)據(jù)源之間的關(guān)聯(lián)就可能會(huì)產(chǎn)生斷鏈,而基于關(guān)聯(lián)數(shù)據(jù)的應(yīng)用隨之也會(huì)發(fā)生錯(cuò)誤。因此需要定時(shí)掃描和修補(bǔ)關(guān)聯(lián)數(shù)據(jù)的URL鏈接,包括及時(shí)修補(bǔ)斷鏈、刪除已消失的鏈接并建立新的鏈接。
如果所有的信息機(jī)構(gòu)都能把本機(jī)構(gòu)的信息資源發(fā)布成關(guān)聯(lián)數(shù)據(jù)的形式,那么用戶(hù)就可以利用關(guān)聯(lián)數(shù)據(jù)技術(shù)通過(guò)網(wǎng)絡(luò)檢索到所有信息機(jī)構(gòu)的數(shù)據(jù),從而獲得更多更齊全更豐富的信息資源。這不僅提高了信息機(jī)構(gòu)的資源利用率,而且用戶(hù)通過(guò)關(guān)聯(lián)數(shù)據(jù)還可以檢索到非信息機(jī)構(gòu)的信息資源,并可以通過(guò)關(guān)聯(lián)數(shù)據(jù)再鏈接回原信息機(jī)構(gòu),這樣就進(jìn)一步拓寬了用戶(hù)獲取資料的全面性。
[1]徐華.關(guān)聯(lián)數(shù)據(jù)在國(guó)外信息機(jī)構(gòu)中的應(yīng)用及其借鑒意義[J].信息機(jī)構(gòu)學(xué)研究:應(yīng)用版,2011(8):87-89.
[2]美國(guó)肯特州立大學(xué)曾蕾教授為我院帶來(lái)圖書(shū)館學(xué)學(xué)科前沿講座[EB/OL].[2011-06-10].http://simyjs.whu.edu.cn/detail.asp?newsid=3934.
[3] 胡昌平.面向用戶(hù)的信息資源整合與服務(wù)[M].武漢:武漢大學(xué)出版社,2007:27.
[4] 關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)的發(fā)展趨勢(shì)分析[EB/OL].[2012-09-01].http://lunwen.1kejian.com/MBA/104968.html.