吳曉彤 劉玉博
(山東農(nóng)業(yè)大學(xué)圖書館,山東 泰安 271018)
關(guān)聯(lián)數(shù)據(jù)是一種鏈接各類數(shù)據(jù)信息的技術(shù)規(guī)范,可以實現(xiàn)機構(gòu)知識庫內(nèi)部、外部的數(shù)據(jù)集的互連[4]。因此,將關(guān)聯(lián)數(shù)據(jù)作為一種關(guān)鍵技術(shù)應(yīng)用于機構(gòu)知識庫的服務(wù)中,探索基于關(guān)聯(lián)數(shù)據(jù)的高校機構(gòu)知識庫服務(wù)新模式,提高機構(gòu)知識庫的知識發(fā)現(xiàn)和資源共享能力,將是機構(gòu)知識庫未來的發(fā)展趨勢。
針對基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫的構(gòu)建研究,從2019—2021年[5-9],學(xué)者們開始從關(guān)聯(lián)模式、體系架構(gòu)以及服務(wù)模式等方面構(gòu)建基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫。一些學(xué)者結(jié)合本單位的實際,探討了機構(gòu)知識庫中關(guān)聯(lián)數(shù)據(jù)的構(gòu)建模式,或是將關(guān)聯(lián)數(shù)據(jù)與資源描述的標(biāo)準(zhǔn)相結(jié)合提出了一種圖書館機構(gòu)知識庫的構(gòu)建策略。
這些研究為關(guān)聯(lián)數(shù)據(jù)技術(shù)在我國機構(gòu)知識庫中的應(yīng)用提供了有價值的參考,并衍生出一條新的知識發(fā)現(xiàn)服務(wù)模式,對我國機構(gòu)知識庫的建設(shè)具有一定的理論指導(dǎo)意義。然而國內(nèi)基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫研究主要存在兩個特點:(1)由于關(guān)聯(lián)數(shù)據(jù)方式和系統(tǒng)模型的多樣化,多數(shù)研究需要對多個分布式異構(gòu)系統(tǒng)中的不同本體模型進行映射;(2)國內(nèi)研究多數(shù)是在針對自身的情況下采取特定的服務(wù)模式,或是針對某個關(guān)鍵的技術(shù)進行說明,而在構(gòu)建通用的機構(gòu)知識庫服務(wù)模式方面的研究較少。
綜上所述,我國目前尚未形成通用的機構(gòu)知識庫服務(wù)模式及關(guān)聯(lián)數(shù)據(jù)方法,但由于通用模式的開放性和標(biāo)準(zhǔn)化程度更高,是未來機構(gòu)知識庫發(fā)展的主流。因此,筆者旨在探索一種較為通用的基于關(guān)聯(lián)數(shù)據(jù)的高校機構(gòu)知識庫服務(wù)模式和體系架構(gòu),充分利用機構(gòu)知識庫海量的數(shù)字化信息資源及其與整個互聯(lián)網(wǎng)中學(xué)術(shù)資源的多維度關(guān)聯(lián),為我國高校機構(gòu)知識庫的建設(shè)和服務(wù)提供參考。
將關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用在機構(gòu)知識庫中,首先,需要對機構(gòu)知識庫中的數(shù)字化資源進行語義描述。即選擇合適的語義關(guān)聯(lián)模型,根據(jù)機構(gòu)知識庫中資源實體之間的關(guān)聯(lián)和映射關(guān)系,由機構(gòu)知識庫中的資源主體本身擴展到其他任何一個存在該資源主體的數(shù)據(jù)源或?qū)傩灾?。由于本文旨在探索一種通用的基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫服務(wù)模式,因此選擇數(shù)字圖書館領(lǐng)域資源,通常采用RDFS和OWL結(jié)構(gòu)進行機構(gòu)知識庫本體類的實現(xiàn),并使用DC元數(shù)據(jù)對原生數(shù)字資源進行語義信息的描述。
就高校機構(gòu)知識庫而言,其包含的數(shù)字資源主要包括兩部分:本校圖書館涵蓋的數(shù)字資源和高校人員的原生數(shù)字資源。因此,根據(jù)國家圖書館制定的信息資源名稱規(guī)范表,機構(gòu)知識庫的數(shù)字資源可以細化為以下6類:
(1)科技成果(Technological Achievements):本機構(gòu)人員發(fā)表或參與發(fā)表的學(xué)術(shù)期刊論文、會議論文、學(xué)位論文、報紙、專著、專利、軟著、標(biāo)準(zhǔn)、研究報告、預(yù)印本等科技成果;
(2)教學(xué)資源(Teaching resources):用于日常教學(xué)的演示課件、教材、音視頻、網(wǎng)絡(luò)教學(xué)資源等資料;
以天津市和平區(qū)、河西區(qū)、河?xùn)|區(qū)、南開區(qū)、河北區(qū)、紅橋區(qū)6個區(qū)的養(yǎng)老機構(gòu)作為調(diào)研對象,每區(qū)隨機抽取8家養(yǎng)老機構(gòu),共發(fā)放問卷48份,回收有效問卷46份,有效回收率95.8%。
(3)科研項目(Research project):指校級、市級、省級、國家級的橫向或縱向項目,且確保項目至少有兩名本機構(gòu)人員主持或參與;
(4)科 技 獎 勵(Science and Technology Awards):本機構(gòu)作為獲獎單位或獲獎?wù)邽楸緳C構(gòu)人員的市級以上學(xué)術(shù)獎勵;
(5)新品種(New Breed):由本機構(gòu)人員選育的、審(認(rèn))定機構(gòu)通過的作物、植物等品種;
(6)責(zé)任者(Scholar):主要為較為長期的從屬于本單位的專家學(xué)者、科研團隊或者機構(gòu),相對較為穩(wěn)定。
對于這些數(shù)字化資源實體,語義描述需要對資源實體的一些核心概念進行確定,即定義對象的類和屬性,并根據(jù)實體間的關(guān)系對它們進行關(guān)聯(lián),例如科技成果與責(zé)任者之間可以通過作者這一屬性進行一對多、多對一、多對多的關(guān)聯(lián)。根據(jù)這些對象類與屬性間的關(guān)系,通過復(fù)用業(yè)界標(biāo)準(zhǔn)詞匯,進行各資源之間的語義關(guān)聯(lián)(見圖1)。
接下來,筆者對關(guān)聯(lián)圖進行分析解釋。SKOS是一種以RDFS的設(shè)計方式描述知識組織的語言;FOAF是一種描述實體及實體之間關(guān)系的XML/RDF詞匯表,通過FOAF對學(xué)者信息和機構(gòu)信息進行描述,并通過機構(gòu)知識庫屬性ir:相似研究方向(similar research direction)在學(xué)者之間建立關(guān)聯(lián);vCard用于擴展機構(gòu)相關(guān)屬性,通過此復(fù)用詞將學(xué)者和機構(gòu)兩者關(guān)聯(lián)起來;而機構(gòu)知識庫中的科技文獻、教學(xué)資源、科技獎勵、新品種和科研項目分別通過屬性ir:作者(author)、ir:提供者(contributor)、ir:獲獎?wù)撸╝cquire)和復(fù)用詞foaf:項目(presideproject)與學(xué)者信息關(guān)聯(lián);科技文獻和科研項目之間通過ir:成果(outcome)屬性進行關(guān)聯(lián)。
圖1 高校機構(gòu)知識庫資源的語義關(guān)聯(lián)圖
在外部數(shù)字化資源的語義關(guān)聯(lián)方面,對于一些網(wǎng)絡(luò)檢索平臺,例如,谷歌、百度、維基百科等返回的查詢結(jié)果(如XML、JSON格式等),關(guān)聯(lián)數(shù)據(jù)技術(shù)可以對其數(shù)據(jù)集的API進行抓取和擴展,并轉(zhuǎn)化為相對應(yīng)的RDF格式,方便機器進行進一步的結(jié)果處理,在此過程中還能夠通過RDF數(shù)據(jù)集關(guān)聯(lián)外部的相關(guān)數(shù)據(jù)源。
綜上所述,在關(guān)聯(lián)數(shù)據(jù)的環(huán)境下,機構(gòu)知識庫內(nèi)部的數(shù)字化資源語義關(guān)聯(lián)程度能夠更加緊密,同時也能夠?qū)崿F(xiàn)將機構(gòu)知識庫成員的檢索結(jié)果關(guān)聯(lián)到外部數(shù)據(jù)源,從而實現(xiàn)機構(gòu)知識庫內(nèi)部、外部不同數(shù)據(jù)集之間的銜接,形成更為開放的、跨機構(gòu)的、高關(guān)聯(lián)的原生數(shù)字資源網(wǎng)絡(luò)。
基于關(guān)聯(lián)數(shù)據(jù)的高校機構(gòu)知識庫構(gòu)建的主要目的是通過對原生數(shù)字資源的語義化描述和語義關(guān)聯(lián),實現(xiàn)資源與機構(gòu)知識庫內(nèi)、外部相關(guān)數(shù)據(jù)源的關(guān)聯(lián),提高機構(gòu)知識庫的知識發(fā)現(xiàn)和資源共享能力,為用戶提供更為高效便捷的服務(wù)模式。因此,可以從數(shù)據(jù)層、關(guān)聯(lián)層和應(yīng)用層三個層面設(shè)計該模型(見圖2)。
其中,機構(gòu)知識庫各類原生數(shù)字資源需要存儲在數(shù)據(jù)層中,機構(gòu)知識庫需要對這些資源進行類型與格式的歸類,并根據(jù)DC元數(shù)據(jù)規(guī)范,對每條數(shù)據(jù)進行語義描述和存儲。為了保證機構(gòu)知識庫數(shù)字化資源的完整性,收集和存儲數(shù)據(jù)的覆蓋范圍也并不限于本機構(gòu),對于其他科研機構(gòu)、高校等一些合作機構(gòu)的資源,數(shù)據(jù)層也可以共享。
圖2 基于關(guān)聯(lián)數(shù)據(jù)的機構(gòu)知識庫服務(wù)模型
在關(guān)聯(lián)層,機構(gòu)知識庫可以對數(shù)據(jù)層處理后的數(shù)字化資源進行統(tǒng)一的語義描述,應(yīng)用RDF建立起機構(gòu)知識庫內(nèi)部資源間的關(guān)聯(lián)以及內(nèi)部與外部資源間的關(guān)聯(lián),通過各資源之間的鏈接,將獨立的數(shù)據(jù)資源整合、排序,形成一個全面完整的知識發(fā)現(xiàn)網(wǎng)絡(luò),進一步提高機構(gòu)知識庫數(shù)字化資源的開放性,為應(yīng)用層中用戶對原生數(shù)字資源的獲取提供支持。
應(yīng)用層在機構(gòu)知識庫數(shù)據(jù)資源充分關(guān)聯(lián)與整合的前提下,主要為用戶提供語義檢索、數(shù)據(jù)瀏覽、知識服務(wù)和個性化服務(wù)四項內(nèi)容。在這一層級,機構(gòu)知識庫可以根據(jù)用戶的檢索需求,高效準(zhǔn)確地為用戶推送相關(guān)資源,為用戶提供一個原生數(shù)字資源更為豐富的空間,增強用戶資源獲取的體驗感和對機構(gòu)知識庫的認(rèn)同感。
本文提出了一種較為通用的基于關(guān)聯(lián)數(shù)據(jù)的高校機構(gòu)知識庫服務(wù)模式,分析了關(guān)聯(lián)數(shù)據(jù)應(yīng)用的關(guān)鍵技術(shù),包括原生數(shù)字資源的語義描述與關(guān)聯(lián),在此基礎(chǔ)上構(gòu)建了服務(wù)模型,并詳細論述了模型的構(gòu)建方法和具體功能。
基于關(guān)聯(lián)數(shù)據(jù)的高校機構(gòu)知識庫服務(wù)模式可以有效解決“信息孤島”的問題,能夠提高知識庫知識發(fā)現(xiàn)能力,加強機構(gòu)知識庫資源的集成和共享,為我國高校機構(gòu)知識庫的建設(shè)提供參考。