尚渡新 袁潤 夏翠娟 劉桂鋒
(1. 江蘇大學(xué)科技信息研究所,鎮(zhèn)江 212013;2. 江蘇大學(xué)圖書館,鎮(zhèn)江 212013;3. 上海圖書館,上海 200031)
知識庫是運用知識組織理念和信息化技術(shù)等對各類知識進行有效組織、形式化表述和規(guī)范化利用的一整套知識系統(tǒng),能夠以機器可解釋的方式存儲、分析和重用這些知識,并富含知識集間的相互關(guān)聯(lián)[1]。其中知識集是知識庫中一類特定知識的集合,多個知識集共同構(gòu)成知識庫的知識源[2]。知識庫作為學(xué)術(shù)交流的基礎(chǔ)設(shè)施,提供有關(guān)某一專題或事物的知識內(nèi)容,同時隨著研究的深入,知識庫的體量和類型也在不斷豐富,極大方便了研究人員對知識的獲取和利用[3]。進入語義網(wǎng)時代后,傳統(tǒng)知識庫在一定程度上對內(nèi)缺乏語義資源整合、對外缺少知識集關(guān)聯(lián),在面對用戶的知識需求升級時顯得難以為繼[4],使得大量的寶貴知識陷入了“信息孤島”的困境。因此,語義層面的知識組織成為提升知識庫價值的關(guān)鍵。
關(guān)聯(lián)數(shù)據(jù)是一種通過可鏈接的方式來發(fā)布、分享和組織Web中各類資源并利用Web在不同資源之間創(chuàng)建語義關(guān)聯(lián)的數(shù)據(jù)原則,也是語義網(wǎng)研究的主題之一。作為一種語義網(wǎng)的實現(xiàn)方式,關(guān)聯(lián)數(shù)據(jù)所擁有的數(shù)據(jù)源動態(tài)擴展、知識元關(guān)聯(lián)和知識語義化檢索等特征[5],為改變傳統(tǒng)知識庫構(gòu)建過程中面臨的非動態(tài)更新、可視化功能薄弱和語義匱乏等局面提供了新思路。國內(nèi)外相關(guān)學(xué)者利用關(guān)聯(lián)數(shù)據(jù)在知識庫領(lǐng)域開展了諸多研究:康奈爾大學(xué)通過本體模型和關(guān)聯(lián)數(shù)據(jù)技術(shù)構(gòu)建了生命科學(xué)領(lǐng)域的知識庫VIVO,并提供語義檢索和關(guān)聯(lián)擴展功能[6];麻省理工大學(xué)、W3C和惠普實驗室也利用關(guān)聯(lián)數(shù)據(jù)技術(shù)共同承建了名為SIMILE的數(shù)字圖書館項目,有效地實現(xiàn)了知識庫的數(shù)字教育資產(chǎn)、圖像知識集與維基百科之間的語義互操作[7]。
關(guān)聯(lián)數(shù)據(jù)自2008年引入國內(nèi)后雖經(jīng)歷了長期的技術(shù)積累,但在知識庫領(lǐng)域的應(yīng)用集中于圖書館、檔案館和博物館這些圖書情報學(xué)科所扎根的實踐陣地,同時這些應(yīng)用中有一部分僅借助DSpace框架與外部知識集進行關(guān)聯(lián)實現(xiàn)聯(lián)邦檢索[8],并未利用關(guān)聯(lián)數(shù)據(jù)在知識庫的語義層面進行廣泛的知識組織進而服務(wù)于用戶,更多是理論研究、局部研究性的實踐。這就造成關(guān)聯(lián)數(shù)據(jù)的研究成果沒有很好地解決現(xiàn)實中知識庫遇到的知識組織問題,或者說沒有大幅度提升用戶的知識服務(wù)體驗,也就未能形成實踐產(chǎn)生問題、問題催生理論、理論作用實踐的良性循環(huán)。因此,探究關(guān)聯(lián)數(shù)據(jù)的研究應(yīng)如何助力于知識庫的發(fā)展,以應(yīng)對語義網(wǎng)環(huán)境下用戶對知識庫更高的服務(wù)需求,從而提升國內(nèi)知識庫的實用價值和使用率,這便成為一個值得討論的問題。本研究以CSSCI來源期刊中的“圖書館、情報與文獻學(xué)”學(xué)科類別下的21種期刊作為中文文獻源;將Web of Science Core Collection中期刊學(xué)科類別為“Information Science Library Science”的文獻作為外文文獻源,搜集以關(guān)聯(lián)數(shù)據(jù)在知識庫中應(yīng)用為主題的文獻資料。限定時間2012—2021年,共獲取相關(guān)中文文獻75篇,外文文獻87篇。以此為基礎(chǔ)綜述關(guān)聯(lián)數(shù)據(jù)在知識庫建設(shè)中所發(fā)揮的作用,針對研究現(xiàn)狀分析關(guān)聯(lián)數(shù)據(jù)在知識庫中研究的不足,并對今后的相關(guān)研究和應(yīng)用作出建議。
通過閱讀和分析相關(guān)文獻,近十年來關(guān)聯(lián)數(shù)據(jù)在知識庫中的研究整體呈現(xiàn)平穩(wěn)上升的趨勢。國外較早將關(guān)聯(lián)數(shù)據(jù)引入知識庫的建設(shè)中,如Baker[9]在其文章中提出運用RDF(Resource Description Framework)和都柏林核心集來確保知識庫中的數(shù)據(jù)滿足質(zhì)量和一致性的要求,進而重點關(guān)注了關(guān)聯(lián)數(shù)據(jù)技術(shù)在知識庫進行內(nèi)外部數(shù)據(jù)源互操作時,對數(shù)據(jù)的一致性所發(fā)揮的約束作用,并分析了關(guān)聯(lián)數(shù)據(jù)具備將一致性約束建立在創(chuàng)建數(shù)據(jù)的過程中的優(yōu)勢屬性,以及可以滿足將知識庫的內(nèi)部知識與遵循其他標(biāo)準(zhǔn)的知識源進行鏈接或合并的技術(shù)要求,為關(guān)聯(lián)數(shù)據(jù)在知識庫的早期應(yīng)用提供了借鑒。
同時,受到傳統(tǒng)數(shù)字資產(chǎn)管理工具DSpace、EPrints等研究理念的影響[10],國內(nèi)外的早期研究主要憑借關(guān)聯(lián)數(shù)據(jù)的突出優(yōu)勢集中對知識庫內(nèi)部知識集的組織和外部知識集的關(guān)聯(lián)等多源知識的關(guān)聯(lián)化進行研究,如徐華[11]論述了在DSpace基礎(chǔ)上運用關(guān)聯(lián)數(shù)據(jù)技術(shù)實現(xiàn)知識庫間的資源整合的優(yōu)勢,將關(guān)聯(lián)數(shù)據(jù)作為基礎(chǔ)描述框架實現(xiàn)了機構(gòu)知識庫間合作模式的構(gòu)建。
隨著信息需求的提升,有學(xué)者開始聚焦于知識庫中的知識消費,關(guān)聯(lián)數(shù)據(jù)的應(yīng)用也轉(zhuǎn)向了知識庫的可視化服務(wù)和知識庫的語義化操作。如Li等[2]通過知識服務(wù)階段的關(guān)聯(lián)數(shù)據(jù)可視化建立事件關(guān)系網(wǎng)絡(luò),為人文研究中的歷史事件表述提供一個通用的描述規(guī)則,這種可視化的知識服務(wù)方式將有助于歷史學(xué)者研究經(jīng)濟和微觀社會等客觀存在對歷史事件的影響。
此外,為進一步了解關(guān)聯(lián)數(shù)據(jù)在知識庫中的研究熱點,本研究采用詞頻分析、主題詞共現(xiàn)結(jié)合文獻閱讀和案例分析的方法歸納出近年來關(guān)聯(lián)數(shù)據(jù)在知識庫中應(yīng)用的3個主要趨勢:以數(shù)字人文、知識融合為代表的主題詞詞頻的提升,顯示了關(guān)聯(lián)數(shù)據(jù)知識庫建設(shè)中融合多源知識的優(yōu)勢;可視化、知識服務(wù)等主題的重要性愈發(fā)凸顯,反映了關(guān)聯(lián)數(shù)據(jù)可視化在知識庫服務(wù)中的重要作用;文獻計量結(jié)果中語義檢索、語義關(guān)系的研究比重上升也表達(dá)了語義化將成為知識庫在應(yīng)用關(guān)聯(lián)數(shù)據(jù)時不可或缺的一部分。
隨著關(guān)聯(lián)數(shù)據(jù)相關(guān)理論和技術(shù)的成熟,國內(nèi)外諸多研究機構(gòu)利用關(guān)聯(lián)數(shù)據(jù)技術(shù)以知識庫的形式組織并表達(dá)其領(lǐng)域知識。在生物醫(yī)學(xué)領(lǐng)域,上海曙光醫(yī)院聯(lián)合華東理工大學(xué)利用關(guān)聯(lián)數(shù)據(jù)發(fā)布了中文癥狀知識庫,包含癥狀、科室、疾病、藥物和檢驗,以及癥狀與上述相關(guān)實體的關(guān)系[12];斯坦福生物醫(yī)學(xué)信息研究中心(Stanford Center for Biomedical Informatics Research)通過關(guān)聯(lián)數(shù)據(jù)技術(shù)檢索和聚合了多個開放數(shù)據(jù)源、網(wǎng)絡(luò)服務(wù)和生物醫(yī)學(xué)本體中埃博拉病毒的知識,并開發(fā)了以埃博拉病毒為中心的知識庫(Ebola-KB),同時轉(zhuǎn)換為RDF,鏈接到Bio2RDF數(shù)據(jù)集,并通過SPARQL端點提供服務(wù)[13]。在文藝領(lǐng)域,意大利國家研究委員會(Italy National Research Council)信息科學(xué)與技術(shù)研究所(Institute of Information Science and Technologies)采用關(guān)聯(lián)數(shù)據(jù)將文學(xué)與地理相結(jié)合,構(gòu)建了中世紀(jì)和文藝復(fù)興時期人文主義的拉丁地理文學(xué)知識庫[14]。在圖書情報學(xué)領(lǐng)域,周晨[15]收集了各成員館的開放書目數(shù)據(jù),基于關(guān)聯(lián)數(shù)據(jù)構(gòu)建了聯(lián)合目錄知識庫,實現(xiàn)聯(lián)合目錄的開放共享。關(guān)聯(lián)數(shù)據(jù)在不同領(lǐng)域的知識庫中的重點應(yīng)用大致集中在機構(gòu)知識庫、領(lǐng)域知識庫、基礎(chǔ)知識庫和網(wǎng)絡(luò)知識庫,如表1所示。
表1 關(guān)聯(lián)數(shù)據(jù)在重點知識庫中應(yīng)用的類別
縱觀國內(nèi)外已發(fā)布的關(guān)聯(lián)數(shù)據(jù)知識庫,上海圖書館開放數(shù)據(jù)平臺依托上海圖書館豐富的館藏資源,利用關(guān)聯(lián)數(shù)據(jù)技術(shù)持續(xù)整合相關(guān)知識,并不斷以關(guān)聯(lián)數(shù)據(jù)的方式向互聯(lián)網(wǎng)發(fā)布上海圖書館數(shù)字人文項目所涉及的基礎(chǔ)知識庫(人、地、時、事、物)、文獻知識庫(家譜、手稿檔案、古籍等),以促進數(shù)據(jù)的開放獲取、共享和重用。其中上海圖書館開放數(shù)據(jù)平臺上線的人名規(guī)范庫[16]以豐富的功能、便捷的調(diào)用方式、規(guī)范翔實的記錄成為關(guān)聯(lián)數(shù)據(jù)在知識庫中應(yīng)用的典型案例。
上海圖書館根據(jù)人名數(shù)據(jù)的內(nèi)部特征和業(yè)務(wù)需求首先構(gòu)建了人名規(guī)范庫本體(shlnames)用以描述和規(guī)范所創(chuàng)建的人名數(shù)據(jù),作為關(guān)聯(lián)數(shù)據(jù)構(gòu)建人名規(guī)范庫屬性和關(guān)系的基礎(chǔ),如圖1所示,同時復(fù)用了foaf,bibframe等詞表的部分屬性。其次,對已有的人名數(shù)據(jù)進行數(shù)據(jù)清洗,提取實體及其關(guān)系,如《中國近現(xiàn)代人物名號大辭典》《中國近現(xiàn)代名人辭典》《上圖古籍?dāng)?shù)據(jù)庫》《上海年華》《國圖規(guī)范檔》等。而后,根據(jù)“主-謂-賓”的三元組數(shù)據(jù)模型對已有實體進行描述并根據(jù)關(guān)聯(lián)數(shù)據(jù)規(guī)范賦予URI,同時與外部數(shù)據(jù)庫構(gòu)建關(guān)聯(lián),如與上海圖書館館藏唱片知識庫、上海文化總庫等進行關(guān)聯(lián)。最后,將RDF序列化編碼后儲存于Virtuoso數(shù)據(jù)庫中,通過關(guān)聯(lián)數(shù)據(jù)發(fā)布原則并結(jié)合歷史人文大數(shù)據(jù)平臺以可視化的形式展示數(shù)據(jù),利用Web平臺實現(xiàn)知識發(fā)現(xiàn)和利用。
圖1 上海圖書館人名規(guī)范庫本體
從上述文獻計量所呈現(xiàn)的結(jié)果結(jié)合人名規(guī)范中關(guān)聯(lián)數(shù)據(jù)的發(fā)布流程,我們可以看出關(guān)聯(lián)數(shù)據(jù)在知識庫中的實踐及應(yīng)用重點集中在多源知識的關(guān)聯(lián)化、知識服務(wù)的可視化和知識庫中知識的語義化描述,這些主題往往是關(guān)聯(lián)數(shù)據(jù)應(yīng)用于知識庫的主要優(yōu)勢,同樣也是研究重點。
在以往的研究中,知識庫所包含的知識往往是知識密集型資源,如學(xué)術(shù)期刊、圖書和專利文本等。隨著信息技術(shù)的快速發(fā)展與廣泛應(yīng)用,更多的信息生產(chǎn)環(huán)節(jié)得到關(guān)注,知識庫中的知識類型也逐漸多樣化,如產(chǎn)業(yè)信息、文化知識和科研數(shù)據(jù)等都已成為知識庫的收集對象。但這些知識通常囿于系統(tǒng)隔閡而被禁錮于少數(shù)群體或某些區(qū)域,對共享和重用該類型知識造成了壁壘和障礙。關(guān)聯(lián)數(shù)據(jù)的引入可以將多源知識和物質(zhì)載體相關(guān)聯(lián),如后現(xiàn)代主義和梵高的《向日葵》之間的知識融合實踐[17],該方案不僅提高了知識的完整度和系統(tǒng)性,也為異構(gòu)知識集之間的傳遞和利用提供了依附。在關(guān)聯(lián)數(shù)據(jù)理念剛出現(xiàn)時TimBerners-Lee[18]便制定了關(guān)聯(lián)數(shù)據(jù)內(nèi)容描述的4項基本原則:使用URI來標(biāo)識事物;使用HTTPURI可以讓用戶訪問到這些標(biāo)識;當(dāng)有人訪問到標(biāo)識時,提供有用的信息;盡可能提供關(guān)聯(lián)的URI,以使人們可以發(fā)現(xiàn)更多的事物。
同時,我國學(xué)者也在4項基本原則上針對關(guān)聯(lián)數(shù)據(jù)的發(fā)布做了進一步的總結(jié)和規(guī)范[19]:用RDF數(shù)據(jù)模型描述要發(fā)布的數(shù)據(jù)資源,為其生成HTTPURI(通常是一個CoolURI),并生成資源的RDF描述文檔;在數(shù)據(jù)之間建立RDF鏈接。
綜上可以看出,無論是內(nèi)容描述還是資源發(fā)布都有統(tǒng)一的格式要求,這就為多樣化的知識集融合提供了統(tǒng)一的范式。其中RDF是關(guān)鍵,關(guān)聯(lián)數(shù)據(jù)采用RDF描述信息資源,可利用三元組(實體、屬性和屬性值)描述知識資源之間的相互關(guān)系,同時借助于URI對資源的定位,可以實現(xiàn)多源數(shù)據(jù)的互操作,極大地促進了知識間的跨系統(tǒng)融合。
(1)過程蘊含知識。事物發(fā)展過程中的每個環(huán)節(jié)或節(jié)點都會產(chǎn)生大量的信息,同時又會有大量的因素對過程產(chǎn)生影響,這些信息和因素通過關(guān)聯(lián)數(shù)據(jù)的結(jié)合會產(chǎn)生有價值的知識,是知識庫所要收集和組織的對象。以往對過程的研究多集中于生產(chǎn)過程,側(cè)重于實體生產(chǎn)中的價值創(chuàng)造與價值獲取[20],如今國內(nèi)外學(xué)者對諸如創(chuàng)新的過程、知識創(chuàng)造的過程加以關(guān)注。這些過程雖無實體,但卻涉及眾多實體之間信息的傳遞和共享,這些信息的傳遞和共享有利于組織的持續(xù)創(chuàng)新和發(fā)展。例如,Zhang等[21]借助關(guān)聯(lián)數(shù)據(jù)技術(shù),對供應(yīng)鏈中各節(jié)點企業(yè)的知識進行搜索、組織和分析,以實現(xiàn)不同地區(qū)、不同行業(yè)企業(yè)之間的信息共享、流程協(xié)調(diào),并建立了一個完整的知識庫。關(guān)聯(lián)數(shù)據(jù)將知識庫中知識集鏈接的同時也進行了網(wǎng)狀的知識序化,使得各領(lǐng)域間的知識得到了規(guī)范化表達(dá),形成知識網(wǎng)絡(luò)。比如,一個地區(qū)的發(fā)展過程中會產(chǎn)生諸多知識,對某一個地區(qū)構(gòu)建知識庫便可利用關(guān)聯(lián)數(shù)據(jù)對多源知識進行組織。徐晨飛等[22]以《方志物產(chǎn)》云南卷中的知識為組織對象構(gòu)建關(guān)聯(lián)數(shù)據(jù)知識庫,利用關(guān)聯(lián)數(shù)據(jù)框架首先對分散的多類知識元素構(gòu)建本體,使得該領(lǐng)域的知識得到時間序列上的規(guī)范化表達(dá),然后對源數(shù)據(jù)進行實體抽取并轉(zhuǎn)換為RDF格式,并進行實體關(guān)聯(lián)和發(fā)布,實現(xiàn)知識的網(wǎng)狀序化。與此同時,該知識庫在時間線上與上海圖書館的“中國歷史紀(jì)年表”中對應(yīng)的歷史條目實體和屬性相關(guān)聯(lián),不僅豐富時間維度上的知識,也對時間線做了標(biāo)準(zhǔn)化描述;在利用方面與華東師范大學(xué)數(shù)字方志庫相關(guān)聯(lián),可以更好地建立跨地域的知識連接,充實方志機構(gòu)庫。
(2)文化孕育知識。文化資源作為人類社會精神文明成果的外化存在,孕育出了豐富的表現(xiàn)內(nèi)容和載體。通過調(diào)研發(fā)現(xiàn),在初期的知識庫建設(shè)中更多收集的是各種文化載體的數(shù)字化資源[23],其中所蘊含的知識關(guān)聯(lián)并未得到充分的揭示。如今,語義網(wǎng)的發(fā)展為文化的傳承和發(fā)揚提供了新的契機。例如:傳統(tǒng)文化遺產(chǎn)的知識本體可將文化與知識融為一體[24],實現(xiàn)了文化因子的有序化和文化關(guān)聯(lián)的系統(tǒng)化收集;上海圖書館的知識庫借助數(shù)字人文實踐[19],從理論和實踐兩個層面論證圖書館的書目控制、規(guī)范控制、文獻循證方法和關(guān)聯(lián)數(shù)據(jù)、知識圖譜、大數(shù)據(jù)等技術(shù)結(jié)合起來的前景和優(yōu)勢,為知識庫建設(shè)提供了參考??梢钥闯觯瑢⑻摂M的文化元素作為知識庫的知識單元既為人文學(xué)者的研究提供了有力幫助,也為文化服務(wù)發(fā)展提供了強勁推力。如LINKED CANVAS[25]在Synaptica開放注釋語義索引系統(tǒng)(Open Annotation Semantic Indexing System,OASIS)的基礎(chǔ)上,利用關(guān)聯(lián)數(shù)據(jù)平臺和國際圖像互操作框架(International Image Interoperability Framework,IIIF)共同開發(fā)藝術(shù)品知識庫,該知識庫連接全球范圍內(nèi)的學(xué)校、社區(qū)等機構(gòu),使得本地圖像可以突破儲存的限制,獲取到全球范圍內(nèi)與圖像相關(guān)的非物質(zhì)文化遺產(chǎn)數(shù)據(jù)和注釋,實現(xiàn)知識集間的跨平臺融合,幫助人們從視覺、概念和背景上更全面地探索藝術(shù)品。
(3)數(shù)據(jù)積蓄知識。大數(shù)據(jù)技術(shù)從數(shù)據(jù)中挖掘知識,而知識庫則是在數(shù)據(jù)有序化的基礎(chǔ)上疊加現(xiàn)有知識,催生出新的知識。未來科技領(lǐng)域的數(shù)據(jù)治理能夠運用關(guān)聯(lián)數(shù)據(jù)聯(lián)合各類知識庫,對接數(shù)據(jù)和知識的節(jié)點,推進數(shù)據(jù)開放互聯(lián)和知識融通。與此同時,建設(shè)公共性、開放性、持續(xù)性的“數(shù)據(jù)基礎(chǔ)設(shè)施”已經(jīng)提到議事日程[26]。例如,夏翠娟[27]利用文獻調(diào)研、數(shù)據(jù)建模、比較研究、實驗研究等方法,調(diào)研和比較了CBDB項目、復(fù)旦大學(xué)歷史地理研究中心、臺灣地區(qū)“中研院”GIS研究中心等,在熟悉中國歷史地理數(shù)據(jù)庫的建設(shè)及利用情況的基礎(chǔ)上,探索在圖書館的數(shù)字人文項目建設(shè)中引入現(xiàn)代歷史地理學(xué)的研究成果,利用知識組織和規(guī)范控制方法豐富現(xiàn)有知識庫,實現(xiàn)歷史地理數(shù)據(jù)在圖書館知識庫開放應(yīng)用的目標(biāo),拉近歷史地理學(xué)與人文社會科學(xué)研究者之間的距離,達(dá)成數(shù)據(jù)即知識的轉(zhuǎn)化;在聯(lián)機圖書館中心(OCLC)的數(shù)據(jù)科學(xué)項目[28]和LVK(Library Knowledge Vault)項目中,研究人員利用關(guān)聯(lián)數(shù)據(jù)技術(shù)對三元組數(shù)據(jù)進行更細(xì)粒度的加工,使得圖書館知識庫中的數(shù)據(jù)從關(guān)聯(lián)形態(tài)向知識形態(tài)轉(zhuǎn)變,便于知識庫和互聯(lián)網(wǎng)搜索引擎和Web應(yīng)用程序的調(diào)用。
知識庫的可獲得性和易用性是決定信息用戶是否利用該系統(tǒng)的最重要因素,正如著名的穆爾斯定律所言:“一個情報檢索系統(tǒng)如果對用戶來說,取得情報比不取得情報更傷腦筋和麻煩的話,用戶就會傾向于不使用該系統(tǒng)”。而影響知識庫易用性的關(guān)鍵因素是知識的表示方式和知識結(jié)構(gòu),其中后者又是前者實現(xiàn)的前提和基礎(chǔ)。關(guān)聯(lián)數(shù)據(jù)作為一種新興的數(shù)據(jù)表現(xiàn)方式,具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)(RDF)和交換格式(N3、Turtle),同時關(guān)聯(lián)數(shù)據(jù)基于領(lǐng)域本體構(gòu)建知識庫時又賦予了知識規(guī)范化的網(wǎng)狀關(guān)系,可視化方法又能夠勾勒出知識之間的脈絡(luò)和趨勢,有利于實現(xiàn)視覺增強分析。關(guān)聯(lián)數(shù)據(jù)的這些獨特之處為知識集交互和可視化呈現(xiàn)提供了便利和優(yōu)勢,諸多學(xué)者利用該優(yōu)勢對多領(lǐng)域的知識進行了可視化表達(dá),其中尤以劉煒、夏翠娟、陳濤等學(xué)者為代表的上海圖書館研究團體所承建的知識庫最為顯著和系統(tǒng)。該團隊在2015年系統(tǒng)研究了關(guān)聯(lián)數(shù)據(jù)可視化的多種方式,包括利用R語言對SPARQL端點的統(tǒng)計分析可視化、通過JSON數(shù)據(jù)格式的可視化等[29];并于2016年將可視化技術(shù)應(yīng)用于家譜知識庫的開發(fā)實踐,在該項目中不僅實現(xiàn)了本體的Class結(jié)構(gòu)可視化,而且結(jié)合GIS信息利用SIMILE Timemap在地圖上實現(xiàn)知識的檢索和發(fā)現(xiàn)[30];2017年,在復(fù)用本體的基礎(chǔ)上,又將同一地區(qū)不同時代的GIS信息和歷史信息轉(zhuǎn)化為關(guān)聯(lián)數(shù)據(jù)實現(xiàn)知識的關(guān)聯(lián),并對關(guān)聯(lián)數(shù)據(jù)實現(xiàn)了多圖層的疊加展示[27];2019年,在實踐成熟的基礎(chǔ)上,該團隊提出了關(guān)聯(lián)數(shù)據(jù)可視化的系統(tǒng)框架,并發(fā)布基于關(guān)聯(lián)數(shù)據(jù)的中國歷代人物傳記資料庫(CBDBLD),該知識庫以可視化的形式、豐富的圖運算功能展現(xiàn)了歷史人物之間豐富的親屬及社會關(guān)系,形成特有的社會關(guān)系網(wǎng)絡(luò)[31]。知識庫的用戶在利用知識時受到知識本身可獲得性和易用性的影響,知識服務(wù)可視化技術(shù)將知識庫內(nèi)抽象的知識具象為人類易于理解的符號,提高了復(fù)雜知識的可獲得性和易用性,從而極大地促進了知識的消費、傳播和再創(chuàng)造??梢暬R服務(wù)也逐步成為知識庫的研究趨勢,得到眾多學(xué)者的深入研究。
國際語義網(wǎng)會議在2015年增設(shè)了本體和關(guān)聯(lián)數(shù)據(jù)的可視化與交互研討會,目的是討論關(guān)聯(lián)數(shù)據(jù)實踐中如何利用可視化技術(shù)方便快捷地協(xié)助信息需求者獲取知識資源及構(gòu)建知識脈絡(luò)。不僅僅是討論,知識庫中知識集可視化研究在各領(lǐng)域的實踐環(huán)節(jié)已經(jīng)取得豐碩成果。在前沿知識發(fā)現(xiàn)工作中,知識庫的知識集可視化可以及時發(fā)現(xiàn)并準(zhǔn)確識別前沿知識,如Wu等[32]將LDA可視化模型和知識庫結(jié)合起來,使用MeSH(Medical Subject Headings)對生物醫(yī)學(xué)概念進行標(biāo)注,對主題、演化和知識結(jié)構(gòu)進行了可視化,在癌癥治療領(lǐng)域的前沿?zé)狳c問題發(fā)現(xiàn)上發(fā)揮了重要作用。在數(shù)字人文的研究中,知識庫的可視化可以建立事件關(guān)系網(wǎng)絡(luò),為人文研究中的歷史事件表述提供一個通用的描述規(guī)則,這種可視化的知識服務(wù)方式將有助于歷史學(xué)者研究經(jīng)濟和微觀社會等客觀存在對歷史事件的影響[2]。
關(guān)聯(lián)數(shù)據(jù)、知識庫和可視化三者的結(jié)合,顯現(xiàn)出數(shù)據(jù)結(jié)構(gòu)和新興技術(shù)的優(yōu)勢。上述案例也說明關(guān)聯(lián)數(shù)據(jù)不僅可以滿足知識庫的新需求,還能以直觀、便捷的方式挖掘出“冰山”表面下的知識,利于知識的發(fā)現(xiàn)。然而,通過梳理文獻發(fā)現(xiàn),關(guān)聯(lián)數(shù)據(jù)集發(fā)布后僅采用SPARQL作為數(shù)據(jù)利用方式的項目占據(jù)多數(shù),可視化技術(shù)的嵌入和服務(wù)方式仍待推廣。
知識庫中語義化操作的研究經(jīng)歷了從同義詞典映射到RDF擴展和關(guān)聯(lián),雖然研究的目的大同小異,但研究目標(biāo)隨著網(wǎng)絡(luò)環(huán)境的變遷時異事殊。傳統(tǒng)知識庫的語義化研究往往作為優(yōu)化檢索的渠道具有很強的依附性[33],而在當(dāng)前語義網(wǎng)的理念下,知識庫進行語義化研究更多的是一種賦能,是后續(xù)基于語義對知識進行深度利用和探索的前提。語義化在知識庫中的研究也逐漸由幕后走向臺前,變得不可或缺。所謂語義化,是指把知識客體中的知識因子和語義關(guān)系表示出來,以便人們識別和理解知識[34]。關(guān)聯(lián)數(shù)據(jù)作為一種語義網(wǎng)的實現(xiàn)方式,應(yīng)用于知識庫的語義研究中,這不僅迎合了知識庫語義化的發(fā)展趨勢,也進一步推進了信息資源向語義Web的融合。與此相關(guān)的研究也一直在持續(xù)。
國內(nèi),國家圖書館在2009—2021年完成關(guān)聯(lián)數(shù)據(jù)服務(wù)系統(tǒng)的構(gòu)建,成功發(fā)布《中國分類主題詞表》語義版,對元數(shù)據(jù)進行URI標(biāo)識規(guī)范[35],使得知識庫的語義化關(guān)聯(lián)有章可循。在具體實踐中,學(xué)者利用IIIF和關(guān)聯(lián)數(shù)據(jù)技術(shù),通過對印章資源的語義揭示和知識推理構(gòu)建“印章知識中心”,實現(xiàn)異構(gòu)知識庫和不同應(yīng)用程序中知識的語義關(guān)聯(lián)[36]。國外,關(guān)聯(lián)數(shù)據(jù)對知識庫中的文本和多媒體等資源的語義化標(biāo)注更為關(guān)注[37]。Alamri[38]通過構(gòu)造語義關(guān)聯(lián)數(shù)據(jù)本體,實現(xiàn)路徑數(shù)據(jù)庫和疫情知識庫的語義解釋,以應(yīng)對COVID-19引發(fā)的室內(nèi)導(dǎo)航問題并用于減少室內(nèi)空間的人口密度,以確保社交距離和防止疫情傳播;Hu等[39]利用關(guān)聯(lián)數(shù)據(jù)技術(shù)對跨領(lǐng)域的信息進行語義注釋并推斷隱含的知識,在建筑節(jié)能評價的領(lǐng)域可以識別低效的建筑操作,提高能源效率。由此可見,關(guān)聯(lián)數(shù)據(jù)在語義化層面可發(fā)揮重要作用,這一方面源于傳統(tǒng)詞表語義化的陸續(xù)開展,另一方面得益于關(guān)聯(lián)數(shù)據(jù)基于語義本體構(gòu)建的先天條件,兩者共同形成關(guān)聯(lián)數(shù)據(jù)語義化的發(fā)展動力。
語義互操作也是知識庫長久以來的努力方向,而語義互操作的理想前提則是計算機充分掌握和理解知識的語義。因此,揭示知識中的隱含語義便成了構(gòu)建知識庫的重要一環(huán),相關(guān)的研究也是踵事增華,如Boteram[40]在研究更大范圍內(nèi)的知識庫語義互操作時,也強調(diào)了關(guān)聯(lián)數(shù)據(jù)支持語義互操作的特性對于有效管理這些信息系統(tǒng)的重要性。該研究提出“元知識組織系統(tǒng)”具備在概念層次的語義互操作,這就要求將所有相關(guān)的子系統(tǒng)整合為一個全面的國際知識組織系統(tǒng),提供統(tǒng)一的語義互操作范式也將成為跨知識庫間互聯(lián)的前提和基礎(chǔ)。王思麗等[4]以中國科學(xué)院機構(gòu)知識庫平臺(CASIR)為例,研究了利用關(guān)聯(lián)數(shù)據(jù)實現(xiàn)機構(gòu)知識庫意義擴展的關(guān)鍵技術(shù),并實現(xiàn)了針對可擴展實體的語義標(biāo)注。
通過對文獻的調(diào)研梳理和分析,我們能看到近年來關(guān)聯(lián)數(shù)據(jù)作為一種新興技術(shù)受到知識庫領(lǐng)域的廣泛重視。但是,關(guān)聯(lián)數(shù)據(jù)在知識庫中的研究現(xiàn)狀也體現(xiàn)出了一些不足。
首先,目前的研究中存在過度依賴傳統(tǒng)詞表實現(xiàn)知識庫關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)化的現(xiàn)象。傳統(tǒng)知識組織理念在靈活性、知識的交叉與融合、語義描述和體現(xiàn)知識間關(guān)聯(lián)關(guān)系方面存在不足,如等級結(jié)構(gòu)或聚類揭示概念間的關(guān)系往往采取最主要的、單一的特點進行標(biāo)注,同時基于傳統(tǒng)的分類表、主題詞、關(guān)鍵詞等知識組織體系的知識組織顆粒度較粗,導(dǎo)致被掩蓋的知識特點多于被揭示和顯現(xiàn)的知識特點,以這樣的方式無法揭示知識內(nèi)部隱藏的大量有價值的數(shù)據(jù)以及知識元素之間的關(guān)系,只能提供一維、線性的組織模式,語義化程度低,造成諸多潛在特征信息被淹沒在傳統(tǒng)的知識組織理念中,顯然不適應(yīng)于網(wǎng)絡(luò)信息資源組織與構(gòu)建的目標(biāo)需求。
其次,諸多學(xué)者在利用關(guān)聯(lián)數(shù)據(jù)時對知識庫進行“方塊狀”開發(fā),即在數(shù)據(jù)源選取時便建立明晰的知識邊界,并未調(diào)研已有的關(guān)聯(lián)數(shù)據(jù)集是否可復(fù)用,造成重復(fù)勞動。例如,在農(nóng)作物的關(guān)聯(lián)數(shù)據(jù)構(gòu)建中的實體抽取研究中[41-42],兩項研究存在明顯的交集,但是由于較早發(fā)文的作者并未將關(guān)聯(lián)數(shù)據(jù)處于開放獲取狀態(tài),不僅使得后續(xù)研究難以承前啟后,而且數(shù)據(jù)構(gòu)建完成后的封閉存儲也有悖于關(guān)聯(lián)數(shù)據(jù)的初衷。這樣的方式可能不利于關(guān)聯(lián)數(shù)據(jù)的良性發(fā)展,即在空間上造成不同知識關(guān)聯(lián)數(shù)據(jù)集無法進行互操作,難以在更大范圍內(nèi)實現(xiàn)關(guān)聯(lián);在時間上造成先后順序的研究者不具備復(fù)用和引用已有研究成果的研究思路和技術(shù)條件。
最后,從知識融合角度來看,當(dāng)前研究多側(cè)重于組織獨立領(lǐng)域內(nèi)的知識,而忽視了對交叉知識的吸納。知識庫在應(yīng)用關(guān)聯(lián)數(shù)據(jù)時未兼顧知識間的聯(lián)系,使得單獨領(lǐng)域的知識庫變成了“知識孤島”,雖然降低了知識組織難度,卻限制了本領(lǐng)域研究的廣度。
關(guān)聯(lián)數(shù)據(jù)的理念源于計算機的實踐問題,目的是將不同系統(tǒng)的數(shù)據(jù)進行關(guān)聯(lián)。當(dāng)圖情學(xué)科對該項技術(shù)進行研究和利用時,難免會出現(xiàn)由學(xué)科理念不同而造成的實踐偏差。因此,我們在積極吸納其他領(lǐng)域的研究方法時,應(yīng)該主動從圖情領(lǐng)域的實踐問題出發(fā),內(nèi)化該方法后,使之發(fā)展方向迎合圖情領(lǐng)域的發(fā)展趨勢。為此,本文在指出上述不足的基礎(chǔ)上,結(jié)合關(guān)聯(lián)數(shù)據(jù)的特點,對相關(guān)研究作出以下4點思考。
知識庫的構(gòu)建理念和思想經(jīng)歷了從線性思維到樹形思維,再到網(wǎng)狀思維的轉(zhuǎn)變,在發(fā)展過程中深受數(shù)據(jù)庫開發(fā)理論基礎(chǔ)的引導(dǎo)和知識組織研究實踐的影響。以樹形組織方式為代表的傳統(tǒng)數(shù)據(jù)庫開發(fā)方式由于歷史淵源,成就斐然,時至今日,在知識庫領(lǐng)域仍占據(jù)主導(dǎo),甚至對新興知識組織方式影響頗深。
我們在利用關(guān)聯(lián)數(shù)據(jù)構(gòu)建知識庫時,可以保留傳統(tǒng)組織方式的成果,但應(yīng)擺脫刻板的組織方式,也不必進行非黑即白的分類。同時,在進行關(guān)聯(lián)數(shù)據(jù)應(yīng)用時容易忽略知識本身特點和傳統(tǒng)數(shù)據(jù)庫一維線性化的缺點,將更多的實踐研究建立在信息組織的技術(shù)創(chuàng)新之上,這意味著雖然運用了新興的知識組織技術(shù),其應(yīng)用理念卻保留了十足的傳統(tǒng)機制?!靶缕垦b舊酒”的方式雖簡化了關(guān)聯(lián)數(shù)據(jù)的發(fā)布流程,卻很難最大化發(fā)揮關(guān)聯(lián)數(shù)據(jù)的價值。因此,我們在今后的研究中應(yīng)從兩方面入手:首先在關(guān)聯(lián)數(shù)據(jù)建模階段對領(lǐng)域詞表進行充分調(diào)研和專家論證,若復(fù)用已有的領(lǐng)域詞表應(yīng)對領(lǐng)域知識進行概念細(xì)分,在傳統(tǒng)知識組織系統(tǒng)轉(zhuǎn)化為關(guān)聯(lián)數(shù)據(jù)時要進行非唯一性轉(zhuǎn)化,一對一的映射仍具有單一線性的缺點;其次,依據(jù)屬性和特征進行網(wǎng)絡(luò)化組織,根據(jù)用戶的實際知識需求抽取、確定知識元的實體概念類,并進一步確定知識元的URI命名、屬性和知識元間關(guān)系。由于當(dāng)前計算機技術(shù)的迅速發(fā)展,儲存空間和計算能力已不再是瓶頸,良好的組織效果更應(yīng)是我們追求的目標(biāo)。
關(guān)聯(lián)數(shù)據(jù)最重要的價值在于“關(guān)聯(lián)”,它支持結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的任意鏈接,利用關(guān)聯(lián)數(shù)據(jù)技術(shù)實現(xiàn)知識庫之間的關(guān)聯(lián)構(gòu)建成為關(guān)聯(lián)數(shù)據(jù)在知識庫中發(fā)揮優(yōu)勢的重要體現(xiàn)。在研究中,我們應(yīng)當(dāng)將所有的知識域視為未拓之地,每個知識集的關(guān)聯(lián)數(shù)據(jù)化開拓都應(yīng)連點成線,化線為面,目的是利用關(guān)聯(lián)數(shù)據(jù)實現(xiàn)知識庫與外部知識域的知識關(guān)聯(lián)。因此,關(guān)聯(lián)數(shù)據(jù)的研究若要形成良性循環(huán),一方面,業(yè)內(nèi)學(xué)者在關(guān)聯(lián)數(shù)據(jù)創(chuàng)建初期應(yīng)積極考慮數(shù)據(jù)復(fù)用性問題,數(shù)據(jù)完成發(fā)布后對數(shù)據(jù)的開源共享性說明可借鑒國外的標(biāo)注方式(論文指引性標(biāo)注等);另一方面,在進行領(lǐng)域知識的構(gòu)建時應(yīng)充分借鑒和汲取已有的數(shù)據(jù)集,建立完成的數(shù)據(jù)集也應(yīng)遵循相關(guān)共享協(xié)議進行知識共享,如業(yè)界已有的針對開放數(shù)據(jù)的協(xié)議ODC(Open Data Commons)非常適用于關(guān)聯(lián)數(shù)據(jù)中的公開數(shù)據(jù),形成開源的關(guān)聯(lián)數(shù)據(jù)集,推動中文關(guān)聯(lián)開放數(shù)據(jù)云的發(fā)展。
隨著社會經(jīng)濟和科技研究的發(fā)展,領(lǐng)域知識交叉現(xiàn)象肩背相望,屢見不鮮。同時,也帶來了交叉學(xué)科研究的興起,越來越多的研究在朝著交叉融合的方向發(fā)展,學(xué)科或知識邊界正在變得模糊。關(guān)聯(lián)數(shù)據(jù)的“關(guān)聯(lián)”特點在研究交叉知識時具有得天獨厚的優(yōu)勢,其提供的數(shù)據(jù)接口能夠使大量的數(shù)據(jù)或數(shù)據(jù)集之間相互關(guān)聯(lián),創(chuàng)建者可以任意調(diào)用不同知識庫間的知識進行再創(chuàng)造。此舉不僅可以促進交叉知識的共同發(fā)展,也方便對交叉學(xué)科研究進行動態(tài)的追蹤和管理。研究人員在知識構(gòu)建中應(yīng)以本學(xué)科的核心知識為基礎(chǔ),廣泛吸納相關(guān)領(lǐng)域知識,為創(chuàng)造新的學(xué)科生長點提供積極作用。因此,在利用關(guān)聯(lián)數(shù)據(jù)建設(shè)知識庫的過程中,應(yīng)主動吸納具有交叉關(guān)系的知識,促進不同學(xué)科之間知識的交流碰撞、彼此借鑒,進而實現(xiàn)單一學(xué)科知識為其他學(xué)科研究提供研究成果和方法論貢獻的同時又為本學(xué)科的研究開拓新領(lǐng)域、新方向。
關(guān)聯(lián)數(shù)據(jù)利用RDF描述數(shù)據(jù)、URI標(biāo)注數(shù)據(jù)及HTTP傳輸數(shù)據(jù)等信息技術(shù),再結(jié)合知識庫的應(yīng)用場景自然會衍生出諸多技術(shù)問題,但這些問題經(jīng)過個各領(lǐng)域?qū)W者的長期研究和技術(shù)積淀,已有眾多的理想解決方案和規(guī)范發(fā)布,如利用Drupal的關(guān)聯(lián)數(shù)據(jù)發(fā)布、關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)化的W3C規(guī)范、知識的檢索技術(shù)等一系列技術(shù)已相對成熟。隨著這些技術(shù)的發(fā)展,關(guān)聯(lián)數(shù)據(jù)的生長曲線也應(yīng)轉(zhuǎn)向服務(wù)和應(yīng)用,尤其是在知識庫的研究視域下,我們利用關(guān)聯(lián)數(shù)據(jù)進行知識庫建設(shè)是為了服務(wù),過多的關(guān)注技術(shù)問題將會造成“耕了別人家的地,而荒了自家的田”。有學(xué)者也指出:在圖書館和信息學(xué)(LIS)的碩士和博士課程中添加關(guān)聯(lián)數(shù)據(jù)課程是為了未來的信息管理人員可以了解關(guān)聯(lián)數(shù)據(jù)服務(wù)理念,而不是精通關(guān)聯(lián)數(shù)據(jù)技術(shù)[43]。在今后的研究中,領(lǐng)域內(nèi)的學(xué)者應(yīng)嘗試轉(zhuǎn)變研究思路,將“為了發(fā)布關(guān)聯(lián)數(shù)據(jù)而研究關(guān)聯(lián)數(shù)據(jù)”的理念轉(zhuǎn)變到“為了利用關(guān)聯(lián)數(shù)據(jù)服務(wù)而進行關(guān)聯(lián)數(shù)據(jù)研究”。為了應(yīng)對這一問題,相關(guān)學(xué)者在研究中可以積極借助計算機領(lǐng)域的研究結(jié)果,如OWA算子計算法[44]、語義權(quán)值[45]等支持自然語言檢索、語義檢索的關(guān)聯(lián)數(shù)據(jù)應(yīng)用層實現(xiàn)知識真正面向?qū)ο蟮姆?wù)。
關(guān)聯(lián)數(shù)據(jù)如何幫助知識庫提升知識價值和利用率,不僅取決于關(guān)聯(lián)數(shù)據(jù)的發(fā)展方向與知識庫的需求趨勢之間的匹配度,更取決于研究人員和從業(yè)人員能否以關(guān)聯(lián)數(shù)據(jù)為橋梁,不僅實現(xiàn)知識集間的關(guān)聯(lián),更實現(xiàn)理論與實踐間的關(guān)聯(lián),即把“形而上”的技術(shù)探索和學(xué)術(shù)研究轉(zhuǎn)變?yōu)椤靶味隆钡目捎眯詫嵺`,下沉到“尋常百姓家”,寫在“大地上”,同時最大化利用關(guān)聯(lián)數(shù)據(jù)的特性開發(fā)知識庫的應(yīng)用產(chǎn)品。知識庫作為圖情學(xué)界緊貼理論的實踐產(chǎn)品,應(yīng)緊密把握信息用戶的需求方向,以關(guān)聯(lián)數(shù)據(jù)為例,相關(guān)學(xué)者應(yīng)以需求為導(dǎo)向發(fā)展關(guān)聯(lián)數(shù)據(jù)在知識庫中的應(yīng)用,并針對關(guān)聯(lián)數(shù)據(jù)應(yīng)用的規(guī)范化問題,制定統(tǒng)一和科學(xué)的引導(dǎo)性技術(shù)標(biāo)準(zhǔn)、政策,在內(nèi)化關(guān)聯(lián)數(shù)據(jù)理念的基礎(chǔ)上,將研究成果外化于其他領(lǐng)域,以謀逐步增強圖情學(xué)科的學(xué)術(shù)影響力。