王 飛,徐 芳(蘇州大學(xué) .圖書(shū)館,b.社會(huì)學(xué)院)
關(guān)聯(lián)數(shù)據(jù)(Linked Data)是由Web的發(fā)明人Tim Berners-Lee提出的一種數(shù)據(jù)規(guī)范,用來(lái)在萬(wàn)維網(wǎng)上發(fā)布和連接各類(lèi)數(shù)據(jù)、信息和知識(shí),使人們能借助互聯(lián)網(wǎng)發(fā)現(xiàn)更多相互關(guān)聯(lián)的信息[1]。由于關(guān)聯(lián)數(shù)據(jù)是一種較為容易掌握的技術(shù)規(guī)范,隨著關(guān)聯(lián)數(shù)據(jù)發(fā)布工具的日益成熟,瑞典、美國(guó)、英國(guó)、法國(guó)、德國(guó)等國(guó)家圖書(shū)館開(kāi)始創(chuàng)建和傳播自己圖書(shū)館書(shū)目記錄、主題詞表(LCSH)的關(guān)聯(lián)數(shù)據(jù)[2-3]。2015年,國(guó)務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》明確提出要大力推動(dòng)政府?dāng)?shù)據(jù)共享,穩(wěn)步進(jìn)行公共數(shù)據(jù)資源開(kāi)放[4]。截至2021年5月,關(guān)聯(lián)開(kāi)放數(shù)據(jù)(LinkedOpenData,LOD)云圖中收集的全球地理、政府、媒體及用戶(hù)等機(jī)構(gòu)和個(gè)人發(fā)布的開(kāi)放關(guān)聯(lián)數(shù)據(jù)集已經(jīng)達(dá)到1,301個(gè),鏈接 16,283 條[5]。
國(guó)內(nèi)對(duì)于關(guān)聯(lián)數(shù)據(jù)的研究始于2006年,2011年之前的研究成果以關(guān)聯(lián)數(shù)據(jù)概念介紹和文獻(xiàn)綜述為主,少有對(duì)關(guān)聯(lián)數(shù)據(jù)實(shí)踐應(yīng)用的研究。此后,關(guān)聯(lián)數(shù)據(jù)吸引了更多學(xué)者的關(guān)注,相關(guān)研究成果的數(shù)量和質(zhì)量都有了明顯增長(zhǎng),已有文獻(xiàn)對(duì)2016年之前傳統(tǒng)受控詞表的語(yǔ)義化描述、關(guān)聯(lián)數(shù)據(jù)成果發(fā)布、計(jì)算機(jī)與圖書(shū)情報(bào)領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的研究現(xiàn)狀進(jìn)行了文獻(xiàn)計(jì)量分析[6-7]。隨著我國(guó)將構(gòu)建全國(guó)信息資源共享體系上升為國(guó)家戰(zhàn)略[4],作為數(shù)據(jù)共享開(kāi)放的重要基礎(chǔ),關(guān)聯(lián)數(shù)據(jù)研究的重要性進(jìn)一步提升。2017年至今,CNKI(中國(guó)知網(wǎng))中收錄的相關(guān)新增文獻(xiàn)超過(guò)383篇,約占所有相關(guān)文獻(xiàn)總數(shù)的一半。有鑒于此,本研究旨在通過(guò)對(duì)我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究現(xiàn)狀進(jìn)行全面的梳理與分析,挖掘該領(lǐng)域的核心主題和前沿?zé)狳c(diǎn),以期為后續(xù)研究提供參考和借鑒。
本文選擇CNKI為文獻(xiàn)數(shù)據(jù)來(lái)源,以 “主題” 為檢索選項(xiàng), “關(guān)聯(lián)數(shù)據(jù)” 為檢索詞,限定學(xué)科為 “圖書(shū)情報(bào)與數(shù)字圖書(shū)館” 與 “檔案及博物館” ,檢索時(shí)限為2006—2020年,共檢索到中文文獻(xiàn)874篇,去除序言、報(bào)紙文章等非研究型文獻(xiàn)及外文文獻(xiàn)后,將剩余的867篇文獻(xiàn)作為本文分析的對(duì)象。
本研究一方面利用SATI文獻(xiàn)題名信息統(tǒng)計(jì)分析工具[8]對(duì)研究機(jī)構(gòu)、學(xué)者、期刊等主體關(guān)系進(jìn)行計(jì)量分析,以了解其知識(shí)關(guān)系模式;另一方面綜合利用詞頻分析、共詞分析以及聚類(lèi)分析對(duì)文獻(xiàn)的關(guān)鍵詞進(jìn)行研究和可視化展示,以厘清該領(lǐng)域的核心主題和發(fā)展趨勢(shì)。最后,筆者選擇重點(diǎn)文獻(xiàn)對(duì)該領(lǐng)域的研究?jī)?nèi)容進(jìn)行述評(píng),揭示該領(lǐng)域研究的核心內(nèi)容和熱點(diǎn)前沿。
筆者對(duì)我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的文獻(xiàn)發(fā)表數(shù)量按年份進(jìn)行了統(tǒng)計(jì)分析,2006—2020年我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的發(fā)文量和增長(zhǎng)率見(jiàn)表1。
表1 2006—2020年我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的發(fā)文量和增長(zhǎng)率
從表1可以看出,2010年之前相關(guān)研究的年發(fā)文量均為個(gè)位數(shù),研究的開(kāi)展尚處于萌芽階段。從2011年起,該領(lǐng)域的研究熱度逐年提升,2012年發(fā)文量迎來(lái)爆發(fā)性增長(zhǎng),增長(zhǎng)率達(dá)到了200%,并且這種增長(zhǎng)趨勢(shì)一直持續(xù)到2015年,發(fā)文量達(dá)到125篇。此后兩年發(fā)文量趨于平穩(wěn),均在120篇上下。這一時(shí)間線(xiàn)與我國(guó)一系列推動(dòng)數(shù)據(jù)資源開(kāi)放共享文件的發(fā)布時(shí)間點(diǎn)基本重合,反映了我國(guó)圖情檔領(lǐng)域?qū)W者對(duì)國(guó)家政策的敏感性,以及研究開(kāi)展的果斷與快速。2018年,發(fā)文量出現(xiàn)較明顯回落,但此后兩年又基本維持在同一水平,關(guān)聯(lián)數(shù)據(jù)的研究進(jìn)入第二個(gè)平穩(wěn)期。
科學(xué)文獻(xiàn)與研究機(jī)構(gòu)之間的數(shù)量關(guān)系和分布情況反映了研究主體的文獻(xiàn)產(chǎn)出能力。表2為筆者利用SATI和EXCEL統(tǒng)計(jì)出的發(fā)文數(shù)量大于或等于10篇的研究機(jī)構(gòu)分布情況。為了更客觀(guān)地了解機(jī)構(gòu)分布情況,筆者對(duì)機(jī)構(gòu)更名,學(xué)院或圖書(shū)館下屬的系、研究所(中心)和部門(mén)的數(shù)據(jù)做了合并處理。
根據(jù)表2數(shù)據(jù),發(fā)文數(shù)量超過(guò)10篇的研究機(jī)構(gòu)共有18個(gè),發(fā)文量之和約占總體1,034個(gè)機(jī)構(gòu)全部發(fā)文量的40%,表明我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究機(jī)構(gòu)分布比較分散。進(jìn)一步統(tǒng)計(jì)發(fā)現(xiàn),這18個(gè)核心機(jī)構(gòu)由高校院系、公共圖書(shū)館和中國(guó)科學(xué)院研究所組成,其中高校院系有13家,占據(jù)了絕對(duì)主力地位,這與高校學(xué)術(shù)氛圍濃厚、科研隊(duì)伍強(qiáng)大密不可分。筆者對(duì)18個(gè)機(jī)構(gòu)的發(fā)文量按年份統(tǒng)計(jì)發(fā)現(xiàn),上海圖書(shū)館開(kāi)展關(guān)聯(lián)數(shù)據(jù)研究的時(shí)間最早(2009年),且延續(xù)性最強(qiáng),他們的研究隊(duì)伍遍布圖書(shū)館的所有部門(mén)。中國(guó)科學(xué)技術(shù)信息研究所和中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館也較早開(kāi)展了相關(guān)研究(2010年)。兩者不同的是:前者將研究一直延續(xù)了下來(lái),而后者在2013之后暫停了相關(guān)研究。總體而言,高校開(kāi)展關(guān)聯(lián)數(shù)據(jù)研究的時(shí)間較晚,2014年之前13所高校的發(fā)文量之和與另外5家機(jī)構(gòu)相比還有不小差距,而近7年的發(fā)文量統(tǒng)計(jì)情況則展現(xiàn)了高校在研究持續(xù)性和爆發(fā)性上的優(yōu)勢(shì)。
表2 總發(fā)文數(shù)量≥10篇的研究機(jī)構(gòu)分布
SATI統(tǒng)計(jì)顯示,本研究搜集的867篇文獻(xiàn)共有1,652位作者,其中夏翠娟發(fā)文量最多(20篇)。根據(jù)普萊斯定律,本項(xiàng)研究中核心作者的最Nmax為最高產(chǎn)作者的發(fā)文量[9]),計(jì)算得出M≈3.35,即核心作者的最低發(fā)文量為4篇。符合這一要求的作者共有63位,他們的總發(fā)文量為388篇,約占全部論文的45%,基本符合普萊斯 “核心作者集群發(fā)文量約占總發(fā)文量的一半” 的理論,由此說(shuō)明我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究核心作者集群已經(jīng)基本形成。對(duì)核心作者發(fā)文的總被引量進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),劉煒撰寫(xiě)的16篇文獻(xiàn)總被引835次,夏翠娟撰寫(xiě)的20篇文獻(xiàn)總被引690次,歐石燕撰寫(xiě)的13篇文獻(xiàn)總被引356次,陳濤撰寫(xiě)的12篇文獻(xiàn)總被引216次,以他們?yōu)榇淼暮诵淖髡咴谠撗芯款I(lǐng)域具有很大的影響力。
為進(jìn)一步分析學(xué)者間的合作關(guān)系,筆者采用知識(shí)圖譜對(duì)63位核心作者之間的合作網(wǎng)絡(luò)進(jìn)行描繪(見(jiàn)圖1)。為了更清楚地顯示主要合作者間的關(guān)系,筆者在數(shù)據(jù)處理中進(jìn)行了去除噪點(diǎn)處理。
圖1 我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究核心作者合作網(wǎng)絡(luò)
從圖1中可以看出,核心作者之間的合作度較弱,63位作者僅形成了12個(gè)合作集群,且只有3個(gè)集群的合作者超過(guò)了5人。其中,夏翠娟、劉煒、陳濤等組成的集群規(guī)模最大,發(fā)文量最多,他們來(lái)自上海圖書(shū)館的不同部門(mén),屬于內(nèi)部合作,具有很強(qiáng)的專(zhuān)業(yè)能力和文獻(xiàn)產(chǎn)出能力。規(guī)模第二的集群由中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心的李春旺、中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所的黃永文等組成,調(diào)研發(fā)現(xiàn)他們是以師生關(guān)系為基礎(chǔ)構(gòu)建的合作網(wǎng)絡(luò)。同樣地,規(guī)模第三的集群也是基于師生和同事關(guān)系形成的山西大學(xué)、中國(guó)人民大學(xué)以及中國(guó)科學(xué)院之間的合作網(wǎng)絡(luò)。總之,雖然我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究已經(jīng)形成了具有一定影響力的核心作者集群,但學(xué)者之間的合作交流還不夠密切,大部分都是師生或同一機(jī)構(gòu)內(nèi)部的合作,高校內(nèi)部各院系之間的合作以及高校與公共圖書(shū)館之間的合作都不常見(jiàn)。
一般來(lái)說(shuō),核心期刊刊載的論文質(zhì)量較高,論文的研究主題具有一定的學(xué)術(shù)創(chuàng)新力,因此對(duì)刊載論文的期刊進(jìn)行統(tǒng)計(jì)分析不僅可以在宏觀(guān)上判斷關(guān)聯(lián)數(shù)據(jù)研究主題的創(chuàng)新力,還有助于挖掘該領(lǐng)域的高影響力期刊。筆者利用UCINET進(jìn)行統(tǒng)計(jì)分析,構(gòu)建期刊載文量分布圖,并將載文量低于10篇的期刊歸于其他類(lèi)(見(jiàn)圖2)。
圖2 期刊載文量分布圖
從圖2可以看出,在載文量大于10篇的22種期刊中,核心期刊有15種,占比68%;CSSCI來(lái)源期刊1種,CSSCI擴(kuò)展版來(lái)源期刊2種,一般期刊僅有4種。可見(jiàn),我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的學(xué)術(shù)成果大部分都刊載在核心期刊上,論文整體質(zhì)量較高,論文的研究主題具有較強(qiáng)的學(xué)術(shù)創(chuàng)新性。根據(jù)布拉德福定律,筆者將各種期刊的載文量降序排列,并將論文數(shù)量劃分為數(shù)量大致相等的三個(gè)區(qū)域,得到三個(gè)區(qū)域的期刊數(shù)為5∶17∶100,近似等于1∶3.4∶4.472,其中第二區(qū)在嚴(yán)格數(shù)值(4.49)的基礎(chǔ)上下浮動(dòng)了約24%,可以認(rèn)為此種情況符合布拉德福定律[10]。據(jù)此,我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的 “核心區(qū)” 期刊為《圖書(shū)情報(bào)工作》《圖書(shū)館學(xué)研究》《數(shù)字圖書(shū)館論壇》《圖書(shū)館理論與實(shí)踐》《圖書(shū)館雜志》和《情報(bào)理論與實(shí)踐》(兩者載文量相同,排序不分先后)。
關(guān)鍵詞是文章核心內(nèi)容的高度凝練,體現(xiàn)了作者的學(xué)術(shù)思想和觀(guān)點(diǎn),詞頻分析法是利用關(guān)鍵詞在某一研究領(lǐng)域文獻(xiàn)中出現(xiàn)的頻次高低來(lái)確定該領(lǐng)域研究熱點(diǎn)和發(fā)展動(dòng)向的文獻(xiàn)計(jì)量方法[11]。筆者利用SATI對(duì)本研究所選文獻(xiàn)的關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,共得到1,536個(gè)關(guān)鍵詞,由于詞頻最高的 “關(guān)聯(lián)數(shù)據(jù)” 與數(shù)據(jù)采集所用的主題檢索詞一致,且詞頻與其他關(guān)鍵詞相差太大,因此在下面的分析中將 “關(guān)聯(lián)數(shù)據(jù)” 一詞去除。其中,關(guān)鍵詞詞頻大于10的關(guān)鍵詞有43個(gè),詞頻之和為955次,占總詞頻3,169次的30%,根據(jù) “二八定律”[11],上述43個(gè)關(guān)鍵詞為高頻關(guān)鍵詞,從中可以分析出該領(lǐng)域的研究特點(diǎn)。圖3為這43個(gè)高頻關(guān)鍵詞云圖,圖中的字體越大表示該關(guān)鍵詞的詞頻越高。
圖3 前43個(gè)高頻關(guān)鍵詞云圖
從圖3可以看出,國(guó)內(nèi)學(xué)者圍繞關(guān)聯(lián)數(shù)據(jù)在圖情檔領(lǐng)域應(yīng)用的研究主要集中在書(shū)目數(shù)據(jù)、書(shū)目框架發(fā)布、數(shù)字資源、資源整合、數(shù)據(jù)模型構(gòu)建、知識(shí)組織、知識(shí)服務(wù)、知識(shí)發(fā)現(xiàn)等領(lǐng)域,反映出圖情檔機(jī)構(gòu)和學(xué)者緊跟時(shí)代發(fā)展,注重利用新興技術(shù)為用戶(hù)提供更好的服務(wù),提升用戶(hù)體驗(yàn)。同時(shí),國(guó)內(nèi)學(xué)者對(duì)關(guān)聯(lián)數(shù)據(jù)相關(guān)的關(guān)鍵技術(shù)也進(jìn)行了深入研究,產(chǎn)生了本體、元數(shù)據(jù)、RDF、RDA、D2R等研究主題??茖W(xué)數(shù)據(jù)、機(jī)構(gòu)知識(shí)庫(kù)、科技文獻(xiàn)等高頻關(guān)鍵詞則顯示了關(guān)聯(lián)數(shù)據(jù)在促進(jìn)科技資源開(kāi)放共享、提升知識(shí)資產(chǎn)管理效能方面應(yīng)用的潛力。
筆者利用UCINET對(duì)高頻關(guān)鍵詞進(jìn)行聚類(lèi)分析,分析得到的8個(gè)聚類(lèi)可以看作8個(gè)研究領(lǐng)域,包括:圖書(shū)館數(shù)據(jù)模型構(gòu)建、書(shū)目數(shù)據(jù)語(yǔ)義化編制、科學(xué)數(shù)據(jù)和科技文獻(xiàn)開(kāi)放共享、知識(shí)組織系統(tǒng)SKOS化和關(guān)聯(lián)化、元數(shù)據(jù)與本體、高校圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)建設(shè)、數(shù)字圖書(shū)館資源整合和機(jī)構(gòu)知識(shí)庫(kù)建設(shè)、博物館資源整合和數(shù)據(jù)關(guān)聯(lián)。這8個(gè)研究領(lǐng)域在一定程度上集中體現(xiàn)出圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的研究狀況。為了更直觀(guān)展示高頻關(guān)鍵詞之間的共現(xiàn)關(guān)系,筆者利用知識(shí)圖譜進(jìn)行可視化描述(見(jiàn)圖4)。
圖4 高頻關(guān)鍵詞共現(xiàn)關(guān)系
從圖4可以看出,關(guān)鍵詞層層相連,形成了一張完整的網(wǎng)絡(luò)圖,沒(méi)有出現(xiàn)孤立的點(diǎn)。其中,圖書(shū)館的節(jié)點(diǎn)最大,與周?chē)P(guān)鍵詞形成網(wǎng)絡(luò)連線(xiàn)最多,知識(shí)服務(wù)、機(jī)構(gòu)知識(shí)庫(kù)、數(shù)字資源、數(shù)據(jù)關(guān)聯(lián)、大數(shù)據(jù)、書(shū)目數(shù)據(jù)、數(shù)據(jù)模型等都與圖書(shū)館聯(lián)系密切,說(shuō)明關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館的應(yīng)用研究涉及圖書(shū)館服務(wù)的多個(gè)方面。此外,本體、語(yǔ)義網(wǎng)、元數(shù)據(jù)占據(jù)了中心位置,幾乎與每個(gè)關(guān)鍵詞都有聯(lián)系,是關(guān)聯(lián)數(shù)據(jù)應(yīng)用研究的重要技術(shù)基礎(chǔ)和支撐。而數(shù)字人文、知識(shí)圖譜、知識(shí)發(fā)現(xiàn)、共詞分析、開(kāi)放數(shù)據(jù)、語(yǔ)義關(guān)聯(lián)等關(guān)鍵詞也聯(lián)系緊密,同樣是研究的熱點(diǎn)主題。
在聚類(lèi)和共現(xiàn)分析的基礎(chǔ)上,筆者按年份對(duì)高頻關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,進(jìn)一步理清了熱點(diǎn)研究主題的動(dòng)態(tài)發(fā)展脈絡(luò)。分析表明,高頻關(guān)鍵詞的數(shù)量逐年增加,2010年以前,所有關(guān)鍵詞的頻次均低于5;2011—2015年,頻次達(dá)到5的關(guān)鍵詞快速增長(zhǎng),共有22個(gè);2016—2020年,這一數(shù)字增長(zhǎng)到了40個(gè)。15年內(nèi)高頻關(guān)鍵詞增長(zhǎng)速度近似等差數(shù)列,一方面說(shuō)明我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的逐漸擴(kuò)展,另一方面也表明研究熱點(diǎn)正在快速形成。筆者根據(jù)上文聚類(lèi)分析的結(jié)果,將8個(gè)聚類(lèi)內(nèi)的關(guān)鍵詞分別相加,繪制出8個(gè)研究主題的頻次隨時(shí)間變化的圖像(見(jiàn)圖5)。
圖5 高頻關(guān)鍵詞頻次時(shí)間圖(基于8個(gè)聚類(lèi))
從圖5可以看出,高校圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)建設(shè)這一研究熱點(diǎn)近年來(lái)一直處于上升趨勢(shì),2020年更是迎來(lái)爆發(fā)性增長(zhǎng),關(guān)鍵詞頻次在2019年的基礎(chǔ)上翻倍增長(zhǎng),達(dá)到了41次。書(shū)目數(shù)據(jù)語(yǔ)義化編制、圖書(shū)館數(shù)據(jù)模型構(gòu)建、數(shù)字圖書(shū)館資源整合和機(jī)構(gòu)知識(shí)庫(kù)建設(shè)、科學(xué)數(shù)據(jù)和科技文獻(xiàn)開(kāi)放共享、博物館資源整合和數(shù)據(jù)關(guān)聯(lián)五個(gè)研究熱點(diǎn)的波動(dòng)性較大,在2015—2017年之間達(dá)到峰值后,整體均呈下降趨勢(shì)。元數(shù)據(jù)與本體的研究在經(jīng)歷了2016—2018年的短暫降溫后,又恢復(fù)了上升趨勢(shì)。相對(duì)而言,知識(shí)組織系統(tǒng)SKOS化和關(guān)聯(lián)化的研究熱度一直不高。以上結(jié)果在很大程度上反映了我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的發(fā)展方向。
關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館、檔案館和博物館(以下簡(jiǎn)稱(chēng)LAM)中的應(yīng)用可以歸納為發(fā)布、消費(fèi)、服務(wù)和平臺(tái)四種模式,其中數(shù)據(jù)的發(fā)現(xiàn)和檢索機(jī)制是關(guān)聯(lián)數(shù)據(jù)成功應(yīng)用的關(guān)鍵。與此同時(shí),關(guān)聯(lián)數(shù)據(jù)與其他Web服務(wù)的整合、不同語(yǔ)義描述系統(tǒng)之間的互操作、消費(fèi)關(guān)聯(lián)數(shù)據(jù)在本地系統(tǒng)的功能實(shí)現(xiàn)、嵌入外部社會(huì)信息環(huán)境的穩(wěn)定性等都是關(guān)聯(lián)數(shù)據(jù)應(yīng)用面臨的技術(shù)性挑戰(zhàn)[12]。各類(lèi)信息資源的關(guān)聯(lián)數(shù)據(jù)化發(fā)布可以分解為六個(gè)關(guān)鍵步驟:數(shù)據(jù)建模、實(shí)體命名、實(shí)體RDF化、實(shí)體關(guān)聯(lián)化、實(shí)體發(fā)布、開(kāi)放查詢(xún)[13],發(fā)布方式主要包括靜態(tài)發(fā)布、批量存儲(chǔ)、調(diào)用時(shí)生成、事后轉(zhuǎn)換(D2R)四種類(lèi)型,常見(jiàn)的實(shí)現(xiàn)技術(shù)和工具有VoID詞表、前端轉(zhuǎn)換工具、OWL及SKOS相關(guān)工具、Web Services、Web應(yīng)用框架、CMS及RDFa、Drupal等[14]。為了實(shí)現(xiàn)LAM中不同類(lèi)型的數(shù)據(jù)、信息和知識(shí)的發(fā)現(xiàn)與共享,需要以O(shè)AI-PMH協(xié)議為基礎(chǔ),構(gòu)建由數(shù)字圖書(shū)館(DL)、數(shù)字檔案館(DA)、數(shù)字博物館(DM)和圖檔博數(shù)字化協(xié)作中心(DLAM)組成的D-LAM框架,通過(guò)DLAM對(duì)DL、DA、DM的元數(shù)據(jù)進(jìn)行收割、語(yǔ)義映射和關(guān)聯(lián)標(biāo)引,形成面向用戶(hù)的一體化信息服務(wù)體系[15]。此外,隨著關(guān)聯(lián)數(shù)據(jù)集的快速增加,基于關(guān)聯(lián)數(shù)據(jù)的服務(wù)平臺(tái)、監(jiān)護(hù)平臺(tái)建設(shè)與信息資源的移動(dòng)視覺(jué)搜索和可視化展示逐漸成為高效消費(fèi)和利用關(guān)聯(lián)數(shù)據(jù)的熱點(diǎn)主題。為了保障關(guān)聯(lián)數(shù)據(jù)發(fā)布及消費(fèi)參與者的合法權(quán)益,提升關(guān)聯(lián)數(shù)據(jù)集的質(zhì)量,關(guān)聯(lián)數(shù)據(jù)的開(kāi)放應(yīng)用協(xié)議、建設(shè)標(biāo)準(zhǔn)、發(fā)布規(guī)范以及質(zhì)量評(píng)價(jià)方法的制定與實(shí)施也是關(guān)聯(lián)數(shù)據(jù)在LAM中應(yīng)用發(fā)展迫切需要解決的問(wèn)題[16]。
LAM兼有資源收集、管理和服務(wù)功能,在關(guān)聯(lián)數(shù)據(jù)運(yùn)動(dòng)中扮演著發(fā)布者、信度驗(yàn)證者、消費(fèi)者和組織協(xié)調(diào)者的角色[17],關(guān)聯(lián)數(shù)據(jù)的發(fā)展為數(shù)據(jù)資源的獨(dú)立標(biāo)識(shí)、結(jié)構(gòu)化描述和語(yǔ)義化關(guān)聯(lián)提供了契機(jī)。數(shù)據(jù)資源視角的關(guān)聯(lián)數(shù)據(jù)研究大致可以分為三個(gè)階段。
第一階段,數(shù)據(jù)資源的發(fā)布。在關(guān)聯(lián)數(shù)據(jù)發(fā)展初期以中國(guó)科技信息研究所、中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心為代表的機(jī)構(gòu)對(duì)書(shū)目組織語(yǔ)義化,詞表、分類(lèi)法、規(guī)范數(shù)據(jù)等知識(shí)組織關(guān)聯(lián)化展開(kāi)了大量研究。此后,更多的機(jī)構(gòu)參與進(jìn)來(lái),進(jìn)一步完善了科學(xué)數(shù)據(jù)、科技文獻(xiàn)、科研實(shí)體、檔案與異構(gòu)數(shù)據(jù)等更多形式數(shù)據(jù)資源的關(guān)聯(lián)數(shù)據(jù)化[18-19]。目前,國(guó)家圖書(shū)館已經(jīng)建設(shè)了關(guān)聯(lián)數(shù)據(jù)注冊(cè)與服務(wù)系統(tǒng),實(shí)現(xiàn)了涵蓋關(guān)聯(lián)數(shù)據(jù)整個(gè)生命周期的管理,發(fā)布了中分表、國(guó)圖公開(kāi)課、館藏文獻(xiàn)3個(gè)數(shù)據(jù)集[20],書(shū)目數(shù)據(jù)涵蓋了目錄資源、期刊、引文、手稿、家譜等多種資源類(lèi)型,規(guī)范數(shù)據(jù)已經(jīng)擴(kuò)展到生物、醫(yī)學(xué)、農(nóng)業(yè)、經(jīng)濟(jì)、信息技術(shù)、藝術(shù)圖像等眾多領(lǐng)域[21]。
第二階段,數(shù)據(jù)資源的聚合。數(shù)據(jù)資源的關(guān)聯(lián)數(shù)據(jù)化滿(mǎn)足了用戶(hù)的一般需求,但主動(dòng)、多元、深層次的信息服務(wù)還需要數(shù)據(jù)資源的深度聚合,關(guān)聯(lián)數(shù)據(jù)強(qiáng)大的語(yǔ)義聚合能力促進(jìn)了數(shù)據(jù)集中URI的開(kāi)放復(fù)用,語(yǔ)義鏈接機(jī)制將各類(lèi)客觀(guān)實(shí)體與抽象概念關(guān)聯(lián)在一起,從而為數(shù)據(jù)資源的聚合提供了一種現(xiàn)實(shí)可行的途徑[22]。與元數(shù)據(jù)、本體、敘詞表等資源聚合模式相比,關(guān)聯(lián)數(shù)據(jù)在關(guān)聯(lián)強(qiáng)度、關(guān)聯(lián)維度、關(guān)聯(lián)階度、關(guān)聯(lián)粒度等方面都具有獨(dú)特優(yōu)勢(shì)[23]。
第三階段,知識(shí)發(fā)現(xiàn)。人類(lèi)知識(shí)活動(dòng)的價(jià)值在于可用知識(shí)的發(fā)現(xiàn),從知識(shí)生命周期來(lái)看,知識(shí)發(fā)現(xiàn)包含數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、關(guān)聯(lián)數(shù)據(jù)生成和數(shù)據(jù)表示等階段,數(shù)據(jù)資源的關(guān)聯(lián)數(shù)據(jù)化發(fā)布與多維度聚合為知識(shí)發(fā)現(xiàn)打下了堅(jiān)實(shí)基礎(chǔ),關(guān)聯(lián)數(shù)據(jù)提升了半結(jié)構(gòu)化與非結(jié)構(gòu)化文檔的知識(shí)發(fā)現(xiàn)能力,增強(qiáng)了知識(shí)發(fā)現(xiàn)結(jié)果的語(yǔ)義驗(yàn)證能力[24]。通過(guò)關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián),可以更準(zhǔn)確地發(fā)現(xiàn)所需知識(shí),拓展知識(shí)發(fā)現(xiàn)的范圍,簡(jiǎn)化知識(shí)發(fā)現(xiàn)的過(guò)程。然而,由于關(guān)聯(lián)數(shù)據(jù)只是 “弱連接的三元組” 構(gòu)成的數(shù)據(jù)網(wǎng)絡(luò),需要進(jìn)一步的知識(shí)發(fā)現(xiàn)才能滿(mǎn)足用戶(hù)的深層知識(shí)需求,因此關(guān)聯(lián)數(shù)據(jù)的發(fā)展離不開(kāi)知識(shí)發(fā)現(xiàn)的推動(dòng),知識(shí)發(fā)現(xiàn)是關(guān)聯(lián)數(shù)據(jù)應(yīng)用的基本方法和最終目標(biāo)[25]。雖然將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于知識(shí)發(fā)現(xiàn)仍然面臨著關(guān)聯(lián)數(shù)據(jù)的制備問(wèn)題、不同語(yǔ)言的語(yǔ)義差異問(wèn)題以及可信度的挑戰(zhàn),但關(guān)聯(lián)數(shù)據(jù)依然是LAM擴(kuò)展資源發(fā)現(xiàn)平臺(tái)、推進(jìn)知識(shí)服務(wù)的有效方案,基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)研究將會(huì)是未來(lái)一段時(shí)期內(nèi)的研究熱點(diǎn)[24]。
智能技術(shù)和信息技術(shù)的發(fā)展促進(jìn)了LAM服務(wù)由大眾化向個(gè)性化、由一般向精準(zhǔn)轉(zhuǎn)變。由用戶(hù)需求驅(qū)動(dòng),通過(guò)數(shù)據(jù)資源的聚合與知識(shí)發(fā)現(xiàn),提供知識(shí)資源與用戶(hù)需求高度匹配的知識(shí)服務(wù)是當(dāng)前關(guān)聯(lián)數(shù)據(jù)研究的熱點(diǎn)。用戶(hù)視角的關(guān)聯(lián)數(shù)據(jù)研究主要包含兩方面內(nèi)容。① 基于關(guān)聯(lián)數(shù)據(jù)的用戶(hù)需求與行為研究。用戶(hù)需求組織是對(duì)用戶(hù)需求進(jìn)行描述和揭示的過(guò)程,將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于用戶(hù)需求組織,利用關(guān)聯(lián)數(shù)據(jù)技術(shù)創(chuàng)建和發(fā)布關(guān)于用戶(hù)需求及其相互間聯(lián)系的規(guī)范化描述信息,可以形成以用戶(hù)需求為節(jié)點(diǎn),以用戶(hù)需求之間的關(guān)系為邊界的語(yǔ)義化用戶(hù)需求網(wǎng)絡(luò)[26]。利用物聯(lián)網(wǎng)、大數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)等技術(shù),收集并關(guān)聯(lián)用戶(hù)與LAM交互中產(chǎn)生的各類(lèi)數(shù)據(jù),構(gòu)建用戶(hù)小數(shù)據(jù)行為的關(guān)聯(lián)數(shù)據(jù)庫(kù),進(jìn)而更清楚地了解用戶(hù)需求[27]。在保護(hù)用戶(hù)隱私的前提下,將用戶(hù)信息通過(guò)關(guān)聯(lián)數(shù)據(jù)的方式發(fā)布有利于擴(kuò)展知識(shí)發(fā)現(xiàn)服務(wù),實(shí)現(xiàn)數(shù)據(jù)融合與語(yǔ)義檢索[28]。② 用戶(hù)需求與知識(shí)資源的關(guān)聯(lián)匹配與精準(zhǔn)服務(wù)。在通過(guò)調(diào)查問(wèn)卷、用戶(hù)行為本體模型、FP-growth關(guān)聯(lián)挖掘算法、科研本體等方式深入了解用戶(hù)的顯性興趣和隱性需求的基礎(chǔ)上,將關(guān)聯(lián)數(shù)據(jù)、書(shū)目框架技術(shù)引入學(xué)科信息資源、科研實(shí)體資源、紙電資源等資源體系中形成基于用戶(hù)需求的信息資源規(guī)范化語(yǔ)義描述,并在此基礎(chǔ)上實(shí)現(xiàn)個(gè)性化精準(zhǔn)服務(wù),幫助用戶(hù)形成關(guān)聯(lián)知識(shí)發(fā)現(xiàn)[29-30]。基于用戶(hù)視角的關(guān)聯(lián)數(shù)據(jù)研究已經(jīng)覆蓋科研服務(wù)、學(xué)科服務(wù)、文獻(xiàn)傳遞、閱讀推廣等多個(gè)領(lǐng)域,而基于用戶(hù)需求和關(guān)聯(lián)數(shù)據(jù)技術(shù)的自動(dòng)問(wèn)答、智能參考咨詢(xún)服務(wù)研究也取得了一定進(jìn)展。
從實(shí)踐角度來(lái)看,數(shù)字人文就是利用數(shù)字工具、技術(shù)和媒體改變藝術(shù)、人類(lèi)和社會(huì)科學(xué)知識(shí)的生產(chǎn)和傳播,其本質(zhì)上是一種知識(shí)創(chuàng)新[31]。LAM擁有規(guī)模龐大、種類(lèi)豐富的數(shù)字化館藏資源,以上海圖書(shū)館劉煒、夏翠娟等為代表的研究團(tuán)隊(duì)已經(jīng)探索出了一個(gè)讓人類(lèi)記憶和文化遺產(chǎn)在數(shù)字時(shí)代充分發(fā)揮價(jià)值的實(shí)現(xiàn)方案。上海圖書(shū)館以家譜為實(shí)踐探索的起點(diǎn),利用關(guān)聯(lián)數(shù)據(jù)的知識(shí)組織功能,把散落在不同家譜文獻(xiàn)中的人、地、時(shí)、事關(guān)聯(lián)起來(lái),并進(jìn)行可視化展示[32],于2016年推出了上海圖書(shū)館家譜知識(shí)服務(wù)平臺(tái),同時(shí)推出了開(kāi)放數(shù)據(jù)應(yīng)用開(kāi)發(fā)競(jìng)賽。日前,該競(jìng)賽已經(jīng)成功舉辦了5屆,匯聚了豐富、海量的歷史人文數(shù)據(jù),其中家譜元數(shù)據(jù)有72,593余條,家譜的家規(guī)家訓(xùn)全文文本300余種,世系表3家[33]。經(jīng)過(guò)6年的發(fā)展,上海圖書(shū)館已將家譜的成功經(jīng)驗(yàn)應(yīng)用到了歷史地理數(shù)據(jù)、名人檔案、人物傳記、古籍等其他歷史文化記憶資源,數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)也取得了顯著進(jìn)展。除上海圖書(shū)館外,吉林大學(xué)、武漢大學(xué)、華東師范大學(xué)、山東大學(xué)等研究團(tuán)隊(duì)也紛紛加入該研究領(lǐng)域,在LAM資源整合、視覺(jué)資源知識(shí)組織、城市記憶資源整合[34]等方面作出了重要貢獻(xiàn)。
作為一種數(shù)據(jù)發(fā)布規(guī)范,關(guān)聯(lián)數(shù)據(jù)已成為影響互聯(lián)網(wǎng)基礎(chǔ)結(jié)構(gòu)的關(guān)鍵技術(shù)之一,在全球開(kāi)放數(shù)據(jù)運(yùn)動(dòng)的推動(dòng)下,國(guó)內(nèi)學(xué)者對(duì)關(guān)聯(lián)數(shù)據(jù)展開(kāi)了跨學(xué)科、多視角的研究,取得了豐碩的研究成果。
(1)我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的研究正處于第二個(gè)平穩(wěn)期,形成了以夏翠娟、劉煒、賈君枝、歐石燕、李春旺等為代表的核心作者集群,研究期刊分布呈現(xiàn)出核心化趨勢(shì),研究成果具有較強(qiáng)的創(chuàng)新性和影響力。但另一方面,也存在著核心作者集群規(guī)模小、研究機(jī)構(gòu)分散、學(xué)者間合作度低、多數(shù)學(xué)者研究持續(xù)性不強(qiáng)等問(wèn)題。
(2)國(guó)內(nèi)學(xué)者能夠緊跟國(guó)家宏觀(guān)政策走向和時(shí)代熱點(diǎn),及時(shí)調(diào)整研究方向,不斷豐富關(guān)聯(lián)數(shù)據(jù)研究的理論體系和實(shí)踐成果,對(duì)關(guān)聯(lián)數(shù)據(jù)的關(guān)鍵核心技術(shù)、在圖情檔領(lǐng)域的實(shí)踐應(yīng)用、對(duì)促進(jìn)信息資源開(kāi)放共享、提升知識(shí)資產(chǎn)管理效能等方面的作用均展開(kāi)了大量的研究,形成了圖書(shū)館數(shù)據(jù)模型構(gòu)建、書(shū)目數(shù)據(jù)語(yǔ)義編制、科學(xué)數(shù)據(jù)和科技文獻(xiàn)開(kāi)放共享、知識(shí)組織系統(tǒng)SKOS化和關(guān)聯(lián)化、元數(shù)據(jù)與本體、高校圖書(shū)館知識(shí)發(fā)現(xiàn)系統(tǒng)建設(shè)、數(shù)字圖書(shū)館資源整合和機(jī)構(gòu)知識(shí)庫(kù)建設(shè)、博物館資源整合和數(shù)據(jù)關(guān)聯(lián)8個(gè)聚類(lèi)。此外,一些學(xué)者在不斷延伸研究廣度的同時(shí),也在不斷拓展研究深度,關(guān)聯(lián)數(shù)據(jù)的研究已經(jīng)覆蓋了圖情檔領(lǐng)域業(yè)務(wù)工作和理論體系的方方面面。
(3)我國(guó)圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的研究主要從技術(shù)與平臺(tái)、數(shù)據(jù)資源、用戶(hù)和數(shù)字人文四個(gè)視角展開(kāi),隨著關(guān)聯(lián)數(shù)據(jù)相關(guān)技術(shù)的不斷完善以及數(shù)據(jù)資源關(guān)聯(lián)數(shù)據(jù)化覆蓋面的不斷擴(kuò)大,以用戶(hù)需求為驅(qū)動(dòng),提升關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺(tái)的資源聚合度和顆粒度、促進(jìn)用戶(hù)需求與知識(shí)資源的高效匹配、支持用戶(hù)便捷知識(shí)發(fā)現(xiàn)與精準(zhǔn)服務(wù)是該領(lǐng)域研究的核心主題和熱點(diǎn)前沿。關(guān)聯(lián)數(shù)據(jù)的開(kāi)放應(yīng)用協(xié)議、建設(shè)標(biāo)準(zhǔn)以及質(zhì)量評(píng)價(jià)方法的制定與實(shí)施是當(dāng)下迫切需要解決的問(wèn)題。與此同時(shí),主動(dòng)參與數(shù)字人文研究,將數(shù)字化的館藏資源融入數(shù)字人文基礎(chǔ)設(shè)施,充分發(fā)揮人類(lèi)記憶和文化遺產(chǎn)的巨大價(jià)值也是圖情檔領(lǐng)域必須抓住的重要機(jī)遇。