• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向發(fā)現(xiàn)服務(wù)的文獻(xiàn)元數(shù)據(jù)集成整合研究

      2019-01-15 09:28:10馬袁燕
      圖書館 2019年1期
      關(guān)鍵詞:來(lái)源文獻(xiàn)資源

      馬袁燕

      (中國(guó)科學(xué)技術(shù)信息研究所 北京 100038)

      1 前言

      云計(jì)算快速發(fā)展環(huán)境下,圖書館館藏由印刷型資源為主轉(zhuǎn)變?yōu)閿?shù)字資源為主,文獻(xiàn)加工深度由目錄精細(xì)到圖表章節(jié)的層級(jí),顆粒度越來(lái)越細(xì)。圖書館資源揭示功能的實(shí)現(xiàn)手段由OPAC轉(zhuǎn)為發(fā)現(xiàn)系統(tǒng),系統(tǒng)功能由單一目錄檢索轉(zhuǎn)變?yōu)樨S富發(fā)現(xiàn)獲取,且揭示層級(jí)越來(lái)越豐富。其中,元數(shù)據(jù)與實(shí)現(xiàn)發(fā)現(xiàn)系統(tǒng)的資源整合、資源檢索、資源管理、資源定位、挖掘與分析等多個(gè)方面緊密相關(guān),也是圖書館在發(fā)現(xiàn)系統(tǒng)的調(diào)研、測(cè)評(píng)、實(shí)施到調(diào)整各個(gè)階段都不可回避的元素[1]。元數(shù)據(jù)種類多樣,按照來(lái)源可以分為在藏品建立或數(shù)字化時(shí)產(chǎn)生的內(nèi)部元數(shù)據(jù)和在藏品建立或數(shù)字化之后才產(chǎn)生的外部元數(shù)據(jù);按作用可將元數(shù)據(jù)劃分為管理元數(shù)據(jù)和用戶元數(shù)據(jù)兩大類;從數(shù)字信息資源組織與管理的角度,可按照功能劃分為管理型元數(shù)據(jù)、描述型元數(shù)據(jù)、保存型元數(shù)據(jù)、技術(shù)型元數(shù)據(jù)和使用型元數(shù)據(jù)[2]。文獻(xiàn)元數(shù)據(jù)作為描述型元數(shù)據(jù)可以幫助用戶快速精確地檢索所需要的資源,有利于圖書館管理和維護(hù)文獻(xiàn)資源。文獻(xiàn)元數(shù)據(jù)是資源發(fā)現(xiàn)系統(tǒng)的底層數(shù)據(jù)基礎(chǔ),其類型、形式、來(lái)源渠道多樣,具有數(shù)量大、生命周期短暫、網(wǎng)絡(luò)存儲(chǔ)分散、類型格式復(fù)雜、資源組織異構(gòu)、粒度層級(jí)復(fù)雜等特點(diǎn)[3],因此對(duì)規(guī)范化、科學(xué)性的文獻(xiàn)元數(shù)據(jù)進(jìn)行研究非常必要。

      2 面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)集成整合研究現(xiàn)狀

      2.1 面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)描述標(biāo)準(zhǔn)研究

      元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),描述數(shù)據(jù)的數(shù)據(jù)。文獻(xiàn)元數(shù)據(jù)[4]即對(duì)文獻(xiàn)信息資源進(jìn)行結(jié)構(gòu)化描述、定位和指示的數(shù)據(jù),它能幫助用戶更快更精確地檢索到所需文獻(xiàn),也有利于圖書館管理和維護(hù)文獻(xiàn)信息資源。元數(shù)據(jù)的多源異構(gòu)性決定了對(duì)其進(jìn)行統(tǒng)一表示與描述的必要性。為了給資源發(fā)現(xiàn)系統(tǒng)提供強(qiáng)有力的支撐,我們必須將不同來(lái)源的元數(shù)據(jù)通過(guò)轉(zhuǎn)換映射形成統(tǒng)一的元數(shù)據(jù)描述框架,且轉(zhuǎn)換過(guò)程中要盡量減少信息損失的發(fā)生。

      公益性文獻(xiàn)服務(wù)機(jī)構(gòu)Trove發(fā)現(xiàn)系統(tǒng)目前使用的各種元數(shù)據(jù)模式主要包括都柏林核心元素集。Trove系統(tǒng)的都柏林核心元素集包括創(chuàng)作者、日期、唯一標(biāo)識(shí)等元素[5]。Europeana根據(jù)其自身數(shù)據(jù)特點(diǎn),基于DC設(shè)計(jì)了ESE(可擴(kuò)展存儲(chǔ)引擎)元數(shù)據(jù)方案,并參照METS(元數(shù)據(jù)編碼和傳輸標(biāo)準(zhǔn))和RDF(資源描述框架),在保留原有ESE核心元素基礎(chǔ)上設(shè)計(jì)開放跨領(lǐng)域的Europeana 數(shù)據(jù)模型。此數(shù)據(jù)模型可與多種元數(shù)據(jù)模式建立關(guān)聯(lián),為元數(shù)據(jù)實(shí)現(xiàn)語(yǔ)義層面互操作提供可能。

      日本國(guó)立國(guó)會(huì)圖書館制定了“NDL都柏林核心元數(shù)據(jù)描述(DC-NDL)”。DC-NDL由三部分組成:第一部分是“NDL元數(shù)據(jù)術(shù)語(yǔ)”,包括日本國(guó)立國(guó)會(huì)圖書館描述的元數(shù)據(jù)術(shù)語(yǔ)列表;第二部分是“應(yīng)用程序配置文件”,指定日本國(guó)立國(guó)會(huì)圖書館元數(shù)據(jù)中每個(gè)組件(屬性、類和編碼方案)的用法,其中包含用于描述RDF/XML格式的每個(gè)組件的示例;第三部分是“RDF Schema”,是日本國(guó)立國(guó)會(huì)圖書館元數(shù)據(jù)條款的資源描述格式(RDF)版本[6],除了基本的信息描述外,語(yǔ)義化趨勢(shì)在統(tǒng)一的資源描述工作中也逐漸顯現(xiàn)。

      開放資源集成平臺(tái)PubMed Central(PMC)支持NLM日志和交換XML格式與都柏林格式。國(guó)家生物技術(shù)信息中心(NCBI)和國(guó)家醫(yī)學(xué)圖書館(NLM)創(chuàng)造了一套日志歸檔和交換標(biāo)簽套件,用于與出版商進(jìn)行通用格式的日志內(nèi)容交換。該套件提供了一組XML模式模塊,用于定義所描述期刊文章的文本和圖形內(nèi)容的元素、屬性,以及一些非文章材料,如字母,書籍和產(chǎn)品評(píng)論[7]。國(guó)家圖書館“文津搜索”支持多種元數(shù)據(jù)標(biāo)準(zhǔn),包括MARC、DC、XML、MDB、XLSX以及MDF,它對(duì)各類數(shù)據(jù)進(jìn)行清理和解析,并將所有元數(shù)據(jù)字段都映射到“文津搜索”定義的統(tǒng)一的XML格式上[8]。

      2.2 面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)集成整合實(shí)踐研究

      資源發(fā)現(xiàn)服務(wù)是一種“大數(shù)據(jù)”規(guī)模的元數(shù)據(jù)搜索服務(wù),通過(guò)支持圖書館自動(dòng)化系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)融合與語(yǔ)義檢索服務(wù)、跨機(jī)構(gòu)元數(shù)據(jù)的開放與復(fù)用和分布異構(gòu)系統(tǒng)的關(guān)聯(lián)訪問(wèn)[9]。資源發(fā)現(xiàn)系統(tǒng)致力于從圖書館、互聯(lián)網(wǎng)、出版商和內(nèi)容提供商處獲得元數(shù)據(jù),以建立元數(shù)據(jù)倉(cāng)儲(chǔ)系統(tǒng),利用抽取、映射、規(guī)范、融合等智能化手段對(duì)數(shù)據(jù)進(jìn)行全面聚合和深度組織,從而為用戶提供簡(jiǎn)單的一站式檢索服務(wù)[10-11]。本文通過(guò)對(duì)資源發(fā)現(xiàn)系統(tǒng)的調(diào)研,從元數(shù)據(jù)獲取及整合方法兩個(gè)方面分述發(fā)現(xiàn)系統(tǒng)中的元數(shù)據(jù)集成整合實(shí)踐。

      在元數(shù)據(jù)獲取方面,國(guó)外主要是通過(guò)主動(dòng)與元數(shù)據(jù)生產(chǎn)方談判簽約獲取,部分依靠資源服務(wù)方的主動(dòng)授權(quán)與上傳。商業(yè)發(fā)現(xiàn)系統(tǒng)以Proquest Summon系統(tǒng)為例,元數(shù)據(jù)只通過(guò)簽約廠商的途徑獲取,取消第三方元數(shù)據(jù),從而保證了數(shù)據(jù)質(zhì)量。Primo、EDS同Summon系統(tǒng)均采用與各資源提供商簽訂協(xié)議的方式獲取元數(shù)據(jù)。與商業(yè)發(fā)現(xiàn)系統(tǒng)不同,國(guó)外一些公益性元數(shù)據(jù)集成平臺(tái)主要采取合作共享的方式收集和獲取元數(shù)據(jù)。澳大利亞圖書館Trove系統(tǒng)作為合作共享式的典型范例,通過(guò)社區(qū)組建和社區(qū)聚合,形成了一個(gè)規(guī)模不斷擴(kuò)大的全文數(shù)字資源庫(kù),接受來(lái)自數(shù)百個(gè)文化機(jī)構(gòu)的元數(shù)據(jù)資源[12]。澳大利亞國(guó)家圖書館在與電子資源數(shù)據(jù)庫(kù)商Gale和RMIT合作的同時(shí),會(huì)在Trove中共享電子資源內(nèi)容,并采取API、爬蟲、FTP或HTTP等方式獲取元數(shù)據(jù)。Europeana利用聚合器網(wǎng)絡(luò)可以在機(jī)構(gòu)間交換元數(shù)據(jù),機(jī)構(gòu)將數(shù)據(jù)提交到一個(gè)聚合器(項(xiàng)目或組織),數(shù)據(jù)經(jīng)過(guò)處理后被提供給Europeana。

      表1 國(guó)內(nèi)外主要發(fā)現(xiàn)系統(tǒng)元數(shù)據(jù)集成管理概況

      DOAJ(開放存取期刊目錄)作為典型的開放資源集成平臺(tái),其元數(shù)據(jù)資源獲取方式與其他平臺(tái)不一樣,要求出版商將元數(shù)據(jù)上傳到DOAJ的網(wǎng)站而非主動(dòng)去期刊出版商網(wǎng)站抓取文獻(xiàn)元數(shù)據(jù)。DOAJ文獻(xiàn)元數(shù)據(jù)采用CCBY-SA4.0的版權(quán)限制方式向外傳播,允許自由地對(duì)文獻(xiàn)進(jìn)行共享、修改、轉(zhuǎn)換或者以本作品為基礎(chǔ)進(jìn)行創(chuàng)作甚至開展商業(yè)行為[13]。目前國(guó)內(nèi)對(duì)于海量外文文獻(xiàn)資源元數(shù)據(jù)的獲取收集還處于起步階段,國(guó)家圖書館通過(guò)建設(shè)“文津搜索”集成了約2億條文獻(xiàn)元數(shù)據(jù),國(guó)家科技圖書文獻(xiàn)中心也通過(guò)自主加工、談判引進(jìn)等模式共獲取2.5億多條文獻(xiàn)元數(shù)據(jù)。

      在元數(shù)據(jù)整合方法上,元數(shù)據(jù)集成管理流程主要分為解析、映射、查重合并及更新維護(hù)。Europeana對(duì)收集到的元數(shù)據(jù)采用RDF轉(zhuǎn)換存儲(chǔ),以便在語(yǔ)義環(huán)境中通過(guò)關(guān)聯(lián)數(shù)據(jù)對(duì)其進(jìn)行有效揭示,提高資源可用性,并為歐洲的數(shù)字資源門戶網(wǎng)站和搜索引擎提供支撐。OCLC利用SRU服務(wù)為VIAF(虛擬國(guó)際規(guī)范文檔)項(xiàng)目提供來(lái)自14個(gè)國(guó)家圖書館的關(guān)聯(lián)數(shù)據(jù),通過(guò)匹配和關(guān)聯(lián)整合這些不同語(yǔ)言國(guó)家圖書館的規(guī)范文檔,提高了資源利用率。Proquest Summon需要對(duì)100多種不同資源類型的數(shù)據(jù)進(jìn)行處理歸類,其發(fā)現(xiàn)服務(wù)匯集了不同類別的元數(shù)據(jù)和多個(gè)來(lái)源的完整文本。Summon利用其獨(dú)有的匹配和合并技術(shù)整合了包含學(xué)科專業(yè)詞匯的元數(shù)據(jù)資源,在可用條件下創(chuàng)建描述全文內(nèi)容的記錄。所有的資源類型都被映射到Proquest Summon統(tǒng)一的結(jié)構(gòu)框架下,從而實(shí)現(xiàn)同步平等地發(fā)現(xiàn)和揭示[14]。在傳統(tǒng)元數(shù)據(jù)整合基礎(chǔ)之上,研究者也越來(lái)越重視語(yǔ)義元數(shù)據(jù)的規(guī)范整合,并開展了相關(guān)實(shí)踐。表1列舉了國(guó)內(nèi)外七個(gè)主要資源發(fā)現(xiàn)系統(tǒng)在元數(shù)據(jù)量、元數(shù)據(jù)獲取方式、元數(shù)據(jù)標(biāo)準(zhǔn)及元數(shù)據(jù)整合方法方面的概況。

      2.3 面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)集成整合的必要性

      發(fā)現(xiàn)系統(tǒng)以元數(shù)據(jù)倉(cāng)儲(chǔ)為基礎(chǔ),以元數(shù)據(jù)索引為核心[15-16]。面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)集成整合是一般元數(shù)據(jù)集成整合的分支,其對(duì)多來(lái)源元數(shù)據(jù)集成、整合、規(guī)范可以更好地服務(wù)于上層發(fā)現(xiàn)系統(tǒng)。筆者立足資源發(fā)現(xiàn)系統(tǒng)實(shí)現(xiàn)功能,采取調(diào)研的方法比較現(xiàn)有資源發(fā)現(xiàn)系統(tǒng)與跨庫(kù)檢索系統(tǒng)在系統(tǒng)功能上的差異,從而總結(jié)出兩者在文獻(xiàn)獲取方面的差異,進(jìn)一步驗(yàn)證面向發(fā)現(xiàn)服務(wù)的底層元數(shù)據(jù)集成整合研究具有必要性,調(diào)研結(jié)果見表2。

      表2 國(guó)內(nèi)資源發(fā)現(xiàn)系統(tǒng)功能調(diào)研

      從調(diào)研結(jié)果來(lái)看,國(guó)內(nèi)985高校資源發(fā)現(xiàn)系統(tǒng),主要分為Summon、EDS、Primo、Find+、超星發(fā)現(xiàn)系統(tǒng),985高校中只有17所實(shí)現(xiàn)了中英文一站式發(fā)現(xiàn)。這17所高校中有14所是被動(dòng)引進(jìn)Summon、Primo、EDS等外文資源發(fā)現(xiàn)系統(tǒng)。首先外文資源發(fā)現(xiàn)系統(tǒng)在本地建立元數(shù)據(jù)倉(cāng)儲(chǔ),然后將整合后的元數(shù)據(jù)統(tǒng)一發(fā)布在云平臺(tái)上,通過(guò)接口調(diào)用的方式供國(guó)內(nèi)使用,其發(fā)布前的元數(shù)據(jù)集成整合流程無(wú)從獲知,加上網(wǎng)絡(luò)傳輸?shù)扔绊懸蛩兀瑱z索效率不高。其次,資源發(fā)現(xiàn)系統(tǒng)與傳統(tǒng)跨庫(kù)檢索系統(tǒng)相比,雖然都采用統(tǒng)一檢索入口,但其文獻(xiàn)獲取原理卻不同??鐜?kù)檢索系統(tǒng)是數(shù)據(jù)庫(kù)商提供各庫(kù)獨(dú)立接口,檢索結(jié)果只顯示訂購(gòu)資源,不顯示無(wú)權(quán)限資源,資源發(fā)現(xiàn)系統(tǒng)卻對(duì)用戶檢索結(jié)果提供多來(lái)源指引。發(fā)現(xiàn)系統(tǒng)整合館藏OPAC,無(wú)法獲取在線全文時(shí)依然可以獲取紙質(zhì)全文(如果有紙本的前提下),拓寬了資源獲取途徑。研究發(fā)現(xiàn),系統(tǒng)的元數(shù)據(jù)集成整合,能為國(guó)家科技文獻(xiàn)服務(wù)提供保障。

      從面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)集成整合與一般元數(shù)據(jù)集成整合的區(qū)別來(lái)看,后者只是基于數(shù)據(jù)層面的大規(guī)模整合,沒有辦法實(shí)現(xiàn)文獻(xiàn)聚類等,它只是將元數(shù)據(jù)整合,但并未對(duì)元數(shù)據(jù)的薄厚作要求。調(diào)研結(jié)果顯示,清華大學(xué)資源發(fā)現(xiàn)系統(tǒng)和超星資源發(fā)現(xiàn)系統(tǒng)實(shí)現(xiàn)了學(xué)科趨勢(shì)分析及熱點(diǎn)分析等知識(shí)關(guān)聯(lián),這是一般元數(shù)據(jù)集成整合做不到的。其次中科院文獻(xiàn)情報(bào)中心的資源發(fā)現(xiàn)系統(tǒng)提供可視化分面導(dǎo)航,這都是基于厚元數(shù)據(jù)所作的知識(shí)關(guān)聯(lián)分析。面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)集成整合最終目的,是將單篇文獻(xiàn)的多個(gè)來(lái)源進(jìn)行整合,將薄元數(shù)據(jù)整合成一條帶有多個(gè)來(lái)源指引的厚元數(shù)據(jù)記錄。

      縱觀國(guó)內(nèi)外主要的資源發(fā)現(xiàn)系統(tǒng),我們可以發(fā)現(xiàn),與跨庫(kù)檢索系統(tǒng)相比,資源發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)來(lái)源更加豐富。但圖書館在引進(jìn)發(fā)現(xiàn)系統(tǒng)的過(guò)程中,只實(shí)現(xiàn)了本館館藏資源與發(fā)現(xiàn)系統(tǒng)資源的整合,未能整合聯(lián)合目錄數(shù)據(jù)庫(kù)館藏資源,也未能集成館藏目錄元數(shù)據(jù)資源;在全文獲取途徑方面,資源發(fā)現(xiàn)系統(tǒng)能夠?qū)崿F(xiàn)在線獲取全文或多來(lái)源指引,但缺少館藏等機(jī)構(gòu)元數(shù)據(jù)信息,未能實(shí)現(xiàn)在館藏信息統(tǒng)一元數(shù)據(jù)索引的基礎(chǔ)上,依據(jù)館藏機(jī)構(gòu)的資源變化與當(dāng)前用戶屬性動(dòng)態(tài)呈現(xiàn)恰當(dāng)?shù)馁Y源地址。此外,現(xiàn)有商業(yè)性發(fā)現(xiàn)系統(tǒng)的內(nèi)部數(shù)據(jù)組織及外部發(fā)現(xiàn)服務(wù)功能仍然較為單一,其數(shù)據(jù)組織揭示多停留在題名、載體等資源外部特征,較少對(duì)資源內(nèi)在特征進(jìn)行知識(shí)組織揭示。對(duì)發(fā)現(xiàn)服務(wù)底層元數(shù)據(jù)集成整合的相關(guān)理論研究只注重檢索結(jié)果相關(guān)性排序,缺少對(duì)文獻(xiàn)元數(shù)據(jù)資源進(jìn)行采集、加工、規(guī)范整合的流程研究。最后,國(guó)內(nèi)發(fā)現(xiàn)服務(wù)多是直接引進(jìn)或在國(guó)外發(fā)現(xiàn)服務(wù)基礎(chǔ)上進(jìn)行二次開發(fā),導(dǎo)致中文元數(shù)據(jù)覆蓋程度低、與國(guó)際標(biāo)準(zhǔn)脫節(jié)、ISSN號(hào)混亂、年代不準(zhǔn)確等問(wèn)題。因此,要實(shí)現(xiàn)基于海量元數(shù)據(jù)的資源發(fā)現(xiàn)向知識(shí)發(fā)現(xiàn)轉(zhuǎn)變,深化知識(shí)服務(wù)需求,就必須探究發(fā)現(xiàn)服務(wù)在元數(shù)據(jù)集成整合方面的標(biāo)準(zhǔn)規(guī)范和加工方法,發(fā)展圖書館多層次的發(fā)現(xiàn)服務(wù)功能。

      3 發(fā)現(xiàn)服務(wù)元數(shù)據(jù)集成整合框架

      基于文獻(xiàn)閱讀和對(duì)現(xiàn)有資源發(fā)現(xiàn)系統(tǒng)建設(shè)實(shí)踐的研究,文章總結(jié)出面向發(fā)現(xiàn)服務(wù)的文獻(xiàn)元數(shù)據(jù)集成整合流程,它主要圍繞總體流程與元數(shù)據(jù)標(biāo)準(zhǔn)映射體系、規(guī)范規(guī)則體系、查重/集成規(guī)則體系及規(guī)范文檔體系四個(gè)體系展開,總體框架由數(shù)據(jù)源、元數(shù)據(jù)集成倉(cāng)儲(chǔ)和數(shù)據(jù)應(yīng)用層構(gòu)成。元數(shù)據(jù)集成倉(cāng)儲(chǔ)劃分為注冊(cè)模塊、解析模塊、集成模塊和倉(cāng)儲(chǔ)中心。每一種數(shù)據(jù)源先將其元數(shù)據(jù)標(biāo)準(zhǔn)在注冊(cè)模塊進(jìn)行注冊(cè),然后解析模塊通過(guò)接口調(diào)用相應(yīng)的映射規(guī)則進(jìn)行解析,解析完成后經(jīng)過(guò)數(shù)據(jù)清洗規(guī)范,數(shù)據(jù)流轉(zhuǎn)至集成模塊,以機(jī)器為主人工為輔的方式進(jìn)行元數(shù)據(jù)集成。元數(shù)據(jù)集成后進(jìn)入元數(shù)據(jù)倉(cāng)儲(chǔ)中心,建立中心索引,為知識(shí)發(fā)現(xiàn)、統(tǒng)計(jì)分析、專題計(jì)算等服務(wù)提供數(shù)據(jù)準(zhǔn)備,總體流程見圖1。

      圖1 文獻(xiàn)元數(shù)據(jù)集成總體流程圖

      圖2 元數(shù)據(jù)集成方法

      元數(shù)據(jù)集成整合方法如圖2所示,該方法首先梳理來(lái)源內(nèi)各個(gè)業(yè)務(wù)系統(tǒng)間的元數(shù)據(jù),主要考慮業(yè)務(wù)系統(tǒng)間的元數(shù)據(jù)是否有關(guān)聯(lián),關(guān)聯(lián)是否完整等。元數(shù)據(jù)梳理后作為一種數(shù)據(jù)源被加載到文獻(xiàn)元數(shù)據(jù)集成整合系統(tǒng)。不同來(lái)源間的元數(shù)據(jù)在集成過(guò)程中,無(wú)論其屬于哪種文獻(xiàn)類型,都要優(yōu)先集成書目元數(shù)據(jù),然后基于書目元數(shù)據(jù)集成結(jié)果,對(duì)論文元數(shù)據(jù)進(jìn)行查重集成。如來(lái)源1、來(lái)源2、來(lái)源3,通過(guò)一定查重集成規(guī)則集成為一條書目元數(shù)據(jù)后,再集成這3個(gè)來(lái)源的論文元數(shù)據(jù)。具體來(lái)講,A來(lái)源與B來(lái)源書目元數(shù)據(jù)集成時(shí),以A作為首選元數(shù)據(jù)入庫(kù),以B作為補(bǔ)充元數(shù)據(jù),將B元數(shù)據(jù)中的元素與A元數(shù)據(jù)進(jìn)行系統(tǒng)比對(duì),然后將設(shè)定的補(bǔ)充元素入庫(kù),并標(biāo)記B。系統(tǒng)對(duì)所掛接的論文元數(shù)據(jù)進(jìn)行查重集成,以A作為首選來(lái)源入庫(kù),然后B/C元數(shù)據(jù)的補(bǔ)充元素帶著相應(yīng)來(lái)源標(biāo)記入庫(kù)。隨著數(shù)據(jù)源的增多,該元數(shù)據(jù)最終會(huì)形成一條豐富完整的厚數(shù)據(jù)。每個(gè)元素都標(biāo)記來(lái)源,以便在數(shù)據(jù)有問(wèn)題時(shí)對(duì)其進(jìn)行拆分。書目元數(shù)據(jù)作為源頭,其處理需要以人工為主機(jī)器為輔,論文元數(shù)據(jù)可以按照相應(yīng)的集成規(guī)則以機(jī)器為主人工為輔的方式處理,依次形成母體集成庫(kù)及文摘集成庫(kù)直至元數(shù)據(jù)庫(kù)。

      4 面向發(fā)現(xiàn)服務(wù)的多來(lái)源元數(shù)據(jù)統(tǒng)一集成整合

      4.1 文獻(xiàn)元數(shù)據(jù)映射匹配規(guī)則

      文獻(xiàn)元數(shù)據(jù)集成整合為發(fā)現(xiàn)服務(wù)提供底層支撐作用,對(duì)發(fā)現(xiàn)系統(tǒng)功能的實(shí)現(xiàn)至關(guān)重要。元數(shù)據(jù)集成整合的最終目的,是將描述同一論文資源的元數(shù)據(jù)整合成多來(lái)源的厚元數(shù)據(jù),提供多來(lái)源指引。建立文獻(xiàn)元數(shù)據(jù)映射/匹配規(guī)則,實(shí)現(xiàn)元數(shù)據(jù)互操作,是進(jìn)行查重比較的首要前提,因此有必要建立統(tǒng)一的元數(shù)據(jù)框架,并與各來(lái)源標(biāo)準(zhǔn)建立映射關(guān)系,確保元數(shù)據(jù)格式統(tǒng)一。發(fā)現(xiàn)系統(tǒng)元數(shù)據(jù)來(lái)源于出版社、數(shù)據(jù)庫(kù)商、集成商等,出版社元數(shù)據(jù)標(biāo)準(zhǔn)各自為陣,亟待整合統(tǒng)一,不同標(biāo)準(zhǔn)中的元數(shù)據(jù)項(xiàng)表述不一。篇名在Wiley中元數(shù)據(jù)字段被表述為〈article-title〉篇名,而在Thomson Reuters中定義為〈title type=“item”〉篇名。對(duì)期刊論文元數(shù)據(jù)的調(diào)研發(fā)現(xiàn),不同數(shù)據(jù)庫(kù)元數(shù)據(jù)類型也有所不同。對(duì)比NSTL與WOS、Scopus發(fā)現(xiàn),WOS、Scopus使用一套元數(shù)據(jù)Schema描述多種文獻(xiàn)類型,只要在期刊論文中涉及某一文獻(xiàn)類型就會(huì)出現(xiàn)相關(guān)描述;NSTL則以文獻(xiàn)類型為基礎(chǔ)劃分元數(shù)據(jù),某一文獻(xiàn)類型的元數(shù)據(jù)包含在此類文獻(xiàn)的Schema中。圖3給出了常見的元數(shù)據(jù)映射/匹配規(guī)則流程:系統(tǒng)對(duì)多來(lái)源數(shù)據(jù)進(jìn)行數(shù)據(jù)解析,抽取來(lái)源元數(shù)據(jù)特征,提取有效規(guī)則建立規(guī)則庫(kù),以期建立一種能兼容各種文獻(xiàn)元數(shù)據(jù)的格式標(biāo)準(zhǔn),即一種多對(duì)一的元數(shù)據(jù)方案;對(duì)多來(lái)源異構(gòu)數(shù)據(jù)構(gòu)建元數(shù)據(jù)統(tǒng)一描述框架,形成統(tǒng)一元數(shù)據(jù)格式。

      圖3 元數(shù)據(jù)標(biāo)準(zhǔn)映射體系

      4.2 設(shè)計(jì)查重歸一算法豐富多來(lái)源文獻(xiàn)元數(shù)據(jù)

      發(fā)現(xiàn)系統(tǒng)通常按照資源類型、主題、作者、時(shí)間、地區(qū)、館址、語(yǔ)種、分類、流派、在線全文、同行評(píng)議以及是否擴(kuò)展至本館館藏之外等元數(shù)據(jù)項(xiàng)提供分面導(dǎo)航功能,逐層深入并縮小檢索范圍,直到發(fā)現(xiàn)符合需求的檢索結(jié)果。該功能實(shí)現(xiàn)的效果與元數(shù)據(jù)的薄厚及可獲得性呈正相關(guān)。表3列舉了同一篇論文在出版社和集成商平臺(tái)中所呈現(xiàn)出的信息項(xiàng)差異。我們觀察到各發(fā)現(xiàn)系統(tǒng)中元數(shù)據(jù)厚度參差不齊,相比出版社網(wǎng)站,集成商平臺(tái)的元數(shù)據(jù)厚度有限、部分元數(shù)據(jù)信息缺失,嚴(yán)重影響了資源的揭示效果。

      表3 出版社與商用發(fā)現(xiàn)系統(tǒng)平臺(tái)元數(shù)據(jù)項(xiàng)差異

      發(fā)現(xiàn)服務(wù)集成整合多源異構(gòu)元數(shù)據(jù),形成一條附帶多個(gè)來(lái)源指引的厚元數(shù)據(jù)記錄。映射完成后,我們需要根據(jù)不同文獻(xiàn)類型制定查重匹配算法,分別從母體、卷期、篇級(jí)、來(lái)源渠道等多個(gè)層次對(duì)資源實(shí)施查重與歸一;需要制定規(guī)則,確定所選元數(shù)據(jù)如倉(cāng)儲(chǔ)的優(yōu)先級(jí)順序,保證優(yōu)勢(shì)類型元數(shù)據(jù)進(jìn)入倉(cāng)儲(chǔ),且要確定作為補(bǔ)充元素的元數(shù)據(jù)類型。系統(tǒng)在元數(shù)據(jù)進(jìn)入倉(cāng)儲(chǔ)的同時(shí)要對(duì)其進(jìn)行查重歸并,并標(biāo)記相應(yīng)的來(lái)源標(biāo)簽,使元數(shù)據(jù)字段由“薄”變“厚”。元數(shù)據(jù)查重主要包括來(lái)源元數(shù)據(jù)查重(即同一數(shù)據(jù)來(lái)源由于進(jìn)入倉(cāng)儲(chǔ)的批次不同導(dǎo)致的重復(fù))和系統(tǒng)內(nèi)部的查重機(jī)制(同一文章有不同來(lái)源且進(jìn)入倉(cāng)儲(chǔ)的時(shí)間不同,需要對(duì)其查重合并),圖4為文獻(xiàn)元數(shù)據(jù)查重合并流程圖。查重體系中用戶輸入批次號(hào),根據(jù)批次號(hào)獲取原始數(shù)據(jù),根據(jù)節(jié)點(diǎn)拆分任務(wù),將數(shù)據(jù)涉及的刊種聚類并獲取樣例,隨后將樣例與任務(wù)分發(fā)至節(jié)點(diǎn),最后獲取節(jié)點(diǎn)完成的任務(wù)寫回元數(shù)據(jù)庫(kù)。

      圖4 元數(shù)據(jù)查重合并機(jī)制

      4.3 集成海量文獻(xiàn)元數(shù)據(jù)推進(jìn)知識(shí)發(fā)現(xiàn)服務(wù)

      發(fā)現(xiàn)服務(wù)并不是簡(jiǎn)單獨(dú)立的文獻(xiàn)資源集成檢索系統(tǒng),未來(lái)需要實(shí)現(xiàn)從基礎(chǔ)文獻(xiàn)服務(wù)到知識(shí)發(fā)現(xiàn)服務(wù)的轉(zhuǎn)變。將元數(shù)據(jù)整合規(guī)范后,對(duì)底層基礎(chǔ)文獻(xiàn)元數(shù)據(jù)進(jìn)行語(yǔ)義分析,這種知識(shí)組織管理可以更好地推進(jìn)發(fā)現(xiàn)服務(wù)。文獻(xiàn)發(fā)現(xiàn)層面通過(guò)科學(xué)文獻(xiàn)中的各類引文,在文摘索引與其所標(biāo)文獻(xiàn)、文后參考資料與被引用資料之間建立關(guān)聯(lián)和鏈接[17]。我們通過(guò)分析文獻(xiàn)內(nèi)容的關(guān)聯(lián),可以發(fā)現(xiàn)該領(lǐng)域的研究熱點(diǎn);而通過(guò)分析作者或機(jī)構(gòu)的關(guān)聯(lián),可以發(fā)現(xiàn)該領(lǐng)域中的核心作者和核心機(jī)構(gòu)。底層文獻(xiàn)元數(shù)據(jù)整合后,將書目元數(shù)據(jù)、管理元數(shù)據(jù)、文摘元數(shù)據(jù)、結(jié)構(gòu)元數(shù)據(jù)、關(guān)聯(lián)元數(shù)據(jù)等依次歸類,從而保證上下游鏈條間元數(shù)據(jù)的有效連接。研究者通過(guò)對(duì)文摘數(shù)據(jù)進(jìn)行分詞、概念提取,實(shí)現(xiàn)主題標(biāo)引和學(xué)科分類;通過(guò)實(shí)體識(shí)別、名稱消歧方法,實(shí)現(xiàn)名稱規(guī)范和對(duì)象歸一;最后基于漢語(yǔ)主題詞表等對(duì)元數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)識(shí),對(duì)同一元數(shù)據(jù)集合進(jìn)行語(yǔ)義知識(shí)組織加工,實(shí)現(xiàn)主題關(guān)聯(lián)、學(xué)科關(guān)聯(lián)、熱點(diǎn)分析、機(jī)構(gòu)關(guān)聯(lián)等,如圖5所示。另外,基于館藏等元數(shù)據(jù)信息建立資源調(diào)度知識(shí)庫(kù),將從圖書館、出版社、數(shù)據(jù)庫(kù)商和互聯(lián)網(wǎng)上獲取的文獻(xiàn)元數(shù)據(jù)資源與用戶、機(jī)構(gòu)信息整合,形成記錄了來(lái)源的“集成化聯(lián)合目錄”與用戶、機(jī)構(gòu)信息庫(kù)。依據(jù)用戶及其所需資源間的不同場(chǎng)景構(gòu)建資源關(guān)聯(lián)的調(diào)度機(jī)制,設(shè)定調(diào)度規(guī)則,通過(guò)調(diào)度算法找到最適應(yīng)用戶情景的文獻(xiàn)獲取方式,即當(dāng)前情景的最優(yōu)決策。

      圖5 元數(shù)據(jù)知識(shí)組織關(guān)聯(lián)

      5 結(jié)語(yǔ)

      文獻(xiàn)元數(shù)據(jù)數(shù)量規(guī)模的擴(kuò)大、文獻(xiàn)元數(shù)據(jù)顆粒度的精細(xì)、文獻(xiàn)資源數(shù)字化的擴(kuò)展,使用戶能夠更便捷地得到更豐富、更準(zhǔn)確的文獻(xiàn)資源檢索結(jié)果。由于現(xiàn)有整合技術(shù)的不成熟,文獻(xiàn)元數(shù)據(jù)集成要從數(shù)據(jù)源、元數(shù)據(jù)集成倉(cāng)儲(chǔ)和數(shù)據(jù)應(yīng)用層三個(gè)層次設(shè)計(jì)、完善。文獻(xiàn)元數(shù)據(jù)獲取方式的選擇,既要保證其質(zhì)量,又得保證其數(shù)量、時(shí)效性與涵蓋范圍。文獻(xiàn)元數(shù)據(jù)集成應(yīng)制定更加合理、規(guī)范、系統(tǒng)的文獻(xiàn)元數(shù)據(jù)統(tǒng)一描述規(guī)則,為文獻(xiàn)元數(shù)據(jù)映射、整合、加厚的后續(xù)處理流程提供更好支撐,設(shè)計(jì)更加合理的元數(shù)據(jù)映射規(guī)則、建設(shè)厚元數(shù)據(jù)以便將元數(shù)據(jù)本身多樣化的信息更好地保留下來(lái)。與此同時(shí),數(shù)字資源不斷擴(kuò)充、資源載體形態(tài)改變、外部鏈接失效、刊名變更等都依賴于元數(shù)據(jù)定期更新維護(hù)。如何建立數(shù)據(jù)獲取、集成和故障追蹤的全流程資源維護(hù)體系與元數(shù)據(jù)質(zhì)量監(jiān)控模型,都需未來(lái)進(jìn)一步探索。

      (來(lái)稿時(shí)間:2018年4月)

      猜你喜歡
      來(lái)源文獻(xiàn)資源
      將來(lái)吃魚不用調(diào)刺啦
      基礎(chǔ)教育資源展示
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      一樣的資源,不一樣的收獲
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      試論《說(shuō)文》“丵”字的來(lái)源
      資源回收
      “赤”的來(lái)源與“紅”在服裝中的應(yīng)用
      流行色(2018年11期)2018-03-23 02:21:22
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      資源再生 歡迎訂閱
      資源再生(2017年3期)2017-06-01 12:20:59
      和硕县| 香格里拉县| 平陆县| 开远市| 夹江县| 永胜县| 丰县| 芮城县| 方山县| 柳河县| 宿迁市| 沂源县| 文昌市| 龙岩市| 平潭县| 通州市| 黄浦区| 阿拉善左旗| 汪清县| 开鲁县| 广平县| 基隆市| 青神县| 赣州市| 九寨沟县| 襄樊市| 东台市| 北辰区| 台东市| 当阳市| 应用必备| 黔西县| 白城市| 赫章县| 尼勒克县| 万宁市| 宜良县| 阿拉善左旗| 长乐市| 得荣县| 霍林郭勒市|