• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向資源檢索的元數(shù)據(jù)倉儲建設研究

      2015-05-13 00:12:25馮紅娟李云龍梁蕙瑋李榮艷國家圖書館北京100081
      圖書館學刊 2015年3期
      關鍵詞:檢索數(shù)據(jù)庫數(shù)字

      馮紅娟 李云龍 梁蕙瑋 李榮艷(國家圖書館,北京100081)

      ?

      面向資源檢索的元數(shù)據(jù)倉儲建設研究

      馮紅娟李云龍梁蕙瑋李榮艷
      (國家圖書館,北京100081)

      [摘要]隨著數(shù)字資源的日益增長,元數(shù)據(jù)正發(fā)揮著越來越重要的作用,尤其是在資源組織與檢索過程中?;谠獢?shù)據(jù)倉儲建設搜索引擎,成為實現(xiàn)資源一站式檢索的新模式。在調(diào)研現(xiàn)有元數(shù)據(jù)倉儲研究成果基礎上,介紹國家數(shù)字圖書館元數(shù)據(jù)倉儲的建設情況,提出存在的問題,并進行反思與展望。

      [關鍵詞]數(shù)字圖書館元數(shù)據(jù)倉儲搜索引擎資源整合

      [分類號]G250.71

      1研究背景

      隨著計算機、網(wǎng)絡技術的發(fā)展和國家信息基礎設施環(huán)境的完善,數(shù)字圖書館的建設得到穩(wěn)步推進,數(shù)字資源不斷增長,但由于不同資源及系統(tǒng)間存在異構性,傳統(tǒng)的整合模式與檢索服務已難以滿足對圖書館資源的統(tǒng)一管理與揭示,這不僅降低了資源的利用率,更給用戶帶來極大不便。為提升服務水平、節(jié)省用戶查詢時間、提高資源利用率,需要建立一種新型的資源檢索模式。

      通過建立元數(shù)據(jù)倉儲來進行資源整合[1],開創(chuàng)元數(shù)據(jù)收集、整合、管理和服務的新機制,可提升檢索響應速度和整合效率,有利于數(shù)據(jù)挖掘和知識發(fā)現(xiàn),可實現(xiàn)各類數(shù)字資源的一站式檢索服務。元數(shù)據(jù)倉儲的建設將為數(shù)字資源的有序組織、統(tǒng)一管理和高效檢索提供基礎,為數(shù)字資源的深層次揭示提供保證,為讀者提供方便、快捷、功能強大的數(shù)字資源服務,并進一步推動數(shù)字圖書館建設的可持續(xù)發(fā)展。

      2元數(shù)據(jù)倉儲建設現(xiàn)狀

      目前,元數(shù)據(jù)倉儲的建設方式和相關技術研究已得到圖書館、科研機構和數(shù)據(jù)庫廠商的廣泛關注,相繼開發(fā)出一些與元數(shù)據(jù)倉儲相關的數(shù)字資源整合服務平臺。以下是幾個元數(shù)據(jù)倉儲應用的實例。

      2.1 Primo

      Primo[2]是Ex Libris公司開發(fā)的一站式資源發(fā)現(xiàn)與獲取解決方案,可集成物理館藏、數(shù)字資源以及圖書館訂購或通過其他方式擁有使用權限的遠程電子資源或數(shù)據(jù)庫。在元數(shù)據(jù)倉儲的建設方面,Primo已整合全球超過5億學術期刊論文、報紙、電子書等資源的元數(shù)據(jù),其中包含了Springer、OCLC WorldCat、Elsevier Scopus等系統(tǒng)的元數(shù)據(jù)。目前,Pri?mo系統(tǒng)已被哈佛大學、牛津大學、清華大學、上海交通大學、鄭州大學等眾多機構采用[3]。該系統(tǒng)可為用戶提供簡潔的搜索界面,實現(xiàn)一站式資源發(fā)現(xiàn),并提供MetaLib聯(lián)邦檢索的集成。

      2.2 Summon

      Summon[4-6]是Serials Solutions公司推出的一項服務,可以提供圖書館館藏資源、圖書館訂購電子資源及免費開放獲取資源等各類型中外文資源的統(tǒng)一發(fā)現(xiàn)與獲取服務。在元數(shù)據(jù)倉儲建設方面,Summon與9000余家出版社合作,收錄10億多條、100多種不同資源類型的元數(shù)據(jù)記錄,包括期刊、書籍、報紙等內(nèi)容。Summon系統(tǒng)目前已被全球數(shù)百家圖書館選用,如哥倫比亞大學、劍橋大學、北京大學、西安交通大學等。

      2.3萬方數(shù)據(jù)統(tǒng)一資源整合服務平臺(UNIRMS.Net)

      UNIRMS.Net是萬方數(shù)據(jù)為實現(xiàn)信息資源的統(tǒng)一整合、檢索和服務而開發(fā)的資源整合服務平臺。該平臺主要采用兩種資源整合技術,第一種是基于元數(shù)據(jù)倉儲的整合,即將多個全文數(shù)據(jù)庫資源的元數(shù)據(jù)導入或者轉換到同一個檢索系統(tǒng),組成一個元數(shù)據(jù)集,通過該檢索系統(tǒng)對所有元數(shù)據(jù)進行Web檢索和發(fā)布,以實現(xiàn)對本地資源、互聯(lián)網(wǎng)信息資源的整合;第二種是基于中間件的整合,在SFX資源整合框架的基礎上實現(xiàn)對網(wǎng)絡數(shù)據(jù)庫資源等虛擬資源的整合。該元數(shù)據(jù)倉儲的數(shù)據(jù)包含了中外文圖書、期刊、論文、專利等內(nèi)容,總數(shù)據(jù)量達5億多條(含中外文數(shù)據(jù)及引文數(shù)據(jù))。

      2.4 CALIS統(tǒng)一檢索平臺

      CALIS統(tǒng)一檢索平臺的建設旨在互聯(lián)網(wǎng)環(huán)境中,針對異構數(shù)字資源,為用戶提供一種新的整合檢索服務,進而提高資源利用率。CALIS統(tǒng)一檢索平臺采用新型的基于元數(shù)據(jù)的檢索技術,能夠對本地和異地的各類數(shù)字資源提供統(tǒng)一的檢索。主要提供以下4類檢索服務:對多種異構數(shù)字資源系統(tǒng)的聯(lián)邦檢索、基于元數(shù)據(jù)倉儲的跨庫檢索服務、對用戶提供個性化檢索服務和與其他應用系統(tǒng)的集成檢索服務。

      以上基于元數(shù)據(jù)倉儲的檢索系統(tǒng)相比傳統(tǒng)的聯(lián)邦檢索,查詢效率及用戶體驗都有了較大改觀,在進行詳細調(diào)研分析后,國家數(shù)字圖書館博采眾長,開始建設元數(shù)據(jù)倉儲,并基于元數(shù)據(jù)倉儲推出了資源搜索門戶——文津搜索系統(tǒng)[7],對國家數(shù)字圖書館的資源和服務進行整合,為讀者提供一站式檢索服務[8]。

      3國家數(shù)字圖書館元數(shù)據(jù)倉儲建設實踐

      3.1建設意義

      隨著數(shù)字圖書館的不斷發(fā)展,元數(shù)據(jù)得到大規(guī)模普及使用,建立一個開放、統(tǒng)一的元數(shù)據(jù)倉儲和管理規(guī)范體系,對資源整合與揭示具有重要意義。國家數(shù)字圖書館元數(shù)據(jù)倉儲通過將來源不同的各類異構數(shù)據(jù)庫元數(shù)據(jù)匯集,按一定的規(guī)則進行清洗、整合并轉化成統(tǒng)一格式元數(shù)據(jù)的過程,為實現(xiàn)圖書館資源的統(tǒng)一管理與揭示奠定了基礎。

      3.2整合范圍

      國家數(shù)字圖書館元數(shù)據(jù)倉儲計劃將收集到的各類元數(shù)據(jù)進行整合,元數(shù)據(jù)范圍包括自建數(shù)據(jù)庫元數(shù)據(jù)、外購數(shù)據(jù)庫元數(shù)據(jù)、全國聯(lián)合編目中心元數(shù)據(jù)以及參與聯(lián)合建設的公共圖書館自建資源元數(shù)據(jù)等。

      從資源類型來說,整合范圍包含圖書、期刊、報紙、多媒體資源、古文獻、縮微資源、文檔、詞條等內(nèi)容,涵蓋圖書館館藏的各種資源類型。從元數(shù)據(jù)格式來說,整合范圍包含Marc、Excel、XML、Word、Access、SQL Server等格式。截至2014年8月,已整合各類數(shù)據(jù)庫130余個,元數(shù)據(jù)超過兩億條,并對其中元數(shù)據(jù)進行著持續(xù)更新。

      3.3建設流程

      元數(shù)據(jù)倉儲建設的具體工作流程包含元數(shù)據(jù)收集、核查、登記、規(guī)則制定、整合等環(huán)節(jié),其流程如圖1所示。

      在元數(shù)據(jù)倉儲的建設初期,首先需要制定元數(shù)據(jù)倉儲建設的相關技術規(guī)范[9]。圖書館界元數(shù)據(jù)的格式多樣,應用最廣的是機讀目錄格式(Machine- Readable Catalogue,MARC)和都柏林核心元素集(Dublin Core,DC),在參考以上兩種格式的基礎上,確定ID、來源ID、題名、其他題名、責任者、出版社、URL等40余個字段為國家數(shù)字圖書館元數(shù)據(jù)倉儲的核心字段,并設置可擴展的字段,以適應特殊元數(shù)據(jù)字段的情況。

      3.3.1元數(shù)據(jù)收集

      在元數(shù)據(jù)收集過程中,除了元數(shù)據(jù)本身,還需要對元數(shù)據(jù)的字段語義及各項描述信息進行準確收集,如元數(shù)據(jù)記錄條數(shù)、元數(shù)據(jù)對應的起止日期等,以便對元數(shù)據(jù)進行維護和后續(xù)更新。針對不同數(shù)據(jù)源,需采取不同的收集策略,目前主要有系統(tǒng)自動收集、通過OAI-PMH接口獲取及人工收集3種元數(shù)據(jù)收集策略。

      圖1 元數(shù)據(jù)倉儲建設流程

      系統(tǒng)自動收集需要研發(fā)數(shù)據(jù)接口程序,通過不同系統(tǒng)間的數(shù)據(jù)接口自動進行元數(shù)據(jù)的收集,這種方式可節(jié)省人力物力,并可保證數(shù)據(jù)實時更新,是比較理想的收集策略,圖書館自建資源的元數(shù)據(jù)正在進行數(shù)據(jù)接口的研發(fā);通過OAI-PMH接口進行數(shù)據(jù)收集,主要是針對提供了OAI-PMH接口的數(shù)據(jù)庫;人工收集元數(shù)據(jù)主要是由人工導出或生成元數(shù)據(jù),通過郵件、FTP、光盤、移動硬盤等方式提交,該方式靈活簡便,不涉及原有系統(tǒng)的改造,所以在收集元數(shù)據(jù)尤其是收集外購數(shù)據(jù)庫元數(shù)據(jù)時應用較多,其缺點是元數(shù)據(jù)更新周期依賴于元數(shù)據(jù)收集頻率,不能實現(xiàn)實時更新。

      3.3.2元數(shù)據(jù)核查

      為保證元數(shù)據(jù)的可用性、完整性、準確性,提高元數(shù)據(jù)倉儲的數(shù)據(jù)質(zhì)量,需要對收集到的元數(shù)據(jù)進行細致核查。元數(shù)據(jù)核查主要內(nèi)容如表1所示,元數(shù)據(jù)核查階段發(fā)現(xiàn)的問題,可通過與元數(shù)據(jù)提供方協(xié)商進行修改,或重新進行元數(shù)據(jù)收集。

      3.3.3元數(shù)據(jù)登記

      元數(shù)據(jù)登記是將每次收到的數(shù)據(jù)庫元數(shù)據(jù)各項描述信息進行記錄,登記項包含數(shù)據(jù)庫名稱、數(shù)據(jù)庫元數(shù)據(jù)格式、元數(shù)據(jù)條數(shù)、元數(shù)據(jù)更新周期、元數(shù)據(jù)更新方式、元數(shù)據(jù)對應的起止日期、元數(shù)據(jù)容量、元數(shù)據(jù)字段名等內(nèi)容,除了元數(shù)據(jù)固有信息的登記,還包含整合情況的信息登記,如數(shù)據(jù)庫整合成功條數(shù)、失敗條數(shù)及原因等。詳細而準確的元數(shù)據(jù)登記,將有助于保證元數(shù)據(jù)倉儲建設的有序開展和不斷壯大。

      表1 元數(shù)據(jù)倉儲數(shù)據(jù)核查原則及內(nèi)容

      3.3.4元數(shù)據(jù)規(guī)則制定

      元數(shù)據(jù)規(guī)則是將多樣化、異構的各類元數(shù)據(jù),轉化為統(tǒng)一的元數(shù)據(jù)倉儲格式需遵循的規(guī)范,包含元數(shù)據(jù)格式轉換的“映射規(guī)則”、確定檢索點字段的“檢索規(guī)則”及用戶界面的“顯示規(guī)則”。由于各類數(shù)據(jù)庫存在異構性,元數(shù)據(jù)格式、編目規(guī)則及描述粒度都存在差異,針對不同類型的資源需單獨制定其元數(shù)據(jù)規(guī)則。

      另外,在元數(shù)據(jù)規(guī)則制定過程中,還需進行資源分類,國家數(shù)字圖書館元數(shù)據(jù)倉儲將資源分為圖書、古文獻、論文、期刊報紙、多媒體、縮微文獻、文檔、詞條8個一級分類,不同文獻類型分別設置不同的檢索字段(如表2所示),以實現(xiàn)對資源的分類整合及精確檢索。

      表2 元數(shù)據(jù)倉儲文獻分類及檢索字段

      3.3.5元數(shù)據(jù)整合

      元數(shù)據(jù)整合是根據(jù)元數(shù)據(jù)規(guī)則制定數(shù)據(jù)解析器,將多樣化元數(shù)據(jù)導入統(tǒng)一的元數(shù)據(jù)倉儲中。數(shù)據(jù)解析器首先遍歷數(shù)據(jù)存儲文件,自動識別未處理的文件及其格式;之后,調(diào)用相應的解析器解析數(shù)據(jù),實現(xiàn)當前格式數(shù)據(jù)向元數(shù)據(jù)倉儲格式的轉換,并將轉換后數(shù)據(jù)存儲至數(shù)據(jù)庫,開展數(shù)據(jù)的查重、修改、刪除、合并等清洗工作;最后,導出數(shù)據(jù)為搜索引擎提供索引支持和檢索顯示。

      3.4建設成效

      元數(shù)據(jù)倉儲可以為搜索引擎提供數(shù)據(jù)支持,基于國家數(shù)字圖書館元數(shù)據(jù)倉儲建設的文津搜索系統(tǒng)自2012年正式發(fā)布使用以來,成效顯著。中文方面,不但包含國家圖書館的館藏圖書、期刊、論文、古籍文獻,還包含了同方知網(wǎng)、維普、方正阿帕比、萬方等外購數(shù)據(jù)庫,并計劃將參與聯(lián)合建設的公共圖書館元數(shù)據(jù)也納入其中;外文方面,包含了Emerald、DDRS、Sage、EBSCO等十余個外文數(shù)據(jù)庫資源。

      由于文津搜索系統(tǒng)基于元數(shù)據(jù)倉儲建設,采用分布式存儲的方式,與聯(lián)邦檢索[10]相比,不再受限于各數(shù)據(jù)庫的檢索效率和傳輸時間,因此檢索速度得到明顯提升,響應時間一般小于1秒,可實現(xiàn)兩億多條元數(shù)據(jù)的海量文獻信息一站式檢索,資源的查全率和查詢速度都得到較大提升。

      除了具有檢索速度快、查全率較高的優(yōu)勢以外,基于元數(shù)據(jù)倉儲的搜索引擎,功能設計更加靈活。由于元數(shù)據(jù)在本地,搜索引擎可實現(xiàn)分類檢索、排序、去重、聚類、熱詞排行、云圖、個性化設置等功能,滿足了用戶的多樣化需求。

      4問題及思考

      基于元數(shù)據(jù)倉儲建設的搜索引擎,在響應速度、查詢效率、用戶體驗等方面均取得了良好的使用效果,但也還存在以下問題亟待解決。

      ①元數(shù)據(jù)收集與更新問題。元數(shù)據(jù)倉儲的數(shù)據(jù)來源具有多樣性,自建資源的收集相對容易,可通過建設數(shù)據(jù)接口來實現(xiàn)元數(shù)據(jù)實時更新;外購數(shù)據(jù)庫的元數(shù)據(jù)收集需與數(shù)據(jù)庫廠家進行溝通協(xié)商,多采用手動更新,更新周期較長;公共圖書館自建資源的元數(shù)據(jù)收集需與各公共圖書館達成合作意向,也存在更新不夠及時的問題。

      ②尚未充分利用規(guī)范數(shù)據(jù)。規(guī)范數(shù)據(jù)對信息的查找、定位和闡明關系具有重要作用,有利于提高檢索的查準率和查全率。但目前只有圖書館書目數(shù)據(jù)進行了規(guī)范化處理,外購數(shù)據(jù)庫和自建數(shù)據(jù)庫還沒有規(guī)范數(shù)據(jù),如何對這些海量元數(shù)據(jù)進行規(guī)范化處理,為元數(shù)據(jù)倉儲知識關聯(lián)奠定基礎,提高檢索服務效率,是一個值得研究的課題。

      ③某些數(shù)據(jù)庫缺少元數(shù)據(jù)標準規(guī)范。元數(shù)據(jù)倉儲接收到的元數(shù)據(jù)包含MARC、DC、XML、SQL、ACCESS等多種格式,編目字段及描述粒度也不一致,某些數(shù)據(jù)庫還缺少相應的元數(shù)據(jù)標準規(guī)范,這對元數(shù)據(jù)倉儲的數(shù)據(jù)質(zhì)量產(chǎn)生了一定影響。

      針對以上問題,在元數(shù)據(jù)倉儲建設過程中,還需進一步完善元數(shù)據(jù)收集及更新機制,增加宣傳推廣,提升元數(shù)據(jù)倉儲建設的認知度,將有助于元數(shù)據(jù)收集和更新工作的順利開展,有助于元數(shù)據(jù)倉儲提升數(shù)據(jù)質(zhì)量。另外,在元數(shù)據(jù)倉儲建設過程中,還需在工作經(jīng)驗積累的基礎上,加強對元數(shù)據(jù)標準、數(shù)字資源分類、規(guī)范控制、唯一標識符以及數(shù)據(jù)挖掘等方面的理論及實踐研究,進一步推動元數(shù)據(jù)倉儲的可持續(xù)發(fā)展。

      5 展望

      元數(shù)據(jù)倉儲的建設除了技術平臺的研發(fā),更重要的是資源內(nèi)容的建設,如何為搜索引擎提供內(nèi)容豐富、更新及時、質(zhì)量可控的元數(shù)據(jù),是元數(shù)據(jù)倉儲提升服務質(zhì)量的關鍵。而合作共建共享無疑是元數(shù)據(jù)倉儲建設的最好途徑,也是其發(fā)展趨勢。目前,各圖書館的外購數(shù)據(jù)庫大多具有獨立的入口,自建數(shù)據(jù)庫、專題庫等也還有較多仍處于“孤島”狀態(tài),使用率低。通過合作共建共享,可以將更多的數(shù)字資源進行收集、匯聚、整合和服務,一方面可以節(jié)省元數(shù)據(jù)倉儲建設成本,另一方面可以提高資源的利用率,為讀者提供一站式的資源發(fā)現(xiàn)和獲取服務。

      參考文獻:

      [1]徐榮華.基于元數(shù)據(jù)倉儲的資源整合應用[J].圖書館雜志,2012(4):67-73.

      [2] Exlibris Primo[EB/OL].[2014- 07- 10].http://www.exlibris. co.il/.

      [3]許新巧,劉華,詹華清.學術搜索引擎Primo和Google Scholar的比較分析[J].圖書館學研究,2013(18):38-43.

      [4] The Summon Service[EB/OL].[2014-07-17].http://www.se?rialssolutions.com/en/services/summon.

      [5]秦鴻,錢國富,鐘遠薪.三種發(fā)現(xiàn)服務系統(tǒng)的比較研究[J].大學圖書館學報,2012(5):5-11.

      [6]趙國榮.高校圖書館數(shù)字資源整合探索與實踐[J].圖書館學研究,2012(20):53-56.

      [7]文津搜索[EB/OL].[2014-08-26].http://find.nlc.gov.cn/.

      [8]魏大威.數(shù)字圖書館的科學規(guī)劃與發(fā)展探析——國家數(shù)字圖書館的探索與實踐[J].圖書館理論與實踐,2013(4):1-4.

      [9]梁蕙瑋,薩蕾.數(shù)字圖書館推廣工程面向數(shù)字資源整合的元數(shù)據(jù)倉儲構建[J].國家圖書館學刊,2012(5):27-32.

      [10]馬燁.國外主要聯(lián)邦檢索系統(tǒng)的興起、現(xiàn)狀及發(fā)展趨勢[J].圖書館建設,2009(3):1-5.

      馮紅娟女,1983年生。碩士,館員。

      李云龍男,1988年生。碩士,助理館員。

      梁蕙瑋女,1974年生。碩士,館員。

      李榮艷女,1982年生。碩士,館員。

      收稿日期:(2014-11-07;責編:張欣。)

      猜你喜歡
      檢索數(shù)據(jù)庫數(shù)字
      2019年第4-6期便捷檢索目錄
      答數(shù)字
      數(shù)據(jù)庫
      財經(jīng)(2017年2期)2017-03-10 14:35:35
      數(shù)字看G20
      南風窗(2016年19期)2016-09-21 16:56:12
      數(shù)據(jù)庫
      財經(jīng)(2016年15期)2016-06-03 07:38:02
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      數(shù)據(jù)庫
      財經(jīng)(2016年3期)2016-03-07 07:44:46
      數(shù)據(jù)庫
      財經(jīng)(2016年6期)2016-02-24 07:41:51
      成雙成對
      國際標準檢索
      海阳市| 成安县| 八宿县| 遂平县| 颍上县| 烟台市| 会宁县| 麻阳| 依兰县| 扬州市| 独山县| 电白县| 共和县| 泰兴市| 望奎县| 南皮县| 磴口县| 原阳县| 仲巴县| 彩票| 沈丘县| 成武县| 毕节市| 怀柔区| 互助| 宝应县| 会泽县| 东源县| 六盘水市| 岑巩县| 岑溪市| 剑阁县| 石柱| 衡东县| 肥西县| 顺义区| 日土县| 西平县| 繁峙县| 龙岩市| 益阳市|