• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Web收割工具的描述型元數(shù)據(jù)功能評(píng)析*

      2019-03-27 11:11:08臧國(guó)全
      圖書館 2019年3期
      關(guān)鍵詞:標(biāo)引賦值站點(diǎn)

      臧國(guó)全 李 哲

      (1 鄭州大學(xué)信息管理學(xué)院 鄭州 450001;2 鄭州大學(xué)公共管理學(xué)院 鄭州 450001)

      1 引言

      人類社會(huì)進(jìn)入了因特網(wǎng)時(shí)代,Web資源已成為人們使用信息資源的主體。但是,因特網(wǎng)是一個(gè)動(dòng)態(tài)網(wǎng)絡(luò),通過(guò)其發(fā)布和傳播的Web資源隨時(shí)可能消失,因此,保存Web資源的歷史完整性和連續(xù)性就成為了因特網(wǎng)時(shí)代的一項(xiàng)社會(huì)職責(zé)。

      目前,不少信息機(jī)構(gòu)已開始履行這項(xiàng)職責(zé),建立Web保存項(xiàng)目,長(zhǎng)期保存這類數(shù)字化知識(shí)遺產(chǎn)。保存的前提是收割,保存的目的是供用戶日后訪問(wèn)使用。收割需要使用Web收割工具,訪問(wèn)需要使用描述型元數(shù)據(jù)。如果Web收割工具可以自動(dòng)生成描述型元數(shù)據(jù)以支持被收割內(nèi)容的自動(dòng)發(fā)現(xiàn),不僅可以顯著提高元數(shù)據(jù)的生產(chǎn)效率,實(shí)現(xiàn)元數(shù)據(jù)生產(chǎn)的規(guī)?;部蓽p少Web保存的成本,甚至可提高Web保存信息的描述質(zhì)量,高效地滿足用戶對(duì)它的發(fā)現(xiàn)與使用。

      因此,我們有必要通過(guò)訪問(wèn)相關(guān)專業(yè)網(wǎng)站,考察Web收割工具描述型元數(shù)據(jù)功能的現(xiàn)狀,評(píng)估收割過(guò)程對(duì)元數(shù)據(jù)功能的支持程度,并在此基礎(chǔ)上,分析Web收割工具描述型元數(shù)據(jù)功能所涉及的一些基本問(wèn)題,提出解決這些問(wèn)題的基本思路。

      2 Web收割工具描述型元數(shù)據(jù)功能的現(xiàn)狀評(píng)估

      2.1 方法

      本研究中的Web收割工具選自國(guó)際因特網(wǎng)保存聯(lián)盟(IIPC)2017年發(fā)布的《Web收割工具目錄》[1],選擇的主要標(biāo)準(zhǔn)是具有描述型元數(shù)據(jù)功能。

      評(píng)估項(xiàng)目有兩個(gè):一是工具的基本情況,包括主要作用、收割形成的文件類型、與其他工具之間的關(guān)系;二是工具的元數(shù)據(jù)功能,包括工具采用的描述型元數(shù)據(jù)方案、收割過(guò)程中自動(dòng)抓取的元數(shù)據(jù)元素、用戶可賦值編輯的元數(shù)據(jù)元素、可被輸出應(yīng)用的元數(shù)據(jù)元素。

      評(píng)估過(guò)程分三個(gè)階段:首先,訪問(wèn)網(wǎng)站,瀏覽分析有關(guān)收割工具的介紹;其次,下載安裝或注冊(cè)試用這些工具,對(duì)描述型元數(shù)據(jù)功能逐一考察;最后,聯(lián)系工具創(chuàng)建者,征求其對(duì)考察結(jié)果的意見,核實(shí)實(shí)驗(yàn)準(zhǔn)確度,完善實(shí)驗(yàn)結(jié)果。

      2.2 結(jié)果

      常用Web收割工具的描述型元數(shù)據(jù)功能考察結(jié)果見表1。

      表1 常用Web收割工具的描述型元數(shù)據(jù)功能考察結(jié)果

      Web Archive Discovery[9]功能:開源工具,主要功能是實(shí)施Web收割后,提供Web保存的全文檢索。方法:使用WARC的索引工具分析以WARC和ARC格式保存的Web文件內(nèi)容,將分析結(jié)果傳送至Apache Solr服務(wù)器,生成索引;檢索者通過(guò)客戶端工具檢索Solr索引,生成查詢結(jié)果生成文件的類型:WARC和ARC格式與其他工具的關(guān)系:Solr索引,是實(shí)現(xiàn)該工具核心功能所需的外部工具采用的元數(shù)據(jù)方案:JSON。該工具將對(duì)WARC和ARC文件的解析結(jié)果生成JSON格式文件,用于SOLR檢索可自動(dòng)賦值的元數(shù)據(jù)元素:描述型有抓取日期、URL、內(nèi)容類型等;管理型有來(lái)源文件、服務(wù)器、主機(jī)、hash函數(shù)等用戶可賦值編輯的元數(shù)據(jù)元素:無(wú)。所有描述型元數(shù)據(jù)元素都可自動(dòng)生成可輸出被外部使用的元數(shù)據(jù)元素:所有的元數(shù)據(jù)元素都可被導(dǎo)出Web Curator Tool[10]功能:開源Web收割工作流程管理工具,包括收割內(nèi)容的許可和授權(quán)、內(nèi)容選擇和范圍劃定、收割活動(dòng)實(shí)施和質(zhì)量檢查以及存檔保存等生成文件的類型:WARC和ARC格式與其他工具的關(guān)系:使用Heritrix 收割Web內(nèi)容,使用WARC文件為最小保存單元,可結(jié)合使用Wayback Machine和Rosetta DPS采用的元數(shù)據(jù)方案:DC可自動(dòng)賦值的元數(shù)據(jù)元素:抓取日期并自動(dòng)計(jì)算記錄在dc:date字段中。其他的描述型元數(shù)據(jù)元素需用戶添加用戶可賦值編輯的元數(shù)據(jù)元素:Web資源的名稱、所有者、注釋以及DC中描述字段中的其他基本元素可被外部使用的描述型元數(shù)據(jù)元素:所有元數(shù)據(jù)都添加到WARC和ARC格式的文件中。當(dāng)這些文件被提交到保存系統(tǒng)中時(shí),這些元數(shù)據(jù)也都將存儲(chǔ)在提交信息包(SIP)中Webrecorder[11]功能:免費(fèi)的社交媒體收割工具,可抓取用戶的社交過(guò)程,包括交互內(nèi)容、交流語(yǔ)境、動(dòng)態(tài)多媒體、復(fù)雜JAVA腳本等;嚴(yán)格按照時(shí)序收割用戶交流過(guò)程中涉及的Web頁(yè)面和其他數(shù)字對(duì)象,保存用戶的真實(shí)使用經(jīng)歷。收割結(jié)果以WARC格式文件保存。網(wǎng)站抓取和保存對(duì)象的回放使用同一軟件,稱為對(duì)稱Web保存法生成文件的類型:WARC格式與其他工具的關(guān)系:無(wú)采用的元數(shù)據(jù)方案:JSON可自動(dòng)賦值的元數(shù)據(jù)元素:描述型有創(chuàng)建者、標(biāo)題、抓取日期/時(shí)間、存檔文件格式、URL等用戶可賦值編輯的元數(shù)據(jù)元素:無(wú)。該工具聲明將開發(fā)這類元素可輸出被外部使用的元數(shù)據(jù)元素:所有生成的內(nèi)嵌于WARC文件中的元數(shù)據(jù)元素都可以被調(diào)用

      2.3 結(jié)果分析

      由表1可知,雖然不同收割工具的元數(shù)據(jù)功能不盡相同,但總體上對(duì)描述型元數(shù)據(jù)的支持程度都不高,具體表現(xiàn)在:

      其一,大部分收割工具都獲取并存儲(chǔ)了技術(shù)型元數(shù)據(jù),以便準(zhǔn)確地重構(gòu)和再現(xiàn)收割的Web信息資源,但獲取描述型元數(shù)據(jù)的不多,因?yàn)槭崭畹奈募忻枋鲂驮獢?shù)據(jù)本來(lái)就很少。因此,在工具內(nèi)部甚至工具外部由人工創(chuàng)建描述型元數(shù)據(jù)就成為了常見的補(bǔ)充方法。

      其二,除非原始網(wǎng)頁(yè)的創(chuàng)建者在創(chuàng)建網(wǎng)頁(yè)時(shí)就習(xí)慣性地在相應(yīng)標(biāo)簽內(nèi)(如HTML格式網(wǎng)頁(yè)的meta標(biāo)簽)嵌入更多描述型元數(shù)據(jù)元素,否則自動(dòng)生成這類元素比較困難。

      其三,幾乎所有收割工具都抓取網(wǎng)站標(biāo)題和收割日期作為描述型元數(shù)據(jù)元素,但有時(shí)自動(dòng)抓取的元素內(nèi)容是無(wú)效的,比如,網(wǎng)站標(biāo)題“主頁(yè)”和“標(biāo)題”等無(wú)實(shí)質(zhì)內(nèi)容描述。

      其四,并不是所有的工具都以相同的方式定義描述型元數(shù)據(jù),表現(xiàn)在兩個(gè)方面:一是采用的描述型元數(shù)據(jù)方案不一樣,有DC、JSON、CDX、WARC等;二是自動(dòng)生成和人工賦值的元數(shù)據(jù)元素不盡相同。

      如何提高Web收割工具的描述型元數(shù)據(jù)功能?筆者認(rèn)為可從以下兩個(gè)方面著手:

      其一,針對(duì)Web特質(zhì),建立對(duì)其進(jìn)行描述的元數(shù)據(jù)方案。據(jù)OCLC(聯(lián)機(jī)計(jì)算機(jī)圖書館中心)考察,業(yè)已存在的描述型元數(shù)據(jù)方案對(duì)Web描述的支持都較差,還沒(méi)有出現(xiàn)一個(gè)完全適合Web的描述型元數(shù)據(jù)方案。本文對(duì)部分收割工具的描述型元數(shù)據(jù)功能進(jìn)行了考察,并征求收割工具開發(fā)者對(duì)考察結(jié)果的意見時(shí),部分開發(fā)者表示要積極尋求用戶反饋,以確定對(duì)用戶有價(jià)值的元數(shù)據(jù)元素;另一些期望與圖書館、檔案館和博物館等信息機(jī)構(gòu)合作研究出一個(gè)適合Web描述的元數(shù)據(jù)元素集合;還有一些期望圖書情報(bào)學(xué)界制定出臺(tái)一個(gè)用于Web描述的元數(shù)據(jù)方案。實(shí)際上,這個(gè)元數(shù)據(jù)方案是收割工具提供元數(shù)據(jù)功能的前提,正是因?yàn)樗娜笔В崭罟ぞ邿o(wú)章可循,各行其道,一方面導(dǎo)致混亂,另一方面其針對(duì)性和適用性無(wú)法得到保證。這是目前Web收割工具的描述型元數(shù)據(jù)功能欠佳的原因之一。

      其二,收割工具自動(dòng)抓取或產(chǎn)生元數(shù)據(jù)元素的描述內(nèi)容,實(shí)現(xiàn)自動(dòng)賦值。這里涉及三個(gè)問(wèn)題:一是收割工具需設(shè)計(jì)該項(xiàng)功能,這是工具開發(fā)的技術(shù)問(wèn)題;二是從Web網(wǎng)站和頁(yè)面中自動(dòng)抽取元數(shù)據(jù)的賦值內(nèi)容,這是自然語(yǔ)言自動(dòng)理解和多媒體的自動(dòng)描述問(wèn)題,也屬于技術(shù)問(wèn)題;三是Web頁(yè)面的腳本標(biāo)記中包含所需的賦值內(nèi)容,比如Web頁(yè)面源代碼標(biāo)記語(yǔ)言中的元數(shù)據(jù)標(biāo)記(如HTML的meta)中包含元數(shù)據(jù)元素所需的賦值內(nèi)容,這是規(guī)范使用Web頁(yè)面的元數(shù)據(jù)標(biāo)記問(wèn)題,需要強(qiáng)化Web管理來(lái)規(guī)范Web內(nèi)容創(chuàng)建者的元數(shù)據(jù)構(gòu)建行為,屬于管理問(wèn)題。目前,上述三個(gè)問(wèn)題的解決方案都不到位,不少收割工具的元數(shù)據(jù)功能設(shè)計(jì)欠佳,甚至缺失;自然語(yǔ)言自動(dòng)理解和多媒體的自動(dòng)描述技術(shù)仍不成熟,準(zhǔn)確度還沒(méi)有達(dá)到規(guī)模化應(yīng)用水平;Web頁(yè)面創(chuàng)建雖有技術(shù)規(guī)范,但管理規(guī)范仍然缺失。這是Web收割工具的描述型元數(shù)據(jù)功能欠佳的原因之二。

      3 Web收割工具的描述型元數(shù)據(jù)功能分析

      由上分析可知,Web收割工具描述型元數(shù)據(jù)功能的實(shí)現(xiàn)涉及兩個(gè)問(wèn)題:元數(shù)據(jù)方案的建立和元數(shù)據(jù)賦值的自動(dòng)化。第二個(gè)問(wèn)題的解決更多的不是依賴于圖書情報(bào)學(xué),而是依賴于技術(shù)和管理;第一個(gè)問(wèn)題的解決則純粹是圖書情報(bào)學(xué)的任務(wù)。因此,本部分僅探討第一個(gè)問(wèn)題,即對(duì)構(gòu)建適合于Web的描述型元數(shù)據(jù)方案所涉及的一些基本問(wèn)題進(jìn)行分析。

      3.1 構(gòu)建的基本原則

      雖業(yè)已存在多個(gè)描述型元數(shù)據(jù)方案,如DC、MARC等,但均無(wú)法完全反映Web站點(diǎn)和專題Web站點(diǎn)集合的獨(dú)特性質(zhì),比如URL、站點(diǎn)內(nèi)容的動(dòng)態(tài)性等。因此,Web描述元數(shù)據(jù)方案宏觀上至少應(yīng)該在以下幾個(gè)方面有所體現(xiàn):

      形式上,獨(dú)立于Web保存機(jī)構(gòu)和現(xiàn)有元數(shù)據(jù)方案;但需與相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)兼容,以備交換元數(shù)據(jù)標(biāo)引結(jié)果和細(xì)化元數(shù)據(jù)元素之需要;目的上,滿足最終用戶和元數(shù)據(jù)實(shí)踐者(一般也是保存機(jī)構(gòu))對(duì)Web保存與檢索的需求;內(nèi)容上,定義了一套簡(jiǎn)潔的描述型元數(shù)據(jù)元素,并附使用說(shuō)明以指導(dǎo)元數(shù)據(jù)標(biāo)引實(shí)踐;方法上,融合圖書管理中的目錄式描述方法和檔案管理中的存檔式描述方法,建立既可進(jìn)行簡(jiǎn)單標(biāo)引又可在需要之時(shí)進(jìn)行詳細(xì)描述的彈性實(shí)用的Web描述元數(shù)據(jù)方案;實(shí)踐上,可實(shí)現(xiàn)大規(guī)模自動(dòng)標(biāo)引,這就要求既無(wú)需深度描述,也無(wú)需隨著時(shí)間推移進(jìn)行大規(guī)模遷移和轉(zhuǎn)換,以滿足標(biāo)引對(duì)象數(shù)量巨大的要求。

      3.2 在線站點(diǎn)的描述與存檔站點(diǎn)的描述

      不少圖書館和檔案館等信息機(jī)構(gòu)同時(shí)建有實(shí)體(存檔)Web數(shù)據(jù)庫(kù)(如Archive-It)和虛擬(在線)Web數(shù)據(jù)庫(kù)(如學(xué)科導(dǎo)航),既需要描述存檔站點(diǎn),也需要描述在線站點(diǎn),因此Web描述元數(shù)據(jù)方案應(yīng)兼顧這兩類站點(diǎn)。但是,我們需在元數(shù)據(jù)設(shè)計(jì)時(shí)考慮兩類站點(diǎn)的不同之處。

      價(jià)值上。在線站點(diǎn)提供最新信息,具有現(xiàn)實(shí)價(jià)值;存檔站點(diǎn)提供歷史信息,具有長(zhǎng)期的研究?jī)r(jià)值。如,收割美國(guó)白宮網(wǎng)站的不同內(nèi)容版本并存檔,可以用來(lái)研究美國(guó)近三屆政府在環(huán)境保護(hù)政策方面的不同之處。

      訪問(wèn)鏈接上。在線站點(diǎn)元數(shù)據(jù)描述的是當(dāng)前版本,隨著站點(diǎn)消失,其訪問(wèn)URL將導(dǎo)致死鏈。但是,當(dāng)在線站點(diǎn)被收割存檔后,其訪問(wèn)鏈接指向存檔版本,既不會(huì)消失也不會(huì)產(chǎn)生死鏈。

      日期記錄上。在線站點(diǎn)元數(shù)據(jù)的記錄日期可能是它被描述時(shí)的瀏覽日期,或是首次上線的日期。但存檔站點(diǎn)的抓取日期很重要,應(yīng)在其元數(shù)據(jù)中予以描述。當(dāng)收割并存檔一個(gè)站點(diǎn)的所有不同內(nèi)容版本時(shí),可根據(jù)抓取日期瀏覽該站點(diǎn)的演變歷史。

      訪問(wèn)限制上。絕大部分在線站點(diǎn)均可公共訪問(wèn),且無(wú)訪問(wèn)限制。但存檔站點(diǎn)的訪問(wèn)權(quán)限取決于存檔機(jī)構(gòu),在訪問(wèn)機(jī)制建立前,存檔站點(diǎn)一般僅供現(xiàn)場(chǎng)訪問(wèn)。

      因此,同一個(gè)站點(diǎn)的在線版本和存檔版本的元數(shù)據(jù)描述不完全一樣。如果一個(gè)機(jī)構(gòu)期望兩個(gè)版本同時(shí)被描述從而提供用戶訪問(wèn),可設(shè)計(jì)一個(gè)元數(shù)據(jù)方案,但須兼容兩者的不同之處,比如穩(wěn)定的訪問(wèn)URL。從成本效益角度來(lái)看,這種方案可能是一個(gè)比較理想的選擇。

      3.3 目錄式描述與檔案式描述

      前者主要用于圖書館對(duì)館藏?cái)?shù)字資源的著錄,著錄內(nèi)容來(lái)自描述項(xiàng)內(nèi)容的抽取,主要元素有標(biāo)題和主題詞。后者一般是一組來(lái)源相關(guān)的未公開發(fā)表信息資源集合存檔的一種描述方法,標(biāo)題是基于存檔內(nèi)容概括設(shè)計(jì)出來(lái)的,而不是抽取出來(lái)的,且常常使用大量文本型注釋描述存檔內(nèi)容的語(yǔ)境。許多存檔Web資源集合都是專題性Web資源選擇與收割的結(jié)果。

      兩種描述方式的一些元素是相同的,尤其是檢索點(diǎn),比如,主題詞、Web信息資源的類型、人名、組織機(jī)構(gòu)名、地理名稱等。

      圖書館和檔案館是實(shí)施Web保存的主要信息機(jī)構(gòu),目前這兩類機(jī)構(gòu)的Web存檔實(shí)踐是目錄式描述和檔案式描述共存,它們的描述方式由來(lái)已久,不易改變。因此,Web描述型元數(shù)據(jù)方案設(shè)計(jì)應(yīng)該考慮圖書館和檔案館的實(shí)踐慣例,同時(shí)滿足目錄式和檔案式描述的需要。

      3.4 站點(diǎn)式描述與集合式描述

      前者的描述對(duì)象是單個(gè)站點(diǎn),后者是多個(gè)站點(diǎn)的集合,且站點(diǎn)之間一般具有相關(guān)性,比如一個(gè)專題的所有站點(diǎn)。

      選擇策略。兩種描述方式都可用于Web存檔內(nèi)容,選擇哪種方式取決于Web保存機(jī)構(gòu)和可利用的人力資源等。目前,圖書館常采用站點(diǎn)式描述方法建立在線單站點(diǎn)的元數(shù)據(jù)記錄,通過(guò)檢索系統(tǒng)提供用戶訪問(wèn);相反,檔案館幾乎都采用集合式描述方法將收割的專題性Web站點(diǎn)集合作為一個(gè)描述單元構(gòu)建元數(shù)據(jù),供長(zhǎng)期保存之用。很明顯,站點(diǎn)式描述對(duì)于收割大量站點(diǎn)但人力資源不充足的機(jī)構(gòu)是一個(gè)沉重負(fù)擔(dān),尤其是要求詳細(xì)描述的情況。因此,根據(jù)保存目的、Web資源屬性和人力資源情況選擇描述方式是一種常見策略。

      集合式描述的優(yōu)勢(shì)。按照專題收集Web站點(diǎn),比如記錄一個(gè)重要事件或向已建立專題添加Web站點(diǎn),這種Web存檔采用集合式描述比站點(diǎn)式描述更具成本效益性。另外,集合式描述可通過(guò)記錄集合的范圍、作用和共同的主題特征等提供語(yǔ)境信息,這是站點(diǎn)式描述無(wú)法實(shí)現(xiàn)的。集合式描述是資源發(fā)現(xiàn)的基礎(chǔ),可輔助于單站點(diǎn)描述,比如,在集合式描述的基礎(chǔ)上,輔助于各個(gè)站點(diǎn)的標(biāo)題和URL,可同時(shí)提供宏觀和微觀兩個(gè)層級(jí)Web存檔的標(biāo)引。但這種方法的使用要有“度”,比如,當(dāng)存檔Web集合包含大量站點(diǎn)時(shí),列出一個(gè)冗長(zhǎng)的URL清單可能作用不大,也容易產(chǎn)生混亂。

      鑒于上述分析,Web描述元數(shù)據(jù)方案應(yīng)該既適合于站點(diǎn)式描述也適合于集合式描述,但在一些易產(chǎn)生歧義的元素標(biāo)引上應(yīng)輔助說(shuō)明。比如,單個(gè)網(wǎng)站的標(biāo)題常常是站點(diǎn)中重要文本內(nèi)容的轉(zhuǎn)錄,而一個(gè)Web集合的標(biāo)題常由收集機(jī)構(gòu)設(shè)計(jì);單個(gè)站點(diǎn)的創(chuàng)建者容易被識(shí)別,除非有意匿名,而一個(gè)聚焦在當(dāng)前某一事件或主題的Web站點(diǎn)集合很少存在一個(gè)整體上的內(nèi)容創(chuàng)建者;針對(duì)一個(gè)主題的Web資源集合式描述,其日期記錄可以是收割的時(shí)間跨度,但一個(gè)單獨(dú)在線站點(diǎn)的日期記錄只能是被瀏覽且描述的時(shí)間或上線時(shí)間。

      3.5 滿足最終用戶的需求

      根據(jù)OCLC的調(diào)查[12],Web保存的最終用戶主要集中在各學(xué)科的科研人員,且主要需求有:①除了用于Web存檔內(nèi)容發(fā)現(xiàn)所需的描述型元數(shù)據(jù)元素外,還需存檔Web的語(yǔ)境信息,比如:來(lái)源信息,選擇收割站點(diǎn)和構(gòu)建Web資源集合的決策信息,Web資源集合的收割完整性和收割站點(diǎn)的內(nèi)容變化歷史軌跡等。②相對(duì)于開放的在線Web訪問(wèn)上的便捷性和普遍性,存檔Web資源的訪問(wèn)限制(如局限在圖書館內(nèi)部現(xiàn)場(chǎng)瀏覽)是用戶使用的障礙之一。③用戶使用存檔Web資源存在可獲得性障礙,比如:訪問(wèn)系統(tǒng)復(fù)雜性,界面缺乏友好性,缺乏用戶支持服務(wù)項(xiàng)目等。

      為此,Web描述元數(shù)據(jù)方案在設(shè)計(jì)元素時(shí)應(yīng)標(biāo)引下列內(nèi)容:Web存檔資源的出處、收割的完整性、站點(diǎn)內(nèi)容改變記錄、存檔Web的知識(shí)產(chǎn)權(quán)、訪問(wèn)限制等。

      3.6 滿足元數(shù)據(jù)實(shí)踐者的要求

      元數(shù)據(jù)實(shí)踐者主要有:學(xué)者出于研究目的構(gòu)建個(gè)人Web資源庫(kù);圖書館使用RDA和MARK,尋求用于描述Web資源的相關(guān)元素;檔案機(jī)構(gòu)將其采用DACS和EAD標(biāo)準(zhǔn)描述的檔案映射到結(jié)構(gòu)更加簡(jiǎn)單的Web工具(如Archive-It)中;保存系統(tǒng)對(duì)Web收割內(nèi)容進(jìn)行元數(shù)據(jù)標(biāo)引。

      根據(jù)OCLC的調(diào)查[13],元數(shù)據(jù)實(shí)踐者的相關(guān)需求主要有:①元數(shù)據(jù)標(biāo)引應(yīng)該大規(guī)模自動(dòng)化,因?yàn)榇蠖鄶?shù)機(jī)構(gòu)從事這項(xiàng)工作的人力資源非常有限;②與圖書館和檔案館現(xiàn)行的Web存檔描述標(biāo)準(zhǔn)相兼容;③目前,目錄式、檔案式和混合式描述方法同時(shí)使用,需要尋到一種解決方案將上述三種方法有效結(jié)合;④目前的Web存檔描述標(biāo)準(zhǔn)及應(yīng)用高度不一致,不僅體現(xiàn)在元數(shù)據(jù)元素上,還表現(xiàn)在元素的內(nèi)容賦值上,故應(yīng)建立統(tǒng)一的Web存檔描述標(biāo)準(zhǔn);⑤描述存檔Web的元數(shù)據(jù)標(biāo)引結(jié)果需在多個(gè)Web保存系統(tǒng)之間交換甚至共享,應(yīng)制定這類元數(shù)據(jù)的跨系統(tǒng)再利用協(xié)議。

      因此,為了滿足元數(shù)據(jù)實(shí)踐者的上述需求,Web描述元數(shù)據(jù)方案應(yīng)該遵循以下原則:簡(jiǎn)單高效,以實(shí)現(xiàn)規(guī)模化自動(dòng)化標(biāo)引;分析吸收現(xiàn)行的元數(shù)據(jù)方案,以實(shí)現(xiàn)元數(shù)據(jù)方案之間的兼容性;具有一定程度的可擴(kuò)展性,以包容目錄式和檔案式兩種描述方法;標(biāo)準(zhǔn)化,以實(shí)現(xiàn)元數(shù)據(jù)元素及其賦值規(guī)則的統(tǒng)一化;協(xié)議化,以實(shí)現(xiàn)跨系統(tǒng)的交換和共享。

      3.7 元數(shù)據(jù)元素的選擇

      我們應(yīng)針對(duì)Web特質(zhì)選擇元數(shù)據(jù)元素,所選元素均應(yīng)適用于Web描述,包括單站點(diǎn)和專題性的多站點(diǎn)集合兩個(gè)層級(jí)的描述,且使用說(shuō)明也應(yīng)完全體現(xiàn)Web描述的特質(zhì)。

      元素選擇應(yīng)遵循的原則有:適合于規(guī)?;x值;既可獨(dú)立使用,也可結(jié)合圖書館和檔案館現(xiàn)行標(biāo)準(zhǔn)一起使用,以提供細(xì)粒度描述;元素名稱和定義應(yīng)盡可能采用現(xiàn)行元數(shù)據(jù)標(biāo)準(zhǔn),以增強(qiáng)各標(biāo)準(zhǔn)間的兼容性和描述的一致性;各元素的使用說(shuō)明應(yīng)為標(biāo)引者提供幫助,且標(biāo)引結(jié)果不產(chǎn)生歧義;應(yīng)包含常用元素(如貢獻(xiàn)者、日期、主題詞、標(biāo)題等),這些元素對(duì)所有類型信息資源的識(shí)別和發(fā)現(xiàn)至關(guān)重要;其他元素須適用于存檔Web站點(diǎn)的描述,比如產(chǎn)權(quán)和URL等;應(yīng)適用于各層級(jí)的描述,如單站點(diǎn)描述、專題性的多站點(diǎn)集合描述等,這種描述應(yīng)遵從存檔標(biāo)準(zhǔn)中(如DACS和EAD)的多層級(jí)描述原則。

      我們選擇元數(shù)據(jù)元素一般分四個(gè)步驟:首先,基于目前廣泛應(yīng)用的數(shù)字資源描述標(biāo)準(zhǔn)DC、EAD、MARC21、MODS和schema.org等,選擇通用元素,如貢獻(xiàn)者(Contributor)、創(chuàng)建者(Creator)、日期(Date)、描述(Description)、語(yǔ)種(Language)、關(guān)系(Relation)、主題詞(Subject)、標(biāo)題(Title)等;其次,針對(duì)Web特質(zhì),設(shè)計(jì)其他候選元素,如收割者(Harvester)、范圍(Extent)、類型(Genre/Form)、產(chǎn)權(quán)信息(Rights)、URL等;再次,針對(duì)每個(gè)候選元素,界定含義、輔助使用說(shuō)明以及與其他主要描述型元數(shù)據(jù)方案之間的映射;最后,采用德爾菲法,征詢業(yè)內(nèi)專家、Web資源描述實(shí)踐者和最終用戶的意見,并進(jìn)行一定規(guī)模的試標(biāo)引,完善所建立的Web描述元數(shù)據(jù)方案。

      (來(lái)稿時(shí)間:2018年5月)

      猜你喜歡
      標(biāo)引賦值站點(diǎn)
      關(guān)于1 1/2 … 1/n的一類初等對(duì)稱函數(shù)的2-adic賦值
      L-代數(shù)上的賦值
      基于Web站點(diǎn)的SQL注入分析與防范
      電子制作(2019年14期)2019-08-20 05:43:42
      檔案主題標(biāo)引與分類標(biāo)引的比較分析
      2017~2018年冬季西北地區(qū)某站點(diǎn)流感流行特征分析
      強(qiáng)賦值幺半群上的加權(quán)Mealy機(jī)與加權(quán)Moore機(jī)的關(guān)系*
      本刊對(duì)來(lái)稿中關(guān)鍵詞標(biāo)引的要求
      首屆歐洲自行車共享站點(diǎn)協(xié)商會(huì)召開
      怕被人認(rèn)出
      利用賦值法解決抽象函數(shù)相關(guān)問(wèn)題オ
      斗六市| 鲁山县| 莱芜市| 分宜县| 新郑市| 靖边县| 宝鸡市| 甘泉县| 东乡族自治县| 沙湾县| 临潭县| 宜兰县| 剑川县| 乡宁县| 报价| 鄂温| 三台县| 蕉岭县| 毕节市| 资兴市| 青海省| 如东县| 开江县| 来安县| 广宗县| 鹰潭市| 六盘水市| 泰宁县| 青龙| 乐清市| 西和县| 岳西县| 民丰县| 镇平县| 阿巴嘎旗| 临沧市| 呼图壁县| 紫阳县| 镇安县| 定兴县| 揭西县|