●齊惠穎 1,2a,2b,徐樹維 2a,2b(1.北京大學(xué) 醫(yī)學(xué)部計(jì)算機(jī)教研室,北京 100191;2.中國
科學(xué)院 a.國家科學(xué)圖書館,北京 100190,b.研究生院,北京 100049)
從上世紀(jì)90年代末開始,圖書館引進(jìn)的電子資源數(shù)量激增,隨著電子資源在品種和數(shù)量上的不斷增長(zhǎng),電子資源的管理問題日益突出,電子資源的采購過程復(fù)雜、授權(quán)管理的版權(quán)問題以及電子出版市場(chǎng)的多種商業(yè)模式都增加了電子資源管理的復(fù)雜性。因此,電子資源管理系統(tǒng)(Electronic Resource Management System,簡(jiǎn)稱ERMS) 成為近年來數(shù)字圖書館領(lǐng)域的一個(gè)重要研究課題。數(shù)字圖書館聯(lián)盟(DLF) 對(duì)電子資源管理系統(tǒng)(ERMS) 的定義是“電子資源管理系統(tǒng)應(yīng)提供電子資源的選擇、評(píng)估、訂購、維護(hù)等相關(guān)信息和工作流程的管理,并在此基礎(chǔ)上根據(jù)商業(yè)協(xié)議和授權(quán)規(guī)定為讀者提供有效的資源獲取方式”。[1]MIT大學(xué)圖書館的Ellen Duranceau將電子資源管理系統(tǒng)定義為“對(duì)于引進(jìn)電子資源館藏的許可協(xié)議、相關(guān)管理信息、內(nèi)部處理過程進(jìn)行管理的工具”。[2]
目前,市場(chǎng)上的ERMS數(shù)目比較多,由于開發(fā)商不同,系統(tǒng)的功能側(cè)重點(diǎn)也有所不同。按開發(fā)商的不同,ERMS分為以下幾類:
一類是資源提供商開發(fā)的系統(tǒng),這類系統(tǒng)大都以處理期刊為主,出版商既提供軟件,同時(shí)也維護(hù)數(shù)據(jù),所有數(shù)據(jù)一般都放在出版商處,或者由圖書館上載到OPAC中,出版商提供數(shù)據(jù)的更新信息。這類系統(tǒng)功能相對(duì)簡(jiǎn)單,對(duì)于許可管理、集團(tuán)引進(jìn)等方面涉及不多。代表性的系統(tǒng)有Proquest的Serial Solutionss[3]、Harrassowitz的 HERMIS (Harrassowitz Electronic Resource Management and Information solutions)[4]、TDNet開發(fā)的TERM(TDNet Electronic Resources Manager)[5]和 EBSCO 的 ERAM(E-Resource Access&Management)[6]等。
一類是ILS開發(fā)商開發(fā)的系統(tǒng),雖然不同廠商的產(chǎn)品在功能上有些差異,但是基本上都主要服務(wù)于電子期刊管理的整個(gè)流程。目前比較成熟的產(chǎn)品有ExLibris公司的Verde,[7]這類產(chǎn)品大都可以獨(dú)立安裝使用,也可以與資源提供商開發(fā)的其它產(chǎn)品一起配套使用。
另外一類是圖書館自行開發(fā)的ERMS,這類系統(tǒng)在功能上主要是為滿足自身的需要,側(cè)重點(diǎn)各不相同,其中比較有代表性的有美國麻省理工學(xué)院開發(fā)的VERA(Virtual Electronic Resource Access)、賓夕法尼亞州立大學(xué)開發(fā)的ERLIC(Electronic Resource Licensing and Information Center)、耶魯大學(xué)開發(fā)的Social Science Libraries and Information Services[8]等。國內(nèi)有北京大學(xué)圖書館自行開發(fā)的ERMS。[9]
還有一類是開源代碼,比較有影響的系統(tǒng)有霍普金斯大學(xué)圖書館開發(fā)的HERMES(Hopkins Electronic Resource Management System),[10]系統(tǒng)的功能基本與管理電子資源生命周期的工作流程相一致,包括認(rèn)證、選擇、采訪和編目、報(bào)告生成等模塊。另外一個(gè)是加拿大的西蒙菲沙大學(xué)圖書館開發(fā)的CUFTS,[11]該系統(tǒng)提供電子資源管理、全文獲取、期刊數(shù)據(jù)庫的瀏覽搜索服務(wù)、資源對(duì)比、報(bào)告輸出、MARC記錄生成等功能。
由于出版商和集成商提供的電子資源無論是選擇、評(píng)價(jià)、獲取還是維護(hù)過程,都比傳統(tǒng)的印刷資源復(fù)雜得多,因此ERMS對(duì)電子資源的管理也有一套獨(dú)特的管理模式。對(duì)電子資源的管理是建立在知識(shí)庫之上的,知識(shí)庫是整個(gè)系統(tǒng)的基礎(chǔ),知識(shí)庫的建設(shè)問題也是系統(tǒng)首要考慮的問題。另外,系統(tǒng)之間的互操作以及ERMS的智能統(tǒng)計(jì)分析也是系統(tǒng)的關(guān)鍵所在。
知識(shí)庫存儲(chǔ)的內(nèi)容是在線出版商、數(shù)據(jù)庫商和代理商的信息,包括數(shù)據(jù)庫收錄期刊情況以及收錄期刊的詳細(xì)信息,電子資源的鏈接內(nèi)容、覆蓋范圍、管理和描述性的元數(shù)據(jù),數(shù)據(jù)庫和期刊的對(duì)應(yīng)關(guān)系等。知識(shí)庫提供了一系列規(guī)則,知識(shí)庫動(dòng)態(tài)更新各種電子資源的信息,同時(shí)知識(shí)庫向外提供服務(wù),接收用戶傳來的元數(shù)據(jù)信息,為用戶提供最合適的服務(wù)。
知識(shí)庫的構(gòu)建通過網(wǎng)絡(luò)爬蟲來實(shí)現(xiàn)。由于期刊數(shù)據(jù)庫將收錄的期刊信息在其網(wǎng)站上全部列出,而Web頁面通過結(jié)構(gòu)化的HTML標(biāo)記來控制頁面的布局和顯示,其中有很大一部分的信息表示是通過表格或重復(fù)性結(jié)構(gòu)的形式發(fā)布的,因此文本中含有大量的超文本標(biāo)記和超鏈接。通過分析HTML文檔的結(jié)構(gòu)歸納出每個(gè)提取域統(tǒng)一的定界符,找到其排列的規(guī)律;通過編寫網(wǎng)絡(luò)爬蟲解析網(wǎng)頁文件,根據(jù)需要來提取元數(shù)據(jù),實(shí)現(xiàn)知識(shí)庫自動(dòng)初始化并對(duì)知識(shí)庫進(jìn)行增量更新。
網(wǎng)絡(luò)爬蟲構(gòu)建知識(shí)庫的工作流程:首先由網(wǎng)絡(luò)爬蟲根據(jù)初始URL選擇,從Web中抓取期刊信息頁面,然后對(duì)抓取到的頁面進(jìn)行分析,提取相關(guān)內(nèi)容并將提取結(jié)果信息送入知識(shí)庫。
使用網(wǎng)絡(luò)爬蟲對(duì)知識(shí)庫內(nèi)容進(jìn)行初始化,首先要分析數(shù)據(jù)庫網(wǎng)址,抽取出期刊列表所在網(wǎng)址和端口號(hào),若無端口號(hào)則設(shè)為HTTP默認(rèn)端口80。然后判斷該站點(diǎn)的連接方式設(shè)置,若設(shè)為直接連接,則與該地址和端口建立網(wǎng)絡(luò)連接;若設(shè)為穿越Proxy連接,則與指定的Proxy地址和端口建立網(wǎng)絡(luò)連接。接著讀取頁面的內(nèi)容,分析該頁面的html代碼,根據(jù)分析的規(guī)律構(gòu)造一個(gè)抽取器來遍歷節(jié)點(diǎn),提取需要的元數(shù)據(jù)內(nèi)容,同時(shí)需要分析其中的鏈接,并對(duì)鏈接中的URL進(jìn)行必要的轉(zhuǎn)換。
HTML的語法分析通過編寫代碼擴(kuò)充HTMLEditorKit.ParserCallback類來完成;或利用HtmlParser開源工具,HtmlParser是一個(gè)對(duì)現(xiàn)有的HTML進(jìn)行分析的快速實(shí)時(shí)的解析器,免費(fèi)提供多個(gè)包,每個(gè)包中又包含多個(gè)類,如各種標(biāo)記類、過濾類等,可以方便地進(jìn)行文本、標(biāo)記等的相關(guān)處理。[12]
對(duì)期刊元數(shù)據(jù)信息的提取采用基于正則表達(dá)式定義好的提取表達(dá)式來進(jìn)行。對(duì)鏈接的提取首先通過分析頁面URL中的文件擴(kuò)展名來判別頁面類型,然后遇到帶有鏈接的標(biāo)記如 〈A〉,〈AREA〉,〈FRAME〉等,就從標(biāo)記結(jié)構(gòu)的屬性中找出目標(biāo)URL,并從成對(duì)的該標(biāo)記之間提取出正文,這兩個(gè)數(shù)據(jù)就代表了該鏈接,通過分析鏈接得到指向所有具體期刊的鏈接集合。
ERMS不但要接受出版商、期刊代理商等多個(gè)數(shù)據(jù)源的信息,同時(shí)又要向圖書館自動(dòng)化系統(tǒng)、跨庫檢索系統(tǒng)、資源門戶等服務(wù)系統(tǒng)輸出數(shù)據(jù),因此要實(shí)現(xiàn)ERMS與相關(guān)系統(tǒng)的數(shù)據(jù)共享和互操作。由于各個(gè)系統(tǒng)采用不同技術(shù)架構(gòu)、不同的數(shù)據(jù)庫和不同的訪問接口,目前比較成熟的系統(tǒng)之間互操作的方案有Web Service、LADP、OpenURL等技術(shù)實(shí)現(xiàn)統(tǒng)一資源訪問。下面重點(diǎn)敘述ERMS與OPAC、鏈接服務(wù)器的集成方案。
(1) 與OPAC系統(tǒng)集成
ERMS與OPAC書目信息集成的實(shí)現(xiàn)方式是在MARC記錄里增加856字段—“電子資源地址與存取”字段,用于記錄被著錄的數(shù)字資源的存取地址和存取方式。若ERMS與不同的異構(gòu)OPAC數(shù)據(jù)庫的整合,則采用Z39.50協(xié)議來完成,通過內(nèi)嵌Z39.50客戶端模塊,建立與各個(gè)Z39.50服務(wù)器的連接,提交檢索式,獲取檢索結(jié)果。
(2)與鏈接服務(wù)器集成
通過OpenURL與鏈接服務(wù)器的整合,OpenURL標(biāo)準(zhǔn)允許描述性元數(shù)據(jù)和標(biāo)志符從鏈接源到鏈接服務(wù)器之間傳送。根據(jù)OpenURL框架,用戶執(zhí)行檢索和瀏覽操作,鏈接解析器接收傳送來的OpenURL,從中析取出元數(shù)據(jù);根據(jù)這些元數(shù)據(jù)與知識(shí)庫中所提供的資源服務(wù)等信息的比較分析,得到符合這些元數(shù)據(jù)信息的可用的擴(kuò)展服務(wù);然后根據(jù)知識(shí)庫中的構(gòu)造規(guī)則構(gòu)造這些擴(kuò)展服務(wù)的鏈接,并將這些鏈接集中在一個(gè)頁面提供給用戶。OpenURL可以建立起與多種學(xué)術(shù)信息源的鏈接,實(shí)現(xiàn)全文獲取,提供了對(duì)不斷增長(zhǎng)的信息資源無縫互鏈接。
由于數(shù)據(jù)庫容量龐大,一個(gè)大型外文期刊數(shù)據(jù)庫通常收錄幾千種期刊,同時(shí)部分?jǐn)?shù)據(jù)庫之間的內(nèi)容存在交叉重復(fù),傳統(tǒng)的期刊選擇方法顯然很難滿足數(shù)據(jù)庫評(píng)價(jià)的需要。此外對(duì)電子資源的使用情況和成本的分析,也對(duì)電子資源的購買提供了非常重要的依據(jù),因此,提供智能分析工具,自動(dòng)生成電子資源的分析報(bào)告,是ERMS的一項(xiàng)非常重要的功能。
COUNTER(CountingOnline Usage ofNetworked Elec-tronic Resources)[13]方案掌握下載次數(shù)、檢索次數(shù)等標(biāo)準(zhǔn)化數(shù)據(jù)。OUNTER第2版目前已成為網(wǎng)絡(luò)電子資源在線使用統(tǒng)計(jì)的標(biāo)準(zhǔn)和規(guī)范,是電子資源使用統(tǒng)計(jì)與測(cè)量的工具,目前大多數(shù)出版商或服務(wù)提供商(例如:EBSCO、ProQuest、Elsevler等) 都提供符合COUNTER規(guī)范的統(tǒng)計(jì)報(bào)告。由于從不同的Web站點(diǎn)收割COUNTER報(bào)告是一項(xiàng)非常耗時(shí)的工作,ERMS通過在線自動(dòng)收割的方式獲得不同數(shù)據(jù)庫的COUNTER統(tǒng)計(jì)分析數(shù)據(jù),其實(shí)現(xiàn)通過SUSHI協(xié)議,[14]該協(xié)議是一個(gè)標(biāo)準(zhǔn)的客戶端/服務(wù)器的Web服務(wù)SOAP協(xié)議。SUSHI采用自動(dòng)請(qǐng)求ReportRequest和自動(dòng)響應(yīng)Report Response方式,通過Web Services下載XML格式的COUNTER使用統(tǒng)計(jì)分析數(shù)據(jù)。
統(tǒng)計(jì)報(bào)告分析的實(shí)現(xiàn)可以基于開放源碼軟件——JURO[15](Journal Usage Report Online),JURO 是香 港科技大學(xué)圖書館開發(fā)的用以分析紙本與電子期刊使用狀況的統(tǒng)計(jì)分析軟件。JURO從兩方面取得期刊使用狀況,一是來自數(shù)據(jù)庫廠商的符合COUNTER規(guī)范的使用記錄,另一方面是來自圖書館自身的期刊使用記錄,將兩種期刊使用狀況和圖書館自動(dòng)化系統(tǒng)的書目、登錄及采購紀(jì)錄結(jié)合根據(jù)使用者喜好產(chǎn)生不同的統(tǒng)計(jì)報(bào)表。
自從2004年“ERMI”[16]標(biāo)準(zhǔn)頒布以來,ERMS得到了快速的發(fā)展,隨著ERMS產(chǎn)品的逐漸增多和廣泛使用,圖書館對(duì)ERMS又提出了更高的要求。以下幾個(gè)方面的內(nèi)容將是未來ERMS的主要發(fā)展方向。
ERMI的一系列研究成果為ERMS提供了很多重要的參考標(biāo)準(zhǔn),為ERMS的發(fā)展起到了很好的規(guī)范作用,但是ERMS的標(biāo)準(zhǔn)還不全面,ERMI對(duì)電子資源生命周期的工作流程標(biāo)準(zhǔn)沒有更為詳細(xì)的規(guī)定,由于電子資源在整個(gè)生命周期中的各項(xiàng)紀(jì)錄信息是從不同數(shù)據(jù)源(如:出版商、期刊代理商)接受來的,只有指定標(biāo)準(zhǔn)的數(shù)據(jù)格式,才有利于電子資源生命周期工作流的管理。
在資源集成方面,目前ERMS的功能主要是對(duì)數(shù)字使用權(quán)的電子期刊的管理,但是圖書館的電子資源還包括電子書、圖書館自己加工的電子資源、機(jī)構(gòu)知識(shí)庫(IR)等,目前圖書館對(duì)不同的電子資源分別用各自獨(dú)立的系統(tǒng)分別管理。ERMS進(jìn)一步發(fā)展要考慮把圖書館所有的電子資源都納入到ERMS中來,形成一個(gè)統(tǒng)一的管理平臺(tái)。在管理模式集成方面,ERMI對(duì)電子資源的管理流程是針對(duì)單個(gè)機(jī)構(gòu)定義的,對(duì)多分館聯(lián)盟模式的管理流程沒有定義標(biāo)準(zhǔn),而多館聯(lián)盟方式比單一圖書館的ERMS要復(fù)雜的多,采購、許可等多個(gè)流程都有很大的不同,因?yàn)镋RMS要區(qū)別共享電子資源、電子資源的許可程度以及用戶的使用范圍,同時(shí)還要區(qū)別管理每個(gè)成員館獨(dú)享的電子資源。將聯(lián)盟管理功能集成進(jìn)來,使ERMS能夠根據(jù)圖書館的實(shí)際情況靈活選擇管理模式。
隨著ERMS基本功能的日趨完善,為提高日常管理的工作效率,需要將一些由手工輸入的操作變?yōu)樽詣?dòng)處理。在許可方面,ERMS下一步的發(fā)展目標(biāo)是通過一個(gè)標(biāo)準(zhǔn)的協(xié)議在出版商和ERMS之間傳遞許可數(shù)據(jù),使用ONIX[17]定義的XMLschema圖書館和數(shù)字出版商之間可以交流數(shù)據(jù),ERMS應(yīng)有一個(gè)基于Web-services的請(qǐng)求和響應(yīng)模塊,能夠?qū)崟r(shí)請(qǐng)求許可或試用的電子資源的描述格式。在IP登記和激活方面,下一代的ERMS應(yīng)該有一個(gè)IP登記模型,當(dāng)IP注冊(cè)后,通過制定一個(gè)簡(jiǎn)單的激活機(jī)制,所有的資源提供商都可以通過該機(jī)制自動(dòng)激活I(lǐng)P,這樣不僅避免了一些由于資源提供商管理IP不當(dāng)而產(chǎn)生的錯(cuò)誤,同時(shí)也全面提高了工作效率。在使用故障報(bào)告方面,應(yīng)該建立電子資源的使用故障的自動(dòng)發(fā)現(xiàn)機(jī)制,然后根據(jù)電子資源的提供商信息自動(dòng)發(fā)布給資源提供商。
ERMS的快速發(fā)展表明,ERMS是實(shí)現(xiàn)圖書館現(xiàn)代化管理不可缺少的工具。雖然目前國內(nèi)外的多種ERMS功能側(cè)重點(diǎn)各不相同,在系統(tǒng)的管理模式、系統(tǒng)的集成程度等方面也各有側(cè)重,但是基本都是針對(duì)電子資源生命周期的管理。隨著各種相關(guān)標(biāo)準(zhǔn)的相繼出現(xiàn),下一代的ERMS的解決方案將會(huì)更加完善,必將大大提高電子資源的管理效率。
[1]ElectronicResourceManagementReportof theDLFERM Initiative[EB/OL].[2008-01-02].http://www.diglib.org/pubs/dlf102/,
[2]Duranceau,Ellen.Electronic Resource Management Systems,Part II:Offerings from Serial Vendors and SerialDataVendors[EB/OL].[2008-11-02].http://dspace.mit.edu/handle/1721.1/18190,
[3]360 Resource Manager[EB/OL].[2008-11-02].http://www.serialssolutions.com/ss_360_resource_manager.html.
[4]HARRASSOWITZ Electronic Resources Management andInformationSolutions[EB/OL].[2008-11-02].http://www.harrassowitz.de/subscription_services/hermis.html.
[5]TDNete-Resource Manager[EB/OL].[2008-11-02].http://www.tdnet.com/site/upload/files/TDNet_RM(2).doc.
[6]E-Resource Access&Management Services[EB/OL].[2008-11-02].http://www.ebsco.com/home/ejournals/ejsintbro.pdf.
[7]Verde[EB/OL].[2008-11-02].http://www.exlibrisgroup.com/verde.htm.
[8]A Web Hub for Developing Administrative Metadata for Electronic Resource Management[EB/OL].[2008-11-02].http://www.library.cornell.edu/elicensestudy/webhubarchive.html.
[9]馬芳珍,等.電子資源管理系統(tǒng)的分析和設(shè)計(jì)[J].現(xiàn)代圖書情報(bào)技術(shù) [J],2007(2):82-85.
[10]Hermes[EB/OL].[2008-11-02].http://hermes.mse.jhu.edu:8008/hermesdocs/.
[11]Cufts[EB/OL].[2008-11-02].http://cufts.lib.sfu.ca/.
[12]HTMLParser[EB/OL].[2008-11-26].http://htmlparser.sourceforge.net/.
[13]About Counter[EB/OL].[2008-11-02].http://www.projectcounter.org/about.html.
[14]StandardizedUsageStatisticsHarvestingInitiative (SU SHI)[EB/OL].[2008-11-02].http://www.niso.org/workrooms/sushi.
[15]JURO:Creatingthe Journal Usage Report Online System[EB/OL].[2008-11-02].http://hkiug.ln.edu.hk/meetings/am2005/presentations/9-juro.ppt.
[16]DLF Electronic Resource Management Initiative[S].[2008-11-15].http://www.diglib.org/standards/dlferm02.htm.
[17]ONIX for Serials[J/OL].[2008-11-02].http://www.editeur.org/.