葉翔
關(guān)鍵詞:大數(shù)據(jù);數(shù)字圖書(shū)館;信息服務(wù);資源整合
摘要:文章分析了基于大數(shù)據(jù)的數(shù)字圖書(shū)館資源整合需求,闡述了圖書(shū)館數(shù)字資源整合的方式,提出了圖書(shū)館大數(shù)據(jù)資源整合方案和策略。
中圖分類(lèi)號(hào):G250文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2017)01-0123-03
近年來(lái),我國(guó)數(shù)字圖書(shū)館的發(fā)展規(guī)模不斷擴(kuò)大,各種形式的信息數(shù)據(jù)聚集到數(shù)字圖書(shū)館的數(shù)據(jù)庫(kù)中,這對(duì)于圖書(shū)館平臺(tái)的檢索、查詢以及整理等工作提出了更高的要求。需要注意的是,由于數(shù)字圖書(shū)館平臺(tái)的資源異構(gòu)性,很多信息資源都存在著內(nèi)容重復(fù)的現(xiàn)象,而且數(shù)字資源之間相互交叉的情況也比較多,這些特性都讓用戶在使用圖書(shū)館平臺(tái)時(shí)需要花費(fèi)更多的時(shí)間學(xué)習(xí)各個(gè)平臺(tái)的檢索技巧才能夠獲得所需的信息資源[1]。顯然,數(shù)字圖書(shū)館檢索功能的不兼容已經(jīng)增加了用戶使用軟件的難度,嚴(yán)重影響了軟件的使用效率。因此,為了提高檢索效率,我國(guó)很多數(shù)字圖書(shū)館平臺(tái)都在積極地整理數(shù)字資源,解決軟件之間的不兼容問(wèn)題。
1基于大數(shù)據(jù)的數(shù)字圖書(shū)館資源整合需求分析
1.1大數(shù)據(jù)整合是信息組織自動(dòng)化、動(dòng)態(tài)性、多模式的要求
傳統(tǒng)圖書(shū)館整理資料的方式是以人工的檢索方式對(duì)各類(lèi)書(shū)籍資料進(jìn)行標(biāo)注、分類(lèi)和整理,而且檢索的關(guān)鍵詞(字)都是需要煩瑣的手工勞動(dòng)進(jìn)行整理和錄入。如今,互聯(lián)網(wǎng)上的很多數(shù)字資源都具有很強(qiáng)的時(shí)效性,如果仍利用人工的方式進(jìn)行整理,必然會(huì)影響到資料使用的效果。因此,實(shí)現(xiàn)數(shù)字資源的自動(dòng)化處理已經(jīng)成為數(shù)字圖書(shū)館的發(fā)展趨勢(shì),如:數(shù)字資源的自動(dòng)標(biāo)注、自動(dòng)分類(lèi)和整理,資源關(guān)鍵字的編制以及自動(dòng)化管理等方面都是圖書(shū)館的重點(diǎn)研究?jī)?nèi)容[2]。數(shù)字資源的種類(lèi)繁多、構(gòu)造成分較為復(fù)雜,信息化比重越來(lái)越大都讓以傳統(tǒng)手工整理方式為基礎(chǔ)的圖書(shū)館的使用優(yōu)勢(shì)不再明顯,而且數(shù)字資源的非結(jié)構(gòu)化也使自動(dòng)化提取資源特征的難度加大。
1.2數(shù)據(jù)整合是信息組織的標(biāo)準(zhǔn)化、易用性的需求
因特網(wǎng)是一種將多個(gè)網(wǎng)絡(luò)進(jìn)行整合的互聯(lián)網(wǎng)結(jié)構(gòu),而且網(wǎng)絡(luò)中的數(shù)字資源都是以雜亂無(wú)序的方式分布。信息網(wǎng)絡(luò)是以信息為處理的基本單元并針對(duì)信息進(jìn)行存儲(chǔ)、添加以及整理的合作型的網(wǎng)絡(luò)結(jié)構(gòu),且網(wǎng)絡(luò)之間的數(shù)據(jù)交流同樣需要各方面的支持,因此,整合網(wǎng)絡(luò)資源的前提就是制定相關(guān)的信息整理和加工標(biāo)準(zhǔn)[3]。在互聯(lián)網(wǎng)環(huán)境下,任何用戶都可以輕松地利用手機(jī)、平板電腦及個(gè)人計(jì)算機(jī)等終端訪問(wèn)數(shù)字圖書(shū)館平臺(tái)并進(jìn)行操作。圖書(shū)館考慮到用戶的軟件操作水平參差不齊,在設(shè)計(jì)平臺(tái)功能時(shí)要盡量做到簡(jiǎn)潔實(shí)用,使普通用戶都可以檢索到所需的數(shù)字資源,提高平臺(tái)的使用效率。
2圖書(shū)館數(shù)字資源整合的方式
2.1基于OPAC系統(tǒng)的數(shù)字資源整合
OPAC(Online Public Access Catalogue)稱(chēng)為聯(lián)機(jī)公共檢索目錄,是一種基于互聯(lián)網(wǎng)模式的數(shù)字資源檢索工具,該工具也是用戶查詢和檢索數(shù)字資源的重要工具[4]。具體來(lái)說(shuō),基于OPAC的資源整合系統(tǒng)是一種基于數(shù)字資源傳統(tǒng)模式的整合方式,其同樣也是圖書(shū)館針對(duì)數(shù)字資源進(jìn)行整合的最基本的模式。值得強(qiáng)調(diào)的是,OPAC的檢索工具得到大部分用戶的認(rèn)可,因此,以O(shè)PAC檢索技術(shù)為基礎(chǔ)構(gòu)建數(shù)字圖書(shū)館平臺(tái)并整合多種平臺(tái)資源的成本相對(duì)較小?;贠PAC檢索技術(shù)的圖書(shū)館平臺(tái)可以讓用戶以較為熟悉的檢索方式獲取平臺(tái)的資源服務(wù),且無(wú)須進(jìn)行額外的技術(shù)培訓(xùn),該檢索方法將大大提高檢索效率和用戶的使用體驗(yàn)。
2.2基于導(dǎo)航系統(tǒng)的數(shù)字資源整合
基于導(dǎo)航系統(tǒng)的數(shù)字資源整合模式是將數(shù)字資源的檢索方式進(jìn)行整合,以此建立導(dǎo)航系統(tǒng)的數(shù)字資源庫(kù),使用戶可以利用資源的名稱(chēng)、重要標(biāo)識(shí)以及關(guān)鍵字來(lái)檢索所需的信息?;趯?dǎo)航系統(tǒng)的數(shù)字資源
整合模式的目的是提供統(tǒng)一的檢索入口,提供高效的檢索效率以及提高用戶的使用體驗(yàn)。該模式按照資源的類(lèi)型可將數(shù)字資源分為數(shù)據(jù)庫(kù)資源、期刊資源、會(huì)議資源以及電子圖書(shū)類(lèi)資源等,可針對(duì)不同類(lèi)型的資源設(shè)計(jì)不同的導(dǎo)航系統(tǒng)模式?,F(xiàn)階段,數(shù)字圖書(shū)館的檢索模式仍是以基于數(shù)據(jù)庫(kù)的導(dǎo)航模式和基于數(shù)字期刊資源的導(dǎo)航模式這兩種方式。需要注意的是,不同類(lèi)型的數(shù)字資源信息需要相對(duì)應(yīng)的導(dǎo)航模式,如:基于數(shù)字期刊資源的導(dǎo)航模式需要明確資源內(nèi)容的期刊關(guān)鍵字、期刊名稱(chēng)、出版單位、ISSN編號(hào)以及期刊和出版社的URL等內(nèi)容?;跀?shù)字期刊的導(dǎo)航模式具有以下三個(gè)基本功能:期刊關(guān)鍵字檢索功能、期刊內(nèi)容分類(lèi)檢索功能及順序檢索功能,以上這些功能都可以幫助用戶方便地檢索到所需的數(shù)字資源,并以超文本鏈接的方式實(shí)現(xiàn)。
2.3基于鏈接系統(tǒng)的數(shù)字資源整合
基于鏈接系統(tǒng)的數(shù)字資源整合模式利用超文本鏈接技術(shù)將相關(guān)的數(shù)字資源進(jìn)行鏈接和整合,讓全部的數(shù)字資源形成一個(gè)整體,從而為用戶提供更好的數(shù)字資源檢索服務(wù)。目前,較為成熟的鏈接模式主要有封閉式的靜態(tài)鏈接模式、開(kāi)放式動(dòng)態(tài)鏈接模式及開(kāi)放式靜態(tài)鏈接模式,其中使用頻率最高的是開(kāi)放式動(dòng)態(tài)鏈接模式。具體來(lái)說(shuō),開(kāi)放式動(dòng)態(tài)鏈接模式就是根據(jù)用戶的具體需求動(dòng)態(tài)地參照規(guī)定好的鏈接方式對(duì)于用戶的使用給予鏈接,其中還可以在鏈接過(guò)程中嵌入選擇型鏈接模式(比如DOI、CrossRef、SFX及Open URL等鏈接模式)[5]?,F(xiàn)階段鏈接技術(shù)最為先進(jìn)的是SFX模式,SFX模式能夠簡(jiǎn)化復(fù)雜數(shù)字資源的相互關(guān)聯(lián)性,還可以提供期刊全文到全文,或者摘要到摘要的鏈接服務(wù),使鏈接服務(wù)更加具體。利用SFX模式整合數(shù)字圖書(shū)館的信息資源的同時(shí),還能擴(kuò)展資源服務(wù)類(lèi)別,比如擴(kuò)展期刊查詢、館際互查和互借及期刊資源的傳送服務(wù)。
3圖書(shū)館大數(shù)據(jù)資源整合方案和策略
3.1圖書(shū)館大數(shù)據(jù)資源整合整體方案
筆者設(shè)計(jì)的基于大數(shù)據(jù)的數(shù)字圖書(shū)館信息服務(wù)資源整合的具體方案主要分為:數(shù)據(jù)整合系統(tǒng)反饋控制模塊、數(shù)據(jù)整合模塊、數(shù)據(jù)過(guò)濾和解析模塊及大數(shù)據(jù)資源模塊等內(nèi)容(見(jiàn)圖1)。其中,大數(shù)據(jù)資源模塊主要負(fù)責(zé)存儲(chǔ)和管理服務(wù)監(jiān)控方面的數(shù)據(jù)、系統(tǒng)管理方面數(shù)據(jù)以及客戶管理方面的數(shù)據(jù),而且該模塊還會(huì)參照數(shù)據(jù)的存儲(chǔ)特點(diǎn)、數(shù)據(jù)的來(lái)源、數(shù)據(jù)的應(yīng)用方向以及數(shù)據(jù)的使用頻率等特點(diǎn),將收集到的數(shù)據(jù)按照規(guī)則存儲(chǔ)到相應(yīng)的管理數(shù)據(jù)庫(kù)中,為整個(gè)信息服務(wù)資源整合系統(tǒng)提供信息數(shù)據(jù)的基礎(chǔ)管理服務(wù)。數(shù)據(jù)過(guò)濾與解析模塊是大數(shù)據(jù)資源模塊的上層,接受下層的大數(shù)據(jù)資源模塊提供的服務(wù),該模塊主要擔(dān)負(fù)著大數(shù)據(jù)特征的提取、類(lèi)型和格式的判別、數(shù)據(jù)的清洗(即篩選)及數(shù)據(jù)的解析等工作。其目的在于它不僅要過(guò)濾掉大數(shù)據(jù)存在的不利噪音,還要規(guī)范數(shù)據(jù)的格式和類(lèi)型,而且需要進(jìn)一步提高數(shù)據(jù)的存儲(chǔ)密度和使用價(jià)值。數(shù)據(jù)整合模塊的主要職責(zé)是利用大數(shù)據(jù)的讀取和轉(zhuǎn)換準(zhǔn)則將過(guò)濾后的數(shù)據(jù)進(jìn)行轉(zhuǎn)換并最終存儲(chǔ)在主數(shù)據(jù)庫(kù)中。數(shù)據(jù)整合系統(tǒng)反饋控制模塊通過(guò)數(shù)據(jù)處理以及分析技術(shù)針對(duì)大數(shù)據(jù)進(jìn)行評(píng)估,并利用系統(tǒng)反饋技術(shù)實(shí)現(xiàn)數(shù)據(jù)整合、資源調(diào)整及反饋系統(tǒng)優(yōu)化,從而提高數(shù)據(jù)的操作管理水平,提高數(shù)據(jù)的有效性和可控性。另外,數(shù)字圖書(shū)館還會(huì)全程監(jiān)管數(shù)據(jù)的整合過(guò)程,并在整合過(guò)程中及時(shí)地發(fā)現(xiàn)問(wèn)題、糾正錯(cuò)誤、完善管理,為用戶提供安全、可靠及便捷的數(shù)據(jù)服務(wù)。
3.2實(shí)現(xiàn)數(shù)據(jù)在采集終端的過(guò)濾與整合
數(shù)字圖書(shū)館在提供優(yōu)質(zhì)數(shù)據(jù)服務(wù)的同時(shí)還積極收集和整合用戶數(shù)據(jù),如:利用終端的傳感器、監(jiān)控儀器、服務(wù)器日志監(jiān)控系統(tǒng)以及終端數(shù)據(jù)收集器等設(shè)備,收集和整理系統(tǒng)運(yùn)行信息和用戶使用的信息。需要強(qiáng)調(diào)的是這些收集數(shù)據(jù)的設(shè)備構(gòu)建比較復(fù)雜,而且數(shù)量較多,對(duì)此在收集數(shù)據(jù)時(shí)要把握系統(tǒng)所需收集數(shù)據(jù)量和網(wǎng)絡(luò)傳輸?shù)呢?fù)載量之間的平衡,也就是在不影響硬件設(shè)備正常運(yùn)行的基礎(chǔ)上盡可能多地收集所需的信息數(shù)據(jù)[6]。因此,在數(shù)據(jù)收集方面采用何種的收集、整理以及過(guò)濾策略,對(duì)于整個(gè)信息服務(wù)資源整合系統(tǒng)的構(gòu)建起到了至關(guān)重要的作用,先進(jìn)的收集技術(shù)將會(huì)大大減少硬件設(shè)備的運(yùn)載負(fù)荷,從而提高數(shù)據(jù)的整理和分析效率。綜上所述,數(shù)字圖書(shū)館應(yīng)該注重針對(duì)大量原始數(shù)據(jù)的過(guò)濾和整合技術(shù)的研究,降低大數(shù)據(jù)的噪音,有效去除數(shù)據(jù)的冗余信息,將有價(jià)值的信息數(shù)據(jù)過(guò)濾出來(lái)進(jìn)行存儲(chǔ),從整體上提高數(shù)據(jù)的時(shí)效性和使用價(jià)值。
3.3實(shí)現(xiàn)大數(shù)據(jù)的安全、高效整合
實(shí)現(xiàn)大數(shù)據(jù)的安全、高效整合是保障用戶賬戶信息、信息服務(wù)系統(tǒng)數(shù)據(jù)以及第三方共享數(shù)據(jù)安全的關(guān)鍵所在。①數(shù)字圖書(shū)館應(yīng)該按照國(guó)家規(guī)定的相關(guān)法律法規(guī)制訂大數(shù)據(jù)的過(guò)濾和整合規(guī)則,并在保持?jǐn)?shù)據(jù)能夠支持二次挖掘和整合的前提下保障用戶的賬戶信息和使用信息的安全性。數(shù)字圖書(shū)館還要在第三方平臺(tái)數(shù)據(jù)的兼容性、開(kāi)放性以及有效性的基礎(chǔ)上對(duì)各個(gè)網(wǎng)絡(luò)系統(tǒng)的信息資源進(jìn)行整合。②數(shù)字圖書(shū)館還十分重視基于IT系統(tǒng)框架的安全保障。圖書(shū)館應(yīng)根據(jù)大數(shù)據(jù)的過(guò)濾和整合規(guī)律做好大數(shù)據(jù)平臺(tái)的數(shù)據(jù)安全和存儲(chǔ)工作,盡可能地降低數(shù)據(jù)過(guò)濾和整合帶來(lái)的風(fēng)險(xiǎn),從而保證大數(shù)據(jù)的整合措施不會(huì)影響到數(shù)字圖書(shū)館的正常運(yùn)行。③數(shù)字圖書(shū)館還應(yīng)重視大數(shù)據(jù)的整合和存儲(chǔ)、整合系統(tǒng)的可擴(kuò)展性、整合過(guò)程中的數(shù)據(jù)安全性以及整合過(guò)程中的經(jīng)濟(jì)成本等方面的內(nèi)容[7]。
3.4重點(diǎn)關(guān)注與第三方大數(shù)據(jù)平臺(tái)數(shù)據(jù)的整合
大數(shù)據(jù)時(shí)代,用戶的個(gè)性化信息需求需要數(shù)字圖書(shū)館、云計(jì)算服務(wù)商、通信和網(wǎng)絡(luò)運(yùn)營(yíng)商及相關(guān)政府部門(mén)通力合作才能夠完成。數(shù)字圖書(shū)館只有全面高效地整合各個(gè)系統(tǒng)的數(shù)據(jù),才能提升數(shù)字圖書(shū)館信息資源的使用價(jià)值,才能準(zhǔn)確定位用戶的信息需求,才能保證數(shù)字圖書(shū)館的可持續(xù)發(fā)展。數(shù)字圖書(shū)館與第三方的數(shù)據(jù)平臺(tái)還需要相互兼容,其不僅需要兼容各個(gè)平臺(tái)的數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)、數(shù)據(jù)的存儲(chǔ)格式及數(shù)據(jù)接口模式,還需要從長(zhǎng)遠(yuǎn)的角度看待與第三方數(shù)據(jù)平臺(tái)的合作關(guān)系,著重加強(qiáng)對(duì)數(shù)據(jù)共享系統(tǒng)構(gòu)建、數(shù)據(jù)過(guò)濾及整合技術(shù)等方面的研究。
4結(jié)語(yǔ)
基于大數(shù)據(jù)的數(shù)字圖書(shū)館信息服務(wù)資源整合系統(tǒng)重視大數(shù)據(jù)資源的過(guò)濾和整合技術(shù),該技術(shù)同時(shí)也是對(duì)于大數(shù)據(jù)進(jìn)行二次挖掘的基礎(chǔ)。圖書(shū)館只有科學(xué)地研究大數(shù)據(jù)過(guò)濾和整合技術(shù)才能提高數(shù)字圖書(shū)館信息資源的使用價(jià)值,才能提升用戶的信息體驗(yàn)效果。
參考文獻(xiàn):
[1]何毅.資源發(fā)現(xiàn)知識(shí)導(dǎo)航:大數(shù)據(jù)時(shí)代圖書(shū)館的數(shù)字資源建設(shè)與服務(wù)[J].中國(guó)索引,2012(6):23-27.
[2]張文彥,武瑞原,于潔.大數(shù)據(jù)時(shí)代的圖書(shū)館初探[J].圖書(shū)與情報(bào),2012(6):15-21.
[3]樊偉紅,李晨暉,張興旺,等.圖書(shū)館需要怎樣的“大數(shù)據(jù)”[J].圖書(shū)館雜志,2012(11):63-71.
[4]韓翠峰.大數(shù)據(jù)帶給圖書(shū)館的影響與挑戰(zhàn)[J].圖書(shū)與情報(bào),2012(5):37-40.
[5]溫浩宇,李京京.大數(shù)據(jù)時(shí)代的數(shù)字圖書(shū)館異構(gòu)數(shù)據(jù)集成研究[J].圖書(shū)館雜志,2012(9):138-141.
[6]史久根,張加廣.基于壓縮感知的無(wú)線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014(10):178-182.
[7]吳珺,謝樹(shù)泉,王春枝.基于語(yǔ)義的隧聯(lián)網(wǎng)數(shù)據(jù)整合方法[J].智能系統(tǒng)學(xué)報(bào),2014(6):209-213.
(編校:馬懷云)