楊曉芳 何明祥
大數(shù)據(jù)時(shí)代,傳統(tǒng)圖書館的局限性日漸凸顯。數(shù)據(jù)類型繁雜,數(shù)據(jù)量巨大,圖書資源配置不合理以及落后的服務(wù)觀念和服務(wù)方式等,使得圖書館必須做出適當(dāng)?shù)母淖儯拍茼槕?yīng)時(shí)代的發(fā)展。圖書館的轉(zhuǎn)型有兩個(gè)大方向:優(yōu)化圖書資源,改進(jìn)圖書館服務(wù)質(zhì)量。其中優(yōu)化圖書資源可以從圖書資源數(shù)字化和資源采購合理化兩方面進(jìn)行。此外,圖書館的轉(zhuǎn)型需要大數(shù)據(jù)相關(guān)的技術(shù)支持、大數(shù)據(jù)人才和圖書館人才以及足夠的資金支持等。
隨著互聯(lián)網(wǎng)云時(shí)代的到來,大數(shù)據(jù)引起了越來越多的關(guān)注。信息技術(shù)的高速發(fā)展,使讀者的需求、行為等都產(chǎn)生了變化,讀者獲取信息的方式也出現(xiàn)了巨大的改變,傳統(tǒng)圖書館的服務(wù)模式和圖書資源方面的局限性也隨之凸顯。圖書館應(yīng)改變自身以適應(yīng)新時(shí)代的需求。本文著重分析了大數(shù)據(jù)背景下傳統(tǒng)圖書館的局限性,提出一些圖書館的改進(jìn)方向,使得圖書館能在數(shù)據(jù)飛速增長的新時(shí)代取得更好的發(fā)展。
McKinsey &Company 在《Big data:Th e next frontier for innovation,competition,and productivity》中提到:“隨著數(shù)據(jù)的爆炸性增長,大數(shù)據(jù)分析作為關(guān)鍵競(jìng)爭(zhēng)力,將推動(dòng)新一輪生產(chǎn)率增長和消費(fèi)者剩余的熱潮?!?/p>
維基百科中,大數(shù)據(jù)的定義是:大數(shù)據(jù)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。
大數(shù)據(jù)的特點(diǎn)主要可以用4 個(gè)“V”來概括:
(1)數(shù)據(jù)量巨大(Volume)。數(shù)據(jù)規(guī)模從TB 級(jí)別到PB、EB 甚至ZB 級(jí)別。據(jù)監(jiān)測(cè)人類產(chǎn)生的數(shù)據(jù)量正以大約每兩年翻一倍的速度呈指數(shù)級(jí)增長,并且在2020 年之前會(huì)一直保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的所有數(shù)據(jù)量。據(jù)2011 年IDC 企業(yè)外部存儲(chǔ)市場(chǎng)季度跟蹤報(bào)告顯示,預(yù)計(jì)到2020 年全球數(shù)據(jù)將達(dá)到35ZB,這個(gè)數(shù)據(jù)是2010 年數(shù)據(jù)的29 倍之多。
(2)數(shù)據(jù)處理速度快(Velocity)?,F(xiàn)在對(duì)數(shù)據(jù)智能化和實(shí)時(shí)性的要求越來越高,且很多數(shù)據(jù)存在時(shí)間性,因此要求大數(shù)據(jù)的處理速度足夠快。
(3)數(shù)據(jù)種類繁多(Variety)。大數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),如網(wǎng)絡(luò)日志、影像、地理定位信息等。
(4)價(jià)值密度低(Value)。大數(shù)據(jù)的價(jià)值密度通常較低,這就要求能夠在數(shù)量巨大的多種數(shù)據(jù)中快速的截取信息。
大數(shù)據(jù)的研究和應(yīng)用在互聯(lián)網(wǎng)、金融、咨詢、通信、醫(yī)療服務(wù)、商業(yè)智能等行業(yè)都有所體現(xiàn),并產(chǎn)生了巨大的社會(huì)價(jià)值和產(chǎn)業(yè)空間。
國外主要研究大數(shù)據(jù)的存儲(chǔ)、分析、處理、大數(shù)據(jù)的管理技術(shù)以及大數(shù)據(jù)軟件的應(yīng)用。2008 年9 月《Nature》雜志出版了一期??癇ig Data”,從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟(jì)學(xué)、超級(jí)計(jì)算、環(huán)境科學(xué)、生物醫(yī)藥等多個(gè)方面來探討大數(shù)據(jù)。
大數(shù)據(jù)已經(jīng)蔓延到社會(huì)各界。作為傳播知識(shí)、信息的重要媒介,圖書館必然也會(huì)受到影響。圖書館的數(shù)據(jù)大致分為兩類:數(shù)字資源和服務(wù)數(shù)據(jù)。
數(shù)字資源
數(shù)字資源類型繁多,包括電子書刊、影像資料、網(wǎng)絡(luò)資源、文獻(xiàn)數(shù)據(jù)庫等。詳見表1。其中電子書刊、文獻(xiàn)數(shù)據(jù)庫等屬于結(jié)構(gòu)化數(shù)據(jù),網(wǎng)絡(luò)資源、影像資料等屬于非結(jié)構(gòu)化數(shù)據(jù)。
截至2011 年底,文化共享工程數(shù)字資源建設(shè)總量達(dá)到136.4TB;至2012 年底,國家圖書館數(shù)字資源總量達(dá)到813.5TB,并且每年仍在成倍的遞增。
表1 圖書館數(shù)字資源類型表
服務(wù)數(shù)據(jù)
服務(wù)數(shù)據(jù)包括文獻(xiàn)流通日志、數(shù)字資源的訪問利用情況、讀者信息和行為數(shù)據(jù)、信息咨詢服務(wù)數(shù)據(jù)等。詳見表2。其中一些圖書館僅文獻(xiàn)流通日志就已達(dá)上億條記錄[6]。這些數(shù)據(jù)可達(dá)到PB 級(jí)的數(shù)據(jù)規(guī)模,并呈現(xiàn)幾何級(jí)增長的速度。整合、分析和利用這些海量的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)是非常復(fù)雜和困難的一項(xiàng)工作。
表2 圖書館服務(wù)數(shù)據(jù)類型表
在科技進(jìn)步及大數(shù)據(jù)飛速發(fā)展的今天,傳統(tǒng)圖書館的一些局限性日漸凸顯。
圖書資源配置不合理
大多圖書館內(nèi)都藏有很多利用率并不高甚至無人問津的書籍,還有許多熱門圖書數(shù)量太少不能滿足讀者的需求。前者顯然是多余的,既浪費(fèi)了資源又浪費(fèi)了本可以用來購置其他圖書的資金。還有一些藏書因?yàn)槟承┰虿荒芡饨瑁@也給讀者帶來了很大不便。此外,由于科技發(fā)展日新月異,一些早年出版的相對(duì)落后的科技類圖書已經(jīng)無法滿足讀者的需求。有調(diào)查顯示,60%的學(xué)生對(duì)學(xué)校圖書館提供的圖書表示不滿意,他們希望學(xué)校圖書館能夠及時(shí)更新知識(shí)庫,跟上社會(huì)發(fā)展的步伐。
服務(wù)觀念和服務(wù)方式落后
傳統(tǒng)圖書館的服務(wù)觀念是以“書”為中心,無論采集、編目、還是流通,其重點(diǎn)都是藏書,而忽視了讀者的重要性,其服務(wù)也因而顯得很被動(dòng)。此外,由于外借、閱覽的傳統(tǒng)服務(wù)方式及圖書館開放時(shí)間的限制,讀者的需求與館藏的信息資源間必然有一定的時(shí)空距離。而讀者在網(wǎng)上搜索信息資源則不受這些限制,這就要求傳統(tǒng)圖書館向數(shù)字化、移動(dòng)化方向發(fā)展。
隨著大數(shù)據(jù)與我們的工作、生活聯(lián)系越來越密切,對(duì)社會(huì)領(lǐng)域的覆蓋面也越來越廣泛。圖書館作為數(shù)據(jù)使用和制造的重要參與者,若想融入“大數(shù)據(jù)”時(shí)代,應(yīng)從圖書資源和服務(wù)質(zhì)量兩方面轉(zhuǎn)變。
圖書資源數(shù)字化
圖書資源數(shù)字化,即把原有的紙質(zhì)文獻(xiàn)轉(zhuǎn)化為計(jì)算機(jī)存儲(chǔ)的信息并實(shí)現(xiàn)形式轉(zhuǎn)換的計(jì)算機(jī)管理、網(wǎng)絡(luò)傳輸和數(shù)字化存取的過程。
圖書館的數(shù)字化,一方面可以通過掃描等手段將館藏資源數(shù)字化。館藏資源數(shù)字化后,讀者無須到圖書館,隨時(shí)隨地都可以檢索參閱所需資料,也省去了來回找書的時(shí)間,方便快捷。此外,圖書館的文獻(xiàn)資源是有限的,每種書刊的數(shù)量也是有限的。數(shù)字化后,大家可以在同一時(shí)間參閱同一種文獻(xiàn),而不會(huì)出現(xiàn)“已借出”的問題。
另一方面,可以購買國內(nèi)外的文獻(xiàn)數(shù)據(jù)庫。中國學(xué)位論文全文數(shù)據(jù)庫、中國知網(wǎng)、中國科技期刊全文數(shù)據(jù)庫、中國期刊全文數(shù)據(jù)庫等,都比較適合高校圖書館。此外還有讀秀學(xué)術(shù)搜索等學(xué)術(shù)搜索引擎,可以一站式檢索章節(jié)內(nèi)容和全文、部分文獻(xiàn)的原文試讀以及高效查找獲取各種類型學(xué)術(shù)文獻(xiàn)資料。購買文獻(xiàn)數(shù)據(jù)庫可以彌補(bǔ)圖書館某些領(lǐng)域文獻(xiàn)資料的不足,為讀者提供更豐富的信息。
國內(nèi)許多圖書館經(jīng)過多年的數(shù)字化建設(shè)已經(jīng)具備了一定規(guī)模的數(shù)字化資源,包括文獻(xiàn)資源、電子書、各類數(shù)據(jù)庫等結(jié)構(gòu)化數(shù)據(jù),以及網(wǎng)絡(luò)資源、影像資料等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。具有大數(shù)據(jù)特征的數(shù)字圖書館,需要管理者采取合適的應(yīng)對(duì)措施,建立基于大數(shù)據(jù)分析處理技術(shù)的圖書館,滿足大數(shù)據(jù)時(shí)代下讀者對(duì)圖書館的新需求。
資源采購合理化
(1)圖書資源采購合理
文獻(xiàn)資源是圖書館最重要的資源之一,印刷型文獻(xiàn)在文獻(xiàn)資源中仍占據(jù)著無法取代的地位。所以,圖書館管理的一項(xiàng)重要工作就是定期對(duì)館藏文獻(xiàn)資源進(jìn)行調(diào)查、統(tǒng)計(jì)、分析和評(píng)估,這是圖書館提升服務(wù)能力和服務(wù)質(zhì)量的根本。通過對(duì)館藏文獻(xiàn)及圖書館的服務(wù)數(shù)據(jù)(文獻(xiàn)流通日志、讀者檢索記錄等)進(jìn)行數(shù)據(jù)挖掘、分析,圖書館能較好地掌握館藏文獻(xiàn)的利用情況和讀者的實(shí)際需求,從而增加需求較大文獻(xiàn)的采購量,減少需求較小文獻(xiàn)的采購量,以達(dá)到合理配置圖書館資源、提高藏書質(zhì)量、優(yōu)化館藏結(jié)構(gòu)的目的。
(2)印刷型文獻(xiàn)與電子資源的采購比例合理
圖書館的館藏資源不僅有印刷型文獻(xiàn),還包括縮微型文獻(xiàn)、聲像型文獻(xiàn)、電子文獻(xiàn)和網(wǎng)絡(luò)資源等。很多圖書館往往只注重印刷型文獻(xiàn)的館藏,而忽視了其他類型的文獻(xiàn)資源??紤]到大數(shù)據(jù)的發(fā)展以及經(jīng)濟(jì)方面紙質(zhì)圖書價(jià)格的上漲,圖書館應(yīng)該轉(zhuǎn)變這種資源建設(shè)思維,重視電子資源的建設(shè)。電子資源相比印刷型文獻(xiàn)價(jià)格更低,可以供多人同時(shí)參閱,可多次重復(fù)利用而且不會(huì)破損,性價(jià)比較高。圖書館應(yīng)根據(jù)自身經(jīng)濟(jì)情況、館藏情況及讀者群進(jìn)行合理的電子資源采購,如若讀者大多為年輕人,比較容易接受電子閱讀模式,則可以加大電子資源的采購力度;若讀者大多為老年人,習(xí)慣傳統(tǒng)的閱讀模式,則仍應(yīng)以采購印刷文獻(xiàn)為主。
在大數(shù)據(jù)的環(huán)境下,圖書館應(yīng)借助大數(shù)據(jù)技術(shù)對(duì)讀者過去的圖書借閱記錄、檢索瀏覽記錄、數(shù)字資源訪問利用情況等圖書館行為數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和分析,發(fā)現(xiàn)潛在有價(jià)值的信息并分析其借閱習(xí)慣、偏好,得出讀者的檢索、借閱規(guī)律,并根據(jù)分析結(jié)果判斷讀者的興趣愛好和需求,從而幫助讀者更好的獲取資料,取得更好的閱讀體驗(yàn),滿足讀者的個(gè)性化需求,還可以引導(dǎo)和激發(fā)潛在讀者群。
此外,隨著手機(jī)、平板電腦等移動(dòng)閱讀終端的普及和網(wǎng)絡(luò)的便利,圖書館可以把大數(shù)據(jù)技術(shù)和移動(dòng)通信技術(shù)相結(jié)合,將對(duì)讀者的數(shù)據(jù)挖掘分析結(jié)果通過網(wǎng)絡(luò)或者短信息的方式推送到讀者的移動(dòng)終端、電子郵箱等,為讀者提供最新的移動(dòng)信息的服務(wù),實(shí)現(xiàn)讀者即時(shí)、無障礙地享受圖書館信息服務(wù)。
只有當(dāng)圖書館的圖書資源得到優(yōu)化,服務(wù)質(zhì)量得以提高,才能更好的適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展。圖書館進(jìn)行這種轉(zhuǎn)型,必須要有足夠的技術(shù)、人才及資金支持。
大數(shù)據(jù)技術(shù)指的是從各種類型的海量數(shù)據(jù)中快速提取有價(jià)值信息的技術(shù),主要包括數(shù)據(jù)分析、數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)服務(wù)等。大數(shù)據(jù)背景的圖書館各種數(shù)據(jù)量急劇增長,數(shù)據(jù)規(guī)模不斷擴(kuò)大。而大數(shù)據(jù)分析要求存儲(chǔ)系統(tǒng)高效、即時(shí)、可擴(kuò)展,且讀者閱讀活動(dòng)具有突發(fā)性和不可預(yù)測(cè)性,這就意味著存儲(chǔ)系統(tǒng)要有較好的可擴(kuò)展性和并發(fā)處理能力。其次,系統(tǒng)需要不間斷工作,且數(shù)據(jù)結(jié)構(gòu)多樣化。因此,可靠的技術(shù)和硬件支持必不可少。另外,應(yīng)該建立安全的信息采集機(jī)制和文件系統(tǒng),保障數(shù)據(jù)共享和用戶資料的安全,提供高可靠的服務(wù)。
表3 大數(shù)據(jù)分析處理系統(tǒng)表
圖1 Hadoop 體系架構(gòu)圖
目前已知的大數(shù)據(jù)分析處理系統(tǒng)有MapReduce、storm、spark 等。詳見表3。其中MapReduce 采用無共享大規(guī)模集群系統(tǒng),具有良好的性價(jià)比和可伸縮性,且其模型簡(jiǎn)單,易于理解和使用,使其成為大規(guī)模海量數(shù)據(jù)平臺(tái)的首選。Hadoop 是目前較為流行的處理大數(shù)據(jù)的分布式集群系統(tǒng),它應(yīng)用的編程模型就是MapReduce。
Hadoop 是一個(gè)由Apache 基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),如圖1 所示。Hadoop 中最核心的設(shè)計(jì)是HDFS 和MapReduce。HDFS 是構(gòu)建在廉價(jià)的PC 機(jī)器上的分布式文件系統(tǒng),具有高容錯(cuò)性的特點(diǎn)。MapReduce 是構(gòu)建在廉價(jià)的PC 機(jī)器上的分布式數(shù)據(jù)處理模型和運(yùn)行環(huán)境。Hadoop 以其高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性的特點(diǎn),成為目前應(yīng)用最廣的大數(shù)據(jù)平臺(tái)架構(gòu)。
目前國外圖書館的大數(shù)據(jù)應(yīng)用已獲得了一些成功,我國的圖書館應(yīng)向他們學(xué)習(xí),在考慮自身需求的基礎(chǔ)上,總結(jié)經(jīng)驗(yàn),加強(qiáng)核心技術(shù)的研究,開發(fā)圖書館的使用功能和適應(yīng)性能,構(gòu)建與國際接軌的數(shù)字圖書館服務(wù)系統(tǒng)。
大數(shù)據(jù)在圖書館的應(yīng)用是一項(xiàng)新興的工作,必須要有技術(shù)過硬的專業(yè)人員。為此,圖書館應(yīng)鼓勵(lì)館員學(xué)習(xí)大數(shù)據(jù)相關(guān)技術(shù),加強(qiáng)大數(shù)據(jù)管理、挖掘和分析等專業(yè)人才隊(duì)伍的建設(shè),積極引入技術(shù)性館員,實(shí)現(xiàn)人才、大數(shù)據(jù)分析平臺(tái)和用戶服務(wù)系統(tǒng)的最優(yōu)化結(jié)合。
大數(shù)據(jù)時(shí)代的圖書館員不僅要有足夠的業(yè)務(wù)能力,而且要積極地學(xué)習(xí)新知識(shí)與新技術(shù),拓寬自己的知識(shí)面,成為高素質(zhì)的復(fù)合型人才。館員能力和自身專業(yè)素質(zhì)的提升,對(duì)圖書館的轉(zhuǎn)型有很大的促進(jìn)作用。
大數(shù)據(jù)時(shí)代圖書館需要進(jìn)行大數(shù)據(jù)技術(shù)的員工培訓(xùn),購買相關(guān)軟件,以及建設(shè)相關(guān)資源等。此外,大數(shù)據(jù)只能對(duì)數(shù)字化的資源進(jìn)行分析,所以應(yīng)先將紙質(zhì)文獻(xiàn)數(shù)字化才能進(jìn)行大數(shù)據(jù)分析工作,這些都需要足夠的財(cái)政資金支持。財(cái)政資金是圖書館在大數(shù)據(jù)環(huán)境下開展資源建設(shè)的經(jīng)濟(jì)基礎(chǔ),離開資金支持,圖書館就很難進(jìn)行大數(shù)據(jù)的應(yīng)用。為此圖書館應(yīng)努力向政府或者企業(yè)單位等爭(zhēng)取財(cái)政支持,從而為社會(huì)創(chuàng)造更多的價(jià)值。
大數(shù)據(jù)時(shí)代,判斷圖書館是否具備競(jìng)爭(zhēng)力的一項(xiàng)重要指標(biāo)就是數(shù)據(jù)的分析和挖掘能力。做好大數(shù)據(jù)的分析處理工作能夠幫助圖書館構(gòu)建新型的知識(shí)服務(wù)體系,優(yōu)化圖書資源,提高服務(wù)水平,從而推動(dòng)圖書館更好的發(fā)展。但是目前大數(shù)據(jù)的應(yīng)用仍存在很多技術(shù)難題,圖書館還面臨著人才、設(shè)備、資金等方面的挑戰(zhàn),此外大數(shù)據(jù)在圖書館的應(yīng)用還存在安全和隱私保護(hù)的問題,仍需要努力改進(jìn)。
大數(shù)據(jù)作為一項(xiàng)新興技術(shù),在圖書館的應(yīng)用尚處于起步階段,圖書館應(yīng)結(jié)合自身的實(shí)際情況,逐步開展大數(shù)據(jù)的應(yīng)用研究工作,從而為圖書館帶來更好的發(fā)展。