杜文娟++龐紅
摘要:大數(shù)據(jù)是繼“WEB2.0”、“云計(jì)算”、“移動(dòng)互聯(lián)網(wǎng)”之后的又一次革命性變革。大數(shù)據(jù)時(shí)代讀者的信息需求與獲取方式、以及所期望得到的服務(wù)方式都發(fā)生了很大的改變,在此背景下,圖書(shū)館的發(fā)展也面臨著巨大的挑戰(zhàn),同時(shí)也有著良好的發(fā)展機(jī)遇。如何利用好大數(shù)據(jù)技術(shù)更好地為讀者服務(wù),尤為重要。本文從大數(shù)據(jù)的概念、特征以及圖書(shū)館現(xiàn)有大數(shù)據(jù)入手,分析了圖書(shū)館在大數(shù)據(jù)背景下面臨的機(jī)遇與挑戰(zhàn),并對(duì)如何利用好大數(shù)據(jù)技術(shù)促進(jìn)圖書(shū)館服務(wù)方式的轉(zhuǎn)變提出了個(gè)人的一些看法。
關(guān)鍵詞:圖書(shū)館,大數(shù)據(jù),信息服務(wù),大數(shù)據(jù)技術(shù)
中圖分類(lèi)號(hào) : G25 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2014)02(b)-0000-00
1大數(shù)據(jù)的概念與特征
大數(shù)據(jù)(bigdata),或稱(chēng)巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。
大數(shù)據(jù)的4V特征,或者說(shuō)特點(diǎn)有四個(gè)層面:業(yè)界將其歸納為4個(gè)“V”——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類(lèi)型繁多)、Velocity(處理速度快)、Value(價(jià)值密度低)。首先是數(shù)據(jù)體量特別大,現(xiàn)在的數(shù)據(jù)計(jì)算單位,已經(jīng)從GB到達(dá)了TB、PB,甚至是EB了;其次數(shù)據(jù)類(lèi)型繁多,絕大多數(shù)大數(shù)據(jù)是非結(jié)構(gòu)性的,其種類(lèi)十分復(fù)雜,我們現(xiàn)在的技術(shù)手段還沒(méi)法對(duì)此進(jìn)行處理;再次是處理速度快,數(shù)據(jù)產(chǎn)生和傳送的頻率非???;最后是價(jià)值密度低,從大量的低質(zhì)量、低價(jià)值的數(shù)據(jù)中獲取知識(shí),猶如從大海中撈針,獲取數(shù)據(jù)成本很高,但有待挖掘價(jià)值大。
2圖書(shū)館擁有的大數(shù)據(jù)
圖書(shū)館經(jīng)過(guò)多年的建設(shè),自身就擁有數(shù)量龐大的數(shù)據(jù)資源,利用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)分析,首先就要了解圖書(shū)館擁有那些大數(shù)據(jù),在日常的工作中,圖書(shū)館管理者更應(yīng)注重對(duì)數(shù)據(jù)的收集整理。圖書(shū)館的大數(shù)據(jù)主要有:
(1)圖書(shū)館的數(shù)字化資源
圖書(shū)館經(jīng)過(guò)多年的建設(shè),擁有大量的數(shù)據(jù)庫(kù)資源、電子書(shū)資源、紙質(zhì)圖書(shū)期刊數(shù)字化形成的數(shù)字資源,此外,還有各類(lèi)音頻、視頻資源、這一類(lèi)數(shù)字資源總量巨大,且增長(zhǎng)速度快,是圖書(shū)館大數(shù)據(jù)的一大組成部分。
(2)網(wǎng)絡(luò)時(shí)代出現(xiàn)的大量非結(jié)構(gòu)化數(shù)據(jù)
伴隨著社交網(wǎng)絡(luò)、移動(dòng)圖書(shū)館、物聯(lián)網(wǎng)等興起,今后讀者在利用圖書(shū)館的過(guò)程中,產(chǎn)生的各種信息將越來(lái)越多。我們將在讀者使用圖書(shū)館服務(wù)的過(guò)程中,收集讀者的地理位置、搜索歷史、搜索時(shí)間等信息。這些多是非結(jié)構(gòu)化和半結(jié)構(gòu)化的信息,雖然價(jià)值密度不高,但是只要全面收集就能夠更好地利用大數(shù)據(jù)技術(shù),分析讀者的偏好,有針對(duì)性地為讀者提供有用的信息。
(3)讀者瀏覽歷史中的非結(jié)構(gòu)化數(shù)據(jù)
隨時(shí)網(wǎng)絡(luò)時(shí)代的到來(lái),我們將從手機(jī)、平板電腦等諸多設(shè)備中收集到讀者的個(gè)人信息、所處位置、瀏覽歷史等各類(lèi)數(shù)據(jù),填補(bǔ)了圖書(shū)館數(shù)據(jù)收集的空白,使圖書(shū)館數(shù)據(jù)庫(kù)資源更加完善,為大數(shù)據(jù)分析技術(shù)提供了資源保障。
3大數(shù)據(jù)背景下圖書(shū)館面臨的機(jī)遇與挑戰(zhàn)
大數(shù)據(jù)不僅挑戰(zhàn)了圖書(shū)館傳統(tǒng)的IT架構(gòu)與數(shù)據(jù)獲取、存儲(chǔ)、處理的模式,而且對(duì)圖書(shū)館的數(shù)據(jù)管理及數(shù)據(jù)應(yīng)用、數(shù)據(jù)服務(wù)等方面的挑戰(zhàn)將更為突出。但大數(shù)據(jù)技術(shù)的出現(xiàn)也為圖書(shū)館帶來(lái)了發(fā)展機(jī)遇。
數(shù)據(jù)量的增加為圖書(shū)館提供了精確掌握用戶群及個(gè)別用戶網(wǎng)絡(luò)行為模式的基礎(chǔ),如果能夠充分利用大數(shù)據(jù)技術(shù)來(lái)分析這些數(shù)據(jù),就可以探索個(gè)性化、精確化和智能化地進(jìn)行推送服務(wù),幫助用戶從海量的信息中迅速找到其所需的信息,提高圖書(shū)館服務(wù)水平,促進(jìn)數(shù)字圖書(shū)館的發(fā)展。當(dāng)前大數(shù)據(jù)主要面臨以下挑戰(zhàn):
(1) 傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)不適應(yīng)大數(shù)據(jù)時(shí)代
傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)是以用戶端向服務(wù)器發(fā)出請(qǐng)求,由服務(wù)器應(yīng)答返回結(jié)果給用戶的垂直結(jié)構(gòu),而在大數(shù)據(jù)時(shí)代,這種垂直結(jié)構(gòu)將越來(lái)越少,取而代之的是水平結(jié)構(gòu)的橫向請(qǐng)求服務(wù)?!按髷?shù)據(jù)”時(shí)代,大量的數(shù)據(jù)都存儲(chǔ)在分布廣泛、不同地域、各種類(lèi)型的服務(wù)器中。當(dāng)用戶發(fā)出一個(gè)查詢(xún)請(qǐng)求時(shí),最多的運(yùn)算是服務(wù)器之間的信息交換,最后將結(jié)果返回給用戶。新一代的網(wǎng)絡(luò)架構(gòu)要適應(yīng)WEB2.0時(shí)代的水平服務(wù)應(yīng)用。
(2) 數(shù)據(jù)類(lèi)型增多,數(shù)據(jù)量增長(zhǎng)及復(fù)雜性的增強(qiáng)給現(xiàn)有的存儲(chǔ)能力及計(jì)算能力帶來(lái)巨大挑戰(zhàn)。
一是計(jì)算能力、存儲(chǔ)能力的增強(qiáng)遠(yuǎn)落后于數(shù)據(jù)量的增長(zhǎng)及數(shù)據(jù)復(fù)雜性的變化,二是物聯(lián)網(wǎng)、傳感網(wǎng)、云計(jì)算等信息技術(shù)的飛速發(fā)展,使得數(shù)據(jù)移動(dòng)較之以前更為頻繁,為知識(shí)管理及信息服務(wù)模式提出了高要求。三是,高可靠性,高可擴(kuò)展性的數(shù)據(jù)分析技術(shù)成為亟待解決的問(wèn)題。四是讀者流失分析及價(jià)值分析促使圖書(shū)館不得不尋求新的解決方案。大數(shù)據(jù)技術(shù)不僅可以通過(guò)數(shù)據(jù)了解用戶的行為、信息需求、知識(shí)應(yīng)用能力,更可以利用數(shù)據(jù)對(duì)用戶的科研創(chuàng)新合作過(guò)程及合作交互型知識(shí)服務(wù)過(guò)程將要發(fā)生什么進(jìn)行分析和預(yù)測(cè),從而應(yīng)對(duì)圖書(shū)館未來(lái)所面對(duì)的生存危機(jī)。
(3) 對(duì)圖書(shū)館的人才隊(duì)伍、服務(wù)管理等方面帶來(lái)巨大挑戰(zhàn)。
大數(shù)據(jù)技術(shù)是一項(xiàng)具有很高難度的前沿技術(shù),只有具備相關(guān)學(xué)科專(zhuān)業(yè)背景和知識(shí)基礎(chǔ)的人,才有可能勝任大數(shù)據(jù)分析的重?fù)?dān),而目前圖書(shū)館員在信息技術(shù)的開(kāi)發(fā)利用方面能力還相對(duì)欠缺。因此,大數(shù)據(jù)分析技術(shù)人才隊(duì)伍的培養(yǎng)、圖書(shū)館員技術(shù)能力的提高,服務(wù)方式的轉(zhuǎn)變都是圖書(shū)館急需解決的問(wèn)題。
(4) 用戶隱私權(quán)的保護(hù)受到了極大挑戰(zhàn)。
圖書(shū)館的信息安全和隱私問(wèn)題是圖書(shū)館需要解決的問(wèn)題之一,大數(shù)據(jù)背景下,隨著對(duì)數(shù)據(jù)的獲取和分析能力的提升,大量分散的數(shù)據(jù)中隱含的有價(jià)值信息被開(kāi)發(fā)利用。信息安全也從傳統(tǒng)的網(wǎng)絡(luò)安全、保密管理等可控安全管理向無(wú)法預(yù)知安全隱患的不可控安全管理轉(zhuǎn)變。數(shù)據(jù)的開(kāi)放獲取與信息安全之間的矛盾越來(lái)越突出,大數(shù)據(jù)的開(kāi)發(fā)使用使得用戶的隱私權(quán)保護(hù)遭遇了極大的挑戰(zhàn)。
4利用大數(shù)據(jù)技術(shù)促進(jìn)圖書(shū)館服務(wù)方式的轉(zhuǎn)變
隨著大數(shù)據(jù)技術(shù)的不斷進(jìn)步和讀者需求的不斷提高,將進(jìn)一步促進(jìn)圖書(shū)館的服務(wù)方式、途徑等發(fā)生翻天覆地的變化,圖書(shū)館應(yīng)抓住機(jī)遇充分利用好大數(shù)據(jù)技術(shù),從大數(shù)據(jù)中去捕捉、分析讀者的潛在需求,向讀者推送有潛在價(jià)值的數(shù)據(jù),從而提高圖書(shū)館的核心競(jìng)爭(zhēng)力,以應(yīng)對(duì)圖書(shū)館未來(lái)可能面臨的挑戰(zhàn)。
(1)開(kāi)展讀者研究工作
大數(shù)據(jù)背景下,圖書(shū)館要為用戶提供更好的服務(wù),用戶的要求會(huì)更多,對(duì)服務(wù)的期望也將更高。圖書(shū)館員必須要能夠了解用戶的真實(shí)需求,建立可控的、高效率的數(shù)據(jù)處理流程,掌握多種數(shù)據(jù)的分析方法,能夠通過(guò)利用結(jié)構(gòu)化數(shù)據(jù)來(lái)了解用戶需要什么樣的服務(wù),還要能夠利用大量非結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù),從用戶利用圖書(shū)館的微行為,來(lái)挖掘用戶現(xiàn)在的服務(wù)需求以及預(yù)測(cè)和分析將來(lái)會(huì)有什么樣的需求。
(2)開(kāi)展準(zhǔn)確的數(shù)據(jù)推送服務(wù)
數(shù)據(jù)推送服務(wù)是指圖書(shū)館收集讀者的需求,主動(dòng)將讀者所需要的信息內(nèi)容,通過(guò)個(gè)人圖書(shū)館、微博、電子郵件等方式推送給讀者。大數(shù)據(jù)環(huán)境下,對(duì)于讀者的利用圖書(shū)館服務(wù)過(guò)程中的各種行為,例如查詢(xún)書(shū)目、數(shù)據(jù)庫(kù)資料或者瀏覽網(wǎng)頁(yè)等,可以細(xì)化到某一篇文章,甚至某一個(gè)詞,將讀者的個(gè)人行為都匯集到數(shù)據(jù)庫(kù)中,然后對(duì)不同層次人群的興趣愛(ài)好進(jìn)行詳細(xì)分析,進(jìn)行有針對(duì)地、準(zhǔn)確地推送服務(wù),另外根據(jù)讀者的行為的熱點(diǎn)分析,大數(shù)據(jù)技術(shù)可以告訴我們圖書(shū)館讀者的興趣偏好的變化曲線,以便預(yù)測(cè)讀者需求,從而為圖書(shū)館的資源采集、資源更新等提拱依據(jù),最終達(dá)到預(yù)知讀者需求、引導(dǎo)讀者需求行為的效果,可大大提高圖書(shū)館的服務(wù)效益。
(3)提供深度的參考咨詢(xún)服務(wù)
大數(shù)據(jù)時(shí)代,咨詢(xún)館員可以將符合大數(shù)據(jù)特征的咨詢(xún)課題融入到大數(shù)據(jù)系統(tǒng),系統(tǒng)將根據(jù)咨詢(xún)的內(nèi)容主題,利用大數(shù)據(jù)分析技術(shù),可視化技術(shù),瞬時(shí)以圖形方式展示查詢(xún)結(jié)果,從而縮短了咨詢(xún)館員獲取信息資源的時(shí)間,擴(kuò)大了資源的獲取面,從而最大程度地滿足讀者的需求,提高參考咨詢(xún)的效率。
(4)提供特色化、個(gè)性化服務(wù)。
個(gè)性化服務(wù)是圖書(shū)館為讀者量身定做的服務(wù),大數(shù)據(jù)時(shí)代圖書(shū)館將利用大數(shù)據(jù)技術(shù),捕捉讀者動(dòng)態(tài)的操作行為,細(xì)化到讀者利用圖書(shū)館服務(wù)過(guò)程中的每一次點(diǎn)擊,能結(jié)合學(xué)科分析,自動(dòng)調(diào)用不同類(lèi)別、不同層次的數(shù)據(jù),智能地推送給目的讀者,為圖書(shū)館實(shí)現(xiàn)個(gè)性化服務(wù)提供了可能。
(5)為學(xué)科專(zhuān)業(yè)、科研發(fā)展提供知識(shí)服務(wù)
目前,越來(lái)越多的新型學(xué)科領(lǐng)域都是建立在大數(shù)據(jù)的基礎(chǔ)上的。但在大數(shù)據(jù)背景下,許多數(shù)據(jù)是零散的、復(fù)雜的、原始的,對(duì)這些巨量數(shù)據(jù)的加工、處理需要較強(qiáng)的技術(shù)來(lái)支持。當(dāng)前,大數(shù)據(jù)技術(shù)主要包括可視化分析、數(shù)據(jù)挖掘算法、數(shù)據(jù)質(zhì)量管理、語(yǔ)義引擎等,技術(shù)是解決大數(shù)據(jù)問(wèn)題的關(guān)鍵,并將影響到大數(shù)據(jù)的研究。圖書(shū)館作為知識(shí)服務(wù)的平臺(tái),必須要適應(yīng)科學(xué)研究的要求,推動(dòng)數(shù)字圖書(shū)館技術(shù)的進(jìn)步。大數(shù)據(jù)背景下,圖書(shū)館可以充分發(fā)揮其資源、人力、技術(shù)等方面的優(yōu)勢(shì),加強(qiáng)對(duì)學(xué)校重點(diǎn)學(xué)科專(zhuān)業(yè)領(lǐng)域的各類(lèi)型的數(shù)據(jù)資源,如論文、會(huì)議論文、學(xué)位論文、研究動(dòng)態(tài)、學(xué)科前沿,甚至互聯(lián)網(wǎng)上相關(guān)學(xué)科領(lǐng)域?qū)<覍W(xué)者的博客、論壇等數(shù)據(jù)進(jìn)行收集,利用大數(shù)據(jù)分析技術(shù),通過(guò)對(duì)所收集到的數(shù)據(jù)進(jìn)行加工整理,數(shù)據(jù)建模,可以提高數(shù)據(jù)的價(jià)值密度,提升圖書(shū)館知識(shí)服務(wù)的學(xué)科化、專(zhuān)業(yè)化水平,發(fā)揮圖書(shū)館員在信息收集、整理、加工中的優(yōu)勢(shì),從而更好地為學(xué)科專(zhuān)業(yè)和科研服務(wù)。
(6)加強(qiáng)用戶隱私保護(hù)
隱私權(quán)是公民的一項(xiàng)重要權(quán)利,然而在網(wǎng)絡(luò)技術(shù)發(fā)達(dá)的時(shí)代,泄露隱私卻是幾乎每時(shí)每刻都在發(fā)生的事情。大數(shù)據(jù)時(shí)代,圖書(shū)館員必須提高職業(yè)修養(yǎng),在搜集、分析用戶信息時(shí),做好保密工作,捍衛(wèi)用戶的隱私權(quán)。在圖書(shū)館服務(wù)提供過(guò)程中,還要重要讀者隱私權(quán)的保護(hù)。
參考文獻(xiàn)
[1]李鵬云.大數(shù)據(jù)與圖書(shū)館服務(wù)[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2013(9)
[2]樊偉紅,李晨暉等.圖書(shū)館需要怎么的"大數(shù)據(jù)"[J].圖書(shū)館雜志,2012(11).
[3]王捷.大數(shù)據(jù)時(shí)代下圖書(shū)館開(kāi)展信息服務(wù)的對(duì)策[J].現(xiàn)代情報(bào),2013(3)
[4]韓翠峰.大數(shù)據(jù)時(shí)代圖書(shū)館的服務(wù)創(chuàng)新與發(fā)展[J].圖書(shū)館,2013(1).
[5]朱靜薇,李紅艷.大數(shù)據(jù)時(shí)代下圖書(shū)館的挑戰(zhàn)及其應(yīng)對(duì)策略[J].現(xiàn)代情報(bào),2013(5).