摘要:本文在對(duì)大數(shù)據(jù)定義與特點(diǎn)的基礎(chǔ)上,重點(diǎn)對(duì)大數(shù)據(jù)在圖書館的應(yīng)用進(jìn)行了探討。目前大數(shù)據(jù)的研究和應(yīng)用仍處于一個(gè)起步階段,圖書館作為信息資源收集整理及為社會(huì)提供信息服務(wù)的資源中心,在大數(shù)據(jù)研究、應(yīng)用方面十分薄弱,在大數(shù)據(jù)的服務(wù)競(jìng)爭(zhēng)中,圖書館如何發(fā)揮自身優(yōu)勢(shì),突破技術(shù)劣勢(shì),為己所用是本文的討論重點(diǎn)。
關(guān)鍵詞:大數(shù)據(jù);圖書館;知識(shí)服務(wù)
“大數(shù)據(jù)(Big Data)”是繼Web2.0之后和云計(jì)算一起被媒體最關(guān)注的詞匯組合,并正在引起信息科技領(lǐng)域越來越多的關(guān)注熱潮。IBM、EMC、Oracle、Microsoft等IT巨頭幾乎都已投身到了大數(shù)據(jù)的軟硬件技術(shù)整合、大數(shù)據(jù)信息處理的技術(shù)供應(yīng)研究開發(fā)之中,力求在新一輪的信息競(jìng)爭(zhēng)環(huán)境中占據(jù)主動(dòng),并搶得戰(zhàn)略先機(jī)與技術(shù)制高點(diǎn)。圖書館作為社會(huì)的知識(shí)信息服務(wù)中心,使得社會(huì)對(duì)圖書館所提供的服務(wù)要求更為苛刻,潛在的知識(shí)挖掘、知識(shí)評(píng)價(jià)、數(shù)據(jù)分析等增值服務(wù)需求已經(jīng)開始顯現(xiàn)。利用大數(shù)據(jù)技術(shù)去挖掘、識(shí)別、組織與分析隱含在讀者行為中的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)信息,尋找他們的隱形訴求進(jìn)而改進(jìn)圖書館的服務(wù),達(dá)到圖書館資源、服務(wù)與讀者需求的雙向理想控制已成為大數(shù)據(jù)時(shí)代圖書館提高服務(wù)體系的組織水平、推動(dòng)行業(yè)發(fā)展與制度建設(shè)的捷徑之一。
一、大數(shù)據(jù)概念
(一)大數(shù)據(jù)的定義
維基百科的定義是:“大數(shù)據(jù)(Big Data),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。”[1]也就是說,由于所涉及的數(shù)據(jù)規(guī)模巨大,以至于利用目前的主要軟件工具,在可允許的時(shí)間范圍內(nèi),達(dá)到查詢檢索、下載獲取、加工處理、數(shù)據(jù)管理,并有效的整理成為對(duì)用戶有用的數(shù)據(jù)資源已經(jīng)變的非常困難。美國(guó)互聯(lián)網(wǎng)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%,每?jī)赡瓯銓⒎环壳笆澜缟?0%以上的數(shù)據(jù)都是近幾年產(chǎn)生的。大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是人們放棄對(duì)事物因果關(guān)系的渴求,取而代之的是更加關(guān)注相關(guān)關(guān)系,對(duì)人類的認(rèn)知方式和與世界交流的方式都提出了全新的挑戰(zhàn)。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是資產(chǎn)已經(jīng)成為人們的共識(shí)。
(二)大數(shù)據(jù)的特點(diǎn)
分析員道格.萊尼(Doug Laney)曾在麥塔集團(tuán)(META Group,現(xiàn)為高德納)的一份研究報(bào)告中指出大數(shù)據(jù)的三個(gè)特點(diǎn):量(Volume,數(shù)據(jù)大?。⑺伲╒elocity,數(shù)據(jù)輸入輸出的速度)與多變(Variety,多樣性),合稱“3V”。另外,以IDC為代表的業(yè)界認(rèn)為滿足“4V”(Volume、Velocity、Variety、Value,即種類多、流量大、容量大、價(jià)值高)指標(biāo)的數(shù)據(jù)才可稱為大數(shù)據(jù)。但無論是“3V”還是“4V”,其本質(zhì)都是對(duì)大數(shù)據(jù)中的“大”的理解與闡釋。
大數(shù)據(jù)的單條數(shù)據(jù)并無太多價(jià)值,但匯集龐大的單條數(shù)據(jù)集則蘊(yùn)含著巨大的財(cái)富,將已有結(jié)構(gòu)化(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù)),半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)(如文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等)進(jìn)行融合和分析后,會(huì)挖掘出很多新的業(yè)務(wù)信息。
二、圖書館大數(shù)據(jù)
(一)圖書館的大數(shù)據(jù)類型
進(jìn)行大數(shù)據(jù)分析首先要擁有大數(shù)據(jù),圖書館本身擁有的大數(shù)據(jù)主要包括:
1.圖書館的數(shù)字化資源。經(jīng)過數(shù)字圖書館的多年建設(shè),圖書館擁有大量的數(shù)據(jù)庫資源、電子書資源紙質(zhì)圖書電子化的數(shù)字資源,以及各種音頻、視頻資源,這些資源在總量上很大而且增長(zhǎng)速度也比較快,它們是圖書館大數(shù)據(jù)的重要組成部分。[2]
2.社交網(wǎng)絡(luò)時(shí)代出現(xiàn)的大量非結(jié)構(gòu)化數(shù)據(jù)。在門戶網(wǎng)站、搜索引擎時(shí)代之后,社交網(wǎng)絡(luò)時(shí)代已經(jīng)到來。隨之而來產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù),通過大數(shù)據(jù)分析技術(shù)可以將這些數(shù)據(jù)進(jìn)行收集分析,得出讀者的興趣偏好。伴隨著社交網(wǎng)絡(luò)、移動(dòng)圖書館、物聯(lián)網(wǎng)等概念的興起,今后來自讀者的各種信息將越來越多,我們將在讀者使用圖書館服務(wù)的過程中收集讀者的地理位置、搜索歷史、搜索時(shí)間等信息,這些很多是非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),挖掘讀者偏好,為其提供最有用的信息。
3.讀者使用歷史所形成的非結(jié)構(gòu)化數(shù)據(jù)。在圖書館里不管是各種數(shù)據(jù)庫資源,還是紙質(zhì)資源,以及各種學(xué)生的信息都是我們的大數(shù)據(jù)。但是這些并不是大數(shù)據(jù)的全部,只是其中的一部分。比如他們對(duì)于數(shù)據(jù)庫的檢索歷史、瀏覽歷史、數(shù)據(jù)使用方向及使用方法等信息。伴隨著移動(dòng)互聯(lián)時(shí)代的到來,將從手機(jī)、平板電腦、筆記本等諸多移動(dòng)終端中收集到讀者的個(gè)人信息、方位信息、瀏覽信息等各種不同的數(shù)據(jù),這才真正構(gòu)成了圖書館完整的大數(shù)據(jù)采集。
(二)圖書館大數(shù)據(jù)的幾個(gè)主要來源
1.RFID射頻數(shù)據(jù):RFID嵌入到圖書館相關(guān)資源中,實(shí)現(xiàn)資源的跟蹤及分析。比如圖書芯片和借閱卡芯片的相關(guān)數(shù)據(jù),來優(yōu)化圖書布局和館藏結(jié)構(gòu)。什么資源使用的多,哪個(gè)時(shí)段流通更頻繁,資源的處理效率如何等,都對(duì)圖書館資源的利用率和采購渠道至關(guān)重要。
2.傳感器數(shù)據(jù):通過分布在圖書館不同位置或環(huán)境中的傳感器對(duì)所處環(huán)境和資源進(jìn)行的感知,不斷生成的數(shù)據(jù),由于長(zhǎng)時(shí)間積累所產(chǎn)生的數(shù)據(jù)量也非常巨大。結(jié)合物聯(lián)網(wǎng)技術(shù),可以提升自動(dòng)化設(shè)備的智能化處理能力。
3.社交網(wǎng)絡(luò)交互數(shù)據(jù):隨著社交網(wǎng)絡(luò)應(yīng)用的逐步推廣,社交網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過以往任何一個(gè)信息傳播媒介,毫無疑問,它將會(huì)成為未來很長(zhǎng)一段時(shí)間內(nèi),大數(shù)據(jù)最為主要的來源之一。該渠道可以更多地結(jié)合第三方商業(yè)數(shù)據(jù)接口,來完成數(shù)據(jù)匯集。
4.移動(dòng)互聯(lián)數(shù)據(jù):移動(dòng)互聯(lián)網(wǎng)及移動(dòng)互聯(lián)技術(shù)的不斷完善,使得圖書館可以通過WIFI定位、流量監(jiān)控等方式,靈活獲取移動(dòng)電子設(shè)備、人員、資源、用戶行為和需求等信息,并對(duì)這些信息進(jìn)行實(shí)時(shí)分析,從而幫助我們開展有效的智能輔助決策。[3]
三、大數(shù)據(jù)應(yīng)用
(一)實(shí)現(xiàn)針對(duì)不同讀者的個(gè)性化服務(wù)
圖書館讀者具有人數(shù)眾多、年齡不同、專業(yè)方向不同等特點(diǎn)給圖書館提出了不同的個(gè)性化要求。而大數(shù)據(jù)的應(yīng)用就在于加強(qiáng)用戶研究與交互數(shù)據(jù)的利用,并基于對(duì)用戶數(shù)據(jù)的分析,從中提取有價(jià)值的信息,建立用戶模型,針對(duì)不同用戶提供針對(duì)性服務(wù)。[4]圖書館里大量的用戶行為產(chǎn)生的數(shù)據(jù),如用戶查詢書目產(chǎn)生的OPAC日志,用戶流通日志,電子資源檢索瀏覽下載產(chǎn)生的日志及流量數(shù)據(jù),這些數(shù)據(jù)中除了用于記錄讀者的個(gè)人信息外,還隱藏著許多重要的信息,因此可通過對(duì)這些數(shù)據(jù)進(jìn)行挖掘分析、知識(shí)發(fā)現(xiàn)、只能代理等技術(shù),描述用戶的行為,準(zhǔn)確定位讀者需求,向讀者提供主動(dòng)式推送服務(wù),滿足其個(gè)性化的智能服務(wù)。
(二)提供研究動(dòng)向以及研究熱點(diǎn)的變化
圖書館可以通過對(duì)讀者數(shù)據(jù)的收集匯總,進(jìn)行大數(shù)據(jù)分析,可以在宏觀上分析相關(guān)領(lǐng)域科研熱點(diǎn)的動(dòng)向,為科研人員、科研部門的決策者服務(wù),讓他們更快的洞察最新的科研走向,以及相關(guān)研究領(lǐng)域其他科研人員的研究進(jìn)展。通過大數(shù)據(jù)的分析,提升圖書館在科研領(lǐng)域中的作用,與此同時(shí)為科研人員提供更多有價(jià)值的研究策略信息。
(三)為采編部門和數(shù)據(jù)庫采購部門提供資源評(píng)價(jià)意見
文獻(xiàn)資源是圖書館的重要組成部分,如何合理采購紙質(zhì)資源和電子資源,如何能夠讓購買的資源更好地滿足讀者的需要,讓圖書館更有效率地服務(wù)讀者一直是圖書館面臨的問題。通過檢索條目信息中對(duì)搜索關(guān)鍵詞的搜集與統(tǒng)計(jì)等大數(shù)據(jù)分析,可以有效評(píng)估讀者對(duì)各種資源的使用情況,并且通過讀者平日訪問歷史的收集,可以預(yù)測(cè)出讀者關(guān)注的熱點(diǎn),這為有效評(píng)估圖書館已有文獻(xiàn)的質(zhì)量以及讀者對(duì)未購買文獻(xiàn)的需求提供了支持。
(四)用戶流失分析及價(jià)值分析
在當(dāng)今信息技術(shù)發(fā)展的洪流中,價(jià)值質(zhì)疑、技術(shù)障礙、管理僵化、人員隊(duì)伍適應(yīng)變化敏感性低等重大問題已經(jīng)嚴(yán)重困制約著圖書館的發(fā)展,圖書館的社會(huì)地位與存在價(jià)值正在不斷的弱化,用戶正在向其他文化信息機(jī)構(gòu)流失。我們通過大數(shù)據(jù)分析能夠讓圖書館清晰把握用戶的信息需求及意愿,分析出用戶的信息行為及其知識(shí)應(yīng)用能力,有利于圖書館對(duì)用戶的信息需求以及信息行為偏好進(jìn)行預(yù)測(cè),架構(gòu)以讀者個(gè)性化服務(wù)為核心的信息服務(wù)體系。[5]大數(shù)據(jù)技術(shù)加強(qiáng)了圖書館對(duì)于讀者研究與交互數(shù)據(jù)分析、利用的能力,從海量數(shù)據(jù)中挖掘有用信息,建立用戶檔案與模型,在精確劃分讀者類別的基礎(chǔ)上,進(jìn)行跟蹤服務(wù)、知識(shí)關(guān)聯(lián)服務(wù)、先覺性服務(wù),提高用戶體驗(yàn),增加圖書館信息服務(wù)的競(jìng)爭(zhēng)力,從而留住用戶。
(五)建立新型知識(shí)服務(wù)引擎
技術(shù)引擎是圖書館信息服務(wù)的技術(shù)核心,如何利用大數(shù)據(jù)技術(shù)構(gòu)建圖書館的新型知識(shí)服務(wù)引擎,將會(huì)是未來幾年內(nèi)圖書館情報(bào)領(lǐng)域信息技術(shù)研究的主要內(nèi)容。[6]新型知識(shí)服務(wù)引擎包括資源及學(xué)術(shù)搜索引擎、資源及服務(wù)推薦引擎、知識(shí)服務(wù)社區(qū)實(shí)體(包括用戶及資源)行為智能分析引擎、用戶知識(shí)需求預(yù)測(cè)引擎、及多維度信息資源獲取、組織、分析及決策引擎等。例如美國(guó)Hiptype公司將大數(shù)據(jù)分析技術(shù)來分析電子書讀者閱讀習(xí)慣和喜好,這也是國(guó)內(nèi)外圖書情報(bào)領(lǐng)域首例利用大數(shù)據(jù)技術(shù)構(gòu)建知識(shí)服務(wù)社區(qū)實(shí)體(包括用戶及資源)行為智能分析引擎。
(六)建立知識(shí)服務(wù)及業(yè)務(wù)建設(shè)的風(fēng)險(xiǎn)模型
通過分析資源,包括知識(shí)資源、網(wǎng)絡(luò)資源、信息資源、軟件資源及服務(wù)資源等的實(shí)時(shí)狀態(tài)來預(yù)測(cè)未來可能出現(xiàn)的故障及數(shù)據(jù)資源可能出現(xiàn)的突變與波動(dòng),幫助圖書館預(yù)先制訂好應(yīng)對(duì)措施、策略以及圖書館的各類風(fēng)險(xiǎn)評(píng)估模型。同時(shí),如前所述,傳感器數(shù)據(jù)也是未來大數(shù)據(jù)的主要來源之一,此類數(shù)據(jù)將為圖書館獲取大量的圖書館人文環(huán)境、自然環(huán)境以及技術(shù)環(huán)境的多維度數(shù)據(jù),借助大數(shù)據(jù)技術(shù)分析、預(yù)測(cè)建立有針對(duì)性的各類圖書館風(fēng)險(xiǎn)評(píng)估模型,實(shí)現(xiàn)圖書館管理的優(yōu)化升級(jí),保持圖書館穩(wěn)定的運(yùn)行狀態(tài)。
四、概念轉(zhuǎn)變
數(shù)字信息的爆炸式增長(zhǎng)催生出“大數(shù)據(jù)”概念,正席卷整個(gè)IT及其相關(guān)行業(yè),大數(shù)據(jù)已經(jīng)深深嵌入到了圖書館情報(bào)工作當(dāng)中。然而目前圖書館相關(guān)大數(shù)據(jù)的理論研究與方案應(yīng)用仍處于一個(gè)初級(jí)階段,有大量基礎(chǔ)性的構(gòu)架問題有待解決。圖書館作為信息資源收集整理及為社會(huì)提供信息服務(wù)的資源中心,擁有豐富的資源優(yōu)勢(shì),然而在今后大數(shù)據(jù)的云服務(wù)競(jìng)爭(zhēng)中,圖書館只有突破現(xiàn)有技術(shù)屏障,才有可能避免被新型信息模型邊緣化。
【參考文獻(xiàn)】
[1]大數(shù)據(jù).維基百科.2014-07-25.http://zh.wikipedia.org/wiki/大數(shù)據(jù).
[2]楊海燕.大數(shù)據(jù)時(shí)代的圖書館服務(wù)淺析.圖書與情報(bào),2012(4).
[3]樊偉紅等.圖書館需要怎樣的“大數(shù)據(jù)”.圖書館雜志,2012(11).
[4]韓翠峰.大數(shù)據(jù)時(shí)代圖書館服務(wù)創(chuàng)新與發(fā)展.圖書館,2013(1).
[5]王捷.大數(shù)據(jù)時(shí)代下圖書館開展信息服務(wù)的對(duì)策.現(xiàn)代情報(bào),2013(3).
[6]王天泥.大數(shù)據(jù)視角下圖書館的發(fā)展對(duì)策.圖書館學(xué)刊,2013(3).
作者簡(jiǎn)介:魏爾嘯(1987—),河南省圖書館,助理館員。