李 明
(福建工程學(xué)院,福州 350108)
近年來,“大數(shù)據(jù)”一詞經(jīng)常出現(xiàn),吸引越來越多的人關(guān)注與研究,大數(shù)據(jù)被譽(yù)為未來的石油和黃金,并已被廣泛地開發(fā)和利用。大數(shù)據(jù)時(shí)代,在數(shù)據(jù)收集、存儲、處理、挖掘及分析過程中,尋找數(shù)據(jù)中規(guī)律性的東西、提取有用的信息,是大數(shù)據(jù)的價(jià)值所在。高校圖書館在大數(shù)據(jù)時(shí)代,使用云計(jì)算、物聯(lián)網(wǎng)、智慧城市、移動互聯(lián)等新技術(shù)產(chǎn)生大量的數(shù)據(jù),分析利用這些數(shù)據(jù),改變現(xiàn)有讀者服務(wù)方式,使之向知識型、智慧型的方向發(fā)展很有必要。
目前,對大數(shù)據(jù)還沒有統(tǒng)一的定義。大數(shù)據(jù)研究機(jī)構(gòu)Gartner對大數(shù)據(jù)的定義是:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。而維基百科對大數(shù)據(jù)的定義是:所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊[1]。
首先,大數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的總和。據(jù)DCCI統(tǒng)計(jì),2010年全球數(shù)據(jù)量達(dá)到了1.2ZB(1ZB=1 024EB,1EB=10億GB),在如此龐大的數(shù)據(jù)中,只有 10%的數(shù)據(jù)是存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),其余則是由郵件視頻、微博等產(chǎn)生的大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[2]。其次,大數(shù)據(jù)的“數(shù)據(jù)”并非數(shù)據(jù)存儲,而是數(shù)據(jù)獲取和數(shù)據(jù)應(yīng)用。因?yàn)榇鎯Φ臄?shù)據(jù)并不具備價(jià)值,而大數(shù)據(jù)的數(shù)據(jù)是進(jìn)行高速獲取和應(yīng)用的數(shù)據(jù)。目前美國需要14萬到19萬名以上具備“深度分析”專長的研究人員,而對具備數(shù)據(jù)知識的經(jīng)理的需求則超過了150萬[3]。研究發(fā)現(xiàn),大數(shù)據(jù)一般具有4個(gè)特點(diǎn):數(shù)據(jù)量大(Volume)、類型繁多( Variety)、價(jià)值密度低(Value)、速度快時(shí)效高( Velocity)。大數(shù)據(jù)收集、存儲、挖掘及分析需要新技術(shù)解決,如云計(jì)算即為大數(shù)據(jù)技術(shù)。
大數(shù)據(jù)時(shí)代信息的產(chǎn)生方式日益增多,數(shù)據(jù)信息量激增。高校圖書館對這些復(fù)雜的數(shù)據(jù)進(jìn)行存儲、管理和應(yīng)用存在諸多挑戰(zhàn)。在解決這些問題的過程中,可能會促使高校圖書館管理模式、文獻(xiàn)資源建設(shè)模式和發(fā)展模式的轉(zhuǎn)變,但是實(shí)現(xiàn)上述模式轉(zhuǎn)變上面臨著兩個(gè)問題:首先,云計(jì)算雖然解決了海量數(shù)據(jù)的存儲和運(yùn)算問題,但其自身存在的安全隱患等問題使用戶不能完全信任[4];其次,大數(shù)據(jù)對圖書館數(shù)據(jù)存儲范圍的要求極高。早在2007年,沃爾瑪就通過對消費(fèi)者的購物行為等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,創(chuàng)造了“啤酒與尿布”的經(jīng)典案例[5]。因此,高校圖書館應(yīng)在大數(shù)據(jù)時(shí)代主動嘗試掌握讀者、館員甚至社會人員的信息。
圖書館要了解自身的數(shù)據(jù)收集、存貯、分析和挖掘現(xiàn)狀,還必須掌握用戶對圖書館的信息利用與需求度,在知己知彼的前提下,開展數(shù)據(jù)分析服務(wù)。目前,圖書情報(bào)界所熟知的聚類分析、數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)則、可視化分析、數(shù)據(jù)融合與數(shù)據(jù)集成等,這只是針對結(jié)構(gòu)化數(shù)據(jù)和有限數(shù)量的關(guān)鍵詞進(jìn)行聚類分析、共現(xiàn)分析等,并不能真正挖掘非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),更不能通過數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。一些學(xué)者開始思考去采集和利用網(wǎng)絡(luò)社交等信息行為產(chǎn)生的大量非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),如蘇玉照等人就認(rèn)為如果能夠采集到Web日志的數(shù)據(jù),就能很好地滿足發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、內(nèi)容分類和用戶聚類的需求,從而能提高個(gè)性化推薦的精度,進(jìn)而對定制Web日志的數(shù)據(jù)模型、過程及方法進(jìn)行探索。
隨著網(wǎng)絡(luò)化、數(shù)字化的發(fā)展,信息與知識的傳播手段不斷更新,讀者的信息需求也呈現(xiàn)出多層次、多元化的特點(diǎn)。 網(wǎng)絡(luò)化、數(shù)字化、信息化改變了人們的閱讀方式和學(xué)習(xí)方式,讀者的要求也從簡單的信息檢索、信息獲取轉(zhuǎn)變?yōu)樾畔⒌募庸ず头窒?、個(gè)性化的信息服務(wù)上。 讀者的閱讀方式由以往的紙質(zhì)閱讀轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)閱讀、數(shù)字閱讀。 數(shù)字閱讀的內(nèi)容也從文字和圖片擴(kuò)展到了音頻和視頻。 這種全新的閱讀方式具有信息儲存量大、檢索便捷、便于共享等特點(diǎn),可以使讀者隨時(shí)隨地快速獲取所需信息。但網(wǎng)絡(luò)閱讀也存在垃圾信息過多、閱讀內(nèi)容膚淺、碎片化等弊端,有時(shí)不能逼真反映原作品的藝術(shù)效果。 淺閱讀、大眾閱讀成為一種隱患,它們在傳統(tǒng)經(jīng)典文化知識的吸取方式上有快餐化、愉悅化取向。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)搜集與存儲是必備條件,在商業(yè)市場中,數(shù)據(jù)分析被運(yùn)用得淋漓盡致。如奈飛公司利用客戶的網(wǎng)上點(diǎn)擊記錄,預(yù)測其消費(fèi)需求,進(jìn)行客戶針對性精準(zhǔn)營銷。高校圖書館亦可參考這一做法,根據(jù)讀者對館藏資源的點(diǎn)擊率,利用圖書館自動化系統(tǒng),對館藏資源進(jìn)行分類與排行,預(yù)測讀者喜好,在校園局域網(wǎng)平臺上,對讀者進(jìn)行文獻(xiàn)信息分類,實(shí)現(xiàn)信息精準(zhǔn)推送。首先,建立館藏資源大數(shù)據(jù),對館藏資源進(jìn)行精細(xì)化分類。利用自動化系統(tǒng),以學(xué)科、出版年、文獻(xiàn)借閱率等不同的標(biāo)準(zhǔn)對館藏文獻(xiàn)進(jìn)行劃分重組,按照不同的知識體系,以專業(yè)性、時(shí)效性和讀者喜好度等標(biāo)準(zhǔn)歸類,建立館藏資源的網(wǎng)狀結(jié)構(gòu)系統(tǒng),使每類館藏文獻(xiàn)體系都有相對應(yīng)的讀者群,反過來,每類讀者群都有相對應(yīng)的館藏分類體系,二者一一對應(yīng)。其次,盡可能使館藏資源體系全面而不失個(gè)性化。在文獻(xiàn)采訪過程中,挖掘出館藏?cái)?shù)據(jù)的價(jià)值與隱藏在讀者背后的閱讀需求,預(yù)測讀者的閱讀趨勢。目前,市場上的圖書采集器只能進(jìn)行館藏文獻(xiàn)查重,無法實(shí)現(xiàn)按讀者需求采購,結(jié)合國外讀者主導(dǎo)式采購系統(tǒng)(簡稱PDA),利用書商提供的電子書單,通過圖書館網(wǎng)絡(luò)平臺,積極引導(dǎo)讀者參與圖書采購。
通過讀者數(shù)據(jù)科學(xué)決策讀者服務(wù)是大數(shù)據(jù)時(shí)代高校圖書館提升讀者服務(wù)能力的重要路徑。大數(shù)據(jù)時(shí)代,高校圖書館要充分利用讀者數(shù)據(jù),分析、評估和決策讀者服務(wù),營造一種“重視并回報(bào)利用大數(shù)據(jù)進(jìn)行決策的文化”。這就要求圖書館必須有“數(shù)據(jù)優(yōu)先”思維,把數(shù)據(jù)作為提升讀者服務(wù)能力的首要因素,要充分認(rèn)識到大數(shù)據(jù)時(shí)代數(shù)據(jù)的重要性,努力使結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)為推動讀者服務(wù)發(fā)展發(fā)揮重大作用。為此,圖書館要有“數(shù)據(jù)驅(qū)動”和“數(shù)據(jù)決策”意識。所謂數(shù)據(jù)驅(qū)動意識,就是不能無視數(shù)據(jù)的存在及其作用,要在數(shù)據(jù)的驅(qū)動下積極作為。所謂數(shù)據(jù)決策意識,就是一切決策必須基于數(shù)據(jù)和數(shù)據(jù)分析,不能無根據(jù)地憑直覺盲目做決策。大數(shù)據(jù)時(shí)代,讀者需求變化前所未有,通過數(shù)據(jù)分析技術(shù),實(shí)時(shí)跟蹤并適時(shí)分析讀者的閱讀偏好、借閱習(xí)慣、借閱記錄、檢索歷史等各種大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),精準(zhǔn)把握并準(zhǔn)確預(yù)測讀者需求及其變化規(guī)律,及時(shí)科學(xué)地做出調(diào)整,或變革讀者服務(wù)理念、服務(wù)內(nèi)容、服務(wù)模式、服務(wù)手段和服務(wù)時(shí)間的決策,適時(shí)為讀者提供個(gè)性化推薦服務(wù)、個(gè)性化知識服務(wù)、學(xué)科化深層服務(wù)、嵌入式服務(wù)、動態(tài)服務(wù)、交互服務(wù)、電子郵件咨詢、經(jīng)常性問題解答、即時(shí)視像咨詢、遠(yuǎn)程數(shù)字化合作咨詢和便捷化定題服務(wù)等等,從而滿足讀者學(xué)習(xí)、教學(xué)和科研需求的多元化。
對于大數(shù)據(jù)的認(rèn)識和應(yīng)用,國內(nèi)高校圖書館還處于起步階段,沒有針對大數(shù)據(jù)應(yīng)用的管理結(jié)構(gòu)進(jìn)行調(diào)整,如建立讀者數(shù)據(jù)倉庫或設(shè)立數(shù)據(jù)館員類崗位。而國外一些高校已經(jīng)設(shè)立了與數(shù)據(jù)管理相關(guān)的崗位,如數(shù)據(jù)館員、數(shù)據(jù)管理專家、社會科學(xué)數(shù)據(jù)服務(wù)館員等[6]。設(shè)立特定的崗位,負(fù)責(zé)和完成數(shù)據(jù)管理和服務(wù)工作,便于讓高校圖書館形成以數(shù)據(jù)為基礎(chǔ)的資源信息管理模式,建立完善的數(shù)據(jù)管理服務(wù)系統(tǒng)。大數(shù)據(jù)倉庫和大數(shù)據(jù)資源管理的建立和實(shí)施,都需要專業(yè)人才的技能和參與。整個(gè)數(shù)據(jù)收集、整合、集成、分析、共享等工作均需要專業(yè)人員的協(xié)助,因此,目前國內(nèi)高校需要重視數(shù)據(jù)館員的作用。圖書館若要建立以大數(shù)據(jù)為基礎(chǔ)的采購系統(tǒng)或管理系統(tǒng),不容忽視數(shù)據(jù)館員的存在。
主要參考文獻(xiàn)
[1]百度百科.大數(shù)據(jù)[EB /OL].[2012-09-10].http://baike.baidu.com/view /6954399.htm.
[2][作者不詳]海量數(shù)據(jù)爆發(fā)大數(shù)據(jù)時(shí)代來臨的五個(gè)轉(zhuǎn)變[EB/OL].[2012-08-01].http://labs.chinamobile.com/news/7627.
[3][作者不詳]數(shù)據(jù)分析人才短缺問題造成當(dāng)前CIO必須面對的[EB/OL].[2012-08-01].http://cio.ctocio.com.cn/316/12322816/shtml.
[4]黎春蘭,鄧仲華.信息資源視角下云計(jì)算面臨的挑戰(zhàn)[J].圖書與情報(bào),2011(3):17-22.
[5]高勇.啤酒與尿布:神奇的購物籃分析[M].北京:清華大學(xué)出版社,2008.
[6]孟祥保,錢鵬.國外高校圖書館數(shù)據(jù)館員崗位設(shè)置與管理機(jī)制[J].圖書與情報(bào),2013(4):12-17.