武濤,胡鷹
大數(shù)據(jù)時(shí)代,高校圖書(shū)館數(shù)字資源建設(shè)面臨前所未有的機(jī)遇和挑戰(zhàn)。高效的網(wǎng)絡(luò)信息傳播,為讀者閱讀提供了更加便捷的用戶體驗(yàn)。但是,在高校圖書(shū)館數(shù)字資源建設(shè)中,還面臨資金投入、設(shè)備引進(jìn)、網(wǎng)絡(luò)寬帶數(shù)據(jù)建設(shè)、網(wǎng)絡(luò)信息流通管理等一系列問(wèn)題,只有處理好了這些問(wèn)題才能真正實(shí)現(xiàn)高校圖書(shū)館數(shù)字資源的共享。
2009 年,麥肯錫公司(McKinsey&Company)首次提出了大數(shù)據(jù)的概念;2011年,大數(shù)據(jù)概念從硅谷蔓延到北京,引起了相關(guān)機(jī)構(gòu)的關(guān)注[1]。大數(shù)據(jù)是指在某個(gè)時(shí)刻不能被傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具抽象處理的數(shù)據(jù)集合。實(shí)際上,大數(shù)據(jù)不僅是許多數(shù)據(jù)的集合,而且在存儲(chǔ)方法和處理技巧上有別于傳統(tǒng)數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)主要包括數(shù)字和單詞,數(shù)據(jù)一般都存儲(chǔ)在數(shù)據(jù)庫(kù)中,結(jié)構(gòu)明確,數(shù)據(jù)元素之間具有相關(guān)性。例如,用戶信息通常包括身份證、姓名、性別、出生日期等,這些結(jié)構(gòu)化的數(shù)據(jù)彼此具有一定的相關(guān)性,數(shù)據(jù)量小,通常低于TB字節(jié)級(jí)。而大數(shù)據(jù)包含數(shù)字和文本,以及非結(jié)構(gòu)化數(shù)據(jù),如圖像,音頻,視頻,鏈接等[2]。在處理技能方面,大數(shù)據(jù)需要將數(shù)字、文字與視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)一起處理,其處理的數(shù)據(jù)量能夠達(dá)到PB級(jí)甚至更高??梢哉f(shuō),大數(shù)據(jù)不僅意味著數(shù)據(jù)量大,而且意味著數(shù)據(jù)處理的速度快。
1.大數(shù)據(jù)信息非常豐富
互聯(lián)網(wǎng)信息服務(wù)在很大程度上方便了用戶,也有利于信息共享。在網(wǎng)絡(luò)環(huán)境下,用戶對(duì)數(shù)據(jù)信息的需求在不斷加大,這在多方面影響了大數(shù)據(jù)的存儲(chǔ)與利用。視頻印象、圖片圖畫(huà)及文件等以不同方法的數(shù)據(jù)呈現(xiàn)在人們的日常工作中,數(shù)據(jù)在真實(shí)、有效地表達(dá)需求方面的效果日益顯著,方法也日益多樣,數(shù)字資源的數(shù)量也相應(yīng)增長(zhǎng)。
2.數(shù)據(jù)結(jié)構(gòu)復(fù)雜
互聯(lián)網(wǎng)時(shí)期的數(shù)據(jù)方法非常煩瑣,且計(jì)算機(jī)信息處理能力在不斷地發(fā)生改變[3]。網(wǎng)絡(luò)溝通平臺(tái)處于快速發(fā)展中,人們對(duì)數(shù)據(jù)的需求日益增加,數(shù)據(jù)信息的種類(lèi)日益多元,不同信息采用不同的存儲(chǔ)方式進(jìn)行存儲(chǔ),使得數(shù)據(jù)的處理方法也變得更加復(fù)雜。
3.數(shù)據(jù)價(jià)值密度低
數(shù)據(jù)價(jià)值密度與數(shù)據(jù)總量之間的關(guān)系通常是成反比的。數(shù)據(jù)總量越低,數(shù)據(jù)價(jià)值密度越高。一段特定時(shí)長(zhǎng)的視頻,可能在幾秒鐘內(nèi)才有有價(jià)值的數(shù)據(jù)。在龐大繁雜的數(shù)據(jù)信息里價(jià)值是有限的。當(dāng)前大數(shù)據(jù)時(shí)代急需解決的大問(wèn)題是如何使用精密的算法來(lái)達(dá)到提取核心價(jià)值的目的[4]。
目前高校圖書(shū)館文獻(xiàn)資源建設(shè)的核心問(wèn)題是數(shù)字資源建設(shè),高校教學(xué)科研對(duì)此需求很大。通過(guò)對(duì)比我國(guó)大部分高校圖書(shū)館數(shù)字資源建設(shè)情況,我們發(fā)現(xiàn),數(shù)字資源建設(shè)對(duì)于圖書(shū)館的發(fā)展十分重要。但是,目前圖書(shū)館數(shù)字資源建設(shè)方面還存在以下4個(gè)方面的問(wèn)題亟待解決。
數(shù)字資源優(yōu)化整合,即根據(jù)特定要求,把數(shù)字資源進(jìn)行重組分類(lèi)。當(dāng)前,部分高校的圖書(shū)館數(shù)字化體系還處于相對(duì)孤立的狀態(tài),其信息化建立仍然停留在信息孤島階段,資源整合力度較小。高校圖書(shū)館應(yīng)根據(jù)實(shí)際狀況,優(yōu)化數(shù)字資源配置,優(yōu)化整合各種資源,實(shí)現(xiàn)數(shù)字資源利用的最大化。
在大數(shù)據(jù)環(huán)境下,高校圖書(shū)館數(shù)字資源存儲(chǔ)表現(xiàn)出品種繁雜,結(jié)構(gòu)雜亂,存儲(chǔ)空間大的特點(diǎn)。雜亂的數(shù)據(jù)會(huì)使數(shù)據(jù)處理的難度增加,從而產(chǎn)生更多的信息冗雜。因此,需要對(duì)數(shù)據(jù)進(jìn)行精簡(jiǎn)和優(yōu)化,做必要的備份和存儲(chǔ),減少不必要的數(shù)據(jù)核算。
大數(shù)據(jù)中的很多數(shù)據(jù)借助云核算,分散儲(chǔ)存在各個(gè)“云”中。而用戶的動(dòng)態(tài)性和云核算的雜亂性等,使得存儲(chǔ)的數(shù)據(jù)存在安全隱患。高校圖書(shū)館的數(shù)據(jù)信息同樣面臨這種信息安全隱患,特別是用戶的個(gè)人信息、圖書(shū)館的重要數(shù)據(jù)等。
大數(shù)據(jù)技能通常包括:人工智能、云核算、并行處置、散布式處置、數(shù)據(jù)挖掘、數(shù)據(jù)存儲(chǔ)備份以及可視化分析等技能。高校數(shù)字資源建設(shè)的客觀實(shí)際,需要高校圖書(shū)館員利用大數(shù)據(jù)技能,收集、整合、分析相關(guān)數(shù)據(jù),并將數(shù)據(jù)轉(zhuǎn)換為有價(jià)值的信息,深入淺出地反饋給用戶。然而,目前這方面的人才缺口還很大。
精通計(jì)算機(jī)及圖書(shū)館情報(bào)知識(shí)的全能型人才是高校圖書(shū)館急需的。首先,高校應(yīng)積極引進(jìn)數(shù)字資源建設(shè)方面的專(zhuān)門(mén)人才;其次,加強(qiáng)圖書(shū)館在職員工的信息技能培訓(xùn);最后,圖書(shū)館可以采用“不求我有,但為我用”[5]的思路,與高校內(nèi)其他部門(mén)、院系或其他單位開(kāi)展人才交流與業(yè)務(wù)交流,借助社會(huì)資源促進(jìn)自身建設(shè)。
為了縮短數(shù)據(jù)搜索的時(shí)間,提高資源的利用效率,在高校圖書(shū)館數(shù)據(jù)資源建設(shè)中充分運(yùn)用動(dòng)態(tài)化數(shù)據(jù)處理方式,根據(jù)數(shù)據(jù)使用的實(shí)際情況,對(duì)數(shù)據(jù)庫(kù)進(jìn)行動(dòng)態(tài)處理。通過(guò)分析圖書(shū)館日常數(shù)據(jù)資源可知,目前,不僅要中止清算那些下載率及閱讀率很低的數(shù)據(jù)庫(kù),還要加強(qiáng)利用率高的數(shù)據(jù)庫(kù)建設(shè)。
建設(shè)高校圖書(shū)館數(shù)字資源,不僅要進(jìn)一步挖掘大數(shù)據(jù)的價(jià)值,促進(jìn)數(shù)字資源的共建共享,還要增強(qiáng)圖書(shū)館員的數(shù)字資源建設(shè)的責(zé)任感和使命感,加強(qiáng)其信息技能培訓(xùn),提高其數(shù)據(jù)安全防范意識(shí),特別是對(duì)個(gè)人隱私、受版權(quán)保護(hù)等不能共享數(shù)據(jù)的重點(diǎn)保護(hù)。在個(gè)人信息保護(hù)的具體操作方面,可以讓用戶自行選擇個(gè)人登錄圖書(shū)館等行為數(shù)據(jù)是否需要保存以及保存的期限。
高校圖書(shū)館要在協(xié)作溝通的基礎(chǔ)上,建立數(shù)字資源的共享機(jī)制,擴(kuò)大數(shù)據(jù)資源的共享規(guī)模。共享機(jī)制的建立可以使用戶在網(wǎng)絡(luò)條件下,更便捷地使用多種數(shù)字資源,提高對(duì)數(shù)字資源的利用效率。
高校圖書(shū)館建立特色數(shù)據(jù)資源庫(kù),要堅(jiān)持規(guī)范性、時(shí)效性、完備性等原則,注重信息的共享。建立特色數(shù)字資源的重點(diǎn)是要注重資源庫(kù)中數(shù)據(jù)的組織構(gòu)成。因而,在設(shè)計(jì)特色數(shù)字資源庫(kù)時(shí),要重點(diǎn)關(guān)注“信息導(dǎo)航”“字段檢驗(yàn)”以及“資源銜接”等項(xiàng)目。要依據(jù)實(shí)際需要設(shè)置相關(guān)數(shù)據(jù)庫(kù)網(wǎng)站和代碼,從源頭上為客戶提供一站式服務(wù)。同時(shí),在元數(shù)據(jù)設(shè)計(jì)相關(guān)方面,要對(duì)不同類(lèi)型的數(shù)據(jù)資源進(jìn)行細(xì)致描繪,最大限度地滿足用戶需求。例如,一方面,對(duì)視頻文件、互聯(lián)網(wǎng)數(shù)據(jù)資源、電子圖書(shū)及相關(guān)資源位置進(jìn)行標(biāo)注;另一方面,對(duì)文獻(xiàn)、參考文獻(xiàn)資源及元數(shù)據(jù)等相關(guān)材料進(jìn)行標(biāo)引,并將相同數(shù)據(jù)庫(kù)的材料進(jìn)行科學(xué)整合[6],防止錯(cuò)誤,進(jìn)一步提升檢索效率。
如今,人們可以通過(guò)共享、評(píng)估等方法獲得更多的信息資源。高校圖書(shū)館可以利用大數(shù)據(jù),收集讀者的年齡、性別、愛(ài)好、檢索習(xí)慣等信息,發(fā)掘有價(jià)值的數(shù)據(jù)關(guān)系,了解讀者不同階段的個(gè)性化特征,捕捉他們感興趣的內(nèi)容,并向他們推送所需要的、有價(jià)值的信息,使讀者可以更加快速地獲得想要的信息。
高校圖書(shū)館員為大數(shù)據(jù)時(shí)代的核心資源[7]。大學(xué)圖書(shū)館建設(shè)不僅要升級(jí)硬件,更要提升軟件,而加強(qiáng)圖書(shū)館員的綜合業(yè)務(wù)培訓(xùn)是其中的重要內(nèi)容。只有順應(yīng)時(shí)代要求,加強(qiáng)數(shù)字化建設(shè),提高圖書(shū)館員數(shù)字資源建設(shè)的綜合技能,才能真正提升圖書(shū)館的信息化服務(wù)水平。
[1]貴陽(yáng)日?qǐng)?bào)官方微博.大數(shù)據(jù),創(chuàng)業(yè)的下一個(gè)暴風(fēng)口[EB/OL].(2015-04-29).http://blog.sina.com.cn/u/1999472465.
[2]高琳.大數(shù)據(jù)思維與圖書(shū)館知識(shí)資源發(fā)現(xiàn)[J].圖書(shū)與情報(bào),2015(1).
[3]余紅,劉娟.開(kāi)放數(shù)據(jù)及其對(duì)圖書(shū)館信息資源共享的影響[J].圖書(shū)館,2014(4).
[4]康春鵬,杜蕊.大數(shù)據(jù)給圖書(shū)館帶來(lái)的機(jī)遇與挑戰(zhàn)[J].現(xiàn)代情報(bào),2014,34(5).
[5]周杰,蘇靜,曾建勛.下一代數(shù)字圖書(shū)館的發(fā)展思考[J].圖書(shū)情報(bào)工作,2013(8).
[6]馬曉亭.大數(shù)據(jù)時(shí)代圖書(shū)館數(shù)據(jù)長(zhǎng)期可用性保障研究[J].現(xiàn)代情報(bào),2013(12).
[7]李勇輝.大數(shù)據(jù)概念辨析及應(yīng)對(duì)措施[J].互聯(lián)網(wǎng)天地,2014(1).