張文彥 武瑞原 于潔
摘要:大數(shù)據(jù)時(shí)代的來臨,正在給包括圖書館在內(nèi)的各行各業(yè)及整個(gè)社會(huì)文化帶來了根本性的變革。圖書館界已針對(duì)大數(shù)據(jù)開展了一定的學(xué)術(shù)研究與實(shí)踐應(yīng)用,但大數(shù)據(jù)在圖書館事業(yè)中的應(yīng)用可能產(chǎn)生諸多問題,即技術(shù)的成熟與完善尚需時(shí)日、認(rèn)識(shí)大數(shù)據(jù)技術(shù)時(shí)需辯證客觀的態(tài)度、圖書館職業(yè)對(duì)私隱信息能否繼續(xù)有效施行保密、欠缺大量專業(yè)人才和信息鴻溝是否會(huì)因此被進(jìn)一步加深。
關(guān)鍵詞:圖書館大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)數(shù)據(jù)挖掘數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)監(jiān)護(hù)
中圖分類號(hào):G250.7 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-6938(2012)06-0015-07
在云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的推動(dòng)下,全球已步入了“大數(shù)據(jù)”時(shí)代。大數(shù)據(jù)時(shí)代中,數(shù)據(jù)作為一種資源如何加以高效利用并開發(fā)出其中的價(jià)值,這也成為政府公共管理部門和企業(yè)界、投資者普遍關(guān)注的問題[1]。
1大數(shù)據(jù)的概念
“‘大數(shù)據(jù)這個(gè)名詞并不新鮮,早在1980年代,美國(guó)就有人提出了‘大數(shù)據(jù)的概念。20多年來,各個(gè)領(lǐng)域的數(shù)據(jù)量都在迅猛增長(zhǎng),美國(guó)的企業(yè)界、學(xué)術(shù)界也不斷地對(duì)這個(gè)現(xiàn)象及其意義進(jìn)行探討,‘大數(shù)據(jù)這個(gè)名詞變得越來越流行、越來越重要,最后成為了國(guó)家和政府層面的發(fā)展戰(zhàn)略?!保郏玻?/p>
大數(shù)據(jù)之“大”跟數(shù)量這一維度密不可分。有學(xué)者指出“大數(shù)據(jù)是指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉、存儲(chǔ)、管理和分析的數(shù)據(jù)?!保郏玻菽敲?,大數(shù)據(jù)的“大”究竟大到了怎樣的尺度呢?“一般認(rèn)為,大數(shù)據(jù)的數(shù)量級(jí)應(yīng)該是‘太字節(jié)的。我們也并不需要給‘什么是大定出一個(gè)具體的‘尺寸,因?yàn)殡S著技術(shù)的進(jìn)步,這個(gè)尺寸本身還在不斷地增大。此外,對(duì)于各個(gè)不同的領(lǐng)域,‘大的定義也是不同的,無需統(tǒng)一?!保郏玻?/p>
但定義大數(shù)據(jù)需指明“4V+1C”共計(jì)五項(xiàng)顯著特點(diǎn),而數(shù)量只是其中一項(xiàng)?!?V”就是Variety、Volame、Velocity及Vitality,即多樣性、大容量、高速度及時(shí)交性。業(yè)界由于對(duì)以上特點(diǎn)特別是前3“V”的認(rèn)識(shí),達(dá)成了一致,也有較多的研究成果,本文不再贅述。“1C”就是Complexity,即通過數(shù)據(jù)庫(kù)處理持久存儲(chǔ)的數(shù)據(jù)不再適用于大數(shù)據(jù)處理,需要有新的方法來滿足異構(gòu)數(shù)據(jù)統(tǒng)一接入和實(shí)時(shí)數(shù)據(jù)處理的需求[3]?!?/p>
2大數(shù)據(jù)的由來及其應(yīng)用領(lǐng)域
大數(shù)據(jù)來自于數(shù)據(jù)量的自然累積和增長(zhǎng),是存儲(chǔ)器價(jià)格、CPU處理能力、互聯(lián)網(wǎng)帶寬發(fā)展和網(wǎng)絡(luò)接入設(shè)施數(shù)量等因素綜合作用的結(jié)果,是海量存儲(chǔ)、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘、數(shù)字圖書館、云計(jì)算、物聯(lián)網(wǎng)和社會(huì)性網(wǎng)絡(luò)等技術(shù)發(fā)展的自然延伸??梢哉f,沒有海量數(shù)據(jù)的不斷泛濫就不可能出現(xiàn)大數(shù)據(jù)技術(shù)?!案鶕?jù)IDC監(jiān)測(cè),全球數(shù)據(jù)量大約每?jī)赡攴环?,意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量,預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長(zhǎng)近30倍……大數(shù)據(jù)時(shí)代的超大數(shù)據(jù)體量和超過80%比例非結(jié)構(gòu)化數(shù)據(jù)的存在,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)庫(kù)的管理能力,大數(shù)據(jù)技術(shù)將是IT領(lǐng)域新一代的技術(shù)與架構(gòu),它將幫助人們從大體量、高復(fù)雜的數(shù)據(jù)中提取價(jià)值?!保郏矗輰?duì)于除計(jì)算機(jī)行業(yè)之外的諸多行業(yè)而言,大數(shù)據(jù)技術(shù)的價(jià)值在于應(yīng)用[5]。
2.1商業(yè)智能
大多數(shù)傳統(tǒng)BI(BusinessIntelligence)工具都受到以下兩個(gè)方面的局限:首先,它們都是‘預(yù)設(shè)——抓取工具,由分析師預(yù)先確定收集什么數(shù)據(jù)用于分析。其次,它們都專注于‘已知的未知(Knownunknows),也就是我們知道問題是什么,然后去找答案。而大數(shù)據(jù)會(huì)給出一些未知的未知,也就是你沒有想到的一些問題的結(jié)果,隨著計(jì)算和存儲(chǔ)硬件變得非常便宜,配合大量的開源大數(shù)據(jù)工具,人們可以非?!莩薜叵茸ト〈罅繑?shù)據(jù)再考慮分析命題??梢哉f,低廉的計(jì)算資源正在改變我們使用數(shù)據(jù)的方式。此外,處理性能的大幅提高(例如內(nèi)存計(jì)算)使得實(shí)時(shí)互動(dòng)分析更加容易實(shí)現(xiàn),而‘實(shí)時(shí)和‘預(yù)測(cè)將BI帶到了一個(gè)新的境界—未知的未知?!保郏叮?/p>
2.2公共服務(wù)
“今天,城市正面臨預(yù)算超支、基礎(chǔ)設(shè)施難題以及從農(nóng)村和郊區(qū)涌入的大量入口。這些都是非常緊迫的問題,而城市,也正是大數(shù)據(jù)計(jì)劃的絕佳實(shí)驗(yàn)室……客觀的市政數(shù)據(jù),是消除爭(zhēng)端,維系公民社會(huì)的最佳紐帶。當(dāng)然,前提是讓公民能夠訪問這些數(shù)據(jù)……伴隨著各國(guó)政務(wù)的數(shù)字化進(jìn)程,以及政務(wù)數(shù)據(jù)的透明化,公民將能準(zhǔn)確了解政府的運(yùn)作效率。這是不可逆轉(zhuǎn)的歷史潮流,同時(shí)也是大數(shù)據(jù)最具潛力的應(yīng)用領(lǐng)域之一[6]。
圖書館作為現(xiàn)代社會(huì)中公共信息服務(wù)體系必要的組成部分,不可避免地會(huì)受到社會(huì)技術(shù)應(yīng)用潮流的影響,而為了更好地實(shí)現(xiàn)大數(shù)據(jù)技術(shù)的優(yōu)化應(yīng)用,信息管理業(yè)內(nèi)人員必須亟早了解大數(shù)據(jù)技術(shù)及其將會(huì)給圖書館事業(yè)帶來的影響,以防變革臨近之時(shí)整個(gè)行業(yè)都處于被動(dòng)地位。隨著國(guó)內(nèi)公共文化服務(wù)體系建設(shè)的不斷深入和完善,圖書館事業(yè)的民眾基礎(chǔ)也在不斷壯大,相應(yīng)的讀者和資源類數(shù)據(jù)也在膨脹之中,整個(gè)行業(yè)在客觀上也需要新技術(shù)工具的強(qiáng)力支持。
2.3市場(chǎng)營(yíng)銷
“具體來說,是提升消費(fèi)者與企業(yè)之間的關(guān)系……如今,企業(yè)與客戶之間的接觸點(diǎn)也發(fā)生了變化,從過去的電話和郵件地址,發(fā)展到網(wǎng)頁(yè)、社交媒體賬戶、博客等等。在這些五花八門的渠道里跟蹤客戶,將他們的每一次點(diǎn)擊、收藏、‘頂、分享、加好友、轉(zhuǎn)發(fā)等行為納入企業(yè)的銷售漏斗中并轉(zhuǎn)化成收入是一個(gè)巨大的挑戰(zhàn)。也就是所謂的‘360度客戶視角?!保郏叮荽髷?shù)據(jù)技術(shù)在此方面的應(yīng)用也能很大程度上給圖書館讀者服務(wù)工作帶來極大的啟迪。
3關(guān)于圖書館職業(yè)已有的大數(shù)據(jù)研究與實(shí)踐
圖書館職業(yè)是以最大程度地促進(jìn)人類知識(shí)的交流與利用為己任的職業(yè),而專業(yè)化的圖書館職業(yè)包括三個(gè)活動(dòng)領(lǐng)域:實(shí)踐活動(dòng)、研究和教育。圖書館職業(yè)的實(shí)踐活動(dòng)旨在運(yùn)用圖書館學(xué)的專業(yè)知識(shí)對(duì)文獻(xiàn)進(jìn)行加工、處理、保管、傳遞,對(duì)人類知識(shí)和信息進(jìn)行組織、整理,促進(jìn)其交流和利用[7];”從圖書館職業(yè)的定義和構(gòu)成來看,其是與知識(shí)和信息有著天然和緊密聯(lián)系的職業(yè),圖書館職業(yè)如果離開了知識(shí)和信息就根本無法產(chǎn)生,更遑論在人類社會(huì)中的長(zhǎng)期存在和持久發(fā)展了。而數(shù)據(jù)概念的外延與信息和知識(shí)的外延本身就交錯(cuò)重疊,不可分割,數(shù)據(jù)是圖書館館藏資源的重要組成部分,而且學(xué)術(shù)界也普遍認(rèn)同:數(shù)據(jù)作為原始類的產(chǎn)品可經(jīng)過加工、整理和分析提煉轉(zhuǎn)化為信息和知識(shí),以便在人類生產(chǎn)生活當(dāng)中發(fā)揮更大的作用。因此對(duì)大數(shù)據(jù)主題的適當(dāng)研究本是圖書館職業(yè)的份內(nèi)之事,同時(shí)也是其認(rèn)清時(shí)代發(fā)展方向,主動(dòng)把脈并參與到社會(huì)發(fā)展脈動(dòng)之中的體現(xiàn),顯示出圖書館職業(yè)在信息社會(huì)中謀求生存和發(fā)展能力的迅速提升。
3.1圖書館學(xué)研究教育與大數(shù)據(jù)
3.1.1國(guó)外圖書館事業(yè)對(duì)大數(shù)據(jù)已有的研究與教育活動(dòng)
圖書館學(xué)已有的研究中與大數(shù)據(jù)產(chǎn)生關(guān)聯(lián)的包括網(wǎng)絡(luò)計(jì)量學(xué)和文獻(xiàn)計(jì)量學(xué),網(wǎng)絡(luò)計(jì)量的研究目的在于促進(jìn)信息科學(xué)和其他社會(huì)科學(xué)的進(jìn)步,其是通過收集和分析網(wǎng)絡(luò)而來的大規(guī)模數(shù)據(jù)來實(shí)現(xiàn)的。而傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)研究由于大數(shù)據(jù)技術(shù)的應(yīng)用而極大地拓展了其研究范圍,從以往只能進(jìn)行簡(jiǎn)單的描述性研究擴(kuò)展到評(píng)價(jià)和預(yù)測(cè)型的研究。
圖書館學(xué)研究者也參與了諸多的研究項(xiàng)目當(dāng)中,包括為促進(jìn)標(biāo)準(zhǔn)化運(yùn)動(dòng)而開展的“語(yǔ)義網(wǎng)社區(qū)與關(guān)聯(lián)開放數(shù)據(jù)運(yùn)動(dòng)”(SematicWebcommunityandLinkedOpenDatainitiative)等[8]。新西蘭的奧塔哥大學(xué)圖書館則承擔(dān)了奧塔哥生物多樣性數(shù)據(jù)管理項(xiàng)目的研究,部分機(jī)構(gòu)如美國(guó)維吉尼亞州立大學(xué)開始組建科學(xué)數(shù)據(jù)咨詢小組,而圖書館員和數(shù)據(jù)管理者則為學(xué)者們充當(dāng)了咨詢顧問的角色[9]。
麻省理工學(xué)院的一個(gè)研究項(xiàng)目表明,圖書館員在數(shù)據(jù)監(jiān)護(hù)(DataCuration)工作當(dāng)中所應(yīng)承擔(dān)的職責(zé)包括分析數(shù)據(jù)集合之存儲(chǔ)需求、數(shù)據(jù)管理規(guī)劃、最佳實(shí)踐經(jīng)驗(yàn)的傳播、收集與傳播數(shù)據(jù)集合以及完成數(shù)據(jù)保存標(biāo)準(zhǔn)的制定[9]。Uribe和Macdonald在2008年提出:數(shù)據(jù)監(jiān)管工作將會(huì)得益于圖書館員傳統(tǒng)的索引、編目和其他的信息組織技術(shù)。而Lyon在2007年所提出的大學(xué)圖書館員或者學(xué)科館員是承擔(dān)數(shù)據(jù)監(jiān)護(hù)任務(wù)的理想人選的觀點(diǎn),目前已經(jīng)受到業(yè)內(nèi)的廣泛認(rèn)同。Huwe在2009年提出要采取政治手段推進(jìn)圖書館與數(shù)據(jù)中心的合并。能否實(shí)現(xiàn)的關(guān)鍵因素是看高等教育機(jī)構(gòu)能否認(rèn)同圖書館對(duì)學(xué)術(shù)研究的貢獻(xiàn)與支撐作用,而目前許多圖書館已經(jīng)參與到高校機(jī)構(gòu)庫(kù)的管理運(yùn)作當(dāng)中,如果能夠很好地完成這項(xiàng)使命,圖書館的職責(zé)才可能會(huì)被進(jìn)一步加以拓展[10]。由Higgins于2008年提出的目前非常流行的“數(shù)字監(jiān)護(hù)中心生命周期模型”,Heidorn經(jīng)過分析認(rèn)為,對(duì)于圖書館而言,這一生命周期中的“數(shù)據(jù)保存的規(guī)劃”步驟可以并入數(shù)字機(jī)構(gòu)庫(kù)的文件實(shí)體管理當(dāng)中。而“群體環(huán)境的觀察與參與”步驟中,不同的數(shù)據(jù)實(shí)體適用于差異性的社會(huì)群體,而社會(huì)群體不斷創(chuàng)造出嶄新的標(biāo)準(zhǔn)和實(shí)踐模式,這些都是圖書館需要密切關(guān)注的[9]。
另外,美國(guó)學(xué)者對(duì)圖書館員在大數(shù)據(jù)環(huán)境下的角色和所需專業(yè)技能做了調(diào)查與設(shè)想。他們認(rèn)同圖書館可以在大數(shù)據(jù)時(shí)代中承擔(dān)起數(shù)據(jù)管理的職責(zé)這一觀點(diǎn),同時(shí)也通過實(shí)證型研究認(rèn)識(shí)到目前絕大多數(shù)圖書館員并不具備數(shù)據(jù)科學(xué)家必備的素質(zhì)結(jié)構(gòu),細(xì)分了這些技能并分析了差距所在[11-12]。
密歇根州立大學(xué)、伊利諾伊州立大學(xué)、北卡羅來納州立大學(xué)和亞利桑那州立大學(xué)都已經(jīng)開設(shè)了大數(shù)據(jù)相關(guān)的課程和研究方向。例如亞利桑那州立大學(xué)已經(jīng)圍繞元數(shù)據(jù)、數(shù)字格式和數(shù)據(jù)遷移等主題開設(shè)了數(shù)字館藏課;諸如調(diào)試和管理服務(wù)器和數(shù)據(jù)庫(kù)的應(yīng)用型技術(shù);包括采購(gòu)、政策發(fā)展和組織結(jié)構(gòu)等內(nèi)容的數(shù)字館藏管理;帶有存儲(chǔ)標(biāo)準(zhǔn)、軟硬件和格式廢棄等內(nèi)容的存儲(chǔ)課程;以及將不同技能整合好以完成數(shù)字管理方案的案例研究課程。亞利桑那州立大學(xué)目前也已經(jīng)可以提供數(shù)字信息管理方向的碩士學(xué)歷證書[13]。而伊利諾伊州立大學(xué)香檳分校則開設(shè)了一個(gè)數(shù)據(jù)監(jiān)護(hù)方向的碩士學(xué)歷教育項(xiàng)目[14]。而英國(guó)的謝菲爾德大學(xué)也在安排基于專業(yè)的信息學(xué)課程和一個(gè)新的信息學(xué)專業(yè)的理學(xué)學(xué)士學(xué)位。2011年6月間倫敦的國(guó)際監(jiān)護(hù)教育論壇投入使用,這也給數(shù)字監(jiān)護(hù)領(lǐng)域的培訓(xùn)課程體系的討論和開發(fā)提供了一個(gè)機(jī)會(huì)[15]。
3.1.2國(guó)內(nèi)圖書館事業(yè)對(duì)大數(shù)據(jù)已有的研究與教育活動(dòng)
目前中國(guó)大陸相關(guān)主題的研究還處于剛剛起步的狀態(tài),在CNKI中以“圖書館”和“大數(shù)據(jù)”檢索期刊論文的篇名和摘要,檢索出的目標(biāo)文章只有一篇,即楊海燕發(fā)表在2012年第四期《圖書與情報(bào)》上的文章《大數(shù)據(jù)時(shí)代的圖書館服務(wù)淺析》。相比之下,國(guó)內(nèi)對(duì)“數(shù)據(jù)監(jiān)護(hù)”這一主題的關(guān)注度稍高,其主要是針對(duì)高校圖書館這一較為專門的領(lǐng)域展開研究的。在CNKI中就篇名檢索“圖書館”和“數(shù)據(jù)監(jiān)護(hù)”同時(shí)出現(xiàn)的學(xué)術(shù)論文,以及“圖書館”與“datacuration”在篇名上同時(shí)出現(xiàn)的論文共計(jì)7篇,分別是:楊鶴林發(fā)表于《大學(xué)圖書館學(xué)報(bào)》2011年第2期上的《數(shù)據(jù)監(jiān)護(hù):美國(guó)高校圖書館的新探索》和發(fā)表于《大學(xué)圖書館學(xué)報(bào)》2012年第2期上的《從數(shù)據(jù)監(jiān)護(hù)看美國(guó)高校圖書館的機(jī)構(gòu)庫(kù)建設(shè)新思路——來自Data,StaR的啟示》;程蓮娟發(fā)表于《圖書館雜志》2012年第1期上的《美國(guó)高校圖書館數(shù)據(jù)監(jiān)護(hù)的實(shí)踐及其啟示》;沈婷婷等發(fā)表于《圖書情報(bào)工作》2012年第2期上的《數(shù)據(jù)監(jiān)管在我國(guó)高校圖書館的應(yīng)用展望》;時(shí)婉璐等發(fā)表于《圖書館雜志》2012年第10期上的《數(shù)據(jù)策管:圖書館服務(wù)的新創(chuàng)舉》;崔宇紅發(fā)表于《圖書館雜志》2012年第10期上的《E-Science環(huán)境中研究圖書館的新角色:科學(xué)數(shù)據(jù)管理》和劉雄洲等發(fā)表于《圖書館》2012年第5期上的《國(guó)外數(shù)據(jù)存管實(shí)施現(xiàn)狀及其對(duì)國(guó)內(nèi)高校圖書館的啟示》。從有關(guān)“數(shù)據(jù)監(jiān)護(hù)”的專業(yè)文章來看,進(jìn)入2012年發(fā)表這方面論文的情況有一個(gè)井噴式的增長(zhǎng),另外從論文標(biāo)題就可看到不同研究者對(duì)datacuration的用詞不盡相同,初涉該領(lǐng)域的研究者很容易因?yàn)闄z索詞使用的疏漏而出現(xiàn)大量漏檢現(xiàn)象。這也說明對(duì)datacuration與高校圖書館結(jié)合的這一專門領(lǐng)域的研究屬于國(guó)內(nèi)前沿性課題,亟需統(tǒng)一概念和用法,否則會(huì)給之后的研究和業(yè)界的理解與應(yīng)用造成混亂。
而在國(guó)內(nèi)信息管理學(xué)領(lǐng)域,也已經(jīng)出現(xiàn)了少量有關(guān)“大數(shù)據(jù)”應(yīng)用的文章。用“信息管理”和“大數(shù)據(jù)”兩個(gè)主題詞在CNKI數(shù)據(jù)庫(kù)群期刊文章的篇名角度查找,找到了四篇目標(biāo)主題的文章分別是:⑴馮華中的《大數(shù)據(jù)時(shí)代的信息管理》,發(fā)表在《電腦商報(bào)》2011年9月26日第26版上;⑵李奕編譯的《建立信息管理框架應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)》,發(fā)表在《中國(guó)計(jì)算機(jī)報(bào)》2012年3月26日第26版;⑶程士安的文章《以搜索引擎為導(dǎo)向的大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息管理》發(fā)表在《廣告大觀(綜合版)》2012年第8期的第15頁(yè);⑷發(fā)表在《網(wǎng)絡(luò)與信息》2012年第4期第7頁(yè)上的文章《大數(shù)據(jù)時(shí)代下企業(yè)信息管理新革命》則是以liusd這樣的匿名發(fā)表的。通過閱讀,發(fā)現(xiàn)目前信息管理及其相關(guān)領(lǐng)域中對(duì)大數(shù)據(jù)的研究,主要是從技術(shù)角度所做的考察,而且專注于對(duì)大數(shù)據(jù)技術(shù)在盈利性企業(yè)中的應(yīng)用,而并未涉及包括圖書館在內(nèi)公益性機(jī)構(gòu)的技術(shù)應(yīng)用問題。
3.2國(guó)外圖書館工作實(shí)踐與大數(shù)據(jù)
2012年4月26日,有消息[16]稱哈佛大學(xué)圖書館將要把圖書大數(shù)據(jù)公之于眾。這些數(shù)據(jù)共計(jì)由73家圖書館分館提供,共涵蓋了1200多萬(wàn)種資料,內(nèi)容包括書目數(shù)據(jù)、收稿、地圖、視頻和音頻等。這些數(shù)據(jù)將會(huì)在美國(guó)數(shù)字公共圖書館(DigitalPublicLibraryofAmerica)中提供下載,哈佛大學(xué)圖書館實(shí)驗(yàn)室的副主任稱,每種館藏均提供了多達(dá)100個(gè)不同屬性的值,以此來促進(jìn)世界范圍圖書目錄的開放以及對(duì)新型應(yīng)用性產(chǎn)品的研發(fā)。
美國(guó)俄亥俄州OverDrive公司是一家電子書、有聲書等信息產(chǎn)品的多渠道經(jīng)銷商。其2012年4月所發(fā)布的第一輯《大數(shù)據(jù)報(bào)告》中稱,該公司長(zhǎng)期以來與大量各類型的圖書館合作,從圖書館中收集數(shù)據(jù)提供給出版商和其他有合作關(guān)系的圖書館,供其開放存取,這些數(shù)據(jù)主要包括電子書和數(shù)字有聲書的流通狀況、讀者的圖書需求狀況、圖書館網(wǎng)站訪問的擁堵狀況和人口統(tǒng)計(jì)學(xué)等信息。該公司由分析數(shù)據(jù)也發(fā)現(xiàn),圖書館的電子書借閱也會(huì)促進(jìn)出版與經(jīng)銷商圖書的零售額,特別是圖書館網(wǎng)站上的讀者推薦閱讀書目和出版商的營(yíng)銷活動(dòng),都會(huì)培養(yǎng)消費(fèi)者對(duì)出版商的忠誠(chéng)度,而同時(shí),OverDrive公司也會(huì)通過BuyItNow網(wǎng)上商店等渠道為圖書館提供其所不具備的書目記錄,因而也給讀者預(yù)備了發(fā)現(xiàn)圖書的嶄新途徑[17]。
部分高校圖書館就“數(shù)據(jù)監(jiān)護(hù)”展開探索性的實(shí)踐和研究,也獲得了不少有益的啟示。而巴斯大學(xué)在2012年初成功獲得英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)(JISC)的資助,以幫助其完成Research360(R360)項(xiàng)目,從而達(dá)到在機(jī)構(gòu)內(nèi)嵌入優(yōu)質(zhì)的數(shù)據(jù)管理實(shí)踐過程的目的。R360項(xiàng)目開發(fā)出一個(gè)終端對(duì)終端的360度機(jī)構(gòu)科研生命周期的概念并勾畫出了包括六道程序的示意圖。其同時(shí)還列出了在科研數(shù)據(jù)管理過程的不同操作中大學(xué)圖書館可以提供哪些支持性的信息服務(wù)并歸納出四點(diǎn)工作原則,分析得出了圖書館當(dāng)中與科研數(shù)據(jù)管理相關(guān)的職位及其職責(zé)、要求和需維護(hù)的社會(huì)關(guān)系。在專門職位設(shè)置方面,巴斯大學(xué)則指定了一位機(jī)構(gòu)的數(shù)據(jù)科學(xué)家參與到R360項(xiàng)目中,其職責(zé)在于推動(dòng)跨機(jī)構(gòu)研究數(shù)據(jù)的管理實(shí)踐[17]。其他的數(shù)據(jù)管理崗位的設(shè)置請(qǐng)參閱(見表1)。
可以看出,在西方國(guó)家特別是美國(guó),各高校對(duì)datacuration實(shí)踐活動(dòng)的開展已經(jīng)較為普遍,都設(shè)置了專門的崗位將datacuration作為一項(xiàng)特色性和前沿性的服務(wù)加以推廣,并在實(shí)踐當(dāng)中不斷總結(jié)經(jīng)驗(yàn)教訓(xùn)。而支持專門科研項(xiàng)目的數(shù)據(jù)服務(wù)也已經(jīng)開展,對(duì)于普渡大學(xué)和伊利諾伊州立大學(xué)聯(lián)合申請(qǐng)的“數(shù)據(jù)簡(jiǎn)介”項(xiàng)目、新西蘭奧塔哥大學(xué)圖書館承擔(dān)的奧塔哥生物多樣性數(shù)據(jù)管理項(xiàng)目、以及維吉尼亞州立大學(xué)所組建的科研數(shù)據(jù)咨詢團(tuán)隊(duì),圖書館員和數(shù)據(jù)管理員在這些項(xiàng)目當(dāng)中都承擔(dān)了為科研人員提供咨詢指導(dǎo)的任務(wù),諸如幫助其確定項(xiàng)目數(shù)據(jù)管理需求,并將所有資源需求用已有的數(shù)據(jù)監(jiān)護(hù)工具加以可視化[17]。相比之下國(guó)內(nèi)不僅研究方面鳳毛麟角,另外也還尚未發(fā)現(xiàn)針對(duì)大數(shù)據(jù)概念和技術(shù)的資源采集和特色服務(wù)活動(dòng),因而可以看出國(guó)內(nèi)業(yè)界對(duì)大數(shù)據(jù)的應(yīng)用遠(yuǎn)遠(yuǎn)落后于國(guó)外相關(guān)領(lǐng)域的實(shí)踐進(jìn)度,因此需要在理論界加以深入研究和廣為宣傳的同時(shí),加快引進(jìn)國(guó)外先進(jìn)的技術(shù)引進(jìn)與應(yīng)用。
4大數(shù)據(jù)應(yīng)用于圖書館可能產(chǎn)生的問題暨研究導(dǎo)向
4.1新興的大數(shù)據(jù)技術(shù)的開發(fā)和完善尚需時(shí)日
微軟的一位杰出工程師ChristianHuitema提出,人類要做到從大數(shù)據(jù)集中熟練提取真正的知識(shí),還需再經(jīng)歷十年以上的時(shí)間。MetaFacts的首席分析師DanNess則認(rèn)為,直到2020年大數(shù)據(jù)技術(shù)的應(yīng)用前景才能基本清晰,人類也才能夠利用大數(shù)據(jù)最終做出明智的、有遠(yuǎn)見的決策[36]。主要的問題就出在其可靠性、易用性和隱性成本方面[37]。信息技術(shù)可謂是大數(shù)據(jù)的催化劑,沒有信息技術(shù)的長(zhǎng)足進(jìn)步和充分應(yīng)用,大數(shù)據(jù)便無法在任何一個(gè)行業(yè)內(nèi)發(fā)揮積極作用。
4.2在怎樣的尺度內(nèi)去認(rèn)識(shí)和推廣大數(shù)據(jù)的概念、技術(shù)和工具
圖書館行業(yè)作為政府主導(dǎo)的公益型行業(yè),在大數(shù)據(jù)應(yīng)用時(shí)可能會(huì)遇到推進(jìn)動(dòng)力不足等問題,而且有研究顯示,國(guó)際化程度越高的行業(yè)從大數(shù)據(jù)應(yīng)用中獲得的績(jī)效增長(zhǎng)越明顯。而單個(gè)圖書館本身(國(guó)家圖書館除外)主要服務(wù)于本地社區(qū)的民眾,因此我們?cè)趹?yīng)用這一技術(shù)的同時(shí)需對(duì)其效果有一個(gè)客觀性的預(yù)估。相比之下,民營(yíng)性質(zhì)的機(jī)構(gòu)則可能會(huì)為了賺取高額回報(bào)或提升自己知名度和社會(huì)認(rèn)同度等而盲目地利用這一技術(shù),在高額成本之下卻未收到相應(yīng)的回報(bào)。過猶不及,兩者都非智選,因此辯證地認(rèn)識(shí)這一前沿領(lǐng)域,并結(jié)合自身的情況開展研發(fā)、選擇、引進(jìn)和調(diào)試等工作是極端重要的。
4.3大數(shù)據(jù)技術(shù)和工具的開發(fā)與應(yīng)用是否會(huì)進(jìn)一步加深信息鴻溝
目前已經(jīng)有不少專業(yè)人士認(rèn)識(shí)到大數(shù)據(jù)技術(shù)和工具的開發(fā)與應(yīng)用是否會(huì)進(jìn)一步加深信息鴻溝這一問題[36]??梢灶A(yù)見,在國(guó)內(nèi),一線城市的科研高校類圖書館率先開展了數(shù)據(jù)管理服務(wù)之后,會(huì)一定程度上提高其工作效率和用戶滿意度,因而客觀上也會(huì)拉大其服務(wù)水平與其他地區(qū)、類型圖書館之間的差距,但相對(duì)來說也會(huì)縮小與西方發(fā)達(dá)國(guó)家圖書館事業(yè)的差距。發(fā)展是硬道理,當(dāng)務(wù)之急是大館在自己發(fā)展的同時(shí)努力做好宣傳和普及工作,同時(shí)也與國(guó)外同行增進(jìn)交流,共同認(rèn)識(shí)、分析和解決前進(jìn)中遇到的這一問題。
4.4大數(shù)據(jù)時(shí)代圖書館還能否有效地保護(hù)個(gè)人隱私、商業(yè)秘密乃至國(guó)家機(jī)密
從圖書館這一社會(huì)機(jī)構(gòu)的傳統(tǒng)來看,其一直注意保護(hù)用戶個(gè)人的隱私權(quán),甚至國(guó)家權(quán)力也不能凌駕于隱私權(quán)之上。但在大數(shù)據(jù)時(shí)代,為了給讀者提供更優(yōu)質(zhì)的個(gè)性化服務(wù),從各類渠道、不同領(lǐng)域內(nèi)攝取用戶信息并分析其閱讀行為成為不可避免的諸多數(shù)據(jù)工作之一。知曉讀者的詳細(xì)背景而又嚴(yán)控其傳播范圍,堅(jiān)定地維護(hù)用戶的個(gè)人隱私權(quán),這就需要新時(shí)代的圖書館員具備更高層次的職業(yè)道德和專業(yè)素養(yǎng)。
4.5大數(shù)據(jù)時(shí)代的人才瓶頸問題
由于大數(shù)據(jù)是一項(xiàng)革命性的前沿技術(shù),并且其需要跨學(xué)科的學(xué)習(xí)經(jīng)歷,操作難度極大,因而大數(shù)據(jù)人才的培養(yǎng)是目前亟需關(guān)注的領(lǐng)域。有學(xué)者指出,到2018年,美國(guó)將面臨1500000個(gè)掌握大數(shù)據(jù)應(yīng)用分析方法的技術(shù)經(jīng)理和分析師的缺口,另外欠缺19000個(gè)能深入分析數(shù)據(jù)的數(shù)據(jù)科學(xué)家[38]。我國(guó)圖書館界應(yīng)該開放心態(tài),向美國(guó)同行和其他領(lǐng)先行業(yè)學(xué)習(xí)先進(jìn)經(jīng)驗(yàn),采取措施積極培訓(xùn)本土的數(shù)據(jù)監(jiān)護(hù)人才,并加大宣傳力度,使國(guó)內(nèi)同仁密切關(guān)注國(guó)外進(jìn)展,爭(zhēng)取盡快展開探索性實(shí)踐;推薦優(yōu)秀圖書館員加入現(xiàn)有的科研團(tuán)隊(duì)中并承擔(dān)“數(shù)據(jù)監(jiān)護(hù)員”的角色,通過實(shí)踐為團(tuán)隊(duì)提供數(shù)據(jù)監(jiān)護(hù)操作技能及策略。圖書館界也應(yīng)針對(duì)可獲得的數(shù)據(jù)集開始收集工作,以此開始探索數(shù)據(jù)監(jiān)護(hù)活動(dòng),分析并總結(jié)用戶需求及使用規(guī)律,為數(shù)據(jù)監(jiān)護(hù)提供基礎(chǔ)資料。
5結(jié)語(yǔ)
2012年3月,美國(guó)奧巴馬政府正式宣布推出了“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”,并聯(lián)合六個(gè)聯(lián)邦政府部門承諾投資兩億多美元,用于推動(dòng)全美大數(shù)據(jù)相關(guān)技術(shù)的開發(fā),以便提升從大量、復(fù)雜的數(shù)據(jù)集合中獲取知識(shí)和洞見的能力。這一國(guó)家資助項(xiàng)目是大數(shù)據(jù)從機(jī)構(gòu)和行業(yè)行為上升到國(guó)家戰(zhàn)略的分水嶺,表明大數(shù)據(jù)已經(jīng)被正式提升到戰(zhàn)略層面,在經(jīng)濟(jì)社會(huì)個(gè)層面開始受到普遍重視[39]。
從本質(zhì)上講,信息技術(shù)的進(jìn)步給當(dāng)前軟硬件數(shù)據(jù)處理模式帶來了極大挑戰(zhàn),因而必然催生出大數(shù)據(jù)這樣嶄新的數(shù)據(jù)管理和處理模式。一方面大數(shù)據(jù)本身的性能優(yōu)越適用,另一方面有政府和社會(huì)組織對(duì)其的認(rèn)同和大力支持,這使我們有理由相信,對(duì)大數(shù)據(jù)的研發(fā)與應(yīng)用將會(huì)如火如荼進(jìn)一步深入開展,進(jìn)而滲透到包括圖書館事業(yè)在內(nèi)的社會(huì)的各個(gè)行業(yè)。圖書館作為技術(shù)敏感度極高的一類機(jī)構(gòu),其從業(yè)者應(yīng)持續(xù)關(guān)注大數(shù)據(jù),積極思考并嘗試解決圖書館信息服務(wù)和資源發(fā)現(xiàn)中的大數(shù)據(jù)問題,這也是圖書館克服目前資源發(fā)現(xiàn)領(lǐng)域技術(shù)上和模式上的局限性,獲得創(chuàng)新突破的關(guān)鍵。另外,作為異構(gòu)形式存在的大數(shù)據(jù),數(shù)據(jù)發(fā)現(xiàn)效率與數(shù)據(jù)的規(guī)范程度是呈正比的,而圖書館行業(yè)對(duì)知識(shí)規(guī)范性控制的思想和技術(shù)方法恰巧在大數(shù)據(jù)領(lǐng)域有了用武之地?;蛟S,諸如如何構(gòu)建一個(gè)通用的規(guī)范控制機(jī)制以確保異構(gòu)數(shù)據(jù)的互操作這樣的問題,會(huì)成為圖書館從業(yè)者將行業(yè)傳統(tǒng)的技術(shù)和方法發(fā)揚(yáng)光大,進(jìn)而帶領(lǐng)整個(gè)行業(yè)在飛速變化的知識(shí)社會(huì)中謀得一席之地的嶄新契機(jī)。
參考文獻(xiàn):
[1]熊金超等.全球迎來大數(shù)據(jù)時(shí)代數(shù)據(jù)成為越來越有用資源[EB/OL].[2012-11-14].http://www.hb.xinhuanet.com/2012-11/07/c_113623396.htm.
[2]徐子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活[M].桂林:廣西師范大學(xué)出版社,2012:40-57.
[3]5聯(lián)網(wǎng).大數(shù)據(jù)時(shí)代的特點(diǎn)[EB/OL].[2012-11-14].http://www.5lian.cn/html/2012/xueshu_0417/32237.html.
[4]光大證券.大數(shù)據(jù)或成重要投資主線[EB/OL].[2012-11-19].http://www.cs.com.cn/gppd/hyyj/201201/t201201
06_3197683.html.
[5]李奕.計(jì)算革命與數(shù)據(jù)價(jià)值—2012第二屆中國(guó)計(jì)算機(jī)技術(shù)大會(huì)專題報(bào)道[N].中國(guó)計(jì)算機(jī)報(bào),2012-10-15(016).
[6]關(guān)志剛編譯.大數(shù)據(jù)最具潛力的三大應(yīng)用領(lǐng)域[EB/OL].[2012-11-16].http://www.ctocio.com/bigdata/8293.html.
[7]于良芝.圖書館學(xué)導(dǎo)論[M].北京:科學(xué)出版社,2003:17.
[8]CassidyR.Sugimoto,YingDing,MikeThewall.LibraryandInformationScienceintheBigDataEra:Funding,Projects,andFuture[apanelproposal][EB/OL].[2012-11-24].http://www.ischool.drexel.edu/faculty/mkhoo/docs
/12_asist_panel_description.pdf.
[9]P.BryanHeidorn.TheEmergingRoleofLibrariesinCurationandE-science[J].JournalofLibraryAdministration,2011,(7-8):662-672.
[10]Walton,Graham.DataCurationandTheAcademicLibrary[J].NewReviewofAcademicLibrarianship,2010,(1):1-3.
[11]MaryAuckland.Reskillingforresearch:aninvestigationintotheroleandskillsofsubjectandliasionlibrariansrequiredtoeffectivelysupporttheevolvinginformationneedsofresearchers[M].London:ResearchLibrariesUK,2012.
[12]Corral,S.Rolesandresponsibilities:Libraries,librariansanddata[A].GrahamPryor.ManagingResearchData[C].London:FacetPublishing,2012.
[13]DigIn[EB/OL].[2012-11-20].http://oligin.ariaona.edu.
[14]LenterforInfornaticsReseorcherinScienceandScholarslup(CIRSS).DCEP[EB.OL].[2012-11-24].http://cirss./is.il/inois.edlulCollMeta/dcep.html.
[15]LizLyon.IncrementalChangeorRevolution?LibrariesandtheInformaticsTransform[EB/OL].[2012-11-25].http://ozk.unizd.hr/proceedings/index.php/lida2012
/article/view/67.
[16]AndreyWatters.StrataWeek:HarvardLibraryreleasesbigdataforitsbooks[EB/OL].[2012-11-24].http://strata.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html.
[17]Spolanka.OverDriveannouncesaseriesof“BigData”reports[EB/OL].[2012-11-24].http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a-series-of-big-data-reports/.
[18]LizLyon.TheInformaticsTransform:Re-EngineeringLibrariesfortheDataDecade[J].TheInternationalJournalofDigitalCuration,2012,(1):126-138.
[19]LinkedInCorpration.DaureenNesdill[EB/OL].[2012-11-25].http://www.linkedin.com/pub/daureen-nesdill/1
0/6aa/384.
[20]insideHPC.JOBBOARD[EB/OL].[2012-11-25].http://insidehpc.jobamatic.com/a/jbb/job-details/761910.
[21]ZoomInformationIncorprated.ChrisKollen[EB/OL].[2012-11-25].http://www.zoominfo.com/#!search/prof
ile/person?personId=46360201&targetid=profile.
[22]ViginiaJobs.PostingDetails[EB/OL].[2012-11-25].https://jobs.agencies.virginia.gov/applicants/jsp/shared/position/JobDetails_css.jsp?postingId=705575.
[23]JennaFreedman.Hiring:DataLibrarian[EB/OL].[2012
-11-25].http://library.barnard.edu/2011/data-librarian.
[24]CharlesW.Bailey.DigitalKoans—WhatIstheSoundofOneE-PringDownloading?[EB/OL].[2012-11-25].http://digital-scholarship.org/digitalkoans/2011/10/31/d
ata-curation-librarian-at-university-of-new-mexico-libraries/.
[25]MichiganStateUniversityBoardofTrustees.ResearchDataManagementGuidance[EB/OL].[2012-11-25].http://www.lib.msu.edu/rdmg/index.jsp.
[26]TerryM.Owen.ResearchDataLibrarian—UniversityofMaryland[EB/OL].[2012-11-25].http://acrl.ala.org/residency/?p=3523.
[27]UniversityofRochesterLibrary.DataLibrarian[EB/OL].[2012-11-25].http://www.library.rochester.edu/datalibrarian.
[28]JulieSweetkind-Singer.JobOpening—ScienceDataLibrarian[EB/OL].[2012-11-26].http://www.iamslic.org/blog/?p=312.
[29]RegentsoftheUniversityofMinnesota.ManagingYourData[EB/OL].[2012-11-26].https://www.lib.umn.edu/datamanagement.
[30]OreganHealth&ScienceUniversity.StaffDirectory[EB/OL].[2012-11-25].http://www.ohsu.edu/xd/education/library/about/staff-directory/index.cfm.
[31]YorkUniversityLibraries.LibraryDataServices[EB/OL].[2012-11-25].http://www.library.yorku.ca/cms/librarydataservices/.
[32]UBCLibrary.Location,andhoursofoperation[EB/OL].[2012-11-26].http://data.library.ubc.ca/gen/address.html.
[33]UniversityofRegina.MarilynAndrews[EB/OL].[2012
-11-26].https://www.lib.umn.edu/datamanagement.
[34]UniversityofSaskatchewan.MurrayLibrary[EB/OL].[2012-11-26].http://library.usask.ca/murray/data-and
-gis/.
[35]TheCentralforAdvancedStudyintheSocialSciences.CEACSDataLibrary[EB/OL].[2012-11-26].http://www.march.es/ceacs/biblioteca/datalib/.
[36]JannaQuitneyAnderson,LeeRainie.BigData:Expertssaynewformsofinformationanalysiswillhelppeoplebemorenimbleandadaptive,butworryoverhumanscapacitytounderstandandusethesenewtoolswell[EB/OL].[2012-11-26].http://www.a51.nl/storage/pdf/PIP_Future_of_Internet_2012_Big_Data_7_20_12.pdf.
[37]李智編譯.大數(shù)據(jù)帶來高成本Hadoop需繼續(xù)完善[EB/OL].[2012-11-26].http://www.csdn.net/article/2012-04-23/2804943.
[38]JamesManyikaet.al.Bigdata:Thenextfrontierforinnovation,competition,andproductivity[EB/OL].[2012-11-27].http://www.mckinsey.com/insights/Mgi/research
/technology_and_innovationbig_data_the_next_frontier_
for_innovation.
[39]賽迪智庫(kù)軟件與信息服務(wù)研究所.美國(guó)將發(fā)展大數(shù)據(jù)提升到戰(zhàn)略層面[N].中國(guó)電子報(bào),2012-07-17(003).
作者簡(jiǎn)介:張文彥(1982-),女,南開大學(xué)信息資源管理系博士研究生;武瑞原(1980-),男,河北機(jī)電職業(yè)技術(shù)學(xué)院圖書館館員;于潔(1974-),女,邢臺(tái)鋼鐵股份有限公司檔案館館員。