曹麗娜,李 若,邢蘭君,楊 華,于 金
(沈陽(yáng)航空航天大學(xué)a.圖書館;b.計(jì)算機(jī)學(xué)院,沈陽(yáng) 110136)
信息技術(shù)迅猛發(fā)展,數(shù)據(jù)量正經(jīng)歷爆炸式增長(zhǎng),新型數(shù)據(jù)也不斷涌現(xiàn),大數(shù)據(jù)(big-data)時(shí)代已經(jīng)到來。圖書館是公共信息服務(wù)體系的重要組成部分,必然受到信息技術(shù)潮流的推動(dòng)和影響,目前正經(jīng)歷全方位的數(shù)字化建設(shè),在對(duì)技術(shù)、資源、標(biāo)準(zhǔn)、管理、法律等諸多方面的難題的探索中前進(jìn)。大數(shù)據(jù)給圖書館數(shù)字化建設(shè)帶來了前所未有的機(jī)遇和挑戰(zhàn),二者之間存在深刻的內(nèi)在關(guān)聯(lián):一方面,大數(shù)據(jù)相關(guān)技術(shù)將有力推動(dòng)圖書館數(shù)字化建設(shè)進(jìn)程,另一方面,圖書館數(shù)字化建設(shè)進(jìn)程將為大數(shù)據(jù)相關(guān)研究提供重要的應(yīng)用空間和經(jīng)驗(yàn)啟示。本文結(jié)合高校圖書館的發(fā)展,論述大數(shù)據(jù)與數(shù)字圖書館的內(nèi)在關(guān)聯(lián),對(duì)大數(shù)據(jù)時(shí)代如何加強(qiáng)數(shù)字圖書館三要素建設(shè)進(jìn)行分析,對(duì)當(dāng)前條件下可開展的大數(shù)據(jù)相關(guān)前導(dǎo)性工作提出了若干建議。
較早認(rèn)為“大數(shù)據(jù)時(shí)代”到來的是麥肯錫公司在2011年5月發(fā)布的報(bào)告中,之后《紐約時(shí)報(bào)》、《華爾街日?qǐng)?bào)》的專欄上也出現(xiàn)了對(duì)大數(shù)據(jù)的介紹,2012年3月美國(guó)政府表示將投資2 億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,這標(biāo)志著大數(shù)據(jù)已經(jīng)上升到國(guó)家戰(zhàn)略層面[1-4]。
大數(shù)據(jù)的特點(diǎn),IBM 用“3V”來概括,即量大(volume)、多樣(variety)、實(shí)時(shí)(velocity)[5]。所謂量大,是指數(shù)據(jù)體量巨大。從TB 級(jí)別躍升到PB 乃至EB 級(jí)別。所謂多樣,是指數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。除了結(jié)構(gòu)化數(shù)據(jù),還有圖像、視頻、音頻、數(shù)據(jù)流、圖片、網(wǎng)頁(yè)等多種非結(jié)構(gòu)化數(shù)據(jù),對(duì)數(shù)據(jù)的處理能力提出了更高的要求。所謂實(shí)時(shí),是指數(shù)據(jù)實(shí)時(shí)生成,同時(shí)要求按需提供交互式、實(shí)時(shí)的數(shù)據(jù)分析,幫助用戶了解正在發(fā)生和預(yù)測(cè)即將發(fā)生的情況。大數(shù)據(jù)作為逐漸顯現(xiàn)的技術(shù)趨勢(shì)和現(xiàn)實(shí)需求,到目前為止還沒有一個(gè)準(zhǔn)確的定義。但通過綜合分析不同的概念表述發(fā)現(xiàn)一個(gè)共識(shí)——從各種各樣類型數(shù)據(jù)中快速獲得有價(jià)值信息的能力即大數(shù)據(jù)技術(shù)[6]。
數(shù)字圖書館產(chǎn)生于上世紀(jì)90年代,是計(jì)算機(jī)、網(wǎng)絡(luò)、多媒體和其它相關(guān)技術(shù)發(fā)展應(yīng)用的產(chǎn)物,其實(shí)質(zhì)是把圖書館館藏的各種信息經(jīng)過數(shù)字化之后形成的一個(gè)大型知識(shí)庫(kù)。數(shù)字圖書館的建設(shè),包括館藏文獻(xiàn)資源的數(shù)字化、電子圖書、電子期刊以及網(wǎng)上的數(shù)字資源建設(shè),使知識(shí)信息的有序化加強(qiáng),傳遞速度加快,能夠更好地服務(wù)于用戶。目前數(shù)字圖書館已實(shí)現(xiàn)了信息資源數(shù)字化、信息資源傳遞網(wǎng)絡(luò)化、信息技術(shù)共享化、信息技術(shù)集成化和服務(wù)全面快捷[7]。
高校圖書館作為現(xiàn)代圖書館的重要組成部分,是學(xué)校信息化和社會(huì)信息化的重要陣地,是為教學(xué)和科研服務(wù)的學(xué)術(shù)性機(jī)構(gòu),在高等教育發(fā)展中發(fā)揮著重要作用。在當(dāng)前信息技術(shù)高度發(fā)展的時(shí)代,數(shù)字圖書館的建設(shè)是保持高校圖書館可持續(xù)發(fā)展的重要舉措。隨著海量數(shù)據(jù)的爆炸式增長(zhǎng),大量非結(jié)構(gòu)化數(shù)據(jù)的涌現(xiàn),以及用戶對(duì)檢索結(jié)果的更高要求,數(shù)字圖書館存儲(chǔ)和處理數(shù)據(jù)的能力正受到前所未有的挑戰(zhàn),這類問題也正是大數(shù)據(jù)相關(guān)研究所關(guān)注的問題。
數(shù)字圖書館和大數(shù)據(jù)具有深刻的內(nèi)在關(guān)聯(lián),下面對(duì)二者的關(guān)系作以簡(jiǎn)要分析:
1)數(shù)字圖書館是大數(shù)據(jù)的重要載體。圖書館的功能和運(yùn)行方式被用戶所熟悉,不管是收藏對(duì)象上的變化(從印刷型文獻(xiàn)到電子信息資源)還是收藏空間上的變化(從實(shí)體物理空間到虛擬網(wǎng)絡(luò)空間),圖書館作為知識(shí)信息中心的功能不會(huì)改變。通過有形的圖書館把無形的大數(shù)據(jù)組織起來,供用戶使用,滿足用戶的信息需求??梢哉f數(shù)字圖書館是人們用于獲取知識(shí)和信息的摸得著、看得見的一個(gè)具體抓手,而大數(shù)據(jù)將逐漸成為其背后的技術(shù)支撐與推動(dòng)。
2)數(shù)字圖書館為大數(shù)據(jù)技術(shù)提供試驗(yàn)和應(yīng)用空間。大數(shù)據(jù)屬于計(jì)算機(jī)科學(xué)技術(shù)一個(gè)重要的發(fā)展趨勢(shì)。數(shù)字圖書館是一個(gè)大型知識(shí)庫(kù),隨著知識(shí)信息的巨幅增長(zhǎng)和用戶需求的不斷變化,它本身就是一個(gè)大數(shù)據(jù)問題。未來圖書館數(shù)字化建設(shè),需要結(jié)合大數(shù)據(jù)技術(shù),如數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分類、數(shù)據(jù)挖掘等技術(shù),大數(shù)據(jù)的技術(shù)也要應(yīng)用在數(shù)字圖書館建設(shè)當(dāng)中,復(fù)雜數(shù)據(jù)的處理將成為大數(shù)據(jù)時(shí)代圖書館的基礎(chǔ)功能之一。從技術(shù)角度來說,大數(shù)據(jù)的許多技術(shù)、趨勢(shì)就是未來數(shù)字圖書館的趨勢(shì)。
3)數(shù)字圖書館是一個(gè)大的數(shù)據(jù)源,是大數(shù)據(jù)的一部分。用戶關(guān)注隱藏在大數(shù)據(jù)中的對(duì)自己有價(jià)值的信息,圖書館作為社會(huì)信息服務(wù)的中心,可以把知識(shí)和信息組織起來,提供給用戶使用。隨著圖書館數(shù)字化建設(shè)如火如荼地展開,必然要涉及大數(shù)據(jù)相關(guān)概念和技術(shù)的應(yīng)用,大數(shù)據(jù)技術(shù)從根本上解決好了,才能實(shí)現(xiàn)數(shù)字圖書館的一個(gè)大數(shù)據(jù)平臺(tái)的呈現(xiàn),而數(shù)字圖書館為大數(shù)據(jù)提供應(yīng)用空間,其建設(shè)進(jìn)程為大數(shù)據(jù)相關(guān)研究提供重要的經(jīng)驗(yàn)啟示。
下面結(jié)合大數(shù)據(jù)技術(shù)帶來的機(jī)遇和挑戰(zhàn),論述數(shù)字圖書館的三要素(技術(shù)、資源和服務(wù))的建設(shè)思路。
1)數(shù)據(jù)量由TB 級(jí)升至PB 級(jí),并仍在源源不斷地增長(zhǎng)。IDC 的《數(shù)字宇宙》研究報(bào)告稱,2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8 ZB,預(yù)測(cè)到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,全球?qū)碛?5 ZB 的數(shù)據(jù)量[8]。例如作為世界最大的知識(shí)寶庫(kù),美國(guó)國(guó)會(huì)圖書館在2011年與微博客Twitter 簽訂協(xié)議,將把所有公開的推特消息保存到圖書館的歷史檔案資料庫(kù)中[9]。截至目前,美國(guó)國(guó)會(huì)圖書館所保存的Twitter 信息數(shù)量已達(dá)到1700 億條、存儲(chǔ)文件體積更達(dá)到133TB[10]。根據(jù)WinterCorp 調(diào)查顯示,最大數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量年均增長(zhǎng)173%,2015年最大數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量將逼近100PB[11]。存儲(chǔ)能力的增長(zhǎng)遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)量的增長(zhǎng),亟需分布式大規(guī)模數(shù)據(jù)庫(kù)的開發(fā)應(yīng)用。
2)數(shù)字圖書館中數(shù)據(jù)種類繁多,除了可以用二維表結(jié)構(gòu)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),還有視頻、音頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)。世界結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率大概是32%,而非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)則是63%。2012年非結(jié)構(gòu)化數(shù)據(jù)達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的75%以上[12]。關(guān)系數(shù)據(jù)庫(kù)已經(jīng)無法有效管理這些非結(jié)構(gòu)化數(shù)據(jù),如何快速訪問數(shù)據(jù)成為核心挑戰(zhàn)。以Hadoop 為代表的分布式文件系統(tǒng)和MapReduce 計(jì)算框架應(yīng)運(yùn)而生[13]。基于MapReduce 編程模型的高性能并行大數(shù)據(jù)處理服務(wù),能夠提供對(duì)結(jié)構(gòu)化和復(fù)雜數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實(shí),而在云計(jì)算環(huán)境中可以初步實(shí)現(xiàn)更加復(fù)雜和更大規(guī)模的大數(shù)據(jù)處理,比如大規(guī)模社會(huì)計(jì)算、大規(guī)模社交網(wǎng)絡(luò)、時(shí)間序列分析、大規(guī)模圖分析、及更細(xì)粒度的仿真等[14]。目前,MapReduce 和Hadoop 在應(yīng)用性能等方面仍存在不少問題,還需要研發(fā)更有效、實(shí)用的大數(shù)據(jù)分析和管理技術(shù)。
3)處理速度的實(shí)時(shí)性。數(shù)字圖書館為用戶提供的是即時(shí)性的服務(wù),用戶可以隨時(shí)從數(shù)字圖書館中閱讀或下載知識(shí)和信息。而“大數(shù)據(jù)”技術(shù)強(qiáng)調(diào)數(shù)據(jù)處理的實(shí)時(shí)性,即數(shù)據(jù)處理的時(shí)間必須要短,比如通常情況下分析處理300 GB 的數(shù)據(jù)需要一小時(shí),而大數(shù)據(jù)技術(shù)能在一秒鐘之內(nèi)完成,這種極端高速的秒級(jí)處理速度將會(huì)增加很大價(jià)值。
4)大數(shù)據(jù)時(shí)代需要數(shù)據(jù)的去冗分類、去粗取精、挖掘知識(shí)[15],近年來數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘等相關(guān)信息技術(shù)的發(fā)展很快,預(yù)示著對(duì)大數(shù)據(jù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘?qū)⒊蔀槲磥韴D書館的重要業(yè)務(wù)之一。只有從大數(shù)據(jù)中發(fā)現(xiàn)規(guī)律、找出潛在價(jià)值,圖書館的智能化服務(wù)水平才能實(shí)現(xiàn)根本性提升。
資源建設(shè)是數(shù)字圖書館建設(shè)的核心,是實(shí)現(xiàn)數(shù)字圖書館服務(wù)的基礎(chǔ)。在資源建設(shè)上,充分挖掘和利用大數(shù)據(jù)技術(shù),要不斷豐富資源內(nèi)容、完善資源結(jié)構(gòu),重視特色資源、領(lǐng)域資源、原生資源,重視資源的共建共享,建成大數(shù)據(jù)資源。
1)特色數(shù)據(jù)庫(kù)的建設(shè)。特色是建館之本,生存之道,沒有特色的數(shù)字圖書館終究會(huì)被用戶所遺棄。在大數(shù)據(jù)時(shí)代,圖書館不可能也沒有必要將館藏全部數(shù)字化,應(yīng)該根據(jù)本館館藏特色和學(xué)科優(yōu)勢(shì),重點(diǎn)建設(shè)具有學(xué)科專業(yè)特色和用戶急需的數(shù)據(jù)庫(kù),為高校的教學(xué)和科研提供高層次的信息服務(wù),滿足用戶的個(gè)性化、專業(yè)化需求。建設(shè)特色數(shù)據(jù)庫(kù),實(shí)現(xiàn)信息資源的優(yōu)勢(shì)互補(bǔ),有利于珍稀文獻(xiàn)信息資源的保存和利用,有利于實(shí)現(xiàn)館際之間信息資源的共建共享。
2)資源的共建共享。面對(duì)海量信息資源與用戶信息需求的不斷增長(zhǎng),一個(gè)圖書館已經(jīng)無法獨(dú)自滿足用戶的所有信息需求。圖書館可以尋求廣泛的協(xié)調(diào)與合作,建立資源的共建共享聯(lián)盟。可以通過建立統(tǒng)一的標(biāo)準(zhǔn)化軟、硬件平臺(tái),實(shí)現(xiàn)各級(jí)圖書館在統(tǒng)一規(guī)劃下共建資源,協(xié)調(diào)服務(wù)。各級(jí)圖書館只是區(qū)域數(shù)字圖書館系統(tǒng)的一個(gè)服務(wù)節(jié)點(diǎn),整個(gè)區(qū)域形成一個(gè)有機(jī)的圖書館群,為本區(qū)域的用戶提供服務(wù)。可以向全國(guó)、全球范圍推廣,對(duì)各級(jí)圖書館的數(shù)字資源情況進(jìn)行統(tǒng)一登記,避免重復(fù)建設(shè),對(duì)已建資源進(jìn)行充分整合,形成有序的資源集合,逐步呈現(xiàn)一個(gè)全球數(shù)字圖書館的共建共享平臺(tái)。
3)原生信息資源的建立。原生文獻(xiàn)信息資源是指高校在教學(xué)、科研和管理過程中產(chǎn)生的,主要包括導(dǎo)師、博碩士研究生發(fā)表、撰寫的專著、期刊論文、會(huì)議論文、研究報(bào)告、科研成果以及各教學(xué)單位使用和制作的多媒體課件、各種專題數(shù)據(jù)庫(kù)等。原生信息資源是高校教學(xué)實(shí)踐和學(xué)術(shù)理論研究的重要成果,是高校教師的自產(chǎn)性成果,其建設(shè)成本低、利用價(jià)值高,又達(dá)到很好的文獻(xiàn)保障作用。
4)應(yīng)注意的幾個(gè)問題。首先是知識(shí)產(chǎn)權(quán)問題。在建設(shè)數(shù)字資源的過程中,遵守知識(shí)產(chǎn)權(quán)法律法規(guī),慎重對(duì)待版權(quán)、著作權(quán)和網(wǎng)絡(luò)傳播權(quán)等問題。其次是標(biāo)準(zhǔn)化問題。包括元數(shù)據(jù)標(biāo)準(zhǔn)、檢索語(yǔ)言標(biāo)準(zhǔn)、數(shù)據(jù)描述語(yǔ)言標(biāo)準(zhǔn)、電子圖書標(biāo)準(zhǔn)等,要在數(shù)字圖書館建設(shè)過程中推動(dòng)其標(biāo)準(zhǔn)化工作的國(guó)際化進(jìn)程,優(yōu)先采用國(guó)際已有成熟標(biāo)準(zhǔn),實(shí)現(xiàn)信息資源的無縫接合。還有信息安全問題,需要從技術(shù)、管理和法律等多方面建立完整的安全體系。在數(shù)據(jù)共享、數(shù)據(jù)公開的大趨勢(shì)下,注意保護(hù)用戶隱私,爭(zhēng)取大數(shù)據(jù)時(shí)代圖書館的服務(wù)權(quán)益與自身知識(shí)產(chǎn)權(quán)保護(hù)。
數(shù)字圖書館未來的核心服務(wù)價(jià)值在于解決用戶獲取知識(shí)過程中的三大問題:為用戶提供高質(zhì)量的信息資源,幫助用戶從海量的信息中迅速找到所需信息,持續(xù)不斷地跟蹤并推送用戶所關(guān)注的信息。大數(shù)據(jù)技術(shù)的發(fā)展將有助于這三大問題的更好解決,推動(dòng)服務(wù)升級(jí)。
(1)提供智能化服務(wù)。智能化服務(wù)主要借助于網(wǎng)絡(luò)并通過計(jì)算機(jī)模擬或?qū)崿F(xiàn)類似于人的智能行為,為用戶提供信息服務(wù),是一種全新的信息服務(wù)模式。例如,由IBM 開發(fā)的機(jī)器人沃森(Watson)在2011年成為新一代人機(jī)大戰(zhàn)的冠軍,它是一個(gè)能夠與人類答題能力相匹敵的計(jì)算系統(tǒng),速度和準(zhǔn)確性都超過其人類對(duì)手?!拔稚贝蠹s“閱讀”了兩億頁(yè)的內(nèi)容(約100 萬(wàn)冊(cè)書籍),大量的服務(wù)器和處理器支持,使得其能在三秒鐘之內(nèi)檢索數(shù)億頁(yè)的材料并給出答案[16]??梢灶A(yù)見,未來服務(wù)機(jī)器人將代替人類出現(xiàn)在圖書館的各個(gè)服務(wù)環(huán)節(jié)中,幫助用戶從海量的信息中迅速找到所需信息,為用戶提供實(shí)時(shí)性、交互性、智能性的服務(wù)。清華大學(xué)圖書館在這方面進(jìn)行了有益的嘗試和探索,其應(yīng)用的具有自動(dòng)學(xué)習(xí)功能的機(jī)器人“小圖”就是在線咨詢服務(wù)的一種全新體驗(yàn)。
(2)提供個(gè)性化服務(wù)。數(shù)字圖書館的個(gè)性化服務(wù)主要表現(xiàn)為兩個(gè)層次:一是按照用戶要求進(jìn)行信息定制,二是根據(jù)用戶特征及對(duì)信息資源的訪問歷史挖掘用戶興趣模式,主動(dòng)地向用戶提供最新的信息資源,跟蹤并推送用戶所關(guān)注的信息,滿足用戶的個(gè)性化需求。例如:個(gè)性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級(jí)智能平臺(tái),為用戶提供完全個(gè)性化的決策支持和信息服務(wù)。系統(tǒng)進(jìn)行的是實(shí)時(shí)性推薦,當(dāng)數(shù)據(jù)庫(kù)或用戶信息庫(kù)改變時(shí),給出的推薦序列會(huì)自動(dòng)改變,顯著提升數(shù)字圖書館的個(gè)性化服務(wù)水平。
盡管目前大數(shù)據(jù)技術(shù)的研究還處于起步階段,依然還面臨許多難題和爭(zhēng)議,但圖書館數(shù)字化建設(shè)時(shí)不我待,不能守株待兔,建議在以下方面開展一些前導(dǎo)性工作。
(1)數(shù)字資源整合平臺(tái)的建立。數(shù)字資源分布于不同數(shù)據(jù)庫(kù),采用的構(gòu)建方式、支持平臺(tái)、數(shù)據(jù)組織形式、管理模式、存儲(chǔ)格式都不盡相同。此外,不同數(shù)字資源關(guān)聯(lián)程度較低、內(nèi)容交叉重復(fù),檢索界面和檢索方法都不一樣,用戶需要在不同數(shù)據(jù)庫(kù)之間切換和重復(fù)操作,造成不便。為適應(yīng)未來“大數(shù)據(jù)”的整合使用要求,應(yīng)建立數(shù)字資源統(tǒng)一檢索平臺(tái),提供“一站式”服務(wù),實(shí)現(xiàn)快速、無重復(fù)、聚類呈現(xiàn)及多角度導(dǎo)航。北大圖書館的“未名學(xué)術(shù)搜索”系統(tǒng)在該方面做出了有益的探索和嘗試,目前能檢索到該館館藏的所有圖書、期刊、多媒體、學(xué)位論文、電子書、電子期刊以及各種訂購(gòu)的數(shù)據(jù)資源,或提供資源的“來源”、“位置”等信息途徑。
(2)加強(qiáng)原生信息資源的整合。未來大數(shù)據(jù)的一個(gè)重要源泉是不斷產(chǎn)生的原生數(shù)據(jù)資源,因此應(yīng)加強(qiáng)對(duì)原生數(shù)據(jù)資源的整合,建立原生信息資源數(shù)據(jù)庫(kù)。目前不同的數(shù)據(jù)庫(kù)之間知識(shí)關(guān)聯(lián)程度較低,而且內(nèi)容交叉重復(fù),應(yīng)提高原生數(shù)據(jù)庫(kù)的互操作性,形成知識(shí)融合、跨學(xué)科、跨領(lǐng)域的動(dòng)態(tài)、發(fā)展的原生大數(shù)據(jù)庫(kù)。建庫(kù)過程中要朝著有利于大數(shù)據(jù)的方面去做,統(tǒng)一協(xié)議,建立標(biāo)準(zhǔn)平臺(tái)。
(3)精準(zhǔn)個(gè)性化推薦系統(tǒng)的建立。通過用戶在數(shù)字圖書館網(wǎng)頁(yè)的停留時(shí)間、瀏覽次數(shù)、鏈接點(diǎn)擊、搜索等行為的記錄,根據(jù)用戶的興趣特征,為用戶主動(dòng)做出個(gè)性化精準(zhǔn)推薦。目前的這種基于用戶的個(gè)性化推薦系統(tǒng)的建立為大數(shù)據(jù)環(huán)境下用戶行為分析與預(yù)測(cè)做的應(yīng)對(duì)準(zhǔn)備,其實(shí)踐過程可為大數(shù)據(jù)建設(shè)提供重要參考依據(jù)。
大數(shù)據(jù)時(shí)代即將到來,其不斷推進(jìn)的技術(shù)將為圖書館數(shù)字化建設(shè)提供強(qiáng)有力的技術(shù)支撐和指導(dǎo)方法。高校圖書館作為信息與知識(shí)重要集散、存儲(chǔ)、處理中心、原生數(shù)據(jù)的重要產(chǎn)生地,既是大數(shù)據(jù)的重要載體,又是構(gòu)成大數(shù)據(jù)的重要元素。因此,高校圖書館不應(yīng)僅作為大數(shù)據(jù)技術(shù)的受益者或旁觀者,而在圖書館數(shù)字化建設(shè)中應(yīng)積極適應(yīng)、迎接、探索、乃至主動(dòng)參與“大數(shù)據(jù)”形態(tài)的構(gòu)建,是大數(shù)據(jù)的參與者、踐行者。數(shù)字圖書館的建設(shè)為大數(shù)據(jù)技術(shù)的發(fā)展提供一個(gè)很好的探索和實(shí)踐平臺(tái),同時(shí)大數(shù)據(jù)技術(shù)的不斷推進(jìn)勢(shì)必將對(duì)未來數(shù)字圖書館的建設(shè)過程、形態(tài)等造成深遠(yuǎn)影響。
(References):
[1]Big data:the next frontier for innovation,competition,and productivity[EB/OL].http://www.mckinsey.corn/ Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation.
[2]The New York Times.The Age of Big Data[EB/OL].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=all.[2012-05-23].
[3]The Wall Street Journal.Big-Data Success Stories:Splunk[EB/OL].http://blogs.wsj.com/ venturecapital/2011/10/21/big-data-suceess-stories-splunk/.[2012-07-19].
[4]Big Data is a Big Deal[EB/OL].http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.[2013-08-23].
[5]MapR and Informatica Combine to Conquer Volume,Variety and Velocity of Big Data[EB/OL].http://www.dbta.com/Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.[2012-07-21].
[6]大數(shù)據(jù)成最新挑戰(zhàn)傳統(tǒng)業(yè)務(wù)形態(tài)受沖擊[EB/OL].http://www.cnsoftnews.com/ static/ 20120614/93138.html.[2012-06-14].
[7]朱開忠.圖書館轉(zhuǎn)型研究[M].北京:人民郵電出版社,2011.
[8]大數(shù)據(jù)成為信息科技關(guān)注新熱點(diǎn)[EB/OL].http://www.scs.moa.gov.cn/ dongtai/ 201212/ t20121 204_3095088.htm.[2012-12-04].
[9]Twitter 消息將被收入美國(guó)國(guó)會(huì)圖書館存檔[EB/OL].http://www.dajianet.com/ world/ 2011/1214/ 177360.shtml.[2011-12-14].
[10]Talk about big data:How the Library of Congress can index all 170 billion tweets ever posted[EB/OL].http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn.[2013-01-08].
[11]王珊,王會(huì)舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.
[12]大數(shù)據(jù)時(shí)代到來[EB/OL].http://www.ciweekly.com/article/2012/0118/A20 120118554491.shtml.[2012-02-02].
[13]周曉方,陸嘉恒,李翠平,等.從數(shù)據(jù)管理視角看大數(shù)據(jù)挑戰(zhàn)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(9):16-20.
[14]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012,31(11):63-77.
[15]李國(guó)杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(9):8-15.
[16]IBM 超級(jí)電腦“沃森”擊敗人類[EB/OL].http://tech.163.com/11/0218/07/6T5IMTS 6000915BD.html.[2011-02-18].
沈陽(yáng)航空航天大學(xué)學(xué)報(bào)2013年1期