張煒+孫倩
[收稿日期:2015-11-12
作者簡介:張 煒(1973— ),國家圖書館研究館員;孫 倩(1984— ),國家圖書館館員。
* 本文系國家文化創(chuàng)新工程項目“基于互聯(lián)網電視平臺的數(shù)字圖書館應用與示范”的研究成果之一。]
關鍵詞:大數(shù)據(jù);數(shù)字圖書館;整合
摘 要:作為國家基礎性戰(zhàn)略資源,大數(shù)據(jù)成為圖書館行業(yè)發(fā)展的重要生產資料,包括多種類型的海量資源數(shù)據(jù)、龐大用戶群體所涵蓋的用戶數(shù)據(jù)和圖書館的生產數(shù)據(jù)和業(yè)務數(shù)據(jù)以及由此所建立的數(shù)據(jù)體系。國家數(shù)字圖書館基于新媒體服務平臺積極開展大數(shù)據(jù)環(huán)境下的技術革新和服務創(chuàng)新,實現(xiàn)了傳統(tǒng)圖書館的轉型和升級。
中圖分類號:G250.7 文獻標識碼:A 文章編號:1003-1588 ( 2016 ) 01-0002-03
1 大數(shù)據(jù)的發(fā)展形勢和重要意義
信息技術與經濟社會的交匯融合引發(fā)了數(shù)據(jù)迅猛增長,最先出現(xiàn)于天文學、基因學中的“大數(shù)據(jù)”概念,如今應用到了整個社會領域,成為人們獲得新知、創(chuàng)造新價值的源泉。大數(shù)據(jù)技術被稱為IT產業(yè)的又一次里程碑式的變革,它通過提高對數(shù)據(jù)的加工分析發(fā)現(xiàn)事物之間的聯(lián)系和規(guī)律,進而發(fā)掘出海量數(shù)據(jù)中蘊藏的知識。由大數(shù)據(jù)、云計算、物聯(lián)網等關鍵技術引領的信息技術變革,影響到了社會生活的各個領域。根據(jù)Gartner預測,到2020年,全世界的大數(shù)據(jù)容量將超過30ZB [1]。在大數(shù)據(jù)的驅動下,人類正在重新改寫自己的未來。
大數(shù)據(jù)已成為國家基礎性戰(zhàn)略資源,日益對全球生產、流通、分配、消費活動以及經濟運行機制、社會生活方式和國家治理能力產生重要影響。全球范圍內,運用大數(shù)據(jù)推動經濟和文化發(fā)展,完善社會治理,提升政府服務能力正在成為趨勢。目前,我國互聯(lián)網、移動互聯(lián)網用戶的規(guī)模在全球排名第一,在大數(shù)據(jù)發(fā)展和應用方面已具備一定基礎,擁有豐富的數(shù)據(jù)資源和應用市場優(yōu)勢,大數(shù)據(jù)的關鍵技術研發(fā)取得突破,涌現(xiàn)出了一批互聯(lián)網創(chuàng)新產業(yè)和創(chuàng)新應用[2]。
隨著《關于積極推進“互聯(lián)網+”行動的指導意見》以及《促進大數(shù)據(jù)發(fā)展行動綱要》等一系列文件的出臺,中國對大數(shù)據(jù)的重視程度提升到了一個前所未有的高度。大數(shù)據(jù)正在成為推動經濟轉型發(fā)展的新動力,它不僅推動了社會生產要素的網絡化共享、集約化整合、協(xié)作化開發(fā)和高效化利用,還變革了傳統(tǒng)的生產方式和經濟運行機制,顯著提升了經濟運行水平和效率。大數(shù)據(jù)正在成為新的經濟增長點,將對未來信息產業(yè)格局產生重要影響。大數(shù)據(jù)也成為重塑國家競爭力的新機遇。在全球信息化快速發(fā)展的大背景下,大數(shù)據(jù)正引領新一輪科技創(chuàng)新,只有充分利用其規(guī)模優(yōu)勢,實現(xiàn)其質量和應用水平的同步提升,發(fā)掘和釋放數(shù)據(jù)資源的潛在價值,才能有利于更好地發(fā)揮大數(shù)據(jù)的戰(zhàn)略作用。大數(shù)據(jù)還成為提升政府治理能力的新途徑,促進各行各業(yè)的數(shù)據(jù)融合和整合以及數(shù)據(jù)的分析能力[3]。作為新一代信息技術和現(xiàn)代公共文化服務充分融合的圖書館行業(yè),應該抓住知識社會的這一創(chuàng)新機遇,加快對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進行采集、存儲和關聯(lián)分析,從中發(fā)現(xiàn)新知識,創(chuàng)造新價值,提升新能力,實現(xiàn)數(shù)字圖書館的整體提升。
2 國家數(shù)字圖書館的新媒體建設成果
新媒體平臺是依托信息技術成果而成為科學傳播的新形式和重要渠道,它的即時性、互動性、可視性、平等性等特點和優(yōu)勢使其有別于傳統(tǒng)服務方式而深受公眾喜愛。《全國公共圖書館事業(yè)發(fā)展“十二五”規(guī)劃》[4]中指出:“要全面推進圖書館的信息化步伐,加強數(shù)字化圖書館建設?!眻D書館學的“范式演變”原理認為:“圖書館的范式演變的根本是不斷實現(xiàn)圖書館由圖書的保管者向服務本體的信息提供者轉變,由有邊界圖書館的收藏轉變?yōu)闊o邊界圖書館的利用[5]。”當前,隨著大數(shù)據(jù)時代的來臨,如何推進數(shù)字圖書館大數(shù)據(jù)與新媒體資源的整合,成為擺在我們面前的重要課題。
2.1 資源建設
國家圖書館作為保存人類文化遺產、傳播知識信息的樞紐,一直注重數(shù)據(jù)的建設、管理和利用,自20世紀90年代開始,伴隨著信息技術的進步和數(shù)字化革命的進程,實現(xiàn)了從無到有,并且進入到了數(shù)字化、網絡化、全媒體的新階段,建設一個圍繞數(shù)字資源生產、組織、保存以及發(fā)布服務的生命周期的總體架構基本形成,多年來也積累了一定規(guī)模的大數(shù)據(jù),包括多種類型的海量資源數(shù)據(jù)、龐大用戶群體所涵蓋的用戶數(shù)據(jù)和圖書館的生產數(shù)據(jù)和業(yè)務數(shù)據(jù)以及由此所建立的數(shù)據(jù)體系。
國家數(shù)字圖書館建有磁帶庫、磁盤陣列、光纖導向器組成的整體存儲系統(tǒng),總存儲量達到2,270TB。截至2014年底,數(shù)字資源總量已經達到1,024TB,其中電子圖書367萬種、414萬冊,電子期刊約5.8萬種,電子報紙約1.5萬種,學位論文約521萬篇,會議論文約507萬篇,音頻資料約109萬首,視頻資料約13.2萬小時,特色數(shù)字化資源超過2.6億頁;同時,開展海外民國文獻數(shù)字化、國家珍貴古籍數(shù)字化,重新啟動館藏音像資料數(shù)字化;外購數(shù)據(jù)庫達到277個,其中中文數(shù)據(jù)庫127個,外文數(shù)據(jù)庫150個,文津搜索系統(tǒng)積累了超過3億條元數(shù)據(jù)。
作為新型海量資源建設的重要組成部分,對互聯(lián)網中所產生的綜合價值較高的信息進行保存和利用程度,將為政府管理、生產經營、科研教育、公共服務、社會民生等提供重要依據(jù),同時網頁信息也真實反映了特定時期一個國家或地區(qū)的歷史和文化遺存,具有重要的學術和文化價值。近年來國外許多科研和文化機構在網絡信息保存方面已完成或正在推進的全球項目有近百項,2003年國家圖書館在國內開展了網絡信息資源采集與保存試驗項目,已累積數(shù)據(jù)量51.72TB,2015年數(shù)據(jù)采集量為80TB。
2.2 平臺與服務
新媒體是“所有人”對“所有人”的全面、立體化的傳播,是以數(shù)字技術為保障,以網絡為媒介的快速化傳播方式。如果說,大數(shù)據(jù)是數(shù)字圖書館資源管理與服務的基礎,那么新媒體平臺的建設和利用,則成為數(shù)字圖書館與用戶形成線上線下互動的有效途徑,它突破了傳統(tǒng)圖書館在時間與空間上的界線,使大量數(shù)字資源實現(xiàn)了即時傳輸和推送,進而滿足新環(huán)境下讀者個性化和圖書館服務精細化的需求,形成了傳播形式的多樣性和內容組合的多樣性。
國家數(shù)字圖書館的數(shù)字化資源正在通過互聯(lián)網、移動通信網、廣電網等渠道以及觸摸屏、智能手機、數(shù)字電視等終端,向讀者提供海量知識信息,服務形式涵蓋遠程資源訪問、整合檢索、在線咨詢、移動服務等。國家數(shù)字圖書館的統(tǒng)一用戶注冊人數(shù)達到650萬。開發(fā)的文津搜索系統(tǒng)有效整合國家圖書館自建和部分外購資源,實現(xiàn)了海量元數(shù)據(jù)匯集;檢索結果支持分類和排序,通過自定義的過濾條件和聚合,為用戶提供快速定位資源的途徑;根據(jù)個人權限,支持在線閱讀和分享功能。國家數(shù)字圖書館網站是國內最早提供互聯(lián)網服務的圖書館網站之一,根據(jù)用戶需求和資源建設情況,不斷進行改版和完善,年均點擊量已達13億次。移動圖書館服務包括WAP網站、手機客戶端、應用程序等方式,提供書目檢索、電子圖書和期刊下載、展覽講座的瀏覽,移動終端展示的圖片資源已經超過3萬張,音視頻資源1,200小時,學位論文摘要10萬條。國家數(shù)字圖書館實現(xiàn)了基于依托交互數(shù)字電視、IPTV和互聯(lián)網電視的書刊預約和續(xù)借功能,用戶可以通過電視平臺欣賞到國家圖書館豐富的館藏資源和地方特色文化導讀。隨著微博、微信等社交媒體的興起及“微”時代的到來,國家數(shù)字圖書館在新浪、騰訊平臺開通了微博和微信服務,以微話題和公眾服務賬號的形式向用戶推送資源、發(fā)布信息,新浪官方微博得到18.5萬用戶關注,發(fā)布信息5,920條,與用戶互動2,300余次;微信服務吸引3.8萬用戶關注,打通了微信平臺與統(tǒng)一用戶系統(tǒng),用戶通過微信綁定讀者卡,可以享受圖書檢索、預約及續(xù)借等服務。除了上述在線形式的新媒體服務之外,國家數(shù)字圖書館還在館區(qū)內設置了多處觸摸屏體驗區(qū),針對成年讀者和少兒讀者的不同需求和特點,分別推出國家數(shù)字圖書館觸摸體驗系統(tǒng)和少兒數(shù)字圖書館觸摸體驗系統(tǒng),內容覆蓋文物古籍、近現(xiàn)代文獻、民間文化、電子報刊等。
3 未來工作設想
網絡和信息技術環(huán)境下,數(shù)字化、網絡化資源已逐漸成為圖書館館藏資源的重要組成部分,海量的數(shù)字資源和快速增加的用戶數(shù)量正在成為以傳統(tǒng)IT架構為基礎的數(shù)字圖書館的重大挑戰(zhàn)。作為數(shù)字圖書館新媒體服務與科技融合發(fā)展的切入點,國家數(shù)字圖書館將緊扣大數(shù)據(jù)的數(shù)據(jù)規(guī)模大、類型繁多、巨大的潛在價值和處理速度快的4V特性,重點解決大數(shù)據(jù)核心技術問題并將其應用到相關領域,搶占時代發(fā)展的前沿。通過可視化技術直觀的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,從而讓讀者看到結果;通過大數(shù)據(jù)挖掘讓決策者更好地理解數(shù)據(jù),從而做出一些預測性的判斷;通過語義引擎工具去解析、提取、分析數(shù)據(jù),從而實現(xiàn)從“文檔”中智能提取信息;通過標準化的流程和工具對數(shù)據(jù)進行處理,從而實現(xiàn)最佳的數(shù)據(jù)質量和數(shù)據(jù)管理;基于大數(shù)據(jù)的技術革新和服務創(chuàng)新,將實現(xiàn)傳統(tǒng)圖書館的轉型和升級。
伴隨現(xiàn)代科技和人類社會進步所形成的生態(tài)環(huán)境的變化,國家數(shù)字圖書館已步入一個非常重要的快速發(fā)展時期,只有不斷適應大數(shù)據(jù)環(huán)境的變化,才能實現(xiàn)新媒體服務的融合和創(chuàng)新,創(chuàng)造新的發(fā)展力。
3.1 開展新媒體資源整合
隨著圖書館結構化數(shù)據(jù)為主的數(shù)據(jù)格局的改變,半結構化數(shù)據(jù)和非結構化數(shù)據(jù)的比重逐漸增加。為此,國家數(shù)字圖書館正在大力開展資源整合工作,通過海量異構數(shù)字資源的融合、聚類和重組,使資源從數(shù)據(jù)層面的揭示與描述向數(shù)據(jù)挖掘和知識發(fā)現(xiàn)轉變,為構建科學合理的知識組織體系和提供智能化信息服務奠定基礎;實現(xiàn)基于元數(shù)據(jù)關聯(lián)關系的知識聚合展示,通過科學的組織方式和多維度分類體系,加大文獻的覆蓋力度和文獻資源的整合揭示力度,為讀者提供統(tǒng)一的資源揭示入口;對自建資源進行深度標引,進一步實現(xiàn)文獻層的整合,使之成為物理或邏輯上的整體,以便于資源的發(fā)現(xiàn)與獲取,解決用戶資源檢索的實際需求;通過基于大數(shù)據(jù)的整合管理和有效揭示,將形成完善的新媒體數(shù)字資源服務體系,為用戶帶來知識信息的優(yōu)質聚合服務。
3.2 完善平臺架構和用戶體驗
組成大數(shù)據(jù)內容的各種不同來源的資源之間,不可避免地存在著多種形式的結構差異和語義沖突。利用分布式文件系統(tǒng)、分布式并行計算和分布式數(shù)據(jù)庫等技術,為實現(xiàn)大數(shù)據(jù)環(huán)境下分布式和異構性資源的數(shù)據(jù)庫存儲與查詢提供了新的思路。如:谷歌文件系統(tǒng)(GFS)和Hadoop分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)奠定了大數(shù)據(jù)存儲技術的基礎。MapReduce是一種分布式并行運算的編程模型,基于它寫出來的應用程序能夠運行在由上千個機器組成的大型集群上,并以一種可靠容錯的方式并行處理上T級別的數(shù)據(jù)集。分布式數(shù)據(jù)庫技術方面,谷歌的BigTable和Hadoop HBase等非關系型數(shù)據(jù)庫(NoSQL)通過使用“鍵—值”對、文件等非二維表的結構,具有對異構數(shù)據(jù)很好的包容性,適應非結構化數(shù)據(jù)的特點。基于上述大數(shù)據(jù)技術的運用實踐,為處理大規(guī)模分布式異構資源和提供即時運算與服務奠定了基礎,國家數(shù)字圖書館將針對各類型、各載體館藏資源,構建集成發(fā)現(xiàn)與獲取環(huán)境,變革傳統(tǒng)的IT架構和數(shù)據(jù)存儲、管理方式;提高資源發(fā)布能力,實現(xiàn)“在線—平板電腦—移動終端”數(shù)據(jù)的聯(lián)合發(fā)布;通過增加和完善用戶個性化服務功能,提升用戶體驗;建立關聯(lián)關系數(shù)據(jù)庫,實現(xiàn)基于元數(shù)據(jù)關聯(lián)關系的知識聚合展示;實現(xiàn)檢索功能多樣化。
3.3 啟動大數(shù)據(jù)分析系統(tǒng)建設
大數(shù)據(jù)分析在經濟、科研、社會管理等領域的成功應用和廣泛興起,使人們的決策日益依賴于數(shù)據(jù)的分析,而非基于經驗和直覺,傳統(tǒng)的數(shù)據(jù)管理已經發(fā)生變更。我們將構建國家數(shù)字圖書館統(tǒng)計分析平臺,在大數(shù)據(jù)技術支持下,進行站點訪問統(tǒng)計分析、資源訪問統(tǒng)計分析、用戶行為統(tǒng)計分析,深刻揭示國家數(shù)字圖書館運營狀況、資源利用情況、用戶習慣及興趣,為國家數(shù)字圖書館運營及決策提供有力參考與支持。
4 結語
大數(shù)據(jù)作為一種新的思維方式,為數(shù)字圖書館的未來發(fā)展創(chuàng)造了前所未有的可量化的維度,成為新發(fā)明和新服務的源泉。現(xiàn)階段,數(shù)字圖書館的新媒體資源建設與服務已經在全球范圍內開展,并實現(xiàn)實質性突破。國家數(shù)字圖書館將在全面、深入把握文獻資源現(xiàn)狀的基礎上,本著統(tǒng)一規(guī)劃、統(tǒng)一布局和統(tǒng)一管理原則,結合新媒體技術條件,以用戶需求為導向,采取多種方式進行多層次的整合,從而實現(xiàn)大數(shù)據(jù)環(huán)境下資源建設與服務的全局性部署。
參考文獻:
[1] 王娜.數(shù)字圖書館與新媒體資源整合策略[ J ].數(shù)字圖書館學刊,2015(4):36-38.
[2] 官建文.國內外主要互聯(lián)網公司大數(shù)據(jù)布局與應用比較研究[ J ].中國傳媒科技,2012(17): 45-49.
[3] 國務院.關于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知[EB/OL].[2015-10-30].http://www.gov. cn/zhengce/content/2015-09/05/content_ 10137.htm.
[4] 文化部.全國公共圖書館事業(yè)發(fā)展“十二五”規(guī)劃[EB/OL].[2015-10-30].http://zwgk.mcprc. gov.cn/auto255/201302/t20130205_29554.html.
[5] 李景峰.圖書館學范式演變及其在圖書館流程變革中的表征[ J ].圖書情報工作,2011(1): 17-21.
(編校:崔 萌)