趙月
摘要:現(xiàn)代社會中,圖書館是公共信息服務(wù)體系的重要組成部分,因此容易受到社會技術(shù)應(yīng)用潮流的影響。因此信息管理的從業(yè)人員應(yīng)該盡早了解大數(shù)據(jù)技術(shù)的重大意義,以及這一項技術(shù)在圖書館建設(shè)中將會產(chǎn)生的積極影響,更好地實現(xiàn)大數(shù)據(jù)技術(shù)的優(yōu)化應(yīng)用。隨著國內(nèi)公共文化信息服務(wù)體系建設(shè)的深入完善、圖書館用戶基礎(chǔ)的不斷壯大、讀者和資源類數(shù)據(jù)的急劇增長,要求圖書館在自身的建設(shè)上帶有前瞻性,在信息服務(wù)上需要利用現(xiàn)有的半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)進行有效分析,并針對可能遇到的問題提出相應(yīng)的策略。
關(guān)鍵詞:大數(shù)據(jù);圖書館;建設(shè)策略
中圖分類號:G252 文獻標識碼:A文章編號:1006-8937(2014)20-0142-02
1管理層次方面
在麥肯錫咨詢公司提出“大數(shù)據(jù)”這一概念之后,IBM、EMC、惠普以及微軟等多家互聯(lián)網(wǎng)巨頭也迅速認識到從海量數(shù)據(jù)中挖掘提取有效數(shù)據(jù)資源進行分析后,針對未來業(yè)務(wù)可能的發(fā)展趨勢提出的可行性預(yù)測的重要性,紛紛通過收購進行大數(shù)據(jù)業(yè)務(wù)的公司來實現(xiàn)資源整合,表明互聯(lián)網(wǎng)公司從管理層次方面認識到大數(shù)據(jù)的重要性。我國的圖書館服務(wù)及建設(shè),不管是盈利性的圖書館還是公益性的圖書館,都應(yīng)該從管理層次方面認識到大數(shù)據(jù)可能會給圖書館行業(yè)帶來的危機以及機遇。因此,成立數(shù)據(jù)管理部門與機構(gòu), 制定數(shù)據(jù)管理政策、統(tǒng)一的標準及共享平臺,從管理層次方面規(guī)范數(shù)據(jù)應(yīng)用,并將其加以制度化成為了圖書館業(yè)界的首要任務(wù)。
大數(shù)據(jù)建設(shè)并不是一項無序的、靜態(tài)的、短時期就能完成的工程,而是一項需要長期投入的工程。從總的發(fā)展趨勢來說,大數(shù)據(jù)建設(shè)需要通過精心的安排,力求使其步入良性化、秩序化的發(fā)展軌道。一方面,我們需要在全面了解大數(shù)據(jù)技術(shù)的核心構(gòu)成要素的基礎(chǔ)上,通過建設(shè)一整套的運行機制,使該技術(shù)能夠很好地與相應(yīng)的設(shè)施相配套。另一方面,通過做好頂層設(shè)計,使大數(shù)據(jù)技術(shù)的應(yīng)用在開始就
正是因為上述原因,在現(xiàn)代圖書館系統(tǒng)內(nèi)部成立相關(guān)的管理部分,在處理相關(guān)數(shù)據(jù)處理的基礎(chǔ)上,為實現(xiàn)數(shù)據(jù)的統(tǒng)一管理和有效利用作為基礎(chǔ),使得相關(guān)信息能夠在各地區(qū)、各部門之間保持協(xié)調(diào)是圖書館應(yīng)對大數(shù)據(jù)時代所應(yīng)該采取的管理層次方面的措施。在美國高校中,有些學(xué)校的圖書館成立了專門的“數(shù)據(jù)研究管理服務(wù)工作組(RDSMG)”,如麻省理工學(xué)院、弗吉尼亞大學(xué)以及康奈爾大學(xué)等。雖然目前我國圖書館業(yè)界認識到了大數(shù)據(jù)對工作內(nèi)容和方式可能帶來的影響,但在管理層次方面還未著手開始進行改革,因而在數(shù)據(jù)管理、共享和數(shù)據(jù)利用、處理以及數(shù)據(jù)版權(quán)方面,從技術(shù)上或者從政策上都還存在著漏洞,其實這不僅限制了圖書館自身的發(fā)展,也使得圖書館用戶的使用權(quán)利受限。因此,大數(shù)據(jù)時代圖書館的建設(shè)要首先從管理層次方面得到重視。
2技術(shù)層次方面
圖書館的建設(shè)不僅是硬件設(shè)施層面的要求,也需要在管理措施方面進行提升,使其符合大數(shù)據(jù)時代來臨的建設(shè)要求,政策是否能夠得到有效地落實、如何落實相關(guān)政策更具備可行性,這些都要從技術(shù)層面進行考量。因此,以何種方式去建設(shè)現(xiàn)代化的圖書館、以及相應(yīng)的大數(shù)據(jù)結(jié)構(gòu)如何配置都是我們必須面對的,尤其是在解決大數(shù)據(jù)的采集、處理、存儲等配套技術(shù)性問題都需要進行研究。簡單來說,從多元化渠道獲得海量數(shù)據(jù)不僅蘊涵著極有價值的信息,但也充斥著冗雜信息。這就需要運用大數(shù)據(jù)技術(shù)力求從中獲得有效信息,這一點是建構(gòu)大數(shù)據(jù)的核心,也決定著我們能夠以正確的方式應(yīng)對時代變革。我們需要從數(shù)據(jù)的采集、儲存、處理、分析和應(yīng)用等方面給予宏觀的觀照。將大數(shù)據(jù)作為一個系統(tǒng)工程來進行,進而建構(gòu)形成基本現(xiàn)代形態(tài)的圖書館架構(gòu)圖:主要包括大數(shù)據(jù)采集、大數(shù)據(jù)存儲、大數(shù)據(jù)處理及大數(shù)據(jù)應(yīng)用四層。第一層是大數(shù)據(jù)采集,數(shù)據(jù)庫、RFID、科學(xué)數(shù)據(jù)、論文、課件、郵件、微博和社交網(wǎng)絡(luò)等等都是圖書館信息數(shù)據(jù)的來源,其中包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)信息。第二層是大數(shù)據(jù)的儲存,利用云存儲、虛擬技術(shù)、HDFS、HBASE、Hadoop、MapRaduce技術(shù)等存儲海量數(shù)據(jù)。大數(shù)據(jù)的處理是圖書館大數(shù)據(jù)架構(gòu)的第三層,數(shù)據(jù)集成、抽取、建模、網(wǎng)格計算、聚合與關(guān)聯(lián)、重復(fù)數(shù)據(jù)刪除、數(shù)據(jù)加密、容災(zāi)和備份等等都屬于數(shù)據(jù)處理的范疇。第四層就是大數(shù)據(jù)的應(yīng)用,只有將處理后的數(shù)據(jù)用于各類型的服務(wù)才使整個圖書館大數(shù)據(jù)架構(gòu)得以完成。應(yīng)用的方面可以包括信息檢索、資源發(fā)現(xiàn)、數(shù)據(jù)挖掘、應(yīng)用軟件、推薦服務(wù)、學(xué)科化服務(wù)、個性化服務(wù)等。從現(xiàn)代圖書館的整體性建構(gòu)來說,在大數(shù)據(jù)技術(shù)背景之下,應(yīng)著力解決以下幾個方面。
2.1大數(shù)據(jù)的統(tǒng)一表示及融合
現(xiàn)代信息技術(shù)的飛速發(fā)展使得信息產(chǎn)生的速度越來越快,通過不同方式產(chǎn)生不同格式的數(shù)據(jù)越來越多,因此圖書館大數(shù)據(jù)中包括的不再是單一格式的結(jié)構(gòu)化數(shù)據(jù),而是包含了很多半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。在大量的信息資源中挖掘有用信息具體表現(xiàn)為:我們也可以這樣說,是否能夠直觀地展現(xiàn)出數(shù)據(jù)本身的意義,主要取決于數(shù)據(jù)表示的方法。如果我們不將海量的數(shù)據(jù)加以整合、挖掘和分析,就無法發(fā)揮出大數(shù)據(jù)本身的重大價值。各種數(shù)據(jù)和信息能否統(tǒng)一規(guī)范的表示及有效地融合,從而構(gòu)建起文獻與數(shù)字資源體系是大數(shù)據(jù)目前面臨的一個最基本問題。
2.2解決大數(shù)據(jù)量存儲的問題
數(shù)據(jù)存儲是大數(shù)據(jù)時代面前的諸多問題中最為核心,首先表現(xiàn)為面對大數(shù)據(jù)的高效率處理和訪問明顯增加,使得數(shù)據(jù)庫及其相關(guān)技術(shù)的要求有較為明顯的提升。而云計算技術(shù)的快速發(fā)展深刻影響著相關(guān)的數(shù)據(jù)庫技術(shù),并迫使相配套的數(shù)據(jù)庫技術(shù)不斷升級。例如據(jù)NoSQL、MapReduce和Hadoop都是常用的,非關(guān)系型數(shù)據(jù)庫分析技術(shù)的優(yōu)勢是能夠進行大規(guī)模的并行處理,同時簡單易用,不需要進行復(fù)雜的換算演化。在以特定的表現(xiàn)方式呈現(xiàn)出相應(yīng)問題的處理方案的同時,非結(jié)構(gòu)化數(shù)據(jù)的處理正在成為大數(shù)據(jù)技術(shù)發(fā)展的關(guān)鍵性技術(shù)增長點。
2.3解決非結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘問題
數(shù)據(jù)挖掘和分析工作之所以具有非常重要的作用,是因為大數(shù)據(jù)不僅信息量大,而且類型復(fù)雜多樣,不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
傳統(tǒng)的數(shù)據(jù)挖掘與分析方式能夠有效應(yīng)對結(jié)構(gòu)化數(shù)據(jù),但是對關(guān)系型數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)就無能為力。而正是這些在圖書館的大數(shù)據(jù)中傳統(tǒng)的數(shù)據(jù)挖掘分析手段無法處理的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)才與用戶有著直接的關(guān)系。例如讀者的興趣不會體現(xiàn)在結(jié)構(gòu)化的數(shù)據(jù)當(dāng)中,而通過對待處理的非結(jié)構(gòu)化數(shù)據(jù)進行挖掘和分析才能了解這一點。通過處理結(jié)構(gòu)化數(shù)據(jù)對讀者的顯性行為進行分析,處理半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)對隱性的潛藏信息進行深度挖掘,只有準確地把握閱讀群體的審美訴求,才能為讀者群體提供更為個性化、人性化的服務(wù)。
建立數(shù)據(jù)內(nèi)容基礎(chǔ)之上的推薦方式是當(dāng)下最為流行的推薦方式之一,另一種是協(xié)同過濾。就后者而言,往往能夠根據(jù)讀者的閱讀興趣和數(shù)據(jù)呈現(xiàn)的稀疏性反映出某些潛在的問題。如何挖掘協(xié)同過濾算法模型中存在的規(guī)則,設(shè)計可以提供個性化的服務(wù),是圖書館研究的方向。
3隊伍建設(shè)方面
圖書館服務(wù)要隨著技術(shù)的改變和用戶服務(wù)要求的變化而提升和完善。不僅是服務(wù)的方式、途徑還是服務(wù)的模式都將要發(fā)生改變。通過大量數(shù)據(jù)挖掘、組織和分析后決定的服務(wù)策略可能更具有針對性和鮮明性,服務(wù)方式和手段也會隨之調(diào)整。在執(zhí)行文獻服務(wù)、信息咨詢和學(xué)科服務(wù)這些原有的服務(wù)策略的同時,以信息處理與服務(wù)為優(yōu)勢的圖書館的服務(wù)范圍及領(lǐng)域會得到更大的擴展。服務(wù)領(lǐng)域的擴展、服務(wù)種類的增加以及服務(wù)質(zhì)量的提升要求圖書館在人力資源儲備和培訓(xùn)不斷強化,力求能夠在較短的時間內(nèi)建設(shè)起一支高素質(zhì)的圖書館專業(yè)隊伍。
傳統(tǒng)類型的圖書館建立在其自身的管理方式、工作內(nèi)容,以及工作方式和管理思維基礎(chǔ)之上。但在大數(shù)據(jù)的信息環(huán)境中傳統(tǒng)型圖書館運作模式遭遇到前所未有的挑戰(zhàn),并使其內(nèi)部構(gòu)成方式發(fā)生了巨大的變化。
抓住這個機遇,盡快開展數(shù)據(jù)管理服務(wù)是圖書館目前的首要任務(wù),要想做好這一項工作,需要圖書館不斷提升支撐相關(guān)研究的服務(wù)內(nèi)容、以及與其相配套的服務(wù)能力。NSB明確指出數(shù)據(jù)挖掘、獲取、處理、保存、分析、利用和可視化為職業(yè)的數(shù)據(jù)科學(xué)家(Data Scientist)中,應(yīng)該包含有信息與計算機專業(yè)人員、相關(guān)領(lǐng)域的專家和圖書館管理人員。美國圖書館研究協(xié)會認為,未來的圖書館管理人員最為重要的能力就是研究數(shù)據(jù)管理能力。由此可見,能夠盡快的培養(yǎng)一支掌握現(xiàn)代信息處理技術(shù),將直接影響到圖書館事業(yè)的發(fā)展能夠適應(yīng)新形勢的需要。綜合素質(zhì)較好的“數(shù)據(jù)官員”是圖書館隊伍建設(shè)首先要解決的問題。只有不斷發(fā)展壯大這支隊伍,并使之成為信息數(shù)據(jù)資源的整理者、分析者、傳播者和教育者,才能真正促進圖書館事業(yè)向著更為全面的方向繼續(xù)前進。
參考文獻:
[1] 熊金超.全球迎來大數(shù)據(jù)時代數(shù)據(jù)成為越來越有用資源[EB/OL].
http://www.hb.xinhuanet.com/2012-11/07/c_113623396.htm,2012-11-
07.
[2] 徐子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活[M].桂林:廣西師范大學(xué)出版社,2012.
[3] 李福銘.高校圖書館館藏中文圖書書齡與利用率研究[J].湘潭礦業(yè)學(xué)院學(xué)報,1998,(2).
[4] 尹秀波.基于館藏結(jié)構(gòu)分析與文獻利用統(tǒng)計的館藏文獻資源質(zhì)量評價研究[J].情報科學(xué),2011,(4).
[5] 代曉飛.香港地區(qū)高校圖書館館藏發(fā)展政策研究[J].圖書館學(xué)研究,2011,(3).
[6] 陳立剛.高校圖書館館藏質(zhì)量分析與優(yōu)化探討[J].圖書館論壇,2010,(2).
endprint