張?zhí)?/p>
摘要 大數(shù)據(jù)時代的到來,為圖書館帶來了新的機遇,圖書館可對大數(shù)據(jù)技術(shù)進行合理應(yīng)用?;诖它c,文章首先對大數(shù)據(jù)的基本特征進行簡要分析,在此基礎(chǔ)上對大數(shù)據(jù)時代圖書館技術(shù)應(yīng)用進行論述。期望通過本文的研究能夠?qū)Υ龠M圖書館的持續(xù)發(fā)展有所幫助。
【關(guān)鍵詞】大數(shù)據(jù) 圖書館 技術(shù)應(yīng)用
1 大數(shù)據(jù)的基本特征分析
大數(shù)據(jù)的基本特征可以歸納為以下幾個方面:
1.1 體量大
以普通的計算機為例,其硬盤的容量通常都是TB量級,有些較為特殊的企業(yè),因?qū)?shù)據(jù)的需求較大,數(shù)據(jù)量現(xiàn)己達到EB量級,1EB=210PB, 1PB=210TB。
1.2 類型復雜
大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化數(shù)據(jù),并且隨著不斷發(fā)展,這種類型的數(shù)據(jù)日益增多,如音視頻、圖片圖像等等,由于數(shù)據(jù)類型較為復雜,故此必須確保數(shù)據(jù)處理能力。
1.3 超快的處理速度
在社會持續(xù)發(fā)展的過程中,各種數(shù)據(jù)信息的產(chǎn)生量非常之大,對它們的分析處理必須講求時效,大數(shù)據(jù)在處理速度上有著其它數(shù)據(jù)技術(shù)無法比擬的優(yōu)越性。
1.4 價值高
大數(shù)據(jù)中所有數(shù)據(jù)的存在都有其價值,有的數(shù)據(jù)雖然對一些項目沒有意義,但卻可能對其它的項目有巨大意義,也就是說大數(shù)據(jù)的價值不能從單個角度上看,而是要站在全局的立場。
正是因為大數(shù)據(jù)所具備的這些特征,從而使其在多個領(lǐng)域中得到越來越廣泛的應(yīng)用。下面本文重點對大數(shù)據(jù)時代大數(shù)據(jù)技術(shù)在圖書館中的應(yīng)用進行研究。
2 大數(shù)據(jù)時代圖書館技術(shù)應(yīng)用
大數(shù)據(jù)時代的到來給我國圖書館的發(fā)展帶來了全新的機遇,在這一背景下,圖書館紛紛加大信息化和數(shù)字化的建設(shè)力度,也都取得了一定的成績,與此同時,圖書館中的各類數(shù)字資源不斷增多,為給資源使用者提供更多的便利,需要對這些數(shù)字資源進行整合,在整合的過程中,可對大數(shù)據(jù)技術(shù)進行合理應(yīng)用,具體如下:
2.1 大數(shù)據(jù)的獲取途徑
圖書館在應(yīng)用大數(shù)據(jù)技術(shù)對數(shù)字資源進行整合的過程中,需要完成相關(guān)數(shù)據(jù)的采集,由于數(shù)據(jù)的類型比較多,并且結(jié)構(gòu)形式也比較復雜,加之并非全部數(shù)據(jù)都有價值。所以,應(yīng)對采集到的數(shù)據(jù)進行預處理,這個環(huán)節(jié)可以借助ETL工具來完成,由此能夠大幅度提升圖書館大數(shù)據(jù)獲取的準確性,具體預處理流程如圖1所示。
在圖1的處理流程中,數(shù)據(jù)抽取是從數(shù)據(jù)源中捕捉變化的數(shù)據(jù);數(shù)據(jù)清洗是對數(shù)據(jù)的結(jié)構(gòu)和規(guī)則進行增補;數(shù)據(jù)轉(zhuǎn)換則可使數(shù)據(jù)變?yōu)槟繕藬?shù)據(jù),最后通過加載將這些數(shù)據(jù)存在到平臺當中。
2.2 大數(shù)據(jù)的存儲方式
圖書館在對館藏數(shù)字資源進行整合時,可以借助Hadoop平臺來完成對大數(shù)據(jù)的存儲。這個平臺最為突出的特點是能夠使數(shù)據(jù)的存儲成本大幅度降低,平臺的時延較低、并發(fā)高,查詢能力非常強大。圖書館中所有的數(shù)據(jù)在存儲過程中,可實現(xiàn)分級存儲,由此可形成多級數(shù)據(jù)庫,并且數(shù)據(jù)庫之間不需要進行關(guān)聯(lián)操作,通過對數(shù)據(jù)匯總和分布式計算,可向主數(shù)據(jù)倉庫輸出相關(guān)數(shù)據(jù),大幅度減輕數(shù)據(jù)庫的存儲壓力,數(shù)據(jù)冗余也隨之減少,數(shù)據(jù)質(zhì)量得到進一步提升。
2.3 大數(shù)據(jù)的處理
對于圖書館而言,其服務(wù)的宗旨是滿足使用者對館藏資源的需求,為達到這一目標,在對大數(shù)據(jù)進行處理時,需要以用戶的特定需求作為前提,在此基礎(chǔ)上對數(shù)據(jù)進行分析和挖掘。由于圖書館對大數(shù)據(jù)處理的實時性有著較高的要求,從而增大了數(shù)據(jù)處理過程的復雜性,并且處理難度也隨之增大。對此可應(yīng)用MapReduce編程模型,該模型能夠?qū)w量超過1TB的數(shù)據(jù)進行并行運算,實現(xiàn)資源的全局最優(yōu)化,在這一前提下,使數(shù)據(jù)處理速度得到顯著提升。在該模型中,Map即分解,其能夠?qū)τ嬎闳蝿?wù)進行拆分,Reduce即合并,其可以對Map的輸出結(jié)果進行匯總。
2.4 大數(shù)據(jù)的應(yīng)用
圖書館對大數(shù)據(jù)的應(yīng)用主要體現(xiàn)在相關(guān)業(yè)務(wù)的開展和服務(wù)創(chuàng)新這兩個方面,有助于業(yè)務(wù)流程的優(yōu)化改進及服務(wù)內(nèi)容的拓展。在大數(shù)據(jù)時代下,圖書館可對各種關(guān)聯(lián)數(shù)據(jù)進行融合,為用戶提供預測服務(wù)。對資源進行采購的過程中,通過對關(guān)聯(lián)分析,能夠了解使用者對資源的需求,據(jù)此確定資源的采購重點。現(xiàn)階段,很多圖書館都推出個性化定制服務(wù),借助數(shù)據(jù)融合平臺,可對用戶行為進行挖掘和分析,以此來達到預測每個用戶行為的目的,按照預測結(jié)果,為不同的用戶提供符合其個性化要求的定制服務(wù)。圖書館利用可視化技術(shù),可為用戶提供可視化服務(wù),具體是指將數(shù)據(jù)分析結(jié)果直接展示給用戶,這里的數(shù)據(jù)包括各個學科領(lǐng)域的研究成果、研究進展等等,對于一些有特殊需求的用戶,圖書館可為其提供可視化方案咨詢。除此之外,圖書館對數(shù)字資源的融合,可以為用戶提供一站式的服務(wù),如數(shù)據(jù)開發(fā)、數(shù)據(jù)挖掘與分析等等。
3 結(jié)論
綜上所述,大數(shù)據(jù)時代下,圖書館應(yīng)當加快信息化和數(shù)字化的建設(shè)速度,在這一過程中,可對大數(shù)據(jù)技術(shù)進行合理應(yīng)用,對圖書館中的數(shù)字資源進行有效整合,從而進一步提升圖書館的服務(wù)水平,滿足廣大使用者對館藏資源的使用需求。在未來一段時期,應(yīng)當加大對相關(guān)技術(shù)的研究力度,從而使其能夠為圖書館的持續(xù)、穩(wěn)定發(fā)展提供強有力的技術(shù)支撐。
參考文獻
[1]席亞軍,大數(shù)據(jù)時代下云技術(shù)在圖書館數(shù)據(jù)存儲中的應(yīng)用[J].農(nóng)業(yè)圖書情報學刊,2015,27 (11):5-8.
[2]張文彥,武瑞原,于潔,大數(shù)據(jù)時代的圖書館初探[J].圖書與情報,2012 (06):15- 21.
[3]董瑞玉,肖健,初探大數(shù)據(jù)時代的圖書館服務(wù)發(fā)展[J],科技信息,2014 (07):131-131.
[4]杜朝祎,辦公室業(yè)務(wù),淺談大數(shù)據(jù)時代國內(nèi)移動圖書館服務(wù)創(chuàng)新[J]. 2017 (10):181-181.
[5]張大勇.大數(shù)據(jù)時代的圖書館初探[J].科技視界,2015 (18):212-212.