安友愛
摘要:大數(shù)據(jù)的高速發(fā)展對于圖書館的發(fā)展帶來了前所未有的機遇與挑戰(zhàn),并對現(xiàn)有的數(shù)據(jù)分析模式造成了很大的沖擊,如何順應(yīng)大數(shù)據(jù)浪潮,并借此對于圖書館的服務(wù)模式及數(shù)據(jù)挖掘技術(shù)進行更新,是值得每一個圖書館員思考的問題。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;機遇;挑戰(zhàn)
中圖分類號:F27
文獻標識碼:A
doi:10.19311/j.cnki.16723198.2016.21.032
而今,隨著互聯(lián)網(wǎng)、社交網(wǎng)的數(shù)據(jù)量不斷增長,在大數(shù)據(jù)浪潮的沖擊下,圖書館的IT應(yīng)用也可借此加強數(shù)據(jù)建設(shè),從而為圖書館知識服務(wù)創(chuàng)造更多的機遇,譬如構(gòu)建業(yè)務(wù)建設(shè)的風險模型,或是對圖書館用戶進行流失分析,甚至可以通過整合多維度大數(shù)據(jù)進行輔助決策。
1大數(shù)據(jù)的特性
1.1數(shù)量大
數(shù)據(jù)量已不僅僅局限于TB級,已然向著PB甚至更高級別的數(shù)據(jù)量邁進,呈指數(shù)型增長的數(shù)據(jù)量已無法用傳統(tǒng)的數(shù)據(jù)處理方式進行分析存儲。
1.2實時性
數(shù)據(jù)實時生成對數(shù)據(jù)分析模型提出了更高的要求,依賴于交互式、實時數(shù)據(jù)、建立實時的分析模型,通過分析挖掘數(shù)據(jù)背后深層次的需求增長或者對未來數(shù)據(jù)進行及時預(yù)測實時數(shù)據(jù)在大數(shù)據(jù)時代下意義顯得尤為重要。
1.3多維度
大數(shù)據(jù)時代下,數(shù)據(jù)來源廣泛而多樣,不再僅僅局限于手工統(tǒng)計分析,而是可依據(jù)各類訪問日志、檢索記錄、新聞媒體、影音視頻以及社交軟件等來源,具備結(jié)構(gòu)化、半結(jié)構(gòu)化甚至非結(jié)構(gòu)化屬性的數(shù)據(jù),以及在多維度基礎(chǔ)上獲得一段時間內(nèi)的數(shù)據(jù)形成的面板數(shù)據(jù)等。
1.4價值高
數(shù)據(jù)即是財富,也許單一的數(shù)據(jù)并無多大價值,但當龐大的數(shù)據(jù)將為我們提供更多更復(fù)雜的潛在信息,依據(jù)數(shù)據(jù)分析和挖掘技術(shù),將會深入了解到數(shù)據(jù)背后的意義。
2大數(shù)據(jù)為圖書館帶來的挑戰(zhàn)
2.1存儲能力及計算能力的挑戰(zhàn)
隨著大數(shù)據(jù)的飛速發(fā)展,數(shù)據(jù)來源增多,數(shù)據(jù)類型多樣,數(shù)據(jù)采集技術(shù)的提高使得人們捕獲數(shù)據(jù)能力也在穩(wěn)步上升,各類結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)呈現(xiàn)出的復(fù)雜性吸引了眾多研究者的目光,而大數(shù)據(jù)為基礎(chǔ)的科學研究呈現(xiàn)出百花齊放的優(yōu)良態(tài)勢。有助于圖書館在此背景下向著新型知識服務(wù)的方向轉(zhuǎn)變。而圖書館現(xiàn)有的數(shù)據(jù)儲存技術(shù)以及數(shù)據(jù)分析技術(shù)顯然難以跟上大數(shù)據(jù)發(fā)展的步伐。如何將分層分級存儲架構(gòu)的設(shè)計付諸實踐以適應(yīng)信息管理的需要,如何是數(shù)據(jù)不再受到現(xiàn)有計算能力能力約束,如何實現(xiàn)高通量計算機、高可靠性、高預(yù)測性等數(shù)據(jù)分析技術(shù)來對現(xiàn)有的大數(shù)據(jù)進行統(tǒng)計分析等問題,都是有待解決的難題。
2.2數(shù)據(jù)分析能力的挑戰(zhàn)
大數(shù)據(jù)帶給我們向著廣度和深度發(fā)展的,已經(jīng)突破了常規(guī)而傳統(tǒng)的數(shù)據(jù)分析要求。大數(shù)據(jù)時代下的圖書館也需要通過數(shù)據(jù)分析了解知識服務(wù)的特點以及對未來的發(fā)展進行預(yù)測,從而應(yīng)對可能發(fā)生的困境或機遇,因此,關(guān)聯(lián)分析、趨勢分析、神經(jīng)網(wǎng)絡(luò)分析、移動平均線分析等分析技術(shù),可以為圖書館未來的發(fā)展創(chuàng)造一定的主動權(quán)。
2.3硬件設(shè)備的挑戰(zhàn)
隨著儲存和計算規(guī)模的不斷擴大,圖書館需要將高端服務(wù)器轉(zhuǎn)換為中低端硬件構(gòu)成的大規(guī)模計算機集群,從而支持非結(jié)構(gòu)化的數(shù)據(jù)儲存要求,同時需要有能夠獲取儲存大規(guī)模數(shù)據(jù)的硬件并能夠自動壓縮、分層、刪除重復(fù)數(shù)據(jù)等智能分析技術(shù),并且有復(fù)制分塊數(shù)據(jù)集到集群服務(wù)的網(wǎng)絡(luò)設(shè)施以及具有保護性可保密性的軟硬件基礎(chǔ)設(shè)施。
2.4人員儲備的挑戰(zhàn)
對于現(xiàn)有的大多數(shù)圖書館員而言,大數(shù)據(jù)分析技術(shù)是一項全新的技術(shù),他們并不具備相關(guān)的知識儲備及分析能力,即便是具有一定的知識的圖書館員,可能有也缺乏實際應(yīng)用的能力,難以將可挖掘的數(shù)據(jù)做持久化處理及深度分析。此外,隨著圖書館數(shù)據(jù)量的增長,所能夠真正分析使用的數(shù)據(jù)比例實際在降低,如果選擇實用可靠的數(shù)據(jù)分析方法,提高可分析數(shù)據(jù)比例,真正將數(shù)據(jù)分析應(yīng)用到知識服務(wù)的輔助決策中,是每一個圖書館員索要思考的問題。
3大數(shù)據(jù)為圖書館帶來的機遇
3.1智能輔助
傳統(tǒng)的信息檢索模式依賴于用戶所輸入的檢索詞,通過檢索功能將結(jié)果對用戶進行反饋,而依賴于大數(shù)據(jù)的智能輔助功能則不僅僅只是被動的接收用戶的檢索要求,可以通過檢索歷史判斷客戶需求,從而主動推送相關(guān)信息給用戶。通過對用戶搜索行為數(shù)據(jù)的分析,發(fā)現(xiàn)客戶的搜索習慣和搜索需求,并有針對性的進行推送,從而提高檢索效率。
3.2用戶流失及價值分析
隨著硬件、軟件局限性以及人員素質(zhì)無法滿足當前或未來的要求等問題約束了圖書館的發(fā)展,特別是在網(wǎng)絡(luò)技術(shù)高速發(fā)展,信息量急速膨脹的今天,高校人員對于圖書館的存在價值進一步弱化,因此,如何能夠通過利用大數(shù)據(jù)分析用戶的需求、行為特點、使用習慣等來應(yīng)對圖書館用戶流失的現(xiàn)狀,并且對于未來在交互知識服務(wù)中對于用戶與圖書館使用方向發(fā)展態(tài)勢進行預(yù)測,消除圖書館所面臨的發(fā)展困境是值得每一位圖書館員研究的課題。
3.3引文分析及趨勢分析
利用各類統(tǒng)計學的方法:如時間序列分析、相關(guān)分析、假設(shè)檢驗、聚類分析等方式,量化文獻引用頻率及行為,通過相互引證關(guān)系分析除了可以分析作者影響力或是文獻重要性,還可分析學科之間的交互性以及信息來源分布特征,從而為各學科發(fā)展方向提供相應(yīng)的規(guī)劃依據(jù)。同時,圖書館作為文獻集合的載體,可得到不同類型、不同信息要素之間相互引證的數(shù)據(jù),從而為用戶建立立體的引用分析,掌握全面的引證關(guān)系,即在廣度上對于知識體系進行挖掘。此外,通過對于不同時間點的相同指標,可建立某些檢索或引證的趨勢曲線分析,便于用戶了解檢索的學術(shù)趨勢或是學科的研究熱點的歷史變遷。從而發(fā)現(xiàn)不同學科、不同主題甚至不同機構(gòu)的文獻生長方向,在深度上挖掘相關(guān)的知識體系。
3.4知識服務(wù)及業(yè)務(wù)建設(shè)的風險模型構(gòu)建
通過數(shù)據(jù)挖掘技術(shù)可構(gòu)建圖書館信息安全風險評估模型,信息資源利用率評估模型、圖書采購及使用率評估模型、知識產(chǎn)權(quán)風險評估模型等具有分析、決策等功能的數(shù)學模型來協(xié)助我們對于相關(guān)知識服務(wù)及業(yè)務(wù)建設(shè)的關(guān)鍵因素進行深入研究,同時可依據(jù)二八原則:即80%的效益由20%的關(guān)鍵因素決定,從而能夠達到抓主要因素,促進圖書館有效發(fā)展的作用。
3.5知識挖掘及情報分析
通過引入先進的分析技術(shù):如數(shù)據(jù)挖掘、索引規(guī)則等手段來對于各類文獻數(shù)據(jù)進行深入分析,了解各類文獻間的錯綜復(fù)雜的關(guān)系,揭示信息資源關(guān)聯(lián)立體的知識體系,挖掘客戶潛在的知識需求,從而提供精準的發(fā)現(xiàn)服務(wù)。此外,利用結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),實現(xiàn)自動化、智能化的分析技術(shù),獲取動態(tài)化、知識化的情報,通過人機交互的方式及可視化的技術(shù),幫助用戶在一定的技術(shù)環(huán)境中查看分析結(jié)果,了解信息資源潛在的發(fā)展規(guī)律。
參考文獻
[1]姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2013,(4):5254.
[2]朱靜微,李紅艷.大數(shù)據(jù)時代下圖書館的挑戰(zhàn)及其應(yīng)對策略[J].現(xiàn)代情報,2013,33(5):1013.
[3]高瑾.大數(shù)據(jù)與圖書館建設(shè)[J].農(nóng)業(yè)圖書情報學刊,2015,(1).