劉文釗 郭家康 王衛(wèi)丹
(中國氣象局氣象干部培訓(xùn)學(xué)院 北京市 100081)
隨著移動互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大數(shù)據(jù)與云計算等技術(shù)的先后出現(xiàn)極大地帶動了信息產(chǎn)業(yè)的轉(zhuǎn)變,尤其是以“互聯(lián)網(wǎng)+”為代表的新技術(shù),為整個社會帶來了變革。2016年5月,國家發(fā)展改革委牽頭印發(fā)了《“互聯(lián)網(wǎng)+”人工智能三年行動實施方案》,隨后2017年有關(guān)部門又印發(fā)了《新一代人工智能發(fā)展規(guī)劃》和《世界互聯(lián)網(wǎng)發(fā)展報告》,均指出互聯(lián)網(wǎng)等新型網(wǎng)絡(luò)技術(shù)已初具規(guī)模,其在科研領(lǐng)域和應(yīng)用推廣等方面發(fā)揮的作用已經(jīng)顯而易見。[1]
新時代背景下黨中央高度重視領(lǐng)導(dǎo)干部教育培訓(xùn)工作,2019年出臺了《2018-2022年全國干部教育培訓(xùn)規(guī)劃》,對當(dāng)前和今后一個時期干部教育培訓(xùn)工作做出全面部署。中國氣象局氣象干部培訓(xùn)學(xué)院(中共中國氣象局黨校)是培養(yǎng)氣象系統(tǒng)和其他部委黨員干部進(jìn)行教育培訓(xùn)的主要場所。中國氣象局圖書館(以下簡稱圖書館)作為干部學(xué)院的組成部分承載著眾多紙質(zhì)資源和海量數(shù)字資源,信息資源的建設(shè)與應(yīng)用是其信息化中的重要一環(huán)。圖書館應(yīng)加強(qiáng)黨校的文獻(xiàn)資料中心屬性,為黨員領(lǐng)導(dǎo)干部素質(zhì)提高、輔助領(lǐng)導(dǎo)決策和學(xué)習(xí)型政黨建設(shè)提供必要的信息資源和服務(wù)。
在新時代環(huán)境下,圖書館要順應(yīng)時代發(fā)展重新審視、研究黨校的教學(xué)需求,加快圖書館信息化建設(shè)與大數(shù)據(jù)相互融合的發(fā)展速度,通過打造高水平的圖書館信息化服務(wù)平臺,更好地為黨校提供服務(wù)。[2]
大數(shù)據(jù)的處理過程主要分為以下四個方面:數(shù)據(jù)采集與預(yù)處理;數(shù)據(jù)集成與提取;數(shù)據(jù)分析與挖掘;數(shù)據(jù)展示與解讀。大數(shù)據(jù)處理流程及相關(guān)技術(shù)如圖1所示。
(1)數(shù)據(jù)采集與預(yù)處理。利用傳感器網(wǎng)絡(luò)、社交媒體等數(shù)據(jù)庫,對各種類型的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢和數(shù)據(jù)操作。目前現(xiàn)有的技術(shù)方法主要有射頻識別技術(shù)(RFID)、單點登錄、關(guān)系型數(shù)據(jù)庫和智能識別等。大數(shù)據(jù)采集過程中的主要挑戰(zhàn)是并發(fā)用戶數(shù)量高。因而不僅需要在采集端平臺配備大量的數(shù)據(jù)庫資源、傳輸資源和物聯(lián)網(wǎng)資源,而且要深入研究如何進(jìn)行數(shù)據(jù)信息負(fù)載的均衡和分配。
數(shù)據(jù)預(yù)處理即數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)存儲等。數(shù)據(jù)清洗用來去掉噪聲數(shù)據(jù)和異常數(shù)據(jù),以保證數(shù)據(jù)的質(zhì)量和可靠性;數(shù)據(jù)變換在于改進(jìn)涉及距離度量的挖掘算法的精度和有效性,進(jìn)行數(shù)據(jù)的歸一化處理,進(jìn)而提高數(shù)據(jù)分析的效率和速度。面對海量數(shù)據(jù),大數(shù)據(jù)時代的數(shù)據(jù)存儲技術(shù)包括并行存儲體系架構(gòu)、高性能對象存儲技術(shù)、并行I/O 訪問技術(shù)、數(shù)據(jù)保護(hù)與安全體系等。使用MPP來存儲和管理高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù);采用MPP 并行數(shù)據(jù)庫集群與Hadoop 集群混合,實現(xiàn)對PB、EB 級數(shù)據(jù)的存儲和管理。
圖1:大數(shù)據(jù)處理流程及相關(guān)技術(shù)
圖2:讀者個性化服務(wù)平臺框架
(2)數(shù)據(jù)集成與提取。為了對數(shù)據(jù)進(jìn)行集中處理,需要將零散的數(shù)據(jù)庫聚集為一個綜合型的分布式數(shù)據(jù)庫。眾所周知,大數(shù)據(jù)的類型多種多樣,數(shù)據(jù)集成后需要利用聚類分析、關(guān)聯(lián)性分析等方法根據(jù)用戶的需要和數(shù)據(jù)特征進(jìn)行后續(xù)處理,將不同的數(shù)據(jù)結(jié)構(gòu)和復(fù)雜的數(shù)據(jù)類型轉(zhuǎn)變?yōu)轭愋突蚪Y(jié)構(gòu)相對簡單的數(shù)據(jù)。
圖3:用戶在互聯(lián)網(wǎng)行為分析
(3)數(shù)據(jù)分析與挖掘。數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)中尤為重要的環(huán)節(jié),主要對不同信息源獲取到的信息進(jìn)行分析與處理。數(shù)據(jù)挖掘是在數(shù)據(jù)分析的基礎(chǔ)之上通過算法挖掘出數(shù)據(jù)背后更為深層的關(guān)聯(lián)關(guān)系。數(shù)據(jù)分析時主要利用分析工具對存儲在分布式數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行并行計算,以此來滿足常見的分析需求。
圖書館中的大數(shù)據(jù)技術(shù)主要體現(xiàn)在對因信息來源不同、結(jié)構(gòu)類型不同,海量信息資源進(jìn)行快速處理,從而完成相關(guān)分析、分類、儲存和使用等功能,借助現(xiàn)代化的智能檢索系統(tǒng)為讀者提供一站式的服務(wù)模式。通過對讀者信息資源的檢索、瀏覽記錄、下載內(nèi)容等信息進(jìn)行深度挖掘,能夠預(yù)測出特定學(xué)科的研究熱點。大數(shù)據(jù)技術(shù)可以提供用戶畫像、特色資源和相關(guān)數(shù)據(jù)庫之間的信息網(wǎng)絡(luò),為讀者提供更加精準(zhǔn)的學(xué)科知識服務(wù),個性化服務(wù)平臺框架如圖2所示。[3]
大數(shù)據(jù)技術(shù)還可以運(yùn)用可視化技術(shù)把無法可視化的、模糊的抽象數(shù)據(jù)進(jìn)行語義分析,從而幫助用戶理解信息之后的潛在內(nèi)容。借助大數(shù)據(jù)技術(shù)可以構(gòu)建基于Hadoop 的圖書館數(shù)字化分析平臺,通過用戶在互聯(lián)網(wǎng)上的瀏覽行為和網(wǎng)頁信息,對用戶輸入的關(guān)鍵詞進(jìn)行再分析,其分析流程如圖3所示。
大數(shù)據(jù)在圖書館的發(fā)展過程中,將圖書館從傳統(tǒng)的“信息匱乏”逐步轉(zhuǎn)變?yōu)椤靶畔⑦^?!?,這便需要對數(shù)據(jù)重新進(jìn)行整理、保存、利用,深化對復(fù)雜數(shù)據(jù)的再分析,推進(jìn)圖書館網(wǎng)站中各服務(wù)平臺的創(chuàng)新和功能拓展,借助大數(shù)據(jù)技術(shù)加快推進(jìn)圖書館服務(wù)的轉(zhuǎn)型和升級。
近些年,圖書館數(shù)字化建設(shè)不斷加大投入,不論是通過購買或是采用自建的方式,目前已掌握了眾多的數(shù)字資源。雖然現(xiàn)有的數(shù)據(jù)量尚沒有達(dá)到大數(shù)據(jù)的級別,但隨著技術(shù)的發(fā)展,服務(wù)方式和理念正發(fā)生著重要變化,例如網(wǎng)絡(luò)信息,微信公眾號等服務(wù)載體,每時每刻都在產(chǎn)生著巨大的非結(jié)構(gòu)化數(shù)據(jù)。同時,因為圖書館中的數(shù)據(jù)類型多種多樣,也決定了我們必須使用大數(shù)據(jù)技術(shù)手段對數(shù)據(jù)進(jìn)行分析和處理。[4]
圖書館的主要職責(zé)是為黨校教師和在校學(xué)員提供教學(xué)輔助。近年來,隨著領(lǐng)導(dǎo)干部的年輕化,大多數(shù)學(xué)員均熟練地掌握了一種或是多種文獻(xiàn)查詢和檢索本領(lǐng),對文獻(xiàn)的獲取途徑也能非常熟練?,F(xiàn)在學(xué)員所遇到的問題也不再是到哪里獲取信息,而是轉(zhuǎn)變?yōu)槿绾胃痈咝Э旖莸孬@得有價值的文獻(xiàn)。像以前把未經(jīng)加工過的文章直接擺在學(xué)員面前已經(jīng)根本無法滿足學(xué)員的需求,也就失去了圖書館對讀者的吸引力。借助大數(shù)據(jù)技術(shù)中的知識可視化、知識圖譜和信息推送等技術(shù)能夠很好地彌補(bǔ)之前的技術(shù)缺陷。
黨校是黨員領(lǐng)導(dǎo)干部參加培訓(xùn)的主陣地。學(xué)員要在培訓(xùn)期間查閱大量相關(guān)文獻(xiàn),而學(xué)員在互聯(lián)網(wǎng)上查閱文獻(xiàn)信息的瀏覽記錄對于圖書館來說是一項非常重要的財富。通過跟蹤學(xué)員在校期間的閱讀書目和閱讀行為,館員經(jīng)過大數(shù)據(jù)的深度分析可以在一定程度上掌握學(xué)員的閱讀愛好和迫切關(guān)心的問題,以便更好地為學(xué)員接下來的學(xué)習(xí)提供更加精準(zhǔn)的服務(wù)。同時也為教師在接下來培訓(xùn)計劃的制定提供更具體的授課內(nèi)容。這對黨校做好干部教育培訓(xùn),提升教學(xué)水平都具有重要意義。[5]
大數(shù)據(jù)時代下圖書館的數(shù)字化建設(shè)是提高圖書館服務(wù)水平的必經(jīng)之路,對于其自身的發(fā)展與發(fā)揮自身功能具有重要意義。[6]所以,圖書館必須重視數(shù)字化建設(shè)的廣度和深度,在思想上轉(zhuǎn)變意識形態(tài)。同時要加大數(shù)字化資源建設(shè)的投入,推進(jìn)圖書館的智能化和網(wǎng)絡(luò)化建設(shè),并根據(jù)自身特色,建設(shè)具有本館特色的數(shù)據(jù)庫,不斷完善人才管理隊伍,全面推進(jìn)圖書館的可持續(xù)發(fā)展。