卓建霞 成兆珠 王麗華
(鹽城工學(xué)院圖書館,江蘇鹽城224051)
面向大數(shù)據(jù)的高校圖書館數(shù)據(jù)集成架構(gòu)*
卓建霞成兆珠王麗華
(鹽城工學(xué)院圖書館,江蘇鹽城224051)
從論述高校圖書館大數(shù)據(jù)的主要內(nèi)容和數(shù)據(jù)特性入手,設(shè)計面向大數(shù)據(jù)的高校圖書館數(shù)據(jù)集成架構(gòu),即在數(shù)據(jù)倉庫之上增加一個中間虛擬數(shù)據(jù)服務(wù)層,通過虛擬數(shù)據(jù)服務(wù)層集成數(shù)據(jù)倉庫數(shù)據(jù)、實時數(shù)據(jù)及數(shù)據(jù)庫變化數(shù)據(jù),以充分發(fā)揮大數(shù)據(jù)的作用。
大數(shù)據(jù)高校圖書館數(shù)據(jù)集成數(shù)據(jù)倉庫數(shù)據(jù)虛擬化
大數(shù)據(jù)時代的來臨已經(jīng)毋庸置疑。大數(shù)據(jù)之“大”,并不僅僅在于數(shù)據(jù)量巨大,更多的意義在于人類可以分析和使用的數(shù)據(jù)在大量增加[1]。大數(shù)據(jù)的終極目標(biāo)是對大量來自不同數(shù)據(jù)源的不同類型的數(shù)據(jù)進行分析,以識別出組織存在的風(fēng)險和機會,并做出實時決策。高校圖書館作為文獻信息的集散地,為教育教學(xué)服務(wù),也為地方科技和經(jīng)濟發(fā)展服務(wù),一方面使用龐大的資源為用戶服務(wù),同時在運作和服務(wù)過程中又產(chǎn)生了大量數(shù)據(jù)。隨著近幾年新興社交媒體引入圖書館,在和用戶的互動過程中又產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù)。然而,數(shù)據(jù)量大、種類繁多、分散存儲幾乎是所有組織的通病,由于數(shù)據(jù)結(jié)構(gòu)、語義、格式轉(zhuǎn)換上的較大差異,數(shù)據(jù)共享難以有效實現(xiàn),高校圖書館要想邁入大數(shù)據(jù)時代,數(shù)據(jù)集成是大前提。
數(shù)據(jù)是數(shù)據(jù)集成的核心,研究大數(shù)據(jù)集成,首先必須要明確哪些數(shù)據(jù)是需要獲取的。大數(shù)據(jù)的來源多樣,通常存儲在數(shù)據(jù)庫、文本文檔、電子表格、電子郵件、網(wǎng)頁文本中。歸納起來主要有:
①數(shù)據(jù)庫數(shù)據(jù)。高校圖書館擁有豐富的文獻資源,存儲于文獻管理系統(tǒng)及數(shù)據(jù)庫中,數(shù)量巨大,持續(xù)更新,在用戶服務(wù)過程中產(chǎn)生的讀者借閱數(shù)據(jù)、數(shù)據(jù)庫使用統(tǒng)計數(shù)據(jù)、主頁訪問數(shù)據(jù)等,多為結(jié)構(gòu)化數(shù)據(jù)。
②用戶交互數(shù)據(jù)。圖書館在文獻信息服務(wù)過程中,更加重視讀者的參與,如讀者意見調(diào)查和反饋,資源薦購。而新興社交媒體的興起也為讀者參與互動提供了便捷條件,如QQ、微博、微信等,由此產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù)。
③移動互聯(lián)數(shù)據(jù)。隨著移動圖書館的興起和讀者閱讀模式的轉(zhuǎn)變,由此而產(chǎn)生了大量有關(guān)用戶位置、移動路線和閱讀愛好等方面的信息。
④主數(shù)據(jù)。主數(shù)據(jù)指系統(tǒng)間共享數(shù)據(jù),與記錄業(yè)務(wù)活動、波動較大的交易數(shù)據(jù)相比,主數(shù)據(jù)變化緩慢。主數(shù)據(jù)必須存在并加以正確維護,才能保證交易系統(tǒng)的參照完整性[2]。常用的主數(shù)據(jù)有客戶、合同、供應(yīng)商、合作伙伴、雇員。簡言之,主數(shù)據(jù)包含了組織核心業(yè)務(wù)實體的數(shù)據(jù),可以在組織內(nèi)跨越各個業(yè)務(wù)部門被重復(fù)使用,如圖書館員工構(gòu)成、部門層次關(guān)系、提供的各種服務(wù)構(gòu)成的產(chǎn)品主數(shù)據(jù)等。將各種不同類型和格式的數(shù)據(jù)進行集成通常需要使用到與非結(jié)構(gòu)化的數(shù)據(jù)相關(guān)聯(lián)的鍵或者標(biāo)簽(或者元數(shù)據(jù)),而這些非結(jié)構(gòu)化數(shù)據(jù)通常包含了與客戶、產(chǎn)品、雇員或者其他主數(shù)據(jù)相關(guān)的信息。對于集成結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)來說,元數(shù)據(jù)和主數(shù)據(jù)是非常重要的概念[3]。
⑤元數(shù)據(jù)。在圖書館與信息界,元數(shù)據(jù)被定義為:提供關(guān)于信息資源或數(shù)據(jù)的一種結(jié)構(gòu)化的數(shù)據(jù),是對信息資源的結(jié)構(gòu)化的描述。其作用為:描述信息資源或數(shù)據(jù)本身的特征和屬性,規(guī)定數(shù)字化信息的組織,具有定位、發(fā)現(xiàn)、證明、評估、選擇等功能[4]。隨著元數(shù)據(jù)的發(fā)展,如今的元數(shù)據(jù)可以用來描述各類型數(shù)據(jù),不一定是數(shù)字形式的,可來自不同的資源。高校圖書館元數(shù)據(jù)主要包括數(shù)據(jù)庫的元數(shù)據(jù)如數(shù)據(jù)集的物理位置、名稱、關(guān)系、字段、約束等,讀者群的元數(shù)據(jù)如讀者年齡、學(xué)歷、專業(yè)、地理位置等,數(shù)據(jù)轉(zhuǎn)換的映射關(guān)系,操作元數(shù)據(jù)的算法等。
有關(guān)大數(shù)據(jù)時代的數(shù)據(jù),有研究人員總結(jié)和概括出4V特征[5],即容量、多樣性、速度、價值,筆者僅對數(shù)據(jù)多樣性、分布式存儲特點及數(shù)據(jù)可用性再做進一步闡述。
①數(shù)據(jù)多樣性。包括來源多樣、存儲格式多樣、數(shù)據(jù)類型多樣。圖書館數(shù)據(jù)來源多種多樣,有的來自歷史數(shù)據(jù),有的來自讀者互動的實時更新數(shù)據(jù);在存儲格式上,或為數(shù)據(jù)庫,或為Excel,或為HTML;除了可以從傳統(tǒng)的關(guān)系型數(shù)據(jù)庫獲取大量的結(jié)構(gòu)化數(shù)據(jù)之外,龐大的可用外部數(shù)據(jù)通常來自社交媒體,而這些數(shù)據(jù)往往是非結(jié)構(gòu)化的,不同結(jié)構(gòu)的數(shù)據(jù)給圖書館數(shù)據(jù)集成帶來了困難,但這又是不可回避的問題,因為圖書館作為信息服務(wù)機構(gòu),不能閉門造車,要以用戶的需求為第一位。從社交媒體或者移動設(shè)備上獲取的數(shù)據(jù),如果能夠挖掘出其中的價值,對于推進和優(yōu)化圖書館服務(wù)至關(guān)重要。
②分布式存儲。不同來源、不同格式的數(shù)據(jù)有時會分散存儲在不同的服務(wù)器上,數(shù)據(jù)的使用、更新等操作不在同一處或者所有者、權(quán)限管理者不同,當(dāng)數(shù)據(jù)的容量非常龐大時,單一的線性合并數(shù)據(jù)集的方案耗費時間和空間,已無法滿足大數(shù)據(jù)集成的需要。另一方面,由于分布式權(quán)限問題,我們必須要考慮數(shù)據(jù)的安全訪問層次問題。
③數(shù)據(jù)可用性。誠然,大數(shù)據(jù)的價值是巨大的,每個組織存儲的數(shù)據(jù)量也非??捎^,然而信息劣質(zhì)、數(shù)據(jù)錯誤、數(shù)據(jù)重復(fù)的問題也普遍存在,這是信息化社會固有的問題。一個正確的大數(shù)據(jù)集合至少應(yīng)該滿足5個性質(zhì):一致性、精確性、完整性、時效性、實體同一性[6]。具體就圖書館而言,應(yīng)用系統(tǒng)的不斷更新升級,圖書館從業(yè)人員的素質(zhì)參差不齊,對數(shù)據(jù)的重視程度不夠,導(dǎo)致數(shù)據(jù)冗余、重復(fù)、錯誤,圖書館要想從大數(shù)據(jù)中挖掘價值,對于現(xiàn)有數(shù)據(jù)的集成整治是首要課題。
完整的數(shù)據(jù)集成過程包含了對數(shù)據(jù)的訪問、解析、轉(zhuǎn)換和清洗,以及抽取和交付數(shù)據(jù)等,核心功能是對數(shù)據(jù)的抽取、轉(zhuǎn)換和加載(ETL),即從源數(shù)據(jù)存儲系統(tǒng)獲取數(shù)據(jù)之后,轉(zhuǎn)換成目標(biāo)系統(tǒng)所兼容的格式,再將其導(dǎo)入目標(biāo)系統(tǒng)中。目前常用的數(shù)據(jù)集成方法有聯(lián)邦數(shù)據(jù)庫方法、中間件集成方法、數(shù)據(jù)倉庫方法。
數(shù)據(jù)倉庫技術(shù)可以將組織多年積累的歷史數(shù)據(jù)喚醒,不僅為組織管理好這些海量數(shù)據(jù),而且挖掘數(shù)據(jù)潛在的價值。對于高校圖書館而言,數(shù)據(jù)庫包含了大量結(jié)構(gòu)化數(shù)據(jù)如文獻數(shù)據(jù)、讀者借閱數(shù)據(jù),如能充分集成分析,將有助于圖書館館藏資源的優(yōu)化和讀者服務(wù)的提升。因而現(xiàn)有的數(shù)據(jù)倉庫技術(shù)無疑應(yīng)當(dāng)成為高校圖書館大數(shù)據(jù)架構(gòu)的重要組成部分。然而,由于組織每天都有大量的數(shù)據(jù)產(chǎn)生,向數(shù)據(jù)倉庫加載新的數(shù)據(jù)源總是需要很長的時間,一方面無法做到實時響應(yīng),另一方面也對組織的存儲能力提出挑戰(zhàn)?;诖耍跀?shù)據(jù)倉庫之上增加一個中間件,在中間件層上存在一個虛擬數(shù)據(jù)服務(wù)層,將數(shù)據(jù)倉庫作為數(shù)據(jù)虛擬化服務(wù)器的數(shù)據(jù)來源之一。中間件層既能集成結(jié)構(gòu)化數(shù)據(jù),也能集成非結(jié)構(gòu)化數(shù)據(jù),將其構(gòu)建于數(shù)據(jù)倉庫之上,以實時的方式集成數(shù)據(jù)倉庫中的數(shù)據(jù)和當(dāng)前數(shù)據(jù),用戶基于全局視圖通過中間件層訪問數(shù)據(jù),充分發(fā)揮大數(shù)據(jù)分析的作用。
圖1 面向大數(shù)據(jù)的高校圖書館數(shù)據(jù)集成架構(gòu)
3.1數(shù)據(jù)倉庫集成架構(gòu)
將圖書館應(yīng)用數(shù)據(jù)庫數(shù)據(jù)、主數(shù)據(jù)及其他應(yīng)用文件經(jīng)ETL工具集成到數(shù)據(jù)倉庫中,使數(shù)據(jù)倉庫成為中間虛擬數(shù)據(jù)服務(wù)層的數(shù)據(jù)來源之一,用戶通過中間層訪問數(shù)據(jù)倉庫中的數(shù)據(jù)。數(shù)據(jù)倉庫中的信息具有穩(wěn)定性和歷史性,圖書館應(yīng)用數(shù)據(jù)庫中的文獻數(shù)據(jù)和用戶閱讀數(shù)據(jù)系統(tǒng)記錄了圖書館從使用該數(shù)據(jù)庫以來到當(dāng)前階段收錄的文獻信息情況及用戶使用情況,依據(jù)這些信息,可以對圖書館文獻信息的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。主數(shù)據(jù)如圖書館員工構(gòu)成、部門層次、信息服務(wù)產(chǎn)品,應(yīng)用文件如來自外部的供應(yīng)商合作文件、某一節(jié)點上發(fā)生的事件等都具有穩(wěn)定性,一旦進入數(shù)據(jù)倉庫,一般將被長期保存下來,供用戶查詢。
誠然,進入數(shù)據(jù)倉庫集成的基本都是結(jié)構(gòu)化數(shù)據(jù),基于結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)倉庫有確定的生命周期,數(shù)據(jù)從源系統(tǒng)抽取出來,裝入暫存區(qū)并進行清洗和優(yōu)化,再依據(jù)轉(zhuǎn)換表進行數(shù)據(jù)轉(zhuǎn)換,最后加載進數(shù)據(jù)倉庫,讀取效率高。然而,對于一部分非結(jié)構(gòu)化的應(yīng)用文件的集成則需要借助主數(shù)據(jù)和元數(shù)據(jù)。例如,一份讀者意見調(diào)查表通常反映的是讀者對于圖書館某項服務(wù)提出的意見和建議,我們首先搜索到該數(shù)據(jù),通過分析文本,明確其關(guān)聯(lián)的是與圖書館員工或者服務(wù)產(chǎn)品等主數(shù)據(jù)相關(guān)的信息,進而給該數(shù)據(jù)貼上主數(shù)據(jù)的元數(shù)據(jù)標(biāo)簽,再進行數(shù)據(jù)的轉(zhuǎn)換和加載。
3.2虛擬數(shù)據(jù)服務(wù)層架構(gòu)
除了集成數(shù)據(jù)倉庫數(shù)據(jù)之外,虛擬數(shù)據(jù)服務(wù)架構(gòu)還集成另外兩個來源的數(shù)據(jù):實時交互數(shù)據(jù)、數(shù)據(jù)庫中有變化的數(shù)據(jù)。大數(shù)據(jù)背景下,新興社交媒體不斷涌現(xiàn),圖書館服務(wù)主動化,充分利用各種渠道增進與用戶的交互性,讓用戶更多地參與到圖書館的服務(wù)和管理中來,于是產(chǎn)生了大量的Web信息和社會媒介數(shù)據(jù)、電子郵件等一道道“消息”構(gòu)成的實時互動數(shù)據(jù);數(shù)據(jù)倉庫中存儲穩(wěn)定的數(shù)據(jù),但源數(shù)據(jù)庫中的數(shù)據(jù)是定期加載、刷新的,如果將新的數(shù)據(jù)源不斷增加到數(shù)據(jù)倉庫,往往都要重復(fù)復(fù)雜的加載過程,需要耗費很長的時間。利用變化數(shù)據(jù)抓取工具(CDC,Changed Data Capture)從數(shù)據(jù)庫日志中提取變化數(shù)據(jù),并且變化的數(shù)據(jù)被保存在數(shù)據(jù)庫的變化表中,等待進一步集成處理。
虛擬數(shù)據(jù)服務(wù)層通過不同的適配器與數(shù)據(jù)層的各種數(shù)據(jù)源實現(xiàn)鏈接,將數(shù)據(jù)源中的各種數(shù)據(jù)實體映射成中間件的虛擬數(shù)據(jù)層的表,虛擬數(shù)據(jù)層中的表都只有元數(shù)據(jù),而不存儲實際的生產(chǎn)數(shù)據(jù)。用戶可以在虛擬數(shù)據(jù)層上采用可視化圖形界面定義數(shù)據(jù)映射關(guān)系,進行數(shù)據(jù)加工整合,這些數(shù)據(jù)加工邏輯一般會以文件或者數(shù)據(jù)庫方式存儲。當(dāng)用戶通過中間件訪問虛擬數(shù)據(jù)層的數(shù)據(jù)時,虛擬數(shù)據(jù)層根據(jù)系統(tǒng)定義的邏輯首先將需要加工的細節(jié)數(shù)據(jù)從各個數(shù)據(jù)源抽取到虛擬數(shù)據(jù)層,然后中間件根據(jù)設(shè)計時的數(shù)據(jù)加工邏輯對其進行加工,最后中間件將加工好的數(shù)據(jù)以調(diào)用接口要求的格式返回。
3.3元數(shù)據(jù)管理
從前文所述來看,元數(shù)據(jù)貫穿整個大數(shù)據(jù)架構(gòu)。數(shù)據(jù)倉庫架構(gòu)中的元數(shù)據(jù)管理主要集中在對數(shù)據(jù)倉庫ETL過程的管理,包括數(shù)據(jù)源元數(shù)據(jù),主要記錄源數(shù)據(jù)的含義、描述信息、物理狀態(tài)、版本信息等;操作型元數(shù)據(jù),包括數(shù)據(jù)的使用、更新記錄、數(shù)據(jù)抽取轉(zhuǎn)換規(guī)則、數(shù)據(jù)檢查和清洗規(guī)則等;技術(shù)型元數(shù)據(jù),包括數(shù)據(jù)的來源、系統(tǒng)響應(yīng)時間記錄、許可及安全數(shù)據(jù)等。與實時數(shù)據(jù)集成有關(guān)的元數(shù)據(jù)和數(shù)據(jù)倉庫集成元數(shù)據(jù)非常相似。
虛擬數(shù)據(jù)服務(wù)層在訪問每個不同的數(shù)據(jù)源時,都需要導(dǎo)入和集成相關(guān)的元數(shù)據(jù),因而完整描述數(shù)據(jù)的元數(shù)據(jù)應(yīng)當(dāng)隨著抽取數(shù)據(jù)一起傳輸。元數(shù)據(jù)對于大數(shù)據(jù)集成架構(gòu)至關(guān)重要,對元數(shù)據(jù)的管理應(yīng)該形成機制。
大數(shù)據(jù)環(huán)境下的圖書館數(shù)據(jù)集成系統(tǒng)構(gòu)建是一項復(fù)雜而困難的工程。技術(shù)層面上,除了大數(shù)據(jù)集成架構(gòu)外,對主數(shù)據(jù)和元數(shù)據(jù)的管理、數(shù)據(jù)的安全等也有待進一步研究;組織層面上,不同類型的數(shù)據(jù)分散在各個部門,由不同的人管理和負責(zé),很多圖書館人雖然知道“大數(shù)據(jù)”一詞,但對于將不同部門的數(shù)據(jù)進行整合利用尚缺乏主動意識;人才層面上,目前絕大多數(shù)圖書館員多是業(yè)務(wù)專家,在原始數(shù)據(jù)的清洗和質(zhì)量檢查環(huán)節(jié)能夠發(fā)揮很好的專業(yè)指導(dǎo)作用,但尚不具備數(shù)據(jù)整合的能力,圖書館應(yīng)加強數(shù)據(jù)挖掘和分析專業(yè)人才隊伍建設(shè)。此外,系統(tǒng)構(gòu)建應(yīng)堅持經(jīng)濟的原則,各高校圖書館可以通過合作聯(lián)盟的方式共同建設(shè)。
[1]涂子沛.大數(shù)據(jù)[M].桂林:廣西師范大學(xué)出版社,2013:57.
[2]百度百科.主數(shù)據(jù)[EB/OL].[2015-07-23].http://baike.baidu. com/view/402047.htm.
[3]April Reeve著;余水清,潘黎萍譯.大數(shù)據(jù)管理:數(shù)據(jù)集成的技術(shù)、方法與最佳實踐[M].北京:機械工業(yè)出版社,2014:8.
[4]百度百科.元數(shù)據(jù)[EB/OL].[2015-07-23].http://baike.bai?du.com/view/107838.htm.
[5]樊偉紅,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012(11):63-68,77.
[6]李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機研究與發(fā)展,2013(6):1147-1162.
卓建霞女,1983年生,館員。研究方向:圖書情報。
G250
*本文系江蘇省鹽城市圖書館學(xué)會2015年度學(xué)術(shù)研究課題“面向大數(shù)據(jù)的高校圖書館數(shù)據(jù)集成研究”(項目編號:YTX201507)成果。
(2015-09-08;責(zé)編:張欣。)