胡欽文
摘要:如何對(duì)海量事物數(shù)據(jù)進(jìn)行科學(xué)的分析處理、提取有用信息為決策者提供合理的管理理念及決策支持已經(jīng)成為圖書管理所面臨的新問題。鑒于此,文章通過數(shù)據(jù)倉庫技術(shù),如ETL、OLAP技術(shù),對(duì)圖書管現(xiàn)有交易數(shù)據(jù)進(jìn)行動(dòng)態(tài)建模。從數(shù)據(jù)的抽取、轉(zhuǎn)換、加載及多維數(shù)據(jù)集的設(shè)計(jì),到最后的OLAP分析,該模型形成了一個(gè)完整的體系,為決策者提供了輔助的決策支持。
關(guān)鍵詞:數(shù)據(jù)倉庫;聯(lián)機(jī)分析處理;ETL;OLAP技術(shù);圖書借閱分析系統(tǒng)
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-2374(2009)21-0063-02
圖書管理系統(tǒng)每天都會(huì)產(chǎn)生大量的統(tǒng)計(jì)數(shù)據(jù),這些海量信息中蘊(yùn)涵了對(duì)圖書管理(如采購、館藏、咨詢等)有指導(dǎo)性的潛在信息。但傳統(tǒng)的圖書管理系統(tǒng)只有簡單的借閱查詢功能,難以從多維的角度對(duì)數(shù)據(jù)進(jìn)行提取,進(jìn)而為圖書管理提供決策支持。
數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘技術(shù)是建立決策支持系統(tǒng)的有效手段。數(shù)據(jù)倉庫集成了當(dāng)前的業(yè)務(wù)數(shù)據(jù)、歷史數(shù)據(jù)和外部數(shù)據(jù),基于不同的主題,使用OLAP技術(shù)可以為圖書管理情況提供有價(jià)值的信息,采用數(shù)據(jù)挖掘算法還可以對(duì)圖書各業(yè)務(wù)趨勢(shì)做出預(yù)測(cè)。因此,本文以數(shù)據(jù)倉庫、OLAP為核心技術(shù),并以時(shí)間為基準(zhǔn),通過ETL技術(shù)對(duì)數(shù)據(jù)進(jìn)行增量式遷移,實(shí)現(xiàn)了對(duì)現(xiàn)有數(shù)據(jù)庫的動(dòng)態(tài)建模,以達(dá)到輔助支持圖書管理的目的。
一、ETL技術(shù)
ETL(Extract,Transform,Load)即數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、裝載的過程,是構(gòu)建數(shù)據(jù)倉庫最重要的步驟之一。用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)處理,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。ETL總共分為數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗、數(shù)據(jù)加載四個(gè)步驟。
二、數(shù)據(jù)倉庫和OLAP概述
(一)數(shù)據(jù)倉庫
數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的、集成的、不可更新的(穩(wěn)定的)并隨時(shí)間不斷變化的,建立數(shù)據(jù)倉庫的目的是為了更好地支持行業(yè)高層主管們的決策分析。數(shù)據(jù)倉庫被看作是一種支持結(jié)構(gòu)化和專門的查詢、分析報(bào)告和決策制定的體系結(jié)構(gòu)。由于數(shù)據(jù)庫和數(shù)據(jù)倉庫應(yīng)用的出發(fā)點(diǎn)不同,數(shù)據(jù)倉庫將獨(dú)立于業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)。但是數(shù)據(jù)倉庫又同業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)息息相關(guān)。事實(shí)上,數(shù)據(jù)倉庫系統(tǒng)=ETL十?dāng)?shù)據(jù)存儲(chǔ)+0LAP+客戶端。
(二)OLAP多維模型
OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的,并真實(shí)反映企業(yè)多維特性的信息進(jìn)行快速、一致、交互的存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。其基本思想是企業(yè)決策者能夠靈活地操作企業(yè)的數(shù)據(jù),以多維的形式從多方面和多角度來觀察企業(yè)的狀態(tài)并了解企業(yè)的變化。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求。OLAP提供了對(duì)數(shù)據(jù)的多維分析方法,包括切片、切塊、旋轉(zhuǎn)、上鉆、下鉆等分析動(dòng)作。
三、系統(tǒng)設(shè)計(jì)
通過綜合考慮事務(wù)處理系統(tǒng)的數(shù)據(jù)環(huán)境和本系統(tǒng)的需求,設(shè)計(jì)基于數(shù)據(jù)倉庫技術(shù)的圖書借閱分析系統(tǒng)體系結(jié)構(gòu)。該系統(tǒng)的體系結(jié)構(gòu)圖及數(shù)據(jù)流程如圖1所示:
(一)數(shù)據(jù)倉庫模型設(shè)計(jì)
數(shù)據(jù)倉庫和OLAP 工具是基于多維數(shù)據(jù)模型的,該模型將數(shù)據(jù)看成數(shù)據(jù)立方體(Data Cube)的形式。圖書借閱分析系統(tǒng)原始數(shù)據(jù)庫主要信息有借還交易記錄、客戶信息、部門、地點(diǎn)、時(shí)間。因此,本文基于以上信息對(duì)數(shù)據(jù)倉庫進(jìn)行了建模型,所用多維數(shù)據(jù)集采用雪花型模式。考慮圖書統(tǒng)計(jì)數(shù)據(jù)很大,為了提高分析效率,本文采取了兩個(gè)策略:
1.將交易記錄分為了兩個(gè)事實(shí)表:借記錄表和還記錄表,并將兩個(gè)表合并生成新的視圖。這樣分析可以根據(jù)需求而選擇不同表。
2.采用“基于Apriori算法和OLAP的關(guān)聯(lián)規(guī)則挖掘模型設(shè)計(jì)”所提方法對(duì)數(shù)據(jù)倉庫數(shù)據(jù)進(jìn)行處理以提高效率,并為以后的數(shù)據(jù)挖掘處理做好準(zhǔn)備。在SQL Server 2005數(shù)據(jù)轉(zhuǎn)化服務(wù)(DTS)中通過VB script語句完成此項(xiàng)轉(zhuǎn)化,語句如下:
Function Main()
DTS Destination(“次數(shù)”)=1
Main=DTS TransformStat_OK
End Function
所設(shè)計(jì)數(shù)據(jù)倉庫如圖2所示:
(二)ETL實(shí)現(xiàn)策略
ETL策略是關(guān)于工作的總計(jì)劃,處理諸如如何提取數(shù)據(jù)以及如何處理數(shù)據(jù)中的錯(cuò)誤之類的問題。主要考慮的問題包括不同的數(shù)據(jù)格式、壞數(shù)據(jù)、不兼容的源系統(tǒng)、源系統(tǒng)的改變和提取與加載的窗口等,ETL策略需要定義這類問題的標(biāo)準(zhǔn)來為ETL過程提供依據(jù)。
考慮數(shù)據(jù)倉庫設(shè)計(jì)需求,本系統(tǒng)ETL主要策略有兩條(對(duì)于數(shù)據(jù)清洗、存儲(chǔ)本文不作過多闡述):
1.根據(jù)交易記錄的統(tǒng)計(jì)字段,在數(shù)據(jù)遷移過程中,將數(shù)據(jù)分為借圖書事物數(shù)據(jù)和還圖書事物數(shù)據(jù),并分別存儲(chǔ)。
2.以時(shí)間為基準(zhǔn),實(shí)現(xiàn)系統(tǒng)定時(shí)、增量式遷移數(shù)據(jù)。這將大大提高系統(tǒng)數(shù)據(jù)處理效率。本系統(tǒng)中選用Microsoft的DTS作為ETL工具,流程圖如圖3所示:
四、系統(tǒng)實(shí)施
(一)系統(tǒng)實(shí)現(xiàn)
Microsoft提供了一系列提取、分析、總結(jié)數(shù)據(jù)的工具,從而使聯(lián)機(jī)分析成為可能,并將OLAP(聯(lián)機(jī)分析處理)功能集成到Microsoft SQL Server中,提供可擴(kuò)展的基于COM的OLAP接口。本系統(tǒng)采用Microsoft SQL Server 2005建立數(shù)據(jù)倉庫、定義數(shù)據(jù)遷移的定時(shí)處理、OLAP模塊的定時(shí)更新,利用Microsoft Visual Studio 2005開發(fā)數(shù)據(jù)遷移模塊及OLAP聯(lián)機(jī)分析處理模塊。
(二)分析結(jié)果展示
本系統(tǒng)在某高校圖書管運(yùn)行,效果理想。圖4為圖書館2007、2008年(學(xué)生類型—學(xué)院)借閱情況分析圖。該圖蘊(yùn)涵信息有:
1.“計(jì)算機(jī)”和“經(jīng)貿(mào)”學(xué)院的學(xué)生借書次數(shù)明顯多于其他系,說明可以考慮分不同區(qū)域存放和這兩個(gè)學(xué)院有關(guān)的圖書,以增加安全性,避免借閱人員擁擠。
2.研究生借閱圖書次數(shù)低于本科生,但考慮研究生總?cè)藬?shù),說明研究生學(xué)習(xí)更為積極。
3.全校所有??粕栝喆螖?shù)幾乎沒有,而??粕?cè)藬?shù)巨大,說明該校??粕鷮W(xué)習(xí)情況極為不好。學(xué)校應(yīng)加強(qiáng)補(bǔ)救措施。
五、結(jié)語
本文給出了一種基于數(shù)據(jù)倉庫、OLAP、ETL技術(shù)的實(shí)現(xiàn)圖書借閱數(shù)據(jù)再次管理的解決方案。本系統(tǒng)運(yùn)用數(shù)據(jù)倉庫、OLAP技術(shù),在原由圖書管數(shù)據(jù)庫的基礎(chǔ)上進(jìn)行了二次開發(fā),且利用ETL技術(shù)使整個(gè)系統(tǒng)實(shí)現(xiàn)了智能增量更新,有效的達(dá)到了對(duì)圖書借閱情況分析、學(xué)生學(xué)習(xí)情況分析及對(duì)圖書管理工作支持的目的。當(dāng)然,該方案缺乏和數(shù)據(jù)挖掘技術(shù)的結(jié)合,而在分析系統(tǒng)中,正是需要更為科學(xué)和強(qiáng)大的決策支持技術(shù),如數(shù)據(jù)挖掘、專家系統(tǒng)等來滿足特定的需求,數(shù)據(jù)倉庫才能充分發(fā)揮其作用,這也是下階段研究的重點(diǎn)。
參考文獻(xiàn)
[1]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques,Second Edition [M].China Machine Press,2007.
[2]陳京民.數(shù)據(jù)倉庫原理、設(shè)計(jì)與應(yīng)用[M].北京:中國水利水電出版社,2004.
[3]謝琪,張振興.基于Apriori算法和OLAP的關(guān)聯(lián)規(guī)則挖掘模型設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用,2007,27(6).