牛雪飛
(連云港師專,江蘇 連云港 222006)
高校檔案數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
牛雪飛
(連云港師專,江蘇 連云港 222006)
摘要:隨著信息化的進(jìn)一步發(fā)展,高校信息歷史數(shù)據(jù)達(dá)到相當(dāng)規(guī)模,為更方便管理數(shù)據(jù),提供決策支持,提出了數(shù)據(jù)倉(cāng)庫(kù)管理方案,介紹了開發(fā)過(guò)程中的開源工具,重點(diǎn)分析了數(shù)據(jù)倉(cāng)庫(kù)中管理平臺(tái)的設(shè)計(jì)。
關(guān)鍵詞:信息管理;數(shù)據(jù)倉(cāng)庫(kù);ETL
在信息技術(shù)高速發(fā)展的今天,許多高校都建設(shè)了規(guī)模不等的信息管理系統(tǒng),隨著數(shù)據(jù)的不斷增加,歷史數(shù)據(jù)累積越來(lái)越多,這就需要一種工具來(lái)整合各業(yè)務(wù)領(lǐng)域的應(yīng)用數(shù)據(jù),以充分發(fā)揮歷史數(shù)據(jù)的最大功能。數(shù)據(jù)倉(cāng)庫(kù)能夠處理大量的數(shù)據(jù)資源,通過(guò)它的集成管理器能夠?qū)l(fā)展過(guò)程中離散的數(shù)據(jù)有效集中[1],為解決上述問(wèn)題提供了技術(shù)上的保證。
2.1系統(tǒng)架構(gòu)
結(jié)合高校信息管理的特點(diǎn),設(shè)計(jì)了系統(tǒng)方案如下:
(1)數(shù)據(jù)庫(kù)平臺(tái):數(shù)據(jù)庫(kù)平臺(tái)選擇SQL SERVER數(shù)據(jù)庫(kù),WINDOWS為操作平臺(tái),用于存儲(chǔ)系統(tǒng)所有的數(shù)據(jù),包括業(yè)務(wù)數(shù)據(jù)與元數(shù)據(jù)。
(2)管理平臺(tái):管理平臺(tái)應(yīng)用程序部署在WINDOWS操作平臺(tái)之上,以JBOSS為應(yīng)用平臺(tái),JAVA為開發(fā)工具。
(3)開發(fā)平臺(tái):平臺(tái)采用MONDIRAN提供OLAP分析服務(wù),JPIVOT提供OLAP展示服務(wù),WEKA提供數(shù)據(jù)挖掘服務(wù)。數(shù)據(jù)展示以開源的BI工具為主,通過(guò) BIRT來(lái)實(shí)現(xiàn)豐富的報(bào)表展示。ETL以開源的ETL工具KETTLE為主,并配置適應(yīng)于SQL SERVER數(shù)據(jù)庫(kù)的SQL 腳本做為數(shù)據(jù)抽取、清洗、轉(zhuǎn)換與加載的工具。
2.2管理平臺(tái)設(shè)計(jì)
數(shù)據(jù)倉(cāng)庫(kù)管理平臺(tái)是數(shù)據(jù)倉(cāng)庫(kù)的外圍程序的集合,其中包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)采集管理、ETL調(diào)度管理、數(shù)據(jù)倉(cāng)庫(kù)監(jiān)控、數(shù)據(jù)安全管理與操作幫助七大子系統(tǒng)。
(1)元數(shù)據(jù)管理模塊。該模塊是存儲(chǔ)數(shù)據(jù)封裝、數(shù)據(jù)敏感度和相關(guān)人員隱私信息等相關(guān)元數(shù)據(jù)內(nèi)容的部分,主要功能是擴(kuò)充元數(shù)據(jù)對(duì)外服務(wù)接口內(nèi)容,向外部模塊或子系統(tǒng)提供元數(shù)據(jù)內(nèi)容和元數(shù)據(jù)分析服務(wù),為數(shù)據(jù)封裝和安全管理等數(shù)據(jù)倉(cāng)庫(kù)管理模塊提供支撐。
元數(shù)據(jù)獲取層位于整個(gè)體系架構(gòu)的最底層,元數(shù)據(jù)獲取層抽象概括了元數(shù)據(jù)獲取的各種途徑。存儲(chǔ)層定義了元數(shù)據(jù)存儲(chǔ)所遵循的元模型,規(guī)范從獲取層得到的各類元數(shù)據(jù)的屬性要求和存儲(chǔ)格式要求,包括業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。功能層為前端元數(shù)據(jù)應(yīng)用提供了基本的功能支撐,主要包括元數(shù)據(jù)基本功能、元數(shù)據(jù)分析功能、元數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)服務(wù)接口和元數(shù)據(jù)權(quán)限管理五個(gè)部分。在元數(shù)據(jù)管理模塊功能層的支持下,元數(shù)據(jù)應(yīng)用層通過(guò)調(diào)用功能層的功能,對(duì)元數(shù)據(jù)管理的實(shí)際問(wèn)題提供應(yīng)用解決方案。
(2)數(shù)據(jù)質(zhì)量管理模塊。是數(shù)據(jù)倉(cāng)庫(kù)管理平臺(tái)的技術(shù)支撐平臺(tái),主要對(duì)數(shù)據(jù)源接口、數(shù)據(jù)實(shí)體、處理過(guò)程、數(shù)據(jù)應(yīng)用和業(yè)務(wù)指標(biāo)等相關(guān)內(nèi)容的管控機(jī)制和處理流程,也包括對(duì)數(shù)據(jù)質(zhì)量管控和處理的信息總結(jié)和知識(shí)應(yīng)用等輔助內(nèi)容。數(shù)據(jù)質(zhì)量管理子系統(tǒng)功能按層次劃分為獲取層、存儲(chǔ)層、功能層和應(yīng)用層。
獲取層主要實(shí)現(xiàn)的是數(shù)據(jù)質(zhì)量數(shù)據(jù)的采集功能,是數(shù)據(jù)質(zhì)量功能和應(yīng)用的基礎(chǔ)。采集的數(shù)據(jù)范圍有:源系統(tǒng)關(guān)鍵數(shù)據(jù)、源系統(tǒng)接口信息、數(shù)據(jù)處理過(guò)程信息和業(yè)務(wù)指標(biāo)數(shù)據(jù)等。存儲(chǔ)層中存儲(chǔ)的數(shù)據(jù)質(zhì)量信息主要包括三個(gè)部分:數(shù)據(jù)質(zhì)量規(guī)則庫(kù)、數(shù)據(jù)質(zhì)量信息庫(kù)和數(shù)據(jù)質(zhì)量知識(shí)庫(kù)。功能層包含了數(shù)據(jù)質(zhì)量管理模塊的基礎(chǔ)功能,它為數(shù)據(jù)質(zhì)量管理的前端應(yīng)用提供了基本的功能支撐。應(yīng)用層為數(shù)據(jù)質(zhì)量管理各環(huán)節(jié)管控和處理提供具體應(yīng)用解決方案,主要包括源系統(tǒng)變更協(xié)同管理、源系統(tǒng)數(shù)據(jù)質(zhì)量稽核、數(shù)據(jù)質(zhì)量監(jiān)控知識(shí)應(yīng)用和問(wèn)題處理知識(shí)應(yīng)用等。
(3)數(shù)據(jù)采集管理。數(shù)據(jù)采集管理為數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)來(lái)源的總?cè)肟?,包括元?shù)據(jù)采集與業(yè)務(wù)數(shù)據(jù)采集,其中元數(shù)據(jù)采集又包括手工數(shù)據(jù)采集與工具或SQL腳本的數(shù)據(jù)自動(dòng)采集,業(yè)務(wù)數(shù)據(jù)采集包括業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集與手工報(bào)表的錄入與導(dǎo)入。數(shù)據(jù)采集模塊為數(shù)據(jù)管理平臺(tái)與數(shù)據(jù)開發(fā)平臺(tái)提供數(shù)據(jù)支持。數(shù)據(jù)采集模塊分為存儲(chǔ)層、功能層和應(yīng)用層。
數(shù)據(jù)采集的存儲(chǔ)層主要包括元數(shù)據(jù)存儲(chǔ)、業(yè)務(wù)數(shù)據(jù)存儲(chǔ),其中業(yè)務(wù)數(shù)據(jù)存儲(chǔ)就是開發(fā)平臺(tái)中數(shù)據(jù)接口。按操作方式分可以分為手工數(shù)據(jù)獲取與系統(tǒng)數(shù)據(jù)獲取。從系統(tǒng)工具中獲取元數(shù)據(jù),包括ETL工具與BI工具,主要是獲取ETL工具中的數(shù)據(jù)抽取業(yè)務(wù)邏輯與BI工具中的權(quán)限與應(yīng)用元數(shù)據(jù)。應(yīng)用層主要包括的數(shù)據(jù)采集的設(shè)置管理功能、數(shù)據(jù)填報(bào)功能、數(shù)據(jù)導(dǎo)入功能、數(shù)據(jù)基本規(guī)范檢查功能與數(shù)據(jù)采集功能提醒功能。
(4)ETL調(diào)度管理模塊。該模塊為數(shù)據(jù)的ETL流程提供管理基礎(chǔ),同時(shí)為數(shù)據(jù)倉(cāng)庫(kù)的監(jiān)控提供服務(wù)接口。主要進(jìn)行調(diào)度設(shè)置,設(shè)置各腳本執(zhí)行的先后順序、執(zhí)行時(shí)間、執(zhí)行周期,以及各腳本之間的依賴關(guān)系。記錄腳本執(zhí)行情況(開始、結(jié)束),腳本的出錯(cuò)記錄等。該模塊分為獲取層、存儲(chǔ)層、功能層和應(yīng)用層。
(5)數(shù)據(jù)倉(cāng)庫(kù)監(jiān)控模塊。該模塊為數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行狀態(tài)監(jiān)控程序,對(duì)當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量、數(shù)據(jù)增量、磁盤容量、磁盤占用量、CPU與內(nèi)存的使用率、ETL過(guò)程的執(zhí)行時(shí)間與執(zhí)行效率等做實(shí)時(shí)監(jiān)控,也包括對(duì)監(jiān)控的信息處理與總結(jié),以及監(jiān)控信息的知識(shí)形成及應(yīng)用等功能。
(6)數(shù)據(jù)安全管理模塊。該模塊為數(shù)據(jù)倉(cāng)庫(kù)的權(quán)限控制中心,其包括數(shù)據(jù)安全與用戶安全兩類,數(shù)據(jù)安全即對(duì)存儲(chǔ)在數(shù)據(jù)集市中的數(shù)據(jù)定義行級(jí)與列級(jí)權(quán)限,用戶安全即用戶對(duì)數(shù)據(jù)集市與用戶的訪問(wèn)權(quán)限,數(shù)據(jù)安全管理是將數(shù)據(jù)權(quán)限與用戶權(quán)限結(jié)合集中管理的模塊,使數(shù)據(jù)倉(cāng)庫(kù)的安全管理與BI平臺(tái)無(wú)關(guān)。
(7)操作幫助管理模塊。該模塊為數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的知識(shí)管理模塊,其包括應(yīng)用操作幫助、業(yè)務(wù)知識(shí)學(xué)習(xí)、數(shù)據(jù)來(lái)源追蹤等,操作幫助管理模塊需求元數(shù)據(jù)的接口支持。
2.3集成訪問(wèn)門戶設(shè)計(jì)
主要包括WEB、認(rèn)證、安全、門戶四方面的服務(wù),提供HTTP Web服務(wù)、門戶的用戶登錄、用戶認(rèn)證、門戶Web應(yīng)用、并提交用戶層請(qǐng)求到中間展示層,對(duì)用戶實(shí)施安全策略,為用戶管理報(bào)表、查詢文檔,提供個(gè)性化定制等。
隨著高校信息系統(tǒng)信息資源的不斷豐富,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在信息管理中的作用會(huì)越來(lái)越大,它將使高校管理信息系統(tǒng)的信息服務(wù)能力、決策支持能力得到進(jìn)一步增強(qiáng)[3],為高校的信息化管理做出更大的貢獻(xiàn)。
參考文獻(xiàn):
[1]錢毅.數(shù)據(jù)倉(cāng)庫(kù)在檔案信息管理中的應(yīng)用[J].北京檔案,2006(04).
[2]李潔,楊金會(huì).滕振芳數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘技術(shù)在超市中的應(yīng)用[J].煤炭技術(shù),2012(02).
[3]顧瑞,盧加元.數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在檔案資源整合中的應(yīng)用[J].蘭臺(tái)世界,2012(02).