吳振濤
(青島遠(yuǎn)洋船員職業(yè)學(xué)院圖文信息中心,山東 青島 266071)
基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成在數(shù)字化校園中的應(yīng)用
吳振濤
(青島遠(yuǎn)洋船員職業(yè)學(xué)院圖文信息中心,山東 青島266071)
為解決數(shù)字化校園建設(shè)過程中形成的“信息孤島”,提出了基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成方案。該方案基于數(shù)據(jù)倉庫技術(shù),分析數(shù)字化校園中各個業(yè)務(wù)系統(tǒng)的使用現(xiàn)狀和面臨的問題,結(jié)合學(xué)校實際從上到下進(jìn)行總體規(guī)劃,構(gòu)建基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成框架,解決了數(shù)據(jù)集成過程中的實際問題,實現(xiàn)了應(yīng)用系統(tǒng)資源的共享,發(fā)揮了數(shù)字化校園的整體協(xié)同功能。
數(shù)字化校園;數(shù)據(jù)集成;數(shù)據(jù)倉庫;ETL
數(shù)字化校園是以網(wǎng)絡(luò)為基礎(chǔ),利用先進(jìn)的信息化手段和工具,實現(xiàn)從環(huán)境(教室、設(shè)備等)、資源(課件、講義、圖書等)到活動(包括教學(xué)、管理、服務(wù)、辦公等)的全部數(shù)字化,構(gòu)建一個集教學(xué)、科研、管理、服務(wù)為一體的數(shù)字環(huán)境,使傳統(tǒng)校園在時間和空間上得到延伸,提升傳統(tǒng)校園的工作效率,實現(xiàn)教育過程的全面信息化,從而達(dá)到提高教學(xué)質(zhì)量、科研和管理水平的目的[1]。在數(shù)字化校園的建設(shè)過程中,由于各個信息系統(tǒng)建設(shè)時期不同,采用的標(biāo)準(zhǔn)規(guī)范、技術(shù)路線、編程語言等不同,形成了一個個的“信息孤島”[2]。這些“信息孤島”造成了資源分散,存儲冗余,管理成本高,決策支持弱[3],各職能部門無法進(jìn)行協(xié)同工作。
數(shù)據(jù)集成,被普遍認(rèn)為是解決目前“信息孤島”問題的重要方法[4]。常用的數(shù)據(jù)集成方式有基于聯(lián)邦數(shù)據(jù)庫、基于數(shù)據(jù)倉庫和基于中間件[5],其中基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成方式在實際應(yīng)用中被證明是一種快速的、有效的方式。如何有效地利用數(shù)據(jù)倉庫技術(shù)進(jìn)行數(shù)據(jù)集成,實現(xiàn)數(shù)字化校園內(nèi)各種資源的共享,充分發(fā)揮數(shù)字化校園的整體效能,成為擺在廣大學(xué)校面前的一個重要問題。
數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策[6]?;跀?shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成,主要是將分散的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)復(fù)制并提取出來[7],消除數(shù)據(jù)的異構(gòu)性、分布性和自治性,實現(xiàn)各個系統(tǒng)間的數(shù)據(jù)共享,并提供集中的、統(tǒng)一的檢索服務(wù)。
利用數(shù)據(jù)倉庫技術(shù)進(jìn)行數(shù)據(jù)集成主要實現(xiàn)[8]:
1)控制數(shù)據(jù)的完整性。
2)保證數(shù)據(jù)的絕對真實。
3)采用標(biāo)準(zhǔn)的、統(tǒng)一的、唯一的、自描述的數(shù)據(jù)格式。
4)采用統(tǒng)一的物理組織/存儲,多樣的邏輯組織形式。
5)實現(xiàn)異構(gòu)數(shù)據(jù)的互操作。
6)實現(xiàn)對數(shù)據(jù)隨時隨地的獲取。
7)實現(xiàn)數(shù)據(jù)的長期存儲、定期更新。
8)實現(xiàn)數(shù)據(jù)的可視化。
9)提供數(shù)據(jù)工具等。
數(shù)字化校園是傳統(tǒng)校園的功能在時間和空間上的延伸,涉及學(xué)校眾多的業(yè)務(wù)內(nèi)容。利用數(shù)據(jù)倉庫技術(shù)實現(xiàn)數(shù)字化校園的數(shù)據(jù)集成,必須圍繞學(xué)校的業(yè)務(wù)實際來開展。本階段主要通過對學(xué)校業(yè)務(wù)內(nèi)容的深入分析,了解數(shù)字化校園中各個業(yè)務(wù)系統(tǒng)的現(xiàn)狀,進(jìn)一步明晰數(shù)字化校園的業(yè)務(wù)范圍,關(guān)注異構(gòu)系統(tǒng)之間的交互,確定數(shù)據(jù)集成的集成邊界,闡述數(shù)據(jù)集成的主要需求。
2.1數(shù)字化校園建設(shè)現(xiàn)狀
以Q高校為例,該高校經(jīng)過多年的數(shù)字化校園建設(shè),已經(jīng)逐步形成了涵蓋面比較廣、功能比較全面的信息系統(tǒng),較好地滿足了學(xué)校內(nèi)教學(xué)、科研、管理、辦公、服務(wù)等的實際需要。已經(jīng)上線的信息系統(tǒng)如表1所示。
表1 Q高校信息系統(tǒng)一覽表
通過上表可以看出,雖然該校建設(shè)了眾多的信息系統(tǒng),功能涵蓋了大多數(shù)業(yè)務(wù)范圍,但由于采用的技術(shù)標(biāo)準(zhǔn)不同,不利于數(shù)據(jù)的共享,也不利于相關(guān)業(yè)務(wù)的整合,影響了數(shù)字化校園中各信息系統(tǒng)協(xié)同工作的能力。
2.2數(shù)據(jù)集成需求
學(xué)校完成某項工作往往需要多個部門的協(xié)調(diào)配合,這就需要多個基于業(yè)務(wù)的信息系統(tǒng)能夠?qū)崿F(xiàn)數(shù)據(jù)共享。但在實際應(yīng)用中,往往存在數(shù)據(jù)多源頭管理、交叉使用的情況,這很容易造成數(shù)據(jù)的不準(zhǔn)確、不一致。為了解決這個問題,提高各個部門協(xié)調(diào)工作的能力,需要進(jìn)行整體規(guī)劃,規(guī)范業(yè)務(wù)流程,進(jìn)行數(shù)據(jù)整合,實現(xiàn)資源共享,保證數(shù)據(jù)的一致性、準(zhǔn)確性和實時性。學(xué)校需要進(jìn)行集成的數(shù)據(jù)主要有:
1)學(xué)生信息
學(xué)生信息除記錄了學(xué)生的姓名、身份證號等自然屬性外,還記錄了學(xué)生的學(xué)籍、學(xué)習(xí)、獎懲等情況。這些信息不是來源于一個部門,而是由多個部門在學(xué)生的日常管理中聯(lián)合、動態(tài)形成的。這些信息既需要共享,又存在相互制約的關(guān)系。比如:學(xué)工處要對學(xué)生進(jìn)行獎學(xué)金的評定,必須依賴于教務(wù)處提供的學(xué)生成績,若教務(wù)處對學(xué)生成績提供不及時或不準(zhǔn)確,將直接影響學(xué)生獎學(xué)金的評定。涉及學(xué)生信息的系統(tǒng)主要有:教務(wù)系統(tǒng)、實訓(xùn)系統(tǒng)、學(xué)工系統(tǒng)、收費(fèi)系統(tǒng)、電子圖書館等。
2)學(xué)員信息
學(xué)校除了承擔(dān)學(xué)歷班學(xué)生的教育之外,還承擔(dān)著社會在職人員的培訓(xùn)。學(xué)員信息與學(xué)生信息的內(nèi)容基本相同,但還包括學(xué)員在線(或離線)學(xué)習(xí)的信息等。涉及學(xué)員信息的系統(tǒng)主要有:遠(yuǎn)程培訓(xùn)系統(tǒng)、收費(fèi)系統(tǒng)等。
3)教師信息
教師在學(xué)校的教學(xué)、科研、培訓(xùn)、管理中占據(jù)主導(dǎo)地位。教師信息除記錄教師的自然屬性外,還記錄了教師的崗位、教學(xué)、科研、培訓(xùn)等情況。教師基本信息以人事處提供的數(shù)據(jù)為主,教務(wù)處提供教師的授課情況,培訓(xùn)處提供教師開展培訓(xùn)的情況,研發(fā)處提供教師的科研、學(xué)術(shù)情況等。這些信息提供者眾多,無法進(jìn)行簡單地合并,且存在交叉使用的情況。涉及教師信息的系統(tǒng)主要有:人事系統(tǒng)、教務(wù)系統(tǒng)、培訓(xùn)系統(tǒng)、科研系統(tǒng)、學(xué)報系統(tǒng)、辦公系統(tǒng)、郵件系統(tǒng)、電子圖書館等。
4)收費(fèi)信息
學(xué)生(或?qū)W員)按照學(xué)校制定的收費(fèi)標(biāo)準(zhǔn)繳納學(xué)費(fèi)、住宿費(fèi)、教材費(fèi)等相關(guān)費(fèi)用。根據(jù)學(xué)生(或?qū)W員)的繳費(fèi)情況,后勤處進(jìn)行宿舍的分配,教務(wù)處進(jìn)行教材的發(fā)放等。但由于學(xué)生繳費(fèi)時間上的差異容易導(dǎo)致后續(xù)部門無法及時為學(xué)生提供相應(yīng)的服務(wù),特別是當(dāng)出現(xiàn)學(xué)生退學(xué)情況,更是需要多個部門來進(jìn)行管理。信息的延遲、不準(zhǔn)確嚴(yán)重影響著相關(guān)工作的開展。涉及收費(fèi)信息的系統(tǒng)主要有:收費(fèi)系統(tǒng)、教務(wù)系統(tǒng)、培訓(xùn)系統(tǒng)、學(xué)工系統(tǒng)、電子圖書館等。
5)設(shè)備信息
資產(chǎn)部門進(jìn)行儀器、設(shè)備等的新增、保管、調(diào)撥、報廢等,但是要管理好資產(chǎn),還需要其他部門進(jìn)行配合。比如:要進(jìn)行設(shè)備的調(diào)撥,資產(chǎn)部門必須通過人事部門了解教職工的部門信息等;當(dāng)科研項目購置新的設(shè)備時,科研部門必須向資產(chǎn)部門進(jìn)行報備;在教學(xué)過程中使用大型儀器設(shè)備時,教學(xué)部門必須向資產(chǎn)部門進(jìn)行登記等。涉及設(shè)備信息的系統(tǒng)主要有:資產(chǎn)系統(tǒng)、科研系統(tǒng)、人事系統(tǒng)、教務(wù)系統(tǒng)等。
學(xué)校在多年的數(shù)字化校園建設(shè)過程中,已經(jīng)建成了多個支撐不同業(yè)務(wù)的信息系統(tǒng)。運(yùn)用數(shù)據(jù)倉庫技術(shù)進(jìn)行數(shù)據(jù)集成,就是要根據(jù)數(shù)字化校園的數(shù)據(jù)集成實際需求,在不改變現(xiàn)有業(yè)務(wù)系統(tǒng)功能和操作方式的前提下[9],將各個信息系統(tǒng)在數(shù)據(jù)層聯(lián)系起來,將數(shù)據(jù)從業(yè)務(wù)系統(tǒng)中抽取出來,根據(jù)數(shù)據(jù)倉庫的特性面向主題重新進(jìn)行組合,構(gòu)建基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成框架,實現(xiàn)業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)共享,并提供匯總統(tǒng)計和快速查詢。本文基于數(shù)據(jù)倉庫技術(shù),設(shè)計的數(shù)字化校園數(shù)據(jù)集成框架如圖1所示。
圖1 基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成框架
數(shù)據(jù)源層包含了當(dāng)前數(shù)字化校園需要集成的各類異構(gòu)系統(tǒng)中的數(shù)據(jù);數(shù)據(jù)緩沖區(qū)用來快速從數(shù)據(jù)源中獲取數(shù)據(jù),并進(jìn)行暫時保存[10];ETL解決數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換和加載,并根據(jù)數(shù)據(jù)被需要的緊急程度提供基于集成規(guī)則的調(diào)度[11];共享數(shù)據(jù)中心以面向主題的方式對數(shù)據(jù)進(jìn)行重新整合,向各個業(yè)務(wù)系統(tǒng)提供數(shù)據(jù),并提供統(tǒng)一的查詢服務(wù)。在運(yùn)用數(shù)據(jù)倉庫技術(shù)進(jìn)行數(shù)據(jù)集成的實際應(yīng)用中,需要重點(diǎn)關(guān)注以下幾個問題。
3.1建立統(tǒng)一的信息標(biāo)準(zhǔn)
統(tǒng)一的信息標(biāo)準(zhǔn),是利用數(shù)據(jù)倉庫技術(shù)進(jìn)行數(shù)據(jù)集成的前提。學(xué)校應(yīng)該根據(jù)自身實際,兼顧國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和市級標(biāo)準(zhǔn)等,嚴(yán)格遵循“一種信息只能有一個信息編碼,不同的信息有不同的信息編碼”的原則[12],統(tǒng)一代碼的類型、結(jié)構(gòu)和編寫格式等,提高信息處理的效率,實現(xiàn)信息資源的共享。比如:教師的職工號作為識別教師的唯一標(biāo)示,其編碼規(guī)則必須唯一,唯有如此,教師信息在多個信息系統(tǒng)中的共享才會成為可能。
3.2規(guī)范對數(shù)據(jù)流的管理
數(shù)據(jù)流的規(guī)范管理,是利用數(shù)據(jù)倉庫技術(shù)進(jìn)行數(shù)據(jù)集成的關(guān)鍵。數(shù)據(jù)流依賴于業(yè)務(wù)流程,應(yīng)基于對業(yè)務(wù)流程的深入分析,明確源數(shù)據(jù),確定源數(shù)據(jù)發(fā)生變化后目標(biāo)數(shù)據(jù)如何變化[13],并確定數(shù)據(jù)獲取、提供的先后順序。限于篇幅,文中以教師信息的數(shù)據(jù)集成進(jìn)行舉例說明。
從圖2可以看出,教師信息在多個業(yè)務(wù)系統(tǒng)中使用和維護(hù),如果不規(guī)范數(shù)據(jù)流,很容易出現(xiàn)同一個信息多個數(shù)據(jù)源,造成數(shù)據(jù)的不一致。人事處對教師信息的審核和維護(hù)是該流程中的關(guān)鍵節(jié)點(diǎn)。為了保證數(shù)據(jù)的一致性,人事處首先要為教師編制唯一的職工號,作為教師的唯一標(biāo)識符;為了保證數(shù)據(jù)的實時性,人事處要及時為教師分配或者變更部門和崗位,唯有這樣,其他業(yè)務(wù)系統(tǒng)才能使用教師的人事信息。其他部門在不同業(yè)務(wù)系統(tǒng)中及時、準(zhǔn)確地維護(hù)相應(yīng)的教師信息也是非常必要的,因為只有這樣,人事處才能基于其他業(yè)務(wù)系統(tǒng)提供的信息,進(jìn)行下一步的工作。
3.3設(shè)計和實施ETL
設(shè)計和實施ETL,是利用數(shù)據(jù)倉庫技術(shù)進(jìn)行數(shù)據(jù)集成的核心。ETL是從一個或多個數(shù)據(jù)源抽取數(shù)據(jù),經(jīng)過一個或多個轉(zhuǎn)換步驟后,物理的存儲到目標(biāo)環(huán)境中[14]。它按照統(tǒng)一的規(guī)則集成數(shù)據(jù),通過轉(zhuǎn)換來提高數(shù)據(jù)的價值,負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)轉(zhuǎn)化的過程。ETL的設(shè)計和實施是工作量最大的,其工作量約占整個項目的60%~80%[5]。另外,在ETL的實施過程中,除了要按照數(shù)據(jù)流定制轉(zhuǎn)換外,還要根據(jù)實際業(yè)務(wù)的需要,處理好定時同步和實時同步之間的關(guān)系,合理分配數(shù)據(jù)倉庫的資源。
3.4數(shù)據(jù)庫的訪問控制
利用數(shù)據(jù)倉庫技術(shù)進(jìn)行數(shù)據(jù)集成,不管是從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫到數(shù)據(jù)倉庫,還是從數(shù)據(jù)倉庫到業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫,都需要對數(shù)據(jù)庫進(jìn)行訪問,這不可避免的帶來極大的安全風(fēng)險。通過基于角色的訪問授權(quán),來實現(xiàn)對數(shù)據(jù)庫的訪問控制。這種方式既可以限制數(shù)據(jù)庫的使用者對數(shù)據(jù)的訪問,又可以防止非法活動者的侵入和合法活動者不慎操作產(chǎn)生的破壞[15]。
數(shù)據(jù)集成[16]不只是一個技術(shù)問題,也是一個管理問題,一個數(shù)字化校園內(nèi)各個組織、各個部門協(xié)調(diào)合作的問題。筆者從學(xué)校的管理實際出發(fā),利用數(shù)據(jù)倉庫技術(shù),將數(shù)據(jù)從業(yè)務(wù)系統(tǒng)中抽離出來,根據(jù)主題重新進(jìn)行組合,實現(xiàn)業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)共享,充分發(fā)揮數(shù)字化校園的整體協(xié)同功能。同時,筆者在文中主要以Q高校進(jìn)行舉例說明,提出的是一種相對通用的數(shù)據(jù)集成方案,由于各高校的業(yè)務(wù)流程存在差異,原有系統(tǒng)的底層架構(gòu)和部署環(huán)境不同,具體的集成方案還需要根據(jù)各高校實際情況進(jìn)行針對性的優(yōu)化。
圖2 教師信息數(shù)據(jù)流
[1]沈培華,王映雪.清華大學(xué)數(shù)字校園建設(shè)與思考[J].管理信息系統(tǒng),2002(2):18-19.
[2]王欣.?dāng)?shù)據(jù)集成技術(shù)若干問題的研究[D].上海:上海交通大學(xué),2010.
[3]石紹應(yīng),馮勤群.異構(gòu)數(shù)據(jù)集成在數(shù)字校園中的應(yīng)用[J].空軍雷達(dá)學(xué)院學(xué)報,2010(1):54-57.
[4]于戈,鮑玉斌.?dāng)?shù)據(jù)倉庫工程方法論[M].沈陽:東北大學(xué)出版社,2003.
[5]周偉.面向數(shù)字校園的異構(gòu)數(shù)據(jù)整合的關(guān)鍵技術(shù)研究[D].成都:電子科技大學(xué),2011.
[6]W.H.Inmon著 數(shù)據(jù)倉庫(Building the Data Warehouse)[M].王志海,等譯.北京:機(jī)械工業(yè)出版社,2000.
[7]E Malfach.決策支持與數(shù)據(jù)倉庫系統(tǒng)[M].北京:電子工業(yè)出版社,2001.
[8]李新,吳立宗.?dāng)?shù)字黑河的思考與實踐2:數(shù)據(jù)集成[J].地球科學(xué)進(jìn)展,2010(3):306-316.
[9]劉利萍.基于數(shù)據(jù)倉庫技術(shù)的智能建筑信息集成應(yīng)用研究[D].重慶:重慶大學(xué),2007.
[10]Matt Casers,Roland Bouman,Jos van Dongen著 Pentaho Kettle解決方案:使用PDI構(gòu)建開源ETL解決方案[M].初建軍等譯.北京:電子工業(yè)出版社,2014.
[11]宋杰.面向多類型數(shù)據(jù)源的數(shù)據(jù)倉庫構(gòu)建及ETL關(guān)鍵技術(shù)的研究[D].沈陽:東北大學(xué),2008.
[12]蔣東興,許慶紅,謝矜,等.高校信息化建設(shè)的一體化思路與實踐[J].中國教育信息化,2003(12):36-38.
[13]吳青,羅儒國,王權(quán)于.面向服務(wù)的企業(yè)應(yīng)用集成在數(shù)字校園中的應(yīng)用[J].現(xiàn)代遠(yuǎn)程教育研究,2012(4):91-96.
[14]Squire C.Data Extraction and Transformation for the Data Warehouse Solutions[C].//Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data. New York:ACM,1995:446-447.
[15]吳溥峰,張玉清.?dāng)?shù)據(jù)庫安全綜述[J].計算機(jī)工程,2006 (12):85-88.
[16]鄺泉,趙貝.數(shù)據(jù)集成技術(shù)在智能小區(qū)管理平臺中的應(yīng)用[J].電子科技,2014(5):99-102.
Application of data integration based on data warehouse technology in digital campus
WU Zhen-tao
(Library and Information Center,Qingdao Ocean Shipping Mariners College,Qingdao 266071,China)
To solve the“information islands”in the construction of digital campus,we bring forward data integration solution based on data warehouse technology.This solution depends on data warehouse technology and analyzes the application status and existing problems of each system in digital campus.Meanwhile,combined with the status of college,it constructs the data integration framework based on data warehouse technology to solve the practical problems in the process of data integration from top to bottom,to achieve resource sharing,and demonstrate overall coordination function of the digital campus.
digital campus;data integration;data warehouse;ETL
TN919.3;TP311.13
A
1674-6236(2016)09-0028-04
2016-01-25稿件編號:201601235
山東省社科基金項目(11CJY13)
吳振濤(1984—),男,山東濰坊人,政工師。研究方向:信息系統(tǒng)建設(shè),數(shù)據(jù)庫管理,數(shù)據(jù)集成與數(shù)據(jù)分析,教育信息化。