彭明 劉建峰 王常華
摘 ?要:數(shù)據(jù)的價值由數(shù)據(jù)質(zhì)量決定,在分析高校數(shù)據(jù)的過程中,工作人員發(fā)現(xiàn)數(shù)據(jù)不一致、信息孤島現(xiàn)象嚴(yán)重、數(shù)據(jù)質(zhì)量差等問題嚴(yán)重制約著高校信息化的發(fā)展,為了提高高校信息化的服務(wù)水平,針對這些問題提出構(gòu)建共享數(shù)據(jù)平臺的方案,該方案利用ODI數(shù)據(jù)集成工具對分散在各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進(jìn)行集成,從而提高數(shù)據(jù)的質(zhì)量、降低數(shù)據(jù)共享的難度、提升信息化服務(wù)能力和數(shù)據(jù)治理水平,促進(jìn)高校信息化建設(shè)的發(fā)展。
關(guān)鍵詞:數(shù)據(jù)治理;數(shù)據(jù)集成;數(shù)據(jù)質(zhì)量;信息化建設(shè);共享數(shù)據(jù)平臺
中圖分類號:G647;TP311.13 ? ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)13-0137-04
Abstract:The value of data is determined by the quality of data. In the process of analyzing university data,the staff found that data inconsistency,serious information island phenomenon,poor data quality and other problems seriously restrict the development of university informatization. In order to improve the service level of university informatization,this paper proposes a scheme of building a shared data platform,which uses ODI data integration tools. In order to improve the quality of data,reduce the difficulty of data sharing,improve the ability of information service and data governance,and promote the development of information construction in colleges and universities.
Keywords:data governance;data integration;data quality;information construction;shared data platform
0 ?引 ?言
隨著互聯(lián)網(wǎng)、大數(shù)據(jù)等信息技術(shù)的逐漸發(fā)展,將信息技術(shù)同行業(yè)的發(fā)展模式相融合,制定出更加有益于行業(yè)發(fā)展的新模式,是促進(jìn)行業(yè)可持續(xù)發(fā)展的重要條件,在此過程中,高校的信息化建設(shè)也在走向新的階段[1]。目前,各高校都積極投身到信息化校園建設(shè)中,努力從數(shù)字化校園向智慧校園轉(zhuǎn)變,取得了很好的成績。南京中醫(yī)藥大學(xué)也以建設(shè)智慧校園為目標(biāo),不斷向前發(fā)展,然而,在這個過程中發(fā)現(xiàn),校內(nèi)各部門、學(xué)院分別管理部門業(yè)務(wù)數(shù)據(jù),導(dǎo)致“信息孤島”現(xiàn)象嚴(yán)重、數(shù)據(jù)標(biāo)準(zhǔn)不一致、數(shù)據(jù)質(zhì)量差、冗余度高、可用性低、共享難等問題。同時已經(jīng)建設(shè)的信息系統(tǒng)與師生需求錯位、重建設(shè)、輕需求的現(xiàn)象突出,高價建設(shè)的信息系統(tǒng)利用率卻很低[2],因此,急需對校內(nèi)積累的大量數(shù)據(jù)進(jìn)行治理,南京中醫(yī)藥大學(xué)工作人員通過調(diào)研和分析,針對本校的實際情況提出構(gòu)建共享數(shù)據(jù)平臺的方案,該平臺可以集成分散在各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),從而提高數(shù)據(jù)的質(zhì)量、降低數(shù)據(jù)共享的難度,同時可以實現(xiàn)校內(nèi)各部門的業(yè)務(wù)信息展示、數(shù)據(jù)中心大屏展示、基本校情展示、數(shù)據(jù)質(zhì)量違規(guī)量展示、數(shù)據(jù)異動監(jiān)測、質(zhì)量問題分布展示、數(shù)據(jù)監(jiān)測查詢、代碼執(zhí)行異常檢測等工作。
1 ?數(shù)據(jù)治理的現(xiàn)狀
高校信息化校園建設(shè)初期,由于缺乏統(tǒng)一的數(shù)據(jù)管理標(biāo)準(zhǔn)和規(guī)劃,盡管做了很多數(shù)據(jù)集成工作,可是由于數(shù)據(jù)不規(guī)范、不一致、冗余度高、部分?jǐn)?shù)據(jù)共享難等原因,導(dǎo)致數(shù)據(jù)質(zhì)量低下、可用性不高[3]。因此我們需要針對全校的業(yè)務(wù)系統(tǒng)建設(shè)一個標(biāo)準(zhǔn)的數(shù)據(jù)管理流程,以此對全校的數(shù)據(jù)進(jìn)行全生命周期的管理[4]。
數(shù)據(jù)治理是將技術(shù)同管理相結(jié)合對數(shù)據(jù)進(jìn)行的持續(xù)的標(biāo)準(zhǔn)化工作,是對數(shù)據(jù)全生命周期的管理[5]。數(shù)據(jù)治理過程中需要制定數(shù)據(jù)管理標(biāo)準(zhǔn)、代碼標(biāo)準(zhǔn)、流程規(guī)范、監(jiān)督及考核機制、技術(shù)工具等方面的內(nèi)容。數(shù)據(jù)治理的目標(biāo)是減少數(shù)據(jù)的冗余度、提高數(shù)據(jù)的質(zhì)量,保障數(shù)據(jù)的安全性、可用性,實現(xiàn)高校內(nèi)部分散數(shù)據(jù)的有效整合和業(yè)務(wù)部門之間的數(shù)據(jù)共享,從而更好地發(fā)揮數(shù)據(jù)在信息化建設(shè)中的作用[6]。通過研究與分析發(fā)現(xiàn)本校數(shù)據(jù)治理主要存在以下幾個問題:
(1)數(shù)據(jù)不一致。校內(nèi)師生在科研、教學(xué)、生活等方面需要重復(fù)填寫很多信息,由于一些信息的格式、內(nèi)容不固定導(dǎo)致在不同系統(tǒng)中產(chǎn)生的信息不一致,影響了數(shù)據(jù)的流動和整合。
(2)“信息孤島”現(xiàn)象突出[7]。信息化建設(shè)初期,由于缺乏統(tǒng)一的數(shù)據(jù)管理標(biāo)準(zhǔn)和規(guī)劃,各業(yè)務(wù)部門為了實現(xiàn)有序化管理,提高工作效率,根據(jù)自己的業(yè)務(wù)需求各自建設(shè)了部門的業(yè)務(wù)系統(tǒng),這些系統(tǒng)之間相互獨立,最終導(dǎo)致多頭管理、代碼標(biāo)準(zhǔn)不一致、數(shù)據(jù)標(biāo)準(zhǔn)不一致等問題越來越突出,無法實現(xiàn)信息交換與數(shù)據(jù)資源共享,信息關(guān)聯(lián)程度也越來越低,加大了數(shù)據(jù)清洗、整合的難度。
(3)數(shù)據(jù)質(zhì)量差。由于各部門業(yè)務(wù)系統(tǒng)相互獨立,數(shù)據(jù)源上的數(shù)據(jù)質(zhì)量水平不一致,導(dǎo)致數(shù)據(jù)質(zhì)量偏低。此外,數(shù)據(jù)來源途徑多且分散,數(shù)據(jù)從生產(chǎn)到使用過程不清晰,數(shù)據(jù)的完備性、準(zhǔn)確性存疑,數(shù)據(jù)質(zhì)量堪憂,數(shù)據(jù)融合困難。
(4)教職工信息化水平不高。高校信息化的發(fā)展需要校內(nèi)各部門人員的參與,但一些部門存在管理人員數(shù)量不足、缺少管理經(jīng)驗、信息化水平不高、數(shù)據(jù)監(jiān)管不全面、缺少統(tǒng)一的數(shù)據(jù)質(zhì)量管控流程等問題[8]。
(5)數(shù)據(jù)全生命周期不完整。高校業(yè)務(wù)數(shù)據(jù)的使用、維護(hù)、備份、過期等管理不規(guī)范、流程不完整。
綜上所述,本文提出一種構(gòu)建共享數(shù)據(jù)平臺的方案,該方案以O(shè)DI(Oracle Data Integrator)[9]數(shù)據(jù)集成工具為基礎(chǔ),不僅可以很好地集成各獨立業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),達(dá)到數(shù)據(jù)交換與共享的目的,而且提供了代碼標(biāo)準(zhǔn)管理、數(shù)據(jù)脫敏、運行監(jiān)控、數(shù)據(jù)歷史歸檔、數(shù)據(jù)監(jiān)測等功能,既保證了數(shù)據(jù)的質(zhì)量也滿足了業(yè)務(wù)部門之間的多樣化數(shù)據(jù)共享需求。
2 ?數(shù)據(jù)治理的建設(shè)思路
2.1 ?數(shù)據(jù)集成
數(shù)據(jù)集成是在邏輯上或者物理上對不同格式、不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行匯總,并且利用信息交換,解決數(shù)據(jù)的異構(gòu)性與分布性問題,從而為分散的業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)共享。數(shù)據(jù)集成領(lǐng)域通常使用聯(lián)邦數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、基于中間件模型這3類集成模型。
中間件模型是最常用的一種模型,其通過統(tǒng)一的全局?jǐn)?shù)據(jù)模型來訪問分散的數(shù)據(jù)庫、Web資源等。中間件位于應(yīng)用層和數(shù)據(jù)層中間,發(fā)揮協(xié)調(diào)各數(shù)據(jù)源系統(tǒng)的作用,同時為訪問集成數(shù)據(jù)庫的系統(tǒng)提供通用的接口和統(tǒng)一的模式。該模型還可以很好地解決數(shù)據(jù)源中數(shù)據(jù)的更新問題,當(dāng)數(shù)據(jù)源發(fā)生變化后,直接修改中間件模型的邏輯視圖即可,從而提高效率,增強集成系統(tǒng)的可擴展性[7]。
本文介紹的是Oracle的產(chǎn)品ODI工具,ODI工具的集成包括兩種方式:全量集成和增量集成。全量集成是將需要同步的數(shù)據(jù)一次性同步到目標(biāo)數(shù)據(jù)庫上;增量集成是只將發(fā)生變化的數(shù)據(jù)同步到目標(biāo)數(shù)據(jù)庫[10,11]。南京中醫(yī)藥大學(xué)利用該工具建立了一個中間數(shù)據(jù)庫——共享數(shù)據(jù)平臺,該共享數(shù)據(jù)平臺定義了元數(shù)據(jù)、業(yè)務(wù)規(guī)則與約束,然后連接服務(wù)器執(zhí)行代碼,并將返回的結(jié)果與消息存儲到共享數(shù)據(jù)庫內(nèi)。在集成的過程中,此共享數(shù)據(jù)平臺采用全量集成方式將需要同步的數(shù)據(jù)集成到目標(biāo)數(shù)據(jù)庫內(nèi)。
2.2 ?共享數(shù)據(jù)平臺的設(shè)計
2.2.1 ?需求調(diào)研
本文介紹的共享數(shù)據(jù)平臺是基于學(xué)校的一個高層應(yīng)用平臺,目的是實現(xiàn)學(xué)校各獨立業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)共享,該平臺使用ODI工具的全量集成方式將需要同步的數(shù)據(jù)一次性同步到目標(biāo)數(shù)據(jù)庫上。高校搭建共享數(shù)據(jù)平臺之前,為了能夠提高實施過程的效率,首先要掌握以下幾點:各獨立業(yè)務(wù)系統(tǒng)主機的操作系統(tǒng)類型,數(shù)據(jù)庫的類型、版本號、用戶名、密碼、訪問權(quán)限等;提供對應(yīng)系統(tǒng)的需求文檔,并詳細(xì)記錄該系統(tǒng)需要向共享庫提供的數(shù)據(jù)類型和共享數(shù)據(jù)庫需要推送給各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)[12]。同時也要記錄集成業(yè)務(wù)系統(tǒng)對應(yīng)的數(shù)據(jù)庫信息,包括源表和目標(biāo)表的表結(jié)構(gòu)、字段信息(是否為主鍵、字段名、字段唯一標(biāo)識、字段類型、字段長度、字段說明等),源字段與目標(biāo)字段的轉(zhuǎn)換關(guān)系、集成方式、數(shù)據(jù)集成周期等。
2.2.2 ?集成總體框架
確定數(shù)據(jù)源與數(shù)據(jù)共享平臺的共享流程架構(gòu)是數(shù)據(jù)治理的關(guān)鍵。第一步,基于校內(nèi)分散的業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)抓取,包括人事系統(tǒng)、教務(wù)系統(tǒng)、研究生系統(tǒng)、科研系統(tǒng)、財務(wù)系統(tǒng)、資產(chǎn)系統(tǒng)、圖書管理系統(tǒng)等;第二步,將抓取到的業(yè)務(wù)數(shù)據(jù)集成到共享數(shù)據(jù)平臺,通過一系列的工具對數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換為各個標(biāo)準(zhǔn)數(shù)據(jù)子集;第三步,將標(biāo)準(zhǔn)數(shù)據(jù)與其他需要的業(yè)務(wù)系統(tǒng)進(jìn)行交換,從而實現(xiàn)數(shù)據(jù)的交換與共享;第四步,清洗后的數(shù)據(jù)可以更好地支撐上層應(yīng)用,比如校園門戶等。在項目實施過程中,數(shù)據(jù)標(biāo)準(zhǔn)是一個不斷更新、完善的過程,數(shù)據(jù)治理工作完成后,再公開共享數(shù)據(jù)平臺制定的數(shù)據(jù)標(biāo)準(zhǔn)[13]。
本文設(shè)計的共享數(shù)據(jù)平臺采用如圖1所示的集成中心庫架構(gòu),該架構(gòu)可以有效降低業(yè)務(wù)系統(tǒng)之間的耦合度、增加可擴展性、保證數(shù)據(jù)質(zhì)量,還能夠有效地控制對各業(yè)務(wù)系統(tǒng)的訪問權(quán)限。而且采用集成中心庫架構(gòu),可以更好地實現(xiàn)全局信息集成和為上層應(yīng)用提供服務(wù)。
3 ?系統(tǒng)實際應(yīng)用
本文的共享數(shù)據(jù)平臺——數(shù)據(jù)集成中心如圖2所示。該數(shù)據(jù)中心包括圖2所示的10大功能模塊。此數(shù)據(jù)集成中心有效地整合了分散的數(shù)據(jù)資源,實現(xiàn)了業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)交換與共享,按照集成中心制定的數(shù)據(jù)標(biāo)準(zhǔn)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化并進(jìn)行數(shù)據(jù)的分析、展示、查詢等。完成了數(shù)據(jù)中心大屏展示、基本校情展示、數(shù)據(jù)質(zhì)量違規(guī)量展示、數(shù)據(jù)異動監(jiān)測、質(zhì)量問題分布展示、數(shù)據(jù)監(jiān)測查詢、代碼執(zhí)行異常檢測、數(shù)據(jù)歷史歸檔統(tǒng)計等工作,同時數(shù)據(jù)脫敏管理可以有效保護(hù)敏感隱私的數(shù)據(jù),滿足多樣化的數(shù)據(jù)使用需求。下面著重介紹3大功能模塊的應(yīng)用。
如圖3所示,元數(shù)據(jù)管理模塊明確了各業(yè)務(wù)系統(tǒng)中數(shù)據(jù)庫的類型,用戶名,數(shù)據(jù)資產(chǎn)中業(yè)務(wù)表、代碼表、字段的個數(shù)。包括數(shù)據(jù)源配置、數(shù)據(jù)模型管理、元數(shù)據(jù)屬性模型,是整個數(shù)據(jù)治理過程的關(guān)鍵,它決定了數(shù)據(jù)集成平臺如何滿足各業(yè)務(wù)系統(tǒng)的需求。
如圖4所示,代碼標(biāo)準(zhǔn)管理模塊包括代碼標(biāo)準(zhǔn)管理、代碼標(biāo)準(zhǔn)比對、代碼參照采標(biāo)、業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)標(biāo)等功能。該模塊明確了各業(yè)務(wù)部門數(shù)據(jù)類型的分類標(biāo)準(zhǔn)、展示了各部門業(yè)務(wù)代碼表與比對標(biāo)準(zhǔn)表之間的統(tǒng)一數(shù)與統(tǒng)一率以及代碼的參照采標(biāo)率。還可以掃描到當(dāng)前執(zhí)行標(biāo)準(zhǔn)與業(yè)務(wù)標(biāo)準(zhǔn)不一致的情況,從而準(zhǔn)確及時地進(jìn)行數(shù)據(jù)治理,其中執(zhí)行標(biāo)準(zhǔn)比業(yè)務(wù)標(biāo)準(zhǔn)多代碼的差異,不會影響數(shù)據(jù)治理的效果,如果需要對業(yè)務(wù)系統(tǒng)加以規(guī)范,可以建議業(yè)務(wù)部門補充業(yè)務(wù)執(zhí)行標(biāo)準(zhǔn)。
如圖5所示,數(shù)據(jù)脫敏管理模塊利用不同的脫敏算法對各業(yè)務(wù)部門不同的數(shù)據(jù)進(jìn)行脫敏,如:對身份證件號和手機號使用編碼脫敏算法;對姓名使用字符串脫敏,從而達(dá)到保護(hù)師生隱私的目的,降低隱私數(shù)據(jù)泄露的風(fēng)險。
4 ?結(jié) ?論
本文圍繞高校信息化建設(shè)過程中數(shù)據(jù)集成面臨的問題,詳細(xì)分析了問題產(chǎn)生的原因,從而給出構(gòu)建共享數(shù)據(jù)平臺解決數(shù)據(jù)集成問題的方案,實現(xiàn)了高校內(nèi)部各獨立業(yè)務(wù)系統(tǒng)之間的對接,解決了信息孤島的問題,使校園數(shù)據(jù)互聯(lián)互通、互換共享,促進(jìn)了高校信息化的發(fā)展。
參考文獻(xiàn):
[1] 孫琪揚.大數(shù)據(jù)時代下高校信息化建設(shè)現(xiàn)狀探討 [J].科技風(fēng),2019(29):94.
[2] 高楊,張雪超,孫震.大數(shù)據(jù)時代下高校信息化建設(shè)的現(xiàn)狀及建議 [J].電子技術(shù)與軟件工程,2018(24):202.
[3] 喬世嬌,陳曉軍,張平,等.高校異構(gòu)數(shù)據(jù)集成技術(shù)ODI的研究與實現(xiàn) [J].福建電腦,2014,30(5):155-156.
[4] 劉桂鋒,錢錦琳,張吉勇.我國高??蒲袛?shù)據(jù)治理模型構(gòu)建研究 [J].情報科學(xué),2020,38(4):28-36.
[5] 章浩,劉波,鄒恒華,等.高校數(shù)據(jù)治理的探索與實踐 [J].電子技術(shù)與軟件工程,2017(21):181-183.
[6] 李淑.高校管理信息化建設(shè)現(xiàn)狀及對策淺議 [J].現(xiàn)代信息科技,2018,2(11):127-128.
[7] 張靜.高校異構(gòu)數(shù)據(jù)集成的分析與設(shè)計 [J].科技經(jīng)濟(jì)市場,2010(7):3-5.
[8] 邱坤.“雙一流”目標(biāo)下的高校信息化服務(wù)能力提升對策 [J].實驗室研究與探索,2019,38(11):239-242+293.
[9] 李蘭友,陳立,陳建紅.基于ODI的數(shù)字校園數(shù)據(jù)集成研究與應(yīng)用 [J].南京工程學(xué)院學(xué)報(自然科學(xué)版),2016,14(2):29-34.
[10] 陳熙.基于ODI的高校數(shù)據(jù)交換與共享平臺的設(shè)計與實現(xiàn) [J].計算機光盤軟件與應(yīng)用,2014,17(2):259+261.
[11] 喬玉濤,張曦.基于共享數(shù)據(jù)中心的數(shù)據(jù)治理方法研究 [J].科學(xué)技術(shù)創(chuàng)新,2019(13):104-105.
[12] 孫瑋.基于ODI技術(shù)搭建高校數(shù)字化校園公共數(shù)據(jù)平臺 [J].軟件工程師,2014,17(7):56-57+44.
[13] 李林,錢丹丹,黃婷婷,等.高校信息化數(shù)據(jù)治理探討 [J].中國教育信息化,2017(9):66-68.
作者簡介:彭明(1991—),女,漢族,江蘇徐州人,碩士,研究方向:大數(shù)據(jù)應(yīng)用研究、智慧校園建設(shè);劉建峰(1979—),男,漢族,江蘇鹽城人,工程師,碩士,研究方向:網(wǎng)絡(luò)架構(gòu)與安全、IPV6、大數(shù)據(jù)分析;王常華(1982—),女,漢族,山東聊城人,中級工程師,碩士,研究方向:計算機應(yīng)用技術(shù)。