李昌偉,王 凱,張立博
(中國綠發(fā)投資集團有限公司,北京 100010)
因不同開發(fā)商所開發(fā)系統(tǒng)的數(shù)據(jù)標準不一,導致各企業(yè)間難以進行數(shù)據(jù)共享,影響工作效率??梢?為實現(xiàn)新共享時代,數(shù)據(jù)標準管理的重要性非比尋常[1]。當前,多數(shù)數(shù)據(jù)標準管理方法和工具多針對單個行業(yè)、數(shù)據(jù)源或企業(yè),即使是管理機制較成熟、管理方法和工具較多的金融行業(yè)也缺少面向各行業(yè)、跨越多種數(shù)據(jù)源的數(shù)據(jù)管理方法和工具[2-3]。從原理看,業(yè)務元數(shù)據(jù)是數(shù)據(jù)標準本體,從業(yè)務元數(shù)據(jù)出發(fā)管理數(shù)據(jù)標準可從本質(zhì)上解決數(shù)據(jù)標準管理平臺難落地的問題。基于此,本文將基于元數(shù)據(jù)搭建數(shù)據(jù)標準管理平臺,以期為數(shù)據(jù)共享提供理論支撐。
現(xiàn)有數(shù)據(jù)標準管理問題包括[4]:(1)認知不足,站位不高,難以理解數(shù)據(jù)標準對實施信息戰(zhàn)略和管理水平提升的重要性,積極性不足;(2)各單位工作目的和時間等不同,導致系統(tǒng)間同類數(shù)據(jù)的分類、信息及定義等均不同;(3)各系統(tǒng)、部門中雖然有多個數(shù)據(jù)主題在流動使用,但關注度及使用頻率等不同,導致數(shù)據(jù)歸屬不一;(4)數(shù)據(jù)治理時,因數(shù)據(jù)業(yè)務處理中所遇到數(shù)據(jù)問題不同,導致業(yè)務流程運轉(zhuǎn)及業(yè)務發(fā)展情況不同,存在業(yè)務口徑多樣、系統(tǒng)功能缺失及信息基礎編碼不同等問題。針對現(xiàn)有問題,文章搭建了如圖1所示的數(shù)據(jù)標準管理體系。
圖1 數(shù)據(jù)標準管理體系
1.1.1 企業(yè)數(shù)據(jù)標準存儲
數(shù)據(jù)標準存儲是數(shù)據(jù)標準系統(tǒng)的核心功能,其對業(yè)務與標準的結合、技術和標準的結合等都有影響。以元數(shù)據(jù)庫作為存儲方式,并以數(shù)據(jù)標準作為元數(shù)據(jù)庫的業(yè)務元數(shù)據(jù),有利于元數(shù)據(jù)庫技術元數(shù)據(jù)與業(yè)務元數(shù)據(jù)的有效結合。
1.1.2 企業(yè)數(shù)據(jù)標準基礎管理
企業(yè)數(shù)據(jù)標準基礎管理模塊包含數(shù)據(jù)標準的落地檢核模塊、生命周期管理模塊、瀏覽與查詢模塊,三者共同構成數(shù)據(jù)管理系統(tǒng)的基礎管理能力。
1.1.3 企業(yè)數(shù)據(jù)標準應用接口
應用接口的作用在于讓數(shù)據(jù)標準有效落地,并為各系統(tǒng)提供相應功能。
從企業(yè)數(shù)據(jù)標準體系看,數(shù)據(jù)標準管理平臺建設要求有:為企業(yè)數(shù)據(jù)標準咨詢及咨詢成果提供支撐作用和存儲能力、根據(jù)現(xiàn)有數(shù)據(jù)標準管理各類數(shù)據(jù)、為上層業(yè)務應用及管理提供數(shù)據(jù)標準服務。從數(shù)據(jù)標準管理平臺的對外服務及內(nèi)在需求上,搭建如圖2所示數(shù)據(jù)標準管理平臺總體架構。
圖2 數(shù)據(jù)標準管理平臺總體架構
從數(shù)據(jù)標準應用、存儲及基礎管理3個模塊設計數(shù)據(jù)標準管理平臺的功能架構[5],具體如圖3所示。
在企業(yè)數(shù)據(jù)標準存儲模塊中采集技術元數(shù)據(jù)和數(shù)據(jù)標準后,即可通過各類元模型將所采集的數(shù)據(jù)存儲到元數(shù)據(jù)存儲庫中。
數(shù)據(jù)標準基礎管理模塊包括標準體系瀏覽、標準綜合查詢、標準生命周期管理和標準落地校核功能。標準體系瀏覽模塊提供瀏覽數(shù)據(jù)標準的窗口,業(yè)務人員在標準體系瀏覽窗口中找到所需數(shù)據(jù)標準表述術語、值域代碼等后,即可在標準綜合查詢窗口中找尋,可有效提高查找準確度;數(shù)據(jù)標準生命周期管理是數(shù)據(jù)標準基礎管理模塊的核心,標準的維護、審批和執(zhí)行等均由其體現(xiàn);數(shù)據(jù)標準落地校核的作用在于映射數(shù)據(jù)標準,以映射方式檢查數(shù)據(jù)標準執(zhí)行效果[6]。
數(shù)據(jù)標準應用模塊的作用主要有:統(tǒng)一業(yè)務口徑(使各類日常業(yè)務工作均遵守統(tǒng)一的數(shù)據(jù)標準定義)、輔助數(shù)據(jù)標準落地(通過檢查數(shù)據(jù)標準落地情況確保數(shù)據(jù)標準落地)、輔助系統(tǒng)開發(fā)(指導設計新建系統(tǒng)模型,確保數(shù)據(jù)標準與業(yè)務系統(tǒng)模型保持一致)、貫通技術與業(yè)務(經(jīng)由元數(shù)據(jù)結合業(yè)務、技術、標準,使業(yè)務人員可從數(shù)據(jù)標準出發(fā)明確業(yè)務標準)。
數(shù)據(jù)標準管理技術架構共5個層次,具體如圖4所示。其中,采用HTML5技術搭建客戶層,以確??蛻舳思嫒莞黝悶g覽器;采用JavaScript/Ajax、Flash搭建展現(xiàn)層技術架構,確保符合用的戶操作習慣,確保數(shù)據(jù)展現(xiàn)質(zhì)量;借助Service接口以Json、XML等方式進行業(yè)務層間的通信,以完全分離展現(xiàn)層和業(yè)務層;集成層是技術架構的關鍵,共有兩方面作用:一是數(shù)據(jù)供給作用,包括供給數(shù)據(jù)標準、技術元數(shù)據(jù)等;二是數(shù)據(jù)采集作用,包括各系統(tǒng)間的通信數(shù)據(jù)等,為確保集成層的高效運作,通過JNDI等技術搭建其技術架構;資源層含有各類數(shù)據(jù)資源,包括數(shù)據(jù)標準咨詢結果、各系統(tǒng)數(shù)據(jù)庫表、數(shù)據(jù)傳輸信息,以Database數(shù)據(jù)庫搭建其技術架構。
圖4 系統(tǒng)技術架構
元數(shù)據(jù)管理模塊共4個結構層次,分別為數(shù)據(jù)源、元數(shù)據(jù)采集、元數(shù)據(jù)存儲、元數(shù)據(jù)服務,具體如圖5所示。
圖5 元數(shù)據(jù)管理總體結構
2.1.1 元數(shù)據(jù)來源層
元數(shù)據(jù)來源類型包括庫表結構和ETL工具。庫表結構包括數(shù)據(jù)庫(DB)、ODS數(shù)據(jù)模型和集市數(shù)據(jù)模型的數(shù)據(jù)庫信息、表結構、表信息及模型關聯(lián)關系等。ETL工具包括Mappings、Worklets、Targets和Sources等元數(shù)據(jù)和映射數(shù)據(jù)等。
2.1.2 采集適配器層
為提升系統(tǒng)的操作性和擴展性,便于業(yè)務人員連通各類型元數(shù)據(jù)接口,在元數(shù)據(jù)管理平臺中單獨設置采集層。元數(shù)據(jù)采集適配器可用于各類數(shù)據(jù)源數(shù)據(jù)的采集、解析、分析和存儲,具備自動化獲取和解析元數(shù)據(jù)的功能。不同類型的數(shù)據(jù)源對應不同的采集方法,針對異構數(shù)據(jù)源和較多使用的數(shù)據(jù)源,分別設計了ETL采集器和DDL采集器。ETL采集適配器設計如圖6所示。此外,數(shù)據(jù)庫采集方式共兩種:一是從數(shù)據(jù)庫管理表中采集的直連采集方式,該方式實時性較強,但需耗費連接池資源,且長期直連對數(shù)據(jù)庫影響較大;二是從數(shù)據(jù)庫定義的語言文件中采集,該方式可有效避免方式單一的問題,對數(shù)據(jù)庫影響較小,建議采用第二種采集方式。
圖6 元數(shù)據(jù)采集設計
庫表采集適配器的整體流程為:定義語言腳本,制定采集策略,開發(fā)文件以匹配數(shù)據(jù)庫所定義的語言腳本風格,形成Java類文件,在采集程序中調(diào)用該類文件以進行采集[8]。具體如圖7所示。
圖7 庫表采集器采集邏輯流程
2.1.3 存儲模型層
基于對象建模的思想,元數(shù)據(jù)存儲模型層包括元模型定義模型和元數(shù)據(jù)存儲模型。元模型定義模型通過OMF規(guī)范定義對象間關系和行為并進行分類,元數(shù)據(jù)存儲模型按元數(shù)據(jù)類型分類存儲數(shù)據(jù)對象[7]。元數(shù)據(jù)存儲模型如圖8所示。
圖8 存儲模型
基于數(shù)據(jù)標準自動化采集、統(tǒng)一管理及強擴展性的設計原則,為實現(xiàn)在數(shù)據(jù)標準出現(xiàn)結構變化時,只需簡單配置即可采集新數(shù)據(jù)標準而無需改變數(shù)據(jù)標準存儲結構性內(nèi)容的目的,將數(shù)據(jù)標準存儲劃分成如圖9所示的4個主要過程。
圖9 數(shù)據(jù)標準存儲過程
2.2.1 數(shù)據(jù)標準模板
數(shù)據(jù)標準模板可為數(shù)據(jù)整理提供指引,可采用Excel形式作為模板,具體如表1所示。
表1 數(shù)據(jù)標準模板
2.2.2 數(shù)據(jù)標準元模型
數(shù)據(jù)標準模板需經(jīng)元模型采集才可進入數(shù)據(jù)標準管理平臺。從數(shù)據(jù)標準定義看,數(shù)據(jù)標準元模型主要包括主題元模型和公共代碼元模型。主題元模型強調(diào)主題的表達,包括主題分類和信息項元模型等,公共代碼元模型則強調(diào)公共代碼和代碼值。
統(tǒng)一數(shù)據(jù)標準是提升大數(shù)據(jù)時代數(shù)據(jù)管理能力的必經(jīng)之路。數(shù)據(jù)標準管理平臺旨在助力尚未進行數(shù)據(jù)治理的企業(yè)鞏固治理根基,實現(xiàn)數(shù)據(jù)標準化建設目標,這將為后續(xù)數(shù)據(jù)安全及質(zhì)量提升等工作打下牢固基礎,并為擴展新業(yè)務系統(tǒng)提供統(tǒng)一規(guī)范,對提升數(shù)據(jù)共享有重要意義。