徐建民
在經(jīng)歷了2004、2005年的基礎(chǔ)設(shè)施的廣泛建設(shè)浪潮后,從今年開始,各企事業(yè)單位都基本進(jìn)入了數(shù)據(jù)大集中及數(shù)據(jù)整合0的時期,怎樣把前期投入的設(shè)施用起來,真正為企業(yè)帶來效益成了他們又一輪追逐的目標(biāo)。本文通過分析義烏人勞社保局在數(shù)據(jù)整合技術(shù)方面的理論研究及實踐應(yīng)用,旨在給廣大的讀者一個借鑒。
義烏市人事勞動社會保障局(以下簡稱義烏人勞社保局)依托有利的經(jīng)濟(jì)條件、社會環(huán)境等方面的優(yōu)勢,在“金保工程”信息化建設(shè)中取得了非常大的進(jìn)步,養(yǎng)老、醫(yī)保、就業(yè)、人才四大數(shù)據(jù)資源的建設(shè)成為整個“金保工程”信息化建設(shè)的核心。
為了全面、準(zhǔn)確、及時地收集整個義烏人事勞動社會保障業(yè)務(wù)信息,充分挖掘數(shù)據(jù)庫中數(shù)據(jù)的價值,需建設(shè)一個宏觀決策分析系統(tǒng),借助現(xiàn)代信息技術(shù),對數(shù)據(jù)進(jìn)行匯總、整理、交換和分析等加工處理,形成宏觀決策數(shù)據(jù)庫,為人事勞動社會保障政策的制定提供依據(jù)和支持,對政策執(zhí)行情況進(jìn)行監(jiān)測。
宏觀決策支持系統(tǒng)建設(shè)采用先進(jìn)的數(shù)據(jù)整合技術(shù),充分整合養(yǎng)老、醫(yī)保、就業(yè)、人才數(shù)據(jù)資源,并建設(shè)一個統(tǒng)一的數(shù)據(jù)整合平臺。該數(shù)據(jù)整合平臺能將四大數(shù)據(jù)生產(chǎn)庫的數(shù)據(jù),經(jīng)過抽取、規(guī)則轉(zhuǎn)換、清洗、加載,形成整合資源庫,該數(shù)據(jù)庫主要存儲人事勞動社會保障業(yè)務(wù)統(tǒng)計信息、結(jié)果性數(shù)據(jù)等,同時該整合數(shù)據(jù)庫還為宏觀決策提供數(shù)據(jù)支持。
數(shù)據(jù)整合存在的問題
在信息化時代新環(huán)境下,勞動和社會保障部門領(lǐng)導(dǎo)要做出一項決策,往往依賴于信息系統(tǒng)。比如: 實現(xiàn)常規(guī)統(tǒng)計分析、監(jiān)測預(yù)警、預(yù)測分析、風(fēng)險分析等; 進(jìn)行數(shù)據(jù)、圖表、多媒體等各種形式的查詢; 對比計劃和執(zhí)行情況; 對比本期和歷史情況; 對比部分和總體情況; 要求能夠進(jìn)行數(shù)據(jù)挖掘; 監(jiān)測勞動保障政策的執(zhí)行情況; 預(yù)測政策出臺效果; 監(jiān)測勞動力資源結(jié)構(gòu)、市場需求、就業(yè)趨勢、就業(yè)率變化狀況; 預(yù)測就業(yè)結(jié)構(gòu)及變化趨勢; 監(jiān)測基金收繳、發(fā)放、運轉(zhuǎn)、儲備和調(diào)劑狀況; 預(yù)測基金支付風(fēng)險; 監(jiān)測勞動保障待遇享受對象動態(tài)變化; 預(yù)測人數(shù)變化趨勢等等,通過多手段綜合運用,建立完整而科學(xué)的決策方法。
這些決策分析需要的數(shù)據(jù)通常都是統(tǒng)計數(shù)據(jù),但是在現(xiàn)有信息系統(tǒng)下進(jìn)行決策分析會比較復(fù)雜,因為現(xiàn)有數(shù)據(jù)主要存在如下幾個問題:
數(shù)據(jù)源利用問題 勞動和社會保障的信息化建設(shè)已經(jīng)進(jìn)入了全面的實質(zhì)性應(yīng)用階段,各個應(yīng)用系統(tǒng)積累了大量的數(shù)據(jù)。但是這也給決策分析帶來一個問題:做出一個決策分析往往需要查詢多個基于各種異構(gòu)數(shù)據(jù)源的業(yè)務(wù)系統(tǒng)和外部系統(tǒng)后,進(jìn)行大量數(shù)據(jù)分析后才能作出此決策。其工作量大,數(shù)據(jù)利用率不高,且容易出現(xiàn)人為差錯,從而影響決策的質(zhì)量。
數(shù)據(jù)源質(zhì)量問題 現(xiàn)有業(yè)務(wù)信息系統(tǒng)的數(shù)據(jù)為大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)無法提升為信息,及時提供給決策部門; 并且已有的業(yè)務(wù)信息系統(tǒng)平臺及開發(fā)工具互不兼容,直接提取這些業(yè)務(wù)數(shù)據(jù)比較麻煩。
數(shù)據(jù)源標(biāo)準(zhǔn)問題 每個業(yè)務(wù)系統(tǒng)都有對于大量的數(shù)據(jù),但是沒有統(tǒng)一的數(shù)據(jù)接口,也沒有一種通用的標(biāo)準(zhǔn)和規(guī)范:如各個業(yè)務(wù)系統(tǒng)使用不同的指標(biāo)代碼體系和編碼體系、使用不同的數(shù)據(jù)格式等,導(dǎo)致各個業(yè)務(wù)數(shù)據(jù)庫之間無法直接集成。
歷史數(shù)據(jù)問題 統(tǒng)計分析需要大量的歷史數(shù)據(jù)作為它的基礎(chǔ),而現(xiàn)階段的業(yè)務(wù)系統(tǒng)的歷史數(shù)據(jù)存放不是非常完整。
基于以上問題,需要建設(shè)一個數(shù)據(jù)整合平臺,按照宏觀決策的需求,利用數(shù)據(jù)整合技術(shù),將相關(guān)數(shù)據(jù)提取、分類與整理后,經(jīng)過數(shù)據(jù)計算與變換,最后形成宏觀決策所需的數(shù)據(jù)和信息,保存在數(shù)據(jù)整合資源數(shù)據(jù)庫中,為決策系統(tǒng)提供數(shù)據(jù)支持。
數(shù)據(jù)資源分析
數(shù)據(jù)整合資源庫的數(shù)據(jù)都是一些統(tǒng)計和分析數(shù)據(jù),如:每月各險種基金繳費統(tǒng)計、各年齡段基金繳費統(tǒng)計等。這些來源都是生產(chǎn)數(shù)據(jù)庫,所以在數(shù)據(jù)整合之前,需對現(xiàn)有生產(chǎn)數(shù)據(jù)資源進(jìn)行歸類分析。經(jīng)過簡單的數(shù)據(jù)歸類分析,現(xiàn)階段義烏人勞社保信息系統(tǒng)生產(chǎn)數(shù)據(jù)資源主要分為公共信息數(shù)據(jù)集、養(yǎng)老基金數(shù)據(jù)集、醫(yī)?;饠?shù)據(jù)集和就業(yè)基金數(shù)據(jù)集等。
1. 公共信息數(shù)據(jù)集是實現(xiàn)各險種基礎(chǔ)信息統(tǒng)一管理的基礎(chǔ)數(shù)據(jù)集。主要包括:
● 個人基本信息:包括個人信息庫、IC卡信息庫等。
● 單位基本信息:包括單位基本信息庫、單位所屬分支機(jī)構(gòu)信息庫、社保機(jī)構(gòu)信息庫、社保機(jī)構(gòu)經(jīng)辦人員庫、銀行信息庫等。
● 參保基本信息庫:包括單位參保信息庫和個人參保信息庫等。
● 參數(shù)信息庫: 職工平均工資信息庫、帳戶記帳利率信息庫、銀行利率信息庫、社會保險繳費比例信息庫、代碼庫、帳戶記帳利率信息庫、銀行利率信息庫等。
2. 養(yǎng)老基金數(shù)據(jù)集主要包括:
● 單位應(yīng)付信息庫: 單位應(yīng)付信息庫、單位實付信息庫等。
● 離退休人員信息庫:離退休人員變更信息庫、離退休人員帳戶信息庫、離退休人員待遇信息庫等。
● 養(yǎng)老保險待遇信息庫:養(yǎng)老保險待遇支付信息庫、養(yǎng)老補(bǔ)發(fā)退發(fā)信息庫、養(yǎng)老供養(yǎng)親屬基本信息庫、養(yǎng)老供養(yǎng)親屬待遇信息庫等。
3. 醫(yī)療基金數(shù)據(jù)集主要包括:
● 醫(yī)療參保人員信息庫:醫(yī)療保險參保人員基本信息庫、醫(yī)療包干人員基本信息庫、參保人員及帳戶變動信息庫、人員就診檔案信息庫等。
● 醫(yī)療機(jī)構(gòu)信息庫:定點醫(yī)療機(jī)構(gòu)結(jié)算參數(shù)庫、定點醫(yī)療服務(wù)機(jī)構(gòu)信息庫、定點醫(yī)療機(jī)構(gòu)預(yù)付費用信息庫、定點醫(yī)療機(jī)構(gòu)應(yīng)付信息庫、定點醫(yī)療機(jī)構(gòu)年度結(jié)算信息庫、定點醫(yī)療機(jī)構(gòu)藥品目錄庫等。
● 醫(yī)療待遇信息庫: 費用分類信息庫、醫(yī)療保險結(jié)算費用信息庫、醫(yī)療包干人員預(yù)付費用庫 、醫(yī)療包干人員費用結(jié)算庫、醫(yī)療保險個人帳戶返還庫、醫(yī)療費用分段個人自付比例庫、定點醫(yī)療機(jī)構(gòu)預(yù)付標(biāo)準(zhǔn)庫等。
4. 就業(yè)相關(guān)數(shù)據(jù)集主要包括:
● 就業(yè)服務(wù)機(jī)構(gòu)信息庫:社保代發(fā)機(jī)構(gòu)基本信息庫、社保代發(fā)機(jī)構(gòu)撥付記錄庫、就業(yè)機(jī)構(gòu)服務(wù)情況庫等。
● 參保人員機(jī)構(gòu)信息庫:參保人員失業(yè)保險信息庫、人員失業(yè)情況信息庫、失業(yè)人員變更信息庫、個人職業(yè)指導(dǎo)和介紹就業(yè)情況庫等。
● 失業(yè)待遇信息庫: 失業(yè)待遇信息庫、失業(yè)人員待遇支付明細(xì)庫、失業(yè)保險補(bǔ)發(fā)退發(fā)信息庫、失業(yè)待遇金額標(biāo)準(zhǔn)庫、失業(yè)保險金享受期限標(biāo)準(zhǔn)庫等。
● 人才交流信息庫: 人才引進(jìn)信息庫、人才派遣信息庫、人才就業(yè)信息庫、人才調(diào)動信息庫、再就業(yè)信息庫、人事代理信息庫、畢業(yè)生落戶信息庫、企業(yè)招聘信息庫、個人應(yīng)聘信息庫等。
數(shù)據(jù)整合的實現(xiàn)方式
義烏人勞社保局信息系統(tǒng)數(shù)據(jù)庫大多為Oracle數(shù)據(jù)庫,數(shù)據(jù)整合實現(xiàn)方式通??梢圆捎脭?shù)據(jù)庫開發(fā)技術(shù)和ETL技術(shù)實現(xiàn)。
數(shù)據(jù)庫開發(fā)技術(shù) 利用數(shù)據(jù)庫開發(fā)技術(shù)的數(shù)據(jù)整合主要指利用數(shù)據(jù)庫(主要是ORACLE數(shù)據(jù)庫)本身的功能,如觸發(fā)器、PL/SQL存儲過程、DBLINK等功能完成,完成對各個業(yè)務(wù)系統(tǒng)所需要數(shù)據(jù)的抽取、查詢和關(guān)聯(lián)等。
該數(shù)據(jù)整合實現(xiàn)技術(shù)運用在義烏人勞社保信息系統(tǒng)有如下優(yōu)勢:
1. 由于義烏人勞社保信息系統(tǒng)都是ORACLE數(shù)據(jù)庫,采用ORACLE的開發(fā)技術(shù),適合于ORACLE數(shù)據(jù)庫之間的數(shù)據(jù)集成。
2. 投資少,基本都是靠開發(fā)人員手工編程為主,只需要一些開發(fā)費用。
但是該數(shù)據(jù)整合實現(xiàn)技術(shù)也存在一些局限性:
1. 擴(kuò)展性較差。由于都是開發(fā)人員手工編程,后期的維護(hù)成本較高,特別是在決策需求發(fā)生變化時,需要開發(fā)人員修改程序源代碼。
2. 數(shù)據(jù)整合效率問題。由于數(shù)據(jù)庫都靠開發(fā)商編寫,在系統(tǒng)日趨龐大的情況下,在面對復(fù)雜的數(shù)據(jù)整合問題上,效率難以得到保證。
ETL技術(shù) 通過ETL技術(shù)及專業(yè)ETL軟件,即數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)能將數(shù)據(jù)從原業(yè)務(wù)數(shù)據(jù)庫經(jīng)過抽取,進(jìn)行轉(zhuǎn)換,最后加載到目標(biāo)數(shù)據(jù)庫,實現(xiàn)業(yè)務(wù)數(shù)據(jù)之間的整合。
該數(shù)據(jù)整合實現(xiàn)技術(shù)運用在義烏人勞社保信息系統(tǒng)有如下優(yōu)勢:
高效率。ETL軟件的數(shù)據(jù)抽取、轉(zhuǎn)換、加載的效率非常高,特別對于大數(shù)據(jù)量的抽取。并且支持對Oracle9i增量數(shù)據(jù)抽取。
改進(jìn)數(shù)據(jù)質(zhì)量。能夠根據(jù)各種條件校驗源數(shù)據(jù)和目標(biāo)數(shù)據(jù)質(zhì)量,對垃圾數(shù)據(jù)進(jìn)行清洗。
強(qiáng)大管理功能。能夠通過WEB管理界面對數(shù)據(jù)抽取策略執(zhí)行制定時間觸發(fā)方式,對抽取結(jié)果進(jìn)行分析等。
多平臺、多數(shù)據(jù)源支持。支持各種平臺、各種數(shù)據(jù)庫系統(tǒng)(如Oracle、SQLServer等)以及不同版本數(shù)據(jù)庫之間的數(shù)據(jù)抽取。
具備多種數(shù)據(jù)轉(zhuǎn)換控件,能夠完成各種非常復(fù)雜的數(shù)據(jù)轉(zhuǎn)換工作。
但是該數(shù)據(jù)整合實現(xiàn)技術(shù)也存在一些局限性: 投資費用較為昂貴,實施周期通常較長。
數(shù)據(jù)整合的實施
數(shù)據(jù)整合實施工作大致可以分為4個階段:
第一階段為業(yè)務(wù)分析階段。 該階段主要包括了解需要采集的數(shù)據(jù)結(jié)構(gòu)定義,和數(shù)據(jù)表之間的業(yè)務(wù)聯(lián)系,例如:需要了解系統(tǒng)中如社保個人信息及帳戶、單位個人信息及賬戶、退休人員信息等業(yè)務(wù)表的具體數(shù)據(jù)結(jié)構(gòu)定義,表之間的相互關(guān)聯(lián)等。
第二階段為設(shè)計實施階段。該階段主要定義數(shù)據(jù)整合規(guī)則及策略。數(shù)據(jù)整合規(guī)則定義包括字段映射、合并、函數(shù)計算等,來實現(xiàn)業(yè)務(wù)需求定義的數(shù)據(jù)轉(zhuǎn)換功能。數(shù)據(jù)整合策略主要定義時間策略(定時策略、自動重試、手工策略、事件觸發(fā)等)。
第三階段為數(shù)據(jù)校驗階段。數(shù)據(jù)校驗階段是數(shù)據(jù)整合階段最重要的階段。由于不同業(yè)務(wù)信息資源之間存在著語義上的區(qū)別,這些語義上的不同會引起各種不完整甚至錯誤信息的產(chǎn)生,語義沖突會帶來數(shù)據(jù)集成結(jié)果。在系統(tǒng)正式運行之前,必須建立嚴(yán)格的數(shù)據(jù)校驗機(jī)制,以保證生產(chǎn)數(shù)據(jù)和整合平臺數(shù)據(jù)的一致性,可建議采用如下方法:
● 數(shù)據(jù)的采樣:每張表采集定量的數(shù)據(jù)作為參照,跟轉(zhuǎn)換后數(shù)據(jù)進(jìn)行比較。
● 數(shù)據(jù)的條數(shù):每張表記錄原始數(shù)據(jù)的記錄總數(shù),跟轉(zhuǎn)換后數(shù)據(jù)進(jìn)行比較。
● 數(shù)據(jù)的重要指標(biāo)匯總:對于各主要指標(biāo),要跟轉(zhuǎn)換后進(jìn)行比較。
第四階段為系統(tǒng)上線階段。將設(shè)計好的數(shù)據(jù)整合流程正式發(fā)布,并可以設(shè)定計劃定時執(zhí)行 ,系統(tǒng)管理人員可以通過監(jiān)控界面,進(jìn)行任務(wù)監(jiān)控和跟蹤。隨著數(shù)據(jù)轉(zhuǎn)換業(yè)務(wù)逐漸增加,管理人員還可以根據(jù)具體的業(yè)務(wù)需求,進(jìn)行數(shù)據(jù)轉(zhuǎn)換加載任務(wù)的時間計劃修改和維護(hù),管理人員可以自己修改計劃任務(wù),合理安排所有的數(shù)據(jù)轉(zhuǎn)換任務(wù)能夠在規(guī)定的時間范圍內(nèi)完成所有的數(shù)據(jù)轉(zhuǎn)換和加載任務(wù)。
數(shù)據(jù)整合平臺能夠?qū)崿F(xiàn)多個業(yè)務(wù)應(yīng)用系統(tǒng)、多種異構(gòu)數(shù)據(jù)源信息的綜合利用,為宏觀決策水平的提高提供基礎(chǔ)數(shù)據(jù)。但是,數(shù)據(jù)整合是一項復(fù)雜而又基礎(chǔ)性的工作,在實際整合過程中會遇到許多想象不到的問題,只有將這些問題一一化解,對數(shù)據(jù)轉(zhuǎn)換的結(jié)果認(rèn)真校驗,才能確保數(shù)據(jù)整合的準(zhǔn)確性,才能最終達(dá)到數(shù)據(jù)整合平臺建設(shè)“完整、正確、統(tǒng)一、及時、安全”的要求。