張文武 陳新躍
數(shù)據(jù)倉庫的基本理論
著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
對于數(shù)據(jù)倉庫的概念可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,是對各類數(shù)據(jù)的組合分析和再加工,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫5其次,數(shù)據(jù)倉庫是對多個異構(gòu)數(shù)據(jù)源的有效集成,集成后按照主題進行重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。
數(shù)據(jù)倉庫的特點
根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個特點:
(1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各系統(tǒng)之間相對分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題進行組織。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。
(2)數(shù)據(jù)集成。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關(guān),數(shù)據(jù)庫之間相互獨立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。
(3)相對穩(wěn)定。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
(4)反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個工程,也是一個過程。
數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)
(1)數(shù)據(jù)源。數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù);外部信息包括各類法律法規(guī)、市場信息和競爭對手信息等。
(2)數(shù)據(jù)的存儲與管理。這是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)的存儲和管理是針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。
(3)OLAP服務(wù)器。是對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。
(4)前端工具。主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。
從上圖可以看出,由于數(shù)據(jù)倉庫技術(shù)的實現(xiàn),各業(yè)務(wù)系統(tǒng),如主機、信貸管理系統(tǒng)、中間業(yè)務(wù)系統(tǒng)、財務(wù)管理系統(tǒng)等形成的數(shù)據(jù)源,經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換加載之后,分別形成規(guī)劃化模型,全部轉(zhuǎn)換到數(shù)據(jù)集市,最后提供給用戶使用。
我國商業(yè)銀行數(shù)據(jù)倉庫建設(shè)的發(fā)展及問題
數(shù)據(jù)倉庫的發(fā)展歷程
美國人理查德·諾蘭(Richard.L.Nolan)提出,無論是一個行業(yè),還是一個國家或地區(qū),其信息化大體要經(jīng)歷初始、蔓延、控制、集成、數(shù)據(jù)管理和成熟等發(fā)展階段,各個階段互相聯(lián)系,不能超越。后來,米歇(Mische)將諾蘭模型中的集成與數(shù)據(jù)管理進行了整合,認為信息化的一般路徑是由起步、增長、成熟和更新四個階段構(gòu)成。而每一階段在技術(shù)、代表性應用、數(shù)據(jù)庫及其存取能力、IT文化、全員素質(zhì)等方面都有既定內(nèi)涵。這就是諾蘭模型和米歇模型,也是當今衡量信息化發(fā)展階段的經(jīng)典理論。
用諾蘭模型考察銀行信息化,可以得出:我國商業(yè)銀行正處于從控制階段向集成階段過渡的過程中,其特征是:信息化建設(shè)快速發(fā)展,信息集中網(wǎng)絡(luò)建設(shè)已近完工,系統(tǒng)集成的需求日益迫切,業(yè)內(nèi)開始進行數(shù)據(jù)集成應用系統(tǒng)的全面規(guī)劃和標準制定,為下一輪的信息化建設(shè)高潮作準備。用米歇模型考察銀行信息化,可以得出:我們整體上處于增長階段。其特征是:網(wǎng)絡(luò)硬件設(shè)施的建設(shè)已經(jīng)完成,而技術(shù)標準與業(yè)務(wù)規(guī)范并不統(tǒng)一,并且已經(jīng)開始在標準和規(guī)范的基礎(chǔ)上,進行數(shù)據(jù)的集中管理和深度利用,逐步向成熟階段過渡。
結(jié)合國內(nèi)發(fā)展來看,我國金融業(yè)信息化經(jīng)過三個主要階段:
第一階段是以電子化代替手工勞動的“賬務(wù)或交易電子化”階段,即電子化階段。大致的時間是上世紀80年代中到90年代初,銀行的對外業(yè)務(wù)以計算機處理代替手工操作。
第二階段是網(wǎng)絡(luò)互聯(lián)和數(shù)據(jù)集中階段,即“數(shù)據(jù)大集中”階段。90年代中后期到現(xiàn)在的數(shù)據(jù)集中階段,也就是把計算機連接起來,實現(xiàn)全國范圍的銀行計算機處理聯(lián)網(wǎng),使所有的業(yè)務(wù)都歸在一個業(yè)務(wù)系統(tǒng)下,比如銀行前臺服務(wù)渠道的整合、數(shù)據(jù)倉庫、呼叫中心等等,便于集中統(tǒng)一的管理。數(shù)據(jù)集中為金融創(chuàng)新提供了更廣闊空間,有利于提升銀行的核心競爭力。
第三階段是業(yè)務(wù)、管理和決策的全面信息化階段,對集中的數(shù)據(jù)進行全面分析,支持以產(chǎn)品、客戶為中心的業(yè)務(wù)創(chuàng)新、管理和決策信息化,即“管理和決策信息化”階段。數(shù)據(jù)倉庫是銀行數(shù)據(jù)集中后的必然建設(shè)項目,也是銀行走向以產(chǎn)品、客戶為中心的重要的技術(shù)途徑。尤其是對于四家國有商業(yè)銀行和股份制銀行來說,數(shù)據(jù)的物理大集中已初步實現(xiàn),銀行數(shù)據(jù)整合的主題逐漸轉(zhuǎn)變?yōu)閲@管理主題的數(shù)據(jù)深加工。
目前我國銀行信息化的基礎(chǔ)設(shè)施建設(shè)框架已經(jīng)基本形成,各大商業(yè)銀行基本完成物理和邏輯的數(shù)據(jù)集中工作和綜合業(yè)務(wù)系統(tǒng)的推廣,初步建立了統(tǒng)一的業(yè)務(wù)應用平臺,使所有業(yè)務(wù)品種能夠同步推進,加快了大規(guī)模、集成化的業(yè)務(wù)開發(fā)和創(chuàng)新速度,提高了市場的反應能力和業(yè)務(wù)效率,并且向社會和廣大客戶提供了多種新型、便捷的金融服務(wù)。
數(shù)據(jù)倉庫發(fā)展面臨的主要問題
(1)數(shù)據(jù)倉庫成功的關(guān)鍵在于應用。數(shù)據(jù)集中不是目的,關(guān)鍵在于銀行的運用。數(shù)據(jù)集中之后,銀行的數(shù)據(jù)匯劃等業(yè)務(wù)實現(xiàn)了“零距離”,但這只是銀行數(shù)據(jù)倉庫運用最簡單的一個功能。建立數(shù)據(jù)倉庫,銀行可以合理地管理數(shù)據(jù),根據(jù)業(yè)務(wù)需要建立各種應用模型,為決策
分析提供有力支持。例如產(chǎn)品、部門、分支機構(gòu)和渠道的績效管理;客戶關(guān)系管理(CRM);按照不同分類進行風險管理;銀行資本管理等,都需要借助于數(shù)據(jù)倉庫達到管理目的。然而這些應用并不會因為數(shù)據(jù)集中而自動到來。
(2)銀行數(shù)據(jù)集中后,迫切需要按照業(yè)務(wù)模型進行整合。銀行在完成數(shù)據(jù)集中改革之后,面臨的緊迫任務(wù)是圍繞應用對數(shù)據(jù)進行整合。由于在IT系統(tǒng)開發(fā)初期,缺乏統(tǒng)一標準,機型、系統(tǒng)平臺、計算機接口以及數(shù)據(jù)標準等方面各地銀行差距較大;不同分支機構(gòu)、不同業(yè)務(wù)軟件的設(shè)計思路、數(shù)據(jù)結(jié)構(gòu)等差異也較大,系統(tǒng)間條塊分割嚴重,不能對數(shù)據(jù)資源進行有效的集成管理,也無從對數(shù)據(jù)資源進行更深度的挖掘與分析,形成“信息孤島”。
從技術(shù)上說,在數(shù)據(jù)集中和業(yè)務(wù)集中這一點上,各個銀行差距會很快縮小,早晚都會達到同一個水平,但在數(shù)據(jù)的深入挖掘方面,縮小差距的難度要大得多。在此過程中,迫切需要統(tǒng)一數(shù)據(jù)庫平臺,使原來各自獨立的應用系統(tǒng)在數(shù)據(jù)上可以互通共享,提高數(shù)據(jù)的可用性;需要通過業(yè)務(wù)應用整合IT系統(tǒng),這是一種真實意義上的系統(tǒng)重構(gòu),使系統(tǒng)在整合完成后,達到最優(yōu)狀態(tài)。
然而銀行要實現(xiàn)這樣的目標并不容易,如同所有的系統(tǒng)開發(fā)一樣,需要循序漸進,分步實施。當前,在數(shù)據(jù)集中即將完成、數(shù)據(jù)應用剛剛開始的關(guān)鍵階段,能否充分發(fā)揮集中優(yōu)勢,實現(xiàn)管理創(chuàng)新,直接決定著中國銀行業(yè)的核心競爭力。圍繞管理主題的數(shù)據(jù)整合成為商業(yè)銀行業(yè)務(wù)管理與技術(shù)升級面臨的一個艱巨任務(wù)。
我國商業(yè)銀行數(shù)據(jù)整合的現(xiàn)實選擇
數(shù)據(jù)整合的基本概念
數(shù)據(jù)整合就是將多個分散的數(shù)據(jù)集市合并成單一的數(shù)據(jù)倉庫,將多個數(shù)據(jù)集市合并到單一平臺,在保留原有功能的同時,使整個組織內(nèi)的信息使用人員都能夠訪問,便于銀行進行更好的決策;同時可以節(jié)省成本,將多個數(shù)據(jù)集市整合成集中的數(shù)據(jù)倉庫,減少了硬件、軟件和人員成本,也避免了今后的額外開支;當要求更多的信息和應用時,數(shù)據(jù)倉庫能夠有效地提供解決方案,比另外建立數(shù)據(jù)集市更快速、更經(jīng)濟。
業(yè)務(wù)模型是數(shù)據(jù)整合的一個關(guān)鍵問題
數(shù)據(jù)整合的核心部分是業(yè)務(wù)模型的構(gòu)建和管理。在數(shù)據(jù)整合中,需要考慮以下因素:數(shù)據(jù)倉庫整合必須針對現(xiàn)有的問題,同時考慮到未來的擴展需求;促進全行業(yè)務(wù)的一致性和跨部門之間的業(yè)務(wù)整合;消除數(shù)據(jù)重復與信息訪問渠道的冗余,提高信息一致與準確性;根據(jù)客戶的使用情況、模式及其角色選擇合適的工具;數(shù)據(jù)擁有者應該是相關(guān)的業(yè)務(wù)人員;把數(shù)據(jù)質(zhì)量的提高與特定的業(yè)務(wù)目標聯(lián)系起來。
分產(chǎn)品業(yè)績核算體系是當前銀行進行數(shù)據(jù)整合的理想模型
筆者認為,銀行在數(shù)據(jù)整合過程中,以產(chǎn)品業(yè)績核算為契機,參照產(chǎn)品業(yè)績核算模型,整合銀行數(shù)據(jù)庫,是當前銀行的一個現(xiàn)實選擇。主要原因是:
(1)產(chǎn)品業(yè)績核算模型可以理順數(shù)據(jù)倉庫的組織樹和代碼體系。在數(shù)據(jù)倉庫整合過程當中,有兩個最核心、最關(guān)鍵的問題必須解決:一是銀行的組織樹,即銀行的數(shù)據(jù)流匯總體系;二是銀行的代碼體系,這是數(shù)據(jù)交換是否暢通的關(guān)鍵因素。在組織樹設(shè)計過程中,由于系統(tǒng)的管理要求不同,原有系統(tǒng)的組織樹并不完全統(tǒng)一。不同的組織樹,往往會成為銀行數(shù)據(jù)交換的最大障礙,導致匯總數(shù)據(jù)失去管理價值。產(chǎn)品業(yè)績核算體系的建立,需要銀行將所有收入、支出、風險等各個數(shù)據(jù)按照統(tǒng)一的組織樹和代碼進行匯總運算,這幾乎涉及到銀行所有的主要系統(tǒng)。如果產(chǎn)品業(yè)績核算體系建立之后,銀行各大系統(tǒng)的組織樹和業(yè)務(wù)代碼基本統(tǒng)一,這好比打通了人體的脈絡(luò),所有數(shù)據(jù)都在標準化的渠道中有規(guī)則的運行,解決了數(shù)據(jù)倉庫中的核心問題。而且,由于產(chǎn)品業(yè)績核算體系設(shè)計比以機構(gòu)為主體的損益表更為精細,也是傳統(tǒng)組織樹的一個細化;而在以客戶為單位的業(yè)績核算中,這一問題是難以解決的。
(2)產(chǎn)品業(yè)績核算體系的建立,可以帶動銀行數(shù)據(jù)的相互檢驗與整合。數(shù)據(jù)的惟一性,是數(shù)據(jù)倉庫的標準之一。銀行在原有系統(tǒng)設(shè)計中,不同系統(tǒng)從各自角度出發(fā),在同一管理事項上可能生出不同的數(shù)據(jù),一方面加大了管理成本與操作人員的工作量,另一方面,同一事物的不同結(jié)論,為銀行的管理決策帶來了困惑。產(chǎn)品業(yè)績核算體系的建立,需要將不同數(shù)據(jù)組織起來,在此過程中,不同數(shù)據(jù)源之間相互檢驗,數(shù)據(jù)質(zhì)量和管理質(zhì)量逐步提高,使數(shù)據(jù)倉庫逐步達到惟一性標準。
(3)產(chǎn)品業(yè)績核算從整合的粒度來講,作為數(shù)據(jù)倉庫初期整合的標準較為適宜。從銀行的內(nèi)部管理來講,在管理主體從機構(gòu)細化到個人過程中,產(chǎn)品是橋梁,涉及到銀行管理的方方面面,有助于理順銀行的整體布局,同時達到了精細化管理的目的。產(chǎn)品業(yè)績核算涉及數(shù)據(jù)倉庫整合的內(nèi)容包括:機構(gòu)體系、產(chǎn)品體系、部門體系、數(shù)據(jù)期限結(jié)構(gòu),以及內(nèi)部資金轉(zhuǎn)移價格體系、成本分攤體系、風險成本計算方法體系等,這些內(nèi)容是機構(gòu)、產(chǎn)品、客戶的業(yè)績核算的基礎(chǔ),也是預算、評價、分析等銀行管理的基礎(chǔ)。推行產(chǎn)品業(yè)績核算體系將帶動機構(gòu)核算的規(guī)范化,也有助于客戶數(shù)據(jù)的整合。因此,以產(chǎn)品業(yè)績核算模型整合數(shù)據(jù)倉庫,不僅是必要的,而且是現(xiàn)實的,數(shù)據(jù)倉庫進行整合,不能缺少產(chǎn)品業(yè)績核算這一環(huán)節(jié)。
(4)從業(yè)務(wù)角度看,產(chǎn)品業(yè)績核算體系的解決,是銀行客戶相關(guān)模型的基礎(chǔ)。銀行的許多精細化管理,實際上都離不開內(nèi)部資金轉(zhuǎn)移價格、風險成本計算、成本分攤等各類標準,這些內(nèi)容或者作為參數(shù),或者直接引進,是銀行決策的重要依據(jù)。在這些問題沒有很好解決的情況下,其他模型的建立往往缺乏必要的基礎(chǔ)。例如CRM(客戶關(guān)系管理)中的業(yè)績核算以及定價模型,如果沒有內(nèi)部資金轉(zhuǎn)移價格、費用成本分攤、貸款風險損失參數(shù),CRM數(shù)據(jù)的深加工將難以進行。分產(chǎn)品業(yè)績核算體系的建立,為銀行其他業(yè)務(wù)模型的建立提供了大量管理參數(shù),為其他模型的深入推進奠定基礎(chǔ)。
(5)產(chǎn)品業(yè)績核算體系,本身也是數(shù)據(jù)倉庫建設(shè)的一大碩果,增加了數(shù)據(jù)倉庫的功能。產(chǎn)品業(yè)績核算體系的建立,一方面規(guī)范了銀行的產(chǎn)品分類標準以及相應的科目對應標準;另一方面,銀行的分產(chǎn)品業(yè)績核算本身就具有很大的管理價值,數(shù)據(jù)倉庫如果能夠支撐產(chǎn)品業(yè)績核算,其價值已經(jīng)獲得了顯著體現(xiàn)。
分產(chǎn)品業(yè)績核算體系的設(shè)計與應用,大大推進了銀行的精細化管理,將銀行管理從機構(gòu)為主,全面細化到所有產(chǎn)品與部門,同時也帶動了數(shù)據(jù)倉庫整合,并在此基礎(chǔ)上形成了新興的管理功能,對我國銀行業(yè)數(shù)據(jù)倉庫的應用具有標志性作用。圍繞經(jīng)營決策的數(shù)據(jù)加工與分析,以及業(yè)務(wù)管理模式與數(shù)據(jù)整合的互動,必將成為提高核心競爭力的重要議題。
(作者單位:中國工商銀行計劃財務(wù)部)
責任編輯:柯丹
Kedan@ChinaBanker.net