呂梁 金淳
摘要:本文在數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基礎理論基礎之上,將其運用于我國中小商業(yè)銀行。以某銀行的業(yè)務情況為基礎數(shù)據(jù),設計構建了個人及企業(yè)銀行數(shù)據(jù)倉庫的體系結構,并對其進行數(shù)據(jù)粒度的劃分。在此基礎上,對所構建的數(shù)據(jù)倉庫進行多維數(shù)據(jù)分析,并通過實施數(shù)據(jù)挖掘操作,實現(xiàn)知識發(fā)現(xiàn)的功能。結果顯示,通過應用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術,可以為其獲得巨大的信息收益。
關鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;OLAP多維數(shù)據(jù)分析;商業(yè)銀行
近年來,由于我國商業(yè)銀行業(yè)務量的增加,業(yè)務數(shù)據(jù)也隨之大幅度增加。但由于缺乏有效的方法和手段以對數(shù)據(jù)背后所隱藏的規(guī)律和知識進行挖掘,導致銀行工作人員無法利用這些數(shù)據(jù)對銀行相關業(yè)務所包含的規(guī)律和未來發(fā)展趨勢進行分析。上述現(xiàn)象在信息系統(tǒng)較不發(fā)達的中小商業(yè)銀行體現(xiàn)則更為明顯。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術作為信息化的有效工具,其在國外的金融領域已經(jīng)得到廣泛應用。以北美十大銀行之一的蒙特利爾銀行為例,通過運用數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘技術,對其產品線進行重新組織,并基于數(shù)據(jù)挖掘所獲得的經(jīng)驗和知識,進行更具針對性的市場營銷,總共為其節(jié)約了2280萬美元。而這一技術尚未被我國中小商業(yè)銀行所掌握。
一、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘相關理論概述
(一)數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是“面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用于支持管理決策過程”。在這個定義中,W.H.Inmon明確給出了數(shù)據(jù)倉庫的四個重要特點,即“面向主題”、“集成”、“穩(wěn)定”、“隨時間變化”[1]。
數(shù)據(jù)倉庫的數(shù)據(jù)組織方式主要包括有三種,分別是虛擬存儲方式、基于關系表的存儲方式和多維數(shù)據(jù)庫存儲方式等[3]。其中,多維數(shù)據(jù)庫存儲方式是直接面向數(shù)據(jù)挖掘分析操作所需的數(shù)據(jù)組織形式,它對DW中的海量數(shù)據(jù)從客戶感興趣的角度進行層次化處理、抽象概括,并設置維索引及相應的元數(shù)據(jù)管理文件,以對應于數(shù)據(jù)倉庫中的數(shù)據(jù)[4]。與虛擬存儲方式、基于關系表的存儲方式中組織關系都比較復雜相比,更適用于組織、存儲數(shù)據(jù)倉庫中的海量數(shù)據(jù)[5]。
(二)基于數(shù)據(jù)倉庫數(shù)據(jù)的OLAP
1.聯(lián)機分析處理(OLAP)的概念和特征
2.OLAP多維分析操作
多維分析是指對數(shù)據(jù)倉庫中的數(shù)據(jù)進行切片、切塊、鉆取和旋轉等分析操作[9],用戶能從多角度對數(shù)據(jù)進行深入剖析,進而了解其中的規(guī)律。
(1)切片。切片是指通過在某個或某些維上選取某一特定的屬性成員,而在其他維上則選取一定區(qū)間的屬性成員,對所獲得的數(shù)據(jù)進行分析。以某銀行部分業(yè)務數(shù)據(jù)所形成的數(shù)據(jù)立方為例進行說明:從該立方中選取2012年4月這一個時間段內所有理財產品的銷售情況進行分析,此即為切片。
(2)切塊。切塊是在立方體中的三個維上取一定區(qū)間的屬性成員或全部屬性成員。切塊可以看成是在切片的基礎上,進一步確定各個屬性成員的區(qū)間得到的片段體,也即由多個切片疊合起來。
(3)鉆取。鉆取包括上鉆和下鉆兩種操作。從高級數(shù)據(jù)到明細級數(shù)據(jù)視圖稱為下鉆;從明細級數(shù)據(jù)到高級數(shù)據(jù)視圖稱為上鉆。
(4)旋轉。旋轉指改變一個報告或頁面顯示的維方向,通過旋轉操作可以最終用戶從不同視角來觀察數(shù)據(jù)。
(三)數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘是根據(jù)企業(yè)所設定的業(yè)務目標和存在的問題,對大量的業(yè)務數(shù)據(jù)進行探索,揭示隱藏其中的規(guī)律并模型化,以指導并應用于實際經(jīng)營實踐。通過對業(yè)務數(shù)據(jù)的挖掘,從中發(fā)現(xiàn)企業(yè)運作的本質規(guī)律,優(yōu)化企業(yè)本身的運作[10],或進行有效的客戶關系管理。
常用于銀行業(yè)的數(shù)據(jù)挖掘方法主要包括:
(1)預測型方法:分類(Classification)/決策樹算法(DecisionTree)、回歸分析(Regression)、時間序列分析(TimeSeries)。
(2)描述型(Descriptive)方法:關聯(lián)分析(AssociationAnalysis)、序列關聯(lián)分析(SequentialAnalysis)、聚類分析(Clustering)。
將上述方法應用于銀行業(yè)領域,其可實現(xiàn)的功能主要包括:大客戶特征的識別、客戶群體細分、客戶流失的預測與控制、業(yè)務預測、理財產品銷量預測、客戶欺騙的早期識別等方面。
二、中小商業(yè)銀行數(shù)據(jù)倉庫的設計
(一)個人銀行數(shù)據(jù)倉庫構建
1.個人銀行數(shù)據(jù)倉庫的體系結構
(二)企業(yè)銀行數(shù)據(jù)倉庫構建
1.企業(yè)銀行數(shù)據(jù)倉庫的體系結構
四、結論
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在我國中小商業(yè)銀行中的應用尚處于探討階段。本文在對數(shù)據(jù)倉庫與數(shù)據(jù)挖掘相關理論進行分析的基礎之上,認為將其運用于我國中小商業(yè)銀行具有可行性。以某銀行的業(yè)務情況為例,對個人及企業(yè)銀行數(shù)據(jù)倉庫的組織構建進行設計,實施多維數(shù)據(jù)分析,進行數(shù)據(jù)挖掘操作及分析,認為通過應用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術,可以獲得巨大的信息收益?!?/p>
(責任編輯:張恩娟)
參考文獻:
[1]BendellJ.DataModelingandDatabaseDesignforDataWarehouses:TheDataWarehousingInstitute,1996.
[2]袁虹,何厚存.聯(lián)機分析及數(shù)據(jù)倉庫的建模技術[J].計算機應用研究,1999(12):61-63.
[3]史金紅,吳永明.影響數(shù)據(jù)倉庫成功的關鍵因素[J].電子工程師.2000(1):9-13.
[4]韋洛霞.數(shù)據(jù)倉庫與OLAP[J].東莞理工學院學報,2000(2):19-24.
[5]蔣翊凌.基于數(shù)據(jù)倉庫的銀行業(yè)務數(shù)據(jù)挖掘研究[D].上海:華東師范大學,2006.
[6]孫其輝.基于數(shù)據(jù)倉庫的集裝箱支線運輸DSS研究[D].遼寧:大連海事大學,2008.
[7]趙璐.數(shù)據(jù)挖掘技術及其在電信系統(tǒng)應用的研究[D].吉林:長春理工大學,2009.
[8]徐奇,楊光敏,歐陽學兵,靳志宏.基于數(shù)據(jù)倉庫的口岸跨境運輸決策支持與系統(tǒng)實現(xiàn)[J].交通信息與安全,2011(3):110-115.
[9]靳志宏,徐奇,蘭輝.集裝箱多式聯(lián)運的多維數(shù)據(jù)分析與數(shù)據(jù)挖掘[J].集美大學學報.2011(4).
[10]ZhihongJin,QiXu.TheRealizationofDecisionSupportSystemforCross-borderTransportationBasedontheMulti-dimensionalDatabase.JournalofSoftware,2012(5).