李 翠,周瑞濤,王曉輝
(青島黃海學院,山東 青島 266555)
客戶群分類是對銀行所開展的電子銀行業(yè)務按照客戶的使用和辦理情況進行分類,為銀行進行客戶關系管理提供依據??蛻羧悍诸愂强蛻絷P系管理(CRM)很重要的一環(huán),可以說是必不可少的。
銀行客戶的分類通過數據挖掘技術來對進行,具體操作可以根據事先指定的規(guī)則找到滿足規(guī)則的客戶群;也可以對客戶利用聚類方法進行自然分群;還可以根據交易行為對客戶進行分類,以確定什么樣的客戶最有可能為銀行創(chuàng)造高的利潤[1]。如何利用現有的銀行數據,對電子銀行客戶進行識別,找到高價值的客戶并為之提供個性化的服務,是留住客戶、維持與客戶良好關系的有效方法。本文主要針對電子銀行客戶的分類預測方法進行了簡述。
分類是一種被廣泛應用的數據分析方式,它是描述數據結構類的重要模型,可以用它來預測離散的、無序的數據類別。數據分類是一個兩階段的過程,包括構造分類器的訓練階段和使用分類器預測給定數據的類別的分類階段。數據挖掘中的分類算法有很多,常用的有決策樹、基于規(guī)則的分類、貝葉斯等[2]。
20世紀70年代后期和80年代初期J. Ross Quinlan在E.B. Hunt,J. Marin和P. T. Stone的概率學習系統(tǒng)的基礎上,提出了迭代的二分器方法即經典的ID3決策樹算法[3]。后來,Quinlan又在ID3的基礎上進行了改進,提出了C4.5決策樹算法,并成為新的監(jiān)督學習算法的性能比較基準。1984年,多位統(tǒng)計學家出版了著作《Classification and Regression Trees》,介紹了二叉決策樹的概念,這標志著CART方法的產生[4]。這兩種算法大約同時間出現引發(fā)了決策樹歸納研究的浪潮。
決策樹需要從標有類標號的訓練集中訓練得到。它是一種樹形的結構,類似于流程圖,其中內部結點是對某個屬性值的判斷,每個分枝是該判斷的一個輸出,而每個樹葉結點存放一個類標號,樹的最頂層是根結點[5]。
貝葉斯分類是用來表示類隸屬關系的概率大小。貝葉斯分類是基于貝葉斯定理的分類方法。樸素貝葉斯分類的思想:假設D是訓練元組的集合。其中每一個元組用一個n維向量X={x1,x2,…xn}來表示,xi表示第i個屬性值。X表示該元組在n個屬性A1,A2,…An上的測量值;假定有m個類C1,C2,…Cm。給定元組X,分類法將預測在條件X下,該元組屬于具有最高后驗概率的類的大小。也就是說,樸素貝葉斯分類法預測X屬于Ci,當且僅當
這樣,找出使P(Ci|X)最大的類Ci,類Ci即被稱作最大后驗假設。根據貝葉斯定理
由于P(X)為固定的常數,所以只需要找到一個類Ci,使P(X|Ci)P(Ci)最大即可。
規(guī)則是一種表示少量信息和知識的有效方法?;谝?guī)則的分類,需要構造一系列的IF-THEN規(guī)則,可以用如下形式的表達式來表示:
IF 條件 THEN 結論
其中,IF后邊的部分被稱為規(guī)則前件或簡稱為前提,THEN后邊的部分是規(guī)則的結論。在規(guī)則前件中,條件可以被分解為一個或者多個用邏輯連接詞“與”連接起來的屬性表達式,規(guī)則的結論部分是對一個類的預測。如果對于一個給定的元組,規(guī)則前件中的所有屬性表達式都成立,就可以說規(guī)則前件成立,并且規(guī)則覆蓋了該元組。
神經網絡最先由心理學家和神經學家提出,目的是為了找尋開發(fā)和檢測神經的計算模型。概括的來講,神經網絡是由一組相互連接的輸入、輸出單元構成,其中每個連接都有一個權重。在神經網絡的學習階段,通過調整連接的權重,使得它能夠將輸入元組從相應的類標號處輸出。由于單元之間存在連接,神經網絡學習又被形象的叫做連接者學習[6]。目前應用最廣泛的神經網絡模型之一BP神經網絡,其組成如圖1所示。
圖1 BP神經網絡
圖1中,BP神經網絡包含三層,每層由一些單元組成。每個訓練元組的屬性值測量對應于網絡的輸入,這些輸入通過輸入層,然后加權輸送給稱作隱含層的神經元,最終由輸出層發(fā)布給定元組的網絡預測。
神經網絡的優(yōu)點是其對噪聲的抗干擾能力強,并且不需要知道屬性和類之間聯(lián)系的知識,但是神經網絡的訓練需要很長的時間,并且需要知道如網絡拓撲或結構等的大量參數,而這些參數又主要是靠經驗來獲得。
粗糙集理論是由Z.Pawlak 教授在1982年提出的一種數學工具,它主要用于處理不確定性和含糊性的知識,其基本思想是在保證分類能力不降低的前提下,經過對知識的約簡,推導出概念的分類規(guī)則。它的優(yōu)點是不需要相關數據集合外的其他先驗信息,適合發(fā)現那些潛在的和隱含的規(guī)則。屬性簡約作為數據挖掘的一個預處理步驟,也是粗糙集理論的核心應用之一[7]。粗糙集理論的處理思想和算法基礎來源于其基本概念定義,下邊介紹幾個主要的定義。
C4.5決策樹算法利用貪心的思想,采用自頂向下遞歸的分治方法構造得來。大多數的決策樹從訓練集和其相關聯(lián)的類標號開始構造,隨著樹深度的遞增,訓練集逐漸被劃分為較小的子集。
構造決策樹的核心是利用分裂準則選擇合適的分裂屬性來分裂獲得子集。如果能找到一個好的分裂準則使所有分枝上的輸出元組是純的,這就是一個最優(yōu)的分裂準則。
決策樹C4.5算法主要步驟分兩大部分,分別為屬性選擇度量和剪枝。
(1)屬性選擇度量。屬性選擇度量是一種啟發(fā)式學習方法,表示選擇一種分類準則,可以把指定類標記的訓練元組劃分為單獨類的方法。將該分類準則應用于訓練元組,可以把數據分區(qū)劃分為較小的分區(qū)。最優(yōu)的情況下,落在每一個小分區(qū)的所有元組都具有相同的類標號。
屬性選擇度量為訓練元組的屬性選擇提供了評定標準,具有最高度量值的屬性被選為訓練元組的分裂屬性。具體操作為用選擇好的屬性度量來標記新創(chuàng)建的樹結點,分枝由度量的每個輸出生長出來,進而劃分元組。常用的屬性選擇度量有信息增益、信息增益率和基尼指數等,這也是區(qū)分ID3,C4.5和CART算法的關鍵所在。
(2)樹剪枝。在創(chuàng)建決策樹時,數據中往往存在離群點和噪聲,因此造成許多分枝表示的是訓練數據中的異常而不是正確的分枝,這種現象叫作過分擬合,剪枝就是處理這種現象的一種有效方法。通常,剪枝使用統(tǒng)計度量來減掉最不可靠的分枝。常用的剪枝方法有先剪枝和后剪枝。在先剪枝方法中,通過提前停止樹的構建達到樹剪枝的效果。當樹構建停止時,結點就變成了樹葉。
在采用先剪枝方法構造樹的過程中,可以用信息增益、統(tǒng)計顯著性、基尼系數等度量來評估劃分的優(yōu)劣。如果選擇某個結點劃分元組導致低于預定義的閾值,則停止對該結點輸出的元組進一步的劃分,樹的構造因此停止。然而,找出合適的閾值是非常困難的。所以在實際的使用中,后剪枝的方法使用較多。后剪枝方法是在完全生長的樹中減去子樹。通過刪除結點的分枝子樹并用子樹中最頻繁的類來標記該分枝作為樹葉來實現。
C4.5就是使用一種稱為悲觀剪枝的后剪枝方法,使用錯誤率決定對哪個子樹進行剪枝。悲觀剪枝不使用剪枝集,所謂剪枝集是指獨立于建立未剪枝決策樹和用于準確率評估的數據集,而是使用訓練集來估算錯誤率。然而,基于訓練集評估準確率過于樂觀,因此具有較大的偏倚。所以,悲觀剪枝通過加上一個懲罰來調節(jié)從訓練集得到的錯誤率以抵消所出現的偏倚。
本文主要簡述了客戶管理系統(tǒng)中電子銀行客戶群預測的相關理論方法,包括常用的分類算法如決策樹分類,貝葉斯分類,基于規(guī)則的分類等,重點介紹了粗糙集理論的相關知識和C4.5的基礎知識。這些內容對客戶管理系統(tǒng)中客戶群的預測的工作起到基礎構建的作用。