• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于決策樹算法的銀行客戶分類模型*

      2014-09-06 07:46:26尹鵬飛
      吉首大學學報(自然科學版) 2014年5期
      關鍵詞:剪枝結點決策樹

      尹鵬飛,歐 云

      (1.中南大學信息科學與工程學院,湖南 長沙 410000,2.吉首大學信息科學與工程學院,湖南 吉首 416000)

      基于決策樹算法的銀行客戶分類模型*

      尹鵬飛1,2,歐 云2

      (1.中南大學信息科學與工程學院,湖南 長沙 410000,2.吉首大學信息科學與工程學院,湖南 吉首 416000)

      利用決策樹算法對銀行的信用卡客戶進行分類,構建了客戶分類模型,給出了分類步驟中信用卡的客戶類型特征,為銀行的信用卡推廣業(yè)務提供相應策略.

      數據挖掘;決策樹;剪枝;客戶分類

      從商業(yè)角度看,數據挖掘[1-2]是一種深層次的商業(yè)信息分析技術.按照企業(yè)既定業(yè)務目標,數據挖掘能對大量的企業(yè)數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性并進一步將其模型化,從而自動提取出用以輔助商業(yè)決策的相關商業(yè)模式.對于銀行來說,一個新客戶的到來,銀行應該針對客戶的信息,判斷客戶可能的類別,然后采用針對性較強的銷售策略,以獲得最高的效益.采用決策樹,借助計算機對客戶數據進行挖掘,并進行客觀地分類分析,是一種科學且快捷的方法.在商業(yè)銀行中,利用數據挖掘對客戶進行分類,會發(fā)現(xiàn)申請或不申請信用卡的客戶類型特征,從而為銀行的信用卡推廣業(yè)務制定相應策略,降低風險,提高利潤.筆者研究了利用決策樹算法對銀行客戶進行分類的方法.

      1 決策樹算法

      決策樹采用樣本的屬性作為節(jié)點,屬性的取值作為分支,利用信息論原理對大量樣本的屬性進行分析和歸納.決策樹的根節(jié)點是所有樣本中信息量最大的屬性,中間節(jié)點是以該節(jié)點為根的子樹所包含的樣本子集中信息量最大的屬性,葉節(jié)點是樣本的類別值.

      1.1決策樹生成算法

      該算法構造的結果是一棵二叉或多叉樹:二叉樹的內部結點(非葉子結點)一般表示為一個邏輯判斷,樹的邊是邏輯判斷的分支結果;多叉樹的內部結點是屬性,邊是該屬性的所有取值,有幾個屬性值就有幾條邊.

      構造決策樹的方法通常采用自上而下的遞歸構造,其基本思路如下:

      (ⅰ)以代表訓練樣本的單個結點開始建樹.

      (ⅱ)若樣本都在同一個類,則該結點成為樹葉,并用該類標記.

      (ⅲ)否則,算法使用信息增益的基于熵的度量為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性,該屬性成為該結點的“測試”或“判定”屬性.

      (ⅳ)對測試屬性的每個已知的值創(chuàng)建一個分支,并據此劃分樣本.

      (ⅴ)使用同樣的過程,遞歸地形成每個劃分上的樣本決策樹,一旦一個屬性出現(xiàn)在一個結點上,就不必考慮該結點的任何后代.

      (ⅵ)遞歸劃分每個步驟,當下列條件之一成立時停止劃分:(1) 給定結點的所有樣本屬于同一類;(2) 若沒有剩余屬性可以用來進一步劃分樣本,則采用多數表決;(3) 在分支test_attribute=ai沒有樣本時,以樣本中的多數類創(chuàng)建一個樹葉.

      1.2ID3算法

      ID3定義如下:(1)決策樹中每個非葉結點對應著一個非類別屬性,樹枝代表這個屬性的值,一個葉結點代表從樹根到葉結點之間的路徑對應的記錄所屬的類別屬性值;(2)每個非葉結點都與屬性中具有最大信息量的非類別屬性相關聯(lián);(3)采用信息增益來選擇能夠最好地將樣本分類的屬性.

      由此可知,ID3算法總是選擇具有最高信息增益(或最大熵壓縮)的屬性作為當前結點的測試屬性.設S是s個數據樣本的集合.假定類標號屬性具有m個不同值,定義m個不同類Ci(其中i=1,2,…,m),設si是類Ci中的樣本數.對一個給定的樣本分類所需的期望信息為

      (1)

      其中任意樣本屬于Ci的概率pi=si/s.

      設屬性A具有v個不同值a1,a2,…,aj,av,用屬性A將S劃分為v個子集{s1,s2,…,sj,sv},其中sj包含S中樣本,且在A上具有值aj.若A作為測試屬性,則這些子集對應于由包含集合S的結點生長出來的分支.設sij是子集Sj中類Ci的樣本數,則由A劃分成子集的熵為

      (2)

      Gain(A)=I(s1,s2,…,sm)-E(A).

      由ID3算法計算每個屬性的信息增益,并選取具有最高增益的屬性作為給定集合S的測試屬性.對被選取的測試屬性創(chuàng)建一個結點,并以該屬性標記,對該屬性的每個值創(chuàng)建一個分支,據此劃分樣本.

      1.3C4.5算法

      C4.5算法[3]是從ID3算法演變而來,除了擁有ID3算法的功能外,C4.5算法引入了新的方法并增加了新的功能.例如:(1)提出了信息增益比例的概念;(2)合并具有連續(xù)屬性的值;(3)可以處理具有缺少屬性值的訓練樣本;(4)通過使用不同的修剪技術以避免樹過度擬合;(5)k交叉驗證;(6)規(guī)則的產生方式.

      1.4決策樹剪枝

      決策樹的剪枝[4]通過一些度量減去不可靠的分支,以防止過分適應數據產生,剪枝可以分為先剪枝和后剪枝.先剪枝通過提前停止樹的構造而對樹剪枝,一旦停止,節(jié)點就成為葉節(jié)點;后剪枝是對完全生長的樹減去分支.在決策樹剪枝中,可以采用不同度量來評價分支的有效性,從而來決定是否剪枝.

      2 客戶分類模型

      銀行客戶可以分為信用卡客戶和非信用卡客戶.通過分析客戶的基本信息,利用數據挖掘方法可以獲得每類客戶的公共特征,保證信用卡推銷中做到有的放矢,提高成功率.

      文中討論的客戶分類模型[5]主要是針對信用卡客戶類型,通過對銀行信用卡客戶的一批樣本數據,采用決策樹C4.5算法對其進行訓練,提取客戶的公共特征,獲得1組分類規(guī)則,利用該組分類規(guī)則就可以對新客戶進行分類判斷,這樣可以有針對性地開展信用卡銷售業(yè)務,節(jié)省成本.

      2.1樣本數據

      文中采用了350條銀行客戶信息,其中使用300條記錄作為訓練樣本來構造決策分類樹,提取相應的分類規(guī)則,用剩下的50條記錄對得到的決策樹模型進行測試,驗證決策樹的分類效果.

      筆者利用的訓練和測試數據是經過預處理后的數據,含有9個字段屬性,分別為年齡、性別、所在地區(qū)、年收入、婚否、是否有小孩、是否有汽車、是否抵押貸款、是否信用卡客戶.其中:年齡屬性為整型值,記錄客戶的年齡值;性別屬性為二值屬性,取值為男(MALE)、女(FEMALE);所在地區(qū)屬性為類別屬性,這里用的是經過預處理后的值,取值分別為城市(CITY)、城市郊區(qū)(SUBURBAN)、農村(RURAL)、鄉(xiāng)鎮(zhèn)(TOWN);年收入為數值型,記錄客戶的年收入信息,本字段數據沒有進行離散化處理;婚否屬性為二值屬性,取值為已婚(YES)、未婚(NO);是否有小孩屬性為二值屬性,這里的數據取值為經過了預處理的數據,分別取值為有小孩(YES)、無小孩(NO);是否有汽車屬性也為二值屬性,取值為有汽車(YES)、無汽車屬性(NO);是否抵押貸款屬性為二值屬性,取值為有抵押貸款(YES)、無抵押貸款(NO),文中用到的數據也是經過預處理后的數據;是否信用卡客戶屬性也為二值屬性,取值為信用卡客戶(YES)、非信用卡客戶(NO),在訓練樣本中,這個屬性的取值是有真實值的,而在測試數據集中,這個值是需要進行預測的,所以用“?”替代了它的真實值.通過對訓練樣本采用C4.5算法來構造1棵決策樹,然后利用構造的決策樹對測試數據中的信用卡客戶屬性值進行預測.

      部分原始的訓練樣本和測試數據格式如表1,2所示.其中:C代表是否有小孩;A代表是否有汽車;M代表是否抵押貸款;CC代表信用卡客戶;F代表女;M代表男;Y代表YES;N代表NO.

      表1 訓練樣本數據

      表2 測試數據

      2.2分類訓練流程

      文中采用開源的數據挖掘工具weka進行實驗.首先,將實驗的數據轉換成weka定義的文本格式;然后,將轉換后的文本數據作為數據源輸入到weka中.采用C4.5算法對客戶數據進行分類訓練流程如下:

      (ⅰ)讀取數據集名稱及內容.

      (ⅱ)讀取由@attribute所標記的屬性字段名稱及每個字段的取值類型.

      (ⅲ)對離散型數據與連續(xù)型數據分別用相應的數據結構存放.

      (ⅳ)讀取由@data所標識的區(qū)域的樣本數據:(1)以增量方式讀取每個樣本;(2)對樣本的每個屬性進行合法性檢查(主要檢查屬性值是否符合所定義數據類型);(3)將所有的樣本存儲在一個表中,每行代表一個樣本.

      (ⅴ)利用數據集構建樹:(1)基本算法與ID3相同,利用其他附屬功能計算增益;(2)遞歸調用程序構建子樹,直至所有的樣本分類完畢;(3)根據設置的參數進行樹的剪枝操作.

      (ⅵ)從樹中抽取規(guī)則RULES:(1)所有的葉存儲在一個列表中,每個結點存儲指向父結點的指針;(2)利用葉列表及指向父結點的指針生成規(guī)則表(下一步的分類都以抽取的規(guī)則為基礎).

      (ⅶ)測試生成的樹:每個訓練k-樹都對應著一個k-集,每個樹都產生對訓練集及測試集分類的規(guī)則:(1)產生分類錯誤的計數;(2)分別對訓練數據及測試數據的錯誤進行計算.

      (ⅷ)計算所有k-樹上的結果的平均值,預測最終結果.

      2.3實驗結果與分析

      由300條樣本數據構造一棵葉子節(jié)點為17個、總節(jié)點為31的決策樹,采用剪枝操作,剪枝比例設置為25%,k交叉驗證中的k設置為10.分類結果表明,分類正確的樣本數為268個,占總樣本數的89.3%,分類錯誤的樣本數為32個,占總樣本數的11.7%.實驗詳細結果見表3.

      表3 實驗詳細結果

      文中構建的決策樹如下所示:

      children=YES

      income<=30099.3

      car=YES:NO (50.0/15.0)

      car=NO

      married=YES

      income<=13106.6:NO (9.0/2.0)

      income>13106.6

      mortgage=YES:YES (12.0/3.0)

      mortgage=NO

      income<=18923:YES (9.0/3.0)

      income>18923:NO (10.0/3.0)

      married=NO:NO (22.0/6.0)

      income>30099.3:YES (59.0/7.0)

      children=NO

      married=YES

      mortgage=YES

      region=CITY

      income<=39547.8:YES (12.0/3.0)

      income>39547.8:NO (4.0)

      region=RURAL:NO (3.0/1.0)

      region=TOWN:NO (9.0/2.0)

      region=SUBURBAN:NO (4.0/1.0)

      mortgage=NO:NO (57.0/9.0)

      married=NO

      mortgage=YES

      age<=39

      age<=28:NO (4.0)

      age>28:YES (5.0/1.0)

      age>39:NO (11.0)

      mortgage=NO:YES (20.0/1.0)

      構建好決策樹后,利用50條數據對決策樹進行測試.測試結果如下:分類正確的樣本數為44個,占整個測試樣本的88%;分類錯誤的樣本數為6個,占整個測試樣本的12%.

      最后,根據決策樹抽取17條規(guī)則,部分規(guī)則描述如下:

      (1)IF Children=yes and Income>30099.3 THEN CreditCard=YES;

      (2)IF Children=yes and Income<=30099.3 and Car=YES THEN CreditCard=YES;

      (3)IF Children=No and Married=No and Mortgage=No THEN CreditCard=YES;

      (4)IF Children=No and Married=Yes and Mortgage=Yes and region=rural THEN CreditCard=NO.

      其余規(guī)則見決策樹.

      3 結語

      決策樹是數據挖掘中一個常用的算法工具,因此它易于轉化為圖像顯示,所以在決策支持中應用廣泛.C4.5算法是在ID3的基礎上改進而成的,修正了ID3的剪枝算法,并對高分支屬性、數值型屬性和含空值屬性的整理有了系統(tǒng)地描述.文中采用C4.5算法,利用銀行客戶信息構造了一棵分類決策樹,并以決策樹為基礎,抽取相應的分類規(guī)則建立了一個銀行信用卡客戶分類模型,對一批測試數據進行測試,從而驗證了模型的有效性.

      [1] HAB J,KAMBER M.Data Mining Concepts and Techniques[M].[S.l.]:Morgan Kaufmann Publishers,2000.

      [2] 周根貴.數據倉庫與數據挖掘[M].杭州:浙江大學出版社,2004:16-20.

      [3] 王曉國,黃韶坤,朱 煒,等.應用C4.5算法構造客戶分類決策樹的方法[J].計算機工程,2003(14):89-91.

      [4] 張曉龍,駱名劍.基于IF_THEN規(guī)則的決策樹裁剪算法[J].計算機應用,2005(9):1 986-1 988.

      [5] 郭 明.基于決策樹的客戶流失分析[J].廣東通信技術,2004(11):37-40.

      (責任編輯 陳炳權)

      ApplicationofDecisionTreeinBankCustomerClassification

      YIN Pengfei1,2,OU Yun2

      (1.College of Information Science and Engineering,Central South University,Changsha 410000,China;2.School of Information Science and Engineering,Jishou University,Jishou 416000,China)

      Decision tree is applied to classify the credit card customers of bank,and thus a classifying model is constructed.The features of different types of customers are discovered accordingly,which provides a best strategy for promoting the bank's credit card business.

      data mining;decision tree;pruning;customer classification

      1007-2985(2014)05-0029-04

      2014-02-16

      湖南省教育廳科學研究項目(14C0922)

      尹鵬飛(1978—),男,湖南桃江人,中南大學計算機應用專業(yè)博士生,吉首大學信息科學與工程學院講師,主要從事數據挖掘、推薦算法等研究.

      TP274

      A

      10.3969/j.issn.1007-2985.2014.05.008

      猜你喜歡
      剪枝結點決策樹
      人到晚年宜“剪枝”
      基于YOLOv4-Tiny模型剪枝算法
      一種針對不均衡數據集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      Ladyzhenskaya流體力學方程組的確定模與確定結點個數估計
      剪枝
      天津詩人(2017年2期)2017-03-16 03:09:39
      基于決策樹的出租車乘客出行目的識別
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      一種面向不平衡數據分類的組合剪枝方法
      計算機工程(2014年6期)2014-02-28 01:26:33
      基于Raspberry PI為結點的天氣云測量網絡實現(xiàn)
      淮南市| 喀什市| 扎兰屯市| 清水河县| 乌兰察布市| 赣州市| 普兰店市| 台中市| 环江| 台湾省| 自贡市| 永靖县| 天门市| 苍溪县| 贵港市| 临沭县| 临桂县| 云龙县| 水富县| 六盘水市| 舞阳县| 淮阳县| 方正县| 镇宁| 河池市| 重庆市| 德保县| 龙陵县| 樟树市| 布尔津县| 新和县| 乌恰县| 萨迦县| 象州县| 易门县| 荆州市| 从化市| 天水市| 大英县| 巴林左旗| 五台县|