• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于決策樹方法的信用卡信譽(yù)檢測

    2011-12-27 08:16:46
    中原工學(xué)院學(xué)報 2011年4期
    關(guān)鍵詞:信譽(yù)決策樹信用卡

    周 宓

    (泉州師范學(xué)院,福建泉州 362000)

    基于決策樹方法的信用卡信譽(yù)檢測

    周 宓

    (泉州師范學(xué)院,福建泉州 362000)

    介紹了決策樹分類方法,建立了基于決策樹方法的信用卡信譽(yù)檢測模型,并用該模型進(jìn)行了信用卡信譽(yù)檢測實驗.結(jié)果表明,基于決策樹的信譽(yù)檢測方法可為銀行信用卡風(fēng)險管理提供有效信息,規(guī)避可能出現(xiàn)的壞賬風(fēng)險.

    信譽(yù)檢測;數(shù)據(jù)挖掘;決策樹;測全率;測準(zhǔn)率

    由于我國銀行信用卡業(yè)務(wù)的急劇擴(kuò)展,產(chǎn)生了規(guī)模巨大的信用卡交易數(shù)據(jù),迫切需要對各種數(shù)據(jù)進(jìn)行有效的管理和挖掘.

    數(shù)據(jù)挖掘[1](Data M ining,DM)又被稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(Know ledge Discovery in Database,KDD),通常是指從數(shù)據(jù)源(如數(shù)據(jù)庫、文本、圖片、萬維網(wǎng)等)中探尋有用的模式(Patterns)或知識的過程.這些模式必須有用、有潛在價值,并且是可以被理解.

    信用卡數(shù)據(jù)因其巨大的數(shù)據(jù)量以及繁雜的屬性信息,常規(guī)手段無法從中直接得出有效直觀的規(guī)則,以降低信用卡信譽(yù)欺詐和控制信用卡壞賬風(fēng)險.采用數(shù)據(jù)挖掘技術(shù),可以處理大量的信用卡業(yè)務(wù)數(shù)據(jù),從中找出有價值的信息.

    本文結(jié)合預(yù)處理過的數(shù)據(jù),采用數(shù)據(jù)挖掘中的決策樹方法進(jìn)行信用卡信譽(yù)檢測模型的建立,并對實驗結(jié)果進(jìn)行分析.

    1 基于決策樹的檢測模型

    1.1 決策樹分類法

    決策樹學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一.它對數(shù)據(jù)進(jìn)行分類,以達(dá)到預(yù)測的目的.決策樹方法首先根據(jù)訓(xùn)練集數(shù)據(jù)形成決策樹,如果該樹不能對所有對象給出正確的分類,那么選擇一些例外加入到訓(xùn)練集數(shù)據(jù)中,重復(fù)該過程一直到形成正確的決策集.決策樹的一個非常突出的優(yōu)勢就是能處理非數(shù)值數(shù)據(jù),免去了將非數(shù)值數(shù)據(jù)轉(zhuǎn)化為數(shù)值數(shù)據(jù)的預(yù)處理工作,且它的分類結(jié)果通俗易懂,極易轉(zhuǎn)化成SQL語句.

    目前,決策樹己經(jīng)發(fā)展出了多種算法,如CART、ASSISTAN T、ID3、C4.5 和 C5.0 等 ,其中應(yīng)用最廣泛、最具有代表性的當(dāng)屬1986年Quinlan J R提出的ID3算法[2].

    ID3算法以信息論為基礎(chǔ),以信息熵和信息增益作為實體選擇重要屬性的衡量標(biāo)準(zhǔn).它以信息增益最大的屬性作為決策樹的根結(jié)點,由該結(jié)點的不同取值建立樹的分枝,然后對各分枝運(yùn)行同樣的遞歸算法,從而實現(xiàn)對數(shù)據(jù)的分類歸納.ID3算法的基本思路如下[3]:

    設(shè)S為一個包含s個數(shù)據(jù)樣本的集合,每個樣本具有2個不同的類別屬性:正例和反例,這里將它記為Li,i=1,2.假設(shè)類別Li中的樣本個數(shù)為Si,那么要對一個給定數(shù)據(jù)集進(jìn)行分類所需要的信息量為:

    設(shè)一個屬性X取n個不同的值{x1,x2,…,xn},依據(jù)不同的取值將集合S劃分為n個子集{S1,S2,…,Sn},其中Sj包含了S集合中屬性X取xj值的數(shù)據(jù)樣本,若屬性X被選為測試屬性(用于對當(dāng)前樣本集進(jìn)行劃分),設(shè)Sy為子集Sj中屬于類別L i的樣本集,利用屬性X劃分當(dāng)前樣本集合所需要的信息熵:

    這樣利用屬性X對當(dāng)前分支結(jié)點進(jìn)行相應(yīng)樣本集合劃分所獲得的信息增益是:

    信息增益是指信息熵的有效減少量,該量越高,表明目標(biāo)屬性在該參考屬性那兒失去的信息熵越多,那么該屬性越應(yīng)該在決策樹的上層.

    ID3算法采用自頂向下不回溯策略,遍歷可能的決策空間,能夠保證找到一個簡單的樹[4].信息增益正是在ID3算法增長樹的每一步中選取最佳屬性的度量標(biāo)準(zhǔn).選取屬性作為決策樹結(jié)點的原則是:取能夠得到最大信息增益的屬性來分類形成樹,然后依次檢測每個候選屬性,用相同的處理過程遞歸地形成決策子樹S1,S2,…,Sn.

    但是ID3算法存在以下明顯的缺點[5]:

    (1)ID3算法采用信息增益作為屬性選擇的度量標(biāo)準(zhǔn),所以它傾向于選擇取值較多的屬性.

    (2)ID3算法只能處理離散型數(shù)據(jù),所以它在進(jìn)行構(gòu)建決策樹前要先對屬性進(jìn)行離散化處理.

    針對以上不足,Quinlan J R在1993年對ID3算法進(jìn)行了補(bǔ)充和改進(jìn),提出了后來比較流行的C4.5算法[6].

    (1)C4.5算法采用信息增益比而非信息增益來選擇屬性,消除多值傾向,其中確定屬性X本身需要的信息熵是:

    則屬性X相對應(yīng)的信息增益比為:

    采用此增益比劃分屬性得到?jīng)Q策樹,其中每個結(jié)點取具有最大信息增益比的屬性.該方法簡單高效,結(jié)論可靠,無需很強(qiáng)的相關(guān)知識.

    (2)C4.5算法能完成對連續(xù)屬性的離散化處理.具體來說就是對某個連續(xù)屬性A,找到一個最佳閉值T,根據(jù)A的取值與閉值的比較結(jié)果,建立兩個分支A<=T(左支)和A>=T(右支),T為分割點,從而用一個二值離散屬性A(只有兩種取值A(chǔ)<=T、A>=T)替代A,將問題又歸為離散屬性的處理.這一方法既可以解決連續(xù)屬性問題,又可以找到最佳分割點,同時解決了人工試驗尋找最佳閉值的問題.

    但是C4.5算法構(gòu)建決策樹的效率較低,因為它需要對數(shù)據(jù)集進(jìn)行多次的掃描和排序,所以它只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集.而C5.0不僅在執(zhí)行效率上對C4.5進(jìn)行了改進(jìn),而且它允許應(yīng)用于大數(shù)據(jù)集上的分類預(yù)測.

    1.2 模型建立

    本文采用決策樹方法建立信用卡信譽(yù)檢測模型.模型如圖1所示.

    圖1 決策樹檢測模型

    2 信用卡數(shù)據(jù)描述

    由于現(xiàn)階段國內(nèi)沒有公開的信用卡持卡人交易數(shù)據(jù),因此選取的是國外某銀行發(fā)布的信用卡數(shù)據(jù).信用卡數(shù)據(jù)由8個ASC文件組成,分別為ACCOUN T.ASC,CL IEN T.ASC,D ISP.ASC,ORDER.ASC,TRANS.ASC,LOAN.ASC,CARD.ASC,D ISTRICT.ASC,包含持卡人、持卡人對應(yīng)的賬戶信息所包含的關(guān)聯(lián)信息以及相關(guān)數(shù)據(jù).數(shù)據(jù)關(guān)聯(lián)如圖2所示.

    數(shù)據(jù)的初始格式為文本格式,將其預(yù)先處理存儲到數(shù)據(jù)庫中.本文選取了SQL server 2000,并在數(shù)據(jù)庫基礎(chǔ)上對數(shù)據(jù)進(jìn)行了統(tǒng)計分析和屬性抽取.抽取如下13個屬性用于后面的數(shù)據(jù)挖掘訓(xùn)練及測試:

    (1)Sex:顧客性別;

    (2)Age:顧客年齡;

    圖2 數(shù)據(jù)關(guān)聯(lián)圖

    (3)Amount of loan:顧客的借貸總額;

    (4)Loan duration:借貸歸還的時間區(qū)間;

    (5)Type of the credit card:顧客所持有的信用卡類別;

    (6)District:顧客居住的地區(qū);

    (7)M inim um amount:在某時間段內(nèi)該客戶所有交易中的最小額度;

    (8)M axim um amount:在某時間段內(nèi)該客戶所有交易的最大額度;

    (9)Average amount:在某時間段內(nèi)該客戶所有交易的平均額度;

    (10)M inim um account:在某時間段內(nèi)該賬戶所有交易的最小額度;

    (11)M axim um account:在某時間段內(nèi)該賬戶所有交易的最大額度;

    (12)Average account:在某時間段內(nèi)該賬戶所有交易的平均額度;

    (13)Credit status:信用卡信譽(yù)狀態(tài),離散屬性,A表示優(yōu)質(zhì)信譽(yù)客戶,B表示非優(yōu)質(zhì)信譽(yù)客戶.

    根據(jù)數(shù)據(jù)數(shù)量,對上述提到的某時間段本文取一年為限定條件.其中第13個屬性為信用卡信譽(yù)狀態(tài),并且是本文信用卡信譽(yù)檢測的目標(biāo)屬性.

    3 實驗結(jié)果與分析

    3.1 實驗環(huán)境

    本文在 W indow XP的系統(tǒng)環(huán)境下,使用 SQL server 2000存儲實驗數(shù)據(jù),采用C5.0算法構(gòu)建信用卡信譽(yù)檢測模型.

    3.2 評估標(biāo)準(zhǔn)

    本文建立了多個信用卡信譽(yù)檢測模型,并對其進(jìn)行了以下測準(zhǔn)率和測全率兩方面的統(tǒng)計與評估.測試集數(shù)據(jù)通過信用卡信譽(yù)檢測模型后,輸出結(jié)果被劃分為兩類:A(優(yōu)質(zhì)信譽(yù)客戶)和B(非優(yōu)質(zhì)信譽(yù)客戶).其中A數(shù)據(jù)中包含真實信譽(yù)為A的數(shù)據(jù) Ta以及真實信譽(yù)為B而被誤判為A的數(shù)據(jù)Fa;分類結(jié)果B的數(shù)據(jù)包含 Tb和Fb,解釋同理.

    (1)A的測準(zhǔn)率=Ta/(Ta+Fa);

    (2)A的測全率=Ta/(Ta+Fb);

    (3)B的測準(zhǔn)率=Tb/(Tb+Fb);

    (4)B的測全率=Tb/(Tb+Fa).

    為了避免單次實驗結(jié)果的偶然性,本文采取對數(shù)據(jù)進(jìn)行多次隨機(jī)分組,將每次分組得到的訓(xùn)練集和測試集作為多個信用卡檢測模型建立方法的輸入,得到各個檢測模型的檢測效果并進(jìn)行比較和評估.

    3.3 結(jié)果統(tǒng)計

    本文建立了一個基于決策樹的信譽(yù)檢測模型,將數(shù)據(jù)預(yù)處理后得到的訓(xùn)練集中所有13個屬性數(shù)據(jù)作為模型建立方法的輸入,訓(xùn)練得到一個檢測模型,以此來對測試集進(jìn)行測試分類.相關(guān)實驗結(jié)果如表1、表2所示.

    表1 決策樹中A類預(yù)測效果

    表2 決策樹中B類預(yù)測效果

    從表1和表2可以看出,決策樹方法對A類的預(yù)測效果,不論是測全率還是測準(zhǔn)率均較高;對B類預(yù)測效果的測準(zhǔn)率也較高.

    4 結(jié) 語

    本文研究了基于決策樹的信用卡客戶信譽(yù)檢測,其目的是在銀行已有的大量數(shù)據(jù)基礎(chǔ)上建立信用卡信譽(yù)檢測模型,根據(jù)當(dāng)前信用卡用戶特征幫助銀行對用戶信譽(yù)進(jìn)行檢測,預(yù)防未來可能出現(xiàn)的壞賬情況.

    由于信用卡數(shù)據(jù)處于不斷增長中,且用戶的行為有可能在未來發(fā)生改變,而本文建立的模型是基于靜態(tài)數(shù)據(jù)得到的,沒有考慮到實際中的動態(tài)變化.可以將用戶的行為視為不斷連續(xù)變化的,結(jié)合行為時效性及在線算法,建立一個能適應(yīng)時間變化的信譽(yù)檢測模型,是接下來需要研究的內(nèi)容.

    [1]Vapnik V N.The Nature of Statistical Learning Theo ry[M].New York:Sp ringer-Verlag,1995.

    [2]Quinlan J R.Induction of Decision Tree[J].Machine Learning,1986,l(l):86-106.

    [3]吳婷.數(shù)據(jù)挖掘在信用卡欺詐識別上的應(yīng)用研究[D].南京:東南大學(xué),2006.

    [4]曹忠升,薛梅艷.基于決策樹的軟件分類方法[J].計算機(jī)工程,2008,34(1):56-58.

    [5]于莉.常用的決策樹生成算法分析[J].天津市財貿(mào)管理學(xué)院學(xué)報,2008(2):20.

    [6]毛聰莉,易波.基于決策協(xié)調(diào)度的最簡決策樹生成算法[J].計算機(jī)工程與設(shè)計,2008,29(5):1250-1252.

    Reputation Detection of Credit Card Based on Decision Tree

    First,the classificationmethod of decision tree in reputation detection of credit card is introduced,and then themodel of reputation detection of credit card isestabished.Reputation detection test has been done by thismodel.Themethod p rovides effective info rmation fo r banks in the risk management of credit card,and guarantee the bank asset safety in the future.

    credit classify;datamining;decision tree;sensitivity;specificity

    ZHOU M i
    (Quanzhou No rmal University,Quanzhou 362000,China)

    TP393

    A

    10.3969/j.issn.1671-6906.2011.04.017

    1671-6906(2011)04-0075-04

    2011-07-08

    周 宓(1981-),女,福建泉州人,碩士.

    猜你喜歡
    信譽(yù)決策樹信用卡
    以質(zhì)量求發(fā)展 以信譽(yù)贏市場
    信譽(yù)如“金”
    華人時刊(2019年13期)2019-11-26 00:54:42
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    信用卡資深用戶
    信用卡詐騙
    基于決策樹的出租車乘客出行目的識別
    辦信用卡透支還債夫妻均獲刑10年
    公民與法治(2016年6期)2016-05-17 04:10:39
    江蘇德盛德旺食品:信譽(yù)為翅飛五洲
    華人時刊(2016年19期)2016-04-05 07:56:08
    “人卡分離”時信用卡惡意透支的刑事責(zé)任及思考
    商都县| 色达县| 昭通市| 库车县| 亚东县| 台中县| 三台县| 胶南市| 惠水县| 隆安县| 罗平县| 北宁市| 巍山| 漳平市| 长岛县| 虎林市| 陕西省| 郯城县| 呈贡县| 会东县| 昂仁县| 南部县| 宜川县| 汝阳县| 沧州市| 阳朔县| 河南省| 柳州市| 南岸区| 临澧县| 乌苏市| 文山县| 嘉义县| 清水河县| 瓮安县| 长宁县| 天祝| 余庆县| 温州市| 沿河| 金塔县|