• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于交易數(shù)據(jù)的信用評(píng)估方法

    2018-05-22 07:35:53周繼恩杜金泉
    關(guān)鍵詞:個(gè)人信用分類(lèi)器信用

    陳 煜 周繼恩 杜金泉

    (中國(guó)銀聯(lián)股份有限公司 上海 200135)

    0 引 言

    隨著大數(shù)據(jù)時(shí)代的到來(lái),各種各樣的用戶(hù)數(shù)據(jù)都可以用于轉(zhuǎn)化,評(píng)估,體現(xiàn)個(gè)人數(shù)據(jù)。日常消費(fèi)數(shù)據(jù)還有很大的挖掘價(jià)值。學(xué)術(shù)研究方面,國(guó)內(nèi)學(xué)者從定性和定量的角度對(duì)個(gè)人信用評(píng)估進(jìn)行了一系列的研究[5],但是目前為止尚未形成一種針對(duì)銀行卡交易數(shù)據(jù)的個(gè)人信用評(píng)估模型及體系。因此本文以個(gè)人信用評(píng)估方法為研究中心,結(jié)合銀行卡交易數(shù)據(jù),構(gòu)建一個(gè)新的個(gè)人信用評(píng)估模型。

    1941年,Divid Durand采用評(píng)分形式來(lái)評(píng)估個(gè)人信用,建立了經(jīng)典的消費(fèi)信貸評(píng)分標(biāo)準(zhǔn)。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,越來(lái)越多的計(jì)量方法應(yīng)用到了信用評(píng)估領(lǐng)域,比如統(tǒng)計(jì)學(xué)中的線(xiàn)性回歸方法和Logisitic回歸[6],機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)[3]、集成學(xué)習(xí)[8]、支持向量機(jī)[2]等,這些方法不斷完善著信用評(píng)估系統(tǒng)。

    1 信用模型構(gòu)建

    首先,本文著眼于個(gè)人信用模型的建立,采用的數(shù)據(jù)來(lái)源于線(xiàn)下刷卡、網(wǎng)上消費(fèi)等產(chǎn)生的交易數(shù)據(jù)。然后,針對(duì)問(wèn)題,提取有效的特征集,篩選特征并用于信用模型的訓(xùn)練。最后,對(duì)訓(xùn)練完成的信用評(píng)估模型驗(yàn)證,解釋結(jié)果,并做出相應(yīng)的決策建議。

    1.1 信用特征計(jì)算方法

    特征是指區(qū)分不同類(lèi)型的本質(zhì)特點(diǎn),在信用評(píng)估的問(wèn)題下,更偏向?qū)ふ?,?jì)算那些能夠用于區(qū)分信用好的用戶(hù)及信用差的用戶(hù)的特征,用戶(hù)的信用畫(huà)像由這些信用相關(guān)的特征組成。因此特征提取在提高分類(lèi)的準(zhǔn)確性中起著非常關(guān)鍵的作用。

    交易數(shù)據(jù)中包含的要素有:交易金額、交易時(shí)間、交易渠道、商戶(hù)代碼、交易地區(qū)、交易類(lèi)型、商戶(hù)類(lèi)型、卡類(lèi)型、卡介質(zhì)、發(fā)卡機(jī)構(gòu)、收單機(jī)構(gòu)等。在研究中,本文根據(jù)交易數(shù)據(jù),提取了眾多的特征,大體的方法主要分為三類(lèi):

    (1) 基于統(tǒng)計(jì)方法的特征提取 每個(gè)人所持有的卡數(shù)和產(chǎn)生交易的次數(shù)都不同。本文基于統(tǒng)計(jì)的方法提取了大部分特征。提取特征的常見(jiàn)方法有均值、方差、最大值、最小值、時(shí)率、占比等。基本上交易中絕大部分要素都可以通過(guò)統(tǒng)計(jì)的方法衍生出眾多的特征。

    (2) 利用聚類(lèi)方法,計(jì)算行為特征模型 有些人偏愛(ài)消費(fèi),有些人偏愛(ài)存取。依據(jù)每個(gè)人不同的行為偏好,采用聚類(lèi)的方法將目標(biāo)用戶(hù)分為幾類(lèi),利用聚類(lèi)方法針對(duì)不同群體計(jì)算行為特征。聚類(lèi)的場(chǎng)景可以是交易時(shí)間、交易渠道、交易金額、交易次數(shù)、交易頻率等。例如,消費(fèi)行為聚類(lèi)特征,將交易渠道分為四類(lèi){ POS ,ATM,電腦互聯(lián)網(wǎng)消費(fèi),其他},計(jì)算每個(gè)持卡人各個(gè)渠道的交易占比,以此4個(gè)特征作為聚類(lèi)特征,利用Kmeans算法,將樣本用戶(hù)劃分為幾類(lèi)。

    (3) 依據(jù)經(jīng)驗(yàn)知識(shí),刻畫(huà)信用特征 構(gòu)造用戶(hù)畫(huà)像主要是依靠?jī)?nèi)部和外部的信用經(jīng)驗(yàn),抽象出影響個(gè)人信用風(fēng)險(xiǎn)的關(guān)鍵性因素,依據(jù)交易數(shù)據(jù)實(shí)現(xiàn)關(guān)鍵因素的計(jì)算。在信用領(lǐng)域、還款能力、還款意愿,資金管理能力等都是影響信用評(píng)估的關(guān)鍵。

    1.2 特征篩選

    通過(guò)以上三種方法,計(jì)算了大約2 000多特征。這里有許多特征對(duì)于信用評(píng)估是無(wú)用的,甚至有負(fù)面作用。特征選擇減少特征的數(shù)量,使模型泛化能力更強(qiáng)。本文采用特征選擇的方法有:

    (1) IV值 IV值,即information value,中文表述為信息量或信息值,其主要作用就是當(dāng)我們?cè)谟脹Q策樹(shù)或邏輯回歸構(gòu)建分類(lèi)模型時(shí)對(duì)變量進(jìn)行篩選。IV值就是衡量自變量對(duì)于標(biāo)簽特征的區(qū)分能力,IV值越大,區(qū)分能力越強(qiáng)。本文設(shè)置IV值的閾值為0.04,篩選掉IV值小于0.04的特征變量。

    (2) 相關(guān)性過(guò)濾 相關(guān)系數(shù)用于考察兩個(gè)變量或特征之間的相關(guān)程度。如果相關(guān)性過(guò)高,會(huì)導(dǎo)致模型重復(fù)計(jì)算。因此,需要過(guò)濾掉相關(guān)性過(guò)高的特征,本文設(shè)定線(xiàn)性相關(guān)性閾值為0.5.當(dāng)兩個(gè)變量相關(guān)性大于0.5時(shí),保留IV值較大的特征變量。

    2 信用評(píng)分模型

    一般的分類(lèi)算法,輸出的并不是一個(gè)評(píng)分,而是一個(gè)類(lèi)別。信用評(píng)分的優(yōu)勢(shì)在于可以在實(shí)際評(píng)估審核用戶(hù)的貸款資格時(shí),依據(jù)其他信息,狀況做出更切實(shí)的調(diào)整;并且信用狀況本身通過(guò)二分類(lèi)問(wèn)題簡(jiǎn)單描述,并不完全適合。因此本文通過(guò)集成學(xué)習(xí)方法,訓(xùn)練多個(gè)成員分類(lèi)器,通過(guò)設(shè)計(jì)融合函數(shù),達(dá)到評(píng)分的效果。

    決策樹(shù)是一種實(shí)用,高效的學(xué)習(xí)算法。它有著許多良好的特性,比如訓(xùn)練時(shí)間負(fù)責(zé)度低,預(yù)測(cè)時(shí)間短等,但同時(shí),單獨(dú)一棵決策樹(shù)也有許多缺點(diǎn),比如容易過(guò)度擬合。通過(guò)集成學(xué)習(xí)方法,可以大大減少單決策樹(shù)帶來(lái)的負(fù)面影響。隨機(jī)森林是集成學(xué)習(xí)的一種方法,本文采用隨機(jī)森林的方法,利用上一步計(jì)算篩選所得的特征,引入隨機(jī)代價(jià)矩陣,學(xué)習(xí)和訓(xùn)練模型。

    2.1 引入隨機(jī)性

    一般而言,在信貸領(lǐng)域?qū)⒖蛻?hù)分為兩部分,一部分是信貸行為較好的用戶(hù),我們將客戶(hù)在借貸后,按期還款,視為“好客戶(hù)”;有一些客戶(hù)在借款后,未能按期還款,拖延達(dá)一定日期后,我們認(rèn)定這類(lèi)客戶(hù)為“壞”客戶(hù)。為方便起見(jiàn),定義“壞”客戶(hù)為正樣本,“好”客戶(hù)為負(fù)樣本。樣本中正樣本和負(fù)樣本比例不均衡。同樣一個(gè)正例帶來(lái)的損失遠(yuǎn)遠(yuǎn)大于好客戶(hù)帶來(lái)的收益。因此在訓(xùn)練成員分類(lèi)器時(shí),設(shè)置代價(jià)敏感矩陣。

    (1)

    式中:vbad是一個(gè)壞客戶(hù)被誤判為好客戶(hù)所造成的的損失,vgood是對(duì)于好客戶(hù)誤判造成的損失,正確分類(lèi)的代價(jià)為0。

    隨機(jī)森林是由多個(gè)決策樹(shù)組成的分類(lèi)器,為了確保成員分類(lèi)器之間的差異性,隨機(jī)選擇F個(gè)輸入特征來(lái)對(duì)決策樹(shù)的結(jié)點(diǎn)進(jìn)行分裂。隨機(jī)森林的相關(guān)性取決與F的大小。F越小,成員樹(shù)之間的相關(guān)性越弱。

    集成學(xué)習(xí)對(duì)于弱分類(lèi)器有提升效果,保證了成員分類(lèi)器之間具有一定的差異性。本文設(shè)計(jì)隨機(jī)代價(jià)敏感矩陣向量,以提升成員分類(lèi)器的差異性。設(shè)λ為均勻分布,記為λ~U(1/a,a)(a>1),隨機(jī)代價(jià)矩陣表示為:

    (2)

    針對(duì)每一個(gè)成員分類(lèi)器產(chǎn)生一個(gè)隨機(jī)代價(jià)矩陣,從而形成隨機(jī)代價(jià)向量。隨機(jī)代價(jià)向量表示為:

    CV={cv1,cv2,…,cvm}

    (3)

    本文所提算法RCV-RF算法流程如下

    算法1,RCV-RF

    輸入:訓(xùn)練樣本集X=[x1,x2,…,xn]

    步驟1從訓(xùn)練集X中,采用booststrap方法有放回地隨機(jī)抽取m個(gè)樣本集,構(gòu)成新的樣本集X={X1,X2,…,Xm}。

    步驟2引入隨機(jī)代價(jià)敏感向量CV,設(shè)置每個(gè)子樹(shù)訓(xùn)練的代價(jià)敏感矩陣。

    步驟3設(shè)n個(gè)特征,則在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取F個(gè)特征,進(jìn)行節(jié)點(diǎn)分裂。

    步驟4將生成的多棵樹(shù)組成隨機(jī)森林。

    2.2 融合函數(shù)

    通過(guò)訓(xùn)練產(chǎn)生m個(gè)成員分類(lèi)器,在模型決策時(shí),需要將每個(gè)成員分類(lèi)器預(yù)測(cè)的結(jié)果進(jìn)行融合,輸出一個(gè)評(píng)分。信用評(píng)分可以表示為多個(gè)成員分類(lèi)器中認(rèn)為是好客戶(hù)的占比。信用評(píng)分可以表示為:

    (4)

    式中:Cj(x)為第j個(gè)成員分類(lèi)器預(yù)測(cè)的結(jié)果,δ(·)為指示函數(shù),如果Cj(x)輸出等于good為1,否則為0。

    信用評(píng)分是由多個(gè)分類(lèi)器投票產(chǎn)生,可能造成低分段和高分段的人數(shù)聚集過(guò)多,中間分段的人數(shù)過(guò)少。遇到這種情況,可以通過(guò)調(diào)大均勻分布的范圍來(lái)達(dá)到分值覆蓋人數(shù)相對(duì)均勻的目的。

    3 實(shí)驗(yàn)對(duì)比

    本文采用的數(shù)據(jù)包含兩部分,一部分是使用過(guò)信用產(chǎn)品的客戶(hù)信息及還款情況,另一部分是相關(guān)客戶(hù)在銀聯(lián)渠道的交易數(shù)據(jù)。本文只采集借款之前的交易數(shù)據(jù),借款之后的交易數(shù)據(jù)不參與建模。模型用于客戶(hù)申請(qǐng)貸款的資格核準(zhǔn)??蛻?hù)借貸的場(chǎng)景為互聯(lián)網(wǎng)消費(fèi)金融,用戶(hù)通過(guò)手機(jī)認(rèn)證,無(wú)抵押貸款,貸款數(shù)額在3 000~15 000之間。

    由于逾期的時(shí)間不同,所以“壞”可以是不同程度的,從拖延少于15天,15天到30天,一直到30天以上。“壞”客戶(hù)為逾期超過(guò)30天的客戶(hù),“好”客戶(hù)為逾期小于3天的客戶(hù)。數(shù)據(jù)集中有2 643個(gè)壞客戶(hù),34 028個(gè)好客戶(hù),客戶(hù)使用信用產(chǎn)品的時(shí)間在3~8月份之間。

    本文依據(jù)時(shí)間將數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集,3~6月為訓(xùn)練集,訓(xùn)練集用于訓(xùn)練信用模型,7~8月份客戶(hù)測(cè)試集用于評(píng)估模型的效果。

    表1 訓(xùn)練集與測(cè)試集大小

    為評(píng)估特征計(jì)算方法有效性,采用IV值作為評(píng)價(jià)指標(biāo),對(duì)一些典型的特征做分析。為了比較提出的算法RCV-RF優(yōu)劣性,本文選擇對(duì)比的算法有RF,GBDT,Adaboost。采用ROC、AUC、K-S作為評(píng)價(jià)指標(biāo),對(duì)比算法結(jié)果。

    3.1 特征分析

    前文中提到,課題通過(guò)不同的方法,計(jì)算信用相關(guān)的特征變量,從而構(gòu)造用戶(hù)畫(huà)像。本節(jié)首先分析一些典型的用戶(hù)畫(huà)像特征。

    從表2可以看出,交易行為,消費(fèi)金額的特征對(duì)于逾期風(fēng)險(xiǎn)有著較強(qiáng)的相關(guān)性。往往消費(fèi)金額越大,在消費(fèi)金融信貸產(chǎn)品上逾期的風(fēng)險(xiǎn)就會(huì)越低。經(jīng)常出現(xiàn)刷卡余額不足的情況,說(shuō)明了客戶(hù)缺乏對(duì)資金管理的意識(shí),潛在地提升了逾期的風(fēng)險(xiǎn)。這些特征對(duì)于好壞客戶(hù)有著較為明顯的區(qū)分度,并且絕大部分特征對(duì)于壞客戶(hù)占比都呈現(xiàn)單調(diào)性。為本文后續(xù)建模提供了有力的支持。依據(jù)IV值和相關(guān)性等方法,特征選擇出115維特征。

    表2 部分特征的IV值

    3.2 實(shí)驗(yàn)結(jié)果對(duì)比

    本文選擇了GBDT、RF、Adaboost三種經(jīng)典的集成學(xué)習(xí)算法作為比較算法,所有算法均采用上文計(jì)算篩選所得特征集,使用3~6月份的數(shù)據(jù)做訓(xùn)練,7~8月份數(shù)據(jù)做測(cè)試,且使用相同的數(shù)據(jù)集訓(xùn)練與評(píng)估。如表3所示。

    表3 模型的KS值對(duì)比

    如圖1所示,是本文算法和常用集成學(xué)習(xí)算法的ROC對(duì)比圖。從圖中可以看出,本文所提算法RCV-RF的AUC值為0.70略高于RF,GBDT算法,Adaboost算法效果與其他三種算法效果差距明顯。通過(guò)KS值比較,RCV-RF算法亦優(yōu)于其他算法。

    圖1 模型效果ROC圖

    4 結(jié) 語(yǔ)

    本文基于銀行卡的交易數(shù)據(jù),針對(duì)互聯(lián)網(wǎng)消費(fèi)信貸場(chǎng)景進(jìn)行分析,提取有效的特征集,建立一個(gè)用于信用評(píng)估的模型,并通過(guò)與其他常用算法對(duì)比,驗(yàn)證本文所提算法的有效性。本文主要分為兩部分。首先,本文通過(guò)三種計(jì)算方式,提取在信用評(píng)估上具價(jià)值的特征變量,構(gòu)建了基于交易數(shù)據(jù)的用戶(hù)信用畫(huà)像,這些特征對(duì)于模型訓(xùn)練起到了關(guān)鍵的作用。其次,本文算法通過(guò)引入隨機(jī)代價(jià)敏感向量的方式,增強(qiáng)了成員分類(lèi)器之間的差異性,并且通過(guò)評(píng)分融合函數(shù)使信用評(píng)分更為合理、有效。

    參 考 文 獻(xiàn)

    [1] 石勇,孟凡.信用評(píng)分基本理論及其應(yīng)用[J].大數(shù)據(jù),2017(1):19-26.

    [2] 陳云,石松,潘彥,等.基于SVM混合集成的信用風(fēng)險(xiǎn)評(píng)估模型[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(4):115-120.

    [3] 胡來(lái)豐.基于粗糙集BP神經(jīng)網(wǎng)絡(luò)個(gè)人信用評(píng)估模型[D].電子科技大學(xué),2015.

    [4] 葉菁菁,吳斌,董敏.P2P網(wǎng)貸個(gè)人信用評(píng)估國(guó)內(nèi)外研究綜述[J].商業(yè)時(shí)代,2015(31):109-111.

    [5] 李孟來(lái).我國(guó)個(gè)人信用評(píng)分模型的應(yīng)用探討[J].金融管理與研究:杭州金融研修學(xué)院學(xué)報(bào),2009(2):52-54.

    [6] 馬海英.基于神經(jīng)網(wǎng)絡(luò)及Logistic回歸的混合信用卡評(píng)分模型[J].華東理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2008,23(2):49-52.

    [7] 沈翠華,鄧乃揚(yáng),肖瑞彥.基于支持向量機(jī)的個(gè)人信用評(píng)估[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(23):198-199.

    [8] 姜明輝,謝行恒,王樹(shù)林,等.個(gè)人信用評(píng)估的Logistic-RBF組合模型[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,39(7):1128-1130.

    [9] King G,Zeng L.Logistic Regression in Rare Events Data[J].Political Analysis,2001,9(2):137-163.

    [10] Shuang C,Wei X.Design and Selection of Construction,Parameters and Training Method of BP Network[J].Computer Engineering,2001,92:336-337.

    [11] Osuna E,Freund R,Girosi F.Training svm:An Application to Face Detection[C]//Proceedings of CVPR’97,June 17-19,1997.

    [12] Orgler Y E.A Credit Scoring Model for Commercial Loans[J].Journal of Money Credit & Banking,1970,2(4):435-445.

    [13] Huang C L,Chen M C,Wang C J.Credit Scoring with A Data mining Approach Based on Support Vector Machines[M].Pergamon Press,Inc.2007.

    [14] Chen C,Breiman L.Using Random Forest to Learn Imbalanced Data[J].2004.

    猜你喜歡
    個(gè)人信用分類(lèi)器信用
    為食品安全加把“信用鎖”
    基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估
    個(gè)人信用信息何以應(yīng)由憲法保護(hù)?——一個(gè)制度論證的進(jìn)路
    法大研究生(2020年2期)2020-01-19 01:43:22
    信用收縮是否結(jié)束
    BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
    信用中國(guó)網(wǎng)
    信用消費(fèi)有多爽?
    嚴(yán)重交通違法行為將直接與個(gè)人信用掛鉤
    加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
    結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
    油尖旺区| 收藏| 行唐县| 贵溪市| 孟村| 大渡口区| 昌江| 昌宁县| 阳春市| 西平县| 佛坪县| 白朗县| 济宁市| 汨罗市| 中超| 赣州市| 平度市| 迭部县| 仙居县| 略阳县| 祁阳县| 寿宁县| 洪雅县| 广州市| 新余市| 莒南县| 修文县| 宣武区| 饶阳县| 和田县| 贵港市| 景洪市| 托克逊县| 如皋市| 华容县| 临桂县| 苍溪县| 秦安县| 京山县| 涿鹿县| 阿坝|