• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于集成學(xué)習(xí)的銀行信用卡逾期客戶(hù)識(shí)別

      2019-05-24 05:46:16何黎松
      大眾投資指南 2019年15期
      關(guān)鍵詞:決策樹(shù)信用卡準(zhǔn)確度

      何黎松

      (西安歐亞學(xué)院金融學(xué)院,陜西 西安 710065)

      引言

      銀行客戶(hù)信用卡逾期客戶(hù)識(shí)別指的是根據(jù)銀行信用卡業(yè)務(wù)客戶(hù)的基本屬性、信用記錄,將逾期客戶(hù)和非逾期客戶(hù)識(shí)別出來(lái)。銀行信用卡逾期識(shí)別的研究文獻(xiàn)較少。周穎(2015)[1]討論了信用卡違約的責(zé)任問(wèn)題,慧梅(2015)[2]對(duì)比信用卡使用狀況和逾期行為,葛緋(2015)[3]給出了控制信用卡風(fēng)險(xiǎn)的方法,這些研究都基本處于定性分析層面。后來(lái)逐漸有學(xué)者將數(shù)據(jù)挖掘算法迅速應(yīng)用到這一商業(yè)問(wèn)題的應(yīng)用中,徐超(2016)[4]用神經(jīng)網(wǎng)絡(luò)模型對(duì)信用卡逾期風(fēng)險(xiǎn)做出了研究識(shí)別;張秋菊(2018)[5]使用BP神經(jīng)優(yōu)化算法對(duì)信用卡還款風(fēng)險(xiǎn)做了評(píng)估研究,但是單個(gè)的分類(lèi)模型往往準(zhǔn)確度不高。

      本文從集成學(xué)習(xí)方法入手,集成邏輯回歸、判別分析、決策樹(shù)和神經(jīng)網(wǎng)絡(luò)模型,對(duì)某商業(yè)銀行的信用卡客戶(hù)逾期行為進(jìn)行識(shí)別,以提高總體的預(yù)測(cè)精度。

      一、數(shù)據(jù)準(zhǔn)備

      本文數(shù)據(jù),來(lái)自某商業(yè)銀行脫敏后的2016年客戶(hù)信用信息作為數(shù)據(jù)。

      分析變量共15個(gè),其中將性別、年齡、婚姻狀況、學(xué)歷、職業(yè)、職務(wù)、司齡、個(gè)人住房貸款筆數(shù)、貸款筆數(shù)、貸記卡賬戶(hù)數(shù)、貸記卡授信總額、貸記卡單家最高授信額度、貸記卡單家最低授信額度、貸記卡已用額度共14個(gè)變量作為輸入變量進(jìn)行分析,是否逾期作為目標(biāo)變量進(jìn)行分析。

      二、理論基礎(chǔ)

      (一)單個(gè)分類(lèi)模型

      1、邏輯回歸

      邏輯回歸原理與多元回歸類(lèi)似,只不過(guò)其因變量Y取值為二元的“0”和“1”,或者多元的取值;二分類(lèi)得更為常用,也更容易解釋。通過(guò)對(duì)自變量和因變量建立回歸方程,借助方程預(yù)測(cè),從而實(shí)現(xiàn)分類(lèi)功能。實(shí)際中最為常用的就是二分類(lèi)的logistic回歸。邏輯回歸在處理自變量為數(shù)值型時(shí)效果較好,自變量為分類(lèi)變量時(shí),效果有時(shí)不佳。

      2、判別分析

      判別分析是分類(lèi)模型的一種,算法較為簡(jiǎn)單:距離算法,函數(shù)轉(zhuǎn)化;距離算法近似于聚類(lèi),通過(guò)計(jì)算每類(lèi)中心點(diǎn)和新元素的距離,以距離遠(yuǎn)近判斷其歸屬類(lèi)別;矩陣轉(zhuǎn)換和函數(shù)擬合近似于回歸,根據(jù)自變量和因變量建立判別函數(shù),從而實(shí)現(xiàn)對(duì)新的變量的預(yù)測(cè)分類(lèi)。

      3、決策樹(shù)

      決策樹(shù)是數(shù)據(jù)挖掘算法興起之后的分類(lèi)模型,分類(lèi)結(jié)果近似計(jì)算機(jī)的 if else 形式,通過(guò)算法,生成樹(shù)狀的分類(lèi)節(jié)點(diǎn)。算法擬合是,每個(gè)分類(lèi)對(duì)應(yīng)著一個(gè)預(yù)測(cè)準(zhǔn)確度,通過(guò)對(duì)準(zhǔn)確度優(yōu)化,找到最近的分類(lèi)規(guī)則。決策樹(shù)算法不斷發(fā)展,常見(jiàn)的有決策樹(shù),CHAID,QUESTION,C5.0等等。決策樹(shù)的結(jié)果解讀性高,在現(xiàn)代商業(yè)應(yīng)用較多;但是在數(shù)據(jù)中存在干擾信息時(shí),分類(lèi)效果往往不好。

      4、神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)是近年來(lái)比較熱門(mén)的分類(lèi)模型,其思路是:在輸入變量X和輸出變量Y之間設(shè)定函數(shù)框架,框架中放有激活函數(shù),這些激活函數(shù)包括:Sigmoid,tanh,ReLU等等。變量輸入進(jìn)來(lái),函數(shù)激活,獲得輸出,與實(shí)際輸出對(duì)比,根據(jù)差距(損失),機(jī)器自動(dòng)返回去調(diào)節(jié)函數(shù)權(quán)重,如此反復(fù)迭代,最終獲得擬合度很好的、可用的函數(shù)框架。神經(jīng)網(wǎng)絡(luò)因其層數(shù)不同、激活函數(shù)組培不同、試錯(cuò)修正方式不同,有很多分類(lèi),且隨層數(shù)加深,函數(shù)豐富,而在逐漸發(fā)展,目前已有的模型包括簡(jiǎn)單的徑向基函數(shù)、多層感知器,深層的DNN、LSTM、HMM等等,且在不斷復(fù)雜化。神經(jīng)網(wǎng)絡(luò)具有非線(xiàn)性,局部自洽等特點(diǎn),整體復(fù)雜而難以描述,在現(xiàn)代語(yǔ)音、圖像識(shí)別中使用廣泛。

      (二)集成學(xué)習(xí)

      集成學(xué)習(xí)的思想是:當(dāng)一個(gè)分類(lèi)模型效果不好時(shí),可以使用多個(gè)分類(lèi)模型分別用于分類(lèi),最后將多個(gè)結(jié)果結(jié)合在一起,以投票,少數(shù)服從多數(shù)的機(jī)制,集成獲得結(jié)果。有時(shí)候往往會(huì)取得比單個(gè)分類(lèi)模型更好的效果。

      三、建模實(shí)證

      (一)單個(gè)分類(lèi)模型的效果

      分別用邏輯回歸、判別分析、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行模型訓(xùn)練,預(yù)測(cè)結(jié)果如表1。

      表1 單個(gè)分類(lèi)模型分類(lèi)效果表

      結(jié)果表明,對(duì)本文的銀行客戶(hù)風(fēng)險(xiǎn)識(shí)別問(wèn)題,分類(lèi)效果最好的是邏輯回歸,其次是神經(jīng)網(wǎng)絡(luò),決策樹(shù),盤(pán)被分析結(jié)果最差。

      (二)集成學(xué)習(xí)效果

      將四個(gè)分類(lèi)模型,三三組合,共四種,利用其預(yù)測(cè)結(jié)果,表決獲得最終預(yù)測(cè)結(jié)果,規(guī)則是:少數(shù)服從多數(shù),當(dāng)超過(guò)兩個(gè)預(yù)測(cè)為1時(shí),結(jié)果為1;超過(guò)兩個(gè)預(yù)測(cè)為0時(shí),結(jié)果為0。將綜合的預(yù)測(cè)結(jié)果和實(shí)際值比較,計(jì)算預(yù)測(cè)準(zhǔn)確度,得到表2。

      表2 集成學(xué)習(xí)準(zhǔn)確度表

      結(jié)果表明,集成學(xué)習(xí)的準(zhǔn)確度,基本上都達(dá)到86%以上,最高的超過(guò)了90%,總的來(lái)看,預(yù)測(cè)效果明顯地獲得了提升。如果選擇神經(jīng)網(wǎng)絡(luò)、判別分析、邏輯回歸集成三個(gè)模型作為最后的集成模型,模型效果為90.7%,比每個(gè)單個(gè)分類(lèi)模型的準(zhǔn)確度都高。

      四、結(jié)論

      本文以集成學(xué)習(xí)思想,集成邏輯回歸、判別分析、決策樹(shù)、神經(jīng)網(wǎng)絡(luò),對(duì)商業(yè)銀行信用卡逾期行為進(jìn)行分類(lèi)識(shí)別。結(jié)果表明,集成的分類(lèi)模型,基本上都達(dá)到86%以上,最高的超過(guò)了90%,比單個(gè)的分類(lèi)模型具有更好的分類(lèi)識(shí)別效果。集成多個(gè)分類(lèi)模型預(yù)測(cè)分類(lèi)的思路,可用于商業(yè)應(yīng)用中。

      猜你喜歡
      決策樹(shù)信用卡準(zhǔn)確度
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
      建筑科技(2018年6期)2018-08-30 03:40:54
      信用卡資深用戶(hù)
      信用卡詐騙
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      動(dòng)態(tài)汽車(chē)衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
      辦信用卡透支還債夫妻均獲刑10年
      公民與法治(2016年6期)2016-05-17 04:10:39
      “人卡分離”時(shí)信用卡惡意透支的刑事責(zé)任及思考
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      中方县| 平潭县| 得荣县| 清水县| 东阿县| 普兰店市| 河东区| 大冶市| 黄石市| 青海省| 巴楚县| 景宁| 德兴市| 安宁市| 鞍山市| 平遥县| 任丘市| 凉城县| 高平市| 密山市| 辛集市| 调兵山市| 班玛县| 始兴县| 安溪县| 鸡东县| 开鲁县| 江达县| 海宁市| 松桃| 玉龙| 阿合奇县| 蒙城县| 察哈| 筠连县| 通州区| 宣城市| 阜新| 荥经县| 油尖旺区| 宝清县|