• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機(jī)器學(xué)習(xí)算法信用風(fēng)險預(yù)測模型

      2019-04-23 03:39:02
      微型電腦應(yīng)用 2019年2期
      關(guān)鍵詞:信譽(yù)銀行客戶

      (廣東電網(wǎng)有限責(zé)任公司, 廣州 510160)

      0 引言

      由于近年來國內(nèi)金融行業(yè)的迅猛發(fā)展,伴隨著我國經(jīng)濟(jì)的急速飛騰,銀行業(yè)務(wù)蓬勃發(fā)展。信貸業(yè)務(wù)是銀行的主流業(yè)務(wù)之一,但是如何評價借款人的信用風(fēng)險已經(jīng)成為當(dāng)今互聯(lián)網(wǎng)金融行業(yè)的熱門課題之一,日益受到當(dāng)代人的注意。

      銀行客戶信用風(fēng)險評估問題其本質(zhì)為一個分類為題,也就是將現(xiàn)有的銀行用戶劃分為信譽(yù)用戶與非信譽(yù)用戶的過程。從其發(fā)展歷程來看,大致可以分為3個階段,樸素分析階段、概率分析階段、人工智能階段[1]。樸素分析階段主要為概率學(xué)應(yīng)用于經(jīng)濟(jì)領(lǐng)域之前的所有銀行借貸階段;

      概率階段是指概率學(xué)運(yùn)用到銀行金融領(lǐng)域開始直到人工智能在金融領(lǐng)域應(yīng)用而結(jié)束[2],此階段在我國主要是指上個世紀(jì)五十年代本世紀(jì)初。

      第三階段也就是現(xiàn)階段,主要是指人工智能在信用評估中的應(yīng)用,此階段從本世紀(jì)初開始直到現(xiàn)在[3]。

      從國際角度講,消費(fèi)者的信用評分美國的理論以及實(shí)際最為具有參考價值,其中例如Equifax公司[4],該公司每天可以提供數(shù)百萬份的消費(fèi)者信用分析報告。

      同時從信貸領(lǐng)域?qū)ⅲ绹刨J業(yè)務(wù)發(fā)展較為成熟,以上個世紀(jì)七十年代為例,美國信用卡發(fā)展達(dá)到了極致,甚至有的銀行為了搶占市場,直接將信用卡寄到相應(yīng)的用戶家中。

      另一方面,從風(fēng)險控制角度講,風(fēng)險控制可以分為主動風(fēng)險控制以及被動風(fēng)險控制兩種,被動風(fēng)險控制一般是指,信貸客戶違約后進(jìn)行的催收行為;主動風(fēng)險控制則是通過事先的機(jī)制確立客戶是否有償還能力以及償還意愿[5]。

      在我國,由于征信體系與2013年才開始正式推動以及建立,因此,在此領(lǐng)域?qū)儆谄鸩捷^晚的國家之一,對于現(xiàn)代交易環(huán)境而言,信用體系是一種建立在客戶穩(wěn)定償還能力上的不用立即支付即可享有相應(yīng)服務(wù)的行為。故風(fēng)險預(yù)測是銀行發(fā)放貸款的重要參考之一[6]。

      文獻(xiàn)法:本文利用圖書館、網(wǎng)絡(luò)以及數(shù)字圖書館等資源,搜集關(guān)于金融以及機(jī)器學(xué)習(xí)的相關(guān)資料相關(guān)資料,調(diào)查機(jī)器學(xué)習(xí)在金融領(lǐng)域應(yīng)用的的相關(guān)理論,為本文寫作提供理論基礎(chǔ)。

      實(shí)例分析法:根據(jù)模型,對于實(shí)際情況進(jìn)行模擬以及分析,通過對于實(shí)際情況的模擬,說明論文的合理性。為該機(jī)器學(xué)習(xí)算法提供現(xiàn)實(shí)基礎(chǔ)。

      論證法:對于本文用到的相關(guān)算法以及部分公式給出推到過程,為本文研究提供數(shù)據(jù)支撐。

      1 數(shù)據(jù)預(yù)處理

      將判斷客戶是否有潛在違約風(fēng)險的數(shù)據(jù)分為兩個類型,一個為靜態(tài)數(shù)據(jù)類型,其主要包含用戶基本情況以及用戶檢測量表;另一類為動態(tài)數(shù)據(jù),其主要包含客戶的銀行信息記錄(如流水信息,基本信用信息),第三方支付記錄等。其中動態(tài)信息隨著客戶的時時狀態(tài)而發(fā)生改變,其具體情況如表1所示。

      表1 相關(guān)數(shù)據(jù)資料表

      用戶向相關(guān)金融機(jī)構(gòu)申請貸款時,需提交自己相關(guān)信息,相關(guān)平臺利用用戶提供的信息進(jìn)行建模。如果相關(guān)信息缺失,則通過清洗或者變換的形式將所有信息補(bǔ)充完整。此過程預(yù)計占用整個工作流程的80%以上的時間,因?yàn)檎麄€數(shù)學(xué)模型的基礎(chǔ)建立在正確的數(shù)據(jù)處理上,如果相關(guān)數(shù)據(jù)失真,那么整個機(jī)器學(xué)習(xí)進(jìn)行的最終判定也將會失真。

      2 算法比較

      1)回歸算法

      自從高斯提出最小二乘法以來,回歸分析的應(yīng)用也越來越為廣泛,在我們?nèi)粘5纳铑I(lǐng)域,基本上很難找不用它的領(lǐng)域。自從1969年設(shè)立諾貝爾經(jīng)濟(jì)學(xué)獎以來,大部分的獲獎?wù)叨际墙y(tǒng)計學(xué)家、數(shù)學(xué)家或者計量學(xué)家,獲獎成果也大多與回歸分析相關(guān)。

      從理論角度看,回歸分析大致可以分為三個階段即理論模型構(gòu)建、數(shù)據(jù)采集階段、參數(shù)估計與模型校驗(yàn)階段以及模型應(yīng)用階段。

      本次研究,根據(jù)數(shù)據(jù)特點(diǎn),可以選用比較成熟的的回歸算法:帶虛擬變量的回歸模型最為本次模型構(gòu)建。為式(1)。

      Y=α1+α2D2i+α3D3i+…+αnDni+βXi+εi

      (1)

      其中D為虛擬變量,可以表示性別學(xué)歷等相關(guān)信息,例如D2可以表示性別,當(dāng)D2=1時,定義為女性;當(dāng)D2=0時定義為男性。

      2)GBDT算法

      本次設(shè)計采用機(jī)器學(xué)習(xí)算法中比較常見的GBDT算法,其基礎(chǔ)原理為迭代法。具體實(shí)施為在迭代過程中,通過改變樣本的權(quán)重,學(xué)習(xí)多個分類其,并且將其進(jìn)行線性組合,從而提升算法的準(zhǔn)確率。

      GBDT算法是集成學(xué)習(xí)算法Boosting下的一個分支學(xué)習(xí)算法,與傳統(tǒng)學(xué)習(xí)算法(如Adaboost算法)不同的是,GBDT算法使用向前分布算法,并且使用CATR回歸樹模型進(jìn)行相關(guān)的學(xué)習(xí)[7]。

      其基礎(chǔ)原理為,假設(shè)f(x)表示學(xué)習(xí)器的相關(guān)函數(shù),則ft-1(x)表示前一輪得到的強(qiáng)學(xué)習(xí)器,則損失函數(shù)以L(y,ft-1(x))表示,那么最終該算法的目標(biāo)為,找到弱學(xué)習(xí)器ht(x)使得損失函數(shù)L(y,ft-1(x))=L(y,ft-1(x)+ht(x))最小。

      舉例來說,假設(shè)銀行有100個實(shí)際違約客戶,首先用80個去擬合,發(fā)現(xiàn)漏掉20個,這時用12個去擬合剩下的人員,發(fā)現(xiàn)還差8個,隨后繼續(xù)用8個擬合,知道差距越來越小,每次擬合過程中,都會逐步逼近真實(shí)數(shù)據(jù),誤差逐漸減小[9]。

      3)算法比較

      比較帶虛擬變量的回歸算法與GBDT兩種算法,可以看出回歸算法的優(yōu)勢在于模型建立簡單方便,同時根據(jù)銀行所搜集到的數(shù)據(jù)可以更為方便的增加或者減少相關(guān)參數(shù)(即D值),另一方面,從理論角度講,只要參數(shù)選擇合理,數(shù)據(jù)充足回歸算法可以精確的預(yù)測出客戶的信用等級,對原始數(shù)據(jù)要求較高。

      相比于回歸算法,GBDT算法相對復(fù)雜,但是對于原始數(shù)據(jù)的要求較低。在科學(xué)研究時,一般能夠用簡單方法解決問題時,盡量不用復(fù)雜方法但是在實(shí)際應(yīng)用中,銀行因?yàn)楝F(xiàn)實(shí)因素,搜集到的客戶信息往往并非十分確切,所以最終根據(jù)銀行提供的數(shù)據(jù)情況來看,選擇后者GBDT算法建立本次模型。

      3 算法實(shí)現(xiàn)

      本文采用的基本機(jī)器學(xué)習(xí)的具體算法為:設(shè)集體樣本為最大迭代次數(shù)N,損失函數(shù)L。最終輸出的學(xué)習(xí)器為,f(x)。

      則初始學(xué)習(xí)器表示為式(2)。

      迭代后(N=1,2,3,4,…,N)有:

      1)對于樣本i=1,2,3,…,m的負(fù)梯度計算為式(3)。

      (3)

      2)利用CART回歸樹,得到第N顆回歸樹且對應(yīng)的子節(jié)點(diǎn)區(qū)域?yàn)椋琂表示對應(yīng)回歸樹的葉子節(jié)點(diǎn)個數(shù)。

      3)對于葉子區(qū)域計算最佳擬合值。

      4)升級版學(xué)習(xí)器為式(4)。

      (4)

      故可以得到最終的學(xué)習(xí)器f(x)表達(dá)式為式(5)。

      (5)

      4 用戶分類以及情景模擬

      用戶分類,根據(jù)客戶信息以及相關(guān)算法信息,可以將客戶劃分為4個類別:

      1)本身是信譽(yù)客戶,模型判斷也為信譽(yù)客戶,記作TN

      2)本身是信譽(yù)客戶,模型判斷為非信譽(yù)客戶,記作FP;

      3)本文為非信譽(yù)客戶,但是模型判斷為信譽(yù)客戶記作作FN

      4)本身是非信譽(yù)客戶,模型判斷也為非信譽(yù)客戶記作TP。

      其具體劃分如下表2所示。

      表2 用戶類型分類表

      故據(jù)此可以計算該模型的準(zhǔn)確率TPR:

      模型錯誤率FPR:

      故現(xiàn)有基本特征如下的銀行客戶樣本:

      1)如果用戶信用記錄有超過60天逾期行為,則記作Y=1;否則記作Y=0;如某銀行內(nèi)有50 000名客戶,而逾期的用戶為3 000名,且3 000名非信譽(yù)用戶符合隨機(jī)分布原則。

      2) 用戶信息:特征時間主要包含用戶所有的動態(tài)信息,其中包含前文提及的銀行流水記錄以及金融信息記錄。同時也包含用戶檢測3個量表的相關(guān)結(jié)果均已經(jīng)處理齊全。

      方案A,將所有貸款申請用戶平均分為10組,每組5 000人,且每組包含300個非信譽(yù)客戶;

      方案B,根據(jù)模型可以計算的用戶違約概率,將每個用戶違約的概率記作P,則根據(jù)P值,將客戶從大到小順序,然后分成十個組,每組5 000人。顯然十組中,靠后的分組里,信譽(yù)用戶明顯占優(yōu)更多比例,而非信譽(yù)客戶則在第一種最多。故此時只要尋找到,P值的分界點(diǎn),即可確立最終的放款條件。其具體數(shù)據(jù)如表3所示。

      表3 隨機(jī)風(fēng)控模型對比表

      5 模型評價

      將A、B兩組每一組的非信譽(yù)客戶的所占比重繪制成提升圖,如圖1所示。

      圖1 提升圖

      從圖中可以看出,方案B中,每組的非信譽(yù)客戶人數(shù)在逐步遞減,則該模型具有一定的現(xiàn)實(shí)意義,模型有效。

      此時再根據(jù)前文提到的模型準(zhǔn)確率(FPR)以及模型錯誤率(TPR)相關(guān)概念,由于模型計算結(jié)果以及真實(shí)結(jié)果均為已知,故可以輕松算得FPR,TPR兩個參數(shù)。故以FPR為橫軸,TPR為縱軸繪制ROC曲線。如圖2、圖3所示。

      根據(jù)洛倫茲曲線的判定公式,此時選用ROC曲線常用衡量性能指標(biāo)AUC來表示,AUC曲線通過計算ROC曲線下面積而求得,一般來說,AUC的值在0~1之間,本文中顯然方案A的AUC值為,0.5;而方案B的AUC通過計算可以得知,其值為0.74.一般來說,一個模型AUC值要大于0.5才會具有實(shí)際效果,AUC值在0.7~0.9之間則被認(rèn)為是一個優(yōu)秀模型;AUC高于0.9,則認(rèn)為該模型有異常變量進(jìn)入,導(dǎo)致AUC過高。

      圖2 方案A ROC曲線

      圖3 方案B ROC曲線

      而本次模型的最終AUC值為0.74,故符合相關(guān)要求,屬于優(yōu)秀模型范疇。

      6 總結(jié)

      本文針對互聯(lián)網(wǎng)金融行業(yè)的信用風(fēng)險問題,利用機(jī)器學(xué)習(xí)算法構(gòu)建了一個信用風(fēng)險預(yù)測模型,該模型的創(chuàng)新點(diǎn)在于首先數(shù)據(jù)處理方面,除了應(yīng)用傳統(tǒng)的用戶基本信息、銀行流水記錄、金融信息記錄外,還引入了用戶用戶檢測量表的相關(guān)數(shù)據(jù),次量表評定標(biāo)準(zhǔn)以及在模型中所占比重只有系統(tǒng)以及銀行系統(tǒng)以及高層管理人員掌握,從一定程度上避免了人為因素對于放款的影響。由于此部分不是本文重點(diǎn),故不做詳細(xì)說明。

      機(jī)器學(xué)習(xí)方面,本文選用傳統(tǒng)的GBDT算法,對于用戶的違約概率進(jìn)行預(yù)測,最后通過相關(guān)實(shí)例進(jìn)行說明。

      但是由于筆者能力有限,文章亦有一定的局限性,例如論文實(shí)例部分假設(shè)過于理想化,所有數(shù)據(jù)均已處理完善,但是實(shí)際情況可能會出現(xiàn)相應(yīng)的數(shù)據(jù)不足,需要進(jìn)行缺失數(shù)據(jù)的處理,由于篇幅有限并未給出相關(guān)算法。

      猜你喜歡
      信譽(yù)銀行客戶
      以質(zhì)量求發(fā)展 以信譽(yù)贏市場
      信譽(yù)如“金”
      華人時刊(2019年13期)2019-11-26 00:54:42
      為什么你總是被客戶拒絕?
      10Gb/s transmit equalizer using duobinary signaling over FR4 backplane①
      如何有效跟進(jìn)客戶?
      ??到拥貧獾摹巴零y行”
      “存夢銀行”破產(chǎn)記
      江蘇德盛德旺食品:信譽(yù)為翅飛五洲
      華人時刊(2016年19期)2016-04-05 07:56:08
      做個不打擾客戶的保鏢
      山東青年(2016年2期)2016-02-28 14:25:41
      銀行激進(jìn)求變
      上海國資(2015年8期)2015-12-23 01:47:31
      张家界市| 乌恰县| 平湖市| 濮阳县| 丹阳市| 哈密市| 高雄县| 澄城县| 股票| 靖州| 澳门| 南华县| 深泽县| 内乡县| 新丰县| 翁源县| 当雄县| 房山区| 乌鲁木齐县| 黔江区| 吉安县| 昆山市| 阿鲁科尔沁旗| 祁东县| 高淳县| 乐东| 潜山县| 德惠市| 霍城县| 玉树县| 江阴市| 铜陵市| 芜湖市| 乐都县| 涟源市| 高陵县| 拉萨市| 修水县| 炎陵县| 杨浦区| 高唐县|