• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)算法的精確制導(dǎo):信貸客戶識(shí)別以及特征要素分析

      2016-01-16 02:28:44孫存一王彩霞
      稅務(wù)與經(jīng)濟(jì) 2016年1期
      關(guān)鍵詞:分類器變量樣本

      孫存一,張 秋,王彩霞

      (1.中國(guó)人民大學(xué) 財(cái)政金融學(xué)院,北京 100872; 2.吉林財(cái)經(jīng)大學(xué) 金融學(xué)院,吉林 長(zhǎng)春130117;3.北京經(jīng)開租賃有限公司,北京 100176)

      一、引 言

      上世紀(jì)中期以后,商業(yè)銀行面臨著日益嚴(yán)峻的挑戰(zhàn),保險(xiǎn)公司等各種非銀行金融機(jī)構(gòu)開始與銀行爭(zhēng)奪融資市場(chǎng)。資本市場(chǎng)日益成熟并成為一個(gè)新的更重要的融資渠道,融資工具日益多樣化、復(fù)雜化。銀行面對(duì)的客戶也發(fā)生了很大的變化。銀行業(yè)作為服務(wù)性行業(yè),決定了其經(jīng)營(yíng)和管理必須以客戶為導(dǎo)向,對(duì)客戶資源進(jìn)行有效的管理是銀行在激烈的競(jìng)爭(zhēng)中生存和發(fā)展所不可忽略的因素。在中國(guó)加入世界貿(mào)易組織、逐步開放銀行業(yè)的過程中,各大銀行采取了諸多吸引高端客戶群、限制低端客戶的方法。從國(guó)內(nèi)外的研究來看,主要關(guān)注客戶特征描述的專家判斷、指標(biāo)體系、結(jié)構(gòu)計(jì)量、時(shí)間序列等數(shù)學(xué)模型的行為[1-3],這些模型建立在諸多假設(shè)的基礎(chǔ)之上,精確度不高,應(yīng)用效果不甚理想。在新的社會(huì)經(jīng)濟(jì)條件下,由于金融機(jī)構(gòu)資產(chǎn)多樣化、互聯(lián)網(wǎng)金融等的興起,使客戶識(shí)別更加復(fù)雜,再加上市場(chǎng)競(jìng)爭(zhēng)、信息不對(duì)稱、擔(dān)保體系、商業(yè)銀行信貸管理水平和政策環(huán)境等方面的原因,傳統(tǒng)的客戶識(shí)別方法難以滿足實(shí)際需求。在新的形勢(shì)下我國(guó)銀行的出路何在?如何優(yōu)化配置客戶資源?這是值得專家學(xué)者探索的問題。眾所周知,隨著大數(shù)據(jù)、云計(jì)算等信息技術(shù)的不斷涌現(xiàn),金融創(chuàng)新的需求日益迫切,技術(shù)進(jìn)步對(duì)于金融機(jī)構(gòu)所提供的金融服務(wù)的規(guī)模、效率具有顯著影響,技術(shù)的先進(jìn)程度構(gòu)成金融企業(yè)核心競(jìng)爭(zhēng)力的一個(gè)重要因素。所以,在客戶資源優(yōu)化配置方面,我們必須依托新的技術(shù)、新的手段,精準(zhǔn)地識(shí)別出風(fēng)險(xiǎn)客戶、有效地挖掘出優(yōu)質(zhì)客戶。為此本文從大數(shù)據(jù)的理念出發(fā),以機(jī)器學(xué)習(xí)算法模型為核心,識(shí)別出客戶的類型,并在此基礎(chǔ)上分析與客戶類型相關(guān)的特征因素,構(gòu)建出了既具有理論價(jià)值又能實(shí)際落地的組合算法模型,以期為我國(guó)金融機(jī)構(gòu)在風(fēng)險(xiǎn)控制、金融服務(wù)等方面提供重要的方法借鑒。實(shí)際上,我國(guó)銀行業(yè)客戶資源配置深受傳統(tǒng)業(yè)務(wù)形態(tài)與營(yíng)銷模式的制約,銀行應(yīng)發(fā)揮互聯(lián)網(wǎng)在生產(chǎn)要素配置中的作用,留住老用戶、拓展新用戶,創(chuàng)造新的服務(wù)、新的價(jià)值。

      二、客戶識(shí)別模型的構(gòu)建

      (一)數(shù)據(jù)選擇

      大數(shù)據(jù)分析,不應(yīng)該建立在傳統(tǒng)數(shù)據(jù)分布假設(shè)的基礎(chǔ)之上,有什么樣的數(shù)據(jù)就生成什么樣的方法(或模型)。機(jī)器學(xué)習(xí)是面向復(fù)雜數(shù)據(jù)的隨機(jī)特征而構(gòu)建模型,符合大數(shù)據(jù)的思維模式。[4]從銀行服務(wù)的客戶對(duì)象來看,主要區(qū)分為企業(yè)客戶和個(gè)人客戶,從全球金融消費(fèi)的發(fā)展趨勢(shì)看,個(gè)人客戶是非常有潛力的群體。鑒于此,本文選用了河南省許昌銀行信貸客戶資料數(shù)據(jù),樣本數(shù)據(jù)中共1769戶個(gè)人信貸客戶的資料。其中,不違約客戶(A類)1232戶,占總數(shù)的69.60%;違約客戶(B類)537戶,占總數(shù)的30.40%。數(shù)據(jù)分布情況如表1所示:

      表1 樣本數(shù)據(jù)分布情況

      數(shù)據(jù)來源:河南省許昌銀行股份有限公司信貸客戶資料數(shù)據(jù)庫。

      表1僅列舉了部分變量的名稱,實(shí)際選用的變量包含了客戶的地域、貸款金額、個(gè)人收入、貸款用途、貸款期限、戶口狀況、健康狀況、與信用社的關(guān)系等31項(xiàng),信息相對(duì)齊全,應(yīng)該可以構(gòu)建出比較理想的信貸風(fēng)險(xiǎn)預(yù)測(cè)識(shí)別模型。但同時(shí)我們注意到,由于個(gè)人客戶多而分散,數(shù)據(jù)的分布有一定的復(fù)雜性,比如從客戶類型、擔(dān)保方式的類別角度來看,變量分類不平衡;從數(shù)據(jù)變量角度來看,比如貸款金額,存在大量的零空值且難以滿足傳統(tǒng)的正態(tài)分布的要求?;谌绱藦?fù)雜的數(shù)據(jù),大多數(shù)傳統(tǒng)的模型是無能為力的,必須選擇適合復(fù)雜數(shù)據(jù)分析的模型。

      (二)模型構(gòu)建

      數(shù)據(jù)準(zhǔn)備之后需要選擇分析方法(或模型)。預(yù)測(cè)識(shí)別客戶類型屬于分類預(yù)測(cè),我們經(jīng)過大量實(shí)驗(yàn),最終選用了機(jī)器學(xué)習(xí)中的Adaboost算法。該算法有幾種優(yōu)勢(shì):一是以決策樹、boosting為主體的組合算法,比單一算法預(yù)測(cè)準(zhǔn)確率高。二是對(duì)數(shù)據(jù)的質(zhì)量要求較低。由表1得知樣本數(shù)據(jù)分類變量分布不平衡且存在大量缺失值。三是算法效率高。相比其他組合算法(比如randomForest)或迭代算法,該算法運(yùn)行速度快。本文構(gòu)建模型的核心思想是針對(duì)同一個(gè)訓(xùn)練集構(gòu)建多個(gè)分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個(gè)樣本的權(quán)值。然后將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器融合起來,作為最終的決策分類器。該算法其實(shí)是利用了boosting算法原理,進(jìn)行簡(jiǎn)單的弱分類算法提升過程,這個(gè)過程通過不斷地訓(xùn)練,可以提高對(duì)數(shù)據(jù)的分類能力。具體步驟如下:

      第一步,給定訓(xùn)練樣本集S(即表1樣本數(shù)據(jù)的子集),定義X和Y分別對(duì)應(yīng)于正例樣本和負(fù)例樣本,T為訓(xùn)練的最大循環(huán)次數(shù)。第二步,初始化樣本權(quán)重為1/n,即為訓(xùn)練樣本的初始概率分布。第三步,進(jìn)行迭代,步驟如下:(1)訓(xùn)練樣本的概率分布下,訓(xùn)練弱分類器;(2)計(jì)算弱分類器的錯(cuò)誤率;(3)選取合適閾值,使得誤差最小;(4)更新樣本權(quán)重;(5)經(jīng)T次循環(huán)后,得到T個(gè)弱分類器,按更新的權(quán)重疊加,最終得到強(qiáng)分類器。

      Adaboost算法能夠?qū)θ鯇W(xué)習(xí)得到的弱分類器的錯(cuò)誤進(jìn)行適應(yīng)性調(diào)整。上述算法中迭代了T次的主循環(huán),每一次循環(huán)根據(jù)當(dāng)前的權(quán)重分布對(duì)樣本定一個(gè)分布P,然后對(duì)這個(gè)分布下的樣本使用弱學(xué)習(xí)算法得到一個(gè)弱分類器。每一次迭代,都要對(duì)權(quán)重進(jìn)行更新。更新的規(guī)則是:減小弱分類器分類效果較好的數(shù)據(jù)的概率,增大弱分類器分類效果較差的數(shù)據(jù)的概率。最終的分類器是個(gè)弱分類器的加權(quán)平均。[5,6]從以上介紹可知,Adaboost算法在信貸客戶預(yù)測(cè)識(shí)別時(shí),關(guān)注與信貸個(gè)人資料數(shù)據(jù)相關(guān)的隨機(jī)特征,利用計(jì)算機(jī)強(qiáng)大的迭代能力,以降低不同客戶類型誤分率為目標(biāo),不斷調(diào)整闕值和權(quán)值,歸納出反映數(shù)據(jù)特征的規(guī)律,找到能夠最佳擬合信貸客戶分類的目標(biāo)函數(shù)F,但同時(shí)對(duì)信貸數(shù)據(jù)的要求比較嚴(yán)格,即所給的數(shù)據(jù)能否代表事實(shí)。從大數(shù)據(jù)的角度來講,應(yīng)該是數(shù)據(jù)體量越多、更新越及時(shí),對(duì)信貸客戶的描述(目標(biāo)函數(shù)F)越全面、越有時(shí)效性。據(jù)了解,我國(guó)銀行已經(jīng)具備了數(shù)據(jù)儲(chǔ)量以及增量的條件,加上互聯(lián)網(wǎng)、云計(jì)算等技術(shù)日益成熟,目標(biāo)函數(shù)F會(huì)很快通過機(jī)器學(xué)習(xí)完成,可以適應(yīng)客戶環(huán)境變化引起的數(shù)據(jù)波動(dòng)。

      (三)結(jié)果輸出

      運(yùn)用機(jī)器學(xué)習(xí)法(Adaboost算法,1000戶做訓(xùn)練樣本,769戶做預(yù)測(cè)識(shí)別)可以詳細(xì)地甄別出每一個(gè)客戶違約和不違約的概率,并在此基礎(chǔ)上判斷出客戶的類型,如表2所示:

      表2 信貸客戶甄別簡(jiǎn)表

      注:實(shí)際預(yù)測(cè)客戶769個(gè),限于篇幅不再一一列舉。

      從表2可以看出,模型所輸出的結(jié)果區(qū)分為定性(A、B)和定量(概率),對(duì)實(shí)際工作具有重要的參考意義。我們可以將其輸出的A、B類和概率將客戶劃分為更多的等級(jí)。例如,按輸出結(jié)果對(duì)A部分的概率做5分位劃分,得到概率區(qū)間:[0,0.098867293]、[0.098867293,0.336902645]、[0.336902645,0.673397782]、[0.673397782,0.748064262]、[0.748064262,0.796290405]、[0.796290405,0.971534825],分別設(shè)置“A、B、C、D、E”5個(gè)等級(jí),如此劃分可以將信用等級(jí)進(jìn)一步細(xì)化。

      三、客戶特征要素分析

      (一)數(shù)據(jù)選擇

      將客戶有效預(yù)測(cè)識(shí)別后,下一步我們要對(duì)影響客戶的要素進(jìn)行分析。以客戶類型作為目標(biāo),運(yùn)用相關(guān)性算法,建立客戶類型與各個(gè)要素的相關(guān)性集合(如下,k-itemset)。在此,要對(duì)源數(shù)據(jù)進(jìn)行處理,即將數(shù)值變量轉(zhuǎn)化為可供分析的項(xiàng)目(如下,D中的內(nèi)容)。將連續(xù)變量轉(zhuǎn)化成單個(gè)項(xiàng)目要進(jìn)行變量離散化切分,離散化的方法很多,不同的方法會(huì)生成不同的項(xiàng)目,如何離散化數(shù)值變量是關(guān)鍵的一步。我們經(jīng)過反復(fù)實(shí)驗(yàn),最終確定對(duì)數(shù)值變量做5分位劃分。如此處理,數(shù)值變量會(huì)統(tǒng)一生成最多5個(gè)項(xiàng)目,如表3所示:

      表3 數(shù)值變量轉(zhuǎn)化成項(xiàng)集因子之后的樣本數(shù)據(jù)簡(jiǎn)表

      注:1.實(shí)際參與變量31個(gè),限于篇幅,不再一一列舉;2.星級(jí)表示做了5分位劃分之后所處的分位 (下同),[]表示分類區(qū)間。

      表3中,分類變量維持原來的分類不變,數(shù)值變量做了5分位劃分并將分位區(qū)間做了統(tǒng)計(jì)。如何對(duì)數(shù)值變量進(jìn)行劃分,業(yè)內(nèi)尚無可參考的方法,我們經(jīng)過大量實(shí)驗(yàn),最終按5分位劃分,事實(shí)證明比較合理。這是本文重要的創(chuàng)新之處。

      (二)模型構(gòu)建

      相關(guān)性分析的方法很多,本文選用比較經(jīng)典的Apriorialgorithm關(guān)聯(lián)規(guī)則算法,構(gòu)建出客戶類型與描述客戶特征的要素之間的關(guān)系。簡(jiǎn)單描述如下:(1)將描述客戶特征的要素以及類型存儲(chǔ)成二維結(jié)構(gòu)的記錄集,定義為D;(2)D中每一個(gè)要素中的內(nèi)容稱為項(xiàng)目,項(xiàng)目的集合稱之為所有項(xiàng)集(Items),定義為:I,I∈{分類變量,離散化的數(shù)值變量};(3)k個(gè)項(xiàng)目同時(shí)出現(xiàn)的項(xiàng)的集合,定義為k-itemset。項(xiàng)目、項(xiàng)集構(gòu)建完成之后,采用廣度優(yōu)先逐層搜索迭代技術(shù),找出項(xiàng)目同時(shí)出現(xiàn)的頻率,即找出客戶類型與客戶特征要素之間的依賴關(guān)系。衡量所生成的依賴關(guān)系的參數(shù)有支持度、置信度、提升度,定義如下:(1)支持度(Support)定義為supp(X)=occur(X)/count(D)=P(X),表示事件X出現(xiàn)的概率;(2)置信度(Confidence/Strength)定義為conf(X->Y)=supp(X∪Y)/supp(X)=P(Y|X),表示事件XY同時(shí)出現(xiàn)的概率;(3)提升度(Lift)lift(X->Y)=lift(Y->X)=conf(X->Y)/supp(Y)=conf(Y->X)/supp(X)=P(XandY)/(P(X)P(Y)),表示事件XY在X約束下出現(xiàn)的概率相對(duì)XY自由出現(xiàn)的比(一般來講Lift>1,規(guī)則就是有效的)。[7]從以上算法的介紹可以看出,關(guān)聯(lián)規(guī)則在云計(jì)算環(huán)境下,可以隨時(shí)窮舉所有的k-itemset,k∈[1,N],N為變量個(gè)數(shù),如此算法可以在短時(shí)間內(nèi)挖掘出大量信息并進(jìn)行重要性排序。

      (三)結(jié)果輸出

      大數(shù)據(jù)分析,要求創(chuàng)新和精準(zhǔn)。我們以客戶類型作為目標(biāo)(區(qū)分A、B類),以5個(gè)項(xiàng)目作為1個(gè)項(xiàng)集,設(shè)置支持度>=0.01、置信度>=0.8,然后運(yùn)用關(guān)聯(lián)規(guī)則原理對(duì)造成該結(jié)果的原因進(jìn)行推導(dǎo),最終生成了182 488(A類157457、B類25031)條規(guī)則,如表4所示:

      表4 關(guān)聯(lián)規(guī)則推導(dǎo)結(jié)果簡(jiǎn)表

      注:實(shí)際規(guī)則182 488個(gè),限于篇幅不再一一列舉。輸出的信息量很大,如果逐一解讀,應(yīng)用價(jià)值難以估量。

      表4是按照提升度降序排列所形成的結(jié)果,基于以上列舉的前6條規(guī)則,可以形成以下結(jié)論:一是個(gè)人的戶口性質(zhì)、與信用社的關(guān)系與客戶的類型相關(guān)性較高,由此可見建立穩(wěn)定的客戶群,形成穩(wěn)定的業(yè)務(wù)來源非常重要。二是主要經(jīng)濟(jì)來源、家庭(個(gè)人)收入對(duì)客戶的類型影響顯著,由此可見經(jīng)濟(jì)來源穩(wěn)定、家庭收入偏高的客戶按期還款的概率較高。三是是否有為他人擔(dān)保的記錄、有無職稱(職務(wù))對(duì)客戶的類型影響顯著,由此可見有一定的擔(dān)當(dāng)或名望的客戶按期還款的概率較高。由以上分析可知,我國(guó)銀行客戶資源受地域條件、經(jīng)濟(jì)條件以及個(gè)人信譽(yù)狀況的制約,對(duì)此應(yīng)引起高度關(guān)注。

      四、結(jié)論與啟示

      經(jīng)過以上實(shí)證分析,我們證明了“機(jī)器學(xué)習(xí)+關(guān)聯(lián)規(guī)則”在信貸風(fēng)險(xiǎn)預(yù)測(cè)識(shí)別中方法上的可行性。通過與大數(shù)據(jù)關(guān)鍵技術(shù)結(jié)合的組合算法模型,精準(zhǔn)地識(shí)別出風(fēng)險(xiǎn)客戶、深入地挖掘出優(yōu)質(zhì)客戶,解析出影響客戶類型的關(guān)鍵要素,可為銀行產(chǎn)品創(chuàng)新和服務(wù)創(chuàng)新提供技術(shù)支撐。結(jié)果表明,銀行優(yōu)化客戶資源配置應(yīng)重點(diǎn)關(guān)注:建立穩(wěn)定的客戶群,形成穩(wěn)定的業(yè)務(wù)來源;尋找有穩(wěn)定的經(jīng)濟(jì)來源、家庭收入偏高的客戶群體;挖掘在社會(huì)上信譽(yù)度較高、有一定的名望或擔(dān)當(dāng)?shù)目蛻簟?紤]到目前我國(guó)銀行受地域條件、經(jīng)濟(jì)條件以及個(gè)人信譽(yù)狀況的制約,要從根本上解決上述問題,銀行業(yè)應(yīng)從以下幾個(gè)方面入手:一是緊跟“互聯(lián)網(wǎng)+”的大形勢(shì),發(fā)揮互聯(lián)網(wǎng)在生產(chǎn)要素配置中的優(yōu)化和集成作用,融銀行線上、線下業(yè)務(wù)于一體,形成更廣泛的以互聯(lián)網(wǎng)為基礎(chǔ)的業(yè)務(wù)客戶資源鏈供應(yīng)。二是重視科學(xué)技術(shù)創(chuàng)新,以大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí)等作為支撐生產(chǎn)力的核心,將競(jìng)爭(zhēng)優(yōu)勢(shì)體現(xiàn)在產(chǎn)品創(chuàng)新、精準(zhǔn)營(yíng)銷、主動(dòng)服務(wù)等層面,提供有針對(duì)性的產(chǎn)品與服務(wù),在增加客戶粘性的同時(shí)保持與客戶的緊密聯(lián)系。三是改變銀行現(xiàn)有的經(jīng)營(yíng)模式,推進(jìn)透明度更強(qiáng)、參與度更高、協(xié)作性更好的多元化平臺(tái),為客戶提供良好的體驗(yàn),最大限度地留住客戶、發(fā)展客戶,創(chuàng)造新的服務(wù)、新的價(jià)值。

      [1][美]蔡瑞胸.金融數(shù)據(jù)分析導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2013.

      [2]Myers, J. H.,Forgy, E. W.. The Development of Numerical Credit Evaluation Systems[J].Journal of American Statistics Association, 1963,58(September):799-806.

      [3]Fisher, R. A.The Use of Multiple Measurements in Forecasting of Taxonomic Problems[J].Annals of Eugenics,1936,7:179-188.

      [4]Freund Y,IyerR,Schapirer R E,et al.An Efficient Boosting Algorithm for Combining Preferences[J].Journal of Machine Learning Research,2003,(4):1-3.

      [5]Francesco Perrini,Antonio Tencati,et al.Sustainability and Stakeholder Management:the Need for New Corporate Performance Evaluation and Reporting Systems[J].Business Strategy and the Environment,2006,(15):1-3.

      [6]Palm.Random Forest Classifier for Remote Sensing Classification[J].Remote Sens, 2005,26(1):2-4.

      [7]Yasushi U.,Hiroyuki M.Credit Risk Evaluation of Power Market Players with Random Forest[J].Transactions on Power and Energy,2008,128(1):3-6.

      猜你喜歡
      分類器變量樣本
      抓住不變量解題
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      也談分離變量
      推動(dòng)醫(yī)改的“直銷樣本”
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      村企共贏的樣本
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      中西区| 长葛市| 渝中区| 芒康县| 郁南县| 湄潭县| 东乡县| 文山县| 花垣县| 上蔡县| 苏尼特左旗| 长沙市| 高安市| 德惠市| 赫章县| 阳泉市| 湖南省| 黄梅县| 罗定市| 龙胜| 乐至县| 宝鸡市| 通江县| 通河县| 九寨沟县| 措勤县| 威宁| 称多县| 开鲁县| 博客| 双流县| 嵩明县| 福安市| 突泉县| 普兰店市| 株洲市| 宁南县| 常州市| 河西区| 舟曲县| 会泽县|