• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機器學習的小微商鋪不良貸款預測

      2022-02-20 00:59:38刁亞靜彭維才
      全國流通經(jīng)濟 2022年36期
      關(guān)鍵詞:商鋪降維小微

      刁亞靜 彭維才

      (巢湖學院數(shù)學與統(tǒng)計學院,安徽 巢湖 238024)

      隨著雙循環(huán)經(jīng)濟政策的推動,小商品市場越來越發(fā)達,微型/小型商鋪眾多,這些商鋪經(jīng)常會對短期資金有需求,并且這些貸款業(yè)務(wù)的回報率相對較高。然而,這些商鋪存在風險防御能力較差、本身實力并不雄厚、易于受到宏觀經(jīng)濟政策以及市場環(huán)境影響等缺點,因而這部分貸款存在較大違約風險,所以針對這部分的貸款申請需要進行風險評估和控制,降低不良貸款比率。近年來,針對小微貸款風控的研究逐漸增多,崔丹、(2018)針對小微企業(yè)信用貸款風險控制問題展開論述;黃瓊、(2018)對銀行小微企業(yè)信用貸款風險控制進行了探討;常太星(2019)基于我國小微企業(yè)信用評估場景,結(jié)合學術(shù)界信用評估方法的研究成果,為我國小微企業(yè)融資機構(gòu)發(fā)展提供了有益建議與合理啟發(fā)。趙楊(2020)對我國商業(yè)銀行小微企業(yè)貸款以及風險管理現(xiàn)狀進行了闡述,并對小微企業(yè)貸款風險管理中存在的問題進行了分析,提出防范商業(yè)銀行小微企業(yè)貸款風險的對策。

      隨著社會發(fā)展、科技進步,大數(shù)據(jù)相關(guān)的數(shù)據(jù)挖掘、機器學習及人工智能等技術(shù)得到了快速發(fā)展,尤其是在金融行業(yè),應(yīng)用相當廣泛;近年來,在信貸相關(guān)領(lǐng)域的研究已經(jīng)不僅僅局限于傳統(tǒng)的規(guī)則評估及邏輯回歸評估,更為復雜的機器學習模型逐漸被應(yīng)用到信用評估、信用風險分析、違約風險、風險預測、反欺詐、反洗錢等場景中。此外,本文利用隨機森林方法給出了各個特征變量的重要性。趙天傲等(2018)運用XGBoost算法建立信用風險分析模型,運用網(wǎng)格搜索等方法調(diào)優(yōu)XGBoost參數(shù)來提高模型效果;并基于AUC、準確率、ROC曲線等評價指標,對XGBoost、決策樹、GBDT、支持向量機等模型進行對比分析,結(jié)果表明,XGBoost模型效果更優(yōu),性能更好。吳鵬飛(2019)基于德國信用違約風險的數(shù)據(jù),通過使用XGBoost算法來建立信用違約風險判別模型,并利用網(wǎng)格搜索對模型的參數(shù)進行調(diào)優(yōu),并將AUC值與隨機森林、GBDT、SVM模型進行了比較,結(jié)果表明,XGBoost模型能有效提供模型預測的精度,具有良好的應(yīng)用價值。李汛等(2019)借助機器學習的方法,以“人人貸”數(shù)據(jù)作為樣本,建立CART決策樹模型、SVM模型和KNN模型進行預測并對三種算法進行比較,證實了這三種模型都能夠有效預測違約,經(jīng)比較發(fā)現(xiàn),KNN與CART決策樹算法優(yōu)于SVM算法。劉斌等(2020)就線上貸款數(shù)據(jù)構(gòu)造了邏輯回歸、隨機森林及XGBoost 模型,研究表明,XGBoost 算法在線上貸款風險預測模型中具有更好的效果。阮亮亮(2020)以銀行的信貸數(shù)據(jù)為研究的樣本集,在數(shù)據(jù)預處理和特征工程的基礎(chǔ)上,分別運用XGBoost模型和邏輯回歸模型預測客戶借款違約概率,并用 AUC 作為評價指標;實證結(jié)果表明,XGBoost模型的預測結(jié)果AUC值為0.83,能夠較好地預測信用風險。姚玲潔(2020)針對貸款欺詐問題,該文使用隨機森林對真實信用卡貸款數(shù)據(jù)進行特征排序,采用邏輯斯特回歸構(gòu)建信用卡反欺詐預測模型,訓練獲得的模型正確率較高,可應(yīng)用于貸款欺詐預測系統(tǒng)中。聶紀予(2020)利用數(shù)據(jù)挖掘技術(shù),通過對貸款人的各類數(shù)據(jù)進行分析,利用現(xiàn)有的數(shù)據(jù)對多個模型進行比較,得出了相對準確性較高的建模方法。小微商鋪相關(guān)的風控研究相對較少,本文建立的模型可以幫助識別小微商鋪貸款申請的風險(程暉等,2018),從而避免資產(chǎn)損失。

      一、數(shù)據(jù)來源及關(guān)鍵變量說明

      本文收集了《深入解析SAS:數(shù)據(jù)處理、分析優(yōu)化與商業(yè)應(yīng)用》(夏坤莊等,2015)書中附錄的小微商鋪信貸數(shù)據(jù),其中有部分指標存在缺失情況,得到6000條借款人的16個指標信息,并從中抽取600條數(shù)據(jù)作為預留驗證集,其余數(shù)據(jù)用于訓練和驗證集;通過數(shù)據(jù)挖掘與機器學習技術(shù),如邏輯回歸、lightGBM、XGBOOST、隨機森林、GBDT、Voting及“GBDT+LR”等算法進行對比分析,通過預留驗證集來驗證各個模型的效果(變量如表1所示)。

      表1 信用風險度量指標量化處理

      其中,X12是信用等級,“B-”是最差的,“A+”是最好的。

      二、關(guān)鍵技術(shù)介紹

      本項目主要涉及的建模流程中核心技術(shù)主要分為兩方面,分別是變量降維中的變量聚類方法以及在建模過程中使用的Voting算法。變量聚類能快速有效地進行變量挑選,選出最直接有效的變量,以此來提高運行效率和整體性能,該方式適用于多變量多觀測的情況下的變量降維;另外一個關(guān)鍵技術(shù)是Voting算法,提高模型的準確率及穩(wěn)定性。

      1.變量聚類

      變量聚類是變量降維過程中一種重要方法,雖然該方法名稱叫做變量聚類,但卻并不是聚類分析,而是一種基于主成分分析的方法,變量聚類也叫斜交主成分分析。建模變量數(shù)量不同,建模過程的耗時也會不同。在實際構(gòu)建模型時,變量數(shù)量可能上千個,當變量數(shù)據(jù)足夠龐大時,這個時候采用變量聚類則可以快速實現(xiàn)變量的降維,然后再基于降維后的變量進行建模。此時,模型的運行效率會大大提升。

      變量聚類方法是依據(jù)變量間相關(guān)性的強弱程度,將相關(guān)性強的變量歸為一類,然后在每類中選擇一個較典型的變量去代表這一類變量,這樣,變量的數(shù)量便可以大大降低。同時,由于分類是依據(jù)變量間的關(guān)系,所以最終選出的變量間的、類間的相關(guān)性都弱化了許多。

      那么,如何在變量聚類過程中從每一類選取出能夠代表該類的那一個變量,可以使用的做法有如下3種方式。

      其一,考慮讓業(yè)務(wù)經(jīng)驗豐富的人去挑選。

      其二,如果不基于業(yè)務(wù),從技術(shù)角度,需依據(jù)聚類代表性指標“1-R2”進行篩選,聚類代表性指標。1-R2=(1-Rown2)/(1-Rnext2)。其中Rown2表示這個變量與自己的類分量的相關(guān)性,值越大越好;Rnext2表示這個變量與相鄰類分量的相關(guān)性,值越小越好。故選擇聚類代表性指標“1-R2”較小的變量去代表一類。

      其三,基于技術(shù)角度方式,是通過每個類中變量與Y變量的相關(guān)性來挑選(卡方值、IV值或者隨機森林重要性值等)。

      2.Voting模型

      機器學習的算法有很多,對于每一種機器學習算法,考慮問題的方式都略微有所不同,所以對于同一個問題,不同的算法可能會給出不同的結(jié)果,那么在這種情況下,選擇哪個算法的結(jié)果作為最終結(jié)果呢?此時,完全可以把多種算法集中起來,讓不同算法對同一種問題都進行預測,最終少數(shù)服從多數(shù),這就是集成學習的思路。Voting Classifier(投票)就是集成學習的一種。

      三、算法應(yīng)用

      1.變量降維

      傳統(tǒng)的變量降維方式較為單一,例如僅僅使用相關(guān)性分析,或者IV值或者隨機森林重要性等方式,結(jié)果相對粗糙并且難以消除變量共線性。

      本文采用“變量聚類+變量重要性”方式進行變量降維。

      (1)變量聚類

      表2 變量聚類表

      從上述結(jié)果表可以看出,對自變量進行變量聚類,可以把自變量分成9類,每個類可以挑選一個變量來代表該類,以此來達到快速降維的作用。

      (2)變量重要性

      變量重要性主要有卡方值、隨機森林或GBDT重要性和IV值等三種方式,本文主要采用如下兩種變量重要性方式。

      表3 變量重要性結(jié)果表

      從上表中可以看出,使用了兩種重要性衡量指標,分別是隨機森林重要性和IV值,二者重要性排序結(jié)果基本接近,小微商鋪經(jīng)營時間、小微商鋪月租金、小微商鋪年營業(yè)額等自變量對因變量Y影響較大,申請人學歷、申請人是否為本地戶籍、貸款原因等影響較??;最后一列相關(guān)性是通過變量探索得到,輔助進行變量分析。

      (3)變量聚類結(jié)合變量重要性

      首先,對涉及的自變量進行變量聚類,劃分出一定類別,每個類中變量數(shù)目為一個或多個;其次,計算每個變量對Y變量的影響程度(隨機森林重要性),在每個類中挑選出影響程度最高的變量,作為該類的代表變量。通過該技術(shù),從15個自變量中挑選出9個自變量入模;變量聚類情況如表4所示。

      表4 變量聚類情況

      通過表4可知,小微商鋪年營業(yè)額和小微商鋪月租金為一類,從變量重要性大小方面考慮,挑選小微商鋪月租金入模,表4中陰影部分為最終入模變量。

      2.模型及模型比較

      本文構(gòu)建了邏輯回歸、決策樹、超隨機樹、隨機森林、GBDT、XGBOOST、lightGBM、Voting以及“GBDT+LR”等模型,通過對比模型的準確率、覆蓋率及ROC(曲線下面積介于0~1之間)和KS選出最佳模型。一般情況下,準確率、覆蓋率、ROC及KS,取值越大越好。從各個指標上看,GBDT和Voting模型表現(xiàn)最好,考慮模型的穩(wěn)定性,本文選取了Voting作為最終的小微商鋪不良貸款預測模型。表5和表6是選取5400個樣本作為訓練集和驗證集(樣本分區(qū)比為7∶3),600個樣本作為預測集(預留驗證集)下各個模型的平均驗證效果(對比預測結(jié)果與實際結(jié)果的差距)。

      表5 未采樣下的模型比較

      表6 正負樣本1∶1欠采樣下的模型比較

      本文建立了各種機器學習模型,模型經(jīng)過多次隨機迭代,通過模型驗證的精確率、召回率、ROC、KS等指標,發(fā)現(xiàn)GBDT及Voting模型在這幾個指標上的表現(xiàn)最好,結(jié)合模型的穩(wěn)定性,最終選定Voting模型作為小微商鋪不良貸款預測模型。

      3.結(jié)論

      本文選取了6000條借款人的16個指標信息,使用python進行全流程建模,通過數(shù)據(jù)探索及數(shù)據(jù)分析,了解指標與因變量Y的關(guān)系,通過指標與因變量Y的關(guān)系發(fā)現(xiàn),金融機構(gòu)針對小微商鋪貸款申請時,應(yīng)著重考慮小微商鋪借貸人的資產(chǎn)收益率X1、信用記錄中拖欠次數(shù)X3、小微商鋪資產(chǎn)負債率比率X4、小微商鋪經(jīng)營時間X6、申請人年齡X10、小微商鋪月租金X11、小微商鋪面積X13等7個指標,根據(jù)對Y的相關(guān)性及對Y的影響性最終陰影部分7個變量為我們挑選的變量。一般來說,信用記錄中拖欠次數(shù)越高,不良貸款比率越高,越容易發(fā)展為不良貸款;資產(chǎn)收益率越高、小微商鋪經(jīng)營時間越長、小微商鋪年營業(yè)額越高、申請人年齡越大、小微商鋪月租金越高、小微商鋪面積越大,不良貸款比率越低,越不容易發(fā)展為不良貸款。

      四、總結(jié)

      本文主要基于Python軟件進行了全流程建模,包括變量探索、變量降維、各種機器學習模型構(gòu)建、模型驗證、模型比較等流程,最終選取了Voting模型作為小微商鋪不良貸款預測模型,此時模型的精確率為0.8485,召回率為0.7407,ROC值為0.9595,模型效果表現(xiàn)優(yōu)異。通過小微商鋪不良貸款預測模型,從而使金融機構(gòu)可以及早發(fā)現(xiàn)申請商鋪的風險并對高風險貸款申請予以否決,避免資產(chǎn)損失。

      猜你喜歡
      商鋪降維小微
      Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
      小微課大應(yīng)用
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      外銷畫中的十三行街道戲曲商鋪考
      中華戲曲(2019年2期)2019-02-06 06:54:28
      沉浸式劇院——Dear So Cute商鋪與咖啡館
      小微企業(yè)借款人
      小微企業(yè)經(jīng)營者思想動態(tài)調(diào)查
      解決小微金融機構(gòu)的風控難題
      拋物化Navier-Stokes方程的降維仿真模型
      計算物理(2014年1期)2014-03-11 17:00:18
      基于特征聯(lián)合和偏最小二乘降維的手勢識別
      綦江县| 香港 | 南京市| 乌审旗| 辽中县| 厦门市| 马关县| 肃北| 娱乐| 呼图壁县| 交口县| 清水河县| 洪洞县| 寿阳县| 内丘县| 定陶县| 郴州市| 汉阴县| 威远县| 沁阳市| 新龙县| 攀枝花市| 南宁市| 长顺县| 简阳市| 武平县| 深水埗区| 浦北县| 商河县| 英吉沙县| 揭阳市| 周口市| 彭泽县| 阿克苏市| 湘乡市| 新昌县| 当雄县| 新郑市| 齐齐哈尔市| 贡嘎县| 姜堰市|