楊田毅 高煒皓 劉宇陽
摘要:本文首先進行數(shù)據(jù)預處理,將20個指標的數(shù)據(jù)正向化并標準化,運用SPSS分層抽取80%的訓練集和測試集,由于SVM對高維數(shù)據(jù)不能主動進行特征提取,我們通過C4.5決策樹算法進行降維,在有監(jiān)督的情況下,通過SVM對訓練集進行訓練,并采用GWO灰狼算法對參數(shù)進行優(yōu)化,求出預測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結(jié)果進行分析測試。
關鍵詞:數(shù)據(jù)預處理 ?分層抽取 ?C4.5決策樹算法
一、問題的背景
隨著我國商業(yè)銀行商業(yè)消費信貸業(yè)務的迅猛發(fā)展,個人信用評估得到的空前的重視,有研究表明,導致銀行破產(chǎn)的最常見原因就是信用風險。因此,科學有效的個人信用評估方法成為了商業(yè)銀行風險控制、進一步促進消費信貸發(fā)展的關鍵。
二、問題的提出
本題要求對已給出風險信息的相關屬性建立分類模型,對銀行客戶個人的信用風險進行準確評估。給出的數(shù)據(jù)集來自個人信用評分方面應用廣泛的公開數(shù)據(jù)集。該數(shù)據(jù)集一共包含 20個相關屬性(即 20個指標變量),1個類別變量(即個人信用風險優(yōu)/劣)。共有 1000個樣本點,其中包括 700個優(yōu)質(zhì)客戶和 300個不良客戶。
本文根據(jù)以上背景,結(jié)合數(shù)學知識,設計方法完成以下問題:
(四) 對數(shù)據(jù)進行適當?shù)財?shù)值化處理,并在數(shù)據(jù)集中分別抽取 80%的數(shù)據(jù)(560個優(yōu)質(zhì)客戶和 240個不良客戶)作為訓練集,建立銀行客戶的個人信用風險評估模型。
(五) 并用剩余樣本(140個優(yōu)質(zhì)客戶和 60個不良客戶)進行模型計算結(jié)果的測試。
三、問題分析
根據(jù)收集的1000個樣本點的數(shù)據(jù)集,需要在抽取的訓練集基礎上建立個人信用風險評估模型,并對剩余樣本進行結(jié)果測試。首先,我們對訓練集進行數(shù)值化處理,由于題目中所給出的20個相關屬性較多,過多的信息會使模型復雜度增加,因此選擇C4.5決策樹利用自身屬性篩選的方法對個人信用評價模型進行降維。其次,在數(shù)據(jù)預處理后,對于抽取的訓練集,要在已知客戶相關屬性的情況下對類別進行分類,利用支持向量機SVM評估信用好壞,以結(jié)構(gòu)最小化為優(yōu)化目標,在有限樣本和模型的復雜性和學習能力中尋求最佳折中。再對數(shù)據(jù)進行二分類,假設本題是線性不可分的問題,通過多項式核函數(shù)來簡化運算,之后對多項式核函數(shù)調(diào)參,在此采取灰狼算法GWO優(yōu)化參數(shù),最終得到基于決策樹和支持向量機的信用評價模型。帶入剩余樣本進行模型計算結(jié)果的測試。
四、模型建立與求解
4.1 數(shù)據(jù)預處理
由于所給指標的方向及量綱均不同,且對于部分指標而言,指標的數(shù)字大小不能代表該種情況的好壞(即虛擬變量),對指標進行整理,不同類型的指標分別包括:
極大型指標:A1,A5,A6,A7,A10,A11,A14,A15,A17;
區(qū)間型指標:A13;
極小型指標:A2,A3,A8,A12,A16,A18;
虛擬變量(數(shù)字沒有實際意義):A4,A9,A19,A20。
為此,我們通過SPSS,首先將不同類型的指標處理為正向化指標(即數(shù)字越大代表越好),然后再進行z標準化處理,虛擬變量則直接進行z標準化處理。
4.2基于C4.5決策樹的特征提取
由于支持向量機[1]對高維數(shù)據(jù)不能主動進行特征選擇,我們首先基于C4.5決策樹[2]對數(shù)據(jù)進行特征的提取,然后再通過支持向量機對數(shù)據(jù)進行訓練,具體算法過程如下:
決策樹學習采取自頂向下的遞歸方式,從樹根節(jié)點開始在內(nèi)部進行屬性的測試比較,再根據(jù)屬性值確定分支, 最后在決策樹的葉子節(jié)點得到分類的結(jié)論, 整個過程在以新的節(jié)點為根的子樹上重復, 直到訓練停止得到最優(yōu)決策樹。
C4.5決策樹的剪枝策略采用的是后剪枝的方法。后剪枝策略首先需要構(gòu)造完整的決策樹,允許決策樹過度擬合訓練數(shù)據(jù),然后對那些置信度不夠的子樹節(jié)點用葉節(jié)點來替代。以SPSS分層隨機抽取的80%的數(shù)據(jù)作為訓練集,剩下的作為測試集,兩組比例為4:1,查閱文獻可知,將損失比例設為2:1最佳,Boosting[3]迭代次數(shù)設置為默認值10,
假設訓練數(shù)據(jù)集中包含n類別,分別為T={t1,t2…tn},根據(jù)訓練數(shù)據(jù)集中某屬性A可能有(a1,a2…am),共m種取值,根據(jù)屬性A劃分為T={t1′,t2′…tn′},其他屬性皆類似于屬性A。我們注意到?jīng)Q策樹算法中的DI3算法用信息增益選擇屬性的特點,但由于DI3算法信息增益選擇屬性時偏向于選擇取值多的屬性和其只能處理離散型的屬性,我們在此基礎上選擇C4.5決策樹算法,以信息熵增益率方法測試屬性,信息熵增益率計算公式為:
其中,D為數(shù)據(jù)集,A是數(shù)據(jù)集屬性,Gain(D,A)為屬性A的信息增益,Split_info(D,A)為屬性A的分裂信息量。
通過計算所有屬性的信息增益率,選出具有最大信息增益率值的屬性作為決策樹的根點。然后,以同樣的方法確定決策樹各層的節(jié)點
五、結(jié)論
我們通過C4.5決策樹算法進行降維,在有監(jiān)督的情況下,通過SVM對訓練集進行訓練,并采用GWO灰狼算法對參數(shù)進行優(yōu)化,求出預測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結(jié)果進行分析測試
參考文獻
[1]曹平蘋,劉倩,毛舟. 賦能綠色低碳發(fā)展的“常德實踐”[N]. 金融時報,2021-12-28(010).
[2]唐珂,劉淼,王梅,紀曉明. 綠色金融讓白城“風光”無限[N]. 金融時報,2021-12-28(010).
[3]何穎,裴文靜.金融驅(qū)動甘肅中藥材產(chǎn)業(yè)融合的發(fā)展模式分析[J].農(nóng)業(yè)開發(fā)與裝備,2021(12):36-39.
[4]陳衍水. 福建金融業(yè) 探尋綠水青山間的“黃金路”[N]. 農(nóng)村金融時報,2021-12-27(A01).
[5]鄭長靈,蔣敏. 郵儲銀行景德鎮(zhèn)市分行 消費貸款助力老百姓消費升級[N]. 農(nóng)村金融時報,2021-12-27(A05).