• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于C4.5決策樹對SVM的結(jié)合優(yōu)化分析

    2021-04-25 17:24:54楊田毅高煒皓劉宇陽
    科學家 2021年24期
    關鍵詞:決策樹增益客戶

    楊田毅 高煒皓 劉宇陽

    摘要:本文首先進行數(shù)據(jù)預處理,將20個指標的數(shù)據(jù)正向化并標準化,運用SPSS分層抽取80%的訓練集和測試集,由于SVM對高維數(shù)據(jù)不能主動進行特征提取,我們通過C4.5決策樹算法進行降維,在有監(jiān)督的情況下,通過SVM對訓練集進行訓練,并采用GWO灰狼算法對參數(shù)進行優(yōu)化,求出預測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結(jié)果進行分析測試。

    關鍵詞:數(shù)據(jù)預處理 ?分層抽取 ?C4.5決策樹算法

    一、問題的背景

    隨著我國商業(yè)銀行商業(yè)消費信貸業(yè)務的迅猛發(fā)展,個人信用評估得到的空前的重視,有研究表明,導致銀行破產(chǎn)的最常見原因就是信用風險。因此,科學有效的個人信用評估方法成為了商業(yè)銀行風險控制、進一步促進消費信貸發(fā)展的關鍵。

    二、問題的提出

    本題要求對已給出風險信息的相關屬性建立分類模型,對銀行客戶個人的信用風險進行準確評估。給出的數(shù)據(jù)集來自個人信用評分方面應用廣泛的公開數(shù)據(jù)集。該數(shù)據(jù)集一共包含 20個相關屬性(即 20個指標變量),1個類別變量(即個人信用風險優(yōu)/劣)。共有 1000個樣本點,其中包括 700個優(yōu)質(zhì)客戶和 300個不良客戶。

    本文根據(jù)以上背景,結(jié)合數(shù)學知識,設計方法完成以下問題:

    (四) 對數(shù)據(jù)進行適當?shù)財?shù)值化處理,并在數(shù)據(jù)集中分別抽取 80%的數(shù)據(jù)(560個優(yōu)質(zhì)客戶和 240個不良客戶)作為訓練集,建立銀行客戶的個人信用風險評估模型。

    (五) 并用剩余樣本(140個優(yōu)質(zhì)客戶和 60個不良客戶)進行模型計算結(jié)果的測試。

    三、問題分析

    根據(jù)收集的1000個樣本點的數(shù)據(jù)集,需要在抽取的訓練集基礎上建立個人信用風險評估模型,并對剩余樣本進行結(jié)果測試。首先,我們對訓練集進行數(shù)值化處理,由于題目中所給出的20個相關屬性較多,過多的信息會使模型復雜度增加,因此選擇C4.5決策樹利用自身屬性篩選的方法對個人信用評價模型進行降維。其次,在數(shù)據(jù)預處理后,對于抽取的訓練集,要在已知客戶相關屬性的情況下對類別進行分類,利用支持向量機SVM評估信用好壞,以結(jié)構(gòu)最小化為優(yōu)化目標,在有限樣本和模型的復雜性和學習能力中尋求最佳折中。再對數(shù)據(jù)進行二分類,假設本題是線性不可分的問題,通過多項式核函數(shù)來簡化運算,之后對多項式核函數(shù)調(diào)參,在此采取灰狼算法GWO優(yōu)化參數(shù),最終得到基于決策樹和支持向量機的信用評價模型。帶入剩余樣本進行模型計算結(jié)果的測試。

    四、模型建立與求解

    4.1 數(shù)據(jù)預處理

    由于所給指標的方向及量綱均不同,且對于部分指標而言,指標的數(shù)字大小不能代表該種情況的好壞(即虛擬變量),對指標進行整理,不同類型的指標分別包括:

    極大型指標:A1,A5,A6,A7,A10,A11,A14,A15,A17;

    區(qū)間型指標:A13;

    極小型指標:A2,A3,A8,A12,A16,A18;

    虛擬變量(數(shù)字沒有實際意義):A4,A9,A19,A20。

    為此,我們通過SPSS,首先將不同類型的指標處理為正向化指標(即數(shù)字越大代表越好),然后再進行z標準化處理,虛擬變量則直接進行z標準化處理。

    4.2基于C4.5決策樹的特征提取

    由于支持向量機[1]對高維數(shù)據(jù)不能主動進行特征選擇,我們首先基于C4.5決策樹[2]對數(shù)據(jù)進行特征的提取,然后再通過支持向量機對數(shù)據(jù)進行訓練,具體算法過程如下:

    決策樹學習采取自頂向下的遞歸方式,從樹根節(jié)點開始在內(nèi)部進行屬性的測試比較,再根據(jù)屬性值確定分支, 最后在決策樹的葉子節(jié)點得到分類的結(jié)論, 整個過程在以新的節(jié)點為根的子樹上重復, 直到訓練停止得到最優(yōu)決策樹。

    C4.5決策樹的剪枝策略采用的是后剪枝的方法。后剪枝策略首先需要構(gòu)造完整的決策樹,允許決策樹過度擬合訓練數(shù)據(jù),然后對那些置信度不夠的子樹節(jié)點用葉節(jié)點來替代。以SPSS分層隨機抽取的80%的數(shù)據(jù)作為訓練集,剩下的作為測試集,兩組比例為4:1,查閱文獻可知,將損失比例設為2:1最佳,Boosting[3]迭代次數(shù)設置為默認值10,

    假設訓練數(shù)據(jù)集中包含n類別,分別為T={t1,t2…tn},根據(jù)訓練數(shù)據(jù)集中某屬性A可能有(a1,a2…am),共m種取值,根據(jù)屬性A劃分為T={t1′,t2′…tn′},其他屬性皆類似于屬性A。我們注意到?jīng)Q策樹算法中的DI3算法用信息增益選擇屬性的特點,但由于DI3算法信息增益選擇屬性時偏向于選擇取值多的屬性和其只能處理離散型的屬性,我們在此基礎上選擇C4.5決策樹算法,以信息熵增益率方法測試屬性,信息熵增益率計算公式為:

    其中,D為數(shù)據(jù)集,A是數(shù)據(jù)集屬性,Gain(D,A)為屬性A的信息增益,Split_info(D,A)為屬性A的分裂信息量。

    通過計算所有屬性的信息增益率,選出具有最大信息增益率值的屬性作為決策樹的根點。然后,以同樣的方法確定決策樹各層的節(jié)點

    五、結(jié)論

    我們通過C4.5決策樹算法進行降維,在有監(jiān)督的情況下,通過SVM對訓練集進行訓練,并采用GWO灰狼算法對參數(shù)進行優(yōu)化,求出預測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結(jié)果進行分析測試

    參考文獻

    [1]曹平蘋,劉倩,毛舟. 賦能綠色低碳發(fā)展的“常德實踐”[N]. 金融時報,2021-12-28(010).

    [2]唐珂,劉淼,王梅,紀曉明. 綠色金融讓白城“風光”無限[N]. 金融時報,2021-12-28(010).

    [3]何穎,裴文靜.金融驅(qū)動甘肅中藥材產(chǎn)業(yè)融合的發(fā)展模式分析[J].農(nóng)業(yè)開發(fā)與裝備,2021(12):36-39.

    [4]陳衍水. 福建金融業(yè) 探尋綠水青山間的“黃金路”[N]. 農(nóng)村金融時報,2021-12-27(A01).

    [5]鄭長靈,蔣敏. 郵儲銀行景德鎮(zhèn)市分行 消費貸款助力老百姓消費升級[N]. 農(nóng)村金融時報,2021-12-27(A05).

    猜你喜歡
    決策樹增益客戶
    基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
    基于單片機的程控增益放大器設計
    電子制作(2019年19期)2019-11-23 08:41:36
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    基于Multisim10和AD603的程控增益放大器仿真研究
    電子制作(2018年19期)2018-11-14 02:37:02
    決策樹和隨機森林方法在管理決策中的應用
    電子制作(2018年16期)2018-09-26 03:27:06
    為什么你總是被客戶拒絕?
    如何有效跟進客戶?
    基于決策樹的出租車乘客出行目的識別
    做個不打擾客戶的保鏢
    山東青年(2016年2期)2016-02-28 14:25:41
    基于肺癌CT的決策樹模型在肺癌診斷中的應用
    阿坝县| 郸城县| 尼勒克县| 洪洞县| 陵川县| 寿宁县| 阿拉善盟| 吉林市| 南城县| 舞阳县| 宜阳县| 自贡市| 安塞县| 宝应县| 榆树市| 嵩明县| 壤塘县| 敦化市| 乌拉特后旗| 霍山县| 金山区| 泸定县| 临沭县| 辽源市| 秦皇岛市| 加查县| 池州市| 葫芦岛市| 长海县| 盐津县| 上高县| 新邵县| 丹东市| 华坪县| 威海市| 伊宁县| 汝南县| 马边| 获嘉县| 澄城县| 五常市|