• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于混合學習策略的企業(yè)信用評級研究

      2016-04-07 09:27:52夏婷婷
      卷宗 2016年2期
      關(guān)鍵詞:混合學習

      夏婷婷

      摘 要:由于在實際企業(yè)信用評級中,通常存在著大量的未標記樣本,同時在少量的有標記樣本中,企業(yè)信用評級的數(shù)據(jù)往往呈現(xiàn)非均衡分布的特點,因此本文將半監(jiān)督學習和非均衡數(shù)據(jù)分類方法結(jié)合起來,提出一種基于混合學習策略的企業(yè)信用評級方法,同時通過企業(yè)評級數(shù)據(jù)集對提出的方法進行實驗驗證。

      關(guān)鍵詞:半監(jiān)督;非均衡數(shù)據(jù)分類;混合學習;企業(yè)信用評級

      1 引言

      在現(xiàn)代經(jīng)濟生活中,信用作為市場經(jīng)濟的基礎(chǔ),對企業(yè)的生存和發(fā)展有著重要的影響。然而,企業(yè)信用缺失已成為制約我國經(jīng)濟可持續(xù)發(fā)展的突出問題之一,據(jù)相關(guān)資料統(tǒng)計,我國企業(yè)每年由信用缺失導致的經(jīng)濟損失高達6000億元[1]。因此如何建立一個適用的企業(yè)信用評級模型,強化企業(yè)信用風險管理,已成為學術(shù)界和產(chǎn)業(yè)界迫切需要解決的問題。

      目前在企業(yè)的信用評級領(lǐng)域,常見的企業(yè)信用評級方法主要有基于統(tǒng)計分析的方法和基于機器學習的方法,其中根據(jù)建立判別函數(shù)形式和樣本的假定不同,基于統(tǒng)計分析的方法主要有一元判別模型、多元判別模型、Logistic回歸模型、Probit 模型等[2]。由于基于統(tǒng)計分析的方法對樣本數(shù)據(jù)都有嚴格的假設(shè)條件,如多元正態(tài)分布、等協(xié)方差等,在現(xiàn)實中這些假設(shè)一般都不成立,極大地限制了基于統(tǒng)計分析方法的應(yīng)用。因此,基于機器學習的方法越來越多地被應(yīng)用到企業(yè)信用評級中[3]?;跈C器學習的方法需要構(gòu)建一個具有良好性能的財務(wù)風險預測模型,這就需要大量的有標記樣本,然而在企業(yè)信用評級實際應(yīng)用中,通常存在著大量的未標記樣本,有標記樣本相對較少,與此同時,在少量的有標記樣本中,企業(yè)信用評級的數(shù)據(jù)集往往呈現(xiàn)非均衡分布的特點,因此,本研究提出了基于混合學習策略的方法,用來解決企業(yè)信用評級中存在的問題。

      基于混合學習策略的方法是一種把半監(jiān)督學習和非均衡數(shù)據(jù)分類方法結(jié)合起來的學習方法,它利用少量的有標記樣本和大量的未標記樣本,將非均衡數(shù)據(jù)分類方法引入到半監(jiān)督學習方法中,從而形成一種混合學習策略的企業(yè)信用評級方法。通過本研究,豐富和完善了企業(yè)信用評級研究的理論研究體系,為及時準確地預測企業(yè)的信用風險提供了行之有效的方法,加強了企業(yè)的信用風險管理,保護了企業(yè)利益相關(guān)者的利益,具有重要的意義。

      2 基于混合學習策略的企業(yè)信用評級方法

      2.1 自訓練方法

      自訓練算法是最早提出的半監(jiān)督學習方法,也是半監(jiān)督學習中較為常見的方法之一。它通過已有的少量有標記樣本訓練出分類器,然后利用該分類器預測大量未標記樣本的類別,選出置信度較高的樣本加入到訓練集中重新訓練,重復執(zhí)行以上過程,直到滿足條件為止[4]。算法的流程如圖1所示。

      2.2 非均衡數(shù)據(jù)分類方法

      2.2.1基于取樣的非均衡數(shù)據(jù)分類方法

      基于取樣的方法主要是將原本非均衡的樣本類別變得均衡,從而提高分類器對少數(shù)類樣本的分類準確率,常用的基于取樣的方法有欠取樣方法(Under Sampling)和過取樣方法(Over Sampling)[5]。欠取樣方法通過隨機去掉多數(shù)類樣本來降低數(shù)據(jù)集的非均衡程度,但這種方法會丟失多數(shù)類的一些重要信息;而過取樣方法與欠取樣方法相反,它通過隨機復制少數(shù)類樣本的方式來使數(shù)據(jù)集達到均衡,這種方法雖然保留了已有樣本的所有分類信息,但容易造成分類器的過度擬合。為了克服上述隨機欠取樣和過取樣方法存在的缺點,研究者提出了SMOTE取樣方法,它根據(jù)一定的規(guī)則,在一些相距較近的少數(shù)類樣本間加入“合成”樣本,隨機生成新的少數(shù)類樣本,并將這些新生成的少數(shù)類樣本加入到原來的數(shù)據(jù)集中,從而對少數(shù)類樣本進行擴充,產(chǎn)生新的訓練數(shù)據(jù)集。通過SMOTE方法增加的少數(shù)類樣本并不存在原來的樣本中,因此SMOTE可以避免過取樣的缺陷。

      2.2.2基于集成學習的非均衡數(shù)據(jù)分類方法

      基于集成學習的方法通過訓練多個分類器并將其結(jié)果按照一定的方式進行有效的組合,以此來獲得比單個分類器更好的性能。當前,構(gòu)建集成學習的方法主要有Bagging和Boosting方法[6]。Bagging方法首先對原始的訓練樣本集進行有放回隨機抽樣,得到若干個樣本數(shù)量與初始樣本數(shù)量相當?shù)挠柧殬颖咀蛹?,其次對每個樣本子集進行訓練,得到若干個基分類器,最后采用少數(shù)服從多數(shù)的投票方式將這若干個基分類器的結(jié)果進行組合。Boosting 方法首先賦予原始訓練樣本集中的每一個樣本相同的初始權(quán)重,由這個訓練集訓練第一個基分類器,計算分類錯誤率,提高那些被錯誤分類的訓練樣本的權(quán)重,降低那些被正確分類的樣本權(quán)重,從而得到一個權(quán)重被調(diào)整后的訓練樣本集,其次由這個權(quán)重被調(diào)整后的訓練樣本集訓練第二個基分類器,重復這一過程,直到生成若干個基分類器,最后采用加權(quán)合并的方式進行多個分類器的集成。

      2.3 基于混合學習策略的方法

      由于常用的半監(jiān)督學習方法主要有自訓練和協(xié)同訓練方法,常用的非均衡數(shù)據(jù)分類方法主要有基于取樣的方法和基于集成學習的方法,故本文從以下兩個角度構(gòu)建了基于混合學習策略的企業(yè)信用評級方法,分別為:基于取樣和自訓練的企業(yè)信用評級方法和基于集成學習和自訓練的企業(yè)信用評級方法。

      基于取樣和自訓練的企業(yè)信用評級方法,首先采用取樣方法對有標記樣本進行處理使得樣本類別分布均衡,其次訓練類別均衡的有標記樣本得到一個分類器,最后對未標記樣本進行訓練來提高這個分類器的分類性能。算法流程如圖2所示。

      基于集成學習和自訓練的企業(yè)信用評級方法,首先采用集成學習方法生成基礎(chǔ)分類器,其次利用基礎(chǔ)分類器對未標記樣本進行標記,最后將置信度高的未標記樣本添加到有標記樣本中,重復這一過程來提高分類器的分類性能。算法流程如圖3所示:

      3 實驗設(shè)計

      為了驗證基于混合學習策略的方法在企業(yè)信用評級領(lǐng)域中的有效性,本文選取了中國工商銀行2006年至2007年間共239家企業(yè)進行試驗,該數(shù)據(jù)集包含企業(yè)的財務(wù)數(shù)據(jù)及銀行評定的信用風險狀況,包括148家無風險企業(yè)和91家有風險企業(yè)。本研究采用工商銀行征信部門專家提出的18個財務(wù)指標作為企業(yè)信用評級指標,具體指標見表1。

      實驗的評價指標使用目前常用的評價指標:平均分類精度(Average Accuracy),指的是被分類器正確預測的樣本數(shù)據(jù)占全部樣本數(shù)據(jù)的百分比。當實驗數(shù)據(jù)集類別分布均衡時,平均分類精度作為評價指標能夠很好的評價分類器的性能,然而由于企業(yè)信用評級問題的數(shù)據(jù)分布是非均衡的,采用平均分類精度指標已經(jīng)不能恰當?shù)姆从撤诸惼鞯男阅?,因此本文還采用非均衡數(shù)據(jù)分類領(lǐng)域常用的AUC作為評價指標。

      實驗選用了目前常用的機器學習分類器Decision Tree(DT)作為基礎(chǔ)分類器,半監(jiān)督方法選取Self-training方法,非均衡取樣方法選取Under Sampling、Over Sampling和SMOTE方法。對于自訓練與非均衡數(shù)據(jù)分類方法相結(jié)合的方法,采用本文提出的Self-US、Self-OS、Self-SMOTE、Self-Bagging、Self-Boosting方法。本文使用5次10倍交叉驗證法來提高實驗結(jié)果的可信性,因此,最終的實驗結(jié)果取5次10倍交叉驗證的平均值。

      4 實驗結(jié)果與分析

      根據(jù)以上實驗設(shè)計,最終實驗結(jié)果如表2所示。

      從表2中我們可以看出,當標記比例為0.4時,Self-Boosting取得了最高的平均分類精度:87.37%,同時取得了最高的AUC:0.9285。當標記比例為0.8時,Self-Boosting取得了最高的平均分類精度和最高的AUC,分別為88.35%和0.9296。實驗結(jié)果表明,在平均分類精度指標和AUC指標上,本研究提出的基于混合學習策略的企業(yè)信用評級方法取得了很好的實驗結(jié)果,證明了本研究提出的基于混合學習的方法在企業(yè)信用評級中的有效性。

      為了分析不同的半監(jiān)督學習方法在企業(yè)信用評級中應(yīng)用的效果,我們通過公式(3.1)計算自訓練方法相對于基礎(chǔ)分類器DT的AUC提高的百分比,得到圖4。

      從圖4中可以看出,在不同的標記比例下,自訓練方法在AUC上都有了顯著的提高,這表明與基礎(chǔ)分類器方法相比,本文提出的基于混合學習策略的企業(yè)信用評級方法,能夠充分解決了企業(yè)信用評級數(shù)據(jù)中存在的未標記樣本學習和數(shù)據(jù)分布非均衡問題,因此取得了較好的實驗結(jié)果,驗證了本文方法的有效性。

      5 總結(jié)

      為了解決企業(yè)信用評級實際應(yīng)用中存在的未標記樣本學習和數(shù)據(jù)分布非均衡問題,本文提出了基于混合學習策略的企業(yè)信用評級方法,并在企業(yè)信用評級數(shù)據(jù)集上進行了實驗驗證,實驗結(jié)果表明,與單一學習方法相比,基于混合學習策略的企業(yè)信用評級方法能夠有效解決企業(yè)信用評級中存在的問題。然而本文主要關(guān)注企業(yè)信用評級領(lǐng)域,在未來的研究中,本文提出的方法也可以應(yīng)用于其它領(lǐng)域,對方法的可靠性進行驗證。

      參考文獻

      [1] 何平, 金夢. 信用評級在中國債券市場的影響力[J]. 金融研究, 2010, (04): 15-28.

      [2] 姚瀟, 余樂安. 模糊近似支持向量機模型及其在信用風險評估中的應(yīng)用[J]. 系統(tǒng)工程理論與實踐, 2012, (03): 549-554.

      [3] 蔣盛益, 汪珊, 蔡余沖. 基于機器學習的上市公司財務(wù)預警模型的構(gòu)建[J]. 統(tǒng)計與決策, 2010, (09): 166-167.

      [4] 丁濤. 半監(jiān)督自訓練分類模型的研究與實現(xiàn)[D]. 大連理工大學, 2009.

      [5] 高嘉偉, 梁吉業(yè). 非平衡數(shù)據(jù)集分類問題研究進展[J]. 計算機科學, 2008, (04): 10-13.

      [6] 韓敏, 朱新榮. 不平衡數(shù)據(jù)分類的混合算法[J]. 控制理論與應(yīng)用, 2011, (10): 1485-1489.

      猜你喜歡
      混合學習
      慕課混合教學:理論、形態(tài)、目標
      基于SPOC的混合學習模式在高職專業(yè)基礎(chǔ)課中的改革與實踐
      信息技術(shù)教育中混合學習模式的應(yīng)用
      高職計算機應(yīng)用基礎(chǔ)課程SPOC混合教學模式設(shè)計探討
      混合學習在高等教育:三類不同設(shè)計方法
      SPOC平臺下IPAD在初中生物混合學習中應(yīng)用初探
      考試周刊(2016年88期)2016-11-24 14:41:38
      基于Unipus的大學英語混合式教學模式探索
      基于混合式學習理念的大學生自主學習能力的培養(yǎng)研究
      價值工程(2016年29期)2016-11-14 02:05:45
      混合學習模式及其實施要點 
      軟件導刊(2016年9期)2016-11-07 22:36:12
      基于MOOC的高職混合學習策略研究
      蓬莱市| 喀喇沁旗| 雅江县| 无锡市| 甘德县| 尤溪县| 宁化县| 洞口县| 克东县| 轮台县| 桐城市| 保亭| 泰顺县| 县级市| 华容县| 滦平县| 万安县| 贵港市| 忻州市| 五华县| 阜城县| 沂水县| 宁陕县| 鄂尔多斯市| 宜都市| 靖远县| 高平市| 教育| 隆德县| 大名县| 水城县| 永安市| 绵竹市| 九龙县| 桃源县| 马公市| 策勒县| 华宁县| 临颍县| 金门县| 寿阳县|