• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SVM 和Logistic 算法對比的中小企業(yè)財務困境預測研究

      2021-04-19 07:16:22洪欣琪阮素梅
      關鍵詞:特征選擇財務指標困境

      洪欣琪,阮素梅

      (安徽財經(jīng)大學 金融學院,安徽 蚌埠233000)

      中小企業(yè)在一國的經(jīng)濟發(fā)展中占據(jù)重要的地位,發(fā)揮著關鍵性作用。2018 年習近平總書記在不同城市考察中小企業(yè)發(fā)展狀況時提出“黨中央高度重視中小企業(yè)發(fā)展”[1]。2019 年三季度,中小企業(yè)發(fā)展指數(shù)(SMEDI)為92.8,與上季度持平。2019 年我國中小企業(yè)營業(yè)收入已達到約78.1 萬億元,2019~2023 預計年均復合增長率約為3.75%,2023 年將達到90.5 萬億元。但中小企業(yè)在發(fā)展過程中仍存在種種阻礙,“第三年檻”現(xiàn)象[2]較為普遍,即中小企業(yè)經(jīng)營到第三年時很可能會面臨破產(chǎn)的風險,這種風險大多因為企業(yè)存在財務困境所致。

      為了促進中小企業(yè)健康穩(wěn)定發(fā)展,構建預警體系、建立財務困境預警模型預測中小企業(yè)財務危機對企業(yè)自身、銀行等金融機構以及政府而言尤為重要。傳統(tǒng)的財務困境預警方式包括財務分析法和企業(yè)資信評級法[3],但隨著時間推移,傳統(tǒng)財務困境預警方法的眾多弊端顯現(xiàn),預測準確性無法滿足中小企業(yè)經(jīng)營發(fā)展的需要。眾多研究結果顯示:利用機器學習、深度學習的手段進行中小企業(yè)財務困境預測時能夠極大提高預測的準確性和效率。

      由于中小企業(yè)陷入財務困境是一個持續(xù)的過程,許多研究人員在財務困境的界定上有很多不同的觀點。Carmichael[4]認為企業(yè)財務困境是指企業(yè)經(jīng)營受阻,包括出現(xiàn)企業(yè)的流動資金短缺、股本不足、拖欠債務等現(xiàn)象。Beaver[5]認為企業(yè)財務困境是指企業(yè)因為銀行透支、拖欠優(yōu)先股股息、償付債券違約金而進行破產(chǎn)清算。Deakin[6]認為財務困境是指為債權人的利益而破產(chǎn)、資不抵債或者最終清算公司。在國內(nèi),郭小敏等[7]在界定財務困境時提出:財務困境的存在不是一瞬間而是一個循序漸進的過程。這給予我們選擇實驗樣本時的啟示:當上市企業(yè)虧損滿3 年,不能定期扭虧或財務狀況惡劣時才會被ST 處理,本文認為將被ST 的企業(yè)作為存在財務困境的樣本是合理的。李萌[8]在研究信用風險評估過程中發(fā)現(xiàn)企業(yè)流動性和償債能力顯著反映信用風險是否發(fā)生,由此可知企業(yè)財務指標能夠反映企業(yè)運行狀況,作為實驗研究依據(jù)具有說服力。

      數(shù)量和統(tǒng)計方法是最經(jīng)典的企業(yè)財務困境預測方法,Altman[9]提出了利用多變量辨別分析建立最早的財務困境預測模型并且最先利用Z-score 模型估計企業(yè)破產(chǎn)的可能性。1980 年之后機器學習快速發(fā)展,決策樹、神經(jīng)網(wǎng)絡、集成算法在各個領域得到廣泛的應用,Odom[10]首次將人工神經(jīng)網(wǎng)絡應用到企業(yè)破產(chǎn)預測。劉厚欽等[11]利用機器學習算法中的迭代法和集成學習算法進行信用風險預測時效果較好,但發(fā)現(xiàn)實際數(shù)據(jù)往往存在很多限制,本文通過對原始數(shù)據(jù)進行缺失值填補、異常值篩查、欠采樣處理不平衡數(shù)據(jù)讓預測模型呈現(xiàn)更好的效果。方匡南[12]使用SGL—SVM 技術預測財務困境,預測效果佳,本文認為在眾多機器學習算法中,支持向量機(SVM)存在極佳的分類與預測能力。Bradley[13]最初利用支持向量機進行特征選擇,并提出應深入探索其泛化能力。許多研究在進行特征選擇時使用方法較為單一,為了更好地把蘊含信息的特征篩選出來本文集成4 種特征選擇方法建立特征選擇模型并對原始特征進行打分最終選擇出與中小企業(yè)財務困境關系最為密切的22 個特征。Chen[14]經(jīng)過研究發(fā)現(xiàn),提高支持向量機預測性能的關鍵在于核函數(shù)的選擇。

      綜上所述,大量文獻在對中小企業(yè)財務困境問題展開研究時采用支持向量機構建預測模型,但在進行數(shù)據(jù)預處理和特征選擇時方法單一,而且就如何改進支持向量機核函數(shù)以及相關參數(shù)使得模型在提高準確率的基礎上避免過擬合的問題亟待解決。本文在現(xiàn)有文獻的基礎上,利用欠采樣處理非平衡數(shù)據(jù),建立特征選擇集成模型挑選擬合性較高的特征并經(jīng)過反復實驗精進選擇使支持向量機模型預測效果評價最佳的核函數(shù),并將支持向量機預測模型與邏輯回歸預測模型進行對比,總結兩種方法的優(yōu)勢和劣勢。

      1 理論基礎與研究設計

      1.1 基于支持向量機的中小企業(yè)財務困境預測模型

      支持向量機有以下數(shù)學描述:

      給 定 訓 練 集 T ={( x1, y1) , ( x2, y2) , …, ( xn, yn)} ∈( Rm*γ)n,其 中, xi∈ RM, i = 1,2, … ,n為 樣 本,yi∈ γ= {+ 1, -1 } , i = 1,2, … ,n為樣本 xi對應的類標簽。二分類問題即是在 Rm中尋找一個分類超平面g ( x) = w, x + b, w ∈ Rm,b ∈ R ,使得對任一樣本x,若 g ( x) ≥ 0,則判斷x 屬于+1 類,若g ( x) ﹤ 0,則判斷x 屬于-1 類。

      該模型考慮了與中小企業(yè)經(jīng)營相關財務指標,對中小企業(yè)財務困境進行全面系統(tǒng)的評價及預測。

      設訓練實例集[ xi, yi]是由輸入變量 xi= Rn和分類值 yi∈-1 ,1, i = 1, … ,I 構成,對于線性分類實例集,最優(yōu)超平面離散二元決策類規(guī)則的支持向量是由如下公式確定:

      其中,Y 為最終結果, yi為分類訓練實例集 xi分類值,其代表中小企業(yè)財務指標屬性向量;每個向量對應于一個輸入變量 xi, i= 1, …,M,作為支持向量;c和 ai代表確定的超平面參數(shù)。對于非線性離散實例集,上式轉(zhuǎn)化為高維形式如下所示:

      其中,函數(shù)k 表示中小企業(yè)財務困境預測不同類型的非線性決策面在輸入空間集的核函數(shù)。

      在面對非線性數(shù)據(jù)時需要引入核函數(shù)來處理,核函數(shù)的作用是為了將數(shù)據(jù)的維度轉(zhuǎn)化讓分類更加正確精準。

      核函數(shù)有以下數(shù)學描述:

      稱 k :Rm*Rm→ R是核函數(shù),如果存在從 Rm到Hilbet 空間? 的映射

      使得 ?x , z ∈ Rm,滿足

      其中,· 表示空間? 中的內(nèi)積。在二分類問題中,稱作φ 為特征的映射,φ 的像空間? 為特征空間。

      核函數(shù)的種類有很多,參考大量文獻可知有4 種常用核函數(shù):

      線性核函數(shù)

      多項式核函數(shù)

      徑向基核函數(shù)

      Sigmoid 核函數(shù)

      在核函數(shù)中需要確定眾多參數(shù)的值,包括:C:懲罰項,float 類型;gamma:核函數(shù)系數(shù),float 類型;coef0:核函數(shù)中的獨立項,float 類型。

      1.2 基于邏輯回歸的中小企業(yè)財務困境預測模型

      在機器學習領域邏輯回歸雖名為“回歸”卻是一種線性分類器,從線性回歸演變而來,大范圍的應用于分類問題中,是財務預警中的常用模型。模型的基本形式是:

      P 值表示中小企業(yè)陷入財務困境的概率,本文設定當P>0.5 時表示中小企業(yè)第二年會發(fā)生財務困境;反之,第二年正常經(jīng)營。

      邏輯回歸在工商業(yè)財務困境預測中受到青睞,主要得益于其擁有其他二分類器所不具備的優(yōu)點:

      (1)邏輯回歸對于線性關系的擬合非常優(yōu)秀。包括金融領域中信用卡欺詐、信用評分卡的制定、電商銷售預測等數(shù)據(jù)都是特征與標簽之間線性關系極強的數(shù)據(jù)。

      (2)邏輯回歸計算速度較快。邏輯回歸在線性數(shù)據(jù)的擬合和計算的速度上非常快,經(jīng)多次實驗表明其計算速度要高于隨機森林以及支持向量機,并且在大型數(shù)據(jù)上表現(xiàn)較好。

      (3)邏輯回歸的結果不限于0 和1,而是能夠返回連續(xù)型的概率類數(shù)字。在實際操作中不僅能夠返回客戶是否違約的判斷還能夠計算出客戶確切的“信用分數(shù)”。由此可知,邏輯回歸在實際問題的處理上具有一定的優(yōu)勢。

      1.3 模型的評價

      為了辨別基于支持向量機的中小企業(yè)財務困境預測模型的分類效果以及與其他分類器相比是否更優(yōu),本文引入4 種評價指標,分別為準確率、召回率AUC 和ROC 曲線。首先,根據(jù)樣本真實的類別和模型預測類別的組合形成4 類,分別為TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例)。很明顯,將這4 類所包含的樣本相加就是完整的數(shù)據(jù)集,分類結果的混淆矩陣如表1 所示。

      1.3.1 準確率

      準確率(Accuarcy)正確分類的樣本占總樣本的比率即正確分類的概率,是判斷分類模型分類效果最直觀的評價指標,計算公式為

      表1 分類結果混淆矩陣

      準確率的判斷受數(shù)據(jù)是否平衡的影響較大,當數(shù)據(jù)非平衡時,準確率會出現(xiàn)虛高的情況,需要預先處理非平衡數(shù)據(jù)以及與其他評價指標相結合。

      1.3.2 召回率

      召回率(recall)又稱查全率,表示樣本的所有正例中有多少被準確的分辨出來。召回率公式如下所示

      1.3.3 AUC 值與ROC 曲線

      ROC 曲線是受試者工作特征曲線的簡稱,以真陽率(TPR)為縱坐標,假陽率(FPR)為橫坐標的感受性曲線。ROC 曲線之所以被廣泛應用是因為不同于傳統(tǒng)二分類的評價方式在ROC 曲線上可以反映更多模糊的中間狀態(tài),適應范圍更廣泛。

      如果一個分類器的ROC 曲線將另一個分類器的ROC 曲線包裹住,則說明前者的分類效果更出色。但是,如果兩個分類器的ROC 曲線相交則無法通過曲線圖來分辨效果,因此,本文引入表示ROC 曲線下方面積的AUC 值,設ROC 曲線是由眾多點連接而成,點的坐標分別為 {( x1, y1),( x2, y2), … ,( xn, yn)},則:

      2 實驗結果及分析

      2.1 數(shù)據(jù)樣本

      本文將中小企業(yè)板塊中被ST 公司作為存在財務困境的公司樣本,非ST 公司作為正常樣本。為了減少實驗可能出現(xiàn)的異常情況,在數(shù)據(jù)收集時做了以下數(shù)據(jù)的篩選:

      (1)將銀行業(yè)證券業(yè)等價格波動比較大的金融公司剔除;

      (2)將數(shù)據(jù)公開不完整的公司剔除;

      (3)將不是因為財務困境而被ST 的公司剔除。

      根據(jù)以上要求,共選擇96 家中小企業(yè),每家中小企業(yè)分別選取其前2 年(t-2),前3 年(t-3),前4 年(t-4)三年的財務數(shù)據(jù)來預測當年(t 年)財務狀況。本文在中小企業(yè)板中選擇2020 年83 家非ST 公司作為正常樣本,13 家首次ST 處理的中小企業(yè)作為存在財務困境樣本。為了避免模型過擬合或者失去實驗意義,在樣本數(shù)據(jù)的選擇上類比實際比例。本文還選取了2020 年66 家企業(yè)作為測試集其中14 家ST 企業(yè)作為存在財務困境的樣本,52 家非ST 企業(yè)作為正常樣本。實驗中的所有數(shù)據(jù)均來自于國泰安數(shù)據(jù)庫。

      2.2 數(shù)據(jù)預處理和特征選擇

      2.2.1 缺失值處理

      本文共選取62 個中小企業(yè)財務指標,首先觀察收集的數(shù)據(jù)是否存在缺失值隨后利用python 對數(shù)據(jù)中缺失值進行探索,根據(jù)下表2 所示共62 個財務指標均存在缺失值,且缺失程度各異。

      表2 缺失值探索

      經(jīng)過檢驗發(fā)現(xiàn),本文數(shù)據(jù)不服從正態(tài)分布,所以無法采用簡單的均值進行缺失值的填補。故本文選擇K-最近鄰(KNN)法填補數(shù)據(jù)缺失值。

      2.2.2 異常值處理

      當機器或數(shù)據(jù)整理人員出現(xiàn)紕漏時極易出現(xiàn)個別數(shù)據(jù)明顯不符合整體數(shù)據(jù)特性的情況即出現(xiàn)異常值。本文首先通過描述性統(tǒng)計方法對數(shù)據(jù)中的異常值進行探索,結果如表3 所示。

      表3 描述性統(tǒng)計結果(部分)

      通過描述性統(tǒng)計結果可以看出,共有9 個財務指標存在異常本文將存在異常的財務指標進行刪除處理(表4)。

      表4 異常財務指標

      2.2.3 非平衡數(shù)據(jù)處理

      本文希望通過獲得的中小企業(yè)財務指標的數(shù)據(jù)建立財務困境預測模型,但中小企業(yè)板塊中“ST”處理的樣本數(shù)量占樣本總量的比例較低,屬于不平衡數(shù)據(jù),利用類別不平衡數(shù)據(jù)建立預測模型會出現(xiàn)分類器失真現(xiàn)象。為了提高分類器對中小企業(yè)財務指標數(shù)據(jù)的分類預測能力,本文采用規(guī)律性強、時間成本低的“欠采樣”方法,以RUSBoost 集成分類為主,迭代訓練集分類器,適當減少“非ST”中小企業(yè)樣本但不影響研究價值的體現(xiàn)。

      2.2.4 特征選擇

      本文選取與中小企業(yè)償債能力、盈利能力、每股指標、發(fā)展能力、現(xiàn)金獲取能力、成長能力相關的62個財務指標作為原始數(shù)據(jù),在此基礎上進行特征選擇篩選出與目標變量關系更密切的特征。許多研究人員在進行特征選擇時僅利用單一的特征選擇方法,本文集成f_classif、隨機森林、Lasso、XGBoost 四種特征選擇方法構建特征選擇評分模型,4 種特征選擇方法分別按照財務指標的重要性進行順序排序,其中f_classific特征選擇篩選出24 個財務指標,隨機森林特征選擇篩選出15 個財務指標,Lasso 特征選擇篩選出5 個財務指標,XGBoost 特征選擇篩選出18 個財務指標,在評分模型中被1 種特征選擇方式選中記1 分,得分在2分及2 分以上的財務指標將作為實驗特征,最終從62 個財務指標中篩選出15 個實驗特征,特征選擇評分模型如圖1 所示。

      根據(jù)構建的特征選擇評分模型結果,本文從62 個中小企業(yè)財務指標中選取15 個財務指標作為訓練財務困境預測模型的實驗特征,特征選擇結果如表5 所示。

      圖1 特征選擇評分模型

      表5 特征選擇數(shù)據(jù)集

      2.3 結果分析

      2.3.1 支持向量機財務困境預測模型的建立與調(diào)參

      為了提高支持向量機模型的預測效果,需要選擇使得模型準確率、召回率、AUC 值盡可能高的核函數(shù)。本文將96 家中小企業(yè)3 年的財務數(shù)據(jù)作為訓練數(shù)據(jù)進行訓練,找出最優(yōu)核函數(shù),具體結果如下表7。

      表6 所選特征釋義

      表7 核函數(shù)的選擇

      由表7 可知,徑向基核函數(shù)準確率、召回率、AUC 值均達到最高,此時模型的預測效果最好。

      C 值是核函數(shù)中最重要的參數(shù),選擇7 個C 值的備選數(shù)值,通過對分類器反復訓練得到準確率最高的C 值,具體結果如表8,圖2 所示。

      表8 C 值的選擇

      圖2 C 值選擇效果圖

      由表8 可知,當C=1.06 和C=6.32 時準確度均能夠達到0.88,根據(jù)圖2 所示C=1.06 時模型最早實現(xiàn)最優(yōu)狀態(tài),C 值作為懲罰系數(shù),過大表示對誤差的容忍度較小,但容易出現(xiàn)過擬合;過小時則容易出現(xiàn)模型欠擬合,所以在選擇徑向基核函數(shù)的基礎上分別將2 個C 值代入模型觀察二者的準確性、召回率以及AUC 值,結果如表9 所示。

      由表9 可知,如果將C 值設置為6.23 則會出現(xiàn)過擬合現(xiàn)象,故在最終的分類模型中選擇徑向基核函數(shù),C 值確定為1.06。模型整體在訓練集的準確率達到0.98,召回率、AUC 值均達到1.00,分類效果出色。

      表9 C 值的選擇

      2.3.2 模型結果對比

      調(diào)參后,支持向量機預測模型和邏輯回歸預測模型分類效果ROC 曲線圖如圖3, 4 所示。

      圖3 支持向量機預測模型ROC 曲線

      圖4 邏輯回歸預測模型ROC 曲線

      由圖3, 4 可知,支持向量機預測模型ROC 曲線凸起更靠近左上角,表示支持向量機預測模型的效果更好。

      使用66 家中小企業(yè)3 年的財務指標體系數(shù)據(jù)作為測試集分別進行兩種模型效果檢驗,結果如表10 所示。

      表10 測試集結果

      由表10 可知,支持向量機預測模型對于中小企業(yè)財務困境的預測準確率高于邏輯回歸,故本文認為以追求預測準確率為目標時,支持向量機方法要優(yōu)于邏輯回歸。

      3 研究結果與政策建議

      本文選取中小企業(yè)財務數(shù)據(jù)并進行平衡數(shù)據(jù)與特征選擇等數(shù)據(jù)預處理,利用支持向量機和邏輯回歸方法分別建立財務困境預測模型。實驗結果顯示,在建立支持向量機財務困境預測模型過程中,通過選擇徑向基核函數(shù),以及確定基于徑向基核函數(shù)的最優(yōu)參數(shù)C=1.06,能夠大大提高支持向量機模型的預測準確率,并且通過調(diào)整核函數(shù)和其他參數(shù)更有利于將模型向其他領域推廣;雖然邏輯回歸預測模型能夠處理大規(guī)模樣本但其模型預測準確性遠低于支持向量機模型,根據(jù)實驗結果,本文認為使用支持向量機進行中小企業(yè)財務困境預測更加優(yōu)越。支持向量機的優(yōu)勢在于其更加成熟和先進的算法大大提高了模型的準確性,滿足我們進行中小企業(yè)財務困境預測的最終目標。支持向量機不僅可以通過調(diào)整核函數(shù)以及C 值改變模型適用于各種各樣不同的財務數(shù)據(jù),還可以根據(jù)AUC 值及召回率迎合不同的實驗目的,如在一些實際狀況中,某一次財務危機將帶來致命的損失和打擊,此時將不再一味追求預測準確率而是以犧牲準確率為前提將所有財務風險排除在外,在這種情況下便會選擇召回率更高的模型。支持向量機的劣勢在于不能很好地處理大規(guī)模數(shù)據(jù)集和多分類問題,同時運算速度慢于邏輯回歸。

      邏輯回歸的優(yōu)勢在于不僅僅能返回其準確性概率,還能夠得到具有定性分類作用的連續(xù)型數(shù)值,更易于解釋和操作,且運算速度更快,并能夠處理大規(guī)模數(shù)據(jù)。邏輯回歸的劣勢首先在于計算的復雜度低于支持向量機,所以準確性不夠,判錯率較高,在實際應用中會給銀行等金融機構、政府及中小企業(yè)自身的帶來額外損失;其次,邏輯回歸無法通過調(diào)參來確定適合于不同數(shù)據(jù)的模型,根據(jù)不同的實踐目標需要設定全新的模型,一定程度上增加了預測方的研發(fā)成本。

      根據(jù)研究結論,從中小企業(yè)如何應對財務困境以及財務困境預測模型選擇等方面提出建議:

      (1)中小企業(yè)要積極預測自身是否存在財務困境并分析問題所在,降低可能破產(chǎn)的風險;其次,面對企業(yè)內(nèi)部管理結構會計體系混亂的情況應該予以重視并進行調(diào)整,遵守會計準則,實現(xiàn)會計體系的明朗化和專業(yè)化;最后,將提高中小企業(yè)自身的能力作為重點,提高中小企業(yè)的授信評級。

      (2)利用支持向量機建立財務困境預測模型滿足提高預測準確性的需求,在企業(yè)內(nèi)部、銀行及其他金融機構、政府可以廣泛應用;機器學習領域有眾多方法適用于財務困境預測但各有優(yōu)缺點,通過對不同模型進行結合,在保持原有模型優(yōu)勢的基礎上將缺陷降到最低;后續(xù)研究可以拓展到多分類問題,進一步建立更完備的財務困境預測模型。

      猜你喜歡
      特征選擇財務指標困境
      困境
      文苑(2020年12期)2020-04-13 00:54:08
      我國金融機構股價和主要財務指標的相關性分析
      全國國有企業(yè)主要財務指標
      “鄰避”困境化解之策
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      必須正視的理論困境
      我國霧霾治理的困境與出路
      全國國有企業(yè)主要財務指標
      聯(lián)合互信息水下目標特征選擇算法
      榮豐控股財務指標分析
      阿拉善右旗| 渝北区| 福州市| 丰城市| 靖宇县| 吉水县| 红安县| 桃源县| 鄂伦春自治旗| 五家渠市| 长兴县| 无极县| 黑河市| 惠州市| 姚安县| 泌阳县| 塔河县| 辽中县| 阜宁县| 林芝县| 广德县| 盈江县| 清徐县| 土默特左旗| 永修县| 乐至县| 八宿县| 定南县| 涪陵区| 刚察县| 嘉祥县| 平定县| 喜德县| 建昌县| 丹棱县| 乌拉特前旗| 石嘴山市| 湘乡市| 屏边| 分宜县| 北流市|