顧一凡 黃莉媛 林晨欣 曹春萍
摘 ?要:為切實解決中小微企業(yè)貸款融資和銀行對中小微企業(yè)貸款策略之間存在的問題,提出了基于風險等級的中小微企業(yè)信貸模型。該模型創(chuàng)新性地將機器學習算法引入傳統(tǒng)中小微企業(yè)信貸風險及策略的研究當中,運用PCA降維、K-means聚類確定企業(yè)風險等級;通過Fisher線性判別確定銀行信貸利率。應(yīng)用該模型將123 家中小微企業(yè)分成五類風險等級,并給出銀行對五類不同風險等級企業(yè)的貸款額度及利率,并通過實驗驗證模型的有效性和正確性。
關(guān)鍵詞:K-means聚類;PCA降維;Fisher線性判別;信貸模型
中圖分類號:TP391 ? ? 文獻標識碼:A
Research on the Credit Model of Small, Medium and
Micro Enterprises based on Risk Level
GU Yifan1, HUANG Liyuan2, LIN Chenxin2, CAO Chunping1
(1.School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China;
2.Business School, University of Shanghai for Science and Technology, Shanghai 200093, China)
guyifan2020@126.com; 948384993@qq.com; 1246506991@qq.com; 2213893844@qq.com
Abstract: In order to effectively solve the problems between loan financing of small, medium and micro enterprises and the bank's loan strategy for them, this paper proposes to build a credit model for small, medium and micro enterprises based on risk level. This model innovatively introduces machine learning algorithms into the research on credit risks and strategies of traditional small, medium and micro enterprises. PCA (Principal Components Analysis) dimensionality reduction and K-means clustering are used to determine enterprise risk level. Bank credit interest rate is determined by Fisher linear discriminant. Based on this model, 123 small, medium and micro enterprises are divided into five risk levels, and the bank's loan lines and interest rates for each level are given. Validity and accuracy of the model are verified through experiments.
Keywords: K-means clustering; PCA dimensionality reduction; Fisher linear discriminant; credit model
1 ? 引言(Introduction)
中小微企業(yè)作為我國宏觀經(jīng)濟的“毛細血管”,貢獻了我國80%的就業(yè)崗位和60%的GDP[1-2]。但中小微企業(yè)自身資金實力弱,若想發(fā)展就需要獲得銀行提供的貸款支持,而銀行放貸首要考慮的是貸款資金的安全,因此銀行放貸資金安全與中小微企業(yè)貸款需求之間的矛盾便成為一個亟待解決的問題。
目前,銀行為了解決這一問題,采取了如下策略:對中小微企業(yè)進行風險評估,對于風險等級在一定標準下的企業(yè),給予放貸。在鄭建華等[3]提出的研究企業(yè)信用評級模型中,使用了層次分析法進行評級模型的構(gòu)建。在郝曉露等[4]提出的商業(yè)銀行貸款的研究中,使用了灰色預測模型對貸款利率進行了預測。王薛[5]使用了AHP——模糊綜合評價農(nóng)村信用社農(nóng)戶貸款風險模型。仔細分析上述模型可以發(fā)現(xiàn),每個模型都涉及大量計算和推斷。計算機在大量數(shù)據(jù)的計算中表現(xiàn)出了極大的優(yōu)勢,所以構(gòu)建基于計算機的信貸模型成為目前的研究熱點。
本文在鄭建華等相關(guān)工作的基礎(chǔ)上,創(chuàng)新性地將機器學習算法引入對中小微企業(yè)貸款風險的研究當中。針對這一問題,提出了基于中小微企業(yè)風險評估等級的銀行貸款模型。該模型首先從企業(yè)原始發(fā)票信息中提取若干指標;其次通過對指標進行降維,對企業(yè)進行聚類,劃分出企業(yè)風險等級;最后根據(jù)企業(yè)對應(yīng)的風險等級,通過構(gòu)建貸款額度與貸款利率的計算模型,為銀行制定相應(yīng)的貸款策略。
2 企業(yè)風險等級確定(Enterprise risk level determination)
從123 家企業(yè)的進項、銷項發(fā)票記錄中提取信息,定義10 個原始風險評價指標[6-7]。將這10 個原始風險評價指標通過PCA降維,得到三個降維之后的評價指標,既保留了原始數(shù)據(jù)的絕大部分信息,又極大簡化了后續(xù)的計算量。最后,根據(jù)三個降維之后的評價指標,通過K-means聚類,將原123 家企業(yè)分為五個風險等級,為后續(xù)銀行信貸策略的確定提供依據(jù)。
2.1 ? 原始評價指標定義
從123 家企業(yè)的進項、銷項發(fā)票記錄中,提取并定義企業(yè)實力及企業(yè)信譽兩大類共10 個評價指標。
企業(yè)實力評價指標如下定義:
:企業(yè)有效銷售次數(shù);
:企業(yè)有效進貨次數(shù);
:企業(yè)供應(yīng)穩(wěn)定性,即有效進貨次數(shù)與總體進貨次數(shù)的比值;
:企業(yè)銷售穩(wěn)定性,即有效銷售次數(shù)與總體銷售次數(shù)的比值;
:企業(yè)進貨規(guī)模,即進項金額總和(營業(yè)成本);
:企業(yè)銷售規(guī)模,即銷項金額總和(營業(yè)收入);
:企業(yè)對上游企業(yè)的影響力,即企業(yè)銷方銷售總額;
:企業(yè)對下游企業(yè)的影響力,即企業(yè)購方采購總額。
企業(yè)信譽評價指標如下定義:
:企業(yè)信用評級,即將企業(yè)A、B、C、D四檔原始信用評級折算為4321分值;
:企業(yè)違約情況,即若企業(yè)有違約記錄,則該指標為1,否則為0。
2.2 ? 基于PCA降維對原始指標進行簡化
主成分分析通過正交變換的方法,將原始線性相關(guān)的觀測數(shù)據(jù)轉(zhuǎn)變?yōu)槿舾蓚€線性無關(guān)變量表示的數(shù)據(jù)[8]。線性無關(guān)的變量稱為主成分。如此,將原來高維空間中的數(shù)據(jù)映射到低維空間,降低了計算復雜度。同時,保留了原始數(shù)據(jù)中的大部分信息,實現(xiàn)了數(shù)據(jù)降維的功能。
如上10 個指標覆蓋了123 家企業(yè)各個方面的信息,可以較為全面地量化其內(nèi)在的風險。但由于這10 個原始指標所構(gòu)成的高維數(shù)據(jù)不便于觀察和計算,所以采用PCA降維對原始高維指標進行降維。通過計算10 個信貸風險指標之間的相關(guān)系數(shù)矩陣,再求解相關(guān)系數(shù)矩陣的特征值與特征向量。將特征向量對應(yīng)主成分的特征值與全體特征向量對應(yīng)主成分的特征值之和的比值定義為信息貢獻率,選取前三個貢獻率最大的主成分,其貢獻率依次為34.85%、20.22%、13.42%,累積貢獻率達68.49%,可以最大程度保留原始10 個指標中所包含的企業(yè)內(nèi)在風險的信息,又能解決高維指標數(shù)據(jù)不便于觀察計算的問題。
其中第一主成分為:
(1)
第二主成分為:
(2)
第三主成分為:
(3)
將式(1)第一主成分定義為企業(yè)交易規(guī)模指標,式(2)第二主成分定義為企業(yè)信譽指標,式(3)第三主成分定義為企業(yè)盈利能力指標。從三個維度重新審視企業(yè)內(nèi)在的風險等級。
2.3 ? 基于K-means確定123 家企業(yè)的風險等級
K均值聚類是常用的聚類算法。在未知數(shù)據(jù)特征標簽的情況下,將各項指標接近的樣本點聚成一類[9]。首先,由已確認的分類個數(shù)選擇個數(shù)據(jù)對象作為初始聚類中心;然后將其余樣本點分配到與之最近的聚類中心所在的類中;進而更新每個類中樣本點的均值作為下一次更新的聚類中心。如此往復迭代,直至聚類結(jié)果收斂為止。K-means算法流程如圖1所示。
將簡化后的指標作為訓練數(shù)據(jù),通過K-means聚類,將123 家企業(yè)聚類成不同風險等級的類別。選取=5,將原始123 家企業(yè)依據(jù)降維之后的三個指標分成五個風險等級:高風險企業(yè)、較高風險企業(yè)、中等風險企業(yè)、較低風險企業(yè)、低風險企業(yè)。以此完成對123 家企業(yè)風險等級的確定。
3 ? 銀行信貸模型(Bank credit model)
銀行信貸模型分成銀行信貸額度確定和銀行信貸利率確定兩大部分。依據(jù)企業(yè)有效進貨次數(shù)等三個指標,通過Fisher線性判別預測企業(yè)信貸違約概率。根據(jù)企業(yè)信貸違約概率建立銀行信貸額度求解模型。同時,依據(jù)銀行信貸利率與不同信譽等級下的客戶流失率的統(tǒng)計數(shù)據(jù)進行數(shù)據(jù)擬合,再結(jié)合企業(yè)信貸違約率等相關(guān)數(shù)據(jù),建立銀行信貸利率求解模型。
3.1 ? 基于Fisher線性判別的企業(yè)違約率預測[10]
Fisher線性判別是一種經(jīng)典線性判別方法,適用于二分類問題。其核心思想為訓練一組樣本點,將樣本點投影到一條直線上,使得同類樣本點的投影點盡可能密集接近,使得異類樣本點的投影點盡可能遠離。最終訓練出一個模型進行線性判別預測,同時給出樣本點所屬對應(yīng)兩個類別的概率。
由于無法從企業(yè)過往違約情況中直接得到企業(yè)未來貸款償還的違約率,故采用Fisher線性判別,基于企業(yè)有效進貨次數(shù)、有效銷售次數(shù)、企業(yè)信用評級作為訓練數(shù)據(jù)訓練模型。將企業(yè)未來是否違約轉(zhuǎn)化為一個二分類預測問題,即將企業(yè)劃分為未來會違約的組別和未來不會違約的組別,將預測結(jié)果與企業(yè)過往違約情況進行比對,得到得分模型:
(4)
若得分>0,則將該企業(yè)預測為不違約;反之,則將該企業(yè)預測為違約。由于樣本點的分類存在屬于對應(yīng)類別的概率,故將樣本點屬于違約類別的概率定義為該企業(yè)的違約概率,將該樣本點屬于未違約類別的概率定義為該企業(yè)的不違約概率。
3.2 ? 銀行信貸額度的確定[11]
原則上不為信譽評級為D的企業(yè)發(fā)放貸款,故額度模型的建立及之后的計算中,自動剔除信譽評級為D的企業(yè)。設(shè)銀行年度貸款總額為固定常數(shù)元,計算同一風險等級企業(yè)的平均貸款額度為:
(5)
其中,為級企業(yè)的平均不違約概率,為級下企業(yè)總數(shù)(不包括信譽評級為D的企業(yè))。
3.3 ? 銀行信貸利率的確定[12]
本文貸款利率求解步驟如下:
步驟1:根據(jù)銀行貸款年利率與不同信譽等級下客戶流失率的統(tǒng)計數(shù)據(jù),進行對數(shù)函數(shù)形式的曲線擬合,得到如式(6)所示的銀行客戶流失率與貸款年利率之間的函數(shù)關(guān)系。
(6)
其中,表示第類風險等級且信譽等級為的企業(yè)的流失率,表示第類風險的貸款年利率。由于不包含風險等級為D的企業(yè),故如上函數(shù)中,沒有的函數(shù)關(guān)系式。
步驟2:可表示為第類風險等級且信譽等級為的企業(yè)的留存率,將式(6)代入,則第類風險等級企業(yè)的總體流失率如式(7)所示。
(7)
其中,表示第類風險等級且信譽等級為的企業(yè)個數(shù)。
步驟3:以為決策變量建立如式(8)所示非線性規(guī)劃模型。
(8)
其中,為第類風險等級的企業(yè)貸款利率,目標函數(shù)表示銀行的總收入,表示給第類風險等級企業(yè)貸款的總額度,企業(yè)貸款利率的約束條件為4%至15%。
通過對式(8)非線性規(guī)劃函數(shù)模型在約束條件下求解,可以得到在風險可控的情況下,在貸款利潤最大化的前提下,銀行貸給不同風險等級企業(yè)的各自貸款利率。再結(jié)合由式(5)計算得到的不同風險等級下,銀行給企業(yè)貸款的額度,可以完整給出銀行對于不同風險等級下的企業(yè)的貸款策略。由于同一風險等級下企業(yè)的風險情況近似相等,故按照風險等級組別給出策略,可以極大降低放貸的復雜程度,同時保證風險可控。
4 ? 實驗驗證(Experiment verification)
4.1 ? 實驗數(shù)據(jù)集
本次研究所用數(shù)據(jù)集包括四個:企業(yè)信息數(shù)據(jù)集、進項發(fā)票信息數(shù)據(jù)集、銷項發(fā)票信息數(shù)據(jù)集,以及銀行貸款年利率與不同信譽等級下的客戶流失率的統(tǒng)計數(shù)據(jù)集。其中,企業(yè)信息數(shù)據(jù)集包括123 家企業(yè)的企業(yè)代號、企業(yè)名稱、企業(yè)信用評級以及企業(yè)歷史違約情況。企業(yè)進項發(fā)票數(shù)據(jù)集、銷項發(fā)票數(shù)據(jù)集分別包含123 家企業(yè)采購及銷售時所開發(fā)票的記錄,記錄中包括發(fā)票號碼、開票日期、銷方單位代號、購方單位代號、金額、稅額、價稅合計和發(fā)票狀態(tài)。銀行貸款年利率與不同信譽等級下的客戶流失率的統(tǒng)計數(shù)據(jù)集包括貸款年利率對應(yīng)于不同信譽評級的企業(yè)的客戶流失率的統(tǒng)計數(shù)據(jù)。
4.2 ? 計算原始指標
對企業(yè)信譽及實力的10 個原始評價指標進行計算。同時,為了消除不同指標之間量綱的影響,對每個評價指標進行極大值標準化。部分企業(yè)信貸風險指標評分結(jié)果如表1所示。
4.3 ? 基于降維后的指標對企業(yè)進行不同風險等級的聚類實驗及結(jié)果分析
基于降維后的三個指標對123 家企業(yè)進行聚類,值為5。不同風險等級企業(yè)聚類結(jié)果如圖2所示。
123 家企業(yè)根據(jù)企業(yè)交易規(guī)模指標、企業(yè)信譽指標、企業(yè)盈利能力指標聚成五類,依次為:低風險企業(yè)共1 家,較低風險企業(yè)共7 家,中等風險企業(yè)共86 家,較高風險企業(yè)共2 家,高風險企業(yè)共27 家。通過比對對應(yīng)企業(yè)原始10 個指標,其聚類結(jié)果與實際情況基本一致。
4.4 ? 企業(yè)信貸違約率計算的實驗及結(jié)果分析
通過Fisher線性判別,根據(jù)式(4),對企業(yè)違約情況進行預測,準確率達77.2%。進而計算企業(yè)違約概率與企業(yè)不違約概率,部分計算結(jié)果如表2所示。
4.5 ? 銀行信貸策略的實驗及結(jié)果分析
通過對貸款額度模型式(5)及貸款利率模型式(8)的求解,得到對五類風險等級企業(yè)的貸款策略,完整貸款策略如表3所示。
其中,a為銀行放貸的總額度。對于風險較低的企業(yè)類別,可以獲得較大的貸款額度,同時享受較低的貸款利率;而對于風險較高的企業(yè),則在獲得較低貸款額度的同時,需
要支付較高的貸款利率。這與實際情況相符,亦證明了模型的可行性與有效性。
5 ? 結(jié)論(Conclusion)
本研究通過對123 家中小微企業(yè)的進項、銷項發(fā)票數(shù)據(jù)進行研究,得出評價其風險等級的10 個原始指標。通過PCA降維、K-means聚類等機器學習常用技術(shù),將123 家企業(yè)劃分成五類風險等級,并根據(jù)有效進貨次數(shù)、有效銷售次數(shù)和企業(yè)信譽等指標進行Fisher線性判別預測,計算得出不同風險等級下,企業(yè)的平均違約率及貸款額度。繼而根據(jù)銀行年利率與客戶流失率的統(tǒng)計數(shù)據(jù)信息,構(gòu)建銀行貸款收入的非線性優(yōu)化模型。通過對非線性優(yōu)化模型的求解,得出銀行對不同風險等級下企業(yè)的貸款利率。
參考文獻(References)
[1] 梁鈺.新冠肺炎疫情下小微企業(yè)融資支持舉措效果評估及改進建議——基于湖南岳陽的調(diào)查[J].金融經(jīng)濟,2020(10):58-61,72.
[2] 鐘成林,胡雪萍.中小民營企業(yè)融資困境的形成機理及政策支持體系研究——基于群體性與個體性金融聲譽交互作用視角[J].社會科學,2019(05):50-58.
[3] 鄭建華,黃灝然,李曉龍.基于大數(shù)據(jù)小微企業(yè)信用評級模型研究[J].技術(shù)經(jīng)濟與管理研究,2020(07):22-26.
[4] 郝曉露,高巍.商業(yè)銀行貸款分配及盈利最大化的計量探析[J].湖北經(jīng)濟學院學報(人文社會科學版),2019,16(09):48-51.
[5] 王薛.農(nóng)村信用社農(nóng)戶貸款風險評價與控制研究[D].保定:華北電力大學,2007.
[6] 房斌.P銀行小微企業(yè)信貸風險評價體系研究[D].西安:西安石油大學,2020.
[7] 陳琳,季凌.基于數(shù)據(jù)挖掘的中小企業(yè)客戶信用評級模型的設(shè)計與實現(xiàn)[J].海峽科技與產(chǎn)業(yè),2019(01):176-178.
[8] 趙薔.主成分分析方法綜述[J].軟件工程,2016,19(06):1-3.
[9] TANG J L, ZHANG Z G, WANG D, et al. Research on weeds identification based on K-means feature learning[J]. Soft Computing, 2018, 22(22):7649-7658.
[10] 徐曉萍,馬文杰.非上市中小企業(yè)貸款違約率的定量分析——基于判別分析法和決策樹模型的分析[J].金融研究,2011(03):111-120.
[11] 遲國泰,龔玲玲.商戶小額貸款決策模型[J].技術(shù)經(jīng)濟,2016,35(04):98-103.
[12] 牟太勇.基于信用風險評估的商業(yè)銀行貸款定價研究[D].成都:電子科技大學,2007.
作者簡介:
顧一凡(2000-),男,本科生.研究領(lǐng)域:機器學習.
黃莉媛(1999-),女,本科生.研究領(lǐng)域:金融學.
林晨欣(2000-),女,本科生.研究領(lǐng)域:金融生態(tài).
曹春萍(1968-),女,碩士,副教授.研究領(lǐng)域:智能數(shù)據(jù)處理,個性化服務(wù).