王巖 張佩瑤
【摘 要】 高新技術產業(yè)已成為或正在成為國家和地區(qū)新的經濟增長點。研究企業(yè)財務風險可以提前預測風險并降低破產的可能性。支持向量機在財務風險預警問題的研究中已經取得了成功,但傳統的支持向量機存在過擬合的問題,對于數據集中的噪聲點十分敏感。為改進上述不足,使用遺傳算法對模糊支持向量機參數進行最優(yōu)化選擇,構建了基于KNN隸屬度模糊支持向量機算法對上市公司財務數據進行多分類研究。實證結果表明:模糊支持向量機可以更好地解決過擬合問題,提高分類準確率。
【關鍵詞】 財務風險評級; 模糊支持向量機; 模糊隸屬度; 遺傳算法
【中圖分類號】 F275 ?【文獻標識碼】 A ?【文章編號】 1004-5937(2019)02-0061-04
一、引言
隨著經濟的快速發(fā)展,企業(yè)為了擴大規(guī)模,提高自身知名度,增加競爭力,紛紛選擇上市。上市公司數量與規(guī)模日益增加,成為我國經濟結構中的重要組成部分。高新技術產業(yè)在促進產業(yè)結構優(yōu)化升級、提高國家或地區(qū)的國際競爭力方面發(fā)揮著重要作用,所有國家都在積極采取措施鼓勵高新技術產業(yè)的發(fā)展,以刺激本國經濟。隨著中國高新技術產業(yè)快速發(fā)展及對經濟增長的貢獻,如何客觀、系統地評價高新技術產業(yè)的發(fā)展水平,明確高新技術產業(yè)發(fā)展的影響因素顯得尤為重要。但是單純地開發(fā)技術、采用新的生產方式,不能更好地改善公司的經營狀況,關鍵是要對財務狀況做深入的分析。
企業(yè)的財務風險控制是企業(yè)在生產經營過程中必不可少的重要環(huán)節(jié)。財務風險是客觀存在的,為了保證企業(yè)的正常運行,降低破產的可能性,企業(yè)的管理者需要采取一系列有效措施來降低企業(yè)財務風險,因此怎樣才能建立科學的風險評級體系,成為了企業(yè)財務管理過程中的一個重要問題。
美國學者Beaver首先利用財務指標對財務困境進行了預測,此實驗結果可以預測接近破產的企業(yè),被稱為單變量模型的開創(chuàng)性研究。Martin在此基礎上提出了利用Logistic模型來預測銀行的破產概率,之后Ohlson將Logistic回歸模型運用到企業(yè)的財務困境預測。國內對財務風險預測的研究起步比較晚,最初是將統計技術用于財務風險的評估,如單變量模型、多重判別分析等。吳世農和盧賢義[ 1 ]以我國上市公司財務數據為樣本,利用統計方法研究財務預警的準確度,得出Logistic模型的誤判率最低。傳統的風險評級方法有層次分析法、灰色關聯分析等,然而隨著企業(yè)規(guī)模的擴大,傳統方法已經不能滿足企業(yè)的需求,神經網絡、遺傳算法、支持向量機和粗糙集等數據挖掘方法開始應用于企業(yè)財務風險預警的研究。邸紅娜[ 2 ]利用BP神經網絡對制造業(yè)的財務信息建立危機預警模型,該模型準確率高達92.5%。甘敬義[ 3 ]應用Adaboost算法對制造業(yè)的財務數據構建了BP神經網絡模型和Logistic回歸模型,結果顯示BP_Adaboost模型對財務風險的預測有較高準確率。荊雙喜等[ 4 ]應用支持向量機在做好特征抽取的情況下,將模型運用到異步電機轉子斷條故障診斷的研究中,取得了很好的分類效果。
本文借鑒已有研究,提出了基于模糊支持向量機的高新技術產業(yè)上市公司財務數據多分類評級方法。利用KNN隸屬度的魯棒性設計了模糊支持向量機的模糊隸屬度函數。實證研究結果表明,相比傳統的支持向量機分類模型,模糊支持向量機模型構造的隸屬函數可減少不可分區(qū)域,達到解決問題的目的,具有較高抗干擾能力和分類準確率??梢岳迷撃P蛯ζ髽I(yè)財務數據進行風險預測,及早發(fā)現企業(yè)中潛藏的風險,采取相應的措施來規(guī)避風險,避免財務危機的發(fā)生,保證企業(yè)正常運行,提高企業(yè)競爭力。
二、模型構建
(一)模糊支持向量機原理
支持向量機是將樣本通過尋找到的最優(yōu)超平面,劃分為不同的兩類,但實際中并不是每個樣本都可以被完全地劃分到某一類,其中可能存在有噪聲點,會降低分類器的泛化能力[ 5 ]??赏ㄟ^對樣本賦予不同的隸屬度,構造模糊支持向量機,提高泛化能力。
已知樣本(xi,yi,si),i=1,…,n,y∈{+1,-1}。其中xi為訓練樣本,yi為樣本類別,0≤si≤1為樣本的隸屬度。模糊支持向量機可通過求解以下問題進行優(yōu)化。
其中:b∈R是偏差;懲罰因子C為大于零的常數,表示對于誤差的容忍度;si?孜i為帶權的誤差項。
為求上述問題,構造拉格朗日函數:siC表示對易錯分樣本的重視程度,siC越大樣本xi被錯分的可能性越小。因此,對于噪聲點或野值點,應減小其對應的siC值,則此類樣本在訓練中的作用將隨之減小,從而降低他們對分類面的影響,提高分類精度。
(二)模糊隸屬度設計
模糊隸屬度的設計對模糊支持向量機的分類性能有很大的影響,反映了樣本對訓練的重要程度,目前還沒有一個一般性的準則可遵循。一般的基于樣本與類中心距離的隸屬度設計[ 6 ],忽略了樣本的分布情況。針對各公司財務數據樣本分布的分散性問題,本文選取基于KNN的模糊隸屬度度量方法來確定模糊隸屬度si,該方法具有較強的魯棒性。其計算如下:對于每一個訓練樣本xi,找到與其最近鄰的K個點并組成集合Di={d1,d2,…,dk},其中dj(j=1,2,…,k)表示訓練樣本xi到第j個最近鄰點的距離。計算出訓練樣本xi到集合Di的平均距離daidai=。dai中的最大值與最小值分別為dmax與dmin。本文的模糊隸屬度為:其中:?茲<1為足夠小的正數,用于控制隸屬度下限;f為控制函數變化的參數。
由此可見,當daj趨近于dmax和si趨近于?茲時,xi是噪聲點的可能性最小?;贙NN的模糊隸屬度度量方法可以更好地計算每個樣本對分類的影響,提高分類準確率。
(三)遺傳算法優(yōu)化FSVM模型參數
在模糊支持向量機模型的分類過程中,模型中參數的選擇對分類結果有很大的影響,如何選擇模型的參數也是提高預測準確率的關鍵。
遺傳算法(GA)[ 7 ]是基于自然選擇和基因遺傳學的一種全局尋優(yōu)的優(yōu)化算法。首先對于隨機產生的一組經過基因編碼的初始解(種群),根據所需問題的適應度大小進行個體的隨機選擇,通過對遺傳算子進行組合交叉和變異,產生更適應環(huán)境的新的種群,逐代演化產生種群問題的最優(yōu)解。
適應度值用來衡量種群中個體的優(yōu)劣,遺傳算法(GA)采用適應度函數來確定個體的適應度值,有助于適應性好的個體得到繁衍的機會,找到最優(yōu)解。選擇的目的是為了從種群中選出優(yōu)異的個體,使其中的某些特性可以遺傳給子代,減少了基因缺失,提高全局的收斂性。選擇就是種群中個體優(yōu)勝劣汰的過程,它是建立在個體適應度評價基礎上的。常用的方法有輪盤賭法、排序選擇法等。交叉是遺傳算法的核心,它是生成新個體的主要方式,最常用的有單點交叉算子、均勻交叉算子等。變異與選擇和交叉結合起來,確保了遺傳算法(GA)的有效性,提高了算法的搜索效率。
遺傳算法(GA)是一種近似算法,相比傳統優(yōu)化算法直接利用控制變量實際值進行優(yōu)化,遺傳算法是通過控制變量的編碼作為運算對象,利用概率變遷規(guī)則引導問題的搜索方向,其效率遠遠高于傳統的優(yōu)化算法,具有十分強的魯棒性。本文利用遺傳算法上述特性來確定FSVM分類模型中的兩個參數:懲罰因子-c和核函數因子-g。遺傳算法(GA)優(yōu)化FSVM參數的基本算法過程如圖1。
三、實證分析
(一)樣本和指標的選取
考慮到樣本的時效性與可得性,本文的數據選自CCER中國經濟金融數據庫。為了避免行業(yè)不同所帶來結果的差異,選取近五年594家高新技術產業(yè)上市公司的財務數據作為研究對象。通過混合分類模型對企業(yè)財務數據進行風險評級,將數據分為三類:健康企業(yè)、危機企業(yè)(ST企業(yè)和*ST企業(yè))和破產企業(yè)。
在財務風險評級的實證研究中,指標參數目前還沒有確定的選取標準,本文依照以往的經驗[ 8 ],初步從每股指標、盈利能力、償債能力、現金流量和凈利潤增長率5個方面選取了25個備選指標,如表1。
(二)LLE降維
企業(yè)在生產和運營過程中產生了大量的數據,這些數據包含了大量的信息,利用該信息可以大大提高實驗精度。但是大量的數據意味著增加了實驗的復雜性和時間,為了從這些大量的數據中找到有用的信息,有必要將數據進行降維處理。流形學習的目的是發(fā)現顯著特征和從高維采樣數據中恢復低維流形結構,實現數據維數的簡約化或可視化。
本文利用SPSS軟件對25個財務指標進行KMO和Bartlett的球形度檢驗,檢驗變量之間的相關性,結果顯示不是正定矩陣,無法通過球形檢驗,因此不能用因子分析法來進行特征提取。用于建立金融風險模型的降維方法大多是非線性方法,在現實生活中,指標之間的關系也呈現出非線性關系,如果此時要反映出線性關系,會得出不準確的結論。因此,本文在MALTAB中,采用局部線性嵌入(LLE)方法來降低原始數據的維數[ 9 ]。
(三)模型實現與結果分析
1.訓練集與測試集的選擇
在選取的594個企業(yè)樣本中,將三種類別重新分類組合,最終選取396個樣本作為訓練集用于訓練分類器模型,198個樣本作為測試集用于測試分類器的準確率。
2.數據預處理
利用分類器模型進行訓練之前,為了加快訓練速度,可以將數據進行歸一化操作,本文采用[0,1]區(qū)間歸一化:
其中,x,y∈Rn,xmin=min(x),xmax=max(x),yi∈[0,1],i=1,2,…,n。歸一化的結果是將原始數據規(guī)整到[0,1]區(qū)間內。
3.參數尋優(yōu)與結果分析
本文采用改編的臺灣大學林智仁教授開發(fā)設計的LIBSVM工具箱來進行數據分類。關于參數選取,國際上沒有統一的最好標準,常用的方法是在一定范圍內選取c和g的值。為了得到比較理想的預測結果,基于CV原理,本文采用遺傳算法分別對懲罰參數c和核函數參數g進行參數的最優(yōu)化選擇。實驗中的核函數選用應用廣泛的RBF核函數:
在遺傳算法尋優(yōu)中,設置種群數目為20,選擇概率為0.9,編碼方式選擇二進制編碼,終止條件為達到最大迭代次數200。實驗得到最優(yōu)參數值“-c 89.2925”,“-g 97.7023”。通過遺傳算法找到了最優(yōu)懲罰參數c和核函數參數g以后,利用最佳的參數進行FSVM網絡訓練,得到測試集的實際分類和預測分類如圖2和圖3。
如表2所示,通過實驗得到GA-FSVM的分類準確率為83.3%,沒有使用優(yōu)化算法的FSVM模型分類準確率為72.7%,而傳統的SVM分類模型的準確率僅為63.6%。通過對比可以發(fā)現,基于KNN隸屬度函數構造的FSVM算法的分類準確率要高于傳統的SVM分類算法。結合圖2與圖3可以看出,模型的參數選擇非常關鍵,利用遺傳算法尋優(yōu)后的FSVM模型的分類準確率要高于未尋優(yōu)的模型,提高了FSVM的泛化能力,從而可以反映風險變化,對企業(yè)的財務風險進行較為準確的預測。
企業(yè)可以根據財務風險評級結果,對自身做出相應的戰(zhàn)略調整。如評級為健康企業(yè),說明企業(yè)的競爭能力較強,市場前景也較好,應該優(yōu)先發(fā)展,以維持自身在市場中的有利位置;如評級為困境企業(yè),管理者則需要調整戰(zhàn)略,樹立風險意識,健全企業(yè)內部控制制度,使企業(yè)的生產經營活動符合總體戰(zhàn)略目標;如評級為破產企業(yè),說明企業(yè)的市場前景黯淡且競爭力較弱,應盡快收縮或放棄經營。
四、結論與展望
本文針對高新技術產業(yè)在生產經營過程中產生的模糊性和不確定性,提出了基于KNN模糊隸屬度的模糊支持向量機算法,并利用GA對FSVM分類模型的參數進行最優(yōu)化選擇,對選取的財務數據進行風險評級。實證研究結果表明,本文提出的優(yōu)化后的FSVM分類模型比起傳統的SVM分類模型具有更強的分類效果,克服了傳統支持向量機分類精度不高的問題,能夠提高管理者對決策制定的可靠性。
雖然優(yōu)化分類器在實證研究中取得了良好效果,但仍有進一步改進的可能。未來的研究可以突破KNN算法的局限性,選擇其他隸屬度函數。對于樣本屬性的選擇,可以根據不同行業(yè)的標準選擇不同的樣本,避免行業(yè)不同造成結果的不準確。
【參考文獻】
[1] 吳世農,盧賢義.我國上市公司財務困境的預測模型研究[J].經濟研究,2001(6):46-55.
[2] 邸紅娜.基于BP神經網絡的我國制造業(yè)上市公司財務困境預警研究[D].暨南大學碩士學位論文,2006.
[3] 甘敬義.基于BP-Adaboost和Logistic模型的制造業(yè)上市公司財務風險預警研究[D].江西師范大學碩士學位論文,2012.
[4] 荊雙喜,趙行宇,郭松濤,等.異步電機轉子斷條故障診斷研究[J].河南理工大學學報(自然科學版),2016,35(2):224-229.
[5] 馬芳芳,仝衛(wèi)國,宋雨倩.模糊支持向量機的研究與應用[J].電腦與信息技術,2013,21(1):25-29.
[6] 朱健,劉斌.基于FSVM分類算法的動脈硬化病分類[J].電子測試,2015(13):30-31.
[7] 邊霞,米良.遺傳算法理論及其應用研究進展[J].計算機應用研究,2010,27(7):2425-2429.
[8] 王飛,王嬌嬌.指標選取方法對財務預警準確率的影響研究[J].武漢理工大學學報(信息與管理工程版),2017, 39(3):348-352.
[9] 馬瑞,王家廞,宋亦旭.基于局部線性嵌入(LLE)非線性降維的多流形學習[J].清華大學學報(自然科學版),2008,48(4):582-585.
【基金項目】 國家自然科學基金(61502150);河南理工大學博士基金(B2015-42);河南省高等學校重點科研項目(16A120013)
【作者簡介】 王巖(1980— ),男,河南西華人,博士,河南理工大學講師,碩士生導師,研究方向:數據挖掘、信息系統建模、商務智能;張佩瑤(1994— ),女,河南孟州人,河南理工大學碩士研究生,研究方向:金融風險分析、信息系統設計與優(yōu)化