李靜
?
股票指數(shù)收益率分布研究
李靜
(同濟(jì)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,上海 201804)
分析了滬深300指數(shù)從2005-01-04—2018-04-13的價(jià)格數(shù)據(jù),發(fā)現(xiàn)其日收益率分布具有左偏、尖峰厚尾的特征,不滿足正態(tài)分布;用高斯混合分布對(duì)滬深300指數(shù)日收益率進(jìn)行擬合,并用基于BIC指標(biāo)的EM算法求解混合分布參數(shù),結(jié)果表明,高斯混合分布可以很好地捕捉到指數(shù)收益率的分布特征。
股指收益率;正態(tài)性檢驗(yàn);高斯混合分布;EM算法
金融資產(chǎn)收益率分布在現(xiàn)代風(fēng)險(xiǎn)管理理論中具有十分重要的作用。20世紀(jì)50年代以前,人們對(duì)金融資產(chǎn)風(fēng)險(xiǎn)的判斷主要是通過定性分析,具有較強(qiáng)的主觀性;20世紀(jì)80年代之后,金融風(fēng)險(xiǎn)度量方法進(jìn)入了蓬勃發(fā)展的階段,相繼產(chǎn)生了Value at Risk(VaR)、Conditional Value at Risk(CVaR)、Coherent Risk Measure等風(fēng)險(xiǎn)度量方法及理論,其中,VaR和CVaR在行業(yè)中的應(yīng)用最為普遍。
在求VaR或CVaR的解析解時(shí),需要對(duì)金融資產(chǎn)收益率的分布形式進(jìn)行假設(shè),通常假定其服從正態(tài)分布。但Mandelbrot(1963)研究發(fā)現(xiàn),金融資產(chǎn)的收益率具有異方差性,并不服從正態(tài)分布[1]。李萌、葉?。?003)研究證明了上證指數(shù)和深證成分指數(shù)收益率也存在異方差現(xiàn)象,不滿足正態(tài)分布[2]。既然正態(tài)分布無法完全描述金融資產(chǎn)收益率的分布特征,則可以考慮使用高斯混合分布來代替正態(tài)分布。袁禮海、李釗等(2007)證明了有限高斯混合分布可以逼近任意概率分布密度函數(shù)[3]。
本文以能夠反映中國(guó)證券市場(chǎng)股票價(jià)格變動(dòng)概況的滬深300指數(shù)為研究對(duì)象,對(duì)其收益率的分布特征進(jìn)行了研究。本文內(nèi)容按照以下方式進(jìn)行組織:第一部分對(duì)數(shù)據(jù)的描述性統(tǒng)計(jì)量進(jìn)行分析,然后研究了其是否滿足正態(tài)分布;第二部分用高斯混合分布對(duì)指數(shù)收益率進(jìn)行擬合,并用基于BIC指標(biāo)的EM算法求解混合分布參數(shù),然后檢驗(yàn)混合分布的擬合效果;第三部分對(duì)整篇文章進(jìn)行了總結(jié)。
本文以滬深300指數(shù)收益率為研究對(duì)象,對(duì)其分布形式進(jìn)行了研究。這里的收益率是指以連續(xù)復(fù)利的方式計(jì)算求得的日收益率,即:
t=100*log(t/t-1). (1)
式(1)中:t為第天股票指數(shù)的收益率;t為第天股票指數(shù)的收盤價(jià)格。
因?yàn)闇?00指數(shù)的基日為2004-12-31,所以,選定的計(jì)算期為2005-01-04—2018-04-13.
從表1中可以看出,此次研究的樣本容量為3 225;股指收益率的偏度為-0.529 2,呈負(fù)偏態(tài),說明出現(xiàn)較大的負(fù)收益率的概率相比于出現(xiàn)較大的正收益率的概率會(huì)更大;股指收益率的峰度為6.779 0,大于正態(tài)分布的峰度3,具有尖峰厚尾的特征。
基于以上分析,有理由相信滬深300股指收益率并非服從正態(tài)分布。以下用幾種方法對(duì)滬深300指數(shù)是否服從正態(tài)分布進(jìn)行了檢驗(yàn)。
表1 滬深300股指收益率描述性統(tǒng)計(jì)量
樣本容量最小值最大值均值方差偏度峰度 3 225-9.694 98.931 00.042 51.772 1-0.529 26.779 0
圖1是滬深300指數(shù)收益率的分布直方圖,圖中的曲線為正態(tài)分布概率密度函數(shù),其均值和方差分別為用樣本數(shù)據(jù)估計(jì)的均值和方差,即:
從圖1中可以看出,樣本數(shù)據(jù)的分布具有較為明顯的尖峰、尾厚特征。圖2是用樣本數(shù)據(jù)繪制的Q-Q Plot正態(tài)檢驗(yàn)圖,圖的橫坐標(biāo)為正態(tài)分布理論分位數(shù),圖的縱坐標(biāo)為樣本數(shù)據(jù)分位數(shù)。如果樣本數(shù)據(jù)滿足正態(tài)分布,則散點(diǎn)的分布應(yīng)大致成一條直線,并分布在圖中直線的附近。但從圖2可以看出,散點(diǎn)的分布并非成一條直線,且與圖中的直線存在較大的偏離,由此可見樣本數(shù)據(jù)不滿足正態(tài)分布。
圖2 Q-Q Plot正態(tài)檢驗(yàn)圖
用三種常用的統(tǒng)計(jì)量正態(tài)性檢驗(yàn)方法對(duì)樣本數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),檢驗(yàn)結(jié)果如表2所示。Kolmogorov-Smirnov(K-S)檢驗(yàn)是一種基于經(jīng)驗(yàn)分布函數(shù)的檢驗(yàn)方法,通過將樣本數(shù)據(jù)的經(jīng)驗(yàn)分布與正態(tài)分布相比較,判斷樣本數(shù)據(jù)是否滿足正態(tài)分布。Shapiro-Wilk(S-W)檢驗(yàn)是一種專門用于正態(tài)性檢驗(yàn)的方法,當(dāng)樣本容量較小時(shí)較多采用。Jarque-Bera(J-B)檢驗(yàn)是一種偏度峰度聯(lián)合檢驗(yàn)方法,即檢驗(yàn)樣本數(shù)據(jù)的偏度和峰度是否均滿足正態(tài)分布情況下的要求。限于篇幅,本文僅對(duì)幾種統(tǒng)計(jì)量正態(tài)性檢驗(yàn)方法進(jìn)行簡(jiǎn)單概述,具體原理及適用情況請(qǐng)參考馬興華、張晉昕(2014)所著的文獻(xiàn)[4]。
進(jìn)行檢驗(yàn)時(shí)可以根據(jù)具體問題的需要設(shè)定顯著性水平,如果想減少第一類錯(cuò)誤,可以將定的小一些;如果想減少第二類錯(cuò)誤,可以將定的大一些。在此處,令=0.05.從表2中可以看出,各類檢驗(yàn)方法的值均小于0.05,所以可以認(rèn)為,滬深300股指收益率不服從正態(tài)分布。
表2 統(tǒng)計(jì)量正態(tài)性檢驗(yàn)表
檢驗(yàn)類型K-S檢驗(yàn)S-W檢驗(yàn)J-B檢驗(yàn) 統(tǒng)計(jì)量值0.089 40.940 12 069.558 1 p-value2.2e-162.2e-162.2e-16
混合分布模型最早可追溯至1886年Newcomb對(duì)生物性狀的研究,其主要用于對(duì)一組樣本進(jìn)行分類,或是擬合樣本未知的概率密度函數(shù)。因?yàn)楦咚狗植嫉拿芏群瘮?shù)形式簡(jiǎn)單,只由均值和方差兩個(gè)參數(shù)控制,但混合后又具有很高的靈活性,而且存在大量的相關(guān)文獻(xiàn)可以參考,所以選擇用高斯混合分布對(duì)滬深300指數(shù)收益率的密度函數(shù)進(jìn)行擬合。高斯混合分布的密度函數(shù)如下:
EM(Expectation Maximization)算法是一種迭代優(yōu)化算法,主要有2種應(yīng)用:①在有數(shù)據(jù)缺失的情況下估計(jì)概率模型的參數(shù);②在似然函數(shù)不能求導(dǎo)或?qū)?shù)求解比較復(fù)雜的情況下估計(jì)概率模型的參數(shù)[5]。該算法將隨機(jī)變量的一組觀測(cè)看作是不完全數(shù)據(jù),引入隱含變量,使與一起形成完全數(shù)據(jù),以解決在進(jìn)行最大似然估計(jì)時(shí)存在數(shù)據(jù)缺失或似然函數(shù)導(dǎo)數(shù)求解困難的問題。算法每次迭代由兩步組成:
雖然EM算法能夠求解混合模型中各個(gè)未知參數(shù)的值,但卻需要提前指定模型中所含成分的數(shù)量,即的值。當(dāng)指定的成分?jǐn)?shù)量過多時(shí),可能造成算法不收斂、過度擬合等問題,但如果指定的成分?jǐn)?shù)量過少,又不能很好地捕捉樣本數(shù)據(jù)的分布特征。
為了解決模型成分?jǐn)?shù)量選擇問題,在EM算法中加入貝葉斯信息準(zhǔn)則(Bayesian Information Criterion)[7],貝葉斯信息準(zhǔn)則(BIC)的形式為:
給定混合分布成分?jǐn)?shù)的最大取值max,分別計(jì)算當(dāng)=1,2,3,…,max時(shí)的BIC值,取BIC最大時(shí)的值作為混合模型最優(yōu)成分?jǐn)?shù)量。一系列基于BIC值進(jìn)行模型選擇的應(yīng)用均給出了很好的結(jié)果,F(xiàn)raley、Raftery(2002)的研究中給出了一系列可參考的相關(guān)文獻(xiàn)。
在R語(yǔ)言中用基于BIC的EM算法求解高斯混合分布的參數(shù),算法給出的高斯混合分布最優(yōu)成分?jǐn)?shù)量是3,即滬深300指數(shù)收益率的分布可以用3個(gè)正態(tài)分布的混合來擬合,各個(gè)成分的混合概率、均值、方差如表3所示。
表3 高斯混合分布參數(shù)
成分混合概率均值方差 10.184 0-0.595 09.912 6 20.279 80.044 90.285 5 30.536 20.260 12.116 4
因?yàn)槌煞謹(jǐn)?shù)量為3,所以可將樣本數(shù)據(jù)分為3類,從各成分均值上可以看出,成分1,2,3分別捕捉了收益率均值為負(fù)、0、正的樣本數(shù)據(jù)的分布特征,收益率均值為負(fù)的樣本數(shù)據(jù)的方差最大,均值的絕對(duì)值也最大。根據(jù)表3中的參數(shù)便可寫出混合分布的密度函數(shù),從而可以得到任意收益率出現(xiàn)的概率以及對(duì)滬深300指數(shù)進(jìn)行風(fēng)險(xiǎn)度量(比如計(jì)算VaR、ES等)。
圖3是在樣本數(shù)據(jù)分布直方圖的基礎(chǔ)上繪制的高斯混合分布密度函數(shù)曲線,從圖3中可以看出,相對(duì)于正態(tài)分布,高斯混合分布很好地捕捉到了樣本數(shù)據(jù)的分布特征。圖4是累積分布函數(shù)診斷圖,黑色實(shí)線是高斯混合分布的累計(jì)分布函數(shù)曲線,灰色虛線是樣本數(shù)據(jù)經(jīng)驗(yàn)累計(jì)分布函數(shù)曲線,兩條曲線幾乎完全重合,即高斯混合分布對(duì)樣本數(shù)據(jù)進(jìn)行了非常好的擬合。
圖3 混合分布密度曲線圖
圖4 累計(jì)分布函數(shù)診斷圖
本文以滬深300指數(shù)為研究對(duì)象,對(duì)其日收益率的分布形式進(jìn)行了研究,對(duì)收益率的正態(tài)性進(jìn)行了檢驗(yàn),發(fā)現(xiàn)滬深300指數(shù)的收益率不服從正態(tài)分布;用高斯混合分布對(duì)股指收益率進(jìn)行擬合,最終結(jié)果表明,高斯混合分布可以很好地捕捉滬深300股指收益率的分布特征。
此研究結(jié)果的意義在于:①驗(yàn)證了股票指數(shù)收益率的分布不滿足正態(tài)分布;②證明了用高斯混合分布可以很好地描述股票指數(shù)收益率的分布特征;③為度量金融資產(chǎn)的風(fēng)險(xiǎn)提供了一種更好的描述金融資產(chǎn)收益率分布的工具。滬深300股指收益率的分布具有左偏、尖峰厚尾的特征,如果假設(shè)其服從正態(tài)分布并對(duì)其進(jìn)行風(fēng)險(xiǎn)度量,則會(huì)低估其存在的風(fēng)險(xiǎn)。而以高斯混合分布為基礎(chǔ)計(jì)算其風(fēng)險(xiǎn)值,可以更加精確地度量其存在的風(fēng)險(xiǎn),不僅可以降低投資者的損失,還有助與維持金融體系的穩(wěn)定。
[1]Mandelbrot B.The Variation of Certain Speculative Prices[J].Journal of Business,1963,36(04):394-419.
[2]李萌,葉俊.中國(guó)股票市場(chǎng)風(fēng)險(xiǎn)的實(shí)證分析研究[J].數(shù)理統(tǒng)計(jì)與管理,2003,22(04):12-17.
[3]袁禮海,李釗,宋建社.利用高斯混合模型實(shí)現(xiàn)概率密度函數(shù)逼近[J].無線電通訊技術(shù),2007,33(02):20-22.
[4]馬興華,張晉昕.數(shù)值變量正態(tài)性檢驗(yàn)常用方法的對(duì)比[J].循證醫(yī)學(xué),2014,14(02):123-128.
[5]BILMES J A. A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models[R].Berkeley California USA:International Computer Science Institute,1998.
[6]張宏?yáng)|.EM算法及其應(yīng)用[D].濟(jì)南:山東大學(xué)金融研究院,2014.
[7]FRALEY C,RAFTERY A E. Model-Based Clustering,Discriminant Analysis,and Density Estimation[J].Journal of the American Statistical Association,2002,97(458):611-631.
2095-6835(2018)24-0059-03
F224
A
10.15913/j.cnki.kjycx.2018.24.059
〔編輯:張思楠〕