孟生旺,劉新紅,2
(1.中國人民大學 應用統(tǒng)計科學研究中心,北京 100872;2.北京石油化工學院 數(shù)理系,北京 102617)
在非壽險損失預測中,經(jīng)常假設損失次數(shù)與損失強度相互獨立,并分別建立損失次數(shù)和損失強度的廣義線性模型。廣義線性模型中常用的分布假設是指數(shù)分布族中的分布,包括二項分布、泊松分布、伽馬分布和逆高斯分布。在損失次數(shù)的廣義線性模型中,泊松分布最為常用[1]81-88。當損失次數(shù)數(shù)據(jù)存在零膨脹或過離散時,需要將泊松分布擴展到零膨脹泊松或過離散泊松[2],而解決過離散和零膨脹損失次數(shù)數(shù)據(jù)的另一種方法,是建立負二項回歸模型或零膨脹負二項回歸模型[3];在損失強度的廣義線性模型中,伽馬分布最為常見,但當損失強度數(shù)據(jù)存在尖峰厚尾特征時,逆高斯分布假設下的廣義線性模型對實際數(shù)據(jù)的擬合效果更好[4]。
在損失次數(shù)與損失強度相互獨立的假設下,可將損失次數(shù)與損失強度的預測值相乘而求得總損失的預測值,這種方法簡單易行,在非壽險精算實務中應用廣泛,其缺陷是忽略了損失次數(shù)與損失強度之間的相依關(guān)系,可能造成總損失的預測偏差[5]。
copula在刻畫隨機變量的相依性方面具有獨特優(yōu)勢,不受邊緣分布的影響。對于二元連續(xù)分布函數(shù)而言,對應著唯一的copula函數(shù),因此可以應用coplua函數(shù)建立兩個連續(xù)型隨機變量之間的相依關(guān)系,譬如可以利用copula研究損失強度在不同時期的相依問題和不同險種在損失強度上的相依問題以及不同險種在賠款準備金上的相依問題[6-9]。但當邊緣分布為離散分布時,copula函數(shù)的唯一性將無法得到保證,這就增加了應用copula刻畫兩個隨機變量之間相依關(guān)系的難度。
在非壽險損失預測中,通常假設損失次數(shù)服從泊松分布、過離散泊松分布、負二項分布或各種對應的零膨脹分布,這些分布在零點都有較大的概率取值,表示損失不會發(fā)生。分布的均值表示期望的損失次數(shù),當損失次數(shù)為零時,損失強度必然為零。為了便于應用copula函數(shù)建立損失次數(shù)與損失強度之間的相依關(guān)系,假設損失已經(jīng)發(fā)生,并在此條件下建立總損失的預測模型。在損失已經(jīng)發(fā)生的前提下,損失次數(shù)的分布在零點沒有概率,可以用零截斷分布進行描述,而相應的損失強度也必然大于零,可以用伽馬分布或逆高斯分布進行描述。
在損失已經(jīng)發(fā)生的條件下,假設損失次數(shù)服從零截斷泊松(zero-truncated Poisson,ZTP)分布,概率函數(shù)可以表示為:
將零截斷泊松分布的參數(shù)表示為解釋變量的函數(shù),即得損失次數(shù)的廣義線性模型為:
其中ei是風險單位數(shù),ti∈Rp為解釋變量組成的向量,β是p維的系數(shù)向量。
損失強度的分布可以采用伽瑪分布或逆高斯分布,伽瑪分布的概率密度函數(shù)為:
其均值、方差、偏度和峰度分別為:μ,σ2μ2,2σ,6σ2。逆高斯分布的概率密度函數(shù)為:
其均值、方差、偏度和 峰度分 別為:μ,σ2μ3,3σ,15μσ2。逆高斯分布的概率密度函數(shù)相對于伽瑪分布形式更加靈活,可以描述從對稱到尖峰厚尾的各種分布形態(tài)。
在前述的伽馬分布或逆高斯分布中,把均值表示為解釋變量的函數(shù),可得到損失強度的廣義線性模型,即:
其中ri∈Rq為解釋變量組成的向量,α是q維的系數(shù)向量。
copula函數(shù)為相依風險的分析提供了一個有力工具。根據(jù)Sklar定理[12]17-23,若F和G是隨機變量X、Y的邊緣分布函數(shù),H是隨機向量(X,Y)的聯(lián)合分布函數(shù),那么存在一個copula函數(shù)C滿足:反之,如果C是一個copula函數(shù),F(xiàn)和G分別是隨機變量X和Y的分布函數(shù),則聯(lián)合分布函數(shù)H可以通過式(6)得到;如果F和G都是連續(xù)的,則C是唯一確定的。
比較常用copula函數(shù)的分布函數(shù)如下:
1.Gauss Copula函數(shù):
其中Φ(·)為標準正態(tài)分布的分布函數(shù)。Gauss Copula的密度函數(shù)是對稱的,Kendall’sτ秩相關(guān)系數(shù)為arcsinθ。2.Clayton Copula函數(shù):
當參數(shù)θ→0時,表示兩個隨機變量相互獨立;當θ→+!時,兩個隨機變量完全相關(guān)。Clayton Copula密度函數(shù)具有非對稱性,上尾低下尾高,對下尾處的變化比較敏感,下尾相關(guān)系數(shù)為λL=2-1/θ,Kendall’sτ秩相關(guān)系數(shù)為θ/(θ+2)。
3.Gumbel Copula函數(shù):
當參數(shù)θ=1時,表示兩個隨機變量相互獨立;當θ→+!時,兩個隨機變量完全相關(guān)。Gumbel Copula密度函數(shù)也具有非對稱性,上尾高下尾低,對上尾處的變化比較敏感,上尾相關(guān)系數(shù)為λU=2-21/θ,Kendall’sτ秩相關(guān)系數(shù)為1-1/θ。
4.Frank Copula函數(shù):
損失次數(shù)Y與損失強度X的相依關(guān)系可通過copula函數(shù)刻畫,而相依性的大小可通過尾部相關(guān)系數(shù)和Kendall’sτ秩相關(guān)系數(shù)衡量。損失次數(shù)與損失強度的聯(lián)合概率密度函數(shù)可表示為[11]:中
聯(lián)合式(2)~(4),即可在不同的copula函數(shù)和不同的分布假設下得到相應的copula回歸模型。譬如把式(1)和式(3)代入式(11),并應用式(8)中的Clayton copula函數(shù),即可得到在零截斷泊松分布和伽馬分布假設下的Clayton copula回歸模型的似然函數(shù),并應用極大似然法求得未知參數(shù)α、β、σ2、θ的估計值。Copula回歸模型的參數(shù)估計值沒有顯式解,需要應用數(shù)值算法求解。
下面應用前述的copula回歸模型,擬合一組車險保單的損失數(shù)據(jù)。該數(shù)據(jù)包括67 856份車險保單的損失記錄,其中有4 624份保單在保險期間至少發(fā)生過1次損失,解釋變量包括汽車用途、汽車年齡、駕駛員性別、駕駛員年齡和行駛區(qū)域[1]。
不考慮解釋變量的情況下,損失次數(shù)與損失強度的Pearson線性相關(guān)系數(shù)為0.076,Kendall’sτ秩相關(guān)系數(shù)為0.152,Spearmanρ秩相關(guān)系數(shù)為0.184,且在統(tǒng)計上都顯著不為零,說明損失次數(shù)與損失強度之間存在顯著的相依關(guān)系。
原始數(shù)據(jù)中,共有4 624份保單發(fā)生過損失。對于這些保單,在建立copula回歸模型時,假設每份保單的損失次數(shù)服從零截斷泊松分布(ZTP),損失強度服從伽馬分布(GA)或逆高斯分布(IG),用前述的四種copula函數(shù)描述損失次數(shù)與損失強度之間的相依關(guān)系。
經(jīng)檢驗,在損失次數(shù)服從零截斷泊松分布(ZTP)的廣義線性模型中,所有解釋變量都不顯著,損失次數(shù)模型只包含截距項。在損失強度服從伽瑪分布(GA)的廣義線性模型中,顯著的解釋變量包括駕駛員的年齡、性別和汽車車齡。相應的copula回歸模型如下:
應用R中的copreg程序包可求得模型參數(shù)的估計值,見表1、2、5。表1中β0是損失次數(shù)模型中的常數(shù)項,θ是copula中的參數(shù),τ是kendall’sτ秩相關(guān)系數(shù),σ2是伽馬分布中的離散參數(shù)。不同copula函數(shù)下的對數(shù)似然函數(shù)值如表1的最后一列所示。)
表1 伽馬分布假設下copula回歸模型參數(shù)估計值表
為了對不同copula函數(shù)下的回歸模型進行比較,可以使用Vuong檢驗[11],檢驗統(tǒng)計量為:
表2 伽馬分布假設下copula回歸模型逐對Vuong檢驗表
當損失強度呈現(xiàn)尖峰厚尾特征時,逆高斯分布的擬合效果會優(yōu)于伽馬分布。如果假設損失次數(shù)仍然服從零截斷泊松分布(ZTP),但損失強度服從逆高斯分布(IG),相應的copula回歸模型則為:
上述模型的參數(shù)可以通過極大似然法進行估計,結(jié)果如表3、4、5所示。比較表1表3可見:在各種copula回歸模型中,逆高斯分布假設下的對數(shù)似然值都大于伽馬分布假設下的對數(shù)似然值;在各種copula回歸模型中,表2表4的Vuong檢驗都表明Clayton copula回歸模型優(yōu)于其他copula回歸模型;表6的AIC值表明:逆高斯分布假設下的copula回歸模型普遍優(yōu)于伽馬分布假設下的copula回歸模型,而且逆高斯分布假設下Clayton copula回歸模型的AIC最小。由此可見,對于本文的數(shù)據(jù)而言,損失次數(shù)服從零截斷泊松分布,而損失強度服從逆高斯分布的Clayton copula回歸模型是相對最優(yōu)的模型。在該模型中,下尾相關(guān)系數(shù)為0.647,Kendall’sτ秩相關(guān)系數(shù)為0.443,表明損失次數(shù)與損失強度存在明顯的正向相依關(guān)系。
在該模型中,每個車年的期望損失次數(shù)未受保單風險特征的影響,所有保單的期望損失頻率估計值均為exp(-1.467)=0.231,但不同保單每次損失對應的期望損失強度與保單的風險特征(解釋變量)有關(guān)。譬如對于駕駛員年齡為水平1、性別為女、車齡為水平1的保單,平均每次損失對應的損失強度為exp(7.710)=223。該模型的參數(shù)估計結(jié)果表明:隨著駕駛員年齡的增大,損失強度會減少,譬如當駕駛員年齡為水平2時,損失強度降低為基準水平(駕駛員年齡為水平1)的exp(-0.217)=80.48%;男性駕駛員比女性駕駛員的損失強度增加了exp(0.167)-1=18.13%;隨著汽車車齡的增加,損失強度也會增加,譬如車齡2的損失強度是基準水平(車齡1)的exp(0.052)=105.35%,但在統(tǒng)計上不顯著,即與車齡1的損失強度沒有顯著的統(tǒng)計差異。當損失強度服從伽瑪分布和損失次數(shù)服從零截斷泊松分布時,總損失的分布是無限混合的伽瑪分布[11]。單個伽瑪分布有一個眾數(shù),是右偏分布,混合后總損失的概率分布會更偏,而且有多個眾數(shù)。當損失強度服從逆高斯分布時,總損失的概率分布將比伽馬分布假設下更偏、尾部更厚。表6是分別應用獨立假設下的廣義線性模型、損失強度服從伽瑪分布的copula回歸模型以及損失強度服從逆高斯分布的copula回歸模型,對總損失的擬合結(jié)果。如果假設損失次數(shù)與損失強度相互獨立,無論使用伽馬分布還是逆高斯分布,廣義線性模型對總損失的擬合值都是偏低的(實際總損失為10 284 179)。
表3 逆高斯分布假設下copula回歸模型參數(shù)估計值表
表4 逆高斯分布假設下copula回歸模型的逐對Vuong檢驗表
表5 Clayton copula回歸模型中損失強度的系數(shù)估計值表
表6 模型比較表
在非壽險損失預測中,通常假設損失次數(shù)與損失強度相互獨立。本文基于一組實際數(shù)據(jù)的實證研究結(jié)果表明:這種假設可能與實際不符,從而導致對損失的低估;損失次數(shù)與損失強度的相依性,可以通過copula函數(shù)進行描述;在常用的copula函數(shù)中,既有上尾相依的Gumble Copula,也有下尾相依的Clayton Copula,還 有 對 稱 的 Gauss Copula 和Frank Copula。把損失次數(shù)和損失強度的廣義線性模型與描述它們相依性的copula函數(shù)相結(jié)合建立的copula回歸模型可以有效改進對實際損失的擬合效果;在損失已經(jīng)發(fā)生的條件下,假設損失次數(shù)服從零截斷泊松分布,損失強度服從逆高斯分布的Cayton copula回歸模型對本文研究的一組實際數(shù)據(jù),具有相對更好的擬合效果。
[1] Jong P d,Heller G Z.Generalized Linear Models for Insurance Data[M].Cambridge:Cambridge University Press,2008.
[2] 孟生旺,徐昕.非壽險費率厘定的索賠頻率預測模型及其應用[J].統(tǒng)計與信息論壇,2012(9).
[3] 徐昕,袁衛(wèi),孟生旺.零膨脹負二項回歸模型的推廣與費率厘定[J].系統(tǒng)工程理論與實踐,2012(1).
[4] 孟生旺.廣義線性模型在汽車保險定價的應用[J].數(shù)理統(tǒng)計與管理,2007(1).
[5] Gschlobl S,Czado C.Spatial Modelling of Claim Frequency and Claim Size in Non-life Insurance[J].Scandinavian Actuarial Journal,2007(3).
[6] Sun J F,F(xiàn)rees E W,Rosenberg M A.Heavy-tailed Longitudinal Data Modeling Using Copulas[J].Insur.Math.Econ.,2008(2).
[7] Frees E W,Valdez E A.Hierarchical Insurance Claims Modeling[J].Journal of the American Statistical Association,2008,103(484).
[8] Frees E W,Meyers G,Cummings A D.Dependent Multi-Peril Ratemaking Models[J].Astin.Bulletin.,2010(2).
[9] Shi P,F(xiàn)rees E W.Dependent Loss Reserving Using Copulas[J].Astin.Bulletin.,2011(2).
[10]Czado C,Kastenmeier R,Brechmann E C,et al.A Mixed Copula Model for Insurance Claims and Claim Sizes[J].Scandinavian Actuarial Journal,2012(4).
[12]Nelsen R B.An Introduction to Copulas[M].New York:Springer,2006.