康萌萌
(山東財經(jīng)大學(xué) 保險學(xué)院,濟南 250014)
在非壽險精算中,信度理論是常用的經(jīng)驗費率厘定方法。在該方法中,所用的損失數(shù)據(jù)為每個風(fēng)險類別若干年的損失,這種數(shù)據(jù)具有縱向數(shù)據(jù)的特點,即對每個風(fēng)險類別的損失重復(fù)觀測若干年,同一風(fēng)險類別不同年份的損失數(shù)據(jù)之間存在相關(guān)性。在統(tǒng)計中,常用線性隨機效應(yīng)模型[1-3]對這種數(shù)據(jù)進行建模。Frees等(1999)[4]將5種常見的線性信度模型表示為線性隨機效應(yīng)模型,用廣義最小二乘法估計參數(shù)并預(yù)測信度保費。線性隨機效應(yīng)模型是在經(jīng)典線性回歸模型的均值方程中加入隨機效應(yīng)來處理數(shù)據(jù)之間的相關(guān)性,它假設(shè)因變量服從正態(tài)分布,隨機效應(yīng)也服從正態(tài)分布。但在非壽險中,損失數(shù)據(jù)要么是損失次數(shù)數(shù)據(jù),要么是損失金額數(shù)據(jù),損失次數(shù)是離散型分布,損失金額通常是右偏分布,具有較厚的右尾,都不服從正態(tài)分布。如果此時仍用因變量服從正態(tài)分布的線性隨機效應(yīng)模型建模,則會導(dǎo)致參數(shù)錯誤估計從而不能預(yù)測出合理保費。因此,可以將因變量推廣到指數(shù)分布族,將線性隨機效應(yīng)模型推廣到廣義線性混合效應(yīng)模型,Mc-Culloch和Searle(2001)[5]和Demidenko(2004)[3]對該模型進行詳細介紹。目前廣義線性混合效應(yīng)模型在非壽險精算中有著廣泛應(yīng)用[6-8]。
然而,廣義線性混合效應(yīng)模型假設(shè)模型系統(tǒng)成分隨時間變化是線性的。但在精算實踐中,系統(tǒng)成分隨時間的變化并非是線性的,即不同時間系統(tǒng)成分的變化率可能不同。當(dāng)變化為非線性時,通常需要在系統(tǒng)成分中加入時間變量的多項式函數(shù),從而將廣義線性混合效應(yīng)模型推廣到廣義多項式混合效應(yīng)模型,該模型在統(tǒng)計學(xué)中被成為曲線發(fā)展模型,也被成為廣義非線性混合效應(yīng)模型。對于非線性混合效應(yīng)模型,國外從20世紀80年代開始進行研究,現(xiàn)在已經(jīng)廣泛應(yīng)用于生物、醫(yī)藥、經(jīng)濟、金融等諸多領(lǐng)域[9-11]。在精算學(xué)中,還未見有學(xué)者將非線性隨機效應(yīng)模型用于非壽險信度費率厘定中。本文利用廣義多項式混合效應(yīng)模型重新構(gòu)建了信度模型,在該框架下,估計信度模型結(jié)構(gòu)參數(shù),預(yù)測信度保費,并與廣義線性混合效應(yīng)模型進行對比。
信度理論主要研究如何利用先驗信息和標(biāo)的物的損失經(jīng)驗對后驗保費進行估計。根據(jù)Frees等(1999)[4]可以用線性隨機效應(yīng)模型對線性信度模型進行建模,以Bühlmann信度模型為例。其余的線性信度模型都可以用線性隨機效應(yīng)模型進行建模。
假設(shè)有n個風(fēng)險類別,對每個風(fēng)險類別i的損失觀測t年。若第i個風(fēng)險類別在第t年的損失額為yit,則Bühlmann信度模型可以表示為如下線性隨機效應(yīng)模型:
其中,μ為總體均值,所有風(fēng)險類別的平均損失;bi為第i個風(fēng)險類別的損失與總體均值的差額,E[bi]=0,Var[bi]=a,方差a表示每個風(fēng)險類別之間的差異,被稱為結(jié)構(gòu)參數(shù),其分布被稱為結(jié)構(gòu)分布。εit為第i個風(fēng)險類別第t年的索賠與第1年至第T年的平均索賠之間的差額,E[εit]=0 ,Var[εit]=s2,方差 s2為結(jié)構(gòu)參數(shù),表示同一個風(fēng)險類別不同時期損失的差異。
線性隨機效應(yīng)模型假設(shè)因變量損失金額yit服從正態(tài)分布,隨機效應(yīng)也服從正態(tài)分布,但在精算實踐中,損失金額通常是右偏分布帶有較長右尾。因此,可以將因變量的分布推廣到指數(shù)分布,用廣義線性混合效應(yīng)模型進行建模。
廣義多項式混合效應(yīng)模型是在廣義線性混合效應(yīng)模型的基礎(chǔ)上發(fā)展而來的。廣義線性混合效應(yīng)模型假設(shè)模型系統(tǒng)成分隨時間變化是線性的。在精算實踐中,損失金額隨時間變化并非線性變化,而是不同時間的變化率可能不同,這時應(yīng)該考慮用廣義多項式混合效應(yīng)模型進行建模。因此,在介紹廣義多項式混合效應(yīng)模型之前先介紹廣義線性混合效應(yīng)模型的相關(guān)理論。
1.2.1 廣義線性混合效應(yīng)模型
廣義線性混合效應(yīng)模型是在廣義線性模型的基礎(chǔ)上,在均值方程中加入隨機效應(yīng)。其構(gòu)成與廣義線性模型相同,是由隨機成分、系統(tǒng)成分和連接函數(shù)構(gòu)成。
(1)隨機成分為因變量的概率分布,在該模型中,假設(shè)因變量服從指數(shù)分布族。若有n個風(fēng)險類別,對每個風(fēng)險類別i的損失觀測t年。若第i個風(fēng)險類別在第t年的損失額為 Yit,則為第 i個風(fēng)險類別的觀測向量。給定第i個風(fēng)險類別的隨機效應(yīng)bi的條件下,Yit的密度函數(shù)為:
其中,φ(?)和 c(?)是已知函數(shù),θ 是自然參數(shù),? 為尺度參數(shù)。其均值和方差為其中,V(?)為因變量變異,它是條件均值的函數(shù);?為離散參數(shù)(殘差變異)。
(2)系統(tǒng)成分為解釋變量的線性組合和隨機效應(yīng)線性組合,即其中,β(p×1)表示固定效應(yīng),bi(q×1)表示第i個風(fēng)險類別的隨機效應(yīng),隨機效應(yīng)用來表示風(fēng)險類別之間的異質(zhì)性和同一個風(fēng)險類別不同觀測之間的異質(zhì)性。 Xi(ni×p)和 Zi(ni×q)表示 p 個固定效應(yīng)和q個隨機效應(yīng)的設(shè)計矩陣。
(3)連接函數(shù)是連接系統(tǒng)成分和隨機成分的函數(shù),即g(μ)=η 或 E[Y]=μ=g-1(η)。連接函數(shù)為可逆函數(shù),滿足可導(dǎo)和單調(diào)的要求。
1.2.2 廣義多項式混合效應(yīng)模型
廣義多項式混合效應(yīng)模型與廣義線性混合效應(yīng)模型一樣,也是由隨機成分、系統(tǒng)成分和連接函數(shù)構(gòu)成。其中,隨機成分和連接函數(shù)與廣義線性混合效應(yīng)模型一樣。在系統(tǒng)成分中,由于系統(tǒng)成分隨時間不再是線性變化,而是不同時間的變化率不同,因此,在均值方程中建立時間變量的多項式函數(shù)。系統(tǒng)成分隨時間變化拐點越多,時間變量多項式函數(shù)的方次越高。從理論上講,對于有T次觀測的第i個風(fēng)險類別來說,時間變量多項式函數(shù)最高可能為(T-1)次方。
本文采用限制性虛擬似然法對廣義多項式隨機效應(yīng)模型進行參數(shù)估計。若Yi為第i個風(fēng)險類別的損失向量,和為 β(p×1)和 bi(q×1)的估計值。若隨機效應(yīng) bi的均值為0,協(xié)方差為D,則在bi的條件下Yi的協(xié)方差為:
其中,Aμi(T×T)是對角矩陣,其對角線上的元素為V(μit)(t=1,…,T),Ri(T×T)為指定結(jié)構(gòu)。若 ei=Yi-μi,ei的一級泰勒級數(shù)近似值為:
其中:
Wolfinger&O’Connell(1993)[12]在?和已知下,用ei|β,bi的條件分布來近似的分布。若 Aμ中用來替代μi,近似分布為:
本文所用數(shù)據(jù)集為1993—1998年29個馬塞諸州城鎮(zhèn)車身損失責(zé)任保險損失額數(shù)據(jù),該數(shù)據(jù)集中還包括每平方米人口(PPSM)和人均收入(PCI)。表1給出1993—1998年每年平均損失額的統(tǒng)計特征,表2(見下頁)給出1993—1998年6年間平均損失額的相關(guān)系數(shù)。
表1 1993—1998年平均損失額統(tǒng)計特征
從表2中可以看出,每年損失額之間存在較強的相關(guān)性,其中,相關(guān)性最大值為1995年和1997年,損失額之間的相關(guān)性為0.8752,相關(guān)性最小值為1994年和1998年,損失額之間的相關(guān)性也有0.5726。因此,在建模中應(yīng)該將每年損失額之間的相關(guān)性考慮在內(nèi)。本文采用廣義多項式隨機效應(yīng)模型來處理個體內(nèi)損失額異質(zhì)性、個體間損失額異質(zhì)性、個體損失額隨時間非線性變化等問題。
表2 1993—1998年平均損失額的相關(guān)性分析
在非壽險精算中,由于事故發(fā)生后會存在聘請律師、法庭訴訟等問題,理賠費用往往較高,因此損失金額往往是右偏分布,具有較厚的右尾,因此,常用伽瑪分布、逆高斯分布和對數(shù)正態(tài)分布來對損失金額進行擬合。本文也采用因變量服從這三種分布的廣義多項式混合效應(yīng)模型對損失金額數(shù)據(jù)進行建模。根據(jù)前面理論部分的介紹,廣義多項式混合效應(yīng)模型由隨機成分、系統(tǒng)成分和連接函數(shù)三部分構(gòu)成。
若Yit表示第i風(fēng)險類別在第t年的損失金額,其中i=1,2,…,n,t=1,2,…,Ti。
(1)隨機成分,即因變量的分布,本文假設(shè)因變量服從伽瑪分布、逆高斯分布和對數(shù)正態(tài)分布。
①若Yit服從伽瑪分布,則其概率密度函數(shù)為:其中,均值為 E[yit|bi]=μit,方差為尺度參數(shù)為v。
②若Yit服從逆高斯分布,則其概率密度函數(shù)為:
其中,均值為 E[yit|bi]=μit,方差為尺度參數(shù)為σ。
③若Yit服從對數(shù)正態(tài)分布,則其概率密度函數(shù)為:
其 中 ,均 值 為 E[yit|bi]=exp(μit+0.5σ2),方 差 為
(2)系統(tǒng)成分,即均值方程。
為了便于將廣義線性混合效應(yīng)模型和廣義多項式混合效應(yīng)模型進行比較,首先建立廣義線性混合效應(yīng)模型的均值方程,將協(xié)變量PPSM和PCI作為固定效應(yīng)加入均值方程,將年份既看作固定效應(yīng)又看作隨機效應(yīng),建立如下四種均值方程。
模型1:log(μit)=β0+β1PCI+ β2PPSM+bi,0
模型2:log(μit)=β0+β1PCI+ β2PPSM+ β3Yearit+bi,0
模型3:log(μit)=β0+β1PCI+ β2PPSM+bi,0+bi,1Yearit
模型4:log(μit)=β0+ β1PCI+β2PPSM+β3Yearit+bi,0+bi,1Yearit
其次,建立廣義多項式混合效應(yīng)模型,協(xié)變量PPSM和PCI還是作為固定效應(yīng)加入均值方程,將時間變量的多項式函數(shù)作為固定效應(yīng)加入均值方程。共有6年的損失數(shù)據(jù),時間變量的多項式函數(shù)最高取5次方。在高次多項式建模中一個重要問題是模型中的線性項、平方項和高次項之間可能會存在多重共線性。Hedeker和Gibbons(2006)[13]認為具有3個時點的多項式混合效應(yīng)模型,線性項和平方項之間幾乎是完全相關(guān)的。如果將時間減去均值,則線性項和平方項就不存在多重共線性。因此,在實證中,以觀察期的中點作為中心點,對時間變量進行中心化處理。本文共有6年數(shù)據(jù),中心點為3.5年。建立下面兩個均值方程:
其中,Yit表示第i個風(fēng)險類別第t年內(nèi)(如在(t- 1,t)時間段內(nèi))的損失額。Yrit表示第i個風(fēng)險類別第t年中心化后的時間變量,即Yrit=Yearit-3.5,βi表示模型的固定效應(yīng),bi,0表示第i個風(fēng)險類別的起始水平偏離模型總體平均起始水平的程度,bi,1表示第i個風(fēng)險類別損失額隨時間的變化率偏離總體隨時間的變化率程度。通常假設(shè) bi,0和 bi,1服從為二元正態(tài)分布,即(0,D),其方差/協(xié)方差矩陣為:
(3)連接函數(shù),采用對數(shù)連接函數(shù)。
2.3.1 廣義線性混合效應(yīng)模型參數(shù)估計
對于廣義線性混合效應(yīng)模型,模型2通過了顯著性檢驗,即兩個協(xié)變量PPSM和PCI是顯著的,時間作為固定效應(yīng)是顯著的,作為隨機效應(yīng)并不顯著,三種因變量假設(shè)下,參數(shù)估計結(jié)果如下頁表3所示。
表3表明模型固定效應(yīng)部分的變量都通過了顯著性檢驗,在隨機效應(yīng)部分,SAS軟件只給出了隨機效應(yīng)的參數(shù)估計值和標(biāo)準差,沒有給出顯著性檢驗,將兩者的比值作為隨機效應(yīng)顯著與否的參考,三個模型隨機效應(yīng)參考值都大于2,說明截距項的隨機效應(yīng)是顯著的。由于限制性虛擬似然法是使用虛擬數(shù)據(jù)進行迭代估計,不能提供真實似然值,因而-2 Res Log Pseudo-Likelihood不能用于嵌套模型比較。因此,本文通過比較模型的均方誤差來確定最優(yōu)模型。
表3 損失額廣義線性混合效應(yīng)模型參數(shù)估計
2.3.2 廣義多項式混合效應(yīng)模型參數(shù)估計
對于廣義多項式混合效應(yīng)模型,模型5通過了顯著性檢驗,即時間作為固定效應(yīng)是顯著的,作為隨機效應(yīng)并不顯著,三種因變量假設(shè)下參數(shù)估計結(jié)果如表4所示。
表4 索賠額廣義多項式混合效應(yīng)模型參數(shù)估計
表4表明固定效應(yīng)協(xié)變量PPSM和PCI,隨機效應(yīng)截距項都通過了顯著性檢驗。另外,對伽瑪多項式隨機效應(yīng)模型和逆高斯多項式隨機效應(yīng)而言,時間變量的三次項和五次項通過了顯著性檢驗,對對數(shù)多項式隨機效應(yīng)而言,時間變量的平方項、三次項和五次通過了顯著性檢驗。
六種模型六年的預(yù)測值和真實值如圖1所示:
圖1 六種索賠額模型六年預(yù)測效果
圖1給出了三種廣義線性混合效應(yīng)模型和三種廣義多項式混合效應(yīng)模型的預(yù)測值與真實值之間的比較。表5進一步給出了六種模型的均方誤差來評價模型的預(yù)測效果。
表5表明,廣義多項式混合效應(yīng)模型對索賠額預(yù)測的均方誤差比廣義線性混合效應(yīng)模型的小,說明對于此數(shù)據(jù)建立廣義多項式混合效應(yīng)模型比建立廣義線性混合效應(yīng)模型更合適。
表5 索賠額最小均方誤差
在非壽險精算中,由于保險產(chǎn)品的復(fù)雜性和多樣性,保險產(chǎn)品定價面臨較大的不確定性,因此,精算師應(yīng)該通過分析保險產(chǎn)品的損失數(shù)據(jù),在符合定價基本原則下,采用多種不同的方法厘定費率,比較不同方法的結(jié)果,選擇最優(yōu)保費,從而確保費率厘定的公平性和準確性。本文在廣義線性混合效應(yīng)模型的系統(tǒng)成分中加入時間變量多項式,將廣義線性混合效應(yīng)模型推廣到廣義多項式混合效應(yīng)模型,將其用于信度費率厘定中,并利用美國馬塞諸州城鎮(zhèn)車身損失責(zé)任保險的損失額數(shù)據(jù)進行實證分析,得到如下結(jié)論:
(1)廣義多項式混合效應(yīng)模型與廣義線性模型和廣義線性混合效應(yīng)模型一樣,因變量服從指數(shù)分布族,該分布族有許多常見的分布,如泊松分布、二項分布、正態(tài)分布、逆高斯分布、伽瑪分布等。該模型放寬了一般線性混合效應(yīng)模型對數(shù)據(jù)的限制條件,能擬合更廣泛的數(shù)據(jù)。
(2)廣義多項式混合效應(yīng)模型是在廣義線性混合效應(yīng)模型的系統(tǒng)成分中加入時間變量的多項式函數(shù),用以反映系統(tǒng)成分隨時間的非線性變化,使得模型更加貼近現(xiàn)實。
(3)廣義多項式混合效應(yīng)模型彌補了傳統(tǒng)定價模型的不足,提高了估計精度,豐富了保險公司費率厘定的工具。
(4)廣義多項式混合效應(yīng)模型使得信度保費厘定更加簡單。傳統(tǒng)信度模型,需要求出信度因子,然后利用信度保費的計算公式計算出信度保費。然而,在廣義多項式混合效應(yīng)模型中,信度保費直接可以預(yù)測出,大大簡化信度保費的計算。
[1]Laird N M,Ware J H.Random-effects Models for Longitudinal Data[J].Biometrics,1982,38(4).
[2]Verbeke G,Molenberghs G.Linear Mixed Models for Longitudinal Da?ta[M].New York:Springer,2000.
[3]Demidenko E.Mixed models:Theory and Applications[M].New Jer?sey:2004.
[4]Frees E W,Young V R,Luo Y.A Longitudinal Data Analysis Inter?pretation of Credibility Models[J].Mathematics and Economics,1999,24(3).
[5]McCulloch C E,Searle S R.Generalized,Linear and Mixed Models[M].New York:Wiley,2001.
[6]Nelder J A,Verrall R J.Credibility Theory and Generalized Linear Models.ASTIN Bulletin,1997,27(1).
[7]AntonioandJ K&Beirlant.Actuarial Statistics With Generalized Lin?ear Mixed Models.Insurance:Mathematics and Economics,2007,40(1).
[8]Klinker F.Generalized Linear Mixed Models for Ratemaking:A Means of Introducing Credibility Into a Generalized Linear Model Set?ting.Casualty Actuarial Society E-Forum,Winter 2011 Volume 2.
[9]Sheiner L B.Rosenberg B.Marathe V V.Estimation of Population Characteristics of Pharmacokinetic Parameters From Routine Clinical Data[J].J Pharmacokinet Biopharm,1997,5(5).
[10]Pinheiro J C.Bates D M.Model Building for Nonlinear Mixed-Ef?fects Models.Technical Report 91 in:Department of Biostatistics,University of Wisconsin-Madison,1995.
[11]Ke C,Wang Y.Semiparametric Nonlinear Mixed Models and Their Applications[J].Journal of the American Statistical Asociation,2001,(96).
[12]Wolfinger R,O'Connell M.Generalized Linear Mixed Models:a Pseudo-likelihood Approach[J].Computation simulation,1993,(48).
[13]HedekerD,GibbonsR.LongitudinalDataAnalysis[M].NJ:Wiley-Interscience,2006.