徐 昕,郭念國
(1.首都經(jīng)濟貿(mào)易大學金融學院,北京100070;2.河南工業(yè)大學理學院,河南鄭州450001)
在擬合汽車保險索賠次數(shù)的模型中,泊松分布模型是擬合索賠次數(shù)的最簡單且常用的模型,具有均值與方差相等的特性。而索賠次數(shù)模型往往具有方差大于均值的性質(zhì),此時如果繼續(xù)使用泊松分布模型會低估參數(shù)的標準誤差,高估其顯著性水平,導致多余的解釋變量保留在預測模型中,最終導致不合理的保費。
對于此類問題,研究人員通常利用各種不同的混合泊松模型來預測索賠次數(shù)。Ruohonen[1]提出結構函數(shù)為三參數(shù)伽瑪函數(shù)的泊松分布,同時用實際損失數(shù)據(jù)與兩參數(shù)結構函數(shù)泊松模型即負二項模型進行了比較,得到了比較滿意的結果。Panjer[2]運用廣義poisson-pascal分布(即Hofmann分布,含三個參數(shù))來建立汽車索賠次數(shù)模型,擬合效果也比較理想。Norison Ismail和 Aziz Jemain[3]討論了負二項回歸模型和廣義泊松回歸模型的參數(shù)估計及其在索賠頻率預測中的應用,而Denuit Michel[4]等人應用負二項回歸、泊松-逆高斯回歸和泊松-對數(shù)正態(tài)回歸對汽車保險的索賠頻率進行了實證研究。國內(nèi)關于索賠頻率模型的研究主要有孟生旺和袁衛(wèi)[5]用混合Poisson模型研究了非同質(zhì)風險的索賠分布。高洪忠、任燕燕[6]研究了一類更廣泛的分布,即GPSJ類分布,這類分布描述了一次風險事件多種索賠結果的情況。毛澤春和劉錦蕚[7]分析了免賠額及NCD賠付條件對索賠次數(shù)分布的影響,通過比較風險事件與索賠事件的差異引出了一類同質(zhì)集合保單索賠次數(shù)的分布(Poisson-Gamma)。毛澤春和劉錦蕚[8]引出了一類指數(shù)類混合型索賠次數(shù)的分布并研究了其散度(dispersion)的性質(zhì),同時給出了擬合類分布的矩估計方法。徐昕、袁衛(wèi)、孟生旺[9]將兩參數(shù)負二項回歸模型推廣到三參數(shù)情況,并利用新模型對Yip和Yau[10]中的汽車保險損失數(shù)據(jù)進行了擬合,得到了較好的效果,提出了解決過離散問題的一種新辦法。
學者們的研究大多數(shù)集中在混合泊松分布模型上,而雙泊松分布模型也是一類離散型分布模型,具有方差大于均值的特性,但關于利用雙泊松回歸模型預測汽車保險索賠次數(shù)的文獻并不多見。本文將在下面內(nèi)容中詳細介紹雙泊松回歸模型的性質(zhì)及參數(shù)估計,并且利用該模型來擬合一組實際的汽車保險索賠數(shù)據(jù),并將其結果與泊松回歸模型的擬合進行比較分析。
為便于討論,假設共有p個分類變量,將所有保單分為n個風險類別,其中第i個風險類別在p個分類變量上的取值用xi=(xi1,xip)T表示,T表示轉置。用wi表示第i個類別包含的風險單位數(shù)(如汽車保險中的車年數(shù))。
令Yi表示第i個風險類別的索賠次數(shù)隨機變量,i=1,2…,n。如果Yi服從泊松分布,則其概率函數(shù)為:
泊松分布的均值與方差相等,即E(Yi)=Var(Yi)=λi。若令 λi=wiexp(xTiβ),即可得到泊松回歸模型,其中β是p×1階的參數(shù)向量。容易求得泊松回歸模型的對數(shù)似然函數(shù)為:
回歸參數(shù)β的極大似然估計可以通過下述似然方程組求得:
為了求得參數(shù)估計的標準誤差,首先需要計算Hessian矩陣,其中的元素是關于對數(shù)似然函數(shù)的二階偏導數(shù),即
因此信息矩陣的元素為
對信息矩陣對角線上的元素先求導數(shù),然后再開方,即可得到參數(shù)估計的標準誤差。
雖然無法確定雙泊松分布是否也是一種混合泊松分布,但由于其具有方差大于均值的特征,因此也可以用于過離散數(shù)據(jù)的處理。雙泊松分布的概率函數(shù)可以表示為:
此處對雙泊松分布形式不同于Yip和Yau文獻中的雙泊松回歸模型。這樣做的目的是使其均值正好等于λi,與其他分布保持一致。如果采用其他的參數(shù)形式,譬如,如果參數(shù)的形式使得雙泊松分布的均值正好為λi/θ(參見Yip和Yau),則截距項的估計值將發(fā)生變化,但索賠頻率的預測值不會受到影響。
從上述方差和均值的關系可以看出,當θ在區(qū)間(0,1)之間變化時,θ越小,雙泊松分布的過離散程度越嚴重,因此我們將g=q定義為雙泊松分布的離散參數(shù)。當θ→1時,雙泊松分布退化為泊松分布。容易求得雙泊松回歸的對數(shù)似然函數(shù)為:
對上式求偏導,可以得到模型的似然方程組為:
雙泊松回歸的Hessian矩陣H的元素也很容易求得:
因此雙泊松回歸的信息矩陣的元素為
對于索賠數(shù)據(jù)是否具有過離散的特征,通常利用兩種方法來判斷。一是在普通最小二乘回歸模型的基礎上建立的統(tǒng)計量(Cameron 和 Trivedi[11]),滿足下述條件
其中的λi=exp(xiβ),ei是隨機誤差項。如果系數(shù)α的t統(tǒng)計量顯著,說明存在過離散特征。
另外一種方法是拉格朗日乘法(Lagrange Multiplier)檢驗(Greene[12]提出的)。LM 統(tǒng)計量可以簡單表示為
其中的 λ =(λ1,…,λn)',λi=exp(xiβ),e=y -λ,y=(y1,…,yn)。在零假設為泊松分布的條件下,LM統(tǒng)計量服從自由度為1的x2分布。
對模型擬合優(yōu)度進行評價可以使用Akaike Information Criteria(AIC)統(tǒng)計量和Bayesian Schwartz Criteria(BIC)統(tǒng)計量。AIC 統(tǒng)計量定義為(Akaike[13]):
其中l(wèi)表示對數(shù)似然值,p為參數(shù)的個數(shù)。AIC的值越小,表明模型的擬合越好。
BIC 統(tǒng)計量定義為(Schwartz[14]):
其中的l也表示對數(shù)似然值,p為模型的參數(shù)個數(shù),n為觀測值的個數(shù),BIC的值越小,模型擬合越好。
本節(jié)選用一組來自SAS Enterprise Miner數(shù)據(jù)庫中的汽車保險數(shù)據(jù)。原始數(shù)據(jù)中有10303個觀測值,其中大約有6%的缺失,數(shù)據(jù)包含索賠概況、駕駛記錄、保單信息、被保險人個人信息。索賠概況記錄了被保險人的索賠頻數(shù)、索賠額、索賠時間等信息;駕駛記錄包括駕駛人的分數(shù)、過去7年中是否被吊銷駕駛執(zhí)照;保單信息有被保險車輛的行駛區(qū)域、行駛時間、汽車價格、顏色、用途等;被保險人的個人信息有年齡、性別、教育程度、工作類型、婚姻狀況、年收入等。選取與Yip和Yau相同的費率因子(見表1),其中收入為連續(xù)變量,其余為屬性變量,從10303個客戶中隨機抽取了4412個有效記錄。
表1 費率因子
首先依據(jù)第一種方法利用統(tǒng)計軟件SAS的回歸模塊(即PROC REG)得到結果見下表2,很明顯預測變量的P值顯著。
表2 預測值的估計結果
表2 預測值的估計結果
?
同樣,利用拉格朗日乘法(Lagrange Multiplier),利用SAS中IML模塊求得LM值為128.47816,并且顯著。
從兩種檢驗方法可以判定,損失數(shù)據(jù)存在過離散問題。
從下表3中的回歸模型擬合結果來看,雙泊松回歸模型和泊松回歸模型的參數(shù)估計值差別不大,顯著性水平因子也相同。但由前面判斷,此數(shù)據(jù)存在過離散特性,泊松回歸模型費率因子參數(shù)估計標準誤差明顯小于雙泊松回歸模型。從整體上看,無論是AIC還是BIC,對于該組索賠數(shù)據(jù)而言,雙泊松回歸模型的擬合效果要明顯優(yōu)于普通泊松回歸模型。
表3 回歸模型擬合結果
雙泊松分布模型雖然不能歸為混合泊松模型,但雙泊松分布模型同樣具有方差大于均值特性,從本文中的實證分析也可以看出,對于處理具有過離散特征的損失數(shù)據(jù),雙泊松分布可以看做為一種解決辦法,也同樣可以達到改善擬合結果的效果。
[1] Ruohonen,M..On amodel for claim number process[J].Astin Bulletin,1987(18):57-68.
[2]Panjer,H.H.,Recursive Evaluation of a Family of Compound Distributions[J].Astin Bulletin,1981(12):22 - 26.
[3] Noriszura,I.,&Abdul,A.J..Handling Overdispersion with Negative Binomial and Generalized Poisson Regression Models,2007 CAS Ratemaking Call Papers,2007:103 - 158.www.casact.org/pubs/forum/07wforum/07w109.pdf
[4] Denuit,M.,Marechal,=.,Pitrebois,S.,&Walhin J.F..Actuarial Modeling of Claim Counts:Risk Classification,Credibility and Bonus- Mallus Scales[M].NewYork:Wilely,2007.
[5] 孟生旺,袁衛(wèi).汽車保險的精算模型及其應用[J].數(shù)理統(tǒng)計與管理,2001,20(3):60 -65.
[6] 高洪忠,任燕燕.二維GPSJ類分布及其在保險中的應用[J].中國管理科學,2004,12(4):30 -34.
[7] 毛澤春,劉錦蕚.免賠額和NCD賠付條件下保險索賠次數(shù)的分布[J].中國管理科學,2005,13(5):1 -5.
[8] 毛澤春,劉錦萼.指數(shù)類混合型索賠次數(shù)的分布及其應用[J].應用概率統(tǒng)計,2008,24(1):1 -11.
[9] 徐昕,袁衛(wèi),孟生旺.負二項回歸模型的推廣及其在分類費率厘定中的應用[J].數(shù)理統(tǒng)計與管理,2010,29(4):656 -661.
[10] Yip,K.C.H.,Yau,K.K.W.On Modeling Claim Frequency Data in General Insurance with Extra Zeros[J].Insurance:Mathematics and Economics.2005 ,Vol 36,153-163.
[11] Cameron,A.C.and Trivedi,P.K.Count Data Models for Financial Data[J].Handbook of Statistics,Statistical Methods in Finance,1996,Vol 14,363-392,Amsterdam,North-Holland.
[12] Greene,W.Econometric Analysis(6th edition)[M].Prentice Hall:Englewood Cliffs.
[13] H.Akaike.Information Theory and an Extension of the Maximum Likelihood Principle[J].Proceedings of the 2nd International Symposium on Information Theory,Akademiai Kiade,Budapest,1973,267 -281.
[14] G.Schwartz.Estimating the Dimension ofa Model[J].Annals of Statistics,1978,Vol 6,461 -464.
[15] SAS Institute Inc.Solving business problems using SA Senter prise miners of eware[J].SAS Institute White Paper.1998,(Cary,NC:SAS Institute Inc.).