趙曉兵, 劉 偉
(浙江財(cái)經(jīng)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,浙江 杭州 310018)
?
均值計(jì)數(shù)模型下汽車保險(xiǎn)索賠頻數(shù)的估計(jì)方法
趙曉兵, 劉 偉
(浙江財(cái)經(jīng)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,浙江 杭州 310018)
汽車保險(xiǎn)的索賠頻數(shù)預(yù)測(cè)問(wèn)題是非壽險(xiǎn)精算理論和應(yīng)用研究的一個(gè)重要內(nèi)容。但是,在含有高維附加信息的情形下,傳統(tǒng)的估計(jì)方法就不再適用。本文在均值計(jì)數(shù)模型基礎(chǔ)上,利用凸懲罰函數(shù)進(jìn)行變量選擇,找到影響車險(xiǎn)索賠頻數(shù)的顯著性因子,并通過(guò)模擬和實(shí)例分析來(lái)評(píng)價(jià)該模型和所提出的方法的可行性。
汽車保險(xiǎn);均值計(jì)數(shù)模型;凸懲罰;變量選擇;估計(jì)方程
汽車商業(yè)保險(xiǎn)是對(duì)機(jī)動(dòng)車輛由于自然災(zāi)害或意外事故所造成的人身傷亡或財(cái)產(chǎn)損失承擔(dān)賠償責(zé)任的一種保險(xiǎn)業(yè)務(wù)。隨著汽車數(shù)量的猛增,車險(xiǎn)市場(chǎng)呈現(xiàn)出快速發(fā)展的態(tài)勢(shì)。汽車保險(xiǎn)更是財(cái)產(chǎn)保險(xiǎn)的第一大險(xiǎn)種,部分公司的汽車保險(xiǎn)保費(fèi)收入占其財(cái)產(chǎn)保險(xiǎn)總保費(fèi)收入的60%以上。關(guān)于汽車保險(xiǎn)定價(jià)方法的研究一直以來(lái)都是非壽險(xiǎn)精算理論及應(yīng)用研究的重點(diǎn)內(nèi)容。
在目前的汽車保險(xiǎn)定價(jià)實(shí)務(wù)中,對(duì)車險(xiǎn)索賠頻率和索賠強(qiáng)度的預(yù)測(cè)是兩個(gè)主要研究問(wèn)題,流行的研究方法是利用廣義線性模型方法[1][2]。雖然廣義線性模型有現(xiàn)成的統(tǒng)計(jì)軟件可用,也可以對(duì)參數(shù)估計(jì)的結(jié)果進(jìn)行直觀的解釋,但是,該方法需要假定已知因變量和解釋變量之間的某種聯(lián)系函數(shù),而目前采用的函數(shù)形式卻比較有限。隨著現(xiàn)代統(tǒng)計(jì)方法的大量出現(xiàn),以及數(shù)據(jù)收集方式的更新,使得新類型的數(shù)據(jù)往往包含大范圍的附加信息,即所謂的“高維協(xié)變量”[3]。在這種背景下,傳統(tǒng)的廣義線性模型往往不再適用。而且由于廣義線性模型不能自動(dòng)識(shí)別解釋變量之間的交互作用,導(dǎo)致建模過(guò)程比較耗時(shí)。除廣義線性模型之外,神經(jīng)網(wǎng)絡(luò)模型也是研究汽車保險(xiǎn)索賠問(wèn)題的常用研究方法之一。但神經(jīng)網(wǎng)絡(luò)模型的計(jì)算較為復(fù)雜,同時(shí)也很難對(duì)協(xié)變量的回歸系數(shù)給出直觀的解釋(Faraway,2006;Werner and Modlin,2010;孟生旺,2007)[4][5][6]。
針對(duì)現(xiàn)有汽車保險(xiǎn)索賠頻數(shù)估計(jì)方法中存在的局限,本文基于澳大利亞MAA公司(The Motor Accidents Authority)的一組綜合險(xiǎn)(comprehensive insurance)索賠數(shù)據(jù),將Wang、Qin and Chiang(2001)[7]以及Huang and Wang(2004)[8]的模型推廣到允許含有高維協(xié)變量存在的情形,在此基礎(chǔ)上提出一個(gè)新的評(píng)估方法。該模型有兩個(gè)顯著特點(diǎn):一是允許高維協(xié)變量的存在,可以通過(guò)變量選擇得到模型的稀疏表達(dá),找到影響索賠頻數(shù)的顯著性因子,提高模型整體的預(yù)測(cè)精度。二是對(duì)未知的基準(zhǔn)函數(shù)不進(jìn)行任何參數(shù)假定,并且在降維的過(guò)程中不需要知道基準(zhǔn)函數(shù)的具體形式,以便對(duì)車險(xiǎn)索賠頻數(shù)做出更穩(wěn)健的估計(jì)。
在索賠頻數(shù)或者復(fù)發(fā)事件研究中,我們常常采用Cox型強(qiáng)度函數(shù)的計(jì)數(shù)過(guò)程。假定因變量Ni(i=1,2,…,n)為汽車保險(xiǎn)索賠頻數(shù),解釋變量Xi1,Xi2,…,Xip為影響車險(xiǎn)索賠頻數(shù)的風(fēng)險(xiǎn)因子。為了分析該索賠數(shù)據(jù),Huang and Wang(2004)[8]提出了如下模型:
(1)
其中,Xi=(Xi1,Xi2,…,Xip)T,βi=(β1,β2,…,βp)T,t=Yi∧τ為觀測(cè)時(shí)間,Yi為刪失時(shí)間,τ為觀測(cè)的終止時(shí)間,λ0(t)是未知的基準(zhǔn)函數(shù)(baseline),λ(t|Xi)是強(qiáng)度率函數(shù)。上述模型常常被稱為Cox型比例危險(xiǎn)模型。
然而此模型也存在一些局限,例如,我們常常需要假定其協(xié)變量是低維的。當(dāng)含有高維協(xié)變量時(shí),該模型往往不再適用?;诖?本文對(duì)該模型進(jìn)行一般化推廣,即允許有高維協(xié)變量的存在。Zhao and Zhou(2014)[9]對(duì)含有高維協(xié)變量的Cox模型下的系數(shù)估計(jì)方法進(jìn)行了深入研究,提出如下的多指標(biāo)模型:
(2)
其中,Ψ為完全未知的聯(lián)系函數(shù)。首先利用非參數(shù)方法對(duì)未知的基準(zhǔn)函數(shù)Λ0(t)做出估計(jì),其次使用充分降維(sufficient dimension reduction-SDR)獲得協(xié)變量的中心降維子空間的結(jié)構(gòu)維數(shù)和基方向,最后通過(guò)局部回歸估計(jì)完全未知的聯(lián)系函數(shù)Ψ。
注意到Zhao and Zhou(2014)[9]對(duì)Λ0(t)的估計(jì)需要使用每次索賠發(fā)生的具體時(shí)間數(shù)據(jù),而在目前的精算實(shí)務(wù)中,保險(xiǎn)精算數(shù)據(jù)往往只含有累積的索賠次數(shù),而并不特別關(guān)心每次索賠具體發(fā)生的時(shí)間點(diǎn)。因此,在本文中,我們只需要對(duì)協(xié)變量進(jìn)行降維,而不再關(guān)注基準(zhǔn)函數(shù)Λ0(t)的估計(jì)。假設(shè)一個(gè)均值計(jì)數(shù)模型,即假設(shè)到時(shí)刻t為止的累積索賠次數(shù)Ni(t)有如下的均值計(jì)數(shù)結(jié)構(gòu):
(3)
另外,SDR可以有效克服高維協(xié)變量情形下“維數(shù)禍根”的影響,且不需要對(duì)模型有任何參數(shù)假定,在降維的過(guò)程中也充分考慮了響應(yīng)變量的因素,保留了更多的回歸信息。但類似于主成分分析,SDR是通過(guò)尋找自變量的若干線性組合來(lái)達(dá)到降維目的的,因此我們不易得到降維系數(shù)的直觀解釋。為了找到影響汽車保險(xiǎn)索賠頻數(shù)的顯著性因子,賦予模型以直觀的解釋,同時(shí)提高模型整體的預(yù)測(cè)精度,本文考慮另一種方法,即通過(guò)優(yōu)化一個(gè)帶“懲罰”函數(shù)的“損失”來(lái)達(dá)到變量選擇的目的,該方法也是目前文獻(xiàn)中另外一個(gè)受到廣泛重視的解決高維協(xié)變量問(wèn)題的有效方法。受Fan and Li(2001)[10]懲罰對(duì)數(shù)似然函數(shù)思想的啟發(fā),本文在模型(3)的基礎(chǔ)上,對(duì)Sun and Wei(2000)[11]提出的估計(jì)方程做出懲罰,以得到β的稀疏估計(jì)。本文的顯著優(yōu)點(diǎn)在于:一是可以允許有高維協(xié)變量的存在,二是通過(guò)懲罰函數(shù)挑選顯著性變量時(shí)不需要依賴基準(zhǔn)函數(shù)baseline。
注意到模型(1)和(3)雖有上述數(shù)學(xué)表達(dá)式上的聯(lián)系,但實(shí)際上它們卻有很大的差別。模型(1)是一個(gè)基于非平穩(wěn)泊松分布的計(jì)數(shù)過(guò)程,模型(3)則為不需要關(guān)于分布作任何假設(shè)的均值計(jì)數(shù)模型。另外,在估計(jì)方法上,模型(1)和(2)均需要知道每次索賠發(fā)生的具體時(shí)間點(diǎn),而模型(3)卻允許索賠發(fā)生的時(shí)間點(diǎn)完全未知。因此無(wú)論是在統(tǒng)計(jì)建模還是估計(jì)方法上,模型(3)比模型(1)都更具靈活性和更一般化。
本節(jié)將利用凸懲罰函數(shù)方法來(lái)進(jìn)行變量選擇,得到影響車險(xiǎn)索賠頻數(shù)的顯著性因子及相應(yīng)的系數(shù)估計(jì)。在模型(3)基礎(chǔ)上,為了得到參數(shù)向量β的估計(jì),Sun and Wei(2000)[11]提出了如下的無(wú)偏估計(jì)方程,該方法的最大特點(diǎn)是不涉及未知的基準(zhǔn)函數(shù)Λ0(t),從而不需要每次索賠的具體發(fā)生時(shí)間點(diǎn)。中心化協(xié)變量Xi后,該估計(jì)方程定義如下:
為了得到β的估計(jì),Tong and He等(2009)[12]提出如下的迭代公式:
β(l+1)=β(l)+{nA(β(l))+n∑(βl)}-1Q(β)
(4)
其中,βj為第l次迭代β(l)的第j個(gè)分量。為了得到調(diào)整參數(shù),我們?cè)谝陨厦恳淮蔚卸际褂脧V義交叉驗(yàn)證方法,其定義為:
e(λ1,…,λd)=tr[{A(β)+∑(β)}-1A(β)]
其中,tr為求矩陣的跡,即矩陣主對(duì)角線元素之和。則調(diào)整參數(shù)(λ1,…,λd)可以定義為如下統(tǒng)計(jì)量的最小值:
將初值β(0)帶入GCV,在得到λ1,λ2,…,λd后,即可計(jì)算A(β)與∑(β),再帶入(4)式,迭代至收斂,即可得到β的懲罰估計(jì)。
(一)維數(shù)為6的數(shù)值模擬
表1 β的估計(jì)值
(二)維數(shù)為10的數(shù)值模擬
表2 β的估計(jì)值
本節(jié)基于澳大利亞MAA公司(TheMotor Accidents Authority)的一組綜合險(xiǎn)的索賠數(shù)據(jù),研究車險(xiǎn)索賠頻數(shù)對(duì)影響因素的響應(yīng)關(guān)系。該組數(shù)據(jù)共含有1446位投保人在1993年度的索賠信息,Jong and Heller(2008)[14]利用Copula模型分析過(guò)該組數(shù)據(jù)。本文將利用模型(3)再次來(lái)分析該組數(shù)據(jù),我們將通過(guò)懲罰函數(shù)來(lái)挑選顯著性因數(shù)變量,從而達(dá)到降維目的。
以一份汽車保險(xiǎn)合同在一個(gè)固定保險(xiǎn)期內(nèi)(一個(gè)保險(xiǎn)期)的最終索賠頻數(shù)為因變量,影響因素為所有可能的變量,共17個(gè)變量。幾個(gè)比較重要的變量如下:
(1)被保險(xiǎn)人在該保險(xiǎn)合同以前(不包括該保險(xiǎn)合同期內(nèi)的)的索賠金額;
(2)被保險(xiǎn)人性別(0表示男性,1表示女性);
(3)保單維持期(以一年為一個(gè)保單合同期,表示被保險(xiǎn)人在保險(xiǎn)公司的合同連續(xù)維持了幾年);
(4)婚否(即被保險(xiǎn)人在觀測(cè)期內(nèi)是否結(jié)婚,0表示未婚,1表示已婚);
(5)父母健在(0表示父母去世,1表示父母健在);
(6)居住時(shí)間(以年為單位,表示被保險(xiǎn)人在同一處所居住的最長(zhǎng)時(shí)間);
(7)延誤(即處理完索賠的耽誤時(shí)間);
(8)觀測(cè)期數(shù)(即連續(xù)觀測(cè)了多少時(shí)間,以年為單位,一年為一期)。
表4 系數(shù)估計(jì)的值
由表4可以看出,對(duì)索賠頻數(shù)影響較大的變量主要有:前期的索賠金額、被保險(xiǎn)人性別、被保險(xiǎn)人婚否、被保險(xiǎn)人父母是否健在以及最高受教育程度。通過(guò)以上估計(jì),我們可以得到如下結(jié)論:
(1)前期的索賠金額。在變量選擇得到的系數(shù)估計(jì)中,前期索賠金額的系數(shù)為0.1658,由此我們可知,該變量對(duì)索賠頻數(shù)有顯著性影響。這主要是由于,在正常情況下,被保險(xiǎn)人在過(guò)去的行為會(huì)自覺(jué)延續(xù)到現(xiàn)在,這與行為經(jīng)濟(jì)學(xué)的基本假設(shè)相吻合。
(2)被保險(xiǎn)人性別。在變量選擇得到的系數(shù)估計(jì)中,性別的系數(shù)為0.5047,這說(shuō)明性別對(duì)交通事故的發(fā)生有較為顯著的影響,這主要是由于男女性格差異、行為模式等的不同造成男女在交通事故的發(fā)生次數(shù)及嚴(yán)重程度上有明顯的區(qū)別。
(3)被保險(xiǎn)人是否結(jié)婚。在表4中,婚否對(duì)索賠頻數(shù)的影響系數(shù)為0.4783,這說(shuō)明是否結(jié)婚對(duì)因變量有較為顯著的影響,這主要是由于結(jié)婚使被保險(xiǎn)者的家庭責(zé)任感上升,從而自覺(jué)遵守交通規(guī)則,減少交通事故的發(fā)生以及汽車保險(xiǎn)的索賠次數(shù)。
(4)父母健在。從懲罰估計(jì)的結(jié)果來(lái)看,該變量的系數(shù)估計(jì)為0.2167,這與我們直觀上的感覺(jué)并不一致,同被保險(xiǎn)人是否已婚相同,這主要是因?yàn)楦改傅慕≡谑贡槐kU(xiǎn)人有更多的歸屬感及家庭責(zé)任感,從而影響到交通事故的發(fā)生及汽車保險(xiǎn)的索賠。
(6)最高受教育程度。從表4可以看出,最高受教育程度對(duì)索賠次數(shù)有非常顯著的影響。這是因?yàn)殡S著受教育程度的提高,更高素質(zhì)的被保險(xiǎn)人會(huì)更加自覺(jué)地遵守交通法規(guī),從而對(duì)索賠次數(shù)的減少產(chǎn)生積極的影響。
(5)保單維持期。理論上,保單維持期越長(zhǎng),索賠次數(shù)越大,保險(xiǎn)理賠越高。然而,被保險(xiǎn)人性別、婚否、受教育程度等也對(duì)索賠次數(shù)有很大的影響,從而使得保單維持期對(duì)索賠次數(shù)的影響不是那么顯著。另外一個(gè)解釋是,由于汽車保險(xiǎn)獎(jiǎng)懲系統(tǒng)(Bonus-Malus System-BMS)的存在,留在同一保險(xiǎn)公司的長(zhǎng)期客戶都是“表現(xiàn)良好”的客戶。
本文中,我們提議了一個(gè)汽車保險(xiǎn)索賠頻數(shù)的均值計(jì)數(shù)模型,該模型允許每次索賠具體發(fā)生時(shí)間點(diǎn)缺失,同時(shí)也允許有高維協(xié)變量的存在。該方法無(wú)論從模型建立還是統(tǒng)計(jì)方法上講都更具一般性和靈活性。我們利用凸懲罰變量選擇方法對(duì)高維協(xié)變量進(jìn)行降維,得到回歸系數(shù)的稀疏估計(jì),該方法提供了一種處理高維情形下車險(xiǎn)索賠數(shù)據(jù)的另外一種選擇。在本文中,我們主要研究了汽車保險(xiǎn)的索賠次數(shù),而沒(méi)有考慮每次索賠的具體金額,這將是我們以后要繼續(xù)研究的問(wèn)題。
[1] Lin D Y. Linear regression analysis of censored medical costs[J]. Biostatistics,2000,1(1):35-47.
[2] Lin D Y. Regression analysis of incomplete medical cost data[J].Statistics in Medicine,2003,22(7):1181-1200.
[3] 趙曉兵,王偉偉.高維附加信息下的商業(yè)醫(yī)療保險(xiǎn)費(fèi)用評(píng)估模型和方法[J].財(cái)經(jīng)論叢,2013,(4):58-65.
[4] Faraway J. Extending the Linear Model with R[M]. Chapman & Hall/CRC,2006.
[5] Werner G., Modlin C. Basic Ratemaking[M]. Casualty Actuarial Society,2010.
[6] 孟生旺.廣義線性模型在汽車保險(xiǎn)定價(jià)中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2007,(1):24-29.
[7] Wang MC, Qin J and Chiang CT. Analyzing recurrent event data with informative censoring[J]. Journal of the American Statistical Association,2001,(96):455-464.
[8] Huang CY, Wang MC. Joint modeling and estimation of recurrent event processes and failure time data[J]. Journal of the American Statistical Association,2004,(99):1153-1165.
[9] Zhao XB, Zhou X. Sufficient dimension reduction on the mean and rate functions of recurrent events[J]. Statistics in Medicine,2014,33(21),3693-3709.
[10] Fan JQ, Li RZ. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Journal of the American Statistical Association,2001,(96):1348-1360.
[11] Sun JG, Wei L. Regression analysis of panel count data with covariate-dependent observation and censoring times[J]. Journal of the Royal Statistical Society: Series B,2000,(62):293-302.
[12] Tong XW, He X, Sun LQ, Sun JG. Variable selection for panel count data via non-concave penalized estimating function[J]. Scandinavian Journal of Statistics,2009,(36):620-635.
[13] Li RZ, Liang, H. Variable selection in semiparametric regression modeling[J]. The Annals of Statistics,2008,(36):261-286.
[14] Jong, P. and Heller, G. Z. Generalized Linear Models for Insurance Data (International Series on Actuarial Science)[M]. Cambridge,2008.
(責(zé)任編輯:原 蘊(yùn))
Estimation of Car Insurance Claim Frequency under the Mean Count Model
ZHAO Xiao-bing, LIU Wei
(School of Mathematics & Statistics, Zhejiang University of Finance & Economics, Hangzhou 310018, China)
Prediction of car insurance claim frequency is a focus of theoretical and empirical research of non-life actuarial studies. However, owing to the high-dimensional information involved, traditional models and estimation methods no longer apply. In this paper, some significant factors of car insurance claim frequency are identified through the variable selection method with convex penalty function based on the mean count model. A small simulation and a real data analysis are conducted to assess the feasibility of the proposed model and methods.
car insurance; mean count model; convex penalty; variable selection; estimate function
2014-08-27
國(guó)家自然科學(xué)基金資助項(xiàng)目(11271317);浙江省自然科學(xué)基金資助項(xiàng)目(LY14A010022);浙江省哲學(xué)與社會(huì)科學(xué)規(guī)劃資助項(xiàng)目(12JCJJ17YB)
趙曉兵(1968-),男,四川平昌人,浙江財(cái)經(jīng)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院教授;劉偉(1987-),男,山東泰安人,浙江財(cái)經(jīng)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院碩士生。
F840.6
A
1004-4892(2015)02-0044-06