王飛躍 黃 濤 黃 磊 中國太平洋人壽保險(xiǎn)股份有限公司
《反保險(xiǎn)欺詐指引》實(shí)施以來,要求保險(xiǎn)公司建立欺詐風(fēng)險(xiǎn)識別機(jī)制,通過欺詐因子篩選、要素分析、風(fēng)險(xiǎn)調(diào)查等方法,發(fā)現(xiàn)風(fēng)險(xiǎn)因素。如何對欺詐風(fēng)險(xiǎn)進(jìn)行及時(shí)識別,是保險(xiǎn)行業(yè)實(shí)踐中亟待探討解決的問題和挑戰(zhàn)。本文通過探討綜合運(yùn)用探索性數(shù)據(jù)分析(EDA)和梯度提升決策樹(GBDT)方法,在已知問題賠案數(shù)據(jù)較少的情況下,可以較為有效地識別人身保險(xiǎn)領(lǐng)域欺詐案件,為行業(yè)和同業(yè)公司保險(xiǎn)欺詐風(fēng)險(xiǎn)識別提供參考。
保險(xiǎn)欺詐(Insurance Fraud)是指故意制造保險(xiǎn)事故、謊稱發(fā)生保險(xiǎn)事故或夸大索賠以騙取保險(xiǎn)金的行為,它以不當(dāng)?shù)美麨槟康?,?yán)重?fù)p害保險(xiǎn)公司利益。欺詐導(dǎo)致的額外成本最終將通過后續(xù)保費(fèi)上漲轉(zhuǎn)嫁給誠實(shí)投保人,嚴(yán)重侵蝕保險(xiǎn)市場賴以運(yùn)作的公平保費(fèi)理論。近年來,保險(xiǎn)欺詐團(tuán)伙化、專業(yè)化、職業(yè)化特點(diǎn)愈發(fā)突出,不僅損害誠實(shí)守信的保險(xiǎn)消費(fèi)者利益,侵蝕保險(xiǎn)公司經(jīng)營成本,甚至影響保險(xiǎn)業(yè)的健康穩(wěn)定發(fā)展及社會誠信體系的構(gòu)建。《反保險(xiǎn)欺詐指引》第二十六條明確要求,保險(xiǎn)機(jī)構(gòu)應(yīng)建立欺詐風(fēng)險(xiǎn)識別機(jī)制,對關(guān)鍵業(yè)務(wù)單元面臨的欺詐風(fēng)險(xiǎn)進(jìn)行收集、發(fā)現(xiàn)、辨識和描述,形成風(fēng)險(xiǎn)清單。其中包括通過欺詐因子篩選、要素分析、風(fēng)險(xiǎn)調(diào)查等方法,發(fā)現(xiàn)風(fēng)險(xiǎn)因素。如何對人身保險(xiǎn)欺詐領(lǐng)域開展有效的識別和預(yù)警,是保險(xiǎn)公司保險(xiǎn)欺詐研究的核心內(nèi)容。
目前保險(xiǎn)公司傳統(tǒng)的反欺詐分析依賴相關(guān)人員的經(jīng)驗(yàn)和其能獲取數(shù)據(jù)的程度。受人力、物力所限,保險(xiǎn)欺詐案件大多憑借理賠人員和風(fēng)險(xiǎn)監(jiān)測人員的直覺從大量的案件中抽取出來進(jìn)行分析。識別規(guī)則主要依靠一些固定標(biāo)準(zhǔn)和人員的長期經(jīng)驗(yàn)篩選可疑案例,調(diào)查的質(zhì)量主要依賴于理賠人員的個(gè)人素質(zhì)以及與業(yè)內(nèi)其他公司、部門的個(gè)人關(guān)系。在保險(xiǎn)業(yè)信息化發(fā)展的大背景下,客戶各種信息的數(shù)字化、業(yè)務(wù)電子商務(wù)化、理賠流程系統(tǒng)化、事故現(xiàn)場的影像化,一方面為保險(xiǎn)公司積累了大量的數(shù)據(jù),另一方面也使傳統(tǒng)的以實(shí)物為基礎(chǔ)的反保險(xiǎn)欺詐模式受到極大的挑戰(zhàn),因此迫切需要建立以大數(shù)據(jù)為基礎(chǔ)的反保險(xiǎn)欺詐的新模式,提高對保險(xiǎn)欺詐風(fēng)險(xiǎn)識別的技術(shù)水平。
反保險(xiǎn)欺詐的大數(shù)據(jù)分析流程主要包括五個(gè)層面的工作流程:風(fēng)險(xiǎn)分析、構(gòu)建規(guī)則模型、篩選可疑數(shù)據(jù)、進(jìn)行驗(yàn)證核實(shí)、后續(xù)優(yōu)化等,形成完整的、閉環(huán)運(yùn)作的反保險(xiǎn)欺詐數(shù)據(jù)分析體系。關(guān)于模型選擇目前存在定性分析法、決策樹/風(fēng)險(xiǎn)樹、評分卡、復(fù)制模型、人工智能和知識圖譜等方法,但都難以單獨(dú)解決在已知較小樣本基礎(chǔ)上準(zhǔn)確識別未知欺詐案件。
探索性數(shù)據(jù)分析(EDA)是指對現(xiàn)有數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)、規(guī)律或異常值的一種數(shù)據(jù)分析方法。梯度提升決策樹(GBDT)是一種集成學(xué)習(xí)的方法,通過集成多個(gè)學(xué)習(xí)器來構(gòu)建最終預(yù)測模型,即對于一個(gè)復(fù)雜任務(wù)來說,將多個(gè)學(xué)習(xí)器(專家)的判斷進(jìn)行適當(dāng)綜合所得出的判斷,比其中任何一個(gè)學(xué)習(xí)器(專家)單獨(dú)做出的判斷要好。梯度提升決策樹算法經(jīng)過多輪迭代,每次迭代生成一棵新的決策樹,并將新的決策樹添加到模型中匯總,不斷提升預(yù)測模型的精度,并形成最終的模型。本次已知問題賠案數(shù)量較少,共28條,待檢查的賠案數(shù)據(jù)為4000條。因此,擬首先運(yùn)用探索性數(shù)據(jù)分析(EDA)對已知人身保險(xiǎn)欺詐案件特征進(jìn)行分析;其次運(yùn)用梯度提升決策樹(GBDT)建立大數(shù)據(jù)分析模型,通過對比各個(gè)賠案的評分,分析評分相近的賠案,對比賠案之間的特征,發(fā)現(xiàn)疑似案件;最后通過現(xiàn)場復(fù)勘評估風(fēng)險(xiǎn)識別的準(zhǔn)確性。
以賠案號為唯一標(biāo)識將“問題賠案數(shù)據(jù)”和“待核實(shí)賠案數(shù)據(jù)”兩部分?jǐn)?shù)據(jù)進(jìn)行整合。結(jié)合保險(xiǎn)欺詐案件的常規(guī)特征和本次問題賠案的特點(diǎn),初步選擇出一些典型的字段,并通過分析,明確字段對應(yīng)的規(guī)則。從業(yè)務(wù)的角度對選取字段和規(guī)則的合理性進(jìn)行初步驗(yàn)證。
?表1 字段、規(guī)則、業(yè)務(wù)場景梳理結(jié)果
運(yùn)用探索性數(shù)據(jù)分析方法對整合數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)問題賠案的特征變量與待核實(shí)賠案有顯著差別,包括保費(fèi)、賠款總額、賠款總額與保費(fèi)比例、被保險(xiǎn)人年齡、被保人身份證所在地區(qū)與銷售地點(diǎn)等特征變量等,最終確定將保費(fèi)總額、賠款總額、被保險(xiǎn)人年齡、醫(yī)院、疾病、賠款總額與保費(fèi)比例、被保人身份證所在地區(qū)與銷售地點(diǎn)是否一致等作為用于后續(xù)測算的特征變量。分析方法如下:
(一)利用關(guān)系網(wǎng)絡(luò)進(jìn)行分析,發(fā)現(xiàn)業(yè)務(wù)員、上級主管、醫(yī)院和疾病之間存在關(guān)聯(lián)關(guān)系。在圖1中,線條的粗細(xì)代表關(guān)聯(lián)關(guān)系的強(qiáng)弱。在問題賠案中,有多個(gè)業(yè)務(wù)員的上級主管均為“石XX”,而“石XX”和醫(yī)院“A省B市醫(yī)院”有非常強(qiáng)的關(guān)聯(lián)關(guān)系;醫(yī)院“A省B市醫(yī)院”和兩種疾病“腦梗塞”和“腔隙性腦梗塞”有較強(qiáng)的關(guān)聯(lián)性(詳見圖1)。
(二)問題賠案的保費(fèi)多集中在1000—4000元之間,而待核實(shí)賠案的保費(fèi)主要集中在1400—7000元之間,并且問題賠案的保費(fèi)普遍較低(詳見圖2)。
(三)問題賠案的賠款總額多集中在25000—60000元之間,而待核實(shí)賠案的賠款總額主要集中在0—35000元之間,并且問題賠案的賠款總額更為集中(詳見圖3)。
?圖1 業(yè)務(wù)員、上級主管、醫(yī)院及疾病的關(guān)系網(wǎng)絡(luò)圖
(四)問題賠案的賠款總額與保費(fèi)比例趨勢線(紅線)呈上升趨勢,即問題賠案的賠款總額與保費(fèi)比例隨著賠款總額的上升而上升,主要由于問題賠案的保費(fèi)較低、繳費(fèi)次數(shù)較少,且不隨賠款總額的變化而變化(詳見圖4)。
(五)經(jīng)過分析對比待核實(shí)賠案中被保險(xiǎn)人身份證所在地區(qū)與銷售網(wǎng)點(diǎn)所在地區(qū)發(fā)現(xiàn),大部分賠案的被保險(xiǎn)人的身份證與銷售網(wǎng)點(diǎn)在同一地區(qū)(黑色直線劃出部分),同時(shí)也存在被保險(xiǎn)人的身份證與銷售網(wǎng)點(diǎn)不在同一區(qū)域(異地投保)的現(xiàn)象。在異地投保中,有五處較為集中的異地投保區(qū)域包括1號區(qū)域、2號區(qū)域、3號區(qū)域、4號區(qū)域、5號區(qū)域(詳見圖5)。
(六)從被保險(xiǎn)人年齡段來看,35歲—40歲年齡段的問題賠案件數(shù)占比最高,50歲—55歲年齡段的問題賠案件數(shù)最多。在待核實(shí)賠案中,被保險(xiǎn)人年齡超過65歲的賠案有376件(詳見圖6)。
?圖2 保費(fèi)對比分析
?圖4 賠款總額與保費(fèi)比例的對比分析
?圖3 賠款總額對比分析
?圖5 被保人身份證所在地區(qū)與銷售地點(diǎn)對比分析散點(diǎn)圖
?圖6 在不同被保險(xiǎn)人年齡段的問題賠案在待核實(shí)賠案中的件數(shù)占比
首先,運(yùn)用梯度提升決策樹方法對特征變量進(jìn)行測算分析并得到對每一個(gè)賠案的評分,發(fā)現(xiàn)醫(yī)院和疾病是兩個(gè)具有顯著影響的特征變量,對本次評分起到?jīng)Q定性作用,賠款總額與保費(fèi)的比例、被保人身份證所在地區(qū)與銷售地點(diǎn)是否一致、保費(fèi)總額、賠款總額和被保險(xiǎn)人年齡等特征變量均會對評分,發(fā)現(xiàn)醫(yī)院和疾病是兩個(gè)具有顯著影響的特征變量,對本次評分起到?jīng)Q定性作用,賠款總額與保費(fèi)比例、被保人身份證所在地區(qū)與銷售地點(diǎn)是否一致、保費(fèi)總額、賠款總額和被保險(xiǎn)人年齡等特征變量均會對評分產(chǎn)生影響。
其次,根據(jù)評分對待核實(shí)賠案進(jìn)行分組,評分結(jié)果相近的分在一組,在每組內(nèi)通過對比問題賠案和待核實(shí)賠案的特征,分析出在待核實(shí)賠案中的疑似問題賠案。通過對比待核實(shí)賠案信息(特征)和問題賠案信息(特征)之間的相似程度,從醫(yī)院、疾病、地域、保費(fèi)、賠付金額等角度進(jìn)行分析,發(fā)現(xiàn)以下賠案與問題賠案高度相似(后稱此類賠案為“疑似問題賠案”)。通過對比各個(gè)賠案的評分,分析評分相近的賠案,對比賠案之間的特征,發(fā)現(xiàn)疑似案件:WUH****00015940、WUH****00015940、 WUH****00015940、WUH****00006798、 WUH****00017324、WUH****00005689、 WUH****00020195、WUH****00006301、WUH****0000526等上述疑似問題賠案的醫(yī)院名、疾病名與問題賠案完全一致,被保險(xiǎn)人身份證所在區(qū)域與部分問題賠案的區(qū)域相同,符合問題賠案保費(fèi)金額低并且賠款總金額不高的特征;其余五個(gè)賠案與問題賠案的醫(yī)院名、疾病名、所在地區(qū)等特征相似(詳見圖7)。
?圖7 疑似問題賠案分析結(jié)果
最后,將上述可疑賠案發(fā)送至分公司進(jìn)行復(fù)勘。經(jīng)核實(shí),除賠案號WUH****00005260外,其余8件賠案均確認(rèn)為欺詐案件,準(zhǔn)確率為88.9%。
本文探索了在已知問題賠案數(shù)據(jù)較少的情況下對人身保險(xiǎn)領(lǐng)域未知欺詐風(fēng)險(xiǎn)的一種識別方法。首先運(yùn)用探索性數(shù)據(jù)分析(EDA)對已知人身保險(xiǎn)欺詐案件特征進(jìn)行分析,其次運(yùn)用檢驗(yàn)梯度提升決策樹(GBDT)建立大數(shù)據(jù)分析模型,通過對比待核實(shí)賠案信息(特征)和問題賠案信息(特征)之間的相似程度,從醫(yī)院、疾病、地域、保費(fèi)、賠付金額等角度對待核實(shí)欺詐數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)可疑賠案,最后針對重點(diǎn)可疑賠案進(jìn)行復(fù)勘確認(rèn),得到了較好的識別效果。
?表2 特征變量對篩選問題賠案的貢獻(xiàn)度分析結(jié)果
?表3 疑似問題賠案分析結(jié)果