盧冰潔,李煒卓,那崇寧,牛作堯,陳 奎
1.之江實(shí)驗(yàn)室,杭州 311121
2.南京郵電大學(xué) 現(xiàn)代郵政學(xué)院,南京 210003
3.東南大學(xué) 蘇州聯(lián)合研究生院,江蘇 蘇州 215123
4.南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,南京 210093
自改革開放以來,我國保險(xiǎn)業(yè)取得了長足的發(fā)展。據(jù)2021年4月銀保監(jiān)會發(fā)布的保險(xiǎn)業(yè)發(fā)展報(bào)告,發(fā)展至2020年,我國共計(jì)成立了235家保險(xiǎn)公司,總資產(chǎn)達(dá)23萬億,保費(fèi)收入4.53萬億元,同比增長6.12%,成為了全球第二大保險(xiǎn)市場。車險(xiǎn)作為財(cái)產(chǎn)險(xiǎn)中的第一大險(xiǎn)種高達(dá)69%,對保險(xiǎn)行業(yè)的發(fā)展至關(guān)重要。然而,近年來車險(xiǎn)欺詐案件的數(shù)量呈逐年上升趨勢,使得保險(xiǎn)公司的賠付成本不斷上升。保守估計(jì),我國車險(xiǎn)欺詐滲漏占理賠金額的比例至少達(dá)20%[1]。2020年我國車險(xiǎn)理賠支出合計(jì)約為4 725.50億元,照此推算,保險(xiǎn)公司在車險(xiǎn)欺詐方面的滲漏損失高達(dá)900億元以上[2]。車險(xiǎn)欺詐增加了保險(xiǎn)公司運(yùn)營成本和經(jīng)營風(fēng)險(xiǎn),侵害了保險(xiǎn)消費(fèi)者的合法權(quán)益,破壞車險(xiǎn)市場秩序,同時(shí)也對他人財(cái)產(chǎn)及整個(gè)社會構(gòu)成危害。為此,銀保監(jiān)會于2018年2月專門印發(fā)了《反保險(xiǎn)欺詐指引》以指導(dǎo)保險(xiǎn)公司和保險(xiǎn)行業(yè)進(jìn)行反欺詐制度建設(shè)。如何有效地識別車險(xiǎn)欺詐對促進(jìn)車險(xiǎn)市場良性健康發(fā)展具有重要意義。
在我國保險(xiǎn)欺詐領(lǐng)域,車險(xiǎn)欺詐相比于其他險(xiǎn)種的欺詐,存在犯罪手段隱蔽、手法多樣的特點(diǎn),并逐漸呈現(xiàn)出團(tuán)伙化的作案方式[2]。從近幾年的數(shù)據(jù)可以發(fā)現(xiàn),車險(xiǎn)共同犯罪的比例存在明顯的提升,且作案人員分工明確,這都給車險(xiǎn)欺詐檢測帶來不小的挑戰(zhàn)。近年來,受益于各個(gè)國家監(jiān)管部門與保險(xiǎn)公司對車險(xiǎn)欺詐的廣泛關(guān)注,車險(xiǎn)欺詐檢測技術(shù)的研究取得了很大的進(jìn)展。由于機(jī)器學(xué)習(xí)模型對原始數(shù)據(jù)的預(yù)處理要求比較低、可以建模因子間存在的交互效應(yīng)和非線性關(guān)系、具有預(yù)測能力較好等優(yōu)點(diǎn),目前已在車險(xiǎn)損失預(yù)測中有了諸多應(yīng)用研究[3]。
車險(xiǎn)欺詐檢測問題可以抽象為一個(gè)二分類或者多分類問題,國內(nèi)外均有不少學(xué)者將機(jī)器學(xué)習(xí)模型應(yīng)用在車險(xiǎn)欺詐檢測技術(shù)上,并取得了較好的研究成果。譬如,在國外,Viaene等人[4]、Hanafizadeh等人[5]、Ka??elan等人[6]、Li等人[7]分別探索了貝葉斯模型、聚類模型、數(shù)據(jù)挖掘、隨機(jī)森林等技術(shù)在車險(xiǎn)欺詐檢測領(lǐng)域的效果;He等人[8]、Guo等人[9]、Wang等人[10]則進(jìn)一步探索了深度學(xué)習(xí)模型在該任務(wù)上的應(yīng)用價(jià)值;Subudhi等人[11]、Majhi等人[12]則從混合模型的角度進(jìn)行切入,提供了一種有效的建模方法。相應(yīng)的,國內(nèi)學(xué)者庹國柱等人[13]、劉喜華等人[14]最早開始從車險(xiǎn)的理論進(jìn)行了探究;桂萍等人[15]收集了大量國內(nèi)外車險(xiǎn)道德風(fēng)險(xiǎn)文獻(xiàn),并在此基礎(chǔ)上進(jìn)行歸納梳理;趙桂芹等人[16]、湯俊等人[17]、王海巍等人[18]則根據(jù)國內(nèi)的車險(xiǎn)欺詐的實(shí)際情況,應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)模型對其進(jìn)行建模;近些年,閆春等人[19]、喻煒等人[1]、徐徐等人[20]開始從深度學(xué)習(xí)網(wǎng)絡(luò)、混合模型的角度出發(fā),在車險(xiǎn)欺詐檢測任務(wù)上取得了較大的進(jìn)展。此外,車險(xiǎn)欺詐領(lǐng)域具有其獨(dú)特的挑戰(zhàn)性。比如:車險(xiǎn)欺詐數(shù)據(jù)的特征空間龐大,且特征之間有著復(fù)雜的依賴關(guān)系,而傳統(tǒng)機(jī)器學(xué)習(xí)往往需要進(jìn)行特征選擇。針對這個(gè)問題,Panigrahi等人[21]采用了三種特征選擇算法,提取車險(xiǎn)欺詐數(shù)據(jù)中的重要特征,并利用機(jī)器學(xué)習(xí)算法進(jìn)行檢測,從而挑選出不同機(jī)器學(xué)習(xí)模型的最佳特征選擇方法。另一方面,車險(xiǎn)欺詐相對于信用卡欺詐等常見形式發(fā)生概率更低,因此類別不平衡現(xiàn)象更為明顯[22]。為此,Hassan等人[23]、Padhi等人[24]分別使用了欠采樣、過采樣等策略來緩解車險(xiǎn)欺詐任務(wù)所存在的挑戰(zhàn)。
然而,盡管已有上述的諸多車險(xiǎn)欺詐檢測的研究工作,并且取得了較為顯著的進(jìn)展,但缺乏基于機(jī)器學(xué)習(xí)模型對車險(xiǎn)欺詐檢測進(jìn)行系統(tǒng)深入的梳理與總結(jié)的工作,特別是近些年深度學(xué)習(xí)方法在車險(xiǎn)欺詐檢測研究上的進(jìn)展。一方面,國內(nèi)在車輛保險(xiǎn)欺詐檢測技術(shù)方相對滯后,模型實(shí)驗(yàn)所采用的車險(xiǎn)欺詐數(shù)據(jù)較為陳舊,且部分采用國外早期開源的數(shù)據(jù)進(jìn)行模擬。另一方面,國外的研究成果又較少對我國車險(xiǎn)業(yè)務(wù)數(shù)據(jù)進(jìn)行關(guān)注,無法適配目前國內(nèi)車險(xiǎn)行業(yè)擬定的規(guī)范,因此無法較好地進(jìn)行建模。
為此,本文首次針對機(jī)器學(xué)習(xí)模型在車險(xiǎn)欺詐檢測領(lǐng)域的研究工作進(jìn)行了文獻(xiàn)調(diào)研。具體地說,本文首先給出車險(xiǎn)欺詐檢測流程的簡介,分別對專家系統(tǒng)與智能理賠系統(tǒng)在車險(xiǎn)欺詐檢測的流程進(jìn)行了簡要的敘述。然后,對二十多年來的研究工作進(jìn)行系統(tǒng)化的歸納與總結(jié),依次從國外和國內(nèi)的角度介紹了機(jī)器學(xué)習(xí)模型在車險(xiǎn)欺詐檢測的具體研究進(jìn)展,將其歸納為基于傳統(tǒng)機(jī)器學(xué)習(xí)方法、基于神經(jīng)網(wǎng)絡(luò)的方法以及基于混合模型的方法,并進(jìn)行了宏觀的對比。接著基于國內(nèi)某車險(xiǎn)公司近5年來高質(zhì)量的車險(xiǎn)數(shù)據(jù)選取最具代表性的機(jī)器學(xué)習(xí)模型進(jìn)行建模,并進(jìn)行了全面的測試與分析。最后,對全文進(jìn)行總結(jié)并展望車險(xiǎn)欺詐技術(shù)未來的研究方向。
本章將分別從車險(xiǎn)專家系統(tǒng)與智能理賠系統(tǒng)兩個(gè)角度來介紹車險(xiǎn)欺詐檢測的流程。
車險(xiǎn)專家系統(tǒng)(下稱專家系統(tǒng))是一種基于車險(xiǎn)領(lǐng)域知識的推理系統(tǒng),具體來說,它能夠利用車險(xiǎn)專家的經(jīng)驗(yàn)知識進(jìn)行決策,由此判定案件的性質(zhì)以達(dá)到預(yù)警的目的[25]。專家系統(tǒng)的特點(diǎn)在于其基于規(guī)則和推理,這使得它具備了良好的可解釋性。但相對的,一旦規(guī)則觸發(fā)的條件不充足或者得不到滿足時(shí),專家系統(tǒng)就很難得出有用的結(jié)果。倘若欺詐方對規(guī)則有所了解,就可以在犯罪過程中繞過這些規(guī)則的觸發(fā)條件來規(guī)避專家系統(tǒng)的檢測。因此,專家系統(tǒng)在欺詐檢測的精度和準(zhǔn)確度上都存在局限。
盡管如此,專家系統(tǒng)在車險(xiǎn)欺詐檢測中依然有著廣泛的應(yīng)用。通常來說,當(dāng)車險(xiǎn)案件進(jìn)入核價(jià)核損階段時(shí),案件數(shù)據(jù)將通過接口傳輸?shù)綄<蚁到y(tǒng)中進(jìn)行檢測。如圖1所示,數(shù)據(jù)進(jìn)入專家系統(tǒng)后首先根據(jù)數(shù)據(jù)類型進(jìn)行分類,隨后根據(jù)數(shù)據(jù)類別采取相應(yīng)的計(jì)算準(zhǔn)則,計(jì)算得到案件觸發(fā)的風(fēng)險(xiǎn)因子集合,接著,將該案件觸發(fā)的風(fēng)險(xiǎn)因子集合與規(guī)則的觸發(fā)條件進(jìn)行一一匹配,最終得到案件的反欺詐判別結(jié)果和觸發(fā)的欺詐規(guī)則集合,并提示該案件最終的欺詐風(fēng)險(xiǎn)等級。
圖1 專家系統(tǒng)車險(xiǎn)欺詐檢測流程圖Fig.1 Diagram of expert system for auto insurance fraud detection
隨著人工智能技術(shù)的發(fā)展,基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)技術(shù)能夠突破傳統(tǒng)專家系統(tǒng)的局限,通過對被保險(xiǎn)人、保險(xiǎn)標(biāo)的、出險(xiǎn)情況等各方面數(shù)據(jù)進(jìn)行收集和分析,為車險(xiǎn)理賠提供了調(diào)查的方向。圖2展示了構(gòu)建智能理賠系統(tǒng)的5個(gè)步驟,包含數(shù)據(jù)需求、數(shù)據(jù)清洗、特征工程、超參數(shù)調(diào)優(yōu)以及模型訓(xùn)練。
圖2 智能理賠系統(tǒng)車險(xiǎn)欺詐檢測流程圖Fig.2 Diagram of intelligent claim system for auto insurance fraud detection
(1)數(shù)據(jù)需求:根據(jù)車險(xiǎn)業(yè)務(wù)場景提出數(shù)據(jù)需求,構(gòu)建原始數(shù)據(jù)庫。通常情況下,原始數(shù)據(jù)庫中應(yīng)包含報(bào)案、查勘、立案、定損、核價(jià)核損等多個(gè)重要環(huán)節(jié)數(shù)據(jù)。
(2)數(shù)據(jù)清洗:處理原始數(shù)據(jù)中可能存在的數(shù)據(jù)重復(fù)、數(shù)據(jù)格式不規(guī)范以及字段數(shù)據(jù)大量缺失等問題,并聚合清洗后的數(shù)據(jù),將數(shù)據(jù)匯總至一張表中,形成結(jié)構(gòu)化數(shù)據(jù)庫。
(3)特征工程:采用手動/自動特征工程的方法處理結(jié)構(gòu)化數(shù)據(jù),包含時(shí)間類型數(shù)據(jù)處理、經(jīng)緯度數(shù)據(jù)處理、離散型變量處理、特征交叉和選擇等,最終生成統(tǒng)計(jì)學(xué)特征庫。
(4)超參調(diào)優(yōu):基于標(biāo)注好的訓(xùn)練數(shù)據(jù),通過手動/自動超參優(yōu)化方法優(yōu)化機(jī)器學(xué)習(xí)模型參數(shù),得到模型最優(yōu)超參數(shù)設(shè)置。
(5)模型訓(xùn)練:采用最優(yōu)超參訓(xùn)練模型,獲得最優(yōu)模型。需要注意的是,為了保證智能理賠系統(tǒng)的性能,在模型上線后,往往需要保持增量訓(xùn)練或定期更新模型。
2.1.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法
國外早期研究主要采用了一些傳統(tǒng)的機(jī)器學(xué)習(xí)方法,目標(biāo)是在車險(xiǎn)欺詐檢測數(shù)據(jù)中篩選出若干數(shù)據(jù)特征,從而根據(jù)這些特征構(gòu)建車險(xiǎn)欺詐檢測的分類模型。基于貝葉斯模型的主要思路是利用貝葉斯分類的影響因子獨(dú)立假設(shè)根據(jù)保險(xiǎn)欺詐的因素構(gòu)建分類器,最終推理得到保險(xiǎn)欺詐的分類概率?;谠撍枷?,Viaene等人[4]探索了具有自動確定相關(guān)性(automatic relevance determination,ARD)權(quán)重正則化項(xiàng)的神經(jīng)網(wǎng)絡(luò)分類器的顯式能力,并將該網(wǎng)絡(luò)應(yīng)用于汽車保險(xiǎn)索賠欺詐檢測。該方案使用了一種基于貝葉斯學(xué)習(xí)的證據(jù)框架來實(shí)現(xiàn)ARD,從而確定每個(gè)輸入的相對重要性,并剔除冗余特征。此外,作者通過和流行的Logistic和決策樹算法得出的輸入相對重要性進(jìn)行比較,認(rèn)為不同分類器具有互補(bǔ)的可能性,這符合現(xiàn)代貝葉斯學(xué)習(xí)在數(shù)據(jù)量有限時(shí)選擇模型的方法。Bermúdez等人[26]將非對稱鏈接函數(shù)的思想應(yīng)用到保險(xiǎn)欺詐領(lǐng)域,使用了一種有偏連接模型,假設(shè)模型參數(shù)服從某種先驗(yàn)分布進(jìn)而通過貝葉斯估計(jì)和Gibbs采樣來擬合。同時(shí),作者在一個(gè)西班牙保險(xiǎn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了該方法能顯著提高保險(xiǎn)欺詐檢測的準(zhǔn)確率。貝葉斯模型的局限性在于車險(xiǎn)欺詐檢測的特征通常具有復(fù)雜的關(guān)系,而無法滿足相互獨(dú)立的假設(shè)。此外,貝葉斯模型預(yù)測概率不夠精確,通常只用于定性分析和特征選擇。
基于聚類模型的主要思路是根據(jù)若干風(fēng)險(xiǎn)因素對車險(xiǎn)案例進(jìn)行劃分,并得到可疑車險(xiǎn)欺詐案例?;谠撍枷?,Hanafizadeh等人[5]基于自組織映射和K-Means算法,提出了一種新穎的兩階段車險(xiǎn)客戶細(xì)分模型。在第一階段,作者從文獻(xiàn)綜述中提取了人口統(tǒng)計(jì)學(xué)規(guī)范、汽車規(guī)范、政策規(guī)范和駕駛員記錄4類18種不同的風(fēng)險(xiǎn)因素。在第二階段,作者進(jìn)一步利用專家意見來確定篩選過程。通過實(shí)證分析,作者發(fā)現(xiàn)保險(xiǎn)公司的客戶在很多方面都有所不同,而數(shù)據(jù)分析表明了基于歷史數(shù)據(jù)和專家意見的最終選定因素對于區(qū)分客戶的重要性。K-Means算法的性能取決于聚類簇的數(shù)量以及劃分標(biāo)準(zhǔn),在特征空間較大的情況下開銷較大,因此在車險(xiǎn)欺詐領(lǐng)域中應(yīng)用依賴專家意見和人工篩選特征等過程。
基于數(shù)據(jù)挖掘的主要思路是從大量數(shù)據(jù)中找出隱藏的信息,主要通過統(tǒng)計(jì)學(xué)、模式識別等方法來進(jìn)行有用信息的提煉?;谠撍枷?,Bhowmik[27]分別提出了基于樸素貝葉斯、決策樹以及產(chǎn)生式規(guī)則的欺詐檢測方法,并借助可視化工具從實(shí)際車險(xiǎn)數(shù)據(jù)中分析存在道德風(fēng)險(xiǎn)的可能性。同時(shí),作者通過實(shí)證分析發(fā)現(xiàn)混淆矩陣具有很強(qiáng)的類傾斜性,是一個(gè)重要的欺詐檢測領(lǐng)域的可靠性能指標(biāo)。Ka??elan等人[6]基于數(shù)據(jù)挖掘技術(shù)找到現(xiàn)存風(fēng)險(xiǎn)和風(fēng)險(xiǎn)因子之間的功能依賴關(guān)系,繼而幫助保險(xiǎn)人評估風(fēng)險(xiǎn)和計(jì)算適當(dāng)?shù)谋YM(fèi)。同時(shí),作者通過實(shí)例分析驗(yàn)證了數(shù)據(jù)挖掘技術(shù)同樣可以準(zhǔn)確地預(yù)測索賠的規(guī)模和發(fā)生情況,從而為保費(fèi)計(jì)算和風(fēng)險(xiǎn)分類提供了依據(jù)。在實(shí)例分析的過程,作者指出數(shù)據(jù)質(zhì)量和合適的數(shù)據(jù)挖掘技術(shù)是該方法成功的前提條件。Yan等人[28]研究了數(shù)據(jù)挖掘技術(shù)在反車險(xiǎn)欺詐中的應(yīng)用。將基于規(guī)則剪枝的最近離群點(diǎn)檢測方法應(yīng)用于車險(xiǎn)欺詐領(lǐng)域,建立了改進(jìn)的車險(xiǎn)欺詐識別模型,利用關(guān)聯(lián)規(guī)則挖掘車險(xiǎn)欺詐規(guī)律。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的車險(xiǎn)欺詐識別算法具有時(shí)間復(fù)雜度低、識別率高、準(zhǔn)確率高、對聚類算法K值影響小等優(yōu)點(diǎn)。Mihaela等人[29]通過對投保人年齡變量進(jìn)行顯著性分析,得出高欺詐風(fēng)險(xiǎn)人群特征。具體的,作者基于五個(gè)年齡區(qū)間構(gòu)建了保費(fèi)計(jì)算的負(fù)二項(xiàng)分布模型。在利用似然比對檢驗(yàn)了泊松分布等假設(shè)后,實(shí)驗(yàn)結(jié)果表明負(fù)二項(xiàng)分布模型能更好地?cái)M合數(shù)據(jù),緩解保險(xiǎn)組合中存在的過度分散現(xiàn)象。Nian等人[30]基于異常點(diǎn)檢測的方法,提出了一種基于譜排序的異常保險(xiǎn)樣本檢測方法,并發(fā)現(xiàn)譜優(yōu)化問題可以解釋為一個(gè)無監(jiān)督支持向量機(jī)問題。作者通過利用拉普拉斯矩陣的非主特征向量來直接推導(dǎo)排序向量,從而找出異常的欺詐樣本。同時(shí),作者基于一個(gè)真實(shí)索賠數(shù)據(jù)集進(jìn)行了實(shí)證分析。通過將該問題建模為無監(jiān)督學(xué)習(xí),基于海明距離及其核函數(shù)來生成該數(shù)據(jù)集的譜排序,并取得了良好的性能,此外,作者也表明為欺詐檢測問題選擇適當(dāng)?shù)南嗨贫攘康闹匾?。?shù)據(jù)挖掘方法的特點(diǎn)是基于數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析,再利用機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)車險(xiǎn)欺詐檢測的具體任務(wù)。因此,數(shù)據(jù)質(zhì)量、統(tǒng)計(jì)建模以及模型選擇等過程都會影響最終的預(yù)測結(jié)果。
基于K近鄰算法的主要思路是給定車險(xiǎn)欺詐數(shù)據(jù)的訓(xùn)練集,當(dāng)新輸入樣本時(shí)分析該樣本的最相似的K個(gè)實(shí)例,也就是K近鄰的類別,把出現(xiàn)次數(shù)最多的類別作為新輸入樣本的類別。Badriyah等人[31]采用最近鄰法和四分位數(shù)法檢測車險(xiǎn)數(shù)據(jù)中的欺詐行為。從實(shí)驗(yàn)結(jié)果來看,使用特征選擇會提高檢測欺詐的性能。具體的,作者采用基于距離的遺傳算法進(jìn)行特征選擇,利用最近鄰法進(jìn)行欺詐檢測。K近鄰法應(yīng)用于車險(xiǎn)欺詐檢測仍有較大的局限性,K比較小時(shí)對噪聲數(shù)據(jù)非常敏感,容易過擬合;K比較大時(shí),由于每個(gè)新輸入數(shù)據(jù)作分類時(shí)都要遍歷整個(gè)數(shù)據(jù)集,會造成巨大開銷。
基于回歸模型的主要思路是利用統(tǒng)計(jì)分析方法模擬風(fēng)險(xiǎn)因素的關(guān)系,繼而得到保險(xiǎn)欺詐因素之間的線性關(guān)系。Yan等人[32]提出了一種基于人工蜂群算法(artificial bee colony,ABC)的核嶺回歸算法(kernel ridge regression,KRR)——KRR-ABC,用于汽車保險(xiǎn)欺詐檢測。具體的,作者利用ABC算法的全局優(yōu)化能力和良好的并行性對KRR的參數(shù)組合進(jìn)行優(yōu)化,提高了模型的泛化能力和計(jì)算速度。同時(shí)作者在8個(gè)基準(zhǔn)數(shù)據(jù)集上對KRR-ABC模型的性能進(jìn)行了測試,結(jié)果表明KRR-ABC模型具有更快的運(yùn)行時(shí)間和更好的生成性能。將KRR-ABC模型應(yīng)用于汽車保險(xiǎn)欺詐檢測,得到了欺詐規(guī)則。由于邏輯回歸模型只能進(jìn)行線性擬合,而且對變量相關(guān)性敏感,因此無法直接用于真實(shí)車險(xiǎn)欺詐數(shù)據(jù)的檢測,往往用來進(jìn)行特征選擇。
基于隨機(jī)森林模型的主要思路是利用集成學(xué)習(xí)泛化性能強(qiáng)的優(yōu)勢來進(jìn)行分類器之間的組合,以此來提升保險(xiǎn)欺詐的判別效果。基于該思想,Xu等人[33]提出了一種基于隨機(jī)粗糙子空間的神經(jīng)網(wǎng)絡(luò)集成方法用于保險(xiǎn)欺詐檢測。該方法利用粗糙集劃分的子集分別基于真實(shí)保險(xiǎn)數(shù)據(jù)訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)分類器,并利用集成策略將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行組合。為了驗(yàn)證該方法的有效性,作者進(jìn)行了實(shí)證分析。實(shí)驗(yàn)結(jié)果表明,作者提出的集成模型優(yōu)于單個(gè)分類器和其他模型,能夠快速準(zhǔn)確地發(fā)現(xiàn)可疑的保險(xiǎn)欺詐行為。Li等人[7]從潛在最近鄰的角度分析了隨機(jī)森林的分類機(jī)制,用基于潛在最近鄰的投票機(jī)制取代了多數(shù)投票機(jī)制,避免了出袋(out of bag,OOB)樣本造成的信息丟失。在此基礎(chǔ)上,提出了主成分分析轉(zhuǎn)換方法,將數(shù)據(jù)轉(zhuǎn)換到主成分分析空間,提高分類器的多樣性,從而提高隨機(jī)森林算法的整體分類精度。雖然隨機(jī)森林無須進(jìn)行特征選擇也可以獲得較強(qiáng)的擬合能力,但是組合分類器給模型建立和預(yù)測增加了代價(jià)。此外,隨機(jī)森林的參數(shù)較傳統(tǒng)機(jī)器學(xué)習(xí)更多,不易調(diào)節(jié)。
基于XGBoost的方法同樣屬于集成學(xué)習(xí),但它不同于隨機(jī)森林的弱分類器之間相對獨(dú)立的關(guān)系,XGBoost算法以提升樹為原理,模型的預(yù)測結(jié)果受上一次預(yù)測結(jié)果的影響。因此,該類方法相比隨機(jī)森林有較差的并行性。然而,XGBoost的整體效率高于使用多棵樹進(jìn)行預(yù)測的隨機(jī)森林。此外,XGBoost可以用于對連續(xù)型欺詐數(shù)據(jù)進(jìn)行回歸分析,而隨機(jī)森林模型只能用于分類任務(wù)。Dhieb等人[34]將XGBoost應(yīng)用于車險(xiǎn)欺詐檢測的批量學(xué)習(xí),該算法不僅具有優(yōu)越的計(jì)算速度和模型性能,還能解決跨學(xué)科問題。此外作者利用快速決策樹(VFDT)實(shí)現(xiàn)在線學(xué)習(xí),該策略在新數(shù)據(jù)進(jìn)入系統(tǒng)時(shí)動態(tài)地調(diào)整參數(shù),而不需要重新訓(xùn)練整個(gè)模型。
基于傳統(tǒng)機(jī)器學(xué)習(xí)方法均是先采用特征工程的方式來篩選對保險(xiǎn)或者車險(xiǎn)欺詐的敏感特征,隨后以各類機(jī)器學(xué)習(xí)模型為基礎(chǔ)進(jìn)行有效的改進(jìn),從而達(dá)到更好的檢測結(jié)果。然而,上述方法仍會存在數(shù)據(jù)轉(zhuǎn)換適應(yīng)性方面的問題。同時(shí),傳統(tǒng)方法不易挖掘出汽車保險(xiǎn)數(shù)據(jù)中隱藏的特征及其關(guān)聯(lián)。
2.1.2 基于神經(jīng)網(wǎng)絡(luò)的方法
基于神經(jīng)網(wǎng)絡(luò)的車險(xiǎn)欺詐檢測方法主要集中在淺層神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)以及深度學(xué)習(xí)。目前,國外相關(guān)研究工作主要聚焦在圖神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)這兩種類型。
基于圖神經(jīng)網(wǎng)絡(luò)的主要思路是利用圖結(jié)構(gòu)可以更好地表示車險(xiǎn)欺詐中多方主體之間的關(guān)系,并發(fā)現(xiàn)潛在的組織行為。基于該思想,Liang等人[35]在索賠者之間引入了一個(gè)設(shè)備共享網(wǎng)絡(luò),然后開發(fā)了一個(gè)基于圖學(xué)習(xí)算法的欺詐檢測自動化解決方案,以將詐騙者從常規(guī)客戶中分離出來,并發(fā)現(xiàn)有組織的詐騙者群體。作者介紹了三種類型的圖,并展示了它們通過圖神經(jīng)網(wǎng)絡(luò)區(qū)分欺詐和正常行為的優(yōu)勢。經(jīng)過人類專家調(diào)查,與之前部署的基于規(guī)則的分類器相比,該解決方案的準(zhǔn)確率超過80%,可疑賬戶覆蓋率增加44%。此外該模型可以簡單有效地推廣到其他類型的保險(xiǎn)。Liu等人[36]針對欺詐者產(chǎn)生的不一致問題,即上下文不一致、特征不一致和關(guān)系不一致,設(shè)計(jì)了一個(gè)新穎的圖神經(jīng)框架GraphConsis,并分別設(shè)計(jì)了三種模塊來解決不同的不一致性問題。具體來說:(1)對于上下文不一致性,將上下文嵌入與節(jié)點(diǎn)特征相結(jié)合;(2)對于特征不一致性,設(shè)計(jì)了一致性評分來過濾不一致的鄰域并產(chǎn)生相應(yīng)的采樣概率;(3)對于關(guān)系不一致性,學(xué)習(xí)與抽樣節(jié)點(diǎn)相關(guān)的關(guān)系注意權(quán)值。實(shí)驗(yàn)分析表明,各種模塊所針對的不一致性問題在欺詐檢測任務(wù)中扮演著至關(guān)重要的角色。圖神經(jīng)網(wǎng)絡(luò)適合構(gòu)建元素之間具有復(fù)雜拓?fù)潢P(guān)系的模型,車險(xiǎn)欺詐中往往涉及多方主體,因此引入該方法可以學(xué)習(xí)到多方主體之間的潛在關(guān)系,從而用于預(yù)測。然而,圖神經(jīng)網(wǎng)絡(luò)目前還不能保證收斂點(diǎn)的質(zhì)量和實(shí)際預(yù)測效果。
基于深度學(xué)習(xí)的主要思路是利用深度學(xué)習(xí)的網(wǎng)絡(luò)深度優(yōu)勢與對深度框架的改良來提高汽車保險(xiǎn)欺詐的推理效果?;诖怂枷?,Qu等人[37]提出了一種基于點(diǎn)積的神經(jīng)網(wǎng)絡(luò)(PNN),該神經(jīng)網(wǎng)絡(luò)通過嵌入層來學(xué)習(xí)分類數(shù)據(jù)的分布式表示,然后通過點(diǎn)積層來捕獲域間類別之間的交互模式,進(jìn)一步利用全連接層來探索高階特征交互。Cheng等人[38]提出了深淺層學(xué)習(xí)框架(wide&deep learning,WDL),通過聯(lián)合訓(xùn)練淺層線性模型和深度神經(jīng)網(wǎng)絡(luò),將其記憶和泛化功能結(jié)合起來用于推薦系統(tǒng)。他們在Google Play上制作并評估了這個(gè)系統(tǒng)。在線實(shí)驗(yàn)結(jié)果顯示,應(yīng)用WDL比單獨(dú)的淺層和深度模型顯著增加了APP應(yīng)用的購買量。Xiao等人[39]通過區(qū)分不同特征交互的重要性來改進(jìn)FM。他們提出了一種新的模型,稱為注意力因子分解機(jī)(AFM),該模型通過神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中學(xué)習(xí)每個(gè)特征交互的重要性。在兩個(gè)真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了AFM的有效性。Wang等人[40]提出了深度交叉網(wǎng)絡(luò)(DCN)保留了深度神經(jīng)網(wǎng)絡(luò)(DNN)的優(yōu)點(diǎn),并引入了一種新穎的交叉網(wǎng)絡(luò),在學(xué)習(xí)某些有界度特征交互時(shí)更有效。特別地,DCN顯式地在每一層應(yīng)用特征交叉,不需要手動進(jìn)行特征工程,并且增加的復(fù)雜度可以忽略不計(jì)。實(shí)驗(yàn)結(jié)果表明,在點(diǎn)擊率預(yù)測數(shù)據(jù)集和密集分類數(shù)據(jù)集上,該算法在模型精度和內(nèi)存使用方面均優(yōu)于現(xiàn)有的算法。Guo等人[41]證明了可以推導(dǎo)出一個(gè)同時(shí)強(qiáng)調(diào)低階和高階特征交互的端到端學(xué)習(xí)模型DeepFM。在新的神經(jīng)網(wǎng)絡(luò)架構(gòu)中,DeepFM結(jié)合了分解機(jī)制和深度學(xué)習(xí)的能力分別用于推薦和特征學(xué)習(xí)。與深度學(xué)習(xí)模型Wide&Deep相比,DeepFM有一個(gè)共享的輸入分別傳輸?shù)綔\層和深層,可以直接利用原始特征不需要特征工程。同時(shí)作者在基準(zhǔn)數(shù)據(jù)和商業(yè)數(shù)據(jù)上進(jìn)行了綜合實(shí)驗(yàn),驗(yàn)證了DeepFM對點(diǎn)擊率預(yù)測的有效性。盡管上述模型只是深度學(xué)習(xí)模型在推薦任務(wù)上的應(yīng)用,但兩者關(guān)聯(lián)非常緊密,可以將上述模型根據(jù)車險(xiǎn)欺詐檢測任務(wù)進(jìn)行適配,并得到較為理想的效果(見3.2節(jié)測試模型與結(jié)果分析)。
近年來,由于深度學(xué)習(xí)模型無須進(jìn)行繁瑣的特征選擇,并能夠捕獲文本中的特征之間隱藏的語義關(guān)系,不少學(xué)者開始將深度學(xué)習(xí)應(yīng)用于車險(xiǎn)欺詐檢測,通過大量實(shí)證分析,深度學(xué)習(xí)模型往往優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。He等人[8]提出了一種用于稀疏預(yù)測的神經(jīng)因子分解機(jī)(NFM)模型。NFM巧妙地結(jié)合了因子分解機(jī)(FM)在建模二階特征交互中的線性和神經(jīng)網(wǎng)絡(luò)在建模高階特征交互中的非線性。具體的說,作者通過添加隱藏層獲得比FM更強(qiáng)的性能。相較于深度學(xué)習(xí)方法Wide&Deep和DeepCross而言,NFM使用了更淺的結(jié)構(gòu)并保證了其性能,因此在實(shí)踐中更容易訓(xùn)練和調(diào)整。Guo等人[9]提出了一種基于歷史注意的交互式LSTM(HAInt-LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)序列行為表示以進(jìn)行欺詐檢測。作者利用歷史自注意模塊解釋了人類行為的周期性,并通過將源信息編碼為一個(gè)交互模塊,以增強(qiáng)行為序列的學(xué)習(xí)。通過結(jié)合歷史自注意模塊和交互模塊,HAInt-LSTM在欺詐檢測的序列行為表示學(xué)習(xí)、序列預(yù)測和序列分類等方面都取得了良好的性能。同時(shí),作者在車險(xiǎn)欺詐數(shù)據(jù)集上證明了該方法在欺詐檢測任務(wù)上的優(yōu)越性。Wang等人[10]提出了一種結(jié)合潛在狄利克雷分布(latent Dirichlet allocation,LDA)和深度學(xué)習(xí)的文本分析模型,并用于車險(xiǎn)欺詐檢測。該方法首先利用LDA提取事故索賠文本描述中隱藏的文本特征,利用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練文本特征和傳統(tǒng)的數(shù)字特征。實(shí)驗(yàn)結(jié)果表明,深度神經(jīng)網(wǎng)絡(luò)的性能優(yōu)于隨機(jī)森林和支持向量機(jī)等廣泛使用的機(jī)器學(xué)習(xí)模型。
基于神經(jīng)網(wǎng)絡(luò)方法更多是利用了神經(jīng)網(wǎng)絡(luò)較大的特征學(xué)習(xí)能力。不過,目前特征的選取仍是通過聚類、LDA無監(jiān)督方式來進(jìn)行訓(xùn)練篩選,并未涉及到端到端的模式。此外,基于深度學(xué)習(xí)的方法普遍依賴于大量訓(xùn)練數(shù)據(jù),不利于小樣本場景下的表示學(xué)習(xí)問題。特別是在車險(xiǎn)欺詐領(lǐng)域,公開的有標(biāo)簽數(shù)據(jù)難以輕易獲得,而標(biāo)注任務(wù)也需要相當(dāng)?shù)膶I(yè)知識。最近已經(jīng)有學(xué)者將無監(jiān)督深度學(xué)習(xí)用于保險(xiǎn)欺詐檢測,從而緩解數(shù)據(jù)對該任務(wù)的影響。Gomes等人[42]提出的方法結(jié)合無監(jiān)督深度學(xué)習(xí)模型變分自編碼器(VAE)和自編碼器(AE)的能力,通過點(diǎn)擊按鈕進(jìn)行周期性模型更新,持續(xù)學(xué)習(xí)用戶行為的復(fù)雜變化。目前無監(jiān)督深度學(xué)習(xí)方法分類精度有限,將更多應(yīng)用于檢測結(jié)果的質(zhì)量評估、相似欺詐案例的推薦等場景。
2.1.3 基于混合模型的方法
目前基于混合模型的方法主要集中在將多個(gè)模型組合形成的系統(tǒng)框架,國外相關(guān)研究工作主要包括基于內(nèi)在關(guān)聯(lián)屬性的方法以及其他的混合模型方法兩種類型。
基于內(nèi)在關(guān)聯(lián)屬性的主要思路是從實(shí)體因素之間的關(guān)系來進(jìn)行建模,繼而利用因素之間的網(wǎng)絡(luò)關(guān)聯(lián)來進(jìn)行保險(xiǎn)欺詐工作?;谠撍枷?,?ubelj等人[25]提出了一種車險(xiǎn)欺詐群體檢測的專家系統(tǒng),并對該系統(tǒng)進(jìn)行了詳細(xì)的描述和評估,同時(shí)考慮了檢測欺詐的幾個(gè)技術(shù)難點(diǎn),以使其在實(shí)踐中適用。與其他方法不同的是,該系統(tǒng)使用網(wǎng)絡(luò)來表示數(shù)據(jù),刻畫和分析了實(shí)體之間的復(fù)雜關(guān)系。此外,作者還提出了一種新穎的迭代評估算法(iterative evaluation algorithm,IAA)來發(fā)現(xiàn)虛假實(shí)體。該算法除了研究實(shí)體的內(nèi)在屬性外,還研究了實(shí)體之間的關(guān)系,并根據(jù)真實(shí)世界數(shù)據(jù)進(jìn)行了嚴(yán)格分析。結(jié)果表明,該系統(tǒng)在良好的數(shù)據(jù)表示的前提下,能夠有效地檢測出汽車保險(xiǎn)欺詐行為。
其他混合模型算法的主要思路是將各個(gè)方法的優(yōu)勢進(jìn)行融合?;诖怂枷?,Subudhi等人[11]提出的車險(xiǎn)欺詐檢測系統(tǒng)為訓(xùn)練和欺詐檢測兩階段。在訓(xùn)練階段,結(jié)合遺傳算法和模糊C聚類方法,在大多數(shù)類實(shí)例上生成具有最優(yōu)集群中心的集群,從而識別出異常值和冗余數(shù)據(jù)點(diǎn)并刪除,最終得到一個(gè)平衡的數(shù)據(jù)集,用于進(jìn)一步的實(shí)驗(yàn)。在第二階段對可疑樣本進(jìn)行驗(yàn)證,分別由四種不同的有監(jiān)督學(xué)習(xí)方法DT、SVM、MLP和GMDH進(jìn)行驗(yàn)證。作者在一個(gè)真實(shí)的汽車保險(xiǎn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了該系統(tǒng)的有效性。Majhi等人[12]采用模糊C均值聚類方法進(jìn)行聚類,并通過改進(jìn)的鯨優(yōu)化算法尋找給定數(shù)據(jù)集的全局最優(yōu)解,進(jìn)而提出了一個(gè)基于模糊聚類的保險(xiǎn)欺詐檢測系統(tǒng)。該方法首先采用模糊聚類方法去除離群點(diǎn),對大部分樣本數(shù)據(jù)集進(jìn)行裁剪,然后使用CATBoost、決策樹等先進(jìn)的分類器對修改后的數(shù)據(jù)集進(jìn)行分類。通過測量靈敏度、特異性和準(zhǔn)確性等性能參數(shù)對分類器進(jìn)行評價(jià)。
總的來說,國外對于保險(xiǎn)欺詐檢測領(lǐng)域的研究多采用組合分類器(如:隨機(jī)森林),或較為前沿的深度學(xué)習(xí)模型(如:長短期記憶網(wǎng)絡(luò)(LSTM)、圖神經(jīng)網(wǎng)絡(luò)(GNN)。通過實(shí)證分析來進(jìn)行模型的評價(jià)與改善,往往模型都能夠達(dá)到較高的準(zhǔn)確率與較強(qiáng)的泛化能力。從數(shù)據(jù)集的角度來看,這得益于國外的保險(xiǎn)索賠數(shù)據(jù)具有更豐富的評價(jià)指標(biāo)體系,從而為模型訓(xùn)練特征的選取提供了更多的保障。
2.2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法
隨著國內(nèi)保險(xiǎn)事業(yè)的興趣,國內(nèi)越來越多的學(xué)者也參與到保險(xiǎn)欺詐與車險(xiǎn)欺詐的研究中來。與國外類似,國內(nèi)學(xué)者的車險(xiǎn)欺詐研究早期仍以回歸模型、聚類分析、數(shù)據(jù)挖掘等技術(shù)為主。
基于回歸模型的主要思路是利用邏輯回歸模型模擬風(fēng)險(xiǎn)因素的關(guān)系,繼而得到保險(xiǎn)欺詐與其他因素之間的關(guān)聯(lián)關(guān)系?;谠撍枷耄w桂芹等人[16]為了探究車險(xiǎn)市場中是否存在道德風(fēng)險(xiǎn),作者首次采用動態(tài)續(xù)保數(shù)據(jù)進(jìn)行實(shí)證研究。通過使用邏輯回歸的參數(shù)方法和條件相關(guān)模型的非參數(shù)方法,從多個(gè)方面論證了道德風(fēng)險(xiǎn)存在的范圍,并發(fā)現(xiàn)了道德風(fēng)險(xiǎn)在不同投保人群中具有不同顯著性的現(xiàn)象。此外,作者再次驗(yàn)證了信息不對稱的廣泛性和顯著性給道德風(fēng)險(xiǎn)帶來的影響。張連增等人[43]基于國外保險(xiǎn)索賠數(shù)據(jù),通過邏輯回歸模型分析了車險(xiǎn)索賠的影響因素,并利用SAS軟件對實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)分析,得出汽車價(jià)值、地區(qū)、車型和駕駛員年齡都會影響車險(xiǎn)索賠發(fā)生概率,并預(yù)測了概率數(shù)值。此外作者考慮到風(fēng)險(xiǎn)暴露對車險(xiǎn)索賠造成的影響,通過引入風(fēng)險(xiǎn)暴露因子對模型進(jìn)行了優(yōu)化,從而擴(kuò)展了邏輯模型在保險(xiǎn)業(yè)的應(yīng)用。
基于聚類模型的主要思路是根據(jù)若干風(fēng)險(xiǎn)因素對車險(xiǎn)案例進(jìn)行劃分,并得到可疑欺詐案例?;谠撍枷?,王海巍等人[18]利用一個(gè)保險(xiǎn)運(yùn)營的動態(tài)數(shù)據(jù)流,通過對投保、承保、理賠等關(guān)鍵環(huán)節(jié)的數(shù)據(jù)字段進(jìn)行聚類分析,并建立數(shù)理模型觀測、估計(jì)保險(xiǎn)欺詐風(fēng)險(xiǎn)閾值,探索了保險(xiǎn)實(shí)務(wù)中的道德風(fēng)險(xiǎn)識別問題。同時(shí),作者基于實(shí)證分析提出了建立動態(tài)Hadoop模型進(jìn)行風(fēng)險(xiǎn)因子聚類分析的必要性。
基于數(shù)據(jù)挖掘的主要思路是從大量數(shù)據(jù)中找出隱藏的信息,主要通過統(tǒng)計(jì)學(xué)、模式識別、大數(shù)據(jù)分析等方法對保險(xiǎn)數(shù)據(jù)中特征關(guān)聯(lián)進(jìn)行提煉?;谠撍枷?,湯俊等人[17]基于支持向量機(jī)和Apriori算法的數(shù)據(jù)挖掘技術(shù),提出了一種新穎的車險(xiǎn)欺詐檢測規(guī)則挖掘方法。具體的說,作者利用Apriori算法挖掘到的規(guī)則構(gòu)造了一個(gè)欺詐規(guī)律知識庫,用于對支持向量機(jī)從歷史數(shù)據(jù)庫匯總挖掘出來的可疑案例進(jìn)行再檢驗(yàn),從而提高車險(xiǎn)欺詐檢驗(yàn)的準(zhǔn)確性。此外,作者建議周期性地對知識庫中的規(guī)則進(jìn)行維護(hù)更新以應(yīng)對不斷變化的車險(xiǎn)欺詐行為。袁幕琴[44]基于我國保險(xiǎn)欺詐的現(xiàn)狀和主要表現(xiàn)形式,對保險(xiǎn)欺詐的原因和危害進(jìn)行了定性的分析研究工作,并結(jié)合大數(shù)據(jù)等現(xiàn)代信息技術(shù)提出了高效防范保險(xiǎn)欺詐的對策建議,包括建設(shè)智能反欺詐模型、大數(shù)據(jù)分析優(yōu)化承保、理賠規(guī)程等。盧文龍[45]基于保險(xiǎn)欺詐案件的風(fēng)險(xiǎn)因子和大數(shù)據(jù)技術(shù),提出了一個(gè)閉環(huán)式的保險(xiǎn)欺詐循環(huán)處理系統(tǒng),通過提煉出的風(fēng)險(xiǎn)因子建立數(shù)理識別模型,再將識別結(jié)果反饋來更新風(fēng)險(xiǎn)因子,從而構(gòu)建出一個(gè)越來越完善的反欺詐模型。張澄等人[46]結(jié)合保險(xiǎn)業(yè)個(gè)性化、定制化的發(fā)展趨勢,使用大數(shù)據(jù)分析和“互聯(lián)網(wǎng)+”技術(shù)實(shí)現(xiàn)風(fēng)險(xiǎn)管理的精細(xì)化和產(chǎn)品服務(wù)的定制化。具體的說,作者從位置大數(shù)據(jù)應(yīng)用的角度出發(fā),對手機(jī)定位的車輛位置信息在車險(xiǎn)管理的應(yīng)用問題進(jìn)行探討,并提出了一種新穎的地理區(qū)域網(wǎng)格化方法用于風(fēng)險(xiǎn)劃分和計(jì)算。同時(shí),作者針對生產(chǎn)應(yīng)用中的承包端和理賠端分別給出模型實(shí)施路徑和使用建議。
2.2.2 基于神經(jīng)網(wǎng)絡(luò)的方法
相比于國外學(xué)者的研究集中在淺層神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)以及深度學(xué)習(xí)領(lǐng)域,國內(nèi)相關(guān)研究工作主要集中在淺層神經(jīng)網(wǎng)絡(luò)。
基于淺層神經(jīng)網(wǎng)絡(luò)的主要思路是利用前饋神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)各個(gè)欺詐因素的權(quán)重,以此來提高保險(xiǎn)欺詐的推理效果?;诖怂枷耄~明華[47]以保險(xiǎn)欺詐行為中的車險(xiǎn)索賠為例,對基于反向傳播神經(jīng)網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò))用于保證欺詐識別的有效性進(jìn)行驗(yàn)證。作者將欺詐識別分為統(tǒng)計(jì)回歸混合人工智能兩個(gè)階段,利用邏輯回歸分析選出顯著性指標(biāo)作為精煉變量來進(jìn)行訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)模型。通過實(shí)驗(yàn)驗(yàn)證了BP神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)回歸方法融合的效果。通過實(shí)驗(yàn)結(jié)果驗(yàn)證了經(jīng)過融合后方法的識別準(zhǔn)確率要高于單獨(dú)使用BP神經(jīng)網(wǎng)絡(luò)識別的結(jié)果,從而證明了統(tǒng)計(jì)回歸與BP神經(jīng)網(wǎng)絡(luò)具有互補(bǔ)性和相互糾錯(cuò)性的理論。因此,作者指出提高神經(jīng)網(wǎng)絡(luò)識別效果的前提是完善索賠指標(biāo)體系。為了克服BP神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu)、收斂速度慢而且依賴樣本等局限性,閆春等人[48]利用改進(jìn)的遺傳算法來優(yōu)化基于BP神經(jīng)網(wǎng)絡(luò)的車險(xiǎn)欺詐識別模型。首先通過主成分分析將某保險(xiǎn)公司的欺詐索賠數(shù)據(jù)進(jìn)行指標(biāo)的提煉,將提煉后的指標(biāo)用于模型欺詐預(yù)測。改進(jìn)的遺傳算法通過自適應(yīng)調(diào)節(jié)交叉概率與變異概率,進(jìn)一步提高了遺傳算法的尋優(yōu)能力,防止算法陷入局部最優(yōu)。作者在實(shí)證分析中發(fā)現(xiàn),改進(jìn)的遺傳算法與經(jīng)典遺傳算法GA、IAGA算法相比,取得了收斂速度、精準(zhǔn)度等評價(jià)指標(biāo)的性能提升。
近年來,少數(shù)學(xué)者開始嘗試?yán)蒙疃葘W(xué)習(xí)技術(shù)構(gòu)建車險(xiǎn)欺詐檢測模型,相比淺層神經(jīng)網(wǎng)絡(luò)方法在效果上有明顯改善。徐徐等人[20]基于深度學(xué)習(xí)構(gòu)建了一個(gè)車險(xiǎn)欺詐識別模型。具體的說,作者基于采樣思想來轉(zhuǎn)換不平衡數(shù)據(jù)集,同時(shí)采用主成分分析算法對車險(xiǎn)數(shù)據(jù)進(jìn)行降維處理并消除變量之間的相關(guān)性。通過實(shí)證分析,作者驗(yàn)證了深度學(xué)習(xí)模型相比傳統(tǒng)機(jī)器學(xué)習(xí)模型在欺詐識別領(lǐng)域取得更好的效果。
2.2.3 基于混合模型的方法
基于混合模型的方法目前主要集中在將多個(gè)模型組合形成的系統(tǒng)框架,國內(nèi)相關(guān)研究工作體現(xiàn)在基于內(nèi)在關(guān)聯(lián)屬性以及其他的混合模型兩種類型。
基于內(nèi)在關(guān)聯(lián)屬性的主要思路是從實(shí)體因素之間的關(guān)系來進(jìn)行建模,繼而利用因素之間的網(wǎng)絡(luò)關(guān)聯(lián)來進(jìn)行保險(xiǎn)欺詐工作?;谠撍枷?,趙長利等人[49]基于變分不等式理論和變步長投影算法,探索了投保人、保險(xiǎn)人和保險(xiǎn)監(jiān)管者三方主體在車險(xiǎn)行為中的最優(yōu)均衡模式。不同于常規(guī)模型在探究此類問題上的局限性,其構(gòu)建的風(fēng)險(xiǎn)控制閉環(huán)模型能夠以定量的方式分析各方主體的決策行為和利益關(guān)系。通過數(shù)據(jù)分析,作者發(fā)現(xiàn)了汽車網(wǎng)絡(luò)利潤不均衡的特點(diǎn),進(jìn)而提出給予各方參與者一定的利潤空間以實(shí)現(xiàn)各方利潤最大化和風(fēng)險(xiǎn)控制。喻煒等人[1]針對車險(xiǎn)欺詐檢測問題,首次在該領(lǐng)域引入了團(tuán)伙微觀建模的概念,利用矩陣運(yùn)算識別出可疑的車險(xiǎn)欺詐團(tuán)伙行為。同時(shí),將可疑欺詐團(tuán)伙的碰撞網(wǎng)絡(luò)矩陣映射為人的網(wǎng)絡(luò)關(guān)系,從而識別出人為規(guī)避行為。相比傳統(tǒng)方法,矩陣數(shù)值運(yùn)算省略了樣本預(yù)處理、模型訓(xùn)練等步驟,極大提高了計(jì)算效率。
其他混合模型算法的主要思路是將各個(gè)方法的優(yōu)勢進(jìn)行融合?;诖怂枷?,閆春等人[19]提出了一種基于蟻群算法和隨機(jī)森林模型的組合分類器來提取出用于車險(xiǎn)欺詐識別的一組特征。作者用平衡隨機(jī)森林算法來改善車險(xiǎn)索賠數(shù)據(jù)的不平衡性,然后將特征在隨機(jī)森林中的重要性得分與數(shù)據(jù)的統(tǒng)計(jì)分?jǐn)?shù)傳遞給蟻群算法實(shí)現(xiàn)信息素實(shí)時(shí)更新,從而準(zhǔn)確地提取出車險(xiǎn)欺詐特征。和傳統(tǒng)算法相比,該方法提高了車險(xiǎn)欺詐識別的準(zhǔn)確性與魯棒性。
總的來說,國內(nèi)的車險(xiǎn)欺詐檢測方法更傾向于使用傳統(tǒng)機(jī)器學(xué)習(xí)模型,如邏輯回歸、BP神經(jīng)網(wǎng)絡(luò),并利用數(shù)據(jù)挖掘等技術(shù)建立統(tǒng)計(jì)模型,在深度學(xué)習(xí)與集成學(xué)習(xí)方面的研究并不突出。這可能是因?yàn)閲鴥?nèi)的風(fēng)險(xiǎn)評價(jià)體系尚未健全,很多學(xué)者利用爬蟲技術(shù)自行收集的數(shù)據(jù)量級比較小,且數(shù)據(jù)中含有大量的噪音,導(dǎo)致數(shù)據(jù)質(zhì)量不高,因此在一定程度無法滿足深度學(xué)習(xí)訓(xùn)練條件,這大大制約了國內(nèi)保險(xiǎn)欺詐識別的性能和應(yīng)用場景。
在這一節(jié)中,將對常用的機(jī)器學(xué)習(xí)模型及其特點(diǎn)總結(jié),如表1所示,其中貝葉斯分類中的C表示類別,x表示樣本特征。邏輯回歸模型中的w表示樣本權(quán)重,b表示偏置。決策樹模型通過計(jì)算信息增益Info(D)依次選擇分類效果最好的屬性,其中的i表示類別,D表示樣本集合,Pi表示D中任意一個(gè)樣本屬于i的概率。K近鄰中的函數(shù)I()根據(jù)括號中的參數(shù)是否相等返回1或0。另外,公式中出現(xiàn)的sign(·)函數(shù)的作用是根據(jù)參數(shù)和閾值的大小關(guān)系返回相應(yīng)類別,σ(·)函數(shù)稱為激活函數(shù),和sign(·)函數(shù)的作用類似,區(qū)別是sign(·)函數(shù)的取值是離散的,而激活函數(shù)σ(·)的取值是連續(xù)值。集成學(xué)習(xí)中的h(x)表示弱分類器預(yù)測結(jié)果,H(x)綜合這些結(jié)果得到強(qiáng)分類器的結(jié)果。除此以外,公式表中相同的符號有著相同或相似的含義。
表1 車險(xiǎn)欺詐檢測中機(jī)器學(xué)習(xí)模型的總結(jié)Table 1 Summary of machine learning models for auto fraud detection
貝葉斯分類器是以貝葉斯定理為基礎(chǔ)的分類算法的總稱,是基于樣本分布已知的假設(shè)來選擇最有可能的類別。與其他方法相比,貝葉斯分類器支持增量訓(xùn)練并實(shí)時(shí)調(diào)整概率值。此外由于假設(shè)特征之間相互獨(dú)立而無須考慮特征組合,大大提高了大規(guī)模訓(xùn)練集的計(jì)算效率。然而,貝葉斯分類器對特征組合較為受限。邏輯回歸模型實(shí)際上是用于二分類問題的分類模型,選擇與實(shí)際輸出值誤差最小的類別作為預(yù)測標(biāo)簽。這種方法實(shí)現(xiàn)簡單,易于理解,并且能夠方便地根據(jù)新的數(shù)據(jù)更新模型,因而得到了廣泛的應(yīng)用。然而,當(dāng)數(shù)據(jù)量或特征空間比較大導(dǎo)致線性不可分時(shí),該模型也會因?yàn)檫^于簡單而無法對數(shù)據(jù)進(jìn)行較好的學(xué)習(xí),從而體現(xiàn)出欠擬合、異常值敏感等問題。支持向量機(jī)通過核函數(shù)可以較好地解決非線性問題,能夠提高模型的泛化性能,解決高維度數(shù)據(jù)的問題,但是方法本質(zhì)受限于算法的復(fù)雜度(特別是核方法)無法處理大規(guī)模數(shù)據(jù)。決策樹也是一種易于理解的白盒模型,它甚至不限制使用非數(shù)值型數(shù)據(jù)。但是決策樹完全依賴數(shù)據(jù),存在過擬合的風(fēng)險(xiǎn)。集成學(xué)習(xí)的思想是利用多個(gè)弱分類器組合成強(qiáng)分類器,從而提高預(yù)測精度,并且一些集成學(xué)習(xí)方法如隨機(jī)森林實(shí)現(xiàn)了數(shù)據(jù)的并行化處理,提高了效率,但是組合學(xué)習(xí)器相比單學(xué)習(xí)器勢必會增加更多的計(jì)算成本。神經(jīng)網(wǎng)絡(luò)通過前向傳播來擬合數(shù)據(jù),通過反向傳播來更新參數(shù),是一種自主學(xué)習(xí)器,但是淺層的神經(jīng)網(wǎng)絡(luò)往往因?yàn)橛邢薜臉颖緮?shù)量和參數(shù)數(shù)量而無法擬合復(fù)雜函數(shù)。與之相比,深度學(xué)習(xí)通過增加網(wǎng)絡(luò)的參數(shù)量和數(shù)據(jù)的需求量來實(shí)現(xiàn)更復(fù)雜的功能,但是這也使硬件成本和數(shù)據(jù)標(biāo)注成本大大提升。無論是淺層神經(jīng)網(wǎng)絡(luò)還是深度學(xué)習(xí)方法都是一個(gè)完全的黑箱模型,因?yàn)槿祟悷o法得知模型輸入特征多對應(yīng)的相對權(quán)重,因此較難給出對輸出的結(jié)果進(jìn)行合理的解釋。從本文收集的各種機(jī)器學(xué)習(xí)模型的文獻(xiàn)數(shù)量和發(fā)表時(shí)間來看,傳統(tǒng)機(jī)器學(xué)習(xí)模型應(yīng)用較早,但是研究成果不多,這反映出傳統(tǒng)機(jī)器學(xué)習(xí)可能在特征選擇、模型擬合等環(huán)節(jié)存在較大局限性;而近年來基于神經(jīng)網(wǎng)絡(luò),特別是基于深度學(xué)習(xí)的方法以強(qiáng)大的表示能力和數(shù)據(jù)擬合能力開始廣泛應(yīng)用于車險(xiǎn)欺詐檢測。
總之,沒有一種機(jī)器學(xué)習(xí)技術(shù)能在所有數(shù)據(jù)集上所有任務(wù)中優(yōu)于其他技術(shù),它們都有各自的模型特點(diǎn)與局限性。為此,在車險(xiǎn)欺詐研究的過程中,諸多學(xué)者提出了相應(yīng)的改進(jìn)思路。
數(shù)據(jù)集選取真實(shí)生產(chǎn)環(huán)境下某車險(xiǎn)保險(xiǎn)公司降采樣數(shù)據(jù)(由于正常保險(xiǎn)公司欺詐概率在1%左右,本文收集的標(biāo)注數(shù)據(jù)欺詐概率在接近20%,實(shí)際上降低了正常數(shù)據(jù)的樣本,因此稱之為降采樣)。共11 350條,采集時(shí)間為2014-03—2019-08,采集案件主要集中在2019年。其中,非欺詐數(shù)據(jù)8 792條占數(shù)據(jù)總量的77.46%,欺詐數(shù)據(jù)2 558條占數(shù)據(jù)總量的22.54%。經(jīng)數(shù)據(jù)清洗后,可用字段合計(jì)900項(xiàng),包含類別型字段31項(xiàng)、數(shù)值型字段868項(xiàng)以及欺詐標(biāo)簽字段1項(xiàng)。
由于車險(xiǎn)數(shù)據(jù)是一種有偏的樣本數(shù)據(jù),因此在數(shù)據(jù)劃分時(shí)需維持原樣本的標(biāo)簽分布。在此模型測試過程中,訓(xùn)練集、測試集分別占數(shù)據(jù)總量的80%和20%。其中,訓(xùn)練集數(shù)據(jù)共9 080條,含非欺詐數(shù)據(jù)7 036條、欺詐數(shù)據(jù)2 044條;測試集數(shù)據(jù)共2 270條,含非欺詐數(shù)據(jù)1 756條、欺詐數(shù)據(jù)514條。需要注意的是,對于深度學(xué)習(xí)模型,將從訓(xùn)練集中額外劃分出20%的數(shù)據(jù)作為驗(yàn)證集以用于調(diào)整模型的超參數(shù)。
對于二分類問題,根據(jù)樣本真實(shí)類別和對應(yīng)模型預(yù)測結(jié)果的組合分為真正例(true positive,TP)、真負(fù)例(true negative,TN)、假正例(false positive,F(xiàn)P)、假負(fù)例(false negative,F(xiàn)N),如表2所示。
表2 分類樣本混淆矩陣Table 2 Confusion matrix of classified sample
評估指標(biāo)主要從精確率、召回率、F1-值、精度、AUC面積大小5種評估指標(biāo)進(jìn)行度量,以下分別對這5種指標(biāo)進(jìn)行描述。
Precision,又被稱為精確率、查準(zhǔn)率,是二分類任務(wù)中常用于評估模型預(yù)測結(jié)果是否精確的性能指標(biāo)。精確率定義為真正例占所有預(yù)測結(jié)果為正例樣本的比值,對應(yīng)的公式為:
Recall,又被稱為召回率、查全率,是二分類任務(wù)中常用于評估模型預(yù)測結(jié)果是否完備的性能指標(biāo)。召回率定義為真正例占所有真實(shí)類別為正例樣本的比值,對應(yīng)的公式為:
F1-score,又被稱為F1度量,它是在精確率和召回率的基礎(chǔ)上取調(diào)和平均數(shù)得到,對應(yīng)的公式為:
Accuracy,又被稱為精度,定義為分類正確的樣本占樣本總數(shù)的比值,對應(yīng)的公式為:
AUC(area under ROC curve),AUC是二分類任務(wù)中用于評估模型泛化性能的指標(biāo),它的定義是ROC(receiver operating characteristic)曲線下的區(qū)域面積。ROC曲線按照模型的預(yù)測結(jié)果逐個(gè)對樣本進(jìn)行排序,并分別以真正例率和假正例率為縱軸和橫軸繪制在二維坐標(biāo)系上形成一條曲線。其中真正例率(true positive rate,TPR)和假正例率(false positive rate,F(xiàn)PR)公式為:
通常使用曲線下區(qū)域面積AUC來進(jìn)行比較,如圖3所示。該性能指標(biāo)可以在數(shù)據(jù)不平衡的數(shù)據(jù)集上進(jìn)行客觀的評估。
圖3 AUC示意圖Fig.3 Diagram of AUC
此外,為了分析欺詐模型在多分類上的效果,進(jìn)一步將數(shù)據(jù)的標(biāo)簽細(xì)分為9個(gè)標(biāo)簽(為了保證多分類模型的訓(xùn)練效果,在欺詐標(biāo)簽類型細(xì)分時(shí),會將少量原因不明欺詐數(shù)據(jù)視為正常數(shù)據(jù)處理),并保持實(shí)驗(yàn)的訓(xùn)練測試比例不變。具體的細(xì)分標(biāo)簽為:非欺詐標(biāo)簽(8 892),人工標(biāo)記欺詐(1 302),倒簽單(7),痕跡不符(928),酒駕(131),虛假報(bào)案(9),隱瞞事故真相(60),重復(fù)索賠(12),準(zhǔn)駕異常(5)。
相應(yīng)的,實(shí)驗(yàn)采用了多分類的評價(jià)指標(biāo),分別使用了Precision、Recall、F1-score對應(yīng)的微平均(Micro)、宏平均(Macro)和帶權(quán)平均(Weighted)的評估方式。
Micro形式的評價(jià)指標(biāo)不關(guān)注樣本類別,直接評估全體樣本的分類效果。以precision為例,將所有類的TP加和,再除以所有類的TP和FN的加和。Micro形式下的precision、recall、accuracy相等。
Macro形式的評價(jià)指標(biāo)首先分別求出每個(gè)類的對應(yīng)值,再求算術(shù)平均。
Weighted形式是在Macro形式上的改進(jìn),對各類的結(jié)果值不再取算術(shù)平均,而是乘以該類在總樣本數(shù)中的占比作為權(quán)重。
在Linux操作系統(tǒng)上(16核的Inter Xeon 2.99 GHz CPU,內(nèi)存16 GB)進(jìn)行了仿真實(shí)驗(yàn),采用編程語言為Python 3.7,并基于sklearn庫、xgboost庫和deepCTRtorch庫實(shí)例化測試模型。深度學(xué)習(xí)模型均選擇自適應(yīng)梯度算法(adaptive gradient algorithm)作為優(yōu)化函數(shù),設(shè)定學(xué)習(xí)率為0.01、批量采樣的大小batch_size為32,周期epochs選擇對應(yīng)驗(yàn)證集梯度最小的參數(shù)值。需要注意的是,在未說明的情況下,輸入數(shù)據(jù)中類別型數(shù)據(jù)默認(rèn)采用標(biāo)簽編碼(label encoding)的方式處理。
為了全面地評估現(xiàn)有機(jī)器學(xué)習(xí)模型的效果,一共選擇了7類傳統(tǒng)機(jī)器學(xué)習(xí)模型(含變種)以及6種深度學(xué)習(xí)模型進(jìn)行測試和分析,具體列出如下:
貝葉斯網(wǎng)絡(luò),為經(jīng)典的機(jī)器學(xué)習(xí)模型,基于特征間強(qiáng)獨(dú)立假設(shè)和貝葉斯定理,車險(xiǎn)數(shù)據(jù)特征大多離散分布,適用于二分類或者多分類任務(wù)建模,其中模型的先驗(yàn)平滑因子alpha=1.0。
邏輯回歸,為經(jīng)典的機(jī)器學(xué)習(xí)模型,基于概率論,通過極大似然模型求解參數(shù)以實(shí)現(xiàn)未知數(shù)據(jù)的欺詐檢測,其中模型的懲罰參數(shù)penalty=l2,最大迭代次數(shù)
max_iter=100。
SVM(線性),為經(jīng)典的機(jī)器學(xué)習(xí)模型,基于幾何間隔最大化原理,以找出最大幾何間隔的分類面為優(yōu)化目標(biāo),其中模型的正則化參數(shù)penalty=l2,模型的損失函數(shù)為平方合頁損失(squared_hinge)。
SVM(非線性),為SVM的核方法,適用于數(shù)據(jù)線性不可分的情況,通過核函數(shù)將數(shù)據(jù)映射到高維空間直到線性可分,其中模型選取的核為徑向基函數(shù)(RBF)。
隨機(jī)森林,屬于機(jī)器學(xué)習(xí)中集成學(xué)習(xí)范疇,是一個(gè)由多個(gè)決策樹構(gòu)成的組合分類器,決策樹之間無依賴關(guān)系,其中基評估器的數(shù)量為100個(gè)。
Xgboost,屬于機(jī)器學(xué)習(xí)中集成學(xué)習(xí)范疇,是一個(gè)由多個(gè)分類回歸樹構(gòu)成的組合分類器,分類回歸樹之間存在強(qiáng)依賴關(guān)系,其中目標(biāo)函數(shù)分別采用binary:logistic(二分類)和multi:softprob(多分類)。
Xgboost(one-hot),為Xgboost的變種,主要是對輸入數(shù)據(jù)中類別型數(shù)據(jù)采用one-hot encoding處理,其中目標(biāo)函數(shù)同樣采用binary:logistic(二分類)和multi:softprob(多分類)。
PNN,為基于點(diǎn)積的神經(jīng)網(wǎng)絡(luò),屬于深度學(xué)習(xí)模型。相較于傳統(tǒng)的MLP模型,PNN通過嵌入層來學(xué)習(xí)分類數(shù)據(jù)的分布式表示,然后通過點(diǎn)積層來捕獲域間類別之間的交互模式,進(jìn)一步利用全連接層來探索高階特征交互,其中隱藏層層數(shù)為2層,神經(jīng)元數(shù)量均為128個(gè),激活函數(shù)為relu,核的類型為mat。
WDL,為深淺層學(xué)習(xí)框架,屬于深度學(xué)習(xí)模型。WDL通過結(jié)合線性模型和深度模型,保證了記憶與泛化的優(yōu)點(diǎn),同時(shí)采用聯(lián)合訓(xùn)練(joint training)的方法進(jìn)行優(yōu)化。其中隱藏層層數(shù)為2層,神經(jīng)元數(shù)量分別為256和128個(gè),激活函數(shù)為relu。
DeepFM,為深度的因子分解機(jī),屬于深度學(xué)習(xí)模型。DeepFM結(jié)合了分解機(jī)制和深度學(xué)習(xí)的能力分別用于推薦和特征學(xué)習(xí),它改進(jìn)了WDL模型的Wide部分,將LR替換FM(因子分解機(jī)),以實(shí)現(xiàn)自動構(gòu)造二階特征,其中隱藏層層數(shù)為2層,神經(jīng)元數(shù)量分別為256和128個(gè),激活函數(shù)為relu。
DCN,為深度交叉網(wǎng)絡(luò),屬于深度學(xué)習(xí)模型。它改進(jìn)了WDL模型的Wide部分,DCN能夠顯式地在每一層應(yīng)用特征交叉,自動構(gòu)造有限高階的交叉特征并學(xué)習(xí)對應(yīng)權(quán)重,其中隱藏層層數(shù)為2層,神經(jīng)元數(shù)量均為128個(gè),激活函數(shù)為relu。
NFM,為神經(jīng)因子分解機(jī),屬于深度學(xué)習(xí)模型。改進(jìn)了WDL模型的Deep部分,NFM將FM的二階交叉項(xiàng)作為Deep模型的輸入,通過添加隱藏層獲更強(qiáng)的性能,其中隱藏層層數(shù)為2層,神經(jīng)元數(shù)量均為128個(gè),激活函數(shù)為relu。
AFM,為注意力因子分解機(jī),屬于深度學(xué)習(xí)模型。改進(jìn)了WDL模型的Deep部分,加入注意力機(jī)制區(qū)分不同交叉特征的重要性,其中激活函數(shù)為relu,attention network的隱藏層大小設(shè)置為8層。
表3列出了上述機(jī)器學(xué)習(xí)模型在車險(xiǎn)欺詐中的整體實(shí)驗(yàn)結(jié)果??梢园l(fā)現(xiàn)基于集成學(xué)習(xí)Xgboost及其變種Xgboost(one-hot)模型與基于深度學(xué)習(xí)的模型效果較好,特別在F1-score、Accuracy、AUC均超過傳統(tǒng)的機(jī)器學(xué)習(xí)模型。Xgboost及其變種Xgboost(one-hot)在F1值與AUC上取得了最佳的效果,認(rèn)為主要是受益于數(shù)據(jù)特征的提煉以及集成學(xué)習(xí)自身較強(qiáng)的泛化能力。相對的,在深度學(xué)習(xí)模型中,DCN的效果最佳,得益于它在改進(jìn)部分深度學(xué)習(xí)模型(如:WDL)對于深度模塊的建模方式。由于深度學(xué)習(xí)模型受限于現(xiàn)有數(shù)據(jù)規(guī)模,無法進(jìn)一步從海量的特征中進(jìn)行隱形特征的學(xué)習(xí),因此效果較Xgboost略差。此外,發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò)和SVM-核方法分別在Recall和Precision取得了最佳效果。從側(cè)面可以發(fā)現(xiàn),這兩類模型在車險(xiǎn)欺詐檢測任務(wù)中表現(xiàn)得較為極端。貝葉斯網(wǎng)絡(luò)盡管可以發(fā)現(xiàn)更多的車險(xiǎn)欺詐案例,但對應(yīng)的也會誤判部分正常的車險(xiǎn)理賠案件,因?yàn)槠湔_率較低,這將會給公司校對人員帶來更大的現(xiàn)場勘測成本。而SVM-核方法過于保守,盡管不會將正常的車險(xiǎn)理賠案件誤判,但也很難對真實(shí)的車險(xiǎn)欺詐案件進(jìn)行有效檢測,因此難以達(dá)到實(shí)現(xiàn)車險(xiǎn)欺詐檢測的目的。
表3 車險(xiǎn)欺詐檢測整體的實(shí)驗(yàn)結(jié)果Table 3 Whole experiment result of auto fraud detection
考慮到車險(xiǎn)欺詐數(shù)據(jù)在真實(shí)場景中存在客觀的不均衡性,進(jìn)一步檢測了不同幅度下數(shù)據(jù)不均衡對各模型的影響。具體來說,將訓(xùn)練集中標(biāo)注為“欺詐”的訓(xùn)練樣例進(jìn)行隨機(jī)移除,同時(shí)保證正常的車險(xiǎn)理賠案件數(shù)量不變,由此對訓(xùn)練數(shù)據(jù)集中的不均衡性進(jìn)行調(diào)整。數(shù)據(jù)不均衡對各類機(jī)器學(xué)習(xí)模型的影響如表4所示??梢园l(fā)現(xiàn),大部分模型的性能都出現(xiàn)了不同程度的下降趨勢。整體而言,Xgboost及其變種Xgboost(one-hot)依然能在各種數(shù)據(jù)不均衡的車險(xiǎn)欺詐檢測任務(wù)中獲得最佳效果。受益于one-hot的建模效果Xgboost(one-hot)在比例減少時(shí),性能上甚至存在著一定程度的反彈。分析認(rèn)為,可能在于該批移除的車險(xiǎn)欺詐的數(shù)據(jù)存在部分噪聲,使得模型學(xué)習(xí)剩余數(shù)據(jù)的效果反而得到了提升。整體來說,隨著數(shù)據(jù)不均衡的加劇,Xgboost(one-hot)仍會出現(xiàn)性能下降的趨勢。此外,大部分深度學(xué)習(xí)模型在車險(xiǎn)欺詐任務(wù)的性能上也會有不同程度的下降。盡管如此,在性能的損失方面,除了NFM與DCN之外,其他的深度模型下降的幅度只有1.5%左右,這在一定程度凸顯出了這些模型能較好地學(xué)習(xí)到數(shù)據(jù)的隱性特征。
表4 數(shù)據(jù)不均衡對各模型的影響Table 4 Influence of data imbalance on each model
為了進(jìn)一步驗(yàn)證訓(xùn)練數(shù)據(jù)規(guī)模對各模型的影響,對整體的訓(xùn)練集進(jìn)行了等比例的縮放,并保證測試集不變。表5列出了不同百分比數(shù)據(jù)集對模型性能的影響。可以發(fā)現(xiàn),即便在整體訓(xùn)練規(guī)模只有原訓(xùn)練集的50%時(shí),Xgboost及其變種Xgboost(one-hot)依然能在車險(xiǎn)欺詐檢測任務(wù)上獲得最佳的效果,綜合F1-score和AUC的評分情況,可以發(fā)現(xiàn)Xgboost及其變種Xgboost(one-hot)在性能上均處于前2名。從圖4中,可以觀察到其在取值上整體高出了深度學(xué)習(xí)模型1.5%~2.0%。相對的,大部分深度學(xué)習(xí)模型在車險(xiǎn)欺詐任務(wù)的性能都有不同程度的下降。此外,在性能損失方面,即便只有50%的訓(xùn)練數(shù)據(jù),Xgboost及其變種Xgboost(one-hot)在F1-score與AUC的評分上只有2%左右的下降,在一定程度凸顯出了它們的泛化能力。
圖4 不同訓(xùn)練百分比數(shù)據(jù)集中模型性能的趨勢圖Fig.4 Trend graph of model performance in data sets with different training percentage
表5 訓(xùn)練百分比對各模型的影響Table 5 Influence of training percentage on each model
表6給出的是機(jī)器學(xué)習(xí)模型在多分類任務(wù)中評估的結(jié)果。整體上,可以看到在三項(xiàng)評估中,Xgboost(one-hot)依然在Micro形式與Weighted形式上較傳統(tǒng)的機(jī)器學(xué)習(xí)方法與深度學(xué)習(xí)方法有著更加出色的效果。貝葉斯網(wǎng)絡(luò)與Xgboost分別在Macro形式的Recall與Weighted形式的Precision上獲得了最佳的效果。而深度學(xué)習(xí)模型整體表現(xiàn)非常一般,其效果甚至只能與邏輯回歸模型的結(jié)果相當(dāng)。經(jīng)過對數(shù)據(jù)集的分析,發(fā)現(xiàn)深度學(xué)習(xí)模型主要還是受限于數(shù)據(jù)規(guī)模的影響。此外,在Macro評估方式中,可以發(fā)現(xiàn)所有的模型在Precision、Recall、F1-Score的表現(xiàn)都不如人意,特別是在虛假報(bào)案、隱瞞事故真相、重復(fù)索賠、準(zhǔn)駕異常、倒簽單這些樣本不足100的分類標(biāo)簽上。通過表7中的實(shí)驗(yàn)結(jié)果,進(jìn)一步證實(shí)了,絕大多數(shù)的模型是無法對一些稀疏樣本的欺詐數(shù)據(jù)進(jìn)行學(xué)習(xí)與區(qū)分的。因此,以算術(shù)平均為基礎(chǔ)的Macro評估則會給出一個(gè)整體較差的結(jié)果。相對來說,傳統(tǒng)的機(jī)器學(xué)習(xí)模型在這些少樣本的分類任務(wù)上能取得的效果比深度學(xué)習(xí)模型的效果略好一些。
表6 機(jī)器學(xué)習(xí)模型在多分類任務(wù)中的評估結(jié)果Table 6 Evaluation results of ML models in multi-classification tasks
表7 機(jī)器學(xué)習(xí)在不同類別中F1的實(shí)驗(yàn)結(jié)果Table 7 Experimental results of F1 of ML models in different categories
根據(jù)目前車險(xiǎn)公司提供的數(shù)據(jù)表明,在車險(xiǎn)欺詐檢測任務(wù)中,集成學(xué)習(xí)的效果與深度學(xué)習(xí)效果較傳統(tǒng)機(jī)器學(xué)習(xí)模型效果更好。一方面,集成學(xué)習(xí)和傳統(tǒng)的機(jī)器學(xué)習(xí)模型對硬件要求較低,而深度學(xué)習(xí)對硬件普遍具有較高的要求。另一方面,深度學(xué)習(xí)在保險(xiǎn)欺詐檢測任務(wù)中具備較好的效果,基于深度學(xué)習(xí)的思想可以學(xué)到潛在的特征表示,且標(biāo)注數(shù)據(jù)規(guī)模越大越有效。相對的,傳統(tǒng)的機(jī)器學(xué)習(xí)模型與集成學(xué)習(xí)模型對數(shù)據(jù)的特征提取存在較高的要求。
本文重點(diǎn)對機(jī)器學(xué)習(xí)模型在車險(xiǎn)欺詐檢測的研究進(jìn)展進(jìn)行全面細(xì)致的歸納與總結(jié),基于車險(xiǎn)公司真實(shí)的數(shù)據(jù)對各類機(jī)器學(xué)習(xí)模型進(jìn)行全面測試與分析。實(shí)驗(yàn)結(jié)果表明,在車險(xiǎn)欺詐的任務(wù)中,集成學(xué)習(xí)與深度學(xué)習(xí)模型較傳統(tǒng)機(jī)器學(xué)習(xí)模型效果更好。相對的,集成學(xué)習(xí)需要對數(shù)據(jù)特征的提取存在較高的要求,而深度學(xué)習(xí)則對模型實(shí)現(xiàn)的硬件環(huán)境與數(shù)據(jù)集規(guī)模具有較大的需求。
經(jīng)過對國內(nèi)現(xiàn)有保險(xiǎn)數(shù)據(jù)進(jìn)行綜合分析,認(rèn)為將來車險(xiǎn)欺詐檢測的研究可以從以下五方面進(jìn)行展開:
(1)基于小樣本學(xué)習(xí)的欺詐檢測技術(shù)。目前機(jī)器學(xué)習(xí)的模型在常規(guī)的二分類任務(wù)上表現(xiàn)較為滿意。然而,對于多分類任務(wù),可以發(fā)現(xiàn)當(dāng)下的機(jī)器學(xué)習(xí)模型無法勝任這些欺詐類別中樣本極度稀疏的分類工作。為此,可以將小樣本學(xué)習(xí)(few-shot learning)[50-51]的前沿技術(shù)進(jìn)行引入到車險(xiǎn)欺詐的多分類任務(wù)中,以此來提高多種車險(xiǎn)欺詐類型的檢測性能。
(2)基于圖譜的團(tuán)伙檢測技術(shù)。目前車險(xiǎn)欺詐團(tuán)伙犯罪的趨勢較為明顯,未來車險(xiǎn)欺詐檢測可以從團(tuán)伙車險(xiǎn)欺詐檢測[52]入手,結(jié)合知識圖譜[53]與事件圖譜[54]等方法中實(shí)體關(guān)聯(lián),利用知識圖譜或事件圖譜表示學(xué)習(xí)中連續(xù)、稠密的向量表示來預(yù)測對案件因子之間內(nèi)在的關(guān)聯(lián)與案件之間的因果聯(lián)系,從而將案件相關(guān)信息和相似案件信息進(jìn)行深度結(jié)合,以此來提高欺詐檢測的效果。
(3)基于表示學(xué)習(xí)的案因回溯檢測技術(shù)。目前機(jī)器學(xué)習(xí)模型盡管表現(xiàn)效果較好,但仍存在解釋匱乏的問題。而專家系統(tǒng)中的規(guī)則表達(dá)方式可以較好地彌補(bǔ)這一點(diǎn)。為此,可以對專家系統(tǒng)中的觸發(fā)因子與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的向量表示進(jìn)行關(guān)聯(lián),利用機(jī)器學(xué)習(xí)中各因子所在模型中所對應(yīng)的權(quán)重以及深度學(xué)習(xí)所學(xué)習(xí)得到的向量表示來評估觸發(fā)規(guī)則的概率,即便專家系統(tǒng)中的觸發(fā)規(guī)則并未觸發(fā),但仍可以通過規(guī)則中相應(yīng)的觸發(fā)因子以及因子權(quán)重獲得最可能的規(guī)則推送給專家,繼而利用案因回溯的思想[55-56]給保險(xiǎn)公司現(xiàn)場勘測人員提供有效的線索,提升勘測人員去現(xiàn)場確認(rèn)的成功率。
(4)融合文本、圖像的多模態(tài)檢測技術(shù)。目前的機(jī)器學(xué)習(xí)模型更多地圍繞車險(xiǎn)欺詐擬定的指標(biāo)體系從數(shù)據(jù)集庫數(shù)據(jù)中抽取與提煉核心的特征,但對于文本(勘測記錄的文字描述)以及圖像數(shù)據(jù)(如:現(xiàn)場勘測拍攝的圖片)的信息利用并不成熟。利用多模態(tài)技術(shù)[57-58]提高車險(xiǎn)欺詐的檢測精度將是未來的一個(gè)重要的研究方向。一方面,可以利用自然語言處理中的關(guān)系抽取技術(shù)、事件抽取技術(shù)從勘測記錄中得到更多有用的結(jié)構(gòu)化信息;另一方面,利用圖像中的場景識別技術(shù)與匹配技術(shù),可以有效地辨識案件中是否存在車險(xiǎn)欺詐常用的場景,繼而提高車險(xiǎn)欺詐檢測整體的效果。
(5)基于車險(xiǎn)體系的聯(lián)邦學(xué)習(xí)技術(shù)。由于目前車險(xiǎn)欺詐領(lǐng)域高質(zhì)量的標(biāo)注數(shù)據(jù)存在不均衡現(xiàn)象,細(xì)粒度的欺詐標(biāo)注數(shù)據(jù)集十分稀缺。為此,可以通過各保險(xiǎn)公司協(xié)商,基于知識對齊技術(shù)[59]形成一套統(tǒng)一的車險(xiǎn)規(guī)范體系[60],再進(jìn)一步利用聯(lián)邦學(xué)習(xí)技術(shù)[61-62]將保險(xiǎn)公司中高質(zhì)量的標(biāo)注數(shù)據(jù)進(jìn)行數(shù)據(jù)加密共享,最終,借助外部的高質(zhì)量數(shù)據(jù)來提升模型學(xué)習(xí)的效果,繼而提高車險(xiǎn)欺詐檢測的性能。