• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)技術(shù)的機(jī)動車輛保險(xiǎn)欺詐識別模型與實(shí)證研究

      2019-09-20 02:27:30王正祥王牧群北京工商大學(xué)經(jīng)濟(jì)學(xué)院
      上海保險(xiǎn) 2019年8期
      關(guān)鍵詞:車險(xiǎn)欺詐神經(jīng)網(wǎng)絡(luò)

      徐 徐 王正祥 王牧群 北京工商大學(xué)經(jīng)濟(jì)學(xué)院

      本文受北京工商大學(xué)2018年研究生科研能力提升計(jì)劃項(xiàng)目資助。

      針對車險(xiǎn)欺詐的日益猖獗和傳統(tǒng)欺詐識別模型的低效率特點(diǎn),本文建立了以深度學(xué)習(xí)技術(shù)為基礎(chǔ)的車險(xiǎn)欺詐識別模型,同時(shí)考慮到為了與傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行比較,針對車險(xiǎn)數(shù)據(jù)中的數(shù)據(jù)不平衡問題,利用下采樣和過采樣算法將不平衡數(shù)據(jù)轉(zhuǎn)變?yōu)槠胶鈹?shù)據(jù)集。然后,根據(jù)數(shù)據(jù)變量之間存在相關(guān)性的事實(shí),采用PCA算法對數(shù)據(jù)進(jìn)行降維處理,最后將數(shù)據(jù)應(yīng)用到不同的模型。車險(xiǎn)欺詐數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)的預(yù)測能力最好,提升了欺詐識別的準(zhǔn)確率。

      一、引言

      伴隨著經(jīng)濟(jì)的快速增長和汽車保有量的增加,車險(xiǎn)市場蓬勃發(fā)展。以中國車險(xiǎn)市場為例,2005年保險(xiǎn)公司實(shí)現(xiàn)保費(fèi)收入857.52億元,到2015年車險(xiǎn)保費(fèi)收入為6198.96億元,占財(cái)產(chǎn)險(xiǎn)保費(fèi)收入的比例由69.9%增加到77.54%,年平均增長率為21.87%,遠(yuǎn)超過經(jīng)濟(jì)增長率。但是,隨之而來的問題就是車險(xiǎn)欺詐案件的增多,而且欺詐行為發(fā)生的范圍也在擴(kuò)大,如被保險(xiǎn)人、車輛維修人員、律師、警察、保險(xiǎn)工作人員和其他人(?ubelj et al.,2011)。

      保險(xiǎn)欺詐給保險(xiǎn)公司帶來的直接損失就是賠款增加,同時(shí)也會造成其他消費(fèi)者潛在利益的損失。在我國保險(xiǎn)欺詐最嚴(yán)重的險(xiǎn)種是車險(xiǎn)和健康險(xiǎn),其中車險(xiǎn)欺詐占比最高,業(yè)務(wù)中最為普遍(喻煒、馮根福和張文珺,2017)。根據(jù)中保協(xié)發(fā)布的數(shù)據(jù)顯示,財(cái)產(chǎn)險(xiǎn)中70%的保險(xiǎn)欺詐案件屬于車險(xiǎn)欺詐,欺詐形式表現(xiàn)為高檔車碰瓷、虛構(gòu)保險(xiǎn)事故、內(nèi)外串通騙保、修理人員偽造證明材料騙保等。當(dāng)下,從車險(xiǎn)反欺詐實(shí)踐來看,保險(xiǎn)公司的對手已經(jīng)由原來的單個、隱蔽行為逐漸轉(zhuǎn)化成“專業(yè)群體”和“標(biāo)準(zhǔn)化操作”,最后欺詐團(tuán)伙形成產(chǎn)業(yè)鏈,其結(jié)果降低了保險(xiǎn)公司的經(jīng)營效益,增加了賠款支出,可能影響保險(xiǎn)公司的定價(jià)策略和社會經(jīng)濟(jì)福利。在發(fā)達(dá)經(jīng)濟(jì)體中,如美國、英國、澳大利亞,它們具有比較成熟的保險(xiǎn)市場,但是車險(xiǎn)欺詐也很嚴(yán)重。美國每年的保險(xiǎn)欺詐金額約為800億美元,直接導(dǎo)致美國家庭保費(fèi)平均上漲950美元;澳大利亞保險(xiǎn)欺詐局的一項(xiàng)研究反映了因保險(xiǎn)欺詐導(dǎo)致的費(fèi)用上漲的趨勢,平均每年上漲20億美元(Australia:Insurance,2016);在2014年,英國保險(xiǎn)業(yè)協(xié)會的調(diào)查表明虛假索賠數(shù)量比2013年增加了18%(Cutting Corners,2015)。這些統(tǒng)計(jì)數(shù)字清楚地說明了保險(xiǎn)欺詐的嚴(yán)重性,因此需要加以解決,以減輕這種惡意企圖造成的損失。

      傳統(tǒng)的保險(xiǎn)欺詐識別主要依靠財(cái)務(wù)審計(jì)和專家判斷,其缺點(diǎn)包括識別效率和準(zhǔn)確率較低、識別成本費(fèi)用高。為了最大限度地提高識別效率和準(zhǔn)確率,建立行之有效的識別技術(shù)迫在眉睫。人工智能的出現(xiàn)為保險(xiǎn)反欺詐帶來了新的工具和技術(shù)。本文將借鑒國外先進(jìn)的機(jī)動車輛保險(xiǎn)反欺詐識別系統(tǒng),并結(jié)合運(yùn)用人工智能領(lǐng)域中成熟的深度學(xué)習(xí)技術(shù),構(gòu)建機(jī)動車輛保險(xiǎn)欺詐識別模型,最后運(yùn)用保險(xiǎn)公司經(jīng)驗(yàn)數(shù)據(jù)檢驗(yàn)?zāi)P妥R別可行性和效果。

      文章的結(jié)構(gòu)安排如下:第二部分簡要介紹保險(xiǎn)欺詐領(lǐng)域的相關(guān)研究工作;第三部分解釋本文欺詐識別的技術(shù)基礎(chǔ),主要包括深度卷積網(wǎng)絡(luò);實(shí)證和識別模型效果比較在第四部分;最后是結(jié)論和啟示。

      二、文獻(xiàn)回顧

      國內(nèi)外對保險(xiǎn)欺詐的研究主要包括兩個方面:理論研究和欺詐識別實(shí)證研究。理論研究成果豐富,研究工具主要包括博弈論和委托—代理理論。大多數(shù)學(xué)者認(rèn)為保險(xiǎn)欺詐主要是由保險(xiǎn)市場的信息不對稱和道德風(fēng)險(xiǎn)導(dǎo)致的(Arrow、Artis、Caudill、毛欽、張瑞剛等)。

      在保險(xiǎn)欺詐的實(shí)證研究方面,主要是對欺詐識別的檢測,檢測的方法可以歸納為兩個方面。一是采用傳統(tǒng)的回歸模型和專家系統(tǒng)進(jìn)行分類,如Probit、Logit和Logistic等廣義線性模型(GLM)。Ll.Bermudez(2008)等采用Logit模型和Gibbs抽樣對西班牙的一組保險(xiǎn)索賠數(shù)據(jù)進(jìn)行了欺詐識別檢測和分析。使用Probit和Logit等回歸模型的學(xué)者還包括Artis et al.(1999)、Belhadji et al.(2000)、Steven B.Caudill(2005)、Stijn Viaene(2005)等。此外,Von Altrock(1997)、Stefano et al.(2001)、Major et al.(2002)、Pathak et al.(2003)、Barse etal.(2005)使用專家系統(tǒng)進(jìn)行索賠欺詐的風(fēng)險(xiǎn)管理和識別。二是采用機(jī)器學(xué)習(xí)技術(shù)對車險(xiǎn)欺詐進(jìn)行建模,選擇合適的算法來識別欺詐,以實(shí)現(xiàn)對保險(xiǎn)索賠的分類,取得了不錯的效果。欺詐識別所運(yùn)用的機(jī)器學(xué)習(xí)技術(shù)主要包括神經(jīng)網(wǎng)絡(luò)(Neural Network)、樸素貝葉斯(Naive Bayes)、決策樹(Decision Tree)、模糊邏輯(Fuzzy Logic)、貝葉斯信念網(wǎng)絡(luò)(Bayesian Belief Networks)和隨機(jī)森林(Random Forest)、社會網(wǎng)絡(luò)分析(Social Network Analysis)等。

      早期采用的機(jī)器學(xué)習(xí)模型都是基于索賠數(shù)據(jù)類別分布大致均勻和平衡這一假設(shè),如Hongxing He et al.(1997)構(gòu)建了反向傳播算法的多層感知器,使用已被專家分為四類的醫(yī)療保險(xiǎn)樣本來訓(xùn)練模型,最后考慮到專家分類中的噪聲程度(即不一致性),使用基于神經(jīng)網(wǎng)絡(luò)輸出的概率解釋的技術(shù)來查看多層感知器的分類性能。S.Viaene et al.(2005)采用具有自動相關(guān)性和正則化確定權(quán)重的神經(jīng)網(wǎng)絡(luò)分類器,研究了汽車保險(xiǎn)索賠欺詐的檢測。由于神經(jīng)網(wǎng)絡(luò)分類效果的高效性,很多學(xué)者對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了優(yōu)化,如S.Viaene et al.(2005)采用具有自動相關(guān)性和正則化確定權(quán)重的神經(jīng)網(wǎng)絡(luò)分類器,結(jié)合貝葉斯學(xué)習(xí)研究了汽車保險(xiǎn)索賠欺詐的檢測。WeiXu etal.(2011)提出了基于隨機(jī)粗糙子空間(Random Rough Subspace)的神經(jīng)網(wǎng)絡(luò)組合模型。首先產(chǎn)生粗糙集約簡并且保持?jǐn)?shù)據(jù)信息一致性,然后隨機(jī)選擇約簡構(gòu)成一個子集并利用保險(xiǎn)索賠數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器,最后根據(jù)組合策略得到組合神經(jīng)網(wǎng)絡(luò)分類器。另外,很多學(xué)者也在其他技術(shù)上進(jìn)行了實(shí)踐,如Bermúdez et al.(2008)提出了非對稱的貝葉斯二分類邏輯模型用于識別在西班牙汽車市場發(fā)現(xiàn)的惡意保險(xiǎn)索賠。Rekha Bhowmik(2011)采用樸素貝葉斯、決策樹和基于規(guī)則的分類器,評估了其在汽車保險(xiǎn)欺詐識別上的效果。

      像保險(xiǎn)欺詐、信用卡欺詐等異常檢測問題,傳統(tǒng)的方法忽略了一個重要的問題——數(shù)據(jù)的非平衡性,即欺詐性的交易樣本占總體的比例要遠(yuǎn)遠(yuǎn)小于正常的交易樣本。隨著大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)的非平衡性更加明顯,傳統(tǒng)的分類方法在非平衡數(shù)據(jù)集上就會失效。近年來,國內(nèi)外學(xué)者開始關(guān)注非平衡數(shù)據(jù)集的分類問題,主要包括兩個層面:數(shù)據(jù)和算法。數(shù)據(jù)層面是對數(shù)據(jù)采用欠采樣或者過采樣等方法來處理得到新的數(shù)據(jù);算法層面是指根據(jù)非平衡數(shù)據(jù)的特點(diǎn),設(shè)計(jì)新的分類算法,如代價(jià)敏感、支持向量機(jī)、隨機(jī)森林(Ke Nian et al.,2016;Yaqi Li et al.,2017;閆春、李亞琪和孫海棠,2017)。

      然而,上述所采用的機(jī)器學(xué)習(xí)算法只能使用已經(jīng)存在的特征。數(shù)據(jù)集中隱含的其他特征信息很難利用傳統(tǒng)的算法提取和利用。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,Yifei Lu(2017)和Kang Fu et al.,(2018)分別提出了利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行欺詐檢測和采用卷積神經(jīng)網(wǎng)絡(luò)識別信用卡欺詐。因此,本文提出基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的汽車保險(xiǎn)欺詐識別模型,并且最后與SVM(支持向量機(jī))、RF(隨機(jī)森林)等進(jìn)行比較。

      三、深度學(xué)習(xí)

      深度學(xué)習(xí)(Deep Learning,DL),也稱為深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),來源于機(jī)器學(xué)習(xí)泰斗Hinton在2006發(fā)表的一篇論文(Reducing the Dimensionality of Data with NeuralNetworks)。深度學(xué)習(xí)的前身是人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN),基本特點(diǎn)是試圖模擬人腦的神經(jīng)元之間傳遞和處理信息的模式。深度學(xué)習(xí)的發(fā)展經(jīng)歷了三次發(fā)展浪潮:20世紀(jì)40年代到60年代出現(xiàn)了以控制論為基礎(chǔ)的深度學(xué)習(xí)雛形;20世紀(jì)80年代至90年代出現(xiàn)了以聯(lián)結(jié)主義為特征的深度學(xué)習(xí);從2006年“深度學(xué)習(xí)”概念提出,深度學(xué)習(xí)研究進(jìn)入快速發(fā)展和爆炸期,以谷歌、微軟和臉書等為代表將深度學(xué)習(xí)在圖像識別、語音識別和自然語言處理等方面實(shí)現(xiàn)了商業(yè)應(yīng)用。

      深度學(xué)習(xí)網(wǎng)絡(luò)模型主要包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)和遞歸神經(jīng)網(wǎng)絡(luò)、自編碼器和玻爾茲曼機(jī)、深度信念網(wǎng)絡(luò)等。下面對其中的幾個進(jìn)行簡單介紹。

      卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)是一種專門用來處理具有類似網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),比如時(shí)間序列和圖像數(shù)據(jù)。它結(jié)合利用了三大體系結(jié)構(gòu)特點(diǎn)來保證一定程度的位移和失真不變性:局部感知區(qū)域、權(quán)重共享和空間或時(shí)間上的下采樣(Yann LeCun和Yoshua Bengio,1997),其中權(quán)值共享機(jī)制大大降低了網(wǎng)絡(luò)的復(fù)雜度,減少了網(wǎng)絡(luò)權(quán)值數(shù)量。卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)主要包括輸入層、卷積層、Relu激活層、池化層、全連接層,其中卷積層是卷積網(wǎng)絡(luò)的核心部分,自動完成特征提取,池化層通過匯聚特征后稀疏參數(shù)來減少要學(xué)習(xí)的參數(shù),來降低網(wǎng)絡(luò)的復(fù)雜度。普通神經(jīng)網(wǎng)絡(luò)與卷積網(wǎng)絡(luò)的區(qū)別見圖1。

      循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一類處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的訓(xùn)練使用的是隨時(shí)間反向傳播(Back Propagation Through Time,BPTT)算法。循環(huán)神經(jīng)網(wǎng)絡(luò)主要應(yīng)用在自然語言處理(Natural Language Processing,NLP)領(lǐng)域。

      自編碼器(Autoencoder)是神經(jīng)網(wǎng)絡(luò)的一種,它的內(nèi)部有一個隱含層h,可以產(chǎn)生編碼表示輸入。自編碼器由兩個部分組成:一個函數(shù)表示編碼器和一個生成重構(gòu)解碼器。搭建一個自編碼器模型需要完成三項(xiàng)工作:搭建編碼器和解碼器、設(shè)置損失函數(shù)。它的類型主要有正則編碼器、稀疏編碼器、去噪編碼器等。

      四、實(shí)證分析

      本文選取某保險(xiǎn)公司的車險(xiǎn)索賠數(shù)據(jù)作為模型訓(xùn)練和驗(yàn)證數(shù)據(jù)集,建立深度神經(jīng)網(wǎng)絡(luò)欺詐識別模型,進(jìn)而基于不同的指標(biāo)與傳統(tǒng)模型進(jìn)行比較。

      (一)數(shù)據(jù)描述和預(yù)處理

      考慮到車險(xiǎn)索賠數(shù)據(jù)獲取的困難性,本文選取的數(shù)據(jù)集來自1994—1996年美國某家保險(xiǎn)公司的不同區(qū)域的車險(xiǎn)索賠數(shù)據(jù),多位學(xué)者(Phua et al.,2004;Xu et al.,2011;Sundarkumar and Ravi,2015;SundarkumarKe et al.,2015;Nian et al.,2016;Sharmila et al.,2017)已使用該數(shù)據(jù)集來驗(yàn)證所建立的模型的識別準(zhǔn)確度。數(shù)據(jù)集包括15420條索賠記錄,其中14497條索賠記錄為正常索賠(94%),923條索賠記錄為欺詐索賠(6%),為了與其他學(xué)者的模型進(jìn)行比較,本文將1996年的所有索賠記錄(4083條)作為模型的測試數(shù)據(jù)集,而1994—1995年的索賠記錄(11337條)作為模型的訓(xùn)練數(shù)據(jù)集(Phua et al.,2004)。原始數(shù)據(jù)特征見表1。

      由于在原始數(shù)據(jù)里年齡出現(xiàn)了兩次:離散型和類別型。由于離散型年齡的唯一性會增加模型的復(fù)雜性,因此去掉離散型特征年齡,保留類別型年齡。因此,最后綜合得到了21個對車險(xiǎn)欺詐有重要影響的特征。

      ?圖1普通神經(jīng)網(wǎng)絡(luò)(左)和卷積神經(jīng)網(wǎng)絡(luò)(右)

      ?表1 車險(xiǎn)數(shù)據(jù)的變量描述信息

      (二)特征工程與采樣

      在數(shù)據(jù)預(yù)處理階段得到的對車險(xiǎn)欺詐有重要影響的21個特征中,描述數(shù)據(jù)點(diǎn)的既有連續(xù)特征(Continuous Feature)也有分類特征(Categorical Feature)或離散特征(Discrete Feature)。由于數(shù)據(jù)表示方式會對機(jī)器學(xué)習(xí)模型的性能產(chǎn)生巨大影響,比如數(shù)據(jù)縮放(縮放到單位方差)和特征擴(kuò)充(增加特征的交互項(xiàng)),因此選擇合適的特征就顯得尤為重要。特征工程就是解決問題的一種方式。

      在本文的數(shù)據(jù)集中,只存在數(shù)值型和類別型兩種數(shù)據(jù)表示方式,故只對類別型數(shù)據(jù)進(jìn)行處理。在機(jī)器學(xué)習(xí)領(lǐng)域,對分類變量進(jìn)行處理的方法是獨(dú)熱編碼(One-hot-encoding)或N取一編碼(One-out-of-N encoding),也叫虛擬變量。根據(jù)獨(dú)熱編碼方法,我們總會獲得了對欺詐有影響的獨(dú)立特征。另外,為了消除數(shù)值型變量的量綱對模型產(chǎn)生的影響,本文在數(shù)據(jù)預(yù)處理階段已經(jīng)進(jìn)行了無量綱化的數(shù)據(jù)標(biāo)準(zhǔn)化。

      根據(jù)特征的重要性判定出有意義的特征,接下來要做的工作就是剔除一些信息重疊的特征,即進(jìn)行數(shù)據(jù)的降維。在機(jī)器學(xué)習(xí)中,流行的降維處理技術(shù)有主成分分析(Principle Component Analysis,PCA)、線性判別分析(Linear DiscriminantAnalysis,LDA)和核主成分分析(Kernel Principle Component Analysis,KPCA),其中前兩種屬于線性降維,最后一個屬于非線性降維。本文將采用PCA技術(shù)進(jìn)行數(shù)據(jù)的降維。

      在保險(xiǎn)索賠數(shù)據(jù)中,欺詐性的數(shù)據(jù)只是少數(shù)類,如圖2所示,其中0表示非欺詐索賠,1表示欺詐索賠,這種情況在機(jī)器學(xué)習(xí)中被稱為數(shù)據(jù)不平衡問題。處理不平衡問題的方法主要有兩類,一種是在數(shù)據(jù)層面進(jìn)行下采樣(Undersampling)或過采樣(Oversampling),減小或增加某個類別的數(shù)量;另一種是在模型的算法層面上,主要包括集成學(xué)習(xí)和代價(jià)敏感學(xué)習(xí),算法主要有Adaboosting。本文采用的是在數(shù)據(jù)層面的方法來消除數(shù)據(jù)不平衡問題給分類效果帶來的不利影響。

      (三)模型評價(jià)與比較

      為了比較各種機(jī)器學(xué)習(xí)模型的分類效果,文章采用了交叉驗(yàn)證,即將數(shù)據(jù)隨機(jī)劃分成10個子數(shù)據(jù)集,依次選擇其中的9個子數(shù)據(jù)集作為模型的訓(xùn)練數(shù)據(jù),另外1個作為驗(yàn)證數(shù)據(jù)集,最后計(jì)算評價(jià)指標(biāo)的平均值。

      對于二分類問題,通常選擇評價(jià)模型的指標(biāo)是混淆矩陣?;煜仃囀歉鶕?jù)真實(shí)類別和預(yù)測類別交叉統(tǒng)計(jì)的列聯(lián)表,用來確定模型的性能好壞。對于欺詐識別分類模型,混淆矩陣的結(jié)構(gòu)如表2所示,其中TP、FP、FN、TN為真實(shí)類別和預(yù)測類別下的保單數(shù)。

      ?圖2 欺詐數(shù)據(jù)頻數(shù)統(tǒng)計(jì)

      ?表2 欺詐識別模型的混淆矩陣

      根據(jù)混淆矩陣,可以定義與模型性能評價(jià)相關(guān)的準(zhǔn)確率(Precision,PRE)和召回率(Recall,REC),如下:

      準(zhǔn)確率表示在模型預(yù)測保險(xiǎn)欺詐的保單中,實(shí)際上也為保險(xiǎn)欺詐的保單比例;召回率表示在實(shí)際保險(xiǎn)欺詐的樣本中,被預(yù)測為保險(xiǎn)欺詐的保單比例。在實(shí)踐中,常采用準(zhǔn)確率和召回率的組合,稱為F1分?jǐn)?shù):

      基于F1分?jǐn)?shù)的定義,F(xiàn)1的取值在[0,1]之間,取值越大,表明模型的泛化能力越好,預(yù)測能力越強(qiáng)。

      對于不平衡數(shù)據(jù)分類模型性能的評價(jià)標(biāo)準(zhǔn)中,受試工作者曲線(Receiver Operator Characterristic,ROC)是較為全面的評價(jià)標(biāo)準(zhǔn)。ROC曲線的橫軸是假正率,縱軸為真正率(也為召回率)。ROC的對角線可以理解為隨機(jī)猜測,如果分類器性能曲線在對角線以下,那么其性能比隨機(jī)猜測還差。對于完美的分類器來說,其真正率為1,假正率為0,這時(shí)的ROC曲線即為橫軸與縱軸1組成的折線。基于ROC曲線,ROC曲線右下方的區(qū)域面積被定義為AUC,其取值越接近于1,表明模型的分類效果越好。

      第一步的實(shí)驗(yàn)結(jié)果如圖3所示,從圖中可以得出Logistic回歸、K-最近鄰支持向量機(jī)、決策樹和隨機(jī)森林的AUC得分分別為0.81、0.67、0.61和0.73(自上而下),整體來看與Ravi(2011)和Sundarkumar(2015)的分類效果一致。其中,Logistic回歸的效果明顯優(yōu)于其他的三種模型,隨機(jī)森林次之,決策樹的效果最差。

      ?圖3 Logistic、Kneighbors、Dec isionTree和Random Forest的PR曲線和ROC曲線

      第二步比較的是傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)的分類效果,其中圖4為車險(xiǎn)欺詐數(shù)據(jù)集使用沒有經(jīng)過采樣處理的效果,采用的傳統(tǒng)模型為Logistic回歸、K-最近鄰支持向量機(jī)和決策樹。圖5和圖6分別為下采樣和過采樣的模型分類效果直方圖(注:圖中的藍(lán)色、綠色和灰色分別代表未采樣、下采樣和過采樣的分類效果,紅色代表深度學(xué)習(xí)模型的模型效果,數(shù)字0-3分別代表隨機(jī)森林、K-最近鄰、Logistic回歸和決策樹模型)。

      在精確度方面,深度學(xué)習(xí)模型為0.94,除了與Logistic回歸相等,均優(yōu)于其他模型,尤其是未經(jīng)過采樣處理來消除數(shù)據(jù)不平衡問題時(shí),模型的性能平均提升21%。從召回率來看,深度學(xué)習(xí)預(yù)測能力明顯優(yōu)于K-最近鄰、Logis回歸,也比采用下采樣的隨機(jī)森林和決策樹預(yù)測能力好。雖然隨機(jī)森林和決策樹模型過采樣后與深度學(xué)習(xí)的模型性能相差無幾,但是隨著數(shù)據(jù)量的增多,經(jīng)過過采樣之后,數(shù)據(jù)的維度會劇增,這樣對于模型的訓(xùn)練就顯得有點(diǎn)困難,以至于影響預(yù)測能力。最后,綜合來看F1分?jǐn)?shù),深度學(xué)習(xí)的預(yù)測性能最好,其次是決策樹模型,再是隨機(jī)森林模型和K-最近鄰、Logistic回歸模型。

      綜合考慮精確度(Precision)、召回率(Recall)和F1分?jǐn)?shù)這三個模型評價(jià)指標(biāo),深度學(xué)習(xí)模型對于車險(xiǎn)欺詐的預(yù)測能力最好,而Logistic回歸模型最差。

      五、結(jié)論與建議

      隨著我國車險(xiǎn)市場的不斷壯大,車險(xiǎn)欺詐案件也不斷攀升,已擾亂了車險(xiǎn)市場的正常經(jīng)營秩序??紤]到傳統(tǒng)車險(xiǎn)欺詐檢測手段的低效率現(xiàn)狀以及新興技術(shù)的出現(xiàn),本文建立了以深度學(xué)習(xí)技術(shù)為基礎(chǔ)的車險(xiǎn)欺詐識別模型,同時(shí)考慮到為了與傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行比較,針對車險(xiǎn)數(shù)據(jù)中的數(shù)據(jù)不平衡問題,利用下采樣和過采樣算法將不平衡數(shù)據(jù)轉(zhuǎn)變?yōu)槠胶鈹?shù)據(jù)集。然后,根據(jù)數(shù)據(jù)變量之間存在相關(guān)性的事實(shí),采用PCA算法對數(shù)據(jù)進(jìn)行降維處理,最后將數(shù)據(jù)應(yīng)用到不同的模型。車險(xiǎn)欺詐數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)的預(yù)測能力最好,提升了欺詐識別的準(zhǔn)確率。因此,保險(xiǎn)公司應(yīng)加快數(shù)字化轉(zhuǎn)型,利用保險(xiǎn)科技為欺詐檢測賦能。

      ?圖4 傳統(tǒng)機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)準(zhǔn)確率(Precision)對比

      ?圖5 傳統(tǒng)機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)召回率(Recall)對比

      ?圖6 傳統(tǒng)機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)F1分?jǐn)?shù)對比

      第一,科技發(fā)展對保險(xiǎn)業(yè)帶來的創(chuàng)新是巨大的,保險(xiǎn)公司應(yīng)該在反欺詐應(yīng)用中重視大數(shù)據(jù)分析技術(shù)、云平臺建設(shè),在識別、計(jì)量、評估、檢測、控制和報(bào)告欺詐風(fēng)險(xiǎn)等環(huán)節(jié)建立有序的和可靠的信息系統(tǒng),同時(shí)與同業(yè)共建反欺詐共享信息平臺。

      第二,保險(xiǎn)公司在應(yīng)用傳統(tǒng)反欺詐工具的基礎(chǔ)上,應(yīng)加快研究如何應(yīng)用新技術(shù),如大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)等。在公司內(nèi)部設(shè)立相關(guān)的研究部門和研究崗位,引進(jìn)大數(shù)據(jù)和機(jī)器學(xué)習(xí)、圖像識別等技術(shù)人才,建立反欺詐科技應(yīng)用平臺。

      第三,加強(qiáng)公司內(nèi)部各個部門的合作。反欺詐是一項(xiàng)系統(tǒng)性的工作,傳統(tǒng)的管理模式會降低數(shù)字化轉(zhuǎn)型帶來的效率提升。所有工作都應(yīng)該在公司數(shù)字化轉(zhuǎn)型戰(zhàn)略的指引下進(jìn)行決策,避免數(shù)字化轉(zhuǎn)型過程中消耗企業(yè)的利潤。

      另外,后續(xù)研究工作中還可以考慮更加復(fù)雜的深度學(xué)習(xí)模型,如卷積神經(jīng)網(wǎng)絡(luò)等,進(jìn)一步提升欺詐檢測的效率。

      猜你喜歡
      車險(xiǎn)欺詐神經(jīng)網(wǎng)絡(luò)
      關(guān)于假冒網(wǎng)站及欺詐行為的識別
      關(guān)于假冒網(wǎng)站及欺詐行為的識別
      基于改進(jìn)DeepFM的車險(xiǎn)索賠預(yù)測模型的研究
      一種基于5G網(wǎng)絡(luò)平臺下的車險(xiǎn)理賠
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      警惕國際貿(mào)易欺詐
      中國外匯(2019年10期)2019-08-27 01:58:04
      網(wǎng)購遭欺詐 維權(quán)有種法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      一季度車險(xiǎn)費(fèi)率下降0.07% 保費(fèi)收入1500多億
      手机| 奉新县| 乌鲁木齐县| 自贡市| 淳化县| 大安市| 横峰县| 凯里市| 客服| 巴彦淖尔市| 英山县| 越西县| 和田市| 梁平县| 宜黄县| 民权县| 耿马| 察哈| 石门县| 唐海县| 钦州市| 宜川县| 三河市| 达尔| 英德市| 辉县市| 河池市| 涞源县| 民县| 万全县| 哈尔滨市| 临汾市| 施甸县| 虎林市| 华亭县| 巴青县| 邵东县| 宝兴县| 城步| 牟定县| 商城县|