• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于機(jī)器學(xué)習(xí)的貸款欺詐預(yù)測(cè)研究和應(yīng)用

    2020-07-04 02:14:28姚玲潔
    電腦知識(shí)與技術(shù) 2020年14期
    關(guān)鍵詞:隨機(jī)森林機(jī)器學(xué)習(xí)

    姚玲潔

    摘要:針對(duì)貸款欺詐問(wèn)題,該文使用隨機(jī)森林對(duì)真實(shí)信用卡貸款數(shù)據(jù)進(jìn)行特征排序,采用邏輯斯特回歸構(gòu)建信用卡反欺詐預(yù)測(cè)模型,訓(xùn)練獲得的模型正確率較高,可應(yīng)用于貸款欺詐預(yù)測(cè)系統(tǒng)中。

    關(guān)鍵詞:貸款交易欺詐;機(jī)器學(xué)習(xí);隨機(jī)森林;邏輯斯特回歸;反欺詐

    中圖分類(lèi)號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):1009-3044(2020)14-0260-03

    1引言

    隨著國(guó)家不斷增強(qiáng)對(duì)自主創(chuàng)業(yè)的支持力度,貸款已經(jīng)成為一種非常重要的支付手段。然而,犯罪分子也關(guān)注到這種便利方法,使用各種虛假信息欺詐銀行或者金融機(jī)構(gòu)。因此構(gòu)建一個(gè)可行性高、便利的交易欺詐預(yù)測(cè)模型對(duì)于維護(hù)正常的經(jīng)濟(jì)秩序是必不可少的。

    近年,隨著機(jī)器學(xué)習(xí)的深入發(fā)展及計(jì)算機(jī)硬件的處理數(shù)據(jù)能力不斷提升,不少學(xué)者逐漸將關(guān)注點(diǎn)聚集在機(jī)器學(xué)習(xí)應(yīng)用上。關(guān)于交易欺詐預(yù)測(cè)研究,文獻(xiàn)[1]利用模糊神經(jīng)網(wǎng)絡(luò)、并行處理可快速產(chǎn)生欺詐規(guī)律信息。文獻(xiàn)[2]利用決策樹(shù)、布爾邏輯函數(shù)、聚類(lèi)分析判定欺詐行為。文獻(xiàn)[3]改進(jìn)Apfiori算法挖掘欺詐交易的規(guī)律。文獻(xiàn)[4]將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用在信用卡反欺詐研究中。文獻(xiàn)[5]提出了一種基于大數(shù)據(jù)技術(shù)的三層反欺詐模型,支持日終批量檢測(cè)信用卡的交易異常行為。文獻(xiàn)[6]依賴于專家規(guī)則模型進(jìn)行欺詐交易識(shí)別,過(guò)度依賴專家制定的規(guī)則。文獻(xiàn)[7]先對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理、再訓(xùn)練出可實(shí)施的五層DBN交易欺詐評(píng)分模型。文獻(xiàn)[8]建立了一個(gè)基于SVM的反欺詐模型,先將kaggle中的銀行卡消費(fèi)數(shù)據(jù)進(jìn)行預(yù)處理、縮放選擇特征,再采用smote算法處理數(shù)據(jù)集的分布不均問(wèn)題,調(diào)整參數(shù)形成最佳的訓(xùn)練模型后后,準(zhǔn)確率達(dá)到97.00%。文獻(xiàn)[9]提出了結(jié)合規(guī)則引擎、數(shù)據(jù)挖掘模型、人工校驗(yàn)方法,建立了一套互助互補(bǔ)、更加高效的信用卡反欺詐模式。本文采用機(jī)器學(xué)習(xí)里的隨機(jī)森林、邏輯斯特回歸算法應(yīng)用于貸款交易欺詐判定中。

    2貸款欺詐檢測(cè)原理

    信用卡反欺詐是利用信用卡的歷史交易數(shù)據(jù),構(gòu)建信用卡反欺詐預(yù)測(cè)模型,提前發(fā)現(xiàn)客戶信用卡被盜刷的事件。

    3構(gòu)建機(jī)器學(xué)習(xí)模型

    3.1數(shù)據(jù)預(yù)處理

    本文使用公開(kāi)庫(kù)kaggle的部分交易數(shù)據(jù)來(lái)訓(xùn)練及驗(yàn)證機(jī)器學(xué)習(xí)模型,并將欺詐行為和正常交易行為做出相應(yīng)的標(biāo)記。因公開(kāi)庫(kù)的數(shù)據(jù)量龐大,因此本文隨機(jī)抽取284707條數(shù)據(jù)來(lái)做驗(yàn)證。正常交易信息是284315條,貸款欺詐信息為492條。

    如圖1的(a)(b)所示:數(shù)據(jù)嚴(yán)重不平衡,負(fù)樣本f欺詐時(shí)的值為1的樣本)的數(shù)量太少,如果不進(jìn)行處理,直接用這樣的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練建模,會(huì)使得到的模型效果不佳。

    因此需進(jìn)行樣本數(shù)據(jù)處理,主要有兩種思路。

    (1)下采樣

    對(duì)于數(shù)據(jù)集中出現(xiàn)的數(shù)量嚴(yán)重不等的兩類(lèi)數(shù)據(jù),從數(shù)量比較多的那類(lèi)樣本中,隨機(jī)選出和數(shù)量比較少的那類(lèi)樣本數(shù)量相同的樣本,最終組成正負(fù)樣本數(shù)量相同的樣本集進(jìn)行訓(xùn)練建模。

    (2)過(guò)采樣

    本文使用過(guò)采樣的方法把數(shù)據(jù)擴(kuò)充到相匹配的程度,去除一些負(fù)樣本,使得正負(fù)樣本數(shù)目接近,從而處理樣本不平衡問(wèn)題,最后進(jìn)行訓(xùn)練學(xué)習(xí)。由于隨機(jī)過(guò)采樣采取簡(jiǎn)單復(fù)制樣本的策略來(lái)增加少數(shù)類(lèi)樣本,容易產(chǎn)生模型過(guò)擬合的問(wèn)題,使得模型學(xué)習(xí)到的信息過(guò)于特別而不夠泛化。

    本文采用的是隨機(jī)過(guò)采樣算法的改進(jìn)方案SMOTE。具體過(guò)程是先分離數(shù)據(jù)中的特征和標(biāo)簽,再將數(shù)據(jù)分成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),其比例為7:3,最后利用SMOTE來(lái)處理訓(xùn)練樣本,得到均衡的訓(xùn)練樣本。

    3.2特征工程

    特征工程是指自變量x對(duì)因變量v有明顯影響作用的特征,特征工程可分為三個(gè)方面:特征構(gòu)建、特征提取、特征選擇。

    特征構(gòu)建是指從原始數(shù)據(jù)中人工的找出一些具有物理意義的特征。特征提取有多種常用的方法,如主成分分析法、LDA線性判別分析法、ICA獨(dú)立成分分析法等。特征選擇是最重要的步驟,是為了剔除不相關(guān)或者冗余的特征,減少有效特征的個(gè)數(shù),減少模型訓(xùn)練的時(shí)間,提高模型的精確度。本文采用隨機(jī)森林算法獲取數(shù)據(jù)的顯著特征。具體實(shí)現(xiàn)過(guò)程如下:

    首先將目標(biāo)變量進(jìn)行可視化,顯示的結(jié)果。其次進(jìn)行特征衍生,特征Time的單位是秒,轉(zhuǎn)化為以小時(shí)為單位對(duì)應(yīng)每天的時(shí)間。再進(jìn)行查看信用卡正常用戶和異常用戶之間的區(qū)別。從圖2中可以看出,在貸款欺詐的事件中,部分變量之間的相關(guān)性更明顯。其中變量v1、V2、v3、V4、V5、V6、v7、V9、v10、v11、V12、V14、V16、V17和V18以及V19之間的變化在信用卡被盜刷的樣本中呈性一定的規(guī)律。另外,詐騙交易、交易金額和交易次數(shù)存在如圖3所示關(guān)系。

    查看數(shù)據(jù)的維度后,特征從28個(gè)縮減到了18個(gè),其中不包含目標(biāo)變量。最后對(duì)特征的重要性進(jìn)行排序,具體過(guò)程為先構(gòu)建x變量和Y變量,利用隨機(jī)森林的feature impo~ance對(duì)特征的重要性進(jìn)行排序,排序結(jié)果如圖4所示。

    3.3模型訓(xùn)練

    3.3.1樣本不平衡處理

    構(gòu)建自變量和因變量處理樣本不平衡,樣本個(gè)數(shù)共284807個(gè),正樣本占99.83%,負(fù)樣本占0.17%。特征維數(shù)為18。

    3.3.2構(gòu)建分類(lèi)器進(jìn)行訓(xùn)練

    構(gòu)建邏輯回歸分類(lèi)器進(jìn)行訓(xùn)練,產(chǎn)生測(cè)試集的預(yù)測(cè)精度分值結(jié)果為0.99992。生成混淆矩陣(如圖5)后,測(cè)試數(shù)據(jù)集中的召回度量為0.955284552846,閾值默認(rèn)值為0.5,繪制ROC曲線。

    3.4模型評(píng)估與優(yōu)化

    上一個(gè)步驟中的模型訓(xùn)練和測(cè)試都在同一個(gè)數(shù)據(jù)集上進(jìn)行,會(huì)導(dǎo)致模型產(chǎn)生過(guò)擬合。一般來(lái)說(shuō),將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集有3種處理方法:留出法、交叉驗(yàn)證法、自助法。

    本文采用交叉驗(yàn)證法劃分?jǐn)?shù)據(jù)集,將數(shù)據(jù)劃分為3部分:訓(xùn)練集、驗(yàn)證集和測(cè)試集。讓模型在訓(xùn)練集進(jìn)行學(xué)習(xí),在驗(yàn)證集上進(jìn)行參數(shù)調(diào)優(yōu),最后使用測(cè)試集數(shù)據(jù)評(píng)估模型的性能。模型調(diào)優(yōu)采用網(wǎng)格搜索調(diào)優(yōu)參數(shù),通過(guò)構(gòu)建參數(shù)候選集合,網(wǎng)格搜索窮舉各種參數(shù)組合,再根據(jù)設(shè)定評(píng)定的評(píng)分機(jī)制找到最好的那一組設(shè)置。最后結(jié)合cross-validation和gird search,具體采用scikit learn模塊modd_sdecfion中的GridSearchCV方法。

    precision和recall是一組矛盾的變量。從上面混淆矩陣和PRC曲線可以看到,閾值越小,recall值越大,模型能找出信用卡被盜刷的數(shù)量也就更多,但換來(lái)的代價(jià)是誤判的數(shù)量也較大。隨著閾值的提高,recall值逐漸降低,precision值也逐漸提高,誤判的數(shù)量也隨之減少。通過(guò)調(diào)整模型閾值,控制模型反信用卡欺詐的力度,若想找出更多的信用卡被盜刷就設(shè)置較小的閾值,反之,則設(shè)置較大的閾值。

    實(shí)際業(yè)務(wù)中,閾值的選擇取決于公司業(yè)務(wù)邊際利潤(rùn)和邊際成本的比較;當(dāng)模型閾值設(shè)置較小的值,確實(shí)能找出更多的信用卡被盜刷的持卡人,但隨著誤判數(shù)量增加,不僅加大了貸后團(tuán)隊(duì)的工作量,也會(huì)降低誤判為信用卡被盜刷客戶的消費(fèi)體驗(yàn),從而導(dǎo)致客戶滿意度下降,如果某個(gè)模型閾值能讓業(yè)務(wù)的邊際利潤(rùn)和邊際成本達(dá)到平衡時(shí),則該模型的閾值為最優(yōu)值。當(dāng)然也有例外的情況,發(fā)生金融危機(jī),往往伴隨著貸款違約或信用卡被盜刷的概率會(huì)增大,而金融機(jī)構(gòu)會(huì)更愿意不惜一切代價(jià)守住風(fēng)險(xiǎn)的底線。

    4實(shí)驗(yàn)數(shù)據(jù)測(cè)試

    將random_state設(shè)置為0,每次切分的數(shù)據(jù)都一樣,構(gòu)建參數(shù)組合。確定模型Logistic和參數(shù)組合param_grid,cv指定10折,使用訓(xùn)練集學(xué)習(xí)算法得到測(cè)試集的精確度為0.99916。

    5總結(jié)

    本文首先介紹了貸款欺詐的背景,其次講述了近年來(lái)學(xué)者們應(yīng)用方法的優(yōu)缺點(diǎn),最后描述了如何利用真實(shí)的信用卡歷史交易數(shù)據(jù),使用機(jī)器學(xué)習(xí)構(gòu)建信用卡的反欺詐預(yù)測(cè)模型,從而提前判定信用卡被盜刷的非法行為。從這個(gè)模型的測(cè)試結(jié)果來(lái)看,將機(jī)器學(xué)習(xí)可應(yīng)用于貸款欺詐系統(tǒng)的建立中,能夠降低誤判率,效果良好。

    猜你喜歡
    隨機(jī)森林機(jī)器學(xué)習(xí)
    隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
    基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類(lèi)算法
    軟件(2016年7期)2017-02-07 15:54:01
    拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
    基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
    基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
    基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
    前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究
    基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
    基于支持向量機(jī)的金融數(shù)據(jù)分析研究
    機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
    女性| 昌都县| 高台县| 万年县| 连城县| 遂溪县| 宜君县| 仙居县| 钦州市| 诸城市| 奈曼旗| 忻城县| 达州市| 东平县| 贵阳市| 龙门县| 屏东市| 柳河县| 西乌珠穆沁旗| 合阳县| 井陉县| 新沂市| 开鲁县| 丰镇市| 汤原县| 南部县| 资兴市| 稷山县| 清苑县| 陇川县| 弋阳县| 湄潭县| 金昌市| 防城港市| 龙海市| 中牟县| 加查县| 北海市| 布尔津县| 陆河县| 丹阳市|