• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    XGBoost算法應用于車輛保險購買預測的研究

    2023-06-25 11:15:52王超強
    現代信息科技 2023年6期
    關鍵詞:數據預處理

    摘? 要:車輛保險的購買意向預測是一個二分類預測問題,可分為有意向購買和無意向購買,使用XGBoost算法和Logistic Regression算法對車輛保險數據集進行模型構建和分類預測。該研究首先對原始數據集進行數據預處理,然后使用網格搜索法,采取五折交叉驗證來對模型進行超參數優(yōu)化并構建預測模型,最后選擇ROC曲線和AUC值作為預測模型的評價指標對模型的泛化能力進行性能評估,結果表明XGBoost算法具有最好的預測效果。

    關鍵詞:XGBoost算法;數據預處理;網格搜索;模型評估;ROC曲線

    中圖分類號:TP391? ? 文獻標識碼:A? ? 文章編號:2096-4706(2023)06-0031-04

    Research on Application of XGBoost Algorithm in Vehicle Insurance Purchase Prediction

    WANG Chaoqiang

    (School of Information Engineering, North China University of Water Resources and Electric Power, Zhengzhou? 450046, China)

    Abstract: The purchase intention prediction of vehicle insurance is a binary prediction problem, which can be divided into intentional purchase and unintentional purchase. This paper uses the XGBoost algorithm and Logistic Regression algorithm to carry out model construction and classification prediction of the vehicle insurance data set. The research firstly performs data preprocessing on the original dataset. Then, the grid search method and five-fold cross-validation are used to optimize the hyperparameters of the model and construct a prediction model. Finally, the ROC curve and AUC value are selected as the evaluation indicators of the prediction model to evaluate the generalization ability of the model. The results show that the XGBoost algorithm has a very good prediction effect.

    Keywords: XGBoost algorithm; data preprocessing; grid search; model evaluation; ROC curve

    0? 引? 言

    在如今新能源汽車快速發(fā)展的情況下,車輛保險行業(yè)的機遇和挑戰(zhàn)也同時到來,學術界的很多專家和學者也將機器學習方法應用到了車輛保險相關研究中。劉璐[1]等人依據影響車輛保險需求的相關要素,運用了多元線性回歸方法建立模型,為發(fā)掘車輛保險市場的需求潛力提出了有關建議。朱南軍[2]等人在車輛保險的營銷中心信息不對稱問題上,運用了兩種不同參數檢驗方法,不相關概率單位回歸模型,進行信息不對稱檢驗,為探索減少車輛保險信息的不對稱提供了新的思路。郭念國[3]在車輛保險領域,索賠風險分類問題上運用了樸素貝葉斯算法,并在該問題上與常用的廣義線性模型進行了比較分析,結果表明了樸素貝葉斯算法在該問題上的可行性。Cheng[4]等人在汽車保險直銷市場的機器學習應用中,使用樸素貝葉斯、決策樹和神經網絡方法建立了精度較高的預測模型,為保險業(yè)定位車輛保險市場的潛在客戶提供了有用信息。

    該研究通過對數據集進行數據預處理,調整模型超參數來構建XGBoost預測模型,并對模型的進行泛化能力進行評估,最終得到一個分類預測能力很好的XGBoost預測模型,可以協助車險行業(yè)在購買預測方向的研究,具有十分重要的研究意義。

    1? 理論基礎

    1.1? XGBoost算法

    XGBoost算法是一種boosting算法,相較于傳統的GBDT算法,XGBoost算法可以并行化處理,效率比GBDT高,效果也比GBDT好[5]。它是由k個基模型組成的一個加法運算式:

    (1)

    其中fk為第k個基模型, 為第i個樣本的預測值。為了防止過擬合,單個基模型的正則項是:

    (2)

    其中T代表樹的葉節(jié)點,X落到了某個葉節(jié)點上的輸出值是ω,γ和λ是非負系數,ωj是第j個節(jié)點的輸出值。由此XGBoost損失函數定義為:

    (3)

    利用泰勒二階展開式得到損失函數的極小值,然后,采用精確或近似方法貪心搜索出得分最高的切分點,進行下一步切分并擴展葉節(jié)點[6]。

    1.2? Logistic Regression算法

    Logistic Regression模型中的因變量只有1-0(如“是”和“否”“發(fā)生”和“不發(fā)生”)兩種取值[7]。假設在p個獨立自變量x1, x2,…, xp的作用下,記y取1的概率是p=

    P(y=1|x),取0的概率是1-p,取1和取0的概率之比為 ,成為事件的優(yōu)勢比(odds),對odds取自然對數即得Logistic變換 。

    令 ,則 ,即為Logistic函數,最后用邏輯函數把線性回歸的結果從(-∞,∞)映射到(0,1)。

    2? 實驗分析

    2.1? 數據背景

    數據集來自數據科學競賽網站https://www.kaggle.com,共有381 109條數據記錄,包含十二個特征字段,該研究將所有字段都定義為變量,其中Response字段為因變量,其余字段為自變量,各個字段變量的含義如表1所示。

    2.2? 數據預處理

    數據集中的海量原始數據存在大量缺失值、數據類型不一致、冗余值、異常值等,不進行處理則會影響模型的學習效果。另外,在用各種模型算法時也要牢記監(jiān)督學習的假設,即正負樣本要平衡且訓練集和測試集樣本是獨立同分布的。而且,在模型訓練時,數據規(guī)范化的操作可以讓梯度下降算法收斂得更快,也就是更快地找到最優(yōu)超參數。

    該研究將根據車險數據集的實際情況對數據集的數據預處理為異常值的檢測和處理、數據類型轉換、數據不平衡處理和數據規(guī)范化。

    2.2.1? 異常值處理

    異常值又稱離群點,即數據集中存在的明顯偏離了其他值的值,箱型圖檢測法作為常用的異常值檢測方法可以很直觀地將異常值表現出來,箱型圖有六個數據節(jié)點,分別是上四分位數(Q1)、中位數(Q2)、下四分位數(Q3)、四分位距(IQR,IQR=Q3-Q1)、上限(最大值區(qū)域:Q3+1.5IQR)、下限(最小值區(qū)域:Q1-1.5IQR)、異常值(即被定義為小于Q1-1.5IQR或大于Q3+1.5IQR),該研究使用箱型圖檢測法,利用異常值的定義來編輯代碼篩選出異常值,因原始數據集中的異常值占比較少,所以直接將異常值數據刪除,如圖1所示。

    2.2.2? 數據類型轉換

    原始數據集中的Gender、Vehicle_Age和Vehicle_Damage均屬于字符型特征的數據,這對于多數機器學習算法來說并不能直接作為輸入進行模型訓練,必須把字符型特征轉換為數值型的數據才能正常工作。數據集中的ID列僅代表客戶的唯一標識,在實際建模時無用,故將ID列作刪除處理;利用序號編碼的方法將Gender列中的“Male”和“Female”替換為0和1,Vehicle_Age列中“< 1 Year”,“1-2 Year”以及“> 2 Year”替換為0、1和2,Vehicle_Damage列中的“Yes”和“No”替換為0和1;將Region_Code列和Policy Sales Channel列中的數據由浮點型轉換為整型。

    2.2.3? 數據不平衡處理

    該研究的數據集中的Response標簽列感興趣和不感興趣的比例約為1:7,屬于極度不平衡的數據,而主流的分類算法都是基于數據平衡的,因此必須對數據進行不平衡處理。不平衡數據主要有三種處理方法,分別為欠采樣、過采樣、混合采樣[8]。該研究采用混合采樣進行數據不平衡處理,如圖2所示。

    2.2.4? 數據規(guī)范化

    對數值類型的數據進行歸一化處理之后,便可以將所有的輸入特征縮放到一個大致的數值區(qū)間之內,使得不同列不同范圍的數據之間具有可比性。數據歸一化的常用方法有兩種,分別是線性函數歸一化和零均值歸一化方法。線性歸一化是通過線性函數對原始數據進行線性變換,將變換后的結果映射到[0,1]區(qū)間內,實現對原始數據的特征縮放,線性函數歸一化的函數公式為:

    (4)

    零均值歸一化將數據集中的各列數據映射到一個均值為0、標準差為1的分布上,即假設某列特征的均值為μ、標準差為σ,則可得出零均值歸一化公式:

    (5)

    該研究采用線性函數歸一化方法將不同字段特征的數據進行歸一化處理。

    2.3? XGBoost預測模型的構建和評估

    本研究在JupyterLab實驗平臺利用Python中的機器學習模塊包sklearn中的XGBoost算法和Logistic Regression算法進行車輛保險購買意向預測模型的構建。通過網格搜索法對超參數使用五折交叉驗證進行超參數的優(yōu)化,選擇一組在訓練集上得分最高的超參數值對XGBoost算法和Logistic Regression算法的預測模型進行構建。在預測模型構建完成之后選擇模型評價指標對XGBoost算法和Logistic Regression算法預測模型的泛化能力進行評估。XGBoost模型的混淆矩陣如表3所示。

    準確率如式(6)所示:

    (6)

    其中,TP表示預測為1,預測正確,即實際也為1;TN表示預測為0,預測正確,即實際也為0;FP表示預測為1,預測錯誤,即實際是0;FN表示預測為0且預測錯誤,即實際是1。由式(6)可得XGBoost模型的準確率為88.27%。

    如表4所示是Logistic Regression模型的混淆矩陣,而在該研究中使用Logistic Regression算法進行建模得到的預測模型的準確率為77.19%,表明XGBoost算法模型具有很好的分類預測能力。

    該研究的原始數據集正負樣本的比例約為7:1,屬于極度不平衡的樣本,故引入不受樣本數據不平衡影響的ROC曲線(受試者工作特性曲線)和AUC值(ROC曲線下的面積)評價指標更直觀地體現預測模型的性能度量[9]。

    ROC曲線的橫坐標是假陽性率(FPR),即:

    (7)

    縱坐標叫真陽性率(TPR),即:

    (8)

    如圖3所示,可以明顯地看出算法預測模型的ROC曲線十分靠近左上角,Logistic Regression模型的ROC曲線則在XGBoost模型的ROC曲線的下方,ROC曲線越靠近左上角越說明模型的泛化能力越好,XGBoost模型的AUC值為0.953 6,而Logistic Regression模型的AUC值為0.845 0,表明XGBoost算法預測模型具有非常好的泛化能力。

    如表5所示,通過XGBoost算法預測模型和Logistic Regression算法預測模型的對比研究發(fā)現,XGBoost算法預測模型在準確率、ROC曲線、AUC值等模型評估指標均高于Logistic Regression算法預測模型,該實驗結果表明XGBoost算法預測模型的二分類預測效果比Logistic Regression算法預測模型的二分類預測效果要好得多。

    3? 結? 論

    機器學習中的XGBoost算法在各個數據競賽平臺都有不俗的表現,而近年來關于如何將該算法更好地應用于車輛保險行業(yè),也是學界和業(yè)界的研究熱點,該研究將XGBoost算法創(chuàng)新性地應用到車輛保險購買意向的預測中,對原始數據集進行數據變換、數據規(guī)范化和數據不平衡處理,利用網格搜索法調整模型超參數,進而構造出預測模型,XGBoost模型準確率為88.27%,表明該模型具有非常好的分類預測效果,AUC值為0.953 6,而相比其他模型XGBoost模型具有更強的模型泛化能力。因此,XGBoost算法在車輛保險購買預測領域的應用研究中具有很高的研究價值。

    參考文獻:

    [1] 劉璐,張博江.我國機動車輛保險市場發(fā)展的需求拉動因素研究 [J].保險研究,2012(8):83-88.

    [2] 朱南軍,王敬瑜.我國車輛保險市場信息不對稱問題分析 [J].保險研究,2016(9):16-27.

    [3] 郭念國.樸素貝葉斯算法與車輛風險分類 [J].河南城建學院學報,2020,29(3):87-92.

    [4] CHENG X T. Machine Learning Application in Car Insurance Direct Marketing [J].International Journal of Data Science and Advanced Analytics,2020,2(2):18-25.

    [5] LIANG W Z,LUO S-Z,ZHAO G Y,et al. Predicting Hard Rock Pillar Stability Using GBDT,XGBoost,and LightGBM Algorithms [J].Mathematics,2020,8(5):765.

    [6] PESANTEZ-NARVAEZ J,GUILLEN M,ALCA?IZ M. Predicting Motor Insurance Claims Using Telematics Data—XGBoost versus Logistic Regression [J].Risks,2019,7(2):70.

    [7] 宋玉萍,朱家明,張雅嫻,等.基于Logistic回歸對影響汽車保險續(xù)保因素的分析 [J].哈爾濱師范大學自然科學學報,2020,36(4):16-23.

    [8] HANAFY M,MING R X. Improving Imbalanced Data Classification in Auto Insurance by the Data Level Approaches [J].International Journal of Advanced Computer Science and Applications,2021,12(6):493-499.

    [9] CARRINGTON A M,MANUEL D G,FIEGUTH P W,et al. Deep ROC Analysis and AUC as Balanced Average Accuracy to Improve Model Selection,Understanding and Interpretation [J/OL].arXiv:2103.11357 [stat.ME].(2021-03-21).https://arxiv.org/abs/2103.11357.

    作者簡介:王超強(1995—),男,漢族,河南周口人,碩士研究生在讀,研究方向:大數據與云計算。

    收稿日期:2022-11-01

    猜你喜歡
    數據預處理
    審計數據預處理探析
    中國經貿(2017年16期)2017-09-22 06:37:55
    基于數據預處理的病蟲草害農田小氣候監(jiān)測系統設計
    基于云計算的海量數據挖掘研究
    無線傳感器網絡的異常檢測
    基于人臉識別的智能大數據處理系統的研究
    棗果實品質鑒定因子數據的預處理研究
    基于小轎車車門拉手的逆向建模設計
    科技視界(2016年27期)2017-03-14 22:45:40
    自動氣象站數據預處理方法
    芻議電力系統規(guī)劃設計在電力工程設計中的應用
    中國市場(2016年41期)2016-11-28 05:30:48
    慢性乙肝癥狀與生物信息相關性的數據挖掘研究
    当阳市| 隆化县| 阿拉尔市| 邵东县| 阿坝县| 福建省| 寿宁县| 建湖县| 客服| 鄂托克旗| 金湖县| 内黄县| 恩施市| 民丰县| 江口县| 毕节市| 张家港市| 仁怀市| 宁晋县| 香河县| 东兴市| 四会市| 西盟| 蕲春县| 格尔木市| 高邑县| 龙南县| 栾城县| 盐亭县| 泽州县| 苍溪县| 四平市| 遂川县| 微山县| 丰顺县| 策勒县| 东乡族自治县| 南丹县| 绥滨县| 宜宾市| 临湘市|