曾巧 楊杉(四川大學(xué)錦城學(xué)院計算機與軟件學(xué)院)
在大數(shù)據(jù)迅速發(fā)展過程中,保險行業(yè)也緊跟著大數(shù)據(jù)發(fā)展在行業(yè)中發(fā)揮著大數(shù)據(jù)的作用。日前,保險行業(yè)仍然持續(xù)著增長的走向,擁有大量原始數(shù)據(jù)的保險行業(yè)對大數(shù)據(jù)分析的到來有著一個迫切的需求[1],大數(shù)據(jù)的準確分析和充分性[2]對保險行業(yè)研究保險用戶的畫像特征、開展新型的發(fā)現(xiàn)模式[3]有著重要的意義。保險天然就具有大數(shù)據(jù)的特征,保險經(jīng)營的每個過程都和大數(shù)據(jù)密不可分[1],通過對保險行業(yè)的用戶信息進行大數(shù)據(jù)分析,能夠?qū)ΡkU行業(yè)的未來用戶選擇及發(fā)展提供很好的一個方向,并且通過充分利用大數(shù)據(jù)技術(shù)能促進我國保險業(yè)的發(fā)展。SPSS工具能夠很好地展現(xiàn)出保險公司當(dāng)前用戶的基本特征畫像;將獲取到的新投保用戶的相關(guān)信息利用線性回歸方法和均值過程以及頻率分析方法分別進行數(shù)據(jù)分析,得到的結(jié)果能夠讓保險公司對保險用戶基本信息、繳費期限、保額與總保費之間的線性關(guān)系做出回應(yīng)、各險種之間存在的均值差異進行研究、看出險種保額特征下的用戶年齡集中范圍,從而進行更有效的結(jié)論以及建議的提出。
選取某保險公司的新投保用戶為研究對象,利用SPSS分析工具中的線性回歸方法、均值過程、頻率分析方法對相關(guān)信息進行數(shù)據(jù)分析,對總保費與用戶年齡階段之間分布是否有特征、存在關(guān)系進行研究,對客戶的一些信息如年齡、繳費期限、近三年平均年收入與所繳納的保費是否有關(guān)系進行了探索性研究,最后針對不同的險種之間保額均值存在差異進行分析。
數(shù)據(jù)來源于某保險公司的數(shù)據(jù)庫中的新投保用戶的數(shù)據(jù),新投保數(shù)據(jù)表格含有機構(gòu)、險種、投保時間、繳費期限、繳費方式、保額、總保費、年齡、過去三年平均年收入、教育程度、家庭人口等16個字段共90萬條數(shù)據(jù)。
獲取到的數(shù)據(jù)中有空行,刪除表格中存在的空行;瀏覽表格發(fā)現(xiàn)當(dāng)中存在沒有意義的字段教育程度和家庭人口,這兩列的數(shù)據(jù)的值為無和0,由此刪除教育程度和家庭人口列;通過后面數(shù)據(jù)的探究發(fā)現(xiàn)保額集中在500000以下,所以對數(shù)據(jù)進行篩選篩選出保額為500000以下的數(shù)據(jù);然后對保額、總保費以及年齡等字段的分布情況進行數(shù)據(jù)分析與探索,表格中險種的個數(shù)有很多,在進行有效的分析的時候?qū)﹄U種分為4險種、6險種、S險種、Y險種、B01險種、B02險種、L01險種一共7個險種。分類的規(guī)則是以數(shù)字或者字母開頭為一類險種以及險種數(shù)很少的沒有進行分類就是為單獨的險種。對表格中表格數(shù)據(jù)顯示不正確的值進行正確顯示如投保時間和客戶號。
通過數(shù)據(jù)呈現(xiàn)的結(jié)果看出年齡、保額、繳費期限與總保費之間的sig值都是小于顯著性水平0.01的,所以拒絕原假設(shè)(原假設(shè)為年齡、保額、繳費期限與總保費之間無相關(guān)性)。而總保費的皮爾遜相關(guān)性一行的數(shù)據(jù)顯示,繳費期限與總保費的數(shù)據(jù)是-0.255**,年齡與總保費的數(shù)據(jù)是0.091**,保額與總保費的數(shù)據(jù)是0.74**,而從注釋中**是相關(guān)性顯著,所以繳費期限、年齡、保額與總保費的相關(guān)性是顯著的并且分別是負相關(guān)性、正相關(guān)性以及正相關(guān)性,由此可以利用繳費期限、年齡以及保額與總保費的相關(guān)性建立線性回歸模型。由于年齡、繳費期限、保額與總保費具有相關(guān)性,由此建立線性回歸模型,利用步進方法得出了3個模型,通過探究幾個變量與總保費之間的關(guān)系,在R方擬合度上其數(shù)值是0.681接近于0.8,說明他們之間的擬合效果中等偏上,擬合效果好在這個關(guān)系中能夠較為準確的表達出線性關(guān)系。然后在SPSS中的回歸方法幾個變量之間是進行了一個方差分析的,所以直接從數(shù)據(jù)結(jié)果中顯示出數(shù)值是小于顯著性水平0.01的,故拒絕原假設(shè),由此可以通過線性關(guān)系式去判斷和計算相關(guān)數(shù)值,從上述表中得出繳費期限、年齡、保額的系數(shù)分別是-921.77、99.589、0.613,設(shè)總保費為y,繳費期限為x,年齡為z,保額為m,則相關(guān)的線性回歸方程是y=-921.77x+99.589z+0.613m+403.325。
因此可以得出結(jié)論:總保費與年齡、繳費期限、保額、總保額之間存在顯著的相關(guān)性,并且R方的擬合度較好,可以得到較為準確的線性關(guān)系,由此線性關(guān)系式為y=-921.77x+99.589z+0.613m+403.325,所以保險公司人員可以利用存在的線性關(guān)系來計算某個用戶特征的相關(guān)信息得到的總保費是多少,然后利用總保費來進行預(yù)測用戶可以接受的總保費的數(shù)值為多少,然后進行相關(guān)的決策。
新投保數(shù)據(jù)中年齡均值在41歲,總保費的均值在8376元,其中總保費的眾數(shù)10000元,說明大家對總保費10000元的保險購買率較高。數(shù)據(jù)分布的偏度大于0,說明無論是總保費還是年齡都為右偏,所以年齡與總保費的較大數(shù)據(jù)在右邊分布稀疏,由此兩者數(shù)據(jù)分布集中在均值附近。數(shù)據(jù)分布的峰度,總保費為尖峰分布(正值且數(shù)據(jù)值大),年齡為扁平分布(數(shù)據(jù)為負值),說明總保費在均值附近的數(shù)據(jù)密度是較大的,數(shù)據(jù)分布更加集中在均值附近;而年齡則相反,并沒有在均值附近的數(shù)據(jù)密度大而是在均值附近分布集中程度小。僅僅利用頻率分布并不能詳細地反映出總保費和年齡的關(guān)聯(lián)關(guān)系,因此利用散點圖進行數(shù)據(jù)可視化,反映出的新投保數(shù)據(jù)顯示總保費的金額主要集中在100000元以下且年齡段主要是30~60歲段的投保數(shù)據(jù)及特征。
因此可以得出結(jié)論:新投保用戶投保的年齡均值是在41歲且大多集中在均值附近,總保費的均值是8376也是大多集中在均值附近的,而新投保用戶投保繳納的總保費集中在100000元以下的用戶年齡階段是在30~60歲之間。
從得到的結(jié)果可以看出一共有7類險種,大部分險種的最高保額均值范圍在13000~18000這個區(qū)間內(nèi)。而在7種險種當(dāng)中保額平均值最大的是L02險種,最小的是6險種,但是L02險種是特殊的險種,在新投保數(shù)據(jù)中只有一個用戶進行了L02險種的投保,所以不具有參考價值,那么除去L02險種最大的值為B02這個險種。在這7個險種當(dāng)中方差最大的是S險種,說明S險種的保額均值變化較大,方差最小的是6險種說明數(shù)據(jù)最穩(wěn)定。在這7個險種當(dāng)中偏度峰度都為正,即這7類險種保額的數(shù)據(jù)都呈現(xiàn)右偏、尖端分布的情況,保額主要集中分布在均值附近,其中,4險種的峰度值和偏度值較其余險種的差值甚遠,因此它的數(shù)據(jù)分布情況右尖端分布情況更明顯。
因此可以得出結(jié)論:在這7個險種當(dāng)中S險種數(shù)據(jù)波動變化最大,6險種數(shù)據(jù)波動最小,所以在新投保用戶當(dāng)中在S險種當(dāng)中存在多種情況的保額,即在S險種中用戶的特征類型是最多的,選擇S險種進行投保的人數(shù)最多,在新投保6險種的用戶特征少比較的單一;并且要對L02險種進行觀察,為什么只有一個用戶選擇L02險種。
新投保用戶的畫像特征:用戶主要的年齡階段是處于青中年化階段,以30~60歲集中,并且更加的偏向于繳納的總保費是處于100000元以下的,然后更為集中的是在均值為8376元附近。而在7種險種當(dāng)中新投保用戶更加的偏向于S險種,選擇的用戶達到552885名用戶,沒有偏向于選擇L02險種,因此保險公司應(yīng)當(dāng)對險種L02和用戶進行研究為什么只有一個用戶選擇這個險種。而在發(fā)展新投保用戶對保險的選擇時,在新投保數(shù)據(jù)中存在總保費=-921.77*繳費期限+99.589*年齡+0.613*保額+403.325的線性關(guān)系,并且繳費期限和總保費存在負相關(guān)關(guān)系、年齡和總保費存在正相關(guān)關(guān)系、保額與總保費存在正相關(guān)關(guān)系。
因此可以提出建議:新投保的用戶中,可以將年齡段在30~60歲的人群作為重點的投保對象并且在計算總保費的時候可以利用保額、繳費期限等內(nèi)容來規(guī)劃用戶具體的投保內(nèi)容;預(yù)估主要客戶大致的信息時推斷出所需要繳納的總保費是在什么范圍之內(nèi),進一步讓公司策劃出保險的價格。而在保險公司未來發(fā)展和選擇上可以進行推出S險種的相關(guān)險種作為重點發(fā)展;對投保用戶進行投保的時候要考慮到繳費期限對總保費的影響,考慮到長期的時限保險是比較危害企業(yè)對保費的收取的,但是可以讓年齡較大的用戶推薦較長年限來增加客戶的粘性。分析出用戶不選擇L02險種的原因,并且對其進行改正。