• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于決策樹(shù)C4.5算法的大數(shù)據(jù)保險(xiǎn)業(yè)模型研究

    2017-02-28 19:35:47李飛齊林
    中國(guó)市場(chǎng) 2017年2期
    關(guān)鍵詞:保險(xiǎn)決策樹(shù)大數(shù)據(jù)

    李飛+齊林

    [摘要]如今大數(shù)據(jù)背景下客戶信息數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)增長(zhǎng)趨勢(shì),盈利企業(yè)亟須通過(guò)大數(shù)據(jù)分析發(fā)現(xiàn)客戶更深層次的潛在信息從而降低客戶流失率,尤其是流動(dòng)率高的保險(xiǎn)行業(yè)性質(zhì)企業(yè)。保險(xiǎn)公司力求穩(wěn)定增長(zhǎng)的市場(chǎng)占有率和經(jīng)濟(jì)效益就需要通過(guò)數(shù)據(jù)挖掘來(lái)不斷發(fā)現(xiàn)潛在客戶價(jià)值,此時(shí)數(shù)據(jù)的多元性和數(shù)據(jù)量成為有效快速挖掘用戶信息的瓶頸。文章引入“數(shù)據(jù)湖”的概念結(jié)合HDFS構(gòu)建集群式的大數(shù)據(jù)模型,并引入價(jià)值率來(lái)對(duì)客戶進(jìn)行分析,構(gòu)建用戶畫(huà)像,幫助公司深度理解客戶特征降低客戶流失率。

    [關(guān)鍵詞]大數(shù)據(jù);決策樹(shù);價(jià)值率;保險(xiǎn)

    [DOI]10.13939/j.cnki.zgsc.2017.02.071

    1 引 言

    隨我國(guó)經(jīng)濟(jì)快速增長(zhǎng),人民收入不斷增加,保險(xiǎn)業(yè)也呈現(xiàn)出高速發(fā)展的趨勢(shì),自國(guó)內(nèi)恢復(fù)業(yè)務(wù)以來(lái),保險(xiǎn)業(yè)相比金融領(lǐng)域的其他行業(yè),取得了不小的成績(jī)。新時(shí)代背景下的保險(xiǎn)業(yè)所呈現(xiàn)出的信息多元化、海量化等特點(diǎn),使得大量用戶信息以指數(shù)級(jí)增長(zhǎng)趨勢(shì)存在于保險(xiǎn)行業(yè),多元化的媒體介質(zhì)輸入導(dǎo)致數(shù)據(jù)預(yù)處理難度加大,用戶的興趣遷移導(dǎo)致構(gòu)造用戶畫(huà)像模糊,而保險(xiǎn)行業(yè)競(jìng)爭(zhēng)日趨激烈,高風(fēng)險(xiǎn)性條件情況下保持客戶黏性,降低流失率對(duì)企業(yè)競(jìng)爭(zhēng)就顯得尤為重要。

    傳統(tǒng)的商業(yè)情報(bào)分析往往結(jié)合數(shù)據(jù)挖掘技術(shù)對(duì)歷史數(shù)據(jù)和已有的用戶信息進(jìn)行挖掘,發(fā)現(xiàn)潛在的未知的具有一定商業(yè)價(jià)值的信息,但由于以往的客戶數(shù)據(jù)信息量較小,信息量更換慢,現(xiàn)有的保險(xiǎn)業(yè)使用的傳統(tǒng)的運(yùn)營(yíng)環(huán)境和模型難以適應(yīng)海量數(shù)據(jù),以及傳統(tǒng)模型運(yùn)行速度慢,運(yùn)行代價(jià)高,準(zhǔn)確率低,挖掘深度不夠等都是不容忽視的弊端。近些年,隨著大數(shù)據(jù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)在工程和學(xué)術(shù)界的火熱發(fā)展,相關(guān)的數(shù)據(jù)模型都發(fā)展得十分完善充分,而決策樹(shù)其良好的魯棒性,全樣本挖掘性,準(zhǔn)確度高,實(shí)施快捷,運(yùn)行速度快,實(shí)現(xiàn)成本小都是它的優(yōu)勢(shì)所在。

    故本文首先引入“數(shù)據(jù)湖”的概念以緩解傳統(tǒng)數(shù)據(jù)處理處理異質(zhì)數(shù)據(jù)問(wèn)題,適應(yīng)不同數(shù)據(jù)源存儲(chǔ)介質(zhì)的需求,引入使用可擴(kuò)展性大數(shù)據(jù)分析模型獲取用戶的興趣遷移特征,應(yīng)用算法基于CART決策樹(shù)算法模型并以某保險(xiǎn)公司具體用戶數(shù)據(jù)為實(shí)例構(gòu)建應(yīng)用場(chǎng)景進(jìn)行模型訓(xùn)練和數(shù)據(jù)預(yù)測(cè),并創(chuàng)新性地引入價(jià)值率對(duì)用戶進(jìn)行分類解決公司所面臨的處理用戶海量數(shù)據(jù)時(shí)間較長(zhǎng)、效率較低、準(zhǔn)確度不高等問(wèn)題。

    2 基于決策樹(shù)C4.5算法的數(shù)據(jù)模型

    2.1 模型生成描述

    數(shù)據(jù)基本處理:原始用戶數(shù)據(jù)錄入,形成基礎(chǔ)數(shù)據(jù)湖,并將數(shù)據(jù)導(dǎo)入HBase和Oracle數(shù)據(jù)庫(kù)中,對(duì)數(shù)據(jù)選取加工預(yù)處理并對(duì)數(shù)據(jù)進(jìn)行選表、選鍵、連接器層選擇以匹配數(shù)據(jù)模型,通過(guò)數(shù)據(jù)表的前期基本處理清洗篩選形成基礎(chǔ)寬表,在形成寬表基礎(chǔ)上再對(duì)數(shù)據(jù)清洗機(jī)進(jìn)行標(biāo)準(zhǔn)化處理,對(duì)樣本數(shù)據(jù)做簡(jiǎn)單的描述統(tǒng)計(jì)、缺失值處理以及標(biāo)準(zhǔn)化(分層處理)工作。

    模型生成:調(diào)用Apache Spark 中的Mllib決策樹(shù)中的類庫(kù),根據(jù)樣本數(shù)據(jù)和用戶情景生成初始模型,對(duì)生成的模型進(jìn)行訓(xùn)練集和驗(yàn)證機(jī)選取,我們此處以7/3原則進(jìn)行選取,對(duì)大數(shù)據(jù)模型進(jìn)行訓(xùn)練,將數(shù)據(jù)抽樣導(dǎo)出到數(shù)據(jù)中介Oracle中,將傳統(tǒng)的SAS數(shù)據(jù)挖掘模型訓(xùn)練導(dǎo)入JAR中以便對(duì)比,至此基本的模型池生成,經(jīng)訓(xùn)練測(cè)試后的用戶反饋信息對(duì)模型的各個(gè)參數(shù)進(jìn)行調(diào)試,并對(duì)外發(fā)布服務(wù)模型,模型中所設(shè)計(jì)重要參數(shù)如表1所示。

    數(shù)據(jù)預(yù)測(cè):根據(jù)服務(wù)模型和用戶輸入的基本信息屬性進(jìn)行加工,并對(duì)模型的預(yù)測(cè)產(chǎn)生結(jié)果集,再根據(jù)結(jié)果集進(jìn)行場(chǎng)景信息預(yù)測(cè)并生成用戶畫(huà)像。

    2.2 決策樹(shù)C4.5算法

    3 實(shí)證研究

    3.1 實(shí)驗(yàn)數(shù)據(jù)

    基于某保險(xiǎn)公司的用戶數(shù)據(jù),由于數(shù)據(jù)本身來(lái)源差異和獲取方式的不同,導(dǎo)致“數(shù)據(jù)湖”中本身存在大量的不完整、不一致、含噪聲和冗余數(shù)據(jù),所以需要對(duì)數(shù)據(jù)進(jìn)行一個(gè)簡(jiǎn)單的處理分析工作,其一,減少數(shù)據(jù)集變量間的冗余,方便模型挖掘數(shù)據(jù)的效率和輸出預(yù)測(cè)信息的簡(jiǎn)潔;其二,提高數(shù)據(jù)屬性列間的相關(guān)性,去掉關(guān)聯(lián)性較高的數(shù)據(jù)屬性列,如保險(xiǎn)繳費(fèi)與收入屬性具高相關(guān)性;其三,由于決策樹(shù)模型運(yùn)行時(shí)離散型數(shù)據(jù)進(jìn)行處理速率較快,故多連續(xù)性數(shù)據(jù)進(jìn)行離散化處理。

    數(shù)據(jù)選取基本上對(duì)寬表的行列維度數(shù)據(jù)進(jìn)行處理,由于在實(shí)際過(guò)程中對(duì)數(shù)據(jù)生成一個(gè)大約20個(gè)屬性列的寬表,數(shù)據(jù)選擇可以避免數(shù)據(jù)處理時(shí)發(fā)生高維數(shù)據(jù)災(zāi)難,并且在數(shù)據(jù)處理過(guò)程中進(jìn)行部分?jǐn)?shù)據(jù)歸一化處理,以適應(yīng)模型的匹配度。見(jiàn)表1。

    3.2 分析工具和平臺(tái)

    本模型運(yùn)行平臺(tái)基于Hadoop分布式文件系統(tǒng),其良好的高容錯(cuò)性和高吞吐數(shù)據(jù)訪問(wèn)比較適合大規(guī)模數(shù)據(jù)集的應(yīng)用,本模型應(yīng)用的環(huán)境基于HDFS的基本運(yùn)行環(huán)境,使用Python數(shù)據(jù)處理語(yǔ)言,操作系統(tǒng)版本:CentOS release 6.5(Final),搭建集群6臺(tái),各個(gè)設(shè)備相關(guān)信息:Intel(R),E5606,@2.13GHz,2128.000MHz,cache size:8192KB。

    3.3 模式評(píng)估與應(yīng)用

    算法模型的運(yùn)行結(jié)果展示出哪些因素影響客戶流失的決策,通過(guò)評(píng)估可以得到更為有價(jià)值的客戶信息,評(píng)估方法有準(zhǔn)確率,召回率,F(xiàn)1-score,PR,ROC等,其中,真正TP:樣本類型被數(shù)據(jù)模型正確歸類預(yù)測(cè)命中正確類的數(shù)量;假負(fù)FN:樣本類型被數(shù)據(jù)模型誤判為其他類型的數(shù)量;假正FP:樣本不屬于正確類別被數(shù)據(jù)模型誤判為正確類別的數(shù)量;真負(fù)TN: 樣本類型屬于正確類別被數(shù)據(jù)模型誤判為其他類型的數(shù)量。

    全樣本數(shù)據(jù)運(yùn)行模型的結(jié)果展示見(jiàn)表2。

    經(jīng)結(jié)果發(fā)現(xiàn)這里采用準(zhǔn)確率、召回率以及F1_score,抽取用戶的預(yù)測(cè)值與評(píng)分值進(jìn)行模型檢驗(yàn),得到值均在合理值范圍,模型運(yùn)行時(shí)間2320.34s,較傳統(tǒng)的SAS跑出的34min23s,較為高效,據(jù)此此模型可以投入運(yùn)用。

    4 結(jié)論與展望

    論文借助“數(shù)據(jù)湖”挖掘模型實(shí)現(xiàn)了保險(xiǎn)業(yè)的用戶流失率檢測(cè),取得了以下結(jié)論。第一,論文建立在HDFS運(yùn)行環(huán)境中,一方面,通過(guò)對(duì)決策樹(shù)基本特點(diǎn)的研究,找到了決策樹(shù)與保險(xiǎn)業(yè)用戶流失率的結(jié)合點(diǎn),建立了基于用戶數(shù)據(jù)湖的大數(shù)據(jù)模型;另一方面,模型基于開(kāi)源HDFS環(huán)境中,具有良好的可擴(kuò)展性。第二,根據(jù)信息論的相關(guān)理論概念引入信息熵和客戶價(jià)值率,提高對(duì)客戶數(shù)據(jù)屬性分類的準(zhǔn)確性,本文最后結(jié)合實(shí)例對(duì)所提出的模型進(jìn)行驗(yàn)證,證明數(shù)據(jù)模型的可靠性。

    本文引入“數(shù)據(jù)湖”的概念以緩解傳統(tǒng)數(shù)據(jù)處理異質(zhì)數(shù)據(jù)問(wèn)題,極好地適應(yīng)不同數(shù)據(jù)源存儲(chǔ)介質(zhì)的需求,并引入使用可擴(kuò)展性大數(shù)據(jù)分析模型以便適應(yīng)用戶的興趣遷移,通過(guò)數(shù)據(jù)挖掘技術(shù)提高銷售凈利率,擴(kuò)大企業(yè)市場(chǎng)所占份額,識(shí)別客戶等級(jí),誠(chéng)信度和價(jià)值率,降低企業(yè)風(fēng)險(xiǎn),預(yù)測(cè)預(yù)警以及制訂相應(yīng)的決策計(jì)劃,降低用戶流失率提高忠誠(chéng)度,本文基于CART算法模型以某保險(xiǎn)公司用戶數(shù)據(jù)具體數(shù)據(jù)為實(shí)例構(gòu)建應(yīng)用場(chǎng)景進(jìn)行模型訓(xùn)練和數(shù)據(jù)預(yù)測(cè),并創(chuàng)新性地引入價(jià)值率對(duì)用戶進(jìn)行分類解決公司所面臨的處理用戶海量數(shù)據(jù)時(shí)間較長(zhǎng)效率較低準(zhǔn)確度不高等問(wèn)題。

    由于時(shí)間和硬件環(huán)境的制約,本文仍存在一些有待進(jìn)一步改進(jìn)和深入研究的地方。第一,論文對(duì)于數(shù)據(jù)挖掘算法采用較為經(jīng)典的決策樹(shù)方法,在數(shù)據(jù)處理時(shí)采用常規(guī)處理方法難免會(huì)導(dǎo)致部分?jǐn)?shù)據(jù)的缺失和預(yù)測(cè)準(zhǔn)確率的下降;第二,本文研究中數(shù)據(jù)均居于有限的數(shù)據(jù)集,隨傳輸媒介的變化,用戶的時(shí)間維度并未良好地考慮進(jìn)去,對(duì)用戶仍舊缺乏較時(shí)間維度及其用戶標(biāo)簽等級(jí)的良好劃分。

    參考文獻(xiàn):

    [1]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013(1):146-169.

    [2]王艷. 中國(guó)保險(xiǎn)公司制度變遷與創(chuàng)新研究[D].長(zhǎng)春:吉林大學(xué),2014.

    [3]丁兆云,賈焰,周斌. 微博數(shù)據(jù)挖掘研究綜述[J]. 計(jì)算機(jī)研究與發(fā)展,2014(4):691-706.

    [4]Quinlan J R.C4.5 Programs for Machine Learning[M].California:Morgan Kaufmann,San Mateo,1993.

    [5]趙強(qiáng)利,蔣艷凰,盧宇彤. 具有回憶和遺忘機(jī)制的數(shù)據(jù)流挖掘模型與算法[J]. 軟件學(xué)報(bào),2015(10):2567-2580.

    [6]徐鵬,林森. 基于C4.5決策樹(shù)的流量分類方法[J]. 軟件學(xué)報(bào),2009(10):2692-2704.

    [7]陳文偉.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002.

    猜你喜歡
    保險(xiǎn)決策樹(shù)大數(shù)據(jù)
    一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
    決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    試析銀行、證券、保險(xiǎn)三者之間的聯(lián)盟
    商情(2016年39期)2016-11-21 08:16:16
    基于物聯(lián)網(wǎng)的健康管理服務(wù)模式
    金融支持養(yǎng)老服務(wù)業(yè)發(fā)展
    商(2016年27期)2016-10-17 07:25:31
    基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
    科技視界(2016年20期)2016-09-29 10:53:22
    基于決策樹(shù)的出租車乘客出行目的識(shí)別
    淺談不婚主義下保險(xiǎn)“受益人”的指定問(wèn)題
    基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
    平潭县| 清流县| 福安市| 磴口县| 玉溪市| 隆化县| 什邡市| 丰都县| 得荣县| 繁昌县| 偏关县| 大余县| 堆龙德庆县| 固始县| 呼伦贝尔市| 池州市| 巴南区| 乐清市| 古交市| 仁布县| 五指山市| 修水县| 邢台市| 无极县| 聂荣县| 泰州市| 南华县| 全南县| 友谊县| 竹溪县| 府谷县| 江门市| 兰州市| 竹山县| 张家口市| 长宁县| 黄冈市| 仁化县| 聊城市| 长沙市| 修文县|