• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LightGBM的智慧家庭產(chǎn)品潛在客戶挖掘應(yīng)用及Spark ML算法實(shí)踐

      2020-06-24 10:54:05段智華
      錦繡·中旬刊 2020年3期
      關(guān)鍵詞:大數(shù)據(jù)

      摘 要:本文對(duì)中國(guó)電信上海公司基于大數(shù)據(jù)的智慧產(chǎn)品潛在客戶挖掘內(nèi)部競(jìng)賽的案例進(jìn)行了研究?;诖髷?shù)據(jù)工作臺(tái)的海量數(shù)據(jù),利用機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析技術(shù),采用LightGBM算法,PySpark機(jī)器學(xué)習(xí)算法,預(yù)測(cè)客戶是否購(gòu)買全屋wifi產(chǎn)品,為客戶精準(zhǔn)營(yíng)銷注入人工智能、大數(shù)據(jù)能力,促進(jìn)公司智慧產(chǎn)品的發(fā)展。

      關(guān)鍵詞:LightGBM模型;Spark;大數(shù)據(jù);客戶挖掘

      1 背景

      本論文是中國(guó)電信上海公司基于大數(shù)據(jù)的智慧產(chǎn)品潛在客戶挖掘內(nèi)部競(jìng)賽的案例,基于客戶標(biāo)識(shí)及客戶話單數(shù)據(jù),預(yù)測(cè)客戶是否購(gòu)買中國(guó)電信全屋wifi產(chǎn)品,1表示購(gòu)買,0表示不買。

      案例由上海公司大數(shù)據(jù)工作臺(tái)提供競(jìng)賽數(shù)據(jù),此次數(shù)據(jù)集的難點(diǎn)在于:1.訓(xùn)練數(shù)據(jù)量大:包括客戶標(biāo)識(shí)數(shù)據(jù)(約250萬(wàn)條記錄,129個(gè)字段)、客戶話單數(shù)據(jù)(約13億條記錄,86個(gè)字段)、訓(xùn)練集(8萬(wàn)條記錄)、測(cè)試集(5萬(wàn)條記錄)。2.數(shù)據(jù)稀疏性:一些特征沒有取值,部分關(guān)聯(lián)記錄數(shù)較少。3.一些特征與訓(xùn)練集具有強(qiáng)相關(guān)性,導(dǎo)致出現(xiàn)過擬合。

      本文對(duì)LightGBM算法進(jìn)行了應(yīng)用,同時(shí)使用PySpark機(jī)器學(xué)習(xí)算法對(duì)客戶是否購(gòu)買全屋wifi產(chǎn)品進(jìn)行預(yù)測(cè),提交最優(yōu)的預(yù)測(cè)結(jié)果。研究的主要內(nèi)容如下:機(jī)器學(xué)習(xí)數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索、相關(guān)性分析、LightGBM模型分析、特征衍生、模型優(yōu)化;使用PySpark研究基于分布式集群的樸素貝葉斯、決策樹、隨機(jī)森林、邏輯回歸等算法模型。

      2 機(jī)器學(xué)習(xí)LightGBM算法應(yīng)用

      LightGBM是美國(guó)微軟公司開源提供的一個(gè)基于樹學(xué)習(xí)算法的梯度增強(qiáng)框架。LightGBM具有以下優(yōu)點(diǎn):訓(xùn)練速度快,效率高、內(nèi)存使用率低、預(yù)測(cè)較精確、支持并行和GPU學(xué)習(xí)、能夠處理大規(guī)模數(shù)據(jù)。LightGBM被廣泛地應(yīng)用于Kaggle各類機(jī)器學(xué)習(xí)競(jìng)賽中。

      本案例采用競(jìng)賽中常用的數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索、相關(guān)性分析、模型分析、特征衍生、模型優(yōu)化等特征工程技術(shù),使用LightGBM算法作為基線模型代碼實(shí)現(xiàn)全屋wifi產(chǎn)品預(yù)測(cè),對(duì)機(jī)器學(xué)習(xí)經(jīng)典的二分類問題進(jìn)行實(shí)踐探索。

      2.1 數(shù)據(jù)預(yù)處理

      客戶標(biāo)識(shí)數(shù)據(jù)、客戶話單數(shù)據(jù)、訓(xùn)練集、測(cè)試集各數(shù)據(jù)集放置于內(nèi)部大數(shù)據(jù)工作臺(tái),基于Hadoop大數(shù)據(jù)平臺(tái)存放數(shù)據(jù),采用Hive工具進(jìn)行統(tǒng)計(jì)分析。如直接將客戶標(biāo)識(shí)數(shù)據(jù)、客戶話單數(shù)據(jù)、訓(xùn)練集三張表關(guān)聯(lián),由于數(shù)據(jù)量較大,MapReduce運(yùn)行時(shí)可能會(huì)卡住,因此,可以先將客戶標(biāo)識(shí)表按設(shè)備號(hào)聚合以后導(dǎo)入新建的客戶標(biāo)識(shí)表(約13萬(wàn)條記錄),將客戶話單數(shù)據(jù)按設(shè)備號(hào)聚合導(dǎo)入新建的客戶話單數(shù)據(jù)表(約2300萬(wàn)條記錄),然后再分別與訓(xùn)練集、測(cè)試集進(jìn)行左關(guān)聯(lián),導(dǎo)出數(shù)據(jù)保存為新的訓(xùn)練集(8萬(wàn)條記錄)、測(cè)試集(5萬(wàn)條記錄)。

      2.2 數(shù)據(jù)探索

      關(guān)聯(lián)以后的新訓(xùn)練集、測(cè)試集包括資產(chǎn)狀態(tài)名稱、套餐名稱、銷售策略名稱、上網(wǎng)(興趣)偏好、注智-偏好終端品牌、月均ARPU、客戶副卡數(shù)、終端型號(hào)、地址客戶月均ARPU、入網(wǎng)時(shí)間(本省)、應(yīng)用名稱、應(yīng)用訪問次數(shù)、訪問URL信息等字段,通過可視化、計(jì)算統(tǒng)計(jì)值探索訓(xùn)練集、測(cè)試集的整體分布信息,查找數(shù)據(jù)記錄可能的異常值,進(jìn)一步熟悉業(yè)務(wù)數(shù)據(jù)。

      本案例中對(duì)各字段的值進(jìn)行分布統(tǒng)計(jì);對(duì)業(yè)務(wù)時(shí)間進(jìn)行轉(zhuǎn)換,從入網(wǎng)時(shí)間、客戶生日、協(xié)議約束到期日期、開通日期時(shí)間中抽取年、月、日、周、季度等信息,對(duì)客戶的應(yīng)用訪問次數(shù)進(jìn)行求和、求平均、異常值處理;分析數(shù)據(jù)集每一個(gè)字段的類型(字符串類型、數(shù)字類型);指定類別特征,對(duì)于是否購(gòu)買wifi產(chǎn)品,不同類別分布差異的可視化;采用均值,極值和標(biāo)準(zhǔn)差等相關(guān)描述統(tǒng)計(jì)指標(biāo)分析;進(jìn)行EDA可視化數(shù)據(jù)探索,對(duì)于地址客戶月均ARPU這個(gè)特征,基于數(shù)據(jù)集的樣本量,訓(xùn)練集與測(cè)試集分布差異不大。

      2.3 相關(guān)性分析

      本案例數(shù)據(jù)集特征數(shù)量較大,相關(guān)性分析是基于全量數(shù)據(jù)研究?jī)蓚€(gè)或兩個(gè)以上特征之間的相關(guān)關(guān)系,如果兩個(gè)特征存在較多缺失值,那么計(jì)算的相關(guān)性偏差很大。因此,先進(jìn)行空值搜索,統(tǒng)計(jì)具有相同空值行記錄數(shù)的字段組,將缺失值完全相同的特征放在一組,觀察數(shù)據(jù)分布;然后,使用相關(guān)性熱力圖進(jìn)行可視化,協(xié)議約束日期字段抽取的“年、月、日、星期幾、一年的某天、一年的某周、季度”字段信息具有相同的缺失記錄,將相關(guān)性高(r>0.97)的特征分為一組,按0.97閾值卡時(shí)間特征,然后選擇每一組中具有較多不同數(shù)據(jù)值的列來(lái)代替這一組,剔除冗余的列,這組選出的特征為“年、日、星期幾、一年的某天、一年的某周”。依此類推,計(jì)算各組特征的相關(guān)性,獲取需要的特征集。

      2.4 構(gòu)建LightGBM基線模型及模型分析

      根據(jù)相關(guān)性計(jì)算,從訓(xùn)練集及測(cè)試集選擇需要的特征列,設(shè)置LightGBM超參數(shù),構(gòu)建LightGBM基線模型進(jìn)行訓(xùn)練及預(yù)測(cè),預(yù)測(cè)結(jié)果發(fā)現(xiàn)基線模型出現(xiàn)過擬合現(xiàn)象。過擬合是因?yàn)橛?xùn)練集、測(cè)試集數(shù)據(jù)分布的差異性,本案例使用對(duì)抗法驗(yàn)證數(shù)據(jù)集的分布偏移,將訓(xùn)練集的標(biāo)簽設(shè)置為1,測(cè)試集的標(biāo)簽設(shè)置為0,訓(xùn)練一個(gè)LightGBM模型,通過AUC判斷訓(xùn)練集、測(cè)試集數(shù)據(jù)分布的差異程度,并且通過特征重要性的計(jì)算,判斷哪些特征帶來(lái)了較大的特征偏移。發(fā)現(xiàn)DEV_BUREAU_NAME(區(qū)局名稱)特征與訓(xùn)練集具有強(qiáng)關(guān)聯(lián)性,刪掉區(qū)局名稱特性,使用LightGBM基線模型進(jìn)行交叉驗(yàn)證,預(yù)測(cè)評(píng)分提升較顯著。

      使用對(duì)抗性驗(yàn)證法能找到過擬合的部分特征,但是將重要性特征榜單排名靠前的特征逐一去掉以后,發(fā)現(xiàn)預(yù)測(cè)評(píng)估分?jǐn)?shù)又大大下降,因此不能完全依賴于對(duì)抗性驗(yàn)證法,案例同時(shí)采用Kris驗(yàn)證法對(duì)每一個(gè)特征單獨(dú)進(jìn)行交叉驗(yàn)證,如果這個(gè)特征對(duì)訓(xùn)練集AUC貢獻(xiàn)較小,對(duì)驗(yàn)證集AUC貢獻(xiàn)度小于0.5,就去掉這個(gè)特征,在此基礎(chǔ)上繼續(xù)做特征重要性分析,微調(diào)選擇的特征集,預(yù)測(cè)評(píng)分又有所提升。

      2.5? 特征衍生與模型優(yōu)化

      特征衍生是基于現(xiàn)有的特征進(jìn)行組合,生成新的具有含義的特征。本案例中選擇重要類別的特征,如月均ARPU、地址客戶資產(chǎn)結(jié)構(gòu)、地址客戶月均ARPU等特征,將各重要類別進(jìn)行值分布編碼,以及重要類別進(jìn)行兩兩合并,兩個(gè)類別組成一個(gè)新特征,或者三三合并,將三個(gè)類別特征組成一個(gè)新特征,訓(xùn)練LightGBM模型進(jìn)行預(yù)測(cè),評(píng)分上升千3左右。

      在此基礎(chǔ)上進(jìn)行模型優(yōu)化,根據(jù)特征重要性進(jìn)行特征交叉,將類別與連續(xù)值之間進(jìn)行GroupBy聚合操作,又新產(chǎn)生180個(gè)新特征,再次按照之前的特征選擇步驟,選擇需要的特征,然后訓(xùn)練LightGBM模型及預(yù)測(cè),預(yù)測(cè)評(píng)分上升千5左右。

      3 基于分布式PySpark的機(jī)器學(xué)習(xí)算法

      Spark中提供了Ml、MLlib機(jī)器學(xué)習(xí)庫(kù),使分布式機(jī)器學(xué)習(xí)變得可擴(kuò)展和容易。在較高層次上,Spark提供了以下工具,ML算法:常見的學(xué)習(xí)算法,如分類、回歸、聚類和協(xié)作過濾;特征化:特征提取、轉(zhuǎn)換、降維和選擇;管道:構(gòu)建、評(píng)估和調(diào)整ML管道的工具;持久性:保存和加載算法、模型和管道;實(shí)用程序:線性代數(shù)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)處理等。

      本案例基于Spark大數(shù)據(jù)集群進(jìn)行分布式機(jī)器學(xué)習(xí)實(shí)戰(zhàn),從PySpark機(jī)器學(xué)習(xí)特征工程庫(kù) pyspark.ml.feature導(dǎo)入HashingTF、IDF,其中詞頻TF代表一個(gè)詞語(yǔ)出現(xiàn)的次數(shù),逆詞頻IDF代表一個(gè)詞語(yǔ)的重要程度,利用TF/IDF工具對(duì)客戶訪問應(yīng)用名稱、客戶訪問的主機(jī)URL構(gòu)建文本特征,采用Pyspark的VectorAssembler工具將文本特征、數(shù)值特征、類別特征、時(shí)間特征集成為特征向量,使用Pyspark機(jī)器學(xué)習(xí)模型(樸素貝葉斯、決策樹、隨機(jī)森林、邏輯回歸)進(jìn)行訓(xùn)練與預(yù)測(cè),預(yù)測(cè)客戶是否購(gòu)買全屋wifi產(chǎn)品。

      4 模型預(yù)測(cè)結(jié)果

      構(gòu)建LightGBM、樸素貝葉斯、決策樹、隨機(jī)森林、邏輯回歸模型,分別對(duì)測(cè)試集按指定的設(shè)備順序生成預(yù)測(cè)結(jié)果,提交官網(wǎng)平臺(tái)進(jìn)行評(píng)分,此次競(jìng)賽采用F1作為評(píng)分標(biāo)準(zhǔn),各模型評(píng)分如下:

      表1 各模型評(píng)分

      算法模型 評(píng)分

      LightGBM模型 350559.4

      樸素貝葉斯 329393.22

      決策樹 318355.36

      隨機(jī)森林 343471.21

      邏輯回歸 339417.16

      OneVsRest 339417.16

      5 結(jié)論及展望

      本文對(duì)基于大數(shù)據(jù)的智慧產(chǎn)品潛在客戶挖掘內(nèi)部競(jìng)賽的案例進(jìn)行了研究,對(duì)數(shù)據(jù)集的文本特征向量進(jìn)行了探索。在未來(lái),自然語(yǔ)言處理NLP將成為人工智能一個(gè)重要的發(fā)展領(lǐng)域,對(duì)自然語(yǔ)言處理的研究將充滿機(jī)遇和挑戰(zhàn)。

      6 致謝

      感謝中國(guó)電信上海公司組織“翼碼當(dāng)先”軟件人才競(jìng)賽活動(dòng),基于內(nèi)部大數(shù)據(jù)工作臺(tái)提供海量數(shù)據(jù),利用大數(shù)據(jù)工作臺(tái)的工具和能力進(jìn)行數(shù)據(jù)預(yù)處理和建模開發(fā),各參賽者基于在線編程環(huán)境順利完成比賽。

      參考文獻(xiàn)

      [1]《Spark大數(shù)據(jù)商業(yè)實(shí)戰(zhàn)三部曲》第二版:清華大學(xué)出版社,王家林、段智華

      [2]王家林 五節(jié)課內(nèi)從零起步(無(wú)需數(shù)學(xué)和Python基礎(chǔ))編碼實(shí)現(xiàn)AI人工智能框架電子書

      猜你喜歡
      大數(shù)據(jù)
      基于在線教育的大數(shù)據(jù)研究
      “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
      基于大數(shù)據(jù)的小微電商授信評(píng)估研究
      大數(shù)據(jù)時(shí)代新聞的新變化探究
      商(2016年27期)2016-10-17 06:26:00
      淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
      今傳媒(2016年9期)2016-10-15 23:35:12
      “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
      今傳媒(2016年9期)2016-10-15 22:09:11
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      英德市| 巩义市| 南澳县| 柘荣县| 英山县| 社旗县| 汶川县| 泰州市| 响水县| 潢川县| 高密市| 基隆市| 宣城市| 巍山| 巴林右旗| 鹿泉市| 新晃| 汉阴县| 西藏| 永嘉县| 三河市| 定远县| 道孚县| 平阴县| 郯城县| 平塘县| 定兴县| 长兴县| 道孚县| 邵阳市| 崇文区| 海口市| 尖扎县| 永修县| 连州市| 旌德县| 临汾市| 长沙县| 上栗县| 治县。| 密云县|