• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機(jī)器學(xué)習(xí)在運(yùn)營(yíng)商用戶流失預(yù)警中的運(yùn)用

      2018-05-03 10:01:26劉穎慧崔羽飛
      信息通信技術(shù) 2018年1期
      關(guān)鍵詞:決策樹分類客戶

      趙 慧 劉穎慧 崔羽飛 張 第

      中國(guó)聯(lián)通研究院北京10032

      引言

      我國(guó)通信行業(yè)經(jīng)過(guò)近二十年的發(fā)展,現(xiàn)在基本呈現(xiàn)三足鼎立的局勢(shì)。各企業(yè)競(jìng)爭(zhēng)日趨激烈,各大運(yùn)營(yíng)商都面臨著客戶狀態(tài)不穩(wěn)定,客戶生命周期縮短等問(wèn)題。

      移動(dòng)通信行業(yè)的現(xiàn)有企業(yè)中,一般情況下客戶月流失率在3%左右,如果靜態(tài)計(jì)算,所有客戶會(huì)在2~3年內(nèi)全部流失。

      2017年我國(guó)的移動(dòng)電話普及率首次突破102.5部/百人,在一個(gè)如此成熟和飽和的市場(chǎng)中,開拓新用戶的難度可想而知。從傳統(tǒng)意義上來(lái)講,移動(dòng)通信行業(yè)保留舊客戶利潤(rùn)率為開發(fā)一位新客戶的16倍,尤其對(duì)于剩余客戶市場(chǎng)日漸稀疏的移動(dòng)通信市場(chǎng)來(lái)說(shuō),減少客戶流失就意味著用更少的成本減少利潤(rùn)的流失,這點(diǎn)已經(jīng)為運(yùn)營(yíng)商所廣為接受。由此可見(jiàn)客戶保持的重要性,也就是說(shuō)保留舊客戶比開發(fā)、吸收新客戶更重要,如何提前識(shí)別高風(fēng)險(xiǎn)流失客戶更是首先需要解決的問(wèn)題,成為通信企業(yè)越來(lái)越關(guān)注的焦點(diǎn)。

      之所以將機(jī)器學(xué)習(xí)應(yīng)用于運(yùn)營(yíng)商用戶離網(wǎng)分析,是因?yàn)闄C(jī)器學(xué)習(xí)是一種基于數(shù)據(jù)的自主學(xué)習(xí)方法,相較于傳統(tǒng)的用戶維挽,機(jī)器學(xué)習(xí)可以提高效率、提高準(zhǔn)確性、降低成本。

      按照不同的應(yīng)用類型,機(jī)器學(xué)習(xí)分類算法對(duì)用戶是否離網(wǎng)預(yù)測(cè)水平的量化評(píng)價(jià)指標(biāo)包括準(zhǔn)確率、召回率、精確率、F1得分等。為了實(shí)現(xiàn)優(yōu)秀的分類預(yù)測(cè)效果,眾多的分類算法被提出,并在業(yè)界使用。其中一類方法非常特殊,我們稱為多模型融合算法。融合算法是將多個(gè)推薦算法通過(guò)特定的方式進(jìn)行組合,融合在機(jī)器學(xué)習(xí)中扮演著極為重要的作用,本文結(jié)合聯(lián)通青海用戶離網(wǎng)預(yù)測(cè)的實(shí)踐經(jīng)驗(yàn)為大家系統(tǒng)性地介紹。

      相較于傳統(tǒng)成本高、準(zhǔn)確率低的客戶維挽方法,本文建立的客戶流失預(yù)警模型是使用機(jī)器學(xué)習(xí)分類算法和模型融合手段,整合客戶歷史海量數(shù)據(jù),通過(guò)對(duì)客戶基本狀態(tài)屬性與歷史行為屬性等數(shù)據(jù)進(jìn)行深入分析,提煉出已流失客戶在流失前具有的特征,建立流失預(yù)警模型。具體來(lái)說(shuō)是通過(guò)對(duì)用戶的流量、通話、短信、資費(fèi)等信息,使用用戶三個(gè)月為周期的數(shù)據(jù)進(jìn)行模型訓(xùn)練,運(yùn)用機(jī)器學(xué)習(xí)技術(shù),使用決策樹、隨機(jī)森林、邏輯回歸等算法對(duì)多個(gè)模型結(jié)果進(jìn)行模型融合,提高預(yù)測(cè)精度,對(duì)客戶下下個(gè)月是否流失進(jìn)行預(yù)測(cè)。

      本模型不僅僅給出客戶流失預(yù)測(cè)的名單,同時(shí)給出用戶流失的可能性得分,以及影響用戶是否流失的最重要的指標(biāo)排名,幫助企業(yè)提前識(shí)別高風(fēng)險(xiǎn)流失客戶,顯著提高企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力。

      1 機(jī)器學(xué)習(xí)理論

      根據(jù)文獻(xiàn)[1]可知機(jī)器學(xué)習(xí)有很多方法,大體上可以分為監(jiān)督學(xué)習(xí)(Supervised Learning)、無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)、半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning)、強(qiáng)化學(xué)習(xí)(Reinforcement Learning)等。下面對(duì)各類學(xué)習(xí)做一簡(jiǎn)單概述。

      1.1 監(jiān)督式學(xué)習(xí)

      監(jiān)督式學(xué)習(xí)算法訓(xùn)練的數(shù)據(jù)含有兩大部分,一部分是含有很多特征的預(yù)測(cè)變量,一部分是有一個(gè)標(biāo)簽或是目標(biāo)的目標(biāo)變量。通過(guò)這些變量搭建一個(gè)模型,對(duì)于一個(gè)已知的預(yù)測(cè)變量值,我們可以得到對(duì)應(yīng)的目標(biāo)變量值。重復(fù)訓(xùn)練這個(gè)模型,直到它能在訓(xùn)練數(shù)據(jù)集上達(dá)到預(yù)定的準(zhǔn)確度。屬于監(jiān)督式學(xué)習(xí)的算法有:回歸模型、決策樹、隨機(jī)森林、K鄰近算法、邏輯回歸等。

      用戶流失預(yù)警本質(zhì)上是監(jiān)督式學(xué)習(xí)中的分類模型,包含目標(biāo)變量即用戶是否流失的標(biāo)簽,同時(shí)含有自變量也就是我們使用的流量、短信、語(yǔ)音等相關(guān)預(yù)測(cè)變量字段。通過(guò)這些變量搭建用戶流失預(yù)警模型,對(duì)于已知的用戶是否流失標(biāo)簽,得到對(duì)應(yīng)的流失預(yù)測(cè),重復(fù)訓(xùn)練用戶流失模型,直到它在我們指定的模型評(píng)估指標(biāo)上達(dá)到最優(yōu)狀態(tài)。因此我們需要使用分類算法,本文選用邏輯回歸、決策樹、隨機(jī)森林這三個(gè)分類模型。下面介紹本文使用的三個(gè)機(jī)器學(xué)習(xí)分類算法理論以及各自的優(yōu)缺點(diǎn)。

      1)邏輯回歸模型是由以下條件概率分布模型表示的分類模型,可以用于二分類或多類分類,概率分布如下。

      這里,x為輸入特征,w為相應(yīng)特征對(duì)應(yīng)的權(quán)重。

      邏輯回歸模型源于邏輯斯蒂分布,其分布函數(shù)F(x)是s型函數(shù)。邏輯回歸模型是由輸入的線性函數(shù)表示的輸出的對(duì)數(shù)概率模型。

      邏輯回歸模型一般采用極大似然估計(jì),或正則化的極大似然估計(jì),可以形式化為無(wú)約束最優(yōu)化問(wèn)題。求解該最優(yōu)化問(wèn)題的算法有梯度下降法、擬牛頓法等。

      邏輯回歸的優(yōu)點(diǎn):①便利的觀測(cè)樣本概率分?jǐn)?shù);②對(duì)邏輯回歸而言,多重共線性并不是問(wèn)題,它可以結(jié)合L2正則化來(lái)解決;③邏輯回歸廣泛應(yīng)用于工業(yè)問(wèn)題上。

      邏輯回歸的缺點(diǎn):①當(dāng)特征空間很大時(shí),邏輯回歸的性能不是很好;②不能很好地處理大量多類特征或變量;③對(duì)于非線性特征,需要進(jìn)行轉(zhuǎn)換;④依賴于全部的數(shù)據(jù)。

      如果想繼續(xù)了解邏輯回歸與其他算法,比如樸素貝葉斯、Adaboost等的關(guān)系,可以參見(jiàn)文獻(xiàn) [2]、[3]。

      2)分類決策樹模型是表示基于特征對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹可以轉(zhuǎn)換成一個(gè)if—then規(guī)則的集合,也可以看作是定義在特征空間劃分上的類的條件概率分布。

      決策樹學(xué)習(xí)旨在構(gòu)建一個(gè)與訓(xùn)練數(shù)據(jù)擬合很好,并且復(fù)雜度小的決策樹。因?yàn)閺目赡艿臎Q策樹中直接選取最優(yōu)決策樹是NP完全問(wèn)題?,F(xiàn)實(shí)中學(xué)習(xí)次優(yōu)的決策樹。

      決策樹學(xué)習(xí)算法包括3部分:特征選擇、樹的生成和樹的剪枝。常用的算法有ID3、C4.5和CART。

      特征選擇的目的在于選取對(duì)訓(xùn)練數(shù)據(jù)能夠分類的特征。特征選擇的關(guān)鍵是準(zhǔn)則。常用的準(zhǔn)則如下。

      ①樣本集合D對(duì)于特征A的信息增益(ID3)。

      其中,H(D)是數(shù)據(jù)集D的熵,H(Di)是數(shù)據(jù)集Di的熵,是數(shù)據(jù)集D對(duì)特征A的條件熵,Di是D中特征A取第i個(gè)值的樣本子集,Ck是D屬于第k類的樣本子集,n為特征A取值的個(gè)數(shù),k是類的個(gè)數(shù)。關(guān)于ID3算法可見(jiàn)文獻(xiàn)[4]。

      ②樣本集合D對(duì)特征A的信息增益比(C4.5)。

      其中,g(D,A)是信息增益,HA(D)是D關(guān)于特征A的值的熵。關(guān)于C4.5算法可見(jiàn)文獻(xiàn)[5]。

      ③樣本集合D的基尼指數(shù)(CART)。

      特征A條件下集合D的基尼指數(shù):

      關(guān)于CART算法可見(jiàn)文獻(xiàn)[6]、[7]。

      ④決策樹的生成。通常使用信息增益最大、信息增益比最大或基尼指數(shù)最小作為特征選擇的準(zhǔn)則。決策樹的生成往往通過(guò)計(jì)算信息增益或其他指標(biāo),從根節(jié)點(diǎn)開始,遞歸地產(chǎn)生決策樹。這相當(dāng)于用信息增益或其他準(zhǔn)則不斷地選取局部最優(yōu)的特征,或?qū)⒂?xùn)練集分割為能夠基本正確分類的子集。

      ⑤決策樹的剪枝。由于生成的決策樹存在過(guò)擬合問(wèn)題,需要對(duì)它進(jìn)行剪枝,以簡(jiǎn)化學(xué)到的決策樹。往往從已生成的樹上剪掉一些葉節(jié)點(diǎn)或葉節(jié)點(diǎn)以上的子樹,并將其父結(jié)點(diǎn)或根結(jié)點(diǎn)作為新的葉結(jié)點(diǎn)。

      決策樹的優(yōu)點(diǎn):①直觀的決策規(guī)則;②可以處理非線性特征;③考慮了變量之間的相互作用。

      決策樹的缺點(diǎn):①直觀的決策規(guī)則;②訓(xùn)練集上的效果易高度優(yōu)于測(cè)試集,即過(guò)擬合。

      3)隨機(jī)森林。單模型分類方法模型往往精度不高,容易出現(xiàn)過(guò)擬合問(wèn)題,因此很多學(xué)者往往通過(guò)組合多個(gè)單分類模型來(lái)提高預(yù)測(cè)精度,這些方法稱為分類器組合方法。隨機(jī)森林是為了解決單個(gè)決策樹模型過(guò)擬合問(wèn)題而提出的算法。隨機(jī)森林是一種統(tǒng)計(jì)學(xué)習(xí)理論,它利用bootstrap重抽樣方法從原始樣本中抽取多個(gè)樣本,然后對(duì)每個(gè)bootstrap樣本進(jìn)行決策樹建模,然后組合成多棵決策樹進(jìn)行預(yù)測(cè),并通過(guò)投票得到最終預(yù)測(cè)結(jié)果,分類公式如下。

      其中,H(x)表示隨機(jī)森林分類結(jié)果,hi(x)是單個(gè)決策樹分類結(jié)果,Y表示分類目標(biāo),I(.)為示性函數(shù),通過(guò)投票策略max完成最終分類。

      隨機(jī)森林的優(yōu)點(diǎn):①對(duì)于很多類別,它可以產(chǎn)生高準(zhǔn)確度的分類器;②它可以處理大規(guī)模的數(shù)據(jù)輸入;③可以在決定類別時(shí),順便評(píng)估變量的重要性;④對(duì)于有缺失值的情況,它仍能維持較高的準(zhǔn)確度;⑤對(duì)于不平衡的分類數(shù)據(jù),它可以平衡誤差。

      隨機(jī)森林的缺點(diǎn):①隨機(jī)森林被證明在某些噪聲較大的分類或回歸問(wèn)題上會(huì)過(guò)擬合;②對(duì)于有不同級(jí)別的屬性的數(shù)據(jù),級(jí)別劃分較多的屬性會(huì)對(duì)隨機(jī)森林產(chǎn)生更大的影響,所以隨機(jī)森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。

      關(guān)于隨機(jī)森林算法可見(jiàn)文獻(xiàn)[2]。

      1.2 無(wú)監(jiān)督式學(xué)習(xí)

      與監(jiān)督式學(xué)習(xí)不同的是,無(wú)監(jiān)督式學(xué)習(xí)是學(xué)習(xí)數(shù)據(jù)集上有用的結(jié)構(gòu)性質(zhì)。通常學(xué)習(xí)數(shù)據(jù)集的概率分布、密度估計(jì)等。屬于無(wú)監(jiān)督式學(xué)習(xí)的算法有:關(guān)聯(lián)規(guī)則、K-means聚類算法等。

      1.3 強(qiáng)化學(xué)習(xí)

      這個(gè)算法可以訓(xùn)練程序做出某一決定。程序在某一情況下嘗試所有的可能行動(dòng),記錄不同行動(dòng)的結(jié)果并試著找出最好的一次嘗試來(lái)做決定。屬于這一類算法的有馬爾可夫決策過(guò)程。

      1.4 模型融合

      用戶流失預(yù)警模型面對(duì)的應(yīng)用場(chǎng)景往往存在非常大的差異。例如新/老用戶、高/低價(jià)值客戶等等,這些不同的用戶屬性中,不同的機(jī)器學(xué)習(xí)分類算法往往都存在著不同的適用群體,不存在一個(gè)機(jī)器學(xué)習(xí)分類算法在所有情況下都勝過(guò)其他的算法。所以融合方法的思想就自然而然出現(xiàn)了,即充分運(yùn)用不同機(jī)器學(xué)習(xí)分類算法的優(yōu)勢(shì),取長(zhǎng)補(bǔ)短,組合形成一個(gè)強(qiáng)大的用戶流失預(yù)警框架,俗話說(shuō)“三個(gè)臭皮匠頂個(gè)諸葛亮”;因此,模型融合可以增強(qiáng)預(yù)測(cè)的精度和泛化能力。劣勢(shì)就是重計(jì)算造成了時(shí)間的損失,并且存在好壞不一的結(jié)合可能不如單個(gè)分類器效果好的風(fēng)險(xiǎn),因此我們?cè)谀P腿诤现?,?duì)模型使用Grid Search方法進(jìn)行了單個(gè)模型最優(yōu)參數(shù)的選擇,保證模型融合之前的單個(gè)分類器預(yù)測(cè)結(jié)果是最優(yōu)的。常用的模型融合方法有統(tǒng)一融合(Voting)、堆融合(Stacking)等。本文對(duì)3個(gè)基礎(chǔ)模型采取投票制的方法,投票多者確定為最終的分類。

      1.5 網(wǎng)格搜索

      網(wǎng)格搜索(Grid Search)實(shí)際上就是暴力搜索, 它存在的意義就是自動(dòng)調(diào)參,只要把參數(shù)輸進(jìn)去,就能給出最優(yōu)化的結(jié)果和參數(shù)。首先為想要調(diào)參的參數(shù)設(shè)定一組候選值,然后網(wǎng)格搜索會(huì)窮舉各種參數(shù)組合,通過(guò)調(diào)節(jié)每一個(gè)參數(shù)來(lái)跟蹤評(píng)分結(jié)果,實(shí)際上,該過(guò)程代替了進(jìn)行參數(shù)搜索時(shí)的for循環(huán)過(guò)程。根據(jù)設(shè)定的評(píng)分機(jī)制找到最好的那一組設(shè)置,即尋找最優(yōu)超參數(shù)的算法。此外采用基于網(wǎng)格搜索的交叉驗(yàn)證法來(lái)選擇模型參數(shù),避免了參數(shù)選擇的盲目性和隨意性。

      2 實(shí)例建模

      主要介紹用戶流失預(yù)警模型的生產(chǎn)系統(tǒng)布置反饋流程、模型輸入字段屬性及用戶群確定、模型的具體實(shí)施流程,同時(shí)給出部分模型測(cè)試結(jié)果。

      本模型以聯(lián)通青海省4G用戶數(shù)據(jù)為實(shí)例進(jìn)行模型訓(xùn)練,得到最優(yōu)模型參數(shù),用于未來(lái)月份的用戶是否流失的預(yù)測(cè),給出流失清單、流失可能性得分、影響流失的重要因子。模型可用于用戶維系、模型校驗(yàn)、模型優(yōu)化等具體的場(chǎng)景

      2.1 生產(chǎn)系統(tǒng)布署

      模型從產(chǎn)生到生產(chǎn)系統(tǒng)落地應(yīng)用主要分為8個(gè)步驟,分別為:確定目標(biāo)用戶群、模型預(yù)測(cè)、給出流失清單(得分、是否流失、重要指標(biāo))、用戶維系、維系結(jié)果反饋、效果總結(jié)對(duì)比、模型的進(jìn)一步優(yōu)化、模型效果進(jìn)一步校驗(yàn),通過(guò)優(yōu)化和校驗(yàn)再進(jìn)一步指導(dǎo)模型的預(yù)測(cè),提高模型預(yù)測(cè)精度。

      2.2 建模主要階段、步驟

      數(shù)據(jù)準(zhǔn)備的最終目的是形成寬表。關(guān)于寬表的細(xì)節(jié)表述請(qǐng)見(jiàn)文獻(xiàn)[8]。寬表把流失預(yù)測(cè)可能使用到的各種屬性都集成到了每月一張的表中,極大地方便了后面的流失預(yù)測(cè)工作。此外,在寬表中要添加一個(gè)重要屬性,那就是是否流失。0為繼續(xù)保持在網(wǎng),1為預(yù)測(cè)為流失。這個(gè)屬性的取值要根據(jù)之前在需求分析中約定的預(yù)測(cè)時(shí)間點(diǎn)來(lái)確定。

      寬表中包括了用戶流失預(yù)警模型所需的部分字段,主要包括用戶的基本資料、用戶的行為屬性、根據(jù)原始屬性產(chǎn)出的衍生指標(biāo)以及我們的目標(biāo)字段也就是用戶當(dāng)月是否流失的標(biāo)識(shí),如表1所示。

      表1 寬表

      以聯(lián)通青海省4G用戶的基本資料、用戶產(chǎn)生的語(yǔ)音、流量、短信、資費(fèi)等相關(guān)字段為依托的整個(gè)模型建設(shè)流程如圖2所示,可以看出整個(gè)建模部分的流程主要分為6大部分,分別為:數(shù)據(jù)初步處理核查、數(shù)據(jù)清洗預(yù)處理、樣本分割CV采樣、模型庫(kù)建立、網(wǎng)格搜索參數(shù)調(diào)優(yōu)、最后的結(jié)果輸出。

      圖2 模型建設(shè)流程圖

      其中第1部分我們首先遍歷整個(gè)數(shù)據(jù)庫(kù)表,初步整理及過(guò)濾掉無(wú)關(guān)重復(fù)的字段,定義并且轉(zhuǎn)換模型所需要的數(shù)據(jù)類型及編碼使得數(shù)據(jù)便于理解,同時(shí)會(huì)對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,查看其眾數(shù)、中位數(shù)、均值、缺失值等基本信息;第2部分對(duì)數(shù)據(jù)做清洗預(yù)處理,基于第1部分得到的關(guān)于數(shù)據(jù)的初步描述過(guò)濾掉一些異常的字段因子,同時(shí)使用基于均值、中位數(shù)等方法對(duì)缺失值進(jìn)行填充或者剔除,對(duì)部分連續(xù)性數(shù)據(jù)進(jìn)行中心標(biāo)準(zhǔn)化或者離散化處理,這個(gè)時(shí)候會(huì)對(duì)字段基于相關(guān)系數(shù)、Lasso等方法進(jìn)行二次選擇,同時(shí)劃分用戶群;緊接著第3部分對(duì)篩選出來(lái)的數(shù)據(jù)基于交叉驗(yàn)證方法進(jìn)行采樣劃分,劃分的比例為7∶3,其中70%用于訓(xùn)練,30%用于測(cè)試;第4、5部分基于劃分出來(lái)的訓(xùn)練集進(jìn)行模型庫(kù)的建立,本文建立邏輯回歸、決策樹、隨機(jī)森林算法模型,基于全搜索方法建立充分參數(shù)的模型庫(kù),在模型庫(kù)中基于Grid Search方法尋找到與訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)都表現(xiàn)良好的充分匹配的模型最優(yōu)參數(shù),進(jìn)而得到各個(gè)算法的最優(yōu)模型,這個(gè)時(shí)候?qū)θ齻€(gè)最優(yōu)模型進(jìn)行保存;第6部分對(duì)我們要預(yù)測(cè)的數(shù)據(jù)進(jìn)行模型調(diào)用,這個(gè)時(shí)候可以得到三個(gè)最優(yōu)模型關(guān)于要預(yù)測(cè)的數(shù)據(jù)的輸出結(jié)果,主要包括流失的概率、是否流失標(biāo)簽、模型的重要性因子,基于模型的輸出結(jié)果我們對(duì)三個(gè)模型進(jìn)行結(jié)果的融合,主要包括對(duì)流失概率進(jìn)行均值處理,對(duì)是否流失進(jìn)行投票處理,同時(shí)基于隨機(jī)森林得到的模型重要性因子進(jìn)行從高到低排名,我們?nèi)∽钪匾?個(gè)因子作為輸出,最后輸出的結(jié)果包括用戶的唯一標(biāo)識(shí)、用戶是否流失的標(biāo)簽、用戶流失的可能性得分、用戶在流失的最重要5個(gè)因子字段對(duì)應(yīng)的數(shù)值,具體形式見(jiàn)表2。

      表2 模型輸出結(jié)果

      本用戶流失預(yù)警模型也可以嘗試使用其他的分類算法,具體的細(xì)節(jié)可以學(xué)習(xí)文獻(xiàn)[2]。

      2.3 預(yù)測(cè)結(jié)果

      在流失預(yù)警模型輸入用戶對(duì)應(yīng)于寬表的相關(guān)字段數(shù)據(jù),對(duì)用戶是否在一定時(shí)間內(nèi)流失進(jìn)行預(yù)測(cè)判斷,模型同時(shí)輸出用戶的流失可能性得分以及導(dǎo)致用戶流失的重要性因子。

      表3是邏輯回歸、決策樹、隨機(jī)森林基于聯(lián)通青海4G用戶2017年5、6、7月份數(shù)據(jù)預(yù)測(cè)9月份數(shù)據(jù)得到的測(cè)試集上的結(jié)果??梢钥闯瞿P偷念A(yù)測(cè)指標(biāo)效果從整體來(lái)說(shuō)是令人滿意的,其中邏輯回歸效果差一點(diǎn)、決策樹效果中等、隨機(jī)森林預(yù)測(cè)效果最好??梢?jiàn)每個(gè)算法都有自己獨(dú)有的特點(diǎn),為了達(dá)到“三個(gè)臭皮匠頂個(gè)諸葛亮”的效果,也為了模型結(jié)果的穩(wěn)定性,我們最后使用了模型融合方法,對(duì)三個(gè)算法的預(yù)測(cè)結(jié)果進(jìn)行了融合,從融合結(jié)果來(lái)看,它比單個(gè)算法的效果要好。

      表3 默認(rèn)模型預(yù)測(cè)效果評(píng)估關(guān)鍵指標(biāo)

      表4是基于2017年5、6、7月份數(shù)據(jù)使用網(wǎng)格搜索方法調(diào)優(yōu)后預(yù)測(cè)9月份數(shù)據(jù)得到的測(cè)試集上的結(jié)果??梢钥闯鋈齻€(gè)算法的各個(gè)指標(biāo)都有了比較明顯的提升,最后模型融合的各個(gè)指標(biāo)也相對(duì)提升了。說(shuō)明網(wǎng)格搜索方法不僅節(jié)省了尋找模型最優(yōu)參數(shù)的時(shí)間,同時(shí)與模型融合可以自動(dòng)把模型預(yù)測(cè)效果提升,盡可能得到我們理想中的結(jié)果。

      表4 網(wǎng)格搜索模型預(yù)測(cè)效果評(píng)估關(guān)鍵指標(biāo)

      3 建議

      本文從運(yùn)營(yíng)商所面臨的用戶流失場(chǎng)景出發(fā),結(jié)合實(shí)際情況分析了當(dāng)前用戶流失的現(xiàn)狀,傳統(tǒng)用戶維挽的缺點(diǎn),給出了使用機(jī)器學(xué)習(xí)算法建立用戶流失預(yù)警模型對(duì)用戶進(jìn)行維挽的優(yōu)勢(shì)。介紹了文章使用的機(jī)器學(xué)習(xí)算法的相關(guān)理論、優(yōu)缺點(diǎn)。給出了用戶流失預(yù)警模型的實(shí)現(xiàn)框架,在實(shí)例建模部分給出了預(yù)測(cè)青海省相關(guān)用戶流失的結(jié)果以及結(jié)果對(duì)比分析。

      數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已,從模型結(jié)果來(lái)看,我們的預(yù)測(cè)效果還可以,但是如果想進(jìn)一步提升預(yù)測(cè)的各個(gè)指標(biāo),可以參考從模型和算法方向給出的相關(guān)建議。

      3.1 模型調(diào)優(yōu)方向

      1)依據(jù)前期模型理解與實(shí)操經(jīng)驗(yàn),改進(jìn)前期模型存在問(wèn)題。①進(jìn)一步增加可能提高模型相應(yīng)預(yù)測(cè)指標(biāo)的字段,比如和用戶各種費(fèi)用相關(guān)的字段。②提高模型輸入數(shù)據(jù)的品質(zhì),比如進(jìn)一步增加特征提取,基于業(yè)務(wù)增加復(fù)合指標(biāo)。③提高模型調(diào)優(yōu)速度,比如基于業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行相關(guān)參數(shù)的設(shè)定等。④進(jìn)一步優(yōu)化數(shù)據(jù)預(yù)處理方式:如不同的因子基于其特點(diǎn),采用不同的方式進(jìn)行數(shù)據(jù)清洗、中心化標(biāo)準(zhǔn)化、離散化;根據(jù)用戶的特點(diǎn)采用聚類方式對(duì)用戶進(jìn)行進(jìn)一步的劃分;嘗試更多的分類算法或者深度學(xué)習(xí)算法進(jìn)行模型的不同方式的融合;不同的用戶群,可采用不同的抽樣比例進(jìn)行分層抽樣等等。

      2)可以收集或者使用更多可用的原始數(shù)據(jù),提取特征,優(yōu)化模型,提高模型預(yù)測(cè)相關(guān)的指標(biāo)。如用戶累計(jì)欠費(fèi)金額、累計(jì)充值次數(shù)、累計(jì)投訴次數(shù)等等。

      3)緊密結(jié)合業(yè)務(wù),結(jié)合實(shí)際的生產(chǎn)經(jīng)驗(yàn)、更多期的數(shù)據(jù)反饋等,進(jìn)一步提高模型的預(yù)測(cè)結(jié)果。

      3.2 算法使用方向

      現(xiàn)在深度學(xué)習(xí)在各個(gè)領(lǐng)域已經(jīng)取得了比較優(yōu)秀的結(jié)果,后續(xù)可以使用lstm等深度學(xué)習(xí)算法嘗試預(yù)測(cè)用戶是否流失。

      [1]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012

      [2]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016

      [3]Michael Collins,Robert E Schapire,Yoram Singer.Logistic regression,AdaBoost and Bregman distances[J].Machine Learning,2002,48(1-3):253-285

      [4]Podgorelec V,Zorman M.Decision Tree Learning[J].2017,2:1751-1754

      [5]金田重郎,Quinlan J R.C4.5 Programs for Machine Learning[J].Journal of Japanese Society for Artificial Intelligence,1995,5:475-476

      [6]Breiman L,Friedman J H,Olshen R A,et al.Classification And Regression Trees[M].Wadsworth International Group,1984:17–23

      [7]Ripley Brian D.Pattern Recognition and Neural Networks:Tree-structured Classifiers[M].Cambridge:Cambridge University Press,1996:233-234

      [8]連建勇,李磊,陸勇.基于數(shù)據(jù)挖掘的電信客戶流失預(yù)測(cè)模型研究[D].廣州:中山大學(xué),2008

      猜你喜歡
      決策樹分類客戶
      分類算一算
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      分類討論求坐標(biāo)
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      數(shù)據(jù)分析中的分類討論
      為什么你總是被客戶拒絕?
      教你一招:數(shù)的分類
      如何有效跟進(jìn)客戶?
      基于決策樹的出租車乘客出行目的識(shí)別
      做個(gè)不打擾客戶的保鏢
      山東青年(2016年2期)2016-02-28 14:25:41
      巢湖市| 建湖县| 三门县| 彝良县| 定结县| 霍州市| 宁化县| 蒙山县| 江津市| 思南县| 宁蒗| 沅陵县| 左贡县| 永清县| 高阳县| 蒙自县| 开江县| 报价| 临夏市| 台中市| 宁强县| 毕节市| 商水县| 富阳市| 白山市| 时尚| 美姑县| 禹城市| 鄂伦春自治旗| 巴楚县| 汉寿县| 大洼县| 雷山县| 宜州市| 东辽县| 习水县| 邵武市| 青海省| 吉水县| 云浮市| 原平市|