• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于隨機(jī)森林和K-means算法的網(wǎng)絡(luò)視頻客戶流失預(yù)測(cè)與分析

    2022-08-03 09:27:00龍冰婷
    關(guān)鍵詞:決策樹類別聚類

    龍冰婷

    (廣州華商學(xué)院 數(shù)據(jù)科學(xué)學(xué)院,廣州 511300)

    隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,截至2020年12月,我國(guó)網(wǎng)民規(guī)模達(dá)9.89億,互聯(lián)網(wǎng)普及率達(dá)70.4%[1].多屏互動(dòng)技術(shù)的出現(xiàn),使得智能手機(jī)、平板、電腦和互聯(lián)網(wǎng)電視等網(wǎng)絡(luò)設(shè)備間實(shí)現(xiàn)內(nèi)容共享,人們對(duì)網(wǎng)絡(luò)的依賴性越來越強(qiáng),我國(guó)網(wǎng)民規(guī)模將進(jìn)一步擴(kuò)大.據(jù)統(tǒng)計(jì),2015-2017年整個(gè)網(wǎng)民群體中,網(wǎng)絡(luò)視頻用戶占比達(dá)到75%[2].網(wǎng)絡(luò)視頻市場(chǎng)前景十分可觀,網(wǎng)絡(luò)視頻商家之間存在著巨大的競(jìng)爭(zhēng),網(wǎng)絡(luò)視頻用戶也成為各網(wǎng)絡(luò)視頻服務(wù)商的爭(zhēng)奪目標(biāo).研究表明,新客戶的獲取成本是老客戶維護(hù)成本的5~6倍[3].所以,要獲得更多的訂閱者,不僅要考慮開發(fā)新客戶,更需要維護(hù)現(xiàn)有客戶.客戶流失成為各企業(yè)關(guān)注的核心問題,如何有效地提升現(xiàn)有客戶保有率的問題亟待解決.

    客戶流失問題的研究主要包括兩方面:客戶流失預(yù)測(cè)和流失原因分析,預(yù)測(cè)即將流失的客戶,進(jìn)一步分析流失的原因,針對(duì)性地采取挽留措施,才能達(dá)到減少客戶流失的目的.國(guó)內(nèi)外學(xué)者對(duì)客戶流失問題做了大量的研究,楊榮等[4]結(jié)合用戶手機(jī)套餐資費(fèi)情況,建立CART(classification and regression tree)決策樹模型預(yù)測(cè)客戶流失,從而對(duì)運(yùn)營(yíng)商啟動(dòng)流失預(yù)警.楊琳等[5]對(duì)航空客戶建立隨機(jī)森林流失預(yù)測(cè)模型,結(jié)合改進(jìn)的RFM(recency frequency monetary)模型,對(duì)航空客戶流失進(jìn)行預(yù)測(cè),準(zhǔn)確率較高,并進(jìn)一步對(duì)不同類別的流失客戶提供營(yíng)銷策略.丁君美等[6]針對(duì)電信業(yè)客戶流失不平衡分類問題,提出改進(jìn)的隨機(jī)森林算法,實(shí)驗(yàn)表明具有良好的分類性能.馬文斌等[7]構(gòu)建基于深度神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測(cè)模型,應(yīng)用于電信客戶流失預(yù)測(cè),取得了較好的預(yù)測(cè)效果,但是神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建需要大量參數(shù),黑盒操作,預(yù)測(cè)結(jié)果不易解釋.因此,從業(yè)務(wù)角度考慮,優(yōu)先選擇統(tǒng)計(jì)解釋性強(qiáng)且預(yù)測(cè)效果好的算法進(jìn)行客戶流失預(yù)測(cè),如基于統(tǒng)計(jì)學(xué)習(xí)理論的方法[8-10]、基于集成學(xué)習(xí)理論的方法[11-13].對(duì)于客戶流失原因的分析,于小兵等[14]結(jié)合不同行業(yè)案例進(jìn)行分析,導(dǎo)致客戶流失的具體原因不盡相同.周婉婷等[15]將電子商務(wù)客戶分為活躍和非活躍兩類客戶,對(duì)比分析不同類別的客戶流失的影響因素,進(jìn)而提出差異化的管理策略.

    國(guó)內(nèi)外學(xué)者研究了眾多行業(yè)客戶流失問題,但對(duì)于網(wǎng)絡(luò)視頻訂閱客戶流失問題的研究,尚沒有進(jìn)行定量分析.本文將隨機(jī)森林應(yīng)用于網(wǎng)絡(luò)視頻訂閱客戶流失預(yù)測(cè)中,通過客戶的相關(guān)特征預(yù)測(cè)大概率會(huì)流失的客戶,實(shí)驗(yàn)結(jié)果表明隨機(jī)森林的預(yù)測(cè)效果良好.然后進(jìn)一步將CMASL(contract monetary activity satisfaction long)模型與K-means聚類結(jié)合,分析客戶流失的原因,針對(duì)不同類型的流失客戶給出相應(yīng)的挽留策略,從而改善網(wǎng)絡(luò)視頻服務(wù)商客戶流失問題,獲取更高的收益,提升企業(yè)競(jìng)爭(zhēng)力.

    1 相關(guān)算法介紹及算法實(shí)現(xiàn)

    1.1 隨機(jī)森林

    使用隨機(jī)森林對(duì)客戶流失進(jìn)行預(yù)測(cè),隨機(jī)森林是集成學(xué)習(xí)方法Bagging的一個(gè)擴(kuò)展變體[16],從名稱上可以了解到該算法的兩大特點(diǎn):“隨機(jī)”和“森林”.

    1)“隨機(jī)”.Bagging算法基于自助采樣法抽取m個(gè)訓(xùn)練樣本,每m個(gè)訓(xùn)練樣本用來訓(xùn)練一個(gè)基學(xué)習(xí)器,總共采樣T個(gè)采樣集,用來構(gòu)建T個(gè)基學(xué)習(xí)器[17].自助采樣法的采樣“隨機(jī)”是隨機(jī)森林的“隨機(jī)”之一;另外,在基學(xué)習(xí)器訓(xùn)練的過程中,引入屬性選擇的“隨機(jī)”,這也正是隨機(jī)森林對(duì)Bagging的擴(kuò)展之處.

    2)“森林”.隨機(jī)森林的基學(xué)習(xí)器為CART決策樹,集成多棵決策樹的學(xué)習(xí)結(jié)果確定模型最終結(jié)果,即為“森林”.

    由于每個(gè)基學(xué)習(xí)器訓(xùn)練樣本和屬性選擇的“隨機(jī)性”,各基學(xué)習(xí)器間差異性較大,進(jìn)而提升了集成結(jié)果的泛化性[18].CART決策樹可以用于分類和回歸,所以隨機(jī)森林同樣可以處理分類和回歸問題,相較于單棵CART決策樹,隨機(jī)森林不需要進(jìn)行剪枝,且不易產(chǎn)生過擬合現(xiàn)象.

    隨機(jī)森林算法實(shí)現(xiàn)過程如圖1所示.

    圖1 隨機(jī)森林算法結(jié)構(gòu)Fig.1 Random forest algorithm structure diagram

    1)“隨機(jī)”選擇訓(xùn)練樣本集.采用自助采樣法從N個(gè)樣本中采樣m個(gè)訓(xùn)練樣本,采樣T輪得到T個(gè)樣本集.

    2)“隨機(jī)”生成CART決策樹.每次訓(xùn)練決策樹過程中,從p個(gè)屬性中隨機(jī)選擇k(k

    3)集成“森林”結(jié)果.T棵決策樹之間相互獨(dú)立,重要性相等,因而在將它們進(jìn)行組合時(shí),認(rèn)為它們具有相同的權(quán)值.分類預(yù)測(cè)時(shí),由所有的決策樹投票確定最終分類結(jié)果;回歸預(yù)測(cè)時(shí),所有決策樹輸出的均值作為最終的輸出結(jié)果.

    1.2 K-means聚類

    對(duì)于流失客戶的分析采用K-means聚類,分析出不同類別的流失客戶.聚類分析的思想是“物以類聚”,將相似的對(duì)象歸為同一類,不相似的對(duì)象劃分為不同類.其中,K-means聚類應(yīng)用最為廣泛,原因在于該算法思想簡(jiǎn)單、計(jì)算速度快.K-means算法以樣本間的距離大小來衡量樣本間的相似度,將相似度高的樣本劃分為同一個(gè)簇,使得簇內(nèi)的點(diǎn)盡量緊密地連在一起,簇間的距離盡量大,最終將樣本集劃分到K個(gè)簇中.

    K-means算法實(shí)現(xiàn)過程如下:

    步驟1 隨機(jī)選擇K個(gè)樣本點(diǎn)作為初始聚類中心;

    步驟2 計(jì)算每個(gè)樣本點(diǎn)到K個(gè)聚類中心的距離,將每個(gè)樣本點(diǎn)劃分到距離最近的聚類中心所在簇中;

    步驟3 基于步驟2中劃分簇的結(jié)果,計(jì)算每個(gè)簇中所有樣本的均值,即為該簇新的聚類中心;

    步驟4 一直重復(fù)步驟2~3,直到K個(gè)聚類中心變化范圍在給定的閾值范圍內(nèi),則算法停止.

    2 客戶流失預(yù)測(cè)

    2.1 數(shù)據(jù)選取

    選取來自Kaggle的網(wǎng)絡(luò)視頻服務(wù)商客戶流失相關(guān)數(shù)據(jù)進(jìn)行分析,基于網(wǎng)絡(luò)視頻訂閱者的相關(guān)特征數(shù)據(jù)來預(yù)測(cè)客戶是否會(huì)流失,數(shù)據(jù)包含字段信息如表1所示.

    表1 數(shù)據(jù)說明Tab.1 Data description

    2.2 相關(guān)性分析

    計(jì)算各變量間的相關(guān)系數(shù)矩陣,進(jìn)一步通過熱力圖查看各變量之間的相關(guān)性,熱力圖如圖2所示.由熱力圖可發(fā)現(xiàn)各特征間相關(guān)性較低,客戶訂購(gòu)套餐越多、客戶年限越長(zhǎng)、平均賬單金額越高、合同剩余年限越多、上傳下載活動(dòng)越活躍,流失的概率越低;限制次數(shù)越多、投訴越多,流失概率越大.

    圖2 變量相關(guān)性熱力圖Fig.2 Variable correlation heat map

    2.3 數(shù)據(jù)標(biāo)準(zhǔn)化

    數(shù)據(jù)中某些特征的取值差距較大,對(duì)模型的預(yù)測(cè)結(jié)果會(huì)有一定的影響,所以在構(gòu)建模型前對(duì)特征數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,處理后的數(shù)據(jù)滿足均值為0、方差為1.表2展示了部分客戶的原始數(shù)據(jù)和標(biāo)準(zhǔn)化后的結(jié)果值.

    表2 部分客戶數(shù)據(jù)Tab.2 Partial customer data

    2.4 預(yù)測(cè)模型構(gòu)建

    根據(jù)客戶特征數(shù)據(jù)預(yù)測(cè)客戶是否會(huì)流失,隨機(jī)森林算法得到的模型評(píng)估指標(biāo)結(jié)果如表3所示.

    表3 隨機(jī)森林模型評(píng)估指標(biāo)結(jié)果Tab.3 Random Forest model evaluation results

    由表3可知,采用隨機(jī)森林模型預(yù)測(cè)網(wǎng)絡(luò)視頻服務(wù)商客戶流失情況,其準(zhǔn)確率高達(dá)94%.指標(biāo)精確率、召回率和F1值均達(dá)到93%以上,并且3個(gè)指標(biāo)對(duì)應(yīng)的宏平均值也都在93%以上,表明隨機(jī)森林對(duì)客戶流失的預(yù)測(cè)效果良好.

    為了進(jìn)一步驗(yàn)證隨機(jī)森林算法的有效性,還選取了客戶流失預(yù)測(cè)的其他方法進(jìn)行對(duì)比,將隨機(jī)森林算法與邏輯回歸、K近鄰、CART決策樹、支持向量機(jī)、高斯樸素貝葉斯進(jìn)行比較,ROC(receiver operating characteristic curve)曲線結(jié)果如圖3所示.

    圖3 不同分類模型的ROC曲線Fig.3 ROC curves of different classification models

    由圖3可知,與其他5個(gè)分類模型的ROC曲線進(jìn)行比較,隨機(jī)森林的AUC(area under curve)值最高,達(dá)到0.978 1.相較于高斯樸素貝葉斯算法,提升了8%,模型評(píng)估結(jié)果最佳.所以,本文選取隨機(jī)森林預(yù)測(cè)網(wǎng)絡(luò)視頻服務(wù)商客戶的流失情況,能起到很好的效果.

    3 客戶流失原因分析與評(píng)估

    網(wǎng)絡(luò)視頻商家之間存在著巨大的競(jìng)爭(zhēng),各視頻服務(wù)商都想從網(wǎng)絡(luò)視頻消費(fèi)市場(chǎng)分一杯羹.為了保持現(xiàn)有客戶,商家預(yù)測(cè)出流失概率較大的客戶,采取促銷手段來抓住他們.但是,毫無針對(duì)性地對(duì)流失客戶進(jìn)行促銷,會(huì)使企業(yè)浪費(fèi)大量的資源,付出過多的成本且效果不佳.對(duì)流失客戶進(jìn)行聚類分析,將流失客戶劃分為不同類別,針對(duì)不同類別的流失客戶開展差異化的營(yíng)銷活動(dòng),將達(dá)到事半功倍的效果.

    3.1 指標(biāo)選取

    提取全部流失客戶群體,采用K-means算法進(jìn)行聚類分析.基于客戶價(jià)值分析常用RFM(recency frequency monetary)模型,本文首先對(duì)原有的9個(gè)特征進(jìn)行組合,構(gòu)造客戶流失模型CMASL,提取模型指標(biāo)C(contract)、M(monetary)、A(activity)、S(satisfaction)、L(long),C表示客戶的合同狀態(tài),以合同剩余年限(RC)表示;M表示客戶對(duì)網(wǎng)絡(luò)視頻消費(fèi)能力,客戶的消費(fèi)包括視頻下載、上傳和賬單付費(fèi),所以以平均下載量(AL)、平均上傳量(AU)和平均賬單金額(AB)3個(gè)值的總和來計(jì)算;A表示客戶整體活躍情況,包括電視訂閱和電影套餐的購(gòu)買,以是否訂閱電視(IS_TV)和是否有電影套餐(IS_MV)表示;S表示客戶對(duì)網(wǎng)絡(luò)視頻商家的滿意程度,投訴次數(shù)(SF)和下載限制次數(shù)(DL)都會(huì)降低其滿意度;L表示網(wǎng)絡(luò)視頻服務(wù)商對(duì)客戶的服務(wù)時(shí)長(zhǎng),即客戶年限(SA).具體計(jì)算方式如下:

    C=RC,

    M=AL+AU+AB,

    A=IS_TV+IS_MV,

    S=SF+DL,

    L=SA.

    3.2 K-means聚類

    3.2.1 聚類過程 為了消除各指標(biāo)量綱的影響,首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,滿足均值為0、方差為1.對(duì)處理后的數(shù)據(jù)進(jìn)行K-means聚類,首先要確定K值,主觀性確定K值對(duì)聚類效果會(huì)有一定的影響,不利于之后進(jìn)行促銷.計(jì)算每個(gè)樣本點(diǎn)與其簇內(nèi)質(zhì)心的誤差平方和(the sum of squares due to error,SSE),隨著類別數(shù)K的增加,SSE值逐漸減小,整個(gè)過程中,K值與SSE形成的曲線類似于手肘,最優(yōu)的K值即為手肘位置.本文通過手肘法確定最優(yōu)K值為6,所以將流失客戶劃分為6個(gè)不同類別,如圖4所示.

    圖4 SSE與聚類個(gè)數(shù)K之間的關(guān)系Fig.4 The relationship between SSE and the number of clusters K

    將40 050名客戶劃分為6類,每個(gè)類別對(duì)應(yīng)的C、M、A、S、L 5個(gè)指標(biāo)的聚類中心結(jié)果如表4所示,各類別的流失客戶分布情況如圖5所示,各類別流失客戶特征雷達(dá)圖如圖6所示.

    表4 客戶流失模型CMASL聚類結(jié)果Tab.4 Clustering results of customer churn model CMASL

    圖5 聚類結(jié)果中各類別流失客戶分布情況Fig.5 Distribution of lost customers in each category in the clustering results

    圖6 各類別客戶特征雷達(dá)圖Fig.6 Radar chart of customer characteristics by category

    3.2.2 聚類結(jié)果分析 類別1流失客戶,各個(gè)維度都不是特別突出,相對(duì)來說“A”維度會(huì)較高一些,表明他們訂閱了電視或者電影套餐,但是沒有表現(xiàn)出其他的特征.這類客戶雖然特征不明顯,但是占比最高,達(dá)到46.6%,屬于“自然流失群體”.

    類別2流失客戶,這類客戶人數(shù)占比較大,達(dá)到23.3%,在“A”維度明顯短缺,表明這類客戶屬于沒有或很少訂閱過電視或者電影套餐服務(wù)的群體,屬于“不活躍流失群體”.

    類別3流失客戶,在“L”維度明顯很高,其他4個(gè)維度表現(xiàn)一般,表明這類流失客戶是服務(wù)年限較長(zhǎng)的老客戶,屬于“流失老客戶”.

    類別4流失客戶,在“C”維度表現(xiàn)突出,在“S”和“L”維度相對(duì)較低,從相關(guān)系數(shù)上看,訂閱合同是避免流失的最重要因素,而這類客戶很多都是已經(jīng)簽署了合同的客戶,他們的消費(fèi)水平、活躍度、滿意度也比較高,客戶年限上表現(xiàn)得較為年輕,表明他們是新增不久的客戶.雖然人數(shù)不多,但是屬于“潛力客戶”.

    類別5流失客戶,在“S”維度表現(xiàn)突出,在“M”維度明顯短缺,表明這類客戶屬于滿意度較低,且不愛消費(fèi)的客戶,在流失客戶中占比也較低,只有6.7%,屬于“產(chǎn)品滿意度低流失群體”.

    類別6流失客戶,在“M”維度表現(xiàn)突出,表明這類客戶屬于具有明顯消費(fèi)能力,平時(shí)下載和上傳需求較大的客戶群體,屬于“具有消費(fèi)能力的流失群體”.

    4 客戶流失挽留策略

    如今市場(chǎng)上的網(wǎng)絡(luò)視頻服務(wù)商日益增加,對(duì)于網(wǎng)絡(luò)視頻訂閱這塊“蛋糕”的切分越來越小,商家之間存在著巨大的競(jìng)爭(zhēng).如果商家想增加收入,他們需要更多的訂閱者,但保持現(xiàn)有客戶比擁有新客戶更重要.所以對(duì)于即將流失的客戶,不能盲目地進(jìn)行促銷來達(dá)到挽留的目的,需要對(duì)不同類型的流失客戶采取差異化的促銷方案.針對(duì)本文研究得到的結(jié)論,主要提出以下挽留策略.

    策略1 “流失老客戶”,一般來說,丟失一個(gè)老客戶付出的成本是很高的,建議針對(duì)這些老客戶做一些抽樣回訪和調(diào)研,或許他們能提供很多用戶視角的有效建議.

    策略2 “不活躍流失群體”,建議對(duì)這類客戶增加訂閱服務(wù)的次數(shù),或者推送一些訂閱服務(wù)指南之類的內(nèi)容,簡(jiǎn)化他們使用產(chǎn)品的基本操作.

    策略3 “自然流失群體”,這類客戶有訂閱電視或者電影套餐,但是沒有其他過多的表現(xiàn),可以發(fā)送消息提醒其使用已經(jīng)訂閱的套餐,推送相對(duì)比較熱門的電視和電影,激發(fā)訂閱者的興趣.

    策略4 “產(chǎn)品滿意度低流失群體”,這類客戶大概率不喜歡這款產(chǎn)品,他們產(chǎn)出的消費(fèi)價(jià)值較低,建議可以戰(zhàn)略性放棄.

    策略5 “具有消費(fèi)能力的流失群體”,這類客戶能帶來較大的收益,建議加強(qiáng)對(duì)這類客戶的推薦系統(tǒng)配置,例如更精準(zhǔn)地判斷他們的喜好,更高頻率地推送相關(guān)內(nèi)容,滿足他們的大量需求.

    策略6 “潛力客戶”,這類客戶很多都已經(jīng)簽署了合同,并且消費(fèi)水平、活躍度、滿意度也比較高,客戶年限較短,但是具有較大消費(fèi)潛力.建議將這類客戶標(biāo)記為“種子用戶”,對(duì)他們做好重點(diǎn)維護(hù).

    5 結(jié)語

    為了解決網(wǎng)絡(luò)視頻客戶流失問題,本文通過隨機(jī)森林算法預(yù)測(cè)即將流失的客戶,準(zhǔn)確率高達(dá)94%,且精確率、召回率和F1值均達(dá)到93%以上,AUC值達(dá)到0.978 1,預(yù)測(cè)效果顯著.對(duì)已流失客戶通過K-means聚類分析流失原因,最后給出相應(yīng)類別客戶的挽留策略,對(duì)網(wǎng)絡(luò)視頻服務(wù)商在實(shí)際應(yīng)用中處理客戶流失問題具有一定的參考價(jià)值.

    本文的不足之處在于所獲取的數(shù)據(jù)中,客戶的特征不夠豐富,不能夠?qū)蛻暨M(jìn)行更細(xì)致的分析,導(dǎo)致給出的客戶流失挽留策略的覆蓋范圍不夠廣,具有一定的局限性.在今后的研究中,獲取網(wǎng)絡(luò)視頻服務(wù)商更高維度的客戶數(shù)據(jù),對(duì)客戶特征進(jìn)行更精細(xì)化的分析,考慮將隨機(jī)森林與其他算法進(jìn)行融合,進(jìn)行多模型對(duì)比分析,期望給出更貼合實(shí)際應(yīng)用的參考性建議.

    猜你喜歡
    決策樹類別聚類
    一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
    決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    基于DBSACN聚類算法的XML文檔聚類
    基于決策樹的出租車乘客出行目的識(shí)別
    服務(wù)類別
    基于改進(jìn)的遺傳算法的模糊聚類算法
    基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    論類別股東會(huì)
    商事法論集(2014年1期)2014-06-27 01:20:42
    中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
    大城县| 临高县| 平顶山市| 抚顺县| 屏东市| 安庆市| 缙云县| 金寨县| 车致| 稻城县| 金门县| 囊谦县| 射洪县| 安陆市| 正安县| 宜良县| 萨嘎县| 肃宁县| 茂名市| 赣州市| 衡阳县| 铜川市| 湘潭县| 湄潭县| 泽普县| 嵊泗县| 会理县| 井研县| 彰化县| 黄平县| 育儿| 凉山| 新沂市| 固镇县| 建平县| 奉化市| 和平区| 盐津县| 蒙自县| 汝南县| 西青区|