蘇 進(jìn)
(中國(guó)聯(lián)通安徽分公司,安徽 合肥 230000)
運(yùn)營(yíng)商之間競(jìng)爭(zhēng)愈發(fā)激烈,盲目的進(jìn)行市場(chǎng)營(yíng)銷(xiāo)不僅成功率較低,而且浪費(fèi)了大量的人力、物力資源,更有甚者會(huì)給用戶帶來(lái)負(fù)面感知,導(dǎo)致用戶轉(zhuǎn)網(wǎng)。同時(shí)運(yùn)營(yíng)商擁有海量的用戶級(jí)數(shù)據(jù),如何將用戶數(shù)據(jù)深入分析,進(jìn)而支撐市場(chǎng)營(yíng)銷(xiāo)及網(wǎng)絡(luò)資源投放,成為運(yùn)營(yíng)商之間市場(chǎng)競(jìng)爭(zhēng)的關(guān)鍵。
本文將基于大數(shù)據(jù)挖掘算法,將用戶進(jìn)行分群,不同的群體用戶基于其特征進(jìn)行不同的營(yíng)銷(xiāo)方案,通過(guò)精準(zhǔn)營(yíng)銷(xiāo)克服盲目性,吸引新用戶,留住老用戶。同時(shí)鎖定目標(biāo)用戶群進(jìn)行有效網(wǎng)絡(luò)資源投放,降本增效,獲得更有利的市場(chǎng)滲透。
商業(yè)營(yíng)銷(xiāo)方案中,聚類可以幫助數(shù)據(jù)分析人員根據(jù)消費(fèi)者的自身屬性、消費(fèi)特征劃分為不同的消費(fèi)群體,并總結(jié)出每一類消費(fèi)群體的消費(fèi)習(xí)慣,進(jìn)而支撐市場(chǎng)進(jìn)行有針對(duì)性的營(yíng)銷(xiāo)方案。Clustering(聚類)目的即把數(shù)據(jù)分類,但是事先我們是不知道如何去分的,完全是算法自己來(lái)判斷各條數(shù)據(jù)之間的相似性,相似的就放在一起。在聚類的結(jié)論出來(lái)之前,我們完全不知道每一類有什么特點(diǎn),一定要根據(jù)聚類的結(jié)果通過(guò)人的經(jīng)驗(yàn)來(lái)分析,看看聚成的這一類大概有什么特點(diǎn)。聚類是數(shù)據(jù)挖掘中使用較廣泛的算法之一,可用來(lái)從海量的樣本點(diǎn)中挖掘出一些深層信息,基于每一類的特點(diǎn),可將注意力放在自己關(guān)注的特征上做進(jìn)一步的分析。聚類分析是通過(guò)挖掘樣本點(diǎn)之間的關(guān)系進(jìn)而達(dá)到數(shù)據(jù)分組的目的,組內(nèi)的樣本點(diǎn)相似性越強(qiáng),組間差異化越大,聚類效果越好。本文將采用聚類分析中最廣泛使用的算法K-Means,將XX局點(diǎn)500萬(wàn)+用戶進(jìn)行聚類,并針對(duì)每一類的特點(diǎn)進(jìn)行總結(jié),進(jìn)而支撐市場(chǎng)營(yíng)銷(xiāo)及網(wǎng)絡(luò)資源投放。
K-Means是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法,也叫K-均值、K-平均,是聚類算法中的最常用的一種,概括是說(shuō)是“物以類聚、人以群分”,算法運(yùn)算速度快,適合連續(xù)型的數(shù)據(jù),但在聚類前需要手工指定要分成幾類。[1]
K-Means基本思想是將多個(gè)樣本根據(jù)其屬性劃分為K個(gè)簇,初始K個(gè)簇的中心點(diǎn)是隨機(jī)選定,再通過(guò)計(jì)算每個(gè)樣本點(diǎn)到K個(gè)簇中心的距離,按照最近鄰原則把每個(gè)樣本點(diǎn)劃分到K個(gè)簇中,然后將每個(gè)簇中所有樣本點(diǎn)的坐標(biāo)值進(jìn)行平均,作為每個(gè)簇的新中心,如此進(jìn)行迭代,直到簇中心的位置不再移動(dòng)(即簇中心移動(dòng)距離小于給定值),具體步驟如下:①將原始雜亂無(wú)章的樣本點(diǎn)劃分K個(gè)簇,簇中心隨機(jī)選擇。②計(jì)算每個(gè)樣本點(diǎn)到K個(gè)簇中心的距離,將樣本劃分到距離最近的簇中心對(duì)應(yīng)的簇中。③初始K個(gè)簇劃分完成后,計(jì)算K個(gè)簇中所有樣本點(diǎn)的坐標(biāo)平均值,更新每個(gè)簇的簇中心。④重新按照②、③中的方法,將原始樣本點(diǎn)進(jìn)行簇劃分,并且重新計(jì)算新的簇中心。直到新的簇中心與上一次的簇中心之間的距離不再變化,或者小于某個(gè)給定值,則聚類過(guò)程結(jié)束。
根據(jù)上述K-Means算法過(guò)程,我們?cè)趹?yīng)用K-Means算法之前需確定幾個(gè)關(guān)鍵點(diǎn):距離如何計(jì)算;K值如何確定各維度單位如何換算。
(1)距離如何計(jì)算:K-Means算法中要迭代進(jìn)行每個(gè)點(diǎn)到聚類中心的距離,距離的計(jì)算一般有圖1兩種方法:
圖1 距離的計(jì)算方法
(2)K值如何確定:K值得取值不是固定的,一般是根據(jù)聚類的結(jié)果,評(píng)估是否滿足業(yè)務(wù)分析的目的,可嘗試多個(gè)K值,聚類的結(jié)果通過(guò)實(shí)踐驗(yàn)證最優(yōu)K值,或者可以把各種K值算出的SSE做比較,取最小的SSE的K值。
(3)各維度的單位必須要一致:如果K-Means聚類中選擇歐幾里德距離計(jì)算距離,數(shù)據(jù)集一定要進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization),即將數(shù)據(jù)按比例縮放,使之落入一個(gè)特定區(qū)間內(nèi)。[2]去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無(wú)量綱的純數(shù)值,便于不同單位或量級(jí)的指標(biāo)能夠進(jìn)行計(jì)算和比較。
標(biāo)準(zhǔn)化方法最常用的有兩種:
第一種:min-max標(biāo)準(zhǔn)化(離差標(biāo)準(zhǔn)化):對(duì)原始數(shù)據(jù)進(jìn)行線性變換,是結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換方法為X'=(X-min)/(max-min),其中max為樣本數(shù)據(jù)最大值,min為樣本數(shù)據(jù)最小值。
第二種:z-score標(biāo)準(zhǔn)化(標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化):處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布(均值為0,方差為1),轉(zhuǎn)換公式:X減去均值,再除以標(biāo)準(zhǔn)差。
選取用戶消費(fèi)特征、用戶行為以及用戶感知共11類特征,作為本次進(jìn)行分群的特征向量,用戶樣例如表1所示:
表1 用戶樣例
針對(duì)XX局點(diǎn)550萬(wàn)+用戶通過(guò)特征選取,異常數(shù)據(jù)篩除后,應(yīng)用K-Means聚類分析方法進(jìn)行全量用戶分析,對(duì)原始數(shù)據(jù)本文采用min-max標(biāo)準(zhǔn)化方法進(jìn)行線性變換,同時(shí)選取歐幾里德距離作為距離依據(jù),選擇K=8時(shí),分群結(jié)果如圖2所示:
圖2 分群結(jié)果
根據(jù)用戶分群結(jié)果,針對(duì)不同特征聚類的用戶結(jié)合市場(chǎng)營(yíng)銷(xiāo)方案,更易于提高營(yíng)銷(xiāo)成功率,同時(shí)可識(shí)別出高價(jià)值低感知用戶進(jìn)而投入更多的網(wǎng)絡(luò)資源,比如當(dāng)K=8為時(shí),cluster_3用戶喜歡投訴,愛(ài)好瀏覽網(wǎng)頁(yè),游戲時(shí)間中等,但游戲時(shí)延感知較差,該類用戶的套餐較低,ARPU值中等,可建議針對(duì)該類通過(guò)贈(zèng)送游戲類權(quán)益,提高用戶感知,降低用戶投訴量,同時(shí)該類用戶更易引導(dǎo)提升套餐。
表2、表3是本次聚類結(jié)果以及從服務(wù)等級(jí)、權(quán)益、套餐以及網(wǎng)絡(luò)資源四個(gè)方面提出的建議方案:
表2 本次聚類結(jié)果
表3 建議方案
本文通過(guò)K-Means聚類分析方法對(duì)XX局點(diǎn)全量用戶進(jìn)行聚類分析,并根據(jù)聚類特征給予市場(chǎng)及網(wǎng)絡(luò)側(cè)的建議方案,支撐市場(chǎng)側(cè)營(yíng)銷(xiāo)以及網(wǎng)絡(luò)側(cè)資源投放,但K-Means聚類算法本身也存在一定的缺陷性,比如:K值需要人為設(shè)定,不同K值得到的結(jié)果不一樣;對(duì)初始的簇中心敏感,不同選取方式會(huì)得到不同結(jié)果;對(duì)異常值敏感;樣本只能歸為一類,不適合多分類任務(wù);不適合太離散的分類、樣本類別不平衡的分類、非凸形狀的分類。這將導(dǎo)致聚類的不同特征用戶適配為錯(cuò)誤的營(yíng)銷(xiāo)策略,降低市場(chǎng)營(yíng)銷(xiāo)成功率。