(西安財經(jīng)大學(xué) 陜西 西安 710100)
當(dāng)今社會,不管是方便快捷的第三方支付工具,還是品類齊全的海淘網(wǎng)購,都從根本上改變了人們原有的生活狀態(tài)。從目前社會發(fā)展的狀況看,過去以產(chǎn)品價格為中心的策略不再是企業(yè)資源的主要投放重心,企業(yè)之間的競爭由之前以搶占市場份額的直接競爭逐漸演變?yōu)閷τ趦?yōu)質(zhì)用戶的競爭。企業(yè)用戶價值管理是企業(yè)用戶關(guān)系管理成功應(yīng)用的基礎(chǔ)和核心,對于現(xiàn)代企業(yè)來說,誰能夠更好的觸達用戶,誰就能夠能好掌握用戶的價值規(guī)律,從而將其轉(zhuǎn)變成企業(yè)自己的價值,得用戶者得天下。用戶價值管理的關(guān)鍵問題,則是對用戶進行分類,通過系統(tǒng)和科學(xué)的方法對用戶進行分類,分類出不同價值類型的用戶,然后針對他們制定個性化服務(wù),采取分層的營銷策略,力求將有限營銷資源最大化的集中于高價值用戶,從而為實現(xiàn)企業(yè)利潤的最大化目標提供有力保障。
本論文主要研究的是某電商平臺客戶價值分析,應(yīng)用機器學(xué)習(xí)分類算法中的K-means算法結(jié)合用戶管理RFM模型對客戶進行分類。
研究思路:本文依據(jù)在某電商平臺爬取的用戶交易數(shù)據(jù),從用戶價值管理的角度進行該平臺用戶價值分析,目的在于對該平臺用戶關(guān)系進行細分,以幫助平臺維護現(xiàn)有用戶關(guān)系,有效管理平臺用戶網(wǎng),從而對平臺用戶進行個性化營銷服務(wù)。通過提取一定時間區(qū)間內(nèi)用戶交易數(shù)據(jù)并對其進行處理和分析,建立合理的用戶價值評估模型,將用戶分為不同的群體,然后通過分析比較不同用戶群的價值特征,提取出相應(yīng)的行為偏好,平臺針對這些行為偏好采取相對應(yīng)的營銷策略,從而增加用戶的粘性和各類型用戶的價值。
研究框架:
(1)提取一定時間段內(nèi)的該電商平臺用戶交易數(shù)據(jù)作為原始數(shù)據(jù)進行分析研究。
(2)在原始數(shù)據(jù)的基礎(chǔ)上,進行數(shù)據(jù)清洗、屬性規(guī)約、數(shù)據(jù)變換等處理,并進行標準化處理。
(3)在用戶關(guān)系管理RFM模型的基礎(chǔ)上,對該平臺的用戶進行價值分析。
(4)運用聚類分析算法對用戶行為數(shù)據(jù)進行聚類,將用戶分為不同價值的群體。
(5)對于不同用戶群的價值特征進行分析,為該平臺制定分層的營銷策略提供參考意見。
聚類分析是數(shù)據(jù)挖掘中的一項重要技術(shù),是分析數(shù)據(jù)并從中發(fā)現(xiàn)有用信息的一種有效手段。聚類是按照事物的某些屬性,將數(shù)據(jù)對象分類,即與“物以聚類”相似。聚類分析就是使用聚類算法來發(fā)現(xiàn)有意義的類,將未標記的樣本自動劃分成由類似的對象組成的多個類簇,用于對未知類別的樣本進行劃分,將它們按照一定的規(guī)則劃分成若干個類族,把相似的樣本聚在同一個類簇中,把不相似的樣本分為不同類簇,從而揭示樣本之間內(nèi)在的性質(zhì)以及相互之間的聯(lián)系規(guī)律。
1.k-means算法思想
k-means聚類算法是基于原型的聚類算法,即假設(shè)聚類結(jié)構(gòu)可以通過一組樣本空間中具有代表性的點來刻畫,是目前最簡單、最常用的方法,這類算法就是對樣本空間中具有代表性的點進行初始化,然后對原型進行迭代更新求解。通過將對象劃分為互斥的簇進行聚類,每個對象屬于且僅屬于一個簇,劃分結(jié)果旨在使簇之間的相似性低,簇內(nèi)部的相似度高,該算法通過計算樣本點與類簇質(zhì)心的距離,與類簇質(zhì)心相近的樣本點劃分為同一類簇。k-means算法通過樣本間的距離來衡量它們之間的相似度,兩個樣本距離越遠,則相似度越低,否則相似度越高。其中選用不同的原型表示,不同的求解方式,產(chǎn)生的算法不同。k-means是聚類算法中常見的一種,其中k表示所要聚的類別數(shù),means表示均值。通常我們預(yù)先定好類別數(shù)k,然后再確定每個類別初始的聚類中心,再通過每個類別的初始聚類中心對相似的樣本數(shù)據(jù)點進行分類,最后通過不斷重新優(yōu)化聚類中心來達到對聚類結(jié)果的優(yōu)化。
k值決定了初始聚類中心的數(shù)量。在初始階段,選擇合適的聚類中心是算法訓(xùn)練到好結(jié)果的關(guān)鍵。常見的方法是隨機選取初始聚類中心,這樣往往會使形成的類別質(zhì)量不高,對聚類結(jié)果會產(chǎn)生一定的影響。目前最簡單的選取初始聚類中心的方法是產(chǎn)生多組隨機初始聚類中心,然后根據(jù)每組聚類中心分別計算他們的誤差平方和,在結(jié)果中選取最小的那一個分類作為初始聚類中心。這種方法執(zhí)行起來簡單,但是誤差可能較大。另一種選擇初始聚類中心的方法是首先隨機產(chǎn)生第一個聚類中心或者選取所有樣本點作為初始聚類中心,然后選擇離上一個聚類中心最遠的點作為新的聚類中心。這種方法不僅使初始聚類中心隨機產(chǎn)生,而且還保證了不同聚類中心之間是相互分散的。這種方法的問題是有可能選中離群點作為聚類中心,所以該方法通常用作求點樣本的初始聚類中心,原因是點樣本的離群點很少,大多數(shù)情況下不會出現(xiàn)在隨機樣本中。因此k-means聚類算法難點是隨機選擇聚類中心位置、個數(shù)。
2.k-means算法步驟
首先隨機選取k個類簇的質(zhì)心,然后對剩余的每個樣本點,計算它們到各個質(zhì)心的歐式距離,并將其歸入到相互間距離最小的質(zhì)心所在的簇,計算各個新簇的質(zhì)心。其次在所有樣本點都劃分完畢后,根據(jù)劃分情況重新計算各個簇的質(zhì)心所在位置,然后迭代計算各個樣本點到各簇質(zhì)心的距離,對所有樣本點重新進行劃分。最后重復(fù)以上過程,直到迭代計算后,所有樣本點的劃分情況保持不變,此時說明k-means算法得到了最優(yōu)解,將運行結(jié)果返回。
3.k-means算法優(yōu)缺點
k-means算法原理簡單、容易實現(xiàn)且運行效率比較高;k-means算法聚類結(jié)果容易解釋,適用于高維數(shù)據(jù)的聚類。k-means算法采用貪心策略,導(dǎo)致容易局部收斂,在大規(guī)模數(shù)據(jù)集上求解較慢;該算法對離群點和噪聲點非常敏感,少量的離群點和噪聲點可能對算法求平均值產(chǎn)生極大影響,從而影響聚類結(jié)果;k-means算法中初始聚類中心的選取對算法結(jié)果影響很大,不同的初始中心可能會導(dǎo)致不同的聚類結(jié)果;k-means只能處理數(shù)值型數(shù)據(jù)或者凸型數(shù)據(jù)分布的樣本。
客戶關(guān)系管理已成為企業(yè)管理戰(zhàn)略轉(zhuǎn)變的關(guān)鍵部分,而客戶關(guān)系管理的核心問題是對不同類型的客戶進行價值分類,采用不同的定制化營銷策略,更好地服務(wù)顧客,以最大限度地實現(xiàn)企業(yè)的效益??蛻艏毞质?0世紀50年代中期由美國學(xué)者溫德爾史密斯提出的,其理論依據(jù)是顧客需求的異質(zhì)性和企業(yè)需要在有限資源的基礎(chǔ)上進行有效的市場競爭,是指企業(yè)在明確的戰(zhàn)略業(yè)務(wù)模式和特定的市場中,根據(jù)客戶的屬性、行為、需求、偏好以及價值等因素對客戶進行分類,并提供有針對性的產(chǎn)品,服務(wù)和營銷模式。
1.RFM模型思想
RFM(Recency,Frequency,Monetary)模型是上世紀90年代提出的一種從企業(yè)角度考慮的可較全面分析客戶購買行為的客戶價值模型。模型包括3個指標:近度(Recency)R、頻率(Frequency)F及額度(Monetary)M,分別表示最近的上次消費時間離樣本數(shù)據(jù)截止日的時間距離、研究期限內(nèi)(樣本的時間跨度)的消費次數(shù)和消費總金額。消費近度越小,表示客戶在近段時間內(nèi)有消費行為,并且消費近度越小和消費頻率越大,表示客戶忠誠度較高,下一次消費可能性較大;額度是企業(yè)衡量客戶利益價值的直接標準,額度越大說明客戶價值越高。RFM模型計算所需的客戶消費數(shù)據(jù)簡單易得且模型計算方便,因此,企業(yè)可以使用RFM模型衡量客戶價值,并使用RFM模型指標對客戶進行分類。RFM模型是最典型的衡量用戶價值和用戶創(chuàng)利能力的重要工具與手段,是用于評估客戶已有價值和用戶潛在價值的一套重要方法,企業(yè)通過對用戶群體分層能夠更準確地將成本和精力花在更精確的用戶層次身上,該模型早被廣泛應(yīng)用在各個行業(yè)中。
RFM模型計算客戶價值公式如下所示:
其中:CRFMi指客戶i的綜合RFM值;
ωR、ωF、ωM分別是R、F、M在計算客戶價值的權(quán)重;
在大多數(shù)的RFM模型應(yīng)用時,識別客戶價值時各指標的權(quán)重相同,評估模型的關(guān)鍵在指標和權(quán)重兩個方面。
2.RFM模型指標含義
R(Recency):客戶最近一次交易時間的間隔。R值越大,表示客戶交易發(fā)生的日期越久,反之則表示客戶交易發(fā)生的日期越近。
F(Frequency):客戶在最近一段時間內(nèi)交易的次數(shù)。F值越大,表示客戶交易越頻繁,反之則表示客戶交易不夠活躍。
M(Monetary):客戶在最近一段時間內(nèi)交易的金額。M值越大,表示客戶價值越高,反之則表示客戶價值越低。
R、F、M三個值,R與效果成反比,其他兩個均成正比。根據(jù)R、F、M指標值以及企業(yè)自身需求可以將客戶類型靈活劃分為4類或8類等。本文以將用戶劃分為4個類別為例。
表1 RFM模型指標客戶分類表
RFM模型是計算客戶價值并進行客戶細分的重要方法,使企業(yè)和客戶能夠相互進行個性化與精準化的管理服務(wù),并且RFM模型能夠使企業(yè)快速的計算出客戶的潛在價值及客戶的生命周期價值。聚類分析方法是一種屬于非監(jiān)督型機器學(xué)習(xí)的數(shù)據(jù)挖掘方法,適用于大數(shù)據(jù)樣本和多變量分析任務(wù)。聚類分析是進行客戶細分的重要手段,在使用RFM模型時,有必要進行聚類分析。聚類可作為獨立的工具獲得數(shù)據(jù)分布情況,作為其他算法的預(yù)處理步驟,簡化計算工作,提高分析效率,其中K-means聚類算法常于客戶細分。綜上,本文在基于RFM模型的基礎(chǔ)上利用K-means聚類算法對某電商平臺交易數(shù)據(jù)對客戶價值進行細分識別。
本文以在某電商平臺爬取的200條用戶交易數(shù)據(jù)為例,首先清洗出用戶首次投資時間、最近一次投資時間、投資總金額、投資總次數(shù)等數(shù)據(jù),然后使用Python數(shù)據(jù)分析軟件構(gòu)造R、F、M三個核心指標為維度進行聚類分析,其次利用K-means聚類算法將用戶分為4個類別,根據(jù)這4個類別的R、F、M指標值,對用戶進行標注。
RFM模型不需要任何的算法支撐,與數(shù)據(jù)建模中的邏輯回歸、聚類分析等是完全不同的概念。本文所有實現(xiàn)過程用Python代碼實現(xiàn),RFM模型的核心就是將三個指標進行標簽化,然后根據(jù)實際場景業(yè)務(wù)需求進行分層即可。
1.數(shù)據(jù)抽取
本文數(shù)據(jù)來源于爬取的某電商平臺交易數(shù)據(jù)。數(shù)據(jù)以2019年7月20日為結(jié)束時間并作為提數(shù)日,選取從2019年6月至7月20為時間段作為分析觀測窗口,期間所有用戶的詳細交易數(shù)據(jù)形成原始數(shù)據(jù)。從數(shù)據(jù)結(jié)果來看,這一時間段內(nèi)有過交易用戶數(shù)據(jù)總共有200條記錄。其中清洗出所需要的用戶ID、用戶首次投資時間、最近一次投資時間、投資總金額、投資總次數(shù)等屬性數(shù)據(jù)。
2.數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要包括三個步驟,第一是數(shù)據(jù)清洗,第二是屬性規(guī)約,第三是數(shù)據(jù)變換。
(1)數(shù)據(jù)清洗
通過觀察發(fā)現(xiàn),數(shù)據(jù)中存在部分缺失值,由于這部分數(shù)據(jù)在原始數(shù)據(jù)中占比較小,對分析研究沒有太大的影響,因此對其進行刪除。
(2)屬性規(guī)約
由于原始數(shù)據(jù)中的屬性太多,其中有些屬性對于分析研究并沒有太大的意義,所以需要對其進行篩選。根據(jù)需要選取用戶ID、用戶首次投資時間、最近一次投資時間、投資總金額、投資總次數(shù)等屬性,刪除其他不相關(guān)、弱相關(guān)或者冗余的屬性,例如:性別、年齡、交易方式等屬性。
(3)數(shù)據(jù)變換
數(shù)據(jù)變換是指需要將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹备袷?,以適應(yīng)挖掘任務(wù)及算法的需要。首先,由于原始數(shù)據(jù)中并沒有直接給出用戶交易的在投時長,只給出了用戶首次的交易時間,所以需要通過數(shù)據(jù)變換得出用戶在投時長這一指標。由于選取的分析觀測窗口為2019年6月1日到2019年7月20日,所以用戶在投時長指標可以表示為:
用戶在投時長=提數(shù)日-首次交易時間
其次,得出用戶在投時長后需要構(gòu)造RFM模型的三個指標值,其計算方式如下:
R(最近一次投資時間距提數(shù)日的天數(shù))=提數(shù)日-最近一次投資時間
F(月均投資次數(shù))=投資總次數(shù)/用戶在投時長
M(月均投資金額)=投資總金額/用戶在投時長
最后,從數(shù)據(jù)中可以發(fā)現(xiàn),R指標、F指標及M指標取值范圍數(shù)據(jù)差異較大,在利用k-means聚類算法分析數(shù)據(jù)之前,需要將數(shù)據(jù)進行標準化變換,上述指標數(shù)據(jù)標準化處理之后,將原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標評估值,即各指標值都處于相同的數(shù)量級別,進行綜合評估分析??紤]到RFM模型各特征的計量單位對聚類分析產(chǎn)生差異化影響,為消除數(shù)量級帶來的影響,因此對RFM模型中各指標進行取對數(shù)log10標準化變換。
3.基于RFM模型的K-means聚類
首先利用機器學(xué)習(xí)中k-means聚類算法將用戶分為4個類別;其次根據(jù)這4個類別的R、F、M指標,對所有用戶的進行標注,標注出哪些是超價值客戶、哪些是高價值客戶、哪些是一般價值客戶、哪些是低價值客戶。K-means聚類算法流程:
(1)首先,從N個樣本數(shù)據(jù)范圍中,隨機選擇K個樣本,將它們作為初始的聚類中心;
(2)然后分別計算每個樣本到各個聚類中心的距離,將對象歸到離它們距離最近的那個聚類中心所屬的類別中;
(3)所有對象分配到相應(yīng)的類別完成后,再一次重新計算K個聚類的中心;
(4)將(3)新得到的K個聚類中心與前一次計算得到的K個聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)向過程(2),否則轉(zhuǎn)向過程(5);
(5)當(dāng)所有聚類中心不發(fā)生變化時,算法停止,并將聚類結(jié)果輸出。
采用K-means聚類算法對抽取的用戶群體進行分層,選取聚類中心為4個,獲得部分用戶類別標簽結(jié)果如下表:
表2 用戶類別標簽
按照用戶類別標簽分組統(tǒng)計R、F、M指標的均值,結(jié)果如下表所示:
表3 用戶聚類價值表
最后將4個類別用戶的三個指標值進行標準化均值處理,便于可視化觀察。
依據(jù)K-means聚類算法將200個用戶分為4類,分組計算出每個類別的R、F、M指標均值,根據(jù)得到的各指標均值可將200個用戶分為4類分別為超級用戶、高價值用戶、一般價值用戶、低價值用戶(如表3)。
4.客戶價值結(jié)果分析
對于本文基于RFM模型聚類得到的4類用戶分析如下:
超級用戶:這類用戶投資總金額(M)非常高,是該平臺最應(yīng)該保持和持續(xù)發(fā)展的優(yōu)質(zhì)用戶。然而雖然該類用戶貢獻大,但這類用戶占比很小,該平臺應(yīng)該優(yōu)先將優(yōu)勢資源集中投放到該類用戶身上,對他們進行差異化管理和一對一營銷,提高這類客戶的粘性。
高價值用戶:該類用戶的投資金額(M)、投資次數(shù)(F)相對較高,且投資時間(R)相對較低,說明是該平臺的老顧客,需要盡可能在維持該類用戶現(xiàn)有價值的基礎(chǔ)上,通過不同的引導(dǎo)消費提升其自身價值。
一般價值用戶:該類用戶的投資金額(M)、投資次數(shù)(F)相對較低,且投資時間(R)相對較長,該類用戶可能是該平臺的新用戶,對于平臺商品投資程度不高。應(yīng)該給予他們適當(dāng)關(guān)注,引導(dǎo)他們增加投資次數(shù)和金額。
低價值用戶:該類用戶的投資金額(M)、投資次數(shù)(F)最低,且投資時間(R)較長,可能該類用戶對平臺商品不太認可,可能造成用戶流失,總體表現(xiàn)為用戶價值較低。
當(dāng)然,根據(jù)企業(yè)或者平臺需要,可以聚類為多個類別,進而依據(jù)聚類分析結(jié)果,為用戶提供個性化服務(wù),或者精準營銷方式,提高客戶粘性,提升客戶的自身價值。
本文依據(jù)爬取的某電商平臺某商品一段時間內(nèi)的交易數(shù)據(jù),基于用戶關(guān)系管理中的RFM模型以及機器學(xué)習(xí)K-means聚類算法,使用Python數(shù)據(jù)分析軟件對該平臺200位用戶交易數(shù)據(jù)進行聚類分析,將用戶分為超級用戶、高價值用戶、一般價值用戶、低價值用戶4個價值群,并對每一類用戶進行特征分析,對該平臺分析用戶的不同價值特征,增加客戶粘性,從而針對不同用戶層設(shè)計不同的分層營銷策略提供參考意見。
從聚類結(jié)果看,具有較高價值的重要保持用戶占該平臺用戶比例較小,而低價值用戶和一般價值用戶占比較高,說明該平臺用戶整體價值較低,可以根據(jù)用戶群體特征為不同用戶群提供不同的營銷方案以及商品推薦,達到最大化提升平臺利益。