陳子璐
隨著互聯(lián)網技術的不斷成熟,電子商務在各國都快速發(fā)展,但同時也面臨著激烈的市場競爭。 在中國有淘寶、京東、聚美優(yōu)品等電子商務平臺,在國外有亞馬遜、eBay 等。 在這種條件下,電子商務領域需要像傳統(tǒng)的市場營銷一樣進行客戶細分,客戶關系管理(Customer Relationship Management,CRM)通過探索客戶和商家之間潛在的關系來評估和維護客戶關系,從而滿足客戶日益增長的個性化需求,以便通過差異化服務、針對性策略吸引客戶,形成長期購買行為,提高客戶忠誠度,在激烈的市場競爭中立于不敗之地。 本文通過RFM 模型,用兩種方法對客戶進行細分并比較兩種方法的優(yōu)缺點,企業(yè)可自行選擇。 徐翔斌等通過引入總利潤屬性,建立RFP 模型,對電子商務客戶做了客戶細分。 劉慧婷等提出了基于經驗模態(tài)分解方法( Empirical Mode Decomposition,EMD)和K-Means 的客戶行為聚類方法,為商家提供了促銷依據。 包志強等通過引入平均單次訂單消費金額,建立RFA模型,對百度外賣進行客戶細分,但在K-means 聚類確定cluster(簇)的個數和計算客戶價值時,權重的確定有些主觀,本文通過肘部曲線與四分位法改進了以上不足。 通過上述研究表明,RFM 模型和企業(yè)客戶細分結合研究,可以針對細分結果的不同,使客戶擁有更好的產品體驗,使商家得到更多的利潤和有價值的客戶。
本文以一家線上公司客戶數據為例,通過RFM 模型,用兩種方法進行客戶細分,第一種采用K-means 聚類算法進行客戶細分。 第二種,是本文提出的四分位法計算確定客戶的個人價值,達到對不同價值的客戶分別采取針對性策略的效果。 最后對兩種方法進行比較。
在眾多客戶關系管理的客戶分析模式中,RFM 分析是比較受歡迎的分析方法,是衡量客戶價值的重要評價指標。RFM 模型最初由Hughes 于1994 年提出,曾被廣泛應用于直銷領域,它包括R(Recency)、F(Frequency)、M(monetary)3個變量。R表示最近一次購買時間,也叫近度(Recency),理論上最近一次購買時間越近的用戶對提供即時商品或服務也最可能有反應,因此R越小越好;F表示消費者在某個時間段中的購買次數,也叫頻度(Frequency),經常購買的消費者越有意向再次購買,客戶忠誠度高,因此F越大越好;M表示某個時間段中客戶購買的總金額,也叫額度(Monetary),購買金額越大,給企業(yè)帶來的價值越大,因此M越大越好,即客戶的價值與R成反比,與F、M成正比。 企業(yè)可以使用RFM模型測量客戶價值,并使用RFM 模型指標對客戶進行分類。RFM 模型計算客戶價值公式如式(1):
其中RFM 指客戶的綜合RFM 值,ωR、ωF和ωM分別是R、F和M在計算客戶價值的權重,R、F和M在本文中的含義如表1 所示。
表1 RFM 模型及各指標在文中的含義
對于RFM 各變量的指標權重選取問題,Hughes 于1994年提出應該同等看待3 個指標,為其賦予相同的權重。 Stone于1995 年對客戶信用卡相關信息進行研究分析時,結合行業(yè)特殊性,認為RFM 模型中的消費頻率最為重要,其次是最近消費時間,最后是消費金額。 傳統(tǒng)的權重的計算大多采用層次分析法和專家咨詢相結合的方式來確定,這種方法帶有很強的主觀色彩,是不精確的, 本文用四分位法,使權重選取更加科學。 本文用兩種方法來計算客戶價值與細分客戶,一種方法為K-means 聚類,另一種方法稱為四分位法,來計算客戶價值。
K-means 聚類是最著名的劃分聚類算法,由于簡潔和效率使得它成為所有聚類算法中最廣泛使用的。 K-means 聚類算法是一種迭代求解的聚類分析算法,其步驟是隨機選取k個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。 聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算,這個過程將不斷重復直到滿足某個終止條件。
K-means 算法支持沒有任何先驗知識情況下,對多個屬性進行聚類分析,算法分為以下幾個步驟:
第一步:隨機選取k個樣本均值點,本文用肘部法則發(fā)現k為3,記第i個均值為
第二步:計算各個樣本點到各均值點的距離,距離最短的歸到一類。 本文使用歐幾里得方法計算距離,如式(2)所示:
j=1,2,…,k,i=1,2,…,n,d是第i個樣本點到第j個均值的距離,ri、fi、mi分別是第i個樣本點的R、F、M的值。
第三步:對第二步得到的新的k類,分別求取期望,得到新的均值點,計算方法如式(3):
第四步:重復二、三步,直到操作得到的樣本均值點不再顯著變化為止。
本文將使用Python 軟件,進行K-means 聚類,再通過肘部曲線,更加科學地確定了k為3。
本文把R、F、M按照大小平均分成四份,即按四分位分成四份,R、F、M的四分位數如表2 所示。
表2 R、F、M 的四分位數
因為F與M越大,客戶價值越高,本文把F與M的四份從小到大排列,分數依次為1,2,3,4;而R越大,客戶價值越低,本文把R 的四份按照從小到大排列,分數依次為4,3,2,1。 最后得到的分數如表3 所示。
表3 RFM 中各個值代表的分數
本文的分數表現形式有兩種,一種是把所有的分數排列在一起,表現形式如表4 中RFM score 一列,如“最佳客戶444” “快丟失客戶421”;另一種表現形式是把所有分數相加,總分數在3 至12 中間,表現形式如表4 中Total_score一列。
表4 RFM 模型的顧客價值分析結果
本文利用Kaggle 網站上提供的一家禮品線上公司從2010 年12 月1 日至2011 年12 月9 日的397924 個訂單數據。 其中某客戶訂單交易樣本為表5 所列。表5 原數據中某客戶的交易訂單
數據來源:https:/ /www.kaggle.com/carrie1/ecommerce-data.WHITE HANGING HEART T-LIGHT HOLDER 白色懸掛愛心圖像的T 型燈架。
數據選取的時間是2010 年12 月1 日至2011 年12 月9日的數據,那么把2011 年12 月9 日設為現在時間,用現在時間減去購買時間可以得出最近一次購買時間(R)。 計算每個顧客代號重復了幾次,重復的次數則為這段時間的頻率(F)。購買總金額(M)可以通過產品單價與購買數量得到,如公式(4)所示:
使用Python 進行數據分析,從中可得到共有客戶4339位,并且可以統(tǒng)計出每位客戶的近度(R)、頻度(F)、額度(M)。 某客戶的訂單交易樣本數據如表6 所列。
表6 整理后的某客戶的訂單交易
R、F、M變量作為聚類變量,基于Python 語言,采用Kmeans 聚類方法對數據進行數據分析。 本文用肘部法則(Elbow Method)來得到K值,肘部法則可以追溯到Thorndike在1953 年提出的推測,K-means 是以最小化樣本與質點平方誤差作為目標函數,將每個簇的質點與簇內樣本點的平方距離誤差和稱為畸變程度(distortions),那么,對于一個簇,它的畸變程度越低,代表簇內成員越緊密;畸變程度越高,代表簇內結構越松散。 畸變程度會隨著類別的增加而降低,但對于有一定區(qū)分度的數據,在達到某個臨界點時畸變程度會得到極大改善,之后緩慢下降,這個臨界點就可以考慮為聚類性能較好的點。 從Python 中得到肘部曲線,如圖1 所示,可以發(fā)現臨界點為A點,則K=3。
圖1 肘部曲線
對這三個Cluster(簇)分別命名為0,1,2,可以得到客戶的數據如表7 所列。
表7 對Cluster 進行命名后的某個客戶的交易訂單
從圖2~4 可以看出1 簇的購買金額最大,頻率最高,且最近購買時間最短,是企業(yè)的大客戶;2 簇的購買金額較大,頻率也較高,且最近購買時間也較近,是企業(yè)的潛在客戶;0 簇的購買金額最少,頻率也最低,且最近購買時間較長,可以看作是企業(yè)的臨時用戶。 若把這三類客戶從重要性上分成鉑金會員、黃金會員和一般會員,可以得到Cluster 1 為鉑金客戶,Cluster 2 為黃金用戶,Cluster 0 為一般用戶,如表8 所示。
圖2 Recency 的箱型
圖3 Frequency 的箱型
圖4 Monetary 的箱型
本文把R、F、M按照四分位數分成四份,F與M的四份從小到大排列,分數依次為1、2、3、4; R 的四份按照從小到大排列,分數依次為4、3、2、1。R、F、M的四分位數如表2。 本文的分數表現形式有兩種,一種是把所有的分數排列在一起,如“444”“421”;另一種表現形式是把所有分數相加,則總分數在3 至12 中間,如表4 所示。
從上面的分數公司可以更詳細的細分客戶與找到潛在客戶,如最優(yōu)客戶“444”,共有440 人,占所有客戶的10%,這類客戶的金額、頻率都是最高,且最近購買時間最短,公司針對這類客戶可以以送積分兌換禮物,或者開放更多的特權來提高這些客戶的黏著度。
“411”“412”“421”“422”這類客戶都可以看作快丟失的客戶,這類客戶的數量是187。 這類客戶的特點是最近購買的時間短,且購物金額與頻率較低。 針對這類客戶,公司可以推送商品、廣告或折扣來吸引顧客重新回購商品。
“144”“134”“133”“143”這類客戶頻率高、金額高,但是最近購買時間長。 這類客戶有127 位,可以看出這類客戶對產品滿意度較高,但是可能有更好的替代品或者對最近的商品不滿意。 針對這類客戶,公司可以以問卷調查或者訪問的形式,找到客戶為什么最近不愿購買商品,從而更好地改進商品,吸引顧客。
公司可以忽略“111”類客戶,這類客戶金額少、頻率低,且最近購買時間短,共有人數384 人。 可能這類客戶對這類產品并不感興趣。 為了節(jié)省人力成本或生產成本,公司可以不用特別注意這類客戶。
K-means 聚類方法分類科學,采用的是肘部法則,有理論基礎,但是研究人員并不了解每一類所代表的意義,需要進一步的分析數據,研究人員需確定,Cluster 0 為一般會員。
四分位法把客戶進一步細分,企業(yè)可以找到自己想要的大部分性質的客戶,如最優(yōu)客戶“444”,但是四分位法只是簡單粗暴地把各個用戶按照性質分成12 份,其中客戶的區(qū)別可能很小,如“411”與“412”,都可以看作快丟失客戶。
本文基于RFM 模型采用K-means 聚類和四分位法對客戶進行細分,幫助企業(yè)找到優(yōu)質客戶、潛在客戶,對客戶價值進行識別,識別結果客觀可信。 K-means 方法通過肘部法則,科學的找到分類數量k,而本文提出的新的方法四分位法,則對客戶進行了進一步的細分。 企業(yè)可以根據自身的需要進行客戶細分,其結果可以用于會員的精細化管理和精準營銷,與高價值會員建立穩(wěn)定的關系是企業(yè)得以更好發(fā)展的有效途徑。