摘 要:本文從分析用戶的歷史交易行為入手,研究用戶行為畫像的方法、用戶行為建模指標、算法分析等內容。并通過實例分析建立用戶畫像模型的方法和步驟,取得了比較好的效果。
關鍵詞:KMeans算法;用戶畫像;用戶行為
一、問題的提出
Alan Cooper最早提出了用戶畫像(Personas)的概念,Persona是真實用戶的虛擬代表,是建立在一系列真實數(shù)據之上的目標用戶模型,通過用戶調研去了解用戶,根據他們的目標、行為和觀點的差異,將他們區(qū)分為不同的類型,然后每種類型中抽取出典型特征,賦予名字、照片、一些人口統(tǒng)計學要素、場景等描述,就形成了一個人物原型(Personas)。
二、用戶行為畫像方法論
用戶畫像可以基于定性的方法也可以基于定量的方法,用戶數(shù)據的定位可以來源于靜態(tài)數(shù)據,例如年齡、性別、地域、婚姻狀況、資產特征等人口社會屬性;也可以來源于動態(tài)數(shù)據,例如瀏覽、搜索、點擊、購買等行為特征。在電商行業(yè)中,用戶畫像可以分析用戶的使用習慣、喜好、一系列的購買行為,以及周邊的人群的身份、屬性、年齡等。
本論文認為用戶的歷史交易行為決定了用戶未來的消費傾向和消費行為,而用戶的基礎屬性是隱性的,通過用戶的行為特征更容易挖掘用戶的特點,更容易與營銷結合。本文以某電商自營平臺半年的交易數(shù)據為例根據用戶的不同方面所具有的行為特征建立用戶的行為模型進行數(shù)據挖掘,針對用戶不同方面的行為及各行為間內部相關聯(lián)的行為特征從數(shù)據的角度去研究用戶的行為模式,并將這些行為模式的內容和所具有的規(guī)律進行描述。
三、用戶行為建模
(一)用戶消費行為指標的建立
建立用戶消費行為指標其實質就是為消費行為模型選擇細分變量,在這個基礎上對用戶進行識別和畫像。本文用RFM模型的三個行為變量來描述和區(qū)分用戶的消費行為,來進行用戶消費行為指標的建立,并不用傳統(tǒng)的RFM分析對用戶進行打分和排序。指標說明如表1所示。
(二)算法分析
在算法的選擇方面,采用聚類分析方法,聚類的其目的是挖掘出數(shù)據之間潛在的自然結構關系,將用戶劃分成互不相交的類別。在同一類別里,用戶具有相似的特征。
1KMeans聚類算法
KMeans算法是1967年由MacOueen首次提出的一種經典算法?;舅枷胧前汛垲惖膶ο髣澐殖蒶個類,用戶要指定聚類的個數(shù)k。接下來要通過迭代運算將對象所屬的類進行調整,不斷的迭代直到各個類別中的對象不再發(fā)生變化,就完成了聚類。
算法具體形式如下:
E=∑ki=1∑p∈ci|p-mi|2
2算法描述
KMeans算法的處理流程如下:首先,隨機選這k個對象,每個對象代表一個簇的初始均值或中心,對剩余的每個對象根據其與各簇中心的距離將它指派到最近的簇,然后算每個簇的新均值,得到更新后的簇中心,不斷重復直到函數(shù)收斂。
四、實證研究
無錫某電器科技有限公司是一家利用高科技的技術及精密的儀器設備生產便攜式照明產品的公司。公司上百種產品,建有自營電商網站。對電商企業(yè)來說如何識別用戶、了解用戶的特征對企業(yè)制定營銷策略、提供個性化服務至關重要。本文從企業(yè)數(shù)據庫中抽取了100個用戶半年的脫敏后的交易數(shù)據作為數(shù)據分析的樣本數(shù)據。
(一)用戶消費行為分析表
由于企業(yè)交易數(shù)據庫中并沒有我們建立用戶消費行為指標所需要的字段,所以首先建立用戶消費行為分析表,定義用戶ID、平均銷售金額、消費頻次、上次購買時間等四個字段。字段名、數(shù)據類型等如表2所示。
(二)數(shù)據處理
然后進行數(shù)據處理,數(shù)據部分是整個模型的基礎,拿到樣本數(shù)據以后并不能直接進行聚類分析,還要檢查數(shù)據是否有問題。
對于無效的值和空值要進行刪除處理,本文應用替換法對無效值和空值進行處理,即用改變量在其他所有對象的取值的均值來替換變量的值。對于數(shù)據范圍超出范圍的數(shù)據或者矛盾的數(shù)據和不合理的數(shù)據要進行檢查,去掉數(shù)據中的異常值,本文異常值視同無效值和空值,處理方法同上。
對用戶近半年的數(shù)據進行整合。從數(shù)據庫中抽取出用戶編號、用戶購買時間、銷售金額三個字段。在此基礎上計算“平均銷售金額”、“消費頻次”和“上次購買間隔”?!捌骄N售金額”用用戶6個月的消費金額算平均值?!百徺I頻率”是將用戶編號進行計數(shù)得到。每個用戶年度中最后一次購買時間與截止日(將7月1號設置為截止日)相減得到“上次購買間隔”。
部分樣本數(shù)據,如表3所示。
(三)變量標準化
根據對樣本數(shù)據的分析,各指標數(shù)據不在同一個區(qū)間,甚至不在同一個數(shù)量級,這樣直接聚類建模勢必對結果產生干擾。因此為了弱化這個因素對于結果的影響,在建模前要對數(shù)據進行處理。本文采用各變量相對于平均值的偏離程度代替變量的絕對值,這也是數(shù)據標準化的重要步驟。
(四)KMeans聚類
在進行聚類分析前,還要確定聚類參數(shù)K,它是聚類數(shù)目。按照以往的經驗K值過大或者過小都會對對聚類結果產生較大影響。一般情況下,如若K值取值過小,會導致不同的用戶群之間特征不明顯,同一群中用戶數(shù)過多,不能發(fā)現(xiàn)有效的細分模型,這樣的用戶群畫像也就毫無意義。如若K值取值過大,會導致類別太多,同一類中特征不明顯,生成眾多無意義的用戶群,對市場營銷策劃無任何指導意義。因此要得到較為合理的K需要經過反復多次的試驗,得出最終的最佳K值。考慮到公司產品較少,用戶的偏好不顯著,另外選取的數(shù)據庫的樣本數(shù)據較少,再結合經驗初步將聚類數(shù)K值定為3-5之間。分別取K值為3,4,5進行聚類分析。試驗多次并從中選擇最優(yōu)的方案。
本文的實驗環(huán)境:CPU:Inter Core i5 2.5GHz,4GB內存,Windows 7 旗艦版,R軟件。程序代碼(略)。
當K取值分別為3、4、5時,分別進行聚類實驗,結果說明如下:
①當K取值分別為3時,進行聚類實驗,結果如圖1所示。
②當K取值分別為4時,進行聚類實驗,結果如圖2所示。
③當K取值分別為5時,進行聚類實驗,結果如圖3所示。
通過對以上三個K值分析檢驗結果的比較,當聚類數(shù)定位3時,每個用戶群體分布明顯,群體之間的界限清晰,聚類效果較好。因此將聚類數(shù)定為3類是最理想的聚類結果,根據對應的用戶歸屬類別如表5所示。
(五)群體畫像分析
根據聚類結果3個類別的數(shù)據可以明顯看到3類不同消費群體的特征,C1類用戶戶關心價格,消費頻次不高,客單金額小,對企業(yè)的信任度不高,給企業(yè)帶來的利潤??;C2數(shù)量最多,對企業(yè)電子商務網站產品持肯定的態(tài)度,交易穩(wěn)定是企業(yè)穩(wěn)定生存的基礎;C3類用戶消費頻次高,平均消費金額高,是企業(yè)可以從中獲得利潤最大的群體潛在用戶消費者。
五、總結
對用戶進行精心化的描述,使企業(yè)對用戶的了解更加準確,能有效提升精準營銷的效果,從而采取精細化個性化的服務來更好的滿足用戶需求、提升營銷效果、改善用戶體驗,并且能降低成本、增加收入,同時實現(xiàn)用戶針對性管理。因此具有明確的經濟效益。本文提出了一種完全依據用戶消費行為建模來進行用戶畫像的方法,以此來描述用戶群的特征、刻畫用戶群的行為。通過實例表明這種方法是有效的,很好的符合了客觀實際、精確的刻畫了用戶群的特征,為根據不同類型用戶群提供個性化服務提供了依據。
參考文獻:
[1]Aly M,Hatch A,Josifovski V,et al.WebScale User Modeling for Targeting[C].Proceedings of the 21th international conference companion on World Wide Web.Lyon,F(xiàn)rance:ACM,2012.
[2]呂斌,張晉東.基于RFM模型的商業(yè)銀行營銷決策分析[J].統(tǒng)計與決策,2013,(14).
[3]徐翔斌,王佳強,涂歡,穆明.基于改進RFM模型的電子商務客戶細分[J].計算機應用,2012,32(5).
[4]王文賢,金陽,陳道斌.基于RFM模型的個人客戶忠誠度研究[J].金融論壇,2012,(3).
[5]于海濤,李莘,姚念民.Kmeans聚類算法優(yōu)化方法的研究[J].小型微型計算機系統(tǒng),2012,10(10).
基金:本文為無錫職業(yè)技術學院人才工程校級科技課題“基于大數(shù)據的用戶畫像模型及可視化研究”(課題編號:3116021931)階段成果
作者簡介:趙建偉(1980-),男,碩士,無錫職業(yè)技術學院講師,研究方向:電子商務與數(shù)據化營銷。