山東青年政治學(xué)院 隋國政
淺談用戶畫像構(gòu)建及應(yīng)用
山東青年政治學(xué)院 隋國政
隨著大數(shù)據(jù)技術(shù)的發(fā)展,越來越多的企業(yè)發(fā)現(xiàn)通過大數(shù)據(jù)技術(shù)對海量的用戶行為數(shù)據(jù)進行分析可以更精準、快速的掌握用戶的一些重要的特征信息,從而為企業(yè)發(fā)展提供信息基礎(chǔ)。本文分析了用戶畫像構(gòu)建的基本思路,并對其應(yīng)用進行了簡單介紹。
大數(shù)據(jù);用戶畫像;標簽隨著計算機的發(fā)展,人們對計算機解決問題的要求也越來越高,從最開始的處理數(shù)學(xué)計算,經(jīng)歷支持圖形化操作、單機辦公軟件、支持資源共享(網(wǎng)絡(luò))、B/S架構(gòu)的企業(yè)辦公軟件,一直到互聯(lián)網(wǎng)行業(yè)的蓬勃發(fā)展,近幾年互聯(lián)網(wǎng)行業(yè)進入“大數(shù)據(jù)時代”,人們對計算機使用過程中產(chǎn)生的數(shù)據(jù)產(chǎn)生了極大的興趣,希望通過對這些數(shù)據(jù)的挖掘、分析去發(fā)現(xiàn)潛在的商業(yè)價值,推動企業(yè)的發(fā)展。隨著大數(shù)據(jù)技術(shù)的發(fā)展,越來越多的企業(yè)發(fā)現(xiàn),通過大數(shù)據(jù)技術(shù)對海量的用戶行為數(shù)據(jù)進行分析可以更精準、快速的掌握用戶的一些重要的特征信息(行為、消費習(xí)慣等),從而為企業(yè)發(fā)展提供信息基礎(chǔ)。隨著對用戶行為分析的深入,一個描述這個過程的概念逐漸產(chǎn)生,就是用戶畫像。
什么是用戶畫像?在下定義之前先通過一個例子了解,我們經(jīng)常這樣描述一個人:男性,35歲,中等身高,國字臉,短發(fā),微胖,大學(xué)本科畢業(yè),在XX單位工作,主要從事互聯(lián)網(wǎng)行業(yè),屬于高收入人員,經(jīng)常網(wǎng)購,偏好電子產(chǎn)品。這樣的描述可以讓我們對一個人的某些方面有很直觀的了解,如果信息足夠,我們可以大概知道這個人的樣子,從而對這個人的一些行為進行預(yù)測或分析,這就是一個用戶畫像的簡單案例,這些描述就是我們對這個人的特征的抽象,這里用標簽來描述這些特征,如果對一個人的特征掌握足夠全面,就可以對這個人產(chǎn)生更具體形象的了解,就像看到了本人的照片一樣,這就是用戶畫像。簡而言之,用戶畫像是根據(jù)用戶社會屬性、生活習(xí)慣和消費行為等信息而抽象出的一個標簽化的用戶模型。
要進行用戶畫像構(gòu)建,首先需要了解標簽,標簽是對用戶的社會屬性、生活習(xí)慣、消費行為等進行進一步的抽象,通過簡單規(guī)則算法或者大數(shù)據(jù)技術(shù)對用戶行為習(xí)慣的分析提取,以及對用戶簡單直接的特征描述即用戶標簽,標簽的目的使我們簡單、直觀的了解用戶的某些特征。
通過之前的說明我們可以了解到用戶畫像其實就是對一個人的特征(標簽)進行提煉,即對一個人打標簽的過程。標簽也分不同類別,寬泛的說標簽主要分為基礎(chǔ)屬性標簽(性別、年齡、體型、婚姻狀況、所在地區(qū)、工作狀況等)、行為標簽(愛好、常用購物網(wǎng)站、關(guān)注商品類別、常出現(xiàn)的地點等)兩大類。
用戶畫像其實就是提煉標簽及制定標簽規(guī)則的過程,以基礎(chǔ)標簽為例,對一個人年齡階段的劃分:從出生到滿1周歲(不包括1周歲)為嬰兒;從1(包括1周歲)至6周歲(不包括6周歲)為幼兒;6周歲至12周歲(不包括12周歲)為兒童;12周歲至18周歲(不包括18周歲)為少年;18周歲至40歲(不包括40周歲)為青年;40周歲至65周歲(不包括65周歲)為中年人;65周歲以上為老人年。這是通過人的出生日期經(jīng)過年齡計算然后在根據(jù)年齡階段規(guī)則匹配而生成的標簽,規(guī)則相對簡單,有許多標簽規(guī)則更為復(fù)雜,規(guī)則標準沒有很明確的標準,需要經(jīng)過大數(shù)據(jù)云計算技術(shù)對用戶的行為習(xí)慣進一步分析才能得出,如“白富美”、“高富帥”等,這種沒有很明確的標準,需要根據(jù)人的收入或財富、體型、長相等標準綜合評判后才能獲得。
綜上所述給用戶打標簽的過程就是對用戶的行為習(xí)慣或者特定屬性進行提取分析的過程,當一個用戶的被打的標簽足夠多的時候就產(chǎn)生了用戶畫像。
那具體的構(gòu)建方法有沒有呢?目前有很多已經(jīng)被大家認可的用戶畫像的方法,如Alen Cooper的“七步人物角色法”,Lene Nielsen的“十步人物角色法”等,這些都是非常好并且非常專業(yè)的用戶畫像方法,值得我們借鑒和學(xué)習(xí)。事實上,當我們仔細了解了這些方法之后,就會發(fā)現(xiàn)這些方法從流程上主要可以分為3個步驟:獲取和研究用戶相關(guān)信息、細分用戶群、給用戶打標簽并建立用戶畫像。當然,不同行業(yè)構(gòu)建用戶畫像時因為關(guān)注點不同,所提取的標簽也有所不同,最終構(gòu)建出來的用戶畫像也不盡相同。
用戶畫像是為了提取用戶特征,方便我們?nèi)娴牧私庥脩簦@里用于用戶畫像的數(shù)據(jù)來源就是當前能接觸到的所有的用戶數(shù)。有的數(shù)據(jù)反映用戶的基本特征,如:人的性別、職業(yè)、戶籍、婚姻狀況等,這些可以通過人員基本屬性直接提取,基本不會發(fā)生變化,這種數(shù)據(jù)稱之為靜態(tài)數(shù)據(jù)(穩(wěn)定數(shù)據(jù))。有些數(shù)據(jù)是具有時空特性,隨著時間、空間的變化而不斷變化的數(shù)據(jù),如:年齡段劃分、常用購物網(wǎng)站、某個時間段關(guān)注或購買的商品類別等,這些是隨著用戶所處的時空變化而變化的,這種數(shù)據(jù)我們稱之為動態(tài)數(shù)據(jù)(時效數(shù)據(jù))。
不同行業(yè)獲取的數(shù)據(jù)種類不同,產(chǎn)生標簽也不盡相同,下表以某政府部門和某購物網(wǎng)站為例,分別列出了可以獲取的數(shù)據(jù)種類和可以分析出的標簽及關(guān)注點:
名稱數(shù)據(jù)種類關(guān)注點可獲取的標簽戶籍信息某政府部門車輛相關(guān)信息機票信息上網(wǎng)信息火車票信息嫌疑人信息有沒有犯罪嫌疑人在特定地區(qū)出現(xiàn)性別、年齡段、地域、婚姻狀況、車輛狀況、是否嫌疑人等快遞信息某購物網(wǎng)站地址信息經(jīng)常購買商品經(jīng)常瀏覽商品一年中用戶購買商品記錄用戶的消費習(xí)慣,特定時間向用戶推薦其感興趣的商品或針對特定時間、區(qū)域用戶的消費習(xí)慣人員地域、消費水平、性別、年齡、購物時間、購物類別等
同為互聯(lián)網(wǎng)行業(yè),因從事的具體行業(yè)方向不同,所以對用戶的關(guān)注點不同,決定了他們在構(gòu)建用戶畫像時提取的標簽也是不同的,接下來以汽車行業(yè)和電商行業(yè)為例做簡單說明。
汽車行業(yè):一般情況下,一個準備買車的人首先考慮的是價格,收入及存款情況決定了要買的車輛的價格,后面要考慮的就是具體車型了,決定車型的一般是家庭情況,如果是已婚并有2個以上的孩子,有很大可能會考慮七座車型,單身一般會考慮外形比較酷炫的。這種都是比較明確的約束,一般考慮完這些才是挑選具體品牌。
電商行業(yè):由于電商行業(yè)涉及物品種類比較多,很難根據(jù)用戶的家庭及收入情況來推斷他需要什么商品,這里畫像時比較關(guān)注的就是這個人已經(jīng)購買或關(guān)注的商品種類,比如一個人剛買了iphone7,那我可以給他推薦對應(yīng)品牌的鋼化膜或者手機套;再比如一個人最近一個星期一直在瀏覽籃球鞋類商品,那可以根據(jù)他的以往的消費情況進行推薦相應(yīng)商品。
完成用戶畫像后要使其真正產(chǎn)生價值還要對構(gòu)成用戶畫像的標簽進行進一步分析,盡量去除那些無關(guān)緊要或者影響力比較低的標簽,找到影響我們關(guān)注點的那些標簽,從而使用戶畫像真正產(chǎn)生價值。
用戶畫像對互聯(lián)網(wǎng)行業(yè)尤其是電商平臺尤為重要,將消費者的所有行為數(shù)據(jù)收集、分析進一步挖掘潛在的商業(yè)價值。通過收集消費者的社會屬性(地域、性別)、生活習(xí)慣、消費行為等數(shù)據(jù),可以分析某個或某一區(qū)域的消費者的整體特征,用于向單一消費者進行商品推薦或用于調(diào)整區(qū)域倉庫某一商品的備貨數(shù)量,從而達到精準銷售或節(jié)省成本的目標(倉庫商品備貨數(shù)量過多會導(dǎo)致商品積壓而占用流動資金,從而導(dǎo)致周轉(zhuǎn)不靈或?qū)π庐a(chǎn)品的引進產(chǎn)生影響,從而影響商戶利益)。以推薦引擎為例簡單解釋下:用戶A(男)在情人節(jié)買了一瓶紅酒和一個女性手鐲(當然該用戶還有其他數(shù)據(jù)),標簽提?。悍菃紊?、男,時間點提?。呵槿斯?jié),這里我們就可以在特定的節(jié)日給用戶A推薦女性喜歡的禮物。這就是我們逛購物網(wǎng)站時經(jīng)??吹降耐扑]商品的基本原理。
真正用戶畫像的核心就是大數(shù)據(jù)量的深度分析算法,涉及從數(shù)據(jù)采集、清洗、轉(zhuǎn)換、建模、分析、驗證等復(fù)雜過程,需要涉及很多大數(shù)據(jù)相關(guān)技術(shù)及不同行業(yè)的關(guān)注點,本文只是對用戶畫像的構(gòu)建過程及使用進行了簡單闡述,但可以作為構(gòu)建并使用用戶畫像的基本思路。
[1]鄭得龍.數(shù)據(jù)挖掘在企業(yè)集團營銷決策中的應(yīng)用研究[D].浙江理工大學(xué),2013.
[2]孔祥迎.基于社會化標簽的個性化推薦技術(shù)研究[D].成都:電子科技大學(xué),2013.
[3]王曉帥.社會化標簽推薦算法的研究[D].南寧:廣西大學(xué),2012.
[4]陳麗霞.基于社會化標簽的P2P語義推薦研究[D].西安:西安電子科技大學(xué),2012.
[5]范能能.圖像社會化標簽預(yù)處理與聚類方法研究[D].武漢:華中科技大學(xué),2012.
隋國政(1967-),男,大學(xué)本科,高級工程師,研究方向:計算機應(yīng)用。