尹健康 梁筱雨 劉志 陸梓祺
(1.四川省成都市煙草專賣局(公司) 四川省成都市 610000 2.云南中煙工業(yè)有限責(zé)任公司營銷中心 云南省昆明市 650000)
阿蘭康博(Alan cooper)為了解決用戶分類如何從抽象數(shù)據(jù)轉(zhuǎn)化為可視化的形象數(shù)據(jù)的過程,提出了用戶畫像的工具。用戶畫像方式非常符合大數(shù)據(jù)與商業(yè)結(jié)合后的需求,能夠?qū)⒉杉瘉淼暮A坑脩魯?shù)據(jù)進(jìn)行分類研究,在個性化推薦、精準(zhǔn)營銷、商業(yè)決策等領(lǐng)域被廣泛應(yīng)用[1]。
一般認(rèn)為第三方群體用戶一般是從網(wǎng)絡(luò)社交平臺衍生而來,通過與微博、微信、QQ、臉書、YouTube 等的商業(yè)化合作,將第三方用戶與合作企業(yè)的數(shù)據(jù)在合理、合法、合規(guī)的前提下進(jìn)行整合[2]。
某卷煙企業(yè)第三方群體平臺中提取的基礎(chǔ)數(shù)據(jù)包括:人口屬性和人生狀態(tài)、生活工作、活動范圍等等。人口屬性:性別、年齡、學(xué)歷;人生狀態(tài):育兒、戀愛、懷孕、備孕、新婚;生活工作:工作習(xí)慣、交通出行、行業(yè);活動范圍:常住地、家鄉(xiāng)[3]。如表1 所示。
某卷煙企業(yè)第三方群體平臺中提取的移動通信設(shè)備屬性數(shù)據(jù)包括:品牌、機(jī)型、上市時間、設(shè)備價格、運(yùn)營商。如表2 所示。
某卷煙企業(yè)第三方群體平臺中提取的垂直行業(yè)屬性數(shù)據(jù)包括:游戲:棋牌類、競技類、休閑類;金融:借貸、投資理財、彩票、保險。如表3 所示。
某卷煙企業(yè)第三方群體平臺中提取的財富屬性數(shù)據(jù)包括:房:租房、買房、潛在購房;車:潛在購車、維修保養(yǎng)、駕照考試、二手車、車險、租車。如表4 所示。
某卷煙企業(yè)第三方群體平臺中提取的興趣愛好屬性數(shù)據(jù)包括:旅游、游戲、金融、教育、餐飲、醫(yī)療健康。如表5 所示。
所謂詞頻(term frequency)即在第三方群體所在平臺,依法依規(guī)收集來的文檔中某一個詞語在其中產(chǎn)生的次數(shù),一般被簡稱為TF。與此同時,為了便于計算,通過歸一化處理后,詞頻也被解釋為出現(xiàn)的頻率。依據(jù)有關(guān)文獻(xiàn)所述,詞語的價值與其所在文檔出現(xiàn)頻率正向相關(guān),與此同時,詞語的價值與其所在語料庫出現(xiàn)頻率負(fù)向相關(guān)。在在第三方群體平臺環(huán)境下,借助上述規(guī)律,詞頻往往被用來做為提取文本中有代表性的關(guān)鍵詞的依據(jù)。
逆向文檔頻率在通用的語言環(huán)境中普遍統(tǒng)計相關(guān)詞匯,得到的某個特定詞語的普遍性價值,一般被簡稱為IDF。
上述兩者被組合稱為TF-IDF 方法。該方法通過量化的方式評估某個特定詞語在文檔中的價值(有時也會被拓展,用來評估某個特定文檔在語料庫中的價值)。
(1)計算TF。
表1:消費(fèi)者畫像標(biāo)簽類型中的基礎(chǔ)屬性
表2:消費(fèi)者畫像標(biāo)簽類型中的移動通信設(shè)備屬性
表3:消費(fèi)者畫像標(biāo)簽類型中的垂直行業(yè)屬性
如上公式所示,為計算TF 的基本依據(jù),TFi,j代表的是某個詞語ti在文檔dj中的出現(xiàn)頻率。與此同時,代表的是k 個詞語在文檔dj中出現(xiàn)的頻次的累加值。
(2)計算IDF。
如上公式所示,為計算IDF 的基本依據(jù),ti在文檔dj中的逆向文檔頻率為IDFi。
(3)計算TF-IDF。
詞語在某個特定文檔的高頻出現(xiàn)也可以帶來高權(quán)重的文檔區(qū)分能力。綜合二者,將其結(jié)合在一起,即可得到高權(quán)重的TF-IDF 算法值。這樣做的優(yōu)勢在于,通過計算可以將普通詞語進(jìn)行過濾,而保留了具有代表性的詞語。
表5:消費(fèi)者畫像標(biāo)簽類型中的興趣愛好屬性
在第三方群體平臺中,現(xiàn)在假設(shè)存在一個用戶卷煙偏好分析群體對象,現(xiàn)在假設(shè)為以此來表達(dá)用戶卷煙偏好分析群體對象相關(guān)的第三方群體的數(shù)量為n。同時假設(shè)基于TF-IDF 算法提取出來的第三方群體消費(fèi)數(shù)據(jù),將某卷煙企業(yè)的用戶卷煙偏好分析群體對象的卷煙產(chǎn)品類別也為m 個,并表示為符合TF-IDF 算法用戶畫像要求的將用戶卷煙偏好分析群體對象中的文檔屬性定義為Du,將用戶卷煙偏好分析群體對象中的文本信息定義為Tu,將用戶卷煙偏好分析群體對象中的用戶交互行為定義為Iu。
在第三方群體平臺中,用戶卷煙偏好分析群體對象的基礎(chǔ)屬性、移動通信設(shè)備屬性、垂直行業(yè)、財富屬性、興趣愛好等均被吸納進(jìn)來。以性別為例,男性用戶對卷煙類產(chǎn)品有更為強(qiáng)烈的偏好。由上述用戶畫像標(biāo)簽類型概述可知,在第三方群體用戶畫像過程中,面臨的數(shù)據(jù)基本性質(zhì)為數(shù)值型、布爾型、字符型和時間型數(shù)據(jù)等。
3.2.1 字符型數(shù)據(jù)的用戶卷煙偏好預(yù)測算法的計算模型
字符型數(shù)據(jù)依照TF-IDF 算法的提取方式,因此,在基礎(chǔ)屬性下,借助TF-DIF 算法計算出用戶卷煙偏好分析群體對象中的權(quán)重,然后設(shè)計基于用戶畫像的用戶卷煙偏好預(yù)測算法的計算模型如下。
其中,B(uj,ci)代表的是用戶卷煙偏好分析群體對象中的用戶uj是否具有ci權(quán)重,M 是uj所擁有的用戶畫像標(biāo)簽類型總數(shù),w(ci)代表的是用戶卷煙偏好分析群體對象中的權(quán)重。
3.2.2 布爾型數(shù)據(jù)的用戶卷煙偏好預(yù)測算法的計算模型
布爾型數(shù)據(jù)依照高斯分布計算公式,來計算某卷煙公司的第三方群體的目標(biāo)用戶與某卷煙公司的第三方群體的訓(xùn)練用戶之間的距離,然后設(shè)計基于用戶畫像的用戶卷煙偏好預(yù)測算法的計算模型如下。
其中,B(uj,ci)代表的是用戶卷煙偏好分析群體對象中的用戶uj是否具有ci權(quán)重,M 是uj所擁有的用戶畫像標(biāo)簽類型總數(shù),w(ci)代表的是用戶卷煙偏好分析群體對象中的權(quán)重。
3.2.3 文本型數(shù)據(jù)的用戶卷煙偏好預(yù)測算法的計算模型
文本型數(shù)據(jù)依照相似度計算公式,來計算某卷煙公司的第三方群體的目標(biāo)用戶與某卷煙公司的第三方群體的訓(xùn)練用戶之間的距離,然后設(shè)計基于用戶畫像的用戶卷煙偏好預(yù)測算法的計算模型如下。
其中,sim(T,Ti)為相似度計算方程,T 為TF-IDF 算法中的(TF-IDF)的值。
其中,B(uj,ci)代表的是用戶卷煙偏好分析群體對象中的用戶uj是否具有ci權(quán)重,M 是uj所擁有的用戶畫像標(biāo)簽類型總數(shù),w(ci)代表的是用戶卷煙偏好分析群體對象中的權(quán)重。
3.2.4 加權(quán)組合
如上述公式所示,PD(u,ci)為某卷煙公司在第三方群體平臺中采集后數(shù)據(jù)的處理結(jié)果,也就是,基于用戶畫像的用戶卷煙偏好預(yù)測算法的最終計算值。
各種類型數(shù)據(jù)的用戶卷煙偏好預(yù)測算法組合在一起后,組合計算模型具體的計算過程如下。
輸入:采集來的某卷煙公司的第三方群體用戶文檔屬性數(shù)據(jù)。
輸出:預(yù)測某卷煙公司的第三方群體用戶卷煙偏好值。
第一步:構(gòu)建某卷煙公司的第三方群體的用戶畫像。
第二步:計算某卷煙公司的第三方群體的相似度。
第三步:采用加權(quán)平均的方式,計算某卷煙公司的第三方群體的類別偏好值。
通過研究發(fā)現(xiàn),在卷煙企業(yè)中,還沒有一套成熟的用戶偏好預(yù)測模型并且缺乏有效的用戶畫像標(biāo)簽分類方式。本文通過探索互聯(lián)網(wǎng)精準(zhǔn)營銷的實現(xiàn)路徑,結(jié)合某卷煙企業(yè)的精準(zhǔn)營銷實踐,在合理、合法、合規(guī)基礎(chǔ)上,搭建基于用戶畫像的用戶卷煙偏好預(yù)測模型。本文提出了一種新的基于第三方群體的用戶卷煙偏好預(yù)測模型,并且應(yīng)用到卷煙企業(yè)的第三方群體平臺,借助文檔屬性構(gòu)建卷煙用戶畫像,并應(yīng)用用戶畫像標(biāo)簽進(jìn)行具體的分析。在本文提出的新算法中,借助TF-IDF 方法可以有效預(yù)測用戶對卷煙的情感傾向。