任義波
(江蘇灌云農(nóng)村商業(yè)銀行,江蘇 連云港 222212)
隨著互聯(lián)網(wǎng)技術(shù)和金融科技的迅速發(fā)展,傳統(tǒng)金融業(yè)務(wù)正逐步向線上轉(zhuǎn)移,信貸市場(chǎng)的競(jìng)爭(zhēng)愈發(fā)激烈。為了在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出,金融機(jī)構(gòu)須深入挖掘潛在客戶的需求,并為客戶提供量身定制的信貸產(chǎn)品推薦。然而,傳統(tǒng)信貸營(yíng)銷(xiāo)方法主要依賴人工策略,其效果受限且耗時(shí)較長(zhǎng)。因此,運(yùn)用先進(jìn)的技術(shù)手段以提高信貸營(yíng)銷(xiāo)效果和客戶滿意度,已成為業(yè)界關(guān)注的焦點(diǎn)。
用戶畫(huà)像作為一種從海量數(shù)據(jù)中提煉用戶特征和行為的方法,為信貸營(yíng)銷(xiāo)提供了關(guān)鍵依據(jù)。通過(guò)深入分析用戶的信用歷史、消費(fèi)行為和社交網(wǎng)絡(luò)等信息,金融機(jī)構(gòu)能更精確地掌握潛在客戶的需求和信用狀況,從而為客戶推薦最適合的信貸產(chǎn)品。本文致力于研究融合用戶畫(huà)像和信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型,旨在提升信貸產(chǎn)品的匹配度和營(yíng)銷(xiāo)成效,為金融機(jī)構(gòu)在激烈的信貸市場(chǎng)競(jìng)爭(zhēng)中提供有力支持。
近年來(lái),用戶畫(huà)像在多個(gè)領(lǐng)域取得了顯著的成功[1-5],如電商、廣告和內(nèi)容推薦等。然而,在信貸營(yíng)銷(xiāo)領(lǐng)域的應(yīng)用仍然面臨許多挑戰(zhàn),如數(shù)據(jù)稀疏性[6]、冷啟動(dòng)問(wèn)題[7]、模型可解釋性等。許多研究者已經(jīng)開(kāi)始關(guān)注信貸營(yíng)銷(xiāo)推薦系統(tǒng)的研究,嘗試引入機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)解決這些問(wèn)題。當(dāng)前很多相關(guān)研究主要集中在以下幾個(gè)方面:基于協(xié)同過(guò)濾的推薦方法[8-10],通過(guò)分析用戶之間的相似性或信貸產(chǎn)品之間的相似性,為用戶推薦可能感興趣的信貸產(chǎn)品;基于深度學(xué)習(xí)的推薦方法[11-12],利用神經(jīng)網(wǎng)絡(luò)自動(dòng)提取用戶和信貸產(chǎn)品的高階特征,構(gòu)建復(fù)雜的推薦模型。
盡管這些方法在一定程度上提高了信貸營(yíng)銷(xiāo)推薦的效果,但仍然存在一些局限性。如大部分方法主要關(guān)注用戶和信貸產(chǎn)品之間的匹配度,忽略了用戶的信用風(fēng)險(xiǎn)和金融機(jī)構(gòu)的風(fēng)險(xiǎn)管理需求。其次,許多基于深度學(xué)習(xí)的方法缺乏可解釋性,不利于金融機(jī)構(gòu)進(jìn)行風(fēng)險(xiǎn)控制和合規(guī)審查。
針對(duì)上述問(wèn)題,本文將結(jié)合用戶畫(huà)像技術(shù)及信貸產(chǎn)品特征,研究一種融合用戶畫(huà)像和信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型(An Integrated Marketing Recommendation Model for User Profiles and Loan Products,IMRM) 。該模型主要包括七個(gè)步驟:數(shù)據(jù)采集與預(yù)處理,涉及收集用戶數(shù)據(jù)和信貸產(chǎn)品數(shù)據(jù),并進(jìn)行清洗、預(yù)處理和特征工程;確定數(shù)據(jù)分析顆粒度,根據(jù)業(yè)務(wù)需求和用戶數(shù)據(jù)特點(diǎn)設(shè)定;構(gòu)建用戶畫(huà)像和提取信貸產(chǎn)品特征,涵蓋人口統(tǒng)計(jì)學(xué)、行為、信用特征等;使用協(xié)同過(guò)濾算法計(jì)算用戶與信貸產(chǎn)品間的相似度,并進(jìn)行推薦;取出營(yíng)銷(xiāo)清單并集以滿足營(yíng)銷(xiāo)需求;進(jìn)行營(yíng)銷(xiāo)活動(dòng),收集反饋?zhàn)鳛槟P蛢?yōu)化信息;根據(jù)營(yíng)銷(xiāo)結(jié)果評(píng)估模型性能,并進(jìn)行優(yōu)化與調(diào)整。最后,通過(guò)實(shí)驗(yàn)驗(yàn)證,以準(zhǔn)確率和召回率為評(píng)價(jià)指標(biāo),證實(shí)該模型的有效性。
用戶畫(huà)像[13-14]是對(duì)用戶的一種全面描述,它通過(guò)挖掘和分析用戶的行為、興趣、需求等方面的信息來(lái)描繪用戶的特征,從而幫助企業(yè)更好地了解客戶,并為客戶提供更精準(zhǔn)的服務(wù)和產(chǎn)品。用戶畫(huà)像的構(gòu)建通常包括以下步驟:
①數(shù)據(jù)收集與預(yù)處理。
②用戶特征提取。
③用戶特征分析與篩選。
1) 數(shù)據(jù)收集與預(yù)處理
首先,需要收集用戶的信用歷史、消費(fèi)行為和社交網(wǎng)絡(luò)等多源數(shù)據(jù)。這些數(shù)據(jù)可以從金融機(jī)構(gòu)的內(nèi)部系統(tǒng)、征信機(jī)構(gòu)、合作伙伴以及第三方數(shù)據(jù)提供商等途徑獲取。本文將從以下幾個(gè)方面收集數(shù)據(jù):
①基本信息:包括客戶的年齡、性別、職業(yè)、收入、家庭狀況等。
②交易數(shù)據(jù):包括客戶的存款、貸款、信用卡、手機(jī)銀行等記錄。
③行為數(shù)據(jù):包括客戶的瀏覽記錄、購(gòu)物歷史、社交媒體互動(dòng)等。
2) 用戶特征提取
根據(jù)業(yè)務(wù)需求和數(shù)據(jù)特點(diǎn),從原始數(shù)據(jù)中提取與信貸營(yíng)銷(xiāo)相關(guān)的用戶特征。本文將從以下幾個(gè)方面對(duì)用戶特征進(jìn)行分析:
①信用特征:如信用評(píng)分、逾期記錄、負(fù)債比率等。
②消費(fèi)特征:如消費(fèi)習(xí)慣、消費(fèi)偏好、消費(fèi)水平等。
③社交特征:如朋友圈信息、用戶互動(dòng)行為、社交影響力等。
④人口統(tǒng)計(jì)特征:如年齡、性別、學(xué)歷、職業(yè)等。
3) 用戶特征分析與篩選
為簡(jiǎn)化模型并提升推薦效果,需要對(duì)用戶特征進(jìn)行分析和篩選。首先,通過(guò)描述性統(tǒng)計(jì)和相關(guān)性分析等方法,探究各特征的分布狀況及相互關(guān)聯(lián)。然后,運(yùn)用特征選擇技術(shù),如卡方檢驗(yàn)、互信息和遞歸特征消除等,篩選出對(duì)推薦結(jié)果影響較大的關(guān)鍵特征。
推薦算法[15](Recommender Systems) 作為一種信息過(guò)濾技術(shù),致力于協(xié)助用戶從大量信息中篩選出最相關(guān)且具有價(jià)值的內(nèi)容。這些算法能夠依據(jù)用戶的歷史行為、興趣愛(ài)好以及其他用戶的活動(dòng)等信息進(jìn)行個(gè)性化推薦。在電商、新聞、音樂(lè)、電影等多個(gè)領(lǐng)域,推薦算法都發(fā)揮著廣泛的作用。主要有以下幾種類(lèi)型:基于內(nèi)容的推薦(Content-based Recommendation) ;基于用戶的協(xié)同過(guò)濾算法(User-Based Collaborative Filtering,UBCF) ;或基于項(xiàng)目的協(xié)同過(guò)濾算法(Item-Based Collaborative Filtering,IBCF) 。
本文提出了融合用戶畫(huà)像和信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型(An Integrated Marketing Recommendation Model for User Profiles and Loan Products,IMRM) ,該模型的具體流程如圖1所示。
圖1 IMRM模型的流程圖
該模型由數(shù)據(jù)采集與預(yù)處理、確定數(shù)據(jù)分析顆粒度、用戶畫(huà)像構(gòu)建與信貸產(chǎn)品特征提取、協(xié)同過(guò)濾推薦算法、營(yíng)銷(xiāo)與反饋和模型優(yōu)化與調(diào)整七步構(gòu)成。
第一步數(shù)據(jù)采集與預(yù)處理:從各系統(tǒng)及其他來(lái)源收集用戶數(shù)據(jù)(包括基本信息、信用記錄、消費(fèi)行為、信用報(bào)告等)和信貸產(chǎn)品數(shù)據(jù)(如貸款類(lèi)型、利率、期限等)。然后對(duì)數(shù)據(jù)進(jìn)行清洗、預(yù)處理和特征工程,以便后續(xù)步驟計(jì)算和分析。
第二步確定數(shù)據(jù)分析顆粒度:根據(jù)業(yè)務(wù)需求和用戶數(shù)據(jù)特點(diǎn),確定數(shù)據(jù)分析的時(shí)間顆粒度(如日、周、月等)。
第三步用戶畫(huà)像構(gòu)建與信貸產(chǎn)品特征提?。豪糜脩魯?shù)據(jù)構(gòu)建用戶畫(huà)像,包括人口統(tǒng)計(jì)學(xué)特征、行為特征、信用特征等。同時(shí),提取信貸產(chǎn)品的關(guān)鍵特征,包括貸款類(lèi)型、利率、期限等。
第四步構(gòu)建協(xié)同過(guò)濾算法:首先根據(jù)用戶畫(huà)像和信貸產(chǎn)品特征,分別計(jì)算用戶之間的相似度和信貸產(chǎn)品之間的相似度,從而得到用戶之間的相似度矩陣和信貸產(chǎn)品之間的相似度矩陣。然后采用協(xié)同過(guò)濾算法進(jìn)行信貸產(chǎn)品推薦??梢赃x擇基于用戶的協(xié)同過(guò)濾算法(User-Based Collaborative Filtering,UBCF) 或基于項(xiàng)目的協(xié)同過(guò)濾算法(Item-Based Collaborative Filtering,IBCF) 。
第五步取出營(yíng)銷(xiāo)清單并集:根據(jù)營(yíng)銷(xiāo)需求,取出營(yíng)銷(xiāo)清單并集。
第六步營(yíng)銷(xiāo)與反饋:將推薦的信貸產(chǎn)品推送給目標(biāo)客戶進(jìn)行營(yíng)銷(xiāo),并收集營(yíng)銷(xiāo)結(jié)果(如成功與否、營(yíng)銷(xiāo)渠道等)作為模型優(yōu)化信息。
第七步模型優(yōu)化與調(diào)整:根據(jù)營(yíng)銷(xiāo)結(jié)果反饋,評(píng)估模型性能(如準(zhǔn)確率、召回率、F1分?jǐn)?shù)等),并根據(jù)評(píng)估結(jié)果對(duì)模型進(jìn)行優(yōu)化和調(diào)整,以提高推薦效果。如更新用戶畫(huà)像信息、調(diào)整相似度計(jì)算方法等。
本文采取協(xié)同過(guò)濾算法生成營(yíng)銷(xiāo)推薦列表?;谟脩舻膮f(xié)同過(guò)濾和基于項(xiàng)目的協(xié)同過(guò)濾都是協(xié)同過(guò)濾推薦算法的兩種主要形式。兩者都是利用用戶的行為數(shù)據(jù)和產(chǎn)品特征為用戶提供個(gè)性化的推薦。
兩者算法的訓(xùn)練方法相同。首先對(duì)原始數(shù)據(jù)對(duì)連續(xù)型特征進(jìn)行歸一化處理,對(duì)離散型特征進(jìn)行One-Hot編碼,從而提取有用的特征;然后使用不同的相似度計(jì)算方法進(jìn)行推薦結(jié)果校驗(yàn),在訓(xùn)練集上嘗試使用不同的K值,以找到最優(yōu)的K值(K表示最相似的結(jié)果數(shù)量,可以使用網(wǎng)格搜索、隨機(jī)搜索等方法進(jìn)行參數(shù)調(diào)優(yōu));最后采用交叉驗(yàn)證方法提高模型評(píng)估的穩(wěn)定性和準(zhǔn)確性。同時(shí),可以嘗試使用多種評(píng)價(jià)指標(biāo)(如準(zhǔn)確率、召回率、F1 分?jǐn)?shù)等)來(lái)評(píng)估模型的性能。由于信貸產(chǎn)品的數(shù)量可能很多,采用負(fù)采樣方法減少算法計(jì)算量。同時(shí),為用戶不同的行為數(shù)據(jù)(如點(diǎn)擊、收藏、購(gòu)買(mǎi)等)設(shè)置不同的權(quán)重,以提高推薦效果。
融合用戶畫(huà)像和信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型如算法 1 所示。在本文中,算法首先在第 1 步進(jìn)行用戶畫(huà)像構(gòu)建和信貸產(chǎn)品特征提取。第2~3 步分別針對(duì)需要推薦的客戶,使用基于用戶畫(huà)像的營(yíng)銷(xiāo)推薦模型和基于信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型,得到所需推薦的信貸產(chǎn)品列表。最后,對(duì)兩個(gè)模型得到的信貸產(chǎn)品列表取交集,從而得到針對(duì)當(dāng)前客戶的推薦產(chǎn)品清單。
算法1:融合用戶畫(huà)像和信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型(An Integrated Marketing Recommendation Model for User Profiles and Loan Products,IMRM)
輸入:詞性詞典的絕對(duì)路徑列表paths, 停用詞典絕對(duì)路徑列表stopWordsPaths, 故障知識(shí)集sentences,當(dāng)前故障知識(shí)u0,top
輸出:前top個(gè)相似度高的故障知識(shí)topSentences
a)FeatureEngineering(user_data,credit_product_data)/*用戶畫(huà)像構(gòu)建和信貸產(chǎn)品特征提取*/
b)U1←UBCF_Algorithm(user_data,credit_product,R,N,u0) /*基于用戶畫(huà)像的營(yíng)銷(xiāo)推薦模型*/
c)U2←IBCF_Algorithm(user_data,credit_product,R,N,u0)/*基于信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型*/
d)U←U1UU2/*篩選營(yíng)銷(xiāo)清單并集*/
算法2:FeatureEngineering (user_data,credit_product_data) /*用戶畫(huà)像構(gòu)建和信貸產(chǎn)品特征提取*/
輸入:用戶畫(huà)像user_data,信貸產(chǎn)品集合credit_product
輸出:用戶畫(huà)像特征user_features,信貸產(chǎn)品集合特征credit_product_feature
a) Fori←0 touser_data.length:
b)user_features←one_hot_encode(user_data[i])/*用戶畫(huà)像特征獨(dú)熱編碼*/
c) End For
d) Fori←0 tocredit_product_data.length:
e)credit_product_feature1←one_hot_encode(credit_product_data[i]) /*信貸產(chǎn)品特征獨(dú)熱編碼*/
f)credit_product_feature2←normalize(credit_product_ data[i]) /*信貸產(chǎn)品特征歸一化*/
g) End For
h)user_features←dimensionality_reduction(user_features) /*特征降維*/
i)credit_product_feature←
dimensionality_reduction(credit_product_feature1,credit_product_feature2)/* 特征降維*/
j) Returnuser_features,credit_product_feature
算法3:UBCF_Algorithm(user_data,credit_product,R,N,u0) /*基于用戶畫(huà)像的營(yíng)銷(xiāo)推薦模型*/
輸入:用戶畫(huà)像user_data,信貸產(chǎn)品集合credit_product,用戶-信貸產(chǎn)品評(píng)分矩陣R
輸出:對(duì)于用戶u0的前N個(gè)推薦信貸產(chǎn)品
a) Fori←0 to user_data.length:
b) Forj←0 to user_data.length:
c)ui←user_data[i],uj←user_data[j]
d)sim(ui,uj)←cos(ui,uj)=
e) End For
f) For i ←0 to user_data.length:/*為目標(biāo)用戶u0生成信貸產(chǎn)品推薦*/
g)pred(u0,pi)
h) End For
算法4:IBCF_Algorithm(user_data,credit_product,R,N,u0) /*基于信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型*/
輸入:用戶畫(huà)像user_data,信貸產(chǎn)品集合credit_product,用戶-信貸產(chǎn)品評(píng)分矩陣R
輸出:對(duì)于用戶u0的前N個(gè)推薦信貸產(chǎn)品
a) Fori←0 to credit_product.length:
b) Forj←0 to credit_product.length:
c)pi←credit_product[i],pj←credit_product[j]
d)sim(pi,pj)←cos(pi,pj)=
e) End For
f) Fori←0 to credit_product.length:/*為目標(biāo)用戶u0生成信貸產(chǎn)品推薦*/
g)pred(u0,pi)
h) End For
為了驗(yàn)證本文提出的融合用戶畫(huà)像和信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型,本文選取Santander 銀 行的客戶數(shù)據(jù)。Santander銀行是歐洲第二大銀行,因此該銀行每月都會(huì)產(chǎn)生大量客戶行為數(shù)據(jù),也會(huì)不斷擴(kuò)展新的金融產(chǎn)品。該數(shù)據(jù)集分訓(xùn)練集和測(cè)試集兩個(gè)文件,具體數(shù)據(jù)分布見(jiàn)表1。
表1 訓(xùn)練集和測(cè)試集描述
本文采用準(zhǔn)確率和召回率作為模型的評(píng)價(jià)指標(biāo)。具體定義如下:
式(1) 中True Positives(TP) 表示實(shí)際為正例且被預(yù)測(cè)為正例的樣本數(shù)量,F(xiàn)alse Positives(FP) 表示實(shí)際為負(fù)例但被預(yù)測(cè)為正例的樣本數(shù)量。式(2) 中True Positives(TP) 表示實(shí)際為正例且被預(yù)測(cè)為正例的樣本數(shù)量,F(xiàn)alse Negatives(FN) 表示實(shí)際為正例但被預(yù)測(cè)為負(fù)例的樣本數(shù)量。
融合用戶畫(huà)像和信貸產(chǎn)品的營(yíng)銷(xiāo)推薦模型考慮了用戶畫(huà)像對(duì)相似度計(jì)算的影響,同時(shí)引入了信貸產(chǎn)品特征以獲得更優(yōu)的推薦清單。為了對(duì)比改進(jìn)前后模型的推薦性能表現(xiàn),本文分別記錄了 UBCF(基于用戶的協(xié)同過(guò)濾算法)、IBCF(基于項(xiàng)目的協(xié)同過(guò)濾算法)以及 IMRM模型的推薦性能。不同算法的性能表現(xiàn)結(jié)果見(jiàn)圖2和圖3。
圖2 三種算法在數(shù)據(jù)集上的準(zhǔn)確率
圖3 三種算法在數(shù)據(jù)集上的召回率
根據(jù)圖2和圖3的結(jié)果,在準(zhǔn)確率上,沒(méi)有引入信貸產(chǎn)品特征的UBCF推薦算法與沒(méi)有引入用戶畫(huà)像的IBCF 算法表現(xiàn)相近,分別為0.8012 和0.7912。然而,與IMRM 模型相比,它們的準(zhǔn)確率平均降低了0.02。這是因?yàn)镮MRM 模型綜合考慮了用戶畫(huà)像和信貸產(chǎn)品特性,從而得到更優(yōu)的推薦結(jié)果。而在召回率上,IMRM、UBCF 及 IBCF 算法分別為 0.7919,0.7312 和0.7413。因此,IMRM 模型在準(zhǔn)確率和召回率兩個(gè)方面的表現(xiàn)均優(yōu)于其他單一算法的最佳性能。
本文提出了一種融合用戶畫(huà)像和信貸產(chǎn)品特征的營(yíng)銷(xiāo)推薦模型。該算法以協(xié)同過(guò)濾為基礎(chǔ),結(jié)合用戶畫(huà)像和信貸產(chǎn)品特征,從而讓不同的推薦算法相互彌補(bǔ)不足。相較于對(duì)比算法,實(shí)驗(yàn)結(jié)果表明IMRM 模型在準(zhǔn)確率上平均提升約2%,同時(shí)在召回率方面也表現(xiàn)出較高的值。然而,本文所采用的相似度計(jì)算方法主要是余弦相似度,未來(lái)可以嘗試使用其他相似度度量方法以進(jìn)一步優(yōu)化模型。同時(shí),模型的性能僅在一個(gè)數(shù)據(jù)集上進(jìn)行了評(píng)估,需要在更多不同場(chǎng)景下對(duì)模型的適用性和泛化能力進(jìn)行驗(yàn)證。因此,在未來(lái)的工作中,我們將重點(diǎn)關(guān)注新穎的相似度計(jì)算公式,以及基于深度學(xué)習(xí)的推薦算法結(jié)合,從而進(jìn)一步提高推薦效果。