文/李琦
國(guó)內(nèi)金融行業(yè)的競(jìng)爭(zhēng)日漸加劇以及外資銀行的大量涌進(jìn),國(guó)內(nèi)的銀行轉(zhuǎn)型在不斷的加快和深入,在金融產(chǎn)品同質(zhì)化嚴(yán)重的行情下,服務(wù)的個(gè)性化、差異化顯得尤為重要,做好客戶群體的細(xì)分,對(duì)于不同的客戶群體進(jìn)行分層,根據(jù)客戶群體的個(gè)性化需求推出差異化的服務(wù),已成為各大銀行網(wǎng)點(diǎn)尋求發(fā)展的必經(jīng)之路。近年來(lái),各個(gè)企業(yè)開始致力大額客戶行為軌跡研究,得出雖然大額客戶對(duì)企業(yè)的貢獻(xiàn)很大,對(duì)企業(yè)的業(yè)績(jī)的貢獻(xiàn)影響程度也很高,但隨著互聯(lián)網(wǎng)的興起,大額客戶的忠誠(chéng)度也越來(lái)越低。而相對(duì)大額客戶,代發(fā)客群的穩(wěn)定性更強(qiáng),且無(wú)需過多的維護(hù),研究代發(fā)客群經(jīng)營(yíng)模式,做好批量大眾客戶服務(wù)營(yíng)銷,提升代發(fā)客群的粘度,這對(duì)于銀行網(wǎng)點(diǎn)發(fā)展有著重要的作用。代發(fā)業(yè)務(wù)是我省郵政金融的一項(xiàng)重要的源頭性業(yè)務(wù),代發(fā)單位的維護(hù)也是夯實(shí)存款的基礎(chǔ)性工作,同時(shí),代發(fā)是一種批量獲取客戶數(shù)據(jù)的最有效且最捷徑的方法,著力拓展代發(fā)業(yè)務(wù),精準(zhǔn)掌握代發(fā)客戶需求,對(duì)我省郵政金融業(yè)務(wù)發(fā)展有著重要的意義,因此,實(shí)現(xiàn)對(duì)代發(fā)客戶的精準(zhǔn)識(shí)別,有效提升代發(fā)客戶群體對(duì)企業(yè)的價(jià)值,是我們目前技術(shù)支撐業(yè)務(wù)發(fā)展的一個(gè)重要課題,經(jīng)過3年多的探索,我們找到了一個(gè)可靠的新思路和方法--利用貝葉斯網(wǎng)絡(luò)算法設(shè)計(jì)的優(yōu)質(zhì)代發(fā)客戶識(shí)別模型來(lái)為企業(yè)識(shí)別優(yōu)質(zhì)代發(fā)客戶,并對(duì)此類客戶進(jìn)行專項(xiàng)維護(hù)和營(yíng)銷管理,有效提升客群的價(jià)值。下面,主要從識(shí)別模型的具體實(shí)現(xiàn)過程對(duì)項(xiàng)目進(jìn)行闡述。
本項(xiàng)目首先通過數(shù)據(jù)清洗和有效的數(shù)據(jù)預(yù)處理方法對(duì)數(shù)據(jù)進(jìn)行處理,然后采用貝葉斯網(wǎng)絡(luò)算法從大量數(shù)據(jù)中學(xué)習(xí)知識(shí)、提取知識(shí),其具體過程如圖1所示。
貝葉斯網(wǎng)絡(luò)主要是描述一組隨機(jī)變量所遵從的聯(lián)合概率分布,并通過一組條件概率來(lái)指定一組條件獨(dú)立性假設(shè),其代表的是一個(gè)關(guān)于X的概率分布,分解過程如下:
代發(fā)客戶是否屬于優(yōu)質(zhì)代發(fā)客戶其影響因素具有不確定性,并且毫無(wú)固定性,在情況不確定或數(shù)據(jù)不完整時(shí),貝葉斯網(wǎng)絡(luò)推理算法就變得更為便捷和準(zhǔn)確。即使缺少其中某一輸入變量仍然不會(huì)影響模型的精確性。同時(shí)貝葉斯網(wǎng)絡(luò)還允許學(xué)習(xí)變量之間存在因果關(guān)系,在以往的數(shù)據(jù)建模中,都需要剔除變量之間的因果關(guān)系,而貝葉斯方法具有因果和概率語(yǔ)義,可以用來(lái)學(xué)習(xí)數(shù)據(jù)中的因果關(guān)系。從而對(duì)客戶進(jìn)行分類和行為預(yù)測(cè)。
我省累計(jì)簽約代發(fā)客戶數(shù)量已達(dá)1280萬(wàn)戶,但是存在很大一部分客戶只是臨時(shí)性的代發(fā),并且部分客戶存在關(guān)鍵信息不全以及一人多卡等問題,通過系統(tǒng)分析近4年的代發(fā)交易數(shù)據(jù),清洗身份證信息不全、身份證信息不正確、一人批量開多卡,一卡多種類代發(fā)協(xié)議簽訂等情況的客戶數(shù)據(jù),并統(tǒng)計(jì)中間業(yè)務(wù)辦理的批量代發(fā)流水,將近一年未有代發(fā)交易的客戶剔除,且簽約時(shí)間距離計(jì)算日期超過一年,交易次數(shù)少于5次的客戶進(jìn)行剔除,得到較為高質(zhì)量的數(shù)據(jù)。
在批量代發(fā)流水中得到近4年有效代發(fā)客戶的代發(fā)次數(shù)以及代發(fā)明細(xì),統(tǒng)計(jì)每一筆交易的業(yè)務(wù)碼和摘要的次數(shù),并結(jié)合代發(fā)簽約信息所對(duì)應(yīng)的每個(gè)客戶簽約的業(yè)務(wù)碼,對(duì)客戶進(jìn)行標(biāo)簽化,實(shí)現(xiàn)了896.3萬(wàn)客戶標(biāo)簽化。其中標(biāo)簽種類主要為:社保類、煙草類、財(cái)政補(bǔ)貼類、公益類、工資類等。并且針對(duì)客戶資產(chǎn)情況進(jìn)行資產(chǎn)星級(jí)評(píng)定,一星到八星分別代表客戶資產(chǎn)星級(jí),數(shù)字的大小代表資產(chǎn)星級(jí)的高低,例一星表示該客戶資產(chǎn)星級(jí)較低,八星表示該客戶資產(chǎn)星級(jí)較高。
依據(jù)過去的研究成果和我省代理金融業(yè)務(wù)的現(xiàn)實(shí)情況、資深業(yè)務(wù)人員的經(jīng)驗(yàn)加上我們對(duì)模型變量的初步探索,通過與業(yè)務(wù)部門相關(guān)人員的討論,最終將客戶基本信息、客戶交易信息、業(yè)務(wù)基本信息作為建模的輸入變量。其中這些指標(biāo)主要為:年齡、性別、代發(fā)標(biāo)簽、資產(chǎn)星級(jí)、是否購(gòu)買理財(cái)、是否購(gòu)買保險(xiǎn)、定期余額、活期余額、總資產(chǎn)、年均余額、年均代發(fā)金額、本月代發(fā)金額、累計(jì)代發(fā)金額這13個(gè)指標(biāo)作為輸入變量。
圖1
本項(xiàng)目的數(shù)據(jù)有定性型數(shù)據(jù)和定量型數(shù)據(jù),而定量型數(shù)據(jù)中既有離散型數(shù)據(jù)又有連續(xù)型數(shù)據(jù),且連續(xù)型數(shù)據(jù)的上下幅度很大,比如代發(fā)金額寬度在[1107,43189],年齡層級(jí)別也分布不均,對(duì)于這種不平衡的數(shù)據(jù)就需要進(jìn)行預(yù)處理。
本項(xiàng)目重點(diǎn)在對(duì)定量數(shù)據(jù)進(jìn)行離散化處理,主要采用熵最小離散化方法進(jìn)行離散化處理。輸入變量中年齡X1、定期余額X7、活期余額X8、總資產(chǎn)X9、年均余額X10、年均代發(fā)金額X11、本月代發(fā)金額X12、累計(jì)代發(fā)資金X13為定量型數(shù)據(jù),且取值范圍較大,需要對(duì)這8個(gè)變量進(jìn)行離散化處理。
對(duì)于定性數(shù)據(jù)轉(zhuǎn)換成數(shù)字表示,采用{1,2}代表其取值{否,是}等類似轉(zhuǎn)換。同時(shí),由于貝葉斯網(wǎng)絡(luò)算法是通過計(jì)算屬性間的條件概率、后驗(yàn)概率建模的,這種方法固有的特性使得貝葉斯分類器不擅長(zhǎng)處理連續(xù)型以及數(shù)量過多的離散型數(shù)據(jù)。數(shù)目過多的離散型數(shù)據(jù)如客戶年齡等,其取值從18到90不等,而且代發(fā)集中年齡在30-50歲之間,代發(fā)的金額也從1000-10000不等,對(duì)于個(gè)別類別稀疏,條件概率或后驗(yàn)概率會(huì)出現(xiàn)較多的1值和0值,這些極端的情況會(huì)誤導(dǎo)真實(shí)的分類。所以將這些連續(xù)型的變量也進(jìn)行離散化處理。
數(shù)據(jù)規(guī)模的大小直接影響分類器的選擇,數(shù)據(jù)規(guī)模落實(shí)到具體問題中即為屬性性數(shù)量、屬性取值范圍、屬性的關(guān)聯(lián)屬性數(shù)量等呈正相關(guān)。屬性數(shù)量越多、屬性取值越多、屬性關(guān)聯(lián)越復(fù)雜,對(duì)于分類器所需要的樣本量就越大,本項(xiàng)目數(shù)據(jù)含13個(gè)指標(biāo),其中3個(gè)類別屬性,2個(gè)定性屬性,8個(gè)定量屬性,數(shù)據(jù)規(guī)模較大,而K2算法的分類器能夠巧妙利用先驗(yàn)知識(shí),極大減少了搜索空間與計(jì)算量。
我們采用K2分類器,并且針對(duì)定量型變量,采用 EMD對(duì)其進(jìn)行離散化處理,避免變量取值分布極端、取值過多等誤導(dǎo)真實(shí)的分類模型或不利于知識(shí)的提取。同時(shí)采用ROC曲線評(píng)價(jià)分類器的好壞,AUC(Area Under the ROC Curve)作為分類器性能的指標(biāo)。
通過給定的代發(fā)客戶訓(xùn)練數(shù)據(jù),建立貝葉斯網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)(有向無(wú)環(huán)圖DAG)和結(jié)點(diǎn)的條件概率分布參數(shù),在給定貝葉斯網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和結(jié)點(diǎn)的條件概率的分布后,再使用該網(wǎng)絡(luò),計(jì)算未知代發(fā)客戶的條件概率和后驗(yàn)概率,從而達(dá)到是否為優(yōu)質(zhì)代發(fā)客戶分類的目的。并在我局自主開發(fā)的湖南郵政金融輔助系統(tǒng)每月對(duì)優(yōu)質(zhì)代發(fā)客戶資產(chǎn)情況以及代發(fā)情況報(bào)表展示,并不定期的篩選客戶進(jìn)行專項(xiàng)營(yíng)銷活動(dòng)。
本文以我省金融業(yè)務(wù)關(guān)注的代發(fā)客戶價(jià)值提升為研究點(diǎn),選取了可能影響客戶價(jià)值的13個(gè)指標(biāo),在研究方法上,將統(tǒng)計(jì)學(xué)檢驗(yàn)方法與數(shù)據(jù)挖掘方法、優(yōu)化建模方法和業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行有效結(jié)合,實(shí)現(xiàn)了統(tǒng)計(jì)學(xué)與應(yīng)用實(shí)踐的融合、定性分析與定量建模方法的統(tǒng)一,獲得了優(yōu)質(zhì)代發(fā)客戶識(shí)別的目標(biāo),很好的解決了業(yè)務(wù)中遇到的實(shí)際問題。
優(yōu)質(zhì)代發(fā)客戶識(shí)別模型在我省郵政金融業(yè)務(wù)領(lǐng)域應(yīng)用后,2018年全年代理金融網(wǎng)點(diǎn)代發(fā)客戶留存率較上一年提升11.43%,網(wǎng)點(diǎn)針對(duì)代發(fā)客戶的年均維護(hù)率達(dá)75.5%, 平均每個(gè)網(wǎng)點(diǎn)都借助系統(tǒng)全年開展了一次專項(xiàng)營(yíng)銷活動(dòng),發(fā)展最好的地市,平均每個(gè)網(wǎng)點(diǎn)全年開展了3次活動(dòng),代發(fā)客群總資產(chǎn)留存率為13.81%,目前依靠該模型有效識(shí)別優(yōu)質(zhì)代發(fā)客戶月度最高達(dá)到18萬(wàn)戶,為我省郵政代理金融網(wǎng)點(diǎn)余額提升做了很大的貢獻(xiàn),同時(shí),也進(jìn)一步加深了網(wǎng)點(diǎn)營(yíng)銷人員對(duì)代發(fā)客戶的特征了解,為后期代發(fā)客戶群管理和營(yíng)銷活動(dòng)開展積累了寶貴的經(jīng)驗(yàn)。