■南京審計(jì)大學(xué)信息工程學(xué)院 江蘇省審計(jì)大數(shù)據(jù)實(shí)驗(yàn)室 陳子陽
隨著區(qū)塊鏈、大數(shù)據(jù)、人工智能等信息技術(shù)的不斷發(fā)展,商業(yè)銀行電子化建設(shè)由移動(dòng)互聯(lián)網(wǎng)的3.0時(shí)代逐步走向數(shù)字化、智能化的4.0時(shí)代。以機(jī)器學(xué)習(xí)為代表的人工智能技術(shù)在金融數(shù)據(jù)中的應(yīng)用成為了商業(yè)銀行數(shù)字化轉(zhuǎn)型道路上必備的核心競爭力。數(shù)據(jù)挖掘技術(shù)正在推動(dòng)銀行業(yè)以大量數(shù)據(jù)構(gòu)建算法模型和加強(qiáng)分類管理,實(shí)現(xiàn)決策制定效果的改善,根據(jù)麥肯錫全球研究所的數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)可以為銀行業(yè)創(chuàng)造超過2500億美元的價(jià)值。
商業(yè)銀行作為現(xiàn)代化國家的重要產(chǎn)業(yè)支柱,其金融主體業(yè)務(wù)的發(fā)展不僅影響到國泰民安,亦對(duì)整個(gè)金融產(chǎn)業(yè)穩(wěn)健發(fā)展起到關(guān)鍵作用。我們生活在一個(gè)信息爆炸的時(shí)代,金融行業(yè)在數(shù)據(jù)化變革中展現(xiàn)了更多的變化。一是可變化性,展示了數(shù)據(jù)維度的持續(xù)上升,數(shù)據(jù)從原有的一維數(shù)據(jù)結(jié)構(gòu)發(fā)展到現(xiàn)在的多維擴(kuò)展結(jié)構(gòu)。二是準(zhǔn)確性,展示了高度信息化的社會(huì)環(huán)境對(duì)信息質(zhì)量控制的嚴(yán)格和精準(zhǔn)。三是脆弱性,展示了數(shù)據(jù)來源不規(guī)范、數(shù)據(jù)存在基礎(chǔ)問題時(shí)難發(fā)現(xiàn)、破壞大的特點(diǎn)。四是可視化,展現(xiàn)了人們對(duì)于信息處理方式的巨大變革,以人為核心的信息發(fā)展觀正在逐步形成。隨著數(shù)據(jù)化給社會(huì)各行各業(yè)帶來的迅猛發(fā)展,金融數(shù)據(jù)化是中國發(fā)展的必然趨勢。
數(shù)據(jù)時(shí)代用其獨(dú)特的方式?jīng)_擊著人們的生活,商業(yè)銀行在面臨考驗(yàn)之際,也對(duì)其創(chuàng)新能力、信息技術(shù)能力提出了重大考驗(yàn)。以往傳統(tǒng)的對(duì)于客戶信息進(jìn)行挖掘分析的方式已不能滿足當(dāng)今社會(huì)用戶對(duì)金融服務(wù)的客觀需求,依靠專家和一線工作人員的主觀判斷也充滿了巨大不確定性。原有維護(hù)客戶關(guān)系的方式也在日新月異的社會(huì)發(fā)展中出現(xiàn)捉襟見肘的困境。如何通過數(shù)據(jù)化分析、機(jī)器學(xué)習(xí)算法提高對(duì)客戶的辨識(shí)度,及時(shí)發(fā)現(xiàn)重要客戶,了解客戶服務(wù)的痛點(diǎn)難點(diǎn)成為了商業(yè)銀行個(gè)人業(yè)務(wù)發(fā)展的重要方向。隨著大數(shù)據(jù)時(shí)代的到來,商業(yè)銀行只有不斷探索發(fā)現(xiàn),走在數(shù)據(jù)時(shí)代的前沿,才能擁抱數(shù)字化時(shí)代,獲得更長足的發(fā)展。
商業(yè)銀行仍是廣大居民理財(cái)?shù)闹饕?,需要持續(xù)加大儲(chǔ)蓄存款產(chǎn)品的創(chuàng)新力度,結(jié)合代發(fā)、建工、商戶等不同客戶群體、不同場景需求,推出款式多樣、收益靈活的理財(cái)產(chǎn)品,以契合人民群眾對(duì)財(cái)富配置多元化的需求。2020年,銀行理財(cái)市場持有理財(cái)產(chǎn)品的投資者達(dá)4162萬人,較2019年增長86.85%。個(gè)人投資者是理財(cái)市場絕對(duì)主力,個(gè)人投資者占全部投資者數(shù)量的99.65%,個(gè)人投資者持有的理財(cái)產(chǎn)品占全部投資者持有總額的87.50%。個(gè)人投資者偏重于凈值型、低分類、短期限的理財(cái)產(chǎn)品。但是,當(dāng)前商業(yè)銀行在人工智能與大數(shù)據(jù)方面的應(yīng)用主要側(cè)重于人臉識(shí)別、風(fēng)險(xiǎn)控制、智能投顧、反洗錢等領(lǐng)域,面對(duì)個(gè)人消費(fèi)業(yè)務(wù)的數(shù)據(jù)分析技術(shù)仍不夠充分、深入。因此,面對(duì)如此廣闊的消費(fèi)市場,如何將其與人工智能結(jié)合,如何通過人工智能技術(shù)提高綜合營銷能力、拓展維護(hù)客戶關(guān)系、對(duì)客戶信用違約提前預(yù)警等方面的研究和應(yīng)用,都成為了非常重要的研究方向。
另一方面,面對(duì)日益復(fù)雜的經(jīng)濟(jì)社會(huì)情況,如何提高客戶經(jīng)理服務(wù)客戶效率,減少人力資本投入,形成批量化、數(shù)據(jù)化的處理基層服務(wù)模式已成為商業(yè)銀行營銷體系中的重要議題。商業(yè)銀行通過收集的各類信息,對(duì)客戶進(jìn)行消費(fèi)能力、資產(chǎn)凈值進(jìn)行評(píng)估預(yù)測,以達(dá)到提高營銷效率,減少人力資本損耗的效果。隨著萬物互聯(lián)時(shí)代的到來,商業(yè)銀行可以獲得更多更廣的數(shù)據(jù)分析維度,為商業(yè)銀行的綜合數(shù)據(jù)分析提供了更廣泛的可能。同樣,多樣化、復(fù)雜化的信息數(shù)據(jù)也對(duì)傳統(tǒng)的營銷方式提出了挑戰(zhàn)。如何識(shí)別數(shù)據(jù)中可能存在的錯(cuò)誤、如何分析歸類出不同數(shù)據(jù)類別,如何更好地描繪客戶畫像等,都成了重要的研究角度。
商業(yè)銀行傳統(tǒng)的營銷方式是以分支行客戶部分為數(shù)據(jù)統(tǒng)計(jì)節(jié)點(diǎn),通過簡單的數(shù)據(jù)篩選提供資產(chǎn)總量排名靠前的白名單客戶進(jìn)行推薦,但是如何找到主要資產(chǎn)存放他行的高凈值客戶一直是傳統(tǒng)營銷方式的重難點(diǎn)。通過嘗試運(yùn)用不同的機(jī)器學(xué)習(xí)方法,研究機(jī)器學(xué)習(xí)方法對(duì)商業(yè)銀行高潛在客戶的挖掘能力,為商業(yè)銀行營銷拓展“提檔升級(jí)”提供了新的思路,也提出了更高的挑戰(zhàn)。
在商業(yè)銀行個(gè)人客戶模型構(gòu)建的過程中,首先要了解數(shù)據(jù)的整體情況,了解原始數(shù)據(jù)表單的結(jié)構(gòu)組成,然后再對(duì)數(shù)據(jù)進(jìn)行處理缺失值、特征編碼、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)降維等處理。隨后將清理好的數(shù)據(jù)放入數(shù)據(jù)挖掘模型,做進(jìn)一步的模型優(yōu)化和參數(shù)調(diào)優(yōu)。目前,主流實(shí)驗(yàn)大都是以在機(jī)器學(xué)習(xí)算法使用中較為便捷的Python語言作為數(shù)據(jù)處理工具。
商業(yè)銀行的項(xiàng)目開發(fā)可以由個(gè)人金融等部門提出項(xiàng)目需求,建立潛在貴賓客戶的精準(zhǔn)挖掘模型,商業(yè)銀行科技部門協(xié)同開發(fā),對(duì)貴賓潛力客戶挖掘模型進(jìn)行營銷測試與優(yōu)化完善。
數(shù)據(jù)平臺(tái)由眾多原始數(shù)據(jù)和中間數(shù)據(jù)組成。其中,原始數(shù)據(jù)包括客戶基本信息、存款明細(xì)、理財(cái)、基金、保險(xiǎn)、國債、貴金屬、第三方存管、負(fù)債等原始工作庫數(shù)據(jù)組成;中間數(shù)據(jù)由系統(tǒng)根據(jù)原始數(shù)據(jù)按固定期限和固定的分類標(biāo)準(zhǔn)進(jìn)行梳理得到,如某類資產(chǎn)平均值、最高值,或是交易總額、平均交易額;按時(shí)間維度分類又為日均、月均、季均、年均等。又如,當(dāng)日手機(jī)商業(yè)銀行累計(jì)登錄次數(shù)、當(dāng)月跨行轉(zhuǎn)賬交易總筆數(shù)、當(dāng)季度客戶流入總額、當(dāng)年累計(jì)基金贖回總額等。
資產(chǎn)管理規(guī)模(AUM)是金融行業(yè)衡量客戶實(shí)力的重要指標(biāo),私人銀行業(yè)務(wù)是商業(yè)銀行面向高凈值人群提供的以財(cái)富管理為核心的綜合金融服務(wù)。模型通過選取數(shù)據(jù),集中個(gè)人金融資產(chǎn)客戶總行級(jí)匯總數(shù)據(jù),選取任意一個(gè)月月均AUM超過一定級(jí)別且客戶號(hào)不在私行客戶名單中的客戶作為目標(biāo)客戶,選取其中在后續(xù)期間轉(zhuǎn)變?yōu)樗叫锌蛻舻臄?shù)據(jù),將之標(biāo)記為1,其他未成為私行客戶的將之標(biāo)記為0,形成數(shù)據(jù)標(biāo)簽。
描述性研究(Descriptive Study)是指通過對(duì)于數(shù)據(jù)的深入分析,通過建立不同地區(qū)、時(shí)間節(jié)點(diǎn)、人物年齡、或是地理位置物體性質(zhì)等特征,進(jìn)而描述數(shù)據(jù)分布的具體情況,在此基礎(chǔ)上形成對(duì)數(shù)據(jù)集的整體概念,從而進(jìn)一步開展數(shù)據(jù)處理和數(shù)據(jù)分析工作。
通過數(shù)據(jù)結(jié)構(gòu)分析和數(shù)據(jù)描述性統(tǒng)計(jì),實(shí)現(xiàn)對(duì)數(shù)據(jù)集的構(gòu)成達(dá)到一定程度了解,通過對(duì)特征變量分布等的分析,發(fā)現(xiàn)數(shù)據(jù)中存在的一些錯(cuò)誤情況,了解到數(shù)據(jù)可能存在數(shù)據(jù)缺失、數(shù)據(jù)噪聲、數(shù)據(jù)不一致、數(shù)據(jù)冗余、數(shù)據(jù)集不均衡、離群點(diǎn)/異常值、數(shù)據(jù)重復(fù)等問題。根據(jù)數(shù)據(jù)存在的不同問題,可以采用刪除指定特征、缺失數(shù)據(jù)補(bǔ)全、不平衡數(shù)據(jù)處理等方法實(shí)現(xiàn)對(duì)數(shù)據(jù)的處理工作。刪除指定特征是指,在數(shù)據(jù)預(yù)處理過程中有一些數(shù)據(jù)特征需要被刪除,典型的需被刪除的特征包括無用特征數(shù)據(jù)和嚴(yán)重缺失數(shù)據(jù)。缺失數(shù)據(jù)補(bǔ)全是指在數(shù)據(jù)存儲(chǔ)過程中,因?yàn)槟承┰蛟斐蓴?shù)據(jù)局部缺失,可以按照一定規(guī)則補(bǔ)全。不平衡數(shù)據(jù)處理是指通過一定方法解決數(shù)據(jù)集數(shù)據(jù)不平衡的問題,常用的主要有欠采樣、過采樣、特征選擇法三種方式。
其他需要使用的數(shù)據(jù)處理方法還有:(1)類別特征one-hot編碼。如果僅按照原有存儲(chǔ)數(shù)據(jù)的格式,在進(jìn)行模型訓(xùn)練時(shí),可能因?yàn)樘卣鞯臄?shù)值絕對(duì)值影響模型的掃過,比如:編碼901和899屬于兩種完全不同的類別,但是其數(shù)值距離則較短。為了解決此類問題,我們用one-hot編碼處理解決。(2)連續(xù)型特征標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化也稱為數(shù)據(jù)歸一化處理。所有需要標(biāo)準(zhǔn)化的數(shù)據(jù)都按照一定的比例進(jìn)行標(biāo)準(zhǔn)化和縮放。隨后將所有數(shù)據(jù)的值都統(tǒng)一在[0,1]的范圍內(nèi)。(3)金額類連續(xù)變量對(duì)數(shù)變化。對(duì)數(shù)變換是一種常用的數(shù)據(jù)變換方法,其目的是使數(shù)據(jù)的表述更接近于我們想要的假設(shè),因?yàn)榇蠖鄶?shù)經(jīng)濟(jì)數(shù)據(jù)都是傾斜的,比如收入和GDP,而且大多數(shù)都是右傾斜的。因此,在建立經(jīng)濟(jì)模型,解決異方差問題時(shí),采用對(duì)數(shù)可以在一定程度上縮小較大值和較小值的差距,形成正常分布數(shù)據(jù),從而更好地進(jìn)行統(tǒng)計(jì)推斷。
通過python等編程語言工具,調(diào)入以機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)算法為主的數(shù)據(jù)挖掘模型,可以實(shí)現(xiàn)對(duì)于數(shù)據(jù)集輸出結(jié)果的預(yù)測。常見的機(jī)器學(xué)習(xí)算法主要有邏輯回歸算法、決策樹算法、隨機(jī)森林算法、XGBoost(Extreme Gradient Boosting)算法等。邏輯回歸算法是機(jī)器學(xué)習(xí)中的常見算法之一,屬于多重變量分析范圍,一般用于二分類問題,是社會(huì)學(xué)、數(shù)理統(tǒng)計(jì)、醫(yī)療臨床、心理研究、金融數(shù)學(xué)等統(tǒng)計(jì)實(shí)驗(yàn)研究的常見方法。決策樹算法是一種用來對(duì)數(shù)據(jù)實(shí)現(xiàn)分類和回歸功能的機(jī)器學(xué)習(xí)方法,根據(jù)輸出結(jié)果的連續(xù)性和離散性的不同,它可以分為回歸分析樹和分類樹。隨機(jī)森林算法是一個(gè)適用度非常廣泛的數(shù)據(jù)挖掘算法,以集成學(xué)習(xí)的方式構(gòu)造多棵決策樹,通過訓(xùn)練數(shù)據(jù)不同、訓(xùn)練偏好不同構(gòu)造出偏向不同角度的決策樹,通過投票的方式?jīng)Q定整體對(duì)于數(shù)據(jù)的分析判斷結(jié)構(gòu),實(shí)現(xiàn)對(duì)數(shù)據(jù)的多維度分析,提高決策成功率。XGBoost也是集成學(xué)習(xí)算法的一種,通過將弱分類器強(qiáng)化為強(qiáng)分類器,可以提高算法準(zhǔn)確度。神經(jīng)網(wǎng)絡(luò)模型以圍棋算法阿爾法go為典型代表,通過構(gòu)造大量簡單神經(jīng)元互相連接,從而形成高復(fù)雜度的算法模型。
模型的評(píng)價(jià)指標(biāo)是分析模型效果的重要依據(jù)。處理數(shù)據(jù)分布不均衡的數(shù)據(jù)集,除了使用正確率來評(píng)價(jià)模型效果之外,還可以引入混淆矩陣來分析,使用召回率、F1score、KS值和AUC值來評(píng)價(jià)算法效果,以了解不同機(jī)器學(xué)習(xí)算法在本數(shù)據(jù)類別上的應(yīng)用情況。召回率在金融客戶信息挖掘中是非常值得重視的概念,它標(biāo)識(shí)了商業(yè)銀行識(shí)別重要客戶的能力,在面對(duì)客戶識(shí)別的過程中錯(cuò)誤地把普通客戶識(shí)別為私行客戶僅僅是降低了商業(yè)銀行的工作效率,但是如果沒有成功識(shí)別出私行客戶,那就會(huì)直接面對(duì)商業(yè)銀行盈利能力的損失。準(zhǔn)確率代表的是商業(yè)銀行能夠在客戶服務(wù)的名單中確實(shí)是值得服務(wù)的私行客戶的成功率,換言之,準(zhǔn)確率越高,則客戶經(jīng)理的工作效率越高。
模型參數(shù)調(diào)整是優(yōu)化算法模型的重要工程,算法構(gòu)造過程中遇到了諸多問題,如數(shù)據(jù)信息復(fù)雜、分類不明顯、數(shù)據(jù)不平衡、需要降低特征維度等。通過選取重要性靠前的特征,重新構(gòu)建特征向量種類,著手對(duì)具體參數(shù)調(diào)優(yōu),可以實(shí)現(xiàn)對(duì)模型的重構(gòu)和優(yōu)化,提高各類算法模型效率。
客戶信息數(shù)據(jù)集中特征數(shù)量極高,存在大量無用重復(fù)的特征,需引入特征重要性度量概念,篩選出較為重要的特征。通過以XGBoost和隨機(jī)森林為代表的算法,我們可以使用特征重要性度量計(jì)算模型中不同特征的權(quán)重情況,并以此進(jìn)行排序計(jì)算每一個(gè)特征的權(quán)重屬性,我們根據(jù)已有的實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì),了解特征屬性權(quán)重值較高的特征情況。
以XGBoost模型為例,算法包含了對(duì)特征選擇部分的內(nèi)容,使用其樹模型的特點(diǎn)給與不同特征以重要性打分,并對(duì)此進(jìn)行特征重要性排序。算法在構(gòu)建樹的過程中,對(duì)于每層均選擇對(duì)其整體收益最大的特征作為分支的評(píng)價(jià)指標(biāo),所以當(dāng)特征xi在樹的分割次數(shù)中出現(xiàn)最多時(shí),則說明此特征可以給樹模型帶來最大的分類收益。由于機(jī)器學(xué)習(xí)算法訓(xùn)練結(jié)果不具備唯一性,統(tǒng)計(jì)情況僅作參考,測試數(shù)據(jù)實(shí)驗(yàn)結(jié)果如圖1。
圖1 特征重要性度量
通過對(duì)數(shù)據(jù)的特征重要性進(jìn)行度量,可以在高維數(shù)據(jù)集中找到判斷客戶是否為高潛力客戶的主要特征。如圖1可見,“當(dāng)季同名轉(zhuǎn)賬流出最大金額”這一關(guān)鍵維度的重要性極高,數(shù)據(jù)中存在對(duì)銀行服務(wù)不滿意、有重大資金調(diào)動(dòng)需求等原因需要同名賬戶轉(zhuǎn)賬的客戶。具備該類特征的客戶往往極具維護(hù)價(jià)值,商業(yè)銀行應(yīng)重點(diǎn)了解此類客戶的轉(zhuǎn)賬原因,解決客戶痛點(diǎn),并關(guān)注其他重要特征維度,實(shí)現(xiàn)對(duì)重要客戶的長期維護(hù)和對(duì)潛在客戶的重點(diǎn)營銷。
通過輸入商業(yè)銀行需要預(yù)測的客戶樣本,模型最終輸出結(jié)果是對(duì)實(shí)驗(yàn)數(shù)據(jù)的分類判斷,輸出數(shù)據(jù)以0和1作標(biāo)識(shí),其中標(biāo)記為1的是系統(tǒng)認(rèn)為具備營銷潛力的客戶名單。商業(yè)銀行應(yīng)及時(shí)準(zhǔn)確地將名單下發(fā)至網(wǎng)點(diǎn),由網(wǎng)點(diǎn)行長和個(gè)人客戶經(jīng)理主動(dòng)出擊,以拜訪、電話、贈(zèng)禮等形式和客戶溝通,可以及時(shí)發(fā)現(xiàn)客戶的真實(shí)資金需求,通過銀行自身平臺(tái)和工具滿足客戶,從而實(shí)現(xiàn)對(duì)潛在客戶的產(chǎn)品營銷。通過這種方法可以實(shí)現(xiàn)遠(yuǎn)高于日常營銷維護(hù)的工作效率,提高網(wǎng)點(diǎn)業(yè)績,這是商業(yè)銀行面對(duì)大數(shù)據(jù)時(shí)代的有利手段。
本文通過商業(yè)銀行數(shù)據(jù)挖掘技術(shù)在個(gè)人客戶數(shù)據(jù)上的構(gòu)建,嘗試了解不同客戶數(shù)據(jù)類別在機(jī)器學(xué)習(xí)算法中的特征重要性度量,模型結(jié)果顯示同名劃轉(zhuǎn)金額、跨行轉(zhuǎn)賬金額等多種數(shù)據(jù)類別對(duì)商業(yè)銀行識(shí)別高凈值客戶有著重要參考價(jià)值。通過建立數(shù)據(jù)分析模型,導(dǎo)入客戶數(shù)據(jù),可以輸出營銷客戶白名單,進(jìn)一步提高個(gè)人金融部門的工作效率。
人工智能和數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展帶動(dòng)了各行各業(yè)的模式變革,商業(yè)銀行在面對(duì)信息化潮流時(shí)更應(yīng)與時(shí)俱進(jìn),不斷改進(jìn)自身,積極從以下三個(gè)方面探索:
一是提高數(shù)據(jù)信息廣度。數(shù)據(jù)的收集不應(yīng)僅著眼于銀行體系內(nèi)部,用戶在衣食住行等方方面面的信息都可以進(jìn)一步提高客戶的評(píng)價(jià)精度,優(yōu)化模型結(jié)果。
二是提高模型算法深度。要不斷探索數(shù)據(jù)算法中更適用于客戶分析的模型方式,優(yōu)化模型構(gòu)建系統(tǒng),探索神經(jīng)網(wǎng)絡(luò)等算法模型在銀行業(yè)的應(yīng)用。
三是數(shù)據(jù)流實(shí)時(shí)分析。模型實(shí)時(shí)更新數(shù)據(jù),通過數(shù)據(jù)流識(shí)別發(fā)現(xiàn)重要客戶的蹤跡,實(shí)現(xiàn)隨時(shí)發(fā)現(xiàn)隨時(shí)營銷,提升營銷效率。
使用人工智能等新興技術(shù),不僅可以提高商業(yè)銀行的資產(chǎn)管理水平和客戶服務(wù)能力,而且有利于提高綜合運(yùn)營能力,更好地抓住客戶服務(wù)需求。如何運(yùn)用機(jī)器學(xué)習(xí)、人工智能算法更好地服務(wù)營銷,是當(dāng)今商業(yè)銀行不可或缺的重要研究議題。