史 偉,王明月,張青云,李曉會
基于xgboost模型的消費者信用評級系統(tǒng)
史 偉,王明月,張青云,李曉會
(遼寧工業(yè)大學 電子與信息工程學院,遼寧 錦州 121001)
設(shè)計了一種基于xgboost模型的消費者信用評級系統(tǒng),通過人臉識別方法選出一部分特征作為消費者標簽,量化消費者信息,以此敘述消費者形象;對-means聚類進行改進,提出了基于核密度的人臉識別聚類算法,將消費者分成不同的類別,據(jù)此完成信用評級。系統(tǒng)能夠緩解噪聲點敏感,使原始中心點選擇更加簡單,并且較少使用銀行交易記錄,具有較高的可用性。
xgboost模型;信用評級;消費者畫像;聚類算法
目前,人工智能技術(shù)[1]的快速發(fā)展,使其再次成為國內(nèi)外學者的研究熱點,而人臉識別技術(shù)是最受關(guān)注的應(yīng)用之一,甚至對金融行業(yè)也產(chǎn)生了積極的影響。隨著人臉識別等技術(shù)的不斷應(yīng)用,也對金融行業(yè)的風險保護問題提出了挑戰(zhàn),例如借貸過程中可能存在的欺詐現(xiàn)象,需要對消費者的信用進行評級,進而控制風險。因此,建立一種安全、準確的消費者信用評級系統(tǒng)是非常必要的。
信用評級[2]是指利用消費者的個人基本信息以及信貸信息進行分析,得出消費者的信用等級,進而判斷消費者是否有能力接受借貸服務(wù),接受哪個等級的借貸服務(wù),以及違約的風險和損失等級。
有很多傳統(tǒng)的信用評級模型,例如FICO[3]通過統(tǒng)計分析原始數(shù)據(jù)來建立數(shù)學模型,預(yù)測消費者的信用評級,但是缺少正確數(shù)據(jù)的存儲,還不適用于處理企業(yè)信貸問題;David Durand提出了判別分析法[4],通過對原始樣本的規(guī)律建立函數(shù),實現(xiàn)對大量的原始數(shù)據(jù)的有效分類,具有較高的精確度和效率,然而得出的結(jié)果缺少經(jīng)濟方面的意義;第十二屆全國人大三次會議中,李克強總理第一次提出了“互聯(lián)網(wǎng)+”[5]計劃,促進新興技術(shù)和傳統(tǒng)行業(yè)的融合發(fā)展,特別是金融行業(yè),我國互聯(lián)網(wǎng)金融行業(yè)隨著余額寶等理財產(chǎn)品的產(chǎn)生而快速發(fā)展。
由上述分析可以看出,傳統(tǒng)的風險評級方法都存在著一定的缺陷。因此,本文提出了一種消費者信用評級系統(tǒng),基本步驟如下。
(1)利用人臉識別技術(shù)獲取消費者信息,在Hadoop分布式平臺利用MapReduce分布式架構(gòu)、HDFS分布式文件系統(tǒng)和xgboost回歸法描繪消費者的形象。
(2)利用核密度人臉識別聚類算法將消費者分成不同的等級,對其進行分析,以達到金融風險控制的目的。
消費者畫像構(gòu)建是指建立標簽體系[6],在Hadoop分布式平臺[7]利用xgboost回歸法[8]將消費者原始標簽信息定量化,利用HDFS分布式文件系統(tǒng)[9]存儲、MapReduce分布式架構(gòu)[10]計算消費者數(shù)據(jù),進而描述消費者畫像,便于計算機處理,消費者畫像廣泛應(yīng)用于金融領(lǐng)域,可以找出適應(yīng)需求的消費者或者生產(chǎn)出適合消費者的產(chǎn)品。消費者畫像形成過程如圖1所示。
圖1 消費者畫像
構(gòu)建消費者畫像的詳細步驟如下。
(1)建立標簽體系[11]。標簽體系是用于描述消費者畫像,首先通過對消費者依次進行人臉檢測、圖像預(yù)處理、特征提取和人臉識別[12]得到消費者的具體信息,選出有代表性的特征數(shù)據(jù),即為標簽數(shù)據(jù),通過標簽來對消費者的特點進行描述,即產(chǎn)生正確的消費者標簽,建立標簽體系,每個消費者都具有自己的特征標簽,分析每個特征標簽,根據(jù)消費者所在的群體可以得出其獨有的特征,分析可得消費者的違約風險等信息。
(2)定量化消費者數(shù)據(jù)。消費者標簽信息屬于定性化數(shù)據(jù),因此需要對其進行定量化以便后續(xù)計算,xgboost回歸法可以實現(xiàn)此操作。xgboost回歸法是指任一樣本根據(jù)某個特征值進行分裂,每次分裂形成1棵樹,添加1棵樹的實質(zhì)是機器學習1個特征標簽,每一棵樹都被學習之后,通過樣本中葉子結(jié)點(即經(jīng)過機器學習的所有樹)的分數(shù)對特征進行轉(zhuǎn)換,直到每個特征轉(zhuǎn)換成數(shù)值型數(shù)據(jù),以提高相似性計算的效率。
(3)形成消費者畫像。Hadoop分布式平臺即分布式系統(tǒng)的基礎(chǔ)架構(gòu),由Apache基金會開發(fā),實現(xiàn)了MapReduce分布式架構(gòu)和HDFS分布式文件系統(tǒng)。轉(zhuǎn)換之后的消費者數(shù)據(jù)利用HDFS來存儲,在大數(shù)據(jù)環(huán)境下,利用1臺計算機不能對數(shù)據(jù)進行有效存儲,需要多臺計算機對其存儲,提高了成本,但是HDFS可以同時處理全部文件數(shù)據(jù)。然后利用MapReduce分布式架構(gòu)對數(shù)據(jù)進行計算,其處理模塊是自定義的,解決了某些架構(gòu)不能修改錯誤模塊而創(chuàng)建補丁導致后續(xù)操作可能存在問題的缺陷。MapReduce由Map和Reduce函數(shù)構(gòu)成。原理圖如圖2所示。
圖2 MapReduce原理圖
聚類通過訓練樣本的全部數(shù)據(jù)來得出其規(guī)律。
-means聚類[13-14]隨機選擇個初始點作為每個簇的中心,遍歷數(shù)據(jù)集的全部數(shù)據(jù),計算每個數(shù)據(jù)之間的距離,將距離較近的數(shù)據(jù)放在一組,即為1個簇,簇的中心會連續(xù)更新,最終達到全部數(shù)據(jù)到中心的距離最小或某個閾值。-means將距離作為樣本分類的標準,數(shù)據(jù)間的距離越近說明越相似,數(shù)據(jù)間的距離越遠說明差異越大。
樣本相似性[15]的判別方法是距離長短,距離可以通過3種方式度量。
(1)閔科夫斯基距離:點與點的真實距離:
(2)馬氏距離:數(shù)據(jù)之間的協(xié)方差距離,考慮樣本特征間的關(guān)系。
(3)夾角余弦:通過夾角的余弦值得出相似性。
(4)相關(guān)系數(shù):
判斷特征之間的線性關(guān)系。
-means具有操作簡單和效率高等優(yōu)點,然而也存在一些缺陷:(1)需要預(yù)先知道分類個數(shù),實際上很不容易實現(xiàn);(2)對孤立點過于敏感,可能會造成局部最優(yōu);(3)每個簇初始點的選擇不確定,導致結(jié)果不一定最優(yōu)。
核密度估計[16]是非參數(shù)估計方法,基于核密度的人臉識別聚類算法是對-means聚類算法的改進,可以解決以上問題,首先在預(yù)先不知道數(shù)據(jù)分布的情況下得出近似的概率密度函數(shù),以得到數(shù)據(jù)分布的特征,可以使用這種方法選取核密度極大值作為初始點,然后再進行-means聚類算法。
基于核密度的聚類算法基本步驟為:(1)遍歷一次數(shù)據(jù)集得出核密度估計結(jié)果;(2)計算出節(jié)點的值和聚類的初始點;(3)進行-means聚類算法。
算法的基本思想是:首先對節(jié)點進行聚類,設(shè)均值向量為聚類的初始點集合,分別計算其余樣本值與初始點的歐氏距離,與初始值距離最小的樣本歸入到該簇中,循環(huán)迭代直到全部樣本都歸入到對應(yīng)的簇中(算法1第1~11行);還需要額外考慮一種數(shù)據(jù),即有些樣本數(shù)據(jù)是噪點但被分到簇中,設(shè)Ni為任意樣本,如果A和B的距離半徑不大于A和Ni的距離,則Ni即為噪點,除去噪點形成新的簇(算法1第12~22行)。聚類的偽代碼如下:
算法1 聚類算法
輸入:初始樣本A
輸出:聚類合并結(jié)果O”={O1,O2,…,Om}
1: A.forEach(function(value,index,array))
2: 均值向量為μ={μ1,μ2,…,μm}
3: Oj’=?(1≤j≤m)
4: for(j=1;j≤m;j++){
5: for(i=1;i≤n;i++){
6: dij=||xi-μj||2;
7: θi=min dij;
8: Oθi’=Oθi’∪{xi};
9: }
10: }
11: return O’={O1’,O2’,…,Om’};
12: While(O’!=Null)
13: OA”=Next(O’);
14: ZDA=GetPoints(OA”);
15: OB”=Next(O’);
16: ZDB=GetPoints(OB”);
17: do
18: if(Zr(DA,DB) <= distance(DA,Ni))
19: O”=sub(Ni);
20: End
21: until 所有樣本比較完畢
22: return O”;
23: End
系統(tǒng)硬件環(huán)境采用Intel(R) Core(TM) i3-3240 CPU@3.40 GHz處理器,4 GB內(nèi)存,500 G硬盤;軟件環(huán)境采用Windows10操作系統(tǒng)和pycharm開發(fā)平臺。
首先根據(jù)人臉識別獲取消費者特征,將消費者特征轉(zhuǎn)換為對應(yīng)的標簽,便于處理,再對消費者分配,利用標簽并在Hadoop分布式平臺上,采用HDFS分布式文件系統(tǒng)存儲消費者的數(shù)據(jù),MapReduce分布式架構(gòu)計算消費者的數(shù)據(jù),利用xgboost回歸法使機器能夠?qū)W習消費者的數(shù)據(jù),分析其數(shù)據(jù)可以得出消費者的特征,以此來描繪消費者畫像。然后根據(jù)基于核密度的人臉識別聚類算法將所有消費者進行等級劃分,實現(xiàn)金融風險的控制。
將消費者數(shù)據(jù)分別進行-means聚類和基于核密度的人臉識別聚類,2種方法的聚類結(jié)果都形成5個簇,即將消費者分為5個等級,如圖3和圖4所示。進行對比可以得出基于核密度的分布式聚類有較高的準確率,噪聲點較少,簇內(nèi)更緊密,簇間差距更顯著。
圖3 k-means聚類結(jié)果圖
圖4 基于核密度的人臉識別聚類結(jié)果圖
從數(shù)據(jù)中取出5組數(shù)據(jù)量不同的數(shù)據(jù),2種方法所需時間如圖5所示??梢缘贸鰯?shù)據(jù)量越大基于核密度的人臉識別聚類所需時間與-means相差越大,因此在數(shù)據(jù)量大的情況下,優(yōu)先使用基于核密度的人臉識別聚類方法。
圖5 聚類效率對比圖
基于xgboost模型的消費者信用評級方法解決了傳統(tǒng)評級系統(tǒng)較多的使用消費者銀行交易記錄的缺陷,提高了聚類算法的效率和精確度,并且如果采用具有更快CPU和更大內(nèi)存的計算機,還可以繼續(xù)提高聚類效率。本文給出了基于xgboost模型的消費者信用評級系統(tǒng)的開發(fā)流程,建立消費者畫像和消費者分類的關(guān)鍵技術(shù),以及消費者的信用評級對控制金融風險具有的重要意義。
[1] 董建文. 人工智能時代互聯(lián)網(wǎng)金融信息安全風險及防范[J]. 科技與金融, 2019(11): 60-63.
[2] Brendan Daley, Brett Green, Victoria Vanasco. Securitization, Ratings, and Credit Supply[J]. The Journal of Finance, 2020, 75(2): 17-26.
[3] 姜琳. 美國FICO評分系統(tǒng)述評[J]. 商業(yè)研究, 2006(20): 81-84.
[4] 石勇, 孟凡. 信用評分基本理論及其應(yīng)用[J]. 大數(shù)據(jù), 2017, 3(1): 19-26.
[5]李克強主持召開國務(wù)院常務(wù)會議 通過《“互聯(lián)網(wǎng)+”行動指導意見》 用“互聯(lián)網(wǎng)+”助推經(jīng)濟發(fā)展[J]. 決策探索: 上半月, 2015(7): 4.
[6] 高廣尚. 用戶畫像構(gòu)建方法研究綜述[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2019, 3(3): 25-35.
[7] 孫超. 基于Hadoop平臺的機器學習聚類算法研究[D]. 西安: 西安電子科技大學, 2018.
[8] Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System[C]. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, 16(8):13-17.
[9] 王大志. 基于HDFS的跨集群分布式文件系統(tǒng)研究[J].信息技術(shù)與信息化, 2019(8): 229-230.
[10] 林丹楠, 黃銳. 大數(shù)據(jù)挖掘中的MapReduce并行聚類優(yōu)化算法研究[J]. 太原師范學院學報: 自然科學版, 2019, 18(4): 49-53.
[11] 商麗媛. 基于用戶畫像的中小企業(yè)營銷策略研究[J]. 科技經(jīng)濟市場, 2019(11): 155-156.
[12] 崔慶華. 基于局部特征分析的人臉識別方法[J]. 計算機產(chǎn)品與流通, 2020(4): 140.
[13] Hartigan J A, Wong M A. A K‐Means Clustering Algorithm[J]. Journal of the Royal Statistical Society: Series C: Applied Statistics, 1979, 28(1): 100-108.
[14] 熊忠陽, 陳若田, 張玉芳. 一種有效的K-means聚類中心初始化方法[J]. 計算機應(yīng)用研究, 2011, 28(11): 4188-4190.
[15] 李桂林, 陳曉云. 關(guān)于聚類分析中相似度的討論[J]. 計算機工程與應(yīng)用, 2004(31): 64-65, 82.
[16] Tao X, Li Y. Concept-Based, Personalized Web Information Gathering: A Survey[C]//Knowledge Science, Engineering and Management, Third International Conference, KSEM 2009: 25-27.
Consumer Credit Rating System Based on the Xgboost Model
SHI Wei, WANG Ming-yue, ZHANG Qing-yun, LI Xiao-hui
(School of Electronics & Information Engineering, Liaoning University of Technology, Jinzhou 121001, China)
A consumer credit rating system based on xgboost model is designed, which uses face recognition method to select some features as consumer labels, quantifies consumer information, and narrates consumer image. The k-means clustering is improved, and a face recognition clustering algorithm based on kernel density is proposed, which divides consumers into different categories for credit rating. The system can alleviate noise point sensitivity, make the selection of original center point more simple, and use less bank transaction records with high availability.
xgboost model; credit evaluation; consumer portrait; clustering algorithm
TP311
A
1674-3261(2021)01-0001-04
10.15916/j.issn1674-3261.2021.01.001
2020-06-03
國家自然科學基金項目(61802161)
史偉(1978-),女,遼寧錦州人,實驗師,碩士。
責任編校:孫 林