黃英持+鄭婷婷
【摘 要】為了研究運(yùn)營商如何利用大數(shù)據(jù)的優(yōu)勢(shì)提高移動(dòng)用戶信用評(píng)估的科學(xué)性與準(zhǔn)確性,基于熵值法和分類決策樹模型,建立了移動(dòng)用戶信用評(píng)估模型,詳細(xì)分析其實(shí)現(xiàn)原理,并給出實(shí)際應(yīng)用場(chǎng)景。通過具體的應(yīng)用,證明該模型能減少人工分析中更新計(jì)算公式的繁重工作量,高效、靈活、準(zhǔn)確地完成用戶信用預(yù)測(cè)評(píng)估工作,具有科學(xué)性和實(shí)用性。
信用評(píng)價(jià) 熵值法 分類決策樹
1 引言
2015年1月5日,中國人民銀行發(fā)布通知,允許8家機(jī)構(gòu)進(jìn)行個(gè)人征信業(yè)務(wù),這被看作是個(gè)人征信體系即將向商業(yè)機(jī)構(gòu)開放的信號(hào),推動(dòng)了各種互聯(lián)網(wǎng)征信平臺(tái)的蓬勃快速發(fā)展。在此之前,金融機(jī)構(gòu)和民間團(tuán)體主要通過央行個(gè)人征信報(bào)告來獲取信息,但是對(duì)于藍(lán)領(lǐng)工人、學(xué)生、個(gè)體戶、自由職業(yè)者等用戶,并沒能建立個(gè)人信用記錄,金融機(jī)構(gòu)和民間團(tuán)體了解這些用戶信用記錄的成本也比較高,可能無法對(duì)這些用戶的信用風(fēng)險(xiǎn)進(jìn)行準(zhǔn)確的判斷。
現(xiàn)有的互聯(lián)網(wǎng)征信平臺(tái)依托互聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù),有巨大的價(jià)值,雖然也無法覆蓋到個(gè)人用戶的方方面面,也存在一些盲點(diǎn),但相比互聯(lián)網(wǎng)企業(yè),移動(dòng)運(yùn)營商所擁有的數(shù)據(jù)資源是互聯(lián)網(wǎng)征信平臺(tái)先天缺失的,移動(dòng)運(yùn)營商在征信業(yè)務(wù)上有其獨(dú)特的、不可取代的優(yōu)勢(shì),充分利用移動(dòng)運(yùn)營商擁有的優(yōu)質(zhì)數(shù)據(jù)建立個(gè)人信用記錄,并與其他征信平臺(tái)合作整合,既能挖掘移動(dòng)運(yùn)營商的資產(chǎn)潛力,也能順應(yīng)信息時(shí)代的發(fā)展潮流。
本文將立足于利用運(yùn)營商大數(shù)據(jù)的優(yōu)勢(shì)提高移動(dòng)用戶信用評(píng)估科學(xué)性、準(zhǔn)確性的思想,基于熵值法和分類決策數(shù)模型,提出移動(dòng)用戶信用評(píng)估方法與模型。
2 信用評(píng)估方法的歷史和現(xiàn)狀
信用評(píng)估方法大致經(jīng)歷了3個(gè)階段[1-2]:專家打分法、公式法、規(guī)則引擎計(jì)算法。
專家打分法由專家根據(jù)經(jīng)驗(yàn)對(duì)每個(gè)離散指標(biāo)值賦予指定的分?jǐn)?shù)、每個(gè)指標(biāo)賦予權(quán)重,然后綜合計(jì)算得出最終得分。專家打分法是最原始的評(píng)估方式,目前在一些特殊場(chǎng)景仍然使用這種方式,比如積分入戶、貸款審核等。
公式法是最簡(jiǎn)單普及的信用評(píng)估方式,目前依然被廣泛使用。公式法由專家意見結(jié)合實(shí)際的業(yè)務(wù)運(yùn)營經(jīng)驗(yàn)制定出評(píng)估公式,計(jì)算機(jī)根據(jù)用戶的指標(biāo)值可以直接計(jì)算出相應(yīng)的信用得分。但隨著業(yè)務(wù)復(fù)雜度的增加和指標(biāo)的膨脹,單一的公式法也體現(xiàn)出了明顯的局限性,無法適應(yīng)業(yè)務(wù)需求,因此越來越多的系統(tǒng)采用規(guī)則引擎來實(shí)現(xiàn)。
規(guī)則引擎可以動(dòng)態(tài)定義復(fù)雜的規(guī)則,在不同情況下采用不同的公式和參數(shù)計(jì)算。規(guī)則引擎法可以看作是加強(qiáng)版的公式法,但是仍然有許多局限性。這種方法計(jì)算方式更靈活,但是參數(shù)和公式仍然是預(yù)先擬定的,當(dāng)業(yè)務(wù)情況發(fā)生變化時(shí),仍然需要手動(dòng)調(diào)整計(jì)算公式和規(guī)則、參數(shù)。
通過大數(shù)據(jù)進(jìn)行評(píng)估預(yù)測(cè)[3-5],是信用評(píng)估方法未來的方向,采用機(jī)器學(xué)習(xí)算法是基于大數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)的,其過程如圖1所示。采用機(jī)器學(xué)習(xí)算法可以使訓(xùn)練、預(yù)測(cè)評(píng)估、反饋形成閉環(huán),計(jì)算公式由大數(shù)據(jù)訓(xùn)練產(chǎn)生,過程更加科學(xué),只要定期運(yùn)行訓(xùn)練算法、更新模型就能應(yīng)對(duì)業(yè)務(wù)情況的變化。
本文基于機(jī)器學(xué)習(xí)的信用評(píng)估方法,構(gòu)建了信用評(píng)估的分類決策樹模型,該模型能提高信用評(píng)估的效率與準(zhǔn)確性,現(xiàn)已應(yīng)用于信用評(píng)估系統(tǒng),能通過Web Service返回評(píng)估結(jié)果。
3 移動(dòng)用戶信用評(píng)價(jià)方法
信用評(píng)價(jià)模型采用決策樹分類算法和決策樹回歸算法進(jìn)行預(yù)測(cè)[5-9]。決策樹模型首先必須有滿足一定數(shù)量和質(zhì)量的樣本訓(xùn)練集進(jìn)行訓(xùn)練,形成決策樹模型,然后在運(yùn)營過程中持續(xù)擴(kuò)大訓(xùn)練樣本,達(dá)到較高的準(zhǔn)確度。具體步驟如下:
采用專家打分法結(jié)合熵值法估算樣本的評(píng)價(jià)取值;
對(duì)樣本進(jìn)行訓(xùn)練,形成決策樹和回歸樹模型;
使用測(cè)試樣本對(duì)模型進(jìn)行驗(yàn)證;
使用模型預(yù)測(cè)用戶信用等級(jí)和評(píng)價(jià)。
3.1 生成樣本數(shù)據(jù)集
從移動(dòng)公司數(shù)據(jù)部大數(shù)據(jù)平臺(tái)可獲取特定指標(biāo)體系模型的樣本數(shù)據(jù),本文采集樣本為50 000筆數(shù)據(jù),其中40 000筆用于訓(xùn)練數(shù)據(jù)集,10 000筆用于模型驗(yàn)證。樣本的分布必須滿足對(duì)指標(biāo)取值范圍的有效覆蓋,因此,提取樣本數(shù)據(jù)后必須驗(yàn)證樣本中指標(biāo)值的范圍。比如在用戶類型中包括:鉆石卡、金卡、銀卡、VIP卡、普通用戶,每個(gè)值必須有接近實(shí)際比例的數(shù)量,其他指標(biāo)集同理。
3.2 估算樣本信用
傳統(tǒng)的估算方法一般使用專家法或者公式法。原始的專家打分法工作量太大,且專家打分主觀性隨意性和波動(dòng)性無法保證,而公式法的主觀性也較強(qiáng)[6,10],因此本文采用專家打分法結(jié)合熵值法進(jìn)行估算。具體步驟如下:
對(duì)參與估算的指標(biāo)進(jìn)行歸一標(biāo)準(zhǔn)化處理;
使用熵值法計(jì)算每個(gè)維度下面指標(biāo)的權(quán)重;
使用專家打分法賦予維度權(quán)重;
使用指標(biāo)權(quán)重和維度權(quán)重計(jì)算出信用得分;
根據(jù)信用得分賦予等級(jí)。
(1)指標(biāo)歸一標(biāo)準(zhǔn)化
特征指標(biāo)按類型可劃分為連續(xù)變量和離散變量。變量必須經(jīng)過歸一標(biāo)準(zhǔn)化處理后才能進(jìn)行樣本集的信用積分和等級(jí)計(jì)算;對(duì)于離散變量,只有有序類型的指標(biāo)才能參與計(jì)算。有序類型的指標(biāo)由專家給出評(píng)分標(biāo)準(zhǔn),如表1所示:
(2)計(jì)算維度指標(biāo)權(quán)重
維度指標(biāo)的權(quán)重計(jì)算采用熵值法。熵值法的基本思路是求出指標(biāo)的熵,然后根據(jù)指標(biāo)熵的冗余度求權(quán)重。熵值法的意義在于指標(biāo)聚集度越高,則權(quán)重應(yīng)該越低,防止計(jì)算出的結(jié)果區(qū)分度太低。假設(shè)有一個(gè)指標(biāo),絕大比例的樣本的得分均在區(qū)間[0.8, 0.9]中,則該指標(biāo)的區(qū)分意義不大,權(quán)重應(yīng)該降低。
計(jì)算維度指標(biāo)i的熵采用的公式如下:
(3)
(4)
其中,hi是維度指標(biāo)i的熵;樣本數(shù)量為n;k的計(jì)算公式為:
(5)
維度總共m個(gè)指標(biāo),第i個(gè)指標(biāo)的權(quán)重計(jì)算公式為:
≤wi≤ (6)
由以上公式可獲得指標(biāo)體系中五個(gè)維度下指標(biāo)的權(quán)重。
(3)賦予維度權(quán)重
維度的權(quán)重屬于專家決策或者運(yùn)營者決策的范疇,因此,維度權(quán)重di由專家打分法賦予,如表2所示:
表2 專家打分法賦予的維度權(quán)重
維度 身份特征 行為特征 信用歷史 賬戶狀況 人脈特征
權(quán)重 0.15 0.2 0.2 0.3 0.15
(4)計(jì)算樣本信用得分和等級(jí)
經(jīng)過上述步驟,可獲得指標(biāo)歸一化標(biāo)準(zhǔn)分、維度指標(biāo)權(quán)重、維度權(quán)重,則可以計(jì)算用戶的信用得分和信用等級(jí)。
設(shè)維度權(quán)重為di,維度指標(biāo)權(quán)重為wi,樣本指標(biāo)標(biāo)準(zhǔn)分為p,則:
維度得分公式為:
(7)
樣本信用得分公式為:
(8)
至此可得到每個(gè)樣本的信用得分。雖然對(duì)所有指標(biāo)直接賦予權(quán)重也可以計(jì)算樣本得分,但是顯然使用熵值法更加科學(xué)準(zhǔn)確,區(qū)分度更高。
3.3 構(gòu)建分類決策樹模型
在訓(xùn)練樣本中,除了采集原始的數(shù)據(jù)集外,還有一個(gè)通過計(jì)算出來的信用等級(jí)的指標(biāo),稱為決策指標(biāo)。本文采用C4.5算法構(gòu)建決策樹,首先將這個(gè)集合看成一個(gè)節(jié)點(diǎn),然后選擇合適的屬性進(jìn)行分裂。當(dāng)判斷符合條件時(shí),分裂結(jié)束,構(gòu)建決策樹完成。
(1)選擇分裂屬性
C4.5算法在選擇分裂屬性時(shí),選擇屬性熵增益率較高的優(yōu)先分裂。熵是用于衡量集合有序性(或者說“純度”)的一個(gè)度量。熵的增益率較高表明采用這個(gè)屬性分裂能最大限度提高整體的純度。
熵的計(jì)算公式是:
(9)
其中,Entropy(s)是集合s的熵,pi是屬性的不同性。比如一個(gè)集合有10個(gè)樣本,其中3個(gè)信用等級(jí)為2、5個(gè)信用等級(jí)為3、2個(gè)等級(jí)為4,則集合的不同性分別為3/10、5/10、2/10,而集合的熵為:
Entropy(s)=-3/10×log2(3/10)-1/2×log2(1/2)-
1/5×log2(1/5) (10)
熵的增益計(jì)算公式為:
(11)
其中,V(A)是屬性A的值域,S是樣本集合,Sv是S在屬性A上值等于v的樣本集合。
熵的增益率公式為:
(12)
其中:
(13)
其中,S1到Sc是c個(gè)值的屬性A分割S而形成的c個(gè)樣例子集。
使用增益比率代替增益來選擇屬性,會(huì)產(chǎn)生一個(gè)實(shí)際問題:當(dāng)某個(gè)Si接近S時(shí),分母可能為0或非常小。如果某個(gè)屬性對(duì)于S的所有樣例有幾乎同樣的值,這時(shí)要么導(dǎo)致增益比率未定義,要么是增益比率非常大。為了避免選擇這種屬性,可以采用這樣一些啟發(fā)式規(guī)則,比如先計(jì)算每個(gè)屬性的增益,然后僅對(duì)那些增益高過平均值的屬性應(yīng)用增益比率測(cè)試(Quinlan 1986)。
(2)分裂節(jié)點(diǎn)
對(duì)于連續(xù)變量類型的指標(biāo),先對(duì)指標(biāo)值進(jìn)行排序,然后按定義bin的值,根據(jù)比例劃分成n份Sample,計(jì)算每份Sample的均值,選取相鄰兩個(gè)Sample均值的中間點(diǎn)作為切分點(diǎn)分裂。
對(duì)于離散變量,則分為兩種情況:當(dāng)屬性值屬于有序變量時(shí),直接按照屬離散屬性,每個(gè)屬性分裂成一個(gè)bin;當(dāng)屬性變量屬于無序變量時(shí),則遍歷所有的分裂組合,選擇熵的增益最小的分裂方式。
(3)分裂結(jié)束
重復(fù)以上過程,對(duì)每個(gè)屬性進(jìn)行分裂,直到完成構(gòu)建決策樹。判斷分裂是否結(jié)束的條件有:樹的高度是否達(dá)到最大值、樣本數(shù)量是否達(dá)到最小值、信息增益是否小于未分裂狀態(tài)。當(dāng)分裂結(jié)束時(shí),返回到該葉子節(jié)點(diǎn)中決策指標(biāo)中比例最大的值。
(4)驗(yàn)證模型
完成構(gòu)建決策樹模型之后,對(duì)測(cè)量數(shù)據(jù)集進(jìn)行預(yù)測(cè),然后比較預(yù)測(cè)準(zhǔn)確率,可以了解模型的預(yù)測(cè)準(zhǔn)確率。實(shí)踐中,該模型經(jīng)過訓(xùn)練后,準(zhǔn)確率超過80%,具備一定的實(shí)用性。隨著后續(xù)運(yùn)營中數(shù)據(jù)的持續(xù)積累和反復(fù)增量訓(xùn)練,預(yù)計(jì)該模型的準(zhǔn)確性和實(shí)用性會(huì)持續(xù)提高。
4 移動(dòng)用戶信用評(píng)估模型應(yīng)用
移動(dòng)用戶信用評(píng)估模型的應(yīng)用流程如圖2所示。信用評(píng)估系統(tǒng)從基礎(chǔ)數(shù)據(jù)模塊采集待評(píng)估用戶的基礎(chǔ)數(shù)據(jù),經(jīng)分析整理后計(jì)算熵值,構(gòu)建決策樹模型進(jìn)行評(píng)估。如果用戶對(duì)于授信平臺(tái)的評(píng)估結(jié)果有異議,可以向平臺(tái)提出核對(duì)申請(qǐng),由平臺(tái)人工審核校正,人工矯正的數(shù)據(jù)可以作為下一輪訓(xùn)練數(shù)據(jù)。外部平臺(tái)通過授信接口獲得移動(dòng)用戶信用以后,作為用戶消費(fèi)額度授信的基礎(chǔ)參考數(shù)據(jù)。
授信平臺(tái)信用接口模塊通過Web Service向外部提供信用查詢能力,移動(dòng)用戶可通過公眾號(hào)、第三方平臺(tái)等方式獲取自己的信用狀況,如圖3所示:
5 結(jié)束語
本文建立了基于熵值法和決策樹的用戶信用評(píng)估模型,并充分利用了運(yùn)營商的大數(shù)據(jù)優(yōu)勢(shì),使用該模型實(shí)現(xiàn)了用戶信用的預(yù)測(cè)評(píng)估。該模型應(yīng)用于移動(dòng)用戶信用評(píng)估系統(tǒng),可以高效、靈活、準(zhǔn)確地完成用戶信用的預(yù)測(cè)評(píng)估工作,減少了人工分析及更新的繁重工作量,具有科學(xué)性和實(shí)用性。
參考文獻(xiàn):
[1] 趙靜嫻. 基于決策樹的信用風(fēng)險(xiǎn)評(píng)估方法研究[D]. 天津: 天津大學(xué), 2009.
[2] 郭仌,梁世棟,方兆本. 消費(fèi)者信用評(píng)估分析綜述[J]. 系統(tǒng)工程, 2001(6): 9-15.
[3] 申華. 基于數(shù)據(jù)挖掘的個(gè)人信用評(píng)分模型開發(fā)[D]. 廈門: 廈門大學(xué), 2009.
[4] 葛繼科,趙永進(jìn),王振華,等. 數(shù)據(jù)挖掘技術(shù)在個(gè)人信用評(píng)估模型中的應(yīng)用[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2006(12): 172-174.
[5] 張麗娟,李舟軍. 分類方法的新發(fā)展:研究綜述[J]. 計(jì)算機(jī)科學(xué), 2006(10): 11-15.
[6] 金劍,林成德. 基于混合型專家系統(tǒng)的資信評(píng)估系統(tǒng)模型設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用, 2003(4): 81-83.
[7] 王剛,韓立巖. 基于信息熵和回歸分析的信用風(fēng)險(xiǎn)評(píng)估研究[J]. 運(yùn)籌與管理, 2003(5): 94-98.
[8] 葉中行,余敏杰. 基于遺傳算法和分類樹的信用分類方法[J]. 系統(tǒng)工程學(xué)報(bào), 2006(4): 424-428.
[9] 李旭升,郭耀煌. 基于貝葉斯網(wǎng)絡(luò)分類的個(gè)人信用評(píng)估模型[J]. 統(tǒng)計(jì)與決策, 2006(20): 13-15.
[10] 田博,覃正. 電子商務(wù)中的信用模型研究[J]. 情報(bào)雜志, 2007,26(4): 42-44.