張素子
(興業(yè)消費(fèi)金融股份公司,上海 200120)
大數(shù)據(jù)風(fēng)控模型近幾年在信貸業(yè)務(wù)中被廣泛應(yīng)用。傳統(tǒng)的風(fēng)控模型基本是對(duì)借款人個(gè)人情況的評(píng)估,而較少去評(píng)價(jià)不同申請(qǐng)人之間的關(guān)聯(lián)關(guān)系。而信貸業(yè)務(wù)中的欺詐團(tuán)伙經(jīng)常體現(xiàn)出較強(qiáng)的關(guān)聯(lián)關(guān)系,并伴隨著較強(qiáng)的偽裝手段,使得無(wú)法通過(guò)簡(jiǎn)單的一度關(guān)系識(shí)別不同客戶是否來(lái)自同一群體。關(guān)聯(lián)圖譜是一種非常適合信貸業(yè)務(wù)反欺詐領(lǐng)域的方法,其識(shí)別欺詐客戶的效果較優(yōu),同時(shí)又具有技術(shù)上的可行性。
本文基于關(guān)聯(lián)圖譜的理論和技術(shù),根據(jù)信貸業(yè)務(wù)的數(shù)據(jù)特征和業(yè)務(wù)要求,研究其在信貸業(yè)務(wù)大數(shù)據(jù)風(fēng)控領(lǐng)域中的實(shí)際落地應(yīng)用方案,包括關(guān)聯(lián)圖譜的實(shí)體與關(guān)系抽取、圖譜構(gòu)建、數(shù)據(jù)存儲(chǔ)等技術(shù),以及基于關(guān)聯(lián)圖譜構(gòu)建大數(shù)據(jù)風(fēng)控提示的具體實(shí)踐。
關(guān)聯(lián)圖譜的本質(zhì)是語(yǔ)義網(wǎng)絡(luò)的一種,是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。關(guān)聯(lián)圖譜一般由實(shí)體- 關(guān)系- 實(shí)體的三元組構(gòu)成,這種三元組可以將互相獨(dú)立的貸款申請(qǐng)之間關(guān)聯(lián)起來(lái),形成復(fù)雜而連通的網(wǎng)絡(luò)。
圖1 即是關(guān)聯(lián)圖譜的一個(gè)示例,申請(qǐng)人1、申請(qǐng)人2、申請(qǐng)人4 與公司1 是工作關(guān)系,申請(qǐng)人1 和申請(qǐng)人3 是配偶關(guān)系。雖然申請(qǐng)人2 和申請(qǐng)人3 并無(wú)直接的關(guān)聯(lián)關(guān)系,但是通過(guò)關(guān)聯(lián)圖譜可以將兩人聯(lián)系起來(lái)。后續(xù)可以通過(guò)機(jī)器學(xué)習(xí)的算法識(shí)別兩人是否屬于同一群體。
圖1 關(guān)聯(lián)圖譜示例
2.2.1 實(shí)體抽取技術(shù)
關(guān)聯(lián)圖譜中的實(shí)體可以被定義為任何事物。在信貸業(yè)務(wù)中,一般可以認(rèn)為實(shí)體是人、設(shè)備、IP 地址、公司、地址等,而關(guān)系包括從屬關(guān)系、聯(lián)系人關(guān)系。由于信貸業(yè)務(wù)中的實(shí)體都較為明確,例如身份號(hào)、手機(jī)號(hào)均可以唯一地識(shí)別實(shí)體,故信貸業(yè)務(wù)中實(shí)體抽取較為簡(jiǎn)單,可以采用常用的結(jié)構(gòu)化數(shù)據(jù)來(lái)提取和標(biāo)識(shí)實(shí)體。在實(shí)際應(yīng)用中,選擇身份證號(hào)、手機(jī)號(hào)、地址、公司名來(lái)構(gòu)建關(guān)聯(lián)圖譜。
值得注意的是在實(shí)際應(yīng)用中,諸如地址、公司名這樣的實(shí)體存在數(shù)據(jù)標(biāo)準(zhǔn)化的問(wèn)題。數(shù)據(jù)標(biāo)準(zhǔn)化問(wèn)題主要來(lái)源于客戶填寫(xiě)時(shí)的方式千奇百怪,如新疆省和新疆維吾爾族自治區(qū)實(shí)際是同一省份。數(shù)據(jù)標(biāo)準(zhǔn)化的問(wèn)題主要采用基于N-gram 和基于HMM的分詞方法對(duì)原始數(shù)據(jù)進(jìn)行分詞后與已有的行政地址劃分庫(kù)和公司庫(kù)進(jìn)行比對(duì),可將非標(biāo)準(zhǔn)化的地址和公司映射至標(biāo)準(zhǔn)化的地址和公司名。
對(duì)于已知的詞匯,假設(shè)隨機(jī)變量S 是一個(gè)文字序列,隨機(jī)變量W 是S 可能的切分路徑。分詞實(shí)際上就是求解使條件概率P(W|S)最大的切分路徑W*,即
由于對(duì)W 來(lái)說(shuō)S 為已知序列,故P(S|W)為1,P(S)為常數(shù),因此只需要求解P(W)。P(W)使用N-gram 語(yǔ)言模型建模,假設(shè)一個(gè)詞出現(xiàn)的概率,只與其前n-1 個(gè)詞相關(guān)。常用的Bi-gram 取n=2,即一個(gè)詞出現(xiàn)的概率只與其前一個(gè)詞相關(guān):
可以用全切分有向無(wú)環(huán)圖(DAG)來(lái)畫(huà)出簡(jiǎn)單句子的所有區(qū)分,并尋找出一條概率最大的路徑。
對(duì)于未知的詞匯,使用HMM (隱馬爾克夫模型) 模型,用Viterbi 算法找出最可能出現(xiàn)的隱狀態(tài)序列。
2.2.2 關(guān)系抽取技術(shù)
信貸業(yè)務(wù)中實(shí)體之間的關(guān)系也較為明確,如聯(lián)系人之間的關(guān)系可以是配偶、朋友、親戚等,對(duì)于此類關(guān)系,可以直接進(jìn)行提取。
實(shí)際應(yīng)用中,對(duì)于地址、公司的關(guān)系提取存在一定的集中性問(wèn)題。如較多客戶填寫(xiě)同一個(gè)工作單位,就不能簡(jiǎn)單地把其處理為同事關(guān)系,一是因?yàn)榭蛻糁g的關(guān)系較弱,他們本身認(rèn)識(shí)或者成為同一群體的概率較??;二是圖譜中如有少數(shù)實(shí)體有較多關(guān)系相連,則群體發(fā)現(xiàn)算法會(huì)在這樣的大實(shí)體上集中,而忽視小實(shí)體之間關(guān)聯(lián)關(guān)系。信貸反欺詐中實(shí)際更關(guān)注小實(shí)體之間的關(guān)聯(lián)關(guān)系。故抽取關(guān)系的時(shí)候必須對(duì)集中性關(guān)系進(jìn)行處理。
針對(duì)集中性問(wèn)題,可以結(jié)合實(shí)際情況采用刪除和降低權(quán)重處理。
2.2.3 圖譜構(gòu)建技術(shù)
在抽取完實(shí)體與關(guān)系后,可以將所有信息放入連通圖。此時(shí)需要使用機(jī)器學(xué)習(xí)模型去將實(shí)體切割成不同的子群體,觀察群體內(nèi)部有無(wú)明顯的欺詐行為。切分群體的方法主要包括標(biāo)簽傳播算法、Louvain 算法。
標(biāo)簽傳播算法為基于圖的半監(jiān)督學(xué)習(xí)算法,基本思路是從已標(biāo)記的節(jié)點(diǎn)的標(biāo)簽信息來(lái)預(yù)測(cè)未標(biāo)記節(jié)點(diǎn)標(biāo)簽的信息,經(jīng)過(guò)多次迭代使整張圖達(dá)到穩(wěn)定,建立完全圖模型。
Louvain 算法是基于模塊度來(lái)衡量一個(gè)社群的劃分是不是相對(duì)比較好的結(jié)果,最終以最大化模塊度為目標(biāo),得出最優(yōu)的群體劃分方法。
2.2.4 數(shù)據(jù)存儲(chǔ)技術(shù)
關(guān)聯(lián)圖譜可以使用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù),也可以選擇圖數(shù)據(jù)庫(kù)。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)可以采用實(shí)體- 關(guān)系- 實(shí)體的結(jié)構(gòu)來(lái)存儲(chǔ)數(shù)據(jù),可以將其拼接后進(jìn)行指標(biāo)計(jì)算,最后對(duì)每一個(gè)實(shí)體進(jìn)行標(biāo)注。結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢(shì)是邏輯清晰,編碼簡(jiǎn)單,劣勢(shì)是計(jì)算速度較慢。
為了實(shí)現(xiàn)社群發(fā)現(xiàn)算法,解決計(jì)算量大、計(jì)算復(fù)雜的問(wèn)題,采用了Spark 技術(shù)。Spark 技術(shù)是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,其速度顯著快于需要大量I/O 和CPU 計(jì)算的Hadoop的Mapreduce。本項(xiàng)目采用了Spark 的GraphX 組件進(jìn)行圖數(shù)據(jù)處理和圖運(yùn)算;采用了Spark Mlib 庫(kù)可以加速機(jī)器學(xué)習(xí)模型的運(yùn)算速度。
同時(shí),為了在建立網(wǎng)絡(luò)后分析所發(fā)現(xiàn)群體關(guān)聯(lián)情況和欺詐情況,采用了Neo4j 圖數(shù)據(jù)庫(kù)做可視化,使用聲明式圖形查詢語(yǔ)言Cypher,它允許用戶不必編寫(xiě)圖形結(jié)構(gòu)的遍歷代碼,就可以對(duì)圖形數(shù)據(jù)進(jìn)行高效的查詢。
3.1.1 風(fēng)控平臺(tái)搭建
大數(shù)據(jù)風(fēng)控平臺(tái)是一個(gè)應(yīng)用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等算法實(shí)現(xiàn)信貸審批、風(fēng)險(xiǎn)管控的集成式系統(tǒng)工具,它由多系統(tǒng)模塊聯(lián)合交互構(gòu)成,核心組成包括信貸審批系統(tǒng)、決策引擎、模型平臺(tái)、實(shí)驗(yàn)平臺(tái)以及監(jiān)控平臺(tái)。
信貸審批系統(tǒng):主要實(shí)現(xiàn)三大功能,業(yè)務(wù)調(diào)度、流程引擎及審批工作臺(tái)。業(yè)務(wù)調(diào)度功能實(shí)現(xiàn)前端業(yè)務(wù)的接入,執(zhí)行不同業(yè)務(wù)對(duì)應(yīng)的風(fēng)控流程,并且對(duì)執(zhí)行過(guò)程匯總的異常進(jìn)行監(jiān)控和處理;流程引擎則可實(shí)現(xiàn)具體信貸流程的配置管理,例如全自動(dòng)審批還是人工審批與機(jī)器審批相結(jié)合;審批工作臺(tái)則是提供給信貸審批人員的操作界面,提供信息展示與審批結(jié)果記錄的功能。
決策引擎:自動(dòng)化審批測(cè)略的部署平臺(tái),承載的是風(fēng)控業(yè)務(wù)的專家知識(shí),基于客戶特征和模型的輸出,對(duì)客戶進(jìn)行分層、風(fēng)險(xiǎn)判斷以及風(fēng)險(xiǎn)定價(jià)等操作。
模型平臺(tái):模型實(shí)時(shí)部署運(yùn)行平臺(tái),關(guān)聯(lián)圖譜的應(yīng)用均在模型平臺(tái)中完成,它可以在實(shí)時(shí)審批中整合信貸申請(qǐng)信息,提取關(guān)鍵特征,完成關(guān)聯(lián)圖譜與機(jī)器學(xué)習(xí)模型的結(jié)果預(yù)測(cè),是整個(gè)在線風(fēng)控平臺(tái)的一大核心。
實(shí)驗(yàn)平臺(tái):可實(shí)現(xiàn)離線策略仿真測(cè)算、模型搭建的功能?;贖base 數(shù)據(jù)庫(kù)的大量離線數(shù)據(jù)及算法服務(wù)器,進(jìn)行風(fēng)控模型挖掘、驗(yàn)證、策略測(cè)算。
監(jiān)控平臺(tái):分為實(shí)時(shí)運(yùn)營(yíng)監(jiān)控及離線定時(shí)監(jiān)控兩部分。實(shí)時(shí)運(yùn)營(yíng)監(jiān)控可計(jì)算當(dāng)日實(shí)時(shí)業(yè)務(wù)審批情況,包括進(jìn)件量、審批結(jié)果、異常申請(qǐng)件情況等,可進(jìn)行實(shí)時(shí)的異常情況預(yù)警;離線監(jiān)控可按設(shè)計(jì),定時(shí)生成按日、按周、按月的監(jiān)控報(bào)表,監(jiān)控報(bào)表基于Tableau 的報(bào)表平臺(tái)服務(wù)框架,底層數(shù)據(jù)管理采用Hive 數(shù)據(jù)倉(cāng)庫(kù)工具。
3.1.2 關(guān)聯(lián)圖譜模型挖掘
構(gòu)建關(guān)聯(lián)圖譜時(shí),首先需要確定關(guān)系有哪些,關(guān)系的選取主要根據(jù)專家經(jīng)驗(yàn),確定哪些關(guān)系可以表現(xiàn)出申請(qǐng)人在行為上的趨同性,同時(shí)這些行為上的趨同性對(duì)于信貸風(fēng)險(xiǎn)有一定影響,選擇的關(guān)系主要包括公司、地址、聯(lián)系人、手機(jī)號(hào)歸屬地等。確定關(guān)系后,將申請(qǐng)人與申請(qǐng)人之間通過(guò)不同的關(guān)系相連接形成網(wǎng)絡(luò),若采用相同特征構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)則稱為同構(gòu)網(wǎng)絡(luò),若采用不同的關(guān)聯(lián)特征構(gòu)建網(wǎng)絡(luò)則稱為異構(gòu)網(wǎng)絡(luò)。
構(gòu)建完網(wǎng)絡(luò)后,選擇可以將其中的節(jié)點(diǎn)劃分為社群的算法,社群發(fā)現(xiàn)的相關(guān)算法各有優(yōu)劣,需根據(jù)建模需求、樣本情況、開(kāi)發(fā)時(shí)限等因素綜合判斷后選擇。
通過(guò)社群發(fā)現(xiàn)算法可將具有關(guān)聯(lián)關(guān)系的不同申請(qǐng)人標(biāo)記為同一個(gè)群體,隨后需從百萬(wàn)級(jí)的群體中挖掘出欺詐群體。欺詐是一個(gè)較為主觀的定義,業(yè)務(wù)較為廣泛的定義包括首逾客戶、從未還款客戶、通過(guò)人工欺詐調(diào)查得出的欺詐客戶等,定義完欺詐客戶后,需借由欺詐客戶挖掘出欺詐群體,欺詐群體的定義也沒(méi)有唯一標(biāo)準(zhǔn),一般會(huì)要求群體中欺詐客戶的樣本點(diǎn)不低于N 人(N>=2)且群體的欺詐率為整體均值的M 倍以上(M>=2)。至此,就完成了基于關(guān)聯(lián)圖譜的欺詐團(tuán)伙發(fā)現(xiàn)模型,后續(xù)可進(jìn)一步應(yīng)用圖數(shù)據(jù)庫(kù),可視化欺詐團(tuán)伙,進(jìn)一步進(jìn)行分析及模型優(yōu)化。
3.1.3 關(guān)聯(lián)圖譜應(yīng)用場(chǎng)景實(shí)踐
根據(jù)3.1.2 的關(guān)聯(lián)圖譜模型的挖掘方法,項(xiàng)目組采用異構(gòu)網(wǎng)絡(luò)構(gòu)建關(guān)聯(lián)圖譜,應(yīng)用標(biāo)簽傳播的社群發(fā)現(xiàn)算法進(jìn)行群體識(shí)別,成功發(fā)現(xiàn)1,179 個(gè)3 人及以上的高風(fēng)險(xiǎn)欺詐團(tuán)伙,欺詐率為均值的4-5 倍。
3.2.1 系統(tǒng)架構(gòu)
審批系統(tǒng)作為線上實(shí)時(shí)審批的流程管控系統(tǒng),串聯(lián)起決策引擎、模型平臺(tái)及人工審批平臺(tái);離線實(shí)驗(yàn)平臺(tái)則是模型挖掘、規(guī)則分析的主要平臺(tái),復(fù)雜的算法模型策略在實(shí)驗(yàn)平臺(tái)開(kāi)發(fā)、驗(yàn)證,隨后部署至模型平臺(tái)或決策引擎平臺(tái);監(jiān)控平臺(tái)擔(dān)實(shí)時(shí)業(yè)務(wù)、報(bào)表統(tǒng)計(jì)的功能。主體系統(tǒng)架構(gòu)可詳見(jiàn)圖2。
圖2 風(fēng)控平臺(tái)架構(gòu)
3.2.2 系統(tǒng)關(guān)鍵技術(shù)特點(diǎn)
整體風(fēng)控平臺(tái)有三大關(guān)鍵技術(shù)特點(diǎn)。
一是能夠應(yīng)對(duì)大量數(shù)據(jù)處理,實(shí)驗(yàn)平臺(tái)采用了Spark 技術(shù),Spark 技術(shù)是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,其速度顯著快于需要大量I/O 的CPU 計(jì)算的Hadoop 的Mapreduce,同時(shí)配置GPU 算法服務(wù)器,進(jìn)一步加快計(jì)算效率。關(guān)聯(lián)圖譜的運(yùn)算采用了Spark 的GraphX 組件進(jìn)行圖數(shù)據(jù)處理和圖運(yùn)算;采用了Spark Mlib 庫(kù)可以加速機(jī)器學(xué)習(xí)模型的計(jì)算速度。
二是能夠?qū)δP筒呗赃M(jìn)行靈活高效的迭代,決策引擎平臺(tái)及模型平臺(tái)可以支持策略規(guī)則的高效更新上線。決策引擎為可視化操作,支持判斷邏輯的多種組合,流程鏈路的個(gè)性化配置,可優(yōu)化策略部署速度;模型平臺(tái)可支持更復(fù)雜的模型計(jì)算,彌補(bǔ)決策引擎的短板。
三是離線及在線系統(tǒng)的交互,可以支持風(fēng)控策略的對(duì)抗升級(jí)。信貸申請(qǐng)的攻擊者會(huì)不停地進(jìn)行內(nèi)部規(guī)則的猜測(cè),原本有效的在線策略會(huì)隨著這些攻擊出現(xiàn)有效性下降的問(wèn)題。在線系統(tǒng)可以及時(shí)發(fā)現(xiàn)實(shí)時(shí)的異常情況,反饋業(yè)務(wù)人員排查風(fēng)險(xiǎn);離線數(shù)據(jù)雖然有滯后性,但可以支持大批量的數(shù)據(jù)運(yùn)算,挖掘出在線系統(tǒng)無(wú)法捕捉的異常攻擊,反哺在線策略。
傳統(tǒng)的機(jī)器學(xué)習(xí)模型更關(guān)注申請(qǐng)人自身的信貸風(fēng)險(xiǎn)。但在信貸業(yè)務(wù)中,人和人之間并不是獨(dú)立的,往往存在一定的集中性風(fēng)險(xiǎn)。欺詐中有較大比例的模式為團(tuán)伙欺詐,需要能夠?qū)⒉煌悇e的特征整合起來(lái),提取它們之間關(guān)聯(lián)特征與團(tuán)伙特征,以識(shí)別不同申請(qǐng)人之間的關(guān)聯(lián)風(fēng)險(xiǎn)。關(guān)聯(lián)圖譜(復(fù)雜網(wǎng)絡(luò))是解決上述問(wèn)題的一種常用且有效的方法。充分發(fā)揮其直觀化、效率化的圖技術(shù)優(yōu)勢(shì),在反欺詐方面成效顯著。
本項(xiàng)目的研究成果一是彌補(bǔ)了個(gè)體反欺詐的局限性,解決識(shí)別個(gè)體正常但屬于欺詐團(tuán)伙的反欺詐防范痛點(diǎn);二是可以充分整合個(gè)體反欺詐模型較難運(yùn)用的弱特征變量,如手機(jī)號(hào)歸屬地、居住地等,將多源異構(gòu)的數(shù)據(jù)整合成機(jī)器可以理解的知識(shí),將單點(diǎn)信息轉(zhuǎn)化為平面的相互關(guān)聯(lián)的圖譜;三是大幅提升了欺詐調(diào)查的效率,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),需要技術(shù)人員執(zhí)行一系列的復(fù)雜連接才能將關(guān)聯(lián)信息提取出來(lái),圖數(shù)據(jù)庫(kù)在這方面具有天然的優(yōu)勢(shì),可將欺詐團(tuán)伙的網(wǎng)絡(luò)直接展現(xiàn)。
關(guān)聯(lián)圖譜在風(fēng)控領(lǐng)域的應(yīng)用是一個(gè)復(fù)雜的問(wèn)題,對(duì)數(shù)據(jù)來(lái)源、系統(tǒng)性能、應(yīng)用方案有著較高的要求。本文對(duì)關(guān)聯(lián)圖譜在銀行大數(shù)據(jù)風(fēng)控體系內(nèi)的應(yīng)用進(jìn)行初探,模型效果經(jīng)測(cè)算在歷史樣本上效果較好?;诰哂锌尚行缘穆涞胤桨福晒ι暇€,搭建起基于關(guān)聯(lián)圖譜的大數(shù)據(jù)風(fēng)控體系,完成初版關(guān)聯(lián)圖譜模型上線。并持續(xù)運(yùn)行穩(wěn)健,識(shí)別欺詐團(tuán)伙逾期率約為正??蛻舻?倍。當(dāng)然,本文在這一領(lǐng)域的研究還有很大的上升空間,未來(lái)將持續(xù)對(duì)算法效果、運(yùn)行效率進(jìn)行研究與改進(jìn)。