孫 權(quán),湯 韜,鄭建賓,潘 婧,趙金濤
1.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海200433
2.中國(guó)銀聯(lián)電子支付研究院,上海201201
隨著互聯(lián)網(wǎng)的飛速發(fā)展,當(dāng)前金融交易、支付場(chǎng)景逐漸多元化.在場(chǎng)景逐漸發(fā)展成熟的過程中,其潛在的風(fēng)險(xiǎn)也在不斷地演化和迭代[1].與此同時(shí),金融欺詐用戶利用各種手段及漏洞進(jìn)行套利、套現(xiàn)[2]、互聯(lián)網(wǎng)攻擊[3-4]、洗錢等金融欺詐及犯罪行為,已經(jīng)從個(gè)體的用戶逐漸向集群團(tuán)伙化、規(guī)?;薪M織的群體發(fā)展,形成龐大的產(chǎn)業(yè)鏈.據(jù)阿里巴巴和南方都市報(bào)共同發(fā)布的《2018 網(wǎng)絡(luò)黑灰產(chǎn)治理研究報(bào)告》顯示[5],2017年中國(guó)網(wǎng)絡(luò)黑色產(chǎn)業(yè)規(guī)模為450 多億元,已達(dá)千億元規(guī)模,黑灰產(chǎn)業(yè)比安全產(chǎn)業(yè)發(fā)展得更為迅速.同時(shí),自動(dòng)化群控技術(shù)、人工智能、生物認(rèn)證等先進(jìn)的計(jì)算機(jī)技術(shù)已經(jīng)在該產(chǎn)業(yè)鏈集團(tuán)中被逐漸利用,欺詐團(tuán)伙及犯罪用戶的欺詐手段逐漸升級(jí)[6],產(chǎn)業(yè)鏈條逐漸深入,存在著極大的系統(tǒng)性金融風(fēng)險(xiǎn),給當(dāng)前的風(fēng)控反欺詐工作帶來了挑戰(zhàn).
當(dāng)前傳統(tǒng)金融風(fēng)控體系打擊欺詐的手段主要基于個(gè)體的欺詐用戶行為分析,采用人工核驗(yàn)、專家規(guī)則等風(fēng)控方法開展偵測(cè)工作.面對(duì)海量的金融風(fēng)險(xiǎn)數(shù)據(jù),亟需智能化程度較高的模型方法,在當(dāng)前支付數(shù)據(jù)和用戶數(shù)據(jù)的驅(qū)動(dòng)下,對(duì)日益嚴(yán)峻的團(tuán)伙化風(fēng)險(xiǎn)進(jìn)行自動(dòng)化智能化的偵測(cè).當(dāng)前的欺詐用戶標(biāo)簽多來自人工標(biāo)注和客戶投訴,標(biāo)簽量極其匱乏,亟需開發(fā)相關(guān)業(yè)務(wù)模型,支撐不平衡的樣本數(shù)據(jù)偵測(cè).
基于上述考慮,本文針對(duì)當(dāng)前欺詐用戶團(tuán)伙化的金融欺詐模式偵測(cè)能力的不足,提出基于圖計(jì)算和機(jī)器學(xué)習(xí)方法的團(tuán)伙化欺詐偵測(cè)模型框架,對(duì)團(tuán)伙化的欺詐鏈條進(jìn)行深入的挖掘,并通過模型的追溯能力提升了模型的可解釋性.以銀聯(lián)云閃付營(yíng)銷場(chǎng)景為典型案例,對(duì)模型應(yīng)用效果進(jìn)行了詳細(xì)量化分析和評(píng)價(jià),并對(duì)潛在的其他欺詐場(chǎng)景模型運(yùn)用進(jìn)行了框架體系的構(gòu)建和分析.
營(yíng)銷欺詐團(tuán)伙利用金融交易、支付場(chǎng)景規(guī)則漏洞,用戶偽造、惡意交易等手段,開展金融欺詐違法犯罪活動(dòng)的行為,目前已形成龐大的黑色產(chǎn)業(yè)鏈.
典型的營(yíng)銷欺詐產(chǎn)業(yè)鏈框架如下,在某一場(chǎng)景下,團(tuán)伙首先通過上游場(chǎng)景賦能,組織相關(guān)的團(tuán)伙攻擊用戶,通過內(nèi)部的群控方式對(duì)團(tuán)伙成員進(jìn)行組織.與此同時(shí),團(tuán)伙通常會(huì)與所攻擊場(chǎng)景相關(guān)的組織機(jī)構(gòu)及平臺(tái)內(nèi)部人士勾結(jié),獲取平臺(tái)場(chǎng)景規(guī)則漏洞、內(nèi)部信息等資源,在一定金融場(chǎng)景下對(duì)機(jī)構(gòu)平臺(tái)開展攻擊.結(jié)合當(dāng)前先進(jìn)的技術(shù)手段,這類組織嚴(yán)密系統(tǒng)化群控的團(tuán)伙將對(duì)場(chǎng)景機(jī)構(gòu)平臺(tái)、資金利益進(jìn)行極大程度的攻擊和榨取.最后,團(tuán)伙相關(guān)利益也存在下游分配和轉(zhuǎn)移,作為另一個(gè)金融場(chǎng)景的上游資源進(jìn)行賦能,從而聯(lián)接多個(gè)場(chǎng)景構(gòu)成了縱深的龐大產(chǎn)業(yè)鏈.
圖1 營(yíng)銷欺詐黑色產(chǎn)業(yè)鏈Figure 1 Marketing fraud black chain
面對(duì)逐漸深入的欺詐團(tuán)伙化、專業(yè)化的產(chǎn)業(yè)鏈,當(dāng)前國(guó)內(nèi)外已有相應(yīng)工作進(jìn)行展開.其主要的研究方向方法和不足體現(xiàn)在以下幾個(gè)方面:
1)當(dāng)前風(fēng)控系統(tǒng)絕大多數(shù)從下游交易側(cè)或個(gè)體節(jié)點(diǎn)獲取風(fēng)險(xiǎn)數(shù)據(jù)和特征[7-8]對(duì)于用戶的偵測(cè)以個(gè)體為目標(biāo)開展,構(gòu)建相應(yīng)特征體系,在信用卡欺詐、電信詐騙等領(lǐng)域進(jìn)行深入研究,但對(duì)于上游的追溯和團(tuán)伙的挖掘存在明顯的不足.
2)面對(duì)日益深入和壯大的欺詐團(tuán)伙規(guī)模,基于不可解釋的碎片化特征,國(guó)內(nèi)外學(xué)者從兩個(gè)角度開展模型研究:一是基于原始的信息和特征,構(gòu)建高維度的特征矩陣,利用神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型[9-10]進(jìn)行研究;二是結(jié)合經(jīng)驗(yàn)和業(yè)務(wù),提出專家系統(tǒng)方法[11]開展有效偵測(cè),兩種方法結(jié)合不夠緊密,其團(tuán)伙性行為發(fā)現(xiàn)和解釋也存在嚴(yán)重的不足.
3)在模型開發(fā)基礎(chǔ)上,基于開發(fā)的模型需對(duì)偵測(cè)場(chǎng)景的實(shí)際偵測(cè)開展工程化應(yīng)用[12-13],而隨著場(chǎng)景逐漸復(fù)雜,風(fēng)險(xiǎn)數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng),傳統(tǒng)的單機(jī)的離線分析在實(shí)時(shí)性和算力上均存在明顯的不足.
針對(duì)上述不足,本文提出基于交易圖譜網(wǎng)絡(luò)的營(yíng)銷欺詐異常團(tuán)伙偵測(cè)方法,結(jié)合圖計(jì)算、圖嵌入及機(jī)器學(xué)習(xí)分類方法,對(duì)團(tuán)伙化欺詐場(chǎng)景進(jìn)行有效偵測(cè).
如上節(jié)闡述,黃牛商戶和持卡人存在明確的欺詐產(chǎn)業(yè)鏈,異常團(tuán)伙將事先積累一定數(shù)量的銀行卡和電話號(hào)碼,以便在營(yíng)銷活動(dòng)開展期間能最大程度地使用用戶身份資源注冊(cè)欺詐賬號(hào),套取不法利益.在實(shí)際偵測(cè)過程中,相關(guān)的交易行為基于用戶的交易流水?dāng)?shù)據(jù)體現(xiàn),交易流水?dāng)?shù)據(jù)包含交易所需的持卡人側(cè)身份要素、商戶側(cè)身份要素及交易金額、時(shí)間等具體要素.
典型的交易流水?dāng)?shù)據(jù)和字段如表1所示,基于流水?dāng)?shù)據(jù)設(shè)定手機(jī)號(hào)與商戶代碼為主鍵值和節(jié)點(diǎn),可以統(tǒng)計(jì)持卡人和商戶間的交易關(guān)系邊,以用于定義節(jié)點(diǎn)和邊屬性,構(gòu)建持卡人商戶的交易圖譜網(wǎng)絡(luò).
表1 交易流水?dāng)?shù)據(jù)示例Table 1 Example of transaction flow
整體模型框架如圖2所示,分為以下幾個(gè)層次設(shè)計(jì):
1)基于持卡人與商戶流水?dāng)?shù)據(jù),構(gòu)建多維度的交易圖譜網(wǎng)絡(luò)
欺詐團(tuán)伙用戶在進(jìn)行欺詐交易、支付等行為時(shí),存在明顯的用戶—用戶、用戶—平臺(tái)等場(chǎng)景行為節(jié)點(diǎn)對(duì),以及相關(guān)交易、支付行為屬性邊.結(jié)合整個(gè)場(chǎng)景,將不同節(jié)點(diǎn)對(duì)及邊信息整合,可以形成龐大的金融場(chǎng)景圖譜網(wǎng)絡(luò).
不同金融場(chǎng)景涉及用戶類型有所不同,交易、支付關(guān)系亦有所區(qū)別,通常情況下呈現(xiàn)出同質(zhì)和異質(zhì)的圖譜網(wǎng)絡(luò)結(jié)構(gòu).出于場(chǎng)景海量的交易體量,對(duì)每一次金融交易或支付行為進(jìn)行建圖缺乏可行性.本模型中,選取一定時(shí)間周期窗口,抽取用戶節(jié)點(diǎn)對(duì)的歸集性特征作為邊屬性.圖3(a)顯示了持卡人-商戶及交易屬性邊構(gòu)成的圖譜數(shù)據(jù)體系,包括了持卡人側(cè)的屬性信息、商戶屬性信息以及持卡人商戶的交易邊信息,基于流水?dāng)?shù)據(jù)可以形成相關(guān)的圖連接關(guān)系,并在此基礎(chǔ)上對(duì)不同時(shí)間窗口下的圖進(jìn)行信息歸集,形成各時(shí)間窗口下的交易圖譜網(wǎng)絡(luò).如圖3(b)所示,對(duì)于轉(zhuǎn)賬交易,取一天為時(shí)間周期,統(tǒng)計(jì)兩張銀行卡間在一天內(nèi)的轉(zhuǎn)賬交易額度、筆數(shù)、時(shí)間間隔等特征,即建立了節(jié)點(diǎn)對(duì)間的邊屬性值,所構(gòu)建的圖譜用戶節(jié)點(diǎn)均為用戶的銀行卡.進(jìn)一步遍歷全用戶交易信息,則構(gòu)建了銀行卡為節(jié)點(diǎn),交易歸集信息為屬性邊的同質(zhì)轉(zhuǎn)賬圖譜網(wǎng)絡(luò).而存在多類用戶的場(chǎng)景下其圖譜網(wǎng)絡(luò)則存在異質(zhì)節(jié)點(diǎn),如持卡人和商戶間的交易圖譜,但其網(wǎng)絡(luò)的構(gòu)建方法與同質(zhì)網(wǎng)絡(luò)類似.由于各金融場(chǎng)景下數(shù)據(jù)不斷更新,用戶圖譜網(wǎng)絡(luò)亦根據(jù)時(shí)間窗口的流動(dòng)在不斷變化,因此本模型所建立的圖譜網(wǎng)絡(luò)為動(dòng)態(tài)更新的圖譜網(wǎng)絡(luò),如圖3(c)所示.
圖2 偵測(cè)模型框架Figure 2 Framework of detection model
持卡人、商戶形成的圖譜網(wǎng)絡(luò)可做如下形式化表達(dá),結(jié)合上文所述原始交易流水?dāng)?shù)據(jù),即:
{手機(jī)號(hào),卡號(hào),設(shè)備號(hào),商戶編號(hào),交易時(shí)間戳T,交易金額X1,交易地點(diǎn)X2,···}
在交易邊智能體系下,構(gòu)建的T0~T1 時(shí)間區(qū)間的圖譜節(jié)點(diǎn)和邊結(jié)構(gòu)如下:
G=
{
節(jié)點(diǎn)V1:手機(jī)號(hào);
節(jié)點(diǎn)V2:商戶編號(hào);
邊屬性E1:交易金額總和sum(X1)t|t ∈[T0,T1];
邊屬性E2:交易筆數(shù)總和count(X1)t|t ∈[T0,T1];
邊屬性E3:交易異地?cái)?shù)量distinct(X2)t|t ∈[T0,T1]
······
}
圖3 交易圖譜構(gòu)圖Figure 3 Graph of transaction network
2)圖網(wǎng)絡(luò)多維度下的子圖過濾層處理
基于海量交易數(shù)據(jù)建立的圖譜網(wǎng)絡(luò)在進(jìn)行圖分析時(shí),存在大量的噪音數(shù)據(jù)和正常用戶數(shù)據(jù),而難以挖掘潛藏于數(shù)據(jù)中的黑灰產(chǎn)團(tuán)伙用戶.利用初步的業(yè)務(wù)經(jīng)驗(yàn),在不同維度下設(shè)定相關(guān)閾值可以對(duì)圖譜進(jìn)行有效的篩選,留下連接緊密的用戶節(jié)點(diǎn)對(duì),提升團(tuán)伙挖掘的效果.具體子圖過濾方法如下:
抽取各維度下的邊屬性,設(shè)計(jì)ReLU 層過濾,即設(shè)第i個(gè)維度下某兩節(jié)點(diǎn)間邊屬性特征值為fi,設(shè)定閾值fi0,當(dāng)特征值fi達(dá)到閾值fi0 時(shí),保留該節(jié)點(diǎn)間的邊,反之則刪除該維度邊,以此對(duì)全網(wǎng)絡(luò)圖譜進(jìn)行過濾,獲得各維度下的過濾子圖.對(duì)于每一個(gè)維度,對(duì)應(yīng)的子圖均表征了在該維度下關(guān)系緊密的用戶節(jié)點(diǎn)連接.
如圖4所示,子圖過濾技術(shù)類似于深度學(xué)習(xí)框架中的卷積網(wǎng)絡(luò),通過多通道對(duì)圖數(shù)據(jù)的特征過濾,以獲得各通道下的特征圖數(shù)據(jù).
即根據(jù)上節(jié)所述圖譜G={節(jié)點(diǎn)V1;節(jié)點(diǎn)V2;邊E1;邊E2; 邊E3···}
通過通道過濾可得不同通道下子圖:
Gchannel1=G{節(jié)點(diǎn)V1;節(jié)點(diǎn)V2;邊E1(E ∈f1);邊E2; 邊E3···}
Gchannel2=G{節(jié)點(diǎn)V1;節(jié)點(diǎn)V2;邊E1;邊E2(E ∈f2); 邊E3···}
圖4 多維度通道圖過濾Figure 4 Graph filtering under different demensions
3)多維圖譜的節(jié)點(diǎn)及集群特征抽取
在基于一定業(yè)務(wù)邏輯設(shè)定的閾值下獲取的特征子圖,能夠有效地表示各維度下用戶的緊密關(guān)聯(lián)關(guān)系.利用連通圖算法,將具有邊連接的各節(jié)點(diǎn)劃分至一個(gè)群組內(nèi),實(shí)現(xiàn)各個(gè)維度下子圖緊密聯(lián)系用戶的集群劃分.聯(lián)通子圖算法將具有邊連接各個(gè)節(jié)點(diǎn)劃分至同一連通組件之中,通過圖節(jié)點(diǎn)和邊遍歷,挖掘一個(gè)個(gè)連通的孤島群組.在本模型中,基于各維度通道過濾的連同子圖劃分,可以挖掘各維度通道下的各團(tuán)伙群組,由此獲取各維度下圖結(jié)構(gòu)更多層次的特征.
各層次特征如下:
a.節(jié)點(diǎn)的群組內(nèi)個(gè)體特征:即各節(jié)點(diǎn)在時(shí)間窗口的個(gè)體特征歸集統(tǒng)計(jì)值.
b.節(jié)點(diǎn)所在群組的集群拓?fù)涮卣鳎杭锤髯訄D下,節(jié)點(diǎn)所劃分至的群組各邊屬性值規(guī)模等拓?fù)涮卣?
c.節(jié)點(diǎn)在群組中的集群重要度特征:即各子圖下,節(jié)點(diǎn)劃分至的群組中,節(jié)點(diǎn)在整個(gè)群組中的重要程度值特征,通過PageRank 算法,對(duì)每個(gè)聯(lián)通圖節(jié)點(diǎn)重要度進(jìn)行提取.
對(duì)于每一個(gè)用戶節(jié)點(diǎn),通過上述特征多層次抽取,假設(shè)生成了3 個(gè)層次共3M個(gè)特征量,則其在N維度的邊屬性通道下,共可獲得3M ×N個(gè)特征,較之最初M個(gè)節(jié)點(diǎn)單體特征,其特征維度得到了系統(tǒng)的提升,能有效提升節(jié)點(diǎn)的團(tuán)伙化行為挖掘.
4)節(jié)點(diǎn)智能化異常檢測(cè)
圖書館的發(fā)展先后經(jīng)歷了傳統(tǒng)圖書館時(shí)代——圖書館各自為主,內(nèi)部空間為專業(yè)閱覽室加閉架書庫(kù);計(jì)算機(jī)網(wǎng)絡(luò)化時(shí)代——1990年前后開始圖書館計(jì)算機(jī)集成系統(tǒng)建設(shè),開始文獻(xiàn)共建共享,書庫(kù)空間逐漸向開架調(diào)整,2000年之后開始大規(guī)模館藏資源數(shù)字化和借閱藏一體化空間布局。此階段圖書館的中心工作是以資源建設(shè)為中心,大體量新館建設(shè)是突出性標(biāo)志;復(fù)合圖書館時(shí)代——20世紀(jì)末,以數(shù)字資源發(fā)現(xiàn)為主導(dǎo),資源增加和館藏結(jié)構(gòu)與服務(wù)方式的變化,統(tǒng)一檢索與資源發(fā)現(xiàn),閱讀推廣與新媒體服務(wù),24小時(shí)自助借還功能與流動(dòng)書車,倡導(dǎo)提高閱讀量。學(xué)習(xí)共享空間、雙創(chuàng)發(fā)展空間應(yīng)運(yùn)而生。
通過上述圖挖掘抽取,可以獲取每個(gè)用戶節(jié)點(diǎn)3M×N個(gè)特征,再經(jīng)過歸一化處理,形成可用于機(jī)器學(xué)習(xí)建模訓(xùn)練、預(yù)測(cè)的特征矩陣.利用基于決策樹的GBDT 分類模型,結(jié)合數(shù)據(jù)樣本可以進(jìn)行分類和回歸模型的訓(xùn)練,優(yōu)化和篩選特征值,對(duì)未標(biāo)注用戶進(jìn)行偵測(cè),輸出當(dāng)前團(tuán)伙化場(chǎng)景中各用戶節(jié)點(diǎn)的風(fēng)險(xiǎn)可疑性量化評(píng)估.
基于集成學(xué)習(xí)的梯度提升樹(gradient boosting decision tree,GBDT)分類及回歸算法模型可以對(duì)該類多特征的問題進(jìn)行監(jiān)督學(xué)習(xí)[14-15],實(shí)現(xiàn)對(duì)樣本特征的分類及回歸分析和評(píng)分.GBDT 分類模型在計(jì)算中將產(chǎn)生多輪迭代,每輪迭代產(chǎn)生一個(gè)弱分類器.每個(gè)分類器在上一輪分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練,并通過降低偏差來不斷提高最終分類器的精度.類似地,GBDT 回歸模型則是迭代多棵回歸樹來共同決策以輸出特征的回歸結(jié)果.除此之外,GBDT 模型在輸出基于特征的標(biāo)簽分類和回歸結(jié)果的同時(shí),還可以對(duì)學(xué)習(xí)過程中的特征變量在決策樹中的重要度進(jìn)行排序,能有效應(yīng)用于特征篩選.
在目前特征體系下,當(dāng)前通過圖譜網(wǎng)絡(luò)獲取的用戶特征矩陣特征維度相對(duì)較低,且特征存在連續(xù)與離散多種類組合特征.對(duì)于該類特征的分類,GBDT 較之回歸模型及非集成的決策樹類模型特征組合分析效果更好;同時(shí),當(dāng)前特征以基于個(gè)體特征、集群特征和集群重要度進(jìn)行較好的場(chǎng)景特征工程處理,無需神經(jīng)網(wǎng)絡(luò)模型進(jìn)行原始數(shù)據(jù)分析,較之神經(jīng)網(wǎng)絡(luò)模型降低了計(jì)算復(fù)雜度,并具有較好的模型可解釋性.
5)交易用戶(商戶、持卡人)畫像刻畫
采用分類模型時(shí)可以輸出用戶各類特征的權(quán)重值Qimn及對(duì)應(yīng)權(quán)重下的各特征歸一化特征值fimn,其中i代表節(jié)點(diǎn)的特征類型即個(gè)體節(jié)點(diǎn)類特征、群組規(guī)模類特征和節(jié)點(diǎn)群組貢獻(xiàn)度特征(i=1,2,3),m代表節(jié)點(diǎn)的第m個(gè)邊屬性特征(共M個(gè)特征),n代表節(jié)點(diǎn)的第n個(gè)維度(共N各維度).由此可以計(jì)算每個(gè)維度下各特征的權(quán)重加權(quán)值,作為對(duì)應(yīng)維度下的畫像特征值Kn,即由此便可在各維度下對(duì)用戶的綜合行為特征進(jìn)行描述,刻畫用戶的維度畫像.
同時(shí),基于各維度過濾的劃分子圖追溯可以快速挖掘團(tuán)伙化的用戶行為,并根據(jù)各節(jié)點(diǎn)內(nèi)的風(fēng)險(xiǎn)指數(shù)進(jìn)行進(jìn)一步評(píng)價(jià).
對(duì)于上述模型框架設(shè)計(jì)的圖譜網(wǎng)絡(luò),在模型設(shè)計(jì)中考慮計(jì)算效率問題,采用聯(lián)通圖劃分的社區(qū)劃分方法可以實(shí)現(xiàn)分布式的計(jì)算,進(jìn)而提高模型效率.但面對(duì)較大規(guī)模的聯(lián)通圖時(shí),結(jié)合具體場(chǎng)景即可能涉及較大規(guī)模的團(tuán)伙,因此有必要對(duì)其成員進(jìn)行細(xì)化分析.針對(duì)各較大規(guī)模的聯(lián)通圖,采用基于圖嵌入技術(shù)分析不同交易節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系相似性,挖掘潛在的核心持卡人團(tuán)伙.
圖5所示為某基于聯(lián)通圖劃分獲取的持卡人手機(jī)號(hào)—商戶典型團(tuán)伙示意,進(jìn)一步根據(jù)具體交易流水明細(xì)記錄的手機(jī)、設(shè)備、卡等元素,可映射出持卡人側(cè)的異構(gòu)圖譜.該圖譜中多加入了設(shè)備、銀行卡節(jié)點(diǎn),連接了更多的手機(jī)節(jié)點(diǎn),形成了用戶側(cè)的集群網(wǎng)絡(luò).通過圖嵌入技術(shù)生成節(jié)點(diǎn)的隨機(jī)游走特征矢量,可以對(duì)用戶進(jìn)行進(jìn)一步聚類分析.如圖5所示,對(duì)于每一個(gè)集群子圖,通過N步的游走形成游走序列并對(duì)序列進(jìn)行節(jié)點(diǎn)onehot 編碼,根據(jù)多步游走生成頻率向量對(duì)序列節(jié)點(diǎn)進(jìn)行N維下的聚類分析.
本驗(yàn)證案例為銀聯(lián)歷史營(yíng)銷活動(dòng)中的持卡人在商戶線下交易場(chǎng)景,用于分析的基礎(chǔ)數(shù)據(jù)為持卡人(以手機(jī)號(hào)為唯一識(shí)別ID)在各商戶時(shí)交易的流水?dāng)?shù)據(jù),該基礎(chǔ)數(shù)據(jù)中共涉及持卡人約35 000 人,其中有標(biāo)簽標(biāo)注的黃牛持卡人約20 000 人,欺詐用戶與正常用戶的正負(fù)樣本比例約為1∶20.
每一條交易流水?dāng)?shù)據(jù)均為持卡人與商戶的交易,故對(duì)于該場(chǎng)景下建立的交易圖譜網(wǎng)絡(luò)為持卡人—商戶的節(jié)點(diǎn)對(duì).根據(jù)模型方法選取一天為時(shí)間窗口,統(tǒng)計(jì)持卡人與商戶的節(jié)點(diǎn)歸集性特征本案例選取了4 個(gè)維度下的特征:持卡人與商戶間的當(dāng)日交易總筆數(shù)、當(dāng)日交易總金額、當(dāng)日交易優(yōu)惠總金額及當(dāng)日交易每筆時(shí)間間隔.對(duì)于欺詐用戶,其在商戶的套利金額、高頻套利等手段會(huì)在以上4 個(gè)維度進(jìn)行體現(xiàn).遍歷所有交易流水,結(jié)合每一個(gè)持卡人—商戶節(jié)點(diǎn)對(duì)及其多維度邊屬性,可以構(gòu)建全量流水?dāng)?shù)據(jù)下持卡人—商戶的交易異質(zhì)圖譜網(wǎng)絡(luò).
在此基礎(chǔ)上,基于相關(guān)業(yè)務(wù)特點(diǎn)設(shè)定ReLU 圖過濾層中不同維度的閾值,從而獲得多維度下的過濾子圖層,抽取相關(guān)集群及節(jié)點(diǎn)重要度信息特征進(jìn)行聚合后通過分類器進(jìn)行分類.根據(jù)相關(guān)場(chǎng)景業(yè)務(wù)邏輯,設(shè)定不同的ReLU 保證剩下的子圖規(guī)模為原圖的20%,相對(duì)應(yīng)的閾值為:保留當(dāng)日交易筆數(shù)大于10 筆、交易金額大于150 元、優(yōu)惠金額大于50 元和交易時(shí)間間隔小于60 s 的各維度邊,在多通道下進(jìn)行子圖的過濾.
圖5 手機(jī)商戶團(tuán)伙向手機(jī)-設(shè)備-銀行卡的異構(gòu)映射及圖嵌入技術(shù)應(yīng)用Figure 5 Phone-shop groups to phone-device-card network and its embedding method
基于持卡人節(jié)點(diǎn)的特征,構(gòu)建基于GBDT 的用戶分類和回歸模型.對(duì)于共35 000 的持卡人樣本,選取5 000 樣本用戶作為模型訓(xùn)練,剩下的30 000 持卡人作為預(yù)測(cè)評(píng)估模型的準(zhǔn)確性.
基于上述2.2 節(jié)“3)多維圖譜的節(jié)點(diǎn)及集群特征抽取”中所定義的持卡人特征,選取不同數(shù)量的特征,建立兩個(gè)GBDT 分類模型以對(duì)比分析.其中一個(gè)模型只選取每個(gè)持卡人節(jié)點(diǎn)的當(dāng)日個(gè)體交易特征,而另一個(gè)模型則選取每個(gè)持卡人節(jié)點(diǎn)所有的單體、群組及群組貢獻(xiàn)度特征進(jìn)行建模對(duì)比.
圖6為當(dāng)前5 000 個(gè)持卡人樣本在邏輯回歸(LR),非集成決策樹(DT)基于節(jié)點(diǎn)個(gè)體特征和基于圖譜特征下的準(zhǔn)確率與召回率的對(duì)比.可以看出,基于不同層次維度的持卡人特征的圖譜全特征分類效果在多種模型下均優(yōu)于基于持卡人節(jié)點(diǎn)個(gè)體特征的分類效果,且GBDT模型效果優(yōu)于LR 和DT 模型.圖6進(jìn)一步通過GBDT 的圖譜全特征分類模型,對(duì)剩下30 000 持卡人進(jìn)行模型預(yù)測(cè).預(yù)測(cè)結(jié)果可以看出,綜合考慮全特征的模型在更多的樣本數(shù)據(jù)上具有更好的模型泛化效果.
基于GBDT 的用戶分類和評(píng)分模型可以輸出不同維度下的各特征權(quán)重,通過維度特征歸集求和可以獲得各特征值在交易金額、優(yōu)惠金額、交易筆數(shù)及交易時(shí)間間隔4 個(gè)維度下的特征因子.對(duì)于交易金額維度特征因子,其各特征累加如圖7所示.
表2 模型效果對(duì)比Table 2 Comparison of model results %
圖6 模型結(jié)果對(duì)比Figure 6 Comparison of different model results
圖7 特征因子計(jì)算框架Figure 7 Computing framework of feature factors
通過以上方法便實(shí)現(xiàn)了各持卡人節(jié)點(diǎn)的特征在4 個(gè)維度下的降維,每個(gè)維度實(shí)質(zhì)上便對(duì)應(yīng)了當(dāng)前持卡人節(jié)點(diǎn)的套利團(tuán)伙化行為畫像,即其團(tuán)伙化行為中的交易金額程度、交易筆數(shù)程度、交易時(shí)間間隔程度和交易優(yōu)惠金額的嚴(yán)重程度.
圖8為持卡人節(jié)點(diǎn)個(gè)體交易特征和團(tuán)伙化特征分析后的結(jié)果對(duì)比.出于可視化考慮,僅選取了時(shí)間間隔、交易筆數(shù)、優(yōu)惠金額3 個(gè)維度和部分節(jié)點(diǎn)進(jìn)行展示:左圖為僅考慮持卡人個(gè)體交易特征的用戶分布情況,每個(gè)節(jié)點(diǎn)的3 個(gè)坐標(biāo)表示了用戶節(jié)點(diǎn)的交易頻數(shù)(筆數(shù))、交易體量(優(yōu)惠)和交易頻繁度(交易時(shí)間間隔).通過歸一化方式進(jìn)行了散點(diǎn)可視化,該可視化結(jié)果反映了節(jié)點(diǎn)黃牛交易行為畫像.通過對(duì)比可知,持卡人個(gè)體節(jié)點(diǎn)分布規(guī)律難以挖掘,各分布點(diǎn)堆疊成簇難以區(qū)分;而各持卡人節(jié)點(diǎn)的特征因子分布規(guī)律能較好地把持卡人節(jié)點(diǎn)劃分至各個(gè)區(qū)域空間,各個(gè)區(qū)域空間則對(duì)應(yīng)了該持卡人節(jié)點(diǎn)相應(yīng)的套利行為表征.如貼近交易優(yōu)惠軸分布的節(jié)點(diǎn),表示其在交易時(shí)間間隔和筆數(shù)維度因子較低,其套利行為呈現(xiàn)單筆大額優(yōu)惠套利的團(tuán)伙化行為特征;而在交易筆數(shù)—原點(diǎn)—交易優(yōu)惠面附近分布的節(jié)點(diǎn),則表現(xiàn)出大額多筆次的團(tuán)伙化交易特征表征.由此可見,基于持卡人個(gè)體及團(tuán)伙化套利行為特征的畫像因子,能夠?qū)Τ挚ㄈ说奶桌袨槟J竭M(jìn)行更全面精準(zhǔn)的刻畫.?
基于上述圖譜網(wǎng)絡(luò)的構(gòu)建和團(tuán)伙化特征的抽取聚合,可以有效評(píng)分與偵測(cè)當(dāng)前持卡人-商戶黃牛團(tuán)伙.而在實(shí)際的業(yè)務(wù)中,根據(jù)交易閾值的設(shè)定更多基于業(yè)務(wù)經(jīng)驗(yàn),對(duì)多維度的子圖聯(lián)通圖劃分中會(huì)出現(xiàn)較大規(guī)模的交易團(tuán)伙,如某一劃分團(tuán)伙涉及上百個(gè)持卡人及商戶.而多個(gè)持卡人電話號(hào)碼往往存在設(shè)備多用戶、多卡綁定等問題,使得涉及的用戶集群規(guī)模進(jìn)一步擴(kuò)大.僅基于聯(lián)通子圖的集群劃分缺乏更深層次的團(tuán)伙挖掘價(jià)值.基于第3節(jié)所屬的圖嵌入的方法,結(jié)合具體交易邊可以對(duì)用戶側(cè)在團(tuán)伙中的表現(xiàn)進(jìn)行進(jìn)一步切分.
圖9為某涉及300 多節(jié)點(diǎn)的持卡人集群基于圖嵌入矢量聚類劃分結(jié)果及其在二維坐標(biāo)下的映射.通過聚類分析很明顯發(fā)現(xiàn),黃色標(biāo)注的聚類簇節(jié)點(diǎn)代表了這些對(duì)應(yīng)的用戶節(jié)點(diǎn)在團(tuán)伙中具有較強(qiáng)的關(guān)聯(lián)性,屬于核心的交易節(jié)點(diǎn).
圖9 基于圖嵌入的電話-卡-設(shè)備集群細(xì)分Figure 9 Phone-card-device group analysis based on graph embedding
本文針對(duì)當(dāng)前欺詐團(tuán)伙化偵測(cè)的不足,提出了基于圖計(jì)算和機(jī)器學(xué)習(xí)的團(tuán)伙化偵測(cè)模型方法框架,并對(duì)潛在的更大團(tuán)伙異質(zhì)圖譜利用圖嵌入技術(shù)進(jìn)行了進(jìn)一步細(xì)分,有效提升了團(tuán)伙化偵測(cè)的效率和可解釋性.基于交易及用戶數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)與智能技術(shù)對(duì)欺詐場(chǎng)景的共同驅(qū)動(dòng).