吳錫松,李金柱
(中移信息技術(shù)有限公司大數(shù)據(jù)應(yīng)用部,廣東 深圳 518048)
隨著電信運(yùn)營(yíng)商通信業(yè)務(wù)的發(fā)展日趨成熟,用戶市場(chǎng)也日漸飽和,三大運(yùn)營(yíng)商為爭(zhēng)奪市場(chǎng)以及響應(yīng)國(guó)家“提速降費(fèi)”號(hào)召,不斷下調(diào)資費(fèi)。資費(fèi)的下調(diào)必然給運(yùn)營(yíng)商帶來(lái)營(yíng)收壓力,引起收入流失。
然而,降費(fèi)僅僅是導(dǎo)致運(yùn)營(yíng)商收入流失的一種常見(jiàn)因素,另一種不為大多數(shù)人了解的原因是國(guó)際長(zhǎng)途欺詐,會(huì)給運(yùn)營(yíng)商帶來(lái)一定程度的收入損失[1]。所謂的國(guó)際長(zhǎng)途欺詐,指的是不法分子通過(guò)盜取他人移動(dòng)電話或固定電話,連續(xù)性撥打國(guó)外高結(jié)算方向聲訊臺(tái),再與聲訊臺(tái)進(jìn)行利益分成的欺詐手段。這類欺詐行為普遍具有并發(fā)數(shù)高的特點(diǎn),1 min內(nèi)可發(fā)起成百甚至上千路通話。正是由于這個(gè)特性,當(dāng)運(yùn)營(yíng)商監(jiān)控到此類行為時(shí),雖第一時(shí)間對(duì)其進(jìn)行了控制,但最終還是產(chǎn)生了大量結(jié)算費(fèi)用。這種情況下,移動(dòng)電話或固定電話的被盜用戶往往會(huì)拒絕繳納欺詐所產(chǎn)生的話費(fèi),但按照國(guó)際標(biāo)準(zhǔn)約定,運(yùn)營(yíng)商即使沒(méi)有向用戶收回話費(fèi),也仍需要向?qū)Ψ竭\(yùn)營(yíng)商進(jìn)行結(jié)算,收入流失由此產(chǎn)生。
為防止國(guó)際長(zhǎng)途欺詐,電信運(yùn)營(yíng)商建立了相應(yīng)的反欺詐系統(tǒng),對(duì)異常用戶的通信行為進(jìn)行監(jiān)控。若檢測(cè)到疑似欺詐用戶,則下發(fā)預(yù)警至業(yè)務(wù)人員進(jìn)行處理,最大程度降低欺詐損失[2]。
各運(yùn)營(yíng)商的反欺詐系統(tǒng)功能類似,都具有類似的模塊,主要包含以下幾個(gè)部分[3]。
(1)數(shù)據(jù)源:反欺詐系統(tǒng)的數(shù)據(jù)源主要是用戶話單,不同類型的用戶話單通過(guò)交換機(jī)采集后存儲(chǔ)在不同系統(tǒng),最后下發(fā)至反欺詐系統(tǒng)。
(2)預(yù)處理:收到上游系統(tǒng)下發(fā)的話單,反欺詐系統(tǒng)需要預(yù)處理話單,主要是校驗(yàn)話單格式是否符合標(biāo)準(zhǔn),以便系統(tǒng)進(jìn)行后續(xù)檢測(cè)。
(3)規(guī)則庫(kù):專家通過(guò)業(yè)務(wù)經(jīng)驗(yàn)建立欺詐檢測(cè)規(guī)則,包括對(duì)端號(hào)碼相似、通話重疊、被叫號(hào)碼黑名單等。
(4)欺詐檢測(cè):將接收的話單與配置的預(yù)警規(guī)則進(jìn)行匹配,若話單符合規(guī)則行為,則系統(tǒng)將其判定為疑似欺詐。
(5)預(yù)警下發(fā):將系統(tǒng)判定為疑似欺詐的用戶生成電子工單,下發(fā)至省市公司進(jìn)行處理,由省市公司結(jié)合用戶當(dāng)前狀態(tài)進(jìn)行確認(rèn),若確認(rèn)為欺詐,則對(duì)其進(jìn)行關(guān)停處理。
可以看出,反欺詐系統(tǒng)的核心在于規(guī)則庫(kù),系統(tǒng)依據(jù)事先設(shè)定好的預(yù)警規(guī)則判斷用戶通信行為是否異常。這種反欺詐系統(tǒng)的欺詐檢測(cè)機(jī)制優(yōu)點(diǎn)在于可在前臺(tái)靈活配置預(yù)警規(guī)則,實(shí)現(xiàn)了規(guī)則配置的可視化,能夠根據(jù)欺詐變化趨勢(shì)及時(shí)調(diào)整參數(shù),快速響應(yīng)外部需求。
然而,此類欺詐檢測(cè)方式的缺點(diǎn)也顯而易見(jiàn),預(yù)警規(guī)則都是通過(guò)業(yè)務(wù)經(jīng)驗(yàn)設(shè)定,迭代優(yōu)化受限于人為因素,出現(xiàn)新型欺詐形式時(shí),系統(tǒng)有可能無(wú)法檢測(cè)到。針對(duì)上述問(wèn)題,本文擬通過(guò)決策樹及隨機(jī)森林算法分析用戶通信行為,構(gòu)建國(guó)際長(zhǎng)途高額欺詐檢測(cè)模型,輸出異常用戶判定規(guī)則,以此優(yōu)化反欺詐系統(tǒng)中的預(yù)警規(guī)則,解決預(yù)警規(guī)則存在的專家經(jīng)驗(yàn)主觀性問(wèn)題[4]。
2.1.1 決策樹
決策樹是一個(gè)樹結(jié)構(gòu)(可以是二叉樹或非二叉樹),其每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試,每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出,而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別。使用決策樹進(jìn)行決策的過(guò)程是從根節(jié)點(diǎn)開(kāi)始,測(cè)試待分類項(xiàng)中相應(yīng)的特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類別作為決策結(jié)果。但是,決策樹存在過(guò)擬合情況,導(dǎo)致泛化能力變?nèi)鮗5]。
2.1.2 隨機(jī)森林算法
隨機(jī)森林算法是在決策樹的基礎(chǔ)上引進(jìn)隨機(jī)屬性選擇的一種算法,包含多棵決策樹,算法分類結(jié)果由這些決策樹投票得到。決策樹生成過(guò)程中分別在行方向和列方向上添加隨機(jī)過(guò)程。行方向上構(gòu)建決策樹時(shí)采用放回抽樣得到訓(xùn)練數(shù)據(jù),列方向上采用無(wú)放回隨機(jī)抽樣得到特征子集,并據(jù)此得到最優(yōu)切分點(diǎn)。正是由于隨機(jī)森林是通過(guò)多個(gè)決策樹的投票結(jié)果進(jìn)行分類,因此避免了決策樹存在的過(guò)渡擬合問(wèn)題[6]。
2.2.1 數(shù)據(jù)探索
由于樣本量較少,需要對(duì)欺詐數(shù)據(jù)及全量數(shù)據(jù)進(jìn)行相應(yīng)分析,找到相關(guān)特征構(gòu)造樣本。
(1)欺詐數(shù)據(jù)分析
為找到欺詐用戶通信行為的特征值,選取2016年7月-2017年6月期間欺詐用戶的話單數(shù)據(jù)進(jìn)行分析,得到單條話單通話金額、通話重疊次數(shù)、連續(xù)主叫次數(shù)、通話時(shí)長(zhǎng)中位數(shù)、通話并發(fā)路數(shù)共五個(gè)方面的特征和欺詐用戶數(shù)37人。
(2)全量數(shù)據(jù)分析
選取2017年10月1日-10月7日期間產(chǎn)生的國(guó)際長(zhǎng)途話單,全量數(shù)據(jù)共計(jì)約1 050萬(wàn)條,從通話時(shí)長(zhǎng)、通話時(shí)間、交往圈、通話時(shí)段四個(gè)方面進(jìn)行分析,找到異常用戶特征。
第一,通話時(shí)長(zhǎng)分位數(shù)分析。通過(guò)計(jì)算每個(gè)用戶多條話單的通話時(shí)長(zhǎng)的1/4分位數(shù)、中位數(shù)和3/4分位數(shù),找到異常用戶通話時(shí)長(zhǎng)的異常行為特征。
第二,通話時(shí)間重疊分析。正常情況下,用戶通話開(kāi)始至結(jié)束不會(huì)發(fā)起另一起通話,若一條話單的通話結(jié)束時(shí)間與另一條話單的通話開(kāi)始時(shí)間出現(xiàn)交叉則屬于通話重疊,重疊超過(guò)一定次數(shù),則認(rèn)定為異常。
第三,交往圈人數(shù)占總話單量比例分析。根據(jù)通信指紋的定義,一般用戶的交往圈比較固定,通話對(duì)象主要集中在一定范圍內(nèi)。若用戶交往圈人數(shù)占總話單量比例超過(guò)一定閾值,即認(rèn)為是異常行為的表現(xiàn)。
第四,單日通話時(shí)段數(shù)分析。根據(jù)業(yè)務(wù)理解和實(shí)際情況分析,若一個(gè)用戶在一天內(nèi)的多個(gè)時(shí)段內(nèi)均出現(xiàn)通話行為,可認(rèn)為該用戶通話過(guò)于頻繁,疑似異常。
通過(guò)以上分析,將通話時(shí)長(zhǎng)、通話時(shí)間、交往圈、通話時(shí)段四個(gè)特征值超過(guò)一定閾值的用戶定義為異常用戶。
2.2.2 樣本構(gòu)造
由于欺詐用戶較少,故利用全部欺詐用戶數(shù)據(jù)及10月非欺詐用戶數(shù)據(jù)進(jìn)行樣本構(gòu)造。為了將有可能出現(xiàn)異常甚至是欺詐的用戶全部包含在內(nèi),通過(guò)前文分析設(shè)定篩選條件。本模型將用戶數(shù)據(jù)分為三類——欺詐用戶、異常用戶和正常用戶,最終確認(rèn)三類樣本數(shù)量如表1所示。
表1 樣本量
2.2.3 特征選擇
結(jié)合前文對(duì)欺詐用戶和異常用戶的分析,根據(jù)原始話單生成衍生變量,并最終選取以下12個(gè)衍生字段進(jìn)行建模:
(1)通話重疊次數(shù);
(2)同一時(shí)刻最大通話次數(shù);
(3)連續(xù)通話次數(shù)(上次通話結(jié)束后30 s內(nèi)出現(xiàn)通話即算連續(xù)通話);
(4)每小時(shí)最高持續(xù)通話時(shí)長(zhǎng);
(5)每小時(shí)最高通話頻次;
(6)通話總時(shí)長(zhǎng);
(7)通話總次數(shù);
(8)通話時(shí)長(zhǎng)1/4分位數(shù);
(9)通話時(shí)長(zhǎng)中位數(shù);
(10)通話時(shí)長(zhǎng)3/4分位數(shù);
(11)當(dāng)天通話時(shí)段數(shù);
(12)交往圈人數(shù)占總話單數(shù)比例。
2.2.4 模型構(gòu)建
本次建模采用Python語(yǔ)言,利用基于Python的機(jī)器學(xué)習(xí)庫(kù)scikit-learn實(shí)現(xiàn)。從前文構(gòu)造的三類樣本數(shù)據(jù)中分別隨機(jī)抽取70%構(gòu)成訓(xùn)練集,剩下的30%作為測(cè)試集,以保證每類樣本均出現(xiàn)在訓(xùn)練集和測(cè)試集中。表2為訓(xùn)練集和測(cè)試集中三類樣本的量。
表2 樣本
(1)決策樹模型
本模型訓(xùn)練集數(shù)據(jù)為3萬(wàn)左右。經(jīng)反復(fù)測(cè)試,將決策樹的最大深度“max_depth”參數(shù)值設(shè)置為6,效果較好。
(2)隨機(jī)森林模型
經(jīng)調(diào)試,由于樣本之間的特征存在較顯著的差異,弱學(xué)習(xí)器的最大個(gè)數(shù)“n_estimators”設(shè)置為25,決策樹最大深度“max_depth”設(shè)置為6時(shí),效果較好。
由于本次建模過(guò)程中測(cè)試集的異常用戶和欺詐用戶樣本量均較小,可通過(guò)混淆矩陣(Confusion Matrix)直觀表現(xiàn)出模型的評(píng)估效果,并計(jì)算出異常用戶和欺詐用戶的查準(zhǔn)率和查全率。在機(jī)器學(xué)習(xí)領(lǐng)域中,混淆矩陣是一種評(píng)估分類模型效果的形象化展示工具,其中矩陣的每一列表示模型預(yù)測(cè)的樣本情況,矩陣的每一行表示樣本的真實(shí)情況。
3.2.1 決策樹
通過(guò)scikit-learn的confusion matrix輸出模型預(yù)測(cè)值與樣本真實(shí)標(biāo)簽的混淆矩陣,如表3所示。
表3 決策樹預(yù)測(cè)結(jié)果
根據(jù)表3,得到正常用戶、欺詐用戶和異常用戶的查全率和查準(zhǔn)率,如表4所示。
表4 決策樹查全率和查準(zhǔn)率
3.2.2 隨機(jī)森林
通過(guò)scikit-learn的confusion matrix輸出模型預(yù)測(cè)值與樣本真實(shí)標(biāo)簽的混淆矩陣,如表5所示。
表5 隨機(jī)森林預(yù)測(cè)結(jié)果
根據(jù)表5,得到正常用戶、欺詐用戶和異常用戶的查全率和查準(zhǔn)率,如表6所示。
表6 隨機(jī)森林查全率和查準(zhǔn)率
經(jīng)反復(fù)訓(xùn)練測(cè)試欺詐用戶和異常用戶,決策樹的查準(zhǔn)率整體要高于隨機(jī)森林,而查全率低于隨機(jī)森林,但本模型的最終目的是更精準(zhǔn)識(shí)別欺詐用戶和異常用戶。決策樹模型的查準(zhǔn)率高于隨機(jī)森林模型,說(shuō)明國(guó)際長(zhǎng)途高額欺詐模型宜選用決策樹模型。
另外,對(duì)于決策樹模型,從特征的貢獻(xiàn)度來(lái)看,通話重疊、通信指紋以及通話次數(shù)的貢獻(xiàn)度最高,可以針對(duì)這三個(gè)特征制定新的預(yù)警規(guī)則,并將其部署到反欺詐系統(tǒng)中。
本文通過(guò)分析異常用戶及欺詐用戶的通信行為,提取兩類用戶的行為特征值,最后通過(guò)決策樹和隨機(jī)森林兩種模型進(jìn)行預(yù)測(cè),得到的預(yù)測(cè)結(jié)果均較為理想。同時(shí),可根據(jù)模型特征值的貢獻(xiàn)度,將貢獻(xiàn)度最大的特征值制定為反欺詐系統(tǒng)的預(yù)警規(guī)則,從而避免前文所述預(yù)警規(guī)則的制定過(guò)于依賴業(yè)務(wù)專家經(jīng)驗(yàn)的問(wèn)題,提升反欺詐系統(tǒng)的準(zhǔn)確性和客觀性。