• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于決策樹和隨機(jī)森林的國(guó)際長(zhǎng)途欺詐檢測(cè)模型*

    2018-12-19 01:55:38吳錫松李金柱
    通信技術(shù) 2018年12期
    關(guān)鍵詞:話單查準(zhǔn)率通話

    吳錫松,李金柱

    (中移信息技術(shù)有限公司大數(shù)據(jù)應(yīng)用部,廣東 深圳 518048)

    0 引 言

    隨著電信運(yùn)營(yíng)商通信業(yè)務(wù)的發(fā)展日趨成熟,用戶市場(chǎng)也日漸飽和,三大運(yùn)營(yíng)商為爭(zhēng)奪市場(chǎng)以及響應(yīng)國(guó)家“提速降費(fèi)”號(hào)召,不斷下調(diào)資費(fèi)。資費(fèi)的下調(diào)必然給運(yùn)營(yíng)商帶來(lái)營(yíng)收壓力,引起收入流失。

    然而,降費(fèi)僅僅是導(dǎo)致運(yùn)營(yíng)商收入流失的一種常見(jiàn)因素,另一種不為大多數(shù)人了解的原因是國(guó)際長(zhǎng)途欺詐,會(huì)給運(yùn)營(yíng)商帶來(lái)一定程度的收入損失[1]。所謂的國(guó)際長(zhǎng)途欺詐,指的是不法分子通過(guò)盜取他人移動(dòng)電話或固定電話,連續(xù)性撥打國(guó)外高結(jié)算方向聲訊臺(tái),再與聲訊臺(tái)進(jìn)行利益分成的欺詐手段。這類欺詐行為普遍具有并發(fā)數(shù)高的特點(diǎn),1 min內(nèi)可發(fā)起成百甚至上千路通話。正是由于這個(gè)特性,當(dāng)運(yùn)營(yíng)商監(jiān)控到此類行為時(shí),雖第一時(shí)間對(duì)其進(jìn)行了控制,但最終還是產(chǎn)生了大量結(jié)算費(fèi)用。這種情況下,移動(dòng)電話或固定電話的被盜用戶往往會(huì)拒絕繳納欺詐所產(chǎn)生的話費(fèi),但按照國(guó)際標(biāo)準(zhǔn)約定,運(yùn)營(yíng)商即使沒(méi)有向用戶收回話費(fèi),也仍需要向?qū)Ψ竭\(yùn)營(yíng)商進(jìn)行結(jié)算,收入流失由此產(chǎn)生。

    1 研究現(xiàn)狀

    為防止國(guó)際長(zhǎng)途欺詐,電信運(yùn)營(yíng)商建立了相應(yīng)的反欺詐系統(tǒng),對(duì)異常用戶的通信行為進(jìn)行監(jiān)控。若檢測(cè)到疑似欺詐用戶,則下發(fā)預(yù)警至業(yè)務(wù)人員進(jìn)行處理,最大程度降低欺詐損失[2]。

    各運(yùn)營(yíng)商的反欺詐系統(tǒng)功能類似,都具有類似的模塊,主要包含以下幾個(gè)部分[3]。

    (1)數(shù)據(jù)源:反欺詐系統(tǒng)的數(shù)據(jù)源主要是用戶話單,不同類型的用戶話單通過(guò)交換機(jī)采集后存儲(chǔ)在不同系統(tǒng),最后下發(fā)至反欺詐系統(tǒng)。

    (2)預(yù)處理:收到上游系統(tǒng)下發(fā)的話單,反欺詐系統(tǒng)需要預(yù)處理話單,主要是校驗(yàn)話單格式是否符合標(biāo)準(zhǔn),以便系統(tǒng)進(jìn)行后續(xù)檢測(cè)。

    (3)規(guī)則庫(kù):專家通過(guò)業(yè)務(wù)經(jīng)驗(yàn)建立欺詐檢測(cè)規(guī)則,包括對(duì)端號(hào)碼相似、通話重疊、被叫號(hào)碼黑名單等。

    (4)欺詐檢測(cè):將接收的話單與配置的預(yù)警規(guī)則進(jìn)行匹配,若話單符合規(guī)則行為,則系統(tǒng)將其判定為疑似欺詐。

    (5)預(yù)警下發(fā):將系統(tǒng)判定為疑似欺詐的用戶生成電子工單,下發(fā)至省市公司進(jìn)行處理,由省市公司結(jié)合用戶當(dāng)前狀態(tài)進(jìn)行確認(rèn),若確認(rèn)為欺詐,則對(duì)其進(jìn)行關(guān)停處理。

    可以看出,反欺詐系統(tǒng)的核心在于規(guī)則庫(kù),系統(tǒng)依據(jù)事先設(shè)定好的預(yù)警規(guī)則判斷用戶通信行為是否異常。這種反欺詐系統(tǒng)的欺詐檢測(cè)機(jī)制優(yōu)點(diǎn)在于可在前臺(tái)靈活配置預(yù)警規(guī)則,實(shí)現(xiàn)了規(guī)則配置的可視化,能夠根據(jù)欺詐變化趨勢(shì)及時(shí)調(diào)整參數(shù),快速響應(yīng)外部需求。

    然而,此類欺詐檢測(cè)方式的缺點(diǎn)也顯而易見(jiàn),預(yù)警規(guī)則都是通過(guò)業(yè)務(wù)經(jīng)驗(yàn)設(shè)定,迭代優(yōu)化受限于人為因素,出現(xiàn)新型欺詐形式時(shí),系統(tǒng)有可能無(wú)法檢測(cè)到。針對(duì)上述問(wèn)題,本文擬通過(guò)決策樹及隨機(jī)森林算法分析用戶通信行為,構(gòu)建國(guó)際長(zhǎng)途高額欺詐檢測(cè)模型,輸出異常用戶判定規(guī)則,以此優(yōu)化反欺詐系統(tǒng)中的預(yù)警規(guī)則,解決預(yù)警規(guī)則存在的專家經(jīng)驗(yàn)主觀性問(wèn)題[4]。

    2 國(guó)際長(zhǎng)途高額欺詐檢測(cè)模型

    2.1 理論基礎(chǔ)

    2.1.1 決策樹

    決策樹是一個(gè)樹結(jié)構(gòu)(可以是二叉樹或非二叉樹),其每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試,每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出,而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別。使用決策樹進(jìn)行決策的過(guò)程是從根節(jié)點(diǎn)開(kāi)始,測(cè)試待分類項(xiàng)中相應(yīng)的特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類別作為決策結(jié)果。但是,決策樹存在過(guò)擬合情況,導(dǎo)致泛化能力變?nèi)鮗5]。

    2.1.2 隨機(jī)森林算法

    隨機(jī)森林算法是在決策樹的基礎(chǔ)上引進(jìn)隨機(jī)屬性選擇的一種算法,包含多棵決策樹,算法分類結(jié)果由這些決策樹投票得到。決策樹生成過(guò)程中分別在行方向和列方向上添加隨機(jī)過(guò)程。行方向上構(gòu)建決策樹時(shí)采用放回抽樣得到訓(xùn)練數(shù)據(jù),列方向上采用無(wú)放回隨機(jī)抽樣得到特征子集,并據(jù)此得到最優(yōu)切分點(diǎn)。正是由于隨機(jī)森林是通過(guò)多個(gè)決策樹的投票結(jié)果進(jìn)行分類,因此避免了決策樹存在的過(guò)渡擬合問(wèn)題[6]。

    2.2 模型設(shè)計(jì)

    2.2.1 數(shù)據(jù)探索

    由于樣本量較少,需要對(duì)欺詐數(shù)據(jù)及全量數(shù)據(jù)進(jìn)行相應(yīng)分析,找到相關(guān)特征構(gòu)造樣本。

    (1)欺詐數(shù)據(jù)分析

    為找到欺詐用戶通信行為的特征值,選取2016年7月-2017年6月期間欺詐用戶的話單數(shù)據(jù)進(jìn)行分析,得到單條話單通話金額、通話重疊次數(shù)、連續(xù)主叫次數(shù)、通話時(shí)長(zhǎng)中位數(shù)、通話并發(fā)路數(shù)共五個(gè)方面的特征和欺詐用戶數(shù)37人。

    (2)全量數(shù)據(jù)分析

    選取2017年10月1日-10月7日期間產(chǎn)生的國(guó)際長(zhǎng)途話單,全量數(shù)據(jù)共計(jì)約1 050萬(wàn)條,從通話時(shí)長(zhǎng)、通話時(shí)間、交往圈、通話時(shí)段四個(gè)方面進(jìn)行分析,找到異常用戶特征。

    第一,通話時(shí)長(zhǎng)分位數(shù)分析。通過(guò)計(jì)算每個(gè)用戶多條話單的通話時(shí)長(zhǎng)的1/4分位數(shù)、中位數(shù)和3/4分位數(shù),找到異常用戶通話時(shí)長(zhǎng)的異常行為特征。

    第二,通話時(shí)間重疊分析。正常情況下,用戶通話開(kāi)始至結(jié)束不會(huì)發(fā)起另一起通話,若一條話單的通話結(jié)束時(shí)間與另一條話單的通話開(kāi)始時(shí)間出現(xiàn)交叉則屬于通話重疊,重疊超過(guò)一定次數(shù),則認(rèn)定為異常。

    第三,交往圈人數(shù)占總話單量比例分析。根據(jù)通信指紋的定義,一般用戶的交往圈比較固定,通話對(duì)象主要集中在一定范圍內(nèi)。若用戶交往圈人數(shù)占總話單量比例超過(guò)一定閾值,即認(rèn)為是異常行為的表現(xiàn)。

    第四,單日通話時(shí)段數(shù)分析。根據(jù)業(yè)務(wù)理解和實(shí)際情況分析,若一個(gè)用戶在一天內(nèi)的多個(gè)時(shí)段內(nèi)均出現(xiàn)通話行為,可認(rèn)為該用戶通話過(guò)于頻繁,疑似異常。

    通過(guò)以上分析,將通話時(shí)長(zhǎng)、通話時(shí)間、交往圈、通話時(shí)段四個(gè)特征值超過(guò)一定閾值的用戶定義為異常用戶。

    2.2.2 樣本構(gòu)造

    由于欺詐用戶較少,故利用全部欺詐用戶數(shù)據(jù)及10月非欺詐用戶數(shù)據(jù)進(jìn)行樣本構(gòu)造。為了將有可能出現(xiàn)異常甚至是欺詐的用戶全部包含在內(nèi),通過(guò)前文分析設(shè)定篩選條件。本模型將用戶數(shù)據(jù)分為三類——欺詐用戶、異常用戶和正常用戶,最終確認(rèn)三類樣本數(shù)量如表1所示。

    表1 樣本量

    2.2.3 特征選擇

    結(jié)合前文對(duì)欺詐用戶和異常用戶的分析,根據(jù)原始話單生成衍生變量,并最終選取以下12個(gè)衍生字段進(jìn)行建模:

    (1)通話重疊次數(shù);

    (2)同一時(shí)刻最大通話次數(shù);

    (3)連續(xù)通話次數(shù)(上次通話結(jié)束后30 s內(nèi)出現(xiàn)通話即算連續(xù)通話);

    (4)每小時(shí)最高持續(xù)通話時(shí)長(zhǎng);

    (5)每小時(shí)最高通話頻次;

    (6)通話總時(shí)長(zhǎng);

    (7)通話總次數(shù);

    (8)通話時(shí)長(zhǎng)1/4分位數(shù);

    (9)通話時(shí)長(zhǎng)中位數(shù);

    (10)通話時(shí)長(zhǎng)3/4分位數(shù);

    (11)當(dāng)天通話時(shí)段數(shù);

    (12)交往圈人數(shù)占總話單數(shù)比例。

    2.2.4 模型構(gòu)建

    本次建模采用Python語(yǔ)言,利用基于Python的機(jī)器學(xué)習(xí)庫(kù)scikit-learn實(shí)現(xiàn)。從前文構(gòu)造的三類樣本數(shù)據(jù)中分別隨機(jī)抽取70%構(gòu)成訓(xùn)練集,剩下的30%作為測(cè)試集,以保證每類樣本均出現(xiàn)在訓(xùn)練集和測(cè)試集中。表2為訓(xùn)練集和測(cè)試集中三類樣本的量。

    表2 樣本

    (1)決策樹模型

    本模型訓(xùn)練集數(shù)據(jù)為3萬(wàn)左右。經(jīng)反復(fù)測(cè)試,將決策樹的最大深度“max_depth”參數(shù)值設(shè)置為6,效果較好。

    (2)隨機(jī)森林模型

    經(jīng)調(diào)試,由于樣本之間的特征存在較顯著的差異,弱學(xué)習(xí)器的最大個(gè)數(shù)“n_estimators”設(shè)置為25,決策樹最大深度“max_depth”設(shè)置為6時(shí),效果較好。

    3 模型結(jié)果分析

    3.1 模型評(píng)價(jià)指標(biāo)

    由于本次建模過(guò)程中測(cè)試集的異常用戶和欺詐用戶樣本量均較小,可通過(guò)混淆矩陣(Confusion Matrix)直觀表現(xiàn)出模型的評(píng)估效果,并計(jì)算出異常用戶和欺詐用戶的查準(zhǔn)率和查全率。在機(jī)器學(xué)習(xí)領(lǐng)域中,混淆矩陣是一種評(píng)估分類模型效果的形象化展示工具,其中矩陣的每一列表示模型預(yù)測(cè)的樣本情況,矩陣的每一行表示樣本的真實(shí)情況。

    3.2 模型結(jié)果分析

    3.2.1 決策樹

    通過(guò)scikit-learn的confusion matrix輸出模型預(yù)測(cè)值與樣本真實(shí)標(biāo)簽的混淆矩陣,如表3所示。

    表3 決策樹預(yù)測(cè)結(jié)果

    根據(jù)表3,得到正常用戶、欺詐用戶和異常用戶的查全率和查準(zhǔn)率,如表4所示。

    表4 決策樹查全率和查準(zhǔn)率

    3.2.2 隨機(jī)森林

    通過(guò)scikit-learn的confusion matrix輸出模型預(yù)測(cè)值與樣本真實(shí)標(biāo)簽的混淆矩陣,如表5所示。

    表5 隨機(jī)森林預(yù)測(cè)結(jié)果

    根據(jù)表5,得到正常用戶、欺詐用戶和異常用戶的查全率和查準(zhǔn)率,如表6所示。

    表6 隨機(jī)森林查全率和查準(zhǔn)率

    經(jīng)反復(fù)訓(xùn)練測(cè)試欺詐用戶和異常用戶,決策樹的查準(zhǔn)率整體要高于隨機(jī)森林,而查全率低于隨機(jī)森林,但本模型的最終目的是更精準(zhǔn)識(shí)別欺詐用戶和異常用戶。決策樹模型的查準(zhǔn)率高于隨機(jī)森林模型,說(shuō)明國(guó)際長(zhǎng)途高額欺詐模型宜選用決策樹模型。

    另外,對(duì)于決策樹模型,從特征的貢獻(xiàn)度來(lái)看,通話重疊、通信指紋以及通話次數(shù)的貢獻(xiàn)度最高,可以針對(duì)這三個(gè)特征制定新的預(yù)警規(guī)則,并將其部署到反欺詐系統(tǒng)中。

    4 結(jié) 語(yǔ)

    本文通過(guò)分析異常用戶及欺詐用戶的通信行為,提取兩類用戶的行為特征值,最后通過(guò)決策樹和隨機(jī)森林兩種模型進(jìn)行預(yù)測(cè),得到的預(yù)測(cè)結(jié)果均較為理想。同時(shí),可根據(jù)模型特征值的貢獻(xiàn)度,將貢獻(xiàn)度最大的特征值制定為反欺詐系統(tǒng)的預(yù)警規(guī)則,從而避免前文所述預(yù)警規(guī)則的制定過(guò)于依賴業(yè)務(wù)專家經(jīng)驗(yàn)的問(wèn)題,提升反欺詐系統(tǒng)的準(zhǔn)確性和客觀性。

    猜你喜歡
    話單查準(zhǔn)率通話
    河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實(shí)驗(yàn)語(yǔ)音學(xué)初探
    《戊戌元日與友人通話》
    基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)設(shè)計(jì)
    采用大數(shù)據(jù)技術(shù)的移動(dòng)DPI關(guān)聯(lián)算法探索及實(shí)現(xiàn)
    大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
    基于深度特征分析的雙線性圖像相似度匹配算法
    低成本視頻通話APP
    2013年11月通信業(yè)主要指標(biāo)完成情況(一)
    GSM-R移動(dòng)交換機(jī)ASN.1話單的解碼
    GPRS按時(shí)長(zhǎng)計(jì)費(fèi)模塊的優(yōu)化與應(yīng)用
    尼木县| 太康县| 宝鸡市| 崇仁县| 阜南县| 富裕县| 西和县| 开封县| 乌海市| 铁岭县| 平安县| 阳江市| 乌鲁木齐市| 新蔡县| 丹棱县| 台东县| 历史| 宾阳县| 博野县| 柞水县| 曲沃县| 蒙阴县| 类乌齐县| 永州市| 英山县| 开远市| 四平市| 巴塘县| 庆阳市| 资兴市| 利川市| 青神县| 名山县| 衡阳县| 永寿县| 礼泉县| 新竹县| 渭南市| 静宁县| 上虞市| 志丹县|