• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于圖數(shù)據(jù)庫與機(jī)器學(xué)習(xí)的業(yè)務(wù)安全風(fēng)控平臺

    2020-03-07 06:44:10
    關(guān)鍵詞:黑產(chǎn)高斯分布分值

    (中國移動通信集團(tuán)浙江有限公司 浙江 310000)

    1 引言

    隨著互聯(lián)網(wǎng)服務(wù)的快速發(fā)展,越來越多的業(yè)務(wù)服務(wù)從傳統(tǒng)的線下渠道遷移到在線、實時的平臺上。業(yè)務(wù)方為了培育市場,在運(yùn)營和推廣方投入大量資金,取得巨大的經(jīng)濟(jì)效益和用戶體驗。但是,這也給互聯(lián)網(wǎng)“黑色產(chǎn)業(yè)”提供了滋生的土壤,各類風(fēng)險問題層出不窮。不法分子不僅批量在線申請?zhí)柨?、以團(tuán)伙形式進(jìn)行薅羊毛行為,同時利用辦理的號碼進(jìn)行套利、詐騙等危害社會行為。此類行為對中國移動造成營銷資金的損失,也對企業(yè)形象產(chǎn)生不良影響。

    2 用戶業(yè)務(wù)行為數(shù)據(jù)處理

    首先將對用戶的屬性信息及歷史行為數(shù)據(jù),利用規(guī)則匹配、統(tǒng)計分析等方法進(jìn)行用戶業(yè)務(wù)行為特征刻畫,形成高度概括的自然特征和行為特征,為異常行為識別和基于圖數(shù)據(jù)庫異?!昂诋a(chǎn)”群體識別分析提供基礎(chǔ)數(shù)據(jù)支撐。其次,將用戶行為數(shù)據(jù)、標(biāo)簽、特征等數(shù)據(jù),輸入到多模型融合的異常識別評分模型中計算用戶風(fēng)險評分,通過分值將用戶的風(fēng)險進(jìn)行量化,為實時風(fēng)控平臺和業(yè)務(wù)系統(tǒng)提供風(fēng)險判斷依據(jù),同時根據(jù)風(fēng)險評分表中的異常用戶,基于圖數(shù)據(jù)庫異?!昂诋a(chǎn)”群體識別分析。

    3 基于機(jī)器學(xué)習(xí)的異常行為識別

    提取上述所有用戶信息特征,采用算法模型計算各業(yè)務(wù)行為的異常分值,業(yè)務(wù)行為分值會遠(yuǎn)遠(yuǎn)高于正常頁面的分值。分別使用如下算法模型進(jìn)行計算:GMM(高斯混合模型)、Local Outlier Factor(局部異常因子算法)、Isolation Forest(孤立森林),生成最終異常用戶業(yè)務(wù)行為分值表。通過添加閾值使每一個算法都有決策權(quán),最終通過組合模型管用的投票機(jī)制選擇異常。

    3.1 高斯混合模型(Gaussian Mixed Model,GMM)

    高斯混合模型也是一種常見的聚類算法,與kmeans 算法類似,同樣是使用了EM 算法進(jìn)行迭代計算。高斯混合模型假設(shè)每個簇的數(shù)據(jù)都是符合高斯分布(通常稱為正態(tài)分布)的當(dāng)前數(shù)據(jù)呈現(xiàn)的分布就是各個簇的高斯分布疊加在一起的結(jié)果。如果只用一個高斯分布來擬合圖中的數(shù)據(jù),就會出現(xiàn)一個橢圓(二倍標(biāo)準(zhǔn)差的高斯分布)。但是可以直觀的來看,數(shù)據(jù)明顯分為兩簇,因此只用一個高斯分布來擬合是不合理的,需要推廣到多個高斯分布的疊加來對數(shù)據(jù)進(jìn)行擬合。

    3.2 局部異常因子檢測(Local Outlier Factor )

    局部離群因子通過計算一個數(shù)值score來反映一個樣本的異常程度。一個樣本點(diǎn)周圍的樣本點(diǎn)所處位置的平均密度比上該樣本點(diǎn)所在位置的密度。

    (1)設(shè)定k值,對指定點(diǎn)A找到最鄰近k個點(diǎn);

    (2)計算A點(diǎn)到這些點(diǎn)的歐式距離記為,其中最大距離為A點(diǎn)可探測距離:

    (3)求出局部可達(dá)密度:

    (4)同樣的方法對其他點(diǎn)的進(jìn)行計算,算出局部異常因子:

    (5)最終設(shè)定閾值,輸出異常點(diǎn)。

    3.3 Isolation Forest(孤立森林算法模型)

    孤立森林屬于一種無參數(shù)的非監(jiān)督算法,他是一種偵測異常十分有效的組合算法,底層用的是決策樹。

    (1)建立n個決策樹模型;

    (2)隨機(jī)抽取樣本數(shù)據(jù)輸入這n個模型進(jìn)行訓(xùn)練(隨機(jī)按最大最小切割),切到指定異常數(shù)據(jù)比例為止;

    (3)利用n個決策樹進(jìn)行投票,求出異常系數(shù);

    (4)Isolation Forest 結(jié)果如圖1。

    圖1 孤立森林算法結(jié)果

    3.4 多模型融合機(jī)器學(xué)習(xí)算法利用上面三個模型做組合模型處理

    通過GMM、Local Outlier Factor、Isolation Forest 算法構(gòu)建多模型融合的一種無監(jiān)督機(jī)器學(xué)習(xí)模型。這種多模型融合的機(jī)器學(xué)習(xí)算法,綜合了GMM、Local Outlier Factor、Isolation Forest 算法模型之間的優(yōu)點(diǎn),具有以下優(yōu)點(diǎn):首先,從統(tǒng)計的方面來看,由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大,可能有多個假設(shè)在訓(xùn)練集上達(dá)到同等性能,此時若使用單學(xué)習(xí)器可能因誤選而導(dǎo)致泛化性能不佳,結(jié)合多個學(xué)習(xí)器則會減小這一風(fēng)險;第二,從計算的方面來看,GMM 算法往往會陷入局部極小,有的局部極小點(diǎn)所對應(yīng)的泛化性能可能很糟糕,而通過GMM、Local Outlier Factor、Isolation Forest 多次運(yùn)行之后進(jìn)行結(jié)合,可降低陷入糟糕局部極小點(diǎn)的風(fēng)險,特別是Isolation Forest對內(nèi)存要求低,且處理速度快,具有線性時間復(fù)雜度,因為是ensemble的方法,所以可以用在含有海量數(shù)據(jù)的數(shù)據(jù)集上面;第三,從表示的方面來看,某些學(xué)習(xí)任務(wù)的真實假設(shè)可能不在當(dāng)前學(xué)習(xí)算法所考慮的假設(shè)空間中,此時若使用單學(xué)習(xí)器則肯定無效,而通過結(jié)合多個學(xué)習(xí)器,由于相應(yīng)的假設(shè)空間有所擴(kuò)大,有可能學(xué)得更好的近似。本文通過GMM、Local Outlier Factor、Isolation Forest 算法構(gòu)建多模型融合。

    4 基于圖數(shù)據(jù)庫的群體識別模型

    基于某次注冊業(yè)務(wù)推廣活動的相關(guān)數(shù)據(jù),注冊推廣頁面,出現(xiàn)多個賬號推廣注冊并獲取積分成功后,向同一手機(jī)號碼兌換積分的現(xiàn)象,疑似出現(xiàn)黑產(chǎn)薅羊毛現(xiàn)象。為了明確目前面臨的安全風(fēng)險,并在此基礎(chǔ)上,尋求整體、可靠和完善的解決方案,基礎(chǔ)架構(gòu)組對注冊頁面進(jìn)行了安全檢測,并根據(jù)電子渠道后臺的數(shù)據(jù)信息進(jìn)行多維度分析,同時利用外部黑產(chǎn)情報庫進(jìn)行數(shù)據(jù)比對,發(fā)現(xiàn)此次活動推廣,存在明顯的黑產(chǎn)“薅羊毛”特征:攻擊者利用(或者偽造)大量終端和代理IP,在活動中注冊大量的賬號,借此獲取積分后兌換優(yōu)惠券。

    基于此次注冊業(yè)務(wù)推廣活動的相關(guān)數(shù)據(jù),我們發(fā)現(xiàn)本次營銷活動,存在明顯的黑產(chǎn)薅羊毛特征:攻擊者利用(或者偽造)大量終端(利用IMEI標(biāo)識)和代理IP,在活動注冊大量的賬號,然后獲取積分后兌換優(yōu)惠券。設(shè)計圖數(shù)據(jù)庫的Schema 與數(shù)據(jù)導(dǎo)入。

    5 總結(jié)

    本文分析了電子渠道存在的業(yè)務(wù)安全風(fēng)險問題,尤其是從事“黑產(chǎn)”活動的用戶行為,不僅損害了電子渠道本身的利益,同時也危害了正常用戶的業(yè)務(wù)活動體驗以及正常市場秩序。就上述問題,本文創(chuàng)新性地提出一種基于圖數(shù)據(jù)庫與機(jī)器學(xué)習(xí)的業(yè)務(wù)安全風(fēng)控平臺,可以很好地保障電子渠道中的業(yè)務(wù)安全,一方面通過使用GMM、Local Outlier Factor、Isolation Forest算法構(gòu)建多模型融合的一種無監(jiān)督機(jī)器學(xué)習(xí)模型,有效識別電子渠道中存在的異?!昂诋a(chǎn)”行為用戶;另一方面,基于圖數(shù)據(jù)庫識別出異?!昂诋a(chǎn)”群體,以群體的視角發(fā)現(xiàn)異?!昂诋a(chǎn)”,可以發(fā)現(xiàn)更多從事異?;顒拥馁~戶,做到以點(diǎn)帶面的效果。

    猜你喜歡
    黑產(chǎn)高斯分布分值
    一起來看看交通違法記分分值有什么變化
    工會博覽(2022年8期)2022-06-30 12:19:30
    利用Box-Cox變換對移動通信中小區(qū)級業(yè)務(wù)流量分布的研究
    2種非對稱廣義高斯分布模型的構(gòu)造
    養(yǎng)號黑產(chǎn)愈演愈烈
    騰訊發(fā)布:《2018上半年互聯(lián)網(wǎng)黑產(chǎn)研究報告》
    150萬網(wǎng)絡(luò)黑產(chǎn)從業(yè)者 正盯著你的個人隱私
    新技術(shù)能幫助消滅黑產(chǎn)嗎?
    一種基于改進(jìn)混合高斯模型的前景檢測
    宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
    病種分值結(jié)算模式下的醫(yī)療監(jiān)管之實踐與啟示
    垫江县| 临猗县| 万源市| 吉林省| 宁南县| 涿州市| 全椒县| 福安市| 德江县| 黔西| 洛浦县| 慈溪市| 拉孜县| 平乡县| 曲松县| 凌海市| 长春市| 改则县| 礼泉县| 萨嘎县| 当阳市| 阳城县| 皮山县| 京山县| 宁远县| 罗江县| 惠东县| 许昌县| 苍梧县| 濮阳市| 如皋市| 巴楚县| 汉寿县| 永和县| 华亭县| 阳东县| 寿阳县| 五大连池市| 根河市| 铅山县| 万盛区|