• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電話(huà)詐騙識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2020-05-16 09:15:54張杰俊
      軟件 2020年4期
      關(guān)鍵詞:話(huà)單測(cè)試用例詐騙

      張杰俊,李 爽

      (1. 中國(guó)電信上海分公司,上海 200040;2. 北京郵電大學(xué),北京 100876)

      0 引言

      隨著我國(guó)社會(huì)信息化程度的快速提升,近些年來(lái),與個(gè)人信息詐騙相關(guān)的報(bào)導(dǎo)也越來(lái)越多。不法分子通過(guò)編造虛假信息,依托電話(huà)系統(tǒng)跨地域?qū)κ芎θ诉M(jìn)行電話(huà)詐騙[1]已成為一種高發(fā)態(tài)勢(shì)。在這類(lèi)電話(huà)詐騙中,不法分子往往通過(guò)事先編排的詐騙套路,通過(guò)電話(huà)系統(tǒng)遠(yuǎn)程誘使受害人一步步的透露出個(gè)人信息,從而使得其詐騙行為更具有目標(biāo)性和欺騙性,不僅給受害人帶來(lái)財(cái)產(chǎn)的重大損失,更造成了精神上的嚴(yán)重傷害。

      因此,如何能夠從正常的話(huà)單中快速識(shí)別出電信欺詐[2-7],并進(jìn)行有針對(duì)性的防范成為電信運(yùn)營(yíng)商需要面對(duì)的一個(gè)新的領(lǐng)域。

      另一方面,如果能夠結(jié)合當(dāng)前快速發(fā)展的人工智能技術(shù),將有助于提升電話(huà)詐騙識(shí)別率。針對(duì)這一需求,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[8-9]的電話(huà)詐騙識(shí)別系統(tǒng),首先清洗并處理用戶(hù)話(huà)單數(shù)據(jù),將其構(gòu)建成用戶(hù)特征圖片,然后使用基于CNN的人工智能技術(shù)構(gòu)造出相應(yīng)的分類(lèi)器,對(duì)詐騙電話(huà)的通話(huà)數(shù)據(jù)特征進(jìn)行挖掘,進(jìn)而識(shí)別出詐騙人員的用戶(hù)行為。

      1 電話(huà)詐騙識(shí)別系統(tǒng)框架設(shè)計(jì)

      基于 CNN的電話(huà)詐騙識(shí)別系統(tǒng)的功能框架設(shè)計(jì)如圖1所示[10],其核心功能模塊包括話(huà)單數(shù)據(jù)清洗功能模塊、用戶(hù)特征圖構(gòu)建功能模塊、詐騙識(shí)別模型訓(xùn)練與詐騙行為識(shí)別功能模塊。

      (1)話(huà)單數(shù)據(jù)清洗功能模塊為電話(huà)詐騙識(shí)別系統(tǒng)提供數(shù)據(jù)準(zhǔn)備,負(fù)責(zé)清洗輸入的原始話(huà)單數(shù)據(jù)和用戶(hù)信息數(shù)據(jù),生成用于構(gòu)造原始特征圖的用戶(hù)信息數(shù)據(jù)和用戶(hù)話(huà)單數(shù)據(jù)。其中,原始話(huà)單數(shù)據(jù)是電信用戶(hù)產(chǎn)生的話(huà)單記錄信息;用戶(hù)信息則包括電信用戶(hù)是否實(shí)名制、電信用戶(hù)的類(lèi)別(個(gè)人或者政企)、使用的電信套餐類(lèi)別、使用的電信套餐名稱(chēng)以及是否停機(jī)等信息[11]。

      (2)用戶(hù)特征圖構(gòu)建功能模塊負(fù)責(zé)生成原始特征圖,并產(chǎn)生對(duì)應(yīng)于一個(gè)時(shí)段(例如每5分鐘)的用戶(hù)特征圖數(shù)據(jù),為系統(tǒng)提供相應(yīng)的訓(xùn)練數(shù)據(jù)。

      (3)電話(huà)詐騙識(shí)別模型訓(xùn)練與詐騙行為識(shí)別功能模塊則負(fù)責(zé)完成識(shí)別模型的訓(xùn)練以及電話(huà)詐騙行為識(shí)別結(jié)果的優(yōu)劣評(píng)估,它是電話(huà)詐騙識(shí)別系統(tǒng)的功能核心。

      2 電話(huà)詐騙識(shí)別系統(tǒng)核心功能模塊的設(shè)計(jì)

      基于 CNN的電話(huà)詐騙識(shí)別系統(tǒng)在主體架構(gòu)上包含電話(huà)詐騙識(shí)別模型訓(xùn)練流程和詐騙行為識(shí)別流程。

      與此對(duì)應(yīng),基于CNN的電話(huà)詐騙識(shí)別系統(tǒng)的總體結(jié)構(gòu)包含兩層:低層為詐騙電話(huà)分析識(shí)別層,高層為電話(huà)詐騙識(shí)別模型訓(xùn)練與調(diào)優(yōu)層,如圖2所示。其中。

      (1)詐騙電話(huà)分析識(shí)別層主要根據(jù)原始話(huà)單數(shù)據(jù)和用戶(hù)數(shù)據(jù)產(chǎn)生基于時(shí)間粒度的分片規(guī)劃,然后根據(jù)電信用戶(hù)特征圖數(shù)據(jù)以及訓(xùn)練好的電話(huà)詐騙識(shí)別模型,分析并識(shí)別電信用戶(hù)的行為類(lèi)別。

      在電話(huà)詐騙分析識(shí)別層中,數(shù)據(jù)清洗模塊負(fù)責(zé)對(duì)輸入系統(tǒng)的電信用戶(hù)信息和用戶(hù)話(huà)單數(shù)據(jù)進(jìn)行處理和清洗,產(chǎn)生滿(mǎn)足系統(tǒng)后繼處理需要的標(biāo)準(zhǔn)化用戶(hù)話(huà)單數(shù)據(jù),作為下一步電信用戶(hù)特征圖構(gòu)造模塊的數(shù)據(jù)基礎(chǔ)。電信用戶(hù)特征圖構(gòu)造模塊負(fù)責(zé)從標(biāo)準(zhǔn)化用戶(hù)話(huà)單數(shù)據(jù)中提取并聚合用戶(hù)通話(huà)特征,生成以時(shí)間段為縱軸、以特征為橫軸的用戶(hù)通話(huà)特征圖。根據(jù)輸入數(shù)據(jù)來(lái)源的不同,如果是訓(xùn)練數(shù)據(jù),其特征圖將進(jìn)一步通過(guò)層間接口輸入到上一層的電話(huà)詐騙識(shí)別模型構(gòu)造模塊;如果是待測(cè)試數(shù)據(jù),其特征圖與調(diào)優(yōu)完畢的電話(huà)詐騙識(shí)別模型一起輸入到電話(huà)詐騙行為識(shí)別模塊進(jìn)行識(shí)別,并最終得到待測(cè)試數(shù)據(jù)中包含的電話(huà)詐騙數(shù)據(jù)的識(shí)別結(jié)果。

      (2)電話(huà)詐騙識(shí)別模型訓(xùn)練與調(diào)優(yōu)層主要負(fù)責(zé)產(chǎn)生并訓(xùn)練電話(huà)詐騙識(shí)別模型,評(píng)估電話(huà)詐騙識(shí)別結(jié)果,以及對(duì)電話(huà)詐騙識(shí)別模型進(jìn)行調(diào)優(yōu),并在瀏覽器界面中通過(guò)可視化模塊展示電話(huà)詐騙識(shí)別的訓(xùn)練過(guò)程。

      圖2 電話(huà)詐騙識(shí)別系統(tǒng)總體架構(gòu)Fig.2 Overall architecture of telephone fraud identification classifier

      在電話(huà)詐騙識(shí)別模型訓(xùn)練與調(diào)優(yōu)層中,電話(huà)詐騙識(shí)別模型構(gòu)造模塊通過(guò)學(xué)習(xí)下層用戶(hù)特征圖構(gòu)造子模塊輸入的混合了電話(huà)詐騙數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集,可生成相應(yīng)的電話(huà)詐騙識(shí)別模型。電話(huà)詐騙識(shí)別模型對(duì)于包含電話(huà)詐騙數(shù)據(jù)的識(shí)別效果由電話(huà)詐騙識(shí)別評(píng)估子模塊進(jìn)行評(píng)估,該功能模塊通過(guò)對(duì)電話(huà)詐騙識(shí)別結(jié)果中查全率和查準(zhǔn)率的統(tǒng)計(jì),評(píng)估相應(yīng)模型的輸出效果。

      根據(jù)電話(huà)詐騙識(shí)別評(píng)估子模塊輸出的評(píng)估結(jié)果,對(duì)電話(huà)詐騙識(shí)別模型的調(diào)優(yōu)功能則由后續(xù)的電話(huà)詐騙識(shí)別模型調(diào)優(yōu)模塊完成。其調(diào)優(yōu)功能主要通過(guò)增加識(shí)別電話(huà)詐騙關(guān)聯(lián)特征、改變生成電話(huà)詐騙識(shí)別模型所需要的迭代次數(shù)以及配置相應(yīng)的模型參數(shù)等措施來(lái)實(shí)現(xiàn)。

      本層中,電話(huà)詐騙識(shí)別模型可視化模塊與瀏覽器終端配合,可實(shí)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)的電話(huà)詐騙識(shí)別模型建立與訓(xùn)練過(guò)程的可視化,并采用圖形化方式展示在模型訓(xùn)練與評(píng)估期間的電話(huà)詐騙識(shí)別模型構(gòu)造結(jié)果、電話(huà)詐騙識(shí)別評(píng)估情況以及電話(huà)詐騙識(shí)別模型調(diào)優(yōu)過(guò)程。

      3 基于CNN的電話(huà)詐騙識(shí)別模型與電話(huà)詐騙行為識(shí)別的設(shè)計(jì)

      在設(shè)計(jì)電話(huà)詐騙識(shí)別系統(tǒng)時(shí),本文對(duì)比和分析了多種機(jī)器學(xué)習(xí)算法,最終選用CNN中較為經(jīng)典和常用的 Lenet結(jié)構(gòu)作為參考基礎(chǔ)。下面簡(jiǎn)略介紹基于 LeNet-5的電話(huà)詐騙識(shí)別模型與電話(huà)詐騙行為識(shí)別的主要設(shè)計(jì)。

      參考 LeNet-5的設(shè)定,本文設(shè)計(jì)的電話(huà)詐騙識(shí)別模型的分層結(jié)構(gòu)如圖3所示,共計(jì)包含了6個(gè)層次。

      圖3 基于CNN的電話(huà)詐騙識(shí)別模型分層結(jié)構(gòu)示意圖Fig.3 Hierarchical structure of telephone fraud identification model based on CNN

      基于神經(jīng)網(wǎng)絡(luò)模型的特性,對(duì)電話(huà)詐騙識(shí)別模型的調(diào)優(yōu)工作是基于模型的迭代調(diào)優(yōu)過(guò)程實(shí)現(xiàn)的。本文采用的主要調(diào)優(yōu)手段包括卷積核大小和神經(jīng)元個(gè)數(shù)的調(diào)整(比如本文對(duì)于卷積核大小有4*4,5*5,6*6,7*7四種方案,神經(jīng)元個(gè)數(shù)有163,248、326,496和64,128,192三種方案),以及對(duì)于待評(píng)測(cè)用戶(hù)特征圖的特征數(shù)調(diào)整(即特征圖中特征數(shù)的減少或增加、正負(fù)樣本比例的調(diào)整),其他的調(diào)優(yōu)方式還包括增大輸入的數(shù)據(jù)量、增大模型的迭代次數(shù)等。后續(xù)還可以直接深入CNN結(jié)構(gòu)的內(nèi)部修改電話(huà)詐騙識(shí)別模型。

      本文中,電話(huà)詐騙行為識(shí)別功能對(duì)用戶(hù)類(lèi)別的識(shí)別是基于CNN分類(lèi)器實(shí)現(xiàn)的,其核心流程如圖4所示。通過(guò)將待測(cè)試的數(shù)據(jù)文件輸入已訓(xùn)練完畢的電話(huà)詐騙識(shí)別模型,如果同一數(shù)據(jù)文件中的用戶(hù)屬于同一類(lèi)別,則CNN分類(lèi)器直接輸出識(shí)別結(jié)果;如果同一數(shù)據(jù)文件中的用戶(hù)屬于不同的類(lèi)別,則CNN分類(lèi)器根據(jù)識(shí)別的結(jié)果取眾數(shù),并基于所獲得的眾數(shù)結(jié)果對(duì)當(dāng)前用戶(hù)的行為類(lèi)別進(jìn)行判斷。

      圖4 電話(huà)詐騙行為識(shí)別流程圖Fig.4 Flow chart of telephone fraud identification

      4 電話(huà)詐騙識(shí)別系統(tǒng)原型的測(cè)試

      圖5是本文設(shè)計(jì)完成的使用CNN技術(shù)的電話(huà)詐騙識(shí)別原型系統(tǒng)測(cè)試環(huán)境架構(gòu)。

      圖5 測(cè)試環(huán)境組成示意圖Fig.5 Composition diagram of test environme nt

      該測(cè)試環(huán)境依托于中國(guó)電信的大數(shù)據(jù)環(huán)境。由于中國(guó)電信集團(tuán)對(duì)于企業(yè)大數(shù)據(jù)的保密原因,電話(huà)詐騙識(shí)別原型系統(tǒng)測(cè)試環(huán)境首先必須以 Root權(quán)限登錄到大數(shù)據(jù)平臺(tái)的堡壘機(jī),然后再通過(guò)堡壘機(jī)提供的數(shù)據(jù)訪問(wèn)接口才能夠進(jìn)入企業(yè)大數(shù)據(jù)環(huán)境中拉取本測(cè)試所需的話(huà)單數(shù)據(jù)。

      本文所實(shí)現(xiàn)的電話(huà)詐騙識(shí)別原型系統(tǒng)測(cè)試用例涵蓋了原始話(huà)單數(shù)據(jù)清洗、用戶(hù)特征圖構(gòu)建和電話(huà)詐騙識(shí)別模型訓(xùn)練與評(píng)估等三個(gè)方面。根據(jù)神經(jīng)網(wǎng)絡(luò)測(cè)試的方法,在測(cè)試階段中構(gòu)建了總共包含250000張用戶(hù)特征圖的數(shù)據(jù)訓(xùn)練集。

      在初始測(cè)試中,本文所開(kāi)發(fā)的基于CNN的電話(huà)詐騙識(shí)別模型的卷積核大小初步設(shè)定為 3*3,其中包含的神經(jīng)元個(gè)數(shù)相應(yīng)為 64,128,192,迭代次數(shù)設(shè)定為1000次,并且將訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的比例設(shè)為4∶1。該部分測(cè)試用例總數(shù)為50005個(gè),其中詐騙電話(huà)(正樣本)的測(cè)試用例總數(shù)為1508個(gè),普通電話(huà)的測(cè)試用例總數(shù)是48497個(gè)。該測(cè)試得到的電話(huà)詐騙識(shí)別結(jié)果如圖6所示。

      圖6 50005條測(cè)試數(shù)據(jù)測(cè)試結(jié)果截圖Fig.6 Screenshots of 50,005 data test results

      在888個(gè)詐騙電話(huà)的測(cè)試用例中,被正確預(yù)測(cè)的測(cè)試用例數(shù)量為597個(gè)(記為T(mén)P),錯(cuò)誤預(yù)測(cè)的測(cè)試用例數(shù)量為291個(gè)(記為FP);在49117個(gè)普通電話(huà)測(cè)試用例中,被正確預(yù)測(cè)的測(cè)試用例為48206(記為T(mén)N)個(gè),被錯(cuò)誤預(yù)測(cè)的測(cè)試用例為911(記為FN)個(gè)。根據(jù)查準(zhǔn)率和查全率的計(jì)算公式(查準(zhǔn)率=TP / TP + FP,查全率=TP / TP + FN),得到原型系統(tǒng)相關(guān)測(cè)試結(jié)果是查準(zhǔn)率=0.672,查全率=0.396。上述測(cè)試結(jié)果的直觀展示如表1所示。

      表1 測(cè)試評(píng)估結(jié)果匯總Tab.1 Summary of test evaluation results

      經(jīng)過(guò)多次調(diào)整測(cè)試參數(shù),在將測(cè)試所用的前置條件設(shè)定為:訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的比例=3∶1,電話(huà)詐騙識(shí)別模型的卷積核大小=6*6,迭代次數(shù)設(shè)定為1000次,得到的電話(huà)欺騙識(shí)別原型系統(tǒng)在查準(zhǔn)率和查全率方面的綜合表現(xiàn)最好,分別是查準(zhǔn)率=0.735,查全率=0.518,最終測(cè)試結(jié)果的準(zhǔn)確率=0.790。

      5 結(jié)束語(yǔ)

      本文描述了一個(gè)基于 CNN的電話(huà)詐騙識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)方案,該電話(huà)詐騙識(shí)別系統(tǒng)能夠基于CNN技術(shù)對(duì)電話(huà)詐騙識(shí)別模型進(jìn)行訓(xùn)練,并基于訓(xùn)練完畢的電話(huà)詐騙識(shí)別模型分析輸入的用戶(hù)話(huà)單數(shù)據(jù),最終實(shí)現(xiàn)對(duì)于普通用戶(hù)和電話(huà)詐騙用戶(hù)的有效識(shí)別。在該系統(tǒng)中,用戶(hù)話(huà)單數(shù)據(jù)清洗模塊實(shí)現(xiàn)了該系統(tǒng)對(duì)用戶(hù)話(huà)單數(shù)據(jù)的處理能力;用戶(hù)特征圖構(gòu)建模塊實(shí)現(xiàn)了該系統(tǒng)將已有用戶(hù)話(huà)單數(shù)據(jù)整合成為用戶(hù)特征圖的處理能力;電話(huà)詐騙識(shí)別訓(xùn)練與評(píng)估模塊實(shí)現(xiàn)了該系統(tǒng)提供電話(huà)詐騙識(shí)別模型訓(xùn)練、預(yù)測(cè)與評(píng)估的處理能力。同時(shí)電話(huà)詐騙識(shí)別系統(tǒng)采用分層開(kāi)發(fā)模式,使得各層模塊之間的功能相對(duì)獨(dú)立,減少了各層模塊之間的耦合度,提高了整個(gè)電話(huà)詐騙識(shí)別系統(tǒng)的可維護(hù)性。

      猜你喜歡
      話(huà)單測(cè)試用例詐騙
      基于SmartUnit的安全通信系統(tǒng)單元測(cè)試用例自動(dòng)生成
      河北大名話(huà)單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實(shí)驗(yàn)語(yǔ)音學(xué)初探
      基于混合遺傳算法的回歸測(cè)試用例集最小化研究
      采用大數(shù)據(jù)技術(shù)的移動(dòng)DPI關(guān)聯(lián)算法探索及實(shí)現(xiàn)
      合同詐騙
      電信詐騙
      擦亮雙眼,謹(jǐn)防招生詐騙
      基于依賴(lài)結(jié)構(gòu)的測(cè)試用例優(yōu)先級(jí)技術(shù)
      詐騙
      GSM-R移動(dòng)交換機(jī)ASN.1話(huà)單的解碼
      城市| 明溪县| 卢氏县| 天柱县| 延安市| 北宁市| 卢氏县| 梁山县| 平安县| 乃东县| 米林县| 昌江| 陇西县| 巴马| 阿克苏市| 新晃| 崇信县| 迭部县| 张掖市| 贵州省| 翁源县| 长汀县| 徐水县| 盐池县| 巴中市| 双桥区| 十堰市| 永城市| 沂南县| 黄山市| 陇西县| 宁城县| 峨眉山市| 九台市| 若尔盖县| 凉山| 驻马店市| 西畴县| 依兰县| 井研县| 房产|