• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于A-D模型的K-means算法在通話異??蛻敉诰蛑械膽?yīng)用

      2018-05-04 02:38:48周堅(jiān)石永革何美斌
      電信科學(xué) 2018年4期
      關(guān)鍵詞:參考文獻(xiàn)語(yǔ)音權(quán)重

      周堅(jiān),石永革,何美斌

      (1.南昌大學(xué)信息工程學(xué)院,江西 南昌 330029;2.中國(guó)電信股份有限公司江西分公司,江西 南昌 330029)

      1 引言

      隨著通信技術(shù)的迅速發(fā)展,移動(dòng)和固定電話已經(jīng)成為人們?nèi)粘I钪胁豢扇鄙俚恼Z(yǔ)音通信工具。然而,其在給人們的工作、生活帶來(lái)極大便利的同時(shí),也會(huì)給電信客戶和運(yùn)營(yíng)商帶來(lái)負(fù)面影響,例如電信詐騙、廣告騷擾、欠費(fèi)等。目前,針對(duì)語(yǔ)音通信行為異??蛻簦ê?jiǎn)稱異??蛻簦?,相關(guān)部門已經(jīng)采取了若干措施,如針對(duì)電信詐騙實(shí)行手機(jī)實(shí)名制、針對(duì)欠費(fèi)客戶的分析催繳等,但其一般都屬于事后被動(dòng)處置。為此,迫切需要基于海量的語(yǔ)音通信數(shù)據(jù),自動(dòng)分析它們之間的關(guān)聯(lián)關(guān)系,聚類分析出其中隱藏的異??蛻粜畔ⅲ瑢?duì)異??蛻艏跋嚓P(guān)事件實(shí)現(xiàn)預(yù)判預(yù)警、實(shí)時(shí)提示、主動(dòng)響應(yīng)、快速處置。

      迄今,國(guó)內(nèi)針對(duì)電信客戶語(yǔ)音通信行為特征進(jìn)行分析建模并進(jìn)一步實(shí)現(xiàn)客戶聚類分析的文獻(xiàn)不多,典型如:參考文獻(xiàn)[1]采用模糊集的語(yǔ)義關(guān)聯(lián)度算法,可以找出具有強(qiáng)關(guān)聯(lián)度的客戶;參考文獻(xiàn)[2]應(yīng)用復(fù)雜網(wǎng)絡(luò)理論和模糊決策樹算法,基于通話記錄開展語(yǔ)音通信行為異常客戶的識(shí)別研究;參考文獻(xiàn)[3]研究如何使用決策樹分析惡意欠費(fèi)客戶,應(yīng)用聚類分群發(fā)現(xiàn)電信欺詐客戶。上述文獻(xiàn)的主要不足在于,都沒有進(jìn)行深入的異常行為特征建模和客戶聚類挖掘算法的研究。參考文獻(xiàn)[4]基于客戶通話數(shù)據(jù)進(jìn)行聚類分析,獲取具有良好特征的客戶集合,然后應(yīng)用K-means算法挖掘特定的客戶,以便針對(duì)不同客戶群提供差異化服務(wù),其主要不足在于:沒有對(duì)挖掘算法進(jìn)行優(yōu)化,使得其挖掘效率和質(zhì)量不夠理想,并且僅考慮了移動(dòng)通信客戶。綜上所述,參考文獻(xiàn)[1-4]對(duì)于本文具有一定的參考價(jià)值,但它們的研究或者僅局限于行為特征分析,或者局限于客戶挖掘,并沒有結(jié)合行為特征分析建模與客戶挖掘,開展完整深入的研究及算法優(yōu)化工作,使得其在準(zhǔn)確性、完整性、普適性等綜合性能上存在明顯不足。參考文獻(xiàn)[5-7]對(duì)本文具有較高的參考價(jià)值,都對(duì)聚類算法進(jìn)行了改進(jìn)并應(yīng)用于電信客戶細(xì)分中。其中,參考文獻(xiàn)[5]通過(guò)改進(jìn)的K-means算法對(duì)電信客戶進(jìn)行了聚類分析,但其主要研究目標(biāo)是降低聚類分析的時(shí)間復(fù)雜度。參考文獻(xiàn)[6]使用自適應(yīng)差分演化算法改進(jìn)K-means算法,并將其應(yīng)用在電信客戶細(xì)分中,但未給出3個(gè)關(guān)鍵參數(shù)的經(jīng)驗(yàn)值和選取方法。參考文獻(xiàn)[7]通過(guò)不斷優(yōu)化新的聚類中心改進(jìn)K-means算法,從而提高其在電信CRM(customer relationship management,客戶關(guān)系管理)客戶分類中的準(zhǔn)確性。

      為實(shí)現(xiàn)對(duì)語(yǔ)音通信行為異常客戶的高質(zhì)量聚類分析,本文針對(duì)固定和移動(dòng)電話客戶,以AHP模型為基礎(chǔ),融合DEMATEL法構(gòu)建異??蛻粜袨樘卣髂P?,即 AHP-DEMATEL模型(analytic hierarchy process decision making trial and evaluation laboratory,以下簡(jiǎn)稱A-D模型),并提出了一種基于A-D模型的K-means算法,從海量的語(yǔ)音通信數(shù)據(jù)中聚類分析出異??蛻簟1疚闹饕ぷ魇牵夯谡Z(yǔ)音通信記錄,詳細(xì)分析客戶的通話行為特征;基于A-D模型構(gòu)建語(yǔ)音通信異??蛻粜袨樘卣髂P?,以獲取各項(xiàng)行為特征的權(quán)值;對(duì)K-means算法進(jìn)行分析和優(yōu)化,提出基于A-D模型的異常電信客戶挖掘算法;對(duì)上述研究成果進(jìn)行測(cè)試、比較、分析,驗(yàn)證其有效性。

      2 相關(guān)工作

      2.1 層次分析法AHP

      AHP一種將定性和定量分析融合的多要素決策方法,其主要思想為:針對(duì)復(fù)雜決策問題,綜合其主要影響元素、問題本質(zhì)、內(nèi)在關(guān)系等,通過(guò)深入分析來(lái)構(gòu)造層次結(jié)構(gòu)模型,從而基于很少的定量信息就可將決策者的思維過(guò)程數(shù)學(xué)化。由此,即可為求解擁有多目標(biāo)、多準(zhǔn)則、無(wú)結(jié)構(gòu)等特性的復(fù)雜決策性問題,提供一種較為簡(jiǎn)單的決策方法[8]。AHP常用于主觀賦權(quán),其具體步驟如下。

      步驟 1 構(gòu)造層次結(jié)構(gòu)模型。將復(fù)雜的多目標(biāo)、多準(zhǔn)則的決策問題,按照它們之間的相互關(guān)系分解成多個(gè)層次,自頂向下每一層對(duì)應(yīng)一組分目標(biāo)、準(zhǔn)則直至相關(guān)指標(biāo)(統(tǒng)稱元素),形成遞階層次結(jié)構(gòu)模型。由此,即可通過(guò)逐層向上分析,最終確定各低層元素對(duì)于各級(jí)高層元素的重要性權(quán)值。

      步驟 2 構(gòu)建判斷矩陣。為盡可能減少性質(zhì)不同元素相互比較的困難,提高準(zhǔn)確度,對(duì)于每一個(gè)目標(biāo),不是將影響該目標(biāo)的所有元素放在一起比較,而是兩兩相互比較后,給出描述相對(duì)重要程度的比較值。由此,對(duì)于各個(gè)目標(biāo),生成一系列的兩兩判斷矩陣A=(aij)nm,其中aij表示針對(duì)同一目標(biāo),元素 i比j的相對(duì)重要值。例如,若對(duì)于目標(biāo)Y,aij=2表示元素i比元素j對(duì)Y的影響更大(即權(quán)重更高),且對(duì)應(yīng)必有aji=1/2。上述重要值應(yīng)由多位專家進(jìn)行評(píng)價(jià)并取其加權(quán)均值。

      步驟 3 驗(yàn)證判斷矩陣的一致性。由于判斷矩陣的值主要取決于專家意見,難免出現(xiàn)邏輯不一致的情況(如前例中,若aij=2,而aji不是1/2),故必須對(duì)判斷矩陣進(jìn)行一致性檢驗(yàn),方法為:首先計(jì)算出判斷矩陣的最大特征值λmax,利用式(1)計(jì)算出一致性檢驗(yàn)的標(biāo)度,然后計(jì)算隨機(jī)一致性比率其中,RI可查表得到,一般認(rèn)為CR<0.1時(shí)具有滿意的一致性。

      步驟4 確定權(quán)重。一般采用求和法,按式(2)將判斷矩陣的每列向量歸一化,再對(duì)行求和并歸一化。

      2.2 DEMATEL法

      DEMATEL(decision making trial and evaluation laboratory)即“決策實(shí)驗(yàn)和評(píng)價(jià)實(shí)驗(yàn)法”,是一種用于篩選復(fù)雜系統(tǒng)主要元素、簡(jiǎn)化系統(tǒng)結(jié)構(gòu)分析過(guò)程的方法論,可以充分利用專家經(jīng)驗(yàn)和知識(shí)處理比較復(fù)雜的系統(tǒng)問題,特別是對(duì)關(guān)系要素不太確定的系統(tǒng)更為有效[9]。實(shí)施步驟如下。

      步驟 1 使用德爾斐法、頭腦風(fēng)暴法或者專家訪談法確定各個(gè)元素。

      步驟 2 確定各要素間的直接影響度。首先使用專家評(píng)分法建立各風(fēng)險(xiǎn)影響元素的直接影響矩陣,一般將元素之間的關(guān)系定性地分為5個(gè)等級(jí),0分表示無(wú)影響關(guān)系,1分表示關(guān)系很弱,2分表示關(guān)系較弱,3分表示關(guān)系較強(qiáng),4分表示影響關(guān)系很強(qiáng)。然后,使用上述評(píng)分結(jié)果建立直接影響矩陣A=(aij)nm,其中aij即上述評(píng)分值。

      步驟5 獲取各要素的影響度和被影響度 利用式(3)和式(4)可以分別計(jì)算出風(fēng)險(xiǎn)元素之間的相互影響度和被影響度。其中,fi是綜合影響矩陣T中行元素之和,表示風(fēng)險(xiǎn)元素i給j帶來(lái)的直接或間接影響度,ei是綜合影響矩陣 T中列元素之和,各行對(duì)應(yīng)風(fēng)險(xiǎn)元素受到其他各元素的影響值稱為被影響度。

      步驟6 計(jì)算各要素的中心度。使用式(5)即可計(jì)算出各要素的中心度。

      2.3 K-means算法

      K-means算法的主要優(yōu)點(diǎn):聚類速度快、效率高、適用于處理大數(shù)據(jù)集,是一種常用的無(wú)監(jiān)督學(xué)習(xí)方法。算法主要原理:隨機(jī)選出K個(gè)點(diǎn)用作初始聚類中心,然后計(jì)算各個(gè)樣本與初始聚類中心之間的距離,并且把樣本劃分到距離最近的聚類中心所在類;對(duì)劃分完全后的新類進(jìn)行計(jì)算得到新聚類中心,如果前后兩次的初始聚類中心未發(fā)生變化,可以確定樣本調(diào)整結(jié)束,此時(shí)相應(yīng)的誤差平方和函數(shù)已達(dá)到最小,聚類準(zhǔn)則函數(shù)已經(jīng)收斂;否則,若初始聚類中心發(fā)生變化,則需要繼續(xù)調(diào)整所有樣本來(lái)確定新的聚類中心,并進(jìn)入下一次的迭代過(guò)程[10]。

      K-means算法的主要不足:對(duì)初始中心敏感;無(wú)法處理非球形類;對(duì)孤立點(diǎn)數(shù)據(jù)和噪聲數(shù)據(jù)較敏感;對(duì)初始值 k的選取依賴性較大;容易陷入局部最優(yōu)解;同等看待每一個(gè)特征,難以產(chǎn)生高質(zhì)量的聚類結(jié)果。

      3 語(yǔ)音通信異常行為分析模型

      3.1 語(yǔ)音通信行為特征

      電信運(yùn)營(yíng)商提供的語(yǔ)音通信原始通話記錄組成客戶原始數(shù)據(jù)集,其每條記錄包括18個(gè)字段,從中析取開始時(shí)間、主叫號(hào)碼、被叫號(hào)碼、呼叫結(jié)果、通話時(shí)長(zhǎng)等作為原始特征字段并按客戶歸并后,即可生成客戶通話數(shù)據(jù)集。

      基于語(yǔ)音通信行為異??蛻粜袨樘卣鞯姆治?,需要對(duì)客戶通話數(shù)據(jù)集中的數(shù)據(jù)基于客戶進(jìn)行以下處理后,生成客戶通話特征集,其中每一客戶的語(yǔ)音通信行為特征參數(shù)包括以下幾種。

      · 平均呼出時(shí)間:客戶每日呼出時(shí)間點(diǎn)的平均值c1;

      · 平均通話時(shí)長(zhǎng):客戶接通記錄中通話時(shí)長(zhǎng)的平均值c2;

      · 呼出次數(shù):客戶主叫次數(shù)c3;

      · 呼出號(hào)碼數(shù):客戶主叫時(shí)對(duì)端號(hào)碼不重復(fù)的個(gè)數(shù)c4;

      · 呼入次數(shù):客戶被叫記錄數(shù)c5;

      · 呼入號(hào)碼數(shù):客戶被叫時(shí)對(duì)端號(hào)碼不重復(fù)的個(gè)數(shù)c6;

      · 接通率:客戶主叫接通數(shù)與所有主叫記錄的比值c7。

      以廣告客戶為例,其廣告推銷行為一般集中在白天,平均呼出時(shí)間一般分布在8:00—18:00時(shí)間段;廣告必須面向大量客戶,其呼出次數(shù)及呼出號(hào)碼數(shù)量較多;廣告推銷號(hào)碼的呼入次數(shù)和呼入號(hào)碼數(shù)量極少;由于被叫客戶的經(jīng)驗(yàn)、智能手機(jī)提示以及陌生主叫號(hào)碼等原因,其接通率相對(duì)較低。

      3.2 行為特征分析模型構(gòu)建

      如前所述,K-means是一種非常適合挖掘語(yǔ)音行為異常客戶的算法,但由于其同等看待所有特征,會(huì)影響聚類分析的質(zhì)量。實(shí)際上,不同的語(yǔ)音通信行為特征對(duì)于異常客戶挖掘過(guò)程的貢獻(xiàn),往往存在較大的差別,如對(duì)于廣告客戶的行為特征分析,由于平均通話時(shí)長(zhǎng)與正常客戶的差別很小,其影響應(yīng)該可以忽略。為此,本文引入行為特征模型的概念,獲取不同行為特征的權(quán)重,以提高異??蛻敉诰虻男逝c質(zhì)量。參考文獻(xiàn)[11]圍繞系統(tǒng)評(píng)價(jià)中的權(quán)重計(jì)算問題,提出了AHP-DEMATEL方法,通過(guò)計(jì)算初始權(quán)重和影響度,并相互融合來(lái)獲得綜合權(quán)重。實(shí)驗(yàn)表明,該方法可以較為準(zhǔn)確地計(jì)算出異??蛻敉ㄔ捫袨樘卣鞯臋?quán)重。

      3.2.1 基于AHP生成行為特征的主觀權(quán)重

      判斷異??蛻粜枰诟餍袨樘卣鲗?shí)現(xiàn),其初始權(quán)重則需由領(lǐng)域?qū)<疑桑瑢儆谥饔^權(quán)重,而AHP是目前廣泛使用的一種主觀賦權(quán)法。

      (1)構(gòu)建異常客戶層次分析模型

      本文討論的異常客戶包括詐騙客戶、廣告客戶、欠費(fèi)客戶,分別用z、g、q表示,并用y表示包括這3類客戶的異??蛻羧?。由此,可以構(gòu)建異常客戶層次分析模型如下,其中用實(shí)線連接的元素表示它們之間具有關(guān)聯(lián)關(guān)系。

      之后,由多位領(lǐng)域?qū)<腋鶕?jù)經(jīng)驗(yàn),給出各低層元素對(duì)高層元素的影響程度相對(duì)值并對(duì)其加權(quán)平均,得到異??蛻艟C合判斷矩陣 Y、詐騙客戶判斷矩陣 Z、廣告客戶判斷矩陣 G、欠費(fèi)客戶判斷矩陣Q。

      (2)一致性檢驗(yàn)

      通過(guò)計(jì)算可得矩陣Y的CR=0.046 2<0.10,Z的CR=0.010 3<0.10,G 的 CR=0.010 3<0.10,Q 的CR=0.028 4<0.10,所有判斷矩陣均可通過(guò)一致性檢驗(yàn)。

      (3)計(jì)算主觀權(quán)重

      通過(guò)判斷矩陣Y得到綜合分析異??蛻舻某跏紮?quán)重向量W1為[0.408 2、0.816 5、0.408 2]。

      根據(jù)判斷矩陣Z、G、Q得到單獨(dú)分析3種異常客戶的初始權(quán)重矩陣W2見表1。

      圖1 層次分析結(jié)構(gòu)

      表1 3種異??蛻舴治龀跏紮?quán)重矩陣W2

      使用式(2)對(duì)W2做歸一化處理得到W3,再使用式(6)即得到異??蛻艟C合分析權(quán)重向量W4。

      對(duì)W4歸一化處理得到綜合權(quán)重向量W5。

      最后,將W3和W5組合即得到基于AHP的歸一化主觀權(quán)重矩陣WA,見表2。

      表2 基于AHP的歸一化主觀權(quán)重矩陣WA

      3.2.2 基于DEMATEL確定各特征之間的影響元素

      AHP僅考慮了低層元素對(duì)高層元素在垂直方向上的影響,實(shí)際上同層元素之間也存在不同程度的相關(guān)性,從而影響有關(guān)權(quán)重的取值。如詐騙客戶的行為直接關(guān)聯(lián)呼出次數(shù)和呼出號(hào)碼數(shù)兩項(xiàng)特征,而它們又會(huì)影響到接通率和平均通話時(shí)長(zhǎng);顯然,此時(shí)前兩項(xiàng)特征的權(quán)重應(yīng)予加強(qiáng)。為此,本文使用DEMATEL方法來(lái)進(jìn)一步提高權(quán)重賦值的科學(xué)性和客觀性。

      (1)根據(jù)各特征之間相互影響關(guān)系得出直接影響矩陣

      采用專家問卷的形式獲取相關(guān)信息。問卷依次用0~4代表各通話行為特征間的關(guān)系強(qiáng)度:無(wú)影響、影響稍弱、影響弱、影響強(qiáng)、影響較強(qiáng)。然后,對(duì)收回的有效問卷進(jìn)行統(tǒng)計(jì)整理,得到直接影響矩陣,并將該矩陣規(guī)范化得到規(guī)范影響矩陣G(ci×ci),見表3,其中,ci表示各特征。

      表3 規(guī)范影響矩陣

      (2)生成各特征之間的影響度向量

      利用規(guī)范影響矩陣計(jì)算出綜合影響矩陣,并由其計(jì)算出各特征的影響度(Ri)和被影響度(Di),通過(guò)對(duì)各特征的影響度和被影響度進(jìn)行計(jì)算,得出該特征的中心度(Ri+Di),見表4。

      表4 中心度

      將DEMATEL法分析得出的各特征的中心度利用式(2)進(jìn)行歸一化處理,即可得到基于DEMATEL的權(quán)重向量 WD=[0.088,0.131,0.177,0.177,0.132,0.132,0.161]。

      3.2.3 生成目標(biāo)權(quán)重

      將WA的各行分別與WD進(jìn)行向量乘運(yùn)算,再使用式(2)歸一化處理后即得到用于異常行為特征分析的目標(biāo)權(quán)重,見表5。

      表5 異常行為特征分析的目標(biāo)權(quán)重

      其中,Wy用于同時(shí)綜合挖掘異常客戶群,Wz、Wg和 Wq分別用于詐騙客戶、廣告客戶及欠費(fèi)客戶的單類型挖掘。

      4 基于A-D模型的K-means算法

      4.1 數(shù)據(jù)處理

      主要工作:從通話記錄中析取原始特征字段(開始時(shí)間、主叫號(hào)碼、被叫號(hào)碼和通話時(shí)長(zhǎng)等);清洗其中不完整或者不一致的數(shù)據(jù);生成客戶通話特征集并使用式(7)對(duì)所有特征進(jìn)行歸一化處理,得到實(shí)驗(yàn)數(shù)據(jù)集X。

      其中,x*、xi分別表示歸一化前后的值,xmax、xmin分別表示樣本數(shù)據(jù)中的最小、最大值。

      4.2 算法描述

      為了有效提高語(yǔ)音通信行為異??蛻舻木垲惙治鲂Ч訩-means算法為基礎(chǔ),提出基于A-D模型的K-means算法,主要思路如下。

      4.2.1 選擇初始聚類中心

      聚類算法的基本原理是讓類內(nèi)各數(shù)據(jù)對(duì)象的相似度最小,類間的各數(shù)據(jù)對(duì)象相似度最大,從而提高聚類結(jié)果的質(zhì)量,K-means算法則由于其波動(dòng)性而難以保證聚類質(zhì)量[15],又由于本文研究所涉及的數(shù)據(jù)具有海量特征,故本文采用參考文獻(xiàn)[15]提出的方法選擇初始聚類中心,方法為:基于異常客戶與正??蛻粝嗨贫容^小的原則,不斷從最大聚類中找出距離最遠(yuǎn)的兩個(gè)數(shù)據(jù)對(duì)象作為新的聚類中心,從而選出K個(gè)初始聚類中心,消除隨機(jī)初始聚類中心可能存在的相似度較大問題。

      4.2.2 改進(jìn)歐氏距離公式

      K-means算法是根據(jù)數(shù)據(jù)對(duì)象之間的距離進(jìn)行聚類處理,而數(shù)據(jù)對(duì)象的距離一般采用歐氏距離公式來(lái)計(jì)算。通過(guò)K-means常用的歐氏距離公式可見,在計(jì)算兩個(gè)樣本的相似度時(shí),K-means算法將所有特征視為同等重要[16]。然而,如前所述,不同特征對(duì)于樣本之間的差異所產(chǎn)生的影響一般是不同的,譬如廣告客戶關(guān)聯(lián)的6項(xiàng)特征中,呼出次數(shù)顯然更為重要,故在數(shù)據(jù)樣本之間適當(dāng)放大呼出次數(shù)這一特征距離,有利于更精確地分類。由此,本文算法先通過(guò)A-D模型計(jì)算出各特征的最終權(quán)重,然后據(jù)此適當(dāng)放大與縮小K-means距離公式樣本中各特征值之間的距離,使得權(quán)重越大的特征對(duì)聚類結(jié)果的影響越大,從而更加真實(shí)地反映實(shí)際聚類時(shí)各特征的作用。根據(jù)上述思路給出的改進(jìn)距離計(jì)算式如下:其中,d為所求兩個(gè)樣本之間的距離,xin表示第i個(gè)樣本的第n個(gè)特征值,xjn表示第j個(gè)樣本的第n個(gè)特征,Wn表示第n個(gè)特征的權(quán)重。4.2.3 算法流程

      本文算法的形式化描述及相關(guān)說(shuō)明如下。

      步驟 1對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)處理,得到實(shí)驗(yàn)數(shù)據(jù)集,并從中選出樣本集X。

      步驟 2基于前述初始聚類中心選擇方法選取k個(gè)初始中心R(k)。

      步驟 3生成語(yǔ)音通信行為異??蛻敉诰虻哪繕?biāo)權(quán)重:基于AHP法計(jì)算不同類型挖掘?qū)ο蟮奶卣鳈?quán)重矩陣WA;基于DEMATEL法計(jì)算各特征間的相互影響權(quán)重向量 WD;計(jì)算目標(biāo)權(quán)重 Wy、Wz、Wg、Wq。

      步驟4選擇工作模式(異??蛻艟C合挖掘,詐騙客戶、廣告客戶、欠費(fèi)客戶單類型挖掘),并將相應(yīng)權(quán)值向量代入歐氏距離公式得到d。

      步驟5進(jìn)行聚類分析,獲取K個(gè)聚類。

      5 實(shí)證分析

      5.1 實(shí)驗(yàn)設(shè)置

      (1)實(shí)驗(yàn)數(shù)據(jù)

      原始數(shù)據(jù)來(lái)源于某市電信公司的實(shí)際語(yǔ)音通信記錄,其中包括624 199條固話通話記錄、2 611 678條手機(jī)通話記錄,對(duì)應(yīng)965 281位客戶。之后,隨機(jī)選取50 000名客戶的數(shù)據(jù)形成樣本集;析取100名正??蛻艉?00名異常客戶的數(shù)據(jù)作為測(cè)試集1,其中平均涵蓋了詐騙客戶、廣告客戶和欠費(fèi)客戶;另析取100名正常客戶和100名廣告客戶的數(shù)據(jù)作為測(cè)試集2。

      (2)比對(duì)標(biāo)準(zhǔn)

      在客戶細(xì)分分析中,K-means算法具有較好的效果,而參考文獻(xiàn)[7]通過(guò)不斷優(yōu)化聚類中心改進(jìn) K-means算法,并將其應(yīng)用于客戶細(xì)分研究且取得一定效果。因此,選擇 K-means算法及參考文獻(xiàn)[7]提出的改進(jìn) K-means算法進(jìn)行性能比對(duì)。

      (3)評(píng)價(jià)標(biāo)準(zhǔn)

      準(zhǔn)確率(precision)和召回率(recall)是常用性能評(píng)價(jià)指標(biāo),而鑒于兩者往往相互矛盾,一般采用F值(F-measure)作為綜合評(píng)價(jià)標(biāo)準(zhǔn),相關(guān)定義如下:

      其中,TP、FP、FN依次表示正確檢測(cè)出的異??蛻舾琶矓?shù)、錯(cuò)誤標(biāo)識(shí)為異常的正??蛻魯?shù)、錯(cuò)誤標(biāo)識(shí)為正常的異??蛻舾琶矓?shù)。

      (4)參數(shù)設(shè)置

      由于 K較小時(shí)的實(shí)驗(yàn)數(shù)據(jù)不太穩(wěn)定,故選K=4、5、6、7。

      5.2 異??蛻艟C合聚類分析

      綜合聚類分析指同時(shí)對(duì)詐騙客戶、廣告客戶、欠費(fèi)客戶3類異??蛻暨M(jìn)行聚類分析。

      選用樣本集和測(cè)試集1,得到聚類結(jié)果后,結(jié)合電信公司已有數(shù)據(jù)和人工抽樣檢測(cè)結(jié)果可以發(fā)現(xiàn)簇內(nèi)測(cè)試集中異常客戶多于正??蛻魰r(shí),該簇內(nèi)異常客戶數(shù)量會(huì)明顯多于正??蛻簟R虼吮緦?shí)驗(yàn)根據(jù)測(cè)試集內(nèi)客戶的分布,合并所有異常客戶數(shù)大于正??蛻魯?shù)的類作為異常客戶類,其他為正??蛻纛?。實(shí)驗(yàn)結(jié)果見表6。

      由表6可見,在K=5時(shí),本文算法的綜合性能F值達(dá)到最佳值;通過(guò)對(duì)3種算法最佳性能比較,可以發(fā)現(xiàn)本文算法相對(duì)于參考文獻(xiàn)[7]算法性能提高4.49%,相對(duì)于K-means的提高幅度達(dá)到12.05%。此外,本文算法的準(zhǔn)確率也明顯優(yōu)于另兩種算法。

      5.3 廣告客戶單類型聚類分析

      選用樣本集和測(cè)試集2,異常類合并同上,實(shí)驗(yàn)結(jié)果見表7。

      由表7可見,在K值相同時(shí),本文算法的綜合性能F值明顯優(yōu)于參考文獻(xiàn)[7]算法及K-means,提高幅度分別可達(dá)6.52%和7.69%。此外,本文算法的準(zhǔn)確率同樣明顯優(yōu)于另兩種算法。

      表6 異??蛻羧壕C合聚類結(jié)果分析

      表7 廣告客戶單類型聚類結(jié)果分析

      5.4 小結(jié)

      綜合比較表6和表7的數(shù)據(jù),本文算法在廣告客戶聚類分析時(shí)的性能優(yōu)于多類型異??蛻艟C合聚類分析。本文對(duì)詐騙客戶和欠費(fèi)客戶進(jìn)行了類似實(shí)驗(yàn)分析,其結(jié)果與廣告客戶聚類分析的結(jié)果類似。

      因此,單類型異常客戶聚類分析的性能優(yōu)于多類型異常客戶綜合聚類分析,但綜合聚類分析的時(shí)間效率則明顯高于單類型聚類分析,這種情況符合客觀規(guī)律。因此,針對(duì)不同場(chǎng)景可以選擇合適的方案,有利于提高異??蛻艟垲惙治龅木C合效率。

      6 結(jié)束語(yǔ)

      本文基于語(yǔ)音通信記錄,分析了異??蛻舻男袨樘卣?,設(shè)計(jì)并構(gòu)建了A-D模型,據(jù)此提出了一種改進(jìn)的K-means算法,實(shí)現(xiàn)利用海量數(shù)據(jù)對(duì)語(yǔ)音通信行為異常的客戶(電信詐騙客戶、廣告客戶、欠費(fèi)客戶等)進(jìn)行聚類分析。實(shí)證分析結(jié)果表明,本文算法用于對(duì)語(yǔ)音通信行為異??蛻暨M(jìn)行聚類分析時(shí)的性能效果較好。

      參考文獻(xiàn):

      [1] 劉霞.基于電信通話記錄的數(shù)據(jù)挖掘[J].計(jì)算機(jī)與現(xiàn)代化,2008(6): 36-38.LIU X.Application of fuzzy-association rule to telecom data mining[J].Computer and Modernization, 2008(6): 36-38.

      [2] 王家定.基于復(fù)雜網(wǎng)絡(luò)理論和通話記錄的客戶行為異常識(shí)別研究[D].合肥: 中國(guó)科學(xué)技術(shù)大學(xué), 2013.WANG J D.Research on customer behavior anomaly recognition based on complex network theory and call logging[D].Hefei: University of Science and Technology of China, 2013.

      [3] 石瑛.面向電信市場(chǎng)營(yíng)銷的數(shù)據(jù)挖掘技術(shù)研究[D].上海: 華東師范大學(xué), 2004.SHI Y.Research on data mining technology for telecom marketing[D].Shanghai: East China Normal University, 2004.

      [4] 趙凱, 蔣朝惠.基于K-means算法的電信客戶行為特征聚類分析[J].貴州大學(xué)學(xué)報(bào):自然科學(xué)版, 2015, 32(2): 86-90.ZHAO K, JIANG C H.Analysis of telecom user behavior features clustering based on K-means algorithm[J].Journal of Guizhou University(Natural Science), 2015, 32(2): 86-90.

      [5] 江哲雅.聚類挖掘在電信客戶分類中的研究與應(yīng)用[D].上海: 上海交通大學(xué), 2013.JIANG Z Y.Research and application of clustering mining in telecom customer classification[D].Shanghai: Shanghai Jiao Tong University, 2013.

      [6] 關(guān)云鴻.改進(jìn) K-均值聚類算法在電信客戶分類中的應(yīng)用[J].計(jì)算機(jī)仿真, 2011, 28(8): 138-140.GUAN Y H.Application of improved K-means algorithm in telecom customer segmentation[J].Computer Simulation, 2011,28(8): 138-140.

      [7] ZUO G C, ZHOU R H, LI Z Q, et al.Improved K-means algorithm and its CRM in telecom customer segmentation application[J].Computer Systems & Applications, 2012, 19(11): 155-159.

      [8] FAN G, ZHONG D, YAN F, et al.A hybrid fuzzy evaluation method for curtain grouting efficiency assessment based on an AHP method extended by D numbers[J].Expert Systems with Applications, 2016(44): 289-303.

      [9] TZENG G H, CHIANG C H, LI C W.Evaluating intertwined effects in e-learning programs: a novel hybrid MCDM model based on factor analysis and DEMATEL[J].Expert Systems with Applications, 2007, 32(4): 1028-1044.

      [10] 原福永, 張曉彩, 羅思標(biāo).基于信息熵的精確特征賦權(quán)K-means聚類算法[J].計(jì)算機(jī)應(yīng)用, 2011, 31(6): 1675-1677.YUAN F Y, ZHANG X C, LUO S B.Accurate property weighted K-means clustering algorithm based on information entropy[J].Journal of Computer Applications, 2011, 31(6): 1675-1677.

      [11] 瞿英, 路亞靜, 劉紫玉, 等.基于 AHP-DEMATEL法的權(quán)重計(jì)算方法研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2016, 46(7): 38-46.QU Y, LU Y J, LIU Z Y, et al.Research on the weight calculation method based on the AHP-DEMATEL method[J].Mathematics in Practice and Theory, 2016, 46(7): 38-46.

      [12] 丁曉琴, 張德生.基于 AHP和 cRITIc綜合賦權(quán)的 K-means算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用, 2016, 25(7): 182-186.DING X Y, ZHANG D S.K-means algorithm based on synthetic weighting of AHP and CRITIC[J].Computer Systems & Applications, 2016, 25(7): 182-186.

      [13] 王俊鳳, 閆文.基于AHP-DEMATEL模型的黑龍江省農(nóng)民專業(yè)合作社內(nèi)部資金互助的影響元素分析[J].金融理論與實(shí)踐,2016(7): 86-90.WANG J F, YAN W.Analysis of the influence of mutual funds between farmer cooperatives in Heilongjiang province based on AHP-DEMATEL model[J].Financial Theory and Practice,2016(7): 86-90.

      [14] HUNG S J.Activity-based divergent supply chain planning for competitive advantage in the risky global environment: a DEMATEL-ANP fuzzy goal programming approach[J].Expert Systems with Applications, 2011, 38(8): 9053-9062.

      [15] 陳光平, 王文鵬, 黃俊.一種改進(jìn)初始聚類中心選擇的K-means算法[J].小型微型計(jì)算機(jī)系統(tǒng), 2012, 33(6): 170-173.CHEN G P, WANG W P, HUANG J.Improved initial clustering center selection method for K-means algorithm[J].Journal of Chinese Computer Systems, 2012, 33(6): 170-173.

      [16] 熊平, 顧霄.基于特征權(quán)重最優(yōu)化的 K-means 聚類算法[J].微電子學(xué)與計(jì)算機(jī), 2014(4): 40-43.XIONG P, GU X.K-means clustering algorithm based on feature weight optimization[J].Microelectronics Computer,2014(4): 40-43.

      [17] 劉春, 鄒海鋒, 向勇.大數(shù)據(jù)環(huán)境下電信數(shù)據(jù)服務(wù)能力開放研究[J].電信科學(xué), 2014, 30(3): 156-161.LIU C, ZOU H F, XIANG Y.Research on telecom data service open ability under the environment of big data[J].Telecommunications Science, 2014, 30(3): 156-161.

      [18] 韓晶, 張智江, 王健全, 等.面向統(tǒng)一運(yùn)營(yíng)的電信運(yùn)營(yíng)商大數(shù)據(jù)戰(zhàn)略[J].電信科學(xué), 2014, 30(11): 154-158.HAN J, ZHANG Z J, WANG J Q, et al.The unified-operation-oriented big data strategy for telecom operators[J].Telecommunications Science, 2014, 30(11): 154-158.

      [19] 曹旭, 曹瑞彤.基于大數(shù)據(jù)分析的網(wǎng)絡(luò)異常檢測(cè)方法[J].電信科學(xué), 2014, 30(6): 152-156.CAO X, CAO R T.Network anomaly prediction method based on big data[J].Telecommunications Science, 2014, 30(6):152-156.

      [20] 谷紅勛, 楊珂.基于大數(shù)據(jù)的移動(dòng)用戶行為分析系統(tǒng)與應(yīng)用案例[J].電信科學(xué), 2016, 32(3): 139-146.GU H X, YANG K.Mobile user behavior analysis system and applications based on big data [J].Telecommunications Science,2016, 32(3): 139-146.

      猜你喜歡
      參考文獻(xiàn)語(yǔ)音權(quán)重
      權(quán)重常思“浮名輕”
      The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      Study on the physiological function and application of γ—aminobutyric acid and its receptors
      東方教育(2016年4期)2016-12-14 13:52:48
      The Review of the Studies of Trilingual Education in inghai
      固阳县| 礼泉县| 凤庆县| 仁寿县| 阳东县| 沙田区| 小金县| 紫云| 崇仁县| 湟中县| 巩义市| 丹江口市| 武清区| 孟津县| 内丘县| 荆门市| 上蔡县| 塘沽区| 航空| 上栗县| 南澳县| 镇原县| 通河县| 韶山市| 华亭县| 衡水市| 鹤岗市| 廊坊市| 富裕县| 广宁县| 修水县| 茂名市| 浪卡子县| 晋城| 满洲里市| 阳西县| 黄陵县| 吉木萨尔县| 鄂伦春自治旗| 驻马店市| 磐石市|