網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.tp.20150527.1021.001.html
基于細(xì)精度關(guān)聯(lián)規(guī)則挖掘的電信客戶流失分析
梁路,王彪,王劍輝,劉冬寧
(廣東工業(yè)大學(xué) 計算機學(xué)院,廣東 廣州 510006)
摘要:用決策樹等常規(guī)關(guān)聯(lián)規(guī)則方法分析電信客戶流失問題時,存在屬性相關(guān)性不夠精細(xì)的問題,即無法剖析屬性的內(nèi)在結(jié)構(gòu)、內(nèi)涵及隱藏的細(xì)粒度的相關(guān)規(guī)律,同時也無法滿足海量電信數(shù)據(jù)分析的需求。采用細(xì)精度關(guān)聯(lián)規(guī)則挖掘解決上述問題,從邏輯學(xué)角度提出用二進制編碼的方法對屬性進行分解,用其構(gòu)造正負(fù)訓(xùn)練樣本集,然后進行OCAT關(guān)聯(lián)規(guī)則挖掘,并加入啟發(fā)式規(guī)則加快收斂速度,以節(jié)省時間和內(nèi)存開銷。實驗結(jié)果表明,基于這種方法產(chǎn)生的關(guān)聯(lián)規(guī)則提高了細(xì)精度,同時易于實施并行計算和提高效率,能更好地滿足當(dāng)前電信應(yīng)用需求。
關(guān)鍵詞:電信客戶流失;細(xì)精度;關(guān)聯(lián)規(guī)則;邏輯方法;OCAT;啟發(fā)式規(guī)則
DOI:10.3969/j.issn.1673-4785.201404050
中圖分類號:TP182 文獻標(biāo)志碼:A
收稿日期:2014-04-27. 網(wǎng)絡(luò)出版日期:2015-05-27.
基金項目:國家“863”計劃重大項目(2013AA01A212);國家自然科學(xué)基金資助項目(61272067, 61104156);廣東省自然科學(xué)基金資助項目(9451009001002777).
作者簡介:
中文引用格式:梁路,王彪,王劍輝,等. 基于細(xì)精度關(guān)聯(lián)規(guī)則挖掘的電信客戶流失分析[J]. 智能系統(tǒng)學(xué)報, 2015, 10(3): 407-413.
英文引用格式:LIANG Lu, WANG Biao, WANG Jianhui, et al. Analysis of telecom customer churn based on fine-grained association rule mining[J]. CAAI Transactions on Intelligent Systems, 2015, 10(3): 407-413.
Analysis of telecom customer churn based on
fine-grained association rule mining
LIANG Lu, WANG Biao, WANG Jianhui, LIU Dongning
(Faculty of Computer Science, Guangdong University of Technology, Guangzhou 510006, China)
Abstract:When using traditional association rule mining such as decision tree to analyze the problem of telecom customer churn, we always meet the problem that the dependency of attributes are not enough fine, which means traditional methods not only cannot analyze the internal structure and hidden fine-grained related rules of attributes, but also cannot satisfy the needs of analyzing massive telecom data. In this paper, we solve the above problems by using fine-grained association rule mining. We firstly design a binary coding method from logic viewpoint to break attributes to segments, and then build the positive and negative training sample sets based on segments. In experiment we adopt the one clause at a time (OCAT) algorithm on association rule mining for speeding up the convergence speed and saving the overhead of time and memory. Finally, the experimental result shows that this method improves the fine-grained of the association rule, which can be easily used in parallel computing to raise efficiency, and satisfy the requirements of current telecom application.
Keywords:telecom customer churn; fine grain; association rules; logic method; one clause at a time (OCAT); heuristic rules
通信作者:王彪. E-mail: wangbiao_gdut@163.com.
當(dāng)前各電信企業(yè)市場競爭越演越烈,為了提高客戶忠誠度,迫切要求企業(yè)借助于對日益龐大的歷史數(shù)據(jù)進行分析,制定更好的技術(shù)方案和營銷策略。然而影響客戶忠誠度的因素非常復(fù)雜,營銷人員不通曉技術(shù),技術(shù)人員又不精于營銷,且數(shù)據(jù)挖掘是目前最有效的數(shù)據(jù)分析手段之一,用于發(fā)現(xiàn)大量數(shù)據(jù)所隱含的各種規(guī)律[1],因此選擇一種合適的數(shù)據(jù)挖掘方法極為重要。目前常用的方法是關(guān)聯(lián)規(guī)則挖掘[2],因為其能夠比較直觀地得出各因素之間的關(guān)系,而且操作過程簡單,結(jié)果的可解釋性強[3]。但是,現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘方法均無法進一步發(fā)現(xiàn)隱藏在屬性內(nèi)部的相關(guān)規(guī)律,并且在面向海量數(shù)據(jù)挖掘時效率很低。
目前用于電信客戶流失預(yù)測的方法主要可分為3類[4]:第1類方法以傳統(tǒng)的統(tǒng)計學(xué)理論為基礎(chǔ),主要包括聚類、貝葉斯分類器、決策樹和邏輯回歸等。如Kim等[5]曾采用邏輯回歸方法對韓國部分移動客戶進行了流失預(yù)測分析,探討了韓國移動電信市場相關(guān)因素在客戶流失和忠誠度之間的關(guān)系,為保持客戶的忠誠度提供了幫助。第2類方法以人工智能理論為基礎(chǔ),主要包括人工神經(jīng)網(wǎng)絡(luò)和進化學(xué)習(xí)等。如Mozer等[6]曾采用人工神經(jīng)網(wǎng)絡(luò)方法結(jié)合數(shù)據(jù)抽樣等方法建立了客戶流失預(yù)測模型,并為某電信公司進行了客戶流失預(yù)測,通過與決策樹等方法對比,發(fā)現(xiàn)采用該方法產(chǎn)生的關(guān)聯(lián)規(guī)則預(yù)測效果更好,準(zhǔn)確率更高。第3類方法以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ),其典型代表為支持向量機方法。如鄺濤等[7]采用基于代價敏感學(xué)習(xí)的支持向量機模型對某電信公司的客戶數(shù)據(jù)進行挖掘,并通過與神經(jīng)網(wǎng)絡(luò)等方法對比,發(fā)現(xiàn)該方法能獲得較高的預(yù)測精度和覆蓋率,并能在某種程度上解決了數(shù)據(jù)集非平衡性等問題。
盡管以上3類方法被大量使用,但它們都忽略了屬性內(nèi)在結(jié)構(gòu)之間的細(xì)粒度的相關(guān)規(guī)律,即存在關(guān)聯(lián)規(guī)則不夠精細(xì)的問題;并且在用于海量數(shù)據(jù)分析時計算量大、效率低,難以及時反映客戶的流失傾向,因此不能完全滿足當(dāng)前電信應(yīng)用的需求。因此,本文的思路是把每個獨立的屬性“打碎”,即分解得到細(xì)粒度的“屬性片段”,以提高關(guān)聯(lián)規(guī)則的fine精度[8],再基于屬性片段采用合適的關(guān)聯(lián)規(guī)則挖掘算法,最后得到的關(guān)聯(lián)規(guī)則要易于對海量數(shù)據(jù)實施并行計算提高效率,從而可以更好地及時定位影響客戶流失的關(guān)鍵因素,或發(fā)現(xiàn)一些隱藏的關(guān)鍵規(guī)律,使其能在電信客戶流失預(yù)測中具有更大的應(yīng)用空間。
1電信數(shù)據(jù)挖掘分析與改進
為了得到屬性內(nèi)在相關(guān)規(guī)律及方便實現(xiàn)并行運算,采用了基于邏輯的細(xì)精度關(guān)聯(lián)規(guī)則挖掘方法。首先提出了與領(lǐng)域相關(guān)的屬性分解方法,即對屬性值域進行合適的分類以得到“屬性片段”,再對每個分類進行二進制編碼。而這樣變化后的數(shù)據(jù)并不適合采用決策樹和聚類等傳統(tǒng)方法進行處理,于是我們結(jié)合了E. Triantaphyllou提出的基于邏輯的OCAT方法[9]35-45進行關(guān)聯(lián)規(guī)則挖掘。這種方法的核心是通過某種基于邏輯的方法尋找一系列子式,再由這些子式合取得到關(guān)聯(lián)規(guī)則表達(dá)式,該表達(dá)式由二進制化后的“屬性片段”構(gòu)成,不僅能直觀地展現(xiàn)屬性的內(nèi)部結(jié)構(gòu)和內(nèi)涵,而且這種由合取范式表示的關(guān)聯(lián)規(guī)則特別適合采用并行計算進行海量數(shù)據(jù)分析,從而提高運算效率。圖1展示了該方法的具體步驟:數(shù)據(jù)預(yù)處理(數(shù)據(jù)清洗、數(shù)據(jù)二進制編碼和正負(fù)樣本構(gòu)造)、關(guān)聯(lián)規(guī)則的挖掘、結(jié)果檢驗以及評估反饋。
圖1 細(xì)精度關(guān)聯(lián)規(guī)則挖掘流程 Fig. 1 Process of fine-grained association rule mining
1.1數(shù)據(jù)預(yù)處理
文中數(shù)據(jù)集為某電信運營商某地區(qū)數(shù)據(jù)倉庫中的客戶原始?xì)v史數(shù)據(jù),總共有176 921條記錄,其中正??蛻粲涗洖?56 885條,流失客戶記錄20 036條。
1)數(shù)據(jù)清洗與屬性變換。
2)數(shù)據(jù)二進制編碼。
考慮到屬性值域分類的語義差別,及其與客戶流失問題的相關(guān)性差別,采用了與領(lǐng)域相關(guān)的二進制編碼方法將屬性“掰碎”,即根據(jù)記錄的取值相關(guān)性進行分類。經(jīng)過分析,發(fā)現(xiàn)實驗用到的電信用戶數(shù)據(jù)集具有典型的密度特性,因此采用了基于密度的可以快速發(fā)現(xiàn)任意形狀類的DBSCAN分類算法[11]完成從“屬性”到“屬性片段”的分解。另外,此數(shù)據(jù)集不同屬性值域區(qū)間的差異較大,這可能會影響分類的效果,因此還需要對這些屬性進行常用的歸一化處理。具體的步驟是:首先使用mapminmax(x,min,max)函數(shù)將值域歸一到區(qū)間[0,1],其次以每個屬性數(shù)據(jù)結(jié)合函數(shù)ones(n,1)產(chǎn)生的數(shù)據(jù)作為輸入x(其中n為樣本的個數(shù)),通過經(jīng)驗以及多次實驗確定較優(yōu)的參數(shù)。結(jié)果集中可能會存在孤立點,較優(yōu)的參數(shù)能夠減少孤立點的個數(shù),并且產(chǎn)生較為合理的分類。在實際應(yīng)用中,孤立點的數(shù)量往往遠(yuǎn)小于正常數(shù)據(jù)[12],因此其影響比較小,故本文就近將孤立點分配至臨近的區(qū)間(相應(yīng)的孤立點處理方法作為后續(xù)工作)。經(jīng)過DBSCAN運算后,便得到了屬性分類,即“屬性片段”,這些分類結(jié)果直接反映了其屬性值自然特有的內(nèi)在規(guī)律,由事物本身決定,不受人為控制,因此對后續(xù)進一步分析隱藏在它們之間的相關(guān)性有重要的指導(dǎo)作用。最后,再根據(jù)分類的個數(shù),使用若干二進制位對屬性片段進行二進制編碼。以屬性year_local_fee為例,其被劃分為7個區(qū)間,包含65個孤立點,將這些孤立點按照就近原則并入7個區(qū)間內(nèi),故以3位二進制位來表示,如表1所示。實驗中各屬性的分類數(shù)如表2所示。
表 1 屬性year_local_fee的二進制編碼對應(yīng)關(guān)系
表 2 所有屬性的分類數(shù)
3)正負(fù)樣本的構(gòu)造。
首先,根據(jù)數(shù)據(jù)集中churn標(biāo)志位(標(biāo)志客戶流失信息的屬性)的值,將整個數(shù)據(jù)集的用戶劃分為已經(jīng)流失的客戶(churn值為0)和未流失的客戶(churn值為1)2類。其次,為了得到關(guān)聯(lián)規(guī)則挖掘中需要的訓(xùn)練集和檢驗集,實驗分別隨機抽取未流失客戶和已流失客戶中四分之三的數(shù)據(jù)[13]來構(gòu)造訓(xùn)練集數(shù)據(jù)的正負(fù)樣本(用E+和E-來分別表示正樣本和負(fù)樣本),剩余的數(shù)據(jù)用作檢驗集。最后,通過前后10次進行隨機抽取得到正負(fù)樣本,并分別計算結(jié)果,進一步驗證數(shù)據(jù)挖掘結(jié)果的穩(wěn)定性、可信性和魯棒性。在構(gòu)造E+和E-時,采用了如表3所示的屬性排列順序及其編碼對應(yīng)關(guān)系。
表 3 屬性與二進制編碼對應(yīng)關(guān)系
1.2OCAT關(guān)聯(lián)規(guī)則挖掘
經(jīng)過數(shù)據(jù)預(yù)處理得到的二進制數(shù)據(jù)不能采用決策樹和聚類等傳統(tǒng)方法處理,同時為了讓關(guān)聯(lián)規(guī)則易于實施并行計算,實驗中采用了OCAT方法,該方法每次產(chǎn)生一條最優(yōu)子式(接受全部正樣本,拒絕盡可能多的負(fù)樣本),最終將子式通過合取操作得到關(guān)聯(lián)規(guī)則。但是,OCAT產(chǎn)生單個子式的過程中剪枝的數(shù)量較少,導(dǎo)致收斂速度緩慢,并且需要存儲大量的葉子結(jié)點的限界,導(dǎo)致運算時耗費了極大的時間和空間。因此,實驗中最終引入了啟發(fā)式規(guī)則[9]73-80進行快速剪枝,將時間復(fù)雜度從指數(shù)級別降到多項式級別,這將非常適合數(shù)據(jù)量龐大的電信數(shù)據(jù)挖掘。
啟發(fā)式方法中根據(jù)POS(ak)/NEG(ak)的比值逆序排列屬性(片段)ak(ak為Ai或Ai)形成有序集合A,挑選A中前α(%)(閾值)的元素生成待選集合L。關(guān)聯(lián)規(guī)則的構(gòu)造過程即不斷地從待選集合L中隨機選出屬性(片段)ak加入子式的過程,該過程持續(xù)到關(guān)聯(lián)規(guī)則完成或集合L為空。若α值過小,則關(guān)聯(lián)規(guī)則不完整,導(dǎo)致預(yù)測結(jié)果準(zhǔn)確度下降;反之,若α值過大,則對客戶流失影響很小的屬性(片段)可能會包含在關(guān)聯(lián)規(guī)則中,從而導(dǎo)致關(guān)聯(lián)規(guī)則的子句過長、數(shù)量過多,以及屬性間的相關(guān)性不夠強。由于二進制編碼方法和關(guān)聯(lián)規(guī)則挖掘過程的隨機性都會影響所生成的關(guān)聯(lián)規(guī)則的準(zhǔn)確性,故需要在實驗過程中進行多級反饋和修正?;趩l(fā)式的OCAT算法流程如下。
輸入:正負(fù)樣本E+和E-。//E+、E-分別是未流失和已流失客戶數(shù)據(jù)集。
輸出:程序執(zhí)行多次所得最優(yōu)的關(guān)聯(lián)規(guī)則C,其規(guī)范形式為式(1)所示,其中析取子式由屬性片段析取得到,并能保證子式的數(shù)量n最少,且子式中屬性片段的數(shù)量也是最少。
(1)
初始化E+、E-和C=?
Do While (E-≠?)
重置集合A,Ci=?;//A為二進制編碼
屬性片段ak的集合,ak為Ai或Ai
Do While (E+≠?)
1) 根據(jù)POS(ak)/NEG(ak)的比值逆序排
列A中的元素ak(如果NEG(ak)為零,
則將POS(ak)作為它的值);
2) 選擇有序集A中前α(%)的元素生成
待選集合L;
3)從L中隨機選擇屬性ak加入到Ci中;
4)E+←E+-E+(ak); //E+(ak)為包含
ak時Ci所能接受的E+的中的元素集合
5)A←A-ak; //將ak從集合A中剔除
6)對所有ak∈A重新計算POS(ak)的值;
Repeat
7)C←Ci∧C;//將子式Ci合取到關(guān)聯(lián)
規(guī)則C中
8)E-←E--E-(C); //E- (C)為C
目前所能拒絕的E-中的元素集合
9)重置E+;
Repeat
2細(xì)精度關(guān)聯(lián)規(guī)則挖掘
為了驗證上述方法在預(yù)測客戶流失過程中的可行性及有效性,我們設(shè)計并實現(xiàn)了各個過程。實驗環(huán)境為1)CPU/內(nèi)存/硬盤:AMD Athlon(tm)Ⅱ X2215/DDR2 4 GB/320 GB 7 200 轉(zhuǎn)/min;2)平臺/環(huán)境/語言Windows 8.1 64 bit操作系統(tǒng)、Microsoft Visual Studio 2013/C、C#。
為了驗證加入啟發(fā)式規(guī)則后算法的收斂效果,在相同正負(fù)樣本和相同環(huán)境下進行了時間與空間消耗的對比實驗。通過多次實驗,選取的負(fù)樣本基數(shù)為50,這種大小的樣本空間可以讓OCAT方法的耗時不會太大,又能明顯比較出2種方法在相同數(shù)據(jù)集上的時間耗費差異。在改變正樣本的基數(shù)時,分別使用上述2種方法的運算時間對比如圖2(a)所示。同理,將正樣本基數(shù)固定為10,負(fù)樣本基數(shù)從50開始,每次增加10條負(fù)樣本記錄,一直到100條,此時得到的運算時間對比如圖2(b)所示。此外,在300條正樣本與100條負(fù)樣本情況下,對二者的內(nèi)存占用情況進行對比,其中圖2(c)為未運行程序時的內(nèi)存占用,圖2(d)與圖2(e)分別為使用OCAT方法與加入啟發(fā)式方法后的內(nèi)存占用情況。
(a)正樣本數(shù)-時間關(guān)系
(b)負(fù)樣本數(shù)-時間的關(guān)系
(c)電腦空閑時的內(nèi)存
(d)未加入啟發(fā)式時內(nèi)存
(e)加入啟發(fā)式后內(nèi)存
(f)α值-準(zhǔn)確度的關(guān)系 圖2 實驗結(jié)果 Fig. 2 Experiment results
從圖2(a)~(e)可以看出,加入啟發(fā)式規(guī)則之后的方法比OCAT方法所消耗的時間與空間都大大減少,圖2(f)描述了不同的閾值α值對預(yù)測準(zhǔn)確度的影響,體現(xiàn)了其重要性。最后,10次實驗所得的關(guān)聯(lián)規(guī)則之一如式(2)所示。
(2)
該表達(dá)式為關(guān)聯(lián)規(guī)則的布爾表達(dá)式,它由4條析取范式的子式經(jīng)過合取操作得到,其中每條子式均能接受所有的正樣本而拒絕若干負(fù)樣本,所有子式合取而成的關(guān)聯(lián)規(guī)則能接受所有正樣本并且拒絕所有負(fù)樣本。這一結(jié)果具有如下特點:
4)提高了fine精度。10次實驗所得到的關(guān)聯(lián)規(guī)則分別對應(yīng)10條主合取范式,這些主合取范式可以使用矩陣形式表示,式(2)的主合取范式如表4所示。其余9條主合取范式與表4所示的主合取范式的相似度在86.4%~90.2%,體現(xiàn)了結(jié)果的穩(wěn)定性、可信性和魯棒性,說明了提升fine精度的合理性。
表 4 主合取范式形式
注:符號“△”表示取0和1均可,SubF1有256條,SubF2有128條,SubF3有128條,SubF4有1 024條
5)得到了更直觀、清晰的語義解釋。以子式 (A1∨A5∨A10∨A13)為例,若某一客戶數(shù)據(jù)使該子式結(jié)果為0(A1、A5、A10、A13取值均為0),則可以預(yù)測該用戶為流失客戶。根據(jù)A1、A5、A10、A13的取值映射到表3,可以得出在non_fee的3區(qū)間、year_local_fee的2,4,6區(qū)間、r2的3,4區(qū)間與的1,3,5,7區(qū)間共同影響客戶流失,根據(jù)區(qū)間與屬性值對應(yīng)的關(guān)系可知,客戶數(shù)據(jù)符合表5取值的均為流失客戶。
表 5 流失客戶的數(shù)據(jù)特征
3結(jié)束語
針對決策樹等常規(guī)關(guān)聯(lián)規(guī)則方法在電信客戶流失預(yù)測中遇到的屬性相關(guān)性不夠精細(xì),處理大規(guī)模數(shù)據(jù)運算效率低的問題,本文采用了基于邏輯的細(xì)精度關(guān)聯(lián)規(guī)則方法。該方法從邏輯學(xué)角度,通過與領(lǐng)域相關(guān)的二進制化技術(shù)對屬性進行分解,并用得到的二進制數(shù)據(jù)構(gòu)造訓(xùn)練集的正負(fù)樣本,再使用OCAT方法對正負(fù)樣本進行挖掘得出關(guān)聯(lián)規(guī)則。然而,實驗過程中耗費了極大的時間與空間,這表明直接用該方法進行海量電信數(shù)據(jù)的挖掘是不理想的。因此引入了啟發(fā)式規(guī)則對其進行改進,將時間復(fù)雜度從指數(shù)級別降低到多項式級別。最后通過實驗結(jié)果分析,驗證了該方法能進一步體現(xiàn)屬性的內(nèi)在結(jié)構(gòu)、內(nèi)涵及隱藏的細(xì)粒度的相關(guān)規(guī)律,提高了關(guān)聯(lián)規(guī)則的fine精度,并且這種由合取范式表示的關(guān)聯(lián)規(guī)則特別適合實施并行計算,有利于大規(guī)模電信數(shù)據(jù)的處理,因此該方法是滿足目前電信行業(yè)需求的一種較理想的數(shù)據(jù)挖掘方法。
盡管上述方法取得了不錯的效果,但是對于不同數(shù)據(jù)集在具體應(yīng)用時還存在一些困難,如如何更好地結(jié)合領(lǐng)域知識和數(shù)學(xué)方法對屬性進行分解及二進制編碼進而構(gòu)造正負(fù)樣本,如何尋找更好的啟發(fā)式規(guī)則提高運算性能等。另外,當(dāng)數(shù)據(jù)樣本比較小的時候,得到的關(guān)聯(lián)規(guī)則的準(zhǔn)確率不夠高,但在數(shù)據(jù)樣本足夠大的情況下,關(guān)聯(lián)規(guī)則預(yù)測準(zhǔn)確率會比較理想。在今后的工作中,將努力完善本方法的各個環(huán)節(jié),同時找到適用本方法的數(shù)據(jù)集特征,以應(yīng)用到更合適的實際問題中。
參考文獻:
[1]朱揚勇, 熊赟. DNA序列數(shù)據(jù)挖掘技術(shù)[J]. 軟件學(xué)報, 2007, 18(11): 2766-2781.
ZHU Yangyong, XIONG Yun. DNA sequence data mining technique[J]. Journal of Software, 2007, 18(11): 2766-2781.
[2]賀煒, 潘泉, 陳玉春, 等. 關(guān)聯(lián)規(guī)則挖掘與因果關(guān)系發(fā)現(xiàn)的比較研究[J]. 模式識別與人工智能, 2005, 18(3): 328-333.
HE Wei, PAN Quan, CHEN Yuchun, et al. A Comparison between association rule data mining and causal discovery[J]. Pattern Recognition and Artificial Intelligence, 2005, 18(3): 328-333.
[3]毛宇星, 陳彤兵, 施伯樂. 一種高效的多層和概化關(guān)聯(lián)規(guī)則挖掘方法[J]. 軟件學(xué)報, 2011, 22(12): 2965-2980.
MAO Yuxing, CHEN Tongbing, SHI Bole. Efficient method for mining multiple-level and generalized association rules[J]. Journal of Software, 2011, 22(12): 2965-2980.
[4]夏國恩. 客戶流失預(yù)測的現(xiàn)狀與發(fā)展研究[J]. 計算機應(yīng)用研究, 2010, 27(2): 413-416.
XIA Guoen. Research on current situation and development of customer churn prediction[J]. Application Research of Computers, 2010, 27(2): 413-416.
[5]KIM H S, YOON C H. Determinants of subscriber churn and customer loyalty in the Korean mobile telephony market[J]. Telecommunications Policy, 2004, 28(9/10): 751-765.
[6]MOZER M C, WOLNIEWICZ R, GRIMES D B, et al. Predicting subscriber dissatisfaction and improving retention in the wireless telecommunications industry[J]. IEEE Transactions on Neural Networks, 2000, 11(3): 690-696.
[7]鄺濤, 張倩. 改進支持向量機在電信客戶流失預(yù)測的應(yīng)用[J]. 計算機仿真, 2011, 28(7): 329-332.
KUANG Tao, ZHANG Qian. Application of telecom customer churn prediction based on improved support vector machine[J]. Computer Simulation, 2011, 28(7): 329-332.
[8]FOX C, LAPPIN S. Foundations of intensional semantics[M]. New York: Wiley-Blackwell, 2008: 78-82.
[9]TRIANTAPHYLLOU E. Data mining and knowledge discovery via logic-based methods: theory, algorithms, and applications[M]. New York: Springer, 2010.
[10]蔣盛益, 李霞, 鄭琪. 數(shù)據(jù)挖掘原理與實踐[M]. 北京: 電子工業(yè)出版社, 2013: 211-212.
[11]王鑫, 王洪國, 王珺, 等. 數(shù)據(jù)挖掘中聚類方法比較研究[J]. 計算機技術(shù)與發(fā)展, 2006, 16(10): 20-22.
WANG Xin, WANG Hongguo, WANG Jun, et al. Comparison of clustering methods in data mining[J]. Computer Technology and Development, 2006, 16(10): 20-22.
[12]張凈, 孫志揮, 楊明, 等. 基于網(wǎng)格和密度的海量數(shù)據(jù)增量式離群點挖掘算法[J]. 計算機研究與發(fā)展, 2011, 48(5): 823-830.
ZHANG Jing, SUN Zhihui, YANG Ming, et al. Fast incremental outlier mining algorithm based on grid and capacity[J]. Journal of Computer Research and Development, 2011, 48(5): 823-830.
[13]胡文瑜, 孫志揮, 吳英杰. 數(shù)據(jù)挖掘取樣方法研究[J]. 計算機研究與發(fā)展, 2011, 48(1): 45-54.
HU Wenyu, SUN Zhihui, WU Yingjie. Study of sampling methods on data mining and stream mining[J]. Journal of Computer Research and Development, 2011, 48(1): 45-54.
梁路,女,1980年生,副教授、博士,中國計算機學(xué)會協(xié)同計算專業(yè)委員會委員。主要研究方向為協(xié)同計算、云計算和數(shù)據(jù)挖掘。主持和參與國家級、省級自然科學(xué)基金及科技計劃項目,以及校企合作產(chǎn)學(xué)研項目多項。2011年獲廣東省科學(xué)技術(shù)二等獎。發(fā)表學(xué)術(shù)論文30余篇。
王彪,男,1989年生,碩士研究生,主要研究方向為數(shù)據(jù)挖掘及協(xié)同計算。
王劍輝,男,1990年生,碩士研究生,主要研究方向為數(shù)據(jù)挖掘。