• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于客戶流失預測的特征選擇

      2013-04-29 09:39:47唐靜
      決策與信息·下旬刊 2013年6期
      關鍵詞:特征選擇類別分類器

      唐靜

      摘 要 特征選擇是數據預處理的一個重要手段,本文介紹了特征選擇的幾種常用方法:過濾法,封裝法及這兩種方法的混合,最后結合客戶流失預測這個特定的問題提出適當的方法。

      關鍵字 客戶流失預測 特征選擇 神經網絡

      中圖分類號:C93;F830. 文獻標識碼:A

      一、引言

      特征選擇作為一個重要的數據預處理手段,對于我們一個特定的客戶關系管理問題而言,客戶流失預測是一個典型的二元分類問題,它將客戶分為流失與不流失,要想建立預測模型,并不是特征越多越好,我們需要選擇與類別變量最相關的那些變量。而我們直接從樣本中得到的數據往往是十分巨大的,從一家企業(yè)可以得到的數據就成千上萬,其特征屬性也會達到幾十甚至上百,為了對樣本進行準確的識別并為分類器的成功設計提供一定的基礎 ,往往需要進行特征選擇,選擇那些對區(qū)別不同類別最有效的特征,而舍去那些對分類毫無關系的無關特征及與其他特征表現(xiàn)性能相似的冗余特征。

      二、特征選擇的算法

      目前普遍使用的是以下三種方法:過濾(Filter)法,封裝(Wrapper)法,嵌入式(Embeded)法,我們這里主要討論前兩種方法及前兩種方法相混合的方法。Filter特征選擇法是基于數據的內在結構信息而不依賴于各種分類算法對子集的評價 ,它一般直接用訓練數據的統(tǒng)計性能評估特征,速度較快。Wrapper特征選擇法依賴于分類器的評價準則,將分類的算法嵌入到特征選擇過程當中,目的是達到最大分類準確率,偏差小,但計算量較大 。而混合的特征選擇過程算是集兩者之長,補兩者之短。

      (一)過濾(Filter)法。

      過濾法是基于單個特征屬性的選擇方法,根據每個特征屬性值進行單個評估該屬性與相關類的關聯(lián)度,再根據每個屬性的評估值進行排序,選擇排序靠前的屬性。

      基于不同的判別標準有多種過濾法,本文在這里僅介紹一種基于Relief的過濾法。

      在Filter算法中,Relief是效果較好的filter特征評估方法,它將屬性區(qū)分“相近”樣本的能力作為評估其重要程度的標準,它可以去掉無關特征,但不能去除冗余,而且他只能用于二元分類問題,所以我們一般是先使用Relief算法刪除不相關屬性,再使用K-means算法對屬性進行聚類,刪除冗余屬性,最后是一個組合的特征選擇算法。下圖為特征與目標值的相關系數。

      (二)封裝法(Wrapper)。

      封裝法是將分類錯誤率作為特征重要性的評價標準,選擇那些可以獲得較高分類性能的特征。

      封裝法主要分為無監(jiān)督的學習(Unsupervised Learning)和有監(jiān)督的學習(Supervised Learning)。無監(jiān)督的學習是在樣本的類別標簽未定的情況下進行數據挖掘的方法,它聚類的目的在于將對分類有影響的特征聚在一起。有監(jiān)督的學習是指已知類別標簽下的數據挖掘。對客戶流失預測這個問題而言,我們已知其類別標簽為“流失”與“不流失”,因此應當用后一種方法。

      在有監(jiān)督的學習中,有許多分類器,而由于神經網絡分類器的容錯性,自適應性和模式識別能力,它適合處理那些含有噪聲的數據,它允許長時間的訓練,輸入的特征之間可以具有高度的相關性 ,所以它非常適合處理客戶流失預測特征選擇這個問題。它的訓練過程是:訓練BP神經網絡,根據網絡的結構參數計算不同的特征對輸出的靈敏度,去除靈敏度小的特征,用剩下的特征組成的特征子集再去訓練BP神經網絡,以此反復,直到子集為空。

      (三)混合特征選擇。

      一般的特征選擇數據樣本較大,時間復雜度較高,所以單用 Filter和Wrapper算法均無法達到很好的效果,而這兩種算法是兩種互補的模式,兩者結合使用效果更佳?;旌咸卣鬟x擇有兩個階段,一是先用過濾法去掉大量的無關特征,大大降低了特征規(guī)模。在第二階段,用封裝法處理剩余的特征來選擇出關鍵特征,下圖為特征選擇基本框架。

      三、基于客戶流失預測的特征選擇方法

      在客戶流失預測這個特定的問題下,可以用K-means算法的方法對屬性進行聚類,然后從每一類里面選擇一部分(比如隨機選一半,這只是最簡單的思路)屬性出來,共同構成一個特征子集,或者者隨機子空間的方法即隨機選擇特征子集,最后以模型在測試集上的總的分類精度,以及各類的精度來選擇出好的屬性。這時候,再將初選后的數據交給封裝法,用它來進一步處理數據。

      這里要以各類的精度來選擇出好的屬性,是因為用于客戶流失預測建模的客戶數據的類別分布往往是不平衡的,很多時候流失客戶與不流失客戶的數量之比能達到1:100 甚至更小。當客戶數據類別分布不平衡時,僅以總的的分類精度來判定很難取得令人滿意的結果,因此我們常常用總的和各類的精度一起作為選擇好屬性的標準。

      如下是這個問題的神經網絡函數定義的部分。

      [Percent1,Percent2,Y11,Y22,P,R,predict]=NN_class(train_data,test_data,NodeNum,Num)

      4個輸入參數是訓練集,測試集,隱層節(jié)點,數據集類別數。

      輸出分別是訓練集分類精度,測試集分類精度,訓練集和測試集的預測輸出,R是混淆矩陣,predict是測試集類別標簽預測值。

      四、結論

      如今特征選擇的方法很多,但如何針對特定的問題提出合理的解決辦法仍需要進一步研究。本文首先提出了特征選擇的常用方法,再詳細介紹了纏繞法與封裝法及混合方法,然后結合客戶流失預測這個問題提出了解決方法,將纏繞法與封裝法結合使用,選擇神經網絡分類器進行研究,可以較好地滿足實際的需求。從現(xiàn)在特征選擇的前沿方向來看,這種混合方法的使用也是一個很值得探索的方向。

      (作者:四川大學商學院2010級管理科學專業(yè)學生)

      注釋:

      楊淑瑩.模式識別與智能計算——Matlab技術實現(xiàn).電子工業(yè)出版社.2011.8.

      周昉,何潔月.生物信息學中基因芯片的特征選擇技術綜述.計算機科學.2007.

      姚旭,王曉丹,等.特征選擇方法綜述.控制與決策.2012.2.

      Tom Mitchell.Machine Learning.機械工業(yè)出版社.2003.1.

      猜你喜歡
      特征選擇類別分類器
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      聯(lián)合互信息水下目標特征選擇算法
      服務類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      晋中市| 德兴市| 肥西县| 民乐县| 中卫市| 清苑县| 鄂伦春自治旗| 驻马店市| 深圳市| 盐池县| 清徐县| 兴隆县| 石家庄市| 霍城县| 吉木乃县| 贡觉县| 咸宁市| 永顺县| 稻城县| 长沙市| 汨罗市| 梁平县| 滕州市| 棋牌| 叙永县| 涟水县| 同仁县| 永定县| 江川县| 临朐县| 大埔区| 万州区| 拜泉县| 九龙坡区| 阳泉市| 汝州市| 望都县| 天门市| 固阳县| 古田县| 临高县|