• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于樸素貝葉斯分類算法的金融數(shù)據(jù)挖掘研究

      2016-10-21 17:53:31段繼磊
      今日財富 2016年6期
      關(guān)鍵詞:數(shù)據(jù)分類

      段繼磊

      摘要:介紹了樸素貝葉斯分類算法的理論,研究了樸素貝葉斯算法在信用卡金融數(shù)據(jù)挖掘中的應(yīng)用。實驗結(jié)果表明了樸素貝葉斯算法是一種非常有效的算法。

      關(guān)鍵詞:樸素貝葉斯算法;分類;數(shù)據(jù)

      Abstract:In this paper, the na?ve bayes classification algorithm theory is introduced. The application of na?ve bayes classification algorithm in credit financial data mining is researched. The experimental results indicate that the na?ve bayes classification algorithm is an effective algorithm.

      Key words:Na?ve bayes algorithm; Data mining; Credit

      一、引言

      近年來,數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域中的應(yīng)用備受關(guān)注[1]。樸素貝葉斯分類(Naive Bayes,NB)方法[2,3]是一種著名的數(shù)據(jù)挖掘算法,它基于貝葉斯理論,具有簡單而有效的特征。本文首先說明了樸素貝葉斯分類算法的原理和方法,而后研究了樸素貝葉斯算法在信用卡金融數(shù)據(jù)挖掘中的應(yīng)用,實驗結(jié)果表明了樸素貝葉斯算法是一種非常有效的分類算法。

      二、樸素貝葉斯分類算法

      對于任意樣本 ,其特征為 ,特征中 表示樣本 中出現(xiàn)的第i個特征項。樣本的類別為k個,即 。假設(shè)在給定的條件下,特征項之間不存在任何依賴關(guān)系,都是相互獨立的。那么根據(jù)樸素貝葉斯分類算法,樣本 與已知各類的條件概率 定義為: (1)

      因為 對計算結(jié)果沒有影響,所以可以省略。而 (2)

      其中, 和 可以通過如下的公式來估計: (3) (4)

      其中 表示類 中的樣本數(shù)目, 為特征項 在類 中出現(xiàn)的詞頻總數(shù)。

      對樣本 進行分類,就是按公式(1)計算所有樣本類在給定 情況下的概率,概率值最大的那個類就是 所在的類,即:

      (5)

      三、實驗分析

      (一) 數(shù)據(jù)集

      實驗中采用的數(shù)據(jù)集是在UCI數(shù)據(jù)庫[4]中的Credit Approval數(shù)據(jù)集。Credit Approval數(shù)據(jù)集包括了16個屬性,共有690個樣本。

      (二)評價指標

      本文采用精度來衡量分類算法的性能。分類器對樣本的分類結(jié)果有4種情況。

      TP:被正確地分類為屬于此類別的樣本數(shù)量。

      TN:被正確地分類為不屬于此類別的樣本數(shù)量。

      FP:被錯誤地分類為屬于此類別的樣本數(shù)量。

      FN:被錯誤地分類為不屬于此類別的樣本數(shù)量。

      根據(jù)以上4種情況,分類性能可以按照精度來評價,精度的定義如下:

      (6)

      (三) 分類結(jié)果

      對于分類性能的評價方法,實驗中采用的是十折交叉驗證法。作為對比分析,實驗中也采用ZeroR算法對數(shù)據(jù)集進行分類,得到其分類結(jié)果。樸素貝葉斯分類算法、ZeroR算法在Credit Approval數(shù)據(jù)集上的分類精度如圖1所示。

      圖1 兩種算法的分類精度比較

      圖1中的實驗結(jié)果表明樸素貝葉斯算法的分類精度高于ZeroR的分類精度。樸素貝葉斯算法在數(shù)據(jù)集上得到的分類精度是77.6%,而ZeroR算法的分類精度為55.5%。

      四、結(jié)論

      本文介紹了樸素貝葉斯分類算法的原理和方法,研究了樸素貝葉斯分類算法在金融數(shù)據(jù)挖掘中的應(yīng)用實例。實驗結(jié)果表明了樸素貝葉斯分類算法是一種有效的分類方法,在金融數(shù)據(jù)挖掘中有很好的應(yīng)用價值。

      參考文獻:

      [1] 馬超群.金融數(shù)據(jù)挖掘,科學(xué)出版社, 2007.

      [2]Lewis, D.D. Naive (Bayes) at forty: the independence assumption in information retrieval. In: The 10th Euro-pean Conference on Machine Learning, New York: Springer. 1998: 4-15.

      [3] 余民杰,王元亮. 樸素貝葉斯分類算法研究,商情, 2012(8):226-227.

      [4] BLAKE C L, MERZ C J. UCI repository of machine learning databases. http://www.ics.uci.edu/~mlearn/MLRepository.html.2016.

      猜你喜歡
      數(shù)據(jù)分類
      分類算一算
      垃圾分類的困惑你有嗎
      大眾健康(2021年6期)2021-06-08 19:30:06
      分類討論求坐標
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      溫室控制系統(tǒng)及控制方法的研究
      公路工程試驗檢測存在的問題及措施
      價值工程(2016年30期)2016-11-24 16:39:03
      焊接工藝仿真訓(xùn)練系統(tǒng)中焊點數(shù)據(jù)的建立方法
      一種借助數(shù)據(jù)處理構(gòu)建的智能食堂管理系統(tǒng)
      數(shù)據(jù)化藝術(shù)的生成探究
      天津市| 丹东市| 张家川| 分宜县| 汉寿县| 屏山县| 塘沽区| 石林| 皋兰县| 神农架林区| 米易县| 多伦县| 潮安县| 柏乡县| 浦县| 金川县| 通道| 赤壁市| 巩留县| 西贡区| 乌鲁木齐市| 桃江县| 海阳市| 锡林浩特市| 泽库县| 康乐县| 海林市| 建德市| 阜宁县| 南投市| 大方县| 蒲江县| 吉木萨尔县| 双牌县| 札达县| 宜章县| 定日县| 桃园市| 平凉市| 吉木萨尔县| 鹿邑县|