• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺議數(shù)據(jù)挖掘方法

      2013-05-30 04:52:44楊波李桂倫王云龍
      科技致富向導 2013年8期
      關鍵詞:正例決策樹數(shù)據(jù)挖掘

      楊波 李桂倫 王云龍

      數(shù)據(jù)挖掘的研究融合了多個不同學科領域的技術成果,其方法由人工智能、機器學習的方法發(fā)展而來,結合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學方法及可視化技術,以數(shù)據(jù)源為研究對象,形成了以下幾種數(shù)據(jù)挖掘的方法。

      1.統(tǒng)計分析方法

      統(tǒng)計分析方法是利用統(tǒng)計學原理對數(shù)據(jù)庫中的數(shù)據(jù)進行分析,從而找出它們之間的關系和規(guī)律的方法。統(tǒng)計分析一直是分析空間數(shù)據(jù)的常用方法,側重空間物體和現(xiàn)象的非空間特性分析。統(tǒng)計分析方法包括線性與非線性分析、相關分析、回歸分析、差異分析、判別分析、Bayes網(wǎng)絡等。統(tǒng)計分析方法的缺點是難以處理字符型數(shù)據(jù),需要具有領域知識和統(tǒng)計知識,一般由具有統(tǒng)計經(jīng)驗的領域專家來完成。

      2.基于集合論的數(shù)據(jù)挖掘方法

      集合論(簡稱集論)是一門研究集合(由一些抽象數(shù)學對象構成的整體)的數(shù)學理論。集論(加上邏輯和謂詞演算)是數(shù)學的公理化基礎之一,通過集合、元素及成員關系來形式化地表示其他數(shù)學對象?;诩险摰臄?shù)據(jù)挖掘方法包括覆蓋正例排斥反例方法、概念層次網(wǎng)絡方法和基于粗糙集理論方法,其中應用最廣泛的是粗糙集(RS)理論方法。這三種方法中都使用了集合理論中的一些概念和原理,并涉及到大量的集合運算。

      粗糙集理論(Rough Set Theory)是波蘭學者Z.Pawlak在1982年提出的,它被廣泛研究并應用于不精確、不確定、不完全的信息分類分析和知識獲取。粗糙集(RS)作為集合論的擴展,是一種用于研究不完全和不完整信息描述的數(shù)據(jù)挖掘技術,它能夠在缺少數(shù)據(jù)先驗知識的情況下,以考察數(shù)據(jù)的分類能力為基礎,解決模糊或不確定數(shù)據(jù)的分析和處理。

      覆蓋正例排斥反例方法是利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。按此思想循環(huán)所有正例種子,將得到正例的規(guī)則(選擇子的合取式),比較典型的算法有Michalski的AQ11方法、洪家榮改進的AQ15方法和AE5方法。

      概念層次網(wǎng)絡(HNC)理論是關于自然語言理解處理的一個理論體系,它建立了網(wǎng)絡式概念符號基元體系,即概念表述的數(shù)學表示式,這個表示式能夠與自然語言的詞語建立起語義映射關系,同時它是高度數(shù)字化的,每一個符號基元(字母或數(shù)字)都具有確定的意義,可充當概念聯(lián)想的激活因子。語義網(wǎng)絡是樹狀的分層結構,每一層的若干節(jié)點分別用數(shù)字來表示,網(wǎng)絡中的任何一個節(jié)點都可以通過從最高層開始到該節(jié)點結束的一串數(shù)字唯一確定。HNC通過概念符號基元體系把自然語言映射到概念空間,數(shù)字化的概念表達式可以樹形展開,這樣才能充分利用概念符號化帶來的優(yōu)點對概念進行各種運算和操作。

      3.決策樹方法

      決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程,其表現(xiàn)形式是類似于樹形結構的流程圖。首先,以信息論中的信息增益原理為基礎,尋找數(shù)據(jù)庫中最大信息量的字段,建立決策樹的根節(jié)點;然后根據(jù)字段的不同屬性值建立樹的分枝,再在每個分枝子集中遞歸建立樹的下層分枝和節(jié)點,非葉子節(jié)點表示屬性,最下層的葉子節(jié)點表示數(shù)據(jù)集的子類類別,這樣便生成一棵決策樹;最后對決策樹進行剪枝處理,通過樹形結構產(chǎn)生一組規(guī)則,依照規(guī)則將數(shù)據(jù)集分類。它著眼于從一組無序、沒有規(guī)則的數(shù)據(jù)中推理出決策樹表示形式的分類規(guī)則。決策樹方法的優(yōu)點是決策制定的過程可見,不需要長時間構造過程,描述簡單、易于理解、分類速度快;缺點是很難基于多個變量組合發(fā)現(xiàn)規(guī)則。決策樹方法擅長處理非數(shù)值型數(shù)據(jù),而且特別適合大規(guī)模的數(shù)據(jù)處理。常用的決策樹算法有 CLS算法、ID3 算法、C4.5 算法等。

      4.聚類分析方法

      聚類分析方法是根據(jù)數(shù)據(jù)特征,按一定的距離或相似性系統(tǒng),將數(shù)據(jù)分成一系列相互區(qū)分的類,劃分的標準是類內差別最小、類間差別最大。即將實體對象或抽象對象的集合分組,這個由類似的對象組成的多個類的過程稱為聚類。通過聚類以后,數(shù)據(jù)集就轉化為類集,同類數(shù)據(jù)具有相似的變量值,不同類數(shù)據(jù)的變量值不具有相似性。在知識模式類型無法得知的情況下,可以運用聚類分析法進行分類、識別。按照模式間的相似程度進行自動分類的聚類分析法,能夠將相似度大的模式歸為一類。按聚類過程分,聚類分析法有凝聚算法、分裂算法、增量聚類和劃分聚類。按相似性系統(tǒng),聚類算法可以分成基于距離的方法、基于層次的方法、基于密度的方法以及基于網(wǎng)格的方法。例如,層次方法就是按照一定的層次分解給定的數(shù)據(jù)對象集合,可以分為分裂層次方法和凝聚層次方法。聚類分析法適用于分析樣本之間的內部關系,合理的評價樣本結構。此外,孤立點的檢測也可以應用聚類分析。聚類是為了將某個對象從大量的數(shù)據(jù)中分離出來,而不是簡單地將數(shù)據(jù)集合在一起。目前,聚類分析法已廣泛應用于圖像處理、模式識別、經(jīng)濟分析等多個研究領域。

      5.人工神經(jīng)網(wǎng)絡方法

      神經(jīng)網(wǎng)絡法是一種模擬生物神經(jīng)系統(tǒng)的結構和功能,通過訓練來學習的非線性預測模型,可完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務。神經(jīng)網(wǎng)絡(Nerual Net)指由大量的神經(jīng)元(PE)互連而成的網(wǎng)絡,神經(jīng)網(wǎng)路模型通常由輸入層、中間層(亦稱隱層)和輸出層組成。在每個神經(jīng)元求得輸入值后,再匯總計算總輸入值;由過濾機制比較總輸入值,確定網(wǎng)絡的輸出值??梢酝ㄟ^連接一組神經(jīng)元來模擬復雜行為,當修改連接層的“接度”或權值時,神經(jīng)網(wǎng)絡就進行了學習或“訓練”。

      神經(jīng)網(wǎng)絡的學習方法主要表現(xiàn)在上述權值的修改過程上。這種方法模擬了人腦神經(jīng)元結構,通過大量神經(jīng)元構成的網(wǎng)絡來實現(xiàn)自適應的非線性動態(tài)系統(tǒng),具有對非線性數(shù)據(jù)快速建模的能力,通過對訓練集的反復學習來調節(jié)自身的網(wǎng)絡結構和連接權值,并對未知的數(shù)據(jù)進行分類和預測。其優(yōu)點是具有自學習、自組織、自適應、抗干擾、分布存儲、聯(lián)想記憶、非線性學習、大規(guī)模并行處理等功能,對復雜情況能得到精確的預測結果;缺點是不適合處理高維度變量,具有“黑箱”性,人們難以理解網(wǎng)絡的學習和決策過程,輸出結果也難以解釋。目前,神經(jīng)網(wǎng)絡法主要用于數(shù)據(jù)挖掘的分類、聚類知識以及特征的挖掘過程。

      6.遺傳算法

      遺傳算法是一種采用遺傳結合、遺傳交叉變異及自然選擇等操作來生成實現(xiàn)規(guī)則的、基于進化理論的機器學習方法。它的基本觀點是“自然選擇,適者生存”,在設計中使用抽象于生物進化過程的基于自然選擇和生物遺傳機制的優(yōu)化技術;它由繁殖(選擇)、交換(重組)和變異(突變)三個基本算子組成,具有隱含并行性、易于和其他模型結合等性質。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡,提高神經(jīng)網(wǎng)絡的可理解性,解決其他技術難以解決的問題。遺傳算法在問題解決過程中不是針對參數(shù)本身,而是針對通過參數(shù)集進行編碼的基因個體,使其可對一些復雜的結構對象(集合、序列、樹、圖、表等)進行操作。利用對所有個體進行處理的方法,可以探索空間中的多個解,使遺傳算法具有較好的全局搜索特性。它的主要優(yōu)點是可以處理許多數(shù)據(jù)類型,同時可以并行處理各種數(shù)據(jù),對問題的種類具有很強的適應性;缺點是需要的參數(shù)太多,編碼困難,一般計算量較大,從遺傳算法自身的角度考察,遺傳算法實際上是一種最難以理解和開發(fā)難度最大的算法。

      猜你喜歡
      正例決策樹數(shù)據(jù)挖掘
      小學生舉例表現(xiàn)與概念理解的相關性研究
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      基于概念形成的教學研究
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于決策樹的出租車乘客出行目的識別
      高中數(shù)學概率教學中的誤區(qū)與應對策略分析
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      桐柏县| 西安市| 来宾市| 海宁市| 淮阳县| 修文县| 张北县| 海安县| 临潭县| 湖口县| 阿拉善右旗| 惠州市| 普格县| 临澧县| 云霄县| 林口县| 昔阳县| 富蕴县| 久治县| 宁津县| 科技| 胶南市| 北辰区| 韶关市| 藁城市| 东明县| 曲麻莱县| 建瓯市| 咸宁市| 花莲市| 偏关县| 南昌县| 十堰市| 汪清县| 周宁县| 修文县| 香格里拉县| 左云县| 乌拉特前旗| 睢宁县| 酒泉市|