• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數據挖掘技術及其發(fā)展

      2009-06-25 11:17:08朱明苑
      科教導刊 2009年28期
      關鍵詞:數據挖掘規(guī)則分類

      朱明苑

      摘要本文就數據挖掘的定義和功能,數據挖掘系統分類,數據挖掘過程 ,現代數據挖掘技術與其發(fā)展以及數據挖掘面臨的問題做了分析。

      關鍵詞數據挖掘技術數據挖掘系統數據挖掘過程

      中圖分類號:TP39文獻標識碼:A

      1 引言

      近年來,數據挖掘引起了極大關注。數據挖掘能夠充分利用了當今服務器的運算能力,將大量數據轉換為有用的信息,其利用了來自統計學、人工智能等一些領域的思想,一些其他領域也起到重要的支撐作用。計算機不斷增長的物理存儲能力和處理能力,使得復雜的數據分析成為可能。為了以種種方法來挖掘數據,理解那些可用的技術,以及對特定的數據存儲如何應用這些技術的理解十分重要。

      2 數據挖掘的定義和功能

      2.1數據挖掘的定義

      2.1.1 數據挖掘的技術定義

      數據挖掘是指從海量數據中挖掘有用知識。

      (1)原始數據可以是結構化或半結構化的,甚至是異構的。

      (2)數據挖掘是一門交叉學科,它涉及到了AI、機器學習、統計學、可視化技術等多個學科領域。

      2.1.2 數據挖掘的商業(yè)定義

      (1)數據挖掘是一種嶄新的商業(yè)信息處理技術,其主要特點是對商業(yè)數據庫中的大量業(yè)務數據進行抽取、轉化、分析和模式化處理,從中提取輔助商業(yè)決策的關鍵知識,即從一個數據庫中自動發(fā)現相關商業(yè)模式。

      (2)數據挖掘可以描述為:按企業(yè)既定業(yè)務目標,對大量的企業(yè)數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。

      2.2數據挖掘的功能

      數據挖掘綜合了各個學科技術,有很多的功能。當前的主要功能以及它們可以發(fā)現的模式類型如下:

      2.2.1概念/類描述:特征化和區(qū)分

      數據可以與類或者是概念相關聯。數據特征化是目標類數據的一般特征或特性的匯總。通常,用戶指定類的數據通過數據庫查詢收集。數據特征的輸出可以用多種形式提供。其中包括餅圖、條圖、曲線、多維數據立方體和包括交叉表在內的多維表。 數據區(qū)分是將目標類對象的一般特性與一個或多個對比類對象的一般特性比較。

      2.2.2關聯規(guī)則和序列模式的發(fā)現

      關聯是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯系。規(guī)則歸納是數據挖掘的一種主要形式,并且是無教師學習系統中最普遍的知識發(fā)現形式。

      2.2.3分類和預測

      分類就是找出一組能夠描述數據集合典型特征的模型(或函數),以便能夠分類識別未知數據的歸屬或類別,即將未知事例映射到某種離散類別之一。在一些情況下,需要預測某數值屬性的值(連續(xù)數值),這樣的分類就被稱為預測。

      2.2.4聚類分析

      聚類:識別出分析對內在的規(guī)則,按照這些規(guī)則把對象分成若干類。分析數據對象,而不考慮已知的類標記。對象根據最大化類內的相似性、最小化類間的相似性的原則進行聚類或分組。所形成的每個簇可以看作一個對象類,由它可以導出規(guī)則。

      2.2.5演變分析

      數據演變分析描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。盡管這可能包括時間相關數據的特征化、區(qū)分、關聯、分類或聚類,這類分析的不同特點包括時間序列數據分析、序列或周期模式匹配和基于類似性的數據分析。

      3 數據挖掘系統分類

      為幫助正確認識數據挖掘系統并準確有效使用合適的數據挖掘系統解決實際問題,這里將對數據挖掘系統分類標準作詳細介紹。一個數據挖掘系統可以按照其所挖掘的數據庫類型進行分類:

      (1)數據庫系統本身就有多個劃分標準,這些數據庫系統均與各自的數據挖掘技術相對應。因此數據挖掘系統可以按照數據庫系統類型進行劃分。(2)若根據數據模型進行分類,就會有關系類型、事務類型、面向對象類型、對象關系類型和數據倉庫類型等數據挖掘系統。(3)若按照所處理數據類型進行劃分,就會有空間數據類型、時序數據類型、文本類型和多媒體類型等數據挖掘系統,或互聯網挖掘系統。(4)其他的系統類型還包括:異構數據挖掘系統和歷史數據挖掘系統。根據所挖掘的知識進行分類,可以根據所挖掘的知識類型對數據挖掘系統進行分類。

      4 數據挖掘的過程

      前面討論了數據挖掘的定義、功能和系統分類,現在關鍵的問題是如何實施,其一般的過程如下:

      般過程包括:定義商業(yè)問題—>建立數據挖掘模型—>分析數據—>數據準備—>數據整理—>建立模型—>評價和解釋—>實施。

      (1)定義商業(yè)問題:在開始知識發(fā)現之前最先的同時也是最重要的要求就是了解數據和業(yè)務問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。

      (2)建立數據挖掘庫:建立數據挖掘庫包括以下幾個步驟:a數據收集;b數據描述;c選擇;d數據質量評估和數據清理;e合并與整合;f構建元數據;g加載數據挖掘庫;h維護數據挖掘庫。

      (3)分析數據:分析的目的是找到對預測輸出影響最大的數據字段,和決定是否需要定義導出字段。如果數據集包含成百上千的字段,那么瀏覽分析這些數據將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協助你完成這些事情。

      (4)數據準備:獲取原始的數據,并從中抽取一定數量的子集,建立數據挖掘庫,其中一個問題是如果企業(yè)原來的數據倉庫滿足數據挖掘的要求,就可以將數據倉庫作為數據挖掘庫。

      (5)數據整理:由于數據可能是不完全的、有噪聲的、隨機的,有復雜的數據結構,就要對數據進行初步的整理,清洗不完全的數據,做初步的描述分析,選擇與數據挖掘有關的變量,或者轉變變量。

      (6)建立模型:建立模型是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分數據建立模型,然后再用剩下的數據來測試和驗證這個得到的模型。有時還有第三個數據集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數據集來驗證模型的準確性。

      (7)評價和解釋:模型建立好之后,必須評價得到結果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數據有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多少。經驗證有效的模型并不一定是正確的模型。因此直接在現實世界中測試模型很重要。先在小范圍內應用,取得測試數據,覺得滿意之后再向大范圍推廣。

      (8)實施:模型建立并經驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的數據集上。

      以上的步驟不是一次完成的,可能其中某些步驟或者全部要反復進行。每一個數據挖掘過程模型都隨著社會發(fā)展、人們需求的改變而不斷發(fā)展。

      5 現代數據挖掘技術與其發(fā)展

      現代數據挖掘技術是指20世紀80年代末所出現的數據挖掘技術,從數據倉庫中提取人們感興趣的、事先不知的、隱含在數據中的信息和知識。

      數據挖掘中的現代挖掘技術按其不同的技術特點,可以分成規(guī)則型、決策樹型、神經網絡、遺傳算法、粗糙集等多種技術。下面主要闡述一下規(guī)則型和決策樹型技術。

      5.1規(guī)則型

      規(guī)則歸納是數據挖掘的一種主要形式,并且是無教師學習系統中最普遍的知識發(fā)現形式。關聯分析的目的是為了挖掘隱藏在數據間的相互關系,即對于給定的一組項目和一個記錄集,通過對記錄集的分析,得出項目集中的項目之間的相關性。項目之間的相關性用關聯規(guī)則來描述,關聯規(guī)則反映了一組數據項之間的密切程度或關系。

      5.2決策樹型

      a.決策樹又稱為判定樹,是運用于分類的一種樹結構。其中的每個內部結點代表對某個屬性的一次測試,每條邊代表一個測試結果,葉結點代表某個類或者類的分布,最上面的結點是根結點。

      b.ID3算法是分類規(guī)則挖掘算法中最有影響的算法。ID3即決策樹歸納。早期的ID算法只能就兩類數據進行挖掘;經過改進后,現在ID算法可以挖掘多類數據。待挖掘的數據必須是不矛盾的、一致的,也就是說,對具有相同屬性的數據,其對應的類必須是唯一的。在ID3算法挖掘后,分類規(guī)則由決策樹來表示。

      6 數據挖掘的主要問題

      數據挖掘技術在社會生活中得到充分運用,但也面臨諸多問題:

      (1)在數據庫中挖掘不同類型的知識 :由于不同的用戶可能對不同類型的知識感興趣,數據挖掘系統應當覆蓋范圍很廣的數據分析和知識發(fā)現任務。這些任務可能以不同的方式使用相同的數據庫,并需要開發(fā)大量數據挖掘技術。

      (2) 多個抽象層的交互知識挖掘 :由于很難準確地知道能夠在數據庫中發(fā)現什么,數據挖掘過程應當是交互的。對于包含大量數據的數據庫,應當使用適當的抽樣技術,進行交互式數據探查。交互式挖掘允許用戶聚焦搜索模式,根據返回的結果提出和精煉數據挖掘請求。

      (3)結合背景知識:需要使用背景知識或關于所研究領域的信息來指導發(fā)現過程,并使得發(fā)現的模式以簡潔的形式在不同的抽象層表示。

      (4)數據挖掘查詢語言和特定的數據挖掘:關系查詢語言允許用戶提出特定的數據檢索查詢。類似地,需要開發(fā)高級數據挖掘查詢語言,使得用戶通過說明分析任務的相關數據集、領域知識、所挖掘的數據類型、被發(fā)現的模式必須滿足的條件和約束,描述特定的數據挖掘任務。

      (5)數據挖掘結果的表示和顯示 :發(fā)現的知識應當用高級語言、可視化表示或其他表示形式表示,使得知識易于理解,能夠直接被人們使用。如果數據挖掘系統是交互的,這一點尤為重要。

      7結束語

      在數據庫日益龐大的今天,利用數據挖掘從數據倉庫中提取自己感興趣的知識,可最終為決策發(fā)現提供有效的支持,對社會經濟等方面發(fā)展起到關鍵作用。數據挖掘是從海量的數據中發(fā)現有用的知識,將大大提高我們的工作效率和決策的準確性。數據挖掘技術仍未形成統一理論,許多問題在實踐上的可行性不夠,有待進一步發(fā)展與研究。

      猜你喜歡
      數據挖掘規(guī)則分類
      撐竿跳規(guī)則的制定
      數獨的規(guī)則和演變
      分類算一算
      探討人工智能與數據挖掘發(fā)展趨勢
      分類討論求坐標
      數據分析中的分類討論
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      教你一招:數的分類
      基于并行計算的大數據挖掘在電網中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      TPP反腐敗規(guī)則對我國的啟示
      汉沽区| 电白县| 建湖县| 九江市| 霍城县| 棋牌| 肥西县| 广饶县| 宁强县| 乌什县| 新宁县| 德州市| 沭阳县| 潞西市| 酉阳| 宕昌县| 彝良县| 重庆市| 广水市| 汽车| 酒泉市| 名山县| 麻城市| 湖北省| 沙洋县| 汕尾市| 绵阳市| 亳州市| 曲阳县| 德昌县| 毕节市| 六安市| 金昌市| 泗水县| 奉贤区| 盐源县| 乌拉特前旗| 西乡县| 板桥市| 佳木斯市| 竹北市|