萬 璞,王麗莎
(昭通學院,云南 昭通 657000)
?
數(shù)據(jù)挖掘與人工智能技術研究
萬 璞,王麗莎
(昭通學院,云南 昭通 657000)
摘 要:數(shù)據(jù)挖掘是通過數(shù)據(jù)采集、處理進行知識表示的過程,是進行海量數(shù)據(jù)中有效數(shù)據(jù)挖掘的重要技術;而人工智能則是通過充分利用計算機技術以及其他學科技術進行智能學習、自動控制的人腦模擬技術手段。二者都是前沿的數(shù)據(jù)控制處理技術,都有非常廣泛的應用前景。文章分別介紹了二者的核心內(nèi)容以及互相聯(lián)系,并簡單的進行了相關領域的展望,希望能夠以此對發(fā)展智能化管理控制技術發(fā)展有一定的幫助。
關鍵字:數(shù)據(jù)挖掘;人工智能;技術
1.1 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘(Data mining),主要是指對數(shù)據(jù)庫中數(shù)據(jù)進行探索的一個過程。一般而言,數(shù)據(jù)挖掘從概念而言,包含3個方面的內(nèi)容,即數(shù)據(jù)源數(shù)據(jù)的收集、對于數(shù)據(jù)源數(shù)據(jù)的處理以及最終的有效數(shù)據(jù)的表示。數(shù)據(jù)挖掘技術的應用領域主要集中在數(shù)據(jù)分析、模式識別和情報檢索等方面,同時人工智能技術以及數(shù)據(jù)庫技術都與其有著緊密的聯(lián)系。隨著數(shù)據(jù)信息爆發(fā)式的發(fā)展,從海量的數(shù)據(jù)中挖掘分析出對于管理決策、生產(chǎn)控制有用的數(shù)據(jù)是非常必要的,數(shù)據(jù)挖掘正是基于這樣的需求日益被人們所重視。傳統(tǒng)的數(shù)據(jù)挖掘更加側重計算機技術的應用而未來數(shù)據(jù)發(fā)掘必然是信息科學、電子科學、計算機技術、建模技術、統(tǒng)計技術的大融合,隨著大數(shù)據(jù)處理技術的應用、云計算的飛速發(fā)展以及數(shù)據(jù)挖掘算法的不斷提升,數(shù)據(jù)挖掘必將邁向大有作為的舞臺。
1.2 數(shù)據(jù)挖掘步驟
如圖1所示,數(shù)據(jù)挖掘的步驟分為4個主要階段,源數(shù)據(jù)的收集階段、數(shù)據(jù)預處理階段、數(shù)據(jù)挖掘階段、數(shù)據(jù)評估以及知識表示階段。
圖1 數(shù)據(jù)挖掘步驟
1.3 數(shù)據(jù)挖掘常見的方法
數(shù)據(jù)挖掘中大部分方法都不是專為解決某個問題而特制的,方法之間也不互相排斥。數(shù)據(jù)挖掘的方法主要有:關聯(lián)分析、聚類分析、預測、時序模式分析和偏差分析等。常見和應用最廣泛的算法和模型有:
(1)傳統(tǒng)統(tǒng)計方法:抽樣技術、多元統(tǒng)計分析和統(tǒng)計預測方法等。
(2)可視化技術:用圖表等方式把數(shù)據(jù)特征直觀地表述出來。
(3)決策樹:利用一系列規(guī)則劃分,建立樹狀圖,用樹形結構來表示決策集合,可用于分類和預測,常用的算法有CART,CHAID,ID3,C4.5,C5.0等。
(4)人工神經(jīng)網(wǎng)絡:模擬人的神經(jīng)元功能,從結構上模仿生物神經(jīng)網(wǎng)絡,經(jīng)過輸入層、隱藏層、輸出層等,對數(shù)據(jù)進行調(diào)整、計算,最后得到結果,是一種通過訓練來學習的非線性預測模型,可以完成分類、聚類、特征挖掘、回歸分析等多種數(shù)據(jù)挖掘任務。
(5)遺傳算法:基于自然進化理論,在生物進化的概念基礎上設計的一種優(yōu)化技術,它包括基因組合、交叉、變異和自然選擇等一系列過程,通過這些過程以達到優(yōu)化的目的,模擬基因聯(lián)合、突變、選擇等過程的一種優(yōu)化技術。
(6)關聯(lián)規(guī)則挖掘算法:關聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關系的規(guī)則,形式為“A1∧A2∧…∧An→B1∧B2∧…∧Bn”。一般分為兩個步驟:第一步,求出頻繁數(shù)據(jù)項集;第二步,用頻繁數(shù)據(jù)項集產(chǎn)生關聯(lián)規(guī)則。
(7)最近鄰技術:這種技術通過已辨別歷史記錄的組合來辨別新的記錄,它可以用來做聚類和偏差分析。
每一種數(shù)據(jù)挖掘技術都有其自身的優(yōu)勢和不足,在進行具體技術選擇的時候應根據(jù)數(shù)據(jù)特點以及用戶需求進行合理的選擇。
2.1 人工智能簡介
人工智能(Artificial Intelligence)是一門新興的計算機科學分支,主要是研究模擬人類的思考行為方式進行智能化控制的一個領域。人工智能當前最為典型的應用有圖像識別技術、語音系統(tǒng)、視覺識別、機器人技術等,其應用領域十分廣泛,幾乎在各個行業(yè)以及領域都能尋覓到人工智能的身影,并且伴隨著相關技術以及理論的逐漸成熟,越來越多的人工智能科技產(chǎn)品必將對人類生產(chǎn)、生活帶來顛覆性的影響。人工智能技術的關鍵點在于能夠模擬人的思維模式來進行智能化的信息處理以及行為判斷。另外,人工智能技術不僅僅包含了計算機相關技術,還包括數(shù)學、邏輯學、心理學、哲學、行業(yè)技術等廣泛的技術,人工智能技術使得機器從事復雜工作成為可能。
2.2 人工智能技術發(fā)展
如表1所示,人工智能的核心技術主要經(jīng)歷了大腦模擬、符號處理、字符號法、統(tǒng)計學法、集成方法等。大腦模擬主要是研究探索信息控制和神經(jīng)系統(tǒng)之間的聯(lián)系,構筑電子元件人腦模型的一種研究思路,符號處理是在大腦模擬失敗以后,符號處理研究主要是通過符號信息處理的過程來實現(xiàn)人工智能的實現(xiàn)方式,該階段出現(xiàn)了數(shù)字計算機,但是由于研究過于簡單化,忽視了控制論、生物神經(jīng)等交叉學科的作用,最終也沒有獲得重大突破。字符號方法研究研究者進行符號處理失敗以后,進行具體問題的研究階段,在該階段機器人、嵌入式智能等設備出現(xiàn)為下一步人工智能奠定了一定的基礎,同時人們也逐漸意識到了神經(jīng)網(wǎng)絡理論、控制理論以及其他學科融合的必要性。后來經(jīng)歷了統(tǒng)計學法和集成方法階段,通過環(huán)境感知來進行智能化控制的目標成為研究的核心,該階段更加注重了與行業(yè)知識的結合,對于人工智能技術的發(fā)展起到了巨大的推動作用。
表1 人工智能技術發(fā)展概況
2.3 人工智能應用領域
人工智能的研究與應用領域人工智能存在許多不同的研究領域,如語言處理、自動定理證明、計算智能、智能數(shù)據(jù)檢索系統(tǒng)、視覺系統(tǒng)、問題求解、人工智能方法和程序語言以及自動程序設計等。人工智能在人們?nèi)粘I钪凶顬槌R姷膽眉刺O果的Siri 以及安卓設備的語音識別應用。目前人工智能技術的主要成就包括IBM的(深藍)程序,在國際象棋比賽中打敗世界冠軍卡斯帕羅夫;谷歌公司的AlphaGo戰(zhàn)勝傳奇圍棋手李世石;軟件巨頭Microsoft公司推出的聊天機器人一天學會罵人并自主隨意發(fā)帖而被迫終止的AI實驗?;蚨嗷蛏偃斯ぶ悄芤愿鞣N方式融入人們的日常生活,這些技術的每一步發(fā)展都會帶給人們顛覆性的影響。
數(shù)據(jù)挖掘與人工智能技術有著密切聯(lián)系,甚至許多關鍵的技術都彼此一致,尤其在數(shù)據(jù)推理和數(shù)據(jù)搜索方面具有高度的一致,無論是傳統(tǒng)的與或非邏輯推理、歸納推理過程,還是模態(tài)、多值推理過程基本原理都是一致的,其推理的正確性對于數(shù)據(jù)挖掘有效性以及人工智能數(shù)據(jù)處理都有著重要的意義。而搜索應用方面在數(shù)據(jù)挖掘過程中得到了充分的體現(xiàn),都是根據(jù)用戶需求不斷探尋可利用路徑,構造花費較少的推理計算過程,數(shù)據(jù)搜索的效率直接決定著數(shù)據(jù)挖掘的快慢。例如,在屬性約簡中,如果我們發(fā)現(xiàn)某一列屬性的取值完全一樣或區(qū)分能力不大,則可以提前刪去。另外,在挖掘關聯(lián)規(guī)則時,如果發(fā)現(xiàn)頻繁K項集的任一(K21)項候選集不存在,則終止搜索剩余的(K21)項候選集,就可以判斷“頻繁K項集是不存在的”;等等。搜索機制提高了數(shù)據(jù)挖掘的效率,這對解決人工智能中的NP難問題是一個積極的探索。由此可見,數(shù)據(jù)挖掘技術與人工智能技術有著諸多的聯(lián)系,具體表現(xiàn)為技術的交叉性。
對于數(shù)據(jù)挖掘以及人工智能技術分析,可以看出其未來發(fā)展都朝著集成化、網(wǎng)絡化以及復雜化方向發(fā)展,集成化主要是指多種技術手段的不斷融合,跨學科、跨領域現(xiàn)象明顯,網(wǎng)絡化則是充分發(fā)揮網(wǎng)絡的關鍵作用,可以將終端設備處理能力無限拓展,形成強有力的管理控制能力,復雜度主要指各種技術解決難題不僅僅局限于計算機領域,在商業(yè)模式、工業(yè)控制、金融決策等都可能得到有效應用。
數(shù)據(jù)挖掘以及人工智能技術是計算機學科領域重要的分支技術,其對于人們的日常生活生產(chǎn)都產(chǎn)生了重大影響,是各個IT巨頭爭奪的制高點,本文分別介紹了數(shù)據(jù)挖掘技術以及人工智能技術中的關鍵點,二者之間的聯(lián)系以及技術展望,隨著相關理論以及技術的不斷成熟,數(shù)據(jù)挖掘以及人工智能得到更為廣泛的應用。
[參考文獻]
[1]常凱.基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘分類算法比較和分析研究[D].合肥:安徽大學,2014.
[2]陳艷華.基于人工智能優(yōu)化的支持向量機算法研究和應用[D].蘭州:蘭州大學,2014.
[3]董國華.基于數(shù)據(jù)挖掘的中醫(yī)診斷智能信息化技術研究[D].青島:青島科技大學,2015.
[4]姬盈利.基于多群協(xié)同人工魚群算法的分類規(guī)則挖掘研究[D].武漢:華中師范大學,2013.
[5]楊庭庭,徐凱.人工智能用于異常數(shù)據(jù)挖掘研究綜述[J].電子技術與軟件工程,2014(8):198.
Research on Data Mining and Artificial Intelligence Technology
Wan Pu ,Wang Lisha
(Zhaotong University,Zhaotong 657000,China)
Abstract:Data mining is a through the data acquisition,processing,the process of knowledge representation,is an important technology of the effective data mining in huge amounts of data;And artificial intelligence is through making full use of computer technology and other disciplines of intelligent learning,automatic control of simulation technology of the human brain,both are preface of data control processing technology,has a very broad application prospect,this paper introduces the core content of the two and contact each other,and has carried on the related areas of simple outlook,hope to be able to in order to control the development of intelligent management technology development has certain help.
Key words:data mining;artificial intelligence;technology
作者簡介:萬璞(1977-),男,云南昭通;研究方向:數(shù)據(jù)挖掘與人工智能技術研究。