徐曉
(恩施職業(yè)技術學院湖北恩施445000)
對數(shù)據(jù)與信息快速有效地進行分析加工提煉以獲取所需知識袁是在面向全球劇烈競爭環(huán)境中的決定因素遙用知識作為創(chuàng)新的原動力袁就能使企業(yè)或者其他團體甚至國家長期持續(xù)地保持競爭優(yōu)勢遙因此要能及時迅速地從日積月累龐大的數(shù)據(jù)庫中袁以及互聯(lián)網上獲取與經營堯生產和國家政策等決策相關的知識。
二十世紀九十年代袁隨著科技的進步袁數(shù)據(jù)量的迅猛增長袁數(shù)據(jù)挖掘技術迅速發(fā)展,多數(shù)據(jù)源所引發(fā)的各種數(shù)據(jù)格式不相容性袁人們將整個機構內的數(shù)據(jù)以統(tǒng)一形式集成袁并存儲在一起袁這就是數(shù)據(jù)倉庫[1]。
數(shù)據(jù)倉庫的出現(xiàn)袁除了能管理日常工作數(shù)據(jù)的數(shù)據(jù)庫袁更重要的是便于分析針對特定主題的集成化的和易變的的數(shù)據(jù)遙為更深入對數(shù)據(jù)進行分析提供條件袁并且能適應現(xiàn)實世界中數(shù)據(jù)的許多種屬性袁比如含噪聲堯巨量淵TB 級別冤堯非線性堯動態(tài)堯稀疏性堯缺失性和異質等等遙近年來袁數(shù)理統(tǒng)計技術方法堯人工智能以及知識工程等領域的研究成果院比如機器學習堯邏輯原件推理堯模糊理論堯神經網絡堯進化計算堯粗糙集理論和模式識別等等研究成果袁為不斷滿足這類要求的數(shù)據(jù)深度分析工具提供了堅實而豐富的理論和技術基礎遙數(shù)據(jù)挖掘系統(tǒng)的原型如圖1 所示。
圖1 數(shù)據(jù)挖掘系統(tǒng)原型
數(shù)據(jù)倉庫袁是在數(shù)據(jù)庫已經大量存在的情況下袁為了進一步挖掘數(shù)據(jù)資源和決策需要而產生的袁它并不是所謂的野大型數(shù)據(jù)庫冶袁其主要功能是決策支持系統(tǒng)和聯(lián)機分析應用袁主要特點是院固定的堯集成的堯面向主題的堯隨時間而變化的堯大容量堯匯總性堯非規(guī)范化的和冗余的[2]。
數(shù)據(jù)挖掘主要是在數(shù)據(jù)庫中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的數(shù)據(jù)模式的技術遙數(shù)據(jù)挖掘和數(shù)據(jù)倉庫緊密聯(lián)系一起遙成功的數(shù)據(jù)挖掘的關鍵之一就是通過訪問數(shù)據(jù)倉庫里的正確堯完整和集成的數(shù)據(jù)信息袁進行深層次的分析袁尋找有益的信息。
數(shù)據(jù)挖掘的典型方法主要有院分類堯估值堯預測堯相關性分組堯關聯(lián)規(guī)則堯聚類堯描述堯可視化和復雜數(shù)據(jù)類型挖掘(Text堯Web堯圖形圖像堯視頻和音頻等)。
對于數(shù)據(jù)各個方法聯(lián)合起來實施袁必須形成一個實施方案袁也就是確定一種方法論和執(zhí)行思路遙目前有多種方法論來指導數(shù)據(jù)挖掘項目的實施袁比較流行的有SEMMA 和CRISP。
徑向基函數(shù)淵Radical Basis Function袁RBF冤神經網絡是一種可以廣泛應用于模式識別和非線性函數(shù)逼近等領域的RF 神經網絡遙該神經網絡與其他前饋網絡相比袁其逼近能力更強袁而且全局最優(yōu)的搜索效果更好袁同時模型具有結構簡單及學習速度快的優(yōu)勢[3]遙建立RBF 神經網絡模型時袁可跟根據(jù)研究的實際問題選擇合適的拓撲結構袁并且具有強大的自適應和自學能力袁對非線性連續(xù)模型具有良好的逼近效果遙因此BRF神經網絡高效地進行大范圍的數(shù)據(jù)融合處理。
徑向基函數(shù)屬于非負線性函數(shù)袁具有對中心點徑向對稱衰減的特點遙該函數(shù)主要包括對稱點和基寬度2個參數(shù)袁前者是指函數(shù)基的中心點袁后者指的是大部分區(qū)域中可能出現(xiàn)的較為明顯的輸出效果。
RBF 神經網絡輸入層到隱層單元之間為直接連接袁隱層到輸出層實行權連接遙隱層單元的轉移函數(shù)是關于中心對稱的RBF淵如高斯函數(shù)冤袁而且RBF 神經網絡是3 層靜態(tài)前饋神經網絡。
RBF 神經網絡的訓練算法支持在線和離線訓練袁可以動態(tài)確定網絡結構和隱層單元的數(shù)據(jù)中心和擴展常數(shù)袁學習速度快袁比其他人工神經網絡算法表現(xiàn)出更好的性能遙隱層單元的分配可以根據(jù)訓練樣本的容量堯類別和分布來決定袁如采用最近鄰聚類方式訓練網絡。
自異操作數(shù)據(jù)庫中的數(shù)據(jù)是數(shù)據(jù)倉庫的重要數(shù)據(jù)來源。由于源數(shù)據(jù)中含有一些臟數(shù)據(jù),如不正確、不完整或是冗余的數(shù)據(jù)。因此,數(shù)據(jù)在進入數(shù)據(jù)倉庫之前,需要先對源數(shù)據(jù)進行清洗,保留干凈和有效的數(shù)據(jù)。數(shù)據(jù)清理時通常通過提出數(shù)據(jù)噪聲,分析并刪除冗余數(shù)據(jù),更正不一致的數(shù)據(jù)和漏值填補等操作來完成。清理之后的數(shù)據(jù)才可進入到數(shù)據(jù)倉庫中,用經過清洗的數(shù)據(jù)來作為神經網絡的訓練樣本,這樣可有效提高訓練效果[4]。
數(shù)據(jù)預處理指的是對4.1 中經過清洗操作的數(shù)據(jù)進行進一步的增強操作。該過程中會產生由一至多個字段組成的新數(shù)據(jù)項,因此需要用容量更大的字段替換原有的多個字段。然而輸入字段的個數(shù)并不是直接用于數(shù)據(jù)挖掘算法的信息量的大小。由于可能存在冗余數(shù)據(jù),因此造成某些屬性只是同一個信息的不同表現(xiàn)方式。有些冗余數(shù)據(jù)是可以檢測出來的,然而有一部分卻很難被檢測到。進行冗余數(shù)據(jù)剔除時應在元組級進行。采用合適的數(shù)據(jù)組織形式將各個源數(shù)據(jù)集成在一起,可有效避免或者減少數(shù)據(jù)的冗余性,從而提高數(shù)據(jù)挖掘的質量。
根據(jù)2個或多個字段生成一個新的屬性是數(shù)據(jù)挖掘中的一個重要環(huán)節(jié)。數(shù)據(jù)的計算屬性是必不可少的,在事務處理中,相關的記錄信息應盡量少,從而減少容量要求,提高處理效率。例如可使用2個數(shù)據(jù)的和、差、積或是比值的形式表示,例如可將一個日期數(shù)據(jù)轉化為一年中的某一天。
在計算過程中,神經網絡模型不同的激勵函數(shù)適用于不同數(shù)據(jù)情況,因此應當嘗試各種激勵函數(shù),并選擇最優(yōu)模型,使之滿足數(shù)據(jù)處理的特殊需要。由于訓練數(shù)據(jù)可能具有不同的類型、或是不同的數(shù)量級,因此首先需要對數(shù)據(jù)進行歸一化處理,將數(shù)據(jù)變換到某一個區(qū)間內。歸一化之后的數(shù)據(jù),接下來應當做正則化處理。對于可分組的數(shù)據(jù),可將數(shù)據(jù)序列作為一個整體做正則化處理。正則化的常用算法是利用數(shù)據(jù)的平方根與數(shù)據(jù)本身做比值。
在進行數(shù)據(jù)處理時,通常需要將符號數(shù)據(jù)進行一次轉化后,在再利用好一定的法則將符號數(shù)據(jù)變化為數(shù)值類型。數(shù)據(jù)變化法則比較多,通常采用為了方便數(shù)據(jù)的組織,將不用類型的數(shù)據(jù)序列集中為一個單一的符號。將符號類型的數(shù)據(jù)映射為類層次數(shù)據(jù)后,還需要將符號類型的數(shù)據(jù)轉化為數(shù)值類型。因為利用神經網絡模型進行數(shù)據(jù)挖掘時,只能處理數(shù)值類型的數(shù)據(jù)。比較簡單的一種方法是將符號和數(shù)值進行一一對照。另外一種比較復雜的方法是采用哈希函數(shù),可將不同的符號數(shù)據(jù)生成一個唯一對應的數(shù)值。
數(shù)據(jù)庫所存儲的數(shù)據(jù)大多都可簡單地歸結為3 種邏輯數(shù)據(jù)類型:連續(xù)數(shù)值數(shù)據(jù)、離散數(shù)值數(shù)據(jù)和符號數(shù)據(jù)。還有一些特殊數(shù)據(jù),比如時間和日期,可以選用適當?shù)暮瘮?shù)映射成數(shù)值數(shù)據(jù)處理。
采用神經網絡方法進行數(shù)據(jù)挖掘與開發(fā)其實是為了使數(shù)據(jù)更符合預測,使得預測更加準確和有序。這就必須讓數(shù)據(jù)可控,對事物的發(fā)展趨勢變得更加敏感。
首先,需要對數(shù)據(jù)進行有效的組織和管理,可隨機將數(shù)據(jù)劃分為2個數(shù)據(jù)集,一個數(shù)據(jù)集用于對神經網絡進行訓練,使之學習數(shù)據(jù)之間的規(guī)律,達到較好的預測效果。另一個數(shù)據(jù)集用于測試神經網絡的訓練效果,可測試神經網絡的學習逼近能力。比較常用的做法是,采用歷史時間段的數(shù)據(jù)作為訓練數(shù)據(jù),而將較新的數(shù)據(jù)作為測試數(shù)據(jù)。當數(shù)據(jù)量較小,無法有效對神經網絡進行訓練時,此時訓練數(shù)據(jù)不能采用隨機選擇的方法,而需要利用統(tǒng)計學的方法選擇具有較好代表性的樣本數(shù)據(jù)。
決策樹是一個類似于流程圖的樹結構,其中每個內部節(jié)點表示子在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹節(jié)點代表類或者類分布[5]。通過決策樹很容易轉換成分類規(guī)則。分類規(guī)則是在給定數(shù)據(jù)集中找出分成若干類的具體分類規(guī)則。主要有2 種基本方法:①基于符號處理的方法;②基于神經網絡的連接主義方法。
神經網絡可學習分類結果與數(shù)據(jù)屬性之間的聯(lián)系,從而總結出分類結果與數(shù)據(jù)屬性之間的函數(shù)關系,并以此為基礎建立分類決策樹。
RBF 神經網絡的訓練過程是一個不斷學習數(shù)據(jù)內在規(guī)律的過程,在訓練中,模型不斷調整網絡各層之間的連接權值以及各層節(jié)點的閾值。這一特性使得神經網絡具備強大的學習能力,模型不比預先知道數(shù)據(jù)的規(guī)律,而在訓練過程中學習得到數(shù)據(jù)的規(guī)律。神經網絡具備良好的非線性函數(shù)的逼近能力,研究表明,一個3 層神經網絡即可逼近任一連續(xù)非線性函數(shù)。因此在數(shù)據(jù)挖掘中,神經網絡是一種較好的數(shù)據(jù)處理方式。
[1]王鴻斌,張立毅.新型神經網絡的發(fā)展及其應用[J].忻州師范學院學報,2007(2):78-79.
[2]徐 圓,馮 晶,朱群雄.基于可拓理論的RBF 神經網絡研究及其應用[J].控制與決策,2011(11):144-146.
[3]魯紅英,肖思和.基于改進的遺傳神經網絡數(shù)據(jù)挖掘方法研究[J].計算機應用,2006(4):95-96.
[4]潘 笑,萬 敏.基于模糊神經網絡的數(shù)據(jù)挖掘方法研究[J].微電子學與計算機,2005(12):122-123.
[5]唐昌盛,曲建嶺.基于RBF 神經網絡的飛參數(shù)據(jù)預處理[J].計測技術,2007(5):74-76.