改進(jìn)的遺傳BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘算法及應(yīng)用

2011-01-22 03:35:36胡劍策吳國平

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2011年2期

關(guān)鍵詞：權(quán)值算子交叉

胡劍策，吳國平

（1.溫州醫(yī)學(xué)院，浙江溫州 325035；2.中國地質(zhì)大學(xué)，湖北武漢 430074）

改進(jìn)的遺傳BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘算法及應(yīng)用

胡劍策1，吳國平2

（1.溫州醫(yī)學(xué)院，浙江溫州 325035；2.中國地質(zhì)大學(xué)，湖北武漢 430074）

介紹了數(shù)據(jù)挖掘的定義和常用方法，研究了基于遺傳BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法，并對(duì)其交叉算子進(jìn)行了改進(jìn)，提高算法訓(xùn)練速度。實(shí)驗(yàn)結(jié)果表明，將該方法應(yīng)用于油氣識(shí)別中，效果良好，具有一定的實(shí)際應(yīng)用價(jià)值。

數(shù)據(jù)挖掘；遺傳BP神經(jīng)網(wǎng)絡(luò)；油氣識(shí)別

隨著互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展，人們獲取信息的渠道越來越多樣化，所擁有的數(shù)據(jù)也越來越龐大，這對(duì)數(shù)據(jù)信息的存儲(chǔ)、管理和分析提出了更高的要求，傳統(tǒng)的統(tǒng)計(jì)方法面臨著巨大的挑戰(zhàn)。尤其在油氣田生產(chǎn)實(shí)踐中，開采所獲得的數(shù)據(jù)更是驚人，如何從海量的開采數(shù)據(jù)中提取地層特征模式，以便對(duì)油氣做出更精確的描述，是實(shí)現(xiàn)油氣識(shí)別的關(guān)鍵。而數(shù)據(jù)挖掘技術(shù)正是解決這一問題的關(guān)鍵技術(shù)。

數(shù)據(jù)挖掘是從大量的、有噪聲的、不完全的、隨機(jī)的、模糊的數(shù)據(jù)中提取隱含其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘技術(shù)是解決數(shù)據(jù)量大而知識(shí)匱乏的有效途徑。它包括分類、聚類、可視化、關(guān)聯(lián)、模糊評(píng)判、決策樹、遺傳算法、神經(jīng)網(wǎng)絡(luò)和不確定性處理等技術(shù)方法。近年，數(shù)據(jù)挖掘技術(shù)在油氣田開發(fā)中得到了廣泛應(yīng)用。

本文在對(duì)數(shù)據(jù)挖掘定義和常用方法研究的基礎(chǔ)上，研究了基于改進(jìn)的遺傳BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法，并應(yīng)用于油氣識(shí)別中，取得了一定實(shí)效。

1 改進(jìn)的遺傳BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘算法

1.1 算法概述

遺傳神經(jīng)網(wǎng)絡(luò) GNN（Genetic Neural Network）的主要思想是利用遺傳算法GA（Genetic Algorithm）的全局性優(yōu)點(diǎn)來克服誤差反向傳播BP（Back Propagation）算法的易局部收斂和收斂慢的缺陷。同時(shí)，GA與BP算法的結(jié)合也解決了單獨(dú)利用GA只能在短時(shí)間內(nèi)尋找到最優(yōu)解的近似解這一問題，引入BP的梯度下降算法將會(huì)避免這種現(xiàn)象。本文以遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的方式將兩者組合在一起：先用GA優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)值組合，直到適應(yīng)函數(shù)的平均誤差達(dá)到一定的精度值。在此基礎(chǔ)上再用BP算法進(jìn)行局部優(yōu)化?；舅枷胧窍扔肎A粗選神經(jīng)網(wǎng)絡(luò)權(quán)值，再用 BP算法精細(xì)與優(yōu)化。

1.2 算法步驟

遺傳BP神經(jīng)網(wǎng)絡(luò)的算法步驟：

（1）隨機(jī)產(chǎn)生一組分布，然后采用實(shí)數(shù)編碼方案對(duì)該組中的每個(gè)權(quán)值進(jìn)行編碼，進(jìn)而構(gòu)造出一個(gè)個(gè)染色體（每個(gè)染色體代表神經(jīng)網(wǎng)絡(luò)的一種權(quán)值分布），在網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)規(guī)則已定的前提下，該染色體就對(duì)應(yīng)一個(gè)權(quán)值取特定值的神經(jīng)網(wǎng)絡(luò)；

（2）對(duì)染色體解碼，構(gòu)建出相應(yīng)的神經(jīng)網(wǎng)絡(luò)，計(jì)算它的誤差函數(shù)，從而確定該染色體的適應(yīng)度值。誤差越小，適應(yīng)度越大；

（3）選擇若干適應(yīng)度值最大的個(gè)體，直接復(fù)制到下一代；

（4）利用選擇、交叉、變異等遺傳操作算子處理當(dāng)前代的群體，產(chǎn)生下一代群體；

（5）重復(fù)步驟（2）、（3）、（4），直到達(dá)到設(shè)定的精度要求；

（6）用BP神經(jīng)網(wǎng)絡(luò)的梯度下降算法繼續(xù)局部尋優(yōu)，直到找到最優(yōu)解。

算法流程圖如圖1所示。

圖1 遺傳BP神經(jīng)網(wǎng)絡(luò)算法流程圖

1.3 改進(jìn)算法和模擬仿真

為了提高遺傳神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度，以便快速收斂，本文對(duì)遺傳算法中的編碼和交叉算子作了適當(dāng)?shù)母倪M(jìn)。

（1）編碼

遺傳算法常用的編碼方法有實(shí)數(shù)編碼和二進(jìn)制編碼。本文在優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的過程中，采用實(shí)數(shù)編碼方式。具體實(shí)數(shù)編碼的例子如圖2所示，從左到右讀每一層神經(jīng)元的權(quán)重，讀完第一個(gè)隱含層，再讀它的下一層，把所讀到的數(shù)據(jù)依次保存到一個(gè)向量中，這樣就實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的實(shí)數(shù)編碼。如圖2所示的神經(jīng)網(wǎng)絡(luò)，它的權(quán)重編碼向量（即染色體）為：

（2）改進(jìn)的交叉算子

經(jīng)典的交叉算子是沿著基因組（染色體）長度任意地方切開的，這就極有可能在某個(gè)神經(jīng)元（比如第二個(gè)）的權(quán)重中間斷開，也就是在權(quán)重0.6和-0.1之間某處切開。而優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值是以神經(jīng)元為單元組織在一起的，神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中處理信息的基本單元，如果交叉算子將某個(gè)神經(jīng)元的權(quán)值斷開，勢必會(huì)破壞該神經(jīng)元在此以前所獲得的任何改良。事實(shí)上，這樣的交叉操作就像斷裂性突變操作所起的作用。

由于經(jīng)典交叉算子的隨機(jī)性和破壞性，本文根據(jù)具體問題具體分析的原則，結(jié)合神經(jīng)網(wǎng)絡(luò)權(quán)值分布的特點(diǎn)，提出了一種新的單點(diǎn)交叉算子，它只在神經(jīng)元的邊界上進(jìn)行切開。在圖2的例子中，就是在第3、4或第6、7的兩個(gè)基因之間切開，如小箭頭所示。

這樣，在進(jìn)行雜交時(shí)，把神經(jīng)元當(dāng)作一個(gè)不可分割的單位，比在染色體上任意一點(diǎn)分裂基因組，更能得到好的效果，訓(xùn)練時(shí)間顯著縮減，效率有很大提高。

為了進(jìn)一步驗(yàn)證改進(jìn)后算法的性能，本文構(gòu)造了一個(gè)檢測樣本空間，分別訓(xùn)練改進(jìn)前和改進(jìn)后的遺傳神經(jīng)網(wǎng)絡(luò)，訓(xùn)練收斂曲線對(duì)比圖如圖3所示。

由圖3可以看出，在相同的全局均方誤差下，原來的遺傳BP神經(jīng)網(wǎng)絡(luò)收斂速度緩慢，而改進(jìn)后的遺傳BP神經(jīng)網(wǎng)絡(luò)收斂速度快得多，當(dāng)收斂至10-4時(shí)，前者需要150 s，后者只需 50 s，顯然，改進(jìn)后的遺傳 BP神經(jīng)網(wǎng)絡(luò)的效率是原來的3倍。

2 應(yīng)用

2.1 訓(xùn)練數(shù)據(jù)

本文將改進(jìn)后的遺傳BP神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于油氣識(shí)別。訓(xùn)練樣本空間是以實(shí)際勘探測井資料為基礎(chǔ)，以試油解釋資料為依據(jù)而建立的。本文以塔北雅克拉某勘探區(qū)1號(hào)井測井資料為基礎(chǔ)，選取SP（自然電位）、GR（自然伽瑪）、AC（聲波時(shí) 差）和 RILD（深感應(yīng)電阻率）4種測井曲線作為特征參數(shù)，取各類樣本各25個(gè)作為網(wǎng)絡(luò)輸入，理想輸出（即識(shí)別目標(biāo)）依據(jù)所選取的樣本分為 4類：水層（1 0 0 0）、油層（0 1 0 0）、油水同層（0 0 1 0）、干層（0 0 0 1），其樣本空間如表1所示。

2.2 算法參數(shù)設(shè)計(jì)

本文采用三層的BP神經(jīng)網(wǎng)絡(luò)：輸入層神經(jīng)元數(shù)為 4，隱含層神經(jīng)元數(shù)為 11，輸出層神經(jīng)元數(shù)為 4。神經(jīng)網(wǎng)絡(luò)參數(shù)為：學(xué)習(xí)樣本數(shù)為100，訓(xùn)練步長為0.01，收斂誤差為 0.000 1，最大網(wǎng)絡(luò)訓(xùn)練 3 000次，傳遞函數(shù)采用正切函數(shù)特性的Sigmoid函數(shù)。遺傳算法參數(shù)為：種群規(guī)模30，交叉概率0.7，變異概率0.1，誤差精度 0.01，最大進(jìn)化代數(shù) 1 000。

2.3 結(jié)果分析

本文利用訓(xùn)練好的遺傳神經(jīng)網(wǎng)絡(luò)對(duì)同一地區(qū)相同地質(zhì)結(jié)構(gòu)的另三口井中15個(gè)試油層進(jìn)行了實(shí)際識(shí)別。識(shí)別結(jié)果如表2所示。

表1 油氣訓(xùn)練樣本空間

表2 測試樣本空間

由表2數(shù)據(jù)可以看出，識(shí)別結(jié)果和試油結(jié)果基本相同，總體識(shí)別率達(dá)到了86.67%。其中有兩個(gè)油層樣本被錯(cuò)誤地識(shí)別成油水同層樣本。導(dǎo)致誤判的原因很多：其一，可能是該樣本的真實(shí)地層情況因注水已發(fā)生了改變，與原先取心資料對(duì)應(yīng)有誤；其二，分布不合理的油水同層樣本也是造成識(shí)別評(píng)價(jià)誤差的原因，由于油水同層與油層樣本的特征較相似，甚至在某些特征上可能出現(xiàn)交叉，因此兩者有一定的不確定性和模糊性，以至識(shí)別不準(zhǔn)確。

數(shù)據(jù)挖掘技術(shù)是信息科學(xué)領(lǐng)域的前沿課題之一，對(duì)它的研究正不斷深入。本文在傳統(tǒng)遺傳神經(jīng)網(wǎng)絡(luò)算法的基礎(chǔ)上，對(duì)交叉算子進(jìn)行改進(jìn)，提高其訓(xùn)練速度，并將其應(yīng)用于油氣識(shí)別，實(shí)驗(yàn)證明識(shí)別精度較高，具有一定的理論意義和實(shí)際應(yīng)用價(jià)值。

[1]王東龍，李茂青.基于遺傳算法的數(shù)據(jù)挖掘技術(shù)應(yīng)用[J].南昌大學(xué)學(xué)報(bào)，2005，27（1）：81-84.

[2]鄭志軍，林霞光，鄭守淇.一種基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法[J].西安建筑科技大學(xué)學(xué)報(bào)，2000，32（1）：28-30.

[3]焦李成.神經(jīng)網(wǎng)絡(luò)計(jì)算[M].西安：西安電子科技大學(xué)出版社，1996.

[4]王小平，曹立明.遺傳算法——理論、應(yīng)用與軟件實(shí)現(xiàn)[M].西安：西安交通大學(xué)出版社，2002.

[5]李海燕，彭仕宓.應(yīng)用遺傳神經(jīng)網(wǎng)絡(luò)研究低滲透儲(chǔ)層成巖儲(chǔ)集相[J].石油與天然氣地質(zhì)，2006，27（1）：111-117.

[6]王安輝，宇淑穎，張英魁，等.神經(jīng)網(wǎng)絡(luò)在低滲透油田試井解釋中的應(yīng)用[J].石油與天然氣地質(zhì)，2004，25（3）：338-343.

Research and application of data mining algorithm based on improved genetic BP-neural network

Hu Jiance1，Wu Guoping2

（1.Wenzhou Medical College,Wenzhou 325035，China;2.China University of Geosiences,Wuhan 430074，China）

The definitions and commonly used methods of data mining were introduced.And the data mining algorithm based on improved genetic BP-neural network was brought forward.Then,the improvement to its overlapping operator was made to raise its training speed.Finally,the algorithm was applied in Oil-gas recognition,the results of which proved that the application effects were satisfactory and the approaches were provided with particular popularized values.

data mining；genetic BP-neural network；oil-gas recognition

TP311；TE325

1674-7720（2011）02-0082-03

2010-08-19）

胡劍策，男，1982年生，碩士，助理工程師，主要研究方向：人工智能、計(jì)算機(jī)網(wǎng)絡(luò)等。

吳國平，男，1955年生，教授，主要研究方向：信號(hào)處理。