胡劍策,吳國平
(1.溫州醫(yī)學(xué)院,浙江 溫州 325035;2.中國地質(zhì)大學(xué),湖北 武漢 430074)
改進(jìn)的遺傳BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘算法及應(yīng)用
胡劍策1,吳國平2
(1.溫州醫(yī)學(xué)院,浙江 溫州 325035;2.中國地質(zhì)大學(xué),湖北 武漢 430074)
介紹了數(shù)據(jù)挖掘的定義和常用方法,研究了基于遺傳BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,并對(duì)其交叉算子進(jìn)行了改進(jìn),提高算法訓(xùn)練速度。實(shí)驗(yàn)結(jié)果表明,將該方法應(yīng)用于油氣識(shí)別中,效果良好,具有一定的實(shí)際應(yīng)用價(jià)值。
數(shù)據(jù)挖掘;遺傳BP神經(jīng)網(wǎng)絡(luò);油氣識(shí)別
隨著互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,人們獲取信息的渠道越來越多樣化,所擁有的數(shù)據(jù)也越來越龐大,這對(duì)數(shù)據(jù)信息的存儲(chǔ)、管理和分析提出了更高的要求,傳統(tǒng)的統(tǒng)計(jì)方法面臨著巨大的挑戰(zhàn)。尤其在油氣田生產(chǎn)實(shí)踐中,開采所獲得的數(shù)據(jù)更是驚人,如何從海量的開采數(shù)據(jù)中提取地層特征模式,以便對(duì)油氣做出更精確的描述,是實(shí)現(xiàn)油氣識(shí)別的關(guān)鍵。而數(shù)據(jù)挖掘技術(shù)正是解決這一問題的關(guān)鍵技術(shù)。
數(shù)據(jù)挖掘是從大量的、有噪聲的、不完全的、隨機(jī)的、模糊的數(shù)據(jù)中提取隱含其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘技術(shù)是解決數(shù)據(jù)量大而知識(shí)匱乏的有效途徑。它包括分類、聚類、可視化、關(guān)聯(lián)、模糊評(píng)判、決策樹、遺傳算法、神經(jīng)網(wǎng)絡(luò)和不確定性處理等技術(shù)方法。近年,數(shù)據(jù)挖掘技術(shù)在油氣田開發(fā)中得到了廣泛應(yīng)用。
本文在對(duì)數(shù)據(jù)挖掘定義和常用方法研究的基礎(chǔ)上,研究了基于改進(jìn)的遺傳BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,并應(yīng)用于油氣識(shí)別中,取得了一定實(shí)效。
遺傳神經(jīng)網(wǎng)絡(luò) GNN(Genetic Neural Network)的主要思想是利用遺傳算法GA(Genetic Algorithm)的全局性優(yōu)點(diǎn)來克服誤差反向傳播BP(Back Propagation)算法的易局部收斂和收斂慢的缺陷。同時(shí),GA與BP算法的結(jié)合也解決了單獨(dú)利用GA只能在短時(shí)間內(nèi)尋找到最優(yōu)解的近似解這一問題,引入BP的梯度下降算法將會(huì)避免這種現(xiàn)象。本文以遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的方式將兩者組合在一起:先用GA優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)值組合,直到適應(yīng)函數(shù)的平均誤差達(dá)到一定的精度值。在此基礎(chǔ)上再用BP算法進(jìn)行局部優(yōu)化?;舅枷胧窍扔肎A粗選神經(jīng)網(wǎng)絡(luò)權(quán)值,再用 BP算法精細(xì)與優(yōu)化。
遺傳BP神經(jīng)網(wǎng)絡(luò)的算法步驟:
(1)隨機(jī)產(chǎn)生一組分布,然后采用實(shí)數(shù)編碼方案對(duì)該組中的每個(gè)權(quán)值進(jìn)行編碼,進(jìn)而構(gòu)造出一個(gè)個(gè)染色體(每個(gè)染色體代表神經(jīng)網(wǎng)絡(luò)的一種權(quán)值分布),在網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)規(guī)則已定的前提下,該染色體就對(duì)應(yīng)一個(gè)權(quán)值取特定值的神經(jīng)網(wǎng)絡(luò);
(2)對(duì)染色體解碼,構(gòu)建出相應(yīng)的神經(jīng)網(wǎng)絡(luò),計(jì)算它的誤差函數(shù),從而確定該染色體的適應(yīng)度值。誤差越小,適應(yīng)度越大;
(3)選擇若干適應(yīng)度值最大的個(gè)體,直接復(fù)制到下一代;
(4)利用選擇、交叉、變異等遺傳操作算子處理當(dāng)前代的群體,產(chǎn)生下一代群體;
(5)重復(fù)步驟(2)、(3)、(4),直到達(dá)到設(shè)定的精度要求;
(6)用BP神經(jīng)網(wǎng)絡(luò)的梯度下降算法繼續(xù)局部尋優(yōu),直到找到最優(yōu)解。
算法流程圖如圖1所示。
圖1 遺傳BP神經(jīng)網(wǎng)絡(luò)算法流程圖
為了提高遺傳神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,以便快速收斂,本文對(duì)遺傳算法中的編碼和交叉算子作了適當(dāng)?shù)母倪M(jìn)。
(1)編碼
遺傳算法常用的編碼方法有實(shí)數(shù)編碼和二進(jìn)制編碼。本文在優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的過程中,采用實(shí)數(shù)編碼方式。具體實(shí)數(shù)編碼的例子如圖2所示,從左到右讀每一層神經(jīng)元的權(quán)重,讀完第一個(gè)隱含層,再讀它的下一層,把所讀到的數(shù)據(jù)依次保存到一個(gè)向量中,這樣就實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的實(shí)數(shù)編碼。如圖2所示的神經(jīng)網(wǎng)絡(luò),它的權(quán)重編碼向量(即染色體)為:
(2)改進(jìn)的交叉算子
經(jīng)典的交叉算子是沿著基因組(染色體)長度任意地方切開的,這就極有可能在某個(gè)神經(jīng)元(比如第二個(gè))的權(quán)重中間斷開,也就是在權(quán)重0.6和-0.1之間某處切開。而優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值是以神經(jīng)元為單元組織在一起的,神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中處理信息的基本單元,如果交叉算子將某個(gè)神經(jīng)元的權(quán)值斷開,勢必會(huì)破壞該神經(jīng)元在此以前所獲得的任何改良。事實(shí)上,這樣的交叉操作就像斷裂性突變操作所起的作用。
由于經(jīng)典交叉算子的隨機(jī)性和破壞性,本文根據(jù)具體問題具體分析的原則,結(jié)合神經(jīng)網(wǎng)絡(luò)權(quán)值分布的特點(diǎn),提出了一種新的單點(diǎn)交叉算子,它只在神經(jīng)元的邊界上進(jìn)行切開。在圖2的例子中,就是在第3、4或第6、7的兩個(gè)基因之間切開,如小箭頭所示。
這樣,在進(jìn)行雜交時(shí),把神經(jīng)元當(dāng)作一個(gè)不可分割的單位,比在染色體上任意一點(diǎn)分裂基因組,更能得到好的效果,訓(xùn)練時(shí)間顯著縮減,效率有很大提高。
為了進(jìn)一步驗(yàn)證改進(jìn)后算法的性能,本文構(gòu)造了一個(gè)檢測樣本空間,分別訓(xùn)練改進(jìn)前和改進(jìn)后的遺傳神經(jīng)網(wǎng)絡(luò),訓(xùn)練收斂曲線對(duì)比圖如圖3所示。
由圖3可以看出,在相同的全局均方誤差下,原來的遺傳BP神經(jīng)網(wǎng)絡(luò)收斂速度緩慢,而改進(jìn)后的遺傳BP神經(jīng)網(wǎng)絡(luò)收斂速度快得多,當(dāng)收斂至10-4時(shí),前者需要150 s,后者只需 50 s,顯然,改進(jìn)后的遺傳 BP神經(jīng)網(wǎng)絡(luò)的效率是原來的3倍。
本文將改進(jìn)后的遺傳BP神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于油氣識(shí)別。訓(xùn)練樣本空間是以實(shí)際勘探測井資料為基礎(chǔ),以試油解釋資料為依據(jù)而建立的。本文以塔北雅克拉某勘探區(qū)1號(hào)井測井資料為基礎(chǔ),選取SP(自 然 電 位)、GR(自 然 伽 瑪)、AC(聲 波 時(shí) 差 )和 RILD(深感應(yīng)電阻率)4種測井曲線作為特征參數(shù),取各類樣本各25個(gè)作為網(wǎng)絡(luò)輸入,理想輸出(即識(shí)別目標(biāo))依據(jù)所選取的樣本分為 4類:水層(1 0 0 0)、油層(0 1 0 0)、油水同層(0 0 1 0)、干層(0 0 0 1),其樣本空間如表1所示。
本文采用三層的BP神經(jīng)網(wǎng)絡(luò):輸入層神經(jīng)元數(shù)為 4,隱含層神經(jīng)元數(shù)為 11,輸出層神經(jīng)元數(shù)為 4。神經(jīng)網(wǎng)絡(luò)參數(shù)為:學(xué)習(xí)樣本數(shù)為100,訓(xùn)練步長為0.01,收斂誤差為 0.000 1,最大網(wǎng)絡(luò)訓(xùn)練 3 000次,傳遞函數(shù)采用正切函數(shù)特性的Sigmoid函數(shù)。遺傳算法參數(shù)為:種群規(guī)模30,交叉概率0.7,變異概率0.1,誤差精度 0.01,最大進(jìn)化代數(shù) 1 000。
本文利用訓(xùn)練好的遺傳神經(jīng)網(wǎng)絡(luò)對(duì)同一地區(qū)相同地質(zhì)結(jié)構(gòu)的另三口井中15個(gè)試油層進(jìn)行了實(shí)際識(shí)別。識(shí)別結(jié)果如表2所示。
表1 油氣訓(xùn)練樣本空間
表2 測試樣本空間
由表2數(shù)據(jù)可以看出,識(shí)別結(jié)果和試油結(jié)果基本相同,總體識(shí)別率達(dá)到了86.67%。其中有兩個(gè)油層樣本被錯(cuò)誤地識(shí)別成油水同層樣本。導(dǎo)致誤判的原因很多:其一,可能是該樣本的真實(shí)地層情況因注水已發(fā)生了改變,與原先取心資料對(duì)應(yīng)有誤;其二,分布不合理的油水同層樣本也是造成識(shí)別評(píng)價(jià)誤差的原因,由于油水同層與油層樣本的特征較相似,甚至在某些特征上可能出現(xiàn)交叉,因此兩者有一定的不確定性和模糊性,以至識(shí)別不準(zhǔn)確。
數(shù)據(jù)挖掘技術(shù)是信息科學(xué)領(lǐng)域的前沿課題之一,對(duì)它的研究正不斷深入。本文在傳統(tǒng)遺傳神經(jīng)網(wǎng)絡(luò)算法的基礎(chǔ)上,對(duì)交叉算子進(jìn)行改進(jìn),提高其訓(xùn)練速度,并將其應(yīng)用于油氣識(shí)別,實(shí)驗(yàn)證明識(shí)別精度較高,具有一定的理論意義和實(shí)際應(yīng)用價(jià)值。
[1]王東龍,李茂青.基于遺傳算法的數(shù)據(jù)挖掘技術(shù)應(yīng)用[J].南昌大學(xué)學(xué)報(bào),2005,27(1):81-84.
[2]鄭志軍,林霞光,鄭守淇.一種基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法[J].西安建筑科技大學(xué)學(xué)報(bào),2000,32(1):28-30.
[3]焦李成.神經(jīng)網(wǎng)絡(luò)計(jì)算[M].西安:西安電子科技大學(xué)出版社,1996.
[4]王小平,曹立明.遺傳算法——理論、應(yīng)用與軟件實(shí)現(xiàn)[M].西安:西安交通大學(xué)出版社,2002.
[5]李海燕,彭仕宓.應(yīng)用遺傳神經(jīng)網(wǎng)絡(luò)研究低滲透儲(chǔ)層成巖儲(chǔ)集相[J].石油與天然氣地質(zhì),2006,27(1):111-117.
[6]王安輝,宇淑穎,張英魁,等.神經(jīng)網(wǎng)絡(luò)在低滲透油田試井解釋中的應(yīng)用[J].石油與天然氣地質(zhì),2004,25(3):338-343.
Research and application of data mining algorithm based on improved genetic BP-neural network
Hu Jiance1,Wu Guoping2
(1.Wenzhou Medical College,Wenzhou 325035,China;2.China University of Geosiences,Wuhan 430074,China)
The definitions and commonly used methods of data mining were introduced.And the data mining algorithm based on improved genetic BP-neural network was brought forward.Then,the improvement to its overlapping operator was made to raise its training speed.Finally,the algorithm was applied in Oil-gas recognition,the results of which proved that the application effects were satisfactory and the approaches were provided with particular popularized values.
data mining;genetic BP-neural network;oil-gas recognition
TP311;TE325
A
1674-7720(2011)02-0082-03
2010-08-19)
胡劍策,男,1982年生,碩士,助理工程師,主要研究方向:人工智能、計(jì)算機(jī)網(wǎng)絡(luò)等。
吳國平,男,1955年生,教授,主要研究方向:信號(hào)處理。