田巧燕(長慶油田分公司第九采油廠,銀川 750006)
油田信息處理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用探析
田巧燕
(長慶油田分公司第九采油廠,銀川750006)
隨著科學技術(shù)的不斷發(fā)展,在油田信息處理中也逐漸引入數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)作為現(xiàn)代化的產(chǎn)物,對于油田企業(yè)發(fā)展有著重要的推動作用。因此,本文在分析油田企業(yè)數(shù)據(jù)挖掘系統(tǒng)的基礎(chǔ)上,對信息處理中數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用進行探討。
油田;信息處理;數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)在油田企業(yè)中的應(yīng)用,讓油田企業(yè)得到可持續(xù)的發(fā)展推動力。針對油田企業(yè)而言,想要做好信息的處理,利用數(shù)據(jù)挖掘技術(shù)可以輕松的達到目標,滿足要求。所以,本文也將重點放置在數(shù)據(jù)挖掘技術(shù)的應(yīng)用之上。
圖1是油田企業(yè)的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)示意圖。在數(shù)據(jù)挖掘中,主要包含了數(shù)據(jù)準備、數(shù)據(jù)挖掘以及結(jié)果的評估與解釋。第一,準備階段:是耗時最多的階段,在這一個階段中,需要將挖掘的數(shù)據(jù)建立一個數(shù)據(jù)的集合,這一個數(shù)據(jù)集合可以是數(shù)據(jù)倉庫、數(shù)據(jù)庫,甚至是一個數(shù)據(jù)表格。第二,數(shù)據(jù)挖掘階段:明確數(shù)據(jù)的挖掘目的,如關(guān)聯(lián)規(guī)則、分類、聚類等。在挖掘目標確定之后,就可以選擇挖掘算法。等待挖掘結(jié)果得出后,可能會出現(xiàn)無關(guān)或冗余的情況,也可能無法與用戶的要求相互匹配,那么不滿足要求的結(jié)果就必須剔除掉。按照用戶可視化的需求,所挖掘的結(jié)果應(yīng)當通過轉(zhuǎn)化,成為用戶能夠理解的方法。這一過程就是挖掘結(jié)果的評估與解釋過程。
圖1 典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)
第一,在建立油田數(shù)據(jù)挖掘倉庫后,利用倉庫平臺,就可以開展數(shù)據(jù)的挖掘工作。在明確前提目標之后,才可以認識到數(shù)據(jù)挖掘?qū)τ谡w的重要性。針對油田的數(shù)據(jù)應(yīng)用平臺,其目標包含:如果事物偏離的常規(guī),同時還發(fā)生了異常情況,就需要加以揭示。其中,單量異常變化、含水異常變化和超注欠注是油田存在的主要異常情況,通過聚類分析或者是分類分析,就可以對此做出詳細的分析。如此操作就可以發(fā)現(xiàn)泄漏、井號異常等問題,同時優(yōu)化運行參數(shù),減少盜油犯罪行為的發(fā)生率,提供一個安全的油田正常運行環(huán)境;將事物與事物之間都存在的相互聯(lián)系與相互依賴的知識加以揭示。在油田數(shù)據(jù)應(yīng)用平臺當中,通過分析變量之間的聯(lián)系密切程度,就可以揭示各個事物之間的聯(lián)系,也可以分析數(shù)據(jù)之間的聯(lián)系,同時,基于數(shù)據(jù)觀測的基礎(chǔ),在變量間建立依賴關(guān)系,其中可以選擇回歸分析、相關(guān)分析以及時間序列分析三種分析法;按照之前測得的數(shù)據(jù)結(jié)果,也可以在一定程度上推測未來數(shù)據(jù)。
第二,數(shù)據(jù)挖掘技術(shù)的應(yīng)用,應(yīng)該將要達到的目標,需要解決的問題一一明確。針對目標,可以給出如下的定義:利用分類法或者是聚類法來分析異?,F(xiàn)象;利用相關(guān)分析、時間序列分析和回歸分析等挖掘數(shù)據(jù)之間的聯(lián)系,以此來分析各個變量對于油田生產(chǎn)可能產(chǎn)生的影響,從而將分散的數(shù)據(jù)融合,以便指導(dǎo)后續(xù)的生產(chǎn);在油田生產(chǎn)經(jīng)營環(huán)節(jié)實現(xiàn)信息化建設(shè),這樣可以很好的積累歷史數(shù)據(jù)和生產(chǎn)經(jīng)營成果。在挖掘這一部分數(shù)據(jù)背后的知識,并做出提出的過程中可以使用興趣模型,探索油田生產(chǎn)規(guī)律,從而預(yù)測油藏開發(fā)指標和未來的生產(chǎn)情況等,這樣才可以提供依據(jù),供后續(xù)生產(chǎn)方案的優(yōu)化和調(diào)整。
第三,在完成數(shù)據(jù)應(yīng)用平臺的數(shù)據(jù)準備之后,就可以進行數(shù)據(jù)的探索與模型的應(yīng)用等一系列的工作。建立數(shù)據(jù)模型是數(shù)據(jù)挖掘工作中的核心環(huán)節(jié),在這一個模型中有效地集中了模糊聚類、統(tǒng)計分析、貝葉斯預(yù)測、關(guān)聯(lián)規(guī)則等各種數(shù)據(jù)挖掘算法,再通過多種建模方式的比較與綜合,就可以建立出數(shù)學模型。另外,數(shù)據(jù)分為校驗和訓(xùn)練兩方面的數(shù)據(jù),在檢驗?zāi)P椭行枰?/p>
第四,針對油田的信息處理,在大量數(shù)據(jù)當中選擇訓(xùn)練樣本,極有可能出現(xiàn)數(shù)據(jù)方面的誤差,部分明顯的矛盾會對網(wǎng)絡(luò)訓(xùn)練的準確性產(chǎn)生影響,降低識別網(wǎng)絡(luò)的能力,所以,需要針對訓(xùn)練樣本進行有效地篩選。篩選中可以利用剔除冗余和無關(guān)的方式,如果模式無法滿足用戶的需求,就需要重新的選取數(shù)據(jù),換一種算法重新進行數(shù)據(jù)的挖掘,或者是重新的設(shè)定數(shù)據(jù)挖掘參數(shù)值,應(yīng)用新數(shù)據(jù)變化方法。這樣,才可以合理地利用數(shù)據(jù)挖掘技術(shù)進行油田企業(yè)的信息處理。
總而言之,隨著時代的發(fā)展,越來越多的科學技術(shù)被應(yīng)用到各個行業(yè)的生產(chǎn)和日常的事物處理中。針對油田企業(yè)的信息處理,通過數(shù)據(jù)挖掘技術(shù)的合理應(yīng)用,就可以很好地完善整體信息處理程序,讓油田企業(yè)更好地發(fā)展下去。所以,在今后的油田企業(yè)信息處理中,還應(yīng)該更進一步研究數(shù)據(jù)挖掘技術(shù),認識到數(shù)據(jù)挖掘技術(shù)能夠帶來什么、推動什么。
主要參考文獻
[1]羅琳.數(shù)據(jù)挖掘在企業(yè)信息處理中的應(yīng)用[J].大眾科技,2009(7):65-66.
[2]于世春.數(shù)據(jù)挖掘技術(shù)在油水井工況系統(tǒng)應(yīng)用探討[J].化學工程與裝備,2015(10):115-118.
[3]李華,劉帥,李茂,等.數(shù)據(jù)挖掘理論及應(yīng)用研究[J].斷塊油氣田,2010 (1):88-91.
10.3969/j.issn.1673-0194.2016.17.043
TP391
A
1673-0194(2016)17-0092-02
2016-06-03使用校驗數(shù)據(jù),而模型參數(shù)求解則要利用訓(xùn)練數(shù)據(jù)。將檢驗數(shù)據(jù)帶入已經(jīng)建立的模型中,是模型檢驗的核心任務(wù),需要觀察模型的響應(yīng)情況,準確的進行模型評估,則需要通過模型與真實數(shù)據(jù)的相互比較來實現(xiàn)。如果準確性比交叉,就需要通過新模型的建立,來重新探索數(shù)據(jù),檢驗新模型。所以,檢驗?zāi)P?、建立模型、探索?shù)據(jù)就成為油田企業(yè)信息處理中數(shù)據(jù)挖掘技術(shù)實際應(yīng)用需要反復(fù)操作的過程。