陳玉濤 陜西財經(jīng)職業(yè)技術(shù)學(xué)院
數(shù)據(jù)挖掘技術(shù)在油田企業(yè)生產(chǎn)中的應(yīng)用
陳玉濤 陜西財經(jīng)職業(yè)技術(shù)學(xué)院
油田企業(yè)生產(chǎn)過程中會產(chǎn)生大量的數(shù)據(jù),包括開采、作業(yè)等多個類型的數(shù)據(jù)。通過數(shù)據(jù)挖掘,可以充分利用所采集到的信息,處理更大規(guī)模的數(shù)據(jù),具有能夠即時查詢、準確提出預(yù)測等優(yōu)點。數(shù)據(jù)挖掘的過程可分成三個大的步驟,即準備數(shù)據(jù)、挖掘數(shù)據(jù)、評估并解釋結(jié)果。企業(yè)在完成數(shù)據(jù)挖掘過程之后,使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這些知識,并適時調(diào)整油田的生產(chǎn)方法和策略,可以提升油田企業(yè)的效益及企業(yè)的競爭力。
數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;建模;油田生產(chǎn)
油田企業(yè)生產(chǎn)過程中會產(chǎn)生大量的數(shù)據(jù),如何使用這些數(shù)據(jù)提取出盡可能多的有用信息,從而提高油田企業(yè)的生產(chǎn)效率和質(zhì)量成為一個亟待解決的問題。數(shù)據(jù)挖掘技術(shù)憑借其在數(shù)據(jù)分析應(yīng)用中的強大功能得到了人們的重視。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中人們事先不知道的、但又是潛在有用的信息和知識的過程。通過數(shù)據(jù)挖掘,可以充分利用所采集到的信息。與傳統(tǒng)方法相比,數(shù)據(jù)挖掘具有能夠處理更大規(guī)模數(shù)據(jù),即時查詢,準確提出預(yù)測等優(yōu)點。
油田企業(yè)的數(shù)據(jù)挖掘系統(tǒng)其結(jié)構(gòu)如圖1所示。
數(shù)據(jù)挖掘的過程可分成三個大的步驟,即準備數(shù)據(jù)、挖掘數(shù)據(jù)、評估并解釋結(jié)果。準備數(shù)據(jù)階段:數(shù)據(jù)挖掘過程耗時最多的階段,其任務(wù)是將所要挖掘的數(shù)據(jù)建立成一個數(shù)據(jù)集合,該數(shù)據(jù)集合可以是數(shù)據(jù)庫、數(shù)據(jù)倉庫或者是一個數(shù)據(jù)表格。挖掘數(shù)據(jù)階段:要確定挖掘的目的,如聚類、分類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等。在確定了挖掘的目標之后,就可以選取挖掘算法。得到的挖掘結(jié)果可能會出現(xiàn)無關(guān)或冗余的情況,也可能不滿足用戶的需求,這時要把不滿足要求的結(jié)果剔除。根據(jù)用戶可視化的需求,把挖掘的結(jié)果轉(zhuǎn)換成用戶可以理解的表示方法。這個過程就是評估、解釋挖掘結(jié)果。
圖1 典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)
油田企業(yè)的數(shù)據(jù)比較特殊,包括開采、地質(zhì)、井下作業(yè)等多個類型的數(shù)據(jù),其中油井開發(fā)數(shù)據(jù)主要包括油井的各項指標,例如產(chǎn)油量、注水量、油中含水率等數(shù)據(jù)。
(1)數(shù)據(jù)倉庫的設(shè)立。數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的和非易失的數(shù)據(jù)集合,能夠支持管理程序的決策過程。構(gòu)建油田企業(yè)的數(shù)據(jù)倉庫能夠配合數(shù)據(jù)挖掘操作,也能夠查詢并統(tǒng)計復(fù)雜的油田生產(chǎn)歷史數(shù)據(jù)。構(gòu)建數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的重要基礎(chǔ),兩者相互作用,有良好的發(fā)展前景。
(2)油田企業(yè)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘方法。數(shù)據(jù)挖掘領(lǐng)域使用的方法主要包括統(tǒng)計分析方法、歸納學(xué)習(xí)方法、聚類與分類方法、粗集方法、探測性數(shù)據(jù)分析方法、神經(jīng)網(wǎng)絡(luò)算法、支持向量機(SVM)算法等方法。
(3)數(shù)據(jù)挖掘操作。建立完油田企業(yè)的數(shù)據(jù)倉庫之后,就可以在這個數(shù)據(jù)倉庫平臺上進行數(shù)據(jù)挖掘的操作。首先需要確定油田企業(yè)的數(shù)據(jù)挖掘目標。在油田企業(yè)生產(chǎn)過程中,通常關(guān)心以下問題:企業(yè)生產(chǎn)過程各個指標出現(xiàn)異常的情況;油田各個生產(chǎn)要素之間的關(guān)聯(lián)關(guān)系;合理預(yù)測油田企業(yè)未來的生產(chǎn)活動。數(shù)據(jù)準備工作完成之后,需要針對生產(chǎn)活動建立數(shù)學(xué)模型,并根據(jù)挖掘目標,選擇高效率的挖掘算法。在建模過程中,一般把數(shù)據(jù)分成訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)主要用于求解模型參數(shù),測試數(shù)據(jù)主要用于測試并校驗?zāi)P?。在實際建模過程中,往往需要結(jié)合具體情況,對建模方法進行比較、綜合。針對油田企業(yè)生產(chǎn)特征,對異常值的挖掘一般采用聚類或分類算法;對關(guān)聯(lián)關(guān)系的挖掘采用關(guān)聯(lián)性挖掘算法;預(yù)測則需要綜合多種挖掘算法。
對油田數(shù)據(jù)進行數(shù)據(jù)挖掘,產(chǎn)生各個生產(chǎn)因素之間關(guān)聯(lián)規(guī)則以及分類、聚類結(jié)果,這些結(jié)果不能被用戶直接理解,因此需要進行解釋,使用用戶可以理解的語言或圖像化方式表示出來。油田企業(yè)在生產(chǎn)過程中會采集大規(guī)模的數(shù)據(jù),可能會出現(xiàn)有誤差的數(shù)據(jù),有些誤差會直接影響挖掘的結(jié)果。為了降低誤差數(shù)據(jù)帶來的影響,在數(shù)據(jù)挖掘開始階段需要進行數(shù)據(jù)篩選工作;對于挖掘出的知識和預(yù)測結(jié)果,要經(jīng)過專家的評估,將錯誤、無關(guān)、冗余的結(jié)果刪除。如果結(jié)果與實際偏差較大,那么需要重新選擇數(shù)據(jù),或者變換挖掘方法,重新進行挖掘操作。企業(yè)在完成數(shù)據(jù)挖掘過程之后,使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這些知識,并適時調(diào)整油田的生產(chǎn)方法和策略,可以提升油田企業(yè)的效益及企業(yè)的競爭力。
利用油田各項開發(fā)指標,科學(xué)地預(yù)測油田的生產(chǎn)趨勢及產(chǎn)量,對油田企業(yè)制定發(fā)展規(guī)劃有重要的意義。油田的地質(zhì)特征、儲油層、開采手段及分析方法各不相同,油田開發(fā)指標主要包括動態(tài)瞬時分析、注水效果評價、油田開發(fā)指標預(yù)測等指標分析預(yù)測工具。2002年,大慶喇嘛甸油田進行了開發(fā)指標分析試驗,采用穩(wěn)壓控水策略,所預(yù)測的水驅(qū)曲線與實際含水上升規(guī)律誤差較大;而使用西帕切夫曲線,預(yù)測的油田含水上升規(guī)律的結(jié)果與油田實際的含水上升規(guī)律基本趨于一致。通過利用數(shù)據(jù)挖掘工具,分析各項指標對油田生產(chǎn)的影響,預(yù)測了油田儲油量,并對油田的未來產(chǎn)量進行了預(yù)測。
石油資源是不可再生資源,面對日益減少的石油儲藏量,提高油田的生產(chǎn)效率和生產(chǎn)質(zhì)量是油田企業(yè)面臨的重大難題;同時油田企業(yè)之間競爭加劇,有效控制生產(chǎn)成本是企業(yè)提升競爭力的關(guān)鍵因素。當前我國油田企業(yè)逐漸完成了信息化建設(shè),生產(chǎn)過程基本實現(xiàn)了信息化,日常生產(chǎn)積累的大量數(shù)據(jù)是企業(yè)的另一個財富。數(shù)據(jù)挖掘是近年來逐漸興起并迅速發(fā)展的一門學(xué)科,在油田企業(yè)生產(chǎn)上應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠發(fā)現(xiàn)蘊含其中的有用的生產(chǎn)規(guī)律。
(欄目主持 關(guān)梅君)
10.3969/j.issn.1006-6896.2014.4.035