紀(jì)懷猛
(福州大學(xué)陽光學(xué)院,福建福州 350015)
由于科技水平的提高和發(fā)展,數(shù)據(jù)庫技術(shù)越來越多地應(yīng)用在各行各業(yè)中?,F(xiàn)有的絕大多數(shù)數(shù)據(jù)庫的功能是對數(shù)據(jù)進(jìn)行錄入、查詢及統(tǒng)計等,并且處理后的信息只是當(dāng)作數(shù)據(jù)庫信息的一部分。如果只是經(jīng)這樣簡單的處理,根本就無法正確地對數(shù)據(jù)的整體性質(zhì)進(jìn)行描述,更不用說預(yù)測數(shù)據(jù)的發(fā)展方向了。隨著數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫中的應(yīng)用,可以挖掘出許多有用的數(shù)據(jù)和數(shù)據(jù)模型,根據(jù)挖掘出來的有效信息,可以做出高效的決策。電力系統(tǒng)作為國家重要能源部門,在社會日常生產(chǎn)中有著不可替代的作用,它能否安全運行將直接影響到社會的各行各業(yè)能否正常運作,因此必須要確保電力系統(tǒng)安全運行[1]。對電力系統(tǒng)的運行狀態(tài)進(jìn)行實時的監(jiān)控,對運作性能進(jìn)行查看分析和綜合評估,對電力設(shè)備的故障進(jìn)行分析、診斷以及維修,已經(jīng)變得越來越不可缺少。
近年來,隨著數(shù)據(jù)倉庫和統(tǒng)計學(xué)等技術(shù)水平的提高而出現(xiàn)的一種多領(lǐng)域綜合的、新型的數(shù)據(jù)處理技術(shù)——數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是指從海量的數(shù)據(jù)中找出隱藏的、有用的數(shù)據(jù)模型的過程[2]。針對使用的數(shù)據(jù)多次使用相應(yīng)數(shù)據(jù)挖掘算法從中找出符合要求的數(shù)據(jù)模型。即是根據(jù)預(yù)先假定的目標(biāo),對海量的數(shù)據(jù)進(jìn)行分析處理和挖掘,找出其中隱含的、有用的信息,然后進(jìn)一步把信息模型化和高效的技術(shù)處理過程[3]。隨著數(shù)據(jù)庫、計算機(jī)技術(shù)水平的快速提高和發(fā)展,數(shù)據(jù)挖掘已越來越多應(yīng)用在各行各業(yè)中。
數(shù)據(jù)挖掘技術(shù)與已有的數(shù)據(jù)分析方式的主要區(qū)別是它們在發(fā)現(xiàn)數(shù)據(jù)關(guān)系時所使用的方法上有很大的區(qū)別。已有的數(shù)據(jù)分析方式主要使用的是基于驗證、分析的方法。然而,數(shù)據(jù)挖掘使用的是基于發(fā)現(xiàn)的方法。數(shù)據(jù)挖掘采用特有的挖掘算法來分析出數(shù)據(jù)之間的關(guān)系。知識發(fā)現(xiàn)過程如圖1所示。
圖1 知識發(fā)現(xiàn)過程
現(xiàn)在對知識發(fā)現(xiàn)過程有很多種說明方式,不過它們沒有多少本質(zhì)上的不同。以下簡要地描述一下知識發(fā)現(xiàn)過程:
1)問題的認(rèn)識和定義。技術(shù)人員與問題領(lǐng)域人士一起深入地理解和分析問題,描述出可能的解決方案和對模型結(jié)果的評估方法。
2)數(shù)據(jù)集成和選擇。在文件或數(shù)據(jù)庫中收集相關(guān)的數(shù)據(jù)。
3)數(shù)據(jù)變換和清理。消除噪聲和刪除不同的數(shù)據(jù),然后通過數(shù)據(jù)的聚集操作把數(shù)據(jù)變換為一種統(tǒng)一的形式,方便數(shù)據(jù)挖掘。
4)算法選擇和運行。通過問題的定義和數(shù)據(jù)的描述形式來確定挖掘算法,然后根據(jù)確定的挖掘算法從數(shù)據(jù)中找出模型。
5)模式評估。根據(jù)問題的某種興趣度量來找出真正有用的模型。由問題的處理人來評價模型的符合度和高效性。
數(shù)據(jù)挖掘的算法很多,常用的幾種算法如下。
K-Means算法是一個聚類算法,接受的輸入為k,根據(jù)數(shù)據(jù)的屬性把n個數(shù)據(jù)劃分為k個聚類,k<n。K-Means算法根據(jù)各個聚類中數(shù)據(jù)的均值來獲取數(shù)據(jù)中自然聚類的中心。它以數(shù)據(jù)來自于空間向量為前提,并且以各個數(shù)據(jù)組的內(nèi)部方差總和最小為目標(biāo)。
由于ID3算法在實際的應(yīng)用中存在缺陷,于是提出了C4.5算法。C4.5算法是一種分類決策樹算法,它包含了ID3算法的優(yōu)點,并針對ID3算法的缺點進(jìn)行了一些改進(jìn):
1)能夠離散化處理連續(xù)的屬性;
2)在樹構(gòu)造過程中進(jìn)行剪枝;
3)能夠處理不完整數(shù)據(jù);
4)選擇屬性的依據(jù)是信息增益率。
C4.5算法有如下優(yōu)點:可以生成易于理解、準(zhǔn)確率較高的分類規(guī)則。但是在產(chǎn)生樹的過程中,需要對待處理的數(shù)據(jù)進(jìn)行多次順序遍歷和排序,降低了該算法的效率,這也是它的缺點。
K最近鄰分類算法是一種機(jī)器學(xué)習(xí)算法,在理論上比較成熟。該方法的思路是:如果一個樣本在特征空間中的k個最鄰近的樣本中的大部分都屬于其中一個類別,那么這個樣本也屬于這個類別。
分類與回歸樹是采用一種二分遞歸分割的技術(shù)生成的結(jié)構(gòu)簡潔的決策樹。其中有兩個關(guān)鍵的思路分別是遞歸地劃分自變量空間和用驗證數(shù)據(jù)進(jìn)行剪枝[4]。
近年來,數(shù)據(jù)挖掘越來越多地應(yīng)用在電力系統(tǒng)日常運行中。主要包括:
1)電力系統(tǒng)日常負(fù)荷調(diào)度;
2)電力系統(tǒng)日常負(fù)荷預(yù)測;
3)電力系統(tǒng)動態(tài)安全評估;
4)電力系統(tǒng)故障診斷等。
日常調(diào)度是電力系統(tǒng)一項非常重要的工作,主要是實時處理電力系統(tǒng)中的海量信息,并且對實時信息快速做出反應(yīng)。由于電力系統(tǒng)服務(wù)的對象是整個社會,電力系統(tǒng)的調(diào)度中心首先要考慮系統(tǒng)能否安全可靠的運行,其次還要考慮國家的經(jīng)濟(jì)利益。綜合以上因素,制定出較為合理的調(diào)度策略和符合市場要求的電價。要做出符合要求的調(diào)度策略,就不得不引入數(shù)據(jù)挖掘技術(shù)。我們可以把運行狀態(tài)分為:1)正常狀態(tài);2)警戒狀態(tài);3)緊急狀態(tài);4)測試狀態(tài);5)恢復(fù)狀態(tài)。如果電力系統(tǒng)的某一狀態(tài)被確定下來,就要將相應(yīng)的操作方式傳遞給工作人員,讓他們完成工作。挖掘算法可以幫助我們對實時信息進(jìn)行集成處理,獲得更加準(zhǔn)確的數(shù)據(jù),從而更迅速地下達(dá)有效的操作方式,而且還可以獲取電力系統(tǒng)的整體運行情況。比如說電力系統(tǒng)中某些器件出現(xiàn)故障,能夠快速地響應(yīng)并定位故障,從而修復(fù)故障。
電力系統(tǒng)日常運行中的另外一項非常重要的工作是負(fù)荷預(yù)測,它涉及到各個電廠、電站新一年的生產(chǎn)計劃。是否能夠準(zhǔn)確預(yù)算出社會用電量,這會直接影響電力部門能否高效地滿足社會生產(chǎn)需求以及國家的經(jīng)濟(jì)效益。根據(jù)電力系統(tǒng)歷史負(fù)荷數(shù)據(jù)以及社會生產(chǎn)的變動情況,并集合數(shù)據(jù)挖掘算法和決策工具,可以設(shè)計出基于決策樹的數(shù)據(jù)模型,然后在日常電力負(fù)荷預(yù)測中應(yīng)用數(shù)據(jù)挖掘。統(tǒng)計分析結(jié)果表明,文中數(shù)據(jù)模型完全符合實際需求,它能夠高效、準(zhǔn)確地預(yù)測出日常的電力負(fù)荷[5]。根據(jù)自適應(yīng)決策樹,對電力系統(tǒng)數(shù)據(jù)庫中的用戶信息,比如用電記錄、天氣以及季節(jié)等信息進(jìn)行分析預(yù)測,可以幫助電力部門制定出合適的營銷策略。
電力系統(tǒng)故障診斷對于電力系統(tǒng)的穩(wěn)定運行有重要的作用,主要根據(jù)電力系統(tǒng)保護(hù)裝置信息和繼電保護(hù)信息來鑒別電力故障的器件類型、故障所在位置,從而確定產(chǎn)生錯誤操作的裝置[6]。
數(shù)據(jù)挖掘在電力系統(tǒng)故障中的模型設(shè)計如圖2所示。
圖2 數(shù)據(jù)挖掘在電力系統(tǒng)故障中的模型設(shè)計
該模型主要分原始數(shù)據(jù)收集、數(shù)據(jù)抽取和精化、數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘4個階段。原始數(shù)據(jù)收集作為該模型的底層,主要負(fù)責(zé)收集故障原始數(shù)據(jù),并將故障數(shù)據(jù)傳輸至數(shù)據(jù)監(jiān)視器;故障數(shù)據(jù)到達(dá)第二階段后,對故障數(shù)據(jù)進(jìn)行分析,將故障數(shù)據(jù)進(jìn)行有序的分類,包括故障時間、故障類型、故障位置等信息進(jìn)行統(tǒng)計。整理好的數(shù)據(jù)輸送到數(shù)據(jù)倉庫之中保存,并為數(shù)據(jù)挖掘所使用,及時反饋相關(guān)數(shù)據(jù)。
在該模型中,數(shù)據(jù)挖掘階段是核心部分,對于小型電力系統(tǒng)和變電站的故障診斷中較適合使用基于粗糙集理論的挖掘模型。不過該模型在處理發(fā)生許多故障疊加的情況時,出現(xiàn)了不適應(yīng)的情況,粗糙集方法將出現(xiàn)十分巨大的決策表,甚至?xí)a(chǎn)生組合數(shù)據(jù)量過大等問題[7]。因此,在處理變電站故障時,可以采用決策樹的方式。它可以高效地找出以及描述出故障診斷信息,還可以獲得具有高效的決策樹形式表示的數(shù)據(jù)模型。對于電力系統(tǒng)這個復(fù)雜的大系統(tǒng)而言,可采用一種粗糙集理論的決策表約簡新算法,在電網(wǎng)故障診斷中應(yīng)用故障所對應(yīng)的綜合知識庫模型。在處理離散數(shù)據(jù)中非常適合采用粗糙集理論,在調(diào)度部門和各個發(fā)電廠之間存在著許多連續(xù)屬性的數(shù)據(jù),因此需要離散化實測數(shù)據(jù),然后利用粗糙集理論對數(shù)據(jù)進(jìn)行綜合分析、集成處理,這樣可以及時地處理好電力系統(tǒng)故障。
采用數(shù)據(jù)挖掘中決策樹的劃分方法,可以把電力系統(tǒng)的運行狀態(tài)劃分為正常、異常兩種狀態(tài)。在系統(tǒng)數(shù)據(jù)中,依據(jù)數(shù)據(jù)挖掘的相應(yīng)算法對數(shù)據(jù)進(jìn)行自動處理,直到運行狀態(tài)變?yōu)檎顟B(tài)為止,運用所提取出的對安全運行有用的信息,從中可以找出電力系統(tǒng)中可能存在的導(dǎo)致系統(tǒng)異常的因素,并且可以綜合分析出系統(tǒng)的安全性和可靠性,得到提高電力系統(tǒng)安全可靠運行的解決方案。電力系統(tǒng)的工作人員能夠根據(jù)數(shù)據(jù)模型所得出的運行狀態(tài)的監(jiān)控信息及故障的預(yù)測診斷結(jié)果,詳細(xì)檢查電力系統(tǒng)的各種運行狀況,并針對發(fā)現(xiàn)的問題迅速做出響應(yīng),這樣可以減少器件的維修成本,延長器件的使用周期,從而確保系統(tǒng)安全可靠地運行。
根據(jù)某省從2008-2012年的社會實際用電量,采用以決策樹算法模型和模糊聚類模型,對2008-2012年的用電情況進(jìn)行預(yù)測,將其預(yù)測的值進(jìn)行對比分析。某省2008-2012年社會用電量誤差分析見表1。
表1 某省2008-2012年社會用電量誤差分析 ×108 k W·h
由表1可以看出,基于決策樹算法模型的預(yù)測結(jié)果和基于模糊聚類模型的預(yù)測結(jié)果的誤差值均小于標(biāo)準(zhǔn)要求,其中,決策樹算法模型預(yù)測的結(jié)果更接近于真實值。
某省社會用電真實值與預(yù)測值曲線如圖3所示。
由圖3可以看出,我們提出的基于決策樹算法的模型對預(yù)測結(jié)果的誤差較小,在與真實值的比較中最大誤差為2.1%,在可以接受的范圍之內(nèi)。其中,2012年的用電預(yù)測值與真實值完全吻合。因此文中提出的數(shù)據(jù)挖掘模型是可行和實用的。
圖3 某省社會用電真實值與預(yù)測值曲線圖
介紹了數(shù)據(jù)挖掘技術(shù)基本概念,較為詳細(xì)地分析了在電力系統(tǒng)各個日常運行中挖掘技術(shù)應(yīng)用情況。與已有的分析方式相比較,數(shù)據(jù)挖掘計算高效,能更好地管理和檢測電力系統(tǒng)的運行狀態(tài)和故障信息,因此非常適合于電力系統(tǒng)這種大型復(fù)雜的系統(tǒng)。數(shù)據(jù)挖掘在電力系統(tǒng)的很多方面都有應(yīng)用,并且效果明顯。但從我國目前的應(yīng)用來看,數(shù)據(jù)挖掘技術(shù)還沒有大規(guī)模和普遍使用,而且數(shù)據(jù)挖掘本身還有很多問題需要解決,如數(shù)據(jù)挖掘算法的高效性、數(shù)據(jù)挖掘模型的通用性等。因此,想要在電力系統(tǒng)中更多地使用數(shù)據(jù)挖掘技術(shù),還需要對數(shù)據(jù)挖掘技術(shù)進(jìn)一步探討和研究。
[1] 郭創(chuàng)新,朱傳柏,曹一家,等.電力系統(tǒng)故障診斷的研究現(xiàn)狀與發(fā)展趨勢[J].電力系統(tǒng)自動化,2006,30(8):98-103.
[2] 王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報,2004,32(2):246-252.
[3] 宋佳麗,劉曉梅,王莉莉,等.基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)入侵檢測系統(tǒng)[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2003,24(4):26-28.
[4] 麋元振.數(shù)據(jù)挖掘方法的綜述[J].南京化工大學(xué)學(xué)報,2001(5):110-195.
[5] 陳紅坤,黃娟.數(shù)據(jù)挖掘及其在電能質(zhì)量分析中的應(yīng)用[J].電力系統(tǒng)及其自動化學(xué)報,2009(5):51-55.
[6] 白雪峰,倪以信.電力系統(tǒng)動態(tài)安全分析綜述[J].電網(wǎng)技術(shù),2004,28(16):14-19.
[7] 束洪春,孫向飛,于繼來.粗糙集理論在電力系統(tǒng)中的應(yīng)用[J].電力系統(tǒng)自動化,2004,28(3):90-95.