陳章良
[摘 要] 數(shù)據(jù)挖掘是一門新興的數(shù)據(jù)處理技術(shù),是當(dāng)前熱門的一個研究領(lǐng)域。本文簡要介紹了數(shù)據(jù)挖掘的概念,論述了基于數(shù)據(jù)挖掘的預(yù)測決策模型建立、實施和效果評估,最后對基于數(shù)據(jù)挖掘的預(yù)測決策模型在電力營銷系統(tǒng)中的應(yīng)用作了實證。
[關(guān)鍵詞] 數(shù)據(jù)挖掘;預(yù)測決策;電力營銷系統(tǒng)
[中圖分類號]F270.7;F272.3[文獻標(biāo)識碼]A[文章編號]1673-0194(2009)01-0057-03
1 引 言
隨著數(shù)據(jù)庫、網(wǎng)絡(luò)等技術(shù)的迅速發(fā)展,人們積累的數(shù)據(jù)越來越多,需要有新的、更有效的方法對各種大量的數(shù)據(jù)進行分析、提取以挖掘其潛能,數(shù)據(jù)挖掘正是在這樣的應(yīng)用需求環(huán)境下產(chǎn)生并迅速發(fā)展起來的,它的出現(xiàn)為智能地把海量的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識提供了新的思路和手段。
隨著電力市場的改革和發(fā)展,供電企業(yè)越來越需要對用戶側(cè)需求、發(fā)電側(cè)需求以及第三方需求進行科學(xué)預(yù)測決策,以便為供電企業(yè)運營提供科學(xué)依據(jù)。
2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)庫中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數(shù)據(jù)挖掘也可稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),它是從大量數(shù)據(jù)中提取出可信的、新穎的、潛在的、有效并能被人理解的模式的一種高級處理過程。數(shù)據(jù)挖掘是按照企業(yè)既定的業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進行探索,揭示隱藏其中的規(guī)律性,并進一步將之模型化的先進、有效的方法。
數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程,如圖1所示。整個數(shù)據(jù)挖掘過程是由若干挖掘步驟組成,其主要步驟有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和知識表示。
3 預(yù)測決策模型
預(yù)測決策系統(tǒng)根據(jù)歷史數(shù)據(jù)對未來數(shù)據(jù)進行預(yù)測,同時根據(jù)天氣因素/節(jié)假日因素等調(diào)整預(yù)測結(jié)果。任何一種方法只是數(shù)學(xué)上的一種理想的模型,很難用一種或幾種預(yù)測決策模型描述所有的變化規(guī)律。因此建立預(yù)測決策的方法庫,以盡可能多地預(yù)測決策模型,滿足事物發(fā)展規(guī)律多樣性的需求,其中既包括被企業(yè)預(yù)測人員所經(jīng)常采用的常規(guī)方法,也包括一些比較新穎的預(yù)測決策方法,如人工神經(jīng)網(wǎng)絡(luò)法等。
提供對預(yù)測決策所用的歷史序列進行不良數(shù)據(jù)的檢測與辨識,有效地提高精度。預(yù)測人員可以結(jié)合具體情況靈活選用較為合適的預(yù)測決策方法,對多種方法的預(yù)測結(jié)果互為比較,再進行合理的綜合分析,得出最終的預(yù)測結(jié)果。充分考慮影響預(yù)測結(jié)果的多種因素,如氣象因素、日分類(正常日、國慶、春節(jié)等)、星期類型(周一至周日)等。
預(yù)測決策系統(tǒng)為4庫結(jié)構(gòu):數(shù)據(jù)庫、算法庫、模型庫、綜合分析庫。數(shù)據(jù)庫中存儲有關(guān)的歷史業(yè)務(wù)指標(biāo),算法庫/模型庫保存了對預(yù)測決策模型的管理,綜合分析數(shù)據(jù)庫保存了進行組合預(yù)測決策的相關(guān)信息。預(yù)測決策系統(tǒng)基本結(jié)構(gòu)如圖2所示。
4 基于數(shù)據(jù)挖掘的電力營銷預(yù)測決策系統(tǒng)
電力營銷管理信息系統(tǒng)涵蓋供電企業(yè)用電營業(yè)管理的全過程業(yè)務(wù),包括電量電費、業(yè)擴報裝、計量管理、用電檢查和綜合管理等。整體系統(tǒng)框圖如圖3所示。
對于一個中型地市級的供電企業(yè),電力營銷管理信息系統(tǒng)一年積累電量電費、業(yè)擴報裝、計量管理、用電檢查數(shù)據(jù)至少2GB,一般供電企業(yè)至少保存3年以上歷史數(shù)據(jù)。預(yù)測決策層為制訂營銷管理目標(biāo)及營銷預(yù)測決策提供科學(xué)的依據(jù),即從這些大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)庫中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。
4. 1預(yù)測決策模型
預(yù)測決策的模型可以分為3類:初級模型、常規(guī)預(yù)測模型、專用模型,根據(jù)電力業(yè)務(wù)分析人員的實踐經(jīng)驗,針對電量、電費等預(yù)測指標(biāo)在年度、季度、月度等不同的時間單位上總結(jié)出一些獨有的預(yù)測決策模型(詳見圖4)。
不同地區(qū)、不同時間、不同行業(yè)的負荷變化規(guī)律是不同的,很難用一種或幾種預(yù)測決策模型描述所有的變化規(guī)律。建立預(yù)測決策的模型庫,使得用戶可以自定義預(yù)測決策模型中的參數(shù),可定義各種新增加的預(yù)測決策模型。這種開放為用戶提供了充分的空間,將人的經(jīng)驗與計算機有機地結(jié)合起來,從而保證了預(yù)測決策的精度。
4. 2預(yù)測決策策略
每一種預(yù)測決策模型都代表了一種發(fā)展規(guī)律,預(yù)測決策模型越多,預(yù)測決策人員的選擇余地越大,預(yù)測決策結(jié)果越精確。系統(tǒng)提供的預(yù)測決策方法庫中既包括了被電力系統(tǒng)預(yù)測決策人員所經(jīng)常采用的常規(guī)方法,如一元及多元線性回歸、滑動平均預(yù)測、指數(shù)平滑預(yù)測,也包括了一些比較新穎的預(yù)測決策模型,如人工神經(jīng)網(wǎng)絡(luò)模型等,并且對一些預(yù)測決策模型進行了改進,如改進的Winters-dm模型。同時針對電力業(yè)務(wù)分析人員的實踐經(jīng)驗,總結(jié)出一些獨有的預(yù)測決策模型,如模式分解預(yù)測決策法。
預(yù)測決策人員可以結(jié)合具體情況靈活選用較為合適的預(yù)測決策方法,對多種方法的預(yù)測決策結(jié)果互為比較,再進行合理的綜合分析,得出最終的預(yù)測決策結(jié)果。
(1)基于模型庫的預(yù)測決策模型管理。建立預(yù)測決策的方法庫和模型庫,將人的經(jīng)驗與計算機有機地結(jié)合起來,從而保證了預(yù)測決策的精度。
(2)組合模型預(yù)測決策技術(shù)。對于電量、負荷等序列量的預(yù)測決策,預(yù)測決策人員可選擇的模型是多種多樣的。數(shù)學(xué)模型是理想抽象,負荷發(fā)展的自然規(guī)律很難用單一數(shù)學(xué)模型加以描述,任何單一的預(yù)測決策模型的精度不可能很好。無論是從預(yù)測決策人員方便地選擇模型的角度,還是為了提高預(yù)測決策的精度,都需要研究如何將不同種模型進行有機的組合,即綜合模型,才能形成對電量、負荷發(fā)展自然規(guī)律的更貼切或完備的描述,提高預(yù)測決策的精度。
(3)預(yù)測決策過程控制技術(shù)。在預(yù)測決策值未得到真實值證實之前,由預(yù)測決策系統(tǒng)得到的預(yù)測決策結(jié)果是否達到了預(yù)測決策精度的要求,是預(yù)測決策工作者迫切關(guān)心的問題。系統(tǒng)采用“虛擬預(yù)測決策策略”,即通過對近期已知數(shù)據(jù)的虛擬預(yù)測決策,考察該預(yù)測決策系統(tǒng)在數(shù)據(jù)條件變化下的預(yù)測決策結(jié)果穩(wěn)定性、擬合精度和虛擬預(yù)測決策精度等指標(biāo),得到預(yù)測決策模型的預(yù)測決策精度等級,為預(yù)測決策人員提供自動選擇預(yù)測決策模型的功能。
(4)歷史數(shù)據(jù)的預(yù)處理技術(shù)。為了獲得較好的預(yù)測決策效果,用于預(yù)測決策的歷史數(shù)據(jù)的合理性應(yīng)該得到充分保證。因此,需要對歷史數(shù)據(jù)進行合理性分析,去偽存真。最基本的要求是:須排除由于人為因素帶來的錯誤、由于統(tǒng)計口徑不同帶來的誤差,以及歷史上的突發(fā)事件或由于某些特殊原因?qū)y(tǒng)計數(shù)據(jù)帶來重大的影響。
(5)預(yù)測決策結(jié)果評價與自動參數(shù)修正技術(shù)。預(yù)測決策結(jié)束后,隨著實際數(shù)據(jù)的產(chǎn)生,為了進一步提高預(yù)測決策的精度,系統(tǒng)對多種預(yù)測決策方法所得結(jié)果進行全面的誤差分析,對預(yù)測決策結(jié)果作出評價,并對預(yù)測決策模型的參數(shù)進行修正。所有誤差分析結(jié)果均保存于用戶指定的信息文件中,可供隨時查閱,并對以后的預(yù)測決策數(shù)據(jù)進行校正。
(6)預(yù)測決策結(jié)果的人工干預(yù)。在業(yè)務(wù)實踐過程中, 預(yù)測決策人員積累了豐富的工作經(jīng)驗,同時由于電力工作的實際情況,有很多未來的變化并不依從歷史數(shù)據(jù)規(guī)律,而是政策性的或者是人為設(shè)置的。因此系統(tǒng)必須提供充分的人工調(diào)整預(yù)測決策數(shù)據(jù)的手段。
4. 3系統(tǒng)框架
系統(tǒng)整體結(jié)構(gòu)由3部分組成:數(shù)據(jù)倉庫的架構(gòu)與管理、中間應(yīng)用服務(wù)器的調(diào)優(yōu)與設(shè)置、前端報表分析數(shù)據(jù)的展示與設(shè)計,如圖5所示。
(1)數(shù)據(jù)倉庫構(gòu)架與管理主要包括數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)的構(gòu)建、目標(biāo)數(shù)據(jù)的生成過程(數(shù)據(jù)抽?。┘皵?shù)據(jù)倉庫主題數(shù)據(jù)的管理與維護。
(2)中間應(yīng)用服務(wù)器由兩部分組成:Web服務(wù)器與報表分析應(yīng)用服務(wù)器。Web服務(wù)器采用WebLogic作為應(yīng)用服務(wù)器。報表分析應(yīng)用服務(wù)器采用先進的商業(yè)智能軟件Microstrategy的Intelligence Server進行元數(shù)據(jù)管理與描述,通過4級緩沖技術(shù),可及時快速實現(xiàn)對用戶數(shù)據(jù)分析內(nèi)容的提取。在主題構(gòu)架與屬性定制方面,通過Microstrategy的Architect構(gòu)架體系,可實現(xiàn)對主題靈活定義,對相關(guān)屬性任意增刪,對在用電營銷過程中新加的各種分析方法與手段可以實現(xiàn)自助式設(shè)計,滿足系統(tǒng)的不斷擴充需求。
(3)前端數(shù)據(jù)分析內(nèi)容的展示以表格與圖形相結(jié)合的方式,通過對不同分析主題,相關(guān)不同屬性的多角度、多方位轉(zhuǎn)換,充分運用鉆取、切片等分析手段,并配以不同的經(jīng)濟分析方法,可輔助決策者及時快捷地了解本區(qū)域電力運營的實際狀況。全面掌握電力運營過程中潛在的問題及增長點。
4. 4數(shù)據(jù)抽取
數(shù)據(jù)抽取作為數(shù)據(jù)倉庫數(shù)據(jù)生成的關(guān)鍵步驟,在數(shù)據(jù)抽取過程中,系統(tǒng)提供詳細的日志功能。日志內(nèi)容包括數(shù)據(jù)抽取過程中對源數(shù)據(jù)正確性校驗、數(shù)據(jù)抽取相關(guān)分析主題抽取情況說明,并能將最終抽取日志內(nèi)容按不同單位轉(zhuǎn)發(fā)給各部門相關(guān)人員,對上報數(shù)據(jù)及時更正。
審核驗證后的數(shù)據(jù)經(jīng)匯總、聚集后可自動插入到相應(yīng)的數(shù)據(jù)表中,基礎(chǔ)數(shù)據(jù)生成后為只讀形式,前端分析人員只有分析數(shù)據(jù)的權(quán)限,任何人沒有更改基礎(chǔ)數(shù)據(jù)的權(quán)限。
5 總 結(jié)
數(shù)據(jù)挖掘技術(shù)是一種多學(xué)科相互綜合、相互滲透的技術(shù)。它以傳統(tǒng)的數(shù)據(jù)庫技術(shù)為基礎(chǔ),運用多種手段分析數(shù)據(jù),對海量數(shù)據(jù)進行知識發(fā)現(xiàn),并進行恰當(dāng)?shù)目梢暬硎?,是一種高效的預(yù)測決策系統(tǒng)解決方案。數(shù)據(jù)挖掘技術(shù)為預(yù)測決策系統(tǒng)的研制和開發(fā)提供了一種有效的、可行的體系化解決方案?;跀?shù)據(jù)挖掘技術(shù)的預(yù)測決策系統(tǒng),利用挖掘技術(shù),通過構(gòu)建預(yù)測決策模型,對企業(yè)生產(chǎn)和計劃的完成情況及相關(guān)環(huán)境數(shù)據(jù)進行多角度、多層次的分析,幫助企業(yè)決策者及時掌握企業(yè)的運行情況和發(fā)展趨勢,并為制訂生產(chǎn)計劃和長遠規(guī)劃提供理論和現(xiàn)實指導(dǎo),從而提高企業(yè)的管理水平和競爭優(yōu)勢。
主要參考文獻
[1] 王銳,馬德濤,陳晨. 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用現(xiàn)狀探析[J]. 電腦應(yīng)用技術(shù),2007(2).
[2] 李丹丹. 數(shù)據(jù)挖掘技術(shù)及其發(fā)展趨勢[J]. 電腦應(yīng)用技術(shù),2007(2).
[3] 李潔,滕振芳. 數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術(shù)在超市中的應(yīng)用[J]. 保定職業(yè)技術(shù)學(xué)院學(xué)報,2007(12).