簡燕紅++符士侃
摘 要:數(shù)據(jù)立方體是一類多維矩陣,讓用戶從多個(gè)角度探索和分析數(shù)據(jù)集,即它允許以多個(gè)維度對數(shù)據(jù)進(jìn)行建模和觀察,數(shù)據(jù)立方體技術(shù)是數(shù)據(jù)倉庫的核心技術(shù)。本文以電力系統(tǒng)數(shù)據(jù)統(tǒng)計(jì)分析工作為例,介紹了數(shù)據(jù)立方體技術(shù)的原理,研究探討了數(shù)據(jù)立方體技術(shù)在電力系統(tǒng)數(shù)據(jù)統(tǒng)計(jì)分析工作中的運(yùn)用,通過建立基于數(shù)據(jù)立方體模型的電力數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng),不但可以實(shí)現(xiàn)運(yùn)行輕量級數(shù)據(jù)分析工具,而且滿足了當(dāng)前電網(wǎng)建設(shè)運(yùn)行數(shù)據(jù)統(tǒng)計(jì)分析靈活、多樣的需求。
關(guān)鍵詞:數(shù)據(jù)立方體模型 數(shù)據(jù)挖掘 輕量級工具
中圖分類號:TM73 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2016)11(a)-0009-02
電網(wǎng)建設(shè)運(yùn)行數(shù)據(jù)的采集與分析,是全面快速了解電網(wǎng)狀態(tài)并指導(dǎo)后續(xù)工作開展的一項(xiàng)重要工作。電力數(shù)據(jù)統(tǒng)計(jì)分析需要對數(shù)據(jù)進(jìn)行快速提取并進(jìn)行靈活、多樣的分析,現(xiàn)有電網(wǎng)中涉及電力運(yùn)行分析的相關(guān)業(yè)務(wù)系統(tǒng)繁多,數(shù)據(jù)大部分面向業(yè)務(wù)雖有報(bào)表統(tǒng)計(jì)模塊,卻難以完全適應(yīng)此需求。通過在電力數(shù)據(jù)統(tǒng)計(jì)分析管理系統(tǒng)中建立數(shù)據(jù)立方體模型,可以實(shí)現(xiàn)運(yùn)行輕量級數(shù)據(jù)分析工具,滿足當(dāng)前電力數(shù)據(jù)統(tǒng)計(jì)分析工作的需要。
1 基于數(shù)據(jù)立方體技術(shù)數(shù)據(jù)分析模型建立
1.1 數(shù)據(jù)立方體
數(shù)據(jù)立方體是一類多維矩陣,通常一次同時(shí)考慮三個(gè)因素(維度),但并不局限于三個(gè),在實(shí)際中常常用多個(gè)維度來構(gòu)建數(shù)據(jù)立方體。
多維矩陣是數(shù)據(jù)立方體分析的基礎(chǔ),涉及2個(gè)重要概念:事實(shí)和維度。事實(shí)即分析的目標(biāo)數(shù)據(jù),如數(shù)量、金額等,維度即事實(shí)信息的屬性,如對應(yīng)的時(shí)間、設(shè)備類型、產(chǎn)權(quán)單位等。數(shù)據(jù)立方體是根據(jù)用戶對數(shù)據(jù)挖掘的要求確定維及維層次而生成的多維數(shù)據(jù)集合。每個(gè)數(shù)據(jù)立方體是一個(gè)三維結(jié)構(gòu),x、y、z軸分別表示數(shù)據(jù)立方體的三個(gè)維度。x軸是時(shí)間軸,其時(shí)間單位是該層的統(tǒng)計(jì)粒度;y軸是屬性軸,表示統(tǒng)計(jì)針對的記錄類型;z軸是統(tǒng)計(jì)方法軸,表示采用的統(tǒng)計(jì)方法。
1.2 數(shù)據(jù)立方體的建立與提取
構(gòu)建在數(shù)據(jù)庫中的數(shù)據(jù)立方體并非如數(shù)據(jù)立方體字面意思直觀,而是通過二維數(shù)據(jù)表形式進(jìn)行組織與存儲(chǔ)。通過將y軸的維度與z軸的統(tǒng)計(jì)值轉(zhuǎn)化為二維表格中的列,x軸時(shí)間單位作為記錄頻率進(jìn)行定期數(shù)據(jù)獲取并存儲(chǔ)到數(shù)據(jù)立方體所在數(shù)據(jù)庫中。
(1)數(shù)據(jù)列重定義。大部分系統(tǒng)因?yàn)榫幋a技術(shù)特點(diǎn),開發(fā)人員往往使用英文字母與數(shù)字組合作為表格與字段名稱,在客戶展現(xiàn)端使用相應(yīng)意義的中文顯示。然而通過表格關(guān)聯(lián)的字段,數(shù)據(jù)立方體視圖在生成時(shí)按照計(jì)算機(jī)特點(diǎn)仍然使用英文字母與數(shù)字方式顯示,由于需要考慮數(shù)據(jù)立方體生成靈活性,需要在數(shù)據(jù)庫中針對表格和字段進(jìn)行重定義,利用系統(tǒng)表格進(jìn)行表名和字段名稱中文與字母的映射,滿足用戶隨意利用系統(tǒng)表關(guān)聯(lián)建立視圖工作方式。
(2)計(jì)算列實(shí)現(xiàn)。數(shù)據(jù)立方體中的指標(biāo)列,既可以包含個(gè)數(shù)、長度、金額等原始表格數(shù)據(jù)列,也可以包含諸如平均數(shù)、求和、乘積等計(jì)算值。可利用數(shù)據(jù)庫定義的多種函數(shù)進(jìn)行計(jì)算列生成。
(3)維度遞進(jìn)實(shí)現(xiàn)。由于一些維度存在一定的層次結(jié)構(gòu)特性,故而維度的定義與組織往往使用樹狀層次結(jié)構(gòu)實(shí)現(xiàn)。遞進(jìn)維度是多個(gè)相關(guān)維度相互嵌套的一種形式,是實(shí)現(xiàn)數(shù)據(jù)立方體數(shù)據(jù)切塊或切片的基礎(chǔ),通過組織好維度的樹狀菜單,可實(shí)現(xiàn)基于維度樹的數(shù)據(jù)向上向下切片功能。
在數(shù)據(jù)提取上采用手工提取與系統(tǒng)獲取相結(jié)合,通過系統(tǒng)統(tǒng)計(jì)周期即數(shù)據(jù)立方體中y軸頻率對數(shù)據(jù)立方體中數(shù)據(jù)進(jìn)行上一周期數(shù)據(jù)進(jìn)行復(fù)制到本周期默認(rèn)數(shù)據(jù),相應(yīng)數(shù)據(jù)管理單位通過對默認(rèn)數(shù)據(jù)的修改填報(bào)完成各個(gè)數(shù)據(jù)立方體數(shù)據(jù)的填充。數(shù)據(jù)立方體主要采用自動(dòng)化生成,由于電力數(shù)據(jù)統(tǒng)計(jì)分析數(shù)據(jù)管理需具備閉環(huán)管理功能,故采用數(shù)據(jù)自動(dòng)生成,通過任務(wù)接收、提供對外標(biāo)準(zhǔn)接口,提供不同系統(tǒng)條件下數(shù)據(jù)填報(bào)由人工轉(zhuǎn)入自動(dòng)化接口。
2 系統(tǒng)構(gòu)建
本系統(tǒng)通過B/S結(jié)構(gòu)進(jìn)行開發(fā),用戶客戶端通過瀏覽器進(jìn)行操作,服務(wù)端進(jìn)行數(shù)據(jù)的存儲(chǔ)和對外發(fā)布管理,實(shí)現(xiàn)基于省市縣三級管理單位電力運(yùn)行分析數(shù)據(jù)設(shè)備、缺陷、業(yè)務(wù)等數(shù)據(jù)的填報(bào)和報(bào)表統(tǒng)計(jì)分析管理。系統(tǒng)使用三層結(jié)構(gòu)開發(fā),分為數(shù)據(jù)層、邏輯層和應(yīng)用層。數(shù)據(jù)層負(fù)責(zé)基礎(chǔ)臺(tái)賬數(shù)據(jù)的存儲(chǔ),使用SQL SERVER 數(shù)據(jù)庫進(jìn)行管理,邏輯層負(fù)責(zé)數(shù)據(jù)填報(bào)與統(tǒng)計(jì)數(shù)據(jù)庫操作邏輯與結(jié)果反饋功能,應(yīng)用層使用基于Ajax頁面無刷新技術(shù)的富客戶端顯示技術(shù)與操作用戶進(jìn)行交互。
3 數(shù)據(jù)挖掘?qū)嶋H運(yùn)用
3.1 數(shù)據(jù)切片
數(shù)據(jù)立方體想要通過統(tǒng)計(jì)圖進(jìn)行展示,就需將數(shù)據(jù)立方體進(jìn)行切片。通過數(shù)據(jù)切片,實(shí)現(xiàn)數(shù)據(jù)立方體中單一維度的分解,通過單位切片可以分析不同單位的缺陷分布統(tǒng)計(jì)圖。
3.2 數(shù)據(jù)切塊
數(shù)據(jù)切塊主要包括兩種方式,單一維區(qū)間切塊和多維區(qū)間切塊。單一維區(qū)間切塊在本系統(tǒng)中應(yīng)用較多。多維切塊是指在兩個(gè)或多個(gè)維度上選取相應(yīng)的數(shù)據(jù)范圍進(jìn)行切塊的方式。例如在缺陷數(shù)據(jù)切塊中時(shí)間維度選擇2015年,地區(qū)維度選擇某市,影響設(shè)備類型選擇電源,即可針對該范圍提取相應(yīng)的數(shù)據(jù)塊,進(jìn)行進(jìn)一步的數(shù)據(jù)切片分析。
3.3 數(shù)據(jù)鉆取
數(shù)據(jù)挖掘分?jǐn)?shù)據(jù)源鉆取、深度鉆取兩種方式。數(shù)據(jù)源鉆取主要用于統(tǒng)計(jì)圖表中相應(yīng)數(shù)據(jù)項(xiàng)的統(tǒng)計(jì)來源數(shù)據(jù)的提取,具備數(shù)據(jù)源表格顯示和表格下載功能。深度鉆取指在數(shù)據(jù)立方體上進(jìn)行某個(gè)方向上數(shù)據(jù)切塊后,在獲得的數(shù)據(jù)塊基礎(chǔ)上進(jìn)一步進(jìn)行維度切塊或者切片分析的操作模式。
3.4 維度旋轉(zhuǎn)
構(gòu)建的數(shù)據(jù)立方體二維表格具備多個(gè)維度,在原有維度的基礎(chǔ)上進(jìn)行維度選擇,可以實(shí)現(xiàn)圖表不同維度的轉(zhuǎn)換。分析出的數(shù)據(jù)視圖大都具備三個(gè)以上的維度,系統(tǒng)用戶往往需要對其多維度進(jìn)行提取,從而完成基于兩個(gè)維度的平面統(tǒng)計(jì)圖構(gòu)建工作,通過轉(zhuǎn)換不同的x軸和y軸坐標(biāo)可以實(shí)現(xiàn)多個(gè)圖表的維度旋轉(zhuǎn)。
3.5 數(shù)據(jù)導(dǎo)出
通過數(shù)據(jù)鉆取的數(shù)據(jù),通常用戶需將其轉(zhuǎn)換為EXCEL表格,進(jìn)行報(bào)告的依據(jù)整理。使用基于微軟COM組件基礎(chǔ)的EXCEL DLL接口,實(shí)現(xiàn)基于web數(shù)據(jù)的導(dǎo)出工作,可以實(shí)現(xiàn)表格導(dǎo)出。
3.6 固定報(bào)表
企業(yè)報(bào)表是信息系統(tǒng)呈現(xiàn)用戶價(jià)值所在,日常實(shí)現(xiàn)報(bào)表的方式有兩種,一種網(wǎng)頁格式,另一種電子文件格式。兩種實(shí)現(xiàn)方式各具優(yōu)缺點(diǎn),本系統(tǒng)兼容兩種格式。
(1)基于web的固定報(bào)表。Web固定報(bào)表可根據(jù)用戶實(shí)際需求進(jìn)行選取,圖表展示和表格顯示大部分報(bào)表工具都具備。由于系統(tǒng)支持電子文件格式導(dǎo)出報(bào)表,故而沒有使用專業(yè)報(bào)表工具進(jìn)行顯示打印,僅僅使用Extjs前端腳本進(jìn)行數(shù)據(jù)表格與圖表的顯示功能,也可以選擇商業(yè)化的圖表工具進(jìn)行展示,提升系統(tǒng)的美觀性。
(2)基于EXCEL的報(bào)表。基于微軟COM組件技術(shù)的EXCEL DLL接口,實(shí)現(xiàn)基于web數(shù)據(jù)的導(dǎo)出,可以實(shí)現(xiàn)表格導(dǎo)出。通過COM自帶OLE函數(shù),調(diào)用生成EXCEL表格并填入表格數(shù)字,同時(shí)根據(jù)表格自動(dòng)生成相應(yīng)的圖表,最后通過COM函數(shù)存儲(chǔ)為需要的EXCEL文件。當(dāng)報(bào)表數(shù)目很多時(shí),可通過標(biāo)簽頁實(shí)現(xiàn)或者通過調(diào)用ZIP函數(shù)進(jìn)行多文件打包下載。
4 結(jié)語
數(shù)據(jù)立方體是數(shù)據(jù)倉庫的核心技術(shù),基于數(shù)據(jù)立方體模型建立電力數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng),不但實(shí)現(xiàn)輕量化易于掌握的軟件,而且可以滿足數(shù)據(jù)統(tǒng)計(jì)靈活、多樣需求,成為電力管理部門數(shù)據(jù)分析挖掘重要工具。
參考文獻(xiàn)
[1] 王德文,周青.一種電力設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)的分布式聯(lián)機(jī)分析處理方法[J].中國電機(jī)工程學(xué)報(bào),2016,36(19):
5111-5121.
[2] 蔣建民,張世勇.在關(guān)系數(shù)據(jù)庫上實(shí)現(xiàn)OLAP多維分析[J].渝州大學(xué)學(xué)報(bào):自然科學(xué)版,2002,19(1):18-20.
[3] 潘東靜.基于OLAP的多維分析模型設(shè)計(jì)及應(yīng)用[J].德州學(xué)院學(xué)報(bào),2004,20(6):55-58.