• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換方法研究

      2019-10-21 05:23:48閔侯
      關(guān)鍵詞:數(shù)據(jù)質(zhì)量

      摘要:隨著電力調(diào)度信息化系統(tǒng)建設(shè),積累了大量電力調(diào)度管理類及實(shí)時(shí)類數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)含著電網(wǎng)運(yùn)行和安全生產(chǎn)的寶貴信息,充分利用好這部分?jǐn)?shù)據(jù)并進(jìn)行數(shù)據(jù)挖掘,將有效支持電網(wǎng)運(yùn)行調(diào)度的分析與決策,但由于電力調(diào)度源系統(tǒng)數(shù)據(jù)存儲(chǔ)各異,數(shù)據(jù)質(zhì)量不高等特點(diǎn),將這些海量數(shù)據(jù)歸集在一起,需進(jìn)行有效的數(shù)據(jù)清洗轉(zhuǎn)換解決數(shù)據(jù)中的不一致及錯(cuò)誤,保證數(shù)據(jù)的正確性,才能在巨大體量數(shù)據(jù)中提煉出高質(zhì)量且有用的部分。數(shù)據(jù)清洗轉(zhuǎn)換作為電力調(diào)度數(shù)據(jù)質(zhì)量提升的重要手段,是數(shù)據(jù)分析的關(guān)鍵環(huán)節(jié),因此,對(duì)電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換方法研究具有重要意義。本文簡(jiǎn)要對(duì)電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換數(shù)據(jù)邏輯架構(gòu)及數(shù)據(jù)清洗轉(zhuǎn)換過程及方法進(jìn)行闡述,且討論其具體流程。

      關(guān)鍵詞:電力調(diào)度數(shù)據(jù);數(shù)據(jù)質(zhì)量;數(shù)據(jù)清洗轉(zhuǎn)換

      0引言

      隨著企業(yè)信息化建設(shè)發(fā)展,電網(wǎng)企業(yè)已陸續(xù)推出大數(shù)據(jù)平臺(tái)、公司資產(chǎn)運(yùn)營(yíng)監(jiān)控平臺(tái)、全業(yè)務(wù)數(shù)據(jù)中心等信息化項(xiàng)目,通過這些信息化項(xiàng)目建設(shè),落實(shí)對(duì)數(shù)據(jù)資產(chǎn)分析、挖掘和利用。電力調(diào)度系統(tǒng)作為電網(wǎng)安全運(yùn)行的核心保障,已建設(shè)的OCS/EMS系統(tǒng)、電能量系統(tǒng)以及一體化電網(wǎng)運(yùn)行管理系統(tǒng)(OMS)等,積累了海量結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、歷史數(shù)據(jù)及實(shí)時(shí)運(yùn)行數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)含著電網(wǎng)運(yùn)行和安全生產(chǎn)的寶貴信息,將這部分?jǐn)?shù)據(jù)歸集到一起,充分挖掘電力調(diào)度數(shù)據(jù)價(jià)值,對(duì)于提升電網(wǎng)安全、穩(wěn)定、高質(zhì)量運(yùn)行,降低系統(tǒng)運(yùn)營(yíng)成本具有重要意義。

      由于調(diào)度源頭系統(tǒng)數(shù)據(jù)存儲(chǔ)環(huán)境不同,且管理類數(shù)據(jù)錄入和實(shí)時(shí)數(shù)據(jù)采集具有內(nèi)在的出錯(cuò)傾向,導(dǎo)致數(shù)據(jù)結(jié)構(gòu)、標(biāo)準(zhǔn)各異,數(shù)據(jù)質(zhì)量不高,無法進(jìn)行高效管理、有效統(tǒng)計(jì)、分析及評(píng)估;另一方面,各調(diào)度機(jī)構(gòu)間調(diào)度自動(dòng)化系統(tǒng)存在信息共享不足,數(shù)據(jù)多頭輸入,存在數(shù)據(jù)準(zhǔn)確性不高、數(shù)據(jù)反復(fù)抽取、冗余存儲(chǔ)等問題,難以達(dá)到數(shù)據(jù)共享交換及業(yè)務(wù)深度融合。數(shù)據(jù)挖掘分析應(yīng)用需要干凈、透明的業(yè)務(wù)數(shù)據(jù),這就需要對(duì)電力調(diào)度系統(tǒng)中的數(shù)據(jù)進(jìn)行ETL作業(yè),完成數(shù)據(jù)清洗轉(zhuǎn)換,去除無效數(shù)據(jù)、臟數(shù)據(jù)、并補(bǔ)全缺失數(shù)據(jù)并進(jìn)行集中存儲(chǔ),確保分析的數(shù)據(jù)真實(shí)、可靠、標(biāo)準(zhǔn)、規(guī)范,提供準(zhǔn)確、唯一的企業(yè)數(shù)據(jù)視圖[1],也為將來的數(shù)據(jù)挖掘分析應(yīng)用提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

      數(shù)據(jù)清洗轉(zhuǎn)換是一個(gè)消除數(shù)據(jù)中的錯(cuò)誤與不一致、解決對(duì)象識(shí)別問題的過程,傳統(tǒng)的手工方法只適合少量數(shù)據(jù),且處理不夠及時(shí),費(fèi)時(shí)費(fèi)力,同時(shí)對(duì)專業(yè)水平要求高,本身還會(huì)出錯(cuò),不能滿足海量調(diào)度管理類及實(shí)時(shí)類數(shù)據(jù)清洗要求。因此,研究一種高效、適用的數(shù)據(jù)清洗轉(zhuǎn)換方法并借助工具來自動(dòng)或輔助完成數(shù)據(jù)清洗轉(zhuǎn)換非常必要,也是將數(shù)據(jù)質(zhì)量控制在合理水平和有效的途徑。

      1 數(shù)據(jù)清洗轉(zhuǎn)換概述

      數(shù)據(jù)本身是一種資源,它必須經(jīng)過清洗轉(zhuǎn)換、分析、建模、可視化等過程加工處理之后,才真正產(chǎn)生價(jià)值。數(shù)據(jù)清洗轉(zhuǎn)換伴隨數(shù)據(jù)倉庫而出現(xiàn)的較新的研究,是發(fā)現(xiàn)并糾正數(shù)據(jù)中可識(shí)別錯(cuò)誤的一道程序,該步驟針對(duì)數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯(cuò)誤值、缺失值、異常值、重復(fù)數(shù)據(jù),選用適當(dāng)方法進(jìn)行“清理”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù),為后續(xù)數(shù)據(jù)挖掘分析、建模、可視化分析展示提供完整可靠的數(shù)據(jù)基礎(chǔ),是整個(gè)數(shù)據(jù)處理利用的起始階段。數(shù)據(jù)清洗轉(zhuǎn)換的基本原理是利用數(shù)據(jù)挖掘技術(shù),按照設(shè)計(jì)好的數(shù)據(jù)清洗轉(zhuǎn)換規(guī)則及算法,將臟數(shù)據(jù)轉(zhuǎn)換為滿足數(shù)據(jù)挖掘要求的數(shù)據(jù),具體流程一般包括:數(shù)據(jù)預(yù)處理分析、清洗轉(zhuǎn)換規(guī)則定義、數(shù)據(jù)清洗轉(zhuǎn)換任務(wù)執(zhí)行、數(shù)據(jù)質(zhì)量校驗(yàn)。隨著數(shù)據(jù)清洗技術(shù)的發(fā)展,專門的數(shù)據(jù)清洗軟件工具已經(jīng)開始利用專業(yè)的算法分析,標(biāo)準(zhǔn)化、糾正、匹配和合并業(yè)務(wù)系統(tǒng)的數(shù)據(jù),功能包括從簡(jiǎn)單的清洗和單一數(shù)據(jù)集的增強(qiáng),到把來自不同數(shù)據(jù)庫和文件系統(tǒng)的數(shù)據(jù)項(xiàng)進(jìn)行匹配、糾正和合并。

      2 電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換數(shù)據(jù)邏輯架構(gòu)

      電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換數(shù)據(jù)邏輯架構(gòu)可分為數(shù)據(jù)源層、數(shù)據(jù)貼源層及目標(biāo)數(shù)據(jù)存儲(chǔ)層三層結(jié)構(gòu),數(shù)據(jù)源層為電力調(diào)度各自獨(dú)立的異構(gòu)業(yè)務(wù)系統(tǒng)數(shù)據(jù),貼源層在獲取業(yè)務(wù)源系統(tǒng)的數(shù)據(jù)后,經(jīng)過數(shù)據(jù)清洗轉(zhuǎn)換緩沖區(qū)的數(shù)據(jù)清洗、轉(zhuǎn)換、加工、聚合、挖掘和校驗(yàn),形成目標(biāo)數(shù)據(jù)存儲(chǔ)層(數(shù)據(jù)倉庫或數(shù)據(jù)集市)數(shù)據(jù)[2],為各類綜合性的查詢統(tǒng)計(jì)輔助分析決策應(yīng)用系統(tǒng)提供業(yè)務(wù)數(shù)據(jù)。如圖1所示。

      圖1 電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換數(shù)據(jù)邏輯架構(gòu)

      數(shù)據(jù)源層:存儲(chǔ)電力調(diào)度各業(yè)務(wù)系統(tǒng),如OCS/EMS系統(tǒng)、電能量系統(tǒng)以及一體化電網(wǎng)運(yùn)行管理系統(tǒng)(OMS)等結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、歷史數(shù)據(jù)及實(shí)時(shí)運(yùn)行數(shù)據(jù),為數(shù)據(jù)清洗轉(zhuǎn)換提供數(shù)據(jù)源,是電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換的源頭。

      數(shù)據(jù)貼源層:存儲(chǔ)從電力調(diào)度源系統(tǒng)接入的原始數(shù)據(jù),與生產(chǎn)系統(tǒng)數(shù)據(jù)源保持一致,完成對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行備份,為數(shù)據(jù)清洗轉(zhuǎn)換提供最原始的,也是最粗糙的數(shù)據(jù)。在對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換并形成目標(biāo)數(shù)據(jù)存儲(chǔ)層數(shù)據(jù)之前,將數(shù)據(jù)抽取到數(shù)據(jù)貼源層,可有效避免或減少數(shù)據(jù)清洗轉(zhuǎn)換對(duì)業(yè)務(wù)源系統(tǒng)的影響;同時(shí),保障數(shù)據(jù)貼源層數(shù)據(jù)與生產(chǎn)系統(tǒng)數(shù)據(jù)同步,在對(duì)原始數(shù)據(jù)清洗轉(zhuǎn)換及分析使用起到可追查的作用。

      數(shù)據(jù)清洗轉(zhuǎn)換緩沖區(qū):位于數(shù)據(jù)貼源層及目標(biāo)數(shù)據(jù)存儲(chǔ)層之間,是數(shù)據(jù)清洗轉(zhuǎn)換的核心區(qū),是數(shù)據(jù)清洗轉(zhuǎn)換規(guī)則定義及執(zhí)行的主要環(huán)節(jié),包括外部支持模塊、規(guī)則模型庫模塊、清洗轉(zhuǎn)換模塊三部分,其中外部支持模塊主要包括系統(tǒng)日志、監(jiān)控系統(tǒng)和訪問接口;規(guī)則模型庫模塊主要包括在數(shù)據(jù)清洗過程中需要調(diào)用的數(shù)據(jù)字典庫、算法庫、數(shù)據(jù)模型和規(guī)則庫等;數(shù)據(jù)清洗轉(zhuǎn)換模塊是根據(jù)制定的算法和規(guī)則進(jìn)行搜索和調(diào)用,執(zhí)行數(shù)據(jù)處理及質(zhì)量校驗(yàn),最終將滿足條件的數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)存儲(chǔ)層,同時(shí),接受外部支持模塊的訪問和監(jiān)控。

      目標(biāo)數(shù)據(jù)存儲(chǔ)層:長(zhǎng)期(或永久)存儲(chǔ)規(guī)范的、全局邏輯關(guān)聯(lián)一致的業(yè)務(wù)明細(xì)數(shù)據(jù),以及各類口徑各種層級(jí)的匯總數(shù)據(jù)。目標(biāo)數(shù)據(jù)存儲(chǔ)層的數(shù)據(jù)首先來源于數(shù)據(jù)貼源層的業(yè)務(wù)數(shù)據(jù),經(jīng)過規(guī)范化整合處理、寬表加工或數(shù)據(jù)加工聚合,形成對(duì)象化的業(yè)務(wù)明細(xì)數(shù)據(jù)或者是各種層級(jí)各種口徑的統(tǒng)計(jì)匯總數(shù)據(jù),目標(biāo)數(shù)據(jù)存儲(chǔ)層中的數(shù)據(jù)集市可根據(jù)業(yè)務(wù)分析需求將數(shù)據(jù)倉庫中的數(shù)據(jù)經(jīng)數(shù)據(jù)挖掘、數(shù)據(jù)分析、復(fù)雜計(jì)算等加工處理后存儲(chǔ)。目標(biāo)數(shù)據(jù)存儲(chǔ)層可直接向分析型應(yīng)用系統(tǒng)提供數(shù)據(jù)。

      本文提出的電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換過程及方法研究,主要針對(duì)調(diào)度源業(yè)務(wù)系統(tǒng)數(shù)據(jù)接入到數(shù)據(jù)貼源層存儲(chǔ)后,在數(shù)據(jù)清洗轉(zhuǎn)換緩沖區(qū)對(duì)其中不符合編碼規(guī)則,內(nèi)容不符合標(biāo)準(zhǔn)的調(diào)度管理類及實(shí)時(shí)類數(shù)據(jù),借助規(guī)則庫中相應(yīng)的數(shù)據(jù)清洗轉(zhuǎn)換算法及模型,按照指定的規(guī)則進(jìn)行清洗,最終實(shí)現(xiàn)干凈透明的電力調(diào)度數(shù)據(jù)有序、合規(guī)、合理的進(jìn)入目標(biāo)數(shù)據(jù)存儲(chǔ)層。確保調(diào)度數(shù)據(jù)業(yè)務(wù)邏輯與信息邏輯的統(tǒng)一、數(shù)據(jù)編碼規(guī)范標(biāo)準(zhǔn)化,數(shù)據(jù)統(tǒng)一存儲(chǔ)管理,為電力調(diào)度數(shù)據(jù)的價(jià)值挖掘分析應(yīng)用提供規(guī)范的基礎(chǔ)數(shù)據(jù),促進(jìn)電力調(diào)度數(shù)據(jù)資產(chǎn)價(jià)值變現(xiàn)及精益化管理水平。

      3 電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換方法及流程

      如圖1數(shù)據(jù)清洗轉(zhuǎn)換模塊主要包括了數(shù)據(jù)預(yù)處理、異常值/缺失值處理、重復(fù)值處理及數(shù)據(jù)質(zhì)量校驗(yàn)4個(gè)子模塊,其中,電力調(diào)度源系統(tǒng)將數(shù)據(jù)持續(xù)增量接入到數(shù)據(jù)貼源層后,首先在數(shù)據(jù)預(yù)處理階段對(duì)原始數(shù)據(jù)進(jìn)行數(shù)值化、標(biāo)準(zhǔn)化、降維等操作,隨后執(zhí)行對(duì)缺失數(shù)據(jù)補(bǔ)錄、異常數(shù)據(jù)統(tǒng)計(jì)建模處理、重復(fù)數(shù)據(jù)合并/刪除等清洗轉(zhuǎn)換作業(yè)操作,最終將經(jīng)過數(shù)據(jù)質(zhì)量檢查通過的數(shù)據(jù)進(jìn)行裝載到目標(biāo)數(shù)據(jù)存儲(chǔ)層儲(chǔ)存,在數(shù)據(jù)清洗轉(zhuǎn)換過程中,通過統(tǒng)計(jì)、聚類、模式識(shí)別以及關(guān)聯(lián)規(guī)則集成的數(shù)據(jù)清洗轉(zhuǎn)換規(guī)則庫同時(shí)被每個(gè)環(huán)節(jié)調(diào)用。數(shù)據(jù)清洗轉(zhuǎn)換各子模塊數(shù)據(jù)處理流程及方法如下:

      3.1數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理部分是獲得對(duì)數(shù)據(jù)一個(gè)初步的認(rèn)識(shí)以及對(duì)先驗(yàn)知識(shí)的一個(gè)探索分析過程,主要是利用相關(guān)的科學(xué)計(jì)算方法進(jìn)行數(shù)據(jù)初步的探索,例如數(shù)據(jù)類型,缺失值,數(shù)據(jù)集規(guī)模,各特征下的數(shù)據(jù)分布情況等,并利用第三方繪圖庫進(jìn)行直觀的觀察,以獲取數(shù)據(jù)的基本屬性與分布情況,另外,通過數(shù)值化、標(biāo)準(zhǔn)化、降維等過程對(duì)數(shù)據(jù)集中各特征進(jìn)行預(yù)處理,為后續(xù)針對(duì)不同的數(shù)據(jù)特征采用不同的清洗轉(zhuǎn)換方法提供依據(jù)。具體處理流程如圖2所示:

      圖2 數(shù)據(jù)預(yù)處理流程

      1)、探索性分析:這里包含兩個(gè)部分:一是看元數(shù)據(jù),包括字段解釋、數(shù)據(jù)來源、代碼表等一切描述電力調(diào)度業(yè)務(wù)的數(shù)據(jù)信息;二是抽取一部分?jǐn)?shù)據(jù),使用人工查看方式,對(duì)數(shù)據(jù)本身表達(dá)的業(yè)務(wù)含義進(jìn)行直觀的了解,并且初步發(fā)現(xiàn)問題,為之后的數(shù)據(jù)處理做準(zhǔn)備。

      2)、數(shù)值化:針對(duì)對(duì)電力調(diào)度數(shù)據(jù)中不同格式的數(shù)據(jù)形式,進(jìn)行類型統(tǒng)一。 如要處理的數(shù)據(jù)類型是數(shù)值型,但有字符型或者其他數(shù)據(jù)類型,則對(duì)其進(jìn)行ASCLL碼轉(zhuǎn)換或取一個(gè)適當(dāng)?shù)馁|(zhì)數(shù)求模標(biāo)準(zhǔn)化操作,映射到一個(gè)數(shù)值區(qū)間得到數(shù)值型數(shù)據(jù)。

      3)、標(biāo)準(zhǔn)化:將數(shù)據(jù)標(biāo)準(zhǔn)化,根據(jù)數(shù)據(jù)字典消除同一指標(biāo)不一致的度量標(biāo)準(zhǔn)等。如發(fā)電負(fù)荷,在一個(gè)維度空間單位是萬千萬/時(shí),另一個(gè)維度空間是千萬/時(shí),在數(shù)據(jù)分析計(jì)算相關(guān)性或者進(jìn)行方差計(jì)算時(shí),因單位不統(tǒng)一,數(shù)值相差過大將導(dǎo)致后者掩蓋了前者的作用。因此對(duì)整體數(shù)據(jù)進(jìn)行歸一化工作,這樣將減小后續(xù)的數(shù)據(jù)分析處理產(chǎn)生的影響。

      4)、降維:電力調(diào)度原始數(shù)據(jù)中往往含有多維度指標(biāo),這些維度之間存在關(guān)聯(lián),使用數(shù)據(jù)的相關(guān)性、主分分析法來降低數(shù)據(jù)維度[3],減少數(shù)據(jù)結(jié)構(gòu)復(fù)雜度,減少后續(xù)數(shù)據(jù)處理難度。

      5)、所有數(shù)據(jù)在預(yù)處理完成后,輸出結(jié)果數(shù)據(jù)。

      3.2異常/缺失值處理

      電力調(diào)度實(shí)時(shí)類數(shù)據(jù)主要來源于OCS/EMS系統(tǒng)、電能量系統(tǒng)等,數(shù)據(jù)特征是以時(shí)間為主鍵、自動(dòng)產(chǎn)生,因此,該類數(shù)據(jù)不容易產(chǎn)生重復(fù)性數(shù)據(jù),但由于數(shù)據(jù)采集系統(tǒng)廠家不同以及數(shù)據(jù)采集通道中斷等問題,該類數(shù)據(jù)易產(chǎn)生數(shù)據(jù)異常、缺點(diǎn)及空數(shù)據(jù)等。數(shù)據(jù)異常/缺失主要包括屬性值錯(cuò)誤和空值兩個(gè)方面,屬性錯(cuò)誤值檢測(cè)主要包括括統(tǒng)計(jì)法、聚類方法以及關(guān)聯(lián)規(guī)則方法[4],這些方法都是以統(tǒng)計(jì)和總結(jié)規(guī)律的方式計(jì)算并查找錯(cuò)誤值,進(jìn)而修正錯(cuò)誤數(shù)據(jù);而空值檢測(cè)主要采用人工填寫空缺值法手工檢測(cè)并填寫屬性值,也可以采用屬性的平均值、中間值、最大值、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值填充空缺值法。數(shù)據(jù)缺失/異常處理于模塊流程如圖3所示:

      圖3 數(shù)據(jù)異常/缺失數(shù)據(jù)處理流程

      1)、確定數(shù)據(jù)異常/缺失范圍:通過數(shù)據(jù)預(yù)處理階段,利用統(tǒng)計(jì)分析或人工智能方法檢測(cè)數(shù)據(jù)缺失值所在屬性的重要程度以及缺失值異常的范圍,如圖4所示,對(duì)不同的數(shù)據(jù)異常/缺失范圍,采用不同的數(shù)據(jù)清洗方式。

      圖4 數(shù)據(jù)異常/缺失率范圍處理方式

      2)、數(shù)據(jù)刪除:主要針對(duì)數(shù)據(jù)屬性重要性低、異常/缺失率高的的數(shù)據(jù)進(jìn)行直接刪除處理,一般在小規(guī)模數(shù)據(jù)上試驗(yàn)成功后再處理全量數(shù)據(jù)。

      3)、填充缺失內(nèi)容:相對(duì)去除不需要字段而言,針對(duì)某些數(shù)據(jù)缺失/異常范圍的指標(biāo)可以通過一定的方法將缺失的數(shù)據(jù)進(jìn)行填充操作,從而形成完整的數(shù)據(jù)記錄。常用的數(shù)據(jù)缺失值填充方法有:

      統(tǒng)計(jì)法:對(duì)于數(shù)值型的數(shù)據(jù),使用均值、加權(quán)均值、中位數(shù)等方法補(bǔ)足;對(duì)于分類型數(shù)據(jù),使用類別眾數(shù)最多的值補(bǔ)足。

      模型法:基于已有的其他字段,將缺失字段作為目標(biāo)變量進(jìn)行預(yù)測(cè),得到最為可能的補(bǔ)全值。如果帶有缺失值的列是數(shù)值變量,采用回歸模型補(bǔ)全;如果是分類變量,則采用分類模型補(bǔ)全。

      其他方法:例如隨機(jī)法、特殊值法、多重填補(bǔ)等。

      4)、修正異常內(nèi)容:針對(duì)某些數(shù)據(jù)異常/缺失范圍的指標(biāo)可以進(jìn)行修正操作,方法有:使用簡(jiǎn)單規(guī)則庫(常規(guī)性規(guī)則和業(yè)務(wù)特定規(guī)則等)檢測(cè)和修正數(shù)據(jù)錯(cuò)誤;使用不同屬性的約束檢測(cè)和以關(guān)聯(lián)指標(biāo)的計(jì)算結(jié)果修正異常數(shù)據(jù);使用外部數(shù)據(jù)源檢測(cè)和修正數(shù)據(jù)錯(cuò)誤;視為缺失值按照處理缺失值的方法來處理。

      5)、重新取數(shù):如果數(shù)據(jù)屬性非常重要但異常/缺失率高,數(shù)據(jù)填充/修正不能滿足業(yè)務(wù)需求或數(shù)據(jù)處理成本過高時(shí),則需要從系統(tǒng)重新獲取、補(bǔ)錄相關(guān)數(shù)據(jù)并進(jìn)行數(shù)據(jù)清洗轉(zhuǎn)換作業(yè)處理。

      6)、完成數(shù)據(jù)異常/缺失處理,輸出最后結(jié)果。

      3.3重復(fù)數(shù)據(jù)處理

      在電力調(diào)度多個(gè)系統(tǒng)數(shù)據(jù)集成過程中,由于各系統(tǒng)實(shí)際數(shù)據(jù)可能存在數(shù)據(jù)輸入錯(cuò)誤,格式、拼寫上存在差異等各種問題,使得邏輯上指向同一個(gè)的實(shí)體,在數(shù)據(jù)集成后可能會(huì)有多個(gè)不同的表示,從而在數(shù)據(jù)挖掘分析時(shí)不能正確識(shí)別。對(duì)于重復(fù)數(shù)據(jù)的判斷,基本思想是“排序與合并”,先將數(shù)據(jù)按一定規(guī)則排序,然后通過比較鄰近排序算法來檢測(cè)記錄是否重復(fù)[5],最后通過沖突處理機(jī)制,根據(jù)一定的規(guī)則合并或刪除檢測(cè)出的重復(fù)數(shù)據(jù),只保留其中正確的記錄。重復(fù)數(shù)據(jù)處理包含了三個(gè)操作層次,一是排序,二是計(jì)算相似度,三是沖突處理(合并/刪除)。主要處理過程如圖5所示:

      圖5 重復(fù)數(shù)據(jù)處理方式

      1)、通過對(duì)數(shù)據(jù)屬性的分析,選取用于記錄匹配的屬性,并給屬性分配權(quán)值,根據(jù)選取的匹配屬性及權(quán)值對(duì)需處理的數(shù)據(jù)進(jìn)行排序。

      2)、按排序順序掃描數(shù)據(jù)集中的每一條記錄,采用基本近鄰排序算法來檢測(cè)數(shù)據(jù)相似重復(fù)度。

      3)、如果通過第2步檢測(cè)出的數(shù)據(jù)相似重復(fù)度大于閾值,說明該記錄或連續(xù)的幾條記錄為相似重復(fù)記錄,則進(jìn)行數(shù)據(jù)的合并或刪除操作;否則,掃描下一條數(shù)據(jù)記錄,重復(fù)以上第2)和3)的步驟。

      4)、完成數(shù)據(jù)重復(fù)記錄檢測(cè),輸出最后結(jié)果。

      3.4數(shù)據(jù)質(zhì)量校驗(yàn)

      當(dāng)數(shù)據(jù)清洗轉(zhuǎn)換完成后,需在電力調(diào)度源系統(tǒng)到數(shù)據(jù)貼源層、貼源層到數(shù)據(jù)存儲(chǔ)層各環(huán)節(jié),對(duì)數(shù)據(jù)是否丟失、是否執(zhí)行清洗轉(zhuǎn)換、數(shù)據(jù)清洗轉(zhuǎn)換后是否符合規(guī)則定義等問題進(jìn)行檢查,檢查目的是為了驗(yàn)證數(shù)據(jù)清洗轉(zhuǎn)換的準(zhǔn)確性、完整性、業(yè)務(wù)合理性[6]。數(shù)據(jù)質(zhì)量校驗(yàn)關(guān)鍵是構(gòu)建數(shù)據(jù)質(zhì)量檢查規(guī)則,在數(shù)據(jù)清洗轉(zhuǎn)換過程中根據(jù)數(shù)據(jù)質(zhì)量檢查規(guī)則執(zhí)行數(shù)據(jù)質(zhì)量探查任務(wù),生成數(shù)據(jù)清洗報(bào)告并判定數(shù)據(jù)是否滿足要求。數(shù)據(jù)質(zhì)量校驗(yàn)基本流程如圖6所示:

      圖6 數(shù)據(jù)質(zhì)量校驗(yàn)

      1)、開始數(shù)據(jù)清洗轉(zhuǎn)換任務(wù)時(shí)執(zhí)行數(shù)據(jù)質(zhì)量探查任務(wù),根據(jù)源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)字典、數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)則模型等,利用挖掘算法(語義分析、聚類算法等)及規(guī)則模塊定義,對(duì)清洗轉(zhuǎn)換結(jié)果進(jìn)行屬性值完整性及合規(guī)性檢測(cè)、重復(fù)記錄檢測(cè)等。

      2)、生成數(shù)據(jù)清洗轉(zhuǎn)換報(bào)告,記錄數(shù)據(jù)清洗轉(zhuǎn)換規(guī)則的滿足情況。

      3)、根據(jù)數(shù)據(jù)清洗轉(zhuǎn)換報(bào)告的滿足情況判斷,對(duì)不滿足數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則的數(shù)據(jù)進(jìn)行記錄,改造數(shù)據(jù)清洗轉(zhuǎn)換作業(yè)流程并重新執(zhí)行,直到滿足數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則。

      4)、根據(jù)數(shù)據(jù)清洗轉(zhuǎn)換報(bào)告的滿足情況判斷,對(duì)滿足數(shù)據(jù)校驗(yàn)規(guī)則的數(shù)據(jù)參照?qǐng)D1電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換數(shù)據(jù)邏輯架構(gòu)將數(shù)據(jù)流轉(zhuǎn)到數(shù)據(jù)存儲(chǔ)層對(duì)聚合、加載、存儲(chǔ)、分析。

      4 結(jié)論

      根據(jù)電力調(diào)度數(shù)據(jù)處理邏輯架構(gòu)進(jìn)行電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換作業(yè),需要打通電力調(diào)度源系統(tǒng)到數(shù)據(jù)貼源層、貼源層到數(shù)據(jù)存儲(chǔ)層之間的數(shù)據(jù)處理流程,實(shí)現(xiàn)三層兩級(jí)ETL的聯(lián)動(dòng)。貼源層數(shù)據(jù)完成一次數(shù)據(jù)清洗轉(zhuǎn)換作業(yè)同步到數(shù)據(jù)存儲(chǔ)層后,電力調(diào)度源系統(tǒng)數(shù)據(jù)同時(shí)需要增量接入到貼源層。因此,需要相應(yīng)建立一套全流程、持續(xù)性的數(shù)據(jù)增量同步機(jī)制,保證后期源系統(tǒng)數(shù)據(jù)能持續(xù)的進(jìn)行清洗轉(zhuǎn)換作業(yè)并將干凈、合規(guī)的數(shù)據(jù)順利接入到數(shù)據(jù)存儲(chǔ)層進(jìn)行存儲(chǔ)。

      通過對(duì)電力調(diào)度數(shù)據(jù)清洗轉(zhuǎn)換過程各子模塊描述可以看出,數(shù)據(jù)清洗轉(zhuǎn)換的過程是借助規(guī)則模塊定義,使用一系列算法及邏判斷完成數(shù)據(jù)規(guī)范性處理,同時(shí)檢測(cè)數(shù)據(jù)是否符合數(shù)據(jù)集中存儲(chǔ)的要求,從而選擇做進(jìn)一步填充、刪除、轉(zhuǎn)換等操作。數(shù)據(jù)清洗轉(zhuǎn)換的過程是數(shù)據(jù)集成的一個(gè)重要步驟,也是其中一個(gè)復(fù)雜的過程。數(shù)據(jù)清洗轉(zhuǎn)換屬于一個(gè)較新的研究領(lǐng)域,如何將數(shù)清洗有效地運(yùn)用到ETL中以提高數(shù)據(jù)質(zhì)量及如何提高數(shù)清洗轉(zhuǎn)換精度等有待于進(jìn)一步研究。由于電力調(diào)度數(shù)據(jù)質(zhì)量控制的重要性,數(shù)據(jù)清洗技術(shù)在電力調(diào)度業(yè)務(wù)系統(tǒng)中應(yīng)用前景是巨大的。

      參考文獻(xiàn):

      [1] 付立辰. 電力企業(yè)中數(shù)據(jù)倉庫模型的研究與應(yīng)用[D]. 華北電力大學(xué)(北京) 華北電力大學(xué), 2012.

      [2] 張軍鵬. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘中數(shù)據(jù)清洗的研究[D]. 華北電力大學(xué)(保定), 2006.

      [3] 吳曉婷, 閆德勤. 數(shù)據(jù)降維方法分析與研究[J]. 計(jì)算機(jī)應(yīng)用研究(8):38-41.

      [4]? Maletic J, Marcus A. Data cleansing: beyond integritysis[J]. Division of Computer Science, 2000

      [5] 朱寶成. ETL框架及數(shù)據(jù)清洗的研究[D]. 2007.

      [6]? 秦璇. 電力統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量評(píng)估及其異常檢測(cè)方法研究[D]. 長(zhǎng)沙理工大學(xué), 2013.

      作者簡(jiǎn)介:

      閔侯(1986.02–),男,云南紅河人,開發(fā)工程師,從事電網(wǎng)調(diào)度信息化建設(shè)工作

      猜你喜歡
      數(shù)據(jù)質(zhì)量
      電子商務(wù)平臺(tái)數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
      基于大數(shù)據(jù)背景下提高供電局?jǐn)?shù)據(jù)質(zhì)量對(duì)策分析
      強(qiáng)化統(tǒng)計(jì)執(zhí)法提高數(shù)據(jù)質(zhì)量
      淺析統(tǒng)計(jì)數(shù)據(jù)質(zhì)量
      金融統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理的國(guó)際借鑒與中國(guó)實(shí)踐
      淺談統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制
      提高政府統(tǒng)計(jì)數(shù)據(jù)質(zhì)量,增強(qiáng)政府公信力
      企業(yè)統(tǒng)計(jì)工作之我見
      統(tǒng)計(jì)學(xué)在質(zhì)量管理中的應(yīng)用研究
      商(2016年13期)2016-05-20 09:28:35
      關(guān)于突發(fā)環(huán)境事件應(yīng)急監(jiān)測(cè)的問題分析及措施
      建水县| 蒙城县| 彭山县| 株洲市| 基隆市| 林口县| 洛浦县| 当阳市| 化德县| 岱山县| 安岳县| 鄂伦春自治旗| 开阳县| 黎城县| 新安县| 西安市| 阿拉善右旗| 梁平县| 贵德县| 抚宁县| 连云港市| 苏尼特右旗| 波密县| 甘谷县| 巍山| 大港区| 河津市| 乡宁县| 湖州市| 旌德县| 定南县| 确山县| 东阿县| 金湖县| 方山县| 洮南市| 财经| 正宁县| 漯河市| 芮城县| 张北县|