• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于數(shù)據(jù)挖掘技術(shù)的電網(wǎng)時(shí)序數(shù)據(jù)質(zhì)量維護(hù)研究

    2022-02-18 01:34:04謝瀚陽彭澤武唐重陽肖嘯魏理豪
    電測與儀表 2022年2期
    關(guān)鍵詞:離群決策樹數(shù)據(jù)挖掘

    謝瀚陽,彭澤武,唐重陽,肖嘯,魏理豪

    (1.廣東電網(wǎng)有限責(zé)任公司信息中心, 廣州 510062; 2.深圳市康拓普信息技術(shù)有限公司,廣東 深圳 518034)

    0 引 言

    隨著科學(xué)技術(shù)的不斷進(jìn)步,電網(wǎng)的智能化水平也越來越高,也因此在電網(wǎng)運(yùn)行和設(shè)備監(jiān)測的過程中產(chǎn)生了大量的數(shù)據(jù)[1-2],例如系統(tǒng)運(yùn)行數(shù)據(jù)、設(shè)備狀態(tài)數(shù)據(jù)、用戶需求數(shù)據(jù)等等。另外,物聯(lián)網(wǎng)技術(shù)和云計(jì)算的蓬勃發(fā)展,也進(jìn)一步增強(qiáng)了電網(wǎng)數(shù)據(jù)的體量和復(fù)雜度。如此龐大的數(shù)據(jù)體系難免會(huì)帶來一些數(shù)據(jù)質(zhì)量問題,如數(shù)據(jù)缺失、數(shù)據(jù)冗余、數(shù)據(jù)異常等。數(shù)據(jù)質(zhì)量的好壞不僅關(guān)乎電網(wǎng)應(yīng)用分析的可靠性與正確性,還會(huì)對(duì)電力系統(tǒng)的穩(wěn)定運(yùn)行產(chǎn)生影響[3-4]。所以,進(jìn)行高效可靠的數(shù)據(jù)質(zhì)量管理對(duì)電力系統(tǒng)具有重要意義。

    數(shù)據(jù)質(zhì)量維護(hù)是數(shù)據(jù)質(zhì)量管理的重要組成部分[5],可以有效檢測出問題數(shù)據(jù)并進(jìn)行篩除,是改善數(shù)據(jù)質(zhì)量的重要組成部分。不少學(xué)者在數(shù)據(jù)質(zhì)量維護(hù)方面作出了相關(guān)的貢獻(xiàn)。

    文獻(xiàn)[6]以CIM/E文本為載體,改進(jìn)多源數(shù)據(jù)篩選較優(yōu)質(zhì)量數(shù)據(jù)的手段,由借助主站狀態(tài)估計(jì)對(duì)現(xiàn)場數(shù)據(jù)進(jìn)行反饋,提高了電網(wǎng)調(diào)度系統(tǒng)的整體數(shù)據(jù)質(zhì)量;文獻(xiàn)[7]從多源多時(shí)空角度出發(fā),基于配網(wǎng)SCADA數(shù)據(jù)提出一種用于綜合檢測與修正電壓數(shù)據(jù)質(zhì)量的策略,并通過算例證明了所提方法能有效檢測出不滿足精度要求的電壓數(shù)據(jù);文獻(xiàn)[8]設(shè)計(jì)一種考慮多維度電網(wǎng)調(diào)度數(shù)據(jù)質(zhì)量的綜合分析與評(píng)價(jià)系統(tǒng),為電網(wǎng)調(diào)度人員提供更為直觀的綜合數(shù)據(jù)考核與評(píng)價(jià)手段。

    近年來,數(shù)據(jù)挖掘技術(shù)在電網(wǎng)數(shù)據(jù)管理中的應(yīng)用也越來越廣泛[9-10]。文獻(xiàn)[11]針對(duì)電能質(zhì)量檢測問題,應(yīng)用數(shù)據(jù)挖掘技術(shù),提出了一種的電能質(zhì)量數(shù)據(jù)分析處理體系,并應(yīng)以某城市電網(wǎng)為例,獲得了良好的效果;文獻(xiàn)[12]建立基于數(shù)據(jù)挖掘的營銷分析方法模型,成功用于分析給定市場環(huán)境中各種因素之間價(jià)格變化的層次關(guān)系。文獻(xiàn)[13]對(duì)模糊角力分析進(jìn)行改進(jìn),并用于電網(wǎng)不良數(shù)據(jù)的檢測與辨識(shí),獲得良好成效。

    關(guān)于電力數(shù)據(jù)質(zhì)量檢測已有不少研究,但仍存在以下問題:

    (1)大多檢測方法對(duì)全部樣本進(jìn)行統(tǒng)一分析,但隨著數(shù)據(jù)量的不斷增長,逐漸出現(xiàn)檢測效率低下的問題;

    (2)對(duì)數(shù)據(jù)的質(zhì)量好壞評(píng)價(jià)已有較多研究,但對(duì)于數(shù)據(jù)的問題定位研究相對(duì)較少。

    基于數(shù)據(jù)挖掘技術(shù),針對(duì)不同系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)特點(diǎn)有所不同的特點(diǎn),結(jié)合使用決策樹算法與數(shù)據(jù)離群檢測兩種方法,提高數(shù)據(jù)檢測的效率的同時(shí),快速定位數(shù)據(jù)的問題類型,便于開展數(shù)據(jù)修復(fù)與改進(jìn)。

    1 智能電網(wǎng)時(shí)序數(shù)據(jù)質(zhì)量分析

    1.1 電力數(shù)據(jù)傳輸過程分析

    科學(xué)技術(shù)的不斷發(fā)展使電網(wǎng)的智能化和信息化水平大大提高,對(duì)電網(wǎng)數(shù)據(jù)的需求量也逐漸增大。智能電網(wǎng)系統(tǒng)可以通過數(shù)據(jù)采集與監(jiān)控系統(tǒng)、能量管理系統(tǒng)等,實(shí)時(shí)獲取相關(guān)生產(chǎn)和運(yùn)行數(shù)據(jù)。智能電網(wǎng)將獲取的源頭數(shù)據(jù)存儲(chǔ)進(jìn)入數(shù)據(jù)庫,并進(jìn)行相關(guān)管理。與此同時(shí),用戶則可通過用戶訪問接口、手機(jī)APP等訪問所需數(shù)據(jù)[14]。該數(shù)據(jù)邏輯結(jié)構(gòu)如圖1所示。

    圖1 電力數(shù)據(jù)傳輸邏輯結(jié)構(gòu)圖Fig.1 Logical structure diagram of power data transmission

    1.2 電力統(tǒng)計(jì)數(shù)據(jù)問題

    隨著電網(wǎng)體系規(guī)模的不斷擴(kuò)大,其運(yùn)行過程中產(chǎn)生的數(shù)據(jù)量也越來越豐富,這其中蘊(yùn)含著大量的信息,是可以影響發(fā)電、輸配電、用戶用電管理的決策指標(biāo)的基礎(chǔ)。但由于設(shè)備故障、認(rèn)為原因等,電力數(shù)據(jù)可能會(huì)存在一些誤差甚至是錯(cuò)誤,這不僅不能為電力系統(tǒng)提供可靠的數(shù)據(jù)分析基礎(chǔ),而且可能因此帶來決策錯(cuò)誤,影響整個(gè)系統(tǒng)的良好運(yùn)行。圖2指出電力數(shù)據(jù)傳輸過程中可能會(huì)遇到的問題。

    圖2 電力數(shù)據(jù)主要問題Fig.2 Main problems of power data

    (1)格式錯(cuò)誤。所獲取的數(shù)據(jù)格式應(yīng)是統(tǒng)一的,不滿足格式的數(shù)據(jù)組應(yīng)視為不合格。另外在數(shù)據(jù)傳送過程中,可能會(huì)出現(xiàn)亂碼等錯(cuò)誤,這也是格式檢查的重要方向;

    (2)精度錯(cuò)誤。在數(shù)據(jù)獲取和傳輸過程中,所有數(shù)據(jù)的精度都應(yīng)保持一致,精度與規(guī)定不一致的數(shù)據(jù)應(yīng)為不合格;

    (3)數(shù)據(jù)越限。每個(gè)數(shù)據(jù)都有自身約束范圍,數(shù)據(jù)應(yīng)在規(guī)定范圍內(nèi);

    (4)數(shù)據(jù)冗余。數(shù)據(jù)傳輸過程中可能存在重復(fù)記錄的問題,因此會(huì)產(chǎn)生數(shù)據(jù)冗余;

    (5)數(shù)據(jù)缺失。在數(shù)據(jù)獲取和用戶訪問端,所獲取的數(shù)據(jù)量應(yīng)一致,不能存在缺失記錄或缺失字段;

    (6)合理性問題。所獲取數(shù)據(jù)都應(yīng)滿足電力系統(tǒng)運(yùn)行要求,各數(shù)據(jù)之間互相約束,數(shù)據(jù)段不滿足運(yùn)行條件的為不合格數(shù)據(jù)段。

    2 時(shí)序數(shù)據(jù)質(zhì)量維護(hù)體系構(gòu)建

    為了快速準(zhǔn)確地篩選質(zhì)量差的數(shù)據(jù),結(jié)合使用數(shù)據(jù)挖掘技術(shù)中的決策樹法和離群檢測法,充分利用決策樹的快速分類和離群檢測法在數(shù)據(jù)相關(guān)性檢測的優(yōu)勢,可操作性和準(zhǔn)確度更高。

    2.1 決策樹算法

    決策樹算法是分類算法的一種。它首先要預(yù)處理原始數(shù)據(jù),然后通過對(duì)原始數(shù)據(jù)的初步分析建立分類規(guī)則,分類規(guī)則一般以樹的形式出現(xiàn),通過建立的樹對(duì)樣本訓(xùn)練集進(jìn)行實(shí)質(zhì)的分析[15-16]。

    采用最經(jīng)典的ID3算法建立相關(guān)決策樹。在該算法中,各類別的不確定性是判斷分類效果的標(biāo)準(zhǔn)。這里用信息增益值描述該標(biāo)準(zhǔn),其中信息增益值越高,不確定性越低。具體的步驟如下:

    設(shè)S是包含m個(gè)數(shù)據(jù)樣本的集合,分類特性共n個(gè),記為Bi(1,2...n),其中Bi所包含的樣本數(shù)為mi,則對(duì)于S的總信息熵為:

    (1)

    令Sj是集合S中特性Bi類別中有j個(gè)數(shù)據(jù)點(diǎn)的子集,則屬性Bi的信息熵為:

    (2)

    式中I(Sj)是Sj分至各個(gè)屬性的信息熵。

    屬性Bi在集合S的信息增益G(S,Bi)為:

    G(S,Bi)=I(D)-I(D,Bi)

    (3)

    G(S,Bi)越大,說明屬性Bi對(duì)分類起到的作用越大。所以,決策樹的分支節(jié)點(diǎn)應(yīng)是信息增益最大的特性。

    構(gòu)建時(shí)序數(shù)據(jù)質(zhì)量檢測順序決策樹時(shí),決策樹算法需要使用歷史數(shù)據(jù)訓(xùn)練集。選取某地區(qū)的典型歷史數(shù)據(jù),并形成數(shù)據(jù)訓(xùn)練集,具體如表1所示。

    表1 電網(wǎng)數(shù)據(jù)訓(xùn)練集Tab.1 Power grid data training set

    輸入訓(xùn)練集經(jīng)過決策樹算法可形成初始決策流程,指標(biāo)檢測順序如圖3所示。

    圖3 指標(biāo)決策順序Fig.3 Order of indicator decision

    由上述分析可知,電力數(shù)據(jù)的格式錯(cuò)誤、精度錯(cuò)誤、數(shù)據(jù)越限、數(shù)據(jù)冗余、數(shù)據(jù)缺失等問題的檢測方式相對(duì)簡單,可對(duì)該數(shù)據(jù)點(diǎn)獨(dú)立進(jìn)行檢測。但數(shù)據(jù)的合理性問題需要綜合考慮整體運(yùn)行情況,檢測相對(duì)更為復(fù)雜,引入離群檢測法對(duì)數(shù)據(jù)合理性進(jìn)行分析。

    2.2 離群檢測法

    離群點(diǎn)檢測用于檢測數(shù)據(jù)樣本中明顯偏離于其他數(shù)據(jù)的樣本,該類樣本不能滿足數(shù)據(jù)的普遍特征或行為,是數(shù)據(jù)挖掘技術(shù)的重要研究方向[17-18]。離群點(diǎn)檢測方法按照數(shù)據(jù)挖掘技術(shù)的不同可分為基于統(tǒng)計(jì)的離群檢測、基于深度的離群檢測、基于聚類的離群檢測等。本文采用基于距離的利離群檢測對(duì)數(shù)據(jù)合理性問題進(jìn)行分析,篩選出不合格的數(shù)據(jù)。

    聚類的思想主要是利用數(shù)據(jù)樣本和各類別間的相互關(guān)系[19-20],通過把樣本劃分為不同的類,使得同一分類內(nèi)的數(shù)據(jù)點(diǎn)相似性最大,而不同分類之間的差異性最高。所采用的離群檢測方法主要分為兩個(gè)階段:首先采用K-means將數(shù)據(jù)進(jìn)行聚類;然后針對(duì)每個(gè)數(shù)據(jù)樣本,計(jì)算其到距其最近類中心的距離,將該距離記為離群度量值。如果該數(shù)據(jù)樣本的離群度量值偏大,則為離群數(shù)據(jù);反之,就是正常數(shù)據(jù)。

    假設(shè)數(shù)據(jù)樣本X={x1,x2, …,xi, …,xn},設(shè)定分類數(shù)目為M,形成M個(gè)簇T={tm,m=1, 2, …,M}

    步驟1:首先隨機(jī)選擇M個(gè)數(shù)據(jù)序列作為初始聚類中心c1,c2,…cM;

    步驟2:計(jì)算每個(gè)數(shù)據(jù)序列和每個(gè)聚類中心的距離,把數(shù)據(jù)序列分配給距它距離最小的聚類中心,直到全部數(shù)據(jù)序列都被分配。計(jì)算各類聚類中心cm到所有屬于tm簇的元素xi的距離平方和為:

    (4)

    步驟3:計(jì)算各類數(shù)據(jù)序列距其所在類別中心cm的距離平方和L(T)。

    (5)

    式中rmi表示類別判定系數(shù),當(dāng)xi∈tm,rmi=1;反之,rmi=0。聚類中心更新為各類別中全部數(shù)據(jù)序列的平均值;

    步驟4:返回步驟2,直至各聚類中心都不發(fā)生改變且L(T)小于設(shè)定參考值,聚類結(jié)束。

    引入BMP指標(biāo)來確定數(shù)據(jù)樣本的最佳分類數(shù)和評(píng)估聚類結(jié)果[21-22]。BWP是描述某樣本分類和它相鄰類別關(guān)系的指標(biāo),數(shù)學(xué)表達(dá)式如下:

    (6)

    式中Dw為聚類距離,表示最小類間距離和類內(nèi)距離之和;Dn為聚類離差距離,表示最小類間距離和類內(nèi)距離之差。

    BWP基于樣本幾何結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行分析,BWP數(shù)值越大,說明數(shù)據(jù)樣本的聚類效果越準(zhǔn)確。

    2.3 數(shù)據(jù)質(zhì)量維護(hù)總流程

    數(shù)據(jù)質(zhì)量維護(hù)流程圖如圖4所示。

    圖4 數(shù)據(jù)質(zhì)量維護(hù)流程圖Fig.4 Flow chart of data quality maintenance process

    2.4 數(shù)據(jù)質(zhì)量異常原因

    在電網(wǎng)運(yùn)行過程中,以下幾種情況可能會(huì)導(dǎo)致異常數(shù)據(jù)的產(chǎn)生:

    (1)量測數(shù)據(jù)在傳輸過程中出現(xiàn)偶然性誤差,可能導(dǎo)致數(shù)據(jù)冗余、格式不正確、數(shù)據(jù)缺失、精度不足等問題;

    (2)量測或傳輸系統(tǒng)故障、受到干擾引起的異常,可能導(dǎo)致數(shù)據(jù)冗余、數(shù)據(jù)越限等問題;

    (3)電力系統(tǒng)各個(gè)量測點(diǎn)非同時(shí)測量,可能會(huì)引起數(shù)據(jù)合理性不足等問題[23]。

    3 算例分析

    以某地區(qū)配電網(wǎng)某檢測點(diǎn)為研究對(duì)象,結(jié)合本文提出的時(shí)序數(shù)據(jù)質(zhì)量維護(hù)體系,對(duì)該地區(qū)某時(shí)段內(nèi)電力數(shù)據(jù)進(jìn)行分析。該點(diǎn)相關(guān)數(shù)據(jù)參數(shù)取值范圍為:電壓U∈[198,235.4],電流I∈[0,288.68],有功功率P∈[0,200],無功功率Q∈[0,120]。為了便于對(duì)比分析,本文僅列出部分樣本數(shù)據(jù),如表2所示。

    表2 部分樣本數(shù)據(jù)Tab.2 Partial sample data

    通過文中的時(shí)序數(shù)據(jù)質(zhì)量維護(hù)體系可以分析出數(shù)據(jù)是否有格式錯(cuò)誤、精度錯(cuò)誤、數(shù)據(jù)越限、數(shù)據(jù)冗余、數(shù)據(jù)缺失等問題,得到如表3所示結(jié)果。

    表3 電網(wǎng)數(shù)據(jù)訓(xùn)練集Tab.3 Power grid data training set

    在樣本中,有的數(shù)據(jù)點(diǎn)沒有上述問題,但是否存在合理性問題仍需通過離群檢測法進(jìn)行判斷。有上述分析可知,共20個(gè)樣本數(shù)據(jù)需進(jìn)行離群檢測。采用基于聚類的離群檢測法,樣本集分類個(gè)數(shù)依據(jù)BWP指標(biāo)確定。不同分類數(shù)的BWP指標(biāo)變化如圖5所示。

    由圖5可知,最佳分組數(shù)為六組。當(dāng)分組數(shù)為6時(shí),結(jié)果如圖6所示。

    圖5 不同分類數(shù)的BWP指標(biāo)Fig.5 BWP indices of different classification numbers

    圖6 離群檢測結(jié)果示意圖Fig.6 Schematic diagram of outlier detection results

    可以看出,數(shù)據(jù)點(diǎn)2、7、15、21明顯偏離其余大類,為不合理數(shù)據(jù)。為了驗(yàn)證結(jié)果的準(zhǔn)確性,對(duì)上述四個(gè)數(shù)據(jù)點(diǎn)的各項(xiàng)數(shù)據(jù)進(jìn)行深入分析,各數(shù)據(jù)點(diǎn)存在問題如下:

    (1)數(shù)據(jù)點(diǎn)2的B、C兩相電壓和三相電流值相比于其他合理數(shù)據(jù)都明顯偏低,因此作為孤立點(diǎn)是合理的;

    (2)數(shù)據(jù)點(diǎn)7和數(shù)據(jù)點(diǎn)15相接近,但相比于B集群它們的無功功率值都偏大不少,因此作為孤立點(diǎn)是合理的;

    (3)數(shù)據(jù)點(diǎn)21的C相電壓和有功功率值相比于C集群的其他數(shù)據(jù)明顯偏低很多,因此數(shù)據(jù)點(diǎn)21作為孤立點(diǎn)也是合理的。

    為了確保未標(biāo)識(shí)數(shù)據(jù)均為正確數(shù)據(jù),根據(jù)所有樣本數(shù)據(jù)間的物理關(guān)聯(lián)關(guān)系進(jìn)行狀態(tài)估計(jì),監(jiān)測結(jié)果如圖7所示,圖中1表示數(shù)據(jù)異常,0表示數(shù)據(jù)正常。

    圖7 狀態(tài)估計(jì)檢測結(jié)果示意圖Fig.7 Schematic diagram of state estimation detection results

    由圖7可知所提方法與狀態(tài)估計(jì)法檢測結(jié)果一致。經(jīng)上述分析可知,通過文中的時(shí)序數(shù)據(jù)質(zhì)量維護(hù)可有效快速發(fā)現(xiàn)各數(shù)據(jù)點(diǎn)存在的問題,定位問題數(shù)據(jù),并確定數(shù)據(jù)的問題類型,為運(yùn)行維護(hù)人員確定數(shù)據(jù)問題原因,提高數(shù)據(jù)可靠性奠定基礎(chǔ)。

    4 結(jié)束語

    基于數(shù)據(jù)挖掘技術(shù)提出一種時(shí)序數(shù)據(jù)質(zhì)量維護(hù)體系,通過該檢測體系,可有效發(fā)現(xiàn)問題數(shù)據(jù)點(diǎn),并進(jìn)行篩除,主要結(jié)論如下:

    (1)不同地區(qū)的數(shù)據(jù)特點(diǎn)不同,為了提高檢測速度,本身首先利用決策樹法對(duì)歷史數(shù)據(jù)進(jìn)行分析,得出適應(yīng)于該地區(qū)的數(shù)據(jù)問題檢測順序,可在一定程度上提高計(jì)算效率;

    (2)與其他數(shù)據(jù)問題不同,數(shù)據(jù)的合理性問題檢測較為復(fù)雜。引入基于聚類的離群檢測法對(duì)所獲取的數(shù)據(jù)進(jìn)行分析,可有效篩選出問題數(shù)據(jù);

    (3)提出一種時(shí)序數(shù)據(jù)質(zhì)量維護(hù)體系,不僅可以定位問題數(shù)據(jù),還可以確定數(shù)據(jù)出現(xiàn)的問題,保證用于電網(wǎng)分析與規(guī)劃的數(shù)據(jù)的可靠性,同時(shí)也利于及時(shí)發(fā)現(xiàn)問題數(shù)據(jù),快速定位問題點(diǎn),便于快速修復(fù)與改進(jìn)。

    猜你喜歡
    離群決策樹數(shù)據(jù)挖掘
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
    決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    基于決策樹的出租車乘客出行目的識(shí)別
    離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    離群的小雞
    基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
    應(yīng)用相似度測量的圖離群點(diǎn)檢測方法
    忻州市| 肥西县| 保山市| 内江市| 天气| 乃东县| 开鲁县| 合山市| 确山县| 兰坪| 新昌县| 高邑县| 江西省| 永昌县| SHOW| 丹凤县| 时尚| 宁津县| 石渠县| 那坡县| 思茅市| 崇阳县| 巴中市| 浠水县| 宜州市| 东辽县| 景宁| 天水市| 荣昌县| 无锡市| 高雄县| 中山市| 通许县| 瑞昌市| 酒泉市| 彭泽县| 商水县| 怀远县| 永川市| 望都县| 郸城县|