蔡文斌 程曉磊 王 鵬 王 淵
基于DBSCAN二次聚類的配電網(wǎng)負(fù)荷缺失數(shù)據(jù)修補(bǔ)
蔡文斌 程曉磊 王 鵬 王 淵
(內(nèi)蒙古電力經(jīng)濟(jì)研究院,呼和浩特 010090)
電力負(fù)荷屬于具有時(shí)間序列特性的數(shù)據(jù),依據(jù)數(shù)據(jù)固有的規(guī)律性和波動(dòng)性特征,修補(bǔ)由于各種因素而缺失的負(fù)荷數(shù)據(jù),可為電力系統(tǒng)研究和實(shí)驗(yàn)結(jié)果的有效性和可預(yù)測(cè)性奠定基礎(chǔ)。本文首先提出基于密度的含噪聲應(yīng)用空間聚類(DBSCAN)二次聚類的方法;其次,提出針對(duì)配電網(wǎng)負(fù)荷數(shù)據(jù)的負(fù)荷屬性相似度,在此基礎(chǔ)上進(jìn)一步提出負(fù)荷記錄綜合相似度;然后,依據(jù)DBSCAN二次聚類方法的負(fù)荷類別結(jié)果和所得負(fù)荷記錄綜合相似度,匹配相似度最大的數(shù)據(jù)類別,并依據(jù)該類別的記錄信息對(duì)所缺失數(shù)據(jù)進(jìn)行修補(bǔ);最后,采用算例分析證明所提方法的有效性和正確性。
基于密度的含噪聲應(yīng)用空間聚類(DBSCAN);電力負(fù)荷;數(shù)據(jù)相似度;數(shù)據(jù)修補(bǔ)
用電信息采集系統(tǒng)、自動(dòng)化技術(shù)等在配電網(wǎng)的應(yīng)用,為智能配電網(wǎng)運(yùn)用大數(shù)據(jù)技術(shù)解決各種問題提供了路徑。但是在電力數(shù)據(jù)的采集、傳輸及存儲(chǔ)過程中常常會(huì)出現(xiàn)數(shù)據(jù)缺失、數(shù)據(jù)異常等質(zhì)量問題,這些異常數(shù)據(jù)的存在使配電網(wǎng)的運(yùn)行、調(diào)度、分析實(shí)驗(yàn)等工作受到潛在的影響。因此,如何對(duì)這些數(shù)據(jù)進(jìn)行修復(fù)成為當(dāng)前研究的一個(gè)重要熱點(diǎn)問題。
事實(shí)上,針對(duì)缺失數(shù)據(jù)的處理技術(shù)廣泛存在于各行各業(yè)之中,缺失數(shù)據(jù)處理工作隨著各個(gè)領(lǐng)域特征的不同,以及數(shù)據(jù)應(yīng)用目的的不同可采用多種方法[1]。實(shí)際處理時(shí),往往根據(jù)缺失數(shù)據(jù)的特征屬性、數(shù)據(jù)處理需要達(dá)到的目的、數(shù)據(jù)缺失的具體原因等選擇最佳的處理方法以求達(dá)到最好的效果。配電網(wǎng)負(fù)荷數(shù)據(jù)往往存在時(shí)空特征明顯、數(shù)據(jù)的規(guī)律性[2]較強(qiáng)、數(shù)據(jù)在電力系統(tǒng)規(guī)劃、調(diào)度、運(yùn)行等各個(gè)環(huán)節(jié)的應(yīng)用面較廣等特征,所以需要對(duì)缺失的數(shù)據(jù)進(jìn)行較為精準(zhǔn)的填充和修補(bǔ)。
針對(duì)配電網(wǎng)負(fù)荷數(shù)據(jù)具有時(shí)間規(guī)律的特點(diǎn),對(duì)缺失數(shù)據(jù)的填充修補(bǔ)主要分為三種類型:①采用構(gòu)造映射的方法,根據(jù)數(shù)據(jù)規(guī)律的相似性[3],構(gòu)造已有數(shù)據(jù)對(duì)缺失數(shù)據(jù)的映射[4]進(jìn)行修補(bǔ);②采用多重填補(bǔ)的方法,通過構(gòu)造或者模擬影響其變動(dòng)規(guī)律的相關(guān)因素的運(yùn)動(dòng)軌跡,推斷出缺失數(shù)據(jù)的可能范圍,再進(jìn)一步通過統(tǒng)計(jì)、綜合分析等方法從中優(yōu)選最匹配結(jié)果[5];③采用機(jī)器學(xué)習(xí)的方法,在海量數(shù)據(jù)集中進(jìn)行數(shù)據(jù)集的聚類分析[6-7],通過去噪、壓縮感知等方法匹配與缺失數(shù)據(jù)所屬數(shù)據(jù)集最為接近的特征,從而完成對(duì)缺失數(shù)據(jù)的填補(bǔ)。
在配電網(wǎng)負(fù)荷數(shù)據(jù)有較多積累的現(xiàn)狀下,采用聚類分析,并按照特征匹配的方法填補(bǔ)缺失數(shù)據(jù)已成為針對(duì)具有時(shí)間特性規(guī)律數(shù)據(jù)的一種廣泛而有效的方法。針對(duì)電力負(fù)荷數(shù)據(jù),主要采用的聚類方法包括最近鄰加權(quán)聚類[8-9]、K均值聚類[10-12]、熵權(quán)聚類[13-14]等多種分析方法,這些方法的基本思想均為先將數(shù)據(jù)對(duì)象聚類,劃分成多個(gè)簇,根據(jù)簇內(nèi)相似對(duì)象對(duì)缺失數(shù)據(jù)進(jìn)行修補(bǔ)。其中,基于密度的含噪聲應(yīng)用空間聚類(density-based spatial clustering of applications with noise, DBSCAN)方法對(duì)數(shù)據(jù)集的分布不敏感,抗噪性好,且對(duì)于數(shù)據(jù)集的識(shí)別能力較強(qiáng),針對(duì)空間分布較為廣泛的配電網(wǎng)負(fù)荷數(shù)據(jù)聚類具有較好的適應(yīng)性,但該方法在處理大量龐雜數(shù)據(jù)時(shí)的計(jì)算速度還有待進(jìn)一步提高。文獻(xiàn)[15]針對(duì)DBSCAN方法計(jì)算速度提升方面進(jìn)行了深入的 研究。
基于上述背景,本文依據(jù)配電網(wǎng)負(fù)荷數(shù)據(jù)的時(shí)序特性,提出一種改進(jìn)的DBSCAN二次聚類方法對(duì)配電網(wǎng)負(fù)荷缺失數(shù)據(jù)進(jìn)行修補(bǔ)。首先依據(jù)負(fù)荷數(shù)據(jù)長(zhǎng)周期特征的關(guān)鍵指標(biāo),提取每一個(gè)數(shù)據(jù)記錄的關(guān)鍵信息,針對(duì)縮減的數(shù)據(jù)集進(jìn)行初步聚類,然后在初步聚類的基礎(chǔ)上針對(duì)完整數(shù)據(jù)再次進(jìn)行DBSCAN空間密度二次聚類,以利于縮短由于龐大數(shù)據(jù)集而延長(zhǎng)的聚類時(shí)間。其次通過負(fù)荷數(shù)據(jù)的數(shù)值屬性相似度和記錄值相似度比較,以相似度最大為原則、以同類數(shù)據(jù)屬性相同為原則修復(fù)缺失的負(fù)荷數(shù)據(jù)。最后將仿真結(jié)果與實(shí)測(cè)數(shù)據(jù)進(jìn)行對(duì)比,驗(yàn)證所提方法對(duì)配電網(wǎng)負(fù)荷數(shù)據(jù)修復(fù)的有效性和準(zhǔn)確性。
DBSCAN聚類方法在處理大量配電網(wǎng)負(fù)荷數(shù)據(jù)的過程中,分類器往往需要不斷接觸多種類型較新的未知實(shí)例,強(qiáng)大的填補(bǔ)算法會(huì)占用大量計(jì)算資源,造成計(jì)算速度下降的問題。故而,對(duì)聚類數(shù)據(jù)進(jìn)行預(yù)處理,降低新數(shù)據(jù)的種類數(shù),可以有效提高聚類算法的效率。
根據(jù)負(fù)荷數(shù)據(jù)同時(shí)具有短時(shí)間周期和長(zhǎng)時(shí)間周期的多種周期性規(guī)律,提出先按照長(zhǎng)時(shí)間周期對(duì)數(shù)據(jù)進(jìn)行初步聚類,再在每一個(gè)類別內(nèi)按照短時(shí)間周期再次聚類的方法,以提高聚類的速度。
負(fù)荷數(shù)據(jù)的長(zhǎng)時(shí)間周期往往可以用較少的負(fù)荷信息表征,如表征負(fù)荷年內(nèi)變化時(shí),可以僅采用日(或周、月)的最大負(fù)荷或平均負(fù)荷等少量指標(biāo)表征其變動(dòng)趨勢(shì),這樣壓縮了負(fù)荷數(shù)據(jù)記錄所包含的信息,每一條負(fù)荷記錄僅包含長(zhǎng)時(shí)間周期特征的少數(shù)幾個(gè)數(shù)據(jù),將在此基礎(chǔ)上得到的初步聚類結(jié)果,稱為負(fù)荷子集。然后在初步聚類結(jié)果的基礎(chǔ)上,在每一個(gè)負(fù)荷子集內(nèi)部按照短時(shí)間周期特性再對(duì)數(shù)據(jù)進(jìn)行二次聚類,得到最終負(fù)荷分類。DBSCAN二次聚類示意圖如圖1所示。
圖1 DBSCAN二次聚類示意圖
由圖1可見,每一個(gè)數(shù)據(jù)記錄在整體聚類的過程中,均需要先提取長(zhǎng)時(shí)間序列特征進(jìn)行聚類,然后再次采用擁有完整信息的負(fù)荷數(shù)據(jù)進(jìn)行二次聚類,即每一數(shù)據(jù)均經(jīng)過了“雙重”聚類。雖然總的聚類次數(shù)有所增加,但每一次聚類中涉及的數(shù)據(jù)量極大減少;且由于初次聚類已使長(zhǎng)時(shí)間周期特征相同或相近的數(shù)據(jù)分布在同一數(shù)據(jù)子集內(nèi),二次聚類僅在子集內(nèi)進(jìn)行,使二次聚類時(shí)具有新特征的數(shù)據(jù)量極大降低,加之二次聚類可以實(shí)現(xiàn)多個(gè)數(shù)據(jù)子集并行聚類,故而極大降低了聚類計(jì)算需要的時(shí)間。
DBSCAN是一種基于密度的聚類算法,其算法的基本假設(shè)是類別可以通過樣本分布的緊密程度決定,即同一類別的樣本,它們之間一定是緊密相連的,將緊密相連的樣本劃為一類,這樣就得到了一個(gè)聚類類別。通過將各組緊密相連的樣本劃為各個(gè)不同的類別,則可形成聚類類別的最終結(jié)果。
因此,該方法有兩個(gè)核心參數(shù),分別為聚類半徑(Eps)和樣本個(gè)數(shù)閾值(MinPts)。聚類半徑描述了某一樣本的鄰域距離閾值,而樣本個(gè)數(shù)閾值描述了某一樣本的距離為Eps的鄰域中樣本個(gè)數(shù)的閾值。兩個(gè)參數(shù)綜合起來反映了鄰域的樣本分布緊密程度。
算法根據(jù)所設(shè)置的聚類半徑Eps和樣本數(shù)目MinPts將待聚類數(shù)據(jù)分為核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn)3類,其中,在半徑為Eps的圓內(nèi)至少包含MinPts個(gè)樣本的點(diǎn)稱為核心點(diǎn);在半徑為Eps的圓內(nèi),樣本數(shù)量少于MinPts個(gè)且落在核心點(diǎn)鄰域內(nèi)的點(diǎn)稱為邊界點(diǎn);而既不是邊界點(diǎn)又不是核心點(diǎn)的則被稱為噪聲點(diǎn)。
DBSCAN算法可以對(duì)任意形狀的稠密數(shù)據(jù)集進(jìn)行聚類,其聚類結(jié)果沒有偏倚,并且可在聚類的同時(shí)發(fā)現(xiàn)異常點(diǎn),對(duì)數(shù)據(jù)集中的異常點(diǎn)不敏感,同時(shí)具有較好的抗噪特性。
DBSCAN負(fù)荷數(shù)據(jù)二次聚類的主要思想為:首先將所有負(fù)荷數(shù)據(jù)集按照數(shù)據(jù)的完整性分成兩個(gè)子數(shù)據(jù)集,即完整負(fù)荷數(shù)據(jù)集和缺失負(fù)荷數(shù)據(jù)集。完整負(fù)荷數(shù)據(jù)集保存了所有完整無缺失值的負(fù)荷數(shù)據(jù)。緊接著對(duì)完整數(shù)據(jù)集采用圖1中所示的DBSCAN二次聚類方法,則完整數(shù)據(jù)集在進(jìn)行了兩次聚類后,得到若干個(gè)分類。
第一次聚類的目的是為了能夠較快地將特征相似的數(shù)據(jù)聚類,故而在此過程中重點(diǎn)考察數(shù)據(jù)的關(guān)鍵特征,如表征數(shù)據(jù)水平的平均值、表征數(shù)據(jù)波動(dòng)范圍的最大值、最小值等少數(shù)特征。
通過第一次聚類后,已經(jīng)將數(shù)據(jù)波動(dòng)范圍相同的數(shù)據(jù)聚為一類,則在此范圍內(nèi),第二次聚類時(shí)重點(diǎn)可從負(fù)荷曲線的線形、時(shí)變特征等角度來進(jìn)行二次聚類。
相似度比較的基本思想都是在已有的完整數(shù)據(jù)分類中尋找與缺失對(duì)象屬性最相似的對(duì)象來進(jìn)行數(shù)據(jù)修補(bǔ)。電力負(fù)荷數(shù)據(jù)具有較強(qiáng)的時(shí)間規(guī)律,屬于典型的數(shù)值型數(shù)據(jù),且不具備離散數(shù)據(jù)的特點(diǎn),故而根據(jù)負(fù)荷特性設(shè)定數(shù)值型屬性,并以此屬性衡量完整數(shù)據(jù)與缺失數(shù)據(jù)的相似程度。
電力負(fù)荷的屬性特性包含多種,基于其時(shí)間序列內(nèi)連續(xù)的特點(diǎn),一般表征負(fù)荷屬性可用負(fù)荷最大值、最小值、平均值、負(fù)荷率、峰谷差率等多個(gè)指標(biāo)進(jìn)行描述。對(duì)于每一屬性,均可以采用以下方法計(jì)算其屬性相似度。
假設(shè)和是同一數(shù)據(jù)分類中的兩條記錄,其中x和y分別為表征兩條記錄針對(duì)屬性的兩個(gè)屬性值,那么和對(duì)屬性的屬性值差異定義為
則和對(duì)于屬性的相似度定義為
根據(jù)以上屬性相似度的計(jì)算方法,可計(jì)算任意兩條負(fù)荷記錄針對(duì)某一屬性(如負(fù)荷最大值、最小值、負(fù)荷率等)的屬性相似度。
由于表征時(shí)間序列負(fù)荷屬性的指標(biāo)為多個(gè),因此有必要采用綜合指標(biāo)對(duì)多個(gè)屬性相似度進(jìn)行考量,即在計(jì)算了記錄中的每一個(gè)屬性相似度指標(biāo)后,對(duì)多個(gè)屬性相似度進(jìn)行加權(quán)處理,比較重要的屬性占有更大的權(quán)重,可以準(zhǔn)確方便地比較數(shù)據(jù)集中任意兩條記錄的相似度。
針對(duì)同一個(gè)數(shù)據(jù)分類中的兩條記錄和,那么這兩條記錄對(duì)全部個(gè)屬性的算數(shù)平均綜合相似度為
考慮到負(fù)荷特征中各個(gè)屬性的重要程度不同,故可對(duì)各屬性相似度設(shè)置不同權(quán)重,比較重要的屬性占有更大的權(quán)重,這樣形成的綜合相似度稱為負(fù)荷記錄綜合相似度。帶權(quán)重的負(fù)荷記錄綜合相似度表示為
負(fù)荷記錄綜合相似度用于判斷具有缺失值的負(fù)荷記錄與各個(gè)數(shù)據(jù)分類的相似度,以負(fù)荷記錄綜合相似度最大為原則,任選缺失負(fù)荷數(shù)據(jù)集中的一條記錄逐一與這若干分類進(jìn)行相似度比較,找到相似度最大的那個(gè)分類后,標(biāo)記缺失值負(fù)荷記錄為此分類中的一條記錄,則該具有缺失值的負(fù)荷記錄歸并入負(fù)荷記錄綜合相似度最大的那一個(gè)類別,如此反復(fù)操作直至所有缺失值記錄均并入某一分類類別,然后按照此分類的負(fù)荷屬性值推算相應(yīng)的缺失值,由此得到的缺失值具有較高的正確率。
采用DBSCAN二次聚類算法對(duì)負(fù)荷數(shù)據(jù)缺失值進(jìn)行修補(bǔ)的步驟如下:
1)將所有完整數(shù)據(jù)記錄納入數(shù)據(jù)集,將所有具有缺失數(shù)據(jù)的記錄納入數(shù)據(jù)集中。
2)提取數(shù)據(jù)集中的每一條記錄的長(zhǎng)時(shí)間周期特性值,如僅提取每一條記錄中的最大負(fù)荷、平均負(fù)荷、最大負(fù)荷出現(xiàn)的具體時(shí)間等少數(shù)特征值形成新的記錄,將所有新的負(fù)荷記錄納入數(shù)據(jù)集中。
3)確定參數(shù)Eps和MinPts,對(duì)數(shù)據(jù)集進(jìn)行DBSCAN算法聚類,則按照參數(shù)設(shè)定數(shù)據(jù)集被劃分為個(gè)數(shù)據(jù)子集,記為1,2, …,C。由于還需要進(jìn)行二次聚類,所以參數(shù)MinPts可以設(shè)置得大一些,并據(jù)此調(diào)整Eps數(shù)值,以減少形成的子集個(gè)數(shù)。
4)對(duì)個(gè)數(shù)據(jù)子集,保留數(shù)據(jù)所屬類別,恢復(fù)該類中每一記錄的全部信息,對(duì)應(yīng)得到個(gè)數(shù)據(jù)子集。
將得到的個(gè)數(shù)據(jù)分類記為1,2,3,…,C。
6)遍歷數(shù)據(jù)集中的記錄,逐一比較缺失值記錄與這個(gè)數(shù)據(jù)類別的負(fù)荷記錄綜合相似度,取相似度最大的那個(gè)分類標(biāo)記為缺失值記錄所屬類別。
7)上一步驟得到缺失值記錄所屬的分類類別,計(jì)算與該分類中其他完整記錄中對(duì)應(yīng)于缺失值屬性的平均值,然后使用該屬性平均值來修補(bǔ)記錄的缺失值。
通過上面步驟6)和7),將中的每一條記錄缺失值修補(bǔ)完畢,填充過的數(shù)據(jù)集記為',數(shù)據(jù)集和數(shù)據(jù)集就構(gòu)成了完整數(shù)據(jù)集。具體流程如圖2所示。
圖2 DBSCAN二次聚類數(shù)據(jù)修補(bǔ)算法流程
選取2020年4月16日至6月15日某地區(qū)電網(wǎng)負(fù)荷數(shù)據(jù),從本身不存在數(shù)據(jù)缺失的原始數(shù)據(jù)中隨機(jī)選取占比10%的數(shù)據(jù)將其設(shè)置為缺失,則全月744個(gè)負(fù)荷中出現(xiàn)74個(gè)數(shù)據(jù)缺失,分別分布在5月份的13天里,其中連續(xù)缺失3個(gè)數(shù)據(jù)以上的情況為6個(gè)。則形成48條完整的日負(fù)荷記錄和13條缺失值日負(fù)荷記錄,采用文中所述DBSCAN二次聚類方法對(duì)此缺失數(shù)據(jù)集進(jìn)行修補(bǔ)。
圖3 DBSCAN二次聚類方法對(duì)缺失負(fù)荷曲線的修補(bǔ)結(jié)果
通過絕對(duì)誤差和相對(duì)誤差,可以進(jìn)一步分析DBSCAN二次聚類數(shù)據(jù)修補(bǔ)的效果。
式中:為絕對(duì)誤差,表示真值與修正值之間的數(shù)值差;%為相對(duì)誤差,表示絕對(duì)誤差占真值的百分比。
從圖3可以看出,對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)后的數(shù)據(jù)集,其數(shù)據(jù)的整體變化規(guī)律、趨勢(shì)與原始數(shù)據(jù)基本吻合。缺失數(shù)據(jù)的填補(bǔ)值與真實(shí)數(shù)據(jù)之間的誤差見表1,可以看出,采用DBSCAN二次聚類法對(duì)缺失值進(jìn)行修補(bǔ)后,絕對(duì)誤差平均值為31.223MW,相對(duì)誤差平均值為1.85%,且誤差基本可以控制在5%以內(nèi)。同時(shí),由圖3可見,算法對(duì)連續(xù)缺失的數(shù)據(jù)修補(bǔ)效果也較好。
表1 修補(bǔ)結(jié)果誤差
將以上修補(bǔ)結(jié)果與單純DBSCAN聚類算法的負(fù)荷缺失值修補(bǔ)結(jié)果進(jìn)行對(duì)比,分別對(duì)比其誤差和計(jì)算速度,所得對(duì)比結(jié)果見表2。
表2 兩種算法對(duì)比
由表2可見,相較于單純采用DBSCAN聚類算法對(duì)缺失值進(jìn)行修補(bǔ),DBSCAN二次聚類算法修補(bǔ)結(jié)果的絕對(duì)誤差最大降低了約24MW,相對(duì)誤差平均值由2.32%降低至1.85%,起到了很好的修補(bǔ)效果。此外,從運(yùn)行速度來看,采用DBSCAN二次聚類算法的計(jì)算耗時(shí)更短,也驗(yàn)證了該方法針對(duì)DBSCAN聚類方法速度的提升作用。
從實(shí)驗(yàn)結(jié)果來看,DBSCAN二次聚類針對(duì)普通的數(shù)據(jù)缺失修補(bǔ)效果非常好,總體平均誤差在1%以內(nèi),主要原因是通過二次聚類形成的各數(shù)據(jù)類別中的數(shù)據(jù),不但其數(shù)值大小較為匹配,數(shù)值的時(shí)變特征也非常接近,故而數(shù)據(jù)修補(bǔ)能夠得到較好的效果。但是針對(duì)個(gè)別數(shù)據(jù)缺失出現(xiàn)在日負(fù)荷曲線極值處的情況,如圖3中第22日和第10日的的峰值數(shù)據(jù)修補(bǔ),由于這兩日的峰值負(fù)荷點(diǎn)為較為陡峭的尖峰點(diǎn),在二次聚類之后,與其處于同一類的其他負(fù)荷的尖峰不那么“突出”,且這兩個(gè)數(shù)據(jù)所在類別中的尖峰時(shí)間有較小差異,所以在對(duì)尖峰值修補(bǔ)后出現(xiàn)了4.63%的誤差。但是對(duì)于同類中尖峰的時(shí)間特征較為一致的其他數(shù)據(jù)分類,DBSCAN二次聚類修補(bǔ)算法仍然保持了2%以內(nèi)的修補(bǔ)誤差。
由于以上算例中數(shù)據(jù)記錄數(shù)較少,僅采用了61條數(shù)據(jù)進(jìn)行計(jì)算速度對(duì)比,若針對(duì)更大的數(shù)據(jù)量進(jìn)行計(jì)算,則計(jì)算耗時(shí)將有更為顯著的降低。
為了能夠更進(jìn)一步說明問題,將本文所提DBSCAN二次聚類方法與傳統(tǒng)K均值聚類方法,以及當(dāng)前較為常用的神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對(duì)比,對(duì)比的誤差結(jié)果見表3。
表3 DBSCAN二次聚類方法與K均值聚類及神經(jīng)網(wǎng)絡(luò)算法的修補(bǔ)結(jié)果對(duì)比
從表3可見,DBSCAN二次聚類算法的數(shù)據(jù)修補(bǔ)效果仍然最好。從方法原理上,對(duì)比DBSCAN聚類方法和K均值聚類方法的特點(diǎn),DBSCAN方法在聚類的過程中,可以做到依據(jù)數(shù)據(jù)的密度進(jìn)行數(shù)據(jù)分類,不必事先確定類別數(shù)量;而K均值聚類過程中,必須事先指定聚類的類別數(shù)量,且由于要將任一數(shù)值都?xì)w于某一類導(dǎo)致聚類結(jié)果對(duì)異常點(diǎn)比較敏感。故而DBSCAN聚類后,每一數(shù)據(jù)分類中數(shù)據(jù)的相似程度較高,這也是其能夠有較高修復(fù)精度的重要原因。當(dāng)然兩類方法對(duì)比之下,K均值聚類方法有較快的計(jì)算速度,但采用DBSCAN二次聚類后,由于能夠通過并行計(jì)算以提高計(jì)算速度,DBSCAN聚類方法的缺點(diǎn)已經(jīng)得到克服。
由于神經(jīng)網(wǎng)絡(luò)算法需要大量的原始數(shù)據(jù)進(jìn)行訓(xùn)練,所以在訓(xùn)練樣本不足的條件下,神經(jīng)網(wǎng)絡(luò)算法的效果難以得到有效保證。在本例中,從具有一定數(shù)據(jù)規(guī)律的日負(fù)荷曲線角度而言,僅有48條完整負(fù)荷曲線,而對(duì)應(yīng)的不完整負(fù)荷曲線則達(dá)到了13條,這也是導(dǎo)致神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練效果不夠理想的主要原因;但是DBSCAN算法則不受此限制條件的嚴(yán)格制約,故而DBSCAN二次聚類算法能夠得到較好的數(shù)據(jù)修復(fù)效果。
針對(duì)配電網(wǎng)負(fù)荷缺失數(shù)據(jù)修補(bǔ)問題,本文研究得出如下結(jié)論:
1)在針對(duì)配電網(wǎng)負(fù)荷數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)修補(bǔ)時(shí),DBSCAN二次聚類算法可以較好地依據(jù)負(fù)荷特性對(duì)負(fù)荷數(shù)據(jù)進(jìn)行修補(bǔ),且修補(bǔ)效果較好。
2)改進(jìn)的DBSCAN二次聚類算法,通過首先按照長(zhǎng)時(shí)間周期特征對(duì)數(shù)據(jù)進(jìn)行初步聚類形成子集,再在每一個(gè)子集內(nèi)按照短時(shí)間周期二次聚類的方法,有效提高了聚類算法的計(jì)算速度。
3)算例分析結(jié)果表明,DBSCAN二次聚類算法進(jìn)行數(shù)據(jù)修補(bǔ)有更高的準(zhǔn)確度,且針對(duì)連續(xù)性數(shù)據(jù)缺失也能取得較好的修補(bǔ)效果。
后續(xù)研究還需要重點(diǎn)結(jié)合兩方面問題進(jìn)行考慮:一是兩次DBSCAN聚類中,參數(shù)Eps和MinPts大小的適度配合,尤其是面向更大量數(shù)據(jù)的時(shí)候,兩者的相互配合直接關(guān)系到計(jì)算速度的提升幅度;二是負(fù)荷記錄綜合相似度包含多種負(fù)荷屬性特征,針對(duì)不同類型的數(shù)據(jù)修補(bǔ)問題,各權(quán)重大小如何取值才能取得更好的數(shù)據(jù)修補(bǔ)效果。
[1] 熊中敏, 郭懷宇, 吳月欣. 缺失數(shù)據(jù)處理方法研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021(5): 1-13.
[2] 武佳卉, 邵振國(guó), 楊少華, 等. 數(shù)據(jù)清洗在新能源功率預(yù)測(cè)中的研究綜述和展望[J]. 電氣技術(shù), 2020, 21(11): 1-6.
[3] 王方雨, 劉文穎, 陳鑫鑫, 等. 基于“秩和”近似相等特性的同期線損異常數(shù)據(jù)辨識(shí)方法[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(11): 4771-4783.
[4] 王子馨, 胡俊杰, 劉寶柱. 基于長(zhǎng)短期記憶網(wǎng)絡(luò)的電力系統(tǒng)量測(cè)缺失數(shù)據(jù)恢復(fù)方法[J]. 電力建設(shè), 2021, 42(5): 1-8.
[5] LITTLE R J A, RUBIN D B. Statistical analysis with missing data[M]. New York: John Wiley & Sons, 2019.
[6] 楊亞洲, 錢秋明, 梁鴨紅. 基于k-means聚類方法的曲線按比伸縮置換缺失數(shù)據(jù)補(bǔ)全法[J]. 電氣自動(dòng)化, 2021, 43(2): 50-52.
[7] 胡金磊, 賴俊駒, 黎陽羊, 等. 基于自適應(yīng)DBSCAN算法的開關(guān)柜絕緣狀態(tài)評(píng)價(jià)方法[J]. 電工技術(shù)學(xué)報(bào), 2021, 36(增刊1): 344-352.
[8] 杜沛, 程曉榮. 一種基于K近鄰的比較密度峰值聚類算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(10): 161- 168.
[9] 陳曦, 駱高超, 曹杰, 等. 基于改進(jìn)K-近鄰算法的XLPE電纜氣隙放電發(fā)展階段識(shí)別[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(12): 5015-5024.
[10] 趙天輝, 王建學(xué), 馬龍濤, 等. 基于非參數(shù)回歸分析的工業(yè)負(fù)荷異常值識(shí)別與修正方法[J]. 電力系統(tǒng)自動(dòng)化, 2017, 41(18): 53-59.
[11] 林順富, 謝潮, 李東東, 等. 基于灰色關(guān)聯(lián)與模糊聚類分析的負(fù)荷預(yù)處理方法[J]. 電測(cè)與儀表, 2017, 54(11): 36-42.
[12] 翁秉鈞, 楊耿杰, 高偉, 等. 一種基于改進(jìn)K均值聚類的輸電線路覆冰狀態(tài)偵測(cè)方法[J]. 電氣技術(shù), 2021, 22(5): 43-49.
[13] 謝樺, 任超宇, 郭志星, 等. 基于聚類抽樣的隨機(jī)潮流計(jì)算[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(23): 4940-4948.
[14] 劉如輝, 黃煒平, 王凱, 等. 半監(jiān)督約束集成的快速密度峰值聚類算法[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2018, 52(11): 2191-2200.
[15] 謝國(guó)偉, 錢雪忠, 周世兵. 基于非參數(shù)核密度估計(jì)的密度峰值聚類算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2018, 35(10): 82-85.
Repair of missing load data in distribution network based on DBSCAN secondary clustering
CAI Wenbin CHENG Xiaolei WANG Peng WANG Yuan
(Inner Mongolia Electric Power Institute of Economics and Technology, Hohhot 010090)
Distribution power load belongs to data with time series characteristics. According to the inherent regularity and fluctuation characteristics of the data, repairing the missing load data due to various factors can lay a foundation for the validity and predictability of the power system research and experimental results. Firstly, this paper proposes density-based spatial clustering of applications with noise (DBSCAN) secondary clustering method. Secondly, the load attribute similarity for distribution network load data is proposed, and the load record comprehensive similarity is further proposed. Thirdly, according to the load category results of DBSCAN secondary clustering method and the comprehensive similarity of the obtained load records, the data category with the largest similarity is matched, and the missing data is repaired. At last, the validity and correctness of the proposed method are proved by a numerical example.
density-based spatial clustering of applications with noise (DBSCAN); power load; data similarity; data repair
2021-06-15
2021-07-23
蔡文彬(1977—),男,內(nèi)蒙古自治區(qū)呼和浩特市人,本科,主要從事配電網(wǎng)規(guī)劃與運(yùn)行管理工作。