陳 曦,宋純賀,王天然
(1.中國(guó)科學(xué)院網(wǎng)絡(luò)控制系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,沈陽(yáng) 110016;2.中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所,沈陽(yáng) 110016;3.中國(guó)科學(xué)院機(jī)器人與智能制造研究院,沈陽(yáng) 110016;4.中國(guó)科學(xué)院大學(xué),北京 100049)
電力系統(tǒng)的安全穩(wěn)定運(yùn)行對(duì)于保障國(guó)民經(jīng)濟(jì)的發(fā)展有著至關(guān)重要的作用。中國(guó)是電力大國(guó),發(fā)電量占全球總量的25%以上[1]。過(guò)去由于電力系統(tǒng)拓?fù)浣Y(jié)構(gòu)復(fù)雜、信息化程度低,電力數(shù)據(jù)的收集成為難題,這嚴(yán)重阻礙了電力系統(tǒng)運(yùn)行狀態(tài)的高效分析。隨著物聯(lián)網(wǎng)和智能電網(wǎng)的發(fā)展,電力系統(tǒng)大量設(shè)備接入信息網(wǎng)絡(luò)之中。在此基礎(chǔ)上,電力系統(tǒng)運(yùn)行狀態(tài)數(shù)據(jù)的實(shí)時(shí)采集成為可能,為電力系統(tǒng)大數(shù)據(jù)分析奠定了基礎(chǔ)。
電力系統(tǒng)大數(shù)據(jù)分析涉及內(nèi)容廣泛,如日前能耗預(yù)測(cè)[2]、電器能耗分析[3]、電力系統(tǒng)故障檢測(cè)[4]等。本文主要針對(duì)用戶用電消費(fèi)特征進(jìn)行分析。目前該領(lǐng)域的研究呈現(xiàn)出以下特征。首先,以往對(duì)用戶用電消費(fèi)情況的研究主要集中在中高壓地區(qū)[5],對(duì)城市低壓地區(qū)的研究較少。高壓通常指高于1 000 V的電壓等級(jí),中高壓通常面向大型場(chǎng)所和區(qū)域,低壓電是指配電線路交流電壓在1 000 V以下或直流電壓在1 500 V以下的電接戶線,低壓通常與民用相關(guān)。高壓供電對(duì)象相對(duì)單一,數(shù)據(jù)獲取相對(duì)容易。與高壓供電相比,低壓的電力數(shù)據(jù)容量更大,用電形式多樣,面向?qū)ο蟾鼜?fù)雜,獲取難度更高,導(dǎo)致相關(guān)研究較少。其次,因?yàn)閷?shí)時(shí)線損數(shù)據(jù)很難獲取,對(duì)于線損率的數(shù)據(jù)挖掘也比較少,以往的研究主要集中在計(jì)算理論線損率上,而且多為中高壓的地區(qū)。如王守祥等[6]提出的統(tǒng)計(jì)線損方法。
基于國(guó)家電網(wǎng)公司的大規(guī)模實(shí)測(cè)數(shù)據(jù),本文研究了220 V、380 V供電電壓區(qū)居民用戶的用電消費(fèi)特征。相對(duì)于以往中高壓區(qū)域研究,以及基于仿真的電力系統(tǒng)線損和竊電識(shí)別,本文的研究更具有實(shí)際意義。本文的貢獻(xiàn)可以總結(jié)為:
1) 對(duì)正常用戶和竊電用戶的用電時(shí)間序列數(shù)據(jù)進(jìn)行了對(duì)比分析,發(fā)現(xiàn)竊電用戶用電周期是正常用戶的2倍。周期可以作為初步排查竊電用戶的手段。
2) 分析了竊電用戶與臺(tái)區(qū)線損率之間的關(guān)系,發(fā)現(xiàn)臺(tái)區(qū)線損率大于40%時(shí)竊電用戶數(shù)量顯著增加??梢詢?yōu)先檢測(cè)此部分臺(tái)區(qū)內(nèi)的竊電用戶來(lái)快速排查。
3) 提出了基于時(shí)間序列相似度度量和k-means聚類相結(jié)合的聚類模型得到6類臺(tái)區(qū)線損率模式,并基于核密度估計(jì)對(duì)比了不同模式的分布差別,可以快速排查出重點(diǎn)檢測(cè)臺(tái)區(qū)并監(jiān)測(cè)線損率改善的情況。
電力系統(tǒng)對(duì)安全性要求很高,導(dǎo)致電力數(shù)據(jù)保密性強(qiáng),開(kāi)放程度低。本文使用的電力數(shù)據(jù)來(lái)源于國(guó)家電網(wǎng)公司,原始數(shù)據(jù)集共分4個(gè)部分,由于該數(shù)據(jù)涉及保密,數(shù)據(jù)集進(jìn)行脫敏處理,部分參數(shù)僅為代碼表示。
1.1.1用戶檔案數(shù)據(jù)集
第一部分?jǐn)?shù)據(jù)為用電的檔案數(shù)據(jù)。數(shù)據(jù)集包含111 160個(gè)用戶,每個(gè)用戶擁有9個(gè)標(biāo)簽數(shù)據(jù),包括用戶編號(hào),立戶日期,合同容量,用戶狀態(tài),用戶類別,電壓等級(jí),用電類別,行類類別,臺(tái)區(qū)編號(hào),這些數(shù)據(jù)的字段代碼在表1中給出。其中,臺(tái)區(qū)是指(一臺(tái))變壓器的供電范圍或區(qū)域[7];合同容量指供電部門(mén)許可并在供用電合同中的用戶受電設(shè)備總?cè)萘?,也稱認(rèn)可容量[8];用戶類型共有兩種,包括家庭用電和商業(yè)用電;電壓等級(jí)有兩種,包括220 V和380 V;用電類別共有10種,由于數(shù)據(jù)保密性,已經(jīng)進(jìn)行了脫敏處理,由數(shù)字代替;行業(yè)類別共有228種,同樣進(jìn)行了脫敏處理,由數(shù)字代替。
表1 用戶檔案數(shù)據(jù)集Table 1 Consumer profile data set
1.1.2用戶用電量數(shù)據(jù)集
數(shù)據(jù)集中共包含99 999個(gè)用戶,時(shí)間從2014年1月1日到2017年3月21日的用電量數(shù)據(jù),擁有81 802 066行的數(shù)據(jù),2.3 G的容量。數(shù)據(jù)的參數(shù)包括:用戶編號(hào),日期,當(dāng)天電能表示值,用電量,對(duì)應(yīng)的字段代碼和數(shù)據(jù)類型在表2中給出。用戶日用電量記錄所有用戶每日用電量以及當(dāng)天和前一天的電能表示值。
表2 用戶用電量數(shù)據(jù)Table 2 Electricity consumption data set
1.1.3標(biāo)簽數(shù)據(jù)集
此標(biāo)簽數(shù)據(jù)包含兩個(gè)數(shù)據(jù)集,其中一個(gè)是已確認(rèn)為竊電的用戶清單,這個(gè)清單中擁有452個(gè)用戶。測(cè)試集中是一些懷疑竊電但是還沒(méi)有確定的需要測(cè)試的用戶,此部分包含40 655個(gè)用戶,其余用戶是清白用戶。一個(gè)用戶用一個(gè)用戶編號(hào)(CONS_NO)表示。
表3 標(biāo)簽數(shù)據(jù)Table 3 Label data set
1.1.4臺(tái)區(qū)供用電量數(shù)據(jù)集
此數(shù)據(jù)集共涉及566個(gè)臺(tái)區(qū),時(shí)間從2016年6月1日到2017年6月4日,一共200 659行數(shù)據(jù)。數(shù)據(jù)集內(nèi)的字段名稱和字段代碼如表4所示。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將時(shí)間跨度縮減為從2016年6月1日到2017年5月31日為完整的一年,對(duì)于數(shù)據(jù)缺失值進(jìn)行插補(bǔ)。
表4 臺(tái)區(qū)供用電量數(shù)據(jù)Table 4 Power supply and consumption data set of station area
臺(tái)區(qū)電量損耗=臺(tái)區(qū)供電量-臺(tái)區(qū)用電量。造成電量損耗的原因主要由線路和設(shè)備的損耗(技術(shù)性損耗)和用戶竊電(非技術(shù)性損耗)[9]構(gòu)成。
基于該數(shù)據(jù)集可以計(jì)算出線損率。線損率(line loss rate,RLL)指電力網(wǎng)絡(luò)中損耗的電能(線路損失負(fù)荷)占向電力網(wǎng)絡(luò)供應(yīng)電能(供電負(fù)荷)的百分?jǐn)?shù)[10]。它由臺(tái)區(qū)供電量和臺(tái)區(qū)用電量計(jì)算,如公式(1)所示:
(1)
式中:RLL,d為臺(tái)區(qū)的每日線損率;Sd為臺(tái)區(qū)的每日供電量;Cd為臺(tái)區(qū)的每日用電量。
綜合線損率在行業(yè)管理配電線損標(biāo)準(zhǔn)和農(nóng)網(wǎng)改造之后的配電線損率標(biāo)準(zhǔn)380/220 V供電下為12%[11],因此本文將線損率大于等于12%標(biāo)記為線損率異常值,高于這個(gè)值的臺(tái)區(qū)是可能存在竊電的臺(tái)區(qū)。
數(shù)據(jù)集中的原始數(shù)據(jù)存在數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失等問(wèn)題,需要在電力數(shù)據(jù)分析前先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)符合規(guī)范和要求。對(duì)于本文中的數(shù)據(jù),采用的數(shù)據(jù)預(yù)處理方法主要包括電力數(shù)據(jù)清洗、電力數(shù)據(jù)變換和電力數(shù)據(jù)標(biāo)準(zhǔn)化。
數(shù)據(jù)清洗主要是進(jìn)行兩個(gè)方面的數(shù)據(jù)處理,重復(fù)數(shù)據(jù)和缺失數(shù)據(jù)的預(yù)處理。
1) 對(duì)于重復(fù)性的數(shù)據(jù),先將數(shù)據(jù)集中查詢到的重復(fù)記錄插入到一個(gè)臨時(shí)數(shù)據(jù)集中,通過(guò)比較原數(shù)據(jù)表和重復(fù)記錄表,再對(duì)其進(jìn)行刪除。對(duì)于此部分的預(yù)處理主要應(yīng)用到臺(tái)區(qū)供用電量數(shù)據(jù)集和用戶用電量這兩個(gè)部分。
2) 當(dāng)缺失數(shù)據(jù)較少和缺失數(shù)據(jù)比例較低時(shí),采用直接刪除相應(yīng)樣本和取均值來(lái)代替缺失值的方法。在本文中,數(shù)據(jù)集由于用戶用電量數(shù)據(jù)量很大,擁有幾千萬(wàn)行,因此對(duì)于此部分?jǐn)?shù)據(jù)集,主要采用對(duì)缺失數(shù)據(jù)進(jìn)行直接刪除的方法。對(duì)于刪除以后數(shù)據(jù)量不足的用電用戶進(jìn)行剔除。對(duì)于臺(tái)區(qū)供/用電量數(shù)據(jù)集,部分采用了取均值來(lái)代替缺失值的方法。
3) 當(dāng)缺失數(shù)據(jù)較多時(shí),對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)。本文規(guī)定缺失值超過(guò)6%,此部分?jǐn)?shù)據(jù)即為無(wú)意義,需進(jìn)行剔除。缺失值在6%以內(nèi),通過(guò)平滑修正法進(jìn)行插補(bǔ),計(jì)算公式如下:
(2)
式中:Δt1和ΔT1分別表示前向采集開(kāi)始和截止的時(shí)間序列的節(jié)點(diǎn)數(shù)目;Δt2和ΔT2分別表示后向采集開(kāi)始和截止的時(shí)間序列的節(jié)點(diǎn)數(shù)目。
本文的分析總體技術(shù)路線如圖1所示。由數(shù)據(jù)采集,數(shù)據(jù)處理、分析與挖掘,知識(shí)發(fā)現(xiàn)和可視化4大部分組成,分別結(jié)合本文中提出的數(shù)據(jù)集和各模塊方法組成總體框架。
圖1 基于數(shù)據(jù)挖掘的用電規(guī)律研究的總體路線Fig.1 General line of research content
本文從供電、用電、線損、竊電4個(gè)方面的數(shù)據(jù)進(jìn)行挖掘,通過(guò)特征提取與數(shù)據(jù)清洗,然后建立統(tǒng)計(jì)模型,對(duì)數(shù)據(jù)進(jìn)行知識(shí)探索和可視化,組成統(tǒng)計(jì)模型的總體流程框架,如圖2所示。
圖2 用電規(guī)律的綜合統(tǒng)計(jì)模型Fig.2 Comprehensive statistical model of electricity consumption law
首先對(duì)原有的101 536個(gè)用戶用電量的數(shù)據(jù)進(jìn)行預(yù)處理。由于數(shù)據(jù)量比較大,部分用戶的數(shù)據(jù)不完整,本文將數(shù)據(jù)缺失和電力使用異常的用戶剔除。篩選標(biāo)準(zhǔn)為:首先去掉重復(fù)行,將采樣時(shí)間不是從2014年1月開(kāi)始的用戶數(shù)據(jù)全部剔除,日均用電量低于0.01 kW·h的剔除,日用電量低于0.1 kW·h數(shù)據(jù)所含比例高于50%的剔除,這部分比例基本是0值的所含比例,考慮到正常用戶全年不用電的時(shí)間應(yīng)該不會(huì)低于50%,留下具有較為完整數(shù)據(jù)的用戶為4萬(wàn)左右。
首先計(jì)算這些用戶的日平均用電量,然后選取全年用電量無(wú)異常無(wú)竊電的用戶。為了找出正常組,本文分析了566個(gè)臺(tái)區(qū)在2016年6月1日到2017年5月31日的供電量和用電量,得出了它們的線損率。在分析過(guò)程中,發(fā)現(xiàn)在566個(gè)臺(tái)區(qū)中,以12%為標(biāo)準(zhǔn)[10],99.82%的臺(tái)區(qū)都存在竊電,平均線損率達(dá)到22.18%.從2萬(wàn)個(gè)數(shù)據(jù)最為完整的精選用戶里篩選出線損率最無(wú)異常臺(tái)區(qū)的用戶,共計(jì)選擇出738個(gè)用戶,稱為選定用戶。這組用戶是確定無(wú)竊電的,計(jì)算這些用戶的日平均用電量。之后,將已知竊電用戶的數(shù)據(jù)集整理出來(lái),涉及452個(gè)用戶,計(jì)算這些用戶的日平均用電量,進(jìn)行時(shí)間序列分析。竊電用戶的數(shù)量較少,時(shí)間跨度完整的時(shí)間線少于正常用戶,為了不影響時(shí)間序列的波動(dòng)完整性,正常用戶和竊電用戶的時(shí)間范圍沒(méi)有修正為統(tǒng)一范圍。為了對(duì)比整體用戶、無(wú)竊電用戶和竊電用戶的用電區(qū)別,本文刻畫(huà)了4萬(wàn)用戶、選定臺(tái)區(qū)用戶和已知竊電用戶的日用電量的時(shí)間序列,如圖3所示。為了便于觀察,縮放到月制度,圖3中y軸是每個(gè)月份的日均用電量,x軸為時(shí)間。
從圖3可以看到,不同時(shí)間序列的曲線都具有明顯的周期性特征。為了探究他們的周期的詳細(xì)參數(shù)以便探究不同用戶日均用電量周期性的不同,本文加入了頻譜分析。頻譜是指一個(gè)時(shí)域在頻域下的表示方式,頻譜分析是針對(duì)時(shí)間序列的周期進(jìn)行檢測(cè)的經(jīng)典方法,它簡(jiǎn)單迅速應(yīng)用范圍廣。頻譜分析將時(shí)間序列進(jìn)行快速傅立葉變換(FFT),然后將其幅頻進(jìn)行平方再除以時(shí)間序列的長(zhǎng)度N:
圖3 4萬(wàn)用戶、選定臺(tái)區(qū)(無(wú)竊電)用戶和已知竊電用戶的日均用量的時(shí)間序列Fig.3 Time series of the average daily consumption of 40 000 users, selected users (without electric stealing) and known electric stealing users
(3)
(4)
序列周期可由公式(5)獲得:
(5)
頻譜分析的周期圖和計(jì)算周期的的結(jié)果如圖4所示。其中圖4(a)為數(shù)據(jù)清洗出的4萬(wàn)名用戶的日均用電量,其中包括未確定是否竊電的用戶,圖4(b)為選定臺(tái)區(qū)的用戶,確定無(wú)竊電的區(qū)域,圖4(c)為確定存在竊電行為的用戶。3幅圖中紅虛線標(biāo)出了最大譜密度所在的頻率位置,序列周期結(jié)果如表5所示。
由圖3、圖4和表5中可以得出以下結(jié)論:
表5 頻譜分析結(jié)果Table 5 Spectral analysis result
圖4 4萬(wàn)用戶、選定臺(tái)區(qū)(無(wú)竊電)用戶和已知竊電用戶的日均用電量的時(shí)間序列的頻譜分析Fig.4 Spectral analysis of time series of the average daily consumption of 40 000 users, selecited users (without electric stealing) know electric stealing users
1) 對(duì)4萬(wàn)總體用戶,竊電用戶和選定臺(tái)區(qū)用戶進(jìn)行時(shí)間序列對(duì)比,發(fā)現(xiàn)均具有周期性。這個(gè)結(jié)果說(shuō)明無(wú)論是否存在竊電行為,都不影響用電消費(fèi)行為存在周期性規(guī)律。
2) 對(duì)4萬(wàn)總體用戶,選定臺(tái)區(qū)用戶和竊電用戶進(jìn)行時(shí)間序列的頻譜分析結(jié)果對(duì)比,發(fā)現(xiàn)他們的周期分別為5.714 2個(gè)月,5.4個(gè)月,13.3個(gè)月。這個(gè)結(jié)果說(shuō)明正常用戶和竊電用戶的用電消費(fèi)模型都存在周期性規(guī)律但是周期不同。
3) 每日用電量竊電用戶>總體用戶>正常用戶。總體每日用電量不會(huì)超過(guò)26 kW·h電。這個(gè)結(jié)果說(shuō)明竊電用戶的用電需求比普通用戶更大,但也有上限。
為了進(jìn)一步探究竊電用戶和正常用戶的不同,本文對(duì)竊電用戶和正常用戶分布刻畫(huà)了概率密度分布曲線(probability density function)[11]也叫概率密度模型,簡(jiǎn)稱pdf,如圖5所示。隨機(jī)變量x的取值落在某個(gè)區(qū)域的概率為概率密度函數(shù)在這個(gè)區(qū)域上的積分。對(duì)于連續(xù)隨機(jī)變量x,當(dāng)序列的累積分布函數(shù)是FX(x)時(shí),非負(fù)可積函數(shù)fX(x)滿足:
綠色虛線為竊電用戶圖5 正常用戶與竊電用戶的所在臺(tái)區(qū)的數(shù)量的概率密度分布模型Fig.5 Probability density distribution curve of normal users and users who steal electricity
(6)
則fX(x)稱為概率密度函數(shù)。從圖5中可以看到,正常用戶和竊電用戶所在臺(tái)區(qū)的線損率范圍大部分落在了10%到20%之間。竊電用戶在40%~75%的線損率異常值區(qū)間有個(gè)小的波峰突起。說(shuō)明在這個(gè)區(qū)間的線損率的密度分布比較高,更容易造成竊電聚集。
為了進(jìn)一步探索,繪制了互補(bǔ)累積分布曲線(cumulative complementary distribution function,CCDF)[12]。CCDF曲線是一個(gè)互補(bǔ)累積分布函數(shù),是累積分布函數(shù)的互補(bǔ),它是連續(xù)函數(shù)對(duì)所有大于a的值的概率之和,如公式(7)所示:
F(a)=P(x>a) .
(7)
其中,x為隨機(jī)變量。結(jié)果如圖中的圖6所示。圖6分別展示了3萬(wàn)用戶和竊電用戶CCDF曲線,插圖是將范圍縮小到0.4~0.95之間的CCDF曲線放大圖。
插圖是將范圍縮小到0.4~1的互補(bǔ)累積分布曲線(CCDF)圖6 正常用戶與竊電用戶的所在臺(tái)區(qū)的互補(bǔ)累積分布曲線(CCDF)Fig.6 Complementary cumulative distribution curve (CCDF) of the station area where normal users and electric stealing users are located
從圖6中可以看到,線損率的值達(dá)到40%時(shí),竊電用戶的CCDF比正常用戶的曲線突然下降變緩,在65%左右又基本重合,說(shuō)明了竊電用戶在線損率范圍為40%~65%數(shù)量異常,竊電用戶在臺(tái)區(qū)線損率大于40%時(shí)竊電用戶數(shù)量激增。跟前面的概率密度分布結(jié)果相近。此部分研究證明線損率高的臺(tái)區(qū)內(nèi)的竊電用戶數(shù)量更多,同時(shí)在實(shí)際排查竊電用戶時(shí),可以針對(duì)實(shí)時(shí)線損率40%~65%的臺(tái)區(qū)進(jìn)行優(yōu)先檢測(cè)以便來(lái)更快速地查找到竊電用戶。
對(duì)于正常用戶和竊電用戶的研究中,得出線損率高的臺(tái)區(qū)竊電用戶會(huì)更多,但是線損率的均值并不能代表一個(gè)臺(tái)區(qū)的線損損失程度,而時(shí)間序列的波動(dòng)是更為準(zhǔn)確的表達(dá)。為了更快速地從數(shù)量很多的臺(tái)區(qū)里判斷查找竊電用戶的優(yōu)先級(jí),識(shí)別到最不健康的區(qū)域,對(duì)566個(gè)臺(tái)區(qū)的時(shí)間序列曲線進(jìn)行了聚類,并且為了不影響波動(dòng)趨勢(shì),本文以天為維度進(jìn)行聚類。
以線損率的時(shí)間序列為基礎(chǔ),數(shù)據(jù)包含臺(tái)區(qū)在2016年6月1日到2017年5月31日的供電量、用電量數(shù)據(jù),通過(guò)公式得到每天的線損率。每個(gè)臺(tái)區(qū)具有365 d的線損率值,也是就365維度。通過(guò)時(shí)間點(diǎn)的直接聚類維度過(guò)高會(huì)影響聚類效果和算法實(shí)現(xiàn)的時(shí)間,k-means聚類簡(jiǎn)單迅速但是歐氏距離無(wú)法對(duì)時(shí)間序列相似性做出最精準(zhǔn)的判別,時(shí)間序列相似性度量的方法可以很容易地檢測(cè)兩個(gè)時(shí)間序列之間的相似性,但是計(jì)算上百個(gè)時(shí)間序列時(shí)耗時(shí)過(guò)長(zhǎng),因此本文提出了通過(guò)時(shí)間序列相似性度量和k-means聚類相結(jié)合的方法來(lái)對(duì)566個(gè)臺(tái)區(qū)的369維的時(shí)間序列進(jìn)行聚類。將k-means聚類的歐氏距離進(jìn)行替換來(lái)改進(jìn)算法。
DTW(dynamic time warping)是廣泛使用的序列數(shù)據(jù)相似性度量方法,具有相移、縮放失真和其他形狀的不變性。但是DTW計(jì)算復(fù)雜度高,使得DTW難以處理高維度海量時(shí)序數(shù)據(jù)。本文提出了將基于形狀的距離相關(guān)性應(yīng)用于高維時(shí)間序列數(shù)據(jù),使用SBD(shape-based distance)來(lái)衡量相似性。對(duì)于兩個(gè)長(zhǎng)度都為m的時(shí)間序列x和y,s是偏移的校正系數(shù),s的內(nèi)積公式定義如下式(8)所示:
(8)
對(duì)于所有可能的移位s范圍為[m+1,m-1],可以計(jì)算內(nèi)積NCC作為時(shí)間序列x和y之間具有的相似性。NCC的最大值,表示x和y在最優(yōu)偏移s處的相似性。因此,相似性度量可以克服相移和表示兩個(gè)時(shí)間序列之間的形狀相似性。在實(shí)踐中,通常使用標(biāo)準(zhǔn)化版本的NCC限制在[-1,1]范圍內(nèi),其中1表示完全相似度,-1表示兩個(gè)時(shí)間序列是完全相反。NCC的定義如式(9)所示:
(9)
根據(jù)NCC定義基于形狀的距離(DSB)如式(10)表示:
(10)
DSB范圍從0到2,其中0表示兩個(gè)時(shí)間序列具有完全相同的形狀。較小的DSB意味著較高的形狀相似性。
基于上述提出的相似性的度量,本文將k-means聚類[13-15]的歐式距離替換為DSB,其中k-means聚類的數(shù)目由誤差平方和與輪廓系數(shù)相結(jié)合的方法求出。
將數(shù)據(jù)分成n組獨(dú)立的數(shù)據(jù)樣本,使n組聚類之間的方差相等,即用局部平方誤差和局部最小值表示。系統(tǒng)為每個(gè)集群選擇一個(gè)初始集群中心。每對(duì)樣本xa和xb之間的距離是用DSB來(lái)表示。根據(jù)最小距離原則,將樣本集分配給最近的聚類,然后用每個(gè)聚類的DSB更新聚類中心。重復(fù)上述步驟,直到集群中心不再改變。輸出最終的聚類中心和k個(gè)聚類劃分。采用誤差平方和與輪廓系數(shù)相結(jié)合的方法選擇聚類數(shù)。誤差平方和為:
(11)
式中:E為度量聚類質(zhì)量的目標(biāo)函數(shù),值越小越好;xi是空間中的一個(gè)點(diǎn),表示樣本對(duì)象;k是聚類的個(gè)數(shù);cj是聚類的中心序列。中心序列由DSB得出:
(12)
將樣本i的輪廓系數(shù)定義為:
(13)
式中:S(i)為定義樣本i的輪廓系數(shù),通過(guò)最大化均值S(i)來(lái)確定最優(yōu)的簇?cái)?shù)。本文取誤差平方和較小、輪廓系數(shù)較大的k值作為最佳聚類數(shù)目。最佳類數(shù)為5-7類,由于線損率具有實(shí)際意義,從10%、20%、30%、40%甚至到100%具有不同個(gè)意義,因此將聚類數(shù)設(shè)置為6類,結(jié)果如圖7所示,將566個(gè)臺(tái)區(qū)的時(shí)間序列聚集成6個(gè)分類,圖中是這6類的聚類中心。
從圖7中可以看到不同類別的聚類中心有明確的區(qū)分。由此得到了6種臺(tái)區(qū)線損率波動(dòng)模式。Cluster1(1類)的線損率長(zhǎng)期很高,根據(jù)特點(diǎn)將其稱為大病區(qū)。Cluster2(2類)的線損率長(zhǎng)期較高,但比Cluster1數(shù)值小,故稱之為小病區(qū)。Cluster3(3類)在2016年線損率較高,在2017年線損率迅速下降,將其稱之為改變區(qū)。Cluster4(4類)的線損率比標(biāo)準(zhǔn)值略高,稱之為亞健康區(qū)。Cluster5(5類)的線損率長(zhǎng)期處在標(biāo)準(zhǔn)值以內(nèi),將其稱之為健康區(qū)。Cluster 6(6類)是線損率長(zhǎng)期值超低甚至為負(fù)的過(guò)飽和區(qū)。健康區(qū)屬于合格區(qū)域,其他區(qū)域?qū)儆诓缓细駞^(qū)。行業(yè)管理配電線損標(biāo)準(zhǔn)和農(nóng)網(wǎng)改造之后的配電線損率標(biāo)準(zhǔn)為10 kV線損標(biāo)準(zhǔn)是10%,380/220 V線損標(biāo)準(zhǔn)是12%.因此本文將12%作為衡量變壓器區(qū)域是否健康的標(biāo)準(zhǔn)標(biāo)記在了圖中。
圖7 基于線損率時(shí)間序列波動(dòng)的聚類中心曲線Fig.7 Time series volatility clustering center curve based on line loss rate
基于核密度估計(jì)本文將6類核密度分布做了對(duì)比。文中的核密度估計(jì)(kernel density estimation,KDE)是基于高斯核的核密度估計(jì)方法來(lái)估計(jì)單因素觀測(cè)時(shí)的帶寬,這種方法能夠更好地觀測(cè)像瀏覽量和用戶消費(fèi)的分布。通過(guò)變量x的n個(gè)觀測(cè)值來(lái)計(jì)算它的概率分布[16]如式(14)所示。
(14)
其中,h是平滑的帶寬,參數(shù)K是需要指定的平滑核函數(shù)。使用平滑核的標(biāo)準(zhǔn)偏差來(lái)度量核。由于誤差符合獨(dú)立同分布,且樣本量較大,總體符合高斯分布,因此本文中使用高斯核來(lái)估計(jì)核密度:
(15)
選定了核之后,最終使用的核密度估計(jì)公式為:
(16)
分類后的用電消費(fèi)和供電消費(fèi)的6種類別的核密度分布的結(jié)果如圖8中展示。其中圖8(a)是臺(tái)區(qū)用電量消費(fèi)的核密度分布,圖8(b)是6類在同一坐標(biāo)下的用電量消費(fèi)的核密度分布,圖8(c)是臺(tái)區(qū)供電量消耗的核密度分布。
圖8 用電消費(fèi)和供電消費(fèi)的核密度估計(jì)Fig.8 Kernel density estimation of electricity consumption and power consumption
從圖8中可以看到6個(gè)類別之間明顯的差異,首先從圖8(a)的用電消費(fèi)可以看到,6個(gè)類別各不相同,3類、4類、5類分布較為集中,是線損率較低的比較健康的區(qū)域,他們?cè)?類2類的不健康區(qū)域數(shù)據(jù)分布比較分散。尤其是1類,它屬于線損率超高的區(qū)域,它的分布有2個(gè)波峰,表明它除了正常的用電量臺(tái)區(qū)外,還有一部分用電量偏高的臺(tái)區(qū)在運(yùn)作。2類作為第二不健康的區(qū)域,第2個(gè)波峰比較小,表明用電量偏高臺(tái)區(qū)有但不是很多。第3區(qū)是線損率改善的區(qū)域,它的波峰比較高,證明它在波峰附近的數(shù)據(jù)比較集中。第6個(gè)分類過(guò)飽和區(qū)是用電量非常飽和的區(qū)域,它的分布比較飽滿。為了更便于對(duì)比他們的不同,將6類用電消費(fèi)的核密度分布展示在同一坐標(biāo)如圖8(b)所示,圖中看出除了第6類的飽和區(qū)外,其他區(qū)域的第1個(gè)波峰位置是比較接近的。從圖8(c)的供電分布圖可以看到,供電和用電不同,它受用戶竊電等原因的干擾比較小,因此3類,4類,5類,6類的分布都比較接近,2類和1類也沒(méi)有2個(gè)突起,只有一個(gè)波峰。而這2類的用電量分布卻有2個(gè)波峰,與這2類中含有一定的竊電用戶有關(guān)。從供電和用電的對(duì)比可以看出,1類不健康區(qū)的第2個(gè)波峰才是主峰,它的峰值遠(yuǎn)遠(yuǎn)大于其他分區(qū)。因此1類模式內(nèi)的臺(tái)區(qū)是優(yōu)先重點(diǎn)檢測(cè)的竊電臺(tái)區(qū),其次是2類,3類是線損率改善臺(tái)區(qū),可以檢測(cè)線損率改善的原因。
本文主要對(duì)低電壓(220 V和380 V)的供電區(qū)域的電力消費(fèi)情況進(jìn)行研究。得出如下結(jié)論:
1) 探究了用戶的用電規(guī)律,對(duì)正常用戶和竊電用戶日均用量進(jìn)行時(shí)間序列分析,竊電用戶的日均用電量大于正常用戶。普遍每日用電量不會(huì)超過(guò)26 kW·h.對(duì)于用電量大的用戶可以重點(diǎn)檢測(cè)以防止竊電。
2) 通過(guò)對(duì)時(shí)間序列的頻譜分析,結(jié)果表明他們均存在周期性規(guī)律。利用傅里葉變換的頻譜圖計(jì)算得出周期參數(shù),結(jié)果表明正常用戶和竊電用戶周期不同。正常周期近似半年,竊電用戶近似一年。
3) 建立對(duì)正常用戶和竊電用戶所在臺(tái)區(qū)數(shù)量的概率密度函數(shù)和累積互補(bǔ)分布函數(shù),結(jié)果表明在線損率范圍為40%~65%數(shù)量異常,竊電用戶在臺(tái)區(qū)線損率大于40%時(shí)數(shù)量激增。在實(shí)際排查竊電用戶時(shí),可以針對(duì)實(shí)時(shí)線損率40%~65%的臺(tái)區(qū)進(jìn)行優(yōu)先檢測(cè)以便更快速地查找到竊電用戶。
4) 基于時(shí)間序列相似度度量和k-means聚類相結(jié)合的聚類模型,將高維時(shí)間聚類得到6類不同的健康程度臺(tái)區(qū)線損率模式,并通過(guò)核密度估計(jì)對(duì)比了他們的分布差別,可以快速排查出重點(diǎn)檢測(cè)臺(tái)區(qū)并監(jiān)測(cè)線損率改善的情況。
聚類得到分類后,未來(lái)會(huì)進(jìn)一步做更深入地研究,比如用電用戶的信息特征進(jìn)行相關(guān)關(guān)系分析,用電與溫度結(jié)合的分析等,以便探究更多的關(guān)系。