劉洋, 王劍, 唐明, 陸水錦
(1.中國民用航空飛行學(xué)院,航空電子電氣學(xué)院, 廣漢 618307; 2.清華四川能源互聯(lián)網(wǎng)研究院, 成都 610200;3.浙江清華長三角研究院, 嘉興 314006)
配電網(wǎng)臺區(qū)線損率是供電企業(yè)的重要考核指標(biāo),準(zhǔn)確的臺區(qū)檔案是計(jì)算臺區(qū)線損率、下發(fā)搶修工單、定位配電網(wǎng)故障和分析三相不平衡等應(yīng)用的基礎(chǔ)[1]。然而,配電網(wǎng)屬于電力傳輸最后一環(huán),普遍存在線路雜亂、用戶量巨大、數(shù)據(jù)質(zhì)量差等問題,此外由于電力公司在多年運(yùn)營中用電信息采集系統(tǒng)和同期線損系統(tǒng)之間的相關(guān)信息記錄遺失、戶變關(guān)系調(diào)整更新不及時(shí)導(dǎo)致的檔案資料不準(zhǔn)確,嚴(yán)重影響臺區(qū)線損準(zhǔn)確分析。因此,理清戶變掛接關(guān)系、構(gòu)建準(zhǔn)確的臺區(qū)戶變檔案十分必要。
目前電網(wǎng)公司梳理臺區(qū)戶變關(guān)系的主要方式依舊是人工巡查或借助臺區(qū)貫通儀等專用設(shè)備。人工巡查需要依靠運(yùn)維人員到現(xiàn)場逐戶排查臺區(qū)用戶的歸屬情況,費(fèi)時(shí)費(fèi)力且效率很低。臺區(qū)貫通儀等專用設(shè)備通常基于電力載波技術(shù)或電流脈沖技術(shù)等來識別臺區(qū)信息或相位信息[2-4],由于傳輸信號存在串?dāng)_、隔離和衰減等問題,其臺區(qū)覆蓋面積有限。近年來,隨著高精度電能采集裝置的發(fā)展及普及,電網(wǎng)公司有機(jī)會獲取海量、高密度的電網(wǎng)數(shù)據(jù)。使得將配電變壓器電參量以及用戶端電參量進(jìn)行大數(shù)據(jù)融合統(tǒng)計(jì)分析,從而實(shí)現(xiàn)低壓臺區(qū)的戶變關(guān)系辨識成為了可能。對此,中外學(xué)者從不同的電參量角度開展了大量卓有成效的研究工作,包括有功功率視角[5-6]、無功補(bǔ)償視角[7-8]、電壓諧波視角[9]、電量與地理位置視角[10]、多維度信息綜合研判視角[11-12]和電壓相關(guān)性視角[13-19]等??紤]到中國電力用電信息采集系統(tǒng)的實(shí)際情況,部分方法在工程落地和大規(guī)模推廣應(yīng)用方面存在困難。例如,文獻(xiàn)[5-6]和文獻(xiàn)[7-8]分別在有功功率和無功功率的視角下要求用戶在功率特征方面具有足夠鮮明的特征且能在配變總表上得以體現(xiàn),該方法具有明確的物理意義,但隨著臺區(qū)用戶的逐步增加,個(gè)體用戶的負(fù)荷特征很難在海量用戶中得以凸顯;文獻(xiàn)[9]從電壓諧波的視角要求待辨識的戶表和總表均有諧波計(jì)量功能且諧波數(shù)據(jù)能夠獲取,普通民用表計(jì)和當(dāng)前信道容量均無法滿足,推廣難度大;文獻(xiàn)[10-11]則立足電量結(jié)合地理位置以及多維信息綜合研判的視角,對其他維度信息源的準(zhǔn)確性要求很高,一旦不具備數(shù)據(jù)條件,此類方法也難以推廣。
在考慮當(dāng)前底層信道狀況和數(shù)據(jù)質(zhì)量等工程實(shí)際的前提下,考慮到智能電表可穩(wěn)定采集電壓數(shù)據(jù)[12-13],電壓相關(guān)性是數(shù)據(jù)基礎(chǔ)比較良好的技術(shù)路線,因此受到了廣泛關(guān)注?;陔妷合嚓P(guān)性的戶變關(guān)系辨識算法總體思路是利用配網(wǎng)各節(jié)點(diǎn)的電壓時(shí)序數(shù)據(jù)計(jì)算各節(jié)點(diǎn)之間的“距離”,再對各節(jié)點(diǎn)之間的距離矩陣做聚類處理,從而挖掘配網(wǎng)各節(jié)點(diǎn)之間的遠(yuǎn)近關(guān)系[14-20]。文獻(xiàn)[14]基于離散弗雷歇距離表征電壓曲線相似度;文獻(xiàn)[1,15-16]基于Pearson相關(guān)系數(shù)構(gòu)建節(jié)點(diǎn)間電壓距離,采用改進(jìn)K-means聚類獲得戶變檔案;文獻(xiàn)[17-19]則采用了較為復(fù)雜的算法[改進(jìn)動態(tài)時(shí)間規(guī)整算法(fast dyna-mic time warping, Fast DTW)、導(dǎo)數(shù)動態(tài)時(shí)間彎曲算法(derivative dynamic time warping, DDTW)、自適應(yīng)分段聚合近似算法(adaptive piecewise aggregate approximation, APAA)]計(jì)算電壓曲線距離,最后通過自組織映射神經(jīng)網(wǎng)絡(luò)(self organizing map, SOM)、基于密度劃分的含噪聲聚類方法(density-based spatial clustering of applications with noise, DBSCAN)等聚類算法獲得戶變檔案。而面對高維的電壓時(shí)序數(shù)據(jù)時(shí),如文獻(xiàn)[20-22],通常采用降維處理[主成分分析(principal component analysis, PCA)、多維尺度分析(multidimensional scaling, MDS)等]以降低計(jì)算復(fù)雜度。上述研究針對任意兩電壓曲線之間的距離做了大量工作,但都是立足于波形相關(guān)性對幾何距離進(jìn)行分段規(guī)整,并且計(jì)算的距離測度受電壓曲線的數(shù)值影響較大,過分依賴關(guān)口表計(jì)可靠性。隨著供電半徑增加,同一線路首末兩端節(jié)點(diǎn)劃分存在偏差。
從電壓相關(guān)性研究成果來看,主要構(gòu)建于同一臺區(qū)(或同一相)下各節(jié)點(diǎn)電壓具有同升同降的波動一致性原理。然而,實(shí)際工況中受限于以下4種原因,會導(dǎo)致這一慣用物理基礎(chǔ)難以支撐:①共性波動較小,被淹沒于表計(jì)的計(jì)量誤差之中;②采集頻次不足,無法有效捕獲共性波動,居民戶表采集頻次極少達(dá)到96點(diǎn)/d;③表計(jì)時(shí)鐘同步精度不夠,導(dǎo)致凍結(jié)數(shù)據(jù)有較大時(shí)差;④供電半徑較長,導(dǎo)致首尾兩端電壓相關(guān)性較低??梢?,電壓相關(guān)性原理仍然存在部分實(shí)際工程問題,使其有效性受限。
為進(jìn)一步提高電壓數(shù)據(jù)采集頻率,基于窄帶物聯(lián)網(wǎng)(narrow band Internet of Things, NB-IoT)技術(shù),研制基于NB-IoT物聯(lián)網(wǎng)技術(shù)的智能電表本地通信模塊,實(shí)現(xiàn)智能電表與采集主站的直接交互,將傳統(tǒng)用采系統(tǒng)感知層的3層架構(gòu)優(yōu)化為兩層,并采用自主可控的采集策略,靈活設(shè)置采集頻率并保證用戶電壓采集的同步性。其次,在戶變關(guān)系辨識算法方面,本文中基于高維流形的視角對配網(wǎng)各節(jié)點(diǎn)之間的距離矩陣進(jìn)行非線性重構(gòu),旨在強(qiáng)化電氣距離相鄰的節(jié)點(diǎn)之間的距離置信度,采用等距特征映射(isometric mapping,ISOMAP)算法對高維電壓時(shí)間序列等距離降維,以得到保持樣本間測地距離不變的低維流形。利用K最鄰近(K-nearest neighbor, KNN)算法對節(jié)點(diǎn)間歐式距離傳遞,在全局電壓曲線中求任意兩節(jié)點(diǎn)的測地距離,并基于樣本數(shù)據(jù)點(diǎn)間的測地距離矩陣來代替K-means算法中的歐氏距離矩陣,從而改進(jìn)K-means算法,實(shí)現(xiàn)對戶變關(guān)系的準(zhǔn)確辨識。
圖1所示為典型的低壓配網(wǎng)臺區(qū)拓?fù)洌?0 kV等級線路經(jīng)過10 kV/0.4 kV配電變壓器降壓到380 V,配電變壓器的低壓出口分別連接到各個(gè)用戶,三相負(fù)荷總體平衡,一個(gè)供電臺區(qū)根據(jù)負(fù)荷的大小可能有多個(gè)配電變壓器供電。臺區(qū)供電變壓器向外呈現(xiàn)輻射狀,戶變關(guān)系由線路連接關(guān)系唯一確定。對于掛接在同一臺區(qū)線路的用戶,用戶電壓波動幅度隨供電半徑而變化,相鄰的用戶電壓曲線波動趨勢一致。電壓相關(guān)性是基于電壓數(shù)據(jù)的戶變關(guān)系辨識算法的基礎(chǔ)。
圖1 低壓臺區(qū)典型拓?fù)銯ig.1 Typical topology of distribution transformer
電壓相關(guān)性原理具有明確的物理機(jī)理支撐,即在同一臺區(qū)(或同一相)下的用戶具有確定的電氣連接,其電壓波動理應(yīng)具有高度的一致性??紤]極端情況下,如果拉停一臺配變,則其所供電的用戶也一定會同時(shí)停電。當(dāng)然,實(shí)際工況中為了保障配網(wǎng)供電的可靠性,電網(wǎng)公司不會采用此類極端策略。但配網(wǎng)正常運(yùn)行中,電壓也具有規(guī)律性的“呼吸曲線”,即電壓會隨著負(fù)荷輕重而周期性的波動。長期來看,不同臺區(qū)所轄用戶因?yàn)樨?fù)荷特征不同其電壓波動也將各有規(guī)律。
電壓相關(guān)性的技術(shù)指標(biāo)主要用節(jié)點(diǎn)間的“距離”來表示,一般來說,“距離”越小,表示兩節(jié)點(diǎn)的關(guān)系越緊密,在類別劃分算法中可被視為“同類”。度量距離的常用模型有Pearson相關(guān)系數(shù)和歐式距離。Pearson相關(guān)系數(shù)主要衡量電壓序列的線性相關(guān)關(guān)系,且當(dāng)兩電壓序列的標(biāo)準(zhǔn)差非零才有計(jì)算意義。而長時(shí)間電壓序列并不是簡單的線性曲線,通常呈現(xiàn)復(fù)雜的非線性特性,因此,Pearson相關(guān)系數(shù)有著固有的缺陷。對于高維復(fù)雜的電壓序列,本文中采用基于歐式距離傳遞的測地距離來表征電壓相關(guān)性。
1.2.1 歐式距離模型
歐式距離(歐幾里得度量)是最常見的兩點(diǎn)之間或多點(diǎn)之間的距離表示方法,其定義于歐幾里得空間,對于任意n維向量x={x1,x2, …,xn}和y={y1,y2, …,yn},其距離d(x,y)計(jì)算公式為
(1)
歐式距離不關(guān)心數(shù)據(jù)集的空間分布,僅僅表示向量間的“直線”距離,目前大多數(shù)基于距離的機(jī)器學(xué)習(xí)和聚類算法都采用歐式距離來刻畫樣本集之間的相似度,但無法準(zhǔn)確刻畫高維數(shù)據(jù)潛在的集合特征。
1.2.2 測地距離模型
測地距離模型著重考慮數(shù)據(jù)的空間分布,通過搜尋最短路徑來表征兩點(diǎn)間的空間距離,能更真實(shí)地反映兩點(diǎn)間的空間距離。測地距離計(jì)算方法主要通過近鄰算法構(gòu)造近鄰圖,并基于最短路徑算法搜索近鄰圖中的最短路徑。
如圖2所示,該3維數(shù)據(jù)集呈現(xiàn)明顯的流形分布,可以看出,A、B兩點(diǎn)雖歐式空間距離較短,但實(shí)際距離偏長,相比歐氏距離采用測地距離更符合兩點(diǎn)間的距離描述要求。
圖2 Swiss Roll流形數(shù)據(jù)集的測地距離示意圖Fig.2 Geodesic distance diagram of Swiss Roll dataset
智能電網(wǎng)用電信息采集架構(gòu)主要包括感知層、通信層、前置處理層和應(yīng)用層,如圖3所示。感知層一般為用采前端;通信層為移動、電信等運(yùn)營商網(wǎng)絡(luò);隔離前置層主要包括防火墻、加密機(jī)、前置服務(wù)器、負(fù)載均衡器等設(shè)備;應(yīng)用層包括應(yīng)用服務(wù)器集群設(shè)備和營銷數(shù)據(jù)中心以及電網(wǎng)省公司和各地市公司的工作站等等。感知層負(fù)責(zé)提供原始的用采數(shù)據(jù),其架構(gòu)和用采系統(tǒng)指標(biāo)限制應(yīng)用層的其他高級功能開展,因此,提高用采頻率主要針對感知層。
圖3 用電信息采集架構(gòu)示意圖Fig.3 Schematic diagram of power acquisition architecture
目前用采感知層主要分為三部分,包括智能電表、集中器和用采主站,如圖4所示。用采系統(tǒng)架構(gòu)層級多,通信鏈路長,終端用戶智能電表的數(shù)據(jù)均需經(jīng)過集中器的匯集之后才能上傳到電網(wǎng)公司的主站系統(tǒng),同時(shí),主站系統(tǒng)對智能電表的主動召采也需要經(jīng)過集中器的轉(zhuǎn)發(fā)完成指令的下發(fā)。集中器作為用采主站和終端用戶的橋梁,承擔(dān)著上傳下達(dá),雙向交互的核心作用。
圖4 感知層采集系統(tǒng)架構(gòu)Fig.4 Architecture of sensing layer in acquisition system
由于用電信息采集系統(tǒng)的數(shù)據(jù)采集業(yè)務(wù)已下沉至集中器,集中器對用戶電表電壓數(shù)據(jù)集抄的頻次嚴(yán)重受限于其管理的用戶電表數(shù)量和本地通信的信道容量。為提高用電信息采集頻次,需要提高信道容量或優(yōu)化采集架構(gòu),減輕集中器采集壓力。
設(shè)計(jì)了一種扁平化的用電信息系統(tǒng)架構(gòu),通過NB-IoT物聯(lián)網(wǎng)通信技術(shù),省去集中器匯聚層,將用戶的用采數(shù)據(jù)從智能電表直接送入用采系統(tǒng),其系統(tǒng)架構(gòu)如圖5所示。各個(gè)NB-IoT本地通信模塊統(tǒng)一接收來自用采主站的時(shí)標(biāo)信息,并根據(jù)下發(fā)的采集策略主動讀取智能電表的用電信息,利用通信運(yùn)營商基站直接發(fā)送到電力公司內(nèi)網(wǎng)進(jìn)入用采主站,保證讀取的用戶電壓信息具有高度的同步性。對用電采集系統(tǒng)的架構(gòu)進(jìn)行扁平化優(yōu)化設(shè)計(jì)之后,用采系統(tǒng)由原來的三層架構(gòu)變?yōu)閮蓪?,僅包含終端智能電表和用采主站兩個(gè)環(huán)節(jié)。
圖5 基于NB-IoT物聯(lián)網(wǎng)的用電信息系統(tǒng)架構(gòu)Fig.5 Schematic diagram of power consumption information system architecture based on NB-IoT
NB-IoT電表本地模塊自行研制,模塊參數(shù)如表1所示,智能電表采集模塊由STM32F103嵌入式系統(tǒng)和NB-IoT模組組成,實(shí)現(xiàn)電壓采集和數(shù)據(jù)上報(bào)功能。圖6為該模塊和安裝示意圖,模塊安裝在智能電表內(nèi)倉,嵌入式系統(tǒng)通過電表的Pin2x6接口按照DLT 645—2007《多功能電能表通信規(guī)約》使用TTL串口通信,讀取電表的電壓和有功功率數(shù)據(jù),利用NB-IoT模組將數(shù)據(jù)發(fā)送到遠(yuǎn)端用采系統(tǒng),無需集中器中轉(zhuǎn)傳輸,提高了采集頻次。
表1 NB-IoT本地模塊參數(shù)Table 1 Parameters of NB-IoT local module
圖6 NB-IoT電表本地模塊Fig.6 NB-IoT local module of watt-hour meter
ISOMAP算法基于測地距離來代替?zhèn)鹘y(tǒng)的歐氏空間幾何距離,再利用多維尺度分析(multidimensional scaling, MDS)算法將數(shù)據(jù)集從高維空間等距嵌入到低維空間中,從而獲得樣本數(shù)據(jù)之間的測地距離不變的低維樣本矩陣。ISOMAP算法主要包括測地距離計(jì)算和多維等距尺度變換兩部分[23],具體步驟如下。
3.1.1 計(jì)算測地距離
構(gòu)建近鄰圖G。對于輸入樣本集D={x1,x2, …,xn}中任意數(shù)據(jù)點(diǎn)對xi和xj計(jì)算歐式距離do(xi,xj),得到歐氏距離矩陣Do;采用KNN算法搜索基于Do的每一樣本點(diǎn)xi的鄰域,找到最近的kn個(gè)鄰域數(shù)據(jù)點(diǎn);將觀測點(diǎn)xi與kn近鄰點(diǎn)相連接構(gòu)建近鄰圖G。近鄰圖G的邊為鄰邊eij的權(quán)值,等于xi和xj計(jì)算的歐式距離do(xi,xj)。圖7所示為近鄰圖示意圖,點(diǎn)和邊構(gòu)成一個(gè)完整的圖形,沒有子圖斷開。
圖7 二維近鄰圖示意圖Fig.7 2D nearest neighbor map
搜索最短路徑dG(xi,xj)。采用最短路徑計(jì)算方法[弗洛伊德(Floyd)算法,迪杰斯特拉(Dijkstra)算法等]從近鄰圖G中尋找樣本點(diǎn)對xi和xj之間的最短距離dG(xi,xj)。xi和xj之間的歐式距離計(jì)算公式為
(2)
初始化,以do(xi,xj)構(gòu)建kn近鄰歐式距離矩陣Dknn。以dG(xi,xj)作為測地距離,構(gòu)建測地距離矩陣DG。
3.1.2 MDS多維尺度變換
設(shè)有原始高維數(shù)據(jù)集X={x1,x2,…,xn},則MDS算法用于找到與高維數(shù)據(jù)X相對應(yīng)的m維數(shù)據(jù)Y={y1,y2,…,ym}(m≤n)。MDS算法的步驟如下:
(3)
雙中心化處理,公式為
(4)
對矩陣τ(D)奇異值分解,公式為
τ(D)=UTΛU
(5)
按升序排列m個(gè)特征值和特征向量,得到特征值對角矩陣Λm和特征向量矩陣Um。
計(jì)算m維降維數(shù)據(jù),公式為
(6)
傳統(tǒng)K-means算法依賴其K值和初始聚類中心的選擇,樣本數(shù)據(jù)到類別質(zhì)心的距離矩陣計(jì)算方法也受數(shù)據(jù)分布特性影響。針對戶變關(guān)系辨識這一應(yīng)用場景,容易得到聚類的類別數(shù)為臺區(qū)的總出口電壓數(shù)量。因此,采用K-means算法對于已知聚類數(shù)目K值和初始聚類中心的選擇問題有著天然的優(yōu)勢。此外,相鄰節(jié)點(diǎn)間的電壓波動一致性強(qiáng),而遠(yuǎn)隔節(jié)點(diǎn)間的電壓波動一致性弱,本文中將長時(shí)間尺度的電壓數(shù)據(jù)看做高維流形,用測地距離描述節(jié)點(diǎn)間的空間距離,符合電壓數(shù)據(jù)的特點(diǎn),需要對傳統(tǒng)K-means算法進(jìn)行改進(jìn)。
本文中K-means算法改進(jìn)點(diǎn)在于:①使用臺區(qū)出口個(gè)數(shù)作為聚類類別K值;②以臺區(qū)出口電壓曲線作為各類別的初始聚類中心;③用測地距離代替歐式距離,計(jì)算樣本數(shù)據(jù)到質(zhì)心的距離。對于樣本數(shù)據(jù)X={x1,x2,…,xn}的K類聚類計(jì)算步驟如下。
(1)初始類別中心Ck=Outlet(X)(k=1, 2, …,K),Outlet為臺區(qū)出口電壓,初始化每個(gè)樣本數(shù)據(jù)的類別xi,c=i(i=1, 2, …,n)。
(2)計(jì)算每個(gè)樣本數(shù)據(jù)xi到K個(gè)質(zhì)心的測地距離dG(xi,Ck),求出dG(xi,Ck)最小值,并將xi的類別設(shè)置為對應(yīng)的k。
(3)對每個(gè)k類,重新計(jì)算該類的聚類中心(質(zhì)心),公式為
(7)
(4)重復(fù)步驟(2)、步驟(3),直到達(dá)到迭代次數(shù)或者最小誤差閾值時(shí)退出聚類。
由于改進(jìn)K-means的迭代過程中新質(zhì)心會不斷變化,在上述步驟(2)計(jì)算樣本數(shù)據(jù)和質(zhì)心的測地距離時(shí),樣本數(shù)據(jù)的KNN近鄰數(shù)kn需要不斷調(diào)整,以保證全局近鄰圖G具有連通性。實(shí)際算法中計(jì)算鄰接矩陣A(G)的可達(dá)矩陣P(A),通過判斷可達(dá)性[P(A)元素是否全為1]調(diào)整kn值,其中設(shè)定kn∈(10, 30),若圖G不可達(dá)則kn加1,直到可達(dá)或者kn超過設(shè)定值。
結(jié)合ISOMAP和改進(jìn)K-means的戶變關(guān)系辨識算法主要包括數(shù)據(jù)集電壓數(shù)據(jù)的預(yù)處理、近鄰矩陣計(jì)算、測地距離計(jì)算、MDS低維等距嵌入矩陣計(jì)算和改進(jìn)K-means聚類等步驟。圖8所示為本算法對戶變關(guān)系辨識的流程示意圖,具體流程包含以下步驟。
圖8 結(jié)合ISOMAP和改進(jìn)K-means的算法流程圖Fig.8 Flow chart of combining ISOMAP and improved K-means algorithm
(1)電壓數(shù)據(jù)預(yù)處理。刪除包含空缺值、零值和記錄天數(shù)過少(<3)的用戶電壓曲線,進(jìn)行數(shù)據(jù)歸一化處理,公式為
(8)
式(8)中:vt、v′t、vmax、vmin分別為日電壓曲線中t時(shí)刻電壓值、歸一化后t時(shí)刻電壓值、最大電壓值和最小電壓值;T為每日時(shí)段數(shù)(例如,5 min采集頻次,T=288),經(jīng)過預(yù)處理后的電壓矩陣為V′。
(2)計(jì)算KNN近鄰距離矩陣。對V′中任意電壓向量vi′,利用KNN算法選取最近的kn個(gè)電壓向量,并標(biāo)記其kn個(gè)近鄰距離為歐式距離,V′中除近鄰點(diǎn)外的所有向量標(biāo)記距離為無窮大(Inf),得到近鄰距離矩陣Dknn。
(3)計(jì)算測地距離矩陣。使用Dijkstra最短路徑算法根對近鄰距離矩陣Dknn計(jì)算V′中任意兩行向量的測地距離矩陣DG。
(4)計(jì)算低維等距嵌入矩陣。用DG代替MDS算法中的歐式距離矩陣,確定等距降維維度m,使用MDS算法計(jì)算V′的m維度的等距矩陣Y。
(5)改進(jìn)K-means聚類。確定聚類數(shù)目K(K=臺區(qū)出口數(shù)),確定類別質(zhì)心(臺區(qū)出口電壓序列),每一次迭代均計(jì)算矩陣Y到類別質(zhì)心Ck的測地距離,并對矩陣Y的行向量做類別劃分,重新計(jì)算歸類后質(zhì)心Ck直到類別劃分穩(wěn)定,得到聚類結(jié)果。
算例數(shù)據(jù)集來源于某電力公司供電轄區(qū)內(nèi)的10個(gè)試點(diǎn)臺區(qū),該臺區(qū)全部更換為新型智能電表,并安裝本文研制的NB-IoT電表本地通信模塊,移動網(wǎng)絡(luò)的NB-IoT信號在該臺區(qū)實(shí)現(xiàn)全部覆蓋。此外,該臺區(qū)檔案信息已經(jīng)過人工現(xiàn)場核查,確保戶變關(guān)系辨識驗(yàn)證集的準(zhǔn)確性。本次分析總計(jì)1 385戶,各臺區(qū)所供的用戶數(shù)如表2所示,2號臺區(qū)、3號臺區(qū)和5號臺區(qū)用戶數(shù)較多,其余各臺區(qū)用戶數(shù)均在100戶左右。
表2 臺區(qū)用戶檔案Table 2 User files in transformer power supply area
算例數(shù)據(jù)集為時(shí)序電壓數(shù)據(jù)集,電壓數(shù)據(jù)采集周期和同步時(shí)間戳由NB-IoT運(yùn)維軟件前置機(jī)配置,設(shè)置采集周期為5 min,每天采集288個(gè)數(shù)據(jù)點(diǎn),時(shí)間戳同步北京時(shí)間并設(shè)置為00:00:00啟動第一個(gè)采集數(shù)據(jù)上報(bào),數(shù)據(jù)連續(xù)采集時(shí)段為2020年12月12日—2020年12月27日共計(jì)15 d。為了進(jìn)一步增加電壓數(shù)據(jù)的時(shí)間分析尺度,將電壓數(shù)據(jù)預(yù)處理為行向量,每日的288個(gè)數(shù)據(jù)點(diǎn)依次在行向量末尾進(jìn)行追加,因此,數(shù)據(jù)集為高維(288×15=4 320維)數(shù)據(jù)。
算例硬件環(huán)境為CPU InterCORE i5 8thGen,1.6 GHz, RAM 16 GB,在WIN10 64 Bit, Matlab2018b平臺運(yùn)行。ISOMAP算法主要時(shí)間開銷在于計(jì)算距離矩陣,由于用戶電壓數(shù)據(jù)量極大,單線程計(jì)算距離矩陣效率較低,為提高本算法求解距離矩陣的效率,啟用MATLAB并行計(jì)算池(parpool)并配置為 4 個(gè)workers同步計(jì)算,距離矩陣計(jì)算耗時(shí)42.003 761 s,MDS和K-means算法總共耗時(shí)7.698 280 s。
采用基于MDS的ISOMAP算法進(jìn)行數(shù)據(jù)降維時(shí),需要構(gòu)建最佳的數(shù)據(jù)維度。數(shù)據(jù)維度較小則丟失有用的信息,維度較高的冗余信息會增大K-means的計(jì)算量。針對本數(shù)據(jù)集,圖9展示了ISOMAP算法在1~20維的低維空間嵌入數(shù)據(jù)殘差值??梢?,隨著數(shù)據(jù)維度增加,殘差值逐漸減小,當(dāng)數(shù)據(jù)維度達(dá)到15維時(shí),殘差值幾乎不再減小,因此,算法采用的有效數(shù)據(jù)維度設(shè)置為15維。測試過程中ISOMAP算法的近鄰數(shù)kn選取10即可保證近鄰圖不斷開。
圖9 ISOMAP不同維度嵌入殘差值Fig.9 Embedded residual value of different dimensions by ISOMAP algorithm
為分析戶變辨識效果,本文中對比了采用基于歐氏距離的K-means算法、結(jié)合PCA降維和歐氏距離的K-means算法以及提出的結(jié)合ISOMAP降維和改進(jìn)K-means算法在給定數(shù)據(jù)集的辨識結(jié)果。其中PCA降維的前8維對總體數(shù)據(jù)的貢獻(xiàn)率達(dá)到97.64%,實(shí)際取PCA降維數(shù)據(jù)的前8維數(shù)據(jù)用于K-means分析。K-means聚類類別K值設(shè)置為臺區(qū)出口線路數(shù),即10類,并指定臺區(qū)出口線路的電壓數(shù)據(jù)為各類別的初始聚類中心,設(shè)定最大迭代次數(shù)為100 000。3種算法的總體辨識正確率如表3所示,K-means算法的正確率最低為65.99%,PCA+K-means算法的正確率次之為88.30%,本文提出的基于ISOMAP+改進(jìn)K-means算法的辨識率最高為97.1%。
表3 辨識正確率對比Table 3 Comparison of identification accuracy
戶變關(guān)系辨識正確率對比如圖10所示。整體來看,采用單一K-means算法的輪廓系數(shù)最小,辨識效果最差,在臺區(qū)5的辨識正確率最高僅為77.2%,臺區(qū)10的辨識正確率最低為57.8%。原始數(shù)據(jù)采用PCA降維處理后,K-means的辨識正確率整體上有了較大改善,最高正確率為91.6%位于臺區(qū)6,臺區(qū)10辨識正確率最低(68.1%)。相對地,采用ISOMAP等距降維和測地距離重構(gòu)后的K-means整體辨識效果最好,辨識正確率高達(dá)97.1%位于臺區(qū)5,較低的辨識正確率88.8%分布在臺區(qū)10。
圖11分別展示了3種算法在10個(gè)臺區(qū)的用戶辨識正確和錯(cuò)誤結(jié)果分布情況??梢钥闯觯瑔我坏腒-means算法在每一臺區(qū)均出現(xiàn)相對較大的錯(cuò)誤辨識結(jié)果。這是由于高維用戶電壓曲線中存在大量異常數(shù)據(jù)而導(dǎo)致的嚴(yán)重錯(cuò)分現(xiàn)象,采用 PCA對數(shù)據(jù)降維能夠有效去除數(shù)據(jù)冗余和噪聲,有效提高了辨識正確率,在臺區(qū)3和臺區(qū)6表現(xiàn)顯著。此外,前兩種算法在臺區(qū)2和臺區(qū)7出現(xiàn)較高的辨識誤差,經(jīng)過對配網(wǎng)戶變掛接關(guān)系和用戶辨識檔案校核發(fā)現(xiàn),由于該兩個(gè)臺區(qū)相隔距離較近,存在“共母線”的情況,導(dǎo)致出現(xiàn)臺區(qū)用戶檔案“誤分”,進(jìn)而導(dǎo)致同時(shí)出現(xiàn)異常偏高的錯(cuò)誤辨識結(jié)果。而采用ISOMAP+K-means算法時(shí),注重關(guān)聯(lián)掛接在同一臺區(qū)線路上相鄰用戶的逐一傳遞關(guān)系,將辨識目標(biāo)由 “將全部電壓曲線劃分給其更近的質(zhì)心”轉(zhuǎn)變?yōu)?“動態(tài)搜索傳遞過程中距離更近電壓曲線”,更符合戶變關(guān)系辨識的實(shí)際情況。綜合觀察雷達(dá)圖10和柱狀圖11(c),該方法兼顧提高辨識的準(zhǔn)確率、不同臺區(qū)辨識的穩(wěn)定性及辨識效率。
圖10 辨識正確率對比Fig.10 Comparison of identification accuracy
圖11 臺區(qū)辨識結(jié)果的分布情況Fig.11 Identification results in different stations
臺區(qū)戶變掛接關(guān)系和線路物理連接直接決定了臺戶電壓曲線的相似程度和空間距離。隨著臺區(qū)供電范圍擴(kuò)大,線路阻抗增加,末端用戶電壓與臺區(qū)出口電壓的相關(guān)性將會越來越低,若基于歐式空間距離的“剛性”閾值對電壓數(shù)據(jù)進(jìn)行聚類,則會出現(xiàn)嚴(yán)重的類別錯(cuò)分現(xiàn)象,戶變關(guān)系辨識效果差。另一方面,高維原始電壓數(shù)據(jù)有可能存在干擾數(shù)據(jù),盡管干擾數(shù)據(jù)或測量誤差較小,但會隨著數(shù)據(jù)維度的增加而增大歐氏距離度量,所以采用PCA降維處理后的K-means辨識效果顯著提升。
測地距離基于KNN的歐式距離進(jìn)行傳遞,保持了數(shù)據(jù)之間的全局結(jié)構(gòu)信息,重構(gòu)的距離矩陣更加符合電壓相關(guān)性的物理意義,有利于K-means聚類算法將具有共性波動電壓曲線進(jìn)行歸類,解決首末端電壓相關(guān)性小導(dǎo)致的錯(cuò)誤聚類問題。此外,由于ISOMAP結(jié)合了MDS等距離降維,相較于原始高維數(shù)據(jù),使用距離重構(gòu)并結(jié)合降維后的數(shù)據(jù)使用K-means聚類具有更高的戶變關(guān)系辨識率。
從工程實(shí)際出發(fā),通過優(yōu)化用電信息采集架構(gòu),研制智能電表本地模塊以提高電壓采集頻次,最大程度采集到具有共性波動電壓原始數(shù)據(jù)。以高維流形的視角針對臺區(qū)戶變關(guān)系辨識提出了一種結(jié)合ISOMAP降維的改進(jìn)K-means聚類算法,得到以下結(jié)論。
(1)利用電壓數(shù)據(jù)之間的測地距離表征用戶和臺區(qū)的空間距離,能夠更加準(zhǔn)確的反映同一臺區(qū)線路下相鄰用戶電壓曲線趨勢之間的傳遞關(guān)系。
(2)采用ISOMAP算法對高維電壓時(shí)間序列等距離降維,一方面能夠保持樣本間的測地距離不變,另一方面能夠極大降低聚類過程的時(shí)間消耗。
(3)所提方法能夠改善由于電壓波動的幅度較小、采集頻次低、時(shí)鐘同步性差、供電半徑較長等原因?qū)е碌氖啄﹥啥穗妷合嚓P(guān)性小的情況,有效提高戶變關(guān)系辨識準(zhǔn)確性。