鄧明斌 譚致遠(yuǎn) 陳廣開 韓 瑋 徐志淼
(廣州供電局有限公司 廣州 510620)
隨著電力系統(tǒng)信息化程度的不斷提高和配用電數(shù)據(jù)量的迅速增長,研究適用于配用電數(shù)據(jù)挖掘的算法并建立有效的知識發(fā)現(xiàn)模型,對配用電業(yè)務(wù)模式創(chuàng)新和智能電網(wǎng)的發(fā)展具有重要意義。然而到目前為止,“數(shù)據(jù)海量,信息匱乏”仍是電力企業(yè)面臨的重要問題[1]。
電力大數(shù)據(jù)的內(nèi)涵是重塑電力核心價值和轉(zhuǎn)變電力發(fā)展方式。通過對市場個性化需求和企業(yè)自身良性發(fā)展的挖掘,實現(xiàn)由以電力生產(chǎn)為中心向以客戶為中心轉(zhuǎn)變,推動電力工業(yè)向低耗能、低排放、高效率的綠色發(fā)展方式轉(zhuǎn)變。通過對配用電大數(shù)據(jù)的有效挖掘,推動以電網(wǎng)物理模型為核心的傳統(tǒng)業(yè)務(wù)模式向以數(shù)據(jù)信息相關(guān)性為基礎(chǔ)的大數(shù)據(jù)業(yè)務(wù)模式轉(zhuǎn)變[2]。
本文研究的目的在于訓(xùn)練出用戶歷史用電的用電模式,判別當(dāng)前用電行為是否存在異常,其作用體現(xiàn)在三個方面,首先,幫助營銷稽查人員輔助判斷用電異常嫌疑戶;其次,是提高營銷業(yè)務(wù)人員分析異常用戶的工作效率,最后,是查獲異常用戶挽回供電企業(yè)損失,提高供電企業(yè)效益[3]。
建立用戶用電模式采用了數(shù)據(jù)挖掘流程包括數(shù)據(jù)提取、數(shù)據(jù)處理、數(shù)據(jù)訓(xùn)練、異常判別、結(jié)果驗證等,用電模式訓(xùn)練引進(jìn)了數(shù)據(jù)挖掘中的K-means聚類算法,并結(jié)合當(dāng)前業(yè)務(wù)對聚類算法進(jìn)行了改進(jìn)。
建立用電模式模型主要分為兩個階段:訓(xùn)練階段和異常識別階段。選取正常天的分時電量進(jìn)行訓(xùn)練,訓(xùn)練出用戶正常的用電模式,再對待測數(shù)據(jù)進(jìn)行檢測。
專業(yè)術(shù)語說明:
梯度閾值:表示分時電量發(fā)生變化的最小幅度,超過該幅度則表示電量發(fā)生了變化。用gradient表示,由統(tǒng)計得出。
梯度歸一化:由梯度閾值,根據(jù)分時電量是否增加,不變,減少歸一化成1,0,-1。
2.1.1 用電模式訓(xùn)練流程
圖1 用電模式訓(xùn)練流程圖
1)提取用戶電流數(shù)據(jù),以用戶電流平衡度來判斷用戶正常用電數(shù)據(jù);
2)提取用戶24h整點分時電量數(shù)據(jù);
3)對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)向量化、數(shù)據(jù)歸一化處理;
4)提取有效的正常天數(shù)據(jù);
5)訓(xùn)練正常的用電參數(shù)模型,引進(jìn)了改進(jìn)型K-means聚類算法。
2.1.2 數(shù)據(jù)預(yù)處理
標(biāo)記好正常日期后,接下來就是對數(shù)據(jù)進(jìn)行預(yù)處理。具體包括:
1)首先進(jìn)行數(shù)據(jù)清洗。有兩類異常值會影響計算,第一類為數(shù)據(jù)空缺,第二類為計量故障得到的特別大的值,在這里直接濾掉。對于第二類異常值主要是由于計量故障引起的,得到的電量值可能是很多天的累計或者小數(shù)點移位等,導(dǎo)致計量的電量值可能是實際值的幾十倍,甚至上百倍。對于這類異常值在數(shù)據(jù)計算前必須進(jìn)行清洗,否則得到的特征值會很大,會增加異常的概率。根據(jù)數(shù)據(jù)的分布情況,這里設(shè)定臨界值為99.9分位點,可以比較準(zhǔn)確地清洗掉異常值,保留有用數(shù)據(jù)。
將數(shù)據(jù)按天提取成24維向量,方便計算。為保證訓(xùn)練數(shù)據(jù)的準(zhǔn)確性,將不足24個點的,有空缺的天濾掉。
2)將數(shù)據(jù)進(jìn)行歸一化,這里采用:value=(value-min)/(max-min)*10,其中min為用戶分時電量的最小值,max為用戶分時電量的最大值。放大10倍便于計算,則歸一化后的數(shù)據(jù)范圍為[0~10]。
2.1.3 梯度聚類
聚類分析是數(shù)據(jù)挖掘技術(shù)中最重要的算法之一。常用的聚類方法可以劃分為如下幾種:1)劃分聚類方法,包括K-means和K-medoids等算法;2)層次聚類方法,可分為凝聚算法和分裂算法;3)密度聚類算法,主要包括DBSCAN、OPTICS和DENCLUE算法;4)基于網(wǎng)格的方法,如STING 法;5)基于模型的SOM、COBWEB算法等。其中,K-means聚類分析法是目前應(yīng)用最為廣泛的一種算法,該算法由MacQueen于1967年提出,具有原理簡單、計算快速的優(yōu)點,尤其對于數(shù)值屬性的數(shù)據(jù),它能較好地體現(xiàn)聚類在幾何和統(tǒng)計學(xué)上的意義[4]。
在進(jìn)行kmeans聚類之前,先進(jìn)行梯度聚類,然后將梯度聚類的結(jié)果作為kmeans聚類的初值。這樣不僅使kmeans聚類有了一個比較好的初值,而且還指定了用電模式的個數(shù)。梯度聚類分為兩步,第一步先進(jìn)行常規(guī)的kmeans聚類聚成6類,第二步再把相似的用電模式按取均值的方式合并出最后結(jié)果。具體步驟為
1)將預(yù)處理后的數(shù)據(jù)進(jìn)行kmeans聚類成6類,因為單個用戶的用電模式一般為2~3個,這里先聚成6類,再根據(jù)曼哈頓距離把模式相近的進(jìn)行合并。在這里求曼哈頓距離的時候先進(jìn)行了梯度歸一化處理。具體步驟:先將每天的24維分時數(shù)據(jù)向量[d0,d1,d2…d23]向前作差轉(zhuǎn)化成23維的向量[d1-d0,d2-d1…d23-d22],然后對所有得到的數(shù)據(jù)取80分位點作為梯度閾值gradient,事實上梯度閾值會在一個合理的范圍,所以有如下判斷:
將所得的23維向量value_(0-22)進(jìn)行如下轉(zhuǎn)化:
這樣就把原數(shù)據(jù)轉(zhuǎn)化成了只包含0,1,-1的23維向量,再計算曼哈頓距離,這樣可以使得越平行向量之間曼哈頓距離越小。
2)計算每個簇中的點到中心點的歸一化的曼哈頓距離,取75分位點作為這個簇的勢力范圍,如果兩個簇的中心點之間的歸一化曼哈頓距離分別在這兩個簇的勢力范圍之內(nèi),則說明這兩個模式可以合并。若多個簇之前可以相互合并則一起合并。合并后的簇中心點為各個簇中心點的均值。重復(fù)步驟2),直到不能被合并為止,得到最后的用電模式。
2.2.1 識別流程
圖2 用電模式識別流程圖
1)提取待測數(shù)據(jù)及相關(guān)參數(shù),待測數(shù)據(jù)為每天24h整點功率數(shù)據(jù),在測試過程中,對于數(shù)據(jù)缺失不太多且沒有連續(xù)缺失的天采用線性插值的方法進(jìn)行填充;
2)數(shù)據(jù)預(yù)處理后,計算每天的數(shù)據(jù)向量到每個簇中心點的距離,離哪個中心點近,就判定它屬于哪個簇。
3)當(dāng)判定測試數(shù)據(jù)屬于哪個簇后,還要進(jìn)行確認(rèn)它是否真的屬于這個簇。這里采用測試數(shù)據(jù)到簇中心點的距離與該簇的閾值半徑進(jìn)行比較,若大于該閾值,則認(rèn)為該用電數(shù)據(jù)不屬于該模式,即可判定為異常,若小于該閾值,則可判定該天正常。
4)異常結(jié)果輸出。
2.2.2 異常識別結(jié)果分析
用戶A為大工業(yè)用戶,存在一種用電模式,用電模式為雙峰型,表示該用戶過去長期都是這種雙峰型用電模式,當(dāng)前負(fù)荷軌跡與用戶歷史用電模型進(jìn)行判別,兩條曲線趨勢和吻合度都很相似,判別結(jié)果為正常。
圖3 正確用電模式
用戶用電模式聚類結(jié)果有四類,當(dāng)前測試數(shù)據(jù)與歷史用電模式進(jìn)行識別,最終判定出結(jié)果為異常。
圖4 異常用電模式
用戶B,用電模式聚類結(jié)果有四類,當(dāng)前測試數(shù)據(jù)與歷史用電模式進(jìn)行識別,再結(jié)合用戶電量數(shù)據(jù)、用戶日瞬時量數(shù)據(jù)進(jìn)行判斷,用戶從2017年4月開始功率因數(shù)總開始無序波動且功率因數(shù)一天中超過多次低于0.5,再結(jié)合用戶日電量、月電量數(shù)據(jù)分析,用戶電量從4月開始下降,因此最終判定出結(jié)果為異常。
實踐表明,綜合運用以上建立的模型分析法,基本能夠做到及時、準(zhǔn)確地將符合數(shù)據(jù)特征的竊電行為消滅在萌芽狀態(tài),無需另外投入,即可大大減少因竊電減少的經(jīng)濟損失。