楊 悅,吳 量,葉則韶,莊大海
(1.國網(wǎng)福建省電力有限公司福州供電公司,福建 福州 350009;2.國網(wǎng)信通億力科技有限責(zé)任公司,福建 福州 350003)
購售電同期抄表結(jié)算,是指將所有用電客戶與電廠的購售電交易按照自然月進(jìn)行抄表結(jié)算,抄表時(shí)間統(tǒng)一定在月末24點(diǎn)。為順利推進(jìn)福建省購售電同期抄表結(jié)算工作,國網(wǎng)福建省電力有限公司開展了用戶電能信息采集、數(shù)據(jù)處理和分析以及售電量預(yù)測數(shù)據(jù)建模等項(xiàng)目。通常情況下,每天只有不到1%的用戶會(huì)出現(xiàn)用電數(shù)據(jù)采集異常的情況。因此,本文將從微觀層面針對初始數(shù)據(jù)的采集與處理展開分析和探討。
福建省對用戶電能信息數(shù)據(jù)采集的內(nèi)容主要包含用戶電能示值、最大需量和電能量的曲線數(shù)據(jù)以及電能表各相電壓、電流、功率等。通過對用戶用電信息進(jìn)行分析,可更好地了解用戶用電需求,為客戶提供更加優(yōu)質(zhì)的服務(wù),也能為供電企業(yè)購電決策提供有力的支撐。
目前,福建省用戶用電信息數(shù)據(jù)的采集主要通過系統(tǒng)遠(yuǎn)程自動(dòng)抄表的方式來實(shí)現(xiàn)[1]。首先,將經(jīng)過電能表采集后的用戶用電數(shù)據(jù)儲(chǔ)存在表內(nèi);其次,通過載波模塊將數(shù)據(jù)周期性地傳輸至集中器(或?qū)W兘K端);最后,經(jīng)過遠(yuǎn)程模塊傳輸?shù)讲杉髡?,分析人員可以通過用電信息采集系統(tǒng)導(dǎo)出用戶的用電數(shù)據(jù)。在此過程中,不論是現(xiàn)場設(shè)備故障,還是地理位置偏遠(yuǎn)或極端氣候?qū)е逻h(yuǎn)程模塊接收到的4G信號發(fā)生衰減,均可能造成遠(yuǎn)程自動(dòng)抄表失敗。因此,為提高用戶電量計(jì)算的準(zhǔn)確性,每月25日至月末期間,對因現(xiàn)場缺陷導(dǎo)致采集失敗的用戶(特別是高壓用戶及發(fā)電企業(yè)客戶),應(yīng)立即展開故障消缺,并在消缺現(xiàn)場利用移動(dòng)作業(yè)終端進(jìn)行數(shù)據(jù)補(bǔ)抄,再通過運(yùn)維閉環(huán)模塊將數(shù)據(jù)回傳至采集系統(tǒng)。若確有客觀因素導(dǎo)致缺陷無法及時(shí)消除,應(yīng)確保月末五日內(nèi)(發(fā)電廠企業(yè)客戶應(yīng)確保月末三日內(nèi))至少準(zhǔn)確采集一天的用電數(shù)據(jù),盡可能縮小電量估算的時(shí)間間隔,從而降低估算偏差。但是,即便使用主站召測、人工補(bǔ)抄等方式對遠(yuǎn)程自動(dòng)抄表失敗的用戶進(jìn)行統(tǒng)計(jì),也仍然存在售電量統(tǒng)計(jì)的時(shí)間維度(頻率、時(shí)間點(diǎn)等)與遠(yuǎn)程自動(dòng)抄表不一致的問題[2]。因此,本文將對原始數(shù)據(jù)進(jìn)行分析和篩選,并對缺失值進(jìn)行擬合,以進(jìn)一步提高估算結(jié)果的可靠性。
在日常生活中,電能信息采集系統(tǒng)可能由于信號不穩(wěn)定、停電、終端故障、表計(jì)故障、模塊故障以及參數(shù)設(shè)置錯(cuò)誤等各類原因無法實(shí)現(xiàn)自動(dòng)遠(yuǎn)程抄表[3]。
在該種情況下,用戶用電量的數(shù)據(jù)為空值。在對數(shù)據(jù)進(jìn)行分析前,需剔除全部缺失值,待篩選出有效數(shù)據(jù)后,再對缺失值進(jìn)行擬合。
通過電能信息采集系統(tǒng)收集到的數(shù)據(jù),有可能因?yàn)闄n案錯(cuò)誤、接線錯(cuò)誤、設(shè)備故障以及設(shè)備更換等原因產(chǎn)生無效值[4]。因此,在對缺失值進(jìn)行擬合前,要先對采集到的數(shù)據(jù)進(jìn)行分析,剔除無效值,以免影響擬合結(jié)果。例如,采集系統(tǒng)顯示某大工業(yè)用戶電能示值由9月1日的2 000 kWh減少到9月30日的120 kWh時(shí),應(yīng)首先確認(rèn)在此期間該用戶是否更換過電表,若該用戶確有換表流程,則用電量=舊表底度-2 000 kWh+120 kWh;若在此期間該用戶不曾換表,并且現(xiàn)場示值與采集系統(tǒng)一致,應(yīng)結(jié)合現(xiàn)場接線情況分析表計(jì)倒走原因,并計(jì)算實(shí)際用電量;若經(jīng)核實(shí)確認(rèn)數(shù)據(jù)有誤,但無法判斷數(shù)據(jù)是否準(zhǔn)確,應(yīng)將該數(shù)值進(jìn)行剔除,參照缺失值處理。
此外,由于單一用戶在剔除季節(jié)性、工作時(shí)段等規(guī)律性因素后,呈現(xiàn)的用電量應(yīng)保持相對平穩(wěn)。因此,若用戶的電能量曲線上出現(xiàn)疑似離群值的數(shù)據(jù),可以使用格拉布斯準(zhǔn)則(置信區(qū)間為95%)對用戶日常用電數(shù)據(jù)進(jìn)行判別。在計(jì)算標(biāo)準(zhǔn)偏差時(shí),若樣本數(shù)量較多,可使用貝塞爾公式法;若樣本數(shù)量較少,應(yīng)使用極差法進(jìn)行計(jì)算。
實(shí)際運(yùn)用過程中,其他典型的無效值包括:連續(xù)恒定的電能示值、連續(xù)恒定的用電量、24點(diǎn)負(fù)荷曲線上缺失超過2個(gè)點(diǎn)的曲線數(shù)據(jù)、計(jì)劃停電時(shí)常超過12 h的負(fù)荷曲線數(shù)據(jù)等。剔除無效數(shù)據(jù)所產(chǎn)生的空值應(yīng)參照缺失值處理,經(jīng)過擬合后,用擬合數(shù)據(jù)來替代原始數(shù)據(jù)。
為提高數(shù)據(jù)模型的可靠性,采取刪除缺失值和異常值的方法進(jìn)行初步過濾,此過程在提高數(shù)據(jù)準(zhǔn)確度的同時(shí),會(huì)使得樣本量發(fā)生減少。經(jīng)過對福州地區(qū)164個(gè)小樣本用戶(樣本量<30)的數(shù)據(jù)分析,可認(rèn)為簡單地刪除缺失值會(huì)導(dǎo)致標(biāo)準(zhǔn)偏差較大,嚴(yán)重影響了模型的可靠性。因此,決定對缺失值和異常值進(jìn)行擬合處理。
首先,簡單地選用樣本的均值來替換缺失值和異常值。在用電量穩(wěn)定、空值較少且樣本量大的數(shù)據(jù)中,該方法可以有效地測算年度及月度售電量,但對于用電數(shù)據(jù)波動(dòng)較大、季節(jié)性明顯或樣本數(shù)據(jù)較少的用戶而言,該方法并不適用。因此,為進(jìn)一步優(yōu)化模型,使用條件平均值填充法,即使用相似樣本的均值或同類特征的均值來填補(bǔ)缺失值。但是,簡單的選用行業(yè)平均值無法體現(xiàn)該用戶的個(gè)體特征,因此還需要根據(jù)該用戶以往的用電數(shù)據(jù)與行業(yè)平均值的對比情況,對數(shù)值進(jìn)行調(diào)整。
以電壓等級為10 kV的某酒店用戶A為例,該用戶在2018年10月29日24時(shí)用電數(shù)據(jù)采集失敗,因此可參照同電壓等級且業(yè)務(wù)類型、評級均相似的酒店用戶B,C,D的日平均電量對該用戶進(jìn)行擬合。
該方法對大多數(shù)高壓用戶的用電量測算較為準(zhǔn)確,然而對于部分用電量波動(dòng)較大或處于壟斷行業(yè)的高壓用戶,由于個(gè)體特異性較強(qiáng),所以無法使用該方法進(jìn)行計(jì)算。因此,嘗試使用自回歸、平均移動(dòng)、隨機(jī)游走等時(shí)間序列模型[5],結(jié)合最小二乘法等理論方法對用戶個(gè)體用電量進(jìn)行估算。
在對福州市1 306個(gè)樣本進(jìn)行擬合后發(fā)現(xiàn),通過自回歸模型和移動(dòng)平均法獲得的模型可以得出缺失數(shù)據(jù)前3日內(nèi)的數(shù)據(jù)對估算缺失電量值有著顯著影響的結(jié)論。同時(shí),用戶用電量普遍隨季節(jié)、工作日等變量周期性波動(dòng),單純地采用3日數(shù)據(jù)構(gòu)建自回歸模型和平均移動(dòng)模型,不足以體現(xiàn)用戶的用電特征。因此,可通過采集失敗前三日的數(shù)據(jù)作為變量,結(jié)合季節(jié)性變量及是否為工作日的邏輯變量,對缺失值進(jìn)行擬合。針對周期性變量,分別選用每季度、每月、每旬作為自變量對電量數(shù)據(jù)進(jìn)行建模??傮w而言月度、季度變化趨勢較為明顯,而每月上、中、下旬變化差異不大。值得注意的是,由于月份變化涵蓋了季節(jié)變化的波動(dòng)趨勢,因此大多數(shù)行業(yè)的用電量隨月份變化產(chǎn)生的差異比隨季度變化產(chǎn)生的差異更為顯著。但部分行業(yè)如學(xué)校、游樂場等,由于寒暑假等因素,季節(jié)性趨勢更加明顯。因此,應(yīng)根據(jù)用戶個(gè)體特征進(jìn)行具體分析。
由于樣本總量較大,樣本中每個(gè)個(gè)體用電習(xí)慣迥異,無法通過與同類用戶平均值的對比進(jìn)行估算,因此可以參照高壓用戶自回歸的方法進(jìn)行測算。在數(shù)據(jù)樣本量小的情況下,可以采用數(shù)據(jù)缺失日期(T1)之前6天內(nèi)的最后一次抄表成功示數(shù)X(日期為T0)作為測算起始值,并使用缺失日期之前3天的平均電量進(jìn)行擬合,則擬合示數(shù)=X+平均電量×(T1-T0)。若近一個(gè)月內(nèi)存在倒走、飛走異?;蛉杂挟惓9挝刺幚淼那闆r,則使用上一次結(jié)算電量的日均電量作為擬合值。為確保數(shù)據(jù)質(zhì)量,近五日內(nèi)新裝的電表一般不進(jìn)行缺失數(shù)據(jù)的擬合。
為確?;倦娰M(fèi)計(jì)算盡可能精確,保障用戶利益,采用最大需量進(jìn)行結(jié)算的大工業(yè)用戶,如有數(shù)據(jù)缺失,一般取當(dāng)月最后一次采集成功的最大需量值進(jìn)行補(bǔ)全。
在得到擬合數(shù)值后,要使用格拉布斯準(zhǔn)則,并根據(jù)營銷業(yè)務(wù)應(yīng)用系統(tǒng)中前一月份的結(jié)算電量,以及去年同期的結(jié)算電量對當(dāng)月電量進(jìn)行校驗(yàn)。若判斷該月電量為離群值,應(yīng)分析具體原因。若由擬合值造成,說明擬合值可能有誤,可直接使用缺失值前三天的平均值對原擬合結(jié)果進(jìn)行替換。若擬合出的當(dāng)月總電量及日電量均無異常,則可以將該擬合值納入樣本對該用戶的用電行為進(jìn)行預(yù)測。
基于時(shí)間序列模型、最小二乘法等理論知識以及結(jié)合計(jì)量業(yè)務(wù)實(shí)際經(jīng)驗(yàn),本文對售電量異常值剔除、缺失值擬合等數(shù)據(jù)清理過程展開了分析和研究,為更加精確地核算用戶用電量、可靠地預(yù)測用戶用電行為以及精準(zhǔn)地做出經(jīng)營決策提供了可靠的數(shù)據(jù)支撐。