韓躍峻, 朱一驊, 陸微, 應棟子, 辛潔晴
(1.國網(wǎng)上海市北供電公司,上海 200072;2.上海交通大學,上海 200240)
我國已進入快速老齡化時期,為老齡獨居家庭(elderly living-alone families,ELAF)提供特殊供電服務是電業(yè)履行社會職能的重要窗口。傳統(tǒng)上,ELAF由社區(qū)訪查獲知,工作量大、周期長。電力部門從街道索取信息也很困難。因此,通過用電數(shù)據(jù)分析辨識ELAF對電業(yè)非常重要。這也有助于促進電業(yè)與社區(qū)合作,幫助社區(qū)縮小訪查范圍,提高信息更新的及時性,促進泛在物聯(lián)網(wǎng)環(huán)境下電力數(shù)據(jù)的保值增值。
目前,用電數(shù)據(jù)分析主要用于用電行為模式本身的識別[1-3]。文獻[4]通過日負荷曲線聚類劃分用電模式。文獻[5]從作息規(guī)律、負荷特性和消費習慣等維度建立特征標簽體系,運用改進K-mears構建用戶簇別,形成用戶綜合畫像。文獻[6]根據(jù)日用電特性對空置房、老人家庭、上班族家庭、老人+上班族家庭和商業(yè)用戶提出判別方法。上述研究未由用電特征進一步分析家庭人員構成和年齡結構方面的人口特征。
本文在分析ELAF用電特征的基礎上,提出基于用電數(shù)據(jù)分析的ELAF辨識方法。通過選取支持向量機分類器,并以約登指數(shù)最大化為目標調(diào)節(jié)樣本權重,解決ELAF作為小樣本的識別問題。
采用K-means法對上海某大型社區(qū)是/否80歲以上老齡獨居兩類家庭分別實施用電特征聚類,以輪廓系數(shù)確定最佳聚類數(shù),占比最大的簇為典型組。
(1) 日作息習慣:對家庭春秋季日負荷平均化和標幺化后聚類。兩類家庭典型組聚類中心的標幺化日負荷曲線如圖1所示。可見,ELAF更顯著地集中在平時段(6∶00—22∶00),睡覺比非ELAF提前1~2 h。
(2) 周用電分布:分夏、冬和春秋三季計算日用電占周用電的比重用于聚類。兩類家庭典型組聚類中心對應的周用電分布如圖2所示。可見ELAF工作日和周末的用電量差別不大,而非ELAF周末用電較高。
(3) 季節(jié)間用電變化:取三季日均用電量聚類,兩類家庭典型組聚類中心對應的日均用電量如圖3所示??梢奅LAF夏-春秋、冬-春秋日均用電量差異較小,這與老年人不喜歡或不舍得使用電制冷或采暖設備有關。
圖1 老齡獨居/非老齡獨居家庭日用電曲線
圖2 老齡獨居/非老齡獨居家庭周用電分布
圖3 老齡獨居/非老齡獨居家庭日均用電量
(4) 年間用電相似性:對家庭近兩年日用電量的皮爾森相關系數(shù)聚類。兩類家庭典型組聚類中心相似系數(shù)為0.87與0.88。這說明,按同樣習慣穩(wěn)定用電是家庭用電典型情況,但ELAF中這類家庭的比重更高。
(5) 用電水平:從圖3可見,ELAF的日用電量明顯低于同期非老齡獨居家庭。
據(jù)上節(jié)分析提取特征指標。鑒于HPLC系統(tǒng)還未普及,僅取可由平谷電量評估的指標。
(1) 平時段用電比x1:為近一年(第y年)每日平時段用電量占日用電量比的均值。即:
(1)
式中:Ey,i(t)為目標家庭第y年第i天t時用電量;TP和TG為平、谷時段。老年人多早睡,x1較接近1。
(2) 周用電量穩(wěn)定性x2:用1與周內(nèi)日用電量標準差之差值考察周內(nèi)日用電穩(wěn)定性;x2定義為近一年每周日用電穩(wěn)定性的均值。即:
(2)
式中:nw為一年周數(shù);ry,w,i為第w周第i天用電量占當周用電的比重。ELAF日間用電較穩(wěn)定,x2接近于1。
(3) 夏-春秋日用電量增長率x3:為夏季相對于春秋季日均用電量的增長率,即:
(3)
(4) 冬-春秋日用電量增長率x4:為冬季相對于春秋季日均用電量的增長率,即:
(4)
(5) 年間用電相似性x5:用皮爾遜相關系數(shù)定義年間用電相似性為:
(5)
(6)
ELAF通常只使用基本生活家電,x6偏小。
選用適于小樣本的支持向量機(support vector machine, SVM)[7]構建非線性二分類器,如圖4所示。
圖4 老齡獨居家庭辨識流程
(1) 數(shù)據(jù)清洗:當日凍結電量小于前日值時,視作異常值篩除;對原始缺失值和篩除異常值后出現(xiàn)的缺失進行修補。若前/后周同類型日數(shù)據(jù)未缺失,則縱向修補,第w周第d日凍結電量
Aw,d=Aw,d-1+(Aw-1,d-Aw-1,d-1)
(7)
否則橫向修補,若缺失日為第d至第d+N日,公式為
(8)
數(shù)據(jù)清洗后將相鄰日凍結值相減得到日用電量。
(2) 用電特征指標計算:按第1節(jié)方法為每個樣本家庭計算用電特征指標x1~x6。
(3) 樣本標簽化:將特征數(shù)據(jù)歸一化,并為每個用戶添加是否為ELAF的標簽。
(4) SVM分類器訓練:用有標簽的歸一化樣本訓練SVM模型,方法請見文獻[7]。
(5) 分類效果評價:分類器訓練中ELAF作為樣本量少的標簽易被忽略。為此,調(diào)節(jié)SVM算法中的class_weight參數(shù),為樣本量少的標簽設置較大權重,并計算召回率和假正率,以兩者差值(約登指數(shù))最大的訓練結果為最佳分類器。
(6) 測試集分類:對測試集家庭實施(1)和(2)步驟,將最佳分類器用于測試集家庭是否為ELAF的辨識。
以上海某老齡化服務示范區(qū)為例,共5 572戶,80歲以上獨居173戶,隨機分成訓練組和檢驗組。
據(jù)第3節(jié)方法訓練SVM分類器。將學習模型中的kernel參數(shù)設置為rbf,即采用可解決非線性問題的高斯徑向基核函數(shù)。訓練時通過class_weight參數(shù)調(diào)節(jié)樣本權重,作出受試者工作特征曲線(receiver operating characteristic curve,ROC),如圖5所示。約登指數(shù)最大的最佳權重為32(×標注點),此時獲得最佳分類器。
圖5 ROC曲線
最佳分類器將訓練組分為是、否老齡獨居兩組,特征指標均值如表1所示。從表1可見:ELAF的平時段用電比重比非ELAF高8個百分點,日均用電量相對水平低,夏、冬季相對春秋季用電增長率比一般家庭低,周用電量穩(wěn)定性較高,年間用電相似性高。
將所得最佳分類器用于檢驗組分析,進而計算四項分類性能指標,如表2所示。
表1 ELAF和非ELAF家庭的特征均值
表2 分類性能評價
(1) 準確率達94.4%,召回率達90.7%,說明所提方法可較全面地找出ELAF。少量未被找出是因存在少量ELAF的用電特性不典型。
(2) 假正率高和精確率較低,主要因為所研小區(qū)老年家庭頗多,而街道只能提供80歲以上ELAF信息,對60~79歲居民未核實是否獨居。為此算例檢驗只能將非80歲以上家庭都歸為非ELAF,而這部分家庭中不少是同樣有ELAF用電特征的60~79歲老齡獨居家庭。這表明,基于用電數(shù)據(jù)分析ELAF具有現(xiàn)實意義,有助于社區(qū)縮小訪查范圍,定位各年齡段的ELAF。
本文在提取老齡獨居家庭用電特征指標的基礎上,以SVM為分類器,并通過約登指數(shù)最大為目標的樣本權重調(diào)節(jié)解決小樣本分類問題。算例表明所提方法可獲得較高的準確率和召回率,有助于電業(yè)實施面向獨居老人的特殊供電服務,也有助于縮小社區(qū)查訪范圍,提升此類家庭信息搜集的覆蓋度和及時性。