燕躍豪 尚繼武 鮑 薇 王 瑩 師 楊
(國網(wǎng)河南省電力公司鄭州供電公司)
隨著大數(shù)據(jù)技術(shù)的迅猛發(fā)展,電力企業(yè)積累了大量用戶數(shù)據(jù),且數(shù)量呈指數(shù)型增長。目前,電力企業(yè)對(duì)用戶數(shù)據(jù)分析過程中存在不足:數(shù)據(jù)分析手段有待提升,人為主觀因素影響較大,對(duì)用戶行為產(chǎn)生的內(nèi)在原因分析較淺,無法快速分析大量用戶投訴的工單數(shù)據(jù)。利用大數(shù)據(jù)技術(shù)來分析用戶的用電行為,生成客戶畫像,可以指導(dǎo)企業(yè)決策,同時(shí)提高用戶滿意度?;诖髷?shù)據(jù)技術(shù)生成客戶畫像,可以全面、準(zhǔn)確地量化處理電力用戶數(shù)據(jù),將用戶的興趣、特征、行為等多方面具象化數(shù)據(jù)分類描述,并在此基礎(chǔ)上預(yù)測(cè)用戶短期內(nèi)的用電行為。
本研究對(duì)電力客戶服務(wù)呼叫中心、營銷系統(tǒng)等其他方式獲得的用戶數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,將復(fù)雜、具象的信息加工量化,形成簡單的基本行為標(biāo)簽,同時(shí)經(jīng)過K-means聚類分析、分類分析、歸類分析和回歸分析挖掘出數(shù)據(jù)中的復(fù)雜標(biāo)簽,進(jìn)而建立電力用戶標(biāo)簽庫,再利用標(biāo)簽庫的標(biāo)簽生成客戶畫像,將用戶信息結(jié)構(gòu)化集中展示幫助電力企業(yè)直觀、系統(tǒng)地認(rèn)識(shí)客戶。畫像的種類包括個(gè)體畫像和群體畫像,這些畫像結(jié)果將在精益管理、提升服務(wù)、營銷智能等方面輔助決策,指導(dǎo)生產(chǎn)實(shí)踐。
本文主要從以下三個(gè)渠道采集數(shù)據(jù)來構(gòu)建模型:
1)電力客戶服務(wù)呼叫中心,該中心存儲(chǔ)了用戶對(duì)電力公司的所有通話記錄,包含用戶的戶號(hào)、住址、投訴內(nèi)容等個(gè)人信息數(shù)據(jù)。
2)由營銷系統(tǒng)提供的用戶用電信息檔案。
3)用電信息采集系統(tǒng)的數(shù)據(jù),主要包括:電表每日抄表數(shù)據(jù)、負(fù)荷數(shù)據(jù)變化及配變數(shù)據(jù)等。
數(shù)據(jù)核對(duì)就是對(duì)不同的數(shù)據(jù)屬性進(jìn)行統(tǒng)一的規(guī)劃,將數(shù)據(jù)進(jìn)行分詞,選取有效且合理的關(guān)聯(lián)字段,刪除異常、無意義字段。為下一步的生成標(biāo)簽創(chuàng)造條件,主要從如圖1所示四個(gè)方面進(jìn)行核對(duì)。
圖1 數(shù)據(jù)核對(duì)示意圖
本文數(shù)據(jù)清洗主要針對(duì)數(shù)據(jù)異常值清洗,采用箱線圖法對(duì)數(shù)據(jù)的異常值進(jìn)行處理,如圖2所示。
圖2 箱線圖法原理示意
其中,Z為數(shù)據(jù)的中位數(shù),A1為上四位數(shù),A2為下四位數(shù),B=(A1-A2)。在(A2-1.5B)至A2和A1至(1.5B+A1)的數(shù)據(jù)為溫和異常值,在上下邊緣之外的數(shù)據(jù)為極端異常值。
電力用戶標(biāo)簽主要根據(jù)電力用戶的基礎(chǔ)信息和行為屬性去構(gòu)建,基礎(chǔ)信息一般指用戶的性別、年齡、城鄉(xiāng)戶口、住址和電壓等級(jí)和用電規(guī)模等信息,行為屬性即隨用戶行為不斷變化的時(shí)序信息。電力企業(yè)要想利用電力用戶數(shù)據(jù)輔助決策,就要識(shí)別用戶發(fā)生的行為、描述行為的時(shí)序特性,并且挖掘出各個(gè)行為之間的相關(guān)性,據(jù)此實(shí)現(xiàn)用戶分類和行為預(yù)測(cè)。本文根據(jù)標(biāo)簽的屬性將用戶標(biāo)簽主要分為:基礎(chǔ)屬性標(biāo)簽、行為標(biāo)簽、行為預(yù)測(cè)標(biāo)簽。如圖3所示。
圖3 客戶畫像技術(shù)架構(gòu)
基本屬性標(biāo)簽一般包括用戶的性別、年齡、行業(yè)屬性、城鄉(xiāng)戶口、住址、電壓等級(jí)和用電規(guī)模等基礎(chǔ)信息,可利用處理后的數(shù)據(jù)直接分類生成。
生成行為標(biāo)簽、行為描述標(biāo)簽和行為預(yù)測(cè)標(biāo)簽這些復(fù)雜的標(biāo)簽時(shí),本文采用了改進(jìn)的K-means聚類算法。本文結(jié)合電力用戶行為標(biāo)簽的特性對(duì)K-means算法進(jìn)行一定程度的改進(jìn),以提高算法在電力用戶行為聚類中的效果。本文采用聚類有效性指標(biāo)控制K值的選取,通過建立聚類有效性指標(biāo),評(píng)價(jià)聚類質(zhì)量并確定最佳聚類數(shù),思想簡單,受樣本分布的影響不大,且不需要人為設(shè)定閾值。K-means聚類分析流程圖如圖4所示。
圖4 K-means聚類分析流程圖
行為標(biāo)簽生成時(shí),需離散化處理行為發(fā)生的時(shí)間特征,將時(shí)間特征分層,進(jìn)而對(duì)行為的頻次、頻率及行為產(chǎn)生的時(shí)間間隔進(jìn)行聚類。
某用戶i在某段時(shí)間內(nèi)用戶行為標(biāo)簽A發(fā)生的頻率P計(jì)算公式為:
式中,sum(Aj,i)E-S為用戶i在該時(shí)間段內(nèi)發(fā)生標(biāo)簽A行為的次數(shù)總和,E為終止時(shí)間,S為起始時(shí)間。
行為發(fā)生的時(shí)間間隔用d表示,則行為產(chǎn)生的平均時(shí)間間隔為:
偏離度計(jì)算公式如下:
電力用戶畫像的行為預(yù)測(cè)標(biāo)簽要利用已生成的行為標(biāo)簽對(duì)用戶行為進(jìn)行短期預(yù)測(cè)。梯度提升樹算法可以嵌入各種不同的分類算法,通過不斷迭代改進(jìn)上一次分類結(jié)果來提高分類準(zhǔn)確度,該方法預(yù)測(cè)用戶行為具有速度快、結(jié)果準(zhǔn)確的優(yōu)點(diǎn)。行為預(yù)測(cè)主要步驟為:
1)輸入:T={(x1,y1),(x2,y2),…,(xN,yN)},xi,yi∈R。T為訓(xùn)練樣本數(shù)據(jù)集,x為自變量,y為因變量,N為數(shù)據(jù)集大小。
2)初始化:
3)對(duì)m=1,2,3,…,M,M為迭代次數(shù)。
a)對(duì)i=1,2,3,…,N,計(jì)算:
式中,rim為梯度方向。
b)對(duì)j=1,2,3,…,Jm,計(jì)算:
c)更新:
4)得到回歸樹:
據(jù)此生成用戶行為預(yù)測(cè)標(biāo)簽。經(jīng)過以上數(shù)據(jù)聚類分析、分類分析后,將客戶行為預(yù)測(cè)標(biāo)簽納入標(biāo)簽庫,用來生成客戶畫象。
對(duì)某個(gè)具體用戶的數(shù)據(jù)分析后,生成該用戶的個(gè)體畫像,以標(biāo)簽化的形式來展現(xiàn)該用戶的基礎(chǔ)屬性、行為特征。電力企業(yè)可以根據(jù)該畫像快速了解用戶行為偏好,適用于對(duì)個(gè)人進(jìn)行電力業(yè)務(wù)的個(gè)性化推薦。
基于畫像標(biāo)簽,可利用矩陣分析法實(shí)現(xiàn)客戶畫像的細(xì)分,篩選一個(gè)或若干標(biāo)簽,提取出具有某一共性的用戶群體,形成某一類群體畫像。據(jù)此,電力企業(yè)可以直觀地觀察出一類客戶特征,并針對(duì)這一群體提供差異化服務(wù)、針對(duì)性營銷等輔助決策,為企業(yè)運(yùn)營提供幫助,提升電力企業(yè)服務(wù)質(zhì)量與供電質(zhì)量,同時(shí)提高客戶滿意度與用電感知。
本文利用95598呼叫中心、營銷部門等電力客戶的用戶數(shù)據(jù),基于K-means聚類建立了客戶標(biāo)簽數(shù)據(jù)庫,并利用這些標(biāo)簽生成個(gè)體畫像及各類群體畫像。根據(jù)標(biāo)簽對(duì)電力用戶進(jìn)行分類和行為預(yù)測(cè),制定精細(xì)化營銷與服務(wù)方案,利用大數(shù)據(jù)促進(jìn)電力企業(yè)的發(fā)展。