耿俊成,張小斐,孫玉寶,吳 博,周 強(qiáng)
(1.國網(wǎng)河南省電力公司電力科學(xué)研究院,河南 鄭州 450052; 2.南京信息工程大學(xué)信息與控制學(xué)院,江蘇 南京 210044)
隨著智能電網(wǎng)建設(shè)的深入發(fā)展,電力公司在生產(chǎn)經(jīng)營活動中,積累了大量的業(yè)務(wù)數(shù)據(jù)。借助數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)等技術(shù),從大量的業(yè)務(wù)數(shù)據(jù)中通過統(tǒng)計(jì)學(xué)習(xí)、回歸、分類等算法,發(fā)現(xiàn)數(shù)據(jù)中的隱藏信息,可提升數(shù)據(jù)價值,實(shí)現(xiàn)輔助支撐管理決策目的,有助于電力公司實(shí)現(xiàn)安全、可靠、平穩(wěn)、便捷的供電服務(wù)核心宗旨[1-2]。
盡管供電公司的服務(wù)水平取得了長足的進(jìn)步,客戶對用電的需求也在不斷提升,部分停電敏感客戶對供電的可靠性提出了更為嚴(yán)格的要求,停電事件會給部分客戶帶來一定的經(jīng)濟(jì)損失,給供電公司帶來負(fù)面影響。停電敏感客戶是指在供電服務(wù)過程中通過多種渠道或多種形式對停電事件關(guān)注度較高的客戶[3]。作為客戶和電力公司交互的重要媒介,“95598服務(wù)熱線”的呼入量迅速增長??蛻舻脑V求主要集中在“停電”、“報修”等方面,從收集的相關(guān)業(yè)務(wù)數(shù)據(jù)開展客戶停電敏感性研究,通過分析不同客戶的行為特征,反映其對停電的敏感程度的差別,并應(yīng)用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)對停電敏感度客戶的咨詢需求進(jìn)行預(yù)測,既可以及時做好用電服務(wù),提升客戶滿意度,也有助于減少95598咨詢量以及客戶投訴量。
客戶停電敏感性研究以“客戶是否就停電問題咨詢95598”為目標(biāo)變量構(gòu)建預(yù)測模型,科學(xué)評估客戶的停電敏感度。在數(shù)據(jù)挖掘及其機(jī)器學(xué)習(xí)領(lǐng)域中,用來開展預(yù)測的模型主要有邏輯回歸[4-5]、決策樹[6-7]、神經(jīng)網(wǎng)絡(luò)[8-9]、最近鄰分類器[10]等。經(jīng)典的C4.5、CART等決策樹模型通過樹結(jié)構(gòu)來建立樣本屬性和樣本類別之間的一種映射,從根節(jié)點(diǎn)遍歷至某個葉節(jié)點(diǎn)形成分類預(yù)測。邏輯回歸模型通過構(gòu)建自變量的線性模型對目標(biāo)變量(二值類型)進(jìn)行二分類預(yù)測,應(yīng)用最大似然方法學(xué)習(xí)模型參數(shù),具有計(jì)算速度快、對數(shù)據(jù)質(zhì)量要求不高等特點(diǎn),目前在大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等領(lǐng)域得到了廣泛應(yīng)用。然而當(dāng)模型中用于預(yù)測的自變量個數(shù)過多時,邏輯回歸模型容易存在過擬合的缺點(diǎn)。引入模型參數(shù)的正則化約束(如l2范數(shù)與l1范數(shù))是解決該問題的有效方法。當(dāng)選用l1范數(shù)作為正則約束時,即為稀疏邏輯回歸模型[11-12],可從眾多因素中選擇較少重要的因素變量進(jìn)行預(yù)測。然而后續(xù)研究表明,l1范數(shù)存在“過度收縮”問題[13-14],容易將過多的預(yù)測因子收縮為零,從多個強(qiáng)相關(guān)的預(yù)測因子中只選擇單一因子進(jìn)行預(yù)測,舍棄了其余的重要因子,同時在單位球的有界區(qū)域里l1范數(shù)并不是l0范數(shù)的最緊致凸化。最近,文獻(xiàn)[13]中提出了k-support范數(shù),指出k-support范數(shù)是在歐氏單位球這一有界區(qū)域內(nèi)對l0范數(shù)最為緊致的凸化,因而能夠形成更為有效的稀疏性正則作用,同時k-support范數(shù)中的有界約束也有利于緩解l1范數(shù)的“過度收縮”問題。
為了克服l1稀疏回歸存在的上述問題,本文首先構(gòu)建k-support范數(shù)正則的邏輯回歸模型,并將其應(yīng)用于客戶停電敏感問題。如圖1所示,首先收集客戶停電敏感相關(guān)的可能因素,形成樣本數(shù)據(jù)集,進(jìn)一步基于停電敏感預(yù)測的k-support稀疏邏輯回歸模型,自適應(yīng)選擇回歸模型中的變量因素,并通過優(yōu)勢分析法統(tǒng)計(jì)出對模型預(yù)測重要的變量因素。在某省級電網(wǎng)公司近百萬客戶數(shù)據(jù)上對預(yù)測模型進(jìn)行了校驗(yàn)與評估,有助于電力企業(yè)準(zhǔn)確辨識停電敏感度高的客戶,降低客戶因停電差錯而產(chǎn)生投訴的概率,提升客戶整體滿意度。
圖1 本文算法框圖
本文以某省級電網(wǎng)公司約98.8萬客戶在2015年9月~2016年3月期間的記錄數(shù)據(jù)為研究對象,綜合客戶基本信息、用電信息、繳費(fèi)信息、停電事件等多個維度選取可能與停電敏感度相關(guān)的客戶信息字段作為自變量因素,形成樣本數(shù)據(jù)集Ω,繼而構(gòu)建基于k-support稀疏邏輯回歸的客戶停電敏感度預(yù)測模型,并通過優(yōu)勢分析法對回歸模型中各自變量的相對重要性進(jìn)行分析。
y=β0+β1x1+…+βdxd
(1)
其中,β=[β0,β1,…,βd]∈Rd+1為需要求解的回歸系數(shù)。當(dāng)模型的因素變量過多時,通過最大似然方法學(xué)習(xí)出的模型往往存在過擬合現(xiàn)象。通過引入正則化項(xiàng),減少權(quán)重值較小的參數(shù),可有效防止過擬合。為此,本文對模型回歸系數(shù)β引入稀疏性正則約束,基于給定的訓(xùn)練數(shù)據(jù)集,模型參數(shù)的最大后驗(yàn)概率估計(jì)等價于如下的最小目標(biāo)函數(shù):
(2)
其中第1項(xiàng)為似然項(xiàng),期望模型預(yù)測的結(jié)果與訓(xùn)練樣本的真實(shí)類別相一致,λ為正則化參數(shù),權(quán)衡似然估計(jì)與正則約束的權(quán)重。模型參數(shù)β∈Rd+1的k-support范數(shù)定義為:
(3)
基于求得的模型參數(shù)β(具體優(yōu)化算法請參見1.2節(jié)),輸入用戶的因素變量集x,可判斷為停電敏感客戶的概率為:
(4)
(5)
當(dāng)P大于給定的閾值ε時,即可判別為停電敏感客戶。
由于模型(2)中存在非光滑的k-support范數(shù),經(jīng)典的梯度下降、牛頓迭代等算法無法直接求解,本文建立基于前向后向算子分裂的迭代優(yōu)化算法[15],將目標(biāo)函數(shù)(2)中的似然項(xiàng)和k-support范數(shù)正則項(xiàng)分解在2個子步中分別處理,第1個子步為關(guān)于似然項(xiàng)的梯度下降子步,第2個子步為關(guān)于k-support范數(shù)的鄰近算子(proximal operator),具體定義為:
(6)
(7)
該子問題存在顯式解,具體請參見文獻(xiàn)[13,16]。不斷迭代這2個子步直至算法收斂,具體算法請參見文獻(xiàn)[14]。
圖2 迭代誤差衰減曲線
獲得回歸模型后,可進(jìn)一步分析各因素變量對于目標(biāo)變量影響的重要性。衡量變量重要性一般有卡方值、P值、標(biāo)準(zhǔn)化回歸系數(shù)、偏相關(guān)系數(shù)、優(yōu)勢權(quán)重等[17-20]??ǚ街怠值一般用來確定變量是否應(yīng)該納入模型。標(biāo)準(zhǔn)化回歸系數(shù)與偏相關(guān)系數(shù)可衡量自變量對因變量的影響程度,但當(dāng)自變量之間存在較高相關(guān)性時,標(biāo)準(zhǔn)化回歸系數(shù)容易造成錯誤估計(jì),偏相關(guān)系數(shù)存在無法直接確定算法變量絕對重要性的缺點(diǎn)。
優(yōu)勢分析是Budescu[18]于1993年提出的一種分析方法,它將線性回歸模型的總變異分解并分配至各個自變量,在行業(yè)問題中取得了較好的應(yīng)用效果,Chao,Azen等學(xué)者[19-20]又將優(yōu)勢分析方法推廣應(yīng)用于邏輯回歸模型。
本文的k-support稀疏邏輯回歸模型具有d個自變量(x1,x2,…,xd),其中因素變量xi的優(yōu)勢權(quán)重計(jì)算過程如下:
1)計(jì)算xi作為自變量的模型的R2,線性模型中R2是目標(biāo)變量被自變量解釋的百分比,即回歸平方和與總平方和之比:
(8)
本文稀疏邏輯回歸模型中,可以定義類R2指標(biāo):
(9)
其中,L是模型最大似然函數(shù),β為模型參數(shù),n為模型觀測數(shù)。
2)計(jì)算xi納入至含有1個自變量(xj,j≠i)的模型時引起的貢獻(xiàn)增量ΔR2,并對該組內(nèi)所有的ΔR2求平均值。
3)計(jì)算xi納入至含有2個自變量(xj,xk,i≠j,i≠k,j≠k)的模型時引起的貢獻(xiàn)增量ΔR2,并對該組內(nèi)所有的ΔR2求平均值。
4)對上面所有步驟計(jì)算出來的貢獻(xiàn)增量ΔR2求均值,即為變量xi的優(yōu)勢權(quán)重。
對模型中的各個因素變量執(zhí)行步驟1~步驟4,可計(jì)算出各個因素的優(yōu)勢權(quán)重。
本文以某省級電網(wǎng)公司約98.8萬客戶在2015年9月~2016年3月期間的用戶數(shù)據(jù)為算法學(xué)習(xí)與測試的數(shù)據(jù)集Ω,其中低壓居民客戶52.1萬,低壓非居民客戶40.4萬,高壓客戶6.3萬。為了增強(qiáng)模型預(yù)測性能的說服力,本文采用5-fold交叉驗(yàn)證策略進(jìn)行校驗(yàn),將數(shù)據(jù)集均分成5組(一般是均分),將每個數(shù)據(jù)子集分別做一次驗(yàn)證集,其余的4組子集數(shù)據(jù)作為訓(xùn)練集,這樣會得到5個模型,并將這5個模型在驗(yàn)證集上分類準(zhǔn)確率的均值作為本文k-support稀疏邏輯回歸模型最終的性能指標(biāo)。同時,本文模型與經(jīng)典的l1稀疏邏輯回歸模型[11-12]、C4.5決策樹模型[6]進(jìn)行性能對比分析。
由于涉及低壓以及高壓用戶,不同類型用戶的行為特征存在一定的差異。為了全面描述用戶的特征,本文綜合客戶基本信息、用電信息、繳費(fèi)信息、停電事件等多個維度選取可能與停電敏感度相關(guān)的客戶信息字段,如用電類別、用電量、合同容量、受理業(yè)務(wù)類型、停電類型等32個字段,主要包括:
1)基本屬性:用戶編號,立戶日期,城鄉(xiāng)類別等;
2)用電數(shù)據(jù):用戶分類,行業(yè)分類,供電電壓,合同容量,計(jì)量方式,負(fù)荷程度等;
3)消費(fèi)行為:用電量,電費(fèi),電費(fèi)階梯、電費(fèi)通知方式等;
4)繳費(fèi)行為:繳費(fèi)方式,繳費(fèi)渠道,繳費(fèi)頻次等;
5)95598工單信息:受理時間,受理業(yè)務(wù)類型,用電類別,催辦督辦等;
6)停電事件信息:停電時間、時長,停電類型,停電原因等。
獲取數(shù)據(jù)后,首先對數(shù)據(jù)進(jìn)行預(yù)處理,保證數(shù)據(jù)的正確性,主要包括:用戶編號的唯一性、樣本數(shù)據(jù)完整性、變量的范圍和取值、缺失值、異常值等。其次是構(gòu)建衍生變量,即對原始數(shù)據(jù)進(jìn)行處理和加工,以獲取更有預(yù)測力和解釋性的變量。比如撥打95598次數(shù)、督辦催辦次數(shù)等。
模型構(gòu)建后,需要對模型的預(yù)測準(zhǔn)確性進(jìn)行評估。假設(shè)模型預(yù)測結(jié)果與真實(shí)結(jié)果形成的混淆矩陣如表1所示,其中TP(true positive)為預(yù)測正確的停電敏感客戶數(shù),F(xiàn)P(false positive)為錯誤預(yù)測為停電敏感的客戶數(shù),TN(true negative)為預(yù)測正確的非停電敏感客戶數(shù),F(xiàn)N(false negative)為錯誤預(yù)測為非停電敏感的客戶數(shù),P=TP+FN為標(biāo)定的停電敏感客戶數(shù),N=FP+TN為標(biāo)定的非停電敏感客戶數(shù)。定義準(zhǔn)確率(accuracy)為預(yù)測正確的客戶數(shù)與全部客戶數(shù)的比值:
(10)
定義靈敏度(sensitivity)為預(yù)測的真實(shí)停電敏感客戶數(shù)與全部真實(shí)停電敏感客戶數(shù)的比值:
(11)
定義特異度(specificity)為正確預(yù)測的非停電敏感客戶占全部真實(shí)非停電敏感客戶的比值:
(12)
表1 混淆矩陣
真實(shí)結(jié)果10預(yù)測結(jié)果1TP(truepositive)FP(falsepositive)0FN(falsenegative)TN(truenegative)合計(jì)PN
表2給出了本文k-support稀疏邏輯回歸模型、經(jīng)典的l1稀疏邏輯回歸模型以及C4.5決策樹模型在測試數(shù)據(jù)集上的5-fold交叉驗(yàn)證準(zhǔn)確率。實(shí)驗(yàn)中l(wèi)1稀疏邏輯回歸模型以及本文算法的判別閾值設(shè)置為0.70。可以看出,決策樹模型的預(yù)測性能低于l1稀疏邏輯回歸模型,同時本文算法在各類客戶以及全體客戶上預(yù)測準(zhǔn)確率均高于l1稀疏邏輯回歸模型,從而說明引入的k-support正則項(xiàng)有利于提升模型的泛化能力。
表2 各算法的預(yù)測準(zhǔn)確率(accuracy)/%
客戶類型C4.5決策樹l1稀疏邏輯回歸本文算法低壓居民客戶76.384.287.6非居民客戶73.583.186.6高壓客戶69.478.782.7全體客戶74.583.486.8
本文進(jìn)一步計(jì)算ROC曲線(receiver operating characteristic curve),通過改變各回歸模型中的判別閾值ε,繪制不同閾值ε下模型sensitivity與1-specificity值的對應(yīng)曲線,進(jìn)而判別各模型的預(yù)測性能。如圖3所示,本文模型的ROC位于l1稀疏邏輯回歸模型與C4.5決策樹模型的上方,說明本文模型準(zhǔn)確率較高,性能較為穩(wěn)定。
圖3 本文算法及其對比算法的ROC曲線
模型性能的一個重要評價標(biāo)準(zhǔn)是在實(shí)踐中應(yīng)用的效果。本文采用時間平移的方式進(jìn)行驗(yàn)證,即運(yùn)用在2015年9月~2016年3月期間的觀察數(shù)據(jù)訓(xùn)練所得的回歸模型,預(yù)測目標(biāo)變量未來一個月的發(fā)生情況,再與實(shí)際真實(shí)觀測值進(jìn)行對比。
本次實(shí)驗(yàn)中4月份6.3萬高壓客戶中,產(chǎn)生有關(guān)停電咨詢的客戶,即停電敏感客戶占比約為5.68%。當(dāng)本文模型的概率閾值ε為0.7時,本文模型預(yù)測結(jié)果準(zhǔn)確率為81.79%。同時圖4給出了本文算法的ROC性能曲線,并計(jì)算了ROC曲線之下的面積,即AUC(area under curve)統(tǒng)計(jì)量為0.843。實(shí)驗(yàn)結(jié)果表明本文模型能夠較為準(zhǔn)確地預(yù)測停電敏感客戶,具有一定的應(yīng)用前景。
圖4 本文算法在4月份觀測數(shù)據(jù)上的ROC曲線
圖5對比了本文k-support稀疏邏輯回歸模型與l1稀疏邏輯回歸模型經(jīng)過訓(xùn)練獲得的回歸系數(shù)β,可以看出,l1稀疏邏輯回歸模型只有少數(shù)的因子具有較大幅度系數(shù),存在一定的過度收縮問題,容易造成模型的不穩(wěn)定性,而本文模型通過施加k-support稀疏正則約束,能夠在模型的稀疏性和穩(wěn)定性方面取得較好的平衡,可從眾多因素中選擇相關(guān)性強(qiáng)的因素變量預(yù)測停電敏感客戶。
圖5 本文模型與l1稀疏邏輯回歸模型回歸系數(shù)對比圖
本文進(jìn)一步根據(jù)優(yōu)勢分析計(jì)算出全部變量的相對重要性(參見表3),可見歷史撥打95598次數(shù)、行業(yè)類型等因素對客戶停電敏感度影響最大,根據(jù)實(shí)際工作需要,可選擇影響度大的因素變量進(jìn)行預(yù)測打分,降低計(jì)算量,提升實(shí)際業(yè)務(wù)操作的效率。
表3 因素變量相對重要性
自變量變量權(quán)重負(fù)荷重要程度0.0004票據(jù)類型0.0049通知類型0.0412計(jì)量點(diǎn)個數(shù)0.1034計(jì)量方式0.3335合同容量0.3733平均電價0.4033催辦督辦0.4642行業(yè)類型0.4766供電單位0.7912歷史95598撥打次數(shù)1.6233
本文分析了基于k-support稀疏邏輯回歸算法及其在客戶停電敏感度模型評價中的應(yīng)用,實(shí)驗(yàn)結(jié)果表明,本文模型在實(shí)際驗(yàn)證中表現(xiàn)較好,模型結(jié)果可推廣應(yīng)用到實(shí)際工作中去。比如,根據(jù)預(yù)測的停電敏感客戶,開展有針對性的停電管理優(yōu)化,當(dāng)發(fā)生停電事件時,針對高敏感客戶進(jìn)行優(yōu)先通知、重點(diǎn)通知,并根據(jù)客戶的反饋意見進(jìn)行線路保障維修、停電管理優(yōu)化、營銷回饋等工作。需要指出的是,k-support稀疏邏輯回歸模型結(jié)合優(yōu)勢分析法可確定關(guān)鍵重要因素,根據(jù)實(shí)際工作需要,可選擇部分的重要模型參數(shù)進(jìn)行預(yù)測打分,建立評分卡,進(jìn)而降低計(jì)算量,提升實(shí)際業(yè)務(wù)操作的效率。
參考文獻(xiàn):
[1] Han Jiawei, Kamber M. 數(shù)據(jù)挖掘:概念與技術(shù)[M]. 范明,孟小峰譯. 北京:機(jī)械工業(yè)出版社, 2012:240.
[2] 陳星鶯,張曉花,瞿峰,等. 數(shù)據(jù)挖掘在電力系統(tǒng)中的應(yīng)用綜述[J]. 電力科學(xué)與技術(shù)學(xué)報, 2007,22(3):51-56.
[3] 嚴(yán)宇平,吳廣財. 基于數(shù)據(jù)挖掘技術(shù)的客戶停電敏感度研究與應(yīng)用[J]. 新技術(shù)新工藝, 2015(9):89-93.
[4] Gelman A, Hill J. Data Analysis Using Regression and Multilevel/Hierarchical Models[M]. New York: Cambridge University Press, 2006:79-108.
[5] Strano M, Colosimo B M. logistic regression analysis for experimental determination of forming limit diagrams[J]. International Journal of Machine Tools and Manufacture, 2006,46(6):673-682.
[6] Quinlan J R. Induction of decision trees[J]. Machine Learning, 19861(1):81-106.
[7] Kaminski B, Jakubczyk M, Szufel P. A framework for sensitivity analysis of decision trees[J]. Central European Journal of Operations Research, 2018,26(1):135-159.
[8] Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015,61:85-117.
[9] Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013,35(8):1798-1828.
[10] Hall P, Park B U, Samworth R J. Choice of neighbor order in nearest-neighbor classification[J]. Annals of Statistics, 2008,36(5):2135-2152.
[11] Krishnapuram B, Carin L, Figueiredo M A T, et al. Sparse multinomial logistic regression: Fast algorithms and generalization bounds[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005,27(6):957-968.
[12] Cawley G C, Talbot N L C. Gene selection in cancer classification using sparse logistic regression with Bayesian regularization[J]. Bioinformatics, 2006,22(19):2348-2355.
[13] Argyriou A, Foygel R, Srebro N. Sparse prediction with the k-support norm[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. 2012,2:1466-1474.
[14] Liu Bo, Yuan Xiaotong, Zhang Shaoting, et al. Efficient k-support-norm regularized minimization via fully corrective Frank-Wolfe method[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. 2016:1760-1766.
[15] Combettes P L, Wajs V R. Signal recovery by proximal forward-backward splitting[J]. SIAM Journal on Multiscale Modeling and Simulation, 2005,4(4):1168-1200.
[16] Eriksson A, Pham T T, Chin T J, et al. The k-support norm and convex envelopes of cardinality and rank[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. 2015:3349-3357.
[17] 王海燕,楊方廷,劉魯. 標(biāo)準(zhǔn)化系數(shù)與偏相關(guān)系數(shù)的比較與應(yīng)用[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究, 2006,23(9):150-155.
[18] Budescu D V. Dominance analysis: A new approach to the problem of relative importance of predictors in multiple regressions[J]. Psychological Bulletin, 1993,114(3):542-551.
[19] Chao Yichun, Zhao Yue, Kupper L L, et al. Quantifying the relative importance of predictors in multiple linear regression analyses for public health studies[J]. Journal of Occupational and Environmental Hygiene, 2008,5(8):519-529.
[20] Azen R, Traxel N. Using dominance analysis to determine predictor importance in logistic regression[J]. Journal of Educational and Behavioral Statistics, 2009,34(3):319-347.