徐宏寬,林順富,邊曉燕,李東東
(上海電力大學(xué)電力工程學(xué)院,上海 200090)
電是當(dāng)今社會發(fā)展和人類生活需求的基礎(chǔ)性資源,是國家生產(chǎn)力發(fā)展的動力。電力企業(yè)對所有的電力用戶采取一致的營銷策略和電費(fèi)結(jié)算策略,這既不利于挖掘更具潛力的電力用戶也不利于電力企業(yè)的自身管理。這種陳舊的電力營銷方式已經(jīng)不能滿足迫切的電力市場改革的需求。電力用戶作為整個(gè)電力市場的主角,各售電公司根據(jù)對電力用戶的信用評價(jià)來選擇優(yōu)質(zhì)電力用戶,對存在信用風(fēng)險(xiǎn)的電力用戶做好風(fēng)險(xiǎn)預(yù)防。電力用戶也可以結(jié)合自身的信用評價(jià)與各大售電公司進(jìn)行電價(jià)和服務(wù)上的議價(jià),尋求自身利益最大化。因此,能否有效地、精準(zhǔn)地對電力用戶進(jìn)行信用評價(jià)已經(jīng)顯得至關(guān)重要。
目前,我國在對電力用戶信用評價(jià)方面的研究相對較少,且基本上停留在十多年前,很難與國內(nèi)其他行業(yè)的發(fā)展相比。文獻(xiàn)[1]通過層次分析(analytic hierarchy process,AHP)對信用等級進(jìn)行評估,指標(biāo)較少,缺乏科學(xué)性和全面性,研究方法粗糙。文獻(xiàn)[2]依據(jù)電力營銷人員的經(jīng)驗(yàn),運(yùn)用主成分分析方法,建立綜合函數(shù)作為評判標(biāo)準(zhǔn),確定信用等級的方法主觀性比較強(qiáng),準(zhǔn)確度不高。文獻(xiàn)[3]既考慮了指標(biāo)合理性,也考慮了評估者的主觀偏好,運(yùn)用基于期望值的模糊多決策方法進(jìn)行信用評價(jià)。文獻(xiàn)[4]采用模糊一致互補(bǔ)判斷矩陣計(jì)算定性與定量指標(biāo)權(quán)重,從模式識別的角度建立信用評價(jià)方法。文獻(xiàn)[5]充分結(jié)合“5C”要素建立了基于區(qū)間數(shù)和熵權(quán)法的信用評價(jià)模型。文獻(xiàn)[6]針對數(shù)據(jù)不確定性以及專家評分的主觀性問題,提出了基于區(qū)間層次分析法(inter?val analytic hierarchy process,IAHP)和區(qū)間熵結(jié)合的電力用戶評價(jià)方法。文獻(xiàn)[7]提出了一種基于AHP和主成分分析法(principal component analysis,PCA)的電力用戶信用綜合評價(jià)模型,構(gòu)建了科學(xué)的用戶信用評價(jià)體系,能較為準(zhǔn)確地預(yù)測用戶欠費(fèi)風(fēng)險(xiǎn)。文獻(xiàn)[8]針對單一電力用戶信用評價(jià)方法不能完全反映用戶的實(shí)際情況且傳統(tǒng)的組合評估方法之間的兼容性較差,提出基于偏差熵的低壓電力用戶信用組合評估方法。文獻(xiàn)[9]梳理了英、美兩國的電力體制改革發(fā)展情況,根據(jù)國際經(jīng)驗(yàn),提出新一輪我國電力用戶信用評價(jià)體系的完善和借鑒及啟示。
上述成果對電力用戶信用評價(jià)的研究起到了很好的推進(jìn)作用,而電力用戶信用評價(jià)方法的準(zhǔn)確度需要進(jìn)一步探討:當(dāng)前大多評估的方法采用改進(jìn)的單一方法,很少用到集成技術(shù),如何組合多個(gè)基分類器組建集成模型是未來探索的主要趨勢。文章提出了基于層次分析與Adaboosting組合分類器的電力用戶信用評價(jià)方法,采用經(jīng)典的層次分析法從8個(gè)分類算法中選取4個(gè)更適合電力用戶信用評價(jià)分類的備選分類算法模型,并且采用Adaboosting組合分類器對4個(gè)基分類算法器進(jìn)行組合分類,從而大大提高了信用分類的準(zhǔn)確率。該研究聚焦于應(yīng)用人工智能技術(shù)研究[10-13]電力用戶的信用分級技術(shù),具有一定的創(chuàng)新性和實(shí)用性,非常適用于電力用戶信用評價(jià)模型的組合研究,具有重要的實(shí)際應(yīng)用價(jià)值。
根據(jù)電力用戶相關(guān)數(shù)據(jù)構(gòu)建信用指標(biāo)體系,并進(jìn)行數(shù)據(jù)預(yù)處理,從典型分類算法中遴選出合適的備選分類算法構(gòu)建基分類算法,將構(gòu)建的基分類算法用Adaboosting算法進(jìn)行線性動態(tài)賦權(quán)組合以得到最終的強(qiáng)分類算法,最后將基分類與強(qiáng)分類的分類結(jié)果進(jìn)行比較,從而證明組合分類算法的分類效果較好。基于AHP和Adaboosting組合分類器信用評價(jià)流程如圖1所示。
圖1 基于AHP和Adaboosting組合分類器信用評價(jià)流程圖Fig.1 Credit evaluation flowchart based on AHP and Adaboosting combined classifier
影響電力用戶信用度的指標(biāo)很多,前人的研究給出了多種指標(biāo)體系[14-15]。筆者在已有研究成果基礎(chǔ)上提出了一套電力用戶信用評價(jià)指標(biāo),包含10個(gè)特征信息,如表1所示。
表1 特征字段說明Tab.1 Feature field description
電力用戶信用評價(jià)系統(tǒng)中涉及的指標(biāo)比較多,而各個(gè)指標(biāo)所對應(yīng)的屬性又不盡相同,各指標(biāo)所對應(yīng)的量值絕對值大小可能相差巨大。當(dāng)指標(biāo)屬性量化后,進(jìn)行相關(guān)整合處理時(shí)絕對值相差大的指標(biāo)屬性會出現(xiàn)絕對值大的覆蓋絕對值小的現(xiàn)象,這種干擾會使指標(biāo)體系模型嚴(yán)重失真,有必要對各指標(biāo)進(jìn)行無量綱化處理。假設(shè)考慮對n個(gè)電力用戶進(jìn)行評估,若每個(gè)用戶有m種評估指標(biāo),將每個(gè)指標(biāo)記為xfg(f=1,2,…,n;g=1,2,…,m)。采用極值法進(jìn)行指標(biāo)的無量綱化處理,如下式:
式中:xfg為第f個(gè)用戶的第g個(gè)指標(biāo);max(xg),min(xg)分別為所有用戶第g個(gè)指標(biāo)最大值、最小值。
層次分析法最早應(yīng)用于運(yùn)籌學(xué),由美國運(yùn)籌學(xué)家——匹茨堡大學(xué)教授薩蒂于20世紀(jì)70年代初首次提出。層次分析法是將一個(gè)復(fù)雜的多目標(biāo)決策問題作為一個(gè)系統(tǒng),將目標(biāo)分解為多個(gè)目標(biāo)或準(zhǔn)則,進(jìn)而分解為多指標(biāo)的若干層次,通過定性指標(biāo)模糊量化方法算出層次單排序和總排序,以作為目標(biāo)、多方案優(yōu)化決策的系統(tǒng)方法。層次分析法通過定性與定量相結(jié)合的系統(tǒng)化、層次化的分析方法[16-17],是進(jìn)行權(quán)值計(jì)算時(shí)常用的工具。
在眾多分類模型中選擇若干模型作為信用評價(jià)的備選集,即隨機(jī)森林模型、決策樹模型、BP神經(jīng)網(wǎng)絡(luò)模型[18]、K最近鄰模型、樸素貝葉斯模型、支持向量機(jī)模型[19]、遺傳模型、邏輯回歸模型等。這些模型均為分類應(yīng)用的經(jīng)典模型,具備成熟的理論研究。
4種評價(jià)模式的選取原則如下:
1)準(zhǔn)確性。在信用評價(jià)中,模型的準(zhǔn)確性總是最好或最有效的。
2)可擴(kuò)展性。在公開研究中,對模型進(jìn)行擴(kuò)展研究的數(shù)量或程度。
3)可行性。模型公式易于理解和實(shí)現(xiàn)且工具支持,模型評估結(jié)果易于評估和確認(rèn)。
4)實(shí)踐性。在公開研究中,模型實(shí)際應(yīng)用的數(shù)量或程度。
模型選取的層次分析模型共有3層:1)目標(biāo)層:不同數(shù)據(jù)集下的信用評級模型的綜合權(quán)重。2)準(zhǔn)則層:四項(xiàng)模型選取原則:3)方案層:所有備選的模型。AHP模型如圖2所示。
圖2 信用評價(jià)選取的AHP模型Fig.2 AHP model selected by credit evaluation
1)構(gòu)造兩兩比較矩陣。一般來說,對于n個(gè)指標(biāo)A1,A2,…,An進(jìn)行兩兩的比較,可以使用成對比較矩陣。成對比較矩陣定義為
其中,數(shù)值aij是指標(biāo)Ai與指標(biāo)Aj比較相對重要性的結(jié)果,且aij=1/aji,aii=1。上述指標(biāo)比較尺度在1~9之間,如表2所示。
2)一致性檢驗(yàn)。為了保證系統(tǒng)中使用的兩兩比較矩陣的有效性,需進(jìn)行一致性檢驗(yàn)。在成對比較矩陣A中,若aik·akj=aij,則稱A為一致陣。若成對比較矩陣是一致陣,取對應(yīng)于最大特征根n的歸一化特征向量w=[w1w2…wj]作為權(quán)向量。若成對比較矩陣不是一致陣,則應(yīng)使用與其最大特征根λ對應(yīng)的歸一化特征向量作為權(quán)向量w,且Aw=λw。為了確定兩兩比較矩陣A的可用性,需要對其進(jìn)行一致性檢驗(yàn),使用指標(biāo)是一致性比率。
定義一致性指標(biāo)如下式:
通過比較CI和隨機(jī)一致性指標(biāo)RI(見表3),可以得到一致性比率CR:
表3 隨機(jī)一致性指標(biāo)RI的數(shù)值Tab.3 Values of RI
如果CR<0.1,A被認(rèn)為是可以接受的一致陣,其歸一化特征向量可以作為權(quán)向量。否則,應(yīng)重新構(gòu)造成對比較矩陣,即調(diào)整A中各元素的取值。
本節(jié)介紹如何利用Adaboosting算法將基于AHP選取的若干信用評價(jià)分類模型組合,獲得線性動態(tài)賦權(quán)組合模型。Adaboosting是一種自適應(yīng)算法,其適應(yīng)性主要體現(xiàn)在分類器的分類結(jié)果上。主要特點(diǎn)是降低正確分類樣本權(quán)重,提高錯(cuò)誤分類樣本權(quán)重,將更改過的權(quán)重應(yīng)用于下一次的迭代過程中;當(dāng)進(jìn)入一個(gè)新的迭代時(shí),會添加一個(gè)新的基分類器,通過不斷設(shè)置迭代次數(shù)來訓(xùn)練,以確定最強(qiáng)的分類器[20],如圖3所示。
圖3 Adaboosting方法流程Fig.3 Workflow of Adaboosting algorithm
步驟1:首先,初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布,每一個(gè)訓(xùn)練樣本最開始時(shí)都被賦予相同的權(quán)值,即
步驟2:進(jìn)行多輪迭代,m表示第m輪迭代,m=1,2,…,M。
選取一個(gè)當(dāng)前誤差率最低的弱分類器g作為第m個(gè)基本分類器Gg,并計(jì)算弱分類器gm,該弱分類器在分布Dm上的誤差為
其中,1[Gm(xi)≠yi]表示當(dāng)預(yù)測結(jié)果和實(shí)際結(jié)果不一樣時(shí)取值1,否則取值0。由式(6)可知,Gm(x)在訓(xùn)練數(shù)據(jù)集上的誤差率em就是被Gm(x)誤分類樣本的權(quán)值之和。
計(jì)算弱分類器在最終分類器中所占的權(quán)重(弱分類器權(quán)重用b表示)如下:
更新訓(xùn)練樣本的權(quán)值分布Dm+1,因?yàn)闄?quán)重更新依賴于b,而b又依賴于誤差率e,所以可以直接將權(quán)重更新公式用e表示:
歸一化常數(shù)zm如下式:
1)當(dāng)樣本分錯(cuò)時(shí),yiGm(x)i=-1,錯(cuò)誤分類樣本的權(quán)值更新如下式:
2)當(dāng)樣本分對時(shí),yiGm(x)i=1,正確分類樣本的權(quán)值更新如下式:
步驟3:最后按弱分類器權(quán)重bm組合各個(gè)弱分類器:
通過符號函數(shù)sign的作用,得到一個(gè)強(qiáng)分類器:
依據(jù)AHP方法從8個(gè)經(jīng)典分類模型中選出排名靠前的4個(gè)備選模型。采用Adaboosting算法組合備選,并將組合模型與4個(gè)經(jīng)典分類模型的結(jié)果進(jìn)行對比,驗(yàn)證組合建模方法的有效性與可行性。
選取了浙江省某1 000名電力用戶的數(shù)據(jù)進(jìn)行信用評價(jià)。用戶原始數(shù)據(jù)如表4所示,預(yù)處理數(shù)據(jù)如表5所示。
表4 電力用戶信用指標(biāo)數(shù)值Tab.4 Original value of the indexes
表5 電力用戶信用指標(biāo)數(shù)據(jù)預(yù)處理Tab.5 Data preprocessing of power user credit index
各層次的兩兩比較矩陣結(jié)合多名專家學(xué)者根據(jù)多年的研究經(jīng)驗(yàn)給出打分情況。表6、表7給出了專家對電力用戶信息分析后給出選用適合電力用戶信用分類的各個(gè)基分類算法的評分表。表6給出準(zhǔn)則層打分,表7給出準(zhǔn)確性打分??蓴U(kuò)展性、可行性與實(shí)踐性的打分情況類似,這里不做贅敘。據(jù)此可以得到各對應(yīng)的成對比較矩陣。
表6 準(zhǔn)則層打分Tab.6 Scores for criterion layer
表7 準(zhǔn)確性打分Tab.7 Scores for accuracy
表6對應(yīng)的成對比較矩陣為
表7的對應(yīng)矩陣類似,經(jīng)計(jì)算各個(gè)打分的CR值如表8所示。
表8 各層打分CR值Tab.8 CR value of each layer
由表8可知,所有的CR值均小于0.1,都能通過一致性檢驗(yàn)。
各模型權(quán)值如表9所示。從表9可以看出,綜合評估值排在前4位的模型依次是決策樹模型、BP神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)模型以及樸素貝葉斯模型,而隨機(jī)森林模型、邏輯回歸模型、K最近鄰模型以及遺傳模型在研究中的綜合權(quán)值較低。該結(jié)果與各個(gè)模型在現(xiàn)實(shí)中的應(yīng)用結(jié)果類似,因此,依據(jù)提出的AHP模型選擇法,可有效選出最為合適的4個(gè)備選模型,即決策樹模型、BP神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)模型以及樸素貝葉斯模型。
表9 模型權(quán)值Tab.9 Weight of models
選取800條數(shù)據(jù)作為訓(xùn)練集,剩下200條作為測試集,設(shè)定訓(xùn)練次數(shù)為M=50,Adaboosting最優(yōu)模型組合(Adaboosting combinatorial model,AMCMbest)過程如下:
1)初始化訓(xùn)練數(shù)據(jù)的權(quán)重Dm(i)=1/800。
2)取已知的4個(gè)模型中誤差率比較小的支持向量機(jī)作為第一個(gè)基本分類器,它的誤差率為e1=0.231,根據(jù)誤差率計(jì)算G1的權(quán)重a1=0.601,這個(gè)值代表G1在最終分類器中所占的權(quán)重。然后更新訓(xùn)練樣本數(shù)據(jù)的權(quán)值分布,對于分類正確訓(xùn)練樣本的權(quán)值更新為D2=0.000 813,錯(cuò)誤訓(xùn)練樣本的權(quán)值更新為D2(i)=0.002 71。依次根據(jù)該過程迭代。
3)迭代完成后組合基本分類器形成一個(gè)強(qiáng)分類器模型的函數(shù)構(gòu)建完成如下:
分類模型的評價(jià)指標(biāo)有很多,使用準(zhǔn)確率、曲線下面積(area under curve,AUC)和受試者操作曲線(receiver operator characteristic curve,ROC)來評估。4個(gè)備選模型與AMCMbest的準(zhǔn)確率與AUC值如表10所示,其中加粗的數(shù)字表示最佳結(jié)果。
表10 分類結(jié)果比較Tab.10 Comparison of classification results
由表10可以發(fā)現(xiàn),提出的AMCMbest模型獲得的準(zhǔn)確率與AUC值都比較高。這表明AMCMbest分類效果較好,可以有效改進(jìn)單個(gè)備選模型的準(zhǔn)確率與AUC值,這是因?yàn)锳daBoosting算法可以反復(fù)訓(xùn)練這些備選模型,從而在最終組合模型AMCM中動態(tài)最優(yōu)化它們權(quán)值。為了更加直觀地比較5個(gè)模型的分類效果,用ROC曲線將預(yù)測結(jié)果顯示出來,如圖4所示。
圖4 ROC曲線Fig.4 ROC curves
采用基于AHP的電力用戶信用評價(jià)模型選取方法選出最為合適的備選模型,進(jìn)而依據(jù)Ada?boosting算法,對4個(gè)備選模型進(jìn)行組合建模,經(jīng)過多次組合試驗(yàn)進(jìn)行學(xué)習(xí)訓(xùn)練,從而確定最優(yōu)的AMCMbest模型。最后將AMCMbest模型與4個(gè)備選模型進(jìn)行實(shí)例應(yīng)用分析,可以得出AMCMbest模型準(zhǔn)確率最高且AUC值高于4個(gè)備選模型。實(shí)驗(yàn)結(jié)果表明,基于Adaboosting算法組合建模確定的AMCMbest模型在電力用戶信用評價(jià)問題上分類效果更佳。