• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機(jī)森林的電費(fèi)差錯(cuò)分析

      2021-08-10 07:38:28廣東電網(wǎng)有限責(zé)任公司客戶服務(wù)中心白艷玲廖云亭蘇立偉楊英勃
      電力設(shè)備管理 2021年7期
      關(guān)鍵詞:分析模型電費(fèi)差錯(cuò)

      廣東電網(wǎng)有限責(zé)任公司客戶服務(wù)中心 白艷玲 廖云亭 蘇立偉 楊英勃

      電費(fèi)差錯(cuò)是計(jì)量系統(tǒng)發(fā)生錯(cuò)誤或人為竊電行為導(dǎo)致出現(xiàn)的異常電費(fèi)數(shù)據(jù),這類異常用電數(shù)據(jù)給電網(wǎng)公司帶來了經(jīng)濟(jì)和人力上的損失。電網(wǎng)公司采用的傳統(tǒng)電費(fèi)差錯(cuò)分析方法是通過人工制定規(guī)則對(duì)電費(fèi)差錯(cuò)數(shù)據(jù)進(jìn)行篩查,其一方面依賴于人工經(jīng)驗(yàn),具有較高的不確定性,另一方面無法有效利用電網(wǎng)公司已有的電費(fèi)大數(shù)據(jù)資源。由于上述原因,該方法的命中率與查全率并不理想,導(dǎo)致后續(xù)的人工復(fù)核工作量較大,花費(fèi)的工作時(shí)間較長。因此,通過合理的技術(shù)手段利用已有的電網(wǎng)數(shù)據(jù)資源進(jìn)行電費(fèi)差錯(cuò)分析是現(xiàn)階段研究的方向。電費(fèi)差錯(cuò)數(shù)據(jù)分析方法一直是全球范圍內(nèi)的研究熱點(diǎn),近年來機(jī)器學(xué)習(xí)與人工智能技術(shù)的應(yīng)用越來越廣泛,國內(nèi)外均有學(xué)者提出基于機(jī)器學(xué)習(xí)或人工智能的異常用電檢測方法,其中包括決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等算法模型。

      楊光[1]利用有監(jiān)督的多隱藏層的神經(jīng)網(wǎng)絡(luò)算法篩選出用電量異常用戶;吳剛[2]提出了基于數(shù)據(jù)內(nèi)在特性和LSTM的用戶用電數(shù)據(jù)異常檢測算法,提高了異常檢測的準(zhǔn)確率和命中率;吳蕊等[3]提出了一種基于改進(jìn)K-means算法的電力數(shù)據(jù)異常檢測方法,可更有效地檢測出異常電力數(shù)據(jù);Julina Zhang等[4]通過對(duì)比局部離群因子和孤立森林的性能,發(fā)現(xiàn)孤立森林在異常數(shù)據(jù)上比局部離群點(diǎn)有更好的識(shí)別度,其對(duì)于少量且特殊的異常點(diǎn)具有更好的識(shí)別能力;Ramos[5]等提出了一種基于最優(yōu)路徑森林的異常用電檢測方法,對(duì)比神經(jīng)網(wǎng)絡(luò)等技術(shù)取得了更好的效果;Depuru S[6]等用從智能電表收集的數(shù)據(jù)訓(xùn)練支持向量機(jī),對(duì)非法用電的檢測達(dá)到了較高的準(zhǔn)確率。

      1 隨機(jī)森林

      隨機(jī)森林是由多個(gè)決策樹構(gòu)成的分類器,屬于集成學(xué)習(xí)的bagging算法的一種擴(kuò)展算法。隨機(jī)森林的bagging思想是將若干個(gè)弱分類器的分類結(jié)果進(jìn)行投票選擇,從而組成一個(gè)強(qiáng)分類器。決策樹是樹狀結(jié)構(gòu)的分類模型,其每個(gè)內(nèi)部節(jié)點(diǎn)代表一次特征上的測試,根據(jù)特征區(qū)分進(jìn)入對(duì)應(yīng)的子節(jié)點(diǎn),直到進(jìn)入葉子節(jié)點(diǎn)即完成決策過程,每個(gè)葉子節(jié)點(diǎn)代表具體的分類類別,以此達(dá)到分類的效果。常用的決策樹算法有ID4、C4.5、CART等。

      bagging算法通過自助采樣法(bootstrap sampling)采樣出若干個(gè)含有固定數(shù)量訓(xùn)練樣本的采樣集,然后基于每個(gè)采樣集訓(xùn)練一個(gè)基學(xué)習(xí)器,將這些基學(xué)習(xí)器的結(jié)果進(jìn)行投票表決得到分類結(jié)果。隨機(jī)森林在bagging的基礎(chǔ)上將基學(xué)習(xí)器均設(shè)置為決策樹,同時(shí)在決策樹的訓(xùn)練過程中進(jìn)一步引入隨機(jī)特征選擇。因此隨機(jī)森林的隨機(jī)性體現(xiàn)在兩個(gè)方面:每棵決策樹的特征是從M個(gè)總特征中選出的m個(gè)特征子集;每棵決策樹隨機(jī)有放回地從訓(xùn)練集中抽取N個(gè)訓(xùn)練樣本作為該樹的訓(xùn)練集。

      隨機(jī)森林能有效運(yùn)行在大數(shù)據(jù)集上,能處理具有高維特征的輸入樣本,對(duì)離散型和連續(xù)型數(shù)據(jù)都有很好的魯棒性。同時(shí),由于兩個(gè)隨機(jī)性的加入使得隨機(jī)森林不容易陷入過擬合。綜上所述,隨機(jī)森林非常適合電費(fèi)數(shù)據(jù)的特點(diǎn),能有效學(xué)習(xí)電費(fèi)數(shù)據(jù)的相關(guān)特征以構(gòu)建電費(fèi)差錯(cuò)分析模型。

      2 實(shí)驗(yàn)

      本文使用的數(shù)據(jù)集來自電網(wǎng)公司采集的2020年某月的某市用電數(shù)據(jù)抽樣,數(shù)據(jù)規(guī)模為2500條數(shù)據(jù)(其中電費(fèi)差錯(cuò)數(shù)據(jù)共有1139條,非電費(fèi)差錯(cuò)數(shù)據(jù)共有1361條),包含65個(gè)特征字段,如DSJ、YHLBDM、YDLBDM、JLDBH等,分別表示地市局、用戶類別代碼、用電類別代碼、計(jì)量點(diǎn)編號(hào)等電費(fèi)數(shù)據(jù)特征。

      2.1 數(shù)據(jù)預(yù)處理

      本文數(shù)據(jù)來源于電網(wǎng)公司采集的真實(shí)電費(fèi)數(shù)據(jù),所以數(shù)據(jù)不可避免的存在數(shù)據(jù)缺失、特征冗余等情況。因此,在使用隨機(jī)森林模型進(jìn)行訓(xùn)練前應(yīng)該對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,以求得到更好的模型訓(xùn)練效果。本文采用了刪除冗余特征、缺失值填補(bǔ)、特征歸一化三個(gè)預(yù)處理工作。原始電費(fèi)數(shù)據(jù)中存在大量與電費(fèi)差錯(cuò)無關(guān)的特征,如用戶編號(hào)、計(jì)量點(diǎn)編號(hào)等,因此對(duì)這些冗余特征字段進(jìn)行刪除,使特征維度由原來的65降至47。刪除冗余特征后能夠加速模型訓(xùn)練,同時(shí)避免無關(guān)特征影響模型學(xué)習(xí)效果。

      為使存在缺失值的數(shù)據(jù)能更好表現(xiàn)用戶的用電行為特征,本文選擇使用固定值填充法進(jìn)行缺失值填充,其中填充的固定值為0。在模型訓(xùn)練過程中,對(duì)比其他缺失值填充方法此方法效果最好。由于不同的特征往往具有不同的量綱和量綱單位,會(huì)影響到數(shù)據(jù)分析以及模型訓(xùn)練的效果,為消除這些特征間量綱的影響,需對(duì)其進(jìn)行特征歸一化處理。通過特征歸一化能使不同量綱的特征處于同一量級(jí),減少方差大的特征的影響,使模型更準(zhǔn)確。本文采用均值方差歸一化方法進(jìn)行特征歸一化,公式為Xscaled=(X-Xmean)/Xstd,其中Xmean為數(shù)據(jù)集中的均值,為數(shù)據(jù)集的標(biāo)準(zhǔn)差。

      2.2 模型評(píng)估標(biāo)準(zhǔn)

      在基于隨機(jī)森林的電費(fèi)差錯(cuò)分析模型中,電費(fèi)差錯(cuò)數(shù)據(jù)標(biāo)簽為1,非電費(fèi)差錯(cuò)數(shù)據(jù)標(biāo)簽為0,對(duì)于此類二分類問題可根據(jù)樣本真實(shí)類別與模型預(yù)測類別進(jìn)行以下劃分:

      真正例(True Positive)。即電費(fèi)差錯(cuò)分析模型判定為電費(fèi)差錯(cuò)數(shù)據(jù)的樣本中真正屬于電費(fèi)差錯(cuò)樣本的數(shù)據(jù)量;假正例(False Positive)。即電費(fèi)差錯(cuò)分析模型判定為電費(fèi)差錯(cuò)數(shù)據(jù)的樣本中屬于非電費(fèi)差錯(cuò)樣本的數(shù)據(jù)量;真反例(True Negative)。即電費(fèi)差錯(cuò)分析模型判定為非電費(fèi)差錯(cuò)數(shù)據(jù)的樣本中真正屬于非電費(fèi)差錯(cuò)樣本的數(shù)據(jù)量;假反例(False Negative)。即電費(fèi)差錯(cuò)分析模型判定為非電費(fèi)差錯(cuò)數(shù)據(jù)的樣本中屬于電費(fèi)差錯(cuò)樣本的數(shù)據(jù)量。

      電費(fèi)差錯(cuò)分析模型的混淆矩陣如表1,在以上數(shù)據(jù)劃分的基礎(chǔ)上可得到以下模型的性能評(píng)價(jià)指標(biāo):準(zhǔn)確率(Accuracy)代表模型預(yù)測正確的樣本占總樣本的比例,公式為A=(TP+TN)/(TP+TN+FP+FN);查準(zhǔn)率(precision)代表模型預(yù)測為正例的樣本中真正例占的比例,公式為P=TP/(TP+FP);召回率(recall)代表模型預(yù)測為反例的樣本中真反例占的比例,公式為R=TP/(TP+FN);F1值(F1 Score)綜合查準(zhǔn)率和召回率的調(diào)和平均結(jié)果,公式為F1=2×PR/(P+R]。本文使用上述四種性能評(píng)價(jià)標(biāo)準(zhǔn)對(duì)本文提出的基于隨機(jī)森林的電費(fèi)差錯(cuò)分析模型進(jìn)行科學(xué)評(píng)估。

      表1 電費(fèi)差錯(cuò)分析模型混淆矩陣

      2.3 實(shí)驗(yàn)結(jié)果

      本文將預(yù)處理后的電費(fèi)數(shù)據(jù)按照8:2的比例劃分訓(xùn)練集和測試集,即訓(xùn)練集2000條測試集500條,其中訓(xùn)練集中有電費(fèi)差錯(cuò)數(shù)據(jù)911條,測試集中有電費(fèi)差錯(cuò)數(shù)據(jù)228條。使用訓(xùn)練集進(jìn)行隨機(jī)森林模型訓(xùn)練,使用測試集進(jìn)行模型測試,測試結(jié)果為準(zhǔn)確率0.914、查準(zhǔn)率0.904、召回率0.908、F1值0.906,四項(xiàng)評(píng)價(jià)指標(biāo)均達(dá)到了0.90以上,其中查準(zhǔn)率和召回率較好的表現(xiàn)說明該模型對(duì)電費(fèi)差錯(cuò)與非電費(fèi)差錯(cuò)數(shù)據(jù)均有良好的分類效果,能避免實(shí)際使用過程中因數(shù)據(jù)正負(fù)樣本比例懸殊導(dǎo)致模型效果嚴(yán)重下降的問題。綜合四個(gè)評(píng)價(jià)指標(biāo),可看出本文提出的基于隨機(jī)森林的電費(fèi)差錯(cuò)分析方法較好完成了電費(fèi)差錯(cuò)分析的任務(wù)。

      綜上,本文提出了基于隨機(jī)森林的電費(fèi)差錯(cuò)分析方法,在電網(wǎng)公司的數(shù)據(jù)集上取得了準(zhǔn)確率、查準(zhǔn)率等四項(xiàng)指標(biāo)均大于0.90的效果,相比傳統(tǒng)基于人工規(guī)則的電費(fèi)差錯(cuò)分析方法取得了大幅度的提升??傊陔S機(jī)森林的電費(fèi)差錯(cuò)分析方法能夠大幅度提升電費(fèi)差錯(cuò)分析工作的效率,對(duì)于減少電網(wǎng)公司的成本損失以及后續(xù)復(fù)核工作的人力成本有良好的效果。

      猜你喜歡
      分析模型電費(fèi)差錯(cuò)
      基于BERT-VGG16的多模態(tài)情感分析模型
      基于ε-SVR模型的日電費(fèi)回收預(yù)測
      吉林電力(2022年1期)2022-11-10 09:20:40
      直升機(jī)防差錯(cuò)設(shè)計(jì)
      基于大用戶電費(fèi)回收的風(fēng)險(xiǎn)管控
      差錯(cuò)是習(xí)題課的有效資源
      層次分析模型在結(jié)核疾病預(yù)防控制系統(tǒng)中的應(yīng)用
      校對(duì)工作中常見差錯(cuò)辨析
      新聞傳播(2016年17期)2016-07-19 10:12:05
      全啟發(fā)式語言分析模型
      關(guān)于縣級(jí)供電企業(yè)電費(fèi)對(duì)賬的研究
      第三方密碼網(wǎng)銀支付預(yù)收電費(fèi)探討
      泸西县| 西平县| 拉孜县| 竹北市| 靖安县| 罗平县| 北宁市| 贡嘎县| 伊吾县| 灵寿县| 合阳县| 孝昌县| 凉城县| 洛阳市| 麦盖提县| 浦北县| 大城县| 保德县| 石城县| 惠东县| 江陵县| 庄浪县| 金堂县| 德化县| 桂阳县| 秭归县| 雷波县| 于田县| 邹平县| 盐城市| 西青区| 元谋县| 高唐县| 宁陵县| 康乐县| 镇平县| 乌鲁木齐市| 吉林省| 大城县| 通辽市| 陆河县|