摘 要:針對電力企業(yè)營銷異常數(shù)據(jù)自動校核的效率問題,本文提出一種基于改進K-means算法的設(shè)計方案。通過優(yōu)化K-means算法,采用自然最近鄰搜索和相對密度度量,解決了低密度區(qū)域簇識別難題,對異常數(shù)據(jù)進行精確聚類。同時,本設(shè)計方案關(guān)注數(shù)據(jù)的一致性、唯一性和完整性,保證了數(shù)據(jù)質(zhì)量。試驗結(jié)果表明,與傳統(tǒng)K-means自動校核方法相比,本方案顯著縮短了校核時間,提高了自動校核效率。以Flame、Pathbased等多個數(shù)據(jù)集為例,校核時間最多縮短了近一半,有效提高了電力企業(yè)營銷異常數(shù)據(jù)自動校核的實時性和準(zhǔn)確性,為電力企業(yè)提供了更高效、可靠的自動校核支持。
關(guān)鍵詞:K-means;異常數(shù)據(jù);自動校核" " "中圖分類號:TP 39" 文獻標(biāo)志碼:A
在電力企業(yè)的營銷過程中,及時發(fā)現(xiàn)和處理異常數(shù)據(jù)對保證企業(yè)的經(jīng)營效益至關(guān)重要[1]。然而,傳統(tǒng)的手動校核方法存在效率低和延遲的問題。為了解決這個問題,本文提出了一種基于改進K-means算法的自動校核方法。通過優(yōu)化聚類算法的計算過程,縮短校核時間,提高自動校核的效率,更及時地發(fā)現(xiàn)和處理異常數(shù)據(jù)。
1 基于改進K-means的電力企業(yè)營銷異常數(shù)據(jù)自動校核方法設(shè)計
1.1 采集電力企業(yè)營銷異常數(shù)據(jù)
對銷售量的監(jiān)測進行分析,可以發(fā)現(xiàn)銷售量異常的情況。例如,某個時期銷售量突然大幅增加或減少,與歷史數(shù)據(jù)相比存在明顯的差異;對銷售額進行監(jiān)測和分析,發(fā)現(xiàn)銷售額異常的情況。電力企業(yè)的用戶分為工業(yè)用戶、商業(yè)用戶、居民用戶等不同類型。如果某個類型的用戶的銷售量或銷售額出現(xiàn)異常,與該類型用戶的歷史數(shù)據(jù)存在明顯的差異,就判斷用戶類型異常[2]??梢詫τ脩舻挠秒娦袨檫M行監(jiān)測和分析,以此發(fā)現(xiàn)用電行為異常的情況。例如,某個用戶的用電模式突然發(fā)生變化,與歷史數(shù)據(jù)相比有明顯差異。除了上述特征,還可以結(jié)合具體的營銷數(shù)據(jù)對其進行分析,例如分析電力用戶的地理分布、用電時間段分布、不同用戶類型的用電特點等。當(dāng)分析電力營銷異常數(shù)據(jù)特征時,需要注意數(shù)據(jù)的一致性[3],即采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別應(yīng)該保持一致。如果新采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別不一致,就需要進一步檢查數(shù)據(jù)采集的準(zhǔn)確性和完整性,保證分析結(jié)果的準(zhǔn)確性和可靠性,其特征的計算過程如公式(1)所示。
式中:n為異常數(shù)據(jù)的總數(shù);avg(Rm+n)為歷史平滑度指數(shù)的均值;而avg(Rm+n-i)為去除第i條異常數(shù)據(jù)后的平滑度指數(shù)的均值。
電力營銷異常數(shù)據(jù)的一致性特征是指采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)之間的一致性程度。具體來說,它衡量了新采集的異常數(shù)據(jù)是否與歷史異常數(shù)據(jù)的類別一致。如果新采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別一致,那么I1值就會較高,表示數(shù)據(jù)的一致性較好。相反,如果新采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別不一致,那么I1值就會較低,表示數(shù)據(jù)的一致性較差,其特征的計算過程如公式(2)所示。
式中:I2為電力企業(yè)營銷異常數(shù)據(jù)的唯一性特征。根據(jù)兩個變量計算這個特征,其中,U為電力異常數(shù)據(jù)的唯一數(shù)據(jù)條數(shù);而N為全部異常數(shù)據(jù)的數(shù)量。電力營銷異常數(shù)據(jù)的唯一性特征是指采集的異常數(shù)據(jù)中是否存在相同的數(shù)據(jù)條目[4]。具體來說,它衡量了在所有異常數(shù)據(jù)中有多少條數(shù)據(jù)是唯一的。如果電力異常數(shù)據(jù)中存在大量的唯一數(shù)據(jù)條目,那么I2值就會較高,表示數(shù)據(jù)的唯一性較好。相反,如果存在較少的唯一數(shù)據(jù)條目,那么I2值就會較低,表示數(shù)據(jù)的唯一性較差。另外,電力營銷異常數(shù)據(jù)還具有完整性特征。這個特征的衡量標(biāo)準(zhǔn)是采集的異常數(shù)據(jù)是否完整。完整性特征考察的是采集的數(shù)據(jù)是否包括了所有的異常情況。如果采集的異常數(shù)據(jù)是完整的,那么電力營銷異常數(shù)據(jù)的完整性特征就較好。反之,如果存在缺失或遺漏的異常情況,那么完整性特征就較差,其特征的計算過程如公式(3)所示。
式中:I3為電力營銷異常數(shù)據(jù)的完整性特征,利用變量C計算這個特征的。
其中,C為電力企業(yè)營銷的完整數(shù)據(jù)。電力營銷異常數(shù)據(jù)的完整性特征是指采集的異常數(shù)據(jù)是否完整,是否包括所有的異常情況,其特征的計算過程如公式(4)所示。
式中:I4為電力企業(yè)營銷異常數(shù)據(jù)采集點在相鄰時刻的波動特征。根據(jù)一些變量計算這個特征,包括S(xi)、avg(xi)和xi。
電力企業(yè)營銷異常數(shù)據(jù)的波動特征是指在相鄰時刻采集的異常數(shù)據(jù)的波動情況。具體來說,它衡量了異常數(shù)據(jù)在時間上的變化幅度。波動特征的計算涉及兩個方面:相鄰采集點的數(shù)值標(biāo)準(zhǔn)差S(xi)和相鄰采集點的異常數(shù)據(jù)均值avg(xi)。數(shù)值標(biāo)準(zhǔn)差反映了數(shù)據(jù)的離散程度,而異常數(shù)據(jù)均值表示異常數(shù)據(jù)的中心位置。
1.2 基于密度聚類算法選取自動校核參數(shù)
為了解決低密度區(qū)域的簇不被歸為噪聲的問題,利用自然最近鄰搜索方法找到每個采集點的自然最近鄰個數(shù)。自然最近鄰是指在數(shù)據(jù)空間中距離最近的鄰居點,而不是事先定義的固定數(shù)量。通過找到自然最近鄰,可以確定每個采集點所在的簇。在高密度的簇邊界區(qū)域,使用一個相對密度來替代原來的密度度量[5]。相對密度是指一個點周圍的鄰居點的數(shù)量與整個數(shù)據(jù)集的平均密度之比。使用相對密度來衡量高密度簇邊界區(qū)域的密度,可以更好地捕捉這些邊界區(qū)域的特征,如公式(5)所示。
式中:nb(i)為在自然最近鄰搜索中,當(dāng)鄰居采集點為0的數(shù)據(jù)不再變化時,異常數(shù)據(jù)xi的最近鄰個數(shù)。這個值反映了在搜索過程中,異常數(shù)據(jù)xi的鄰居點數(shù)量的變化情況。當(dāng)鄰居采集點為0時,表示異常數(shù)據(jù)周圍沒有其他采集點,即它是一個孤立的點。當(dāng)nb(i)較大時,表示異常數(shù)據(jù)xi周圍有較多的鄰居點,即它所在的區(qū)域密度較高;nk(i)表示自然最近鄰搜索達到穩(wěn)定狀態(tài)時,異常數(shù)據(jù)xi的最近鄰個數(shù)。這個值反映了在搜索過程中,異常數(shù)據(jù)xi的鄰居點數(shù)量的穩(wěn)定狀態(tài)。當(dāng)搜索達到穩(wěn)定狀態(tài)時,說明異常數(shù)據(jù)xi的鄰居點數(shù)量不再發(fā)生變化,即找到了它的自然最近鄰。當(dāng)nk(i)較大時,表示異常數(shù)據(jù)xi周圍有較多的鄰居點,即它所在的區(qū)域密度較高。
2 試驗過程
2.1 實現(xiàn)多類型保護的定值自動校核
在電力企業(yè)營銷中,對線路保護類型的真實數(shù)據(jù)進行記錄是非常重要的。這些真實數(shù)據(jù)與不同的保護型號(例如RCS941、RCS974、RsC978、RsC923等)一一對應(yīng)。將真實數(shù)據(jù)作為觀測量,在真實數(shù)據(jù)變?yōu)楫惓?shù)據(jù)的瞬間,快速找出對應(yīng)的保護型號和類型,縮短自動校核的時間。記錄電力企業(yè)營銷的線路保護類型的真實數(shù)據(jù)是為了建立一個基準(zhǔn),便于后續(xù)校核和比對。這些真實數(shù)據(jù)包括線路的電流、電壓、功率等參數(shù)以及相關(guān)的故障和異常情況。通過記錄這些數(shù)據(jù),建立一個全面而準(zhǔn)確的線路保護類型數(shù)據(jù)庫。電力企業(yè)營銷類型見表1。
2.2 試驗步驟
2.2.1 數(shù)據(jù)采集與預(yù)處理
使用Python語言對ECMC數(shù)據(jù)集進行預(yù)處理和特征提取。通過數(shù)據(jù)清洗、缺失值處理、特征選擇等步驟,將原始數(shù)據(jù)轉(zhuǎn)化為適合聚類分析的形式。具體步驟如下。①數(shù)據(jù)清洗:去除重復(fù)數(shù)據(jù)和異常值,保證數(shù)據(jù)的整潔性。②缺失值處理:對缺失值進行插補或刪除,保證數(shù)據(jù)的完整性。③特征選擇:選擇與電力企業(yè)營銷相關(guān)的特征,包括銷售量、銷售額、用戶類型、用電行為等。在數(shù)據(jù)采集階段,對銷售量和銷售額進行監(jiān)測,發(fā)現(xiàn)異常情況。例如,某個時期銷售量或銷售額突然大幅增加或減少,與歷史數(shù)據(jù)相比存在明顯差異。此外,還對用戶的用電行為進行監(jiān)測,發(fā)現(xiàn)用電模式的異常變化。這些特征分析需要保證數(shù)據(jù)的一致性,將采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別保持一致。可以用公式(1)衡量異常數(shù)據(jù)的一致性特征。
2.2.2 特征提取與一致性分析
在電力企業(yè)營銷異常數(shù)據(jù)的分析過程中,特征提取是至關(guān)重要的一步。特征提取不僅能幫助理解數(shù)據(jù)的基本特征,還能為后續(xù)的聚類分析和異常檢測提供有價值的信息。在這個階段,主要關(guān)注3個方面的特征:一致性特征、唯一性特征和完整性特征。一致性特征是指新采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)之間的相似程度。這個特征反映了異常數(shù)據(jù)是否與已有的數(shù)據(jù)模式相符。為了量化這個特征,使用公式(2)來衡量一致性程度。如果一致性程度接近1,說明新數(shù)據(jù)與歷史數(shù)據(jù)在類別上高度一致,反之則表明二者存在顯著差異。在實際操作中,通過以下步驟來評估一致性特征。①數(shù)據(jù)分類:對新采集的異常數(shù)據(jù)和歷史異常數(shù)據(jù)進行分類,保證能夠清晰地識別各自的類別。②類別比較:對比新舊數(shù)據(jù)的類別分布,計算一致性程度,并分析不一致的原因,例如數(shù)據(jù)采集錯誤、用戶行為變化等。唯一性特征則關(guān)注的是異常數(shù)據(jù)的獨特性,主要體現(xiàn)在數(shù)據(jù)條目的獨特性和多樣性。通過評估異常數(shù)據(jù)中獨特條目的數(shù)量,判斷異常情況是否為偶發(fā)事件或普遍現(xiàn)象。用公式(3)計算唯一性特征,比率越高,表明異常數(shù)據(jù)的獨特性越強,說明需要重視潛在的異常事件。分析唯一性有以下步驟。①數(shù)據(jù)去重:對異常數(shù)據(jù)進行去重處理,識別唯一的數(shù)據(jù)條目。②統(tǒng)計分析:計算唯一數(shù)據(jù)條目占總異常數(shù)據(jù)的比例,并進一步分析這些唯一條目表示的異?,F(xiàn)象性質(zhì)。完整性特征則關(guān)注數(shù)據(jù)的完整性和可用性,保證在分析過程中不會因為缺失數(shù)據(jù)而導(dǎo)致誤判。檢查異常數(shù)據(jù)中是否存在缺失值,評估缺失值的數(shù)量和類型。使用公式(4)計算完整性特征,完整性特征值越接近1,說明數(shù)據(jù)的完整性越高,分析結(jié)果的可靠性也越強。
2.2.3 聚類分析
在數(shù)據(jù)預(yù)處理完成后,利用Paddle平臺提供的聚類算法,對處理后的數(shù)據(jù)進行聚類分析。為了解決低密度區(qū)域的簇不被歸為噪聲的問題,采用自然最近鄰搜索方法找到每個采集點的自然最近鄰個數(shù)。用公式(5)衡量異常數(shù)據(jù)的相對密度。通過找到自然最近鄰,可以更準(zhǔn)確地確定每個采集點所在的簇。在聚類分析過程中,嘗試不同的聚類算法和參數(shù)設(shè)置,獲得不同的聚類效果,尤其關(guān)注聚類結(jié)果的準(zhǔn)確性、穩(wěn)定性和可解釋性以及對異常數(shù)據(jù)子集的識別能力。
2.2.4 自動校核應(yīng)用
根據(jù)不同的聚類結(jié)果,將自動校核應(yīng)用于電力企業(yè)營銷異常數(shù)據(jù)子集。對比自動校核結(jié)果與真實異常情況的對應(yīng)關(guān)系,評估聚類效果對自動校核的影響,驗證聚類效果對自動校核的重要性,并為電力企業(yè)提供更準(zhǔn)確和可靠的自動校核支持。在試驗中,使用以下測試數(shù)據(jù)集驗證聚類算法的有效性。①Flame數(shù)據(jù)集:測試算法處理凸形和凹形數(shù)據(jù)時的效果。②Pathbased數(shù)據(jù)集:評估算法處理橢圓形密度簇時的性能。③Compound數(shù)據(jù)集:測試算法處理復(fù)雜密度簇時的魯棒性。④Rl5數(shù)據(jù)集:評估算法處理放射狀密度簇時的能力。⑤Agregation數(shù)據(jù)集:測試算法處理密度均勻但形狀不同的密度簇時的效果。⑥D(zhuǎn)31數(shù)據(jù)集:評估算法處理均勻密度簇時的性能。⑦t4.8k數(shù)據(jù)集:測試算法處理正弦函數(shù)分布的密度簇時的效果。⑧UserO18數(shù)據(jù)集:評估不同聚類效果對自動校核的影響,提供更準(zhǔn)確和可靠的自動校核支持。試驗數(shù)據(jù)集的參數(shù)見表2。
2.3 試驗結(jié)果
對數(shù)據(jù)集Flame來說,常規(guī)K-means自動校核方法的校核時間為8'26\",而本文設(shè)計的自動校核方法的校核時間為3'01\"??梢钥闯?,在該數(shù)據(jù)集上,本文設(shè)計的自動校核方法比常規(guī)K-means方法校核時間更短。對數(shù)據(jù)集Pathbased來說,常規(guī)K-means自動校核方法的校核時間為16'45\",而本文設(shè)計的自動校核方法的校核時間為6'12\"。本文設(shè)計的自動校核方法在該數(shù)據(jù)集上校核時間更短。對數(shù)據(jù)集Compound、Rl5、Agregation、D31、t4.8k和UserO18來說,本文設(shè)計的自動校核方法校核時間均更短,兩種方法的校核時間見表3。
由于K-means算法需要迭代計算每個數(shù)據(jù)點與聚類中心的距離,因此當(dāng)數(shù)據(jù)集較大時,算法的計算復(fù)雜度增加,導(dǎo)致校核時間較長。這種延遲會導(dǎo)致在校核過程中忽略或延誤異常數(shù)據(jù),從而不能及時發(fā)現(xiàn)和處理電力企業(yè)營銷的異常情況。為了解決這個問題,本研究設(shè)計了一種自動校核方法,旨在縮短校核時間并提高自動校核效率。通過優(yōu)化K-means算法的計算過程,采用更高效的聚類算法或算法優(yōu)化技術(shù),大幅度減少校核時間。試驗結(jié)果表明,本研究設(shè)計的自動校核方法的校核時間可以縮短為常規(guī)K-means自動校核方法的一半以上,提高了自動校核的效率。
3 結(jié)語
本文設(shè)計了一種基于改進K-means算法的自動校核方法,旨在解決電力企業(yè)營銷中的異常數(shù)據(jù)自動校核問題。通過優(yōu)化聚類算法的計算過程,成功地縮短了校核時間,并提高了自動校核的效率。試驗結(jié)果表明,該方法能夠更及時地檢測和識別異常數(shù)據(jù),為電力企業(yè)的營銷決策提供了支持。
參考文獻
[1] 陶永輝,王勇.基于改進的K-means風(fēng)電機異常數(shù)據(jù)檢測[J].國外電子測量技術(shù), 2023, 42(4):141-148.
[2] 王彬彬.基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類研究[J].齊齊哈爾大學(xué)學(xué)報:自然科學(xué)版, 2022(2):50-55,90.
[3] 胡豪杰,陳輝,穆婷婷,等.基于外點檢測的加權(quán)k-means算法[J].南京師范大學(xué)學(xué)報:工程技術(shù)版, 2022, 22(1):6.
[4] 張園園,朵琳,韋貴香.基于異常值檢測矩陣分解的服務(wù)質(zhì)量預(yù)測[J].云南大學(xué)學(xué)報(自然科學(xué)版), 2023, 46(2):255.
[5] 徐胤博,于洋.基于K-means聚類的艦船通信網(wǎng)絡(luò)異常數(shù)據(jù)檢測[J].艦船科學(xué)技術(shù), 2023, 45(16):169-172.