亓紅紅
(廣東電網(wǎng)有限責(zé)任公司珠海供電局,廣東, 珠海 519000)
異常數(shù)據(jù)集內(nèi)會包含偏離大部分對象的數(shù)據(jù),一般和大多常規(guī)對象數(shù)據(jù)存在較為明顯的差異,甚至?xí)谷藨岩蛇@些數(shù)據(jù)是通過另一種完全不同的機(jī)制所產(chǎn)生的,這類數(shù)據(jù)隱藏在各類隱私文件中,對整體數(shù)據(jù)的合理性和安全性產(chǎn)生嚴(yán)重影響。這一現(xiàn)象受到國內(nèi)外學(xué)者的廣泛關(guān)注,成為數(shù)據(jù)挖掘領(lǐng)域里較為關(guān)鍵的分支[1]。
這種人工操作方式客觀實時性較差,且過程復(fù)雜并容易出現(xiàn)錯誤。又因為配電網(wǎng)供應(yīng)鏈上涵蓋層次太多、數(shù)據(jù)極大,這種異常數(shù)據(jù)挖掘工作所需要人力、物力成本高[2]。傳統(tǒng)基于統(tǒng)計、距離、密度以及聚類的挖掘方法又難以滿足配電網(wǎng)物資供應(yīng)鏈實時需求[3]。
針對上述問題,本研究提出一種基于緊湊模式樹的配電網(wǎng)物資供應(yīng)鏈異常數(shù)據(jù)挖掘方法。
配電網(wǎng)物資供應(yīng)鏈內(nèi)的物資數(shù)據(jù)經(jīng)常組織為多種維的形式,可以表示為D={d1,d1,…,dn},每種維di組織即一種層次Hi,每種層次經(jīng)過部分維層組成[4]。所有維層次的笛卡爾集可以憑借格架構(gòu)描述Γ=H1×H2×…×Hn。格架構(gòu)就是有向圖,每一種節(jié)點都能夠描述一種cuboid,邊為每個cuboid之間含有的依賴關(guān)聯(lián)。在實際情況下,為了提高查詢處理效率,通常會將格架構(gòu)內(nèi)的一些cuboid進(jìn)行實體化并儲存至供應(yīng)鏈物資數(shù)據(jù)庫內(nèi)。
設(shè)定M為格架構(gòu)Γ里每一種已經(jīng)通過實體化的供應(yīng)鏈。在配電網(wǎng)物資供應(yīng)鏈內(nèi)的挖掘異常點需要以下約束條件:層約束條件Clev、數(shù)據(jù)約束條件Cdata與異常約束條件Cexe。這些約束條件能夠通過基于條件的數(shù)據(jù)過濾、數(shù)據(jù)切塊或切片來進(jìn)行設(shè)定。利用層約束條件,計算Clev能夠得到最底層的擬定閾值。
這2種約束條件把供應(yīng)鏈限定在一個較小的多維空間內(nèi),這個空間可被描述為受限的數(shù)據(jù)立方體,由滿足條件Cdata∩Clev=true的數(shù)據(jù)單元所組成,所有數(shù)據(jù)單元也可以被描述成受限數(shù)據(jù)單元。異常約束條件Cexc給工作人員提供了憑借個人特定狀況設(shè)定一種異常數(shù)據(jù)點的標(biāo)準(zhǔn)閾值。
配電網(wǎng)物資供應(yīng)鏈異常數(shù)據(jù)挖掘,也能描述成數(shù)據(jù)庫內(nèi)異常信息發(fā)現(xiàn),由以下3種階段形成:數(shù)據(jù)預(yù)處理、異常數(shù)據(jù)挖掘、結(jié)果描述。異常數(shù)據(jù)挖掘流程如圖1所示。
圖1 異常數(shù)據(jù)挖掘流程
同時數(shù)據(jù)集通常使用決策表或是物資供應(yīng)鏈的形式來進(jìn)行處理與描述。通過信息系統(tǒng)來進(jìn)行異常數(shù)據(jù)的定義和檢測。
依靠異常定義,能夠?qū)Ξ惓?shù)據(jù)進(jìn)行以下設(shè)定。
擬定IS={U,A,V,f}代表一種物資供應(yīng)鏈,?x∈U,如果數(shù)據(jù)x和每一種非異常數(shù)據(jù)的距離比較遠(yuǎn),同時和每一種異常數(shù)據(jù)的距離較近,那么描述數(shù)據(jù)x是異常數(shù)據(jù)。
為了準(zhǔn)確估算數(shù)據(jù)之間的距離,下面設(shè)定相對知識粒度來描述距離函數(shù),通過估算數(shù)據(jù)和其他數(shù)據(jù)的距離之和來描述該數(shù)據(jù)的異常程度[5-7]。
(1)
式中,KG(A)為A的知識粒度,KGx(A)為刪除數(shù)據(jù)x之后A的知識粒度。知識粒度能夠描述不確定性數(shù)據(jù)的程度,所以,數(shù)據(jù)相對知識粒度能夠衡量x的不確定程度。假如剔除數(shù)據(jù)x的知識粒度轉(zhuǎn)化較小,那么x的不確定性程度較小,反之,x的不確定性程度較大[8]。
A={a1,a2,…,ak}憑借粒度從大至小的排序,組成序列S=
S=<1,2,…,k>代表單屬性遞減序列,擬定序列AS=<1,2,…,k>,其中1=A,1={1},并且1+1=1-{1},描述AS代表物資供應(yīng)鏈內(nèi)的屬性子集遞減序列。
為了描述數(shù)據(jù)集內(nèi)每一種數(shù)據(jù)的異常程度,在數(shù)據(jù)相對知識粒度的基礎(chǔ)上,通過異常度理念來描述物資供應(yīng)鏈內(nèi)每一種數(shù)據(jù)的異常程度。
S=<1,2,…,k>代表單屬性遞減序列,AS=<1,2,…,k>代表屬性子集遞減序列,?B?A,WB(x)=1-|[x]B/|U||代表x的權(quán)重,數(shù)據(jù)x的異常度設(shè)定為
(2)
設(shè)定v代表一種擬定的閾值,對x∈U隨機(jī),假如KOF(x)>v,那么x被描述成物資供應(yīng)鏈IS內(nèi)的一種基于知識粒度的異常數(shù)據(jù)[9],其中KOF(x)代表數(shù)據(jù)x的異常程度[10]。
但上述使用知識粒度進(jìn)行挖掘后,并沒有進(jìn)行二次檢測,所以可能存在冗余的異常數(shù)據(jù)未被挖掘,因此,在知識粒度方法的基礎(chǔ)上添加緊湊模式樹作為二次異常數(shù)據(jù)挖掘的方法。
(1)Tprefix內(nèi)父節(jié)點的索引編號不能超過子節(jié)點的索引編號。
(2)Tprefix內(nèi)所有節(jié)點需要具有一種記錄rni,其需要存在原始層編號li,異常出現(xiàn)次數(shù)si。
(3)Tprefix內(nèi)最左側(cè)節(jié)點組成的左斜樹,節(jié)點數(shù)需要和索引表內(nèi)的索引編號總量相等。
緊湊模式樹Tprefix組建預(yù)處理方法主要具有2步:首先憑借索引編號的順序組建左斜樹,之后把數(shù)據(jù)預(yù)處理產(chǎn)生的轉(zhuǎn)換異常集添加至左斜樹內(nèi),形成緊湊模式樹Tprefix。
基于緊湊模式樹Tprefix的異常數(shù)據(jù)二次挖掘步驟:向上累積,自底向上映射挖掘。因為Tprefix內(nèi)只存在每種數(shù)據(jù)tr1的最后一個節(jié)點處具有信息記錄rni,所以在二次挖掘的流程內(nèi)使用向量累積法。
為了使挖掘流程內(nèi)的系統(tǒng)空間消耗降至最低,映射緊湊模式樹[11]??紤]到使用自底向上的挖掘方法,在挖掘編號是lj時,值需要處理緊湊模式樹內(nèi)每一種編號是lj的節(jié)點的子節(jié)點,所以,能夠?qū)o湊模式樹內(nèi)找到的節(jié)點進(jìn)行部分投影,從而獲得子樹。這種映射形式并不需要額外的節(jié)點來暫存一種新的映射數(shù),不需要占用任何額外的空間,并且因為映射的流程非常簡單,還能夠最大程度地提升挖掘的效率。
為了充分驗證本研究所提出的基于緊湊模式樹的配電網(wǎng)物資供應(yīng)鏈異常數(shù)據(jù)挖掘方法的有效性,進(jìn)行實驗驗證。實驗環(huán)境擬定配電網(wǎng)系統(tǒng)為B/S模式,基本說明見表1。
表1 配電網(wǎng)系統(tǒng)參數(shù)
根據(jù)上述參數(shù)設(shè)置,以編號索引精度、異常數(shù)據(jù)識別、異常數(shù)據(jù)挖掘時間為實驗對比指標(biāo),將所提方法與基于模糊神經(jīng)網(wǎng)絡(luò)方法、基于改進(jìn)聚類算法的挖掘方法進(jìn)行對比。
在二維數(shù)據(jù)集中進(jìn)行異常數(shù)據(jù)劃分對比,代表數(shù)據(jù)對象的4種距離領(lǐng)域,距離領(lǐng)域與的距離越遠(yuǎn)說明該領(lǐng)域中包含異常數(shù)據(jù),實驗開始前設(shè)定C3、C4中包含異常數(shù)據(jù),C1、C2中不包含異常數(shù)據(jù)。3種方法的異常數(shù)據(jù)劃分結(jié)果如圖2~圖4所示。
圖2 所提方法
圖3 基于模糊神經(jīng)網(wǎng)絡(luò)方法
圖4 基于改進(jìn)聚類算法的方法
根據(jù)設(shè)定情況可知,領(lǐng)域C1、C2與數(shù)據(jù)對象O的距離應(yīng)該相近,而領(lǐng)域C3、C4應(yīng)與數(shù)據(jù)對象O的距離較遠(yuǎn)。從對比結(jié)果可以看出,所提方法的異常數(shù)據(jù)識別結(jié)果與設(shè)定結(jié)果一致,而2種對比方法均出現(xiàn)較大誤差。所提方法是通過估算物資數(shù)據(jù)對象的子節(jié)點來測定一個數(shù)據(jù)集中可能存在異常數(shù)據(jù)點的概率,即評測該物資數(shù)據(jù)相對于周圍領(lǐng)域的孤立程度,因此所提方法能夠準(zhǔn)確識別異常數(shù)據(jù)。
為了滿足日益增長的社會用電需求,進(jìn)一步提升資源利用效率,減少配電供應(yīng)鏈內(nèi)數(shù)據(jù)不清,存在異常信息問題,提出一種基于緊湊模式樹的配電網(wǎng)物資供應(yīng)鏈異常數(shù)據(jù)挖掘方法,其主要完成了以下幾種方面的工作:主要介紹了配電網(wǎng)物資供應(yīng)鏈的使用現(xiàn)狀,深入了解了配電網(wǎng)信息采集系統(tǒng)應(yīng)用于動態(tài)。其次,完成基于知識粒度的物資供應(yīng)鏈分析,了解知識粒度概念的同時對異常數(shù)據(jù)的影響原因深入分析,詳細(xì)描述異常數(shù)據(jù)干擾流程。針對異常數(shù)據(jù)挖掘,使用緊湊模式樹對異常數(shù)據(jù)進(jìn)行向上累積的二次異常挖掘,實現(xiàn)了異常數(shù)據(jù)的實時挖掘。接下來要深化研究,不僅要對異常數(shù)據(jù)進(jìn)行全面、實時挖掘,還要判定產(chǎn)生原因與指定可行的降損方案。