劉建華,劉艷梅,馮純純,李錦程,張屹修
(中國礦業(yè)大學(xué) 電氣與動(dòng)力工程學(xué)院, 江蘇 徐州 221008)
隨著我國智能電網(wǎng)產(chǎn)業(yè)結(jié)構(gòu)的升級,無論配電還是發(fā)電環(huán)節(jié)都在向自動(dòng)化方向發(fā)展,在自動(dòng)化實(shí)現(xiàn)的過程中,電力系統(tǒng)應(yīng)用到了大量的非線性電力電子元件,同時(shí)直流輸電技術(shù)和FACTS技術(shù)也廣泛應(yīng)用于實(shí)際工程中,這些都會(huì)給電力系統(tǒng)帶來諧波和電壓波動(dòng)等影響,降低了電網(wǎng)的電能質(zhì)量[1]。這些也會(huì)對電能的生產(chǎn)、傳輸、分配和使用帶來影響,甚至引發(fā)嚴(yán)重的電力事故,造成巨大的經(jīng)濟(jì)損失。因此對電能質(zhì)量進(jìn)行預(yù)警顯得尤為重要,對降低電力事故、提高電力企業(yè)的市場競爭力和滿足用戶的供電要求也具有重要的意義。
在電能質(zhì)量研究方面,目前主要集中在電能質(zhì)量監(jiān)測系統(tǒng),擾動(dòng)源識別、分類,信號去噪,治理技術(shù)等方面[2-6],而電能質(zhì)量預(yù)警閾值方面的研究很少,文獻(xiàn)[7]提出了基于模糊聚類算法的閾值設(shè)定方法,此方法在建立模糊相似矩陣的基礎(chǔ)上構(gòu)造動(dòng)態(tài)聚類圖對電能質(zhì)量數(shù)據(jù)進(jìn)行分類,雖然此方法可以達(dá)到閾值選取的目的,但模糊矩陣及動(dòng)態(tài)聚類圖的的建立過程繁瑣,算法復(fù)雜,文獻(xiàn)[8]將圖像灰度分割領(lǐng)域的知識運(yùn)用到電能質(zhì)量預(yù)警閾值分割,應(yīng)用Otsu算法,根據(jù)類間方差最大和類內(nèi)方差最小的特性將電能質(zhì)量數(shù)據(jù)進(jìn)行二分化即分為正常和異常類,在此基礎(chǔ)上確定客觀閾值。雖然文獻(xiàn)[8]比文獻(xiàn)[7]算法更容易實(shí)現(xiàn)且能夠取得很好的效果,但文獻(xiàn)[8]涉及的電能質(zhì)量數(shù)據(jù)過于理想化,實(shí)際數(shù)據(jù)的偏峰度值并不符合文獻(xiàn)[8]所述情況,這容易導(dǎo)致分類的誤差,當(dāng)異常和正常類之間的偏峰度值差別不明顯時(shí),使用文獻(xiàn)[8]的方法有可能導(dǎo)致錯(cuò)誤的結(jié)果,同時(shí)文獻(xiàn)[8]的方法需要遍歷所有可能分類的均值和方差,計(jì)算量大,分類時(shí)間長。
文中提出將k中心聚類的方法應(yīng)用到數(shù)據(jù)的二分化當(dāng)中,只需要取k=2就可以把數(shù)據(jù)分為正常和異常類,該方法能夠有效地逼近真實(shí)的分類模型,基于此方法確定的客觀閾值與文獻(xiàn)[8]中所提方法相比較,該方法效果理想且能提高計(jì)算效率,算例結(jié)果表明所提方法的有效性。
從電能質(zhì)量監(jiān)測平臺(tái)所得數(shù)據(jù)需經(jīng)預(yù)處理之后再運(yùn)用k中心點(diǎn)聚類算法,此時(shí)得到的預(yù)警閾值較準(zhǔn)確且能夠減少算法的復(fù)雜度,數(shù)據(jù)預(yù)處理的步驟包含以下幾步:
(1)穩(wěn)態(tài)電能質(zhì)量預(yù)警指標(biāo)的選取參考文獻(xiàn)[10]進(jìn)行,對得到的電能質(zhì)量數(shù)據(jù)判斷其完整度,如果數(shù)據(jù)不完整,要填補(bǔ)缺失數(shù)據(jù),一般以前后數(shù)據(jù)的平均值代替,數(shù)據(jù)完整的前提下利用小波變換法對數(shù)據(jù)去噪聲處理,最后對數(shù)據(jù)歸一化處理;
(2)計(jì)算一定窗口內(nèi)電能質(zhì)量數(shù)據(jù)集合的特征量,包含最大值、最小值、平均值、標(biāo)準(zhǔn)差、偏度,峰度、偏峰度乘積;
(3)利用公式(1)計(jì)算兩兩基本樣本之間的歐氏距離,設(shè)置一定的差異度限值,不超過限值的樣本歸為一類,將基本樣本集合分為L類,數(shù)據(jù)經(jīng)預(yù)處理后的方便后續(xù)的分析計(jì)算。
(1)
式中pj、oij表示集合p、oi的第j個(gè)特征量;m是特征量個(gè)數(shù)。
k-medoids聚類算法是一種把實(shí)際數(shù)據(jù)集合中的k個(gè)對象作為中心點(diǎn)或中心對象進(jìn)行劃分的k中心點(diǎn)聚類算法,其分類的方法是,給定數(shù)據(jù)集合V={p1,p2,…,pL},L是待分類的數(shù)據(jù)集合個(gè)數(shù),pi={pi1,pi2,…,pim},m是數(shù)據(jù)集合pi的特征值個(gè)數(shù),以任意的k個(gè)數(shù)據(jù)集合作為初始聚類中心,以其余對象到所選中心對象的距離作為聚類相異程度的度量[9],其定義為:
(2)
式中disp(p,oi)是對象p、oi之間的歐氏距離;ci是第i個(gè)分類集合;oi是ci的中心;k表示將所有數(shù)據(jù)分為k個(gè)集合,具體分類步驟為:
(1)從數(shù)據(jù)集合V中任k個(gè)對象作為初始聚類中心點(diǎn)(o1,o2,…,ok);
(2)計(jì)算剩余其余L-k個(gè)對象到各中心點(diǎn)的歐氏距離,計(jì)算公式為式(1),比較各歐氏距離的大小把剩余L-k個(gè)對象指派給離對象最近的中心點(diǎn)所代表的集合,所有對象分配完畢,計(jì)算Eabs;
(5)重復(fù)步驟(3)~步驟(4),直到所得相異程度值最小為止結(jié)束。
設(shè)置電能質(zhì)量預(yù)警閾值的目標(biāo)是將監(jiān)測得到的電能質(zhì)量數(shù)據(jù)進(jìn)行分離,由于監(jiān)測數(shù)據(jù)中正常和異常兩類數(shù)據(jù)間特征值差別較大,而同一類數(shù)據(jù)的特征值都在一定小范圍之內(nèi)波動(dòng),電能質(zhì)量監(jiān)測數(shù)據(jù)的這種良好的聚類特性特別符合k-medoids聚類算法的要求,因此提出了基于k-medoids聚類的閾值算法。
k-medoids聚類算法中的k值選取是一個(gè)值得謹(jǐn)慎考慮的問題,在實(shí)際應(yīng)用中k值的選取常常需要根據(jù)智能算法或?qū)I(yè)知識確定,在電能質(zhì)量預(yù)警閾值選取的問題上,k被取值為2正好達(dá)到分割的目的。
利用k中心點(diǎn)聚類算法,將通過電能質(zhì)量監(jiān)測平臺(tái)得到的N個(gè)數(shù)據(jù)分成兩類,即:正常和異常類。將分類的質(zhì)量度量函數(shù)定義為:
F=min(Eabs)
(3)
(4)
式(4)是分類的絕對誤差,ci為正常類或異常類,oi是ci的中心點(diǎn)。歐氏距離的計(jì)算采用公式(1)。由定義可知,當(dāng)Eabs越小時(shí)越符合實(shí)際分類模型。
基于k中心點(diǎn)聚類的閾值確定算法具體過程為:在數(shù)據(jù)預(yù)處理已經(jīng)被分為L類的前提下,隨機(jī)選擇兩類數(shù)據(jù)作為分類的初始中心,對于其余的L-2類數(shù)據(jù)使用公式(1)分別計(jì)算其到兩個(gè)中心的距離,依據(jù)距離中心點(diǎn)的遠(yuǎn)近,把L-2類數(shù)據(jù)分到離其最近的中心點(diǎn)所在的集合中,這樣所有數(shù)據(jù)被分為兩類,然后使用公式(4)計(jì)算本次劃分的絕對誤差Eabs。上述過程迭代進(jìn)行,每次迭代總是選擇能使絕對誤差變小的聚類劃分結(jié)果,直到絕對誤差值不能再小為止[11-12]。
采用基于k中心點(diǎn)聚類的分類算法迭代結(jié)束后,都能夠找出數(shù)據(jù)分類的一個(gè)合理閾值點(diǎn)。該算法的迭代次數(shù)因初始中心點(diǎn)的選擇而不同,初始值選擇的與理想值接近,則較少的迭代次數(shù)就能獲得較理想的分割效果,但如果初始值與理想值相差較遠(yuǎn),則迭代次數(shù)比較大,最壞情況下需要遍歷所有的組合情況,文中的L類數(shù)據(jù)最多迭代L*L次才能找到最佳閾值分割點(diǎn)。為了能夠使數(shù)據(jù)分類效果達(dá)到最佳,可以增大算法的迭代次數(shù),但這就會(huì)增加計(jì)算的時(shí)間。針對該算法本身固有的缺陷,將該算法進(jìn)行優(yōu)化改進(jìn),提出了更適合電能質(zhì)量閾值確定的k中心點(diǎn)聚類快速閾值算法。
k-medoids聚類的快速閾值算法基于這樣一個(gè)假設(shè):具有所有數(shù)據(jù)最大值的一類數(shù)據(jù)始終屬于異常類數(shù)據(jù)的中心。從實(shí)驗(yàn)數(shù)據(jù)來看,該假設(shè)對于絕大部分的電能質(zhì)量數(shù)據(jù)都是成立的。該算法考慮了數(shù)據(jù)分布密度,最多迭代L次就夠找出最佳閾值分割點(diǎn),算法的效率和精度相比基于k-medoids聚類的算法得到了極大的提升,解決了算法時(shí)間運(yùn)行時(shí)間長的問題。基于k-medoids聚類的快速閾值分割算法的具體過程為:首先在1~L類數(shù)據(jù)之間統(tǒng)計(jì)出所有數(shù)據(jù)最大值所在的那一類數(shù)據(jù)記為o1,然后依次遍歷1~L類之間的每一類數(shù)據(jù)記為oi,在迭代過程中,依據(jù)距離中心點(diǎn)o1和oi的遠(yuǎn)近將其他數(shù)據(jù)分別聚類到o1和oi所代表的集合中,計(jì)算每次劃分的絕對誤差Eabs,最后選取具有最小絕對誤差的那次劃分結(jié)果作為最后的結(jié)果[13]。
從以上內(nèi)容可以看出,基于k-medoids聚類的快速閾值分割算法確定最終客觀閾值時(shí)仍要計(jì)算各初始類之間的歐氏距離,數(shù)據(jù)預(yù)處理時(shí)各窗口已經(jīng)根據(jù)特征值大致分類,數(shù)據(jù)的屬性在分類過程中已經(jīng)固定,同時(shí)考慮到最終選取的客觀閾值是正常類數(shù)據(jù)的最大值,因此進(jìn)行二分化聚類計(jì)算時(shí)只需要選擇最大值來計(jì)算各類數(shù)據(jù)的歐氏距離和分類的絕對誤差,該算法的步驟如下:
(1)將電能質(zhì)量數(shù)據(jù)中最大值所在的類作為一個(gè)固定的中心點(diǎn),令o1=max(pi);o2=0,此時(shí)絕對誤差為正無窮大記為E0;
(2)從 1~L類選擇一類作為正常類中心點(diǎn),即:o2=pi;i=1,2,…,L;選擇好中心點(diǎn)之后,計(jì)算其余類pj到兩個(gè)中心點(diǎn)的距離,(j=1,2,…L)&(i≠j);
(3)若滿足 dist(pj,o1) (4)若滿足Eabs (5)選擇具有最小誤差的分類結(jié)果作為最終結(jié)果,同時(shí)選擇正常類的最大值作為電能質(zhì)量的客觀閾值。 采用對某焦化廠連續(xù)六小時(shí)監(jiān)測得到的負(fù)序電壓不平衡度為例,數(shù)據(jù)如圖1所示,簡述了穩(wěn)態(tài)電能質(zhì)量預(yù)警閾值算法的有效性,并與文獻(xiàn)[8]的分割效果進(jìn)行對比。 圖1 電能質(zhì)量原始數(shù)據(jù)Fig.1 Original data of power quality 預(yù)處理:本例中共有120個(gè)數(shù)據(jù),數(shù)據(jù)連續(xù)完整,以每個(gè)窗口10個(gè)數(shù)據(jù)進(jìn)行劃分得到12個(gè)窗口數(shù)據(jù),計(jì)算每個(gè)窗口的特征值,采用公式(1)進(jìn)行處理初始聚類分析,可得結(jié)果如表1所示。 表1 初始聚類結(jié)果Tab.1 Initial results of cluster 采用文中的快速閾值分割方法,以第8類數(shù)據(jù)的最大值作為異常類的中心o1,不同的o2時(shí)對應(yīng)的絕對誤差為表2所示。 表2 不同分類中心對應(yīng)的分類結(jié)果和絕對誤差Tab.2 Classification results and absolute errors corresponding to different classification centers 由表2可以看出,當(dāng)以第8類數(shù)據(jù)作為異常類中心,以第5類作為正常類中心時(shí)分類的絕對誤差最小,選擇此分類作為最終數(shù)據(jù)二分化分類的結(jié)果,最終,選擇前五類中最大值作為客觀閾值,即t0=0.103 2 %。 采用文獻(xiàn)[8]方法,所得結(jié)果和文中分割結(jié)果相同,但采用基于Otsu的客觀閾值算法,需計(jì)算不同分類時(shí)的數(shù)據(jù)均值和方差,只要計(jì)算不同分類中心時(shí)最值之間的絕對誤差即可,提高了計(jì)算效率。把文中的方法和基于Otsu的客觀閾值算法進(jìn)行比較,其結(jié)果如表3所示。 表3 2種方法的閾值和運(yùn)行時(shí)間比較Tab.3 Comparison of threshold and running time of 2 methods 上述正常和異常數(shù)據(jù)之間偏峰度差別較大,有較好的分割效果,但當(dāng)二者之間差別較小時(shí),采用文獻(xiàn)[8]方法有可能出現(xiàn)誤差。僅取上例中部分?jǐn)?shù)據(jù)(前110個(gè))為例,采用文中方法和基于Otsu方法的閾值選取結(jié)果如表3所示。 實(shí)驗(yàn)結(jié)果表明,基于Otsu的閾值分割算法對兩類偏峰度差別較大的數(shù)據(jù)來說有較好的分類結(jié)果,但如果異常數(shù)據(jù)的偏峰度值較小則基于Otsu的算法會(huì)使原有數(shù)據(jù)的有效信息喪失,基于k心點(diǎn)聚類的閾值分割算法不考慮正常和異常類的距離,其分割效果優(yōu)于Otsu算法,但k中心點(diǎn)聚類算法在閾值分割時(shí)效率不盡人意,而改進(jìn)的快速k中心點(diǎn)聚類算法則保證了分割效果,也將效率提高到比Otsu算法更高的水平。 在客觀閾值的基礎(chǔ)上,可綜合考慮專家意見給出的主觀閾值[8],結(jié)合客觀閾值,利用比例加權(quán)的方法得到更加合理的預(yù)警閾值,最終計(jì)算公式為式(5),以圖1數(shù)據(jù)為例,得到最終閾值為t=0.089 5 %。 t=a*t0+(1-a)*t1 (5) 式中t0是客觀閾值;t1是主觀閾值,本例中t1取0.08%。 通過k中心點(diǎn)聚類的快速閾值算法得到電能質(zhì)量數(shù)據(jù)的客觀預(yù)警閾值,是閾值選取中最為重要的一步,最終通過綜合專家意見結(jié)合比例加權(quán)法得到最終閾值,所得閾值符合實(shí)際,克服了以往單一且存在一定主觀性的專家賦值的弊端,是電能質(zhì)量預(yù)警平臺(tái)的建立的基礎(chǔ),提出的是一種快速有效的閾值分割算法,以某一焦化廠的實(shí)測數(shù)據(jù)為例驗(yàn)證了所提方法。最后,因電能質(zhì)量異常數(shù)據(jù)形式多樣,在接下來的研究中考慮對該方法進(jìn)行優(yōu)化,使其更好的適用于電能質(zhì)量預(yù)警平臺(tái)的建立。3 案例分析
4 結(jié)束語