• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hoeffding Tree的電能質量在線擾動分類

      2014-09-28 08:31:06丁建光張沛超
      電力自動化設備 2014年9期
      關鍵詞:數據流實例滑動

      丁建光,張沛超

      (上海交通大學 電氣工程系 電力傳輸與功率變換控制教育部重點實驗室,上海 200240)

      0 引言

      隨著電網中接納越來越多的可再生能源,電能質量擾動PQD(Power Quality Disturbance)事件的監(jiān)視與識別成為智能電網的一項重要研究內容。PQD識別屬于典型的分類問題,已有研究大多基于數據挖掘DM(Data Mining)技術,并結合現(xiàn)代數字信號處理方法完成電能質量數據的去噪、特征量提取、分類等處理。 如文獻[1-3]利用小波變換(WT)、dq變換、快速傅里葉變換(FFT)、Hilbert變換、數學形態(tài)學和短窗功率算法等方法進行PQD檢測;文獻[4-5]研究了檢測過程中信號去噪的問題;文獻[6]通過小波變換和決策樹方法進行擾動分類;文獻[7]分析了決策樹、貝葉斯分類、支持向量機、人工神經網絡等數據挖掘算法。但上述研究均基于傳統(tǒng)數據挖掘技術,數據挖掘的實時性不高,甚至僅適用于離線分析。由于電能質量數據具有高速連續(xù)到達、潛在無限輸入等海量數據的特征,數據必須得到及時處理而不能累積。同時,未來的智能電網將存在大量在線決策環(huán)節(jié),而實時數據處理是在線決策的基本前提。所以有必要研究海量電能質量數據的實時擾動識別和在線分類挖掘問題。

      數據流(data stream)[8-9]技術是近年來數據庫和數據挖掘領域的一個研究熱點。數據流是實時、連續(xù)、有序、時變、無限長的帶時標的元組序列,目前數據流系統(tǒng)仍處于研發(fā)的原型階段,針對電力系統(tǒng)的應用研究則更為鮮見。文獻[10-11]從電網和配電自動化的角度,利用數據流技術,提出集傳感測量、實時數據分析和在線決策于一體的統(tǒng)一解決方案。文獻[12]利用數據流方法分析PQD事件,但其采用固定長度的滑動數據窗SW(Sliding Window)且未研究數據流分類算法。由于PQD事件具有很大的隨機性,這種固定長度的時間窗難以滿足在線分類的需要。

      由于PQD數據具有典型的數據流特征,使得PQD的實時識別和在線分類需解決幾個關鍵問題:首先是實時監(jiān)測和識別數據流的變化,并能有效區(qū)分變化和噪聲;其次,對于連續(xù)數據流不能采用阻塞方式處理,而必須采用變長滑動數據窗[13]技術,根據擾動特點將無限長的數據流轉化為一系列可控的數據單元;最后,需要建立高效的數據流分類模型,即分類算法應能利用有限的時間、空間處理無限的流數據。

      本文圍繞上述3個關鍵問題展開研究。首先將WT和離散傅里葉變換(DFT)相結合,對采樣數據進行信號去噪和擾動檢測;然后提出自適應滑動數據窗 ASW(Adaptive Sliding Window)的構建方法,以適應不同長度的擾動,最大限度地保留擾動信息的能量分布特征;最后,引入具有低存儲空間需求的Hoeffding Tree算法,對PQD事件進行分類。

      1 技術路線

      常見PQD信號可分為6類[6],分別是電壓凸起、電壓凹陷、電壓間斷、諧波、脈沖暫態(tài)和振蕩暫態(tài),其數學模型見表1。表中,Am為正常情況下電壓的幅值;Af為電壓凸起、凹陷或間斷的幅度比例;μ(t)為階躍函數,即當 t<0 時 μ(t)=0,當 t≥0 時 μ(t)=1;t1為擾動的起始時間,t2為擾動的結束時間;αk為k次諧波的幅值;b、c分別為振蕩的頻率和衰減速度;α為脈沖的幅值;δ(t)為t時刻的單位脈沖函數。

      脈沖暫態(tài)持續(xù)時間在0.5~2 ms(即4~12個采樣點)之內隨機確定,其余擾動類型持續(xù)時間在0.02~0.5 s范圍內隨機確定;電壓凸起的幅值大于1.2 Am,電壓凹陷的幅值在0.2Am~0.8Am之間,電壓間斷的幅值小于0.2Am,脈沖暫態(tài)的幅值大于20Am且小于500Am,這4種擾動電壓幅值在指定范圍內隨機產生;電壓諧波的各諧波幅值 α3、α5、α7在 0.05Am~0.15Am范圍,且滿足∑αk2=1,其中 k=1,3,5,7。

      表1 電能質量擾動數學模型Tab.1 Mathematical models of PQD

      擾動信號可以抽象為數據流S,S可以形式化地表示為一個無限的時間序列:

      其中,〈si,ti〉表示 ti時刻產生的 si元組,該元組可以是數值,也可以是向量,本文以變量形式表示。

      滑動數據窗技術使得PQD分析可以針對最新的一個有限數據子集,而非所有可見的數據流。設當前時刻為tn,則當前的滑動數據窗可以表示為:

      其中,K 為數據窗長度;sn-K+1、sn-K+2、…、sn為采樣值。根據K變化與否,滑動數據窗可分為定長數據窗和變長數據窗。

      通過對電能質量采樣數據進行擾動檢測和特征提取,可以得到擾動事件的特征向量時間序列,該序列同樣可以利用數據流表示為:

      其中,特征向量 vi=[a1,a2,…,aj,…,am,C]是一個分類實例,aj為實例的屬性,C為實例的類標簽(class label)。當C非空時,該實例是用于訓練的樣本。

      綜合以上分析,形成圖1所示的總體技術路線。

      圖1 PQD在線檢測和分類Fig.1 Online detection and classification of PQD

      2 基于數據流的PQD檢測

      2.1 擾動點檢測

      擾動點檢測是實現(xiàn)自適應滑動數據窗的關鍵步驟,本文提出WT和DFT相結合的擾動起止類型綜合判別算法的流程。本文選取db4小波作為基函數,并進行3層分解。

      電力系統(tǒng)中的噪聲以高斯白噪聲為主,本文采用以Stein無偏風險閾值為基礎的軟閾值去噪方法[5],在去噪的同時能準確保留擾動特征。對滑動數據窗中的采樣數據進行WT,通過第1層細節(jié)分量系數可以分析是否存在擾動。以電壓凸起信號為例,正常電壓幅值為1 p.u.,凸起時為1.2 p.u.,擾動發(fā)生在第640個采樣點處,持續(xù)至第1280個采樣點處,如圖2(a)所示。以db4小波進行3層分解,得到第1層細節(jié)分量系數,擾動起止點對應分量系數明顯高于其他點,如圖 2(b)所示。

      圖2 電壓凸起的擾動檢測Fig.2 Disturbance detection for voltage swell

      檢測到擾動后,以擾動點為中心點,提取一個完整周期的采樣值,通過DFT計算基波有效值K1,并與正常情況下基波有效值K0作比較。若滿足<0.02K0,則判定該點由殘余噪聲引起,重新提取下一個滑動數據窗;如果擾動點不是由殘余噪聲引起,則提取擾動點下一個周期的采樣值并計算基波有效值K2,并和K0作比較。 如果滿足,則判定該擾動點為PQD的終止點,提取事件后,重新提取下一滑動數據窗;否則判定為起始點,緩存后重新提取下一滑動數據窗。

      經過上述處理可得擾動點序列:其中,Di為擾動點的起止類型,i取 0、1、2 分別表示噪聲點、擾動的起始點和終止點。如果用向上箭頭表示擾動起始點,向下箭頭表示終止點,無向豎線表示由殘余噪聲引起的擾動,則上述處理可檢測出圖3所示的2類擾動點序列。其中,圖3(a)所示序列由1個起始點和1個終止點組成,對應電壓凸起、電壓凹陷、電壓間斷、諧波和振蕩暫態(tài)等擾動;圖3(b)所示序列僅包含1個終止點,對應脈沖暫態(tài)擾動。圖3中還包含了一些殘余噪聲擾動點,這些擾動點既可能距起始點和終止點超過1個周期(如N1),也可能緊臨起始點和終止點(如N2)。

      圖3 擾動點序列Fig.3 Sequence of disturbance points

      2.2 自適應滑動數據窗

      本文提出自適應滑動數據窗,能夠根據式(4)所形成的擾動點序列,自適應地調整滑動數據窗的長度,算法描述如下。

      設在式(4)中,Di為第1個非0擾動點;如果Di=1(起始點),則從Di開始找到第1個終止點,設為Dj,于是記本 PQD 事件的數據窗為[ti,tj];如果 Di=2(終止點),則數據窗記為[ti,ti],如此類推。 然后,將上述數據窗的起始時刻向前、終止時刻向后各延伸1個周期,形成一個自適應滑動數據窗,所截取出的采樣點能夠完整包含一個PQD事件。如果在起始時刻之前或終止時刻之后1個周期內存在噪聲,則以噪聲擾動點為基點,延展數據窗范圍。

      2.3 特征向量提取

      基波有效值能直接反映電壓幅值偏離的大小與方向,且能有效區(qū)分殘余噪聲,但其計算數據窗較長,難以有效識別短時暫態(tài)事件。文獻[14]提出了小波能量特征,利用小波的多分辨率原理將信號分解到不同頻段。根據Parseval定理,信號能量可通過小波概要系數 cj(k)和細節(jié)系數 dj(k)進行重構:

      其中,l為小波分解層數。綜上,本文采用3層小波(l=3)分解能量和基波有效值作為特征向量:

      其中,c3、d1、d2、d3分別為小波概要系數和細節(jié)系數的能量;a為基波有效值特征量;C為類標簽。

      3 基于數據流的PQD分類算法

      傳統(tǒng)的決策樹、支持向量機等分類算法采用批處理算法,訓練過程中需要一次性加載所有樣本實例,時間和空間開銷很大。針對數據流的實例數目巨大且容易發(fā)生概念漂移的特點,本文選擇Hoeffding Tree分類算法[15]。該算法能增量式地建立決策樹,每次只完成一個實例的處理,并且在處理完成后不保存實例信息,僅保存決策樹信息,這樣在保證分類準確性的同時極大降低了算法的時間和空間復雜度。

      3.1 Hoeffding Tree算法的分類原則

      該算法引入熵的概念衡量一段數據所載有的信息量,通過計算信息增益來判別何時進行分枝。如果類標簽C有n個不同的值,第i個值在整體樣本中對應的概率為 pi,則熵的計算為[17]:

      信息增益通過使用類分布的熵減去以某屬性進行分枝的加權平均熵而計算獲得,即如果使用屬性aj進行分枝,屬性aj可以將整個數據樣本劃分為S1、S2、…、Sv,每一份有一個對應的熵。將其加權平均,可以獲得以aj劃分子集的信息增益為:

      其中,權重wi為第i份樣本在整個樣本中的比重;ei為第 i份樣本的熵;pi1、pi2、…、pin分別為各標簽值在第i份樣本中對應的概率。在傳統(tǒng)的批處理分類方式下,很容易使用信息增益最高的屬性進行分枝,但是在增量處理方式下,進行分枝需要引入Hoeffding邊界 HB(Hoeffding Bound)的概念。

      其中,R=log2n,n為類標簽數;δ為設定的置信因子,1-δ描述了在樹的每個節(jié)點上,正確屬性被選中的預期概率,顯然希望這個概率盡量接近1,根據文獻[15],可將 δ設為 10-7;m 為已處理的實例個數。

      HB衡量了信息增益最高的屬性a′j和次高的屬性a″j之間信息增益的差值的最小值,如果該差值最小值超過HB,則將信息增益最高的屬性a′j確定為分類屬性。

      3.2 Hoeffding Tree算法邏輯圖和參數設置

      首先生成僅有1個根節(jié)點的樹結構T,然后依次對每個實例進行評估,即增量式地完成學習任務。算法的流程如圖4所示。

      在評估的過程中,如果存在1個葉子節(jié)點,該節(jié)點的實例數目nl是設定值nmin的整數倍,且所有節(jié)點不屬于同一個類標簽,即滿足圖4中的判別條件1,則在該節(jié)點進行分枝條件判別。設置參數nmin是因為單一實例對信息增益影響很小,當某個葉子節(jié)點累計增加nmin個實例后,才考慮對該節(jié)點進行后續(xù)的分枝條件判斷。

      圖4 Hoeffding Tree算法示意圖Fig.4 Schematic diagram of Hoeffding Tree algorithm

      分枝條件判別需計算每個屬性的信息增益G(aj),確定增益最高的 2 個屬性。 若 G(a′j)-G(a″j)>HB 或者HB<τ(τ是預設的HB的最小值),即滿足圖4中的判別條件2,則進行分枝,否則繼續(xù)進行下一個實例的評估。通過預設τ可避免隨著分配到該節(jié)點的實例越來越多,HB越來越小,進而造成在該節(jié)點始終無法分枝。

      4 算例與分析

      4.1 實驗數據

      本文采用電壓凸起、電壓凹陷、電壓間斷、諧波、脈沖暫態(tài)和振蕩暫態(tài)這6種PQD模型進行算例分析,采樣頻率為6.4 kHz。為模擬實際情況,所有擾動事件的起始和持續(xù)時間皆隨機產生,模型參數設置見表1。擾動數據中添加40 dB高斯白噪聲,每種擾動采用20000個實例訓練和10000個實例測試。

      4.2 PQD檢測算法測試

      在MATLAB仿真環(huán)境下,隨機產生每種擾動事件各20000個,并記錄各擾動的起始時刻,然后測試PQD檢測的準確度,結果見表2。

      表2 PQD檢測結果Tab.2 Results of PQD detection

      4.3 PQD分類算法測試

      在數據流挖掘分類過程中,采用Hoeffding Tree分類算法,以信息增益作為分枝標準,信息增益評估周期采用 200 個實例,即 nmin=200;置信因子 δ=10-7;τ=0.05。分類結果見表3。

      由表3可知,以小波能量和電壓基波有效值為特征向量,通過本文的分類算法可以很好地識別PQD類型,每種擾動分類的準確率均在99%以上。

      表3 PQD分類測試結果Tab.3 Results of PQD classification

      針對相同類型和參數的擾動,本文將Hoeffding Tree算法與典型的C4.5分類算法[6]做了對比,結果如表4所示。Hoeffding Tree算法本身在分類準確率方面與C4.5相近[15],本文算法準確率的提高主要是因為采用了自適應變長滑動數據窗技術。

      目前,針對電能質量復合擾動分類的研究還不多,已有方法主要采用傳統(tǒng)單一擾動識別方法[17],區(qū)分效果較差。本文針對所提算法進行了復合擾動的測試。按照文獻[1]中暫態(tài)擾動和穩(wěn)態(tài)擾動相復合的原則,并參考文獻[18]的復合擾動類型,設定存在各種單一擾動和“諧波+電壓凸起”、“諧波+電壓凹陷”、“諧波+電壓間斷”3種復合擾動,每種擾動采用20000個實例訓練、10000個實例測試,本文算法對復合擾動的分類效果如表5所示。其中,識別率指正確識別出復合擾動類型或識別出其中一種單一擾動類型的比率;準確率指準確識別出復合擾動類型的比率;漏分指僅檢測出其中一種單一擾動;錯分指未檢測出復合擾動的任意一種。由表5可見,在復合擾動類型識別方面,本文算法仍需做進一步改進。

      表5 復合擾動分類效果Tab.5 Effect of complex PQD classification

      4.4 算法的時間與空間性能測試

      基于數據流挖掘的PQD在線分類算法應具有良好的時間和空間性能,能夠高效處理實時、高速和無限的采樣數據流而不造成數據堵塞。算法仿真用計算機的CPU主頻為3.10 GHz、內存為3.24 GB、操作系統(tǒng)為32位。分別進行PQD檢測和特征量提取,以及分類算法訓練和測試,算法的時間和空間性能測試結果如表6所示。

      表6 算法時間和空間復雜度分析Tab.6 Analysis of temporal and spatial complexities of algorithm

      連續(xù)采樣時間為2240 s,每種擾動包含1000個事件。算法用于擾動檢測和特征量提取耗時12.74 s,用于數據流分類耗時0.81 s,算法合計用時13.55 s。若以算法執(zhí)行時間與樣本持續(xù)采樣時間之比衡量算法實時性[16],則實時性指標為 13.55 /2240=0.00605,表明算法具有良好的實時性。

      目前,絕大部分研究僅關注分類準確度,而未對實時性進行研究,僅有文獻[12]給出了實時性測試結果,但該文沒有給出測試用計算機的具體配置。文獻[12]中的實時性指標為 9.464 /160=0.059,而本文實時性指標為0.00605。故本文算法的實時性優(yōu)于文獻[12]中的算法。

      5 結論

      本文將電能質量數據視為數據流,對基于數據流挖掘的PQD在線識別與分類的關鍵問題進行了研究。將WT和DFT相結合,實現(xiàn)采樣數據去噪和擾動檢測,進而提出自適應變長滑動數據窗的構建方法,從而將無限長的數據流轉變?yōu)橛邢揲L的可控處理單元,并最大限度地保留擾動信息的能量分布特征;以小波概要系數、細節(jié)系數能量和基波有效值構成特征向量,并引入能夠進行增量式學習的Hoeffding Tree算法,對PQD進行分類。

      本文的研究重點是單一擾動的在線識別與分類。針對復合擾動,本文認為可以采用在線和離線相結合的方法,以兼顧實時性和復合擾動識別的準確性,這將是下一步的研究重點。

      猜你喜歡
      數據流實例滑動
      汽車維修數據流基礎(下)
      一種新型滑動叉拉花鍵夾具
      Big Little lies: No One Is Perfect
      一種提高TCP與UDP數據流公平性的擁塞控制機制
      基于數據流聚類的多目標跟蹤算法
      滑動供電系統(tǒng)在城市軌道交通中的應用
      北醫(yī)三院 數據流疏通就診量
      完形填空Ⅱ
      完形填空Ⅰ
      一種基于變換域的滑動聚束SAR調頻率估計方法
      雷達學報(2014年4期)2014-04-23 07:43:07
      奎屯市| 新民市| 青海省| 龙胜| 岳阳市| 北京市| 镇坪县| 德令哈市| 贵定县| 内黄县| 古交市| 秭归县| 台中县| 项城市| 静乐县| 东兰县| 尤溪县| 绥芬河市| 屯门区| 南漳县| 昔阳县| 梁山县| 罗平县| 达孜县| 徐州市| 淮滨县| 昆明市| 疏勒县| 开鲁县| 新昌县| 卫辉市| 五河县| 穆棱市| 方山县| 河北区| 康定县| 睢宁县| 长兴县| 固始县| 黑龙江省| 长子县|