一種基于語(yǔ)義聚類的典型日負(fù)荷曲線選取方法

2013-09-13 06:13:22孟令奎段紅偉黃長(zhǎng)青

華北電力大學(xué)學(xué)報(bào)(自然科學(xué)版) 2013年1期

孟令奎，段紅偉，黃長(zhǎng)青，孫琤

(1.武漢大學(xué) 遙感信息工程學(xué)院，湖北武漢 430079;2.中兵勘察設(shè)計(jì)研究院，北京 100053)

0 引言

典型日對(duì)于電力負(fù)荷特性的研究具有重要的意義，通過(guò)典型日負(fù)荷曲線可以分析地區(qū)用電特點(diǎn)和影響因素，預(yù)估負(fù)荷特性變化趨勢(shì)。目前，典型日負(fù)荷曲線的選取方法沒(méi)有統(tǒng)一的規(guī)定，主要是從簡(jiǎn)單實(shí)用的角度出發(fā)或選取某一特定日，或基于簡(jiǎn)單的加權(quán)平均，在時(shí)段代表性和區(qū)域通用性上效果不太理想［1］。有學(xué)者利用數(shù)據(jù)挖掘和人工智能技術(shù)來(lái)解決上述不足，文獻(xiàn) ［2］基于最短距離聚類與關(guān)聯(lián)度分析來(lái)優(yōu)化典型日負(fù)荷曲線的選取，文獻(xiàn) ［3］利用K均值聚類算法，在相關(guān)指數(shù)基礎(chǔ)上提取日負(fù)荷特征曲線。還有學(xué)者［4～6］采用了其他魯棒性更好的算法來(lái)提高聚類的精度，進(jìn)而優(yōu)化典型日負(fù)荷曲線的提取。由于在時(shí)段和區(qū)域關(guān)聯(lián)分析上缺少潛在性語(yǔ)義分析，上述方法在時(shí)段和區(qū)域的通用性上靈活性不夠。

概率潛在語(yǔ)義分析模型 (Probabilistic Latent Semantic Analysis，PLSA)是一種自然語(yǔ)言處理(NLP)技術(shù)，最初用于提取文檔的語(yǔ)義信息來(lái)實(shí)現(xiàn)文檔主題提取和分類，目前已經(jīng)廣泛用于圖像聚類［7～9］、場(chǎng)景標(biāo)注和分類［10］等方面。

本文將典型日負(fù)荷曲線的選取問(wèn)題轉(zhuǎn)化為基于統(tǒng)計(jì)學(xué)習(xí)的多元分類問(wèn)題，利用PLSA模型將其他典型日負(fù)荷曲線提取結(jié)果作為初始特征輸入，然后對(duì)電力負(fù)荷數(shù)據(jù)進(jìn)行語(yǔ)義潛在分析，通過(guò)概率學(xué)習(xí)來(lái)優(yōu)化典型日負(fù)荷曲線的選取。

1 PLSA模型基礎(chǔ)

PLSA模型［11］由 Hofmann提出，最早用于統(tǒng)計(jì)文本分析。PLSA通過(guò)分析由文檔和詞匯形成的共生矩陣，利用期望最大化算法 (Expectation Maximization，EM)來(lái)訓(xùn)練隱含類，從而獲取文檔與詞匯的語(yǔ)義信息。

PLSA概率生成模型如圖1所示，其中方框表示隨機(jī)變量的重復(fù)，字母N和M表示有N個(gè)目標(biāo)，每個(gè)目標(biāo)可以用M個(gè)特征來(lái)描述。假定M個(gè)特征組成一組特征集 W={w1，w2，…，wm}，其描述的N個(gè)目標(biāo)形成一個(gè)目標(biāo)集為 D={d1，d2，… ，dn}，D和W形成一個(gè) N×M的共生矩陣 T=(t(wi，dj))ij，其中 t(wi，dj) 表示特征 wi在目標(biāo) dj中出現(xiàn)的頻率。共生矩陣T中，每一對(duì)觀測(cè)數(shù)據(jù)(wi，dj) 與一組潛在語(yǔ)義主題 Z={z1，z2，…，zk}相關(guān)，其中k為人為指定的一個(gè)常數(shù)。

PLSA在上述描述基礎(chǔ)上建立了一個(gè)生成式模型 (generative model)，每對(duì) (wi，dj)都由下述過(guò)程產(chǎn)生。

(1)首先根據(jù)目標(biāo)dj在目標(biāo)集D中出現(xiàn)的分布概率P(dj)從D中隨機(jī)抽樣選擇一個(gè)目標(biāo)dj;

(2)選定 dj后，根據(jù) dj的主題 zk分布概率P(zk|dj)抽樣選擇dj的語(yǔ)義主題zk;

(3)選定語(yǔ)義主題zk后，根據(jù)P(wi|zk)選擇 dj的特征詞 wi。

上述過(guò)程中每組觀測(cè)數(shù)據(jù) (wi，dj)條件概率可以采用聯(lián)合概率模型來(lái)描述其概率分布，具體公式如式 (1)和式 (2)所示。

圖1 PLSA概率生成模型圖Fig.1 The chart of PLSA probabilistic generative model

P(w|z)和P(z|d)通過(guò)極大似然函數(shù)求解，函數(shù)定義如式 (3)［12］所示。

似然函數(shù)L的最大化需要采用期望極大化(EM)算法進(jìn)行多次迭代，當(dāng)滿足收斂條件時(shí)停止迭代，獲得文檔與詞匯的語(yǔ)義信息。

EM算法在兩個(gè)步驟交替，即 E－Step和 MStep。E－Step利用當(dāng)前估計(jì)的參數(shù)值計(jì)算潛在主題zk的后驗(yàn)概率 P(zk|wi，dj)，如式(4)所示;M－Step基于所給后驗(yàn)概率更新參數(shù)值P(wi|zk)和P(zk|dj)。

2 方法流程

同其它數(shù)據(jù)挖掘和人工智能方法相比，PLSA模型的優(yōu)勢(shì)在于可以將這些方法的結(jié)果作為初始輸入，通過(guò)概率分析找到潛在的類別信息，從而進(jìn)一步優(yōu)化目標(biāo)識(shí)別和分類，并能建立識(shí)別和分類模型。

圖2為基于PLSA的典型日選取方法流程圖。如圖2所示，將PLSA模型應(yīng)用于典型日負(fù)荷曲線選取時(shí)包括以下幾個(gè)步驟。

(1)構(gòu)建特征詞－目標(biāo)矩陣

首先利用適當(dāng)?shù)牟呗?，如特殊日法、加?quán)平均法、智能算法或綜合方法生成一組典型日。然后綜合考慮聚多種因素，將典型日進(jìn)行初始選取，選取結(jié)果形成一個(gè)觀測(cè)特征詞集合。根據(jù)電力負(fù)荷曲線結(jié)合的時(shí)間特性，對(duì)其進(jìn)行時(shí)段劃分，形成目標(biāo)文檔。最后將目標(biāo)文檔中的各電力負(fù)荷曲線同觀測(cè)特征值進(jìn)行閾值計(jì)算，統(tǒng)計(jì)各文檔中觀測(cè)特征值的頻數(shù)，獲取特征詞－目標(biāo)共生矩陣。

(2)計(jì)算文檔中特征詞的主題

PLSA模型計(jì)算主題時(shí)，首先需要確定主題(即聚類的類別)的數(shù)目，通過(guò)采用最優(yōu)指標(biāo)算法來(lái)求解最佳主題數(shù)，從而形成最優(yōu)的聚類結(jié)果。然后根據(jù)主題數(shù)目和特征詞－目標(biāo)共生矩陣計(jì)算PLSA模型參數(shù)P(wi|zk)，P(zk|dj)和P(zk|wi，dj)，P(zk|wi，dj) 是一個(gè) 3 維矩陣，從中可以獲得每個(gè)目標(biāo)文檔中特征詞的潛在主題。

(3)獲取各電力負(fù)荷曲線的主題

在 (1)中，電力負(fù)荷曲線同特征詞的對(duì)應(yīng)關(guān)系可以通過(guò)哈希表進(jìn)行記錄，通過(guò)兩者的對(duì)應(yīng)關(guān)系，可以從P(zk|wi，dj)中獲得各電力負(fù)荷曲線的潛在主題，從而可以對(duì)日負(fù)荷曲線進(jìn)行新的類別劃分，形成新的聚類。

(4)基于策略獲取典型日簇

在求得的電力負(fù)荷曲線類別簇中，根據(jù)實(shí)際情況可以采用不同的典型日選取策略，從而建立進(jìn)而獲得各類別簇的典型日。這些典型日形成典型日簇，能夠代表時(shí)段內(nèi)不同時(shí)期的典型電力負(fù)荷。

圖2 基于PLSA的典型日選取方法流程圖Fig.2 Typical day load selection flow chart based on PLSA

3 實(shí)驗(yàn)與分析

本文實(shí)驗(yàn)所用數(shù)據(jù)為某地區(qū)2007全年統(tǒng)調(diào)負(fù)荷曲線，每日負(fù)荷曲線為96個(gè)采樣點(diǎn)，即采樣間隔15 min。初始的典型日采用K均值法聚類方法對(duì)上述數(shù)據(jù)計(jì)算求得。

原始數(shù)據(jù)由EMS(Energy Manage System)系統(tǒng)自動(dòng)采集獲取，可能出現(xiàn)個(gè)別采樣點(diǎn)缺失、激變性壞數(shù)據(jù)，因此在使用數(shù)據(jù)前需進(jìn)行數(shù)據(jù)預(yù)處理。圖3為經(jīng)過(guò)通過(guò)臨近負(fù)荷曲線分析，通過(guò)內(nèi)插得到的預(yù)處理結(jié)果。

圖3 預(yù)處理后日負(fù)荷曲線簇Fig.3 preprocessing Typical Day Load Curves

3.1 特征詞－目標(biāo)文檔共生矩陣

為了建立特征詞－目標(biāo)文檔矩陣，本文首先基于K均值聚類方法，以聚類數(shù)為25得到25條聚類負(fù)荷曲線，每個(gè)聚類負(fù)荷曲線作為一個(gè)特征詞;然后將2007年全年負(fù)荷曲線按照季度劃分，從而建立4個(gè)觀測(cè)目標(biāo)文檔;最后計(jì)算各特征詞在目標(biāo)文檔中出現(xiàn)的頻數(shù)，從而建立特征詞－目標(biāo)文檔共生矩陣。

表1為建立4×25的目標(biāo) －特征詞共生矩陣，矩陣單元代表了特征詞在目標(biāo)中出現(xiàn)的頻數(shù)。

表1 4×25目標(biāo)文檔－特征詞共生矩陣Tab.1 4 × 25 target document－characteristic words co－occurrence matrix

3.2 PLSA主題數(shù)目

PLSA模型計(jì)算中主題數(shù)目直接影響聚類結(jié)果。為了得到最佳的聚類結(jié)果，本文采用Davies－Bouldin(DB)［13］對(duì)聚類主題進(jìn)行分析。DB是關(guān)于聚類內(nèi)部緊致性和聚類之間分離度的有效性函數(shù)，其函數(shù)表達(dá)式如下式所示。

式中:k表示聚類個(gè)數(shù);Si獲取聚類內(nèi)部的緊致性;Bij獲得聚類之間分離度;DB值最小的k值表示最優(yōu)化主題數(shù)目。

圖4為不同聚類主題數(shù)同DB指標(biāo)關(guān)系圖，從圖中可以看出，聚類主題數(shù)取2時(shí)，DB指標(biāo)最高，代表聚類效果差。當(dāng)聚類主題數(shù)大于3時(shí)，指標(biāo)下降并基本趨于穩(wěn)定。根據(jù)實(shí)際工作分析，本文選取聚類主題數(shù)k=5作為PLSA模型的主題數(shù)。

圖4 聚類主題數(shù)同DB指標(biāo)關(guān)系Fig.4 The relationship between cluster number and DB Index

3.3 PLSA模型計(jì)算

PLSA通過(guò) EM迭代計(jì)算，其中 E－Step迭代計(jì)算潛在主題 zk的后驗(yàn)概率P(zk|wi，dj)，M－Step基于P(zk|wi，dj)更新參數(shù)值P(wi|zk)和P(zk|dj)。在迭代過(guò)程中，利用上述參數(shù)計(jì)算 Log似然度，當(dāng)滿足收斂條件時(shí)停止迭代。

(1)收斂條件設(shè)定

為了設(shè)定收斂條件，假設(shè)PLSA第i(i＞1)次迭代計(jì)算的 Log似然度 L(i)，dL(i)為 L(i)和L(i－1)的差值。當(dāng)dL(i)小于設(shè)定的閾值時(shí)則迭代結(jié)束。

圖5為閾值設(shè)定為0.01時(shí)，dL的變化趨勢(shì)。當(dāng)?shù)螖?shù)為34時(shí)，dL小于閾值，迭代結(jié)束。由于迭代計(jì)算中，各計(jì)算概率首先基于隨機(jī)參數(shù)，所以在迭代初期，dL的數(shù)值和變化較大，隨著跌代數(shù)的增加，其數(shù)值和變化越來(lái)越小。

圖5 dL迭代變化圖Fig.5 dL iteration chang chart

(2)Log似然度

Log似然度計(jì)算是PLSA模型計(jì)算的重要步驟，它不僅用于計(jì)算P(w|z)和P(z|d)概率參數(shù)，同時(shí)也關(guān)系到迭代計(jì)算的收斂。

圖6為L(zhǎng)og似然度隨迭代變化圖，其中橫坐標(biāo)代表代表迭代次數(shù)，縱坐標(biāo)代表Log似然度。為了描述方便，本文將Log似然度進(jìn)行歸一化處理。

圖6 Log似然度迭代變化圖Fig.6 Log－Likelihood iteration change chart

可以看出，從第1次到第13次迭代，Log似然度收斂很快，而當(dāng)?shù)螖?shù)大于等于30的時(shí)候，Log似然度變化很小，基本上不再變化。表2為30至34迭代的歸一化Log似然度同dl的對(duì)照表。

表2 30～34迭代的歸一化Log似然度同dl的對(duì)照表Tab.2 30 ～ 34 iteration comparison chart of Normalized Log－Likelihood and dl values

3.4 典型日負(fù)荷曲線選取

通過(guò)PLSA模型計(jì)算，可以獲得最終的概率參數(shù)，包括 P(zk|wi，dj)，P(wi|zk) 和P(zk|dj)。而P(zk|wi，dj)為 4×25×5的三維矩陣，記錄了每個(gè)目標(biāo)文檔中特征詞的潛在主題的概率。由于初始聚類時(shí)，各電力負(fù)荷曲線同特征詞之間具有對(duì)應(yīng)關(guān)系，因此可以通過(guò)對(duì)應(yīng)關(guān)系獲得各電力負(fù)荷曲線的潛在主題，形成新的聚類，進(jìn)而在各聚類中選取典型日。

在各聚類中選取典型日，需根據(jù)實(shí)際工作情況，通過(guò)一定的選取策略獲得典型日負(fù)荷。這些策略一般基于最大負(fù)荷日，或者基于固定工作日，或者依據(jù)選擇一定天數(shù)的日負(fù)荷曲線進(jìn)行加權(quán)計(jì)算獲得，或者利用人工智能算法來(lái)獲取典型日，由于人工智能算法能夠減少隨機(jī)因素和主觀因素的影響，本文基于距聚類中心的平方差最小的選取方法來(lái)提取出最具代表性的負(fù)荷曲線。圖7為歸一化后的選取結(jié)果，5條典型日負(fù)荷曲線分別為2007年的2月23日、3月11日、5月30日、9月8日、11月5日。

圖7 歸一化后的典型日負(fù)荷曲線Fig.7 Normalized Typical Day Load Curve

在分析2007年氣候和節(jié)假日狀況后發(fā)現(xiàn)，2月22日處于春節(jié)長(zhǎng)假期間，而其他4條日負(fù)荷曲線則反映2007年的春、夏、秋、冬4個(gè)季節(jié)的電力負(fù)荷特征?？梢钥闯霰疚姆椒ㄕ_有效，能夠較好的反映節(jié)假日、氣候等要素對(duì)電力負(fù)荷的影響，同時(shí)由于采用了概率分析的方法，減少了主觀和隨機(jī)因素，對(duì)時(shí)間和區(qū)域的適應(yīng)性較好。

4 結(jié)論

本文將典型日負(fù)荷曲線的選取問(wèn)題轉(zhuǎn)化為基于統(tǒng)計(jì)學(xué)習(xí)的多元分類問(wèn)題，并將PLSA引入到問(wèn)題求解過(guò)程中，在 K均值聚類算法和 Davies－Bouldin指標(biāo)的基礎(chǔ)上，利用PLSA模型對(duì)電力負(fù)荷數(shù)據(jù)進(jìn)行語(yǔ)義潛在分析，從而優(yōu)化典型日負(fù)荷曲線的選取。實(shí)驗(yàn)表明，本文方法選取的典型日合理，能夠較好的反映節(jié)假日、氣候等要素對(duì)電力負(fù)荷的影響，適應(yīng)于任意時(shí)段電力負(fù)荷曲線的選取。

然而同圖像、文本聚類相比，目前電力負(fù)荷曲線的聚類效果沒(méi)有具體的量化指標(biāo)，而且典型日選擇時(shí)需要綜合考慮各種情況，帶有一定的預(yù)測(cè)性質(zhì)，因此給出電力負(fù)荷曲線聚類質(zhì)量的量化指標(biāo)較為困難，也是進(jìn)一步研究的內(nèi)容。

［1］牛東曉，曹樹華，盧建昌，等.電力負(fù)荷預(yù)測(cè)技術(shù)及其應(yīng)用 (第二版) ［M］.北京:中國(guó)電力出版社，2009.

［2］蔡國(guó)偉，王大亮，王燕濤，等.一種基于最短距離聚類與關(guān)聯(lián)度分析的典型日選取新方法［J］.中國(guó)電力，2008，41(04):15－18.

［3］劉莉，王剛，翟登輝.k－means聚類算法在負(fù)荷曲線分類中的應(yīng)用［J］.電力系統(tǒng)保護(hù)與控制，2011，39(23):65－73.

［4］黎祚，周步祥，林楠.基于模糊聚類與改進(jìn)BP算法的日負(fù)荷特性曲線分類與短期負(fù)荷預(yù)測(cè) ［J］.電力系統(tǒng)保護(hù)與控制，2012，40(3)，56－60.

［5］李智勇，吳晶瑩，吳為麟，等.基于自組織映射神經(jīng)網(wǎng)絡(luò)的電力用戶負(fù)荷曲線聚類［J］.電力系統(tǒng)自動(dòng)化，2008，32(15):70－74.

［6］蔡佳宏，劉俊勇.超短期負(fù)荷預(yù)測(cè)中相似日的選擇方法［J］.華北電力大學(xué)學(xué)報(bào) (自然科學(xué)版)，2006，33(1):38－41.

［7］Yi W B，Tang H，Chen Y H.An object－oriented semantic clustering algorithm for High－resolution remote sensing images using the aspect model［J］.IEEE Geoscience ang Remote Sensing Letters，2011，8(03):522－526.

［8］陶超，譚毅華，彭碧發(fā)，等.一種基于概率潛在語(yǔ)義模型的高分辨率遙感影像分類方法［J］.測(cè)繪學(xué)報(bào)，2011，40(2):156－162.

［9］劉夢(mèng)玲，何楚，蘇鑫，等.基于 pLSA和 Topo－MRF模型的SAR圖像分類算法研究［J］.武漢大學(xué)學(xué)報(bào) (信息科學(xué)版)，2011，36(1):122－125.

［10］江悅，潤(rùn)生.基于多特征擴(kuò)展 PLSA模型的場(chǎng)景圖像分類［J］.信號(hào)處理，2010，26(4):539－544.

［11］Hofmann T.Unsupervised learning by probabilistic latent semantic analysis［J］.Machine Learning，2001，42(2):177－196.

［12］鄭肇葆，鄭宏.利用PLSA技術(shù)進(jìn)行圖像分割［J］.武漢大學(xué)學(xué)報(bào) (信息科學(xué)版)，2012，37(2):132－135.

［13］白素琴，吳小俊.基于模糊聚類算法的有效性指標(biāo)［J］.江南大學(xué)學(xué)報(bào) (自然科學(xué)版)，2007，6(6):878－882.