• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于語(yǔ)義聚類的典型日負(fù)荷曲線選取方法

      2013-09-13 06:13:22孟令奎段紅偉黃長(zhǎng)青
      關(guān)鍵詞:特征詞文檔典型

      孟令奎,段紅偉,黃長(zhǎng)青,孫 琤

      (1.武漢大學(xué) 遙感信息工程學(xué)院,湖北 武漢 430079;2.中兵勘察設(shè)計(jì)研究院,北京 100053)

      0 引言

      典型日對(duì)于電力負(fù)荷特性的研究具有重要的意義,通過(guò)典型日負(fù)荷曲線可以分析地區(qū)用電特點(diǎn)和影響因素,預(yù)估負(fù)荷特性變化趨勢(shì)。目前,典型日負(fù)荷曲線的選取方法沒(méi)有統(tǒng)一的規(guī)定,主要是從簡(jiǎn)單實(shí)用的角度出發(fā)或選取某一特定日,或基于簡(jiǎn)單的加權(quán)平均,在時(shí)段代表性和區(qū)域通用性上效果不太理想[1]。有學(xué)者利用數(shù)據(jù)挖掘和人工智能技術(shù)來(lái)解決上述不足,文獻(xiàn) [2]基于最短距離聚類與關(guān)聯(lián)度分析來(lái)優(yōu)化典型日負(fù)荷曲線的選取,文獻(xiàn) [3]利用K均值聚類算法,在相關(guān)指數(shù)基礎(chǔ)上提取日負(fù)荷特征曲線。還有學(xué)者[4~6]采用了其他魯棒性更好的算法來(lái)提高聚類的精度,進(jìn)而優(yōu)化典型日負(fù)荷曲線的提取。由于在時(shí)段和區(qū)域關(guān)聯(lián)分析上缺少潛在性語(yǔ)義分析,上述方法在時(shí)段和區(qū)域的通用性上靈活性不夠。

      概率潛在語(yǔ)義分析模型 (Probabilistic Latent Semantic Analysis,PLSA)是一種自然語(yǔ)言處理(NLP)技術(shù),最初用于提取文檔的語(yǔ)義信息來(lái)實(shí)現(xiàn)文檔主題提取和分類,目前已經(jīng)廣泛用于圖像聚類[7~9]、場(chǎng)景標(biāo)注和分類[10]等方面。

      本文將典型日負(fù)荷曲線的選取問(wèn)題轉(zhuǎn)化為基于統(tǒng)計(jì)學(xué)習(xí)的多元分類問(wèn)題,利用PLSA模型將其他典型日負(fù)荷曲線提取結(jié)果作為初始特征輸入,然后對(duì)電力負(fù)荷數(shù)據(jù)進(jìn)行語(yǔ)義潛在分析,通過(guò)概率學(xué)習(xí)來(lái)優(yōu)化典型日負(fù)荷曲線的選取。

      1 PLSA模型基礎(chǔ)

      PLSA模型[11]由 Hofmann提出,最早用于統(tǒng)計(jì)文本分析。PLSA通過(guò)分析由文檔和詞匯形成的共生矩陣,利用期望最大化算法 (Expectation Maximization,EM)來(lái)訓(xùn)練隱含類,從而獲取文檔與詞匯的語(yǔ)義信息。

      PLSA概率生成模型如圖1所示,其中方框表示隨機(jī)變量的重復(fù),字母N和M表示有N個(gè)目標(biāo),每個(gè)目標(biāo)可以用M個(gè)特征來(lái)描述。假定M個(gè)特征組成一組特征集 W={w1,w2,…,wm},其描述的N個(gè)目標(biāo)形成一個(gè)目標(biāo)集為 D={d1,d2,… ,dn},D和W形成一個(gè) N×M的共生矩陣 T=(t(wi,dj))ij,其中 t(wi,dj) 表示特征 wi在目標(biāo) dj中出現(xiàn)的頻率。共生矩陣T中,每一對(duì)觀測(cè)數(shù)據(jù)(wi,dj) 與一組潛在語(yǔ)義主題 Z={z1,z2,…,zk}相關(guān),其中k為人為指定的一個(gè)常數(shù)。

      PLSA在上述描述基礎(chǔ)上建立了一個(gè)生成式模型 (generative model),每對(duì) (wi,dj)都由下述過(guò)程產(chǎn)生。

      (1)首先根據(jù)目標(biāo)dj在目標(biāo)集D中出現(xiàn)的分布概率P(dj)從D中隨機(jī)抽樣選擇一個(gè)目標(biāo)dj;

      (2)選定 dj后,根據(jù) dj的主題 zk分布概率P(zk|dj)抽樣選擇dj的語(yǔ)義主題zk;

      (3)選定語(yǔ)義主題zk后,根據(jù)P(wi|zk)選擇 dj的特征詞 wi。

      上述過(guò)程中每組觀測(cè)數(shù)據(jù) (wi,dj)條件概率可以采用聯(lián)合概率模型來(lái)描述其概率分布,具體公式如式 (1)和式 (2)所示。

      圖1 PLSA概率生成模型圖Fig.1 The chart of PLSA probabilistic generative model

      P(w|z)和P(z|d)通過(guò)極大似然函數(shù)求解,函數(shù)定義如式 (3)[12]所示。

      似然函數(shù)L的最大化需要采用期望極大化(EM)算法進(jìn)行多次迭代,當(dāng)滿足收斂條件時(shí)停止迭代,獲得文檔與詞匯的語(yǔ)義信息。

      EM算法在兩個(gè)步驟交替,即 E-Step和 MStep。E-Step利用當(dāng)前估計(jì)的參數(shù)值計(jì)算潛在主題zk的后驗(yàn)概率 P(zk|wi,dj),如式(4)所示;M-Step基于所給后驗(yàn)概率更新參數(shù)值P(wi|zk)和P(zk|dj)。

      2 方法流程

      同其它數(shù)據(jù)挖掘和人工智能方法相比,PLSA模型的優(yōu)勢(shì)在于可以將這些方法的結(jié)果作為初始輸入,通過(guò)概率分析找到潛在的類別信息,從而進(jìn)一步優(yōu)化目標(biāo)識(shí)別和分類,并能建立識(shí)別和分類模型。

      圖2為基于PLSA的典型日選取方法流程圖。如圖2所示,將PLSA模型應(yīng)用于典型日負(fù)荷曲線選取時(shí)包括以下幾個(gè)步驟。

      (1)構(gòu)建特征詞-目標(biāo)矩陣

      首先利用適當(dāng)?shù)牟呗?,如特殊日法、加?quán)平均法、智能算法或綜合方法生成一組典型日。然后綜合考慮聚多種因素,將典型日進(jìn)行初始選取,選取結(jié)果形成一個(gè)觀測(cè)特征詞集合。根據(jù)電力負(fù)荷曲線結(jié)合的時(shí)間特性,對(duì)其進(jìn)行時(shí)段劃分,形成目標(biāo)文檔。最后將目標(biāo)文檔中的各電力負(fù)荷曲線同觀測(cè)特征值進(jìn)行閾值計(jì)算,統(tǒng)計(jì)各文檔中觀測(cè)特征值的頻數(shù),獲取特征詞-目標(biāo)共生矩陣。

      (2)計(jì)算文檔中特征詞的主題

      PLSA模型計(jì)算主題時(shí),首先需要確定主題(即聚類的類別)的數(shù)目,通過(guò)采用最優(yōu)指標(biāo)算法來(lái)求解最佳主題數(shù),從而形成最優(yōu)的聚類結(jié)果。然后根據(jù)主題數(shù)目和特征詞-目標(biāo)共生矩陣計(jì)算PLSA模型參數(shù)P(wi|zk),P(zk|dj)和P(zk|wi,dj),P(zk|wi,dj) 是一個(gè) 3 維矩陣,從中可以獲得每個(gè)目標(biāo)文檔中特征詞的潛在主題。

      (3)獲取各電力負(fù)荷曲線的主題

      在 (1)中,電力負(fù)荷曲線同特征詞的對(duì)應(yīng)關(guān)系可以通過(guò)哈希表進(jìn)行記錄,通過(guò)兩者的對(duì)應(yīng)關(guān)系,可以從P(zk|wi,dj)中獲得各電力負(fù)荷曲線的潛在主題,從而可以對(duì)日負(fù)荷曲線進(jìn)行新的類別劃分,形成新的聚類。

      (4)基于策略獲取典型日簇

      在求得的電力負(fù)荷曲線類別簇中,根據(jù)實(shí)際情況可以采用不同的典型日選取策略,從而建立進(jìn)而獲得各類別簇的典型日。這些典型日形成典型日簇,能夠代表時(shí)段內(nèi)不同時(shí)期的典型電力負(fù)荷。

      圖2 基于PLSA的典型日選取方法流程圖Fig.2 Typical day load selection flow chart based on PLSA

      3 實(shí)驗(yàn)與分析

      本文實(shí)驗(yàn)所用數(shù)據(jù)為某地區(qū)2007全年統(tǒng)調(diào)負(fù)荷曲線,每日負(fù)荷曲線為96個(gè)采樣點(diǎn),即采樣間隔15 min。初始的典型日采用K均值法聚類方法對(duì)上述數(shù)據(jù)計(jì)算求得。

      原始數(shù)據(jù)由EMS(Energy Manage System)系統(tǒng)自動(dòng)采集獲取,可能出現(xiàn)個(gè)別采樣點(diǎn)缺失、激變性壞數(shù)據(jù),因此在使用數(shù)據(jù)前需進(jìn)行數(shù)據(jù)預(yù)處理。圖3為經(jīng)過(guò)通過(guò)臨近負(fù)荷曲線分析,通過(guò)內(nèi)插得到的預(yù)處理結(jié)果。

      圖3 預(yù)處理后日負(fù)荷曲線簇Fig.3 preprocessing Typical Day Load Curves

      3.1 特征詞-目標(biāo)文檔共生矩陣

      為了建立特征詞-目標(biāo)文檔矩陣,本文首先基于K均值聚類方法,以聚類數(shù)為25得到25條聚類負(fù)荷曲線,每個(gè)聚類負(fù)荷曲線作為一個(gè)特征詞;然后將2007年全年負(fù)荷曲線按照季度劃分,從而建立4個(gè)觀測(cè)目標(biāo)文檔;最后計(jì)算各特征詞在目標(biāo)文檔中出現(xiàn)的頻數(shù),從而建立特征詞-目標(biāo)文檔共生矩陣。

      表1為建立4×25的目標(biāo) -特征詞共生矩陣,矩陣單元代表了特征詞在目標(biāo)中出現(xiàn)的頻數(shù)。

      表1 4×25目標(biāo)文檔-特征詞共生矩陣Tab.1 4 × 25 target document-characteristic words co-occurrence matrix

      3.2 PLSA主題數(shù)目

      PLSA模型計(jì)算中主題數(shù)目直接影響聚類結(jié)果。為了得到最佳的聚類結(jié)果,本文采用Davies-Bouldin(DB)[13]對(duì)聚類主題進(jìn)行分析。DB是關(guān)于聚類內(nèi)部緊致性和聚類之間分離度的有效性函數(shù),其函數(shù)表達(dá)式如下式所示。

      式中:k表示聚類個(gè)數(shù);Si獲取聚類內(nèi)部的緊致性;Bij獲得聚類之間分離度;DB值最小的k值表示最優(yōu)化主題數(shù)目。

      圖4為不同聚類主題數(shù)同DB指標(biāo)關(guān)系圖,從圖中可以看出,聚類主題數(shù)取2時(shí),DB指標(biāo)最高,代表聚類效果差。當(dāng)聚類主題數(shù)大于3時(shí),指標(biāo)下降并基本趨于穩(wěn)定。根據(jù)實(shí)際工作分析,本文選取聚類主題數(shù)k=5作為PLSA模型的主題數(shù)。

      圖4 聚類主題數(shù)同DB指標(biāo)關(guān)系Fig.4 The relationship between cluster number and DB Index

      3.3 PLSA模型計(jì)算

      PLSA通過(guò) EM迭代計(jì)算,其中 E-Step迭代計(jì)算潛在主題 zk的后驗(yàn)概率P(zk|wi,dj),M-Step基于P(zk|wi,dj)更新參數(shù)值P(wi|zk)和P(zk|dj)。在迭代過(guò)程中,利用上述參數(shù)計(jì)算 Log似然度,當(dāng)滿足收斂條件時(shí)停止迭代。

      (1)收斂條件設(shè)定

      為了設(shè)定收斂條件,假設(shè)PLSA第i(i>1)次迭代計(jì)算的 Log似然度 L(i),dL(i)為 L(i)和L(i-1)的差值。當(dāng)dL(i)小于設(shè)定的閾值時(shí)則迭代結(jié)束。

      圖5為閾值設(shè)定為0.01時(shí),dL的變化趨勢(shì)。當(dāng)?shù)螖?shù)為34時(shí),dL小于閾值,迭代結(jié)束。由于迭代計(jì)算中,各計(jì)算概率首先基于隨機(jī)參數(shù),所以在迭代初期,dL的數(shù)值和變化較大,隨著跌代數(shù)的增加,其數(shù)值和變化越來(lái)越小。

      圖5 dL迭代變化圖Fig.5 dL iteration chang chart

      (2)Log似然度

      Log似然度計(jì)算是PLSA模型計(jì)算的重要步驟,它不僅用于計(jì)算P(w|z)和P(z|d)概率參數(shù),同時(shí)也關(guān)系到迭代計(jì)算的收斂。

      圖6為L(zhǎng)og似然度隨迭代變化圖,其中橫坐標(biāo)代表代表迭代次數(shù),縱坐標(biāo)代表Log似然度。為了描述方便,本文將Log似然度進(jìn)行歸一化處理。

      圖6 Log似然度迭代變化圖Fig.6 Log-Likelihood iteration change chart

      可以看出,從第1次到第13次迭代,Log似然度收斂很快,而當(dāng)?shù)螖?shù)大于等于30的時(shí)候,Log似然度變化很小,基本上不再變化。表2為30至34迭代的歸一化Log似然度同dl的對(duì)照表。

      表2 30~34迭代的歸一化Log似然度同dl的對(duì)照表Tab.2 30 ~ 34 iteration comparison chart of Normalized Log-Likelihood and dl values

      3.4 典型日負(fù)荷曲線選取

      通過(guò)PLSA模型計(jì)算,可以獲得最終的概率參 數(shù), 包 括 P(zk|wi,dj),P(wi|zk) 和P(zk|dj)。而P(zk|wi,dj)為 4×25×5的三維矩陣,記錄了每個(gè)目標(biāo)文檔中特征詞的潛在主題的概率。由于初始聚類時(shí),各電力負(fù)荷曲線同特征詞之間具有對(duì)應(yīng)關(guān)系,因此可以通過(guò)對(duì)應(yīng)關(guān)系獲得各電力負(fù)荷曲線的潛在主題,形成新的聚類,進(jìn)而在各聚類中選取典型日。

      在各聚類中選取典型日,需根據(jù)實(shí)際工作情況,通過(guò)一定的選取策略獲得典型日負(fù)荷。這些策略一般基于最大負(fù)荷日,或者基于固定工作日,或者依據(jù)選擇一定天數(shù)的日負(fù)荷曲線進(jìn)行加權(quán)計(jì)算獲得,或者利用人工智能算法來(lái)獲取典型日,由于人工智能算法能夠減少隨機(jī)因素和主觀因素的影響,本文基于距聚類中心的平方差最小的選取方法來(lái)提取出最具代表性的負(fù)荷曲線。圖7為歸一化后的選取結(jié)果,5條典型日負(fù)荷曲線分別為2007年的2月23日、3月11日、5月30日、9月8日、11月5日。

      圖7 歸一化后的典型日負(fù)荷曲線Fig.7 Normalized Typical Day Load Curve

      在分析2007年氣候和節(jié)假日狀況后發(fā)現(xiàn),2月22日處于春節(jié)長(zhǎng)假期間,而其他4條日負(fù)荷曲線則反映2007年的春、夏、秋、冬4個(gè)季節(jié)的電力負(fù)荷特征??梢钥闯霰疚姆椒ㄕ_有效,能夠較好的反映節(jié)假日、氣候等要素對(duì)電力負(fù)荷的影響,同時(shí)由于采用了概率分析的方法,減少了主觀和隨機(jī)因素,對(duì)時(shí)間和區(qū)域的適應(yīng)性較好。

      4 結(jié)論

      本文將典型日負(fù)荷曲線的選取問(wèn)題轉(zhuǎn)化為基于統(tǒng)計(jì)學(xué)習(xí)的多元分類問(wèn)題,并將PLSA引入到問(wèn)題求解過(guò)程中,在 K均值聚類算法和 Davies-Bouldin指標(biāo)的基礎(chǔ)上,利用PLSA模型對(duì)電力負(fù)荷數(shù)據(jù)進(jìn)行語(yǔ)義潛在分析,從而優(yōu)化典型日負(fù)荷曲線的選取。實(shí)驗(yàn)表明,本文方法選取的典型日合理,能夠較好的反映節(jié)假日、氣候等要素對(duì)電力負(fù)荷的影響,適應(yīng)于任意時(shí)段電力負(fù)荷曲線的選取。

      然而同圖像、文本聚類相比,目前電力負(fù)荷曲線的聚類效果沒(méi)有具體的量化指標(biāo),而且典型日選擇時(shí)需要綜合考慮各種情況,帶有一定的預(yù)測(cè)性質(zhì),因此給出電力負(fù)荷曲線聚類質(zhì)量的量化指標(biāo)較為困難,也是進(jìn)一步研究的內(nèi)容。

      [1]牛東曉,曹樹華,盧建昌,等.電力負(fù)荷預(yù)測(cè)技術(shù)及其應(yīng)用 (第二版) [M].北京:中國(guó)電力出版社,2009.

      [2]蔡國(guó)偉,王大亮,王燕濤,等.一種基于最短距離聚類與關(guān)聯(lián)度分析的典型日選取新方法 [J].中國(guó)電力,2008,41(04):15-18.

      [3]劉莉,王剛,翟登輝.k-means聚類算法在負(fù)荷曲線分類中的應(yīng)用 [J].電力系統(tǒng)保護(hù)與控制,2011,39(23):65-73.

      [4]黎祚,周步祥,林楠.基于模糊聚類與改進(jìn)BP算法的日負(fù)荷特性曲線分類與短期負(fù)荷預(yù)測(cè) [J].電力系統(tǒng)保護(hù)與控制,2012,40(3),56-60.

      [5]李智勇,吳晶瑩,吳為麟,等.基于自組織映射神經(jīng)網(wǎng)絡(luò)的電力用戶負(fù)荷曲線聚類 [J].電力系統(tǒng)自動(dòng)化,2008,32(15):70-74.

      [6]蔡佳宏,劉俊勇.超短期負(fù)荷預(yù)測(cè)中相似日的選擇方法 [J].華北電力大學(xué)學(xué)報(bào) (自然科學(xué)版),2006,33(1):38-41.

      [7]Yi W B,Tang H,Chen Y H.An object-oriented semantic clustering algorithm for High-resolution remote sensing images using the aspect model[J].IEEE Geoscience ang Remote Sensing Letters,2011,8(03):522-526.

      [8]陶超,譚毅華,彭碧發(fā),等.一種基于概率潛在語(yǔ)義模型的高分辨率遙感影像分類方法 [J].測(cè)繪學(xué)報(bào),2011,40(2):156-162.

      [9]劉夢(mèng)玲,何楚,蘇鑫,等.基于 pLSA和 Topo-MRF模型的SAR圖像分類算法研究 [J].武漢大學(xué)學(xué)報(bào) (信息科學(xué)版),2011,36(1):122-125.

      [10]江悅,潤(rùn)生.基于多特征擴(kuò)展 PLSA模型的場(chǎng)景圖像分類 [J].信號(hào)處理,2010,26(4):539-544.

      [11]Hofmann T.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning,2001,42(2):177-196.

      [12]鄭肇葆,鄭宏.利用PLSA技術(shù)進(jìn)行圖像分割 [J].武漢大學(xué)學(xué)報(bào) (信息科學(xué)版),2012,37(2):132-135.

      [13]白素琴,吳小俊.基于模糊聚類算法的有效性指標(biāo)[J].江南大學(xué)學(xué)報(bào) (自然科學(xué)版),2007,6(6):878-882.

      猜你喜歡
      特征詞文檔典型
      用最典型的事寫最有特點(diǎn)的人
      多項(xiàng)式求值題的典型解法
      有人一聲不吭向你扔了個(gè)文檔
      典型胰島素瘤1例報(bào)道
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      面向文本分類的特征詞選取方法研究與改進(jìn)
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      庆城县| 彩票| 灯塔市| 获嘉县| 抚州市| 汤原县| 东乌珠穆沁旗| 额敏县| 广南县| 平阳县| 新源县| 开平市| 南靖县| 二手房| 麻城市| 鹰潭市| 麻阳| 西贡区| 商洛市| 湾仔区| 嘉峪关市| 哈尔滨市| 神池县| 哈密市| 鹤壁市| 古田县| 东乡| 图们市| 怀化市| 崇州市| 克什克腾旗| 桐庐县| 南澳县| 诏安县| 资源县| 南部县| 普兰县| 阿勒泰市| 长阳| 茌平县| 淅川县|