• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      用于大數(shù)據(jù)用電類(lèi)型估計(jì)的FCM抽樣劃分聚類(lèi)

      2016-05-30 06:44:42沈弘張涌新張?jiān)?/span>徐詩(shī)甜方正賈科
      科技尚品 2016年2期
      關(guān)鍵詞:大數(shù)據(jù)

      沈弘 張涌新 張?jiān)? 徐詩(shī)甜 方正 賈科

      摘 要:對(duì)用用電大數(shù)據(jù)進(jìn)行用電類(lèi)型估計(jì)算法不足這一問(wèn)題,設(shè)計(jì)了基于模糊均值(FCM)抽樣劃分聚類(lèi)的方案。通過(guò)高斯平滑預(yù)處理消除測(cè)量數(shù)據(jù)中的波動(dòng)和噪聲;再改進(jìn)FCM模型,使之適用于用電類(lèi)型的估計(jì);最后,基于抽樣劃分和均值更新的思想,提高改進(jìn)模型的運(yùn)行性能,以運(yùn)用于用電大數(shù)據(jù)的處理。模型檢驗(yàn)和算例對(duì)比實(shí)驗(yàn),證明了該方案具有速度快,準(zhǔn)確率高的特點(diǎn),適合運(yùn)用于相關(guān)用電大數(shù)據(jù)處理上。

      關(guān)鍵詞:FCM聚類(lèi);用電數(shù)據(jù)分類(lèi);抽樣;大數(shù)據(jù);高斯平滑

      0 引言

      隨著我國(guó)智能電網(wǎng)建設(shè)加快,電網(wǎng)運(yùn)行和管理會(huì)產(chǎn)生數(shù)量巨大且結(jié)構(gòu)各異的數(shù)據(jù),即電力大數(shù)據(jù)。對(duì)這些數(shù)據(jù)的處理,是值得研究的課題。目前對(duì)電力大數(shù)據(jù)的處理技術(shù)主要是分布式計(jì)算、內(nèi)存計(jì)算、流處理技術(shù),如文獻(xiàn)[1],就從數(shù)據(jù)存儲(chǔ)上,提出了提高處理電力大數(shù)據(jù)的方案及實(shí)現(xiàn),而文獻(xiàn)[2]則給出了實(shí)時(shí)處理電力狀態(tài)檢測(cè)領(lǐng)域大數(shù)據(jù)的方法。但現(xiàn)有電力數(shù)據(jù)分析系統(tǒng),還是難以較好地滿足數(shù)據(jù)量大、處理速度快、數(shù)據(jù)類(lèi)型多、價(jià)值大、精確性高這五項(xiàng)要求,尤其在提升數(shù)據(jù)處理算法上。

      通過(guò)改進(jìn)用于電力大數(shù)據(jù)處理的數(shù)據(jù)挖掘經(jīng)典算法,使其時(shí)間復(fù)雜度、空間復(fù)雜度減少,是從數(shù)據(jù)處理方面解決該問(wèn)題的新思路。本文以電力大數(shù)據(jù)中用戶用電類(lèi)型估計(jì)為對(duì)象,提出了一套能適用于大數(shù)據(jù)環(huán)境的解決方案:首先,為減少數(shù)據(jù)噪聲和波動(dòng)提出高斯平滑預(yù)處理,提高數(shù)據(jù)的精確度。接著,設(shè)計(jì)改進(jìn)的模糊均值曲線聚類(lèi)模型,以使其適用于分析用電類(lèi)型。最后,由抽樣劃分思想,對(duì)該算法在大數(shù)據(jù)環(huán)境下的實(shí)現(xiàn)進(jìn)行了闡述,并完成算例對(duì)比實(shí)驗(yàn)。結(jié)果表明,抽樣劃分的聚類(lèi)算法比直接聚類(lèi)節(jié)省更多的運(yùn)算資源,能被有效地用于處理包括用電類(lèi)型分析在內(nèi)的電力大數(shù)據(jù)問(wèn)題,為最優(yōu)用電策略的制定提供指導(dǎo)。

      1 模糊均值曲線聚類(lèi)模型

      客戶用電數(shù)據(jù)的采集,會(huì)受到各種噪聲源的影響。而用電指標(biāo)數(shù)據(jù)的波動(dòng)性,會(huì)使得后續(xù)數(shù)據(jù)的壓縮、復(fù)現(xiàn)、故障診斷等重要功能受到不良影響。故在對(duì)用電大數(shù)據(jù)進(jìn)行處理前,通過(guò)高斯平滑濾波預(yù)處理[3],能較好地為大數(shù)據(jù)挖掘做準(zhǔn)備。對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的數(shù)據(jù),基于模糊C均值聚類(lèi),提出適用于用電用戶類(lèi)型準(zhǔn)確估計(jì)的模糊均值曲線聚類(lèi)模型。

      1.1 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理采取步驟如下:

      設(shè)原始數(shù)據(jù)為n個(gè)用戶的用電量數(shù)據(jù)矩陣,每個(gè)用戶有p個(gè)數(shù)據(jù)點(diǎn);平滑處理后數(shù)據(jù)整理成,其中;方差和窗寬w為可調(diào)參數(shù)。

      取高斯核函數(shù),表達(dá)式為:

      則系數(shù)矩陣為。

      又因?yàn)榭蛻粲秒姅?shù)據(jù)存在相似性,在較長(zhǎng)的時(shí)間內(nèi)呈現(xiàn)較強(qiáng)的周期性,故需要對(duì)原始數(shù)據(jù)X進(jìn)行補(bǔ)位操作,組成新的數(shù)據(jù)矩陣X'。補(bǔ)位處理如下:

      將X的1至[w/2]列和m-[w/2]+1至m列分別補(bǔ)到X的最后和最前,得X',X'中行向量。

      在X'中每一行向量xj'與K進(jìn)行卷積:

      得矩陣。截取W中間的n×p矩陣作為中第i行、第j列數(shù)據(jù)表達(dá)式為。

      對(duì)懷化市沅陵縣含兩類(lèi)(“鎮(zhèn)”“鄉(xiāng)”)用電類(lèi)型的采樣用電數(shù)據(jù),進(jìn)行繪制。(如圖1)

      用Matlab對(duì)上述算法進(jìn)行編程,即對(duì)數(shù)據(jù)進(jìn)行高斯平滑濾波預(yù)處理,結(jié)果如圖2所示。

      可以看到,該預(yù)處理算法,能較好地識(shí)別異常與正常數(shù)據(jù)的不一致性,并去除離群點(diǎn),還能使測(cè)量數(shù)據(jù)很好地保留原始數(shù)據(jù)的數(shù)據(jù)特征。

      1.2 模型的構(gòu)建

      經(jīng)過(guò)預(yù)處理后,所得數(shù)據(jù)準(zhǔn)確地反映實(shí)際情況,更便于聚類(lèi)工作的實(shí)施。這里,采用改進(jìn)的模糊C均值算法:模糊均值曲線聚類(lèi)。

      模糊C均值(Fuzzy C-means,F(xiàn)CM)聚類(lèi)方法[4],通過(guò)優(yōu)化目標(biāo)函數(shù)得到每個(gè)樣本點(diǎn)對(duì)所有類(lèi)中心的隸屬度,從而決定樣本點(diǎn)的類(lèi)屬以達(dá)到自動(dòng)對(duì)樣本數(shù)據(jù)進(jìn)行分類(lèi)的目的。

      因用戶用電數(shù)據(jù)往往是一段時(shí)間內(nèi),每個(gè)時(shí)間節(jié)點(diǎn)上對(duì)應(yīng)的用電信息。故對(duì)該時(shí)間段每個(gè)時(shí)間節(jié)點(diǎn)進(jìn)行整體考慮,即以用戶用電曲線為最基本樣本單元,對(duì)一定數(shù)量的用戶數(shù)據(jù)樣本單元聚類(lèi)。給出模糊均值曲線聚類(lèi)的模型描述如下:

      其中n是聚類(lèi)的樣本數(shù),c是分類(lèi)后的種類(lèi)數(shù),μ是每個(gè)樣本對(duì)應(yīng)某個(gè)種類(lèi)的模糊隸屬度,滿足且。由于針對(duì)的是許多用戶一段時(shí)期的用電量數(shù)據(jù),xi是個(gè)向量,表示第j個(gè)樣本的用電數(shù)據(jù),內(nèi)含p個(gè)數(shù)據(jù)。zi是某個(gè)種類(lèi)的聚類(lèi)中心,。m是模糊指數(shù)。

      則模糊均值曲線聚類(lèi)的具體算法步驟:

      步驟1:設(shè)置目標(biāo)函數(shù)精度σ,模糊指數(shù)m(通常取2),最大迭代次數(shù)Tm;

      步驟2:設(shè)定隸屬度μ的初值:給每個(gè)μ生成一個(gè)隨機(jī)數(shù),再對(duì)同一個(gè)樣本數(shù)據(jù)對(duì)應(yīng)的一組μ進(jìn)行標(biāo)準(zhǔn)化處理,滿足,再由式(6)初始化模糊聚類(lèi)中心Z;

      步驟3:若或迭代次數(shù)結(jié)束聚類(lèi);否則,t+1的值賦值給t,并轉(zhuǎn)到步驟5;

      步驟4:由式(5)和式(6)更新模糊隸屬度μ和模糊聚類(lèi)中心Z,返回步驟4。

      最后得到的聚類(lèi)中心Z便是聚類(lèi)結(jié)果,其可清晰地呈現(xiàn)這些樣本可以分成哪些類(lèi)型。

      1.3 模型的數(shù)據(jù)檢驗(yàn)

      對(duì)上述方法利用Matlab編程。對(duì)含兩類(lèi)用戶類(lèi)型的樣本聚類(lèi),檢驗(yàn)?zāi)P偷目尚行约皽?zhǔn)確性,結(jié)果如圖3。

      由圖1和樣本數(shù)據(jù)知,樣本中包含兩類(lèi)用電特征具有差異的用電用戶:城市用電用戶,鄉(xiāng)村用電用戶。通過(guò)模糊均值曲線聚類(lèi),兩類(lèi)特征用電用戶很明顯地被區(qū)分出來(lái)。101戶城市和101戶農(nóng)村用電用戶被準(zhǔn)確地聚類(lèi)到兩類(lèi):總體用電量較高的城市及較低的農(nóng)村用電用戶類(lèi)型,可行性和準(zhǔn)確性得到驗(yàn)證。

      2 在大數(shù)據(jù)環(huán)境下的實(shí)現(xiàn):抽樣劃分聚類(lèi)

      經(jīng)典算法對(duì)數(shù)據(jù)規(guī)模有不同程度的限制[5]。這里以數(shù)據(jù)抽樣為核心,使其適用于大數(shù)據(jù)。注意到各抽樣之間的關(guān)聯(lián),在使得獨(dú)立處理的各抽樣規(guī)模較小的同時(shí),能反映全局的處理結(jié)果?;诖耍Y(jié)合文獻(xiàn)[6],給出模糊均值曲線聚類(lèi)在大數(shù)據(jù)環(huán)境下的實(shí)現(xiàn)方案。

      2.1 抽樣

      對(duì)于抽取出來(lái)的小數(shù)據(jù)集,希望它能擁有大數(shù)據(jù)中包含的所有自然簇(共c類(lèi)),對(duì)應(yīng)實(shí)例,即包含樣本中所有用電用戶類(lèi)型?;谖墨I(xiàn),我們得出了以下抽樣公式:

      其中,S是至少需要抽取的總樣本數(shù),f是抽取到指定數(shù)據(jù)的比例,;n為數(shù)據(jù)規(guī)模;c是所有數(shù)據(jù)包含的自然簇的類(lèi)數(shù)。

      定義總抽樣次數(shù)為,則每次抽樣的樣本容量為。

      用電大數(shù)據(jù)的數(shù)據(jù)規(guī)模往往非常大,即。按上述方法對(duì)樣本進(jìn)行抽樣處理。

      2.2 自然簇質(zhì)心初步位置的確定方法

      在2.1的基礎(chǔ)上,假設(shè)所有抽樣的并集對(duì)所有類(lèi)別的自然簇具有理想的覆蓋度,抽樣所包含的自然簇具有與原數(shù)據(jù)集近似位置的質(zhì)心。分兩步確定自然簇質(zhì)心的初步位置:

      第一步:由于設(shè)定抽樣規(guī)模較小,對(duì)每個(gè)抽樣的聚類(lèi)可采用經(jīng)典算法,所以在1.2節(jié)中模糊曲線聚類(lèi)的聚類(lèi)過(guò)程會(huì)很快。因?yàn)槊總€(gè)抽樣都具有相同的規(guī)模,且聚類(lèi)過(guò)程都是獨(dú)立進(jìn)行的,故可實(shí)行并行處理,減少大量運(yùn)行時(shí)間。

      設(shè)總樣本大數(shù)據(jù)集(類(lèi)別數(shù)為c)的一個(gè)抽樣覆蓋c'個(gè)類(lèi)別。由于1≤c'第二步:由第一步得到c×M個(gè)小簇,計(jì)算每小簇的均

      nj為該簇ci的數(shù)據(jù)規(guī)模,aij為cj中某一樣本的屬性。用均值代表該簇,得規(guī)模為c×M的數(shù)據(jù)集A。采用模糊均值曲線算法對(duì)A進(jìn)行聚類(lèi),得c個(gè)簇,則使得c×M個(gè)小簇合并成c個(gè)大簇。計(jì)算這c個(gè)大簇的均值,即可確定自然簇質(zhì)心的初步位置。

      2.3 均值的更新

      由于采用數(shù)據(jù)的局部信息,簇質(zhì)心的初步位置通常會(huì)偏離原數(shù)據(jù)集的簇質(zhì)心,需要利用均值更新進(jìn)行初步位置的校正??梢愿鶕?jù)與c個(gè)初始質(zhì)心的遠(yuǎn)近,將未被利用的剩余數(shù)據(jù)樣本按距離,分配至最近的簇中。利用這一分類(lèi)原則,有:

      為未確定類(lèi)別的樣本屬性,為已經(jīng)確定的類(lèi)別。

      一個(gè)數(shù)據(jù)樣本按上述分類(lèi)被填入某一簇ci時(shí),該簇的均值發(fā)生更新:

      隨剩余數(shù)據(jù)的加入,均值位置也不斷更新,并向自然簇的真實(shí)中心移動(dòng),直至更新完成。

      2.4 劃分?jǐn)?shù)據(jù)

      解決方案的最關(guān)鍵一步,是利用2.3節(jié)確定好的自然簇質(zhì)心對(duì)數(shù)據(jù)集進(jìn)行劃分,劃分原則仍采用式(8)最小距離法的思想,即通過(guò)離簇質(zhì)心的遠(yuǎn)近,確定數(shù)據(jù)的最終類(lèi)別歸屬。

      2.5 算例對(duì)比實(shí)驗(yàn)

      為檢驗(yàn)抽樣劃分聚類(lèi)算法的可行性,及其較傳統(tǒng)直接聚類(lèi)的優(yōu)勢(shì),進(jìn)行算例對(duì)比實(shí)驗(yàn)。

      在大數(shù)據(jù)條件下,設(shè)用戶個(gè)數(shù)為n(),把所有用戶數(shù)據(jù)都帶入模糊均值曲線聚類(lèi)算法,直接通過(guò)Matlab的程序運(yùn)行。首先,隸屬度和聚類(lèi)中心的初始化進(jìn)行了次循環(huán),然后進(jìn)入迭代。設(shè)迭代次數(shù)為T(mén),迭代中更新隸屬度和聚類(lèi)中心也需要次循環(huán),故總的循環(huán)次數(shù)。

      在抽樣劃分聚類(lèi)中,類(lèi)似上述步驟,在質(zhì)心位置初步計(jì)算中循環(huán)次數(shù)為,均值更新需要消耗次運(yùn)算,故總循環(huán)次數(shù)。

      已知,對(duì)比兩種方法的循環(huán)次數(shù):

      即,以抽樣劃分為核心的聚類(lèi)算法可從時(shí)間、空間上,節(jié)省大量的運(yùn)算資源。

      3 結(jié)論

      本文首先提出了高斯平滑濾波預(yù)處理,對(duì)用電數(shù)據(jù)中噪聲和波動(dòng)進(jìn)行排除,使測(cè)量數(shù)據(jù)更真實(shí)地反映用電特征。隨后,通過(guò)數(shù)據(jù)檢驗(yàn),證明了改進(jìn)的模糊均值曲線聚類(lèi)模型的可行性和準(zhǔn)確性。最后,通過(guò)算例對(duì)比實(shí)驗(yàn),得到了抽樣劃分將大大減少模糊均值曲線聚類(lèi)算法的循環(huán)次數(shù),從而提升其運(yùn)行效率,以適用于大數(shù)據(jù)環(huán)境的結(jié)論。為彌補(bǔ)抽樣帶來(lái)的信息利用率較低的問(wèn)題,本文采用均值更新的方法,使結(jié)果更加精確。利用基于抽樣劃分的FCM聚類(lèi)方法,處理用電大數(shù)據(jù),能在短時(shí)間內(nèi)完成對(duì)用電用戶類(lèi)型的劃分,實(shí)現(xiàn)預(yù)測(cè)用電趨勢(shì),便于調(diào)度中心調(diào)度,為客戶用電提供建議等相關(guān)功能,具有重要的研究意義。

      參考文獻(xiàn)

      [1]毛羽豐.基于云計(jì)算的海量電力數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué),2015.

      [2]周?chē)?guó)亮,朱永利,王桂蘭,等.實(shí)時(shí)大數(shù)據(jù)處理技術(shù)在狀態(tài)監(jiān)測(cè)領(lǐng)域中的應(yīng)用[J].電工技術(shù)學(xué)報(bào),2014,29(S1):432-437.

      [3]賴家文.客戶用電信息智能化分析系統(tǒng)的研究與開(kāi)發(fā)[D].廣東工業(yè)大學(xué),2014.

      [4]李引.聚類(lèi)算法的研究與應(yīng)用[D].江南大學(xué),2013.

      [5]盧志茂,馮進(jìn)玫,范冬梅,楊朋,等.面向大數(shù)據(jù)處理的劃分聚類(lèi)新方法[J].系統(tǒng)工程與電子技術(shù),2014,36(5):1010-1015.

      [6]Sudipto G,Rajeev R,Kyuseok S.Cure:an efficient clustering algorithm for large databases [J].Information Systems,2001,26(1):33-58.

      (作者單位:華北電力大學(xué)電氣與電子工程學(xué)院)

      猜你喜歡
      大數(shù)據(jù)
      基于在線教育的大數(shù)據(jù)研究
      “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
      基于大數(shù)據(jù)的小微電商授信評(píng)估研究
      大數(shù)據(jù)時(shí)代新聞的新變化探究
      商(2016年27期)2016-10-17 06:26:00
      淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
      今傳媒(2016年9期)2016-10-15 23:35:12
      “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
      今傳媒(2016年9期)2016-10-15 22:09:11
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      宜州市| 合川市| 宣武区| 永和县| 绥滨县| 边坝县| 镇巴县| 城步| 邓州市| 鱼台县| 永泰县| 山阴县| 富民县| 淄博市| 彭阳县| 汉沽区| 平陆县| 德安县| 全州县| 仪征市| 贡觉县| 东安县| 乌海市| 北京市| 青川县| 获嘉县| 三亚市| 福建省| 昔阳县| 敖汉旗| 南康市| 伊金霍洛旗| 和田县| 岳普湖县| 伊春市| 漯河市| 南木林县| 仙居县| 青铜峡市| 六枝特区| 桃江县|