• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Spark的大電網廣域時空序列分析平臺構建

      2017-01-10 02:15:13袁寶超劉道偉劉麗平王澤忠
      電力建設 2016年11期
      關鍵詞:廣域單機數據量

      袁寶超,劉道偉,劉麗平,王澤忠

      (1.華北電力大學電氣與電子工程學院,北京市 102206;2.中國電力科學研究院,北京市 100192)

      基于Spark的大電網廣域時空序列分析平臺構建

      袁寶超1,劉道偉2,劉麗平2,王澤忠1

      (1.華北電力大學電氣與電子工程學院,北京市 102206;2.中國電力科學研究院,北京市 100192)

      為了適應能源互聯(lián)網發(fā)展趨勢及日益復雜的運行環(huán)境,亟需依托大數據技術,提升能源互聯(lián)網多源大數據的挖掘深度及應用效率。首先,針對大電網廣域時空序列數據,闡述了Spark在分布式計算中的優(yōu)勢,闡明大數據平臺建設目標,設計了基于Spark的電力大數據平臺架構,并對平臺各個層次進行詳細的論述。其次,描述了Spark針對電網時空序列數據的處理過程。最后,在搭建的Spark和Hadoop實驗環(huán)境基礎上,對典型聚類算法進行性能對比測試,驗證了Spark相對于Hadoop的MapReduce計算模型數據處理的優(yōu)勢,為下一步研究工作奠定了基礎。

      能源互聯(lián)網;Spark;時空序列;流計算;聚類

      0 引 言

      伴隨著能源互聯(lián)網建設進程的穩(wěn)步推進,互聯(lián)網、新能源和可再生能源技術深度融合,電網將逐漸演變成具有廣泛互聯(lián)、高度智能、開放互動和自主行為的復雜能源網絡[1-3]。傳統(tǒng)的電力系統(tǒng)運行模式將發(fā)生巨大改變,在信息流、能量流2種載荷交錯運行的情況下,多源數據規(guī)模呈現出爆發(fā)式增長趨勢,致使電網在海量數據獲取、管理與分析,安全穩(wěn)定運行等方面面臨嚴峻的挑戰(zhàn)[4-6]。

      近年來,國內外大停電事故時有發(fā)生,暴露了傳統(tǒng)的離線預決策方式已經不能滿足大電網穩(wěn)定控制技術要求[7-10]。新一代智能電網調度技術支持系統(tǒng)(D5000)實現了大電網運行狀態(tài)的廣域測量,為實現信息驅動的大電網在線安全評估與防控提供了數據平臺基礎。電力大數據服務應用作為能源領域的國家戰(zhàn)略,為加強廣域時空序列數據在大電網安全防控中的應用,提升對廣域信息的綜合分析、處理能力,滿足海量數據存儲、管理需求,提供了重要的技術支撐手段[11-14]。

      在大數據技術領域中,Spark是繼Hadoop之后的新一代大數據分布式處理平臺。目前,已經有部分專家學者針對Spark平臺在電力系統(tǒng)中的應用展開了研究。文獻[15]基于Spark平臺和多變量L2-Boosting回歸模型建立了分布式能源系統(tǒng)短期負荷預測方法;文獻[16]提出了在Spark環(huán)境下電力變壓器監(jiān)測數據并行診斷方法;文獻[17]在Spark環(huán)境下通過粒子群優(yōu)化算法對最小二乘支持向量機的參數進行調優(yōu),提出短期分布式電力負荷預測方法;文獻[18]提出了基于Spark和聚類分析的電力系統(tǒng)不良數據辨識新方法。以上文獻所述方法取得了不錯的效果,但均未指明Spark平臺在電力系統(tǒng)中應用的具體設計方案以及相較于同類大數據平臺的數據處理優(yōu)勢。

      本文以大電網采集的廣域時空序列數據為基礎,設計基于Spark的廣域時空序列大數據分析平臺。在此基礎上,搭建Spark實驗室環(huán)境,為研究基于Spark的電力大數據平臺的有效性,分別采用Spark和Hadoop的MapReduce分布式計算框架對典型K-Means算法進行性能對比測試,由此驗證Spark在時空序列處理速度上相較于同類平臺的高效性。

      1 Spark分布式平臺優(yōu)勢

      1.1 計算優(yōu)勢

      Spark分布式計算性能相比于Hadoop的MapReduce模型在性能上有很大的提升,表1展示了2014年在Daytona GraySort測試中Spark與Hadoop的對比結果[19]。

      表1 Spark和Hadoop對比

      Table 1 Comparison between Spark and Hadoop

      從表1中可以看出排序100 TB的數據(1萬億條數據),Spark只用了Hadoop十分之一的計算資源,但耗時只有其三分之一。由于Spark內部優(yōu)秀的容錯和調度機制,使其具有強大的分布式計算能力。

      1.2 集成優(yōu)勢

      Spark為批處理(Spark Core)、交互式查詢引擎(Spark SQL)、流式數據處理引擎(Spark Streaming)、機器學習庫(MLlib)、圖計算(GraphX)提供了統(tǒng)一的數據處理平臺。并且各個組件間輸入輸出數據可以無縫共享,無須格式轉換。因此,Spark在數據分析處理過程中,效率更高,相較于同類平臺具有很大優(yōu)勢。

      (1)MLlib:機器學習是實現人工智能的核心思想和方法,為有效提升電網智能化實時感知及廣域協(xié)調控制水平,自然離不開機器學習算法的支撐。

      (2)Spark SQL:高度優(yōu)化的SQL查詢引擎,可針對電網離線或實時數據查詢請求進行高速處理,為電網海量數據查詢與處理提供了強有力的保障。

      (3)Spark Streaming:基于微批量方式的計算和處理的流計算引擎,可用于處理實時流數據。針對廣域測量系統(tǒng)采集的實時數據,只需設置合理的批處理間隔,即可完成對數據的實時分析與處理。

      (4)GraphX:電網是一個典型的復雜網絡系統(tǒng),應用復雜網絡理論和圖計算方法,可加深對電網拓撲結構以及網絡特性間關聯(lián)關系的深入研究。

      由此可見,Spark中集成的各個組件在電力大數據中均可得到應用,而同類平臺則需要相互協(xié)調互為補充才能實現Spark所具備的功能。這樣可避免不同平臺間數據傳輸帶來的數據格式轉換、數據共享等弊端。

      2 基于Spark的電力大數據平臺架構

      2.1 平臺目標

      電力系統(tǒng)傳統(tǒng)安全防控模式下,依靠“建模+仿真”模型,智能化水平不高,并且受到參數、模型等制約,對廣域測量信息的挖掘深度不足,時效性也很難得到保證。

      建立基于大數據技術的信息驅動模式主要目標為滿足對大電網海量時空序列數據的高效分析與處理,動態(tài)跟蹤電網時空序列演變過程。同時,更好地結合機器學習、復雜網絡等理論,對大電網多維度時空動力學行為進行量化評估、自適應廣域協(xié)同控制等。

      如圖1所示,將二者相互結合,互為補充,可進一步深度挖掘時空序列信息的關聯(lián)關系與電網時空演變特性。

      2.2 平臺架構

      基于電網廣域時空序列數據,構建以Spark為核心的數據分析平臺,如圖2所示,主要包括以下幾個層次。

      圖1 電力大數據平臺建設目標

      圖2 電網時空序列數據分析大數據平臺

      該平臺旨在構建以信息驅動為主的電網信息-物理耦合系統(tǒng),從復雜的信息網絡中提取主導電網運行狀態(tài)的關鍵特征,通過計算、通信、控制等技術,利用信息-物理間的相互作用及反饋,提升電網的智能化實時感知和廣域協(xié)調控制能力,保障電網的安全穩(wěn)定運行。

      2.2.1 采集層

      Flume是一個分布式、高可靠、高可用的海量日志采集、聚合、傳輸系統(tǒng),負責實時數據的采集。

      2.2.2 數據統(tǒng)一接入層

      由于電網數據采集、存儲、處理速度不一定同步,使用分布式消息隊列Kafka[20]作為數據中心管道。同時,為數據流環(huán)節(jié)的數據規(guī)范,傳輸給Kafka的數據按規(guī)定格式輸出,避免后端多種接入方式的數據處理問題。

      2.2.3 數據存儲層

      為滿足電網時空序列信息高質量獲取與整合、流式數據高速索引及存儲、錯誤自動檢測等功能,該平臺以分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)作為底層分布式存儲系統(tǒng),配合多種NoSQL數據庫,為大規(guī)模海量數據存儲提供了強大的底層支撐[21]。Alluxio作為分布式內存文件系統(tǒng),可將多次使用的數據存儲在共享內存中,避免大量的磁盤I/O操作,提升數據處理效率[22]。

      2.2.4 數據處理層

      數據處理層為該平臺的核心部分,計算及查詢框架主要使用了Spark Core,以及在其基礎上運行的四大組件:MLlib、Spark SQL、Spark Streaming、GraphX。計算框架采用統(tǒng)一的編程模式,各組件間輸入輸出數據可以實現無縫共享,無須格式轉換,充分發(fā)揮了Spark的優(yōu)勢。Redis內存數據庫用作數據緩沖池,減輕數據庫負載。算法庫用于存儲常用的高性能并行算法,知識庫存儲經機器學習訓練得到的認知模型。

      2.2.5 服務層

      服務層可借助從數據處理層獲取的業(yè)務洞察,用于電網異常事件監(jiān)測、實時制定決策等功能,以便對電網物理層進行實時控制。其還可以對數據進行封裝、解耦,實現數據共享,解決數據使用不靈活問題。

      2.2.6 展示層

      對計算結果進行圖形化展示,可供調度人員直觀辨識電網實時運行狀態(tài)。為便于前端展示,分別將歷史、實時數據的分析結果寫入不同數據庫。圖3簡要介紹了業(yè)務展示流程。

      圖3 數據結果展示

      使用Spark計算平臺,計算結果數據可存儲在內存中,作為后續(xù)操作共享數據,減少結果展示過程中讀寫磁盤I/O操作帶來的延時。針對歷史數據分析結果,將數據寫入磁盤數據庫進行持久化。對于實時數據分析結果,將計算結果數據寫入內存數據庫,以滿足實時更新的需求。

      3 基于Spark的電網時空序列數據處理

      廣域時空序列信息能反映電網實時運行狀態(tài),在信息流不斷演變的過程中進行實時遙測分析,捕捉電網異常行為,觸發(fā)相關處理邏輯。

      3.1 數據預處理

      圖4展示了基于Spark的時空序列數據預處理過程。

      圖4 數據預處理

      電網原始采集數據中會存在不完整、不一致等情況,為提高數據挖掘的質量,需對實時接收數據進行清洗、轉換、歸約等預處理操作。Kafka作為數據中心管道,可以對集群中數據進行初步審計驗證服務,檢測數據延遲、丟失情況,持續(xù)監(jiān)控數據的完整性。

      在電力大數據環(huán)境下,直接對復雜的數據分析和挖掘效率比較低,可通過Spark Streaming對廣域時空序列數據進行特征提取、降維等操作,抓住影響電網穩(wěn)定的關鍵因素進行快速分析。由于Spark可以滿足復雜的批量數據處理、歷史數據的交互式查詢、實時數據流的處理3種情景,并且3種情景的輸入輸出數據可以無縫共享,無須格式轉換。因此,極大地方便了使用Spark SQL、MLlib對數據進行實時查詢與分析。整個流程根據業(yè)務需求可以對中間的結果進行疊加,或寫入磁盤進行持久化存儲。為了便于前端展示和頁面請求,處理及查詢得到的結果需寫入到數據庫中。

      3.2 時空序列數據分析

      圖5展示了基于Spark的電網時空序列數據處理過程。

      圖5 時空序列數據評估

      圖5描述了在算法模型、判據識別、評價指標等基礎上,對Spark Streaming數據預處理結果進行更深一步的量化評估,從而完成對電網運行態(tài)勢的實時監(jiān)測。同時,可以通過MLlib離線訓練模型,在Spark Streaming中使用該模型對在線數據進行實時分析。例如,將使用訓練好的預想故障集實時地對每一批處理間隔內的數據進行檢測,實現周期性地對電網進行動態(tài)安全約束校核。此外,流數據源中的數據可以與Spark SQL訪問的靜態(tài)數據源進行聯(lián)合,將實時、靜態(tài)數據濃縮得更為精煉,用于實時分析,其編程模型的高度一致保證了業(yè)務邏輯在流處理、批處理和交互式處理中的共享和復用。

      綜上所述,在機器學習、流計算等大數據技術應用下,站在電網運行狀態(tài)全局可觀的角度。為了深度挖掘和高效利用廣域時空序列信息,需針對電網具體運行場景以及穩(wěn)定防控問題,抓住影響電網穩(wěn)定的主導因素,建立一系列依托于電力大數據的時空關聯(lián)約束模型。構建電網異常事件行為知識庫,為電網異常事件的主動預警、實時決策提供可靠的知識保障體系,提升對電網時空序列信息智能化分析水平。

      4 Spark、Hadoop算法對比測試

      聚類算法可以對電網采集數據進行初步去噪預處理操作,將落在集合之外的數值視為噪聲。此外,聚類算法在電網中還有其他一些應用[23-24]。因此本文選擇典型的聚類算法K-Means,針對相同的數據集,分別對Spark、Hadoop單機環(huán)境和集群環(huán)境進行測試并做對比。

      4.1 K-Means聚類算法

      K-Means算法是最為經典的基于劃分的聚類方法,其基本思想是:首先從N個數據中隨機取k個元素,作為k個簇的各自的中心;分別計算剩下的元素到k個簇中心的距離,將這些元素分別劃歸到距離最近的簇;重新計算k個簇各自的中心,即取簇中所有元素各自維度的算術平均數;重復以上步驟,直到滿足收斂條件為止。

      4.2 實驗環(huán)境

      基于圖2所描述的電力大數據平臺架構,搭建了以Spark為核心的實驗環(huán)境,該平臺以Yarn作為資源管理器,HDFS作為分布式文件存儲系統(tǒng),Spark為分布式計算框架。同時,為對比Spark和Hadoop的MapReduce這2個計算框架對相同數據的處理能力,二者運行在相同的機器上,并均以HDFS作為底層文件存儲系統(tǒng)。集群和單機配置情況如表2、表3所示(注:表中內存指Spark可用內存大小,并非主機實際物理內存):集群內存為14 GB,CPU核數為16;單機內存為2 GB,CPU核數為2。

      表2 集群配置

      Table 2 Cluster configuration

      表3 單機配置

      4.3 測試數據

      以某區(qū)域電網暫態(tài)時域仿真結果作為測試數據,該區(qū)域電網有7 332個節(jié)點,10 928條支路。以中國電力科學研究院PSD-BPA仿真程序進行仿真。由于K-Means聚類時間和數據量大小有一定的關系,數據量越大,迭代一次所用時間越長。為更好地顯示對比效果,設置不同的仿真時間,生成5組測試數據,如表4所示。

      表4 測試數據

      Table 4 Test data

      4.4 單機環(huán)境對比

      使用Hadoop的MapReduce和Spark這2種計算框架,在單機環(huán)境下對表4中數據進行K-Means測試,其對比結果如圖6所示。

      圖6 單機環(huán)境測試對比結果

      由圖6可以看出,在相同的硬件設施環(huán)境下,且在Spark與MapReduce上K-Means的迭代次數同為為25次,Spark的計算速度要明顯優(yōu)于Hadoop的MapReduce模型。圖7展示了隨著數據量逐漸增加,Spark和MapReduce運行K-Means處理相同數據的時間對比,曲線代表MapReduce運行時間與Spark運行時間的比值。

      圖7 MapReduce與Spark數據處理時間比值

      由圖7可以看出,數據量在500 MB左右時,Spark的處理數據的優(yōu)勢最為明顯。數據量比較小時,MapReduce模型每次迭代計算時磁盤讀寫時間比較短,系統(tǒng)性能并沒有明顯受到影響。當數據量增大時,致使數據不能完全保存在內存中,Spark運行程序會在磁盤上進行,導致大量磁盤I/O操作,使系統(tǒng)性能下降。

      4.5 集群環(huán)境對比

      MapReduce和Spark這2種計算框架,在集群環(huán)境下對表4中數據進行K-Means測試,其對比結果如圖8所示。

      圖8 集群環(huán)境測試對比結果

      由圖8可以看出,Spark集群數據處理時間并沒有明顯變化。在同樣硬件設施、迭代次數環(huán)境下,K-Means在MapReduce模型上運行時間與Spark上運行時間比值基本維持在三十幾倍左右。

      (1)單機和集群在相同的程序參數下,數據量比較小的時,集群與單機K-Means測試時間相差不多,有時單機處理甚至會更快一些。因為,集群啟動初始化需要一定的時間,并需要考慮分布式系統(tǒng)間通信和集群啟動帶來的延遲,所以處理時間相差不多。

      (2)當數據量超過1 GB時,Spark單機處理時間倍增,特別是當數據量達到1.5 GB時。由于程序在運行、資源調度過程中需要占用一定的內存,單機環(huán)境剩余的內存已經不夠緩存該數據,從而導致大量的磁盤I/O操作,致使處理時間驟增。說明當數據量達到一定程度時,單機已經不能滿足數據處理高效性的要求,并且其計算性能顯著降低。

      (3)數據量增加時,Hadoop和Spark集群處理時間與單機環(huán)境相比并沒有增加太多,集群的優(yōu)勢在于可以利用多個計算機進行并行計算從而獲得很高的計算速度。當數據量達到單機處理能力的瓶頸時,集群的優(yōu)勢才會明顯體現出來,該優(yōu)勢遠大于考慮到分布式系統(tǒng)間通信帶來的劣勢。

      (4)無論是在單機還是集群環(huán)境下,Hadoop的MapReduce計算模型數據處理速度都要比Spark慢很多。因為MapReduce作業(yè)執(zhí)行過程map階段和reduce階段的結果均要寫磁盤,會明顯降低系統(tǒng)性能,而Spark將數據和計算所得的中間結果直接緩存在內存中,做不落地的運算,數據處理速度會顯著提升。

      (5)在大數據實際數據處理過程中,數據量往往會達到TB,甚至PB數量級。此時,單臺計算機的存儲以及計算能力已經遠遠不能滿足數據海量化、高效化處理的需求。因此,海量數據的處理需要大數據技術的支撐。

      5 結 論

      本文針對大電網廣域時空序列在線快速分析與處理需求,綜合考慮Spark在高性能數據處理、組件集成中的優(yōu)勢,設計了以Spark為核心的大電網廣域時空序列大數據分析平臺,為實現電網海量數據可靠存儲、高效處理提供了一套可行的解決方案。

      通過對大電網時域仿真結果實際對比測試,驗證了本平臺相對于同類大數據平臺,對電網廣域時空序列快速、高效的處理能力的優(yōu)勢,滿足大電網在線安全分析與控制的需求,為實現能源互聯(lián)網形勢下的新一代安全防御系統(tǒng)提供重要的平臺支撐。

      [1]孫宏斌, 郭慶來, 潘昭光, 等. 能源互聯(lián)網:驅動力、評述與展望[J]. 電網技術, 2015, 39(11): 3005-3013. SUN Hong, GUO Qinglai, PAN Shaoguang, et al. Energy internet: driving force, review and outlook[J]. Power System Technology, 2015, 39(11): 3005-3013.

      [2]馬釗, 周孝信, 尚宇煒, 等. 能源互聯(lián)網概念、關鍵技術及發(fā)展模式探索[J]. 電網技術, 2015, 39(11): 3014-3022. MA Zhao, ZHOU Xiaoxin, SHANG Yuwei, et al. Exploring the concept, key technologies and development model of energy internet[J]. Power System Technology, 2015, 39(11): 3014-3022.

      [3]魏向向, 楊德昌, 葉斌. 能源互聯(lián)網中虛擬電廠的運行模式及啟示[J]. 電力建設, 2016, 37(4): 1-9. WEI Xiangxiang, YANG Dechang, YE Bin. Development path exploration of energy internet[J]. Electric Power Construction, 2016, 37(4): 1-9.

      [4]王瑋, 劉蔭, 于展鵬, 等. 電力大數據環(huán)境下大數據中心架構體系設計[J]. 電力信息與通信技術, 2016,14(1):1-6. WANG Wei, LIU Yin, YU Zhanpeng, et al. System design of the big data center architecture in electric power big data environment[J]. Electric Power Information Technology, 2016,14(1):1-6.

      [5]朱朝陽, 王繼業(yè), 鄧春宇. 電力大數據平臺研究與設計[J]. 電力信息與通信技術, 2015, 13(6): 1-7. ZHU Chaoyang, WANG Jiye, DENG Chunyu. Research and design of electric power big data platform[J]. Electric Power Information Technology, 2015, 13(6): 1-7.

      [6]李亞樓, 張星, 李勇杰, 等. 交直流混聯(lián)大電網仿真技術現狀及面臨挑戰(zhàn)[J]. 電力建設, 2015, 36(12): 1-8. LI Yalou, ZHANG Xing, LI Yongjie, et al. Present situation and challenges of AC /DC hybrid large-scale power grid simulation technology[J]. Electric Power Construction, 2015, 36(12): 1-8.

      [7]印永華, 郭劍波, 趙建軍, 等. 美加“8. 14”大停電事故初步分析以及應吸取的教訓[J]. 電網技術, 2003, 27(10): 8-11. YIN Yonghua, GUO Jianbo, ZHAO Jianjun, et al. Preliminary analysis of large scale blackout in interconnected north America power grid on august 14 and lessons to be drawn[J]. Power System Technology, 2003, 27(10): 8-11.

      [8]薛禹勝. 時空協(xié)調的大停電防御框架(一)從孤立防線到綜合防御[J]. 電力系統(tǒng)自動化, 2006, 30(1):8-16. XUE Yusheng. Space-time cooperative framework for defending blackouts, part I: from isolated defense lines to coordinated defending[J]. Automation of Electric Power Systems, 2006, 30(1): 8-16.

      [9]薛禹勝. 時空協(xié)調的大停電防御框架(二)廣域信息、在線量化分析和自適應優(yōu)化控制[J]. 電力系統(tǒng)自動化, 2006, 30(2):1-10. XUE Yusheng. Space-time cooperative framework for defending blackouts, part II : reliable information, quantitative analyses and adaptive controls[J]. Automation of Electric Power Systems, 2006, 30(2): 1-10.

      [10]劉道偉, 張東霞, 孫華東, 等. 時空大數據環(huán)境下的大電網穩(wěn)定態(tài)勢量化評估與自適應防控體系構建[J]. 中國電機工程學報, 2015, 35(2):268-276. LIU Daowei, ZHANG Dongxia, SUN Huadong, et al. Construction of stability situation quantitative assessment and adaptive control system for large-scale power grid in the spatio-temporal big data environment[J]. Proceedings of the CSEE, 2015, 35(2): 268-276.

      [11]胡學浩. 智能電網——未來電網的發(fā)展態(tài)勢[J]. 電網技術, 2009, 33(14):1-5. HU Xuehao. Smart grid—A development trend of future power grid[J]. Power System Technology, 2009, 33(14): 1-5.

      [12]宋亞奇, 周國亮, 朱永利. 智能電網大數據處理技術現狀與挑戰(zhàn)[J]. 電網技術, 2013,37(4): 927-935. SONG Yaqi, ZHOU Guoliang, ZHU Yongli. Present status and challenges of big data processing in smart grid[J]. Power System Technology, 2013, 37(4): 927-935.

      [13]彭小圣, 鄧迪元, 程時杰, 等. 面向智能電網應用的電力大數據關鍵技術[J]. 中國電機工程學報, 2015,35(3): 503-511. PENG Xiaosheng, DENG Diyuan, CHENG Shijie, et al. Key technologies of electric power big data and its application prospects in smart grid[J]. Proceedings of the CSEE, 2015,35(3): 503-511.

      [14]趙春暉, 吳志力, 姜欣, 等. 跨平臺電網規(guī)劃數據融合與存儲模式[J].電力建設, 2015, 36(3): 119-122. ZHAO Chunhui, WU Zhili, JIANG Xin, et al. Cross-Platform data fusion and storage pattern of power grid planning[J]. Electric Power Construction, 2015, 36(3): 119-122.

      [15]馬天男, 牛東曉, 黃雅莉, 等. 基于Spark平臺和多變量L_2-Boosting回歸模型的分布式能源系統(tǒng)短期負荷預測[J]. 電網技術, 2016, 40(6): 1642-1649. MA Tiannan, NIU Dongxiao, HUANG Yali, et al. Short-term load forecasting for distributed energy system based on Spark platform and multi-variable L2-boosting regression model[J]. Power System Technology, 2016, 40(6): 1642-1649.

      [16]劉成, 牛銳, 范賀明, 等. 基于Spark環(huán)境變壓器故障并行診斷[J].電力科學與工程, 2016,32(6): 32-37. LIU Cheng, NIU Rui, FAN Heming, et al. Transformer fault diagnosis in parallel based on the Spark platform[J]. Electric Power Science and Engineering, 2016,32(6): 32-37.

      [17]王保義, 王冬陽, 張少敏. 基于Spark和IPPSO_LSSVM的短期分布式電力負荷預測算法[J]. 電力自動化設備, 2016, 36(1): 117-122. WANG Baoyi, WANG Dongyang, ZHANG Shaomin. Distributed short-term load forecasting algorithm based on Spark and IPPSO_LSSVM[J]. Electric Power Automation Equipment, 2016, 36(1): 117-122.

      [18]孟建良, 劉德超. 一種基于Spark和聚類分析的辨識電力系統(tǒng)不良數據新方法[J]. 電力系統(tǒng)保護與控制, 2016, 44(3): 85-91. MENG Jianliang, LIU Dechao. A new method for identifying bad data of power system based on Spark and clustering analysis[J]. Power System Protection and Control, 2016, 44(3): 85-91.

      [19]XIN R. Spark officially sets a new record in large-scale sorting [EB/OL]. (2014-11-05)[2016-07-05].https://databricks. com/blog/2014/11/05/spark-officially-sets-a-new-record-in-large-scale-sorting.html

      [20]KREPS J,NARKHEDE N,KAFKA R J: A distributed messaging system for log processing[C]//Proceedings of the NetDB, 2011:1-7.

      [21]KALA KARUN A, CHITHARANJAN K. A review on hadoop—HDFS infrastructure extensions[C]// Information & Communication Technologies (ICT), 2013: 132-137.

      [22]ZHANG H, CHEN G, OOI B C, et al. In-memory big data management and processing: A survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(7): 1920-1948.

      [23]劉興杰, 岑添云, 鄭文書, 等. 基于模糊粗糙集與改進聚類的神經網絡風速預測[J]. 中國電機工程學報, 2014, 34(19):3162-3169. LIU Xingjie,CEN Tianyun, ZHENG Wenshu, et al. Neural network wind speed prediction based on fuzzy rough set and improved clustering [J]. Proceedings of the CSEE, 2014, 34(19): 3162-3169.

      [24]郭昆亞, 熊雄, 金鵬, 等. 基于模糊聚類-量子粒子群算法的用電特性識別[J]. 電力建設, 2015, 36(8): 84-88. GUO Kunya, XIONG Xiong, JIN Peng, et al. Electricity characteristic recognition study based on fuzzy clustering-quantum particle swarm algorithm[J]. Electric Power Construction, 2015, 36(8): 84-88.

      (編輯 張媛媛)

      Platform Building for Wide-Area Spatiotemporal Sequences Analysis of Large-Scale Power Grid Based on Spark

      YUAN Baochao1, LIU Daowei2, LIU Liping2, WANG Zezhong1

      (1. North China Electric Power University, Beijing 102206, China; 2. China Electric Power Research Institute, Beijing 100192, China)

      To address the energy internet trends and increasingly complex operating environment, we need to enhance the mining depth and utilization capability of energy internet multi-source data relying on big data technology. First, in the view of the wide-area spatiotemporal sequences data of large power grid, this paper expounds the Spark’s advantages in distributed computing and the goal of big data platform, designs the big data platform architecture of power grid based on Spark, and describes each level of the platform in detail. Secondly, this paper describes the Spark’s advantage in processing the spatiotemporal sequences data. Finally, on the basis of Spark and Hadoop experiment environment, this paper carries out typical clustering algorithm to compare the performance between Spark and Hadoop. The results verifies that Spark has a great advantage in data processing comparing with Hadoop MapReduce, which lays the foundation for the next step research.

      energy internet; Spark; spatiotemporal sequences; streaming computing; cluster

      國家自然科學基金項目(51207143);國家電網公司科技項目(XT71-15-056)

      TM 73;TP 391.9

      A

      1000-7229(2016)11-0048-07

      10.3969/j.issn.1000-7229.2016.11.008

      2016-07-05

      袁寶超(1990),男,碩士研究生,研究方向為基于廣域信息的電網擾動特性及大數據技術;

      劉道偉(1977),男,博士,高級工程師,主要研究方向為響應式大電網穩(wěn)定態(tài)勢量化評估與自適應控制;

      劉麗平(1964),女,碩士研究生,教授級高工,主要研究方向為電力系統(tǒng)自動化;

      王澤忠(1960),男,教授,博士生導師,研究方向為電力系統(tǒng)電磁兼容和電磁場數值計算。

      Project supported by National Natural Science Foundation of China(51207143)

      猜你喜歡
      廣域單機數據量
      熱連軋單機架粗軋機中間坯側彎廢鋼成因及對策
      新疆鋼鐵(2021年1期)2021-10-14 08:45:36
      基于大數據量的初至層析成像算法優(yōu)化
      計算Lyapunov指數的模糊C均值聚類小數據量法
      高刷新率不容易顯示器需求與接口標準帶寬
      寬帶信號采集與大數據量傳輸系統(tǒng)設計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      宇航通用單機訂單式管理模式構建與實踐
      廣域雷達信息采集系統(tǒng)應用
      水電的“百萬單機時代”
      能源(2017年9期)2017-10-18 00:48:22
      基于免疫算法的高容錯性廣域保護研究
      電測與儀表(2015年2期)2015-04-09 11:28:56
      被動成像廣域空中監(jiān)視系統(tǒng)綜述
      兴义市| 勃利县| 阜南县| 文登市| 汉源县| 崇信县| 札达县| 潞城市| 印江| 昌平区| 天气| 皮山县| 宁河县| 曲周县| 定兴县| 勐海县| 蓝田县| 美姑县| 郧西县| 大英县| 清镇市| 华坪县| 来凤县| 罗江县| 惠东县| 张家界市| 巴南区| 郧西县| 登封市| 黄浦区| 曲松县| 莒南县| 海南省| 孝感市| 辉南县| 湄潭县| 应城市| 汉中市| 张家界市| 长顺县| 静海县|