廖海君,賈澤晗,周振宇,劉念,王飛,甘忠,姚賢炯
(1.華北電力大學(xué)河北省電力物聯(lián)網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,河北 保定 071003;2.國(guó)網(wǎng)上海市電力公司電力調(diào)度控制中心,上海 200122)
隨著整縣光伏的大力推進(jìn),以及新型電力系統(tǒng)的建設(shè),屋頂分布式光伏建設(shè)規(guī)模急速擴(kuò)大,分布式能源迎來(lái)爆發(fā)式增長(zhǎng)。然而,由于光伏等分布式能源具有間歇性、隨機(jī)性、波動(dòng)性等特點(diǎn),高比例分布式能源的并網(wǎng)會(huì)對(duì)電力系統(tǒng)的潮流分布、電能質(zhì)量、網(wǎng)絡(luò)損耗及調(diào)節(jié)能力造成巨大的影響[1]。因此,需要根據(jù)負(fù)荷動(dòng)態(tài)調(diào)控分布式能源,從而提高新型電力系統(tǒng)的穩(wěn)定性,實(shí)現(xiàn)有功/無(wú)功功率的平衡,使光伏等分布式能源得到更好的消納,避免因消納困難而出現(xiàn)棄光等現(xiàn)象[2]。
面向分布式能源調(diào)控系統(tǒng),文獻(xiàn)[3]建立了兼容需求側(cè)可調(diào)控資源的冷熱電三聯(lián)供分布式能源系統(tǒng)經(jīng)濟(jì)優(yōu)化調(diào)控模型,并提出了基于量子煙花算法的分布式能源調(diào)度方法來(lái)降低系統(tǒng)發(fā)電成本、環(huán)境成本與備用成本。文獻(xiàn)[4]考慮高通信時(shí)延導(dǎo)致分布式單元狀態(tài)波動(dòng)大與調(diào)度決策迭代次數(shù)增加的難題,設(shè)計(jì)了基于標(biāo)準(zhǔn)差判斷的優(yōu)化一致性算法,在滿足系統(tǒng)有功功率平衡條件下實(shí)現(xiàn)了分布式能源調(diào)控經(jīng)濟(jì)最優(yōu)化。文獻(xiàn)[5]考慮光伏出力不確定性以及規(guī)?;{(diào)度帶來(lái)的優(yōu)化計(jì)算壓力,提出了一種基于交替方向乘子法的云邊協(xié)同能源調(diào)控方法,能夠大幅降低分布式能源調(diào)控一致性解的計(jì)算復(fù)雜度。然而隨著分布式能源種類和規(guī)模的不斷擴(kuò)大以及源網(wǎng)荷儲(chǔ)協(xié)同互動(dòng)參與電網(wǎng)低碳運(yùn)行需求的提出,傳統(tǒng)基于優(yōu)化理論的分布式能源調(diào)度方法面臨維數(shù)災(zāi)難問(wèn)題,難以通過(guò)量化大維度狀態(tài)空間與調(diào)控決策的映射關(guān)系獲得調(diào)控決策模型。
基于機(jī)器學(xué)習(xí)的分布式能源調(diào)控模型訓(xùn)練憑借其優(yōu)越的非線性復(fù)雜函數(shù)擬合能力與數(shù)據(jù)挖掘能力,能夠通過(guò)海量信息來(lái)構(gòu)建和訓(xùn)練負(fù)荷需求、光伏出力、氣象信息與調(diào)控策略之間的模型。信息年齡(AoI,age of information)是衡量信息新鮮度的有效指標(biāo),表示信息自產(chǎn)生以來(lái)到用于調(diào)控模型訓(xùn)練所經(jīng)歷的時(shí)延[6]。能源調(diào)控信息的新鮮度對(duì)模型訓(xùn)練的精度具有重要的影響。當(dāng)信息年齡較大時(shí),信息的新鮮度、時(shí)效性較差,會(huì)導(dǎo)致訓(xùn)練模型損失函數(shù)大,即模型輸出與真實(shí)輸出之間存在較大偏差,從而降低分布式能源調(diào)控的可靠性、經(jīng)濟(jì)性、準(zhǔn)確性。
借鑒6G 至簡(jiǎn)無(wú)線接入網(wǎng)架構(gòu),電力至簡(jiǎn)物聯(lián)網(wǎng)具有控制面?數(shù)據(jù)面分離[7]、融合多模態(tài)通信接入的統(tǒng)一架構(gòu)、跨域資源協(xié)同、支持即插即用等優(yōu)點(diǎn),可為分布式能源調(diào)控決策模型訓(xùn)練所需要數(shù)據(jù)的采集和傳輸提供強(qiáng)有力的通信網(wǎng)絡(luò)支撐,允許物聯(lián)終端更廣泛、靈活、實(shí)時(shí)地接入網(wǎng)絡(luò),并參與分布式能源調(diào)控決策模型的訓(xùn)練,提高分布式能源調(diào)控決策模型的精度。其中,面對(duì)微氣象監(jiān)測(cè)、電壓/電流/有功/無(wú)功全量采集、柔性負(fù)荷調(diào)控等差異化業(yè)務(wù),電力至簡(jiǎn)網(wǎng)絡(luò)通過(guò)統(tǒng)一的接口設(shè)計(jì),支持光照傳感器、電壓采集器、電動(dòng)汽車充電樁等終端無(wú)差別地接入電力線通信(PLC,power line communication)、無(wú)線局域網(wǎng)(WLAN,wireless local area network)、5G 等多模態(tài)通信媒介,并充分協(xié)同通信、計(jì)算、存儲(chǔ)等跨域資源實(shí)現(xiàn)網(wǎng)絡(luò)功能按需定制。然而,面向分布式能源調(diào)控的電力至簡(jiǎn)物聯(lián)網(wǎng)還需要解決如下技術(shù)挑戰(zhàn)。首先,模型訓(xùn)練與數(shù)據(jù)傳輸?shù)鸟詈蠈?dǎo)致模型訓(xùn)練過(guò)程中需要將大量原始數(shù)據(jù)上傳至中心訓(xùn)練節(jié)點(diǎn),造成網(wǎng)絡(luò)擁塞、通信資源浪費(fèi)、本地?cái)?shù)據(jù)隱私泄露。其次,通信、計(jì)算、存儲(chǔ)等跨域資源的優(yōu)化與模型訓(xùn)練的適配性差,導(dǎo)致模型損失函數(shù)大,分布式能源調(diào)控的準(zhǔn)確性與可靠性降低。而跨域資源協(xié)同優(yōu)化涉及大維空間[8],難以獲得精確的概率統(tǒng)計(jì)模型與閉式解。最后,調(diào)控現(xiàn)場(chǎng)中存在多模態(tài)異構(gòu)網(wǎng)絡(luò),終端計(jì)算資源與多模態(tài)信道質(zhì)量差異性導(dǎo)致信息年齡增大,難以保障分布式能源調(diào)控信息新鮮度長(zhǎng)期約束。
目前,針對(duì)至簡(jiǎn)網(wǎng)絡(luò)的研究主要集中在架構(gòu)設(shè)計(jì)[9]、標(biāo)準(zhǔn)化[10]等方面,但是,面向分布式能源調(diào)控的電力至簡(jiǎn)網(wǎng)絡(luò)模型訓(xùn)練架構(gòu),以及保障調(diào)控信息新鮮度的跨域資源優(yōu)化研究還較少涉及。聯(lián)邦學(xué)習(xí)是實(shí)現(xiàn)智能決策與原始數(shù)據(jù)傳輸解耦的一種半分布式學(xué)習(xí)方法[11],能夠保護(hù)本地?cái)?shù)據(jù)隱私性,已被應(yīng)用于數(shù)字孿生、機(jī)器學(xué)習(xí)等模型訓(xùn)練。文獻(xiàn)[12]構(gòu)建基于聯(lián)邦學(xué)習(xí)的數(shù)字孿生架構(gòu),并提出一種基于多智能體深度強(qiáng)化學(xué)習(xí)的低時(shí)延資源分配(MDRL3RA,multiagent deep reinforcement learning based low-latency resource allocation)算法,通過(guò)聯(lián)合優(yōu)化信道分配與批量規(guī)模策略,在滿足學(xué)習(xí)精度的情況下最小化訓(xùn)練時(shí)延。文獻(xiàn)[13]提出自適應(yīng)聯(lián)邦學(xué)習(xí)批量規(guī)模優(yōu)化(AFLBSO,adaptive federated learning based batch size optimization)算法,基于近端策略優(yōu)化,通過(guò)優(yōu)化批量規(guī)模最小化全局損失函數(shù)。然而,這些文獻(xiàn)沒(méi)有考慮分布式能源調(diào)控場(chǎng)景與信息新鮮度保障需求,難以實(shí)現(xiàn)跨域資源分配與調(diào)控模型損失函數(shù)最小化之間的靈活適配。在信息年齡方面,文獻(xiàn)[14]提出基于公平的年齡最小化更新卸載策略,通過(guò)維持多狀態(tài)信息新鮮度,實(shí)現(xiàn)接收端精準(zhǔn)決策。文獻(xiàn)[15]提出基于貪婪信道資源編排的全局信息年齡最小化算法,實(shí)現(xiàn)信息物理融合系統(tǒng)中各類設(shè)備的差異化性能質(zhì)量保障。但是,上述文獻(xiàn)沒(méi)有考慮時(shí)隙間跨域資源分配策略的耦合,不能實(shí)現(xiàn)分布式能源調(diào)控信息新鮮度長(zhǎng)期保障。例如,增加樣本批量規(guī)??山档彤?dāng)前模型損失函數(shù),但是也會(huì)減少終端可用能量,導(dǎo)致未來(lái)信息新鮮度偏差較大。
針對(duì)上述挑戰(zhàn),本文提出面向調(diào)控信息新鮮度保障的電力至簡(jiǎn)物聯(lián)網(wǎng)跨域資源協(xié)同優(yōu)化算法。首先,建立基于聯(lián)邦學(xué)習(xí)的半分布式調(diào)控模型訓(xùn)練架構(gòu),通過(guò)數(shù)據(jù)層本地模型訓(xùn)練與控制層全局模型訓(xùn)練,實(shí)現(xiàn)決策優(yōu)化與原始數(shù)據(jù)傳輸解耦,避免大規(guī)模數(shù)據(jù)交互導(dǎo)致的通信資源浪費(fèi)與網(wǎng)絡(luò)擁塞。其次,提出基于調(diào)控信息新鮮度感知的通信與計(jì)算資源協(xié)同優(yōu)化(IFAC3O,information freshness aware-based communication-and-computation collaborative optimization)算法,基于伸縮和與李雅普諾夫優(yōu)化定理對(duì)長(zhǎng)期調(diào)控模型損失函數(shù)最小化問(wèn)題進(jìn)行迭代間解耦,利用深度Q 網(wǎng)絡(luò)(DQN,deep Q network)提高高維優(yōu)化空間下?tīng)顟B(tài)?動(dòng)作價(jià)值擬合精度,通過(guò)學(xué)習(xí)信道分配與批量規(guī)模聯(lián)合優(yōu)化策略實(shí)現(xiàn)通信與計(jì)算資源分配協(xié)同,基于終端Q 值比較解決多模態(tài)信道競(jìng)爭(zhēng)沖突。最后,所提算法具備信息新鮮度感知能力,能夠在缺乏未來(lái)信息的情況下通過(guò)赤字虛擬隊(duì)列演進(jìn)感知每個(gè)時(shí)隙調(diào)控信息新鮮度與規(guī)定約束的偏差,并根據(jù)偏差動(dòng)態(tài)調(diào)整信道分配與批量規(guī)模優(yōu)化策略,降低調(diào)控信息年齡,實(shí)現(xiàn)調(diào)控信息新鮮度長(zhǎng)期保障。
面向分布式能源調(diào)控的電力至簡(jiǎn)物聯(lián)網(wǎng)如圖1所示,基于分布式人工智能、控制?數(shù)據(jù)解耦、統(tǒng)一信令交互、跨域資源融合等技術(shù),實(shí)現(xiàn)多模態(tài)物聯(lián)終端異構(gòu)融合,支撐分布式能源調(diào)控決策模型訓(xùn)練。電力至簡(jiǎn)物聯(lián)網(wǎng)從下至上可分為數(shù)據(jù)層、網(wǎng)絡(luò)層、控制層和業(yè)務(wù)層。其中,數(shù)據(jù)層通過(guò)在分布式光伏、可控負(fù)荷、充電樁等電氣設(shè)備上部署物聯(lián)終端,為分布式能源調(diào)控決策模型訓(xùn)練提供樣本數(shù)據(jù)和本地模型。網(wǎng)絡(luò)層包含PLC、WLAN和5G 等多種通信媒介,為數(shù)據(jù)層和控制層的交互提供通道??刂茖油ㄟ^(guò)控制器協(xié)調(diào)各終端參與決策模型訓(xùn)練,為業(yè)務(wù)層調(diào)控優(yōu)化提供模型支撐。
圖1 面向分布式能源調(diào)控的電力至簡(jiǎn)物聯(lián)網(wǎng)
本文采用聯(lián)邦學(xué)習(xí)架構(gòu)[16]迭代訓(xùn)練分布式能源調(diào)控決策模型,假設(shè)共需要T次迭代,集合表示為T(mén)={1,…,t,…,T}。每次迭代包括全局模型下發(fā)、本地模型訓(xùn)練、本地模型上傳和全局模型聚合4 個(gè)步驟,如圖1 所示。由于下行傳輸能力強(qiáng),全局模型下發(fā)時(shí)延可忽略不計(jì)[16]。因此,本文重點(diǎn)考慮本地模型訓(xùn)練、本地模型上傳、全局模型聚合3 個(gè)步驟。
假設(shè)存在N個(gè)物聯(lián)終端,集合表示為N={1,???,n,???N}。第t次迭代中,終端n首先用第t? 1次迭代后的全局模型ωt?1更新本地模型ωn,t?1,即ωn,t?1=ωt?1。隨后,終端n利用本地?cái)?shù)據(jù)集 Dn的部分樣本訓(xùn)練本地模型。定義終端n在第t次迭代中用于本地模型訓(xùn)練的樣本數(shù)量為批量規(guī)模βn,t,采用損失函數(shù)[17]來(lái)量化模型的真實(shí)輸出與目標(biāo)輸出之間的偏差。定義終端n在第t次迭代的本地?fù)p失函數(shù)為本地樣本的平均損失,即
其中,樣本損失函數(shù)f(ωn,t?1,xn,m)量化了本地模型ωn,t?1在本地?cái)?shù)據(jù)集 Dn中第m個(gè)樣本的輸出與最優(yōu)輸出之間的性能差異反映了本地模型ωn,t?1的精度,可用于本地模型更新?;谔荻认陆捣?,終端n的本地模型更新為為損失函數(shù)
其中,γ>0為學(xué)習(xí)步長(zhǎng)關(guān)于本地模型ωn,t?1的梯度。
定義終端n在第t次迭代的可用計(jì)算資源為fn,t,則本地模型訓(xùn)練的時(shí)延與能耗分別為
其中,en為能耗系數(shù)(單位為 W ? s3/cycle3)[18],ξn為訓(xùn)練單個(gè)樣本所需要的CPU 周期數(shù)(單位為cycle/sample)。
假設(shè)存在J個(gè)多模態(tài)信道,包括J1個(gè)5G 信道、J2個(gè) WLAN 信道和J3個(gè) PLC 信道,即。信道集合表示為 J={1,…,J1,…,其中j=1,…,J1為 5G 信道,j=J1+1,…,J1+J2為 WLAN 信道,為PLC 信道。定義信道分配變量為αn,j,t∈ {0,1},其中,αn,j,t=1表示在第t次迭代中控制器分配信道j給終端n用于上傳本地模型,否則αn,j,t=0。在第t次迭代,終端n通過(guò)信道j上傳模型的傳輸速率為
其中,η為常數(shù),αn、βn、υn和μn分別為電磁干擾的特征因子、偏斜參數(shù)、尺度參數(shù)和位置參數(shù)。
定義|ωn,t|為本地模型ωn,t的大小(單位為bit),終端n上傳本地模型的時(shí)延和能耗分別為
終端n在第t次迭代的總能耗為本地模型訓(xùn)練與上傳的能耗之和,表示為
在第t次迭代中,控制器接收到終端n的本地模型所經(jīng)歷的時(shí)延為
當(dāng)控制器收到N個(gè)終端的本地模型后,基于本地模型加權(quán)聚合[20]訓(xùn)練全局模型,表示為
采用全局損失函數(shù)[21]來(lái)量化全局模型真實(shí)輸出與目標(biāo)輸出之間的差異,定義為N個(gè)終端本地?fù)p失函數(shù)的加權(quán)和,即
調(diào)控信息新鮮度是一種信息時(shí)效性度量指標(biāo),對(duì)分布式能源調(diào)控的準(zhǔn)確性與實(shí)時(shí)性具有重要影響。調(diào)控模型訓(xùn)練時(shí)采用的信息新鮮度越高,所生成的調(diào)控策略與最優(yōu)策略之間的性能差距越小。由于控制器在接收到所有終端本地模型后才能開(kāi)始全局模型訓(xùn)練,調(diào)控信息新鮮度與控制器接收到各個(gè)終端本地模型所經(jīng)歷的時(shí)延密切相關(guān)。定義終端n在第t次迭代訓(xùn)練得到的本地模型AoI 為該模型離開(kāi)終端n到參加全局模型訓(xùn)練的時(shí)延,主要包括傳輸時(shí)延和等待時(shí)延表示為
如圖2(a)所示,由于終端可用計(jì)算資源和通信媒介的差異性,先到達(dá)的模型需等待控制器接收到所有終端的本地模型后才能參加全局模型訓(xùn)練,導(dǎo)致調(diào)控信息年齡增加與信息新鮮度下降。因此,終端n的本地模型等待時(shí)延取決于控制器接收到最后一個(gè)終端本地模型所經(jīng)歷時(shí)延,即
圖2 本地訓(xùn)練模型信息年齡示意
定義第t次迭代中終端n的調(diào)控信息新鮮度為信息年齡的倒數(shù)[22],即
通過(guò)對(duì)信息年齡最大的模型進(jìn)行約束,保障調(diào)控信息新鮮度。定義所有終端調(diào)控信息新鮮度的集合為ht={h1,t,…,hn,t,…,hN,t},T次迭代調(diào)控信息新鮮度長(zhǎng)期約束模型可構(gòu)建為
其中,hmin為信息新鮮度約束閾值。
對(duì)比圖2(a)與圖2(b)可知,終端差異化計(jì)算資源和批量規(guī)模導(dǎo)致本地模型訓(xùn)練時(shí)延各異,PLC、WLAN和5G等多模態(tài)通信方式導(dǎo)致本地模型上傳時(shí)延不同,通過(guò)動(dòng)態(tài)調(diào)整多模態(tài)信道分配與批量規(guī)模策略能夠減小信息年齡、提高信息新鮮度。如圖2(a)所示,由于終端1 計(jì)算性能較差,終端2和終端3 上傳的本地模型需要等待終端1 完成本地模型上傳后才能被聚合,導(dǎo)致終端2和終端3 信息年齡增大,信息新鮮度低。如圖2(b)所示,通過(guò)協(xié)同信道分配與批量規(guī)模,增加終端2和終端3的批量規(guī)模并為其分配信道質(zhì)量更好的5G和WLAN 信道,在消除等待時(shí)延、提高全局模型信息新鮮度的同時(shí)能夠利用更多樣本訓(xùn)練全局模型、減小全局損失函數(shù),保障分布式能源調(diào)控的準(zhǔn)確性與可靠性。
本文旨在解決分布式能源調(diào)控決策模型損失函數(shù)最小化問(wèn)題。一方面,增加終端本地批量規(guī)模將使本地模型訓(xùn)練更充分,進(jìn)而降低調(diào)控模型全局損失函數(shù),但同時(shí)將增大本地模型訓(xùn)練時(shí)延和能耗,影響調(diào)控信息新鮮度。另一方面,改變信道分配策略會(huì)影響終端本地模型上傳時(shí)延,進(jìn)而使調(diào)控信息新鮮度和傳輸能耗變化。因此,本文優(yōu)化目標(biāo)為在保障調(diào)控信息新鮮度等長(zhǎng)期約束的同時(shí),通過(guò)電力至簡(jiǎn)物聯(lián)網(wǎng)通信與計(jì)算資源的協(xié)同優(yōu)化,最小化T次迭代后調(diào)控模型的全局損失函數(shù)F(ωT)。定義多模態(tài)信道分配優(yōu)化變量的集合為αn,t={αn,1,t,…,αn,j,t,…,αn,J,t},批量規(guī)模優(yōu)化變量的集合為βn,t={1,2,…,|Dn|},優(yōu)化問(wèn)題構(gòu)建為
其中,C1表示每個(gè)信道只能分配給一個(gè)終端;C2表示每個(gè)終端只能被分配一個(gè)信道;C3表示終端n本地模型訓(xùn)練批量規(guī)模約束,|Dn|表示終端n本地?cái)?shù)據(jù)集 Dn的大小;C4表示終端n的能耗長(zhǎng)期約束,En,max表示終端n的長(zhǎng)期能量預(yù)算;C5表示T次迭代調(diào)控信息新鮮度長(zhǎng)期約束模型;C6表示終端傳輸功率約束,PPLC、PWLAN和P5G分別表示PLC、WLAN和5G 信道傳輸功率。
由于每次迭代的優(yōu)化策略不僅與T次迭代后的全局損失函數(shù)F(ωT)耦合,而且與信息新鮮度等長(zhǎng)期約束耦合,導(dǎo)致優(yōu)化問(wèn)題P1 難以直接求解,因此需要進(jìn)行迭代間優(yōu)化問(wèn)題解耦。本文首先利用伸縮和定理將長(zhǎng)期優(yōu)化目標(biāo)解耦為各次迭代中的短期優(yōu)化目標(biāo),并基于李雅普諾夫優(yōu)化理論將長(zhǎng)期約束與短期優(yōu)化決策解耦,從而將長(zhǎng)期隨機(jī)優(yōu)化問(wèn)題解耦為短期確定性優(yōu)化問(wèn)題,大幅降低問(wèn)題優(yōu)化復(fù)雜度。其次,由于解耦后優(yōu)化問(wèn)題在第t+1次迭代的狀態(tài)僅與第t次迭代的狀態(tài)以及動(dòng)作有關(guān),而與前t? 1次迭代的狀態(tài)與動(dòng)作無(wú)關(guān),因此將解耦后的短期優(yōu)化問(wèn)題建模為馬爾可夫決策過(guò)程(MDP,Markov decision process)優(yōu)化問(wèn)題。最后,介紹本文提出的算法。
針對(duì)第一種耦合,基于伸縮和定理[13]將F(ωT)解耦為
其中,F(xiàn)(ωt?1)在第t次迭代優(yōu)化時(shí)是已知參量。因此,F(xiàn)(ωT)只與第t次迭代的全局損失函數(shù)F(ωt)相關(guān),即將F(ωT)的優(yōu)化轉(zhuǎn)化為對(duì)第t次迭代的損失函數(shù)F(ωt)優(yōu)化。
針對(duì)第二種耦合,分別構(gòu)造對(duì)應(yīng)于約束C4和C5的終端能耗赤字虛擬隊(duì)列Gn(t)與調(diào)控信息新鮮度赤字虛擬隊(duì)列H(t),其隊(duì)列積壓更新為
其中,Gn(t)表示第t次迭代后終端n的能耗與能量預(yù)算之間的偏差,H(t)表示第t次迭代后調(diào)控信息新鮮度與信息新鮮度約束hmin之間的偏差?;谔摂M隊(duì)列理論[23],當(dāng)虛擬隊(duì)列Gn(t)和H(t)穩(wěn)定時(shí),所對(duì)應(yīng)的長(zhǎng)期約束 C4和C5自動(dòng)成立。進(jìn)一步地,根據(jù)李雅普諾夫優(yōu)化理論[23],定義向量ψ(t)=[{Gn(t)},H(t)],并將李雅普諾夫函數(shù)表示為
定義李雅普諾夫漂移 ΔL(ψ(t))為L(zhǎng)(ψ(t))在連續(xù)2 個(gè)時(shí)隙變化的期望值,因此漂移加懲罰可表示為
將式(21)和式(22)代入式(23)并化簡(jiǎn),可得漂移加懲罰的上界為
其中,C為與優(yōu)化變量無(wú)關(guān)的常數(shù)。因此,問(wèn)題P1解耦為各次迭代的短期優(yōu)化問(wèn)題,優(yōu)化目標(biāo)為最大化漂移加懲罰上界的相反數(shù)。第t次迭代的聯(lián)合優(yōu)化問(wèn)題表示為
其中,VH和VG分別為對(duì)應(yīng)調(diào)控信息新鮮度長(zhǎng)期約束和終端能耗長(zhǎng)期約束的權(quán)重。
進(jìn)一步將轉(zhuǎn)化后的問(wèn)題P2 建模為MDP 優(yōu)化問(wèn)題,具體介紹如下。
1) 狀態(tài)空間。定義終端能耗赤字集合為G(t)={G1(t),…,Gn(t),…,GN(t)},終端能量預(yù)算集合為Emax={E1,max,…E2,max,…,EN,max}。狀態(tài)空間表示為St=G(t) ?H(t)?Emax?hmin,其中?表示笛卡兒積。
2) 動(dòng)作空間。動(dòng)作空間定義為At={A1,t,…,An,t,…,AN,t},其中An,t=αn,t?βn,t為終端n對(duì)應(yīng)的動(dòng)作空間。
3) 回報(bào)函數(shù)?;貓?bào)函數(shù)定義為P2的優(yōu)化目標(biāo),即φt。
本文提出的算法可以求解2.1 節(jié)中構(gòu)建的MDP優(yōu)化問(wèn)題,其核心思想是利用DQN 量化與擬合高維狀態(tài)空間下的狀態(tài)?動(dòng)作價(jià)值,即表征動(dòng)作累積獎(jiǎng)勵(lì)值的Q 值,并以此為依據(jù)優(yōu)化信道分配與批量規(guī)模決策。本文算法結(jié)構(gòu)如圖3 所示,包括主網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)、經(jīng)驗(yàn)池、多模態(tài)信道分配沖突解決模塊、調(diào)控信息新鮮度赤字更新模塊等。
圖3 本文算法結(jié)構(gòu)
IFAC3O 算法的執(zhí)行主體為控制器。控制器基于終端Q 值比較解決多模態(tài)信道競(jìng)爭(zhēng)沖突,其機(jī)理是將信道分配給能獲得最大Q 值的終端,進(jìn)而更有效地降低調(diào)控模型全局損失函數(shù)、調(diào)控信息新鮮度赤字與終端能耗赤字。IFAC3O 算法實(shí)現(xiàn)調(diào)控信息新鮮度感知和終端能耗感知的機(jī)理是在DQN的狀態(tài)空間、回報(bào)函數(shù)值與Q 值中引入信息新鮮度感知和終端能耗性能赤字,使DQN 在基于性能偏差的迭代優(yōu)化中能夠不斷擬合與感知?jiǎng)幼鲀r(jià)值與虛擬赤字隊(duì)列演進(jìn)之間的非線性復(fù)雜關(guān)聯(lián),并動(dòng)態(tài)調(diào)整多模態(tài)信道分配與批量規(guī)模聯(lián)合優(yōu)化策略,實(shí)現(xiàn)通信與計(jì)算資源協(xié)同。
一次調(diào)控決策模型訓(xùn)練迭代可分為以下3 個(gè)步驟。首先,控制器基于主網(wǎng)絡(luò)估計(jì)的Q 值優(yōu)化信道分配和批量規(guī)模決策,并通過(guò)比較Q 值解決多模態(tài)信道分配沖突,其核心思想是將信道分配給能獲得最大狀態(tài)?動(dòng)作價(jià)值的終端。其次,控制器下發(fā)信道分配和批量規(guī)模決策,所有終端執(zhí)行本地模型訓(xùn)練和模型上傳,并將能耗信息反饋至控制器。最后,基于終端上傳的信息,控制器更新調(diào)控信息新鮮度赤字、終端能耗赤字,計(jì)算回報(bào)函數(shù),更新經(jīng)驗(yàn)池,并轉(zhuǎn)移至下一狀態(tài)??刂破饔?jì)算DQN 損失函數(shù),以此為依據(jù)更新主網(wǎng)絡(luò)參數(shù),并周期性更新目標(biāo)網(wǎng)絡(luò)參數(shù)。
IFAC3O 算法執(zhí)行流程如算法1 所示,包括3個(gè)階段,分別為初始化(步驟1)~步驟3))、動(dòng)作選擇及多模態(tài)信道分配沖突解決(步驟5)~步驟16))以及學(xué)習(xí)(步驟17)~步驟25))。
初始化階段。初始化Gn(t)=0,H(t)=0,αn,j,t=0,βn,t=0,?n∈N,?j∈J,?t∈T。定義未被分配信道的終端集合為Nt,并初始化Nt=N。定義終端n∈Nt的可分配信道集合為Jn,t,并初始化Jn,t=J。
動(dòng)作選擇及多模態(tài)信道分配沖突解決階段。首先,控制器基于ε-貪婪算法為每個(gè)終端選擇動(dòng)作。其次,當(dāng)存在信道分配沖突時(shí),例如同時(shí)為終端n和m分配信道j且控制器通過(guò)比較終端n和m的Q 值,將信道j分配給Q 值較大的終端n并拒絕終端m。隨后,控制器將終端n移出未被分配信道的終端集合,即并設(shè)置被拒絕終端m的 Q 值為,其中,為終端m動(dòng)作空間Am,t中對(duì)應(yīng)于信道j的動(dòng)作集合?;诟碌腝 值,重復(fù)上述動(dòng)作選擇及多模態(tài)信道分配沖突解決過(guò)程直到所有終端被分配信道。最后,控制器下發(fā)信道分配和批量規(guī)模決策,終端n∈N按照決策執(zhí)行本地模型訓(xùn)練和本地模型上傳,并將能耗信息En,t上傳至控制器。
學(xué)習(xí)階段。在學(xué)習(xí)階段,控制器通過(guò)計(jì)算終端執(zhí)行動(dòng)作后的回報(bào)函數(shù)來(lái)更新DQN 參數(shù),以提高DQN 對(duì)狀態(tài)?動(dòng)作價(jià)值的擬合精度,使DQN 輸出最佳策略,實(shí)現(xiàn)信道分配和批量規(guī)模的優(yōu)化,提高全局模型的精度,保障調(diào)控信息新鮮度,降低終端能耗。首先,基于終端上傳的能耗信息,控制器根據(jù)式(19)更新終端能耗赤字Gn(t+1)。同時(shí),控制器根據(jù)接收到的本地模型時(shí)間戳、模型下發(fā)時(shí)間以及式(10)、式(14)、式(15)計(jì)算獲得第t次迭代的信息新鮮度,并根據(jù)式(20)更新調(diào)控信息新鮮度赤字H(t+1)??刂破鞲鶕?jù)式(24)計(jì)算回報(bào)函數(shù)φt。
其中,λ為折扣因子。
最后,基于υn更新主網(wǎng)絡(luò)參數(shù)
其中,κ為學(xué)習(xí)步長(zhǎng)。每T0次迭代更新目標(biāo)網(wǎng)絡(luò)為
本文所提IFAC3O 算法不需要專家經(jīng)驗(yàn),能夠?qū)崿F(xiàn)調(diào)控信息新鮮度感知和終端能耗感知,通過(guò)赤字虛擬隊(duì)列演進(jìn)感知每個(gè)時(shí)隙調(diào)控信息新鮮度與規(guī)定約束的偏差,并根據(jù)偏差自適應(yīng)動(dòng)態(tài)優(yōu)化信道分配和批量規(guī)模,實(shí)現(xiàn)通信與計(jì)算資源的協(xié)同優(yōu)化,從而提高電力至簡(jiǎn)物聯(lián)網(wǎng)的資源編排管理水平和網(wǎng)絡(luò)自治水平。具體而言,由式(20)可以看出,當(dāng)調(diào)控信息新鮮度與規(guī)定約束偏離嚴(yán)重時(shí),H(t)逐漸增加,導(dǎo)致回報(bào)函數(shù)值降低,迫使控制器調(diào)整信道分配和批量規(guī)模決策以降低調(diào)控信息年齡,提高調(diào)控信息新鮮度,保證控制器所接收本地終端模型的時(shí)效性,從而實(shí)現(xiàn)調(diào)控信息新鮮度感知,提高控制器分布式能源調(diào)控決策的準(zhǔn)確性和可靠性。
本文通過(guò)對(duì)比不同的仿真算法來(lái)驗(yàn)證所提IFAC3O 算法的性能。考慮200 m×500 m 范圍低壓配電網(wǎng),包含12 個(gè)部署于電力設(shè)備上的物聯(lián)終端。本文應(yīng)用MINST 數(shù)據(jù)集[24]驗(yàn)證所提IFAC3O 算法性能。MINST 數(shù)據(jù)集包含 6 ×104個(gè)訓(xùn)練樣本,本文假設(shè)每個(gè)終端從中隨機(jī)抽取50 個(gè)樣本作為本地?cái)?shù)據(jù)集Dn訓(xùn)練本地模型。DQN 采用四層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包含輸入層、隱藏層1、隱藏層2和輸出層,各層神經(jīng)元數(shù)量分別為狀態(tài)空間元素個(gè)數(shù)、128、128和動(dòng)作空間元素個(gè)數(shù)。DQN 經(jīng)驗(yàn)池大小設(shè)置為50。
具體參數(shù)設(shè)置如表1 所示[17,19]。對(duì)比算法設(shè)置為MDRL3RA 算法[12]和AFLBSO 算法[13]。其中,MDRL3RA 不具有能耗感知與調(diào)控信息新鮮度感知能力;AFLBSO 算法無(wú)法實(shí)現(xiàn)信道分配優(yōu)化和解決信道分配沖突,不具有調(diào)控信息新鮮度感知能力。除此之外,文獻(xiàn)[25]提出了一種最大干擾信道消除(MICD,maximum interference channel deletion)算法,通過(guò)優(yōu)化信道分配,以最大化信息新鮮度。但是MICD 無(wú)法實(shí)現(xiàn)批量規(guī)模優(yōu)化與能耗感知。
表1 仿真參數(shù)
圖4 描述了全局損失函數(shù)隨迭代次數(shù)的變化情況。隨著迭代次數(shù)增加,全局損失函數(shù)先下降后穩(wěn)定。當(dāng)?shù)螖?shù)為200 時(shí),相比于MDRL3RA和AFLBSO,IFAC3O的全局損失函數(shù)分別降低了57.19%和24.60%。IFAC3O 在保障終端能耗與調(diào)控信息新鮮度長(zhǎng)期約束的前提下,能夠最大化參與本地模型訓(xùn)練的批量規(guī)模,從而降低全局損失函數(shù)。相關(guān)仿真結(jié)果在圖5 中進(jìn)一步闡述。
圖4 全局損失函數(shù)隨迭代次數(shù)變化情況
圖5 平均調(diào)控信息新鮮度和平均批量規(guī)模對(duì)比
圖5 對(duì)比了不同算法的平均調(diào)控信息新鮮度和平均批量規(guī)模。其中,平均調(diào)控信息新鮮度和平均批量規(guī)模分別定義為與MDRL3RA和AFLBSO 相比,IFAC3O的平均調(diào)控信息新鮮度分別提高了35.34%和49.05%,平均批量規(guī)模分別提高了31.72%和19.39%。針對(duì)計(jì)算能力較差的終端,IFAC3O 通過(guò)為其分配質(zhì)量更好的信道降低了傳輸時(shí)延。針對(duì)等待時(shí)延較大的終端,IFAC3O通過(guò)增加其本地訓(xùn)練的批量規(guī)模,降低了等待時(shí)延,提高了調(diào)控信息新鮮度。
圖6 描述了IFAC3O 算法訓(xùn)練時(shí)延、傳輸時(shí)延、等待時(shí)延和批量規(guī)模隨迭代次數(shù)的變化情況。與第1 次迭代相比,IFAC3O 在經(jīng)過(guò)199 次迭代后,批量規(guī)模增加了41.75%,訓(xùn)練時(shí)延增加了50.48%,傳輸時(shí)延下降了42.74%,等待時(shí)延下降了69.51%,總時(shí)延下降了24.64%。IFAC3O 調(diào)整了訓(xùn)練時(shí)延與等待時(shí)延占比,即通過(guò)優(yōu)化信道分配降低傳輸時(shí)延,通過(guò)增加批量規(guī)模增大訓(xùn)練時(shí)延,從而使等待時(shí)延與總時(shí)延顯著下降。
圖6 IFAC3O 算法訓(xùn)練時(shí)延、傳輸時(shí)延、等待時(shí)延和批量規(guī)模隨迭代次數(shù)的變化情況
圖7 描述了傳輸時(shí)延隨終端數(shù)量的變化情況。隨著終端數(shù)量增加,信道分配沖突加劇導(dǎo)致傳輸時(shí)延逐漸增加,但I(xiàn)FAC3O 通過(guò)比較Q 值解決多模態(tài)信道分配沖突,其傳輸時(shí)延性能始終優(yōu)于MDRL3RA和AFLBSO。雖然MDRL3RA 考慮了信道分配優(yōu)化,但其無(wú)法解決信道分配沖突,因此其傳輸時(shí)延高于IFAC3O。當(dāng)終端數(shù)量為15時(shí),IFAC3O的傳輸時(shí)延比MDRL3RA和AFLBSO 分別降低了14.42%和23.11%。
圖7 傳輸時(shí)延隨終端數(shù)量的變化情況
圖8 對(duì)比了不同算法200 次迭代終端能耗赤字與調(diào)控信息新鮮度赤字分布情況。由圖8 仿真結(jié)果可以看出,IFAC3O 具有最低終端能耗赤字中位數(shù)與調(diào)控信息新鮮度赤字中位數(shù)。與MDRL3RA和AFLBSO 相比,IFAC3O的終端能耗赤字分別降低了20.07%和22.34%,調(diào)控信息新鮮度赤字分別降低了23.45%和26.77%。MDRL3RA和AFLBSO 無(wú)法保障調(diào)控信息新鮮度長(zhǎng)期約束,導(dǎo)致調(diào)控信息新鮮度赤字波動(dòng)范圍較大。
圖8 不同算法200 次迭代終端能耗赤字與調(diào)控信息新鮮度赤字分布情況
圖9 描述了平均調(diào)控信息新鮮度和平均信息年齡隨調(diào)控信息新鮮度權(quán)重VH的變化情況。隨著VH增大,平均信息年齡逐漸減小,平均調(diào)控信息新鮮度逐漸增加,同時(shí)等待時(shí)延顯著下降。當(dāng)VH從50增加至100 時(shí),平均調(diào)控信息新鮮度提高了13.13%,平均信息年齡下降了24.72%,等待時(shí)延降低了32.09%。仿真結(jié)果表明,IFAC3O 主要通過(guò)減少等待時(shí)延降低信息年齡,進(jìn)而提高調(diào)控信息新鮮度。
圖9 平均調(diào)控信息新鮮度和平均信息年齡隨調(diào)控信息新鮮度權(quán)重VH的變化情況
圖10 顯示了全局損失函數(shù)與平均調(diào)控信息新鮮度隨迭代次數(shù)的變化情況。其中,柱狀圖表示全局損失函數(shù)的變化情況,折線圖表示平均調(diào)控信息新鮮度的變化情況。由于MICD 通過(guò)不斷迭代的方式在每次迭代中尋找最優(yōu)信道分配結(jié)果,當(dāng)?shù)螖?shù)小于60 時(shí),MICD的平均調(diào)控信息新鮮度高于IFAC3O。然而,IFAC3O 通過(guò)聯(lián)合優(yōu)化信道分配和批量規(guī)模,進(jìn)一步提高了平均調(diào)控信息新鮮度。仿真結(jié)果表明,當(dāng)?shù)螖?shù)達(dá)到200 時(shí),相較于MICD,IFAC3O的全局損失函數(shù)降低了39.22%,平均調(diào)控信息新鮮度提高了7.15%。
圖10 全局損失函數(shù)與平均調(diào)控信息新鮮度隨迭代次數(shù)的變化情況
本文通過(guò)MATLAB 驗(yàn)證所提IFAC3O 性能。表2 顯示了IFAC3O 計(jì)算耗時(shí)隨終端數(shù)量的變化,其中計(jì)算耗時(shí)定義為IFAC3O在MATLAB上單次執(zhí)行所需要的時(shí)間。仿真結(jié)果表明,終端數(shù)量增多會(huì)導(dǎo)致DQN 輸入狀態(tài)和信道分配沖突概率增加,因此IFAC3O 耗時(shí)增長(zhǎng)速度逐漸變大。由于仿真平臺(tái)硬件配置限制,目前仿真計(jì)算耗時(shí)整體在秒級(jí)。當(dāng)采用專用計(jì)算硬件模塊,實(shí)際計(jì)算時(shí)延可以進(jìn)一步降低至毫秒級(jí)甚至微秒級(jí)。
表2 IFAC3O 計(jì)算耗時(shí)隨終端數(shù)量的變化
本文針對(duì)分布式能源調(diào)控決策模型損失函數(shù)最小化問(wèn)題,提出基于調(diào)控信息新鮮度感知的電力至簡(jiǎn)物聯(lián)網(wǎng)通信與計(jì)算資源協(xié)同優(yōu)化算法,通過(guò)信道分配與批量規(guī)模的協(xié)同優(yōu)化,在長(zhǎng)期調(diào)控信息新鮮度約束下實(shí)現(xiàn)損失函數(shù)最小化。仿真結(jié)果表明,相較于MDRL3RA和AFLBSO,IFAC3O的全局損失函數(shù)分別降低了57.19%和24.60%,信息新鮮度分別提高了35.34%和49.05%,終端能耗波動(dòng)分別降低了61.21%和11.80%。本文研究成果可運(yùn)用于整縣光伏、新型電力系統(tǒng)分布式能源并網(wǎng)工程中,為分布式能源調(diào)控模型訓(xùn)練提供信息新鮮度保障。在未來(lái)研究中,還需要進(jìn)一步考慮多終端數(shù)據(jù)異構(gòu)性對(duì)分布式能源調(diào)控模型訓(xùn)練的影響。