周 鑫 陳建平 傅啟明
(蘇州科技大學(xué)電子與信息工程學(xué)院 江蘇 蘇州 215009) (江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室 江蘇 蘇州 215009)
為了應(yīng)對(duì)日益增加的建筑能耗問(wèn)題,單純依靠政策宣傳節(jié)能等粗放的手段難以有效地解決節(jié)能問(wèn)題。新一代的人工智能技術(shù),已成為智能電網(wǎng)背景下建筑節(jié)能的又一大研究趨勢(shì)。但目前的人工智能方法在建筑節(jié)能領(lǐng)域尚處在初級(jí)階段,探索如何使用新技術(shù)實(shí)現(xiàn)建筑節(jié)能,是一個(gè)亟待解決的問(wèn)題。
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[1]是人工智能方法中的一種,因其在多個(gè)領(lǐng)域的應(yīng)用價(jià)值,使其成為主要的研究方向。深度強(qiáng)化學(xué)習(xí)是由具有決策能力強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)[2]與具有特征提取能力的深度學(xué)習(xí)(Deep Learning,DL)[3]結(jié)合而成,具有很強(qiáng)的通用性[4]。在之后的研究中,深度強(qiáng)化學(xué)習(xí)在各個(gè)領(lǐng)域被廣泛運(yùn)用,如游戲[5]、機(jī)器人控制[6-7]等。
Mnih等[8-9]將神經(jīng)網(wǎng)絡(luò)與RL算法結(jié)合,提出了深度Q網(wǎng)絡(luò)模型(Deep Q-Network,DQN),用于處理視覺(jué)感知的控制任務(wù)。之后,DQN算法出現(xiàn)了多種改進(jìn)版本[10],包括對(duì)算法的改進(jìn)[11]、神經(jīng)網(wǎng)絡(luò)模型的改進(jìn)[12]、學(xué)習(xí)機(jī)制的改進(jìn)[13-14],以及新的RL算法的改進(jìn)[15]。然而,這些算法適用于離散動(dòng)作空間的RL任務(wù),在連續(xù)動(dòng)作空間中,基于確定性策略梯度(Deterministic Policy Gradient,DPG)[16]的算法可以獲得更好的效果。因此,Deep Mind團(tuán)隊(duì)提出了深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[17],結(jié)合深度神經(jīng)網(wǎng)絡(luò)來(lái)處理大規(guī)模狀態(tài)空間的問(wèn)題,并在該算法的基礎(chǔ)上提出了多智能體的DDPG算法[18],取得了顯著效果。陳建平等[19]提出一種增強(qiáng)型深度確定性策略梯度算法,加快了算法的收斂速度。何明等[20]提出了基于多智能體DDPG算法的經(jīng)驗(yàn)優(yōu)先抽取機(jī)制,提高了算法的訓(xùn)練速度。鄒長(zhǎng)杰等[21]提出了基于多智能體DDPG模型的分組學(xué)習(xí)策略,提高了多智能體的學(xué)習(xí)效率。
綜上,針對(duì)現(xiàn)有建筑節(jié)能方法比較粗放的問(wèn)題,基于深度強(qiáng)化學(xué)習(xí)的理論,提出更加智能化的控制策略,用于解決建筑節(jié)能問(wèn)題。本文提出一種基于DDPG算法的建筑能耗策略優(yōu)化方法,利用強(qiáng)化學(xué)習(xí)構(gòu)建成本最小化與電力負(fù)荷峰值降低的關(guān)系模型,解決連續(xù)動(dòng)作空間下的策略優(yōu)化問(wèn)題。通過(guò)對(duì)開(kāi)源的建筑能耗使用數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,該方法能夠有效降低電力負(fù)荷與使用成本,最終實(shí)現(xiàn)建筑節(jié)能。
滿足馬爾可夫性質(zhì)的強(qiáng)化學(xué)習(xí)任務(wù)被稱為馬爾可夫決策過(guò)程(Markov Decision Process,MDP)或MDP,因此,利用馬爾可夫決策過(guò)程對(duì)強(qiáng)化學(xué)習(xí)進(jìn)行建模,可以有效完成序貫決策任務(wù)。通常,MDP可以用一個(gè)四元組{S,A,T,R}表示,其中:S是所有環(huán)境狀態(tài)的集合;A是agent可執(zhí)行動(dòng)作的集合;T是狀態(tài)轉(zhuǎn)移函數(shù);R是獎(jiǎng)賞函數(shù)。對(duì)一個(gè)MDP問(wèn)題,在任意時(shí)刻t,其狀態(tài)為St∈S,選擇并執(zhí)行動(dòng)作at∈A,獲得立即獎(jiǎng)賞r(st,at)∈R,通??梢院?jiǎn)寫(xiě)為rt,且轉(zhuǎn)移到下一狀態(tài)st+1∈S,狀態(tài)轉(zhuǎn)移T(st,at,st+1)的概率為Pr(st,at,st+1)。
強(qiáng)化學(xué)習(xí)中,策略π是指在狀態(tài)s下采取動(dòng)作a的概率,表示為π(s,a)。判斷某一策略π的優(yōu)劣程度,基本上是通過(guò)計(jì)算估計(jì)動(dòng)作值函數(shù)的值進(jìn)行判斷。其中,估計(jì)動(dòng)作值函數(shù)根據(jù)未來(lái)累積獎(jiǎng)賞進(jìn)行計(jì)算評(píng)估,定義如下:
Qπ(s,a)=Eπ{Rt|st=s,at=a}=
(1)
式中:γ是折扣率,決定著未來(lái)獎(jiǎng)賞的當(dāng)前價(jià)值。如果選擇的策略是最優(yōu)策略,則用最優(yōu)動(dòng)作值函數(shù)Q*進(jìn)行表示,定義如式(2)所示。
(2)
DDPG算法融合了DPG算法與DQN算法的優(yōu)點(diǎn),利用神經(jīng)網(wǎng)絡(luò)來(lái)模擬策略函數(shù)和Q值函數(shù),通過(guò)訓(xùn)練,能夠提高非線性模擬函數(shù)的準(zhǔn)確性和高效性。此外,利用DPG算法中行動(dòng)者評(píng)論家方法(Action-Critic,AC)的優(yōu)勢(shì),結(jié)合DQN算法中的經(jīng)驗(yàn)池和雙網(wǎng)絡(luò)結(jié)構(gòu),以及目標(biāo)網(wǎng)絡(luò)參數(shù)的“軟更新”方式,提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率,在連續(xù)狀態(tài)空間問(wèn)題中取得了較好的實(shí)驗(yàn)效果。其中,DPG算法利用近似函數(shù)μ(s|θμ)表示動(dòng)作選擇,其梯度定義如下:
(3)
在隨機(jī)策略中,狀態(tài)和動(dòng)作的值會(huì)影響策略梯度的計(jì)算,而在確定策略中,只有狀態(tài)值才會(huì)影響策略梯度。相較而言,DPG算法在達(dá)到收斂條件時(shí)所需要的樣本較少。DDPG算法利用式(3)更新策略網(wǎng)絡(luò)參數(shù),并通過(guò)式(4)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。但是,如果直接使用式(4)進(jìn)行更新會(huì)導(dǎo)致收斂不穩(wěn)定,因?yàn)樵诟翾(s,a|θQ)的過(guò)程中,其目標(biāo)值也在同步計(jì)算,即式(5)中的yt。
L(θQ)=Est~ρπ,at~π,rt~E[(Q(st,at|θQ)-yt)2]
(4)
yt=r(st,at)+rQ(st+1,μ(st+1)|θQ)
(5)
針對(duì)這個(gè)問(wèn)題,DDPG采用“軟更新”的方式,即創(chuàng)建新的AC網(wǎng)絡(luò)(Q′(s,a|θQ′),μ′(s|θμ′))用于目標(biāo)參數(shù)的更新。目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)中參數(shù)的更新規(guī)則為θμ′←αθμ+(1-α)θμ′,θQ′←αθQ+(1-α)θQ′,α<<1,該方法可以降低目標(biāo)值的更新速度,從而提高算法的收斂穩(wěn)定性。此外,DDPG算法引入經(jīng)驗(yàn)回放機(jī)制打破樣本之間的相關(guān)性,以提高算法的學(xué)習(xí)效率。不僅如此,DDPG算法還通過(guò)引入隨機(jī)噪聲N來(lái)完成策略探索,使動(dòng)作的選擇具有一定的隨機(jī)性,從而在一定程度上提高探索環(huán)境的效率,具體如式(6)所示。
(6)
判斷agent是否選擇最優(yōu)動(dòng)作之后,需要對(duì)策略選擇方法加以改進(jìn),或者選擇合適的動(dòng)作選擇策略。UCB策略、ε-greedy方法、與Softmax都是強(qiáng)化學(xué)習(xí)中比較重要的動(dòng)作選擇策略。前兩種策略缺陷都在于不能夠有效地優(yōu)化動(dòng)作的選擇概率。因此,一個(gè)比較有效的方法就是將選擇動(dòng)作的概率更改為估計(jì)值的一個(gè)分級(jí)函數(shù),即將最高的選擇概率分配給貪心動(dòng)作,但是,除此之外的其他動(dòng)作則根據(jù)其值的估計(jì)進(jìn)行比較并分配權(quán)重,這稱為軟最大化動(dòng)作選擇規(guī)則。
動(dòng)作選擇概率的一般表達(dá)式可以寫(xiě)為它在某次操作選擇動(dòng)作aj的概率:
(7)
式中:τ指代的是溫度系數(shù),當(dāng)τ→0時(shí),軟最大化動(dòng)作選擇方法就變得與貪心方法一樣。
(8)
ai,d,t={1,0} ?a∈A,?i∈N,?d∈N,?t∈N
式中:如果電氣設(shè)備在特定時(shí)間打開(kāi),則ai,d,t=1,否則為0。此外,本節(jié)提出的方法中,ai,d,t等同于對(duì)動(dòng)作的估計(jì)。
(9)
因此,式(8)的約束條件將同時(shí)對(duì)兩個(gè)問(wèn)題都有效。但是,基于不同類型的電氣設(shè)備之間的差異,約束條件的整個(gè)范圍會(huì)變大,如下所述。
電氣設(shè)備的約束條件:假設(shè)三種類型的消耗曲線。首先,考慮時(shí)間縮放負(fù)載。對(duì)此,本節(jié)的分析僅限于空調(diào)負(fù)荷(dAC),作為每棟建筑物中較大的一組電氣設(shè)備的代表,可以在優(yōu)化范圍內(nèi)將開(kāi)關(guān)次數(shù)約束為有限時(shí)間,例如燈、電視等電氣設(shè)備。先前的研究表明,短期時(shí)間內(nèi)減少空調(diào)的使用對(duì)最終用戶舒適度的影響可忽略不計(jì)。其次,本章包括時(shí)移負(fù)載,也稱為可延遲負(fù)載,即能夠?qū)崿F(xiàn)用電時(shí)間的轉(zhuǎn)移,它必須在給定的時(shí)間間隔內(nèi)消耗最少的電量。其中,本節(jié)將洗碗機(jī)(dDW)建模為不間斷負(fù)載,該模型需要多個(gè)連續(xù)的時(shí)間步長(zhǎng)。最后,電動(dòng)汽車(dEV)被建模為可移動(dòng)負(fù)載。就本節(jié)而言,根據(jù)隨時(shí)間變化的設(shè)備約束ad,t的定義,提出以下假設(shè):
(10)
條件1:在本節(jié)中,P+被認(rèn)為是不可忽視的部分。
在本節(jié)中,使用DRL方法作為建筑能耗控制的優(yōu)化方法,以便在不同復(fù)雜程度上執(zhí)行最佳建筑能耗控制策略。DRL可以通過(guò)自動(dòng)提取模式,例如能源消耗的數(shù)據(jù),來(lái)學(xué)習(xí)比標(biāo)準(zhǔn)RL更好的行為策略。簡(jiǎn)而言之,可以從總體框架的角度將DNN方法表示為在給定輸入分布上具有良好泛化能力的黑匣子模型,如式(10)所示。
(11)
針對(duì)本節(jié)所解決的多目標(biāo)優(yōu)化問(wèn)題,在一天結(jié)束時(shí)計(jì)算一個(gè)準(zhǔn)確的獎(jiǎng)賞函數(shù),而不是在一天的每個(gè)時(shí)間步長(zhǎng)都計(jì)算獎(jiǎng)賞函數(shù)。因此,推導(dǎo)出了一個(gè)簡(jiǎn)單的包含三個(gè)獎(jiǎng)賞組成的多任務(wù)聯(lián)合獎(jiǎng)賞:
(12)
2) 對(duì)式(9)中定義的總能耗進(jìn)行如下設(shè)置:
(13)
此外,根據(jù)式(8),當(dāng)有更多的能源產(chǎn)生時(shí),通過(guò)時(shí)間轉(zhuǎn)移能源消耗量:
(14)
空調(diào)的控制由假設(shè)2以及式(15)給出:
(15)
3) 總成本C的計(jì)算如下:
(16)
故本節(jié)用獎(jiǎng)賞函數(shù)的1)和2)求解式(9),用獎(jiǎng)賞函數(shù)的1)和3)求解式(8)。
之前有將基于值函數(shù)差異的探索與Softmax動(dòng)作選擇結(jié)合在一起,利用學(xué)習(xí)過(guò)程中產(chǎn)生的值差異來(lái)衡量agent對(duì)環(huán)境的不確定性,以適應(yīng)在線探索參數(shù)。事實(shí)證明,這種方法可以極大地優(yōu)化多臂賭博機(jī)問(wèn)題的求解。但是,這種探索策略的缺點(diǎn)是必須記錄每種狀態(tài)的探索參數(shù),在遇到大規(guī)模連續(xù)狀態(tài)或動(dòng)作空間時(shí)效率低下。因此,本節(jié)提出一種基于Softmax方法的策略選擇方法,即S-DDPG,該方法根據(jù)agent與環(huán)境之間的交互過(guò)程中的動(dòng)作值和平均動(dòng)作值動(dòng)態(tài)地調(diào)整探索參數(shù)。
策略選擇方法的核心思想是根據(jù)agent達(dá)到目標(biāo)狀態(tài)的成功數(shù)量和成功率來(lái)鼓勵(lì)探索。一方面,當(dāng)agent獲得越來(lái)越高的獎(jiǎng)賞時(shí),策略應(yīng)該更多地被利用。另一方面,當(dāng)agent由于環(huán)境變化而停止獲得獎(jiǎng)賞時(shí),應(yīng)該再次鼓勵(lì)探索。因此,策略搜索算法如式(17)所示。
(17)
式中:ε的取值來(lái)源于ε-greedy方法。
該方法的總體框架如圖1所示,基于DDPG模型的策略選擇算法如算法1所示。
圖1 策略搜索方法框架
算法1基于DDPG模型的策略選擇方法
輸入:狀態(tài)信息數(shù)據(jù)。
輸出:動(dòng)作的概率。
1) 初始化Actor、Critic網(wǎng)絡(luò)模型的超參數(shù)(α,γ,ζ);網(wǎng)絡(luò)權(quán)重θ
2) forepisode=1 toMdo:初隨機(jī)狀態(tài)s
3) fort=1,T:actor根據(jù)策略方法選擇動(dòng)作;執(zhí)行動(dòng)作,返回獎(jiǎng)賞隨機(jī)狀態(tài)r以及下一狀態(tài)s′;并將狀態(tài)轉(zhuǎn)移信息存入經(jīng)驗(yàn)池;從經(jīng)驗(yàn)池中隨機(jī)選擇數(shù)據(jù)進(jìn)行訓(xùn)練
4) 通過(guò)損失函數(shù)更新Critic網(wǎng)絡(luò);使用樣本的策略梯度更新Actor網(wǎng)絡(luò)
5) end for
6) end for
為了在離散和連續(xù)動(dòng)作空間下令DQN、DPG和DDPG,以及S-DDPG進(jìn)行公平的比較,模型所使用的深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)相似,并且具有以下特征:每個(gè)強(qiáng)化學(xué)習(xí)狀態(tài)由一個(gè)時(shí)間窗口的兩個(gè)連續(xù)時(shí)間步長(zhǎng)給出。因此,在峰值降低問(wèn)題的情況下,輸入層具有11個(gè)神經(jīng)元,即時(shí)間步長(zhǎng)t,以及在t-1到t時(shí)刻的基本負(fù)荷、光伏發(fā)電、空調(diào)狀態(tài)、電動(dòng)汽車和洗碗機(jī)的狀態(tài)。需要注意的是,除了固定的基本負(fù)荷和發(fā)電量外,其他狀態(tài)分量不是由智能電表測(cè)量的初始值直接給出,而是通過(guò)學(xué)習(xí)過(guò)程中獲得的值動(dòng)態(tài)調(diào)整。對(duì)于成本最小化的問(wèn)題,輸入層有一個(gè)額外的神經(jīng)元,用于對(duì)分時(shí)電價(jià)進(jìn)行編碼。此外,該網(wǎng)絡(luò)具有三層隱藏的神經(jīng)元層,各層都包含100個(gè)神經(jīng)元,其中以整流線性單元(ReLU)作為神經(jīng)網(wǎng)絡(luò)的激活函數(shù)。
由于離散動(dòng)作空間和連續(xù)動(dòng)作空間的任務(wù)模型不同,即DQN模型和S-DDPG等模型的輸出層不同。對(duì)于DQN模型,設(shè)置輸出層為8個(gè)神經(jīng)元,每個(gè)神經(jīng)元代表一個(gè)組合動(dòng)作的Q值。每個(gè)組合動(dòng)作都是多個(gè)設(shè)備的可能組合,即空調(diào)(a1)、電動(dòng)汽車(a2)、洗碗機(jī)(a3)的啟動(dòng)或者關(guān)閉。相比之下,S-DDPG輸出層只有三個(gè)神經(jīng)元,每個(gè)神經(jīng)元代表一個(gè)設(shè)備動(dòng)作。更準(zhǔn)確地說(shuō),它輸出的是在特定輸入狀態(tài)執(zhí)行與設(shè)備相關(guān)聯(lián)的動(dòng)作的概率。這是S-DDPG方法相對(duì)于DQN方法的一個(gè)明顯優(yōu)勢(shì),因?yàn)镾-DDPG與設(shè)備的數(shù)量成線性比例。
超參數(shù)設(shè)置:在所有執(zhí)行的實(shí)驗(yàn)中,學(xué)習(xí)率均設(shè)置為α=0.01,折扣因子設(shè)置為γ=0.99,η=0.01。本節(jié)訓(xùn)練了5 000個(gè)情節(jié)的模型,其中每一個(gè)情節(jié)由隨機(jī)20天內(nèi)的數(shù)據(jù)組成。網(wǎng)絡(luò)結(jié)構(gòu)的權(quán)重參數(shù)每?jī)蓚€(gè)情節(jié)更新一次。
本節(jié)結(jié)合改進(jìn)算法驗(yàn)證了所提出的模型,并在大型真實(shí)數(shù)據(jù)庫(kù)中分析了該模型性能。首先,描述數(shù)據(jù)庫(kù)。然后,針對(duì)各種建筑物的降低負(fù)荷峰值問(wèn)題和最小化成本問(wèn)題,給出兩個(gè)問(wèn)題的實(shí)驗(yàn)對(duì)比結(jié)果。
(1) 建筑能耗模型。數(shù)據(jù)集中包含用戶每天使用能源的數(shù)據(jù),將用電記錄進(jìn)行清洗分割,得到兩千多萬(wàn)條數(shù)據(jù),并將這些能耗數(shù)據(jù)用于構(gòu)建特定的設(shè)備模型。圖2和圖3列出了每15分鐘一次記錄的兩種不同類型建筑(B1和B2)的能源數(shù)據(jù)模型。在不同的建筑能源數(shù)據(jù)模型中,光伏發(fā)電的不確定性以及用戶消耗能源的行為特征非常明顯。在本文的實(shí)驗(yàn)中,使用了2010年1月至2016年12月之間的數(shù)據(jù)。
圖2 B1型建筑的能源數(shù)據(jù)模型
(2) 價(jià)格數(shù)據(jù)。本文使用建筑能耗數(shù)據(jù)當(dāng)?shù)氐碾娋W(wǎng)公司為用戶提供的分時(shí)電價(jià)。夏天的電價(jià)由高峰、中峰、低谷時(shí)段的電價(jià)組成,冬季的電價(jià)由高峰低谷電價(jià)組成。此外,在建筑上進(jìn)行自發(fā)電的客戶將收到由電網(wǎng)公司支付的光伏發(fā)電費(fèi)用。
表1和圖4、圖5顯示了兩種類型建筑物(Bi)在一年內(nèi)以15 min的頻率采樣,顯示有關(guān)單個(gè)建筑物級(jí)別的降低負(fù)荷峰值的對(duì)比結(jié)果。表1中,第一列表示峰值,第二列是優(yōu)化方法,第三列是某一類型的建筑,第三、第四列中Mean與S.d分別代表平均值和標(biāo)準(zhǔn)差。對(duì)于原始數(shù)據(jù),計(jì)算日均負(fù)荷峰值的平均值和標(biāo)準(zhǔn)差。在將四種深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于建筑能耗優(yōu)化控制之后,負(fù)荷峰值均有一定程度的降低。其中:DPG方法比DQN方法的效果好;S-DDPG算法的優(yōu)化效果比DQN、DPG、DDPG等方法更好,優(yōu)化之后負(fù)荷峰值明顯降低。這是因?yàn)?,DQN方法主要解決的是離散動(dòng)作空間下的動(dòng)作選擇問(wèn)題,在應(yīng)對(duì)連續(xù)大規(guī)模狀態(tài)空間的問(wèn)題時(shí),無(wú)法及時(shí)采取最優(yōu)策略,只能進(jìn)行離散化的動(dòng)作選擇,最終導(dǎo)致優(yōu)化效果較差,而DDPG方法與S-DDPG方法能夠在該狀況下取得較好的實(shí)驗(yàn)結(jié)果。
表1 建筑物日均負(fù)荷峰值
圖4 B1型建筑降低負(fù)荷峰值后的能耗
圖5 B2型建筑降低負(fù)荷峰值后的能耗
在圖4和圖5中,橫坐標(biāo)表示時(shí)間步長(zhǎng)(每15 min一次),縱坐標(biāo)表示建筑能源的負(fù)荷。與圖2、圖3的建筑能源模式相比,使用S-DDPG算法優(yōu)化后的曲線值在60至100個(gè)時(shí)間步長(zhǎng)內(nèi)已經(jīng)能夠表明下降的趨勢(shì),實(shí)現(xiàn)了負(fù)荷峰值降低的效果。此外,該建筑物中其他的電氣設(shè)備也都在一定程度上降低了負(fù)荷峰值。
表2總結(jié)了兩種不同類型的建筑物日均最小化成本問(wèn)題的實(shí)驗(yàn)對(duì)比結(jié)果。相較于DQN、DPG、DDPG方法,S-DDPG對(duì)建筑能耗使用方法的優(yōu)化控制,在降低負(fù)荷峰值和最小化能源使用成本方面取得了更好的效果。在前面的研究中,假設(shè)用戶自發(fā)電賣出的電價(jià)和買(mǎi)入電網(wǎng)公司的電價(jià)相等,在首先考慮降低建筑電力能源的使用成本時(shí),則可以將成本最小化問(wèn)題轉(zhuǎn)化為降低負(fù)荷峰值的問(wèn)題,從而間接地降低負(fù)荷峰值。
表2 建筑物日均最小化成本
因此,對(duì)比圖2、圖4和圖6,以及圖3、圖5和圖7可以看出,不同類型的建筑物最小化能源使用成本的解決方案與其負(fù)荷峰值降低問(wèn)題,以及原有的建筑能耗模型相關(guān)。此外,對(duì)B1和B2兩種類型的建筑進(jìn)行能耗優(yōu)化控制,B2類型的建筑能耗在S-DDPG算法的優(yōu)化控制下,具有更好的表現(xiàn)效果。
圖6 B1型建筑最小化成本后的能耗
圖7 B2型建筑最小化成本后的能耗
為了測(cè)試在大規(guī)模數(shù)據(jù)下的運(yùn)行情況,本文使用S-DDPG和DDPG算法分別分析10座和20座建筑物的相應(yīng)結(jié)果。表3表明,本文方法可以分別用于峰值降低和成本最小化問(wèn)題。不僅如此,當(dāng)居民在考慮降低電力使用成本時(shí),也能夠隱含地解決負(fù)荷峰值問(wèn)題。在建筑物數(shù)量級(jí)別相同的前提下,S-DDPG比DDPG算法具有更好的性能??傮w而言,在20座建筑物的降低成本問(wèn)題中,S-DDPG算法將負(fù)荷峰值降低了25.1%,成本降低了26.9%,而DDPG算法將負(fù)荷峰值降低了10.1%,成本降低了15.6%。為可視化S-DDPG算法的性能,圖8展示了20座建筑物中每座建筑物的未優(yōu)化和優(yōu)化的年度電力能源成本??梢杂^察到每個(gè)建筑物中居民的電力能源消費(fèi)行為彼此并不相同,在某些優(yōu)化效果較好的情況下,將S-DDPG算法應(yīng)用于建筑能耗優(yōu)化控制,可以將居民的年度電力能源成本降低一半。然而,在一些優(yōu)化效果較差的情況下,該算法僅僅能夠降低幾百分點(diǎn)的建筑電力能耗的成本。
表3 多個(gè)建筑物年均成本的優(yōu)化結(jié)果
圖8 多個(gè)建筑物年均成本優(yōu)化前后的對(duì)比
本節(jié)通過(guò)對(duì)實(shí)驗(yàn)情節(jié)的多次迭代來(lái)評(píng)估S-DDPG算法的收斂性能。圖9顯示了S-DDPG方法在降低負(fù)荷峰值方面的學(xué)習(xí)能力以及降低建筑物的負(fù)荷所對(duì)應(yīng)的獎(jiǎng)賞值。其中,實(shí)驗(yàn)的每個(gè)情節(jié)表示隨機(jī)選擇的20天的平均值。在實(shí)驗(yàn)剛開(kāi)始時(shí),可以觀察到獎(jiǎng)賞數(shù)值增加很快,而在大約100個(gè)情節(jié)之后,獎(jiǎng)賞值增加變得緩慢。在大約100個(gè)情節(jié)之后,使用S-DDPG方法的平均峰值和優(yōu)化的平均峰值會(huì)趨于收斂。
圖9 S-DDPG方法降低的負(fù)荷峰值與獎(jiǎng)賞值
本文提出一種基于深度強(qiáng)化學(xué)習(xí)算法的建筑能耗控制優(yōu)化方法,該方法通過(guò)對(duì)建筑能耗負(fù)荷建模,在假定發(fā)電和消耗的電價(jià)相等的基礎(chǔ)上,將峰值降低問(wèn)題和成本最小化問(wèn)題結(jié)合分析,構(gòu)建三個(gè)獎(jiǎng)賞函數(shù)組合而成的聯(lián)合獎(jiǎng)賞模型,用于建筑能耗控制方法模型。通過(guò)對(duì)某數(shù)據(jù)庫(kù)記載的建筑能耗數(shù)據(jù)進(jìn)行處理,并將DDPG和S-DDPG方法,以及基礎(chǔ)的DQN算法與DPG算法應(yīng)用于建筑能耗控制方法實(shí)驗(yàn)中,實(shí)驗(yàn)結(jié)果表明,在四種不同的方法進(jìn)行對(duì)比之后,S-DDPG方法具有更好的建筑能耗優(yōu)化效果。此外,在下一步的研究計(jì)劃中,將考慮更加復(fù)雜與實(shí)際的情況下建筑能耗的優(yōu)化方法,并希望有更多的學(xué)者參與建筑節(jié)能的研究。