• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強(qiáng)化學(xué)習(xí)的電動汽車協(xié)調(diào)充電算法

    2022-05-06 01:08:30張子霖
    關(guān)鍵詞:電動汽車深度狀態(tài)

    張子霖

    (中國科學(xué)技術(shù)大學(xué) 自動化系,安徽 合肥 230026)

    0 引言

    電動汽車作為一種新型的分布式移動資源,已成為智能電網(wǎng)發(fā)展的重要組成部分[1],越來越多的研究人員開始關(guān)注電動汽車在電網(wǎng)中的社會價值。但電動汽車的日益普及也不可避免地給用戶和電網(wǎng)帶來了一系列的問題和挑戰(zhàn)。 例如,大量電動汽車的不協(xié)調(diào)充電,將導(dǎo)致電網(wǎng)承受不可預(yù)測的負(fù)荷。 因此,如何設(shè)計(jì)多輛電動汽車在整個工作過程中的協(xié)調(diào)充電策略,以降低能源成本,保證用戶對電動汽車荷電狀態(tài)的滿意度,并將對配電網(wǎng)的影響降到最低,是亟需解決的問題。

    近年來,為了解決電動汽車的協(xié)調(diào)充電問題,出現(xiàn)了許多分布式調(diào)度方法。 例如,為了最大限度地提高電動汽車用戶的便利性,開發(fā)了一種分散的基于交替方向乘法器的優(yōu)化算法[2]。 為使電動汽車充電成本最小化,使用電動汽車充電概率模型建立了一個嚴(yán)格凸分散系統(tǒng)形式的多人博弈[3]。 但上述研究只關(guān)注了單一的目標(biāo),這在實(shí)際應(yīng)用中往往是受限制的。 針對多目標(biāo)的協(xié)調(diào)充電問題,通過多智能體自私協(xié)同優(yōu)化的方案,除了實(shí)現(xiàn)用戶利益以外,也保證避免變壓器過載[4],但它沒有充分考慮狀態(tài)空間泛化和值函數(shù)逼近的影響, 導(dǎo)致擬合性能較差,計(jì)算開銷也不理想。 針對該問題,文獻(xiàn)[5]考慮采用基于機(jī)器學(xué)習(xí)的方法,其以收斂速度快、計(jì)算效率高而被廣泛應(yīng)用于大規(guī)模數(shù)據(jù)的高維問題中。

    事實(shí)上,基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動方法作為機(jī)器學(xué)習(xí)的一個重要分支,已經(jīng)廣泛應(yīng)用于能源領(lǐng)域,特別是電動汽車充電問題[6-8]。這是因?yàn)榛趶?qiáng)化學(xué)習(xí)的方法可以在缺乏明確的數(shù)學(xué)模型的情況下模擬順序決策問題,并進(jìn)一步獲得對環(huán)境的精確響應(yīng)[9]。 具體來說,通過建立具有可擴(kuò)展?fàn)顟B(tài)表示的馬爾可夫決策過程,以直接決策聯(lián)合控制整個電動汽車集合[6]。 此外,文獻(xiàn)[7]考慮到電價的隨機(jī)性和電動汽車的通勤行為,提出了一種結(jié)合電價預(yù)測的深度強(qiáng)化學(xué)習(xí)解決方案來優(yōu)化實(shí)時調(diào)度。 但以上兩種基于強(qiáng)化學(xué)習(xí)的方法是集中實(shí)現(xiàn)的,顯然不可能處理大規(guī)模動態(tài)數(shù)據(jù)的在線計(jì)算。 針對電動汽車協(xié)調(diào)充電的分布式強(qiáng)化學(xué)習(xí)方法,文獻(xiàn)[8]引入了一種分散的基于市場的方法,使多輛電動汽車能夠積極參與電力市場。 但其中采用的Q-learning 是基于表格的方法,隨著問題規(guī)模的擴(kuò)大,會受到維數(shù)災(zāi)難的影響。 因此,有必要尋求一種分布式強(qiáng)化學(xué)習(xí)算法,在保證問題規(guī)??蓴U(kuò)展和計(jì)算開銷可接受的前提下,解決多目標(biāo)的電動汽車協(xié)調(diào)充電問題。

    基于上述研究,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的電動汽車協(xié)調(diào)充電分布式算法,重點(diǎn)關(guān)注降低用戶的充電成本,確保日常行駛中足夠的電池荷電狀態(tài),并且避免變壓器過載。

    1 問題描述

    考慮一個居民區(qū),當(dāng)?shù)氐呐潆娋W(wǎng)連接到一定數(shù)目的家庭,每家都有一輛私人使用的電動汽車。 在本文研究的協(xié)調(diào)充電問題中,所有參與信息交互的電動汽車之間存在通信鏈路,從而形成一個全連通的集合 B={1,2,…,N}。 整個時間周期為 G={1,2,…,T},即時間間隔為 1 h。 在時間步 t∈G,電動汽車 n ∈B 獲取本地狀態(tài)信息(即電動汽車的位置和電池荷電狀態(tài))和電價信息,同時接收變壓器的負(fù)載信息和相鄰電動汽車的狀態(tài)信息。 然后每輛電動汽車根據(jù)上述信息進(jìn)行局部決策,執(zhí)行充電或不充電的具體行為。

    為了電動汽車用戶和電網(wǎng)方的利益,本文研究的電動汽車協(xié)調(diào)充電問題的目標(biāo)是找尋最優(yōu)的充電策略,減少電動汽車的充電總成本,確保足夠的電池荷電狀態(tài),并避免變壓器過載。需要注意的是,用戶的通勤行為是不確定的,無法精確建模,因此可將電動汽車的充電行為看成一個隨機(jī)過程。 由于當(dāng)前的信息足以預(yù)測未來的狀態(tài),故上述隨機(jī)過程獨(dú)立于歷史,符合馬爾可夫特性?;谝陨嫌懻?,將本文研究的多目標(biāo)協(xié)調(diào)充電問題表示成一個包含五元素(S,A,P,R,γ)的馬爾可夫決策過程,以描述不確定性。 其中 S 是狀態(tài)空間,A 是所有可行的行為,P 是狀態(tài)轉(zhuǎn)移概率,R 是獎勵函數(shù),γ 是折扣因子。 各元素的詳細(xì)介紹如下:

    在本文研究的多智能體系統(tǒng)中,參數(shù)化的策略函數(shù)為:

    其中 P 為通過參數(shù) θ 將狀態(tài) S 映射到行為 A 上的概率分布函數(shù)。 最后,根據(jù)在Sk狀態(tài)下執(zhí)行 Ak后的期望回報來評估充電調(diào)度的質(zhì)量:

    其中 Qπθ(St,At)表示真實(shí)的行為值函數(shù)。 接下來需要在狀態(tài)轉(zhuǎn)移概率 P(S′|S,A)未知的情況下,求解上述馬爾可夫決策過程。 考慮到不能通過直接求解貝爾曼方程的方式來獲得最優(yōu)解,而無模型的深度強(qiáng)化學(xué)習(xí)算法可以保證智能體在與環(huán)境進(jìn)行多次交互后獲得最優(yōu)策略,故本文開發(fā)了一個深度強(qiáng)化學(xué)習(xí)算法來求解所制定的馬爾可夫決策過程問題。

    2 策略方法

    本節(jié)提出了一種基于神經(jīng)網(wǎng)絡(luò)模型的深度強(qiáng)化學(xué)習(xí)算法,來解決馬爾可夫決策過程形式下的多目標(biāo)電動汽車協(xié)調(diào)充電問題,其中利用通信神經(jīng)網(wǎng)絡(luò)(Communication Neural Network,CommNet)模型實(shí)現(xiàn)多輛電動汽車上的分布式計(jì)算。 在后續(xù)討論和分析中,智能體指的是電動汽車,環(huán)境指的是與電動汽車交互的住宅充電場景,并設(shè)定T=24。

    CommNet 是一種神經(jīng)網(wǎng)絡(luò)模型,常與多智能體強(qiáng)化學(xué)習(xí)結(jié)合使用。 它可以促成多個智能體之間的合作,使它們根據(jù)各自的可觀察狀態(tài)采取行動之前進(jìn)行信息交互。 本文利用CommNet 來幫助連接到局部電網(wǎng)的電動汽車學(xué)習(xí)協(xié)調(diào)充電策略,以實(shí)現(xiàn)設(shè)定的多個目標(biāo)。 在調(diào)度過程中,每層網(wǎng)絡(luò)的所有電動汽車向公共的通信信道發(fā)送本地狀態(tài)信息,同時接收來自其他電動汽車的平均狀態(tài)信息,即所有電動汽車通過訪問此廣播通信結(jié)構(gòu)共享狀態(tài)信息,然后將處理后的信息作為下一層網(wǎng)絡(luò)的輸入。

    CommNet 的具體結(jié)構(gòu)如圖 1 所示。 首先,輸入所有電動汽車的狀態(tài),通過 T1和T2兩個通信步驟映射到各自的行為。 在每個通信步驟中,模塊m=0,1,2 傳播隱藏狀態(tài)向量并在公共信道上廣播由取平均值得到的通信向量然 后 輸 出向量這兩個向量的具體計(jì)算如下:

    圖1 CommNet 結(jié)構(gòu)

    其中 Hm和 Cm為對應(yīng)的系數(shù)矩陣。 將上述公式合并,可以得到:

    3 深度強(qiáng)化學(xué)習(xí)框架

    在機(jī)器學(xué)習(xí)和模式識別中,有許多經(jīng)典的方法可用于函數(shù)逼近[10]。 這里采用 Q 網(wǎng)絡(luò),它本質(zhì)上是一個由三個稠密層組成的神經(jīng)網(wǎng)絡(luò)。 Q 網(wǎng)絡(luò)的輸入層完全連接到隱藏層,這層的輸出值為:

    其中 g 為修正后的線性激活函數(shù),W1、B1分別為權(quán)重矩陣和偏置向量。 類似地,隱藏層完全連接到輸出層,輸出值為最終近似到的行為值函數(shù):

    其中 W2、B2分別為權(quán)重矩陣和偏置向量。

    本文利用critic 網(wǎng)絡(luò)估計(jì)行為值函數(shù):

    同時,actor 網(wǎng)絡(luò)根據(jù)critic 部分獲得的值指導(dǎo)策略函數(shù)的參數(shù)更新。 整個算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

    圖2 完整的算法網(wǎng)絡(luò)圖

    值得注意的是,本算法在迭代過程中運(yùn)用了兩個關(guān)鍵技術(shù),一個是用于提高算法穩(wěn)定性的目標(biāo)網(wǎng)絡(luò),即引入目標(biāo) actor 網(wǎng)絡(luò)和目標(biāo) critic 網(wǎng)絡(luò)來固定參數(shù),并生成與標(biāo)簽數(shù)據(jù)等價的目標(biāo)值。 另一個關(guān)鍵技術(shù)是經(jīng)驗(yàn)回放,以存儲采樣的方式打破數(shù)據(jù)之間的相關(guān)性,避免連續(xù)一段時間內(nèi)同一方向的梯度下降,從而保證算法的收斂性[11-12]。

    完整的基于CommNet 的深度強(qiáng)化學(xué)習(xí)算法的偽代碼如下:

    4 試驗(yàn)驗(yàn)證

    本節(jié)給出了仿真結(jié)果,以驗(yàn)證所提出的基于CommNet 的深度強(qiáng)化學(xué)習(xí)算法的性能。 代碼基于Python 和 TensorFlow。

    4.1 仿真環(huán)境設(shè)置

    通過調(diào)查上海市的私家電動汽車用戶在不同時刻的出行情況,模擬狀態(tài)向量中的電動汽車位置變量。 每輛電動汽車每天平均行駛40 km。

    假設(shè)研究的每個家庭都有一輛電動汽車。 電動汽車的電池容量為30 kW·h,平均能源消耗量為0.15 kW·h/km,電動汽車平均充電率為10 kW·h/h[13-14]。

    在實(shí)現(xiàn)所提出的基于CommNet 的深度強(qiáng)化學(xué)習(xí)算法時,為了穩(wěn)定學(xué)習(xí)階段,使用Xavier 初始化器初始化由全連接層組成的 CommNet 的權(quán)值。 另外,隱藏層節(jié)點(diǎn)數(shù)和通信信道節(jié)點(diǎn)數(shù)均設(shè)置為128。在 critic 網(wǎng)絡(luò)中,輸入單元數(shù)等于狀態(tài)向量、特征向量與行為向量的維數(shù)之和,輸出單元數(shù)等于電動汽車的總數(shù)量。 在訓(xùn)練過程中,折扣因子設(shè)置為0.99,critic 網(wǎng)絡(luò)和 actor 網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為 0.1,批量采樣對的數(shù)目設(shè)為 8,迭代次數(shù)設(shè)為 2 000。 在 CPU 為i3-8100 的計(jì)算機(jī)上,訓(xùn)練過程大約在 1 250 次迭代后收斂,訓(xùn)練時間為10 s 左右。

    4.2 性能評估

    4.2.1 多目標(biāo)協(xié)調(diào)充電

    首先評估包含3 輛電動汽車的小規(guī)模多智能體系統(tǒng)的性能。 在某住宅的局部電網(wǎng)覆蓋下,變壓器為附近的 3 戶家庭提供 30 kW·h 的電力。 假設(shè)仿真的每個階段都在一天內(nèi)進(jìn)行,時間間隔為1 h。

    圖3 顯示了總獎勵值隨迭代次數(shù)的收斂情況。從中可看出獎勵值在1 500 次迭代左右開始收斂。下面驗(yàn)證本文提出的方法分別針對用戶和電網(wǎng)的相關(guān)目標(biāo)的實(shí)現(xiàn)效果。

    圖3 所有電動汽車的總獎勵值

    一方面,對于用戶,圖 4(a)~圖 4(c)依次顯示了在算法達(dá)到收斂后的某一天內(nèi),每輛電動汽車觀察到的實(shí)時電價和電動汽車位置,以及各自的行為決策曲線。 從圖中可以看出,如果電動汽車到達(dá)目的地時正處于谷時電價時段,且有足夠的停車時長使荷電狀態(tài)充至較飽和狀態(tài),則用戶的充電意愿較強(qiáng)烈,如圖 4(b)中 1~4 時、圖 4(c)中 3~5 時顯示的情況;反之,若電動汽車在區(qū)域的停駐時間較短,且正處于峰時電價時段,考慮到用戶充電成本和停車時長的敏感程度,此時用戶的充電概率相對較低,如圖4(a)中 14~16 時、圖 4(b)中 16~18 時的情況。

    圖4 各電動汽車的位置、電價與充電行為

    另一方面,對于電網(wǎng),圖 5(a)~5(c)依次顯示了在算法達(dá)到收斂后的某一天內(nèi),每輛電動汽車接收到的變壓器負(fù)載以及各自的行為決策曲線。 如果變壓器離滿載還有足夠的空間,則用戶的充電意愿較強(qiáng) 烈 , 如 圖 5(a)中 11 ~14 時 、 圖 5(c)中 13 ~18 時 的情況;反之,若變壓器負(fù)載較高,那么此時用戶的充電概率 相對 較低 ,如 圖 5(b)中 4 ~7 時、圖 5(c)中19~21 時顯示的情況。

    圖5 各電動汽車的變壓器負(fù)載與充電行為

    為了表明所提方法的優(yōu)勢,將其與Q-learning進(jìn)行對比,結(jié)果如圖6 所示??梢钥闯?,后者的總獎勵值收斂速度比CommNet 方法慢很多,而且整體值也偏低。

    圖6 CommNet 和 Q-learning 的獎勵值收斂對比

    通過以上討論,可以充分說明本文提出的基于DRL 的分布式算法是解決帶有多個目標(biāo)的協(xié)調(diào)電動汽車充電問題的有效方法。

    4.2.2 系統(tǒng)可擴(kuò)展性

    為了驗(yàn)證所提方法的可擴(kuò)展性,將電動汽車的數(shù)量從 3 輛線性擴(kuò)展到 30 輛。 圖 7 顯示了隨著電動汽車數(shù)量的增加,算法收斂所需的迭代次數(shù)。 可以明顯看出迭代次數(shù)呈現(xiàn)線性增長而非指數(shù)增長趨勢,說明了該算法在處理大規(guī)模多智能體系統(tǒng)時的有效性。

    圖7 電動汽車數(shù)量與算法收斂所需的迭代次數(shù)

    接下來將基于CommNet 的分布式方法與以下兩種集中式基準(zhǔn)方法做比較,進(jìn)一步說明將CommNet網(wǎng)絡(luò)作為策略方案的性能優(yōu)勢。

    隨機(jī)策略:在該模型中,每輛電動汽車有50%的概率不考慮系統(tǒng)狀態(tài),即其他電動汽車的狀態(tài),進(jìn)行充電動作。

    貪婪策略:它是最具代表性的一種傳統(tǒng)策略,每個狀態(tài)有ε 的概率進(jìn)行探索(即隨機(jī)選取充或不充),而剩下的 1-ε 的概率則進(jìn)行開發(fā)(選取當(dāng)前狀態(tài)下效用值較大的那個動作)[15]。

    對于上述三種算法,在相同的駕駛模式下,設(shè)置相同的目標(biāo),模擬了2 000 次的電動汽車協(xié)調(diào)充電訓(xùn)練來定義平均性能。 為此,評估了在 3 輛、10 輛和30 輛電動汽車的情況下,不同方法對獎勵值收斂情況的影響,結(jié)果分別如圖 8(a)~8(c)所示。 可以看出,在三條曲線中,貪婪策略對應(yīng)的曲線在訓(xùn)練初期波動較大,最終發(fā)散,未能收斂。而隨機(jī)策略的訓(xùn)練曲線緩慢衰減,且對應(yīng)的獎勵值遠(yuǎn)小于CommNet方法下的獎勵值。 以上結(jié)果表明,基于 CommNet 的算法在收斂穩(wěn)定性方面比其他兩種集中式基準(zhǔn)方法更加突出。此外,隨著電動汽車數(shù)目的不斷增多,所提算法的獎勵值能在線性迭代次數(shù)內(nèi)達(dá)到收斂。

    圖8 不同數(shù)量電動汽車下三種策略的獎勵值收斂情況

    綜上所述,本文提出的基于CommNet 的深度強(qiáng)化學(xué)習(xí)方法最終學(xué)習(xí)到了能達(dá)到預(yù)定多目標(biāo)的充電策略,并取得了更好的性能。因此,它能有效地應(yīng)用于多電動汽車協(xié)調(diào)充電系統(tǒng),對電動汽車的動態(tài)充電數(shù)據(jù)進(jìn)行實(shí)時處理。

    5 結(jié)論

    本文針對包含多目標(biāo)的多電動汽車協(xié)調(diào)充電問題,提出了一種分布式的多智能體深度強(qiáng)化學(xué)習(xí)方法。該方法的主要創(chuàng)新之處在于:首先,分別從用戶和電網(wǎng)角度考慮,同時實(shí)現(xiàn)多個目標(biāo);其次,調(diào)度策略采用分布式方法,利用多輛電動汽車的局部信息,借助策略網(wǎng)絡(luò)進(jìn)行分布式計(jì)算以達(dá)成全局目標(biāo)。 通過數(shù)據(jù)密集仿真的性能評估,驗(yàn)證了所提算法的有效性和可擴(kuò)展性。 在未來,這項(xiàng)工作可以沿著不同的路線進(jìn)一步擴(kuò)展。

    猜你喜歡
    電動汽車深度狀態(tài)
    純電動汽車學(xué)習(xí)入門(二)——純電動汽車概述(下)
    深度理解一元一次方程
    狀態(tài)聯(lián)想
    電動汽車
    深度觀察
    深度觀察
    深度觀察
    生命的另一種狀態(tài)
    現(xiàn)在可以入手的電動汽車
    海外星云(2016年17期)2016-12-01 04:18:42
    熱圖
    家庭百事通(2016年3期)2016-03-14 08:07:17
    定结县| 高雄县| 阳谷县| 崇仁县| 新安县| 金湖县| 马公市| 涪陵区| 益阳市| 通许县| 安福县| 高密市| 桦川县| 澄城县| 文山县| 蒲城县| 兴和县| 成武县| 金坛市| 成都市| 民权县| 云霄县| 寻乌县| 建平县| 清丰县| 闵行区| 朝阳市| 博爱县| 饶平县| 交城县| 云安县| 酉阳| 磴口县| 东光县| 扎鲁特旗| 日喀则市| 临高县| 克拉玛依市| 木里| 延边| 高唐县|