(重慶交通大學(xué)機(jī)電與車輛工程學(xué)院,重慶 400074)
混合動力汽車(HEV)具備傳統(tǒng)汽車和純電動汽車的優(yōu)點,其通過調(diào)節(jié)發(fā)動機(jī)和電機(jī)之間的能源分配,來保證發(fā)動機(jī)工作在高效率低能耗的區(qū)域[1],目前在混合動力汽車能量管理策略上的研究已經(jīng)成熟發(fā)展,早期主要采用基于規(guī)則的策略,如張冰戰(zhàn)[2]等設(shè)計了一種雙層次的規(guī)則控制策略,后來廣泛采用基于優(yōu)化控制理論的策略,如解少博[3]等提出了一種基于DP-ECMS的插電式混合動力城市客車能量管理策略。
近年來一些學(xué)者和研究人員對基于學(xué)習(xí)的能量管理方法展開了研究,其中RL方法是一種普遍且有效的具有實時應(yīng)用的潛力的技術(shù)。RL方法在HEV能量管理中,可以分為兩類,一是單一算法,例如LIU T[4]等人提出基于Q-learning算法的混合動力車輛能量管理策略。二是混合算法,其他算法與RL相結(jié)合,如隗寒冰[5]等利用深度學(xué)習(xí)與RL結(jié)合,提出基于深度RL的混合動力汽車多目標(biāo)優(yōu)化控制策略。這些其他的算法與信息被集成到RL的框架中,可以實現(xiàn)更高效和實時的控制。
本文首先描述HEV能量管理問題,然后總結(jié)了RL在HEV能量管理上的不同應(yīng)用,比較了它們的關(guān)鍵性能指標(biāo),最后對于RL在能量管理系統(tǒng)的研究前景進(jìn)行了展望。
HEV能量管理系統(tǒng)的核心問題通常被描述為一個具有期望控制目標(biāo)和特定物理約束的最優(yōu)控制問題[6]。其控制目標(biāo)可以包括一種或多種選擇,如排氣溫度、排放、燃油消耗、電池荷電狀態(tài)等。
最優(yōu)控制問題通常受到三種物理約束:動力系統(tǒng)的動力學(xué)、狀態(tài)變量的初始值和終值以及對控制變量和狀態(tài)變量的限制。系統(tǒng)地輸入一般為需求功率、當(dāng)前SOC等,系統(tǒng)的狀態(tài)變量一般為SOC、發(fā)動機(jī)和電機(jī)的轉(zhuǎn)速等,系統(tǒng)的控制變量一般為發(fā)動機(jī)輸出功率、電機(jī)的輸出功率、換擋和離合器狀態(tài)等。為了解決最優(yōu)控制問題,需要對這些參數(shù)進(jìn)行限制界定。
RL的目標(biāo)就是通過智能體與環(huán)境之間的試錯學(xué)習(xí),找到最優(yōu)策略,使得累積回報的期望最大[7],其中智能體是學(xué)習(xí)者和決策者,智能體首先根據(jù)觀測到的環(huán)境狀態(tài)來選擇對應(yīng)的動作作用到環(huán)境中,得到對應(yīng)的回報獎勵和下一步的狀態(tài),然后根據(jù)回報的大小不斷試錯學(xué)習(xí)改進(jìn)其策略,以獲得大的回報獎勵[8]。對應(yīng)的混合動力汽車能量管理問題中的RL框架如圖1所示,在混合動力汽車能量管理問題中環(huán)境可以看作車輛的行駛工況、系統(tǒng)動力學(xué)和動力系統(tǒng)建模模型。而智能體可以看作具有不同算法的特殊的功率分流控制器,該控制器的目的是根據(jù)所接收的狀態(tài)和獎勵信息來搜索一系列動作。
圖1 HEV能量管理問題中的RL框架
在本節(jié)中,首先討論了RL單一算法和基于RL的混合算法在HEV能量管理中的各種應(yīng)用以及發(fā)展,最后總結(jié)了HEV能量管理領(lǐng)域中最新的RL方法。
近年來單一RL算法在混合動力汽車能量管理中得到了廣泛發(fā)展,在過去幾年Fang Y[9]等人應(yīng)用TD(λ)學(xué)習(xí)算法根據(jù)收集到的歷史駕駛數(shù)據(jù)訓(xùn)練和學(xué)習(xí)最優(yōu)的Q價值函數(shù),結(jié)果表明提高了燃油經(jīng)濟(jì)性。
除此之外,陶吉利[10]等人提出了一種基于Q學(xué)習(xí)的HEV能量管理策略,結(jié)果表明此策略有良好的燃油經(jīng)濟(jì)性。Liu C[11]等人利用TD(0)算法訓(xùn)練估計狀態(tài)值表格,并取得了比較好的效果。XU B[12]等人提出了基于Q學(xué)習(xí)的HEV能量管理策略,分別對比了Q學(xué)習(xí)、ECMS和恒溫控制策略對HEV燃油經(jīng)濟(jì)性的影響,結(jié)果表明基于Q-學(xué)習(xí)的控制策略更有效。N Yang[13]等人提出了基于Dyna能量管理策略,此策略下的仿真結(jié)果表明所提出的算法在學(xué)習(xí)速率方面取得很大的進(jìn)步。
近年來,隨著深度學(xué)習(xí)和人工智能的快速發(fā)展,兩種以及兩種以上的算法被集成到RL框架中。如DL與RL結(jié)合形成深度強化學(xué)習(xí),其中包括DQN、DDPG、TD3等算法已經(jīng)應(yīng)用到混合動力汽車能量管理領(lǐng)域。如張昊[14]等人提出了基于DQN算法的能量管理策略,訓(xùn)練結(jié)果表明所提算法在維持SOC的情況下還有很好的燃油經(jīng)濟(jì)性。隗寒冰[15]等人提出了一種基于DQN的多目標(biāo)優(yōu)化的PHEV能量管理策略,結(jié)果表明此策略取得比較好的效果。
DQN算法雖然可以有效解決維度災(zāi)難問題但是針對連續(xù)動作輸出并不能達(dá)到最優(yōu),所以有學(xué)者用DDPG進(jìn)行了改善。如王勇[16]等人以一款豐田PHEV和HEV作為研究對象,提出了基于DDPG的HEV實時能量管理策略,訓(xùn)練結(jié)果表明此策略的HEV的燃油經(jīng)濟(jì)性較高。DDPG算法會出現(xiàn)高估Q值的情況,可能使得算法陷入次優(yōu)策略中并且導(dǎo)致算法不收斂。所以有學(xué)者對此問題進(jìn)行了改進(jìn)。如Zhou J[17]等人提出一種基于TD3算法的混合動力汽車能量管理策略,結(jié)果表明改進(jìn)的TD3算法策略收斂速度快,燃油經(jīng)濟(jì)性好。RL除了與深度學(xué)習(xí)結(jié)合,還能與其他算法相結(jié)合。如Du G[18]等人提出了一種將啟發(fā)式規(guī)劃與Dyna智能體相結(jié)合的新的RL方法Dyna-H,并應(yīng)用到HEV能量管理中,證明了所提算法的可以很好地解決維數(shù)災(zāi)難等問題,同時保證了汽車的燃油經(jīng)濟(jì)性。
上述概述了RL單一和混合算法在混合動力汽車能量管理方面的應(yīng)用,其中他們的具體應(yīng)用對象及優(yōu)缺點如表1所示。
基于RL的能量管理策略優(yōu)于基于規(guī)則的策略,但有很多條件限制了它們的實時應(yīng)用,首先是車載電腦計算能力,再一個是RL需要大量的駕駛數(shù)據(jù)才能使衍生的策略適應(yīng)不同的駕駛情況。
基于RL的HEV能量管理未來的發(fā)展趨勢有三種情況:
(1)出現(xiàn)新型高效的RL算法應(yīng)用到此領(lǐng)域中??梢岳貌煌愋偷纳疃葘W(xué)習(xí)算法對大量數(shù)據(jù)進(jìn)行分類訓(xùn)練和學(xué)習(xí)。如深度信念網(wǎng)絡(luò)[19]、循環(huán)神經(jīng)網(wǎng)絡(luò)[20]是從大量數(shù)據(jù)中學(xué)習(xí)特殊模型得很有前景的方法。
(2)基于RL的能源管理將與智能交通系統(tǒng)相結(jié)合,構(gòu)建智能電網(wǎng)。智能交通系統(tǒng)可以提供實時出行信息、特殊交通情況和天氣情況等,對改進(jìn)基于RL的能源管理的過程中提供很大幫助。
(3)優(yōu)化目標(biāo)將變得更全面和復(fù)雜。從優(yōu)化燃油經(jīng)濟(jì)性的單一目標(biāo)過渡到多個目標(biāo)是未來RL在混合動力汽車能量管理領(lǐng)域的研究趨勢。
本文首先介紹了能量管理問題的RL框架,在此基礎(chǔ)上討論了基于RL的各種算法在能量管理上的應(yīng)用,最后對此應(yīng)用進(jìn)行了展望。