張小俊 沈亮屹 唐鵬 史延雷 李彥辰
(1.河北工業(yè)大學(xué),天津 300401;2.中國汽車技術(shù)研究中心有限公司,天津 300300)
主題詞:深度強化學(xué)習(xí) 插電式混合動力汽車 能量管理 層歸一化 自適應(yīng)巡航
混合動力汽車同時配備電動機和內(nèi)燃機,在減少能源消耗的同時可保證較長的續(xù)航里程,但多動力源提高了驅(qū)動系統(tǒng)的結(jié)構(gòu)復(fù)雜度,故對混合動力汽車的能量管理策略進行研究具有重要意義。
目前,基于規(guī)則的能量管理策略因設(shè)計簡單、易于實現(xiàn)[1-2]而被廣泛應(yīng)用?;谝?guī)則的能量管理策略依賴于一組簡單的規(guī)則,不需要駕駛條件的先驗知識,且具有很高的魯棒性,但是缺乏靈活性和適應(yīng)性[3],因而基于優(yōu)化的能量管理策略被提出,動態(tài)規(guī)劃算法[4]、模型預(yù)測控制[5]與等效燃油消耗最小策略[6]是較為常見的方法[7]。但是動態(tài)規(guī)劃算法很難應(yīng)用于實時問題[8],而模型預(yù)測控制與等效燃油消耗最小策略無法對車速進行精準預(yù)測。
隨著人工智能技術(shù)的發(fā)展,基于深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的能量管理策略近年受到廣泛關(guān)注。Qi 等人使用深度Q 學(xué)習(xí)(Deep QLearning,DQL)算法對某混合動力汽車的駕駛數(shù)據(jù)進行處理,提出了最佳燃料使用策略[9]。Han 等人使用更為精準的雙Q 學(xué)習(xí)(Double Deep Q-Learning,DDQL)算法解決了DQL 算法的過估計問題,使得車輛燃油經(jīng)濟性提高了7.1%[10]。
DQL算法更適用于離散型動作,在連續(xù)動作的應(yīng)用上稍顯欠缺。王勇等人對THS 平臺的混合動力汽車建立了后向仿真模型,將更加適用于連續(xù)動作的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法應(yīng)用在此模型中,發(fā)現(xiàn)使用DDPG 算法的車輛燃油經(jīng)濟性較基于規(guī)則的能量管理策略提升了19%[7]。Fujimoto 等人在DDPG 基礎(chǔ)上進行改進,得到了雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法[11]。
目前,基于深度強化學(xué)習(xí)的混合動力汽車能量管理研究已經(jīng)取得了一定的成果,但大多建立在后向仿真模型基礎(chǔ)上,很難模擬真實的駕駛過程。因此,本文對THS-Ⅲ平臺的插電式混合動力汽車建立前向仿真模型,建立其能量管理的馬爾可夫過程,應(yīng)用DDPG 和TD3算法進行能量管理策略研究,并將該策略應(yīng)用于自適應(yīng)巡航工況中,對基于深度強化學(xué)習(xí)的能量管理策略進行驗證。
功率分流式插電式混合動力汽車(Plug-in Hybrid Electric Vehicle,PHEV)的結(jié)構(gòu)和控制最為復(fù)雜,THS-Ⅲ平臺的PHEV 是功率分流型PHEV 的代表[12]。因此本文對THS-Ⅲ平臺的PHEV進行閉環(huán)前向仿真模型的搭建,以便還原真實的駕駛過程,優(yōu)化能量管理策略。
前向仿真模型常用于汽車的完整設(shè)計過程,它可以較大程度地還原車輛的真實運行狀態(tài),提高仿真的真實性和可靠性[13],故本文選擇建立THS-Ⅲ平臺PHEV的前向仿真模型,其結(jié)構(gòu)如圖1所示。
圖1 車輛前向仿真模型結(jié)構(gòu)示意
THS-Ⅲ平臺插電式混合動力汽車結(jié)構(gòu)如圖2 所示,它主要由發(fā)動機、電動機、發(fā)電機、電池和功率分流機構(gòu)組成。發(fā)動機、電動機和發(fā)電機通過2個行星齒輪和動力耦合裝置將動力傳輸至差速器,通過車橋驅(qū)動汽車。
圖2 THS-Ⅲ平臺插電式混合動力汽車結(jié)構(gòu)
發(fā)動機萬有特性曲線如圖3所示,本文的發(fā)動機工作點均在圖中最佳燃油消耗率曲線上。
圖3 發(fā)動機萬有特性
通過圖3可以得到燃油消耗率mf,通過查表可以得到發(fā)電機效率ηm和電動機效率ηg:
式中,ωeng、Teng分別為發(fā)動機轉(zhuǎn)速和轉(zhuǎn)矩;σeng為發(fā)動機查表函數(shù);ωm、Tm分別為電動機轉(zhuǎn)速和轉(zhuǎn)矩;σm為電動機查表函數(shù);ωg、Tg分別為發(fā)電機轉(zhuǎn)速和轉(zhuǎn)矩;σg為發(fā)電機查表函數(shù)。
閉環(huán)前向仿真模型通過駕駛員模型來模擬真實的油門踏板和制動踏板開度。通過油門踏板開度可以得到車輛所需的總功率Pr,功率流平衡方程滿足:
式中,Peng、Pele分別為發(fā)動機和電動機的功率。
出于安全考慮,車輛電池的荷電狀態(tài)(State of Charge,SOC)應(yīng)限制在[0.3,0.8]范圍內(nèi)。車輛的ωeng、ωm、ωg、Teng、Tm、Tg等參數(shù)均應(yīng)滿足自身的約束條件,車輛主要參數(shù)如表1所示。
表1 車輛主要參數(shù)
深度強化學(xué)習(xí)(DRL)的出現(xiàn)為人工智能的實現(xiàn)提供了理論基礎(chǔ)。一方面,深度學(xué)習(xí)對策略和狀態(tài)具有強大的表征能力,能夠用于模擬復(fù)雜的決策過程;另一方面,強化學(xué)習(xí)(Reinforcement Learning,RL)賦予智能體自監(jiān)督學(xué)習(xí)能力,使其能夠自主地與環(huán)境交互,在試錯中不斷進步[14]。
馬爾可夫決策過程(Markov Decision Process,MDP)是深度強化學(xué)習(xí)的理論基礎(chǔ),適用于解決序列決策問題。用元組(S,A,P,R,γ)來描述馬爾可夫決策過程,其中S為有限的狀態(tài)集合,A為有限的動作集合,P為狀態(tài)轉(zhuǎn)移概率,R為獎勵函數(shù),γ為折扣因子。馬爾可夫性是指系統(tǒng)的下一個狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與歷史狀態(tài)無關(guān),其數(shù)學(xué)描述可表示為:
在式(5)的狀態(tài)轉(zhuǎn)移過程中會產(chǎn)生獎勵函數(shù)R,在給定一個策略π的前提下,智能體累積獲得的獎勵Gt為:
式中,γk為折扣因子;Rt+1+k為(t+1)時刻的即時獎勵函數(shù)。
本文希望智能體能夠與其所處的環(huán)境進行交互,根據(jù)環(huán)境反饋來學(xué)習(xí)最佳行為,并通過反復(fù)試驗不斷改進行動策略,選擇累計回報值最大的策略:
式中,π(s,a)為策略函數(shù);E為均值函數(shù)。
為了獲得最優(yōu)策略,需要對每個動作的價值進行評估:
式中,Rt+1為(t+1)時刻的即時獎勵;Q(St+1,At+1)為(t+1)時刻的Q值;Eπ為采取π策略下的均值函數(shù);Qπ(s,a)為采取策略π時,在s狀態(tài)下采取動作a的價值。
在深度強化學(xué)習(xí)中,可以利用神經(jīng)網(wǎng)絡(luò)的強大表征能力來代替?zhèn)鹘y(tǒng)強化學(xué)習(xí)中的Q表,通過更新神經(jīng)網(wǎng)絡(luò)中的參數(shù)θ表示某一動作的Q值,得到每個狀態(tài)的最佳Q值:
式中,Q*(s,a)為s狀態(tài)下的最佳Q值。
通過最大化Q值,產(chǎn)生最佳策略π*(s,a):
式中,π*(s,a)為在s狀態(tài)下的最佳策略。
在監(jiān)督學(xué)習(xí)中,數(shù)據(jù)歸一化可以縮短訓(xùn)練時間、提升網(wǎng)絡(luò)穩(wěn)定性[15]。在深度強化學(xué)習(xí)中,層歸一化(Layer Normalization,LN)已應(yīng)用于分布式深度確定性梯度策略(Distributed Distributional DDPG,D4PG)和近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法[16-17]。Bhatt等人將層歸一化與DDPG算法進行融合,在某些環(huán)境下的訓(xùn)練中獲得了良好效果[18]。
層歸一化針對單個訓(xùn)練樣本進行,不依賴于其他數(shù)據(jù),將輸入的元素xi歸一化為
將歸一化層加入到演員(Actor)網(wǎng)絡(luò)和評論家(Critic)網(wǎng)絡(luò)的輸入層,如圖4所示。
圖4 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意
DeepMind 團隊基于演員-評論家(Actor-Critic)算法框架,結(jié)合確定策略梯度(Deterministic Policy Gradient,DPG)開發(fā)出DDPG 算法?;诖_定策略梯度的深度強化學(xué)習(xí)算法優(yōu)點在于需要采樣的數(shù)據(jù)少、算法效率高[19],這種特點適用于車載計算平臺。在DDPG 算法中有演員和評論家2個網(wǎng)絡(luò),演員網(wǎng)絡(luò)近似表示策略函數(shù),其輸入為狀態(tài)s,輸出為動作a,表示為:
為了保證確定性策略的探索性,需要在策略動作中加入噪聲ψ,則策略函數(shù)為:
評論家網(wǎng)絡(luò)用來近似價值函數(shù),輸入為狀態(tài)s和動作a,輸出為Q值。評論家網(wǎng)絡(luò)采用最小化損失函數(shù)來更新網(wǎng)絡(luò):
其中:
DDPG 中引入演員目標(biāo)網(wǎng)絡(luò)和評論家目標(biāo)網(wǎng)絡(luò)來提高訓(xùn)練的穩(wěn)定性。目標(biāo)網(wǎng)絡(luò)的更新方式為:
Fujimoto[11]在DDPG 算法的基礎(chǔ)上進行改進得到TD3算法。Fujimoto發(fā)現(xiàn)DDPG的算法中存在價值估計過高的問題,并引入DDQL 的思想將DDPG 中的式(15)改為:
式中,ε~clip(N(0,σ),-c,c)為clip 參數(shù);N(0,σ)表示期望為0,標(biāo)準差為σ的高斯分布;c為目標(biāo)平滑范圍。
式(17)解決了DDPG的過估計和峰值故障問題,并對目標(biāo)策略進行平滑處理。
此外,在TD3 中,演員網(wǎng)絡(luò)的參數(shù)更新頻率低于評論家網(wǎng)絡(luò)的更新頻率,降低了DDPG中由于策略的更新導(dǎo)致的目標(biāo)變化所帶來的波動性。
本文將深度強化學(xué)習(xí)算法應(yīng)用在THS-Ⅲ平臺PHEV 的能量管理中,智能體分別采用DDPG 和TD3算法,外部交互環(huán)境為車輛模型,整體框架如圖5所示。
圖5 基于深度強化學(xué)習(xí)的能量管理策略框架
馬爾可夫決策過程中的狀態(tài)、動作、獎勵值的定義在基于深度強化學(xué)習(xí)的混合動力汽車能量管理中極其關(guān)鍵。
a.狀態(tài)的定義。從算法的穩(wěn)定性和收斂性角度考慮,本文僅選取較為關(guān)鍵的狀態(tài),狀態(tài)S可表示為:
式中,v為車輛速度;SSOC為荷電狀態(tài);d為車輛行駛里程。
b.動作的定義。前向仿真模型通過駕駛員模型控制踏板開度并計算當(dāng)前總功率需求Pr,通過A={a=[η]T}將Pr分配給發(fā)動機和電動機:
式中,η∈[0,1]為功率分配系數(shù)。
c.獎勵值的定義。獎勵值決定馬爾可夫決策過程的解,且影響收斂精度和收斂速度。強化學(xué)習(xí)算法的目標(biāo)是獲取最大的預(yù)期累計獎勵值,本文設(shè)定即時獎勵值為時間步長內(nèi)燃油消耗量與電量消耗的總花費之和的相反數(shù),即時獎勵值r(s,a)為:
累計回報Gt為:
式中,mt為t時刻的燃油消耗量;pfuel為燃油價格;Et為t時刻的電能消耗量;pele為電價。
圖6所示為數(shù)據(jù)訓(xùn)練過程:首先使用工況數(shù)據(jù)對控制策略進行離線訓(xùn)練,然后將訓(xùn)練好的策略下載到控制器中進行在線學(xué)習(xí)。
圖6 數(shù)據(jù)訓(xùn)練過程
新歐洲駕駛循環(huán)(New European Driving Cycle,NEDC)工況是一種經(jīng)典的測試工況,但其測試有非常大的局限性,在新能源汽車的測試中尤為明顯。GB 19578—2021《乘用車燃料消耗量限值》[20]規(guī)定使用全球統(tǒng)一輕型車輛測試循環(huán)(Worldwide Light-duty Test Cycle,WLTC)工況代替NEDC 工況。與NEDC 工況相比,WLTC 工況引入了更多的瞬態(tài)過程,勻速比例降低,加速和減速更為頻繁,有利于評價車輛在瞬態(tài)工況和高速工況下的能源消耗和排放水平[21]。本文采用WLTC-Class3工況,如圖7所示,主要參數(shù)如表2所示。
圖7 WLTC-Class3工況
表2 WLTC-Class3工況主要參數(shù)
本文將車輛的自適應(yīng)巡航控制(Adaptive Cruise Control,ACC)與基于深度強化學(xué)習(xí)的能量管理策略相結(jié)合,并設(shè)定巡航速度為60 km/h,提出一種新的工況,即ACC-60工況。相比于訓(xùn)練單純的傳統(tǒng)工況,與車輛真實功能的結(jié)合將促進基于深度強化學(xué)習(xí)的能量管理的實際應(yīng)用。
本文通過MATLAB 中的自動駕駛工具箱建立相關(guān)的道路和車輛環(huán)境。通過Simulink搭建ACC算法,并將巡航速度設(shè)置為60 km/h。該環(huán)境與控制算法能夠較好地還原車輛在ACC狀態(tài)下的速度變化情況。相關(guān)工況如圖8所示,主要參數(shù)如表3所示。
圖8 ACC-60工況
通過WLTC-Class3 和ACC-60 工況對基于深度強化學(xué)習(xí)的能量管理策略進行仿真驗證和結(jié)果分析。
為了匹配工況和車輛的行駛數(shù)據(jù),將仿真工況設(shè)定為2 個WLTC-Class3 循環(huán)和5 個ACC-60 循環(huán)。圖9 所示分別為WLTC-Class3和ACC-60在100個回合內(nèi)的訓(xùn)練結(jié)果,可以看出,無論哪種工況和算法,加入層歸一化均有助于算法的穩(wěn)定和收斂。
圖9 不同策略和工況下的訓(xùn)練結(jié)果
圖10 所示為在2 種訓(xùn)練工況下帶有層歸一化的雙延遲深度確定性梯度策略(TD3(LN))和帶有層歸一化的深度確定性梯度策略(DDPG(LN))算法的對比??梢钥闯觯咴谑諗窟^程和最終收斂值上區(qū)別不大。雖然TD3為DDPG的改進算法,但二者基本原理一致,TD3雖然有助于提高網(wǎng)絡(luò)收斂的穩(wěn)定性,但是在本文中DDPG也可以實現(xiàn)很好的收斂效果,而且DDPG相比于TD3擁有更為簡單的網(wǎng)絡(luò)架構(gòu),計算成本更低[11]。
圖10 TD3(LN)和DDPG(LN)算法訓(xùn)練結(jié)果對比
圖11 所示為2 種工況下不同算法的車輛SOC 隨時間變化趨勢的對比。可以發(fā)現(xiàn),DDPG(LN)和TD3(LN)算法產(chǎn)生的變化趨勢非常近似。另外,修改基于規(guī)則算法中的參數(shù),使其SOC在[0.3,0.8]的范圍內(nèi)。
圖11 2種工況下SOC隨時間的變化情況
表4和表5所示分別為WLTC-Class3和ACC-60工況的仿真結(jié)果。以DDPG(LN)為例,可以得出,基于深度強化學(xué)習(xí)的能量管理策略在WLTC-Class3 工況下比基于規(guī)則的能量管理策略總花費節(jié)省了16.51%,燃油消耗量下降了15.56%,而在ACC-60 工況下比基于規(guī)則的能量管理策略總花費節(jié)省了31.95%,燃油消耗量下降了29.96%。在2 種工況中,與動態(tài)規(guī)劃(Dynamic Programming,DP)算法相比,總花費差距僅為1.7%和0.4%。
表4 WLTC-Class3工況仿真結(jié)果
表5 ACC-60工況仿真結(jié)果
圖12 和圖13 所示分別為2 種工況下的電動機功率和轉(zhuǎn)矩隨時間的變化曲線。可以看出,基于深度強化學(xué)習(xí)的能量管理策略比基于規(guī)則的策略將更多的功率和轉(zhuǎn)矩分配給了電動機,節(jié)省了燃油。另外,在動力電池能量超出安全范圍被限制使用后,車輛可以利用制動能回收技術(shù)對動力電池進行充電,進一步節(jié)約費用。
圖12 2種工況下電動機功率隨時間的變化
圖13 2種工況下電動機轉(zhuǎn)矩隨時間的變化
本文基于MATLAB/Simulink 建立前向仿真車輛模型,通過對車輛能量管理MDP過程建模,將深度強化學(xué)習(xí)算法應(yīng)用到THS-Ⅲ平臺的混合動力汽車中,并得到如下結(jié)論:
a.加入層歸一化的DDPG(LN)和TD3(LN)算法更加穩(wěn)定,有助于算法的收斂。DDPG(LN)和TD3(LN)算法收斂數(shù)值和產(chǎn)生的策略非常相似,但DDPG(LN)的計算成本更低。
b.基于深度強化學(xué)習(xí)的能量管理策略不僅可以節(jié)省一定的費用,并且可以減少燃油消耗量,有助于保護環(huán)境。
c.在WLTC-Class3 工況下,DDPG(LN)和TD3(LN)算法都表現(xiàn)出很好的適應(yīng)性。此外,2種算法在自行建立的ACC-60工況下也表現(xiàn)良好,表明其可以與車輛自適應(yīng)巡航控制很好地結(jié)合,這將有助于基于深度強化學(xué)習(xí)的能量管理策略的實際應(yīng)用。