胡樹良,黃 偉,陸文麗,莫錦傳
(廣西大學 機械工程學院,廣西 南寧 530004)
能量控制策略作為油電混合動力汽車的關鍵技術,是各車企及車輛院校研究的焦點。根據(jù)實現(xiàn)的原理不同,可將混合動力車輛能量管理策略劃分為3類,包括基于規(guī)則、基于優(yōu)化和基于智能算法的能量管理策略[1]。
基于規(guī)則型能量管理策略(rule-based energy manage system,RB-EMS)是一種實時能量管理策略,其門限規(guī)則的制定缺乏數(shù)學分析和理論基礎,導致很難準確制定?;趦?yōu)化的能量管理策略分為全局優(yōu)化和瞬時優(yōu)化兩類。全局優(yōu)化計算量大且需要知道整個循環(huán)工況,所以并不能應用于實車控制,但其仿真結果可在其他控制策略設計時作為參考[2]。全局優(yōu)化依托的優(yōu)化方法目前有動態(tài)規(guī)劃(dynamic programming,DP)、粒子群等,其中以DP算法最具有代表性[2-3]。瞬時優(yōu)化只能求解當前的最優(yōu)解,或者在滾動預測步長內(nèi)的最優(yōu)[4]。為逼近最優(yōu)解,一般是結合多種優(yōu)化算法或者采用更智能的算法[5]。如文獻[5]針對某功率分流式混合動力汽車,設計了基于粒子群優(yōu)化算法(Particle swarm optimization,PSO)的具有雙層結構的多目標能量管理策略,實現(xiàn)了降低整車油耗和維持電池電量的目標,但是基于瞬時優(yōu)化方法最終并不一定實現(xiàn)全局最優(yōu)。
隨著AI算法和車聯(lián)網(wǎng)智能交通技術的發(fā)展,越來越多的學者將AI算法,如強化學習,應用到混合動力汽車的能量管理策略的設計,提出適應性更強,控制效果更好的智能能量管理策略[6-10]。研究表明,強化學習算法在混合動力能量管理策略方面的應用具有很好的適用性,經(jīng)過學習訓練可快速自主收斂到全局最優(yōu)解。文獻[9]針對一款插電式混合動力汽車設計了由強化學習框架訓練和生成的智能SOC(State of charge)分配策略,研究表明油耗明顯低于兩種常用的SOC分配策略。自適應動態(tài)規(guī)劃(adapted dynamic programming,ADP)具有DP算法和強化學習兩種算法的優(yōu)勢,能在避免“維數(shù)災”的同時使系統(tǒng)自主收斂到一個最優(yōu)的全局近似解,在無人機控制、航天器控制等研究方向具有廣泛的應用[11-12],并取得不錯的控制效果。
以國內(nèi)某雙行星排混合動力客車為研究對象,以提高整車燃油經(jīng)濟性和維持SOC平衡為目標,基于Matlab仿真軟件,對混合動力客車(HEV)進行整車建模,然后搭建基于ADHDP算法能量控制策略,并在C-WTVC工況下與自適應等效燃油消耗最小控制策略(adapted equivalent consumption minimization strategy,A-ECMS)、基于DP算法控制策略進行仿真對比分析。
基于Matlab仿真軟件,對國內(nèi)某雙行星排混合動力客車(HEV)進行整車建模,整車參數(shù)見表1。
給定客車車速ua,需求功率Pdem可由下式計算得出:
其中,f、i為滾阻系數(shù)和道路坡度;CD和A為風阻系數(shù)和迎風面積,δ和m為旋轉質(zhì)量系數(shù)和整備質(zhì)量。
整車結構如圖1所示,公交車傳動系統(tǒng)采用雙行星排動力耦合結構,發(fā)動機、電機MG1分別與前行星排P1的行星架、太陽輪相連,通過控制b1、b2離合器的開關可實現(xiàn)多種工作模式。電機MG2與后行星排P2的太陽輪相連,后行星排齒圈固定,前行星排P1的齒圈與后行星排P2的行星架相連,經(jīng)主減速器傳遞動力至車輪以驅(qū)動車輛。
圖1 雙行星排式混合動力公交車整車結構
不計行星齒輪耦合機構的內(nèi)部摩擦和轉動慣量,根據(jù)發(fā)動機、電機MG1、電機MG2與前后行星排的連接方式,可推算出輸出轉速轉矩的關系:
式中,uout、Tout分別為雙行星排輸出軸的轉速和轉矩;ne、nMG、nMG2分別為發(fā)動機、電機MG1和電機MG2的轉速;Te、TMG2分別為發(fā)動機、電機MG2的轉矩。行星排參數(shù)見表1。
發(fā)動機的參數(shù)見表1,基于發(fā)動機臺架數(shù)據(jù),通過數(shù)值建模得到發(fā)動機準靜態(tài)模型,如圖2所示。
圖2 發(fā)動機燃油消耗率map圖
電機參數(shù)(表1),MG1和MG2模型也通過數(shù)值模型建立,如圖3所示。
圖3 電機2效率map圖
電機轉矩為正時處于驅(qū)動狀態(tài),電機轉矩為負時處于發(fā)電狀態(tài)。驅(qū)動和發(fā)電的電機功率計算分別為:
式中,nm、Tm為電機的轉速和轉矩,η為電機效率,Pm_dis為電機處于驅(qū)動狀態(tài)時的功率,Pm_chg為電機放電時提供的功率。
電池模型選用電池內(nèi)阻模型,電池功率計算式為:
式中,Pbatt為電池功率;E為電池開路電壓;Ibatt為電池電流;Rbatt為電池總內(nèi)阻。E與電池的荷電狀態(tài)SOC有關,如圖4所示。
圖4 電池模型
由此求得電池電流
則電池SOC可由下式計算:
式中,SOC(t)為電池經(jīng)過充放電時間t后的S OC;SOC0為電池的起始S OC;CAh為電池容量。
DP算法是由美國數(shù)學家R.E.Bellman等人基于最優(yōu)性原理提出。應用解決多階段決策問題的一般步驟為:首先需要對所研究的多階段決策問題進行階段的劃分;其次需要確定優(yōu)化過程中的狀態(tài)變量、控制變量與狀態(tài)轉移方程;最后須確定單個階段成本函數(shù)和全過程的最優(yōu)目標函數(shù),從而建立動態(tài)規(guī)劃基本方程。
式中,x為狀態(tài)變量,u為控制變量,L(x0,u0)為單步成本函數(shù),J[x]為系統(tǒng)的總代價函數(shù)。
將電池SOC作為優(yōu)化過程中的狀態(tài)變量,發(fā)動機轉速作為控制變量,設計單步成本函數(shù):
fue l(xk,uk)為第k步等效油耗,SOC(k)為電池荷電狀態(tài),λ為油電轉換系數(shù),則通過遞歸求解,可獲得全局最優(yōu)的控制變量和電池SOC的最優(yōu)軌跡。
2.2.1 基于自適應動態(tài)規(guī)劃算法能量控制策略結構
自適應動態(tài)規(guī)劃(ADP)源于向前動態(tài)規(guī)劃,最早由Werbos首先提出[12],其將執(zhí)行網(wǎng)(Action)和評價網(wǎng)(Critic)組成一個智能體,Action作用于系統(tǒng)后,基于貝爾曼原理,通過環(huán)境在不同階段產(chǎn)生獎勵/懲罰來更新Critic的參數(shù)。自適應動態(tài)規(guī)劃具有DP算法和強化學習兩種算法的優(yōu)勢,能在避免“維數(shù)災”的同時使系統(tǒng)自主收斂到一個最優(yōu)的全局近似解。強化學習所研究的是智能體和環(huán)境的序貫決策過程,在數(shù)學上其規(guī)范為一個馬爾科夫決策過程(Markov Decision Process,MDP)。一個馬爾科夫過程由一個五元組(S,A,P{s|a},γ,R)構成,S表示狀態(tài)集,A表示一組動作,P{s|a}表示狀態(tài)轉移概率,γ表示折扣因子,R為回報函數(shù)。
定義狀態(tài)集S的三個分量為電池SOC、需求車速ua和需求功率Pdem,并將這三個分量作為執(zhí)行網(wǎng)的輸入,如圖所示。定義發(fā)動機的轉速ne作為系統(tǒng)采取的動作,即為執(zhí)行網(wǎng)的輸出?;貓蠛瘮?shù)R為L(k)函數(shù)的期望,如下:
將系統(tǒng)狀態(tài)集和執(zhí)行網(wǎng)的輸出作為評價網(wǎng)的輸入,其輸出為系統(tǒng)總代價函數(shù)的估計J^,采取TD方法對評價網(wǎng)網(wǎng)絡權值進行更新,TD的誤差可通過擬合動態(tài)規(guī)劃基本方程獲得,該方程為:
式中,EC為TD誤差,J^(k)為評價網(wǎng)的輸出,即總代價函數(shù)的估計值,L(k)為單步成本函數(shù)。
根據(jù)最優(yōu)性原理,最優(yōu)控制應滿足一階微分必要條件,故執(zhí)行網(wǎng)可通過策略梯度實現(xiàn)網(wǎng)絡權值更新。如圖5所示。
圖5 ADP算法能量控制策略結構
2.2.2 ADP求解過程
基于在“策略改進程序”和“值確定運算”之間循環(huán),ADP算法的求解原理如下:
(1)策略改進程序
策略改進在“執(zhí)行網(wǎng)”進行,給定一個控制律ui,可計算系統(tǒng)下一個狀態(tài)轉移xk+1和對應的代價Ji(xk+1,ui),則依據(jù)下式改進控制律:
式中,ui+1為改進的控制律;L(xk,ui)為系統(tǒng)的效用函數(shù);J(xk+1,ui)為系統(tǒng)在控制律ui作用下從狀態(tài)xk轉移至xk+1的累計成本。
(2)值確定運算
值運算在“評價網(wǎng)”進行,給定一個控制律ui,則代價函數(shù)可依據(jù)下式更新:
當循環(huán)產(chǎn)生兩個相同的控制律或著連續(xù)的兩個控制律相差在一定精度范圍內(nèi),算法終止。
求解過程應在發(fā)動機、電機允許工作的轉速、轉矩范圍之內(nèi)進行計算:
式中,ne、Te為發(fā)動機的轉速和轉矩;nm、Tm為MG2的轉速和轉矩;ng、Tg為MG1的轉速和轉矩。
為了避免出現(xiàn)電池過充過放等不利于電池長期使用的現(xiàn)象和提高電池的充放電效率,需要限制電池始終保持工作在最大充電功率與最大放電功率區(qū)間內(nèi),同時限定電池的SOC工作區(qū)間。
式中,SOC為電池荷電狀態(tài);Pbatt為電池功率。
在Matlab軟件平臺下基于C-WTVC工況,對ADP控制策略進行仿真;并將仿真結果與自適應等效燃油消耗最小控制策略(A-ECMS)、DP控制策略的仿真結果進行對比分析。
從圖6中可以看出,值確定誤差經(jīng)過1000次訓練后,評價網(wǎng)誤差穩(wěn)定在設計2×10-3范圍,表明ADP控制策略具有良好的適應性。
圖6 評價網(wǎng)誤差均值
由圖7~11可以看出,三種控制策略在低速工況均傾向于選擇純電動模式,在市區(qū)和公路循環(huán)的工作模式差別不大;而在高速循環(huán)工況下,ADP與DP的選擇模式更接近,即更傾向于混動模式,有利于維持SOC的穩(wěn)定。同時在ADP控制策略下的發(fā)動機工作點與DP的也更接近。
圖7 DP電機MG2工作點
圖8 ADP電機MG2工作點
圖9 發(fā)動機工作點
圖10 混動模式占比
圖11 仿真電池SOC軌跡
通過分別統(tǒng)計混動模式和純電動模式在驅(qū)動模式的占比可以看出,三種控制策略的混動模式占比均達到47%以上,差距不大(表2)。從原理上分析,深度混動的驅(qū)動能量的來源最終是來源于發(fā)動機,合理減少純電動驅(qū)動次數(shù),在維持電機對發(fā)動機的工作點的調(diào)節(jié)所需的能量的前提下,可減少能量轉換,從而減少能量損失,提升整車燃油經(jīng)濟性。
表2 驅(qū)動模式
從表3仿真結果可以看出,ADP和DP在維持SOC平衡方面要優(yōu)于A-ECMS,雖然電池SOC值均能回到初始值60%附近,但是仿真過程A-ECMS的SOC波動更大。在油耗方面,盡管DP具有優(yōu)異的表現(xiàn),百公里油耗僅為15.89 L,但是仿真時長達到了1 h15 min,并不合適于實車控制;而ADP在仿真時間僅需25 s的同時百公里油耗僅為18.12 L,較DP算法控制策略的差距僅為10.77%,展現(xiàn)了其可應用于實車控制的良好前景。
表3 仿真結果
(1)經(jīng)過訓練,ADP能量管理策略可快速到全局最優(yōu)解,展現(xiàn)了ADP算法具有良好的適應性。
(2)三種控制策略在低速工況均傾向于選擇純電動模式,而在高速循環(huán)工況下,ADP與DP的選擇模式比較接近,即更傾向于混動模式。
(3)ADP控制策略達到了維持SOC平衡的目標的同時,百公里油耗與DP算法控制策略的差距僅為10.77%,具有較好的燃油經(jīng)濟性,擁有可應用于實車控制的良好前景。