唐逸凡,余 臻,劉利軍,2*
(1.廈門(mén)大學(xué)航空航天學(xué)院,福建 廈門(mén) 361102;2.廈門(mén)大學(xué)深圳研究院,廣東 深圳 518057)
電液伺服系統(tǒng)因其動(dòng)態(tài)響應(yīng)速率快、輸出功率大、容易實(shí)現(xiàn)高精度測(cè)量與控制,從而廣泛應(yīng)用于電器工程、機(jī)械工程、航空航天、軍工制造等領(lǐng)域.但因其屬于典型的非線(xiàn)性系統(tǒng),存在著模型參數(shù)不確定、交叉耦合干擾、外負(fù)載擾動(dòng)、動(dòng)力不確定性等因素,影響控制的精準(zhǔn)度、抗干擾能力、動(dòng)態(tài)響應(yīng)性能等[1-2].
針對(duì)上述優(yōu)缺點(diǎn),國(guó)內(nèi)外學(xué)者嘗試了各種方法對(duì)控制算法進(jìn)行優(yōu)化,例如自適應(yīng)模糊控制、神經(jīng)網(wǎng)絡(luò)、優(yōu)化比例積分微分(PID)控制、滑模自適應(yīng)控制等,提升了各自層面上電液伺服系統(tǒng)的控制效果.例如: 使用混合策略迭代訓(xùn)練實(shí)現(xiàn)對(duì)于電液伺服系統(tǒng)多項(xiàng)式非線(xiàn)性模型的非線(xiàn)性魯棒控制[3]; 通過(guò)神經(jīng)網(wǎng)絡(luò)優(yōu)化控制消除初系統(tǒng)初撐壓力及啟動(dòng)壓力波動(dòng)影響[4]; 以添加速度補(bǔ)償?shù)聂敯艨刂品椒ń鉀Q變剛度電液伺服系統(tǒng)在高頻控制中存在的超調(diào)現(xiàn)象[5].但由于電液伺服系統(tǒng)的非線(xiàn)性特性和系統(tǒng)油路中各部件的強(qiáng)耦合特點(diǎn),電液伺服系統(tǒng)的精確解析模型難以獲得,僅通過(guò)基于模型的控制方法越來(lái)越難以滿(mǎn)足電液伺服系統(tǒng)控制分析與設(shè)計(jì)的需求[6].
深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)用于解決復(fù)雜的順序決策問(wèn)題,其無(wú)模型學(xué)習(xí)的特點(diǎn)為控制研究提供了新的方向[7].基于模型的方法有良好的采樣效率,但必須依賴(lài)于模型估計(jì)與人工監(jiān)督;而無(wú)模型的DRL方法擁有更好的逼近性能和易操作性.Liang等[8]提出一種融合滑模控制與強(qiáng)化學(xué)習(xí)算法相結(jié)合的容錯(cuò)控制方法.Lin等[9]使用觸發(fā)式DRL實(shí)現(xiàn)了對(duì)具有執(zhí)行器飽和特性的四旋翼無(wú)人機(jī)控制.在解決連續(xù)問(wèn)題決策的DRL算法中,最優(yōu)化獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)是影響算法收斂性的核心問(wèn)題.Kulkarni等[10]提出了一個(gè)層次化的DQN(deep Q-network)框架,通過(guò)設(shè)置和完成稀疏獎(jiǎng)勵(lì)問(wèn)題中的許多子目標(biāo)來(lái)完成任務(wù).為了探索一種有效且穩(wěn)定的、用于連續(xù)狀態(tài)和動(dòng)作空間的離線(xiàn)策略強(qiáng)化算法,Yang等[11]使用基于懲罰函數(shù)和屏障函數(shù)(barrier function,BF)的狀態(tài)轉(zhuǎn)換將狀態(tài)和輸入約束合并到DRL算法中.DRL算法基于無(wú)模型最大熵強(qiáng)化學(xué)習(xí)算法的特點(diǎn)正適合于電液伺服系統(tǒng)這類(lèi)實(shí)際工作環(huán)境擾動(dòng)復(fù)雜且非線(xiàn)性特征顯著的系統(tǒng),設(shè)計(jì)高性能的回報(bào)獎(jiǎng)勵(lì)函數(shù)能夠提高強(qiáng)化學(xué)習(xí)控制器的穩(wěn)定性與魯棒性,訓(xùn)練完成的離線(xiàn)非線(xiàn)性控制器具有很強(qiáng)的抗干擾能力.
綜合電液伺服系統(tǒng)和強(qiáng)化學(xué)習(xí)的特點(diǎn),本文提出一種基于軟行為者評(píng)論家(soft actor-critic,SAC)算法的安全強(qiáng)化學(xué)習(xí)(safety reinforcement learning,SRL)控制方法.將強(qiáng)化學(xué)習(xí)中連續(xù)控制問(wèn)題的穩(wěn)態(tài)誤差控制目標(biāo)設(shè)計(jì)為優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì),并使用基于屏障函數(shù)的安全屏障輔助獎(jiǎng)勵(lì)項(xiàng)實(shí)現(xiàn)控制器的預(yù)置穩(wěn)態(tài)安全性保障.該方法使得SAC算法在最大熵框架與隨機(jī)策略的較強(qiáng)魯棒性上進(jìn)一步降低對(duì)動(dòng)力學(xué)模型精度的要求,使控制器能夠直接有效地應(yīng)用于實(shí)際的工業(yè)系統(tǒng)控制領(lǐng)域,有效提高最終離線(xiàn)控制器的魯棒性和控制性能.
本文所使用的SAC算法是一種在最大熵強(qiáng)化學(xué)習(xí)框架下通過(guò)在決策評(píng)價(jià)網(wǎng)絡(luò)與決策迭代網(wǎng)絡(luò)中交替進(jìn)行決策學(xué)習(xí)的方法.其作為一種典型離線(xiàn)策略算法,不會(huì)出現(xiàn)在線(xiàn)策略算法在連續(xù)問(wèn)題中因樣本更新而造成的樣本過(guò)載問(wèn)題.無(wú)模型算法的高樣本利用率和強(qiáng)魯棒性決定了它可以很好地應(yīng)用于實(shí)際控制系統(tǒng)而不僅僅是仿真[12].已有通過(guò)SAC算法實(shí)現(xiàn)多臂機(jī)械手的路徑規(guī)劃任務(wù)實(shí)例[13].
在決策評(píng)價(jià)網(wǎng)絡(luò)中,可以通過(guò)回報(bào)獎(jiǎng)勵(lì)函數(shù)r與狀態(tài)價(jià)值函數(shù)V迭代計(jì)算狀態(tài)動(dòng)作價(jià)值Q函數(shù),其迭代過(guò)程表述為:
TπQ(st,at)=r(st,at)+γEst+1~p[V(st+1)],
(1)
式中,st為環(huán)境觀測(cè)狀態(tài),at為動(dòng)作輸入,p為隨機(jī)決策所對(duì)應(yīng)的動(dòng)作at的概率分布,γ是折扣因子,Tπ是貝爾曼期望備份算子,滿(mǎn)足Qk+1=TπQk.
狀態(tài)價(jià)值函數(shù)V表述為:
V(st)=Eat~π[Q(st,at)-logπ(at∣st)].
(2)
在決策迭代網(wǎng)絡(luò)中,將策略π限定在一個(gè)特定集合∏當(dāng)中,例如帶有參數(shù)的高斯分布.使用KL散度對(duì)策略π進(jìn)行更新的過(guò)程為
πnew=
(3)
式中,Zπold(st)為配分函數(shù),不影響策略梯度.
SAC使用參數(shù)化的神經(jīng)網(wǎng)絡(luò)Qθ(st,at)和πφ(at∣st)對(duì)狀態(tài)動(dòng)作價(jià)值Q函數(shù)和策略π進(jìn)行描述,并使用最小化貝爾曼殘差的方法訓(xùn)練,決策評(píng)價(jià)網(wǎng)絡(luò)迭代學(xué)習(xí)過(guò)程表述為:
(4)
通過(guò)式(4)最小化期望KL散度來(lái)優(yōu)化決策迭代網(wǎng)絡(luò)參數(shù):
Jπ(φ)=Est~D[Eat~πφ[αlog(πφ(at∣st))-
Qθ(st,at)]].
(5)
更新后決策迭代網(wǎng)絡(luò)表示為:
at=fφ(εt;st),
(6)
式中,εt是根據(jù)先驗(yàn)分布中采樣的隨機(jī)噪聲,一般工程中使用單位高斯分布.
將式(6)代入式(5),即SAC決策迭代網(wǎng)絡(luò)的迭代學(xué)習(xí)過(guò)程表述為:
Jπ(φ)=Est~D,εt~N[αlogπφ((fφ(εt;st))|st)-
Qθ(st,fφ(εt;st))].
(7)
強(qiáng)化學(xué)習(xí)馬爾科夫鏈中的回報(bào)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)是為了從長(zhǎng)周期上選擇最優(yōu)動(dòng)作a,其狀態(tài)回報(bào)獎(jiǎng)勵(lì)函數(shù)可表述為:
(8)
式中,st=(xt1,xt2,…,xtn)為強(qiáng)化學(xué)習(xí)代理環(huán)境中觀測(cè)到的狀態(tài),xgi為對(duì)應(yīng)的目標(biāo)狀態(tài)量,bi為經(jīng)驗(yàn)參數(shù),‖·‖m表示m-范數(shù).
累計(jì)回報(bào)獎(jiǎng)勵(lì)通常有以下3種表述形式:式(9)為無(wú)限折扣型,式(10)為有限和型,式(11)為平均獎(jiǎng)勵(lì)型[14].
(9)
(10)
(11)
式中,γ為加權(quán)參數(shù),決策迭代網(wǎng)絡(luò)的目標(biāo)為最大化累計(jì)獎(jiǎng)勵(lì)Vπ(st).
屏障函數(shù)的作用是保障系統(tǒng)在安全可行的狀態(tài)集C內(nèi)運(yùn)行.安全集是由系統(tǒng)的安全狀態(tài)不等式所約束的,使用連續(xù)可微函數(shù)h(x)將其定義為:
C={x∈Rn∣h(x)≥0}.
(12)
屏障函數(shù)可保證初始狀態(tài)在安全集內(nèi)部的系統(tǒng)保持前向不變性.對(duì)于連續(xù)可微函數(shù)Bγ(x),其作為安全集C的有效屏障函數(shù)需具有以下性質(zhì)[15]:
(i)Bγ(x)>0,?x∈C;
(ii)Bγ(x)→∞,?x∈?C,即安全集邊界處函數(shù)值趨于無(wú)窮;
(iii) 安全集內(nèi)Bγ(x)單調(diào)遞減.
控制屏障函數(shù)是屏障函數(shù)在控制系統(tǒng)中對(duì)系統(tǒng)安全性保證的應(yīng)用.在狀態(tài)空間表達(dá)式為x=f(x)+g(x)u的控制系統(tǒng)中,若存在楔函數(shù)K(h)[16]使h(x)滿(mǎn)足式(13),則其可作為該系統(tǒng)的控制屏障函數(shù):
(13)
深度強(qiáng)化學(xué)習(xí)任務(wù)中,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)多根據(jù)實(shí)際系統(tǒng)人為的設(shè)計(jì)“密集”獎(jiǎng)勵(lì),往往具有很強(qiáng)的局限性[17].本文針對(duì)電液伺服系統(tǒng)建立相應(yīng)的強(qiáng)化學(xué)習(xí)環(huán)境,傳統(tǒng)的回報(bào)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)使用狀態(tài)誤差ei構(gòu)造成式(14).
(14)
其中,系數(shù)ωi之間的耦合性難以調(diào)整,導(dǎo)致最終控制器的動(dòng)態(tài)性能與魯棒性難以收斂.
本文提出了一種適用于電液伺服系統(tǒng)位置控制的優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法,將細(xì)分連續(xù)獎(jiǎng)勵(lì)使用優(yōu)化狀態(tài)空間正獎(jiǎng)勵(lì)與非優(yōu)化狀態(tài)空間無(wú)獎(jiǎng)勵(lì)進(jìn)行替代,并添加狀態(tài)屏障函數(shù)作為懲罰項(xiàng)使控制器能夠滿(mǎn)足預(yù)置的穩(wěn)態(tài)安全性,除長(zhǎng)時(shí)高幅干擾外能夠有效地提高系統(tǒng)的動(dòng)態(tài)穩(wěn)定性.電液伺服系統(tǒng)位置控制任務(wù)中,優(yōu)化狀態(tài)空間的范圍決定了最終控制器的穩(wěn)態(tài)誤差的大小,狀態(tài)有界的連續(xù)控制問(wèn)題中,按歸一化后的有效狀態(tài)值以0.1的縮減比逐步縮小優(yōu)化狀態(tài)空間的半徑,直至滿(mǎn)足控制需求.優(yōu)化狀態(tài)空間系數(shù)獎(jiǎng)勵(lì)可表示為:
(15)
其中,es為歸一化后的狀態(tài)誤差,MN是隨訓(xùn)練輪次逐漸縮小的正獎(jiǎng)勵(lì)區(qū)間.
本文中將屏障函數(shù)約束問(wèn)題融入到強(qiáng)化學(xué)習(xí)的稀疏獎(jiǎng)勵(lì)設(shè)計(jì)問(wèn)題中,使得在優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)的正獎(jiǎng)勵(lì)區(qū)間內(nèi)安全屏障輔助獎(jiǎng)勵(lì)懲罰項(xiàng)rb占主導(dǎo)地位,通過(guò)梯度下降引導(dǎo)最優(yōu)策略向含有安全控制的最優(yōu)策略?xún)A斜.安全屏障輔助獎(jiǎng)勵(lì)函數(shù)rb表示為:
rb=
(16)
其中,η是用于工程中實(shí)現(xiàn)真邊界值時(shí)的微小值,便于將無(wú)邊界懲罰轉(zhuǎn)化為歸一化有界值.
而安全輔助獎(jiǎng)勵(lì)項(xiàng)實(shí)際是一種保守策略的優(yōu)化,過(guò)早加入會(huì)導(dǎo)致控制器動(dòng)態(tài)響應(yīng)性能降低,故只需在最后一層優(yōu)化狀態(tài)空間縮減時(shí)加入.對(duì)優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)做相應(yīng)的處理,將非優(yōu)化狀態(tài)空間無(wú)獎(jiǎng)勵(lì)替換為-1:
(17)
綜上所述,電液伺服系統(tǒng)SRL控制方法中的回報(bào)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為:
(18)
優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)可以高效地解決強(qiáng)化學(xué)習(xí)控制器回報(bào)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難的問(wèn)題,并且能夠有效切合實(shí)際控制系統(tǒng)中的動(dòng)態(tài)性能指標(biāo)要求.本文所設(shè)計(jì)應(yīng)用優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)函數(shù)的N次迭代SRL控制算法流程見(jiàn)算法1.
算法1
forj=1 toNdo
初始化網(wǎng)絡(luò)參數(shù);
ifj=1 do
初始化網(wǎng)絡(luò)權(quán)值θj,1,θj,2,φj,1,φj,2;
else do
初始化網(wǎng)絡(luò)權(quán)值θj,1=θj-1,1,θj,2=θj-1,2,φj,1=φj-1,1,φj,2=φj-1,2;
初始化經(jīng)驗(yàn)池D←?;
fori=1 toEdo
隨機(jī)初始化環(huán)境,樣本采樣;
fort=1 toTdo
采樣動(dòng)作值at=fφ(εt,st);
根據(jù)動(dòng)作采樣下一狀態(tài)st+1;
計(jì)算單步獎(jiǎng)勵(lì)rt;
將樣本集合{st,at,rt,st+1,d}加入經(jīng)驗(yàn)池D;
end for
從經(jīng)驗(yàn)池D抽取最小樣本集Dminbatch;
更新預(yù)測(cè)網(wǎng)絡(luò)參數(shù)φj,2;
更新評(píng)價(jià)網(wǎng)絡(luò)參數(shù)θj,1,θj,2;
更新策略網(wǎng)絡(luò)參數(shù)φj,1;
end for
end for
輸出策略網(wǎng)絡(luò)參數(shù)φj,1.
其中,Dminbatch訓(xùn)練樣本為從經(jīng)驗(yàn)池中抽取的最小采樣集,含有128個(gè)以{st,at,rt,st+1,d}為最小元組的樣本,d為是否完成任務(wù)指標(biāo)值,最終輸出的控制器為策略網(wǎng)絡(luò)的參數(shù)矩陣.
本章以電液伺服系統(tǒng)多項(xiàng)式非線(xiàn)性模型為研究對(duì)象,通過(guò)仿真實(shí)驗(yàn)證明了所提出的電液伺服系統(tǒng)SRL控制方法具有良好的動(dòng)態(tài)響應(yīng)性能與較強(qiáng)的魯棒性,并對(duì)比了最小優(yōu)化狀態(tài)空間下是否使用安全輔助獎(jiǎng)勵(lì)項(xiàng)的方法,驗(yàn)證了SRL控制方法能夠使最終控制器滿(mǎn)足預(yù)置的穩(wěn)態(tài)安全性.
本文所使用的高精度電液伺服仿真模型為多項(xiàng)式非線(xiàn)性模型,可表述為一種以電液伺服系統(tǒng)狀態(tài)誤差作為狀態(tài)變量的非線(xiàn)性狀態(tài)空間表達(dá)式[3]:
(19)
式中,ei為系統(tǒng)狀態(tài)誤差,u為控制電壓輸入.模型參數(shù)取值為a1=-18.732 4,a2=6.215 1,a3=24.416 5,a4=-9.049 9,a5=-22.415 4,b1=-13.007 1.
本節(jié)中,強(qiáng)化學(xué)習(xí)的狀態(tài)空間變量由伺服作動(dòng)筒位移反饋信號(hào)計(jì)算得到的狀態(tài)變量位移誤差積分值、位移誤差值和速度誤差值構(gòu)成,表示為s=[se1,se2,se3].系統(tǒng)的動(dòng)作空間即伺服閥的閥控電壓信號(hào),故動(dòng)作空間表示為a=aV.
實(shí)驗(yàn)設(shè)置如下:伺服缸初始位置隨機(jī),初始位置在區(qū)間[-1,1] cm,缸位移反饋精度為10-3mm.將每個(gè)單次迭代定義為T(mén)=2 000個(gè)時(shí)間步長(zhǎng),每步的時(shí)間間隔為dt=10 ms.完成單次迭代后對(duì)環(huán)境進(jìn)行重新隨機(jī)重置.動(dòng)作對(duì)象伺服閥閥控電壓的初始電壓為0 V,按照實(shí)際電液伺服實(shí)驗(yàn)臺(tái)將閥控電壓限定在[-5,5] V區(qū)間內(nèi).初始時(shí)歸一化伺服缸速度服從分布U[0,1].當(dāng)伺服缸位移誤差處于優(yōu)化狀態(tài)空間范圍內(nèi)連續(xù)500個(gè)步長(zhǎng),認(rèn)為伺服缸已到達(dá)穩(wěn)態(tài),并結(jié)束本次迭代.
電液伺服系統(tǒng)SRL控制器的單次訓(xùn)練時(shí)間為2 000 個(gè)時(shí)間步,本文設(shè)計(jì)的多層變獎(jiǎng)勵(lì)空間的空間半徑分別為0.1,0.01以及0.001,共進(jìn)行了3層策略迭代訓(xùn)練,表1展示了決策網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)參數(shù)以及其他參數(shù)設(shè)置,圖1展示了訓(xùn)練結(jié)果.優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)正獎(jiǎng)勵(lì)空間半徑為0.001時(shí),對(duì)應(yīng)的系統(tǒng)穩(wěn)態(tài)誤差允許范圍為±0.1 mm.
表1 電液伺服系統(tǒng)的強(qiáng)化學(xué)習(xí)控制器訓(xùn)練參數(shù)Tab.1 Reinforcement learning controller training parameters for electro-hydraulic servo system
圖1 優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)下的電液 伺服系統(tǒng)強(qiáng)化學(xué)習(xí)控制器訓(xùn)練過(guò)程Fig.1 Reinforcement learning controller training process of electro-hydraulic servo system with optimized state space sparse reward
基于第二次迭代得到的網(wǎng)絡(luò)參數(shù),進(jìn)行電液伺服系統(tǒng)SRL控制器訓(xùn)練,不同系統(tǒng)對(duì)系統(tǒng)穩(wěn)態(tài)安全域的需求不同,本文將穩(wěn)態(tài)安全域設(shè)置為emax=emin=3 mm,η=10-12.圖2展示了訓(xùn)練結(jié)果.
由圖1與2可知:優(yōu)化狀態(tài)空間的設(shè)計(jì)彌補(bǔ)了稀疏獎(jiǎng)勵(lì)下強(qiáng)化學(xué)習(xí)算法直接獲取最優(yōu)正獎(jiǎng)勵(lì)樣本困難的缺點(diǎn);加入安全屏障輔助獎(jiǎng)勵(lì)項(xiàng)的優(yōu)化稀疏獎(jiǎng)勵(lì)能夠?qū)崿F(xiàn)系統(tǒng)安全控制器的預(yù)設(shè)安全性保障,保持優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)設(shè)計(jì)理念的同時(shí)也具有連續(xù)獎(jiǎng)勵(lì)易收斂的特性.
圖2 電液伺服系統(tǒng)的SRL控制器訓(xùn)練過(guò)程Fig.2 SRL controller training process of electro-hydraulic servo system
圖3 控制效果曲線(xiàn)Fig.3 Control effect curve
為了驗(yàn)證本文作者所提方法的控制效果,首先將所提優(yōu)化狀態(tài)獎(jiǎng)勵(lì)空間下的電液伺服系統(tǒng)強(qiáng)化學(xué)習(xí)控制器與GA-PID控制器的控制性能進(jìn)行仿真實(shí)驗(yàn).GA-PID無(wú)設(shè)計(jì)主觀性及性能未達(dá)最優(yōu)的缺點(diǎn),優(yōu)化后的控制效果較傳統(tǒng)PID控制器提升較大[18].強(qiáng)化學(xué)習(xí)控制器的表達(dá)為訓(xùn)練結(jié)束決策網(wǎng)絡(luò)對(duì)應(yīng)系數(shù)矩陣,激活函數(shù)使用relu函數(shù)可在MATLAB中使用腳本函數(shù)實(shí)現(xiàn).在3.1節(jié)所提高精度電液伺服多項(xiàng)式非線(xiàn)性模型下,利用MATLAB軟件進(jìn)行仿真模擬.仿真實(shí)驗(yàn)采用目標(biāo)追蹤的方法進(jìn)行,通過(guò)觀察追蹤曲線(xiàn),對(duì)所提方法進(jìn)行分析.
SRL控制器對(duì)于控制指令的整體跟蹤效果如圖3所示.復(fù)雜輸入信號(hào)在[7.5,8.5] s的時(shí)間加入擾動(dòng)信號(hào)ω,其函數(shù)表示為:
ω(t)=5sin(2πt)+normrnd(0,1).
(20)
分析圖3可知,本文所提的優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)作用下的SAC強(qiáng)化學(xué)習(xí)控制器,在跟蹤復(fù)雜指令信號(hào)時(shí)整體的動(dòng)態(tài)性能優(yōu)于GA-PID優(yōu)化控制器,并具有較強(qiáng)的抗干擾能力.SAC強(qiáng)化學(xué)習(xí)控制器降低了最大超調(diào)量,取得了更好的控制效果,并且實(shí)現(xiàn)了無(wú)靜差、無(wú)超調(diào)量,具有更快的響應(yīng)速度和更小的控制誤差,其詳細(xì)動(dòng)態(tài)性能如表2所示.
表2 階躍信號(hào)下系統(tǒng)動(dòng)態(tài)性能指標(biāo)Tab.2 System dynamic performance index under step signal
電液伺服系統(tǒng)SRL控制器的穩(wěn)態(tài)安全控制效果對(duì)比結(jié)果如圖4所示.使用一個(gè)步長(zhǎng)的滿(mǎn)量程控制電壓作為擾動(dòng),模擬電液伺服系統(tǒng)在極限工況下的突發(fā)故障.SRL實(shí)現(xiàn)了穩(wěn)態(tài)下的安全控制目標(biāo),但相應(yīng)使得過(guò)渡時(shí)間加長(zhǎng),損失部分動(dòng)態(tài)性能.
圖4 SRL控制器穩(wěn)態(tài)安全性控制效果對(duì)比Fig.4 SRL controller steady state safety control effect
本文提出了一種基于離線(xiàn)策略強(qiáng)化學(xué)習(xí)算法的安全控制方法,并將其用于電液伺服系統(tǒng)的位置控制.通過(guò)歸一化狀態(tài)空間隨機(jī)初值與最大熵強(qiáng)化學(xué)習(xí)的特點(diǎn)相結(jié)合的方法,解決普通強(qiáng)化學(xué)習(xí)對(duì)樣本要求高的問(wèn)題,加快了控制器整定速度.使用優(yōu)化狀態(tài)空間稀疏獎(jiǎng)勵(lì)與安全屏障輔助獎(jiǎng)勵(lì)懲罰項(xiàng),完成對(duì)于電液伺服系統(tǒng)的SRL控制器快速收斂訓(xùn)練,最后得到基于狀態(tài)的SRL離線(xiàn)控制策略.以高精度電液伺服多項(xiàng)式非線(xiàn)性模型為控制對(duì)象,與遺傳算法優(yōu)化的PID控制方法進(jìn)行對(duì)比.結(jié)果表明,本文所提的SRL控制算法有效縮減了控制誤差并提高了控制性能,能實(shí)現(xiàn)電液伺服系統(tǒng)精確位置控制,驗(yàn)證了該算法的可行性.