摘要: 針對(duì)非結(jié)構(gòu)環(huán)境下末端實(shí)時(shí)移動(dòng)機(jī)械臂阻抗控制力跟蹤問(wèn)題,通過(guò)動(dòng)態(tài)調(diào)節(jié)阻尼系數(shù)以應(yīng)對(duì)接觸環(huán)境的不確定性。為確保阻抗策略的高效搜索,利用機(jī)械臂與接觸環(huán)境交互產(chǎn)生狀態(tài)-動(dòng)作序列構(gòu)建概率預(yù)測(cè)模型(PPM)。學(xué)習(xí)過(guò)程中,機(jī)械臂僅需與非結(jié)構(gòu)接觸環(huán)境進(jìn)行少量交互即可獲得最優(yōu)變阻抗策略,這使得該過(guò)程在真實(shí)機(jī)械臂上直接訓(xùn)練成為可能。仿真實(shí)驗(yàn)表明,在幾種非結(jié)構(gòu)環(huán)境下,所提出的方法使力跟蹤動(dòng)態(tài)和穩(wěn)態(tài)性能均明顯優(yōu)于傳統(tǒng)阻抗控制和自適應(yīng)變阻抗控制。
關(guān)鍵詞: 變阻抗控制; 機(jī)械臂力跟蹤; 強(qiáng)化學(xué)習(xí); 非結(jié)構(gòu)環(huán)境; 概率預(yù)測(cè)模型
中圖分類(lèi)號(hào): TP 273文獻(xiàn)標(biāo)志碼: A"" 文章編號(hào): 1000 5013(2024)04 0461 10
Probability Prediction Reinforcement Learning for Variable Impedance Force Tracking Control of Robotic Arms in Unstructured Environments
DONG Zicheng1, HU Weishi2, SHAO Hui1, GUO Lin1
(1. College of Information Science and Engneering, Huaqiao University, Xiamen 361021, China;
2. Department of Laboratory and Device Management, Huaqiao University, Xiamen 361021, China)
Abstract: Aiming at the real time impedance control force tracking problems of the end mobile robotic arm in a unstructured environment, the damping coefficient is dynamically adjusted to cope with the uncertainty of the contact environment. To ensure efficient search of the impedance strategy, a probabilistic prediction model (PPM) is constructed by utilizing the interaction between the robotic arm and the contact environment to generate state action sequences. During the learning process, the robotic arm only needs to interact minimally with the unstructured contact environment to obtain the optimal variable impedance strategy. This makes it possible to directly train the process on a real robotic arm. Simulation results show that in several unstructured environments, the proposed method significantly outperforms the traditional impedance control and adaptive variable impedance control in both dynamic and steady state force tracking performance.
Keywords: variable impedance control; robotic arm force tracking; reinforcement learning; unstructured environment; probability prediction model
機(jī)械臂已經(jīng)被廣泛應(yīng)用于各類(lèi)接觸式任務(wù),如人機(jī)協(xié)作[1]、貨物裝卸[2]、外科手術(shù)[3]等。這些場(chǎng)景中,除了高精度的運(yùn)動(dòng)控制外,還需考慮末端接觸力的跟蹤控制,以保證機(jī)械臂作業(yè)效果和交互安全性。阻抗控制是一種機(jī)械臂力控制的經(jīng)典方法,然而,實(shí)際中的接觸環(huán)境往往是動(dòng)態(tài)且未知的,經(jīng)典阻抗控制缺乏適應(yīng)環(huán)境變化的能力,因此,難以實(shí)現(xiàn)精確力控制。
一些國(guó)內(nèi)外學(xué)者研究了非結(jié)構(gòu)環(huán)境下的阻抗控制力跟蹤方法,目前主要方法可歸結(jié)為參考軌跡自適應(yīng)和變阻抗控制兩類(lèi)。參考軌跡自適應(yīng)通過(guò)辨識(shí)環(huán)境信息或直接根據(jù)接觸力來(lái)預(yù)測(cè)機(jī)器人的參考軌跡。Li等[4]用李雅普諾夫理論對(duì)接觸動(dòng)力學(xué)進(jìn)行分析,提出一種迭代學(xué)習(xí)控制器,調(diào)節(jié)參考軌跡使接觸力保持在所需范圍,控制性能優(yōu)于傳統(tǒng)阻抗控制,但所需迭代次數(shù)較多。劉勝遂等[5]提出基于卡爾曼濾波的自適應(yīng)阻抗控制方法,對(duì)機(jī)械臂接觸環(huán)境的位置和剛度進(jìn)行估計(jì),但仍存在一定力跟蹤誤差。李振等[6]在基于環(huán)境參數(shù)估計(jì)自適應(yīng)生成參考軌跡的方法上,采用遺傳算法補(bǔ)償接觸力誤差,提高了接觸力跟蹤精度。Roveda等[7]關(guān)注阻抗控制接觸力過(guò)沖的問(wèn)題,采用擴(kuò)展卡爾曼濾波對(duì)環(huán)境剛度進(jìn)行連續(xù)自適應(yīng)估計(jì),避免接觸過(guò)程的力超調(diào)和不穩(wěn)定,但該方法的響應(yīng)速度較慢且跟蹤精度有限。此類(lèi)方法依賴于環(huán)境信息的辨識(shí)精度,對(duì)辨識(shí)誤差力控精度有較大影響。變阻抗控制是一種更簡(jiǎn)單有效的自適應(yīng)力控制方法,對(duì)環(huán)境特性的估計(jì)誤差不敏感,關(guān)鍵在于設(shè)計(jì)控制性能良好而通用的變阻抗策略以應(yīng)對(duì)復(fù)雜的接觸環(huán)境。Jung等[8]和Duan等[9]提出的自適應(yīng)變阻抗控制算法具有等價(jià)的形式,根據(jù)機(jī)械臂末端接觸力實(shí)時(shí)調(diào)節(jié)阻尼系數(shù),能夠在未知?jiǎng)偠群蛶缀涡螤畹那嫔蠈?shí)現(xiàn)力跟蹤,但該方法的跟蹤精度受限于采樣頻率和初始阻抗參數(shù),在控制器和力傳感器的采樣頻率足夠高時(shí),才能獲得較好的控制效果。Cao等[10]對(duì)該自適應(yīng)變阻抗方法進(jìn)行改進(jìn),提出一種自適應(yīng)更新率策略,但力控精度提升有限。Hamedani等[11]提出了基于小波神經(jīng)網(wǎng)絡(luò)的智能變阻抗算法來(lái)自動(dòng)調(diào)節(jié)阻尼系數(shù),但這種方法在斜面和復(fù)雜曲面上的力跟蹤精度不高,且動(dòng)態(tài)性能不佳。此類(lèi)變阻抗方法難以較好地平衡力跟蹤動(dòng)態(tài)性能和穩(wěn)態(tài)誤差,綜合控制性能仍存在提升空間。
人工智能的快速發(fā)展為機(jī)械臂控制問(wèn)題提供了新思路,例如,利用強(qiáng)化學(xué)習(xí),機(jī)械臂能夠通過(guò)試錯(cuò)的方式優(yōu)化自身行為,而不需要本體和環(huán)境的先驗(yàn)信息[12-13]。Buchli等[14]提出一種基于策略函數(shù)的強(qiáng)化學(xué)習(xí)算法PI2,將此方法運(yùn)用于機(jī)器人的自適應(yīng)阻抗控制中,并證明其最優(yōu)性。Li等[15]提出一種強(qiáng)化學(xué)習(xí)變阻抗方法,通過(guò)仿真和實(shí)驗(yàn)證明機(jī)器人與環(huán)境只需少量交互即可成功學(xué)習(xí)出力控制策略。Wu等[16]研究了人機(jī)協(xié)作最優(yōu)阻抗問(wèn)題,用Q-Learning設(shè)計(jì)自適應(yīng)阻抗控制律,使機(jī)器人能夠根據(jù)接觸力在線估測(cè)人的示教軌跡,實(shí)現(xiàn)人機(jī)平順交互。Du等[17]將虛擬阻尼項(xiàng)引入傳統(tǒng)阻抗控制中,使用模糊強(qiáng)化學(xué)習(xí)對(duì)虛擬阻尼進(jìn)行調(diào)整,提升了手術(shù)機(jī)器人的力跟蹤性能,并保證能量消耗最優(yōu)。然而,目前大多數(shù)基于強(qiáng)化學(xué)習(xí)的變阻抗方法主要關(guān)注任務(wù)本身而忽略了數(shù)據(jù)效率,機(jī)械臂需與環(huán)境進(jìn)行大量交互以采集足量的訓(xùn)練樣本,這在實(shí)際機(jī)械臂系統(tǒng)中存在安全問(wèn)題,且交互過(guò)程通常非常耗時(shí),因此,數(shù)據(jù)效率低下成為嚴(yán)重限制強(qiáng)化學(xué)習(xí)在實(shí)際機(jī)器人系統(tǒng)中應(yīng)用的主要原因之一[18-20]?;诖?,本文提出一種概率預(yù)測(cè)強(qiáng)化學(xué)習(xí)下非結(jié)構(gòu)環(huán)境機(jī)械臂變阻抗力跟蹤控制(PPM-VIC)方法。
1 問(wèn)題描述
笛卡爾空間中,阻抗控制利用質(zhì)量-彈簧-阻尼模型維持機(jī)械臂運(yùn)動(dòng)狀態(tài)與外力之間的動(dòng)態(tài)關(guān)系,使機(jī)械臂末端呈現(xiàn)期望的柔順性?;谖恢玫淖杩箍刂?,如圖1所示。圖1中:Fd,F(xiàn)e分別表示期望力和實(shí)際接觸力,F(xiàn)d,F(xiàn)e∈Rk,k為受力數(shù);Xr,Xd分別表示參考軌跡和期望軌跡,
Xr,Xd∈Rn,在位置控制精度足夠高的情況下可近似認(rèn)為機(jī)械臂末端實(shí)際軌跡與期望軌跡相等,即X=Xd。阻抗模型將力跟蹤誤差轉(zhuǎn)化為運(yùn)動(dòng)補(bǔ)償量,與參考軌跡疊加后得到期望軌跡,機(jī)械臂末端跟蹤期望軌跡可實(shí)現(xiàn)力跟蹤。
對(duì)于n自由度的機(jī)械臂系統(tǒng),阻抗控制的一般形式可表示為
M(X¨r-X¨d)+B(X·r-X·d)+K(Xr-Xd)=Fd-Fe。(1)
式(1)中:M,B,K分別為質(zhì)量、阻尼和剛度矩陣,它們直接決定了阻抗模型的動(dòng)力學(xué)特性,M,B,K∈Rn×n。
純剛性接觸環(huán)境Fe定義為
Fe=Ke(Xe-X)," Xe≥X,0," Xelt;X。(2)
式(2)中:Ke為環(huán)境剛度,Ke∈Rk×n;Xe為環(huán)境位置,Xe∈Rn;Xe≥X為機(jī)器人末端處于接觸狀態(tài)。
為簡(jiǎn)化分析,假設(shè)阻抗模型在笛卡爾空間各方向上是解耦的,以一維力跟蹤為例,設(shè)fe,fd,m,b,k,ke,xe分別表示Fe,F(xiàn)d,M,B,K,Ke,Xe中的元素。
根據(jù)文獻(xiàn)[9,11]的分析,若環(huán)境剛度未知或時(shí)變,可設(shè)力控方向的剛度為零,以實(shí)現(xiàn)力跟蹤無(wú)偏差,故設(shè)k≡0。非結(jié)構(gòu)環(huán)境中,環(huán)境位置xe通常難以精確獲取,因此,可用常值估計(jì)量x^e代替,假設(shè)估計(jì)誤差δxe=x^e-xe。令e=xe-xd=xe-x,則e^=e+δxe,用e^代替式(1)中的偏差項(xiàng)e,有
Δf=fd-fe=me^¨+be^·=m(e¨+δx¨e)+b(e·+δx·e)=m(x¨e-x¨+δx¨e)+b(x·e-x·+δx·e)。(3)
機(jī)械臂末端執(zhí)行器在未知幾何形狀的接觸面上實(shí)時(shí)移動(dòng)時(shí),末端實(shí)際軌跡、真實(shí)環(huán)境軌跡和估計(jì)誤差可能隨時(shí)間連續(xù)變化,即x,x·,x¨,xe,x·e,x¨e,δxe,δx·e,δx¨e時(shí)變,因此,式(3)的跟蹤誤差Δf將始終存在。自適應(yīng)阻抗參數(shù)可以補(bǔ)償環(huán)境位置時(shí)變產(chǎn)生的跟蹤誤差,而質(zhì)量系數(shù)的變化容易引起系統(tǒng)震蕩[9]。
2 強(qiáng)化學(xué)習(xí)變阻抗策略
最優(yōu)變阻抗策略π*(st)在任意時(shí)刻狀態(tài)st滿足跟蹤誤差Δfe=0。無(wú)模型強(qiáng)化學(xué)習(xí)(如深度確定性策略梯度算法(DDPG)、近端策略優(yōu)化算法(PPO)等)通常要求智能體與環(huán)境進(jìn)行大量交互以收集足夠的訓(xùn)練樣本,但過(guò)多的交互可能會(huì)對(duì)環(huán)境和機(jī)器人造成潛在的損傷,在實(shí)際機(jī)器人應(yīng)用中并不可取。強(qiáng)化學(xué)習(xí)可根據(jù)交互數(shù)據(jù)建立接觸狀態(tài)轉(zhuǎn)移模型p(st+1|st),從而顯著提高數(shù)據(jù)利用效率。
為消除未知?jiǎng)討B(tài)環(huán)境引起的力跟蹤誤差,引入高斯過(guò)程建立接觸狀態(tài)轉(zhuǎn)移概率模型,借助該模型近似預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)的狀態(tài)分布,并采用價(jià)值函數(shù)Vπ(s)進(jìn)行評(píng)估,最后使用BFGS(broyden-fletcher-goldfarb-shanno)算法更新參數(shù),以逐步逼近最優(yōu)變阻抗策略。
2.1 策略學(xué)習(xí)框架
考慮機(jī)械臂移動(dòng)方向和受力方向,設(shè)連續(xù)狀態(tài)s=[py,pz,fz,Δfz]T,其中,py,pz分別表示世界坐標(biāo)系下機(jī)械臂末端位置在y和z方向的對(duì)應(yīng)分量,fz為力控方向上的實(shí)際接觸力,Δfz為力跟蹤誤差,自適應(yīng)調(diào)整量u為力控方向的阻尼系數(shù)。定義自適應(yīng)阻抗策略π(st,θ),θ為待學(xué)習(xí)的策略參數(shù)。自適應(yīng)阻抗策略由兩部分構(gòu)成。1) 徑向基(RBF)神經(jīng)網(wǎng)絡(luò),將狀態(tài)映射到初始控制量u′=π′(s)。
2) 飽和函數(shù)表達(dá)式為u=Sat(u′),將控制量限制在合理范圍內(nèi)。
RBF神經(jīng)網(wǎng)絡(luò)等價(jià)于N個(gè)高斯核的線性組合,即
π′(st)=Ni=1βikπ(ci,st)=βTπkπ(Cπ,st);(4)
kπ(ci,st)=exp-12(ci-st)TΛπ-1(ci-st)。(5)
式(4),(5)中:βπ=(Kπ+σ2πI)-1yπ表示加權(quán)向量,Kπ是由元素kπ(ci,cj),i,j=1,2,…,N構(gòu)成的Gram矩陣,I為單位矩陣,yπ為訓(xùn)練目標(biāo),yπ=π′(Cπ)+ηπ,ηπ~N(0,σ2πI)表示測(cè)量噪聲,σ2π代表噪聲方差;Λπ為加權(quán)歐式權(quán)重矩陣;Cπ表示核函數(shù)的中心點(diǎn),Cπ=[c1,c2,…,cN]T。
令g(u′)=[9sin(u′)+sin(3u′)]/8∈[-1,1],飽和函數(shù)Sat(u′)把控制量限制在umax與umin之間,其表達(dá)式為
Sat(u′)=12(umax-umin)g(u′)+12(umax+umin)。(6)
代價(jià)函數(shù)設(shè)計(jì)為有界的形式,設(shè)目標(biāo)狀態(tài)star=[0,0,fd,0]T,ΛL為對(duì)角權(quán)重矩陣,與位置相關(guān)的元素為零,常數(shù)λ用于控制代價(jià)函數(shù)達(dá)到飽和時(shí)的狀態(tài)偏差度。
代價(jià)函數(shù)L(st)∈[0,1]為
L(st)=1-exp-12λ2(st-star)TΛL(st-star)。(7)
2.2 接觸狀態(tài)概率預(yù)測(cè)模型
假設(shè)連續(xù)狀態(tài)s∈RE、連續(xù)控制量u∈R1及隨機(jī)噪聲ω均服從高斯分布,則預(yù)測(cè)模型為高斯過(guò)程,即h~GP(m(·),k(·,·))。接觸狀態(tài)概率預(yù)測(cè)模型表達(dá)式為
st=h(st-1,ut-1,ω)。(8)
機(jī)械臂在特定變阻抗策略作用下沿接觸環(huán)境表面的運(yùn)動(dòng)過(guò)程中,以固定頻率對(duì)數(shù)據(jù)采樣,構(gòu)成預(yù)測(cè)模型的訓(xùn)練輸入X=[s1,s2,…,sn]T及訓(xùn)練目標(biāo)Y=[Δ1,Δ2,…,Δn]T,其中,st=(st,ut)∈RE+1表示狀態(tài)-動(dòng)作二元組,Δt=st+1-st∈RE為相鄰時(shí)刻的狀態(tài)變化量。
協(xié)方差函數(shù)k(·,·)與式(5)有相似的形式,即
k(s,s′)=σ2fexp-12(s-s′)TΛ-1(s-s′)+δσ2 ω 。(9)
式(9)中:δ在s與s′相等時(shí)為1,否則為0;Λ=diag(l21,l22,…,l2E)是由尺度l組成的權(quán)重矩陣,與信號(hào)方差σ2f,噪聲方差σ2ω共同構(gòu)成預(yù)測(cè)模型的超參數(shù)(利用第二類(lèi)最大似然估計(jì)[19]獲?。?。
每個(gè)獨(dú)立的預(yù)測(cè)模型分別對(duì)應(yīng)每一維狀態(tài)分量。由于高斯分布經(jīng)非線性映射通常會(huì)變成非高斯分布,對(duì)于任一輸入st-1~N(μst-1,Σst-1)∈RE+1,利用矩匹配法近似預(yù)測(cè)輸出Δt~N(μΔt,ΣΔt)∈RE,故預(yù)測(cè)均值為
μΔt=[βT1q1,…,βTEqE]T。(10)
式(10)中:βa=(Ka+σ2ωaI)-1ya,a∈[1,2,…,E],Ka,σωa,ya分別表示第a個(gè)預(yù)測(cè)模型的Gram矩陣、噪聲方差及訓(xùn)練目標(biāo);向量qa=[qa1,qa2,…,qan]T∈Rn,
qai=σ2faexp(-12(si-μst-1)T(Σst-1+Λa)-1(si-μst-1))Σst-1Λa-1+I。(11)
式(11)中:σfa,Λa分別為對(duì)應(yīng)預(yù)測(cè)模型的信號(hào)方差和權(quán)重矩陣。
預(yù)測(cè)協(xié)方差(ΣΔt)為
ΣΔt=var[h1(st-1)]…cov[h1(st-1),hE(st-1)]cov[hE(st-1),h1(st-1)]…var[hE(st-1)]。(12)
式(12)中:對(duì)角線元素var[ha(st-1)]為第a個(gè)預(yù)測(cè)模型對(duì)st的預(yù)測(cè)方差,非對(duì)角線元素cov[ha(st-1),hb(st-1)],b∈[1,2,…,E]為不同預(yù)測(cè)模型對(duì)同一輸入st的預(yù)測(cè)混合協(xié)方差。
預(yù)測(cè)協(xié)方差各元素為
σ2fa-tr[(Ka+σ2ωaI)-1Q]+βTaQβa-(μaΔt)2," a=b,βTaQβb-μaΔtμbΔt," a≠b。(13)
令P=Σst-1(Λ-1a+Λ-1b)+I,ρi=si-μst-1,ρj=sj-μst-1,zi,j=Λ-1aρi+Λ-1bρj,i,j∈[1,2,…,n]。
矩陣Q∈Rn×n的元素為
Qi,j=σfaσfbPexp12[ρTiΛ-1aρi+ρjTΛ-1bρj-zTi,jP-1Σzi,j]。(14)
2.3 狀態(tài)預(yù)測(cè)及策略評(píng)估
相鄰時(shí)刻的狀態(tài)概率分布為
p(st-1)RBFp(u′t-1)→p(ut-1)→p(s′t-1)→p(st-1)GPp(Δt)→p(st)。(15)
假設(shè)前一時(shí)刻的狀態(tài)概率分布p(st-1)已知,可得出初始控制量概率分布p(u′t-1),其均值和協(xié)方差分別為
μu′t-1=βTπqπ,Σu′t-1=βTπQπβπ-(βTπqπ)2。(16)
根據(jù)正弦函數(shù)期望和方差的性質(zhì),容易計(jì)算限幅后的控制量概率分布p(ut-1),繼而初始聯(lián)合概率分布p(st-1,u′t-1)=p(s′t-1),p(s′t-1)計(jì)算式為
p(s′t-1)=Nμst-1μu′t-1,Σst-1Σst-1,u′t-1ΣTst-1,u′t-1Σu′t-1。(17)
非對(duì)角線元素(Σst-1,u′t-1)的計(jì)算式為
Σst-1,u′t-1=Ni=1βπiqπiΣst-1(Σst-1+Λπ)-1(si-μst-1)。(18)
利用正弦函數(shù)期望和方差的性質(zhì),可以得到聯(lián)合概率分布p(st-1),根據(jù)當(dāng)前預(yù)測(cè)模型及矩匹配法,可預(yù)測(cè)狀態(tài)變化量的概率分布p(Δt),考慮到Δt=f(st-1,ut-1,ω)-st-1,p(st)計(jì)算式為
p(st)=
μst=μst-1+μΔt-1,
Σst=Σst-1+Σst-1,Δt+ΣTst-1,Δt+ΣΔt。(19)
式(19)中:μst-1和Σst-1分別為上一時(shí)刻的狀態(tài)分布;μΔt-1和ΣΔt分別為狀態(tài)變化量的預(yù)測(cè)分布;Σst-1,Δt分別為交叉協(xié)方差項(xiàng)。
重復(fù)式(15),得到虛擬狀態(tài)序列[s0,s1,…,sH],以此實(shí)現(xiàn)策略評(píng)估,序列的價(jià)值函數(shù)(Vπ(s0))為
Vπ(s0)=Ht=0E[L(st)]=Ht=0∫L(st)p(st)dst。(20)
2.4 策略參數(shù)更新
待學(xué)習(xí)的策略參數(shù)θ=[Cπ,yπ,Λπ,σ2π]。最優(yōu)變阻抗策略為
π*(s,θ*)=argθ min Vπ(s0)。(21)
為保證價(jià)值函數(shù)最小,需計(jì)算策略參數(shù)的梯度,即
dVπ(s0)dθ=Ht=1ddθE[L(st)]。(22)
代價(jià)函數(shù)L(st)依賴狀態(tài)概率分布p(st)~N(μst,Σst),利用鏈?zhǔn)椒▌t,有
dE[L(st)]dθ=E[L(st)]μst·dμstdθ+E[L(st)]Σst·dΣstdθ。(23)
令Ψ=ΛL(I+ΣstΛL)-1,由式(7),期望E[L(st)]為
E[L(st)]=∫L(st)p(st)dst=1-exp-12(μst-star)TΨ(μst-star)I+ΣstΛL。(24)
則偏導(dǎo)數(shù)為
E[L(st)]μst=-E[L(st)](μst-star)TΨ,(25)
E[L(st)]Σst=12E[L(st)][Ψ(μst-star)(μst-star)T-I]Ψ。(26)
當(dāng)前時(shí)刻的狀態(tài)概率分布p(st)由前一時(shí)刻的狀態(tài)概率分布p(st-1)通過(guò)策略π(st-1,θ)及高斯過(guò)程模型h(·)預(yù)測(cè)得到。因此,再次利用鏈?zhǔn)椒▌t,有
dμstdθ=μstμst-1·dμst-1dθ+μstΣst-1·dΣst-1dθ+μstθ,(27)
dΣstdθ=Σstμst-1·dμst-1dθ+ΣstΣst-1·dΣst-1dθ+Σstθ。(28)
顯然,這是一個(gè)迭代計(jì)算的過(guò)程,dμst-1dθ和dΣst-1dθ由前次計(jì)算中得出,利用鏈?zhǔn)椒▌t,有
μstθ=μΔtμut-1·μut-1θ+μΔtΣut-1·Σut-1θ,(29)
Σstθ=ΣΔtμut-1·μut-1θ+ΣΔtΣut-1·Σut-1θ。(30)
由價(jià)值函數(shù)算出策略參數(shù)的梯度,使用BFGS算法更新策略參數(shù),當(dāng)Vπ(s0)趨于零時(shí),訓(xùn)練收斂。
3 仿真驗(yàn)證及分析
仿真實(shí)驗(yàn)基于MATLAB/Simulink設(shè)計(jì),用Robotic Toolbox搭建PUMA560機(jī)械臂模型,期望充分體現(xiàn)機(jī)械臂動(dòng)力學(xué)特性。PUMA560型機(jī)械臂可視化模型,如圖2所示。軌跡生成和接觸環(huán)境模型通過(guò)S-Function實(shí)現(xiàn),機(jī)械臂位置內(nèi)環(huán)可達(dá)較高控制精度,滿足驗(yàn)證要求。仿真和策略訓(xùn)練過(guò)程在搭載Core i7-10700型工作站中完成,無(wú)GPU加速。
3.1 訓(xùn)練設(shè)置
策略網(wǎng)絡(luò)模型,如圖3所示。輸入層由當(dāng)前狀態(tài)st構(gòu)成,隱藏層神經(jīng)元個(gè)數(shù)N根據(jù)實(shí)際情況而定,其中的高斯核函數(shù)對(duì)輸入信息進(jìn)行空間映射變換,輸出層對(duì)隱藏層神經(jīng)元的信息進(jìn)行線性加權(quán)求和,得到初始控制量u′t,經(jīng)連續(xù)可微的飽和函數(shù)Sat限幅到合理的范圍內(nèi),得到最終控制量ut。訓(xùn)練時(shí)基于BFGS(broyden-fletcher-goldfarb-shanno)算法更新策略。
3.2 訓(xùn)練過(guò)程
假設(shè)接觸環(huán)境剛度ke=5 000 N·m-1,環(huán)境為余弦曲面(圖4),力控方向(z方向)的期望力fd=10 N,在機(jī)械臂運(yùn)動(dòng)過(guò)程中,保持末端姿態(tài)不變。選擇合適的質(zhì)量系數(shù)m=0.2 kg和剛度系數(shù)k=0 N·m-1,阻尼系數(shù)由策略網(wǎng)絡(luò)動(dòng)態(tài)調(diào)整。機(jī)械臂末端在y方向上運(yùn)動(dòng)速度為0.16 m·s-1,x方向位置保持不變,機(jī)械臂從接觸面的起點(diǎn)運(yùn)動(dòng)至終點(diǎn)需6 s。為減少訓(xùn)練時(shí)間,將Simulink仿真步長(zhǎng)固定為0.005 s,決策頻率為0.05 s,采樣頻率0.05 s,阻尼為0.01~150.00,預(yù)測(cè)時(shí)間域?yàn)?20,隱藏層神經(jīng)元數(shù)N為200,代價(jià)函數(shù)飽和系數(shù)λ為5。
在每一次訓(xùn)練迭代中,機(jī)械臂在當(dāng)前阻抗策略(第1次迭代使用隨機(jī)策略)的作用下從接觸面的起點(diǎn)運(yùn)動(dòng)到終點(diǎn),同時(shí),以特定頻率狀態(tài)和控制量進(jìn)行采樣。完成一次交互后,采樣的數(shù)據(jù)用于估計(jì)高斯過(guò)程預(yù)測(cè)模型的超參數(shù)。機(jī)械臂根據(jù)當(dāng)前策略與該預(yù)測(cè)模型進(jìn)行虛擬交互,產(chǎn)生虛擬狀態(tài)-動(dòng)作序列,并以此虛擬數(shù)據(jù)計(jì)算價(jià)值函數(shù)。最后,計(jì)算價(jià)值函數(shù)的梯度,更新策略的參數(shù)。隨著迭代次數(shù)的增加,用于訓(xùn)練預(yù)測(cè)模型的數(shù)據(jù)集不斷擴(kuò)充,模型趨于準(zhǔn)確,預(yù)測(cè)不確定性趨于降低。
訓(xùn)練過(guò)程中的代價(jià),如圖5所示。圖5中:L為價(jià)值;藍(lán)色曲線是機(jī)械臂與預(yù)測(cè)模型進(jìn)行虛擬交互時(shí)的預(yù)測(cè)代價(jià),其寬度表示預(yù)測(cè)過(guò)程的不確定性;紅色曲線為機(jī)械臂與真實(shí)環(huán)境交互的實(shí)際代價(jià),直接反應(yīng)了力控制效果。
由圖5可知:在訓(xùn)練初期,由于數(shù)據(jù)集較小,高斯過(guò)程模型的預(yù)測(cè)是不準(zhǔn)確的,方差很大,隨著迭代次數(shù)的增多,預(yù)測(cè)模型趨于準(zhǔn)確,不確定性變得很??;最終,預(yù)測(cè)代價(jià)與實(shí)際代價(jià)都趨于零,機(jī)械臂獲得最優(yōu)變阻抗策略π*(s,θ*)。
圖6為訓(xùn)練結(jié)果。對(duì)比訓(xùn)練結(jié)果與傳統(tǒng)阻抗控制、自適應(yīng)變阻抗控制(初始阻尼系數(shù)設(shè)為20 N·m-1,更新率為0.02)[9]可知:參考軌跡不準(zhǔn)確導(dǎo)致傳統(tǒng)阻抗控制在非結(jié)構(gòu)環(huán)境中無(wú)法實(shí)現(xiàn)恒力跟蹤,接觸力穩(wěn)態(tài)誤差隨環(huán)境位置的變化而呈現(xiàn)周期性變化,最大穩(wěn)態(tài)跟蹤誤差為1.6 N;相對(duì)而言,自適應(yīng)變阻抗控制穩(wěn)態(tài)精度更高,但動(dòng)態(tài)過(guò)程較差,其穩(wěn)態(tài)跟蹤誤差與初始阻尼系數(shù)、更新率及采樣頻率有關(guān),更高精度的力跟蹤參數(shù)易導(dǎo)致更差的動(dòng)態(tài)過(guò)程[8],在此場(chǎng)景下最大穩(wěn)態(tài)誤差約為0.25 N。因此,提出的PPM-VIC方法具有很小的超調(diào)和更高的穩(wěn)態(tài)跟蹤精度。
3.3 接觸環(huán)境的對(duì)比測(cè)試
為了驗(yàn)證訓(xùn)練的變阻抗策略是否適用于其他類(lèi)型的接觸環(huán)境,設(shè)計(jì)斜面環(huán)境恒力跟蹤、復(fù)雜曲面環(huán)境恒力跟蹤和復(fù)雜曲面環(huán)境變力跟蹤3種非結(jié)構(gòu)環(huán)境任務(wù)場(chǎng)景,初始環(huán)境剛度均為ke=5 000 N·m-1。對(duì)機(jī)械臂而言,環(huán)境信息未知。
設(shè)置機(jī)械臂的作業(yè)環(huán)境為斜率未知的斜面,則機(jī)械臂末端實(shí)時(shí)移動(dòng)過(guò)程中x·e為非零常值,x¨e=0。斜面環(huán)境恒力跟蹤,如圖7所示。
由圖7(b)可知:在斜面環(huán)境下,傳統(tǒng)阻抗控制在剛度系數(shù)k=0時(shí)始終存在恒定的穩(wěn)態(tài)誤差;自適應(yīng)變阻抗控制在接觸初期會(huì)產(chǎn)生較大的超調(diào),需要約0.7 s才能使接觸力穩(wěn)定至期望值,動(dòng)態(tài)性能較差,但穩(wěn)態(tài)時(shí)可實(shí)現(xiàn)高精度力跟蹤;PPM-VIC方法在剛發(fā)生接觸時(shí)存在微小抖震,但超調(diào)量明顯小于另外兩種控制方式,穩(wěn)定后跟蹤精度優(yōu)于自適應(yīng)變阻抗。接觸環(huán)境剛度突變時(shí),3種控制方法都表現(xiàn)出不同程度的超調(diào)和震蕩,但PPM-VIC方法表現(xiàn)出更優(yōu)的控制效果。
斜面環(huán)境恒力跟蹤性能對(duì)比,如表1所示。對(duì)于未知表達(dá)式的復(fù)雜接觸曲面,顯然xe,x·e,x¨e≠0且始終隨著時(shí)間變化。設(shè)期望力fd=10 N,復(fù)雜曲面環(huán)境恒力跟蹤,如圖8所示。
由圖8(b)可知:接觸環(huán)境起伏對(duì)傳統(tǒng)阻抗控制的影響最大,跟蹤誤差與環(huán)境位置變化速度有關(guān),2 s后環(huán)境變化速度明顯變大,力跟蹤誤差也隨之增大。自適應(yīng)變阻抗控制的動(dòng)態(tài)性能較差,但穩(wěn)態(tài)誤差優(yōu)于傳統(tǒng)阻抗控制。PPM-VIC方法幾乎不受環(huán)境位置變化的影響,能夠以較高的精度跟蹤恒定期望力。
復(fù)雜曲面環(huán)境恒力跟蹤性能對(duì)比,如表2所示。復(fù)雜曲面環(huán)境變力跟蹤性能對(duì)比,如表3所示。
設(shè)期望力為變力,即fd=10+5sin(t)N,復(fù)雜曲面環(huán)境變力跟蹤,如圖9所示。
由圖9可知:前1.5 s環(huán)境位置變化相對(duì)平緩,3種控制方法均可在穩(wěn)定后較好地跟蹤期望力;自2.5 s開(kāi)始,接觸環(huán)境變得陡峭,傳統(tǒng)阻抗控制和自適應(yīng)變阻抗都出現(xiàn)了不同程度的跟蹤誤差,但自適應(yīng)變阻抗誤差較小,PPM-VIC方法仍然能以較高精度跟蹤連續(xù)變化的期望力。
4 結(jié)束語(yǔ)
針對(duì)非結(jié)構(gòu)環(huán)境下機(jī)械臂難以實(shí)現(xiàn)良好的力跟蹤性能,以及強(qiáng)化學(xué)習(xí)數(shù)據(jù)利用效率低的問(wèn)題,將機(jī)械臂力控制問(wèn)題建模為馬爾可夫決策過(guò)程,提出一種基于概率預(yù)測(cè)強(qiáng)化學(xué)習(xí)的PPM-VIC方法。利用概率預(yù)測(cè)模型及矩匹配法預(yù)測(cè)未來(lái)時(shí)間域內(nèi)的狀態(tài)序列分布,從而產(chǎn)生大量虛擬訓(xùn)練樣本,使機(jī)械臂僅需與環(huán)境交互18次即可獲得良好的變阻抗策略。仿真結(jié)果表明,提出的變阻抗策略適用于各種非結(jié)構(gòu)接觸環(huán)境,其超調(diào)量、震蕩幅度及穩(wěn)態(tài)精度均顯著優(yōu)于傳統(tǒng)阻抗控制和自適應(yīng)變阻抗控制,在期望力恒定和連續(xù)變化時(shí)均具備良好的跟蹤性能。
參考文獻(xiàn):
[1] PETERNEL L,TSAGARAKIS N,CALDWELL D,et al.Robot adaptation to human physical fatigue in human-robot co-manipulation[J].Autonomous Robots,2018,42(5):1011-1021.DOI 10.1007/s10514-017-9678.
[2] 倪濤,黎銳,繆海峰,等.船載機(jī)械臂末端位置實(shí)時(shí)補(bǔ)償[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2020,50(6):2028-2035.DOI:10.13229/j.cnki.jdxbgxb20190662.
[3] REN Qinyuan,ZHU Wenxin,ZHAO Feng,et al.Learning-based force control of a surgical robot for tool-soft tissue interaction[J].IEEE Robotics and Automation Letters,2021,6(4):6345-6352.DOI:10.1109/LRA.2021.3093018.
[4] LI Y,GOWRISHANKAR G,NATHANAEL J,et al.Force, impedance, and trajectory learning for contact tooling and haptic identification[J].IEEE Transactions on Robotics,2018,34(5):1-13.DOI:10.1109/TRO.2018.2830405.
[5] 劉勝遂,李利娜,熊曉燕,等.基于卡爾曼濾波的機(jī)器人自適應(yīng)控制方法研究[J].機(jī)電工程,2023,40(6):936-944.DOI:10.3969/j.issn.1001-4551.2023.06.017.
[6] 李振,趙歡,王輝,等.機(jī)器人磨拋加工接觸穩(wěn)態(tài)自適應(yīng)力跟蹤研究[J].機(jī)械工程學(xué)報(bào),2022,58(9):200-209.DOI:10.3901/JME.2022.09.200.
[7] ROVEDA L,IANNACCI N,VICENTINI F,et al.Optimal impedance force-tracking control design with impact formulation for interaction tasks[J].IEEE Robotics and Automation Letters,2016,1(1):130-136.DOI:10.1109/LRA.2015.2508061.
[8] JUNG S,HSIA T C,BONITZ R G.Force tracking impedance control of robot manipulators under unknown environment[J].IEEE Transactions on Control Systems Technology,2004,12(3):474-483.DOI:10.1109/TCST.2004.824320.
[9] DUAN Jinjun,GAN Yajui,CHEN Ming,et al.Adaptive variable impedance control for dynamic contact force tracking in uncertain environment[J].Robotics and Autonomous Systems,2018,102:54-65.DOI:10.1016/j.robot.2018.01.009.
[10] CAO Hongli,CHEN Xiaoan,HE Ye,et al.Dynamic adaptive hybrid impedance control for dynamic contact force tracking in uncertain environments[J].IEEE Access,2019,7:83162-83174.DOI:10.1109/ACCESS.2019.2924696.
[11] HAMEDANI M H,SADEGHIAN H,ZEKRI M,et al.Intelligent impedance control using wavelet neural network for dynamic contact force tracking in unknown varying environments[J].Control Engineering Practice,2021,113:104840.DOI:10.1016/J.CONENGPRAC.2021.104840.
[12] ANDRYCHOWICZ O M,BAKER B,CHOCIEJ M,et al.Learning dexterous in-hand manipulation[J].The International Journal of Robotics Research,2020,39(1):3-20.DOI:10.1177/0278364919887447.
[13] LI Yunfei,KONG Tao,LI Lei,et al.Learning design and construction with varying-sized materials via prioritized memory resets[C]∥International Conference on Robotics and Automation.Philadelphia:IEEE Press.2022:7469-7476.DOI:10.1109/ICRA46639.2022.9811624.
[14] BUCHLI J,STULP F,THEODOROU E,et al.Learning variable impedance control[J].The International Journal of Robotics Research,2011,30(7):820-833.DOI:10.1177/0278364911402527.
[15] LI Chao,ZHANG Zhi,XIA Guihua,et al.Efficient force control learning system for industrial robots based on variable impedance control[J].Sensors,2018,18(8):2539.DOI:10.3390/s18082539.
[16] WU Min,HE Yanhao,LIU S.Adaptive impedance control based on reinforcement learning in a human-robot collaboration task with human reference estimation[J].International Journal of Mechanics and Control,2020,21(1):21-32.DOI:10.1007/978-3-030-19648-6_12.
[17] DU Zhijiang,WANG Wei,YAN Zhiyuan,et al.Variable admittance control based on fuzzy reinforcement learning for minimally invasive surgery manipulator[J].Sensors,2017,17(4):844.DOI:10.3390/s17040844.
[18] DEISENROTH M P,F(xiàn)OX D,RASMUSSEN C E.Gaussian processes for data-efficient learning in robotics and control[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(2):408-423.DOI:10.1109/TPAMI.2013.218.
[19] RASMUSSEN C E,WILLIAMS C K I.Gaussian processes for machine learning[M].Cambridge:MIT Press,2005.
[20] DEISENROTH M P.Efficient reinforcement learning using Gaussian process[D].Karlsruhe:Karlsruhe Institute of Technology,2010.DOI:10.5445/KSP/1000019799.
(責(zé)任編輯: 陳志賢" 英文審校: 陳婧)