楊飛飛,王 聰,曾 瑋
(1.華南理工大學(xué)自動(dòng)化學(xué)院,廣州510641;2.華南理工大學(xué)機(jī)械與汽車工程學(xué)院,廣州510641;3.龍巖學(xué)院物理與機(jī)電工程學(xué)院,龍巖364012)
隨著空間技術(shù)的迅速發(fā)展,機(jī)器人機(jī)械臂[1-3]的作用日益重要。利用安裝在航天器上的空間機(jī)械臂代替宇航員完成捕捉失效衛(wèi)星、建造空間站、維修空間站以及大型空間站的在軌組裝工作,能減少宇航員艙外活動(dòng),避免生命危險(xiǎn)和節(jié)省出艙費(fèi)用[4]。
在微重力環(huán)境下,機(jī)械臂空間操作時(shí),往往會(huì)引起載體位姿的變化,從而表現(xiàn)出非完整的動(dòng)力學(xué)特點(diǎn),且系統(tǒng)動(dòng)力學(xué)方程關(guān)于系統(tǒng)慣性參數(shù)呈非線性函數(shù)關(guān)系。同時(shí),空間機(jī)械臂操作往往具有不確定性,如參數(shù)的攝動(dòng),負(fù)載的擾動(dòng)及載體中燃耗等,而利用現(xiàn)有的空間機(jī)械臂動(dòng)力學(xué)模型的先驗(yàn)知識(shí)常常難以建立其精確的數(shù)學(xué)模型[5]。自適應(yīng)神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展為解決機(jī)械臂控制中存在的一些問題提供了新的途徑[6-7]。針對(duì)動(dòng)力學(xué)未知的非線性機(jī)械臂系統(tǒng),自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器[6]能保證系統(tǒng)狀態(tài)最終一致有界以及跟蹤誤差的收斂。然而,由于不滿足持續(xù)激勵(lì)條件,所采用的神經(jīng)網(wǎng)絡(luò)不能實(shí)現(xiàn)對(duì)機(jī)械臂系統(tǒng)動(dòng)態(tài)的準(zhǔn)確逼近,以至于對(duì)經(jīng)歷過多次的同一控制任務(wù),神經(jīng)網(wǎng)絡(luò)仍然需要重新進(jìn)行冗余而繁瑣的訓(xùn)練[7]。最近新興的確定性學(xué)習(xí)理論[8]可實(shí)現(xiàn)對(duì)非線性系統(tǒng)(包括閉環(huán)非線性控制系統(tǒng))的局部準(zhǔn)確建模,以及對(duì)非線性系統(tǒng)產(chǎn)生的動(dòng)態(tài)模式的快速識(shí)別。文獻(xiàn)[7]采用確定性學(xué)習(xí)理論[8],使用徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)為機(jī)械臂設(shè)計(jì)自適應(yīng)神經(jīng)控制算法,不僅實(shí)現(xiàn)了閉環(huán)系統(tǒng)所有信號(hào)的最終一致有界,同時(shí)實(shí)現(xiàn)了對(duì)未知機(jī)械臂閉環(huán)系統(tǒng)動(dòng)態(tài)的局部準(zhǔn)確逼近,并可將所學(xué)知識(shí)應(yīng)用于后續(xù)相同或相似的控制任務(wù)中。
值得注意的是,空間機(jī)械臂在執(zhí)行各種不同的任務(wù)當(dāng)中,其慣性動(dòng)力學(xué)會(huì)發(fā)生改變。這種改變使得對(duì)機(jī)械臂系統(tǒng)進(jìn)行控制變得更加困難[9]。為了解決這個(gè)問題,多模型控制思想近年來被用于具有非線性動(dòng)態(tài)的空間機(jī)械臂控制中[10-11]。尤其是,Goodwin[12-13]、Narendra[9,14]等人在基于模型切換的多模型自適應(yīng)控制器設(shè)計(jì)方面取得了很多成果,為基于模式的空間機(jī)械臂控制提供了研究思路。盡管如此,上述多模型自適應(yīng)控制器的結(jié)果多局限于線性系統(tǒng),很難推廣到非線性系統(tǒng)。在最近新興的確定學(xué)習(xí)理論中提出一種基于模式的控制思路[8,15-16],即通過把非線性系統(tǒng)產(chǎn)生的不同周期或回歸軌跡定義為動(dòng)態(tài)模式,并在對(duì)動(dòng)態(tài)模式進(jìn)行快速識(shí)別的基礎(chǔ)上,可選擇相應(yīng)的已經(jīng)過訓(xùn)練的、包含了系統(tǒng)局部準(zhǔn)確模型的常值神經(jīng)網(wǎng)絡(luò)控制器用于對(duì)非線性系統(tǒng)進(jìn)行多模型控制。
本文研究針對(duì)一種空間機(jī)械臂的基于模式的控制方法,優(yōu)點(diǎn)在于:1)由于采用確定性學(xué)習(xí)算法,可實(shí)現(xiàn)對(duì)空間機(jī)械臂未知非線性動(dòng)態(tài)的局部準(zhǔn)確逼近;對(duì)于新出現(xiàn)的任務(wù)模式,基于對(duì)其快速識(shí)別并調(diào)用相應(yīng)的常值神經(jīng)網(wǎng)絡(luò)控制器對(duì)機(jī)械臂系統(tǒng)進(jìn)行控制,可實(shí)現(xiàn)響應(yīng)速度更快,跟蹤性能更好的空間機(jī)械臂控制;2)空間機(jī)械臂基于模式的控制的切換發(fā)生在不同系統(tǒng)動(dòng)態(tài)之間,不會(huì)因狀態(tài)改變而發(fā)生頻繁切換,因而可改善系統(tǒng)的暫態(tài)性能,從而保證系統(tǒng)較高的控制性能。最后,仿真結(jié)果表明控制方法的有效性。
基座固定的空間機(jī)械臂動(dòng)力學(xué)方程為[17]
式中:q,˙q,¨q∈Rn分別代表關(guān)節(jié)的位置、速度和加速度;M(q)∈Rn×n為對(duì)稱正定的慣性矩陣;Vm(q,˙q)∈Rn×n為哥氏力和向心力矩陣;F(˙q)∈Rn為摩擦力矢量;G(q)∈Rn為重力矢量;τ∈Rn為控制轉(zhuǎn)矩輸入矢量。
空間機(jī)械臂的動(dòng)力學(xué)方程(1)具有如下性質(zhì)。性質(zhì)1.慣性矩陣M(q)是正定對(duì)稱矩陣,且有界,即滿足m1I≤M(q)≤m2I,?q∈Rn,其中,I為適當(dāng)維數(shù)的單位矩陣,m2≥m1>0。
令x1=q,x2=˙q,則式(1)可表示為
由此,本文考慮一類機(jī)械臂通用模型:
式中:x= [x1,x2]T∈R2是系統(tǒng)的狀態(tài)變量,f(·)和g(·)表示未知的非線性系統(tǒng)動(dòng)態(tài)。
本文設(shè)計(jì)機(jī)械臂通用系統(tǒng)(3)跟蹤由下面參考模型產(chǎn)生的不同跟蹤任務(wù):
式中:xd= [xd1,xd2]T∈R2是狀態(tài)變量是光滑的非線性函數(shù)m=1,2,…,M)表示由于初始條件和系統(tǒng)參數(shù)不同產(chǎn)生的不同參考軌跡(定義為不同的任務(wù)模式)。σ:R+=[0,∞)→S={1,…,M}是關(guān)于時(shí)間的連續(xù)分段函數(shù),表示一類切換信號(hào)。M∈N+表示產(chǎn)生的不同任務(wù)模式的數(shù)目。
根據(jù)性質(zhì)2以及性質(zhì)3,以下假設(shè)成立。假設(shè)1.g(x)的符號(hào)已知且存在常數(shù)g1≥g0>0使假設(shè)2.存在常數(shù)gd>0使得g˙(x)≤gd,?x∈Ω?R2,式中˙g(x)是關(guān)于時(shí)間的導(dǎo)數(shù)。
控制目標(biāo):給定多個(gè)跟蹤任務(wù),設(shè)計(jì)基于模式的局部RBF神經(jīng)網(wǎng)絡(luò)控制器,實(shí)現(xiàn)機(jī)械臂系統(tǒng)基于跟蹤任務(wù)模式的控制。
空間機(jī)械臂系統(tǒng)要求實(shí)現(xiàn)沿參考軌跡(稱為參考任務(wù)模式)的運(yùn)動(dòng),當(dāng)有多個(gè)參考軌跡時(shí),需要首先識(shí)別出當(dāng)前的參考軌跡,然后調(diào)用相應(yīng)的神經(jīng)網(wǎng)絡(luò)經(jīng)驗(yàn)控制器對(duì)機(jī)械臂系統(tǒng)進(jìn)行跟蹤控制。機(jī)械臂系統(tǒng)基于任務(wù)模式的控制過程可描述如下:
自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器設(shè)計(jì)為:
式中:z2=e2/g(x),e1=x1-xd1,e2=x2-xd2,c2為控制器增益。
神經(jīng)網(wǎng)絡(luò)自適應(yīng)律為:
上述自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器的設(shè)計(jì)在專著[8]中已有詳盡的研究,并總結(jié)于第四章定理4.5。
εm1,εm2為逼近誤差
本文依據(jù)上述辨識(shí)結(jié)果,構(gòu)造出如下包含所學(xué)機(jī)械臂系統(tǒng)動(dòng)態(tài)的常值神經(jīng)網(wǎng)絡(luò)控制器集合:
式中:ˉxm=[x]T表示所構(gòu)建的動(dòng)態(tài)模型的狀態(tài),x是待識(shí)別任務(wù)模式的狀態(tài)。B=diag(b1,b2)表示對(duì)角陣,注意bi(i=1,2)可選擇為較大值。
采用下邊的識(shí)別誤差系統(tǒng):
系統(tǒng)(10)是一個(gè)帶有界擾動(dòng)的簡單線性時(shí)不變系統(tǒng),由式(10)可快速識(shí)別任務(wù)模式,m ∈ S。在該步驟中,識(shí)別第m個(gè)參考模式所需時(shí)間用[tm,tm']表示,且 tm'=tm+ Δtm,Δtm> 0,m ∈ S 。
(3)基于對(duì)任務(wù)模式的快速識(shí)別和分類結(jié)果,選擇神經(jīng)網(wǎng)絡(luò)控制器集合(8)中相應(yīng)的控制器,對(duì)機(jī)械臂系統(tǒng)(3)進(jìn)行閉環(huán)跟蹤控制。
即未識(shí)別出模式φm+1dζ前,依然利用第m個(gè)控制器um對(duì)機(jī)械臂閉環(huán)動(dòng)態(tài)進(jìn)行控制。
3)模式識(shí)別完成后,控制器選取為:
綜上,本文設(shè)計(jì)基于跟蹤任務(wù)模式的控制器:
式中:m∈S,z1,m+1,z2,m+1分別表示機(jī)械臂動(dòng)態(tài)跟蹤第m+1個(gè)跟蹤任務(wù)模式φm+1dζ的第一個(gè)誤差分量和第二個(gè)誤差分量,z2,m的定義類似,c2,m,c2,m+1分別表示um和um+1的控制器增益。
如果t0代表系統(tǒng)(3)的初始運(yùn)行時(shí)刻,(im,tm)表示第σ(tm)個(gè)子系統(tǒng)動(dòng)態(tài)當(dāng)前活動(dòng),則基于跟蹤任務(wù)模式的機(jī)械臂閉環(huán)控制系統(tǒng)可用一類切換序列來描述,如切換序列 Ξ ={(i0,t0),…,(in,tn),…,|in∈S,n∈N+}。本文對(duì)由機(jī)械臂閉環(huán)系統(tǒng)(3),參考軌跡模式(4),神經(jīng)網(wǎng)絡(luò)控制器集合(8)構(gòu)成的基于模式的機(jī)械臂控制系統(tǒng)進(jìn)行穩(wěn)定性分析。首先給出以下引理。
引理1[18].切換系統(tǒng)˙x=Aix,i=1,2,…,N若具有形為V(x)=xTPx的共同李亞譜諾夫函數(shù),且對(duì)于i=1,2,…,N,˙V(x)關(guān)于時(shí)間負(fù)定,則切換系統(tǒng)對(duì)任意的切換序列指數(shù)穩(wěn)定。
定理1.考慮基于模式的機(jī)械臂控制系統(tǒng),包括被控對(duì)象(3),參考軌跡模式(4),以及基于模式的控制器(14)。對(duì)于由初始條件0)產(chǎn)生的參考軌跡模式m∈S):基于模式的機(jī)械臂閉環(huán)控制系統(tǒng)(3)中的所有信號(hào)有界,且系統(tǒng)狀態(tài)跟蹤誤差~x=x(t)-xd(t)指數(shù)收斂到零的一個(gè)小鄰域內(nèi)。證.由于神經(jīng)網(wǎng)絡(luò)經(jīng)驗(yàn)控制器(8)只在各自的訓(xùn)練域Ωφm,m∈S內(nèi)有效,是一種局部的控制器,因此本文分兩種情況討論空間機(jī)械臂系統(tǒng)的穩(wěn)定性。這里假設(shè)機(jī)械臂閉環(huán)系統(tǒng)(3)跟蹤各個(gè)任務(wù)模式的切換瞬間的切換域均處于Ωζ之內(nèi)。
(1)情況1:識(shí)別當(dāng)前測試模式φm+1dζ,控制器取為
且神經(jīng)網(wǎng)絡(luò)訓(xùn)練區(qū)域滿足:Ωφm+1?Ωφm,m∈S,即第m+1個(gè)模式的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)區(qū)域Ωφm+1包含于第m個(gè)模式的學(xué)習(xí)區(qū)域Ωφm中。
式中:
且李雅普諾夫函數(shù)取為
則有
由于下邊的不等式成立
因而得到
式中:ο1,m+1=O(ε1,m+1),同理,
將式(24)(25)代入式(22)可得
將式(26)代入式(23),并根據(jù)假設(shè)1和假設(shè)2,得到
上式意味著
式中:
根據(jù)式(20)及(29),進(jìn)一步有
這意味著在[tm+1,t(m+1)']內(nèi),通過恰當(dāng)選取第m個(gè)證在短暫識(shí)別過程中能量函數(shù)是負(fù)定的。
動(dòng)態(tài)過渡過程結(jié)束后,控制器切換為um+1,此時(shí)的機(jī)械臂誤差動(dòng)態(tài)方程為
這就意味著,當(dāng) t∈ [t(m+1)',tm+2)時(shí), zm+1≤此通過恰當(dāng)選取參數(shù)致有界,并最終指數(shù)收斂于零的一個(gè)小鄰域內(nèi)。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練區(qū)域滿足:Ωφm+1?Ωφm,m∈S。
此情況與情況1分析方法類似,但在時(shí)間區(qū)間 t∈ [tm+1,t(m+1)']內(nèi)采用控制器 umhigh,根據(jù)式(16)有
采用類似于情況1中的證明步驟,仍然有式(33)成立。與情況1不同的是,此時(shí)的參數(shù)
下面以基座固定的兩聯(lián)桿空間機(jī)械臂為例說明所提方法的有效性。兩聯(lián)桿機(jī)械臂動(dòng)態(tài)方程(1)滿足
機(jī)械臂系統(tǒng)的實(shí)際參數(shù)值選取為:l1=1 m,l2
切換序列如圖1所示。顯然:第二個(gè)任務(wù)模式的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)區(qū)域Ωφ2不包含于第一個(gè)模式的學(xué)習(xí)區(qū)域 Ωφ1中,即 Ωφ2?Ωφ1(滿足定理1 情況2),因此需要選取高增益的控制器。
圖1 跟蹤不同的參考模式的切換序列Fig.1 Switching sequence of tracking different orbits
機(jī)械臂閉環(huán)系統(tǒng)的控制器參數(shù)均選取為:神經(jīng)元的個(gè)數(shù)為3×3×3×3×4×4=1296個(gè),均勻地分布在[-1.05,1.05]×[-1.05,1.05]×[- 1.05,1.05]× [- 1.05,1.05] × [- 1.05,1.05]×[-1.05,1.05]區(qū)間上,==16=100,Δt<5 s。圖2為跟蹤兩個(gè)任務(wù)模式的空間逼近效果圖。圖3為誤差跟蹤性能曲線,圖4為跟蹤誤差曲線,圖5為控制輸入。
圖2 空間上的函數(shù)逼近效果Fig.2 Function approximation in state space
從仿真結(jié)果看出,采用基于跟蹤任務(wù)模式的常值神經(jīng)網(wǎng)絡(luò)控制器,可成功驅(qū)動(dòng)仿真系統(tǒng)的狀態(tài)收斂于參考狀態(tài)附近的一個(gè)小鄰域中,而且在跟蹤過程中實(shí)現(xiàn)了確定學(xué)習(xí)。圖2~圖5清晰反映了切換瞬間,即60 s時(shí)刻,由于出現(xiàn)跟蹤任務(wù),而系統(tǒng)仍采用跟蹤時(shí)的控制經(jīng)驗(yàn)對(duì)機(jī)械臂系統(tǒng)進(jìn)行控制,導(dǎo)致系統(tǒng)能量突增,出現(xiàn)了較大的攝動(dòng)。經(jīng)過短暫的識(shí)別過程后,機(jī)械臂系統(tǒng)立即調(diào)用跟蹤參考任務(wù)練得到的經(jīng)驗(yàn)控制器,這使得進(jìn)入Ωφ2中的控制器能夠馬上利用在該區(qū)域內(nèi)學(xué)習(xí)過的知識(shí),響應(yīng)速度與自適應(yīng)控制器相比,加快許多。如圖3~圖4體現(xiàn)出了系統(tǒng)良好的跟蹤控制性能,整個(gè)基于參考任務(wù)模式的機(jī)械臂系統(tǒng)指數(shù)穩(wěn)定,且切換瞬間的暫態(tài)有界性利用短暫高增益控制器得到了保證。
圖3 狀態(tài)x的跟蹤性能Fig.3 Tracking performance of x
圖4 狀態(tài)x的跟蹤誤差Fig.4 Tracking error of x
圖5 控制輸入Fig.5 Control input
研究了一類空間機(jī)械臂系統(tǒng)的確定學(xué)習(xí)控制方法,采用確定學(xué)習(xí)中基于模式的控制思想實(shí)現(xiàn)了空間機(jī)械臂基于模式的控制。通過理論證明,采用基于模式的局部神經(jīng)網(wǎng)絡(luò)控制器,機(jī)械臂閉環(huán)系統(tǒng)不僅能實(shí)現(xiàn)穩(wěn)定性要求,而且在節(jié)省時(shí)間和能量方面也體現(xiàn)了優(yōu)越性,同時(shí)說明這類基于任務(wù)模式的神經(jīng)網(wǎng)絡(luò)機(jī)械臂閉環(huán)系統(tǒng)由于具有慢切換的屬性,因而可避免頻繁切換。最后,仿真結(jié)果在基座固定的兩聯(lián)桿空間機(jī)械臂上進(jìn)行校驗(yàn),說明該方法的有效性。
[1] Piltan F, Sulaiman N, Rashidi M, et al. Design and implementation of sliding mode algorithm:applied to robot manipulator-a review[J].International Journal of Robotics and Automation,2011,2(5):265-282.
[2] Piltan F,Sulaiman N,Marhaban M H,et al.Design of FPGA-based sliding mode controller for robot manipulator[J].International Journal of Robotics and Automation,2011,2(3):183-204.
[3] Piltan F,Sulaiman N,Nasiri H,et al.Novel robot manipulator adaptive artificial control:design a novel SISO adaptive fuzzy sliding algorithm inverse dynamic like method[J].International Journal of Engineering,2011,5(5):399-418.
[4] 洪炳熔,柳長安,李華忠.自由飛行空間機(jī)器人捕捉運(yùn)動(dòng)目標(biāo)的力矩控制算法及其仿真[J].宇航學(xué)報(bào),2000,21(4):64-70.[Hong Bing-rong,Liu Chang-an,Li Hua-zhong.The torque control algorith of the capture of moving target of free flying space robot and its simulation [J]. Journal of Astronautics,2000,21(4):64 -70.]
[5] 洪在地,贠超,陳力.漂浮基空間機(jī)器人及其柔性影響下逆模神經(jīng)網(wǎng)絡(luò)控制[J].宇航學(xué)報(bào),2007,28(6):1510-1514.[Hong Zai-di,Yun Chao,Chen Li.Inverse model neural network control of free floating space robot under the influence of flexible[J].Journal of Astronautics,2007,28(6):1510 -1514.]
[6] 孫富春,孫增圻.機(jī)械手的神經(jīng)網(wǎng)絡(luò)穩(wěn)定自適應(yīng)控制器設(shè)計(jì)[J].控制理論與應(yīng)用,1997,14(6):809-816.[Sun Fuchun,Sun Zeng-qi. The design of stable neural network adaptive controller for the manipulator[J].Control Theory and Applications,1997,14(6):809 -816.]
[7] 吳玉香,張景,王聰.機(jī)械臂的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制與學(xué)習(xí)[J].機(jī)械工程學(xué)報(bào),2013,49(15):42-48.[Wu Yuxiang,Zhang Jing,Wang Cong.Adaptive NN control and learning for the manipulator[J].Journal of Mechanical Engineering,2013,49(15):42 -48.]
[8] Wang C, Hill D J. Deterministic learning theory for identification,recognition and control[M].New York:CRC,2009.
[9] Narendra K S,Balakrishnan J,Ciliz M K.Adaptation and learning using multiple models,switching,and tuning [J].IEEE Control Systems,1995,15(3):37-51.
[10] Ciliz M K.Combined direct and indirect adaptive control of robot manipulators using multiple models [J].Advanced Robotics,2006,20(4):483-497.
[11] Nguyen-Tuong D,Peters J.Model learning for robot control:a survey[J].Cognitive Processing,2011,12(4):319 -340.
[12] Morse A S,Mayne D Q, Goodwin G C. Applications of hysteresis switching in parameter adaptive control[J].IEEE Transactions on Automatic Control,1992,37(9):1343 -1354.
[13] Weller SR,Goodwin G C.Hysteresis switching adaptive control of linear multivariable systems[J].IEEE Transactions on Automatic Control,1994,39(7):1360 -1375.
[14] Narendra K S,Balakrishnan J.Adaptive control using multiple models[J].IEEE Transactions on Automatic Control,1997,42(2):171-187.
[15] Wang C,Hill D J.Learning from neural control[J].IEEE Transactions on Neural Networks,2006,17(1):130 -146.
[16] Wang C,Hill D J.Deterministic learning and rapid dynamical pattern recognition [J].IEEE Transactions on Neural Networks,2007,18(3):617-630.
[17] Lewis F L,Abdallah C T,Dawson D M.Control of robot manipulators[M].New York:Macmillan,1993.
[18] Narendra K S,Balakrishnan J.A common lyapunov function for stable LTI systems with commuting a-matrices[J].IEEE Transactions on Neural Networks and Learning Systems,1994,36(12):2469-2471.