陳 辭,謝立華
(1. 廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣東 廣州 510006;2. 廣東省物聯(lián)網(wǎng)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室, 廣東 廣州 510006;3. 新加坡南洋理工大學(xué) 電氣電子工程學(xué)院,新加坡 639798)
跟蹤控制的研究目標(biāo)是:設(shè)計(jì)控制輸入使被控系統(tǒng)的輸出跟蹤給定軌跡(包括定點(diǎn)跟蹤)。如何實(shí)現(xiàn)動(dòng)態(tài)系統(tǒng)的跟蹤控制是工業(yè)生產(chǎn)領(lǐng)域關(guān)鍵的工程課題,也是控制科學(xué)領(lǐng)域重要的學(xué)術(shù)問(wèn)題。在工業(yè)流程與智能制造中,迫切需要控制生產(chǎn)過(guò)程中的關(guān)鍵參數(shù),使其準(zhǔn)確跟隨設(shè)定值[1];精密制造加工中,需要控制機(jī)器人操作臂,使其末端運(yùn)動(dòng)跟蹤指定軌跡[2]。
控制領(lǐng)域中,輸出調(diào)節(jié)理論是一類能夠?qū)崿F(xiàn)跟蹤的控制方法。該理論將跟蹤控制器設(shè)計(jì)問(wèn)題轉(zhuǎn)化為輸出調(diào)節(jié)方程求解問(wèn)題[3]。已有結(jié)論表明[3-4],即使被控系統(tǒng)存在一定外部擾動(dòng),輸出調(diào)節(jié)理論依然可實(shí)現(xiàn)精確跟蹤控制。但求解輸出調(diào)節(jié)方程往往需要假設(shè)系統(tǒng)模型精確已知,一些復(fù)雜動(dòng)態(tài)控制場(chǎng)景可能無(wú)法滿足這一假設(shè),這限制了基于輸出調(diào)節(jié)理論的工程應(yīng)用。針對(duì)不精確模型問(wèn)題,控制領(lǐng)域已催生了大量自適應(yīng)研究成果,能較好地實(shí)現(xiàn)跟蹤控制,如文獻(xiàn)[5-9]及其引用文獻(xiàn)所示。值得注意的是,當(dāng)自適應(yīng)控制方法應(yīng)用于實(shí)際場(chǎng)景時(shí),不僅要求閉環(huán)系統(tǒng)穩(wěn)定,還需實(shí)現(xiàn)指定系統(tǒng)性能的優(yōu)化控制。為此,研究人員提出了間接自適應(yīng)控制器設(shè)計(jì)方法,實(shí)現(xiàn)了基于系統(tǒng)模型的最優(yōu)控制[10]?;跇O限搜索的控制方法對(duì)控制系統(tǒng)的穩(wěn)定性進(jìn)行了分析,并提高了被控系統(tǒng)的性能,具體可參考文獻(xiàn)[11-12]。
強(qiáng)化學(xué)習(xí)是一種通過(guò)反饋未知環(huán)境的交互信息,控制本體行為以達(dá)成最優(yōu)控制的人工智能方法[13-14]。強(qiáng)化學(xué)習(xí)算法已應(yīng)用于反饋控制,可在不精確系統(tǒng)模型下實(shí)現(xiàn)離散時(shí)間系統(tǒng)[13,15]和連續(xù)時(shí)間系統(tǒng)[13,15-22]的最優(yōu)控制。基于文獻(xiàn)[13]的研究成果,文獻(xiàn)[23-24]實(shí)現(xiàn)了線性和非線性離散時(shí)間系統(tǒng)的最優(yōu)跟蹤控制。文獻(xiàn)[25-26]考慮了線性離散系統(tǒng)零和博弈控制。文獻(xiàn)[27]將強(qiáng)化學(xué)習(xí)與輸出調(diào)節(jié)理論相結(jié)合,給出了漸近跟蹤控制方法。基于文獻(xiàn)[28]的狀態(tài)重構(gòu)方法,文獻(xiàn)[29-30]給出了基于輸出跟蹤的強(qiáng)化學(xué)習(xí)方法。文獻(xiàn)[31]研究了非線性離散時(shí)間多智能體最優(yōu)輸出調(diào)節(jié)協(xié)同控制。文獻(xiàn)[32] 提出了基于輸出調(diào)節(jié)的跟蹤控制器輸出反饋設(shè)計(jì)。雖然已有研究考慮了離散系統(tǒng)的跟蹤控制,但多數(shù)不能保證系統(tǒng)狀態(tài)的收斂速度?;隰敯糨敵稣{(diào)節(jié)理論,如何實(shí)現(xiàn)具有指定收斂速度的數(shù)據(jù)驅(qū)動(dòng)跟蹤控制依然有待研究。
基于上述討論,本文將結(jié)合魯棒輸出調(diào)節(jié)和強(qiáng)化學(xué)習(xí)理論,研究具有指定收斂速度的跟蹤控制問(wèn)題。本文將采集離散系統(tǒng)的實(shí)時(shí)數(shù)據(jù),提出數(shù)據(jù)驅(qū)動(dòng)的魯棒跟蹤控制器的設(shè)計(jì)方法,使跟蹤誤差達(dá)到指定收斂速度。與基于線性輸出調(diào)節(jié)理論的已有結(jié)論[33]相比較,本文給出的設(shè)計(jì)方法滿足魯棒輸出調(diào)節(jié)理論,增強(qiáng)了系統(tǒng)的魯棒性。此外,本文提出新的指定收斂速度的設(shè)計(jì)方法,將指定收斂速度融入到數(shù)據(jù)驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)中,最終實(shí)現(xiàn)跟蹤反饋控制。該設(shè)計(jì)過(guò)程不依賴精確系統(tǒng)模型和系統(tǒng)演化時(shí)間。因此,本文所述方法無(wú)需提前辨識(shí)系統(tǒng)輸出矩陣或者實(shí)時(shí)記錄系統(tǒng)時(shí)間,這在算法層面提高了計(jì)算效率,節(jié)約了計(jì)算資源。
本文結(jié)構(gòu)概述如下:第1節(jié)將闡述離散時(shí)間系統(tǒng)的指定收斂速度跟蹤控制問(wèn)題,并覆蓋最優(yōu)控制相關(guān)基礎(chǔ);第2節(jié)將給出離散系統(tǒng)數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)方法,實(shí)現(xiàn)具有指定收斂速度的跟蹤控制;第3節(jié)將概括本文結(jié)論。
假設(shè)1是最優(yōu)控制領(lǐng)域的標(biāo)準(zhǔn)條件[13]。假設(shè)2去除了漸近穩(wěn)定參考系統(tǒng)這一平凡條件[34]。假設(shè)2~4常見(jiàn)于輸出調(diào)節(jié)的相關(guān)文獻(xiàn)中[34]。
本文擬研究的問(wèn)題概括如下:
問(wèn)題1 利用參考系統(tǒng)數(shù)據(jù)與被控系統(tǒng)數(shù)據(jù),而非基于系統(tǒng)的精確模型(A,B,C,D,E,S,R),設(shè)計(jì)輸出調(diào)節(jié)器使得輸出跟蹤誤差ye(k)漸近穩(wěn)定,同時(shí)ye(k)的收斂速度須快于 γ?k,其中γ>1表示由設(shè)計(jì)者指定的跟蹤誤差收斂速度。
為解決問(wèn)題1,根據(jù)系統(tǒng)描述式(1)~(5),首先構(gòu)建跟蹤控制方案。因此考慮式(6)~(7)的基于魯棒輸出調(diào)節(jié)理論的離散時(shí)間動(dòng)態(tài)控制器。
式中:z(k)為由輸出誤差ye(k)驅(qū)動(dòng)的動(dòng)態(tài)信號(hào);(F,G)包含矩陣S的內(nèi)模;矩陣K和H為實(shí)現(xiàn)跟蹤控制的增益矩陣,后文將從系統(tǒng)數(shù)據(jù)中得到。不同于已有研究利用線性輸出調(diào)節(jié)理論[33],本文利用魯棒輸出調(diào)節(jié)理論設(shè)計(jì)跟蹤控制器,其對(duì)不確定系統(tǒng)具有一定魯棒性,如文獻(xiàn)[34]所示。
將動(dòng)態(tài)跟蹤控制器式(7)代入離散系統(tǒng)式(1),得
根據(jù)最優(yōu)控制理論[13],跟蹤問(wèn)題需要滿足2個(gè)條件:(1) 增益矩陣Kˉ使輸出誤差e(k)鎮(zhèn)定到零;(2) 滿足最小化性能指標(biāo)
本節(jié)將利用強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)跟蹤控制,從而解決問(wèn)題1。為此,施加如下行為策略到離散時(shí)間系統(tǒng)式(1)。
式中:k0 與文獻(xiàn)[13, 17]類似,式(31)的條件保證了式(30)具有唯一解。令區(qū)間[k0,kf]上收集的系統(tǒng)數(shù)據(jù)滿足 本節(jié)所述具有指定收斂速度的跟蹤控制器設(shè)計(jì)可總結(jié)為算法1。算法1是基于值迭代的數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)方法,其允許任意初始控制策略。這不同于策略迭代方法需要初始鎮(zhèn)定控制策略。 算法1 具有指定收斂速度的數(shù)據(jù)驅(qū)動(dòng)跟蹤控制算法 本文研究了具有指定收斂速度的離散時(shí)間系統(tǒng)數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)問(wèn)題,提出了基于魯棒輸出調(diào)節(jié)理論的跟蹤控制器設(shè)計(jì)方案。利用系統(tǒng)數(shù)據(jù)與強(qiáng)化學(xué)習(xí)理論實(shí)現(xiàn)了指定收斂速度的跟蹤控制,同時(shí)保證了學(xué)習(xí)得到的控制器具有針對(duì)不確定系統(tǒng)動(dòng)態(tài)的魯棒性。3 總結(jié)