• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于零和博弈的級(jí)聯(lián)非線性系統(tǒng)的跟蹤控制

    2020-07-14 06:25:02楊雪靜李慶奎易軍凱
    關(guān)鍵詞:反推級(jí)聯(lián)軌跡

    楊雪靜,李慶奎,易軍凱

    (北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192)

    0 引言

    近年來(lái),非線性系統(tǒng)的跟蹤問(wèn)題和最優(yōu)控制問(wèn)題作為控制理論的研究熱點(diǎn)得到研究者的廣泛關(guān)注[1]。非線性系統(tǒng)的跟蹤問(wèn)題主要有狀態(tài)跟蹤期望軌跡和輸出跟蹤期望軌跡兩種;而最優(yōu)控制就是在保證系統(tǒng)穩(wěn)定的前提下找到一個(gè)控制策略,使得所定義的性能指標(biāo)最小[2]。目前為止雖然對(duì)非線性系統(tǒng)的輸出跟蹤問(wèn)題的研究成果已有很多[3],但是對(duì)最優(yōu)追蹤軌跡的研究大多是針對(duì)仿射非線性系統(tǒng),而級(jí)聯(lián)非線性系統(tǒng)模型在控制領(lǐng)域廣泛存在,如:供應(yīng)鏈、多智能體等,研究級(jí)聯(lián)非線性系統(tǒng)的輸出以最優(yōu)方式跟蹤期望軌跡有重要意義。

    對(duì)于存在不確定干擾的級(jí)聯(lián)非線性系統(tǒng)的最優(yōu)跟蹤控制,H∞控制提供了一個(gè)有力的工具減少干擾的影響[4]。根據(jù)博弈論的思想,普通H∞控制器的設(shè)計(jì)可視為控制和干擾的博弈,即控制器在最壞干擾下最小化性能指標(biāo)達(dá)到最優(yōu)控制。非線性系統(tǒng)博弈產(chǎn)生的HJI(Hamilton-Jacobi-Isaacs)方程是非線性偏微分方程,幾乎不可能直接求解。ADP(adaptive dynamic programming)技術(shù)將最優(yōu)控制、自適應(yīng)控制和強(qiáng)化學(xué)習(xí)理論融合,利用函數(shù)近似結(jié)構(gòu)估計(jì)值函數(shù),近似求解HJI方程[5];利用函數(shù)近似結(jié)構(gòu)更新值函數(shù)、控制策略和干擾策略,用神經(jīng)網(wǎng)絡(luò)形式表示為評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)、控制神經(jīng)網(wǎng)絡(luò)和干擾神經(jīng)網(wǎng)絡(luò)。需要注意的是,ADP 技術(shù)普遍適用于仿射非線性系統(tǒng)[6],并不直接適用于級(jí)聯(lián)非線性系統(tǒng)。為了得到級(jí)聯(lián)非線性系統(tǒng)的最優(yōu)跟蹤控制,Zargarzadeh等[7]引入了自適應(yīng)反推技術(shù),基于狀態(tài)反饋和輸出反饋設(shè)計(jì)了沒(méi)有干擾且系統(tǒng)內(nèi)部動(dòng)態(tài)未知時(shí)非線性連續(xù)時(shí)間系統(tǒng)的控制器,使系統(tǒng)輸出以最優(yōu)方式跟蹤期望軌跡。Vamvoudakis等[8]提出了同步零和博弈策略迭代方法,即評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)、控制神經(jīng)網(wǎng)絡(luò)和干擾神經(jīng)網(wǎng)絡(luò)的同時(shí)更新。本文與已有文獻(xiàn)對(duì)級(jí)聯(lián)非線性系統(tǒng)最優(yōu)跟蹤控制的研究不同,在本文中將干擾考慮在內(nèi),同步構(gòu)建了評(píng)價(jià)網(wǎng)絡(luò)、控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò),采用反推技術(shù)和同步零和博弈策略迭代結(jié)合的方法設(shè)計(jì)了級(jí)聯(lián)非線性系統(tǒng)的最優(yōu)跟蹤控制器。

    1 問(wèn)題描述與建模

    考慮如下一類(lèi)帶有不確定干擾的級(jí)聯(lián)非線性系統(tǒng)

    (1)

    本文的控制目標(biāo)是設(shè)計(jì)一個(gè)控制器u,使系統(tǒng)輸出y以最優(yōu)方式跟蹤期望軌跡yd,并保證由式(1)給出的閉環(huán)系統(tǒng)中的所有信號(hào)有界。

    2 前饋控制器設(shè)計(jì)

    利用反推方法設(shè)計(jì)前饋控制器,將級(jí)聯(lián)系統(tǒng)的跟蹤問(wèn)題轉(zhuǎn)化為仿射跟蹤誤差系統(tǒng)的最優(yōu)調(diào)節(jié)問(wèn)題。反推設(shè)計(jì)過(guò)程描述如下:

    步驟1系統(tǒng)(1)誤差的一階動(dòng)態(tài)可以寫(xiě)為:

    g1(x1)(x2-x2d)+k1(x1)d1=h1(e1)+f1(x1d)+

    (2)

    (3)

    (4)

    步驟i(2≤i≤n-1) 系統(tǒng)(1)誤差的i階動(dòng)態(tài)可以寫(xiě)為

    (5)

    (6)

    (7)

    步驟n系統(tǒng)(1)誤差的n階動(dòng)態(tài)可以寫(xiě)為

    (8)

    (9)

    (10)

    式(10)可寫(xiě)為

    (11)

    整個(gè)控制方案設(shè)計(jì)為U=Ua+U*。觀察式(11)可知,要保證閉環(huán)系統(tǒng)的穩(wěn)定性,不但要考慮前饋控制器的設(shè)計(jì),還要考慮由最優(yōu)反饋控制和干擾組成的微分博弈去鎮(zhèn)定下列仿射形式的系統(tǒng):

    (12)

    由最優(yōu)反饋控制和干擾組成的微分博弈旨在鎮(zhèn)定系統(tǒng)(12)且保證閉環(huán)系統(tǒng)中的所有信號(hào)有界。

    3 基于ADP博弈的控制器設(shè)計(jì)

    3.1 兩人零和微分博弈問(wèn)題

    系統(tǒng)(12)可由式(13)描述:

    (13)

    式中:

    X=[x1,x2,…,xn]T

    H∞控制就是找到一個(gè)控制策略使得如下性能指標(biāo):

    (14)

    對(duì)所有的d∈L2[0,∞)和E(0)=0都是非正的。式中:Q(E)≥0是一個(gè)罰函數(shù);R=RT>0;當(dāng)γ≥γ*≥0,有控制策略存在時(shí),就稱(chēng)系統(tǒng)具有L2增益小于等于γ,γ*是該問(wèn)題有解的最小值。

    最優(yōu)反饋控制和干擾博弈的目標(biāo)是找到零和博弈的納什均衡點(diǎn)(U*,d*),在此情形下,由式(15)所示的值函數(shù)是最優(yōu)反饋控制U*所能得到的最小值以及干擾d*所能得到的最大值。

    (15)

    將具有相關(guān)容許控制U和干擾d的Hamiltonian 函數(shù)定義為

    (16)

    (17)

    當(dāng)納什均衡條件式(18)成立時(shí),

    (18)

    兩方零和博弈有唯一解,即存在鞍點(diǎn)(U*,d*):

    (19)

    將式(19)代入式(16),得HJI方程為

    V*(0)=0

    (20)

    為了得到式(19)的鞍點(diǎn)解,必須求解式(20)的HJI方程。HJI方程是一個(gè)偏微分方程,用解析法很難得到。因此,本文采用ADP方法求解。

    3.2 基于ADP的策略迭代算法

    本文采用基于ADP的策略迭代算法,在迭代過(guò)程中利用ADP使用3個(gè)神經(jīng)網(wǎng)絡(luò)(評(píng)價(jià)網(wǎng)絡(luò)、控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò))分別近似值函數(shù)、控制策略和干擾策略。應(yīng)用ADP求解HJI方程之前,引入下面的引理。

    (21)

    那么下面的關(guān)系成立:

    (22)

    假設(shè)閉環(huán)動(dòng)態(tài)系統(tǒng)以系統(tǒng)狀態(tài)函數(shù)為界:

    (23)

    根據(jù)Weierstrass高階近似定理,存在完全獨(dú)立的基礎(chǔ)集φi(E),使得值函數(shù)V(E)及其梯度一致近似,用神經(jīng)網(wǎng)絡(luò)表示為

    (24)

    (25)

    式中:Wc∈L(L是神經(jīng)元數(shù))和σ(E)∈L(σ(E)=[φ1(E),φ2(E),…,φL(E)]T)分別表示評(píng)價(jià)網(wǎng)絡(luò)的理想權(quán)值和激活函數(shù);εc(E)為神經(jīng)網(wǎng)絡(luò)近似誤差。當(dāng)L→∞時(shí),εc(E)→0。

    將式(25)代入式(16), Hamiltonian函數(shù)可化為

    (H(E)+G(X)U+K(X)d)+εH=0

    (26)

    式中殘差為

    (27)

    將式(25)代入式(19),鞍點(diǎn)解(U*,d*)可寫(xiě)為

    (28)

    HJI方程為

    (29)

    值函數(shù)近似產(chǎn)生的殘差εHJI為

    (30)

    (31)

    Hamiltonian函數(shù)為

    (32)

    (33)

    (34)

    權(quán)值估計(jì)誤差為

    (35)

    根據(jù)式(29)、式(32)和式(34),得到評(píng)價(jià)網(wǎng)絡(luò)的估計(jì)誤差動(dòng)態(tài)為

    (36)

    利用最小二乘法,得到式(26)的解為Wc,控制策略和干擾策略分別為

    (37)

    (38)

    (39)

    (40)

    控制網(wǎng)絡(luò)估計(jì)誤差和干擾網(wǎng)絡(luò)估計(jì)誤差為

    (41)

    (42)

    (43)

    控制網(wǎng)絡(luò)的調(diào)優(yōu)律設(shè)計(jì)為

    (44)

    干擾網(wǎng)絡(luò)的調(diào)優(yōu)律設(shè)計(jì)為

    (45)

    式中:

    4 穩(wěn)定性分析

    根據(jù)定理1中設(shè)計(jì)的評(píng)價(jià)網(wǎng)絡(luò)、控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò)的調(diào)優(yōu)規(guī)律,基于Lyapunov函數(shù)證明了通過(guò)參數(shù)的調(diào)整可以保證3個(gè)神經(jīng)網(wǎng)絡(luò)權(quán)值的收斂性和閉環(huán)系統(tǒng)的穩(wěn)定性。

    選擇Lyapunov函數(shù)為

    (46)

    對(duì)t求導(dǎo)可得

    (47)

    將式(11)代入,得到

    (48)

    將評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)誤差式(35)及其調(diào)優(yōu)律式(43)和控制網(wǎng)絡(luò)的調(diào)優(yōu)律式(44)、干擾網(wǎng)絡(luò)的調(diào)優(yōu)律式(45)結(jié)合,得到

    (49)

    將式(49)和評(píng)價(jià)網(wǎng)絡(luò)誤差式(35)、控制網(wǎng)絡(luò)誤差式(41)及干擾網(wǎng)絡(luò)誤差式(42)代入,得到

    (50)

    將式(50)寫(xiě)為式(51),得到定理1中控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò)的調(diào)優(yōu)律為

    (51)

    注意到

    (52)

    將控制網(wǎng)絡(luò)調(diào)優(yōu)律式(44)、干擾網(wǎng)絡(luò)調(diào)優(yōu)律式(45)和式(52)代入式(51),得

    (53)

    (54)

    式中:T和M分別如式(55)和式(60)所示。

    (55)

    選擇參數(shù)F1、F2、F3和F4使得M是正定矩陣。由式(54)可得

    (56)

    (57)

    式中λmin(M)為M的最小特征值。

    根據(jù)Young’s不等式和式(23),得到

    (58)

    (59)

    進(jìn)而,式(59)可寫(xiě)為

    (60)

    (61)

    (62)

    (63)

    5 數(shù)值仿真

    為了驗(yàn)證本文所提方法的有效性及輸出跟蹤效果,利用Matlab軟件進(jìn)行了仿真研究。用于仿真的非線性系統(tǒng)模型為

    (64)

    在反推技術(shù)和博弈理論結(jié)合下,系統(tǒng)輸出y(t)跟蹤期望軌跡yd(t)的軌跡和跟蹤誤差y(t)-yd(t)分別如圖1和圖2所示。系統(tǒng)的控制輸入軌跡和干擾輸入軌跡分別如圖3和圖4所示。評(píng)價(jià)網(wǎng)絡(luò)權(quán)值的變化如圖5所示。

    當(dāng)僅用反推方法設(shè)計(jì)非線性系統(tǒng)式(64)的控制器時(shí),系統(tǒng)輸出y(t)跟蹤期望軌跡yd(t)的軌跡和跟蹤誤差y(t)-yd(t)分別如圖6和圖7所示。系統(tǒng)的控制輸入軌跡和干擾輸入軌跡分別如圖8和圖9所示。

    從圖1和圖6可以看出,在本文所提的反推技術(shù)和博弈理論結(jié)合下設(shè)計(jì)的控制器的跟蹤效果更好。從圖2和圖7可以看出,在本文所提方法下系統(tǒng)的跟蹤誤差更小。從圖8和圖9可以看出干擾不能被由反推方法設(shè)計(jì)的控制器很好地抑制,而從圖3和圖4可以看出在本文所提方法下控制和干擾相互抑制,最終使得系統(tǒng)穩(wěn)定。由此可見(jiàn),在本文所提方法下設(shè)計(jì)的控制器,在系統(tǒng)穩(wěn)定的同時(shí)系統(tǒng)輸出跟蹤期望軌跡的誤差更小,跟蹤效果更好。

    6 結(jié)束語(yǔ)

    對(duì)于一類(lèi)有不確定干擾的級(jí)聯(lián)非線性系統(tǒng)的輸出跟蹤控制問(wèn)題,與以往方法不同,在本文中將控制和干擾視為零和博弈的雙方,在跟蹤過(guò)程中將跟蹤軌跡的最優(yōu)性考慮在內(nèi),利用反推方法將嚴(yán)格反饋系統(tǒng)轉(zhuǎn)化成仿射非線性系統(tǒng),然后使用ADP技術(shù)實(shí)時(shí)在線同步更新評(píng)價(jià)網(wǎng)絡(luò)、控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò)的權(quán)值,得到了相應(yīng)HJI方程的納什均衡解。仿真結(jié)果證明了本文所提方法的有效性。在實(shí)際的工程領(lǐng)域中,系統(tǒng)的狀態(tài)函數(shù)不是完全可知的,將本文所提方法應(yīng)用于狀態(tài)函數(shù)未知的級(jí)聯(lián)非線性系統(tǒng)是進(jìn)一步研究的方向。

    猜你喜歡
    反推級(jí)聯(lián)軌跡
    737NG飛機(jī)反推系統(tǒng)故障淺析
    軌跡
    軌跡
    737NG飛機(jī)反推燈亮故障分析
    軌跡
    進(jìn)化的軌跡(一)——進(jìn)化,無(wú)盡的適應(yīng)
    級(jí)聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
    電子制作(2016年15期)2017-01-15 13:39:09
    二元機(jī)翼顫振的指令濾波反推自適應(yīng)約束控制
    基于級(jí)聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
    一種基于開(kāi)源軟件的OD反推求解算法
    林芝县| 宜宾县| 桃园市| 土默特右旗| 建水县| 民乐县| 阳信县| 汉源县| 陇西县| 临桂县| 枣庄市| 周口市| 长岛县| 泰来县| 双柏县| 锦屏县| 同德县| 巫溪县| 德昌县| 华阴市| 黄大仙区| 双城市| 三门峡市| 大余县| 军事| 平谷区| 福鼎市| 眉山市| 颍上县| 天柱县| 多伦县| 县级市| 邳州市| 富顺县| 博湖县| 东兰县| 阜新市| 辉县市| 都江堰市| 志丹县| 新干县|