• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      離散非線性系統(tǒng)的事件驅(qū)動(dòng)最優(yōu)控制

      2018-12-19 06:22:00薄迎春
      關(guān)鍵詞:最優(yōu)控制控制策略閾值

      張 欣, 薄迎春

      (中國(guó)石油大學(xué) 信息與控制工程學(xué)院, 山東 青島 266580)

      0 引 言

      因?yàn)樵诮档蛿?shù)據(jù)傳輸次數(shù)和計(jì)算量的同時(shí)還能保證具有較好的控制性能,因此,事件驅(qū)動(dòng)控制近年來(lái)一直是控制領(lǐng)域的研究熱點(diǎn)。與傳統(tǒng)的采樣方法不同,事件驅(qū)動(dòng)提供了一個(gè)只在狀態(tài)采樣點(diǎn)更新的非周期策略。只有當(dāng)事件觸發(fā)條件不被滿足時(shí),對(duì)系統(tǒng)狀態(tài)進(jìn)行采樣, 更新系統(tǒng)的控制率。在2次更新之間采用零階保持器保證控制器的輸出。

      目前,已有許多文獻(xiàn)利用事件驅(qū)動(dòng)控制方案解決不同的控制問(wèn)題[1-5]。文獻(xiàn)[3]研究了線性系統(tǒng)的周期事件驅(qū)動(dòng)控制。文獻(xiàn)[4]將事件驅(qū)動(dòng)控制擴(kuò)展到了離散非線性系統(tǒng)中。Tallaprogada等在文獻(xiàn)[5]中給出了事件驅(qū)動(dòng)方法在非線性跟蹤問(wèn)題上的控制方案。為了在事件驅(qū)動(dòng)控制機(jī)制下研究系統(tǒng)的最優(yōu)控制問(wèn)題, 近期很多學(xué)者開(kāi)始將自適應(yīng)動(dòng)態(tài)規(guī)劃(adaptive dynamic programming, ADP)方法引入到事件驅(qū)動(dòng)控制方案中。ADP作為解決非線性系統(tǒng)最優(yōu)控制問(wèn)題的有效方法得到了廣泛關(guān)注[6-9]。文獻(xiàn)[10]求解了連續(xù)非線性系統(tǒng)的事件驅(qū)動(dòng)自適應(yīng)最優(yōu)控制。S.Jagannathan等[11]研究了不確定連續(xù)非線性系統(tǒng)的事件驅(qū)動(dòng)控制方法。王鼎等在文獻(xiàn)[12]中針對(duì)連續(xù)系統(tǒng)的H∞控制問(wèn)題, 提出了基于混合數(shù)據(jù)和事件驅(qū)動(dòng)的控制方案。文獻(xiàn)[13]研究了離散非線性系統(tǒng)的自適應(yīng)事件驅(qū)動(dòng)控制方法。

      為了降低數(shù)據(jù)傳輸次數(shù)、計(jì)算量和神經(jīng)網(wǎng)絡(luò)權(quán)值的訓(xùn)練量,針對(duì)離散非線性系統(tǒng)的最優(yōu)控制問(wèn)題, 提出了一種基于單網(wǎng)絡(luò)值迭代算法的事件驅(qū)動(dòng)控制方案。充分發(fā)揮了ADP算法、事件驅(qū)動(dòng)控制和神經(jīng)網(wǎng)絡(luò)各自的優(yōu)勢(shì)。與典型的ADP算法相比, 舍棄了用3個(gè)神經(jīng)網(wǎng)絡(luò)分別構(gòu)建模型網(wǎng)、控制網(wǎng)和評(píng)價(jià)網(wǎng)的架構(gòu)。只利用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建評(píng)價(jià)網(wǎng), 繼而省略了模型網(wǎng)和控制網(wǎng)的神經(jīng)網(wǎng)絡(luò)權(quán)值訓(xùn)練量。并且引入事件驅(qū)動(dòng)控制機(jī)制來(lái)有效地降低控制策略的計(jì)算次數(shù)以及系統(tǒng)狀態(tài)和控制器之間的數(shù)據(jù)傳輸。

      1 離散非線性系統(tǒng)的最優(yōu)控制

      考慮如下的離散非線性系統(tǒng):

      xk+1=f(xk)+g(xk)u(xk)

      (1)

      相應(yīng)的性能指標(biāo)函數(shù)為普通二次型形式:

      (2)

      將性能指標(biāo)函數(shù)(2)展開(kāi), 可得

      (3)

      根據(jù)Bellman最優(yōu)性原理[14],最優(yōu)值函數(shù)V*(xk)是時(shí)變的, 并且滿足離散HJB方程:

      (4)

      最優(yōu)控制策略u(píng)*(xk)應(yīng)該保證HJB方程一階導(dǎo)數(shù)為零, 可求得

      2 事件驅(qū)動(dòng)最優(yōu)控制

      2.1 事件驅(qū)動(dòng)機(jī)制

      ‖ek‖≤eT,k∈[ki,ki+1)

      其中:ek=xki-xk為事件驅(qū)動(dòng)誤差;eT為事件驅(qū)動(dòng)閾值。僅當(dāng)‖ek‖>eT時(shí), 觸發(fā)條件不被滿足,事件驅(qū)動(dòng)狀態(tài)誤差被重置為零,同時(shí)更新控制策略μ(xki)?u(xki),并且通過(guò)零階保持器保證在k∈[ki,ki+1]時(shí)間段內(nèi)系統(tǒng)的控制策略不變,直到下一次事件觸發(fā)。因此, 系統(tǒng)狀態(tài)方程(1)重寫為

      xk+1=f(xk)+g(xk)μ(ek+xk),k∈[ki,ki+1)

      (5)

      最優(yōu)狀態(tài)反饋控制策略應(yīng)該表示為

      (6)

      假設(shè)1 存在正數(shù)L, 滿足[13]

      ‖xk+1‖≤L‖ek‖+L‖xk‖

      由于ek+1=xki-xk+1,k∈[ki,ki+1),根據(jù)假設(shè)1,可得

      因此,定義事件驅(qū)動(dòng)閾值為

      其中常數(shù)α∈(0,1]為事件驅(qū)動(dòng)閾值適應(yīng)率,主要用來(lái)調(diào)節(jié)采樣頻率。

      定理1 對(duì)于離散非線性系統(tǒng)(5),相應(yīng)的性能指標(biāo)函數(shù)為(2),當(dāng)采用公式(6)中的事件驅(qū)動(dòng)最優(yōu)控制策略時(shí),則閉環(huán)系統(tǒng)(5)是漸近穩(wěn)定的。

      證明 選取Lyapunov函數(shù)為

      該Lyapunov函數(shù)的一階差分方程為ΔV=V(xk+1)-V(xk)。

      情況1 事件沒(méi)有觸發(fā),?k∈[ki,ki+1)

      對(duì)于任意xk≠0,有ΔV<0,即Lyapunov函數(shù)的一階差分方程是負(fù)定的。

      情況2 事件被觸發(fā),?k=ki+1

      對(duì)于任意xki+1≠0,有ΔV<0。綜合情況1和情況2可得,Lyapunov函數(shù)的一階差分方程是負(fù)定的,根據(jù)Lyapunov理論可得,閉環(huán)系統(tǒng)(5)是漸近穩(wěn)定的。證明完畢。

      2.2 單網(wǎng)絡(luò)值迭代算法

      事件驅(qū)動(dòng)機(jī)制將整個(gè)控制過(guò)程分為了若干部分,控制輸入僅在采樣時(shí)刻更新,其他時(shí)刻保持不變,因此當(dāng)k∈[ki,ki+1)時(shí),控制策略為

      其中V*(x)需要通過(guò)求解離散HJB方程(4)來(lái)獲得。而對(duì)于離散非線性系統(tǒng)來(lái)說(shuō),HJB方程(4)的解析解很難直接求解。因此本文將采用單網(wǎng)絡(luò)值迭代的ADP算法來(lái)求解HJB方程,進(jìn)而獲得事件驅(qū)動(dòng)近似最優(yōu)控制策略。

      單網(wǎng)絡(luò)值迭代算法僅利用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建評(píng)價(jià)網(wǎng),省略了典型ADP算法中的執(zhí)行網(wǎng)。如果系統(tǒng)動(dòng)態(tài)已知,那么模型網(wǎng)也可以省略。典型ADP算法中執(zhí)行網(wǎng)的輸出可以直接通過(guò)公式(6)計(jì)算獲得,系統(tǒng)狀態(tài)可以通過(guò)方程(5)計(jì)算得出。

      采用一個(gè)三層神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建評(píng)價(jià)網(wǎng)

      (7)

      典型ADP值迭代算法是通過(guò)在序列Vj(xk)和序列uj(xk)之間反復(fù)迭代獲得最優(yōu)值函數(shù)和最優(yōu)控制策略。在單網(wǎng)絡(luò)值迭代算法中,序列Vj(xk)為評(píng)價(jià)網(wǎng)輸出

      其中:j代表迭代次數(shù);k表示時(shí)間步,xk表示k時(shí)刻系統(tǒng)的狀態(tài);uj(xk)表示k時(shí)刻第j次迭代的控制策略;Vj(xk)表示k時(shí)刻第j次迭代的值函數(shù)。當(dāng)?shù)螖?shù)j→∞時(shí),序列Vj(xk)收斂到離散HJB方程(4)的解,即V∞(xk)=V*(xk),序列uj(xk)收斂到最優(yōu)的控制策略,即u∞(xk)=u*(xk)[15]。

      定義評(píng)價(jià)網(wǎng)的訓(xùn)練誤差為

      其中Δεc(k)=εc(k+1)-εck。

      接下來(lái),證明評(píng)價(jià)網(wǎng)權(quán)值估計(jì)誤差的收斂性。在證明開(kāi)始之前,給出下列假設(shè)條件。

      假設(shè)2 1) 評(píng)價(jià)網(wǎng)激活函數(shù)有界,φcm≤‖φc(·)‖≤φcM;

      2) Δεc(k)具有上界,滿足‖Δεc(k)‖≤εcM。

      定理2 評(píng)價(jià)網(wǎng)的權(quán)值更新規(guī)則為式(8)和式(9),如果下列不等式滿足

      證明 選取Lyapunov函數(shù)為

      根據(jù)柯西不等式和公式(10),Lyapunov函數(shù)的一階差分為

      (13)

      基于上述事件驅(qū)動(dòng)機(jī)制和單網(wǎng)絡(luò)值迭代算法,可以獲得離散非線性系統(tǒng)的近似最優(yōu)控制策略為

      (14)

      該單網(wǎng)絡(luò)值迭代事件驅(qū)動(dòng)控制方案具體的執(zhí)行步驟如下:

      步驟2 令j=0,V0(xk)=0,計(jì)算u0(xk);

      步驟3j=j+1;

      步驟5 如果‖Vj+1(xk)-Vj(xk)‖<ξ或者j>jmax,跳轉(zhuǎn)步驟6,否則跳轉(zhuǎn)步驟3;

      步驟6 令i=0,k=0;

      步驟7 計(jì)算事件觸發(fā)誤差ek和閾值eT;

      步驟8 判斷‖ek‖是否大于eT, 如果大于執(zhí)行步驟9, 如果小于等于跳轉(zhuǎn)步驟10;

      步驟9 令i=i+1,xki=xk,ek=0,由公式(14)計(jì)算事件驅(qū)動(dòng)最優(yōu)控制策略u(píng)*(k);

      步驟10 由公式(5)計(jì)算系統(tǒng)狀態(tài)xk+1;

      步驟11 如果‖xk+1‖≤或者i>imax,跳轉(zhuǎn)步驟12,否則跳轉(zhuǎn)步驟7;

      步驟12 算法結(jié)束。

      3 仿真驗(yàn)證

      評(píng)價(jià)網(wǎng)訓(xùn)練了1 500次,前500次中加入了持續(xù)激勵(lì)。圖2為事件驅(qū)動(dòng)誤差的范數(shù)‖ek‖和閾值eT軌跡。圖3展示了本文所提事件驅(qū)動(dòng)ADP算法(ET-ADP)與典型ADP算法系統(tǒng)狀態(tài)的對(duì)比情況。圖4為近似最優(yōu)控制輸入軌跡。

      仿真結(jié)果表明,本文所提的ET-ADP算法需要經(jīng)過(guò)619步達(dá)到ò=10-5的穩(wěn)態(tài)精度,但事件觸發(fā)次數(shù)僅為81次,與傳統(tǒng)的ADP算法相比,大大地降低了數(shù)據(jù)傳輸、控制輸入的計(jì)算和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練量,同時(shí)保持了良好的控制效果。

      圖1 評(píng)價(jià)網(wǎng)絡(luò)權(quán)值收斂軌跡

      圖2 事件驅(qū)動(dòng)誤差和閾值軌跡Fig.2 Trajectories of the ET error and threshold

      圖3 系統(tǒng)狀態(tài)軌跡Fig.3 Trajectories of the system states

      圖4 控制輸入軌跡Fig.4 Trajectories of the control input

      4 結(jié) 論

      本文研究了離散非線性系統(tǒng)的近似最優(yōu)控制問(wèn)題。結(jié)合ADP算法、事件驅(qū)動(dòng)控制和神經(jīng)網(wǎng)絡(luò)思想,提出了一種基于單網(wǎng)絡(luò)值迭代算法的事件驅(qū)動(dòng)控制方案。首先,定義了新型的事件驅(qū)動(dòng)閾值;然后,采用單網(wǎng)絡(luò)值迭代算法,僅利用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建評(píng)價(jià)網(wǎng),利用Lyapunov理論證明了閉環(huán)系統(tǒng)的穩(wěn)定性和評(píng)價(jià)網(wǎng)權(quán)值的收斂性;最后,將該方法應(yīng)用到非線性系統(tǒng)的控制仿真實(shí)驗(yàn)中。結(jié)果表明所提方法有效,并成功地降低了數(shù)據(jù)傳輸次數(shù)、計(jì)算量以及神經(jīng)網(wǎng)絡(luò)權(quán)值的訓(xùn)練量。

      猜你喜歡
      最優(yōu)控制控制策略閾值
      條件平均場(chǎng)隨機(jī)微分方程的最優(yōu)控制問(wèn)題
      考慮虛擬慣性的VSC-MTDC改進(jìn)下垂控制策略
      能源工程(2020年6期)2021-01-26 00:55:22
      小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
      帶跳躍平均場(chǎng)倒向隨機(jī)微分方程的線性二次最優(yōu)控制
      工程造價(jià)控制策略
      山東冶金(2019年3期)2019-07-10 00:54:04
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      現(xiàn)代企業(yè)會(huì)計(jì)的內(nèi)部控制策略探討
      Timoshenko梁的邊界最優(yōu)控制
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      室內(nèi)表面平均氡析出率閾值探討
      班玛县| 弥勒县| 织金县| 章丘市| 布尔津县| 开化县| 惠东县| 榕江县| 裕民县| 利津县| 苏尼特右旗| 永和县| 庆元县| 遂昌县| 布尔津县| 夏河县| 竹山县| 罗平县| 乌鲁木齐县| 海淀区| 东至县| 崇文区| 三门峡市| 元江| 原平市| 成安县| 大厂| 安化县| 樟树市| 北安市| 卢龙县| 沙坪坝区| 车险| 江都市| 修文县| 双城市| 芜湖县| 莱西市| 宁化县| 屯门区| 赫章县|