基于事件觸發(fā)策略的連續(xù)多智能體系統(tǒng)一致性綜述

2020-07-21 07:17:28羅毅平姚月杰

湖南工程學院學報(自然科學版) 2020年2期

肖星，羅毅平，蔡聰，姚月杰

（湖南工程學院電氣與信息工程學院，湘潭 411104）

0 引言

多智能體系統(tǒng)是人工智能領(lǐng)域的一項重要內(nèi)容，是屬于計算機、軍事、通信與控制等多個領(lǐng)域的交叉學科，自然界和社會中的很多復雜系統(tǒng)都可以看作是多智能體系統(tǒng)［1］.研究多智能體系統(tǒng)，一方面可以加深人們對大自然現(xiàn)象的了解和認識，另一方面可以為各行各業(yè)的發(fā)展奠定理論基礎(chǔ).目前，多智能體系統(tǒng)在實際中有著非常廣泛的應(yīng)用，例如編隊控制［2］、智能交通［3］、傳感器網(wǎng)絡(luò)［4］和航天器的交會對接問題.多智能體系統(tǒng)已經(jīng)成為一種對現(xiàn)實中的復雜系統(tǒng)進行分析、設(shè)計和建模的有效方法和工具.通過多智能體間協(xié)作機制的引入，一個大規(guī)模的復雜任務(wù)便能由多個簡單的智能體完成，與高度智能的個體相比，這可以更大限度地節(jié)省成本，減少資源浪費.

其中，一致性問題是多智能體系統(tǒng)中每個智能體之間進行相互作用所涌現(xiàn)的動力學行為，是研究多智能體系統(tǒng)合作與協(xié)調(diào)控制的關(guān)鍵［5］.隨著經(jīng)濟與科技的發(fā)展，無人機群控制、機器人群編隊以及無線傳感網(wǎng)控制等研究領(lǐng)域，都是基于多智能體系統(tǒng)一致性的概念來進行控制的.對多智能體系統(tǒng)一致性控制的研究熱度不斷增長，其影響力也越來越大，已經(jīng)成為控制領(lǐng)域的研究熱點.

在已有的一些文獻中，多智能體系統(tǒng)內(nèi)部的信息交互方式大多都依賴于各個智能體狀態(tài)信息的連續(xù)交換.隨著數(shù)字化網(wǎng)絡(luò)的不斷發(fā)展，網(wǎng)絡(luò)帶寬和網(wǎng)絡(luò)節(jié)點也不斷增長，從節(jié)省資源的角度來看，時間觸發(fā)的采樣方式有一定的局限.學者們提出用事件觸發(fā)策略的方式以節(jié)約通信資源.事件觸發(fā)策略在減少不必要的采樣和傳輸方面具有優(yōu)越性，越來越多的研究人員采用事件觸發(fā)策略來解決多智能體系統(tǒng)的一致性問題［6-7］.到目前為止，事件觸發(fā)策略的研究已經(jīng)取得一定的成果.例如，Jian Liu［8］研究了不確定非線性多智能體系統(tǒng)的固定時間事件觸發(fā)一致性問題，可以讓智能體間不需要持續(xù)通信就能實現(xiàn)一致.接下來，本文將從多個角度對多智能體系統(tǒng)事件觸發(fā)一致性問題進行概述.

1 一致性簡介

多智能體系統(tǒng)一致性，即隨著時間變化，多智能體系統(tǒng)中的所有智能體在相互的耦合作用之下，最終的狀態(tài)（如位置、速度等）趨向于一致.已有文獻主要采用三種形式研究不同的多智能體系統(tǒng)的一致性問題.

對于無領(lǐng)導者的多智能體系統(tǒng)，一般在控制協(xié)議作用下，使得智能體i和智能體j的狀態(tài)最終達到同一運動狀態(tài)［9］，這種一致性方式具有普適性，同時適用于有向連通圖和無向連通圖.具體可以描述為‖xi(t )-xj(t)‖=0,?i,j=1,···,N，其中，xi(t)表示智能體i的狀態(tài).

文獻［10］中的平均一致性可以使多智能體系統(tǒng)中的每個智能體在控制協(xié)議作用下的最終狀態(tài)都可以達到Ave( )x()0.平均一致性的最終狀態(tài)與所有智能體狀態(tài)的初始值都有關(guān)，是一個相對固定的數(shù)值，但是并不是所有的多智能體系統(tǒng)都能夠?qū)崿F(xiàn)平均一致性.平均一致性只適用于無向連通圖或強連通平衡圖.平均一致性［10］的表達形式為

對于有領(lǐng)導者的多智能體系統(tǒng)，如文獻［11］所述，除領(lǐng)導者外的其他智能體的最終狀態(tài)在一致性控制協(xié)議作用下均與領(lǐng)導者保持一致.領(lǐng)導者在領(lǐng)導跟隨系統(tǒng)中地位非常重要，其他智能體需要與領(lǐng)導者保持通信.表示為‖xi(t )-x0(t)‖ =0,?i=1,···,N，其中，x0(t)表示智能體領(lǐng)導者的狀態(tài).領(lǐng)導跟隨系統(tǒng)其實就是無領(lǐng)導者系統(tǒng)中xi(t)與xj(t)達到一致的特殊情況.

2 主要研究內(nèi)容

多智能體系統(tǒng)能夠?qū)崿F(xiàn)一致的前提是智能體具有動力學行為，智能體之間存在通信拓撲結(jié)構(gòu)，能夠進行信息交換，并且存在一致性協(xié)議.更進一步地，事件觸發(fā)策略的提出能夠有效的減少控制器的更新和資源損耗.本小節(jié)將從動力學行為、控制協(xié)議以及事件觸發(fā)條件等角度出發(fā)，分析現(xiàn)階段連續(xù)多智能體系統(tǒng)的事件觸發(fā)一致性研究進展.

2.1 動力學角度

現(xiàn)如今，由于多智能體在人工智能及機器人等領(lǐng)域的應(yīng)用越來越深入，對多智能體系統(tǒng)一致性的研究熱度只增不減，而根據(jù)不同的實際情況，建立的動力學模型也越來越豐富.

2.1.1 不同階的多智能體模型

已經(jīng)有很多文獻針對各種各樣的實際系統(tǒng)提出了合適的多智能體系統(tǒng)模型，例如一階、二階和高階系統(tǒng)模型.一階系統(tǒng)模型相對簡單，計算簡便，處理復雜問題的時候一般會先從一階系統(tǒng)入手，然后推廣至高階系統(tǒng)；二階系統(tǒng)模型在工程應(yīng)用和生活中比較普遍，應(yīng)用性更廣；而高階系統(tǒng)相對復雜，已有文獻一般將高階系統(tǒng)轉(zhuǎn)化為二階系統(tǒng)進行處理.在文獻［12］［13］［14］分別提出了這三種動力學行為的典型表示形式.

2.1.2 含干擾的多智能體模型

在實際的系統(tǒng)中，總是會受到噪聲和通信時滯等干擾的影響，需要使用更加復雜的模型解決問題.Yang Liu［15］采用了一種含時滯的非線性模型研究有限時間的多智能體系統(tǒng)保性能問題，其智能體i的動力學行為表示如下：

其中，i=1，2，···，N，xi(t)∈Rn表示系統(tǒng)的狀態(tài)；xi(t -d)∈Rn表示節(jié)點狀態(tài)時滯；ui(t)∈Rm表示控制輸入；f(xi(t))表示智能體i的非線性函數(shù).

同時，實際系統(tǒng)中可能會出現(xiàn)一些不確定的干擾因素，Yiwen Qi［16］采用了一種含有不確定項的多智能體系統(tǒng)模型研究多智能體系統(tǒng)的H∞控制問題，其智能體i的動力學行為表示如下：

其中，i=1,2,···,N，A∈ Rn×n和 B ∈ Rn×m表示適當維數(shù)的已知常數(shù)矩陣，ΔA和ΔB是適當維數(shù)的不確定矩陣.

對于非線性系統(tǒng)和不確定系統(tǒng)，文獻［15］［16］分別對非線性項和不確定項進行了轉(zhuǎn)化處理，很好地對實際系統(tǒng)中的干擾因素進行了模擬處理，但是其轉(zhuǎn)化過程并不是完全等價的，不能完全排除干擾因素的影響.

2.2 一致性控制協(xié)議

2.2.1 連續(xù)時間控制協(xié)議

至今，已經(jīng)有很多的文獻對多智能體系統(tǒng)的連續(xù)控制協(xié)議進行了研究，設(shè)計的是一種經(jīng)典的分布式控制協(xié)議［17-18］，即

其中，K表示狀態(tài)反饋控制增益.

2.2.2 事件觸發(fā)控制協(xié)議

上述的連續(xù)時間控制協(xié)議中，每個智能體需要不斷的獲取其鄰居的當前狀態(tài)，控制協(xié)議需要不斷更新，需要消耗大量的能量和資源.文獻［19］［20］提出一種新的事件觸發(fā)控制協(xié)議，能夠有效的減少不必要的信息傳輸和控制協(xié)議更新.

xi(tik)是智能體i在事件觸發(fā)時刻tik的狀態(tài).

文獻［17］-［20］中的分布式協(xié)議比傳統(tǒng)的集中式控制協(xié)議控制效果更好，每個智能體的控制協(xié)議都不一樣.而事件觸發(fā)控制協(xié)議［19-20］相比連續(xù)時間控制協(xié)議［17-18］在節(jié)省能量和資源方面存在一定的優(yōu)勢，是多智能體系統(tǒng)一致性研究的熱點問題.

2.3 事件觸發(fā)策略

為了便于描述，首先定義

2.3.1 集中式事件觸發(fā)策略（Centralized ETS）

文獻［16］［21］給出的是一種集中式的事件觸發(fā)通信方案，為多智能體系統(tǒng)中的所有智能體設(shè)計了一個通用的事件觸發(fā)條件，可以確定智能體何時與鄰居進行信息交換.集中式事件觸發(fā)策略的特點是需要多智能體系統(tǒng)中所有智能體的信息來確定下一個觸發(fā)瞬間.與時間觸發(fā)方案相比，在該事件觸發(fā)策略下，可以顯著降低智能體的通信頻率.集中式事件觸發(fā)策略為：

其中，智能體i當前時刻與最后事件時刻之間的估計誤差為ei(t)=xi(tk)-xi(t),?t∈[tk, tk+1).M,N是合適維數(shù)的正定對稱矩陣；L表示拉普拉斯矩陣.ρ∈[0,1]是給定的事件觸發(fā)策略的一個正向閾值.

2.3.2 集群式事件觸發(fā)策略（Clustered ETS）

當網(wǎng)絡(luò)規(guī)模較大時，集中式事件觸發(fā)策略難以應(yīng)用，采用一種新的集群式事件觸發(fā)策略.在文獻［22］［23］中，集群式事件觸發(fā)策略的特點是它不再需要收集所有智能體的狀態(tài)來確定下一個觸發(fā)時刻.一般把智能體劃分成不同的集群，只有同一集群中的智能體共享一個公共事件觸發(fā)條件，同一集群中智能體的觸發(fā)時刻是相同的.但是，不同集群中的智能體的觸發(fā)時刻可能不同.首先，利用初等矩陣U對多智能體系統(tǒng)矩陣進行排序：

將圖劃分成了κ個連通分量.且χσ(t)=Uxσ(t)表示集群智能體的狀態(tài).

其中，智能體i當前時刻與最后事件時刻之間的估計誤差為ei(t)=χi()-χi(t),?t∈ [).ρσ∈[0 ,1]是給定的事件觸發(fā)策略的一個正向閾值.

2.3.3 分布式事件觸發(fā)策略（Distributed ETS）

相比較而言，分布式事件觸發(fā)策略不需要收集所有智能體的狀態(tài)信息，能夠更好地節(jié)省通信資源.從文獻［24］［25］可以看出，分布式事件觸發(fā)策略具有如下特點：系統(tǒng)中的每個智能體都能夠獨立地確定自己的行為，并且其事件觸發(fā)條件僅使用本地信息進行設(shè)計，每一個智能體都有它自己的事件觸發(fā)時間序列.文獻［24］［25］提出一種簡單的分布式事件觸發(fā)策略：

注意到文獻［24］［25］提出的事件觸發(fā)條件能夠減少控制器更新的頻率，其重點是事件觸發(fā)采樣，仍然需要智能體之間進行連續(xù)通信.與文獻［8］相比，文獻［24］［25］的事件觸發(fā)函數(shù)較保守，需要的采樣時間以及觸發(fā)次數(shù)更少.當然，文獻［8］中提出的間斷通信下的事件觸發(fā)函數(shù)能夠很好克服連續(xù)通信的局限，減少通信資源的浪費，將成為未來研究的重點.

3 尚未解決的問題

目前，對多智能體系統(tǒng)事件觸發(fā)一致性的研究仍然存在以下兩個問題.

3.1 優(yōu)化問題

上述分布式事件觸發(fā)策略在文獻［24］［25］中，每個智能體都有自己的事件觸發(fā)時間序列，能夠有效地減少不必要的采樣和信息傳輸，提高資源利用率.然而，只是單純的保證系統(tǒng)穩(wěn)定性已經(jīng)很難滿足實際需求，系統(tǒng)性能優(yōu)化的問題尚待解決.如何有效地保證控制效果，使系統(tǒng)的保性能函數(shù)滿足要求將成為學者們以后的研究重點.如何在理論上明確揭示約束目標函數(shù)與資源利用之間的關(guān)系，在確保事件觸發(fā)策略合理性的前提下，實現(xiàn)多智能體系統(tǒng)的一致性優(yōu)化問題，是需要著重考慮的一個問題.

據(jù)了解，許多文獻中所得到的多智能體系統(tǒng)一致性的性能優(yōu)化的結(jié)果往往是次優(yōu)的［26］，僅僅只能夠保證其滿足某一特定的性能指標；在實際需求中，工程應(yīng)用上往往希望系統(tǒng)性能達到最優(yōu)或者是接近最優(yōu).從本質(zhì)上講，在多智能體優(yōu)化問題中，明確揭示約束目標函數(shù)與資源利用之間的關(guān)系具有挑戰(zhàn)性，吸引了大量的研究者.這些年，學者們紛紛提出一些優(yōu)化方法來解決多智能體系統(tǒng)的最優(yōu)化問題，但是這些方法［27-28］一般只是針對某一方面提出，還有很多問題尚未考慮.例如，在確保系統(tǒng)能夠?qū)崿F(xiàn)一致的情況下，怎樣通過減少采樣次數(shù)、優(yōu)化性能使其達到最優(yōu)一致.此外，基于事件觸發(fā)策略作用下的二階或高階多智能體系統(tǒng)以及網(wǎng)絡(luò)攻擊下的多智能體系統(tǒng)的保性能一致性問題均尚未涉及，對基于事件觸發(fā)策略作用下的含不確定參數(shù)、隨機干擾或者時滯的多智能體系統(tǒng)的保性能一致性問題也尚未見文獻報導，而現(xiàn)實中這些都是有意義的.由此可見，對多智能體系統(tǒng)保性能一致問題的研究任重而道遠.

3.2 輸出反饋一致性

上述文獻［21］-［25］大多通過狀態(tài)反饋控制方法研究多智能體系統(tǒng)的事件觸發(fā)一致性問題，沒有考慮某些狀態(tài)變量未知或工業(yè)儀表無法測量的情況.在大多數(shù)實際系統(tǒng)中，內(nèi)部狀態(tài)通常是不可能全部得到，有些狀態(tài)變量甚至根本無法檢測.在多智能體一致性問題的研究中需要進一步考慮輸出反饋控制方法.

當沒有智能體的狀態(tài)信息時，用智能體輸出信息代替一致性協(xié)議的設(shè)計引起了廣泛關(guān)注.對于不穩(wěn)定且狀態(tài)未知的運行系統(tǒng)，通常情況下將通過觀測器來得到系統(tǒng)的狀態(tài)估計.如文獻［29］和文獻［30］基于觀測器分別研究了一般線性多智能體系統(tǒng)的事件觸發(fā)一致性問題和多智能體系統(tǒng)在事件觸發(fā)策略下的領(lǐng)導跟隨一致性問題.基于事件觸發(fā)策略下的多智能體系統(tǒng)的輸出反饋一致還有許多問題尚待解決.其一，多智能體系統(tǒng)模型需要考慮非線性因素以及擾動，并具體探究多智能體系統(tǒng)動力學擾動的來源；其二，需要設(shè)計復雜度較低且在實際系統(tǒng)中易于實現(xiàn)的控制器；其三，需要進一步解決基于輸出反饋的無連續(xù)通信的多智能體系統(tǒng)的事件觸發(fā)一致性問題.

4 結(jié)束語

文中對多智能體事件觸發(fā)一致性問題的研究都是在有一定的圖論、矩陣論以及控制論等知識儲備的基礎(chǔ)上進行的.從動力學行為、控制協(xié)議以及事件觸發(fā)條件等角度出發(fā)，詳細闡述了多智能體系統(tǒng)事件觸發(fā)一致性的研究進展.在多智能體系統(tǒng)一致性問題中，事件觸發(fā)控制協(xié)議以及分布式事件觸發(fā)策略能夠有效地減少不必要的信息傳輸和能量的消耗，已經(jīng)成為研究的重點.最后，提出了值得思考的兩個問題，優(yōu)化問題和輸出反饋一致性問題也將成為未來的重點研究方向.