婁如思,王璐瑤,馬 丹
(東北大學(xué)信息科學(xué)與工程學(xué)院,遼寧 沈陽(yáng) 110819)
多智能體系統(tǒng)是多個(gè)具有獨(dú)立運(yùn)算、存儲(chǔ)、通信等能力的個(gè)體通過(guò)信息交互共同完成一定任務(wù)的動(dòng)態(tài)系統(tǒng).這類系統(tǒng)能較好地描述互聯(lián)多個(gè)體的復(fù)雜行為、多智能體系統(tǒng)的一致性、分布式優(yōu)化、編隊(duì)控制及其魯棒性等問(wèn)題[1–4],近年來(lái)受到國(guó)內(nèi)外學(xué)者的廣泛關(guān)注.
多智能體系統(tǒng)的優(yōu)化是指每個(gè)智能體都存在一個(gè)目標(biāo)函數(shù),通過(guò)相鄰智能體之間的通訊和協(xié)調(diào),最小化所有智能體目標(biāo)函數(shù)的和.隨著動(dòng)態(tài)系統(tǒng)中智能體數(shù)量的增加,復(fù)雜的地理環(huán)境以及通訊網(wǎng)絡(luò)的大量使用,集中式控制不再適用于解決多智能體系統(tǒng)的優(yōu)化問(wèn)題.取而代之的是只需要自身和鄰居智能體的信息,且在計(jì)算量、運(yùn)行成本、可擴(kuò)展性、魯棒性等方面有著巨大優(yōu)勢(shì)的分布式控制.分布式優(yōu)化問(wèn)題廣泛應(yīng)用于智能電網(wǎng)的經(jīng)濟(jì)調(diào)度[5]、傳感器網(wǎng)絡(luò)的參數(shù)估計(jì)[6]、網(wǎng)絡(luò)中的資源分配[7]等實(shí)際工程中.
Yang等[8]針對(duì)多智能體系統(tǒng)的分布式優(yōu)化問(wèn)題進(jìn)行了綜述,并將其應(yīng)用到能源系統(tǒng)的最優(yōu)協(xié)調(diào)問(wèn)題.基于梯度的算法也廣泛應(yīng)用于解決多智能體系統(tǒng)的分布式優(yōu)化問(wèn)題.Tsitsiklis等[9]首先提出了基于梯度的分布式優(yōu)化算法解決凸優(yōu)化問(wèn)題.Feng和Hu[10]考慮了負(fù)梯度方法設(shè)計(jì)非光滑的控制協(xié)議研究一階多智能體系統(tǒng)的分布式凸優(yōu)化問(wèn)題.Lu和Tang[11]針對(duì)無(wú)向連通拓?fù)鋱D提出了分布式Zero-gradient-sum(ZGS)算法,并證明了該算法能夠指數(shù)收斂到全局最優(yōu)解.Guo和Chen[12]將ZGS算法延伸到強(qiáng)連通且加權(quán)平衡的有向圖中.
然而,在許多工程應(yīng)用中,往往要求在有限時(shí)間內(nèi)達(dá)到指定的性能,這對(duì)多智能體系統(tǒng)分布式優(yōu)化也提出了挑戰(zhàn).Lin等[13]結(jié)合有限時(shí)間理論,研究了切換拓?fù)湎戮哂屑s束的一階多智能體系統(tǒng)的有限時(shí)間分布式優(yōu)化問(wèn)題.Song和Chen[14]在文[11]的基礎(chǔ)上,將ZGS算法拓展到有限時(shí)間分布式ZGS算法.在實(shí)際系統(tǒng)中不可避免的存在干擾或未知信息等情況,為了保證系統(tǒng)的魯棒性,研究存在干擾的非線性多智能體系統(tǒng)的分布式優(yōu)化問(wèn)題極具有實(shí)踐意義.Wang等[15]和Wang和Hong[16]針對(duì)具有干擾的一階多智能體系統(tǒng),設(shè)計(jì)分布式優(yōu)化控制器處理多智能體系統(tǒng)的優(yōu)化問(wèn)題.Liu等[17]結(jié)合小增益方法研究非線性多智能體系統(tǒng)的優(yōu)化問(wèn)題.Huang等[18]研究時(shí)變的通訊拓?fù)鋱D下非線性多智能體系統(tǒng)的時(shí)變凸優(yōu)化問(wèn)題.以上研究都是針對(duì)低階多智能體系統(tǒng),二階及高階非線性多智能體系統(tǒng)分布式優(yōu)化問(wèn)題[19–20,24]的研究還不夠充分.
本文結(jié)合實(shí)際系統(tǒng)中非線性和未知參數(shù)的廣泛存在,考慮一類具有未知參數(shù)的二階非線性多智能體系統(tǒng).兼顧工程實(shí)際中的有限時(shí)間實(shí)現(xiàn)最優(yōu)調(diào)節(jié)等需求(如智能電網(wǎng)),研究固定拓?fù)湎?二階非線性多智能體系統(tǒng)的有限時(shí)間自適應(yīng)分布式優(yōu)化問(wèn)題.在提出的加速智能體狀態(tài)收斂至目標(biāo)函數(shù)最優(yōu)解的控制策略下,給出一種基于冪積分方法的光滑的自適應(yīng)分布式控制協(xié)議,保證在給定懲罰因子下,多智能體的狀態(tài)在有限時(shí)間達(dá)到目標(biāo)函數(shù)的最優(yōu)解的鄰域.最后,通過(guò)仿真驗(yàn)證了理論結(jié)果的可行性和有效性.
考慮具有未知參數(shù)的二階非線性多智能體系統(tǒng)
其中:xi1和xi2分別表示第i個(gè)智能體的位置和速度;ui表示第i個(gè)智能體的控制輸入;φi(xi1,xi2)∈R1×l表示已知的非線性向量函數(shù),θi ∈Rl×1表示未知的常參數(shù),l是一個(gè)正常數(shù).
第i個(gè)智能體的局部目標(biāo)函數(shù)如下:
其中ai,bi,di是標(biāo)量,且滿足ai >0.自變量s表示第i個(gè)智能體的狀態(tài)分量xi1(t).則多智能體系統(tǒng)(1)的總體目標(biāo)函數(shù)定義為N個(gè)智能體的局部目標(biāo)函數(shù)的和
本文的目標(biāo)是找到下列優(yōu)化問(wèn)題的最優(yōu)解:
本文考慮智能體之間只能通過(guò)通訊拓?fù)浜推溧従舆M(jìn)行通訊,即第i個(gè)智能體只能獲取自身的目標(biāo)函數(shù)fi(s),不能通過(guò)通訊拓?fù)浍@取鄰居的目標(biāo)函數(shù).在實(shí)際工程系統(tǒng)中,如網(wǎng)絡(luò)的資源分配問(wèn)題、智能電網(wǎng)的經(jīng)濟(jì)調(diào)度問(wèn)題等,均將局部目標(biāo)函數(shù)解釋為代價(jià)(成本)函數(shù),每個(gè)個(gè)體都具有一個(gè)代價(jià)(成本)函數(shù),則整個(gè)系統(tǒng)的總代價(jià)(成本)由系統(tǒng)中所有個(gè)體的代價(jià)(成本)函數(shù)和來(lái)表示,所要達(dá)到的目標(biāo)就是代價(jià)(成本)函數(shù)的和最小.
這里考慮固定無(wú)向連通的拓?fù)?本文將通過(guò)設(shè)計(jì)有限時(shí)間自適應(yīng)分布式控制協(xié)議ui(t),i=1,2,···,N,使多智能體狀態(tài)分量xi1(t),i=1,2,···,N在有限時(shí)間內(nèi)達(dá)到最優(yōu)解s?的鄰域.
定義1考慮多智能體系統(tǒng)(1),對(duì)于任意初始狀態(tài),若存在一個(gè)正常數(shù)T和一個(gè)充分小的正標(biāo)量r,使得?i,j=1,2,···,N,滿足
則稱多智能體系統(tǒng)(1)能達(dá)到有限時(shí)間實(shí)用一致.
當(dāng)位置狀態(tài)達(dá)到一致時(shí),則有
因此,問(wèn)題可轉(zhuǎn)化為求解具有等式約束的凸優(yōu)化問(wèn)題:
其中:βm >0,m=1,2,···是常數(shù)懲罰因子,第2項(xiàng)是懲罰項(xiàng),懲罰項(xiàng)和位置狀態(tài)與通訊拓?fù)鋱D的拉普拉斯矩陣相關(guān).當(dāng)多智能體系統(tǒng)(1)達(dá)到實(shí)用一致時(shí),懲罰項(xiàng)為0.
下面的引理將在主要結(jié)果中使用.
引理4[24]考慮一類非線性系統(tǒng)x˙=f(x,u),假設(shè)存在一個(gè)C1類的函數(shù)V(x):D →R,定義域D ?Rn,存在正實(shí)數(shù)α>0,0<γ <1,以及0<η <∞,如果V(x)在定義域D內(nèi)正定,且V(0)=0,滿足如下不等式:
則稱非線性系統(tǒng)是半全局有限時(shí)間實(shí)用穩(wěn)定的,若D=Rn,則系統(tǒng)是全局有限時(shí)間實(shí)用穩(wěn)定的.
下面,基于構(gòu)造的懲罰函數(shù)(6)給出一個(gè)新的控制策略,使得多智能體系統(tǒng)(1)的位置狀態(tài)xi1(t)更快地收斂至優(yōu)化問(wèn)題(3)的最優(yōu)解s?.
步驟1給定一個(gè)較小的初始懲罰因子βm >0,懲罰因子的放大系數(shù)c>1,置m=1.
步驟2設(shè)計(jì)有限時(shí)間分布式控制協(xié)議ui(t),使得懲罰函數(shù)的負(fù)梯度(此時(shí)為βm的函數(shù))在有限時(shí)間收斂至零的鄰域內(nèi).
步驟3當(dāng)懲罰函數(shù)的負(fù)梯度收斂至零的鄰域內(nèi)時(shí),置βm+1=c ?βm,返回步驟2,直至βm不再影響分布式控制協(xié)議ui(t).從而多智能體系統(tǒng)(1)的狀態(tài)xi1(t)趨近于最優(yōu)解s?的鄰域內(nèi),即≤r.
本節(jié)將針對(duì)控制策略中的步驟2,設(shè)計(jì)有限時(shí)間分布式控制協(xié)議ui(t)和自適應(yīng)律,使得懲罰函數(shù)(6)的負(fù)梯度在有限時(shí)間收斂至原點(diǎn)的鄰域內(nèi),從而保證多智能體系統(tǒng)(1)在有限時(shí)間趨于最優(yōu)解s?的鄰域.
定理1考慮無(wú)向連通拓?fù)湎?多智能體系統(tǒng)(1)在有限時(shí)間分布式控制協(xié)議
下面,基于反步法,采用冪積分技術(shù)逐步設(shè)計(jì)虛擬控制協(xié)議,并最終獲得分布式控制協(xié)議ui(t),使得懲罰函數(shù)(6)的負(fù)梯度在有限時(shí)間內(nèi)收斂至原點(diǎn)的鄰域內(nèi).
結(jié)合定義1和引理4,可知,在有限時(shí)間分布式控制協(xié)議(7)和自適應(yīng)律(8)共同作用下,懲罰函數(shù)(6)的負(fù)梯度在有限時(shí)間收斂至原點(diǎn)的鄰域內(nèi),即多智能體系統(tǒng)(1)的所有狀態(tài)x1(∞)趨近于最優(yōu)解s?.
考慮一類由4個(gè)二階非線性智能體構(gòu)成的多智能體系統(tǒng)
圖1 通訊拓?fù)鋱DFig.1 Communication topology
其對(duì)應(yīng)的拉普拉斯矩陣L由圖1可得.給定4個(gè)智能體各自的目標(biāo)函數(shù)分別為
根據(jù)定理1,采用分布式控制協(xié)議為
以及自適應(yīng)律
給定初始參數(shù)c1=4,c=3,p=2,q=15,c2通過(guò)計(jì)算可以獲得,c2參數(shù)依賴βm的取值.控制器參數(shù)選擇具體如表1所示.
表1 控制協(xié)議具體參數(shù)Table 1 Controller parameters
則系統(tǒng)的狀態(tài)軌跡由圖2和圖3給出.
由圖2可以直觀的看出多智能體系統(tǒng)的狀態(tài)xi1經(jīng)過(guò)有限次選取βm,最終收斂到最優(yōu)解s?的鄰域內(nèi).每更新一次βm,多智能體系統(tǒng)的狀態(tài)xi1都進(jìn)一步的匯聚,最終收斂至最優(yōu)解s?的更小的鄰域內(nèi).圖3給出了系統(tǒng)的狀態(tài)xi2,因?yàn)榉蔷€性函數(shù)中含有系統(tǒng)的狀態(tài)xi2,導(dǎo)致在更新βm時(shí)狀態(tài)xi2產(chǎn)生波動(dòng),經(jīng)過(guò)短暫的參數(shù)調(diào)整之后,狀態(tài)xi2開(kāi)始快速的收斂到一致.選擇同一初始條件,采用文獻(xiàn)[10]中利用符號(hào)函數(shù)設(shè)計(jì)的算法,如圖4所示.與文獻(xiàn)[10]中協(xié)議相比,本文基于冪積分方法設(shè)計(jì)連續(xù)光滑的分布式控制協(xié)議可加快系統(tǒng)的收斂速度.與高階多智能體系統(tǒng)一致性協(xié)議[24]相比,本文提出的協(xié)議使得多智能體系統(tǒng)達(dá)到一致后,一致性的狀態(tài)滑向目標(biāo)函數(shù)(3)的最優(yōu)解.圖5給出了自適應(yīng)參數(shù)誤差的仿真曲線,從圖中可以發(fā)現(xiàn),參數(shù)誤差最終趨于常數(shù),且保持不變.
圖2 系統(tǒng)狀態(tài)軌跡xi1Fig.2 Trajectory of states xi1
圖3 系統(tǒng)狀態(tài)軌跡xi2Fig.3 Trajectory of states xi2
圖4 傳統(tǒng)算法Fig.4 Traditional algorithm
圖5 自適應(yīng)參數(shù)誤差θ?Fig.5 Trajectory of unknown parameter error θ?
本文在固定無(wú)向拓?fù)湎?對(duì)一類二階非線性多智能體系統(tǒng)的分布式優(yōu)化問(wèn)題進(jìn)行了研究.將多智能體系統(tǒng)分布式優(yōu)化問(wèn)題,轉(zhuǎn)化為帶有等式約束的優(yōu)化問(wèn)題,并構(gòu)造相應(yīng)的懲罰函數(shù),基于懲罰函數(shù),結(jié)合冪積分技術(shù)和負(fù)梯度方法,設(shè)計(jì)了有限時(shí)間分布式控制協(xié)議,并通過(guò)調(diào)整懲罰項(xiàng)使得多智能體系統(tǒng)能夠達(dá)到一致的最優(yōu)解.最后,通過(guò)仿真驗(yàn)證了理論結(jié)果的有效性.