• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究

      2017-06-01 12:21:31張文旭馬磊王曉東
      智能系統(tǒng)學(xué)報(bào) 2017年1期
      關(guān)鍵詞:計(jì)算資源時(shí)刻次數(shù)

      張文旭,馬磊,王曉東

      (西南交通大學(xué) 電氣工程學(xué)院,四川 成都610031)

      基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究

      張文旭,馬磊,王曉東

      (西南交通大學(xué) 電氣工程學(xué)院,四川 成都610031)

      本文針對(duì)多智能體強(qiáng)化學(xué)習(xí)中存在的通信和計(jì)算資源消耗大等問(wèn)題,提出了一種基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)算法,側(cè)重于事件驅(qū)動(dòng)在多智能體學(xué)習(xí)策略層方面的研究。在智能體與環(huán)境的交互過(guò)程中,算法基于事件驅(qū)動(dòng)的思想,根據(jù)智能體觀(guān)測(cè)信息的變化率設(shè)計(jì)觸發(fā)函數(shù),使學(xué)習(xí)過(guò)程中的通信和學(xué)習(xí)時(shí)機(jī)無(wú)需實(shí)時(shí)或按周期地進(jìn)行,故在相同時(shí)間內(nèi)可以降低數(shù)據(jù)傳輸和計(jì)算次數(shù)。另外,分析了該算法的計(jì)算資源消耗,以及對(duì)算法收斂性進(jìn)行了論證。最后,仿真實(shí)驗(yàn)說(shuō)明了該算法可以在學(xué)習(xí)過(guò)程中減少一定的通信次數(shù)和策略遍歷次數(shù),進(jìn)而緩解了通信和計(jì)算資源消耗。

      事件驅(qū)動(dòng);多智能體;強(qiáng)化學(xué)習(xí);分布式馬爾科夫決策過(guò)程;收斂性

      近年來(lái),基于事件驅(qū)動(dòng)的方法在多智能體研究中得到廣泛關(guān)注[1-3]。在事件驅(qū)動(dòng)的思想中,智能體可以根據(jù)測(cè)量誤差間歇性的更新?tīng)顟B(tài),減少通信次數(shù)和計(jì)算量。文獻(xiàn)[4]首次在多智能體系統(tǒng)的協(xié)作中運(yùn)用事件驅(qū)動(dòng)的策略,并設(shè)計(jì)了基于事件驅(qū)動(dòng)機(jī)制的狀態(tài)反饋控制器。隨后,文獻(xiàn)[5-7]將基于事件驅(qū)動(dòng)的控制器擴(kuò)展到非線(xiàn)性系統(tǒng),以及復(fù)雜網(wǎng)絡(luò)等領(lǐng)域。但是,目前事件驅(qū)動(dòng)與強(qiáng)化學(xué)習(xí)的結(jié)合還相對(duì)不足[8-9],并主要集中在對(duì)多智能體的控制器設(shè)計(jì)上,較少有學(xué)者關(guān)注其在學(xué)習(xí)策略層的應(yīng)用。在現(xiàn)有的多智能體強(qiáng)化學(xué)習(xí)算法中,由于智能體攜帶的通信設(shè)備和微處理器性能有限,其學(xué)習(xí)過(guò)程中通常存在兩個(gè)問(wèn)題:1)智能體間的信息交互需占用較大的通信帶寬;2)在學(xué)習(xí)的試錯(cuò)和迭代過(guò)程中,消耗了大量的計(jì)算資源。以上問(wèn)題都將減少智能體的工作時(shí)間,或增加設(shè)計(jì)上的復(fù)雜性。本文區(qū)別于傳統(tǒng)的多智能體學(xué)習(xí)算法,側(cè)重于事件驅(qū)動(dòng)在多智能體學(xué)習(xí)策略層的研究,首先從自觸發(fā)和聯(lián)合觸發(fā)兩個(gè)方面定義觸發(fā)函數(shù),然后在分布式馬爾可夫模型中設(shè)計(jì)了基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)算法,最后對(duì)算法的收斂性進(jìn)行了論證。

      1 問(wèn)題描述

      1.1 分布式馬爾可夫模型

      1.2Q-學(xué)習(xí)

      文獻(xiàn)[11]提出了一類(lèi)通過(guò)引入期望的延時(shí)回報(bào),求解無(wú)完全信息的MDPs類(lèi)問(wèn)題的方法,稱(chēng)為Q-學(xué)習(xí)(Q-learning)。Q-學(xué)習(xí)是一種模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí)方法,通過(guò)對(duì)狀態(tài)-動(dòng)作對(duì)的值函數(shù)進(jìn)行估計(jì),以求得最優(yōu)策略。Q-學(xué)習(xí)算法的基本形式如下:

      Q*(s,a)=R(s,a)+γ∑s′∈SP(s,a,s′)maxQ*(s′,a′)

      式中:Q*(s,a)表示智能體在狀態(tài)s下采用動(dòng)作a所獲得的獎(jiǎng)賞折扣總和;γ為折扣因子;P(s,a,s′)表示概率函數(shù);最優(yōu)策略為智能體在狀態(tài)s下選用Q值最大的策略。Q-學(xué)習(xí)存在的最大問(wèn)題為,智能體需要通過(guò)試錯(cuò)的方式找到最優(yōu)策略,這樣的方式使得Q-學(xué)習(xí)需要考慮所有的可能策略,從而需要消耗大量計(jì)算資源。

      2 觸發(fā)規(guī)則設(shè)計(jì)

      在事件驅(qū)動(dòng)思想中,智能體把從環(huán)境中得到的觀(guān)測(cè)誤差作為重要的評(píng)判標(biāo)準(zhǔn),當(dāng)它超過(guò)一個(gè)預(yù)設(shè)的閾值時(shí)事件被觸發(fā),智能體更新?tīng)顟B(tài)并計(jì)算聯(lián)合策略,而事件觸發(fā)的關(guān)鍵在于對(duì)觸發(fā)函數(shù)的設(shè)計(jì)。

      2.1 自事件觸發(fā)設(shè)計(jì)

      DEC-MDPs模型中,每一個(gè)智能體通過(guò)獨(dú)立的觀(guān)測(cè)獲取局部信息,然后廣播到全隊(duì),所以每一個(gè)智能體首先需要自觸發(fā)設(shè)計(jì)。在時(shí)刻t,當(dāng)每一個(gè)智能體觀(guān)測(cè)結(jié)束后,其根據(jù)上一刻觀(guān)測(cè)與當(dāng)前觀(guān)測(cè)的變化率,進(jìn)行一次自觸發(fā)過(guò)程,智能體用自觸發(fā)方式來(lái)判斷是否需要廣播自身的觀(guān)測(cè)信息。智能體i從t-1時(shí)刻到t時(shí)刻的觀(guān)測(cè)變化率定義為

      式中:oi(t)為在t時(shí)刻的觀(guān)測(cè)值。定義0

      2.2 聯(lián)合事件觸發(fā)設(shè)計(jì)

      聯(lián)合事件觸發(fā)的對(duì)象是智能體團(tuán)隊(duì),考慮的是一個(gè)聯(lián)合觀(guān)測(cè)的變化情況。假設(shè)在時(shí)刻t智能體團(tuán)隊(duì)獲得當(dāng)前的聯(lián)合觀(guān)測(cè)O(t)=(O1(t),O2(t),…,On(t))。此時(shí),智能體團(tuán)隊(duì)從t-1時(shí)刻到t時(shí)刻的聯(lián)合觀(guān)測(cè)變化率定義為

      式中:p=1/n為ei(t)的分布律,令

      定義0

      自事件觸發(fā)和聯(lián)合事件觸發(fā)的區(qū)別在于:

      1)自事件觸發(fā)的對(duì)象是單個(gè)智能體,對(duì)應(yīng)的事件由智能體自身的觀(guān)測(cè)變化率所觸發(fā),觸發(fā)后的行動(dòng)為進(jìn)行廣播式通信,自事件觸發(fā)的目的是為了減少通信資源消耗;而聯(lián)合事件觸發(fā)針對(duì)的是智能體團(tuán)隊(duì)的聯(lián)合觀(guān)測(cè)變化率,觸發(fā)后的行動(dòng)是計(jì)算聯(lián)合策略,目的在于減少計(jì)算資源消耗。

      2)當(dāng)單個(gè)智能體的觀(guān)測(cè)發(fā)生變化時(shí),并不一定導(dǎo)致團(tuán)隊(duì)的聯(lián)合觀(guān)測(cè)變化率發(fā)生較大改變。即當(dāng)環(huán)境整體發(fā)生變化時(shí),雖然每一個(gè)智能體的觀(guān)測(cè)都發(fā)生了變化,但對(duì)聯(lián)合觀(guān)測(cè)而言,所有智能體在兩個(gè)時(shí)刻的變化率相對(duì)無(wú)變化,所以制定的聯(lián)合策略可能無(wú)明顯變化,此時(shí)也認(rèn)為智能體團(tuán)隊(duì)不需要被觸發(fā)。比如在機(jī)器人足球問(wèn)題中,t-1時(shí)刻機(jī)器人團(tuán)隊(duì)的聯(lián)合策略為,機(jī)器人A帶球行動(dòng)且其他隊(duì)友跑位行動(dòng)。到t時(shí)刻后,機(jī)器人A和其他機(jī)器人的觀(guān)測(cè)(雙方機(jī)器人的站位和距離)都發(fā)生了較大變化,機(jī)器人團(tuán)隊(duì)在通過(guò)廣播通信獲得全局觀(guān)測(cè)信息后,根據(jù)觀(guān)測(cè)信息進(jìn)行判斷,兩個(gè)時(shí)刻雙方機(jī)器人的相對(duì)站位和相對(duì)距離可能無(wú)大變化。此時(shí),如果團(tuán)隊(duì)計(jì)算新的聯(lián)合策略,也將是機(jī)器人A帶球且其他隊(duì)友跑位,與t-1時(shí)刻的聯(lián)合策略相同。所以,認(rèn)為團(tuán)隊(duì)在t時(shí)刻無(wú)需計(jì)算新的聯(lián)合策略,可以直接使用上一刻的策略。圖1為事件觸發(fā)流程圖。

      圖1 事件觸發(fā)流程圖Fig.1 The flow chart of event-triggered

      3 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)

      本節(jié)介紹了基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)算法,以及對(duì)事件驅(qū)動(dòng)下計(jì)算資源消耗進(jìn)行了分析,同時(shí)對(duì)算法的收斂性進(jìn)行了論證。

      3.1 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)設(shè)計(jì)

      在完全通信情況下,DEC-MDPs被簡(jiǎn)化為M-MDPs模型,所以直接考慮基于事件驅(qū)動(dòng)的多智能體馬爾可夫模型(event-triggered M-MDPs),其由一個(gè)六元組〈I,{S},{Ai},P,R,e〉構(gòu)成,其中e表示事件觸發(fā)函數(shù),當(dāng)團(tuán)隊(duì)的觸發(fā)函數(shù)大于閾值時(shí),團(tuán)隊(duì)被觸發(fā)并執(zhí)行聯(lián)合行動(dòng)策略,同時(shí)發(fā)生狀態(tài)轉(zhuǎn)移,轉(zhuǎn)移函數(shù)為P={st+1|st,a,e}?;谑录?qū)動(dòng)的強(qiáng)化學(xué)習(xí)過(guò)程不同于經(jīng)典的強(qiáng)化學(xué)習(xí),如圖2所示,智能體需要首先根據(jù)觸發(fā)函數(shù)來(lái)判斷事件是否被觸發(fā),如果被觸發(fā)才執(zhí)行一個(gè)聯(lián)合行動(dòng)并影響環(huán)境。

      圖2 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)框架Fig.2 The frame of reinforcement learning with event-triggered

      對(duì)于任意一個(gè)策略和下一個(gè)狀態(tài),在狀態(tài)s的值和后繼狀態(tài)值之間存在如下關(guān)系:

      (a)傳統(tǒng)的Q-學(xué)習(xí)

      (b)基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)圖3 兩種方式回溯圖Fig.3 The backtracking of two methods

      根據(jù)貝爾曼迭代,Q值逐漸收斂到一個(gè)最優(yōu)Q值,在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中,每一個(gè)學(xué)習(xí)步智能體都需要通過(guò)查表方式找到最大的Q值,其迭代表達(dá)式為

      事件驅(qū)動(dòng)的思路則不同,當(dāng)智能體沒(méi)有被觸發(fā)情況下,將直接選用上一個(gè)Q值作為當(dāng)前的Q值,在基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)中,Q值迭代過(guò)程可以表示為

      式中k表示上次觸發(fā)時(shí)刻和當(dāng)前時(shí)刻的差值。

      3.2 計(jì)算資源消耗

      對(duì)于基于事件驅(qū)動(dòng)的決策樹(shù),在智能體不被驅(qū)動(dòng)的樹(shù)層中,下一刻狀態(tài)將直接等于當(dāng)前狀態(tài),即st+1=st,狀態(tài)轉(zhuǎn)移概率為

      3.3 算法收斂性分析

      智能體每次的策略評(píng)估,即策略迭代,都是從前一個(gè)策略的值函數(shù)開(kāi)始。在事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)中,智能體只有在觀(guān)測(cè)信息變化情況下,才更新信念空間并進(jìn)行策略評(píng)估,否則直接使用上一時(shí)刻的策略。假設(shè)在t時(shí)刻,智能體沒(méi)有被事件所觸發(fā),那么智能體在t時(shí)刻不參與式(9)的迭代,直接使用t-1時(shí)刻迭代后的Q值。此時(shí),在達(dá)到最優(yōu)策略的過(guò)程中,Q值的迭代計(jì)算過(guò)程由每一時(shí)刻都計(jì)算,減少為事件觸發(fā)時(shí)刻才計(jì)算。

      如圖4(a)和式(10)所示,Q值從初始到收斂至最優(yōu)Q*的過(guò)程,是一個(gè)漸進(jìn)收斂的過(guò)程,Q值通過(guò)迭代,從t-1時(shí)間到t時(shí)刻逐漸接近最優(yōu);如圖4(b)和式(11)所示,在智能體不被驅(qū)動(dòng)的情況下,Q值不進(jìn)行迭代,在t-1時(shí)刻直接使用t時(shí)刻的Q值,減少了Q值的迭代計(jì)算。

      (a)經(jīng)典的Q-學(xué)習(xí)策略迭代

      (b)基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)策略迭代圖4 兩種方式策略迭代Fig.4 Policy iteration of two methods

      推論1 基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)算法,不會(huì)影響算法的收斂性。

      1)對(duì)所有的U1和U2∈F0,對(duì)所有的x∈χ,

      2)對(duì)所有的U和V∈F0,對(duì)所有的x∈χ,

      Ft(x)(‖v*-V‖

      式中:當(dāng)t→時(shí),λt以概率1收斂到0。

      3)對(duì)所有的k>0,當(dāng)t→時(shí)收斂到0。

      4)當(dāng)t→時(shí),存在0≤γ<1對(duì)所有的x∈X有

      Gt(x)δt(x)+Ft(x)‖v*-Vt‖

      在滿(mǎn)足條件1)和2)的情況下,雖然基于事件驅(qū)動(dòng)的動(dòng)作序列T中有相同的動(dòng)作Tk=Tk+1,但仍然滿(mǎn)足李普西斯條件,所以不會(huì)影響Q-學(xué)習(xí)的收斂,證畢。

      4 仿真結(jié)果及分析

      考慮一個(gè)多智能體覆蓋問(wèn)題,2個(gè)智能體隨機(jī)出現(xiàn)在一個(gè)大小為10×10的格子世界中,如圖5所示。每一個(gè)智能體都有上下左右4個(gè)行動(dòng),且觀(guān)測(cè)范圍為自身周?chē)蝗?個(gè)格子,觀(guān)測(cè)到的格子分為“沒(méi)走過(guò)”“走過(guò)”和“障礙物”3個(gè)狀態(tài),分別對(duì)應(yīng)著30、-5和-10的回報(bào)值,世界的邊界對(duì)智能體作為障礙物;且每一個(gè)智能體可以進(jìn)行廣播式通信。在這個(gè)場(chǎng)景中,每一個(gè)智能體獲得的是一個(gè)局部觀(guān)測(cè),當(dāng)它們進(jìn)行廣播通信后,對(duì)于整個(gè)世界,獲得的仍然是一個(gè)局部的觀(guān)測(cè)。但考慮到對(duì)整個(gè)世界的全局觀(guān)測(cè)需要極大的計(jì)算量,所以實(shí)驗(yàn)設(shè)定每一時(shí)刻當(dāng)兩個(gè)智能體通信后,所獲得的信息對(duì)它們而言是一個(gè)全局觀(guān)測(cè)。

      智能體團(tuán)隊(duì)的任務(wù)為盡快走完所有的格子,即完成對(duì)格子世界的覆蓋,當(dāng)走過(guò)的格子超過(guò)90%以上,認(rèn)為此次覆蓋任務(wù)成功,當(dāng)智能體在1 000步仍不能完成90%的覆蓋時(shí),認(rèn)為此次任務(wù)失敗。其中定義學(xué)習(xí)率為0.6,折扣因子為0.2。

      圖5 多智能體覆蓋問(wèn)題Fig.5 The coverage problem of multi-agent

      圖6比較了事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)任務(wù)成功率,可以看出兩種算法成功率一致,但是由于Q值迭代次數(shù)減少,使得事件驅(qū)動(dòng)Q-學(xué)習(xí)的收斂速度變慢。

      圖6 事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)的成功率Fig.6 The success rate of event-triggered Q and classical Q

      圖7說(shuō)明了聯(lián)合觸發(fā)函數(shù)與算法收斂速度的關(guān)系,可以看出聯(lián)合觸發(fā)函數(shù)選取越小,算法收斂性越慢。因?yàn)槁?lián)合觸發(fā)函數(shù)越小,事件觸發(fā)的次數(shù)就越少,從而導(dǎo)致Q值迭代次數(shù)減少,收斂速度變慢。

      圖7 聯(lián)合觸發(fā)函數(shù)與收斂速度Fig.7 The joint event-triggered function and convergence speed

      在學(xué)習(xí)過(guò)程中,智能體團(tuán)隊(duì)在每一步需要遍歷Q值數(shù)量為(38×4)2≈229.3次,由表1可以看出,隨著學(xué)習(xí)步數(shù)的增加,事件驅(qū)動(dòng)將大量減小Q值的遍歷次數(shù),繼而減少計(jì)算資源占用,相比較傳統(tǒng)的Q-學(xué)習(xí)存在明顯的優(yōu)勢(shì)。

      表1 事件驅(qū)動(dòng)傳統(tǒng)Q-學(xué)習(xí)遍歷次數(shù)

      Table 1 The number of traverse of event-triggered and classicalQ

      步數(shù)Q-學(xué)習(xí)事件驅(qū)動(dòng)Q-學(xué)習(xí)減少總遍歷次數(shù)50≈229.3×50≈229.3×42≈232.3100≈229.3×100≈229.3×79≈233.6200≈229.3×200≈229.3×153≈234.9300≈229.3×300≈229.3×221≈235.6500≈229.3×500≈229.3×386≈236.2

      表2比較了在一次成功的任務(wù)中,事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)的通信次數(shù)??梢钥闯觯录?qū)動(dòng)減少了智能體間的通信次數(shù)。同時(shí)與表1比較,可以看出自事件觸發(fā)和聯(lián)合事件觸發(fā)次數(shù)的區(qū)別。

      表2 事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)通信次數(shù)

      Table 2 The number of communication of event-triggered and classicalQ

      步數(shù)Q-學(xué)習(xí)事件驅(qū)動(dòng)Q-學(xué)習(xí)減少通信次數(shù)50504551001008911200200172283003002584250050041090

      5 結(jié)束語(yǔ)

      本文提出了一種基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)算法,側(cè)重于多智能體在學(xué)習(xí)策略層的事件驅(qū)動(dòng)研究。智能體在與環(huán)境的交互中,可以根據(jù)觀(guān)測(cè)的變化來(lái)觸發(fā)通信和學(xué)習(xí)過(guò)程。在相同時(shí)間內(nèi),采用事件驅(qū)動(dòng)可以降低數(shù)據(jù)傳輸次數(shù),節(jié)約通信資源;同時(shí),智能體不需要每一時(shí)刻進(jìn)行試錯(cuò)和迭代,進(jìn)而減少計(jì)算資源。最后,對(duì)算法的收斂性進(jìn)行了論證,仿真結(jié)果表明事件驅(qū)動(dòng)可以在學(xué)習(xí)過(guò)程中減少一定的通信次數(shù)和策略遍歷次數(shù),進(jìn)而緩解通信和計(jì)算資源消耗。進(jìn)一步工作主要基于現(xiàn)有的研究,將事件驅(qū)動(dòng)的思想應(yīng)用于不同類(lèi)的強(qiáng)化學(xué)習(xí)方法中,并結(jié)合事件驅(qū)動(dòng)的特點(diǎn)設(shè)計(jì)更合理的觸發(fā)函數(shù)。

      [1]ZHU Wei, JIANG ZhongPing, FENG Gang. Event-based consensus of multi-agent systems with general linear models[J]. Automatica, 2014, 50(2): 552-558.

      [2]FAN Yuan, FENG Gang, WANG Yong, et al. Distributed event-triggered control of multi-agent systems with combinational measurements[J]. Automatica, 2013, 49(2): 671-675.

      [3]WANG Xiaofeng, LEMMON M D. Event-triggering in distributed networked control systems[J]. IEEE transactions on automatic control, 2011, 56(3): 586-601.

      [4]TABUADA P. Event-triggered real-time scheduling of stabilizing control tasks[J]. IEEE transactions on automatic control, 2007, 52(9): 1680-1685.

      [5]ZOU Lei, WANG Zidong, GAO Huijun, et al. Event-triggered state estimation for complex networks with mixed time delays via sampled data information: the continuous-time case[J]. IEEE transactions on cybernetics, 2015, 45(12): 2804-2815.

      [6]SAHOO A, XU Hao, JAGANNATHAN S. Adaptive neural network-based event-triggered control of single-input single-output nonlinear discrete-time systems[J]. IEEE transactions on neural networks and learning systems, 2016, 27(1): 151-164.

      [7]HU Wenfeng, LIU Lu, FENG Gang. Consensus of linear multi-agent systems by distributed event-triggered strategy[J]. IEEE transactions on cybernetics, 2016, 46(1): 148-157.

      [8]ZHONG Xiangnan, NI Zhen, HE Haibo, et al. Event-triggered reinforcement learning approach for unknown nonlinear continuous-time system[C]//Proceedings of 2014 International Joint Conference on Neural Networks. Beijing, China, 2014: 3677-3684.

      [9]XU Hao, JAGANNATHAN S. Near optimal event-triggered control of nonlinear continuous-time systems using input and output data[C]//Proceedings of the 11th World Congress on Intelligent Control and Automation. Shenyang, China, 2014: 1799-1804.

      [10]BERNSTEIN D S, GIVAN R, IMMERMAN N, et al. The complexity of decentralized control of Markov decision processes[J]. Mathematics of operations research, 2002, 27(4): 819-840.

      [11]WATKINS C J C H, DAYAN P.Q-learning[J]. Machine learning, 1992, 8(3/4): 279-292.

      Reinforcement learning for event-triggered multi-agent systems

      ZHANG Wenxu, MA Lei, WANG Xiaodong

      (School of Electrical Engineering,Southwest Jiaotong University, Chengdu 610031, China)

      Focusing on the existing multi-agent reinforcement learning problems such as huge consumption of communication and calculation, a novel event-triggered multi-agent reinforcement learning algorithm was presented. The algorithm focused on an event-triggered idea at the strategic level of multi-agent learning. In particular, during the interactive process between agents and the learning environment, the communication and learning were triggered through the change rate of observation.Using an appropriate event-triggered design, the discontinuous threshold was employed, and thus real-time or periodical communication and learning can be avoided, and the number of communications and calculations were reduced within the same time. Moreover, the consumption of computing resource and the convergence of the proposed algorithm were analyzed and proven. Finally, the simulation results show that the number of communications and traversals were reduced in learning, thus saving the computing and communication resources.

      event-triggered; multi-agent; reinforcement learning;decentralized Markov decision processes;convergence

      張文旭,男,1985年生,博士研究生,主要研究方向?yàn)槎嘀悄荏w系統(tǒng)、機(jī)器學(xué)習(xí)。發(fā)表論文4篇,其中被EI檢索4篇。

      馬磊,男,1972年生,教授,博士,主要研究方向?yàn)榭刂评碚摷捌湓跈C(jī)器人、新能源和軌道交通系統(tǒng)中的應(yīng)用等。主持國(guó)內(nèi)外項(xiàng)目14項(xiàng),發(fā)表論文40余篇,其中被EI檢索37篇。

      王曉東,男,1992年生,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)。獲得國(guó)家發(fā)明型專(zhuān)利3項(xiàng),發(fā)表論文4篇。

      10.11992/tis.201604008

      http://kns.cnki.net/kcms/detail/23.1538.TP.20170301.1147.002.html

      2016-04-05.

      日期:2017-03-01.

      國(guó)家自然科學(xué)基金青年項(xiàng)目(61304166).

      張文旭.Email: wenxu_zhang@163.com.

      TP181

      A

      1673-4785(2017)01-0082-06

      張文旭,馬磊,王曉東. 基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究[J]. 智能系統(tǒng)學(xué)報(bào), 2017, 12(1): 82-87.

      英文引用格式:ZHANG Wenxu, MA Lei, WANG Xiaodong. Reinforcement learning for event-triggered multi-agent systems[J]. CAAI transactions on intelligent systems, 2017, 12(1): 82-87.

      猜你喜歡
      計(jì)算資源時(shí)刻次數(shù)
      冬“傲”時(shí)刻
      機(jī)場(chǎng)航站樓年雷擊次數(shù)計(jì)算
      2020年,我國(guó)汽車(chē)召回次數(shù)同比減少10.8%,召回?cái)?shù)量同比增長(zhǎng)3.9%
      捕獵時(shí)刻
      基于模糊規(guī)劃理論的云計(jì)算資源調(diào)度研究
      一類(lèi)無(wú)界算子的二次數(shù)值域和譜
      改進(jìn)快速稀疏算法的云計(jì)算資源負(fù)載均衡
      基于Wi-Fi與Web的云計(jì)算資源調(diào)度算法研究
      耦合分布式系統(tǒng)多任務(wù)動(dòng)態(tài)調(diào)度算法
      依據(jù)“次數(shù)”求概率
      汽车| 台东县| 阳山县| 邯郸市| 醴陵市| 苗栗县| 四子王旗| 滨州市| 钦州市| 西安市| 正安县| 灵台县| 卓尼县| 北川| 金平| 巴彦淖尔市| 治多县| 米林县| 天水市| 景东| 塘沽区| 西乌珠穆沁旗| 依兰县| 博白县| 瑞金市| 忻州市| 若羌县| 合川市| 分宜县| 宁强县| 即墨市| 扶余县| 尖扎县| 安仁县| 淳安县| 抚宁县| 莱西市| 大埔县| 葫芦岛市| 清涧县| 新源县|