• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強化學習的魚群自組織行為模擬*

    2020-02-07 12:58:42楊慧慧黃萬榮敖富江
    國防科技大學學報 2020年1期
    關鍵詞:魚群群體神經網絡

    楊慧慧,黃萬榮,敖富江

    (1. 大連海洋大學 水產與生命學院, 遼寧 大連 116023; 2. 軍事科學院, 北京 海淀 100071)

    自組織行為廣泛存在于自然界中,一個典型的案例就是魚群。魚群中的每個個體不僅會主動地相互靠近,還能協(xié)同一致地調整自己的行為,以達到群體效果。魚群的自組織特性有助于提升個體的游動效率、生存和繁衍概率。相對地,目前大部分人造群體系統(tǒng)還只能依靠機械的程控方式完成其功能。如果人造群體可以模仿魚群的組織方式,將獲得更為智能、可觀的效能。因此,研究魚群自組織行為有助于探索自組織行為的內在機理,對實現(xiàn)群體智能有重要的理論意義和應用價值。

    Reynolds[1]首次通過計算機程序模擬了魚群、鳥群等生物群體的自組織行為,并提出了博德模型(Boids model),即每個智能體基于局部的觀察信息,按照避碰、同向、聚集3條規(guī)則計算其運動速度,群體便能實現(xiàn)類似生物群體的自組織運動。在博德模型的基礎上,多個模型陸續(xù)被提出,或優(yōu)化了原有規(guī)則的計算方式,或增加了新的規(guī)則。上述模型均能模擬群體的自組織行為,其特點是都假設群體中的個體能夠基于感知信息進行復雜計算。然而,這類假設并未觸及自組織行為的本質,魚、鳥等生物個體不一定能進行如此復雜的規(guī)則計算。因此,不同于之前基于規(guī)則設計模型的研究方式,本文從學習的角度切入,對自組織行為展開研究,通過魚群行為的模擬,試圖探索自組織行為的生成機理。

    1 基本概念和相關工作

    1.1 自組織

    自組織[2]是指一個系統(tǒng)在時間上由無組織到有序的動態(tài)過程。自然界廣泛存在自組織過程。小鳥成群結隊地飛行,以減少風阻、節(jié)省能耗;在海洋中,許多魚經常聚在一起行動,可以比一條魚更快發(fā)現(xiàn)敵人并巧妙地避開;螞蟻無須復雜的信息交流,可以通過合作高效地完成覓食、搬運等任務;在微觀世界,免疫細胞協(xié)同合作,攻擊侵入生物體的病毒和異物。這些自組織過程是自發(fā)產生的,沒有外部控制和干預,甚至沒有內部集中控制,可使系統(tǒng)更好地適應環(huán)境。生物群體自組織行為的一個重要特征是涌現(xiàn)[3]。涌現(xiàn)是指群體中的個體遵循簡單的規(guī)則(如模仿),通過自組織就能展現(xiàn)出整體大于部分之和的特性。群體智能[4]的一個研究方向正是通過研究涌現(xiàn)機理而模擬自然界生物群體實現(xiàn)自組織行為。關于自組織行為模擬的研究可以追溯到20世紀80年代。Reynolds[1]提出了博德模型,基于避碰、同向和聚集3條規(guī)則成功模擬了鳥群的飛行和避障行為。博德模型也被成功應用于《蝙蝠俠歸來》《指環(huán)王》等科幻電影的后期制作中,用于模擬蝙蝠群、戰(zhàn)士群特效。根據(jù)博德模型,Spector等[5]提出了Swarm模型,進一步描述了相鄰個體之間的相互作用;Kwong等[6]對Swarm模型進行了仿真,獲得了聚集、繞“8”字形等行為特征。Vicsek等[7]根據(jù)對磁鐵特性的觀察,建立了Vicsek模型,假設所有個體速率相同,個體的運動方向取決于它周圍個體的運動方向的平均值。Vicsek模型與博德模型類似,都是基于規(guī)則的模擬方法。除了在仿真環(huán)境中研究之外,Seyfried等[8]用數(shù)以千計的微小機器人組成集群,能夠像蟻群一樣執(zhí)行一些特定任務,在生產線完成裝配任務。Ampatzis等[9]構建一組能夠自主組裝的機器人,能完成協(xié)同搬運、攀爬小山、穿過崎嶇地帶等復雜任務。Rubenstein等[10]設計了一組微小機器人——Kilobot,1024個功能簡單的機器人通過3條簡單規(guī)則(貼邊運動、梯度隊形、定位),通過完全的分布式控制,能夠自發(fā)形成比較復雜的宏觀圖形。Kilobot研究成果于2014年發(fā)表在《Science》雜志并被評為年度十大科學進展。上述研究工作在不同方面展現(xiàn)了群體自組織的特性,但是都需要通過人為設定若干規(guī)則,使得個體在規(guī)則的作用下展現(xiàn)出一定的自組織特性。

    1.2 赫布跡

    赫布跡來源于一個認知生理學理論——赫布定律[11](Hebb′s rule)。加拿大心理學家唐納德·赫布于1949年提出了赫布定律,描述了突觸可塑性的基本原理,即突觸前神經元向突觸后神經元的持續(xù)重復的刺激可以導致突觸傳遞效能的增加。突觸可塑性是生物大腦長期學習的重要原因之一。因此,在進化算法中出現(xiàn)了基于突觸可塑性設計的塑性神經網絡,但是由于技術發(fā)展的局限,塑性神經網絡不能與成熟的深度學習技術結合。最大的問題在于無法使用深度學習常用的梯度下降方法完成塑性神經網絡的大規(guī)模反向傳播訓練。實現(xiàn)塑性神經網絡的學習訓練,將為神經網絡獲得像人類一樣的持續(xù)學習能力提供一種可能性。Miconi等[12]提出了一種可以大規(guī)模訓練的塑性神經網絡。經典的神經網絡模型,通常用權值連接對兩個神經元之間的關聯(lián)程度進行量化。這種連接的權值會隨著神經網絡的訓練與反向傳播過程不斷更新。但是一旦神經網絡模型訓練完畢,它的權值就不會再發(fā)生變化,模型的結構與功能會相應地固化下來。Miconi等設計的塑性神經網絡在固定權值連接的基礎上,增加了一類權值可變的連接,這類連接的權值稱為赫布跡(Hebbian trace)。赫布跡會隨著兩個神經元的活動而發(fā)生變化,即使是在神經網絡模型的應用階段,這種特性也會保持。因此,赫布跡的作用是記憶輸入神經元和輸出神經元的活動軌跡,從而可以更快地強化鞏固新的輸入特征,學習到更好的模型?;谶@種記憶的作用,塑性神經網絡被證明可以應用在模式恢復[13]、小樣本學習[12]、自然語言處理[14]等問題中。

    1.3 強化學習

    強化學習是通過智能體與環(huán)境的不斷交互,逐漸修正智能體行為策略的一種學習方式。智能體獲取環(huán)境當前的狀態(tài),根據(jù)行為策略產生動作決策,作用于環(huán)境使其狀態(tài)發(fā)生變化。環(huán)境會根據(jù)狀態(tài)變化的“方向”,對該動作決策進行評估,返回一個獎勵值。獎勵值為正說明該決策產生了有利的結果,獎勵值為負則說明該決策產生了不利的影響。智能體根據(jù)獎勵值修正自己的行為策略,盡可能使動作決策產生有利影響,獲得更多累積獎勵值。強化學習在機器人、無人駕駛、游戲、自然語言處理、金融、電商等領域有著廣泛應用。

    強化學習的研究與理論發(fā)展有2個重要的方向:多智能體強化學習和深度強化學習。多智能體強化學習研究面臨信用分配、搜索空間維度爆炸等挑戰(zhàn)。早期研究將多個智能體作為一個整體系統(tǒng)進行學習,然而集中式的方式學習不利于群體規(guī)模的擴展。之后,隨著博弈論的發(fā)展,分布式的多智能體強化學習開始顯著發(fā)展。近年來,伴隨著深度學習引發(fā)的人工智能熱潮,強化學習與深度學習相結合,出現(xiàn)了深度強化學習技術。深度強化學習結合了深度學習強大的擬合能力和強化學習的交互特性,取得了很多成果。DeepMind基于深度強化學習研發(fā)的AlphaGo[15]成為第一個擊敗人類職業(yè)圍棋選手和圍棋世界冠軍的人工智能機器人。Tampuu等[16]將深度強化學習算法深度Q網絡(Deep Q-Network, DQN)應用到多智能體游戲環(huán)境中,在完全協(xié)作環(huán)境、完全競爭環(huán)境以及非完全協(xié)作/競爭環(huán)境中學習游戲策略。Lowe等[17]將深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法擴展到多智能體環(huán)境中,提出了多智能體DDPG(Multi-Agent DDPG, MADDPG)算法,并通過共享全局信息訓練評價網絡,解決環(huán)境模型不平穩(wěn)問題。

    2 模型設計

    為了實現(xiàn)基于強化學習對魚群自組織行為進行模擬,首先需要構建環(huán)境模型和智能體(魚)模型。

    2.1 環(huán)境模型

    考慮n條魚組成的魚群,用F={f1,f2,…,fn}表示。魚群在一個二維、封閉、網格化的環(huán)境中運動,環(huán)境大小為M×M,如圖1所示。構建運動世界的坐標系,設最左上角的網格為原點O(0,0),向右為x軸正方向,向下為y軸正方向。因此,網格A坐標為(M-1,0),網格B坐標為(0,M-1)。魚fi的坐標表示為pi(xi,yi)。魚群運動的環(huán)境周圍被障礙物包圍,環(huán)境內部也隨機分布著障礙物。用二維矩陣Env表示魚群運動的環(huán)境。Env的元素有1和0兩種取值可能:1表示障礙物網格,魚無法運動到該網格;0表示自由網格,魚可以運動到該網格。在一些應用場景中,環(huán)境中可能存在一個獎勵位置(如圖1網格中有食物),坐標為prew(xrew,yrew)。

    圖1 環(huán)境模型Fig.1 Model of the environment

    2.2 智能體模型

    智能體模型涉及感知、運動和決策3個方面。

    2.2.1 感知模型

    感知能力描述了魚能從環(huán)境世界獲取哪些信息。在自然界,魚通過魚眼感知環(huán)境,魚眼的感知和成像功能具有2個特點。首先,魚眼視野十分廣闊,不用轉身就能看見前后和上面的物體,例如淡水鮭在垂直面上的視野為150°,水平面上的視野為160°~170°,而人眼分別為134°和154°。魚在游動過程中,魚頭可靈活變向,且魚兩邊都有眼睛,極大地增加觀察范圍,幾乎是全向觀察。因此,可以設置每條魚能感知到以其當前位置為中心、S×S大小的網格狀態(tài),如圖1中紅色網格所示。其次,環(huán)境中物體在魚眼中的成像大小感覺和視角(從物體兩端引出的光線在眼光心處所成的夾角)成正比。魚觀察環(huán)境中其他魚時,視角受多種因素的影響,包括其他魚的大小、位置和方向等。因此,在魚的大小相同的條件下,可以認為每條魚能感知到其他魚的位置和方向。圖2展示了魚感知其他個體的典型情況?;谝暯菂^(qū)間,一條魚可以判斷與其他魚的間隔距離。按照網格可以將距離判斷分為3類情況:①視角大于30°時,距離為1;②視角在15°~30°時,距離為2;③視角小于15°時,距離大于2。分析發(fā)現(xiàn),魚眼這種對距離的度量與切比雪夫距離(Chebyshev distance)度量一致,即:

    (1)

    圖2 魚感知其他個體的典型情況Fig.2 Typical situations on perceiving other individuals

    2.2.2 運動模型

    假設每條魚具有一階運動學特性,即通過控制魚的速度更新魚的位置。為簡單起見,假設魚游動的速率恒定,為1格/時間步(網格距離基于切比雪夫距離進行度量)。因此,只需要控制魚的游動方向即可確定魚的運動過程。需要說明的是,如果魚試圖游動到障礙物網格,則魚的位置和朝向保持不變,同時設置魚與障礙物發(fā)生碰撞的標志位為True。

    2.2.3 決策模型

    每一個時間步,智能體需要給出一個動作決策,輸入環(huán)境以驅動智能體運動。根據(jù)智能體的運動模型,魚需要決策其游動方向。假設魚可以選擇上、下、左、右4個方向中的一個作為該時間步的游動方向。每條魚的決策策略由一個神經網絡擬合,關于神經網絡的結構及訓練方法將在第3節(jié)詳細介紹。

    2.3 獎勵機制

    除了構建環(huán)境模型和智能體模型之外,還需要對獎勵機制進行建模。針對魚群行為模擬問題,根據(jù)智能體與環(huán)境的具體交互狀態(tài),獎勵有4個來源:

    1)智能體是否與障礙物發(fā)生碰撞。如果智能體與障礙物發(fā)生碰撞,獎勵為-1;否則,獎勵為0。用rcol表示這部分獎勵,其計算方式如式(2)所示,其中β1為可調參數(shù),collided是判斷智能體是否與障礙物發(fā)生碰撞的標志位。

    (2)

    2)魚群行為是否符合自組織特性。魚群行為的特性考慮距離和朝向2類性質。在距離方面,為了使群體展現(xiàn)聚集的特點的同時不會頻繁發(fā)生個體間碰撞,設置期望距離d。如果個體間的距離恰好等于d,則獎勵值最大;如果個體間的距離大于或小于d,則獎勵值相應減小。圖3(a)給出了基于距離因素衡量獎勵值的示意圖。在朝向方面,為了使群體展現(xiàn)同向的特點,應使個體的朝向盡量趨同。如圖3(b)所示,oi、oj1和oj2分別為智能體i、j1和j2的朝向,如果朝向一致,獎勵值越大;如果朝向差異變大,獎勵值減小。因此,可以用余弦函數(shù)計算基于朝向因素衡量的獎勵值。綜合距離、朝向2個因素,與魚群行為相關的獎勵rbeh可通過式(3)進行計算,其中β2和β3為可調參數(shù)。需要注意的是,式(3)是以智能體i為中心個體計算的獎勵值,根據(jù)具體任務可以類似地計算以其他智能體為中心的獎勵值。

    (3)

    (a) 距離因素(a) Distance facto (b) 朝向因素(b) Orientation facto圖3 考慮距離和朝向因素的獎勵值設計Fig.3 Reward value design considering distance and orientation factors

    3)在要求群體到達目標位置的場景中,通過智能體與目標位置的距離刻畫獎勵值。如果智能體距離目標位置越近,獎勵值越大;反之,獎勵值越小。與目標位置相關的獎勵值robj計算方式如式(4)所示,其中β4為可調參數(shù)。

    (4)

    4)為了緩解獎勵稀疏可能導致的學習過慢的問題,可以設置提前終止狀態(tài)并反饋相應的獎勵值。提前終止是由于魚群狀態(tài)與學習目標差異很大,因此需要返回較大的負獎勵值,并進入下一個學習過程。用rter表示與提前終止相關的獎勵值,計算方式如式(5)所示,其中β5為可調參數(shù),terminal是判斷某次學習過程是否提前終止的標志位。

    (5)

    因此,某一時間步,環(huán)境向智能體i反饋的獎勵值是上述4部分之和:

    r=rcol+robj+rbeh+rter

    (6)

    3 算法

    為了以學習的方式獲得魚的行為策略,基于赫布跡和A2C框架[18](一種行動者-評價者框架)實現(xiàn)了一種多智能體深度強化學習算法。算法框架如圖4所示,主要包括魚群模擬環(huán)境和魚群游動策略兩部分。魚群模擬環(huán)境建模已在第2節(jié)給出,魚群游動策略則由n個個體獨立的策略組合而成。每條魚私有一個帶赫布跡的神經網絡,因此,本文提出一種分布式強化學習算法。在學習階段,由于所有智能體是同構的,可借鑒網絡凍結[19]的思想,先訓練f1的策略網絡而固定其他魚的策略,然后將學好的f1的策略網絡參數(shù)復制給其他智能體(見圖4空心箭頭),再進行下一輪f1策略網絡訓練。

    圖4 策略學習框架Fig.4 Framework of the strategy learning

    3.1 魚群學習算法

    整個魚群行為的學習過程如算法1所示。由于網絡本身具有記憶特性,沒有使用記憶池與經驗回放等技術。假設學習過程一共持續(xù)Nmax個回合(第14行)。每個回合中,魚群會與環(huán)境進行若干時間步的交互。在時間步T,所有魚獲取當前時間步的感知狀態(tài)st,由策略擬合網絡產生動作決策at和狀態(tài)評價Vt。動作決策施加在環(huán)境之后,環(huán)境向智能體反饋一個獎勵值rt,同時環(huán)境狀態(tài)演變?yōu)閟t+1。如果滿足回合終止條件,即T大于Tmax或標志位terminal為True,環(huán)境狀態(tài)復位,進入下一回合的交互過程(第9行)。否則,terminal為False,繼續(xù)該回合下一個時間步的交互(第8行)。

    根據(jù)f1與環(huán)境在一個回合中的交互數(shù)據(jù)(s0,a0,r0,s1,a1,r1,…,sT)可以計算損失函數(shù)J的值(第10行),具體計算方式如式(7)~(10)所示:

    (7)

    (8)

    Ri=r0+γr1+γ2r2+…+γTrT

    (9)

    (10)

    其中:式(8)的π(ai|si;θa)表示策略網絡擬合的動作決策函數(shù),θa表示與動作決策相關的網絡參數(shù);式(9)中的γ表示獎勵折扣因子;式(8)和式(10)中的V(si;θv)表示策略網絡擬合的狀態(tài)評估函數(shù),θv表示與狀態(tài)評估相關的網絡參數(shù)。因此,θa與θv共享一部分參數(shù)。f1根據(jù)損失函數(shù)J值進行梯度下降,通過反向傳播更新策略學習網絡參數(shù)。其他所有魚則會在回合結束時復制f1學習到的策略(第12行)。顯然,根據(jù)算法1學習到的魚群行為,所有魚的行為特點是趨同的。

    算法1 魚群行為策略學習

    3.2 策略網絡結構

    算法中,每個智能體的策略用一個帶赫布跡的神經網絡進行擬合,所有智能體的策略網絡結構相同,其網絡結構如圖5所示。

    圖5 策略學習網絡結構Fig.5 Structure of the strategy learning network

    策略網絡有3(n-1)+S2+1個輸入神經元。第一部分的3(n-1)個神經元記錄了其他智能體的狀態(tài),包括位置坐標和朝向。中間一項S2個輸入神經元是智能體i對環(huán)境狀態(tài)的感知,記錄了以智能體i為中心、附近S×S個網格的狀態(tài)。最后一個神經元輸入的是時間。整個策略學習網絡的核心結構是一個長短時記憶(Long Short-Term Memory,LSTM)單元。LSTM是一類具有長期記憶和短期記憶的結構。如圖5所示,在LSTM單元的輸入門結構中增加了赫布跡項,用于強化LSTM單元的記憶特性。LSTM單元t時刻的內部狀態(tài)ct的計算過程變?yōu)椋?/p>

    ct=ft⊙ct-1+it⊙gt

    (11)

    ft=σ(Wfh·ht-1+bfh+Wfx·xt+bfx)

    (12)

    it=σ(Wih·ht-1+bih+Wix·xt+bix)

    (13)

    gt=tanh[(Wgh+α·Hebb)·ht-1+Wgx·xt+bgx]

    (14)

    (15)

    其中,η是控制記憶強度的系數(shù)?;贚STM單元的輸出,策略學習網絡的輸出分為2個部分。一部分是智能體在時間步T的動作決策at,它以獨熱編碼的方式表示智能體的每一種可選動作。另一部分輸出是狀態(tài)評價Vt,它以一個實數(shù)值對輸入狀態(tài)的“好壞”進行評價。Vt值越大表示認為當前狀態(tài)越“好”,越有利于智能體的策略學習。雖然動作決策和狀態(tài)評價共享了一部分網絡單元,但整個策略學習網絡的訓練方法與Minh等[19]提出的方法可以保持一致。

    4 實驗結果

    為了評估第3節(jié)提出的網絡結構與算法是否可用于學習到合理的魚群行為,進行了一些實驗并給出結果。首先在3類群體場景中測試了本文方法的學習效果,分別是領航跟隨場景、自主漫游場景和群體導航場景。然后對比了本文方法與基于博德規(guī)則計算模擬的方法。

    4.1 領航跟隨場景

    在領航跟隨場景中,群體有一個領航者個體帶領其他個體運動,其余個體則作為跟隨者跟隨領航者一起運動。通過領航與跟隨的形式,魚群便能展現(xiàn)整體運動特性。設有一個3條魚組成的魚群(n=3),不失一般性,假設f3是領航者,f1和f2是跟隨者。f3由外部控制器作用,在環(huán)境中作周期環(huán)繞運動,其路徑如圖6中紅線所示。f1與f2的行為策略由網絡擬合并通過算法1學習訓練獲得。針對領航跟隨場景實驗的具體參數(shù)設置為:環(huán)境大小M=15,感知范圍S=5;獎勵機制的可調參數(shù)β1=0.1,β2=0,β3=0,β4=0,β5=10;Tmax=250,提前終止條件為跟隨者與領航者的距離超過2。圖6給出了魚群在一次典型測試回合中T=7、T=15、T=91時運動狀態(tài),可以發(fā)現(xiàn),本文學習算法學到的策略能讓f1和f2跟隨f3環(huán)繞運動。

    圖6 領航跟隨場景的學習結果Fig.6 Results of learning in the leader-follower scenario

    4.2 自主漫游場景

    自主漫游場景的設置如圖7所示,與領航跟隨場景相比,魚群中沒有領航者個體,所有個體需要在環(huán)境中以整體的形式隨機漫游。如果環(huán)境中存在障礙物,魚群需要避開障礙物。設有一個3條魚組成的魚群(n=3),f1、f2與f3的行為策略均由網絡擬合并學習訓練獲得。針對自主漫游場景實驗的具體參數(shù)設置為:環(huán)境大小M=11,感知范圍S=5;獎勵機制的可調參數(shù)β1=1,β2=1,β3=0,β4=0,β5=0;Tmax=250,無提前終止條件。圖7展示了一次典型測試過程魚群運動狀態(tài)的變化情況。在T=76時,所有個體朝著上方運動,且個體之間距離為1。在T=130時,所有個體朝著下方運動,且個體之間距離為1。經數(shù)據(jù)統(tǒng)計,在250個時間步內,魚群始終聚集在一起,互相碰撞0次,碰到障礙物1次,說明魚群學會了博德規(guī)則中的“聚集”規(guī)則,同時還可避開環(huán)境中的障礙物。

    圖7 自主漫游場景的學習結果Fig.7 Results of learning in the autonomous wandering scenario

    4.3 群體導航場景

    圖8 群體導航場景的學習結果Fig.8 Results of learning in the group navigation scenario

    在群體導航場景中,魚群中所有個體需要朝著給定目標協(xié)同地運動。如果環(huán)境中存在障礙物,魚群需要避開障礙物。設有一個3條魚組成的魚群(n=3),f1、f2與f3的行為策略均由網絡擬合并學習訓練獲得。針對群體導航場景實驗的具體參數(shù)設置為:環(huán)境大小M=19,感知范圍S=5,獎勵位置為prew(5,13);獎勵機制的可調參數(shù)β1=1,β2=1,β3=2,β4=10,β5=0;Tmax=50,無提前終止條件。圖8展示了一次典型測試過程魚群運動狀態(tài)的變化情況。初始時刻,魚群的狀態(tài)如圖8中T=0時所示魚群。模擬開始后,魚群一直朝右側方向游動,直至T=5時,即將碰到環(huán)境中的障礙物。魚群改變游動方向,朝右上側游動繞過障礙物并接近獎勵位置,到達T=11的狀態(tài)。當T=16時,魚群到達獎勵位置。之后魚群將圍繞獎勵位置在水平方向往復運動。經數(shù)據(jù)統(tǒng)計,碰到障礙物0次。實驗結果表明魚群學會協(xié)調地繞過障礙物,到達獎勵位置。魚群游動過程展現(xiàn)出聚集、同向特性。

    4.4 對比實驗結果

    為了說明赫布跡的引入對于學習過程的影響,圖9給出了群體導航學習訓練過程中,有赫布跡項和無赫布跡項2種條件下的群體獎勵值的變化曲線??梢园l(fā)現(xiàn),有赫布跡項時,群體在約80 000 個學習回合之后的學習過程相比無赫布跡項時明顯加快,使得最終的獎勵值更優(yōu),即群體所學到的行為更加符合自組織行為的特點,也表明赫布跡項的記憶特性對于群體學習過程起到了正面促進作用。

    圖9 有赫布跡項和無赫布跡項條件下的學習結果Fig.9 Results of learning with and without the Hebbian trace

    基于群體導航場景的實驗結果,通過改變獎勵機制的可調參數(shù)、改變魚群個體數(shù)量、改變獎勵位置進一步測試學習算法的效果,獲得統(tǒng)計結果如表1~2所示。

    表1 魚群模擬對比實驗參數(shù)設置

    表2 魚群行為特點對比

    為了對比基于學習方法模擬的魚群行為與基于博德規(guī)則模擬的魚群[20]行為特點,設計了2個量化指標進行衡量:一個是位置偏差m1,對應博德模型中的“聚集”和“避碰”規(guī)則;另一個是朝向偏差m2,對應博德模型中的“同向”規(guī)則。m1和m2的具體計算方式如式(16)~(17)所示。

    (16)

    (17)

    通過表2的數(shù)據(jù)對比分析可知,在位置偏差度量上,基于學習方法模擬的魚群行為特點與基于博德規(guī)則模擬的魚群類似。而在朝向偏差度量方面,當可調參數(shù)β4顯著減小時,例如實驗設置A1對比A,由于與目標導航相關的獎勵值權重顯著減小,目標位置對于每個個體的方向導引作用減弱,使得魚群在個體相互作用下表現(xiàn)出更好的方向趨同性。進一步,實驗設置A2對比A1,當可調參數(shù)β3增大時,由于與朝向相關的獎勵值權重增加,模擬的魚群展現(xiàn)更好的方向趨同性。相反,當β3減小時,例如實驗設置A3對比A,與朝向相關的獎勵值權重減小,模擬的魚群方向趨同性相應變差。因此,對比實驗結果進一步證明了學習方法的有效性。

    5 結論

    為了從學習的角度切入實現(xiàn)魚群自組織行為模擬,首先構建了魚群模擬框架,包括魚群運動環(huán)境模型,智能體的感知、運動和決策模型和獎勵機制。接著,基于赫布跡和行動者-評價者框架提出了一種多智能體強化學習方法。在學習訓練階段,該方法利用網絡凍結的思想實現(xiàn)了分布式學習,有助于群體規(guī)模擴展,并利用赫布跡優(yōu)化了策略學習過程。仿真結果表明,該方法在領航跟隨、自主漫游、群體導航等場景均成功學到了魚群自組織行為。進一步數(shù)據(jù)分析發(fā)現(xiàn),基于學習方法模擬的魚群與基于博德規(guī)則計算模擬的魚群在行為特性上表現(xiàn)出一定相似性。在后續(xù)工作中,以學習結果為基礎,將進一步基于直覺物理、隨機選擇計算等類人智能因素對魚群自組織行為展開研究。

    猜你喜歡
    魚群群體神經網絡
    通過自然感染獲得群體免疫有多可怕
    科學大眾(2020年10期)2020-07-24 09:14:12
    神經網絡抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    “群體失語”需要警惕——“為官不言”也是腐敗
    當代陜西(2019年6期)2019-04-17 05:04:02
    魚群漩渦
    中外文摘(2017年19期)2017-10-10 08:28:41
    基于改進魚群優(yōu)化支持向量機的短期風電功率預測
    電測與儀表(2016年3期)2016-04-12 00:27:44
    基于人工魚群算法的光伏陣列多峰MPPT控制策略
    基于神經網絡的拉矯機控制模型建立
    重型機械(2016年1期)2016-03-01 03:42:04
    復數(shù)神經網絡在基于WiFi的室內LBS應用
    基于支持向量機回歸和RBF神經網絡的PID整定
    多子群并行人工魚群算法的改進研究
    亚洲自拍偷在线| 亚洲av男天堂| 精品久久久久久电影网| 亚洲内射少妇av| 欧美另类一区| 亚洲精品国产色婷婷电影| 午夜亚洲福利在线播放| 好男人视频免费观看在线| 下体分泌物呈黄色| 香蕉精品网在线| 国产日韩欧美亚洲二区| 日本一本二区三区精品| 亚洲av中文字字幕乱码综合| 成年女人在线观看亚洲视频 | 99视频精品全部免费 在线| 两个人的视频大全免费| 亚洲欧美精品专区久久| 久久99热这里只有精品18| 有码 亚洲区| 久久久久久久精品精品| 久久国内精品自在自线图片| 水蜜桃什么品种好| 欧美高清性xxxxhd video| 成年女人在线观看亚洲视频 | 亚洲欧美日韩卡通动漫| 99久国产av精品国产电影| 久久精品久久久久久久性| 老女人水多毛片| 国产精品国产av在线观看| 欧美激情久久久久久爽电影| 在线看a的网站| 街头女战士在线观看网站| 精品一区二区免费观看| 亚洲精品国产成人久久av| 亚洲高清免费不卡视频| 亚洲欧美日韩另类电影网站 | 亚洲婷婷狠狠爱综合网| 亚洲欧美日韩另类电影网站 | 最近的中文字幕免费完整| 蜜桃久久精品国产亚洲av| 黄色欧美视频在线观看| 精品少妇黑人巨大在线播放| 成人亚洲精品一区在线观看 | 欧美区成人在线视频| 蜜臀久久99精品久久宅男| 少妇人妻 视频| 久久久久久久午夜电影| 六月丁香七月| 韩国av在线不卡| 亚洲av在线观看美女高潮| 日韩一区二区视频免费看| 大香蕉久久网| 一本一本综合久久| 午夜激情福利司机影院| 亚洲美女搞黄在线观看| 在线播放无遮挡| 高清午夜精品一区二区三区| 少妇人妻一区二区三区视频| 欧美精品国产亚洲| 偷拍熟女少妇极品色| 男插女下体视频免费在线播放| 天堂俺去俺来也www色官网| 免费黄频网站在线观看国产| 十八禁网站网址无遮挡 | 美女高潮的动态| 国产日韩欧美在线精品| 亚洲欧美日韩东京热| 国内少妇人妻偷人精品xxx网站| 日韩不卡一区二区三区视频在线| 国产亚洲最大av| 好男人视频免费观看在线| 热re99久久精品国产66热6| 成人美女网站在线观看视频| 国产精品不卡视频一区二区| 一级毛片黄色毛片免费观看视频| 国产精品无大码| 国产成人精品婷婷| 亚洲国产精品成人综合色| 免费观看的影片在线观看| 亚洲成人一二三区av| 欧美一级a爱片免费观看看| 成人免费观看视频高清| 色吧在线观看| 一级二级三级毛片免费看| 国产亚洲精品久久久com| 国产欧美日韩一区二区三区在线 | 久久久午夜欧美精品| 我的女老师完整版在线观看| 最近中文字幕高清免费大全6| 精品一区二区三区视频在线| 99久久人妻综合| 91狼人影院| 成年女人看的毛片在线观看| 精品国产乱码久久久久久小说| 欧美国产精品一级二级三级 | 26uuu在线亚洲综合色| 91久久精品国产一区二区三区| 午夜福利视频1000在线观看| 特大巨黑吊av在线直播| 日韩电影二区| 国产老妇女一区| 精品久久久久久久久亚洲| 亚洲欧洲日产国产| 国产在视频线精品| 中文字幕亚洲精品专区| 中国美白少妇内射xxxbb| 国产精品一区二区性色av| 亚洲伊人久久精品综合| 久久久久久久精品精品| 麻豆乱淫一区二区| 亚洲自偷自拍三级| 欧美zozozo另类| 日本黄色片子视频| 精品久久久久久久人妻蜜臀av| 免费观看在线日韩| 成人国产麻豆网| 亚洲最大成人av| 国产精品嫩草影院av在线观看| 久久精品国产亚洲av天美| 亚洲性久久影院| 麻豆久久精品国产亚洲av| 亚洲欧洲国产日韩| 亚洲av电影在线观看一区二区三区 | 如何舔出高潮| 免费看不卡的av| 国产女主播在线喷水免费视频网站| 高清日韩中文字幕在线| 亚洲精品影视一区二区三区av| 欧美丝袜亚洲另类| 夜夜爽夜夜爽视频| 99精国产麻豆久久婷婷| 日韩精品有码人妻一区| 在线观看美女被高潮喷水网站| 日韩 亚洲 欧美在线| 一级爰片在线观看| 国产熟女欧美一区二区| 一区二区av电影网| 欧美激情在线99| 干丝袜人妻中文字幕| 国产精品国产av在线观看| 91久久精品电影网| 色吧在线观看| 最后的刺客免费高清国语| 丝瓜视频免费看黄片| 亚洲欧美日韩东京热| 亚洲精品,欧美精品| 男女国产视频网站| 亚洲四区av| 日本一本二区三区精品| 最近中文字幕2019免费版| 少妇人妻 视频| 午夜福利视频精品| 亚洲国产成人一精品久久久| 99re6热这里在线精品视频| 国产黄色免费在线视频| 夫妻午夜视频| 午夜爱爱视频在线播放| 黄色欧美视频在线观看| 天堂中文最新版在线下载 | 国产人妻一区二区三区在| 在线观看一区二区三区激情| 熟女电影av网| 各种免费的搞黄视频| 高清欧美精品videossex| 99热这里只有精品一区| 国产黄片美女视频| 最新中文字幕久久久久| 在线观看美女被高潮喷水网站| 国产 精品1| 国产色婷婷99| 大话2 男鬼变身卡| 中文精品一卡2卡3卡4更新| 久久久色成人| 国产免费又黄又爽又色| 亚洲第一区二区三区不卡| 中国三级夫妇交换| 男插女下体视频免费在线播放| 国产黄片美女视频| 熟妇人妻不卡中文字幕| 一个人看视频在线观看www免费| av播播在线观看一区| 美女xxoo啪啪120秒动态图| 成年人午夜在线观看视频| 国产精品一区www在线观看| 一级爰片在线观看| 精品熟女少妇av免费看| 精华霜和精华液先用哪个| 亚洲av.av天堂| 亚洲av免费在线观看| 久久久久九九精品影院| 真实男女啪啪啪动态图| 亚洲第一区二区三区不卡| 黑人高潮一二区| 亚洲欧美一区二区三区国产| 国产探花极品一区二区| 久久99热这里只有精品18| 国产精品嫩草影院av在线观看| 久久久欧美国产精品| 五月伊人婷婷丁香| 一区二区三区乱码不卡18| 午夜免费观看性视频| 国产精品福利在线免费观看| 国产精品久久久久久av不卡| av在线老鸭窝| 国产乱人视频| 亚洲色图综合在线观看| 国产综合懂色| 两个人的视频大全免费| 国产一区二区亚洲精品在线观看| 水蜜桃什么品种好| 免费看不卡的av| 国产精品成人在线| 一级毛片久久久久久久久女| 女的被弄到高潮叫床怎么办| 国产精品一区二区三区四区免费观看| 在线观看一区二区三区| 91精品伊人久久大香线蕉| 久久精品国产鲁丝片午夜精品| 国产有黄有色有爽视频| 国产欧美另类精品又又久久亚洲欧美| 男人和女人高潮做爰伦理| 国产日韩欧美在线精品| 久久久久久伊人网av| 一区二区三区四区激情视频| 免费在线观看成人毛片| 久热这里只有精品99| 久久精品人妻少妇| 超碰av人人做人人爽久久| 亚洲av不卡在线观看| 91狼人影院| 国产精品国产三级专区第一集| 成人国产av品久久久| 日韩免费高清中文字幕av| 美女视频免费永久观看网站| 久久久久久久久久成人| 亚洲第一区二区三区不卡| 久久久久久久久大av| 色视频在线一区二区三区| 久热久热在线精品观看| 亚洲无线观看免费| 亚洲精品aⅴ在线观看| 久久精品国产自在天天线| 一级毛片久久久久久久久女| 最近的中文字幕免费完整| 精品人妻一区二区三区麻豆| 亚洲在久久综合| 国产黄色免费在线视频| 夫妻午夜视频| 久久久色成人| 国产毛片在线视频| 国产一区二区三区av在线| 九色成人免费人妻av| 久久国内精品自在自线图片| 免费看av在线观看网站| 国产毛片a区久久久久| 亚洲伊人久久精品综合| 麻豆成人午夜福利视频| 亚洲av成人精品一区久久| .国产精品久久| 欧美亚洲 丝袜 人妻 在线| 国产欧美另类精品又又久久亚洲欧美| 国产免费视频播放在线视频| 成人二区视频| 亚洲色图av天堂| 97超视频在线观看视频| 熟女人妻精品中文字幕| 国产精品99久久久久久久久| 一区二区av电影网| 精品一区二区三区视频在线| 日韩成人伦理影院| 黄片wwwwww| 最近手机中文字幕大全| 秋霞伦理黄片| 精华霜和精华液先用哪个| 插阴视频在线观看视频| 秋霞伦理黄片| av国产免费在线观看| 欧美日韩国产mv在线观看视频 | 色5月婷婷丁香| 少妇人妻 视频| 亚洲四区av| 在线播放无遮挡| 欧美bdsm另类| 国产精品熟女久久久久浪| 欧美高清成人免费视频www| 精品国产乱码久久久久久小说| 美女cb高潮喷水在线观看| 人妻 亚洲 视频| 国产黄色免费在线视频| 国产成人免费无遮挡视频| 国产日韩欧美在线精品| 亚洲真实伦在线观看| 91久久精品国产一区二区成人| 中文在线观看免费www的网站| 国产女主播在线喷水免费视频网站| 欧美一区二区亚洲| 熟妇人妻不卡中文字幕| 国产免费一级a男人的天堂| 听说在线观看完整版免费高清| 丝瓜视频免费看黄片| 91久久精品电影网| 国产av国产精品国产| tube8黄色片| 男女边摸边吃奶| 亚洲欧美日韩卡通动漫| 天堂网av新在线| av播播在线观看一区| 午夜老司机福利剧场| 伦理电影大哥的女人| 欧美成人精品欧美一级黄| 亚洲三级黄色毛片| 亚洲成人精品中文字幕电影| 久久精品久久精品一区二区三区| 最近最新中文字幕大全电影3| 神马国产精品三级电影在线观看| 国产精品久久久久久av不卡| 美女被艹到高潮喷水动态| 亚洲欧美日韩无卡精品| 男插女下体视频免费在线播放| 熟女av电影| 国产成人91sexporn| 国产精品99久久99久久久不卡 | 国产大屁股一区二区在线视频| 午夜福利在线观看免费完整高清在| 听说在线观看完整版免费高清| 国产乱人偷精品视频| 国产乱人视频| 六月丁香七月| 人人妻人人看人人澡| 亚洲伊人久久精品综合| 亚洲精品成人av观看孕妇| 国产高清不卡午夜福利| 国产精品三级大全| 免费黄网站久久成人精品| 天天躁夜夜躁狠狠久久av| 色视频在线一区二区三区| 天堂网av新在线| eeuss影院久久| 国产淫片久久久久久久久| 九草在线视频观看| 久久久国产一区二区| 亚洲av不卡在线观看| 久久久久久九九精品二区国产| 少妇猛男粗大的猛烈进出视频 | 91久久精品国产一区二区三区| av线在线观看网站| 亚洲精品久久久久久婷婷小说| 成人无遮挡网站| 熟女av电影| 日韩三级伦理在线观看| 国产69精品久久久久777片| 欧美三级亚洲精品| 午夜亚洲福利在线播放| 成人一区二区视频在线观看| 少妇人妻 视频| 国产乱来视频区| 肉色欧美久久久久久久蜜桃 | 十八禁网站网址无遮挡 | 国产女主播在线喷水免费视频网站| 亚洲,一卡二卡三卡| 国产淫语在线视频| 日本wwww免费看| 三级国产精品片| 免费观看av网站的网址| 精品少妇久久久久久888优播| 青春草视频在线免费观看| 99热国产这里只有精品6| 欧美xxxx性猛交bbbb| 亚洲成人av在线免费| 色哟哟·www| 最近的中文字幕免费完整| 中国美白少妇内射xxxbb| 欧美bdsm另类| 六月丁香七月| 在线观看人妻少妇| 亚洲精品成人久久久久久| 国产 精品1| 亚洲成人av在线免费| 在线观看美女被高潮喷水网站| 青春草视频在线免费观看| 国产精品av视频在线免费观看| 久久99热6这里只有精品| 寂寞人妻少妇视频99o| 毛片一级片免费看久久久久| 亚洲人成网站在线观看播放| 97超视频在线观看视频| 中文字幕制服av| 男女边摸边吃奶| 99久国产av精品国产电影| 日韩,欧美,国产一区二区三区| 少妇的逼好多水| 免费黄网站久久成人精品| 只有这里有精品99| 日韩亚洲欧美综合| 成年版毛片免费区| 欧美性猛交╳xxx乱大交人| 国产免费又黄又爽又色| 亚洲国产av新网站| 亚洲精品456在线播放app| 男女边摸边吃奶| 国产亚洲av嫩草精品影院| 国产精品一区二区三区四区免费观看| 国产精品爽爽va在线观看网站| 国产成人a区在线观看| 视频区图区小说| 热re99久久精品国产66热6| 国产永久视频网站| 最后的刺客免费高清国语| 日韩,欧美,国产一区二区三区| 亚洲最大成人av| 免费人成在线观看视频色| 国产精品一及| 男人狂女人下面高潮的视频| 亚洲一区二区三区欧美精品 | 午夜福利高清视频| 精品久久久精品久久久| 99久久九九国产精品国产免费| 激情 狠狠 欧美| 久久这里有精品视频免费| 中国三级夫妇交换| 亚洲图色成人| 美女主播在线视频| 少妇熟女欧美另类| 国产免费一级a男人的天堂| 91久久精品国产一区二区成人| 伦精品一区二区三区| 精品一区在线观看国产| 国产成人a区在线观看| 亚洲国产精品专区欧美| 精品99又大又爽又粗少妇毛片| 国产黄频视频在线观看| 欧美xxxx性猛交bbbb| 成人毛片60女人毛片免费| 午夜福利视频1000在线观看| 久久女婷五月综合色啪小说 | tube8黄色片| 精品一区二区免费观看| 精品99又大又爽又粗少妇毛片| 亚洲欧美日韩无卡精品| 秋霞在线观看毛片| 欧美精品人与动牲交sv欧美| 春色校园在线视频观看| 亚洲成人av在线免费| 男男h啪啪无遮挡| 日韩,欧美,国产一区二区三区| 18禁在线播放成人免费| 免费av观看视频| 欧美另类一区| 成人欧美大片| 又粗又硬又长又爽又黄的视频| 免费黄频网站在线观看国产| 久久久久久久久大av| 九九爱精品视频在线观看| 哪个播放器可以免费观看大片| 少妇熟女欧美另类| 日韩一本色道免费dvd| 在线免费十八禁| 寂寞人妻少妇视频99o| 最近最新中文字幕大全电影3| 日韩一本色道免费dvd| 久久久久精品性色| av在线蜜桃| 国产老妇伦熟女老妇高清| 免费观看av网站的网址| 欧美日韩国产mv在线观看视频 | 69av精品久久久久久| 国产欧美日韩精品一区二区| 国产亚洲91精品色在线| 在线观看人妻少妇| 国产成人免费观看mmmm| 亚洲图色成人| 精品一区二区免费观看| 别揉我奶头 嗯啊视频| 一区二区av电影网| 亚洲不卡免费看| av免费观看日本| 如何舔出高潮| 在线观看av片永久免费下载| 免费观看无遮挡的男女| 18+在线观看网站| 精品一区在线观看国产| 另类亚洲欧美激情| 欧美国产精品一级二级三级 | 大香蕉97超碰在线| 亚洲第一区二区三区不卡| 国产亚洲av嫩草精品影院| 免费观看av网站的网址| 国产亚洲av嫩草精品影院| av.在线天堂| 亚洲四区av| 大话2 男鬼变身卡| 男人爽女人下面视频在线观看| 纵有疾风起免费观看全集完整版| 在现免费观看毛片| 日韩欧美 国产精品| 水蜜桃什么品种好| 亚洲一区二区三区欧美精品 | 国产一区二区三区av在线| 国产精品久久久久久精品古装| 国产 一区精品| 亚洲av不卡在线观看| 又大又黄又爽视频免费| 久久精品国产亚洲av天美| 免费av毛片视频| 国产 一区 欧美 日韩| 大码成人一级视频| av专区在线播放| 国产视频首页在线观看| 中文资源天堂在线| 国产精品一二三区在线看| 亚洲精品视频女| 麻豆精品久久久久久蜜桃| 一区二区三区精品91| 干丝袜人妻中文字幕| 久久久久九九精品影院| 欧美xxⅹ黑人| 精品一区二区三区视频在线| 中文字幕av成人在线电影| 国产精品99久久99久久久不卡 | 日韩精品有码人妻一区| av线在线观看网站| 最近最新中文字幕免费大全7| 99热这里只有是精品50| 国产成人福利小说| 80岁老熟妇乱子伦牲交| 欧美一区二区亚洲| 精品酒店卫生间| videossex国产| 亚洲第一区二区三区不卡| 乱系列少妇在线播放| 亚洲av中文av极速乱| 热re99久久精品国产66热6| 成人黄色视频免费在线看| 免费黄网站久久成人精品| 久久久久久久久大av| 最近最新中文字幕大全电影3| 精品午夜福利在线看| 亚洲三级黄色毛片| 自拍欧美九色日韩亚洲蝌蚪91 | 毛片一级片免费看久久久久| av天堂中文字幕网| 最近手机中文字幕大全| 最近中文字幕2019免费版| 最近手机中文字幕大全| 亚洲欧美一区二区三区黑人 | 日日摸夜夜添夜夜添av毛片| 观看美女的网站| 久久久久久久久久久免费av| 男插女下体视频免费在线播放| 纵有疾风起免费观看全集完整版| 精品一区二区三区视频在线| 交换朋友夫妻互换小说| 久久久久国产精品人妻一区二区| 永久免费av网站大全| 狂野欧美白嫩少妇大欣赏| 中文欧美无线码| 狠狠精品人妻久久久久久综合| 美女主播在线视频| 久久精品国产亚洲av天美| 一级毛片 在线播放| 尤物成人国产欧美一区二区三区| 日日撸夜夜添| 成人美女网站在线观看视频| 精品午夜福利在线看| 国产综合懂色| 自拍欧美九色日韩亚洲蝌蚪91 | 精品一区在线观看国产| 精品视频人人做人人爽| 国产国拍精品亚洲av在线观看| 亚洲天堂国产精品一区在线| 精品人妻一区二区三区麻豆| 国产午夜精品久久久久久一区二区三区| 日韩 亚洲 欧美在线| 亚洲一区二区三区欧美精品 | 国产精品一区二区在线观看99| 校园人妻丝袜中文字幕| 亚洲欧美日韩东京热| 91久久精品国产一区二区成人| 亚洲经典国产精华液单| 国产精品熟女久久久久浪| freevideosex欧美| 亚洲精品国产av蜜桃| 亚洲精品色激情综合| 亚洲欧美成人精品一区二区| 国精品久久久久久国模美| 三级男女做爰猛烈吃奶摸视频| 国产片特级美女逼逼视频| 国产极品天堂在线| 晚上一个人看的免费电影| 国产成人91sexporn| 欧美潮喷喷水| 日韩成人av中文字幕在线观看| 精品国产一区二区三区久久久樱花 | 欧美精品一区二区大全| 干丝袜人妻中文字幕| 久久久成人免费电影| 亚洲丝袜综合中文字幕| 偷拍熟女少妇极品色| 夫妻性生交免费视频一级片| 在现免费观看毛片| 2021天堂中文幕一二区在线观| av线在线观看网站| 日本猛色少妇xxxxx猛交久久| 欧美激情国产日韩精品一区| 一级毛片我不卡| 亚洲一区二区三区欧美精品 | 久久久成人免费电影| 国产欧美日韩精品一区二区| 91在线精品国自产拍蜜月| 亚洲电影在线观看av| 秋霞在线观看毛片| 亚洲美女视频黄频| 久久精品熟女亚洲av麻豆精品| 少妇裸体淫交视频免费看高清| 最近中文字幕2019免费版|