楊慧慧,黃萬榮,敖富江
(1. 大連海洋大學 水產與生命學院, 遼寧 大連 116023; 2. 軍事科學院, 北京 海淀 100071)
自組織行為廣泛存在于自然界中,一個典型的案例就是魚群。魚群中的每個個體不僅會主動地相互靠近,還能協(xié)同一致地調整自己的行為,以達到群體效果。魚群的自組織特性有助于提升個體的游動效率、生存和繁衍概率。相對地,目前大部分人造群體系統(tǒng)還只能依靠機械的程控方式完成其功能。如果人造群體可以模仿魚群的組織方式,將獲得更為智能、可觀的效能。因此,研究魚群自組織行為有助于探索自組織行為的內在機理,對實現(xiàn)群體智能有重要的理論意義和應用價值。
Reynolds[1]首次通過計算機程序模擬了魚群、鳥群等生物群體的自組織行為,并提出了博德模型(Boids model),即每個智能體基于局部的觀察信息,按照避碰、同向、聚集3條規(guī)則計算其運動速度,群體便能實現(xiàn)類似生物群體的自組織運動。在博德模型的基礎上,多個模型陸續(xù)被提出,或優(yōu)化了原有規(guī)則的計算方式,或增加了新的規(guī)則。上述模型均能模擬群體的自組織行為,其特點是都假設群體中的個體能夠基于感知信息進行復雜計算。然而,這類假設并未觸及自組織行為的本質,魚、鳥等生物個體不一定能進行如此復雜的規(guī)則計算。因此,不同于之前基于規(guī)則設計模型的研究方式,本文從學習的角度切入,對自組織行為展開研究,通過魚群行為的模擬,試圖探索自組織行為的生成機理。
自組織[2]是指一個系統(tǒng)在時間上由無組織到有序的動態(tài)過程。自然界廣泛存在自組織過程。小鳥成群結隊地飛行,以減少風阻、節(jié)省能耗;在海洋中,許多魚經常聚在一起行動,可以比一條魚更快發(fā)現(xiàn)敵人并巧妙地避開;螞蟻無須復雜的信息交流,可以通過合作高效地完成覓食、搬運等任務;在微觀世界,免疫細胞協(xié)同合作,攻擊侵入生物體的病毒和異物。這些自組織過程是自發(fā)產生的,沒有外部控制和干預,甚至沒有內部集中控制,可使系統(tǒng)更好地適應環(huán)境。生物群體自組織行為的一個重要特征是涌現(xiàn)[3]。涌現(xiàn)是指群體中的個體遵循簡單的規(guī)則(如模仿),通過自組織就能展現(xiàn)出整體大于部分之和的特性。群體智能[4]的一個研究方向正是通過研究涌現(xiàn)機理而模擬自然界生物群體實現(xiàn)自組織行為。關于自組織行為模擬的研究可以追溯到20世紀80年代。Reynolds[1]提出了博德模型,基于避碰、同向和聚集3條規(guī)則成功模擬了鳥群的飛行和避障行為。博德模型也被成功應用于《蝙蝠俠歸來》《指環(huán)王》等科幻電影的后期制作中,用于模擬蝙蝠群、戰(zhàn)士群特效。根據(jù)博德模型,Spector等[5]提出了Swarm模型,進一步描述了相鄰個體之間的相互作用;Kwong等[6]對Swarm模型進行了仿真,獲得了聚集、繞“8”字形等行為特征。Vicsek等[7]根據(jù)對磁鐵特性的觀察,建立了Vicsek模型,假設所有個體速率相同,個體的運動方向取決于它周圍個體的運動方向的平均值。Vicsek模型與博德模型類似,都是基于規(guī)則的模擬方法。除了在仿真環(huán)境中研究之外,Seyfried等[8]用數(shù)以千計的微小機器人組成集群,能夠像蟻群一樣執(zhí)行一些特定任務,在生產線完成裝配任務。Ampatzis等[9]構建一組能夠自主組裝的機器人,能完成協(xié)同搬運、攀爬小山、穿過崎嶇地帶等復雜任務。Rubenstein等[10]設計了一組微小機器人——Kilobot,1024個功能簡單的機器人通過3條簡單規(guī)則(貼邊運動、梯度隊形、定位),通過完全的分布式控制,能夠自發(fā)形成比較復雜的宏觀圖形。Kilobot研究成果于2014年發(fā)表在《Science》雜志并被評為年度十大科學進展。上述研究工作在不同方面展現(xiàn)了群體自組織的特性,但是都需要通過人為設定若干規(guī)則,使得個體在規(guī)則的作用下展現(xiàn)出一定的自組織特性。
赫布跡來源于一個認知生理學理論——赫布定律[11](Hebb′s rule)。加拿大心理學家唐納德·赫布于1949年提出了赫布定律,描述了突觸可塑性的基本原理,即突觸前神經元向突觸后神經元的持續(xù)重復的刺激可以導致突觸傳遞效能的增加。突觸可塑性是生物大腦長期學習的重要原因之一。因此,在進化算法中出現(xiàn)了基于突觸可塑性設計的塑性神經網絡,但是由于技術發(fā)展的局限,塑性神經網絡不能與成熟的深度學習技術結合。最大的問題在于無法使用深度學習常用的梯度下降方法完成塑性神經網絡的大規(guī)模反向傳播訓練。實現(xiàn)塑性神經網絡的學習訓練,將為神經網絡獲得像人類一樣的持續(xù)學習能力提供一種可能性。Miconi等[12]提出了一種可以大規(guī)模訓練的塑性神經網絡。經典的神經網絡模型,通常用權值連接對兩個神經元之間的關聯(lián)程度進行量化。這種連接的權值會隨著神經網絡的訓練與反向傳播過程不斷更新。但是一旦神經網絡模型訓練完畢,它的權值就不會再發(fā)生變化,模型的結構與功能會相應地固化下來。Miconi等設計的塑性神經網絡在固定權值連接的基礎上,增加了一類權值可變的連接,這類連接的權值稱為赫布跡(Hebbian trace)。赫布跡會隨著兩個神經元的活動而發(fā)生變化,即使是在神經網絡模型的應用階段,這種特性也會保持。因此,赫布跡的作用是記憶輸入神經元和輸出神經元的活動軌跡,從而可以更快地強化鞏固新的輸入特征,學習到更好的模型?;谶@種記憶的作用,塑性神經網絡被證明可以應用在模式恢復[13]、小樣本學習[12]、自然語言處理[14]等問題中。
強化學習是通過智能體與環(huán)境的不斷交互,逐漸修正智能體行為策略的一種學習方式。智能體獲取環(huán)境當前的狀態(tài),根據(jù)行為策略產生動作決策,作用于環(huán)境使其狀態(tài)發(fā)生變化。環(huán)境會根據(jù)狀態(tài)變化的“方向”,對該動作決策進行評估,返回一個獎勵值。獎勵值為正說明該決策產生了有利的結果,獎勵值為負則說明該決策產生了不利的影響。智能體根據(jù)獎勵值修正自己的行為策略,盡可能使動作決策產生有利影響,獲得更多累積獎勵值。強化學習在機器人、無人駕駛、游戲、自然語言處理、金融、電商等領域有著廣泛應用。
強化學習的研究與理論發(fā)展有2個重要的方向:多智能體強化學習和深度強化學習。多智能體強化學習研究面臨信用分配、搜索空間維度爆炸等挑戰(zhàn)。早期研究將多個智能體作為一個整體系統(tǒng)進行學習,然而集中式的方式學習不利于群體規(guī)模的擴展。之后,隨著博弈論的發(fā)展,分布式的多智能體強化學習開始顯著發(fā)展。近年來,伴隨著深度學習引發(fā)的人工智能熱潮,強化學習與深度學習相結合,出現(xiàn)了深度強化學習技術。深度強化學習結合了深度學習強大的擬合能力和強化學習的交互特性,取得了很多成果。DeepMind基于深度強化學習研發(fā)的AlphaGo[15]成為第一個擊敗人類職業(yè)圍棋選手和圍棋世界冠軍的人工智能機器人。Tampuu等[16]將深度強化學習算法深度Q網絡(Deep Q-Network, DQN)應用到多智能體游戲環(huán)境中,在完全協(xié)作環(huán)境、完全競爭環(huán)境以及非完全協(xié)作/競爭環(huán)境中學習游戲策略。Lowe等[17]將深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法擴展到多智能體環(huán)境中,提出了多智能體DDPG(Multi-Agent DDPG, MADDPG)算法,并通過共享全局信息訓練評價網絡,解決環(huán)境模型不平穩(wěn)問題。
為了實現(xiàn)基于強化學習對魚群自組織行為進行模擬,首先需要構建環(huán)境模型和智能體(魚)模型。
考慮n條魚組成的魚群,用F={f1,f2,…,fn}表示。魚群在一個二維、封閉、網格化的環(huán)境中運動,環(huán)境大小為M×M,如圖1所示。構建運動世界的坐標系,設最左上角的網格為原點O(0,0),向右為x軸正方向,向下為y軸正方向。因此,網格A坐標為(M-1,0),網格B坐標為(0,M-1)。魚fi的坐標表示為pi(xi,yi)。魚群運動的環(huán)境周圍被障礙物包圍,環(huán)境內部也隨機分布著障礙物。用二維矩陣Env表示魚群運動的環(huán)境。Env的元素有1和0兩種取值可能:1表示障礙物網格,魚無法運動到該網格;0表示自由網格,魚可以運動到該網格。在一些應用場景中,環(huán)境中可能存在一個獎勵位置(如圖1網格中有食物),坐標為prew(xrew,yrew)。
圖1 環(huán)境模型Fig.1 Model of the environment
智能體模型涉及感知、運動和決策3個方面。
2.2.1 感知模型
感知能力描述了魚能從環(huán)境世界獲取哪些信息。在自然界,魚通過魚眼感知環(huán)境,魚眼的感知和成像功能具有2個特點。首先,魚眼視野十分廣闊,不用轉身就能看見前后和上面的物體,例如淡水鮭在垂直面上的視野為150°,水平面上的視野為160°~170°,而人眼分別為134°和154°。魚在游動過程中,魚頭可靈活變向,且魚兩邊都有眼睛,極大地增加觀察范圍,幾乎是全向觀察。因此,可以設置每條魚能感知到以其當前位置為中心、S×S大小的網格狀態(tài),如圖1中紅色網格所示。其次,環(huán)境中物體在魚眼中的成像大小感覺和視角(從物體兩端引出的光線在眼光心處所成的夾角)成正比。魚觀察環(huán)境中其他魚時,視角受多種因素的影響,包括其他魚的大小、位置和方向等。因此,在魚的大小相同的條件下,可以認為每條魚能感知到其他魚的位置和方向。圖2展示了魚感知其他個體的典型情況?;谝暯菂^(qū)間,一條魚可以判斷與其他魚的間隔距離。按照網格可以將距離判斷分為3類情況:①視角大于30°時,距離為1;②視角在15°~30°時,距離為2;③視角小于15°時,距離大于2。分析發(fā)現(xiàn),魚眼這種對距離的度量與切比雪夫距離(Chebyshev distance)度量一致,即:
(1)
圖2 魚感知其他個體的典型情況Fig.2 Typical situations on perceiving other individuals
2.2.2 運動模型
假設每條魚具有一階運動學特性,即通過控制魚的速度更新魚的位置。為簡單起見,假設魚游動的速率恒定,為1格/時間步(網格距離基于切比雪夫距離進行度量)。因此,只需要控制魚的游動方向即可確定魚的運動過程。需要說明的是,如果魚試圖游動到障礙物網格,則魚的位置和朝向保持不變,同時設置魚與障礙物發(fā)生碰撞的標志位為True。
2.2.3 決策模型
每一個時間步,智能體需要給出一個動作決策,輸入環(huán)境以驅動智能體運動。根據(jù)智能體的運動模型,魚需要決策其游動方向。假設魚可以選擇上、下、左、右4個方向中的一個作為該時間步的游動方向。每條魚的決策策略由一個神經網絡擬合,關于神經網絡的結構及訓練方法將在第3節(jié)詳細介紹。
除了構建環(huán)境模型和智能體模型之外,還需要對獎勵機制進行建模。針對魚群行為模擬問題,根據(jù)智能體與環(huán)境的具體交互狀態(tài),獎勵有4個來源:
1)智能體是否與障礙物發(fā)生碰撞。如果智能體與障礙物發(fā)生碰撞,獎勵為-1;否則,獎勵為0。用rcol表示這部分獎勵,其計算方式如式(2)所示,其中β1為可調參數(shù),collided是判斷智能體是否與障礙物發(fā)生碰撞的標志位。
(2)
2)魚群行為是否符合自組織特性。魚群行為的特性考慮距離和朝向2類性質。在距離方面,為了使群體展現(xiàn)聚集的特點的同時不會頻繁發(fā)生個體間碰撞,設置期望距離d。如果個體間的距離恰好等于d,則獎勵值最大;如果個體間的距離大于或小于d,則獎勵值相應減小。圖3(a)給出了基于距離因素衡量獎勵值的示意圖。在朝向方面,為了使群體展現(xiàn)同向的特點,應使個體的朝向盡量趨同。如圖3(b)所示,oi、oj1和oj2分別為智能體i、j1和j2的朝向,如果朝向一致,獎勵值越大;如果朝向差異變大,獎勵值減小。因此,可以用余弦函數(shù)計算基于朝向因素衡量的獎勵值。綜合距離、朝向2個因素,與魚群行為相關的獎勵rbeh可通過式(3)進行計算,其中β2和β3為可調參數(shù)。需要注意的是,式(3)是以智能體i為中心個體計算的獎勵值,根據(jù)具體任務可以類似地計算以其他智能體為中心的獎勵值。
(3)
(a) 距離因素(a) Distance facto (b) 朝向因素(b) Orientation facto圖3 考慮距離和朝向因素的獎勵值設計Fig.3 Reward value design considering distance and orientation factors
3)在要求群體到達目標位置的場景中,通過智能體與目標位置的距離刻畫獎勵值。如果智能體距離目標位置越近,獎勵值越大;反之,獎勵值越小。與目標位置相關的獎勵值robj計算方式如式(4)所示,其中β4為可調參數(shù)。
(4)
4)為了緩解獎勵稀疏可能導致的學習過慢的問題,可以設置提前終止狀態(tài)并反饋相應的獎勵值。提前終止是由于魚群狀態(tài)與學習目標差異很大,因此需要返回較大的負獎勵值,并進入下一個學習過程。用rter表示與提前終止相關的獎勵值,計算方式如式(5)所示,其中β5為可調參數(shù),terminal是判斷某次學習過程是否提前終止的標志位。
(5)
因此,某一時間步,環(huán)境向智能體i反饋的獎勵值是上述4部分之和:
r=rcol+robj+rbeh+rter
(6)
為了以學習的方式獲得魚的行為策略,基于赫布跡和A2C框架[18](一種行動者-評價者框架)實現(xiàn)了一種多智能體深度強化學習算法。算法框架如圖4所示,主要包括魚群模擬環(huán)境和魚群游動策略兩部分。魚群模擬環(huán)境建模已在第2節(jié)給出,魚群游動策略則由n個個體獨立的策略組合而成。每條魚私有一個帶赫布跡的神經網絡,因此,本文提出一種分布式強化學習算法。在學習階段,由于所有智能體是同構的,可借鑒網絡凍結[19]的思想,先訓練f1的策略網絡而固定其他魚的策略,然后將學好的f1的策略網絡參數(shù)復制給其他智能體(見圖4空心箭頭),再進行下一輪f1策略網絡訓練。
圖4 策略學習框架Fig.4 Framework of the strategy learning
整個魚群行為的學習過程如算法1所示。由于網絡本身具有記憶特性,沒有使用記憶池與經驗回放等技術。假設學習過程一共持續(xù)Nmax個回合(第14行)。每個回合中,魚群會與環(huán)境進行若干時間步的交互。在時間步T,所有魚獲取當前時間步的感知狀態(tài)st,由策略擬合網絡產生動作決策at和狀態(tài)評價Vt。動作決策施加在環(huán)境之后,環(huán)境向智能體反饋一個獎勵值rt,同時環(huán)境狀態(tài)演變?yōu)閟t+1。如果滿足回合終止條件,即T大于Tmax或標志位terminal為True,環(huán)境狀態(tài)復位,進入下一回合的交互過程(第9行)。否則,terminal為False,繼續(xù)該回合下一個時間步的交互(第8行)。
根據(jù)f1與環(huán)境在一個回合中的交互數(shù)據(jù)(s0,a0,r0,s1,a1,r1,…,sT)可以計算損失函數(shù)J的值(第10行),具體計算方式如式(7)~(10)所示:
(7)
(8)
Ri=r0+γr1+γ2r2+…+γTrT
(9)
(10)
其中:式(8)的π(ai|si;θa)表示策略網絡擬合的動作決策函數(shù),θa表示與動作決策相關的網絡參數(shù);式(9)中的γ表示獎勵折扣因子;式(8)和式(10)中的V(si;θv)表示策略網絡擬合的狀態(tài)評估函數(shù),θv表示與狀態(tài)評估相關的網絡參數(shù)。因此,θa與θv共享一部分參數(shù)。f1根據(jù)損失函數(shù)J值進行梯度下降,通過反向傳播更新策略學習網絡參數(shù)。其他所有魚則會在回合結束時復制f1學習到的策略(第12行)。顯然,根據(jù)算法1學習到的魚群行為,所有魚的行為特點是趨同的。
算法1 魚群行為策略學習
算法中,每個智能體的策略用一個帶赫布跡的神經網絡進行擬合,所有智能體的策略網絡結構相同,其網絡結構如圖5所示。
圖5 策略學習網絡結構Fig.5 Structure of the strategy learning network
策略網絡有3(n-1)+S2+1個輸入神經元。第一部分的3(n-1)個神經元記錄了其他智能體的狀態(tài),包括位置坐標和朝向。中間一項S2個輸入神經元是智能體i對環(huán)境狀態(tài)的感知,記錄了以智能體i為中心、附近S×S個網格的狀態(tài)。最后一個神經元輸入的是時間。整個策略學習網絡的核心結構是一個長短時記憶(Long Short-Term Memory,LSTM)單元。LSTM是一類具有長期記憶和短期記憶的結構。如圖5所示,在LSTM單元的輸入門結構中增加了赫布跡項,用于強化LSTM單元的記憶特性。LSTM單元t時刻的內部狀態(tài)ct的計算過程變?yōu)椋?/p>
ct=ft⊙ct-1+it⊙gt
(11)
ft=σ(Wfh·ht-1+bfh+Wfx·xt+bfx)
(12)
it=σ(Wih·ht-1+bih+Wix·xt+bix)
(13)
gt=tanh[(Wgh+α·Hebb)·ht-1+Wgx·xt+bgx]
(14)
(15)
其中,η是控制記憶強度的系數(shù)?;贚STM單元的輸出,策略學習網絡的輸出分為2個部分。一部分是智能體在時間步T的動作決策at,它以獨熱編碼的方式表示智能體的每一種可選動作。另一部分輸出是狀態(tài)評價Vt,它以一個實數(shù)值對輸入狀態(tài)的“好壞”進行評價。Vt值越大表示認為當前狀態(tài)越“好”,越有利于智能體的策略學習。雖然動作決策和狀態(tài)評價共享了一部分網絡單元,但整個策略學習網絡的訓練方法與Minh等[19]提出的方法可以保持一致。
為了評估第3節(jié)提出的網絡結構與算法是否可用于學習到合理的魚群行為,進行了一些實驗并給出結果。首先在3類群體場景中測試了本文方法的學習效果,分別是領航跟隨場景、自主漫游場景和群體導航場景。然后對比了本文方法與基于博德規(guī)則計算模擬的方法。
在領航跟隨場景中,群體有一個領航者個體帶領其他個體運動,其余個體則作為跟隨者跟隨領航者一起運動。通過領航與跟隨的形式,魚群便能展現(xiàn)整體運動特性。設有一個3條魚組成的魚群(n=3),不失一般性,假設f3是領航者,f1和f2是跟隨者。f3由外部控制器作用,在環(huán)境中作周期環(huán)繞運動,其路徑如圖6中紅線所示。f1與f2的行為策略由網絡擬合并通過算法1學習訓練獲得。針對領航跟隨場景實驗的具體參數(shù)設置為:環(huán)境大小M=15,感知范圍S=5;獎勵機制的可調參數(shù)β1=0.1,β2=0,β3=0,β4=0,β5=10;Tmax=250,提前終止條件為跟隨者與領航者的距離超過2。圖6給出了魚群在一次典型測試回合中T=7、T=15、T=91時運動狀態(tài),可以發(fā)現(xiàn),本文學習算法學到的策略能讓f1和f2跟隨f3環(huán)繞運動。
圖6 領航跟隨場景的學習結果Fig.6 Results of learning in the leader-follower scenario
自主漫游場景的設置如圖7所示,與領航跟隨場景相比,魚群中沒有領航者個體,所有個體需要在環(huán)境中以整體的形式隨機漫游。如果環(huán)境中存在障礙物,魚群需要避開障礙物。設有一個3條魚組成的魚群(n=3),f1、f2與f3的行為策略均由網絡擬合并學習訓練獲得。針對自主漫游場景實驗的具體參數(shù)設置為:環(huán)境大小M=11,感知范圍S=5;獎勵機制的可調參數(shù)β1=1,β2=1,β3=0,β4=0,β5=0;Tmax=250,無提前終止條件。圖7展示了一次典型測試過程魚群運動狀態(tài)的變化情況。在T=76時,所有個體朝著上方運動,且個體之間距離為1。在T=130時,所有個體朝著下方運動,且個體之間距離為1。經數(shù)據(jù)統(tǒng)計,在250個時間步內,魚群始終聚集在一起,互相碰撞0次,碰到障礙物1次,說明魚群學會了博德規(guī)則中的“聚集”規(guī)則,同時還可避開環(huán)境中的障礙物。
圖7 自主漫游場景的學習結果Fig.7 Results of learning in the autonomous wandering scenario
圖8 群體導航場景的學習結果Fig.8 Results of learning in the group navigation scenario
在群體導航場景中,魚群中所有個體需要朝著給定目標協(xié)同地運動。如果環(huán)境中存在障礙物,魚群需要避開障礙物。設有一個3條魚組成的魚群(n=3),f1、f2與f3的行為策略均由網絡擬合并學習訓練獲得。針對群體導航場景實驗的具體參數(shù)設置為:環(huán)境大小M=19,感知范圍S=5,獎勵位置為prew(5,13);獎勵機制的可調參數(shù)β1=1,β2=1,β3=2,β4=10,β5=0;Tmax=50,無提前終止條件。圖8展示了一次典型測試過程魚群運動狀態(tài)的變化情況。初始時刻,魚群的狀態(tài)如圖8中T=0時所示魚群。模擬開始后,魚群一直朝右側方向游動,直至T=5時,即將碰到環(huán)境中的障礙物。魚群改變游動方向,朝右上側游動繞過障礙物并接近獎勵位置,到達T=11的狀態(tài)。當T=16時,魚群到達獎勵位置。之后魚群將圍繞獎勵位置在水平方向往復運動。經數(shù)據(jù)統(tǒng)計,碰到障礙物0次。實驗結果表明魚群學會協(xié)調地繞過障礙物,到達獎勵位置。魚群游動過程展現(xiàn)出聚集、同向特性。
為了說明赫布跡的引入對于學習過程的影響,圖9給出了群體導航學習訓練過程中,有赫布跡項和無赫布跡項2種條件下的群體獎勵值的變化曲線??梢园l(fā)現(xiàn),有赫布跡項時,群體在約80 000 個學習回合之后的學習過程相比無赫布跡項時明顯加快,使得最終的獎勵值更優(yōu),即群體所學到的行為更加符合自組織行為的特點,也表明赫布跡項的記憶特性對于群體學習過程起到了正面促進作用。
圖9 有赫布跡項和無赫布跡項條件下的學習結果Fig.9 Results of learning with and without the Hebbian trace
基于群體導航場景的實驗結果,通過改變獎勵機制的可調參數(shù)、改變魚群個體數(shù)量、改變獎勵位置進一步測試學習算法的效果,獲得統(tǒng)計結果如表1~2所示。
表1 魚群模擬對比實驗參數(shù)設置
表2 魚群行為特點對比
為了對比基于學習方法模擬的魚群行為與基于博德規(guī)則模擬的魚群[20]行為特點,設計了2個量化指標進行衡量:一個是位置偏差m1,對應博德模型中的“聚集”和“避碰”規(guī)則;另一個是朝向偏差m2,對應博德模型中的“同向”規(guī)則。m1和m2的具體計算方式如式(16)~(17)所示。
(16)
(17)
通過表2的數(shù)據(jù)對比分析可知,在位置偏差度量上,基于學習方法模擬的魚群行為特點與基于博德規(guī)則模擬的魚群類似。而在朝向偏差度量方面,當可調參數(shù)β4顯著減小時,例如實驗設置A1對比A,由于與目標導航相關的獎勵值權重顯著減小,目標位置對于每個個體的方向導引作用減弱,使得魚群在個體相互作用下表現(xiàn)出更好的方向趨同性。進一步,實驗設置A2對比A1,當可調參數(shù)β3增大時,由于與朝向相關的獎勵值權重增加,模擬的魚群展現(xiàn)更好的方向趨同性。相反,當β3減小時,例如實驗設置A3對比A,與朝向相關的獎勵值權重減小,模擬的魚群方向趨同性相應變差。因此,對比實驗結果進一步證明了學習方法的有效性。
為了從學習的角度切入實現(xiàn)魚群自組織行為模擬,首先構建了魚群模擬框架,包括魚群運動環(huán)境模型,智能體的感知、運動和決策模型和獎勵機制。接著,基于赫布跡和行動者-評價者框架提出了一種多智能體強化學習方法。在學習訓練階段,該方法利用網絡凍結的思想實現(xiàn)了分布式學習,有助于群體規(guī)模擴展,并利用赫布跡優(yōu)化了策略學習過程。仿真結果表明,該方法在領航跟隨、自主漫游、群體導航等場景均成功學到了魚群自組織行為。進一步數(shù)據(jù)分析發(fā)現(xiàn),基于學習方法模擬的魚群與基于博德規(guī)則計算模擬的魚群在行為特性上表現(xiàn)出一定相似性。在后續(xù)工作中,以學習結果為基礎,將進一步基于直覺物理、隨機選擇計算等類人智能因素對魚群自組織行為展開研究。