蒲志強(qiáng) 易建強(qiáng) 劉振 丘騰海 孫金林 李非墨
群體智能 (Collective intelligence,CI)起源于對群居性生物及人類社會性行為的觀察研究,因其分布性、靈活性和健壯性等優(yōu)勢,為很多極具挑戰(zhàn)的復(fù)雜性問題提供了新的解決方案,是新一代人工智能重點(diǎn)發(fā)展的五大智能形態(tài)之一[1].進(jìn)一步,由無人機(jī)、無人車等自主無人平臺組成的無人集群系統(tǒng)獲得長足發(fā)展,在智能交通管控、區(qū)域物流調(diào)度、機(jī)器人集群控制、復(fù)雜網(wǎng)絡(luò)同步等領(lǐng)域取得了一系列研究和應(yīng)用成果[1-11].特別是在軍事智能領(lǐng)域,群體智能已被認(rèn)為是有可能帶來顛覆性變革的新技術(shù),國內(nèi)外紛紛部署相關(guān)研究項(xiàng)目,如美國的 “進(jìn)攻性蜂群使能戰(zhàn)術(shù)” (Offensive swarm-enabled tactics,OFFSET)項(xiàng)目、“拒止環(huán)境中的協(xié)同作戰(zhàn)” (Collaborative operations in denied environment,CODE)項(xiàng)目,印度2019 年發(fā)布的首個(gè)無人機(jī)集群概念項(xiàng)目 “空射彈性資產(chǎn)群” (Air-launched flexible assetswarm,ALFA-S),國內(nèi)中國電子科技集團(tuán)、北航、國防科大等開展的無人機(jī)集群試飛項(xiàng)目等[12].
盡管群體智能已成為當(dāng)前發(fā)展熱點(diǎn),但現(xiàn)今并沒有關(guān)于這一概念的統(tǒng)一定義[6-7].不同學(xué)者從生物群體智能[13]、人群智能[1]、多智能體系統(tǒng)[9]、復(fù)雜網(wǎng)絡(luò)[14-15]、演化博弈論[16]等截然不同的學(xué)科視角出發(fā)展開研究,從不同側(cè)面取得了豐富的研究成果.本文統(tǒng)一稱其為 “群體智能”,并選擇其對應(yīng)英文為Collective intelligence.一方面因?yàn)樵谖覈乱淮斯ぶ悄苤?群體智能已顯性地成為一種智能形態(tài),此時(shí)已有必要將不同學(xué)科下的概念加以融合;另一方面CI 在英文文獻(xiàn)中的內(nèi)涵也更為廣泛[1-6],能相對更好地與 “群體智能”這一概念相對應(yīng).特別地,本文將融合控制論等學(xué)科進(jìn)展,較多著墨于由無人系統(tǒng)這類物理平臺組成的群體系統(tǒng).因此,本文在談及統(tǒng)一性概念時(shí)采用 “群體智能”,而在具體問題中則可能結(jié)合上下文稱這樣的系統(tǒng)為 “集群系統(tǒng)”“多智能體系統(tǒng)”等.
當(dāng)前群體智能決策主要基于兩大類方法:知識驅(qū)動和數(shù)據(jù)驅(qū)動.知識驅(qū)動方法[17]可充分利用已有知識,包括已有模型與算法知識、規(guī)則經(jīng)驗(yàn)知識以及特定領(lǐng)域知識.知識的廣泛內(nèi)涵便于實(shí)現(xiàn)多學(xué)科知識的靈活集成;同時(shí),許多基于模型的知識驅(qū)動方法具有完備的理論支撐體系,在分析算法穩(wěn)定性、最優(yōu)性、收斂性等方面具有天然優(yōu)勢;此外,知識驅(qū)動模型具有更好的可解釋性;而知識作為一種數(shù)據(jù)和信息高度凝練的體現(xiàn),也往往意味著更高效的算法執(zhí)行效率.但在實(shí)際應(yīng)用中,特別是大規(guī)模群體協(xié)同等復(fù)雜問題中,群智激發(fā)匯聚的知識機(jī)理尚不完全清晰,知識獲取的代價(jià)高昂,同時(shí)現(xiàn)有知識難以實(shí)現(xiàn)復(fù)雜群體行為龐大解空間的完備覆蓋,也難以支持集群行為的持續(xù)學(xué)習(xí)與進(jìn)化.近年來廣泛興起的深度強(qiáng)化學(xué)習(xí)等數(shù)據(jù)驅(qū)動方法[18]具有無需精確建模、能實(shí)現(xiàn)解空間的大范圍覆蓋和探索、從數(shù)據(jù)中持續(xù)學(xué)習(xí)和進(jìn)化、算法通用性強(qiáng)等特點(diǎn),同時(shí)具有海量開源模型和算法庫等工具支撐.然而,這類方法在理論特性分析上往往存在困難,其典型的“黑箱”特性也帶來了可解釋性差等問題;同時(shí),其高度依賴高質(zhì)量的大數(shù)據(jù),而在群體智能應(yīng)用中,這類數(shù)據(jù)本身較難獲取;此外,隨著群體規(guī)模和問題復(fù)雜度的提升,解空間維度災(zāi)難問題為學(xué)習(xí)效率帶來了嚴(yán)峻挑戰(zhàn);而其依賴龐大算力的特點(diǎn)也使得個(gè)人或一般性機(jī)構(gòu)在開展研究時(shí)面臨嚴(yán)重瓶頸.知識驅(qū)動與數(shù)據(jù)驅(qū)動方法的主要優(yōu)缺點(diǎn)總結(jié)如圖1所示.
圖1 知識驅(qū)動和數(shù)據(jù)驅(qū)動各自優(yōu)缺點(diǎn)Fig.1 Advantages and disadvantages of knowledgebased and data-driven methodologies
基于上述分析,將知識驅(qū)動和數(shù)據(jù)驅(qū)動兩大類方法相結(jié)合,利用各自優(yōu)勢,形成知識與數(shù)據(jù)協(xié)同驅(qū)動的新方法路徑,有望為群體智能系統(tǒng)研究和應(yīng)用提供更為廣闊的空間.這類方法盡管在近年來逐步受到關(guān)注[19-23],但尚未形成體系.為此,本文首先對知識驅(qū)動和數(shù)據(jù)驅(qū)動概念進(jìn)行定性界定,在此基礎(chǔ)上系統(tǒng)梳理了知識與數(shù)據(jù)協(xié)同驅(qū)動可能存在的不同方法路徑,主要從知識與數(shù)據(jù)的架構(gòu)級協(xié)同、算法級協(xié)同兩個(gè)不同層面進(jìn)行了方法歸類,總體框架如圖2 所示.在架構(gòu)級協(xié)同層面,從個(gè)體架構(gòu)、群體架構(gòu)兩方面介紹常見架構(gòu)體系,為復(fù)雜群體協(xié)同問題提供總體解決框架;在算法級協(xié)同層面,進(jìn)一步劃分為算法的層次化協(xié)同、組件化協(xié)同,并在每類協(xié)同方法中具體選取了若干代表性方法進(jìn)行介紹.這里,架構(gòu)級協(xié)同和算法級協(xié)同間的區(qū)別和關(guān)聯(lián)在于,前者為復(fù)雜問題的解決搭建了基礎(chǔ)框架,這為各類知識驅(qū)動、數(shù)據(jù)驅(qū)動以及知識與數(shù)據(jù)協(xié)同驅(qū)動的算法提供了 “容器”,體現(xiàn)為不同算法間的邏輯關(guān)系;而算法級協(xié)同則主要探討具體算法內(nèi)部如何協(xié)同運(yùn)用知識與數(shù)據(jù)的相關(guān)要素,體現(xiàn)為某類算法內(nèi)的邏輯關(guān)系.在對上述兩大類協(xié)同方法進(jìn)行詳細(xì)介紹后,本文最后從群體智能理論進(jìn)一步深化、應(yīng)用進(jìn)一步落地等實(shí)際需求出發(fā),指出了知識與數(shù)據(jù)協(xié)同驅(qū)動的群體智能決策中未來幾個(gè)重要的研究方向.值得說明的是,由于知識與數(shù)據(jù)驅(qū)動的外延極其廣泛,學(xué)科交叉特點(diǎn)十分明顯,本文難以覆蓋所有方法,但致力于系統(tǒng)地為知識與數(shù)據(jù)協(xié)同驅(qū)動這類極具潛力的方法開啟討論,并為當(dāng)前群體智能以及機(jī)器學(xué)習(xí)兩大熱點(diǎn)領(lǐng)域各自及其交叉領(lǐng)域的研究提供必要借鑒.
圖2 知識與數(shù)據(jù)協(xié)同驅(qū)動總體框架Fig.2 Overall framework of knowledge-based and data-driven methods integration
本質(zhì)上來說,任何人為設(shè)計(jì)的方法均包含 “知識”,例如所有神經(jīng)網(wǎng)絡(luò)模型中網(wǎng)絡(luò)結(jié)構(gòu)、激活函數(shù)、超參數(shù)的選取都體現(xiàn)了人的經(jīng)驗(yàn)或先驗(yàn)知識,但學(xué)術(shù)界顯然默認(rèn)神經(jīng)網(wǎng)絡(luò)屬于數(shù)據(jù)驅(qū)動方法.從這個(gè)意義來說,所有數(shù)據(jù)驅(qū)動方法都體現(xiàn)了知識和數(shù)據(jù)協(xié)同的理念.但這樣的理解卻使問題變得過于 “平凡”,失去了對方法設(shè)計(jì)的指導(dǎo)意義.本文所述知識與數(shù)據(jù)協(xié)同,體現(xiàn)了一種更有針對性的 “顯式”協(xié)同.以下將首先對知識驅(qū)動及數(shù)據(jù)驅(qū)動方法進(jìn)行適當(dāng)界定,并簡要介紹各自發(fā)展的總體情況.值得一提的是,這種界定本身仍停留在定性列舉而非嚴(yán)格的概念定義層面.
本文所述 “知識”包括一系列基于數(shù)學(xué)/物理模型的算法知識、規(guī)則經(jīng)驗(yàn)知識以及面向特定應(yīng)用的領(lǐng)域知識.知識驅(qū)動是許多實(shí)際群體智能系統(tǒng)的主要研究路徑,在無人集群任務(wù)規(guī)劃、博弈決策、協(xié)同控制等方方面面具有廣泛的應(yīng)用基礎(chǔ).
一是數(shù)學(xué)/物理模型知識.以群體動力學(xué)模型為例,典型的模型知識包括Reynold 模型[24]、Vicsek 模型[25]、Couzin 模型[26]、Cucker-Smale 模型[27]等,這為群體中的個(gè)體微觀運(yùn)動提供了動力學(xué)基礎(chǔ).二是基于模型的算法知識,包括各類基于模型推導(dǎo)的路徑規(guī)劃算法[28],任務(wù)分配算法[29-30],基于一階[31-32]、二階[33-34]、高階[35-36]模型的一致性控制算法等,這類方法從解析的群體數(shù)學(xué)/物理模型出發(fā),基于解析求導(dǎo)的優(yōu)化理論以及Lyapunov 等穩(wěn)定性理論實(shí)現(xiàn)群體問題求解.三是規(guī)則經(jīng)驗(yàn)知識,包括由人們對于集群基礎(chǔ)行為的認(rèn)知構(gòu)建起的集群簡單行為規(guī)則,如各類基于模糊理論[37]、知識系統(tǒng)[38]構(gòu)建起的規(guī)則推理方法等.四是面向特定應(yīng)用場景的領(lǐng)域知識,這是群體智能系統(tǒng)走向?qū)嵱没闹匾?例如在兵棋推演系統(tǒng)[39]中構(gòu)建的各類實(shí)體要素模型和裁決規(guī)則知識,這類知識為群體學(xué)習(xí)進(jìn)化提出了新的約束條件,但同時(shí)也對問題求解空間進(jìn)行了極大約簡.
以上基于機(jī)理模型、先驗(yàn)知識或規(guī)則的知識驅(qū)動方法在確定、簡單、低維的單體或群體系統(tǒng)中表現(xiàn)出良好的性能,但現(xiàn)實(shí)中群體系統(tǒng)往往難以建模,且缺乏領(lǐng)域知識,同時(shí)當(dāng)集群規(guī)模擴(kuò)大,特別是集群表現(xiàn)出高維、復(fù)雜、強(qiáng)不確定性的行為特征時(shí),已有的模型或規(guī)則經(jīng)驗(yàn)知識難以覆蓋整個(gè)解空間,知識驅(qū)動方法的適用性、穩(wěn)定性、魯棒性將大大降低.
蟻群算法、粒子群優(yōu)化算法以及直接對無人集群系統(tǒng)行為具有重要借鑒意義的狼群算法、鴿群算法等生物啟發(fā)式進(jìn)化計(jì)算方法在群體智能系統(tǒng)中具有廣泛的應(yīng)用[13,40-41].囿于數(shù)據(jù)驅(qū)動方法廣泛的外延,本文所述 “數(shù)據(jù)驅(qū)動方法”側(cè)重于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等近些年廣泛興起的機(jī)器學(xué)習(xí)算法,但在某些方法分類中附帶包括上述進(jìn)化計(jì)算方法.
深度學(xué)習(xí)具有高維數(shù)據(jù)的 “感知”能力,強(qiáng)化學(xué)習(xí)具有在與環(huán)境交互中的 “決策”能力,因此這兩種方法天然具有與大規(guī)模群體智能系統(tǒng)應(yīng)用結(jié)合的優(yōu)勢,特別是兩種算法結(jié)合形成的深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)方法.文獻(xiàn)[42]和文獻(xiàn)[43]分別對深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)進(jìn)行了綜述,而DeepMind 團(tuán)隊(duì)的系列成果則為深度強(qiáng)化學(xué)習(xí)的研究樹立起里程碑,代表性成果為三篇發(fā)表在Nature上的文章,分別介紹了在Atari 游戲[44]、圍棋程序AlphaGo[45]及其進(jìn)階版AlphaGo Zero[46]上的應(yīng)用.針對多智能體問題,文獻(xiàn)[4-5,47-48]系統(tǒng)介紹了強(qiáng)化學(xué)習(xí)在多智能體系統(tǒng)中的應(yīng)用.針對非完全信息、大規(guī)模組合空間博弈問題,DeepMind 采用模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、多智能體學(xué)習(xí)等組合方法,訓(xùn)練的AlphaStar[49]能戰(zhàn)勝99.8%的專業(yè)人類玩家,但其 “多智能體”屬性主要體現(xiàn)在由不同策略構(gòu)成策略池從而進(jìn)行聯(lián)盟學(xué)習(xí),具體到每個(gè)策略,仍是將所有操作算子看作一個(gè)整體進(jìn)行單智能體學(xué)習(xí).OpenAI團(tuán)隊(duì)提出一種多智能體深度確定性策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)算法,通過集中評判-分散執(zhí)行方式使智能體具有自主決策能力,在動態(tài)環(huán)境中實(shí)現(xiàn)智能協(xié)同合作與對抗[50],但其端到端的學(xué)習(xí)架構(gòu)在復(fù)雜問題中面臨挑戰(zhàn).此外,OpenAI 針對DOTA 2 開展的多智能體研究也取得了不錯(cuò)的成果,其開發(fā)的人工智能系統(tǒng)OpenAI Five 于2019 年4 月?lián)魯OTA 2 人類冠軍,核心技術(shù)特點(diǎn)是針對Open AI Five 這類具有上億參數(shù)量的大規(guī)模決策系統(tǒng),設(shè)計(jì)了一種新穎的 “手術(shù)” (Surgery)訓(xùn)練機(jī)制,從而能夠在模型和環(huán)境不斷變化的情況下對智能體進(jìn)行持續(xù)訓(xùn)練,而無需從頭訓(xùn)練獲取參數(shù),降低了新模型設(shè)計(jì)驗(yàn)證的成本[51].
綜上所述,盡管DRL 等數(shù)據(jù)驅(qū)動方法在單智能體及多智能體系統(tǒng)中取得了一定的研究成果,但面對非完全信息、復(fù)雜物理約束等實(shí)際問題,如何結(jié)合先驗(yàn)知識與算法模型,提高算法效率、降低算力要求,亟待進(jìn)一步深入研究.
從數(shù)據(jù)驅(qū)動的角度來看,當(dāng)前一類主流的方法是端到端的機(jī)器學(xué)習(xí)算法,即輸入原始狀態(tài)信息,經(jīng)黑箱模型后直接輸出所需要的結(jié)果,如感知模型中物體識別的類別、決策模型中智能體的行為動作等.然而,對于復(fù)雜系統(tǒng)和復(fù)雜任務(wù)而言,特別是無人集群系統(tǒng)所面臨的復(fù)雜任務(wù),端到端的學(xué)習(xí)模型難以奏效,此時(shí)一個(gè)合理的智能體任務(wù)體系架構(gòu)便顯得尤為重要.對群體智能系統(tǒng)體系架構(gòu)的研究,至少源于兩方面的需求,一是描述不同復(fù)雜任務(wù)中的通用機(jī)理和邏輯流程,有助于挖掘問題內(nèi)在的不變性機(jī)理并進(jìn)行標(biāo)準(zhǔn)化建模;二是將復(fù)雜問題分解為若干較易解決的子問題,極大降低問題處理的復(fù)雜度.體系架構(gòu)為復(fù)雜大規(guī)模問題求解搭建起基本框架,在此基礎(chǔ)上,針對架構(gòu)中的不同邏輯模塊(子成員、子任務(wù)、子系統(tǒng)等),確定是采用知識驅(qū)動、數(shù)據(jù)驅(qū)動還是知識與數(shù)據(jù)協(xié)同驅(qū)動等具體算法.因此,體系架構(gòu)充當(dāng)了算法容器的功能,使得不同驅(qū)動方式的算法形成有機(jī)協(xié)同,即實(shí)現(xiàn)架構(gòu)級協(xié)同.
體系架構(gòu)研究的內(nèi)涵十分廣泛,且存在截然不同的問題研究角度和方法路徑.針對本文所討論的群體智能系統(tǒng),大致可從兩方面剖析其體系架構(gòu)問題:一是個(gè)體的體系架構(gòu),研究個(gè)體如何自主決策;二是群體的體系架構(gòu),研究群體如何協(xié)同決策.
若將每個(gè)個(gè)體看作一個(gè)智能體(Agent),則從Agent 建模角度來看,個(gè)體的體系架構(gòu)大致可分為3 類:反應(yīng)式體系架構(gòu)、慎思式體系架構(gòu)和混合式體系架構(gòu)[52].反應(yīng)式體系架構(gòu)模擬了動物反應(yīng)式行為的特點(diǎn),包含多個(gè)能獨(dú)立輸入輸出的模塊,每個(gè)模塊采用反應(yīng)式的 “感知—?jiǎng)幼鳌苯Y(jié)構(gòu),對輸入信息進(jìn)行反應(yīng)式的動作,Brooks[53]提出的包容式體系結(jié)構(gòu)便是典型的反應(yīng)式體系架構(gòu),而多智能體控制方法中基于行為的控制方法[54]也體現(xiàn)了這一特點(diǎn).純反應(yīng)式架構(gòu)的缺陷在于,Agent 僅基于局部信息做決策,在大規(guī)模系統(tǒng)中,這種相對 “近視”的決策機(jī)制可能難以獲得理想結(jié)果.慎思式體系架構(gòu)則將對輸入信息進(jìn)行邏輯推理,典型的例子為著名的信念–意圖–期望 (Believe-desire-intension,BDI)模型[55],智能體基于所建立的信念庫、意圖庫、期望庫,按照一定的邏輯推理規(guī)則進(jìn)行推理決策.慎思式架構(gòu)的缺陷在于,其推理過程往往較復(fù)雜,難以很好地適應(yīng)實(shí)時(shí)性要求很高的環(huán)境.混合式體系架構(gòu)兼具了反應(yīng)式架構(gòu)對環(huán)境的快速反應(yīng)和慎思式架構(gòu)的邏輯推理特點(diǎn),采用層次化體系結(jié)構(gòu),對于群體系統(tǒng)往往包含3 層,自上而下分別為合作層、推理層和反應(yīng)層[52],合作層處理智能體間的合作任務(wù),推理層完成智能體內(nèi)部的慎思式推理,反應(yīng)層執(zhí)行環(huán)境刺激的反應(yīng)式行為和上層下達(dá)的行為指令.混合式架構(gòu)對于群體智能系統(tǒng)這類復(fù)雜系統(tǒng)具有較好的適用性.此外,上述3 類體系架構(gòu)主要側(cè)重于應(yīng)用導(dǎo)向的系統(tǒng)功能實(shí)現(xiàn),另一種體系架構(gòu)研究思路是從認(rèn)知科學(xué)出發(fā),致力于刻畫自然或人工智能體認(rèn)知、發(fā)育過程中的認(rèn)知機(jī)理,并基于此實(shí)現(xiàn)人類認(rèn)知水平的智能行為,著名的認(rèn)知架構(gòu)模型包括 “狀態(tài)、算子與結(jié)果” (State,operator,and result,SOAR)模型、基于理性思維的自適應(yīng)控制(Adaptive control of thought-rational,ACT-R)模型等[56].
群體體系架構(gòu)刻畫存在于各智能體中的通訊和控制模式,體現(xiàn)了集群中個(gè)體間的信息共享、存儲和協(xié)作方式,對群體系統(tǒng)的一致性、自主性、涌現(xiàn)性等特性具有直接影響[57].從群體中智能體的組織方式和通信、控制模式來看,群體架構(gòu)大致可分為網(wǎng)絡(luò)結(jié)構(gòu)、層次結(jié)構(gòu)、聯(lián)盟結(jié)構(gòu)三類[52].網(wǎng)絡(luò)結(jié)構(gòu)中,每個(gè)智能體的地位均等,符合條件的智能體間均能進(jìn)行信息交互,最大限度體現(xiàn)了群體系統(tǒng)的自組織特性;層次結(jié)構(gòu)中,智能體分為不同層次,每層的決策和控制權(quán)來自于其上層的指令輸出,分層架構(gòu)體現(xiàn)了問題的逐級抽象特點(diǎn),便于復(fù)雜任務(wù)的層次化分解;聯(lián)盟結(jié)構(gòu)中,智能體根據(jù)一定規(guī)則劃分為不同聯(lián)盟,聯(lián)盟內(nèi)和聯(lián)盟間分別采用不同的信息交互機(jī)制形成群體協(xié)同,這種結(jié)構(gòu)體現(xiàn)了一定的功能異構(gòu)性.
上述個(gè)體和群體結(jié)構(gòu)為復(fù)雜系統(tǒng)架構(gòu)建模提供了基本思想和模型要素,面向不同應(yīng)用領(lǐng)域,則將基于上述基礎(chǔ)模型進(jìn)行進(jìn)一步設(shè)計(jì).以無人集群系統(tǒng)最為典型的應(yīng)用領(lǐng)域 ——軍事指揮控制領(lǐng)域?yàn)槔?這是一個(gè)典型的多要素、巨復(fù)雜場景,其智能指揮控制過程難以采用單一的端到端模型加以刻畫,體系架構(gòu)設(shè)計(jì)便顯得尤為重要.面向多無人機(jī)任務(wù)規(guī)劃等任務(wù),洛克希德 · 馬丁公司提出了多態(tài)認(rèn)知智能體架構(gòu)(Polymorphic cognitive agent architecture,PCCA)[58],其核心是包含一個(gè)認(rèn)知層,并進(jìn)一步自上而下分解為宏觀(Macro)、微觀(Micro)、原子(Proto)三層認(rèn)知架構(gòu),宏觀認(rèn)知層采用基于SOAR 的知識推理模型,微觀認(rèn)知層采用基于ACT-R 的專家推理模型,原子認(rèn)知層采用基于群智分布式自組織方式實(shí)現(xiàn).面向無人機(jī)/車異構(gòu)集群城市作戰(zhàn)任務(wù),美國國防部高級研究計(jì)劃局(DARPA)開展的OFFSET 項(xiàng)目[59],將復(fù)雜任務(wù)自上而下分解為集群任務(wù)層(Swarm mission)、集群戰(zhàn)術(shù)層(Swarm tactics)、集群原子操作層(Swarm primitives)、集群算法層(Swarm algorithm),任務(wù)層刻畫宏觀任務(wù)需求,戰(zhàn)術(shù)層描述完成任務(wù)所需的戰(zhàn)術(shù)序列,原子操作層表征完成某戰(zhàn)術(shù)所需具體執(zhí)行的行為,算法層則代表為實(shí)現(xiàn)具體行為所需的各項(xiàng)技能,每一層又進(jìn)一步劃分為不同功能模塊,是一個(gè)典型的層次化體系架構(gòu).更一般地,觀察–判斷–決策–執(zhí)行(Observe-orient-decide-act,OODA)循環(huán)理論已被普遍接受為描述指揮決策過程的通用模型框架[60],其將作戰(zhàn)過程分解為由觀察、判斷、決策、執(zhí)行四個(gè)環(huán)節(jié)串聯(lián)形成的決策環(huán),并可作為一般性模型拓展到多智能體仿真[61]、應(yīng)急響應(yīng)[62]等應(yīng)用領(lǐng)域中.
從知識和數(shù)據(jù)協(xié)同驅(qū)動的角度來說,上述一般性個(gè)體架構(gòu)模型、群體架構(gòu)模型以及作為示例的軍事指揮控制架構(gòu)模型從三方面體現(xiàn)了知識和數(shù)據(jù)協(xié)同的特點(diǎn):一方面,這類組織架構(gòu)本身便體現(xiàn)了先驗(yàn)知識的運(yùn)用,是一類高度抽象的內(nèi)嵌知識;另一方面,將復(fù)雜問題分解為若干子問題,往往表現(xiàn)為不同問題求解子模塊,針對每個(gè)子模塊,可以進(jìn)一步確定是采用數(shù)據(jù)驅(qū)動方法還是知識驅(qū)動方法加以求解,進(jìn)而便于對各類基于知識或數(shù)據(jù)驅(qū)動的方法進(jìn)行靈活集成;此外,從數(shù)據(jù)驅(qū)動來看,增強(qiáng)了數(shù)據(jù)驅(qū)動模型的可解釋性,并使數(shù)據(jù)驅(qū)動模型帶來的不確定性被限定在某個(gè)子模塊內(nèi).
以O(shè)ODA 循環(huán)為例,結(jié)合OFFSET 等采用的層次化、模塊化思想,我們可將復(fù)雜的群體決策問題描述為如圖3 所示的概念架構(gòu)模型.該模型將從原始狀態(tài)輸入到最終行為輸出間的決策控制過程分為觀察、判斷、決策、執(zhí)行四層,每一層根據(jù)需要進(jìn)一步分解為不同顆粒度的子模塊,知識和數(shù)據(jù)協(xié)同驅(qū)動的思想則滲透到所有層次子模塊中,即可根據(jù)每個(gè)子模塊的功能特點(diǎn)、問題復(fù)雜度靈活選擇是采用知識驅(qū)動方法(淺灰色圓角矩形)還是數(shù)據(jù)驅(qū)動方法(深灰色矩形),并進(jìn)一步研究具體采用哪一種知識驅(qū)動方法,如基于模型的解析算法(Algorithm)或啟發(fā)式的經(jīng)驗(yàn)知識(Heuristic)等,或哪一種數(shù)據(jù)驅(qū)動方法,如深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)模型、強(qiáng)化學(xué)習(xí)中的近端策略優(yōu)化(Proximal policy optimization,PPO)算法、多智能體強(qiáng)化學(xué)習(xí)中的MADDPG 算法等.特別地,涌現(xiàn)(Emergence)作為我們對群體系統(tǒng)重要的期待特征,當(dāng)前存在大規(guī)模復(fù)雜系統(tǒng)涌現(xiàn)機(jī)理不清晰、復(fù)雜任務(wù)涌現(xiàn)規(guī)則難以設(shè)計(jì)等問題.為此,結(jié)合層次化分解思想,我們可將群智涌現(xiàn)行為局限在較低層次的執(zhí)行層,而非具有更高復(fù)雜度和問題抽象度的判斷、決策層,便于自組織、涌現(xiàn)方法在實(shí)際系統(tǒng)中的集成應(yīng)用,這種思想與洛克希德 · 馬丁PCCA 模型中的原子層設(shè)計(jì)類似.
圖3 知識和數(shù)據(jù)架構(gòu)級協(xié)同概念模型Fig.3 Conceptual model for framework-level integration of knowledge-based and data-driven methods
前述個(gè)體或群體體系架構(gòu)主要針對復(fù)雜系統(tǒng)、綜合任務(wù),如圖3 所示的概念架構(gòu)往往包含多種算法,并在不同層次、不同功能模塊間體現(xiàn)出知識與數(shù)據(jù)的協(xié)同.與此對應(yīng),許多算法本身便體現(xiàn)了知識與數(shù)據(jù)協(xié)同驅(qū)動的特點(diǎn),由此形成 “算法級”的知識和數(shù)據(jù)協(xié)同路徑,在此就幾類代表性算法進(jìn)行綜述,并根據(jù)算法的主要特點(diǎn),進(jìn)一步分為層次化協(xié)同算法、組件化協(xié)同算法兩類.層次化協(xié)同算法與架構(gòu)級協(xié)同思路類似,算法本身體現(xiàn)了一種分層思想,所不同的是,這種分層思想被包含在一個(gè)具體的算法內(nèi)部,可以直觀地理解為 “算法包含架構(gòu)”,而非架構(gòu)級協(xié)同那樣是 “架構(gòu)包含算法”;組件化協(xié)同則代表了其他一大類非層次化協(xié)同的方法,我們將探討更為 “精細(xì)”的知識與數(shù)據(jù)協(xié)同路徑,即協(xié)同不僅僅體現(xiàn)在分層這種單一思想上,而是將知識驅(qū)動或數(shù)據(jù)驅(qū)動部分看作另一方的某一個(gè)算法組件,二者緊密結(jié)合形成一個(gè)完整算法.
3.1.1 神經(jīng)網(wǎng)絡(luò)樹
神經(jīng)網(wǎng)絡(luò)樹是一種典型的知識與數(shù)據(jù)協(xié)同驅(qū)動模型,其中神經(jīng)網(wǎng)絡(luò)模型代表數(shù)據(jù)驅(qū)動,決策樹結(jié)構(gòu)則代表了知識驅(qū)動,其實(shí)質(zhì)是將若干神經(jīng)網(wǎng)絡(luò)模型以決策樹的結(jié)構(gòu)有效組織起來,使之兼具決策樹模型可解釋性強(qiáng)、易于集成專家知識以及神經(jīng)網(wǎng)絡(luò)模型自主學(xué)習(xí)的優(yōu)點(diǎn).神經(jīng)網(wǎng)絡(luò)樹的研究已有數(shù)十年歷史,研究者很早便意識到將符號主義的決策樹模型與聯(lián)結(jié)主義的神經(jīng)網(wǎng)絡(luò)模型結(jié)合起來的優(yōu)勢[63],并提出了多種結(jié)合方式,如首先設(shè)計(jì)一個(gè)決策樹,再從中生成層次化神經(jīng)網(wǎng)絡(luò)模型[64],或反過來從已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中提取決策規(guī)則[65].
針對多機(jī)器人協(xié)同環(huán)境建模場景中的機(jī)器人異常行為檢測問題,文獻(xiàn)[66]提出采用Siamese 神經(jīng)網(wǎng)絡(luò)(Siamese neural network,SNN)[67]來計(jì)算兩個(gè)環(huán)境信息向量x1和x2間的距離,從而實(shí)現(xiàn)機(jī)器人異常行為的檢測,考慮到機(jī)器人群體采集到的環(huán)境信息維數(shù)十分龐大,作者進(jìn)一步將由T個(gè)機(jī)器人采集到的環(huán)境信息分為T個(gè)子向量,并將原始的SNN設(shè)計(jì)為一個(gè)層次化網(wǎng)絡(luò)結(jié)構(gòu),由此簡化了SNN 網(wǎng)絡(luò)的訓(xùn)練過程.機(jī)器人自主導(dǎo)航往往包含目標(biāo)搜索、避碰避障等多種任務(wù),各任務(wù)間的協(xié)調(diào)成為自主導(dǎo)航的關(guān)鍵,為此,文獻(xiàn)[68]針對自主導(dǎo)航中的多種子任務(wù)分別設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)控制器,進(jìn)一步設(shè)計(jì)一個(gè)基于神經(jīng)網(wǎng)絡(luò)的協(xié)調(diào)器來調(diào)整子任務(wù)控制器的輸出權(quán)重,子網(wǎng)絡(luò)及協(xié)調(diào)網(wǎng)絡(luò)間構(gòu)成一個(gè)層次化體系結(jié)構(gòu).近年來,隨著深度學(xué)習(xí)技術(shù)的興起,產(chǎn)生了基于各種深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)的樹模型.文獻(xiàn)[69]提出一種具有增量學(xué)習(xí)特點(diǎn)的深度神經(jīng)網(wǎng)絡(luò)樹模型,對于已經(jīng)訓(xùn)練好的DNN 模型,當(dāng)新數(shù)據(jù)來臨后,模型能以一種樹狀結(jié)構(gòu)繼續(xù)層次化生長,以學(xué)習(xí)新數(shù)據(jù)中的模式,同時(shí)保留先前所學(xué)習(xí)到的知識,以避免網(wǎng)絡(luò)產(chǎn)生災(zāi)難性遺忘問題.文獻(xiàn)[70]提出一種層次化卷積神經(jīng)網(wǎng)絡(luò),用以提升分類問題結(jié)果準(zhǔn)確率,其核心是確定一個(gè)合理的卷積神經(jīng)網(wǎng)絡(luò)層次化結(jié)構(gòu),為此作者采用層次化聚類方法構(gòu)建一個(gè)可視化的樹結(jié)構(gòu),并定義了一個(gè)層次化聚類有效性指數(shù)來指導(dǎo)樹結(jié)構(gòu)的自動學(xué)習(xí).更多關(guān)于神經(jīng)網(wǎng)絡(luò)樹的最新研究可參考[71-73].
3.1.2 遺傳模糊樹
遺傳模糊樹(Genetic fuzzy tree,GFT)除了具有像神經(jīng)網(wǎng)絡(luò)樹這樣的樹結(jié)構(gòu)外,還代表了模糊推理這種典型知識驅(qū)動模型和遺傳算法這類數(shù)據(jù)驅(qū)動模型相結(jié)合的算法,其中模糊邏輯基于專家知識建立起推理框架,遺傳算法用以實(shí)現(xiàn)模糊推理中前后件規(guī)則參數(shù)的優(yōu)化,而樹結(jié)構(gòu)則進(jìn)一步表征復(fù)雜問題中的層次化體系架構(gòu).推而廣之,這里的模糊系統(tǒng)可替換為專家系統(tǒng)等符號邏輯系統(tǒng),遺傳算法可替換為其他啟發(fā)式優(yōu)化算法或神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)驅(qū)動模型,因此GFT 具有較強(qiáng)代表性.
GFT 的典型應(yīng)用主要體現(xiàn)在空戰(zhàn)博弈對抗系統(tǒng)上.針對復(fù)雜的空戰(zhàn)博弈過程,文獻(xiàn)[74]詳細(xì)闡述了GFT 構(gòu)建博弈智能體的優(yōu)勢.進(jìn)一步,文獻(xiàn)[75]針對多無人戰(zhàn)斗機(jī)在復(fù)雜環(huán)境中的戰(zhàn)術(shù)協(xié)同和行為決策問題,利用GFT 方法進(jìn)行戰(zhàn)術(shù)決策,并在著名的ALPHA 智能空戰(zhàn)系統(tǒng)中,實(shí)現(xiàn)了在高保真模擬環(huán)境中的無人作戰(zhàn)飛行器空戰(zhàn)任務(wù).針對多兵種異構(gòu)作戰(zhàn)問題,文獻(xiàn)[76]設(shè)計(jì)了多個(gè)級聯(lián)模糊系統(tǒng)和遺傳算法進(jìn)行戰(zhàn)術(shù)決策和優(yōu)化.這項(xiàng)研究中提出的GFT,創(chuàng)建了對不確定性因素具有恢復(fù)能力和自適應(yīng)特性的控制器.最終無人戰(zhàn)斗機(jī)小組實(shí)現(xiàn)了在面對來自空中攔截器、地空導(dǎo)彈站點(diǎn)和電子戰(zhàn)站點(diǎn)等不確定性威脅的情況下,利用敵武器空隙穿越作戰(zhàn)空間并成功摧毀目標(biāo)的任務(wù).
然而,上述方法在構(gòu)建模糊規(guī)則時(shí)仍需大量專業(yè)知識,特別是當(dāng)智能體數(shù)量增加時(shí),輸入?yún)?shù)的增加將導(dǎo)致模糊規(guī)則數(shù)量指數(shù)增加.為此,文獻(xiàn)[77]提出一種基于單一輸入規(guī)則群(Single input rule modules,SIRMs)動態(tài)連接模糊推理模型和改進(jìn)自適應(yīng)遺傳算法的多無人戰(zhàn)斗機(jī)空戰(zhàn)博弈戰(zhàn)術(shù)決策方法.該方法改進(jìn)了傳統(tǒng)的模糊推理方法,基于SIRM模型將所有輸入變量解耦,解耦后的各模糊推理模塊再通過動態(tài)權(quán)重將結(jié)果進(jìn)行合并,得到推理決策動作,這種解耦方法解決了傳統(tǒng)模糊規(guī)則數(shù)量隨輸入變量數(shù)呈指數(shù)級增長的規(guī)則爆炸問題;同時(shí)遺傳算法的優(yōu)化作用使得只需建立粗略的規(guī)則框架,而無需精確的交戰(zhàn)規(guī)則,大大降低了規(guī)則設(shè)計(jì)的難度.
3.1.3 分層強(qiáng)化學(xué)習(xí)
深度強(qiáng)化學(xué)習(xí)成為引領(lǐng)當(dāng)前人工智能特別是決策智能技術(shù)發(fā)展的核心要素.然而,在大規(guī)模復(fù)雜問題中,特別是在具有大量智能體的群體合作/對抗類問題中,狀態(tài)空間和動作空間指數(shù)增長帶來的維數(shù)災(zāi)難問題仍然是當(dāng)前強(qiáng)化學(xué)習(xí)面臨的一大重要挑戰(zhàn).分層強(qiáng)化學(xué)習(xí)(Hierarchical reinforcement learning,HRL)采用策略分層、分而治之的思想,為解決復(fù)雜大規(guī)模問題提供了有效手段,其本質(zhì)是針對馬爾科夫決策過程(Markov decision process,MDP)中假設(shè)每個(gè)動作都只在單個(gè)時(shí)間步內(nèi)完成的問題,采用不同的時(shí)間抽象方法將若干原子動作封裝為一個(gè)個(gè)擴(kuò)展動作序列(Extended courses of action,ECA),每個(gè)ECA 可能包含多個(gè)時(shí)間步,從而把微觀的原子動作擴(kuò)展為顆粒度更大的動作,這樣極大壓縮了動作空間[78],其理論依據(jù)則主要是半馬爾科夫決策過程(Semi-Markov decision process,SMDP)[79]的求解理論.MDP 與SMDP 的原理概念化對比如圖4 所示.
圖4 MDP 與SMDP 比較Fig.4 Comparison between MDP and SMDP
最早在強(qiáng)化學(xué)習(xí)中提出多層次任務(wù)劃分的代表性工作是Dayan等[80]提出的封建強(qiáng)化學(xué)習(xí)(Feudal reinforcement learning,FRL).正如其名所示,FRL 將復(fù)雜任務(wù)在時(shí)空上分層,當(dāng)前層為Manager,其上層為Super-manager,下層為Sub-manager,當(dāng)前層的學(xué)習(xí)目標(biāo)是滿足上層的任務(wù),并向下層下達(dá)指令,非相鄰層之間實(shí)行獎(jiǎng)勵(lì)隱藏(Reward hiding)和信息隱藏(Information hiding),實(shí)現(xiàn)任務(wù)解耦.除此之外,經(jīng)典的分層強(qiáng)化學(xué)習(xí)還包括Sutton等[81]提出的基于選項(xiàng)(Option)的強(qiáng)化學(xué)習(xí)、Parr等[82]提出的基于分層抽象機(jī)(Hierarchies of abstract machine,HAM)的強(qiáng)化學(xué)習(xí)、Dietterich[83]提出的基于值函數(shù)分解的MaxQ (MaxQ value function decomposition)強(qiáng)化學(xué)習(xí)方法等.Option 方法定義了一系列由原子動作封裝而成的 “選項(xiàng)”,相對于原子動作,選項(xiàng)也可看作是一種 “宏觀動作”、“抽象動作”、“子控制器”,例如對于在多個(gè)房間內(nèi)游走的移動機(jī)器人,可以定義 “前”、“后”、“左”、“右”這樣的原子動作,也可定義 “移動到門口”這樣的選項(xiàng),機(jī)器人將在原子動作和選項(xiàng)中進(jìn)行動作選擇.HAM 方法將任務(wù)定義為一個(gè)隨機(jī)有限狀態(tài)機(jī),采用MDP 對狀態(tài)機(jī)進(jìn)行建模,實(shí)現(xiàn)智能體在某個(gè)狀態(tài)機(jī)內(nèi)部的學(xué)習(xí)以及狀態(tài)機(jī)間的切換調(diào)用.MaxQ 方法將一個(gè)MDP 過程M分解為子任務(wù)集{M0,M1,···,Mn},對應(yīng)的策略π也分解為策略集{π0,π1,···,πn},所有子任務(wù)形成以M0為根節(jié)點(diǎn)的分層結(jié)構(gòu),每個(gè)子任務(wù)的動作選擇既可以是原子動作,也可以是其他子任務(wù),最終解決了M0,即解決了完整任務(wù).
近年來,將分層強(qiáng)化學(xué)習(xí)思想應(yīng)用于多智能體強(qiáng)化學(xué)習(xí),所產(chǎn)生的多智能體分層強(qiáng)化學(xué)習(xí)已成為研究熱點(diǎn).DeepMind 提出了一種多智能體強(qiáng)化學(xué)習(xí)方法,核心是采用基于種群的訓(xùn)練、單個(gè)智能體內(nèi)部獎(jiǎng)勵(lì)優(yōu)化以及分層強(qiáng)化學(xué)習(xí)架構(gòu),其在 “雷神之錘”游戲中不僅學(xué)會了如何奪旗,還學(xué)到了一些不同于人類玩家的團(tuán)隊(duì)協(xié)作策略[84].文獻(xiàn)[85]介紹了一種具有技能發(fā)現(xiàn)能力的雙層多智能體強(qiáng)化學(xué)習(xí)方法:在底層,智能體基于獨(dú)立的Q-learning 學(xué)得特定技能;在上層,基于外部團(tuán)隊(duì)協(xié)作獎(jiǎng)勵(lì)信號并采用集中式訓(xùn)練方式實(shí)現(xiàn)多智能體間的協(xié)作.文獻(xiàn)[86]則使用多智能體分層強(qiáng)化學(xué)習(xí)來處理稀疏和延遲獎(jiǎng)勵(lì)問題,作者同時(shí)研究了多種同步/異步HRL 方法,并提出了一種新的經(jīng)驗(yàn)回放機(jī)制來處理多智能體學(xué)習(xí)中的非平穩(wěn)性等問題.此外,HRL 在多智能體路徑規(guī)劃[87]、多衛(wèi)星協(xié)同任務(wù)規(guī)劃[88]等應(yīng)用問題中也展現(xiàn)了良好的求解能力.
顯然,分層強(qiáng)化學(xué)習(xí)引入了大量的先驗(yàn)或領(lǐng)域知識,如Option 方法中如何將原子動作封裝為選項(xiàng)并確定選項(xiàng)的進(jìn)入、退出條件,HAM 方法中如何設(shè)計(jì)隨機(jī)狀態(tài)機(jī),MaxQ 方法中如何構(gòu)建子任務(wù)層次結(jié)構(gòu)等.盡管基于智能體自動任務(wù)抽象的端到端分層強(qiáng)化學(xué)習(xí)成為當(dāng)前另一研究熱點(diǎn),并出現(xiàn)了Option-Critic[89]、Manager-Worker[90]等端到端學(xué)習(xí)方法,但在大規(guī)模復(fù)雜問題中,特別是對系統(tǒng)可靠性、可解釋性有著苛刻要求的物理智能體領(lǐng)域,結(jié)合先驗(yàn)和領(lǐng)域知識的分層強(qiáng)化學(xué)習(xí)方法仍是一個(gè)有效的選擇.
根據(jù)知識驅(qū)動、數(shù)據(jù)驅(qū)動方法各自所處的主次地位,我們可大致將組件化協(xié)同算法分為知識增強(qiáng)的數(shù)據(jù)驅(qū)動方法、數(shù)據(jù)調(diào)優(yōu)的知識驅(qū)動方法、知識和數(shù)據(jù)互補(bǔ)結(jié)合三類方法.其中,知識增強(qiáng)的數(shù)據(jù)驅(qū)動方法以數(shù)據(jù)驅(qū)動方法構(gòu)成算法的主體框架,算法的部分組件或某個(gè)操作步驟采用現(xiàn)有知識加以輔助或增強(qiáng)設(shè)計(jì),目的是相較純數(shù)據(jù)驅(qū)動方法獲得性能提升;數(shù)據(jù)調(diào)優(yōu)的知識驅(qū)動方法則以知識驅(qū)動方法構(gòu)成算法主體框架,同樣算法的部分組件或某些操作步驟采用數(shù)據(jù)驅(qū)動方法、特別是數(shù)據(jù)驅(qū)動強(qiáng)大的尋優(yōu)能力來實(shí)現(xiàn)相對于純知識驅(qū)動方法的性能改善;在知識和數(shù)據(jù)互補(bǔ)結(jié)合方法中,知識驅(qū)動、數(shù)據(jù)驅(qū)動兩類方法的主次關(guān)系相對不明顯,二者將以互補(bǔ)方式構(gòu)成集成算法.
3.2.1 知識增強(qiáng)的數(shù)據(jù)驅(qū)動
如圖5 所示,在此主要介紹強(qiáng)化學(xué)習(xí)中的模仿學(xué)習(xí)、啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)以及深度學(xué)習(xí)中的網(wǎng)絡(luò)化知識表示三種知識增強(qiáng)的數(shù)據(jù)驅(qū)動方法,每種方法的不同組件將基于先驗(yàn)知識進(jìn)行輔助增強(qiáng)設(shè)計(jì),如直接模仿學(xué)習(xí)中的行為策略、逆強(qiáng)化學(xué)習(xí)及啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)方法中的回報(bào)函數(shù),以及網(wǎng)絡(luò)化知識表示中的網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)和學(xué)習(xí)策略等.
圖5 知識增強(qiáng)的數(shù)據(jù)驅(qū)動方法Fig.5 Knowledge enhanced data-driven methods
1)模仿學(xué)習(xí)
多智能體強(qiáng)化學(xué)習(xí)中搜索狀態(tài)空間和策略空間巨大,且由于稀疏獎(jiǎng)勵(lì)、延遲回報(bào)等問題,基于累積獎(jiǎng)賞來學(xué)習(xí)多步之前的決策非常困難,而在現(xiàn)實(shí)任務(wù)中,我們往往能夠獲得一批專家的決策過程示例,由此可使強(qiáng)化學(xué)習(xí)模型直接模仿專家的示例軌跡來緩解前述困難,這一方法即為模仿學(xué)習(xí).根據(jù)在強(qiáng)化學(xué)習(xí)框架下所 “模仿”的對象,可進(jìn)一步將模仿學(xué)習(xí)劃分為直接模仿學(xué)習(xí)、逆強(qiáng)化學(xué)習(xí)兩類[20,91-93].
直接模仿學(xué)習(xí)中,首先獲取到專家的 “狀態(tài)–動作對”示例數(shù)據(jù),然后采用監(jiān)督學(xué)習(xí)方式來學(xué)得符合專家決策軌跡的策略模型.DeepMind 團(tuán)隊(duì)的AlphaStar[49]首先針對人類玩家中排名前22%的玩家獲取到百萬規(guī)模的對戰(zhàn)數(shù)據(jù)集,采用監(jiān)督學(xué)習(xí)方式對策略網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,此后再采用強(qiáng)化學(xué)習(xí)和聯(lián)盟學(xué)習(xí)方式進(jìn)行策略提升和進(jìn)化.文獻(xiàn)[94]采用層次化學(xué)習(xí)架構(gòu)來研究5V5 的多玩家在線對戰(zhàn)競技(Multiplayer online battle arena,MOBA)游戲,定義了 “對戰(zhàn)階段”、“注意力”兩層宏觀策略和 “行為執(zhí)行”一層微觀操作,并采用監(jiān)督學(xué)習(xí)方式分別學(xué)習(xí)宏觀策略和微觀操作.前述針對電競游戲的研究能較便捷地獲取到大規(guī)模先驗(yàn)數(shù)據(jù)集,與此不同,實(shí)際物理環(huán)境下的無人集群應(yīng)用場景往往缺乏人類經(jīng)驗(yàn)或先驗(yàn)數(shù)據(jù),但可能存在許多基于先驗(yàn)?zāi)P突蚪馕鏊惴ǖ闹R類模型.為此,文獻(xiàn)[95]針對多智能體編隊(duì)和避碰問題,分別采用一致性編隊(duì)協(xié)議和最優(yōu)互補(bǔ)避碰(Optimal reciprocal collision avoidance,ORCA)算法設(shè)計(jì)知識驅(qū)動型編隊(duì)和避碰算法,并利用該算法產(chǎn)生示例數(shù)據(jù),進(jìn)一步基于該示例數(shù)據(jù)采用模仿學(xué)習(xí)方式訓(xùn)練初始值網(wǎng)絡(luò),為后續(xù)強(qiáng)化學(xué)習(xí)提供初始網(wǎng)絡(luò)參數(shù),這種由 “模仿人類”改為 “模仿算法”的思想很有借鑒意義.
與直接模仿學(xué)習(xí)從示例數(shù)據(jù)中直接學(xué)習(xí)行為策略不同,逆強(qiáng)化學(xué)習(xí)[96]的思想是從專家示例中學(xué)習(xí)回報(bào)函數(shù),這在專家示例數(shù)據(jù)較少時(shí)表現(xiàn)出更好的問題抽象能力和泛化性能.文獻(xiàn)[97-98]對逆強(qiáng)化學(xué)習(xí)進(jìn)行了綜述,根據(jù)是否人為指定回報(bào)函數(shù)的形式,將逆強(qiáng)化學(xué)習(xí)分為兩類:一類是人為指定回報(bào)函數(shù)形式的傳統(tǒng)方法,主要包括學(xué)徒學(xué)習(xí)方法、最大邊際規(guī)劃算法、結(jié)構(gòu)化分類方法以及基于最大熵、交叉熵等概率模型形式化表達(dá)方法;另一類方法為深度逆強(qiáng)化學(xué)習(xí)方法,即為了克服大規(guī)模問題中人為指定特征函數(shù)表現(xiàn)能力不足、只能覆蓋部分回報(bào)函數(shù)解空間等問題,采用深度神經(jīng)網(wǎng)絡(luò)來設(shè)計(jì)回報(bào)函數(shù)學(xué)習(xí)模型[99-100].與前述完全從專家正向示例樣本中學(xué)習(xí)不同,文獻(xiàn)[101]介紹了一種能同時(shí)學(xué)習(xí)正向樣本和負(fù)向樣本數(shù)據(jù)的機(jī)器人自主導(dǎo)航學(xué)習(xí)框架,正向樣本告訴機(jī)器人應(yīng)該怎么做,而負(fù)向樣本教會機(jī)器人不應(yīng)該怎么做,與單純采用正向樣本的方法相比,在機(jī)器人避碰成功率等方面得到了提升.在多智能體場景中,平衡解的非唯一性意味著同一個(gè)平衡策略可能對應(yīng)多個(gè)逆模型,這為多智能體逆強(qiáng)化學(xué)習(xí)的研究帶來了挑戰(zhàn).文獻(xiàn)[102]將單智能體逆強(qiáng)化學(xué)習(xí)[96]拓展到多智能體領(lǐng)域,并將環(huán)境建模為一個(gè)一般和隨機(jī)博弈過程,以分布式方式來求取智能體各自的策略;文獻(xiàn)[103]則針對雙人零和博弈問題,采用貝葉斯方法來建?;貓?bào)函數(shù),即首先為回報(bào)函數(shù)分配一個(gè)先驗(yàn)分布,再基于觀察到的策略從后驗(yàn)分布中生成回報(bào)函數(shù)的點(diǎn)估計(jì).
2)啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)
在強(qiáng)化學(xué)習(xí)中,許多問題存在獎(jiǎng)勵(lì)稀疏或延遲等問題,恰當(dāng)?shù)幕貓?bào)函數(shù)設(shè)計(jì)是算法優(yōu)異表現(xiàn)的關(guān)鍵.鑒于回報(bào)函數(shù)設(shè)計(jì)復(fù)雜,利用各種先驗(yàn)知識來優(yōu)化獎(jiǎng)勵(lì)信號的啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)方法[104-105]成為一大類重要的知識與數(shù)據(jù)協(xié)同驅(qū)動方法.事實(shí)上,前述逆強(qiáng)化學(xué)習(xí)正是一種啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)的特殊形式,其特別之處在于是從專家示例數(shù)據(jù)中去學(xué)得回報(bào)函數(shù),因此,本部分介紹除逆強(qiáng)化學(xué)習(xí)之外的啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)方法.
啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)的第1 種通用方法是直接利用經(jīng)驗(yàn)或先驗(yàn)知識來設(shè)計(jì)回報(bào)函數(shù).例如,文獻(xiàn)[106]針對多智能體協(xié)同區(qū)域覆蓋與網(wǎng)絡(luò)連通保持這一復(fù)合任務(wù),在回報(bào)函數(shù)設(shè)計(jì)中充分運(yùn)用了先驗(yàn)知識:在區(qū)域覆蓋子任務(wù)中計(jì)算覆蓋率作為獎(jiǎng)懲因素,在網(wǎng)絡(luò)連通保持子任務(wù)中計(jì)算代數(shù)連通度來作為連通性獎(jiǎng)懲因素,最終實(shí)現(xiàn)了復(fù)雜任務(wù)的知識引導(dǎo)學(xué)習(xí).文獻(xiàn)[107]針對無人車車道變換問題設(shè)計(jì)了基于深度Q 網(wǎng)絡(luò)(Deep Q-network,DQN)的自主決策模型,在回報(bào)函數(shù)中綜合考慮了車道變換的安全性和駕駛速度等因素.文獻(xiàn)[108]則基于控制論思想,采用被控量誤差絕對值的累加和作為回報(bào)函數(shù)來調(diào)節(jié)基于DRL 的控制器.
啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)的第2 種方法是引入附加回報(bào)函數(shù).為表述清晰,在此對一個(gè)MDP 問題M進(jìn)行五元組定義表示,即〈S,A,R,T,γ〉,五個(gè)變量分別表示環(huán)境狀態(tài)集合、動作集合、獎(jiǎng)賞函數(shù)、狀態(tài)轉(zhuǎn)移函數(shù)和折扣因子.在附加回報(bào)函數(shù)設(shè)計(jì)中,為了對決策過程進(jìn)行引導(dǎo),在原MDP 問題M的回報(bào)函數(shù)R上疊加一個(gè)附加回報(bào)函數(shù)F,構(gòu)成新的MDP問題M′,其回報(bào)函數(shù)為R′=R+F.特別地,Ng等[109]證明可將附加回報(bào)函數(shù)設(shè)計(jì)為某個(gè)勢函數(shù)關(guān)于相鄰兩個(gè)狀態(tài)的差分形式而不是僅與當(dāng)前狀態(tài)相關(guān),即
其中,s,s′∈S表示當(dāng)前及下一時(shí)刻狀態(tài),?(·)為需要設(shè)計(jì)的勢函數(shù),從而有利于維持從M到M′的策略不變性.文獻(xiàn)[110]進(jìn)一步從理論上證明了這一策略不變性結(jié)論.基于上述勢函數(shù),可將附加回報(bào)函數(shù)F的設(shè)計(jì)轉(zhuǎn)化為勢函數(shù)?(s)的設(shè)計(jì),而勢函數(shù)則可基于先驗(yàn)知識進(jìn)行設(shè)計(jì),例如選為狀態(tài)s與目標(biāo)或者子目標(biāo)之間廣義距離的相反數(shù),進(jìn)而產(chǎn)生一個(gè) “勢場”的吸引作用[111].進(jìn)一步,文獻(xiàn)[112]將附加回報(bào)函數(shù)從單純依賴狀態(tài)空間拓展到依賴狀態(tài)-動作聯(lián)合空間,即
其中,a,a′∈A表示當(dāng)前時(shí)刻及下一時(shí)刻選取的動作,這樣構(gòu)成基于勢函數(shù)的建議,即鼓勵(lì)智能體在某一狀態(tài)下采取某一特定動作;文獻(xiàn)[113]則將文獻(xiàn)[109]中的原始勢函數(shù)推廣為動態(tài)勢函數(shù),即在勢函數(shù)中顯式增加了時(shí)間變量,并證明仍然能保持策略的不變性.
結(jié)合上述基于勢函數(shù)的建議和動態(tài)勢函數(shù),文獻(xiàn)[114]證明可將任意獎(jiǎng)勵(lì)函數(shù)轉(zhuǎn)化為基于勢函數(shù)的動態(tài)建議.
大部分強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號都是通過環(huán)境給定的外在獎(jiǎng)勵(lì),事實(shí)上學(xué)習(xí)的收益還有可能來源于內(nèi)在獎(jiǎng)勵(lì) (Intrinsic reward),例如智能體的好奇心以及對于內(nèi)部信息的反應(yīng)[115].文獻(xiàn)[116]即給出了一個(gè)形象的例子說明,單純依賴外部獎(jiǎng)勵(lì)可能會遺漏智能體內(nèi)部的重要信息,而增加內(nèi)部獎(jiǎng)勵(lì)則可能提升智能體的性能表現(xiàn);在大量稀疏獎(jiǎng)勵(lì)問題中,如何使智能體經(jīng)過有效探索以最快速度獲得外部獎(jiǎng)勵(lì),是強(qiáng)化學(xué)習(xí)研究的熱點(diǎn)問題,為此,文獻(xiàn)[117]提出了一種新的基于內(nèi)在獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)探索準(zhǔn)則:BeBold,能夠使智能體在不知道具體環(huán)境語義的情況下以一種普適準(zhǔn)則快速地適應(yīng)各種環(huán)境,訓(xùn)練出有效策略;更進(jìn)一步,文獻(xiàn)[118]研究如何在完全沒有外部獎(jiǎng)勵(lì)的環(huán)境下通過內(nèi)在獎(jiǎng)勵(lì)實(shí)現(xiàn)智能體的訓(xùn)練,并在54 個(gè)基準(zhǔn)環(huán)境下進(jìn)行測試,驗(yàn)證了這一方法的有效性.在知識與數(shù)據(jù)協(xié)同驅(qū)動的框架內(nèi),上述內(nèi)在獎(jiǎng)勵(lì)可以通過知識引導(dǎo)的方式設(shè)計(jì),也可以通過數(shù)據(jù)驅(qū)動的方式來自動尋優(yōu)[116,119].
3)知識的網(wǎng)絡(luò)化表示
知識和數(shù)據(jù)協(xié)同驅(qū)動的另一種方法是將知識展開成數(shù)據(jù)化表示,特別是采用神經(jīng)網(wǎng)絡(luò)來進(jìn)行表示,從而形成一種特殊形式的知識嵌套網(wǎng)絡(luò),該網(wǎng)絡(luò)的結(jié)構(gòu)、參數(shù)等將體現(xiàn)領(lǐng)域或?qū)<抑R的特點(diǎn),進(jìn)一步可將該網(wǎng)絡(luò)嵌入到更大的神經(jīng)網(wǎng)絡(luò)中進(jìn)行統(tǒng)一訓(xùn)練學(xué)習(xí),概念模型如圖6 所示.例如,Xu等[19]提出一種將知識驅(qū)動和數(shù)據(jù)驅(qū)動相結(jié)合的框架,該框架首先根據(jù)問題物理機(jī)理、先驗(yàn)知識等建立一個(gè)具有若干未知參數(shù)的模型族,然后基于數(shù)據(jù)驅(qū)動算法設(shè)計(jì)算法族,對模型族中的未知參數(shù)尋優(yōu),最后將整個(gè)模型展開為深度網(wǎng)絡(luò)以實(shí)施深度學(xué)習(xí),該架構(gòu)對知識與數(shù)據(jù)的深度集成具有很好的啟發(fā)意義.事實(shí)上,這種將某一模型算法展開成神經(jīng)網(wǎng)絡(luò)進(jìn)行統(tǒng)一訓(xùn)練的思想很早便得到關(guān)注.例如,模糊神經(jīng)網(wǎng)絡(luò)[120-121]便是將模糊推理的隸屬度函數(shù)計(jì)算、模糊規(guī)則推理等過程展開成神經(jīng)網(wǎng)絡(luò)表示,隨后采用訓(xùn)練的方式實(shí)現(xiàn)模糊推理前后件參數(shù)規(guī)則的尋優(yōu);又如,PID神經(jīng)網(wǎng)絡(luò)[122]將控制中應(yīng)用最廣泛的PID 控制器展開成神經(jīng)網(wǎng)絡(luò)表示,隨后采用網(wǎng)絡(luò)訓(xùn)練方式來尋優(yōu)控制參數(shù).除了將具體的模型或算法展開為神經(jīng)網(wǎng)絡(luò)表示外,還可以將某些數(shù)學(xué)方程展開為網(wǎng)絡(luò)表達(dá),例如利用神經(jīng)網(wǎng)絡(luò)來表示非線性偏微分方程約束[123]或直接求解偏微分方程[124].
圖6 知識的網(wǎng)絡(luò)化展開概念模型Fig.6 Conceptual networking expansion of knowledge
除了將解析模型/算法或數(shù)學(xué)關(guān)系進(jìn)行神經(jīng)網(wǎng)絡(luò)展開外,針對某些實(shí)際物理系統(tǒng),還可將物理約束進(jìn)行網(wǎng)絡(luò)化展開.例如,針對真實(shí)機(jī)器人所受的動力學(xué)等物理約束,文獻(xiàn)[123]提出一種新穎的深度拉格朗日網(wǎng)絡(luò)(Deep Lagrangian networks,DeLaN),即將物理對象的拉格朗日動力學(xué)模型表示成神經(jīng)網(wǎng)絡(luò)形式,進(jìn)一步采用深度網(wǎng)絡(luò)的訓(xùn)練方式實(shí)現(xiàn)學(xué)習(xí),從而在利用深度學(xué)習(xí)高效計(jì)算的同時(shí)保證物理約束.文獻(xiàn)[125]也提出采用神經(jīng)網(wǎng)絡(luò)來表示機(jī)器人機(jī)理模型,并驗(yàn)證了該模型在表示7 自由度機(jī)械臂逆向動力學(xué)模型時(shí),具有比傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)更好的表示精度和泛化性能.文獻(xiàn)[126]提出將復(fù)雜、動態(tài)系統(tǒng)采用圖神經(jīng)網(wǎng)絡(luò)來表示,例如機(jī)器人的身體和關(guān)節(jié)可分別用圖模型中的節(jié)點(diǎn)和邊來表示,從而采用一種統(tǒng)一的網(wǎng)絡(luò)方式實(shí)現(xiàn)模型的表征.而圖神經(jīng)網(wǎng)絡(luò)[127]在表征多智能體系統(tǒng)時(shí)具有更加直觀的意義,結(jié)合注意力機(jī)制,圖注意力網(wǎng)絡(luò)[128]可有效地提取智能體之間的隱藏時(shí)空特征關(guān)系,從而為多智能體協(xié)同決策提供特征輸入.
除了上述三種方法外,知識增強(qiáng)的數(shù)據(jù)驅(qū)動還有許多路徑選擇.例如,基于模型的強(qiáng)化學(xué)習(xí)便是一大類方法,其本質(zhì)是對MDP 模型M中狀態(tài)轉(zhuǎn)移函數(shù)T的處理和運(yùn)用,通常是采用神經(jīng)網(wǎng)絡(luò)等模型對環(huán)境(即狀態(tài)轉(zhuǎn)移概率)進(jìn)行建模,然后基于該模型來生成用于后期策略訓(xùn)練的數(shù)據(jù),或是直接產(chǎn)生基于優(yōu)化的預(yù)測控制器.文獻(xiàn)[129]便采用這樣的思路,基于元學(xué)習(xí)來使得智能體能夠在線自適應(yīng)地學(xué)到動態(tài)變化的環(huán)境模型,從而提升策略的魯棒性,在實(shí)際物理環(huán)境下的驗(yàn)證表明,算法能使多足機(jī)器人在變化的地形條件、姿態(tài)估計(jì)存在偏差、負(fù)載變化、甚至是缺失一條腿的復(fù)雜情況下表現(xiàn)出良好的適應(yīng)性.此外,若T已知,另一類通用方法是動態(tài)規(guī)劃[130-131],由于其內(nèi)涵過于廣泛,本文不做更進(jìn)一步展開介紹.
3.2.2 數(shù)據(jù)調(diào)優(yōu)的知識驅(qū)動
數(shù)據(jù)調(diào)優(yōu)的知識驅(qū)動方法總體思想是利用數(shù)據(jù)驅(qū)動方法強(qiáng)大的尋優(yōu)能力來實(shí)現(xiàn)知識驅(qū)動方法中結(jié)構(gòu)或參數(shù)的優(yōu)化,這類方法在感知、決策、控制等領(lǐng)域已幾乎無處不在.例如,前述的遺傳模糊方法,即是采用進(jìn)化計(jì)算這類數(shù)據(jù)驅(qū)動方法來優(yōu)化模糊推理這類知識驅(qū)動方法中的規(guī)則前后件;控制領(lǐng)域中的自適應(yīng)控制、優(yōu)化控制等方法群也大量采用數(shù)據(jù)驅(qū)動方法來實(shí)現(xiàn)參數(shù)調(diào)優(yōu).又如,文獻(xiàn)[132]設(shè)計(jì)了模糊Q 學(xué)習(xí)控制器,采用強(qiáng)化學(xué)習(xí)方法對模糊控制器參數(shù)進(jìn)行優(yōu)化.在集群編隊(duì)方面,文獻(xiàn)[133-134]以基于模型的一致性控制器為主控制器,采用徑向基神經(jīng)網(wǎng)絡(luò)方法估計(jì)集群編隊(duì)中的不確定性,設(shè)計(jì)了最小參數(shù)學(xué)習(xí)自適應(yīng)控制算法.類似地,文獻(xiàn)[135]在考慮全狀態(tài)約束和指定性能的基礎(chǔ)上提出了一種事件觸發(fā)自適應(yīng)控制算法,采用反步法構(gòu)建控制框架,采用徑向基神經(jīng)網(wǎng)絡(luò)處理多智能體模型中的非線性函數(shù).這類方法在基于模型的規(guī)劃、控制、決策等研究中已經(jīng)得到廣泛關(guān)注,故在此不做展開介紹.
3.2.3 知識與數(shù)據(jù)的互補(bǔ)結(jié)合
在這類方法中,知識驅(qū)動和數(shù)據(jù)驅(qū)動方法沒有明顯的主次關(guān)系,二者通過不同形式緊密集成.文獻(xiàn)[21]系統(tǒng)總結(jié)了基于模型的知識驅(qū)動方法和基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動方法的不同結(jié)合形式,從架構(gòu)上主要分為二者并聯(lián)結(jié)合、串聯(lián)結(jié)合兩類:在并聯(lián)結(jié)合中,知識驅(qū)動和數(shù)據(jù)驅(qū)動模型采用相同的輸入,在輸出端將二者輸出結(jié)果進(jìn)行并聯(lián);在串聯(lián)結(jié)合中,可將知識驅(qū)動模型的輸出作為數(shù)據(jù)驅(qū)動模型的輸入,或反過來將數(shù)據(jù)驅(qū)動模型的輸出作為知識驅(qū)動模型的輸入,文章還框架性地給出了這些結(jié)合形式在系統(tǒng)建模、預(yù)測、控制等不同問題中的應(yīng)用.以控制系統(tǒng)設(shè)計(jì)為例,兩種結(jié)合方式衍生出3 種常見的系統(tǒng)框架,如圖7 所示[21].
圖7 知識驅(qū)動與神經(jīng)網(wǎng)絡(luò)互補(bǔ)結(jié)合控制框架Fig.7 Control diagrams of complementary knowledgedriven and neural network methods
在框架A 中,控制律u為
其中,K表示知識驅(qū)動控制器,輸出為uk,N表示神經(jīng)網(wǎng)絡(luò),輸出為un,y=[ym,ysp],其中ysp為被控量設(shè)定值,ym為其測量值,D,M分別表示先驗(yàn)知識中的狀態(tài)模型和輸出模型,p為先驗(yàn)?zāi)P蛥?shù),w為神經(jīng)網(wǎng)絡(luò)權(quán)重,其根據(jù)性能指標(biāo)函數(shù)P調(diào)整;同時(shí),知識驅(qū)動控制器中的參數(shù)p也可根據(jù)P調(diào)整.
類似地,框架B 中的控制律可表示為
框架C 中的控制律可表示為
其中,I為神經(jīng)網(wǎng)絡(luò)模型的相關(guān)輸入.這些不同的結(jié)合形式體現(xiàn)出不同的實(shí)際意義,例如,在框架A 中,往往采用數(shù)據(jù)驅(qū)動模型構(gòu)建不確定性補(bǔ)償模型,從而實(shí)現(xiàn)算法的優(yōu)化和魯棒增強(qiáng)[136];在框架B 中,可采用神經(jīng)網(wǎng)絡(luò)估計(jì)系統(tǒng)逆向動力學(xué)模型,然后采用知識驅(qū)動模型加以控制[137];在框架C 中,神經(jīng)網(wǎng)絡(luò)的作用則是估計(jì)知識驅(qū)動控制器中的參數(shù)p[134].
除了神經(jīng)網(wǎng)絡(luò)外,強(qiáng)化學(xué)習(xí)也被用于與知識驅(qū)動方法形成互補(bǔ)結(jié)合.例如,文獻(xiàn)[138]采用Q-learning構(gòu)成補(bǔ)償控制器,與基于模型的基準(zhǔn)控制器一起工作,實(shí)現(xiàn)了四旋翼無人機(jī)的穩(wěn)定控制;類似地,文獻(xiàn)[108]采用二型模糊方法構(gòu)成基準(zhǔn)控制器,采用基于深度確定性策略梯度(Deep deterministic policy gradient,DDPG)的強(qiáng)化學(xué)習(xí)方法構(gòu)成互補(bǔ)控制器,實(shí)現(xiàn)了電網(wǎng)調(diào)節(jié)頻率的控制.在串聯(lián)結(jié)合方式中,文獻(xiàn)[139]在策略學(xué)習(xí)框架中增加了一個(gè)盾牌(Shield),用來監(jiān)督所學(xué)習(xí)的動作是否安全合理,具體結(jié)合方式有兩種,一是智能體做決策時(shí),直接從盾牌中獲取一個(gè)安全行為,二是監(jiān)督智能體的學(xué)習(xí),一旦出現(xiàn)非安全行為時(shí)盾牌將加以動作修正;文獻(xiàn)[140]在MOBA 類游戲中也采取了類似的思想,采用一個(gè)動作掩碼(Mask)來對強(qiáng)化學(xué)習(xí)的探索過程進(jìn)行剪枝,而掩碼的設(shè)計(jì)則繼承了有經(jīng)驗(yàn)的人類玩家的先驗(yàn)知識.當(dāng)然,無論是盾牌法還是動作掩碼法,其知識驅(qū)動部分僅作為數(shù)據(jù)驅(qū)動部分的一個(gè)組件,仍體現(xiàn)出一定主次性,應(yīng)歸為前述知識增強(qiáng)的數(shù)據(jù)驅(qū)動方法一類,在此介紹主要是體現(xiàn)其串聯(lián)結(jié)合的特性.
無論從群體智能系統(tǒng)這一應(yīng)用主體還是深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)這類方法主體來看,當(dāng)前都已逐步走向應(yīng)用問題具象化、多領(lǐng)域概念深度融合的發(fā)展階段,從理論進(jìn)一步深化、應(yīng)用進(jìn)一步落地等角度來看,以下幾個(gè)方面將是未來重要的發(fā)展方向.
1)多學(xué)科融合視角下的群體智能機(jī)理研究.如前所述,當(dāng)前,“群體智能”這一概念尚未形成統(tǒng)一認(rèn)識,不同學(xué)者從不同的學(xué)科視角出發(fā)展開了豐富的研究.未來的重點(diǎn)方向之一勢必是打破這樣的學(xué)科壁壘,建立多學(xué)科融合的群體智能統(tǒng)一話語體系,汲取不同學(xué)科所包含的理論工具、研究路徑等知識內(nèi)核,形成更高層次和水平、具有更豐富路徑選擇的知識與數(shù)據(jù)協(xié)同體系.這方面已逐步引起關(guān)注,如[141-142]從博弈論和人工智能等不同角度探討了多智能體學(xué)習(xí)的問題,但仍未形成完善的理論方法體系.
2)知識與數(shù)據(jù)協(xié)同框架的理論分析.傳統(tǒng)基于數(shù)學(xué)/物理模型的知識驅(qū)動方法往往具有理論支撐較完備的特點(diǎn),但當(dāng)融合數(shù)據(jù)驅(qū)動模式后,如何開展整個(gè)協(xié)同框架的理論分析,是實(shí)現(xiàn)安全、可信任人工智能的關(guān)鍵.例如,在融入實(shí)際物理模型穩(wěn)定性、正定性等特性以及等式、不等式、動力學(xué)等約束后,如何設(shè)計(jì)能表征上述特性和約束的神經(jīng)網(wǎng)絡(luò)模型(網(wǎng)絡(luò)結(jié)構(gòu)、激活函數(shù)形式等)以及如何開展受限網(wǎng)絡(luò)的學(xué)習(xí)律設(shè)計(jì)和理論分析,是值得研究的重要理論方向.
3)群體系統(tǒng)智能決策的可解釋性研究.對于無人集群系統(tǒng)這樣的實(shí)際物理系統(tǒng),可解釋性顯得尤為重要.在機(jī)器學(xué)習(xí)領(lǐng)域,可解釋性描述一個(gè)算法模型輸出結(jié)果能為人們所理解的程度[143].傳統(tǒng)機(jī)器學(xué)習(xí)的可解釋性研究主要包括兩條路徑:一是建立本身易于解釋的模型;二是對建立好的數(shù)據(jù)驅(qū)動模型采用可解釋性方法進(jìn)行解釋,即模型無關(guān)的可解釋性.但針對群體系統(tǒng),這里的可解釋性多了另一層含義,即群體由于自組織特性所產(chǎn)生的涌現(xiàn)行為可解釋性.因此,如何統(tǒng)籌考慮數(shù)據(jù)驅(qū)動模型的黑箱可解釋性和群智行為的涌現(xiàn)可解釋性,是群體智能系統(tǒng)走向?qū)嵱没年P(guān)鍵.
4)知識與數(shù)據(jù)的迭代進(jìn)化.以知識來引導(dǎo)產(chǎn)生數(shù)據(jù)模型,從數(shù)據(jù)模型中歸納生成新的知識,形成知識與數(shù)據(jù)的交替迭代,是實(shí)現(xiàn)智能系統(tǒng)自主進(jìn)化的重要路徑,也是實(shí)現(xiàn)能被人所理解卻又超越人類知識體系的人工智能系統(tǒng)的重要范式.從知識到數(shù)據(jù)的方法包括模仿學(xué)習(xí)以及各種啟發(fā)式的數(shù)據(jù)驅(qū)動方法,從數(shù)據(jù)到知識則包括各種規(guī)則學(xué)習(xí)、對手建模[144]等方法,但在決策智能這一當(dāng)前最具挑戰(zhàn)性的問題下,尤其是針對群體智能系統(tǒng)的智能決策行為,如何結(jié)合實(shí)際應(yīng)用背景形成知識與數(shù)據(jù)的迭代進(jìn)化范式,是極具吸引力的研究方向.
群體智能理論和應(yīng)用發(fā)展方興未艾,是新一代人工智能的一個(gè)熱點(diǎn)研究領(lǐng)域,但當(dāng)前存在群智激發(fā)匯聚機(jī)理不清、對群體智能系統(tǒng)認(rèn)知有限、高質(zhì)量訓(xùn)練數(shù)據(jù)缺乏等問題,無論對知識驅(qū)動還是數(shù)據(jù)驅(qū)動方法都提出了嚴(yán)峻挑戰(zhàn),因此知識與數(shù)據(jù)協(xié)同驅(qū)動將是推進(jìn)群體智能特別是群智決策研究的重要方法,也將為實(shí)現(xiàn)可引導(dǎo)、可信任、可學(xué)習(xí)、可進(jìn)化的群體智能系統(tǒng)提供方法支撐.本文系統(tǒng)梳理了知識與數(shù)據(jù)協(xié)同驅(qū)動的多種方法路徑,并從架構(gòu)級協(xié)同、算法級協(xié)同等不同層面進(jìn)行了方法歸類,最后從理論和應(yīng)用等發(fā)展需求角度提出了幾個(gè)未來重點(diǎn)發(fā)展方向,以期為相關(guān)領(lǐng)域的研究提供必要借鑒.