羅俊仁 張萬鵬 蘇炯銘 王 堯 陳 璟
1.國防科技大學智能科學學院 湖南 長沙 410073
博弈一詞的英文單詞為Game,英文直譯為游戲,早年國內(nèi)譯為對策、賽局. 博弈問題的研究本質(zhì)是通過將除己方外其他參與方的行為策略考慮在內(nèi)制定己方對策過程. 未來軍事對抗具有環(huán)境高復雜、信息不完整、博弈強對抗、響應高實時、自主無人化等突出特征,無人集群自主協(xié)同、作戰(zhàn)仿真推演和智能任務規(guī)劃等挑戰(zhàn)課題都亟需智能博弈相關(guān)技術(shù)的支撐.協(xié)作與競爭是雙生體,廣泛存在于認知決策博弈領(lǐng)域. 博弈智能是認知智能的高階表現(xiàn)形式. 近年來,借助各類計算機博弈平臺,面向智能博弈(intelligent gaming)的相關(guān)人工智能技術(shù)得到迅猛發(fā)展. 智能博弈本質(zhì)是指協(xié)作、競爭或?qū)箞鼍跋?利用博弈理論分析問題、智能方法求解應對策略的過程. 人機對抗(human computer gaming)作為圖靈測試的典型范式,是測試人工智能(artificial intelligence,AI)技術(shù)程序的主要手段和基準[1],是智能博弈的重要表現(xiàn)形式. 智能博弈作為智能指揮與控制領(lǐng)域研究決策智能的基準挑戰(zhàn),是當前研究決策大模型的試驗場和果蠅. 當前圍繞智能博弈問題的求解,已然傳統(tǒng)的“知識與搜索”、“博弈學習”范式過渡到“模型與適應”范式,其中,包括面向小模型的“預訓練+微調(diào)”和面向大模型的“基石模型+情境學習”.
圍繞人類認知能力的認知建模技術(shù)已然成為AI領(lǐng)域的前沿課題. 近年來,隨著AI 技術(shù)的發(fā)展和GPU 性能的逐年翻倍,AI 大模型/基石模型[2]在視覺與語言智能計算、智能博弈領(lǐng)域取得了快速發(fā)展. 基于大模型的AI 生成內(nèi)容(AI-generated context,AIGC)技術(shù)未來將成為一種基礎(chǔ)設施,AI 生成行動(AIgenerated action,AIGA)相關(guān)技術(shù)(行為生成、模型生成)為決策問題求解提供了可行方案. 伴隨著2022年年末ChatGPT 的出現(xiàn),各類基石的出現(xiàn)已然引發(fā)了AI 各賽道里的“軍備競賽”,但一般的語言能力無法完全匹配決策需要的推理能力,如何構(gòu)建“決策基石模型”已然成為當前AI 與智能決策領(lǐng)域的前沿問題.
Transformer 作為一種利用注意力機制來完成序列到序列變換的表示學習模型,利用此類模型構(gòu)建智能博弈問題的決策策略求解方法是熱門研究方向.基于Transformer 的表示學習方法[3]和序列建模方法[4]及多模態(tài)融合學習方法[5]引發(fā)了各大領(lǐng)域(自然語言處理、計算機視覺、語音與視頻、智能博弈決策)的持續(xù)關(guān)注. LI 等[6]從表示學習、模型學習、序貫決策和通才智能體4 個角度對基于Transformer 的強化學習方法進行了綜述分析. HU 等[7]從架構(gòu)增強(特征表示、環(huán)境表示),軌跡優(yōu)化(條件行為克隆、經(jīng)典強化學習、預訓練、泛化性)和典型應用(機器人操控、文字游戲、導航、自動駕駛)共3 大類對基于Transformer 的強化學習方法進行了總結(jié)對比分析. 當前圍繞決策Transformer 的方法可分為3 大類:直接利用大語言模型類(百科、視頻、互聯(lián)網(wǎng)知識)、基于框架變換的表示及模型學習類(表示學習、環(huán)境學習)、基于決策問題重構(gòu)的條件生成類(序列建模、行為生成、世界模型生成).
如何為規(guī)劃與決策領(lǐng)域的智能博弈問題設計新型求解框架仍充滿挑戰(zhàn). 本文圍繞智能博弈問題展開,梳理各類問題的博弈模型,創(chuàng)新性構(gòu)建智能博弈認知模型,探索性給出智能博弈問題的求解范式;重點梳理面向智能博弈問題求解的決策Transformer 方法.
伴隨著AI 近70年的發(fā)展,計算機博弈(computer games)作為博弈論與人工智能的橋梁,逐漸在人機對抗比賽中被一大批高水平AI 克服. 近年來,伴隨著AI 的第三次浪潮,智能博弈技術(shù)取得了飛速發(fā)展,博弈對抗場景從棋類、牌類、視頻類陸續(xù)過渡到仿真推演類,博弈對抗技術(shù)從單一學習方法、分布式學習方法向大規(guī)模、通用學習方法演進. 從2016年至2022年,AlphaX 系列智能體(AlphaGo[8]、AlphaZero[9]、AlphaHoldem[10]、Alphastar[11])的相關(guān)研究為各類型博弈問題的求解提供了新基準,智能博弈技術(shù)研究從計算機博弈擴展至軍事任務規(guī)劃與決策領(lǐng)域.智能博弈領(lǐng)域的一些標志性突破如圖1 所示.
圖1 智能博弈標志性突破Fig.1 Remarkable breakthroughs of intelligent gaming
從早前的空戰(zhàn)Alpha AI[12]至AlphaDogfight[13],美軍在軍事智能博弈領(lǐng)域展開了相當多的項目. 2016年,美國辛辛那提大學與空軍研究實驗室合作開發(fā)了一個叫“Alpha AI”的機器飛行員,控制虛擬環(huán)境中的無人作戰(zhàn)飛機完成飛行和打擊等空戰(zhàn)任務. 2018年,美空軍下一代自主無人戰(zhàn)斗機智能平臺Skyborg,計劃2023年末之前實現(xiàn)自主無人戰(zhàn)斗機的早期自主決策和作戰(zhàn)能力;2019年5月宣布啟動“空戰(zhàn)演進”(air combat evolution,ACE)項目,ACE 項目旨在以人機協(xié)同“Dogfight”為挑戰(zhàn)問題,進而開發(fā)可信、可擴展、人類水平、AI 驅(qū)動的空戰(zhàn)自主能力.
此外,2018年美國國防部高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)發(fā)起“面向復雜軍事決策的非完美信息博弈序貫交互”項目,旨在自動化地利用呈指數(shù)增長的數(shù)據(jù)信息,將復雜系統(tǒng)的建模與推理相結(jié)合,從而輔助國防部快速認識、理解甚至是預測復雜國際和軍事環(huán)境中的重要事件;2020年,DARPA 通過其官網(wǎng)宣布為“打破游戲規(guī)則的人工智能探索”(Gamebreaker)項目,開發(fā)人工智能并將其應用于現(xiàn)有的即時策略??諔?zhàn)兵棋《指揮:現(xiàn)代作戰(zhàn)》之中,以打破復雜的模型所造成的不平衡,旨在推動人工智能嵌入兵棋系統(tǒng)融合. 2021年9月,由美國家安全創(chuàng)新網(wǎng)絡辦公室(National Security Innovation Network,NSIN)和美空軍研究實驗室(Air Force Research Laboratory,AFRL)合作舉辦的人工智能指揮決策公開挑戰(zhàn)賽落下帷幕,參賽選手們基于兵棋開發(fā)AI 方法,實現(xiàn)各類指揮決策作戰(zhàn)籌劃快速生成.
近5年來,美軍在智能指揮決策技術(shù)領(lǐng)域進行了深入探索,個別項目得到實際應用,如表1 所示.2018年,美陸軍指揮控制軟件集成了行動方案(course of action,COA)分析決策支持工具,即聚焦作戰(zhàn)的仿真(OpSim)[14];2019年,美空軍為多源異構(gòu)無人自主平臺行動規(guī)劃設計了“情景式”體系結(jié)構(gòu),自主系統(tǒng)會根據(jù)可用資產(chǎn)進行推理,生成可推薦的“情景”計劃[15];自2020年起,美陸軍在會聚工程(Convergence)演習中,利用智能輔助決策系統(tǒng)——火力風暴(FireStorm)推薦戰(zhàn)術(shù)端的武器目標分配方案[16];2021年,蘭德公司圍繞空中自主攻擊計劃生成進行研究,美空軍發(fā)布了“今夜就戰(zhàn)”(fight tonight)項目[17],嘗試利用仿真環(huán)境與人類指導生成大量備選行動計劃,這是一項重大變革,旨在利用人工智能技術(shù)構(gòu)建、演練和評估空中作戰(zhàn)計劃. 2022年,美空軍開展研發(fā)“面向計劃、戰(zhàn)術(shù)、實驗和彈性的戰(zhàn)略混合引擎”權(quán)杖項目[18],旨在依托計算機生成作戰(zhàn)行動層面的作戰(zhàn)行動方案,利用高保真可信模擬器對篩選出的最佳方案進行驗證,并最終交由人工審查;第一階段注重開發(fā)能夠發(fā)現(xiàn)相關(guān)和可解釋的行動方案的非腳本且具目標導向的智能體,實現(xiàn)大規(guī)模軍事場景的快速探索.
表1 軍事智能博弈相關(guān)項目情況Table 1 Related projects of military intelligent gaming
智能博弈問題通??梢圆捎枚嘀悄荏w問題模型來建模. 根據(jù)智能體之間的關(guān)系,智能博弈問題可分為:協(xié)作式團隊博弈、競爭式零和博弈和混合式一般和博弈. 其中,協(xié)作式博弈追求最大化團隊收益、通過協(xié)同合作來實現(xiàn)目標;競爭式零和博弈追求最大化自身收益、通常采用納什均衡策略;混合式一般和博弈既有合作又有競爭,即組內(nèi)協(xié)作、組間對抗. 相關(guān)典型博弈場景如圖2 所示.
圖2 智能博弈問題分類Fig.2 Classification of intelligent gaming problems
2.1.1 協(xié)作式團隊博弈
協(xié)作式團隊博弈中,智能體共享博弈目標,但由于自私性的存在,各智能體可以從不同的利益角度出發(fā)選擇行動,故協(xié)作式團隊博弈根據(jù)目標收益劃分方法不同,可區(qū)分為三大類[16].
1)完全協(xié)作式博弈:完全協(xié)作式博弈可以用多智能體馬爾可夫決策過程建模,假設智能體是同質(zhì)的,收益是可交換的. 通常假設目標是共享一致的,即.
2)團隊平均收益博弈:團隊平均收益博弈可以用網(wǎng)聯(lián)(networked)多智能體馬爾可夫決策過程建模,假設智能體有不同的收益函數(shù),但共享目標,即.
3)隨機勢博弈:隨機勢博弈中假設智能體有不同的收益函數(shù),但所有智能體的共同利益可以采用一個勢函數(shù)進行描述. 這種類型的博弈通常有純策略納什均衡[17].
2.1.2 競爭式零和博弈
競爭式零和博弈中,智能體之間利益有沖突,行動表現(xiàn)出對抗性,可區(qū)分為3 大類.
1)兩人零和與常和博弈:兩人零和(zero-sum)博弈主要是指兩個智能體的收益之和為零,即. 兩人常和(constant-sum)博弈主要是指兩個智能體的收益之和為固定的常數(shù)值,即,其中,c 為常數(shù).
2)兩隊零和博弈:兩支隊伍目標相反,每支隊伍內(nèi)部目標一致共享,但兩支隊收益之和為零,
3)調(diào)和(哈爾密頓)博弈:正如“石頭—剪刀—布”博弈,調(diào)和博弈,也稱哈密爾頓博弈,可以看作是一類廣義的零和博弈.
2.1.3 混合式一般和博弈
混合式一般和博弈是一類混合型場景,其中,既可能包含合作也可能包含競爭,每個智能體都是自利的,其收益可能與其他智能體有沖突,智能體之間在目標上沒有約束關(guān)系,這類模型的求解通常比較困難,當前大多數(shù)多智能體學習方法無法提供收斂性保證[18]. 當前圍繞著這類博弈模型的研究主要聚焦于納什均衡、相關(guān)均衡和斯坦伯格均衡的求解和基于元博弈的策略學習.
從認知的角度分析,當前圍繞智能博弈問題可建模成4 類,如圖3 所示.
圖3 智能博弈認知建模模型Fig.3 Cognitive modeling models for intelligent gaming
1)基于完全/有限理性考慮的運籌型博弈模型:主要采用基于確定性機理模型的博弈搜索與在線優(yōu)化方式提供智能.
2)面向經(jīng)驗匱乏的不確定性博弈模型:主要采用基于海量多源數(shù)據(jù)的高效學習與未知經(jīng)驗/知識習得.
3)挑戰(zhàn)直覺和靈感的探索型博弈模型:主要采用基于平行數(shù)字孿生環(huán)境或元宇宙的試錯(反饋)及遷移獲得智能.
4)考量種群協(xié)同演化的群體交互型博弈模型:主要采用基于開放性群體多樣性交互的種群演化.
2.3.1 智能博弈問題可信任解
圍繞博弈問題的求解方法主要區(qū)分為離線與在線(訓練與測試)兩個階段. 對于多方博弈問題,由于環(huán)境(對手)的非平穩(wěn)性、多解選擇等問題使得博弈問題求解表現(xiàn)出“離線耦合、在線解耦”的狀態(tài). 離線訓練主要采用仿真環(huán)境模擬與對手的交互,獲得離線采樣數(shù)據(jù),利用大規(guī)模計算方式得到藍圖策略或利用分布式強化學習方法得到預訓練模型;在線博弈過程中,由于僅能控制己方策略,應對策略的生成處于解耦合狀態(tài),需要采用適應對手的反制策略.
從解概念的角度看,博弈問題的求解本質(zhì)是設計高效的樣本利用方法對問題的解空間進行探索,獲得問題的可信任解,其中包括應對約束的安全解、應對不確定性擾動的魯棒解、應對分布漂移考量泛化性的多樣解,應對突發(fā)及意外情景的適變解,以及可解釋解、公平解等.
2.3.2 智能博弈策略訓練平臺
圍繞如何將方法求解與分布式計算融合是學術(shù)界與工業(yè)界的共同聚焦點. 受Alphastar 啟發(fā),騰訊團隊設計了基于啟發(fā)式聯(lián)賽訓練的競爭式自對弈Tleague[24],上海交通大學團隊設計了基于策略評估的MALib[25],這兩類開源的分布式學習平臺為求解大規(guī)模博弈問題提供了可參考的通用解決方案. 隨著智能體個數(shù)的增加,多樣化的智能體種群表現(xiàn)出協(xié)同演化的性質(zhì). 從種群視角看,分布式學習為種群的智能演進提供了超實時支持.
2.3.3 智能博弈問題求解范式
1)基于知識與搜索
從絕對理性假設出發(fā),充分利用專家知識、打分,設計啟發(fā)式,外部知識等方式引導博弈樹搜索,從早期的極小-極大搜索、蒙特卡洛樹搜索(Monte carlo tree search,MCTS)、信息集MCTS、分層任務網(wǎng)絡MCTS 等.
2)基于博弈理論學習
從交互的角度分析博弈多方策略之間的合作與競爭關(guān)系,通過構(gòu)建考慮對手的策略迭代式學習、策略優(yōu)化式學習等方法,利用模擬或在線交互場景樣本數(shù)據(jù)優(yōu)化策略.
圍繞博弈問題的基準學習方法主要分為三大類:基于反事實后悔值最小化(counterfactual regret minimization,CFR)類方法[19],基于虛擬自對弈(fictitious self play,FSP)類方法[20],基于元博弈的策略空間響應預言機(policy space response oracle,PSRO)類方法[21].作為一類利用仿真器模擬的博弈策略學習方法,PSRO 類方法將經(jīng)驗博弈論分析(empirical game theoretic analysis,EGTA)方法[22]擴展成迭代式自動化方法,已然成為當前的研究基準方法范式,其本質(zhì)上是一類基于種群的增量迭代式訓練方法,其求解流程如圖4 所示[23]. 此外,基于優(yōu)先級的虛擬自對弈方法是當前工程實踐過程中經(jīng)常被采用的一種啟發(fā)式范式[8].
圖4 策略空間響應預言機方法Fig.4 Policy space response oracle methods
3)基于模型與適變
由于真實博弈過程中,局中人策略通常處于非耦合狀態(tài),策略的學習展現(xiàn)出兩階段特點,訓練(離線)—測試(在線)各階段的聚焦點亦有所區(qū)別. 從“預訓練與微調(diào)”到“基石模型與情境學習”,基于模型與適變的求解范式為當前博弈問題的求解提供了全新范式. 如圖5 所示,離線訓練與學習和在線測試與適應框架.
圖5 離線訓練與學習和在線測試與適應Fig.5 Offline training&learning and online test&adaptation
本章主要從智能博弈問題求解的第3 種范式切入,介紹決策Transformer 的兩種實現(xiàn)途徑,重點對比分析架構(gòu)增強類決策Transformer 和序列建模類決策Transformer 方法,分析面臨的挑戰(zhàn)并進行前沿展望.
3.1.1 Transformer 模型
Transformer 采用了“編碼-解碼”結(jié)構(gòu),利用詞嵌入與位置嵌入的方式將序列信息進行編碼用于網(wǎng)絡輸入,內(nèi)部利用多頭注意力網(wǎng)絡,其網(wǎng)絡架構(gòu)如圖6所示.
圖6 Transformer 網(wǎng)絡架構(gòu)Fig.6 Network architecture for Transformer
由于采用了一次性輸入一個序列的方式,僅用注意力而非卷積來做特征抽取,Transformer 的出現(xiàn)在自然語言處理領(lǐng)域率先引發(fā)了變革,而后擴展至計算機視覺、智能博弈等領(lǐng)域.
3.1.2 典型博弈Transformer 方法
文本類:由于Transformer 在自然語言領(lǐng)域取得了重大成就,一些研究嘗試在文本類游戲中運用Transformer. XU 等針對文字冒險類游戲,設計了基于Transformer 的深度強化學習方法[29]. ADHIKARI 等針對文字類游戲,設計了一種基于Transformer 的動態(tài)信念圖表示策略學習方法[30]. FURMAN 等針對文字游戲中的問答問題,設計了基于GPT-2 因果Transformer 的序列建模方法[31].
棋牌類:NOEVER 等設計了掌握國際象棋玩法的生成語言模型[32];面向圍棋,CIOLINO 等設計了基于Transformer 的自然語言建模方法[33].
視頻類:BAKE 等圍繞Minecraft 設計了基于視頻的預訓練模型,可以通過觀看未標注在線視頻來做動作[34]. WEI 等圍繞MPE 環(huán)境設計了基于RNN 與Transformer 的層次MADDPG 混合合作競爭策略學習方法[35]. REED 等提出具身智能通才智能體Gato,嵌入多類標記化信息,具有同樣權(quán)重的同樣網(wǎng)絡可以完成多類仿真控制、視覺與語言、機器人搭積木等任務[36].
3.1.3 Transformer 架構(gòu)變換
圍繞Transformer 的典型架構(gòu)變換方法[37]如圖7所示,與左側(cè)標準Transformer 架構(gòu)不一樣的是,中間TrXL-I 架構(gòu)將層正則化作為子模塊的輸入流,再加上剩余的連接,就有一個從輸出流到輸入的梯度路徑,無需任何轉(zhuǎn)換,右側(cè)GTrXL 架構(gòu),額外增加了一個門控層,以取代TrXL-I 的殘差連接.
圖7 Transformer 變體網(wǎng)絡架構(gòu)Fig.7 Network architecture for Transformer variants
3.1.4 離線強化學習與軌跡優(yōu)化
利用離線強化學習方法獲得預訓練模型是一類樣本利用率高的策略學習方法. 與在線強化學習與異策強化學習方法不同,離線強化學習得到的離線策略可通過微調(diào)的方式用于在線與異策強化學習,如圖8所示. 當前主要的離線強化學習方法可分為策略約束類、重要性采樣類、正則化學習類、不確定性估計類、基于模型的方法、單步方法、模仿學習類和軌跡優(yōu)化類[38].
圖8 三類強化學習方法Fig.8 Three kinds of reinforcement learning methods
作為軌跡優(yōu)化類方法,采用同自然語言處理、計算機視覺領(lǐng)域一樣的架構(gòu),與顛倒強化學習(upsidedown reinforcement learning,UDRL)[39]采用監(jiān)督學習方法不同,在離線軌跡數(shù)據(jù)集上訓練序列模型,將過去狀態(tài)、動作和未來回報(state,action,return-to-go)作為數(shù)據(jù)模態(tài)相關(guān)神經(jīng)網(wǎng)絡的輸入,提取線性嵌入,添加位置時間步編碼;然后將編碼后的Tokens 輸入至因果Transformer 網(wǎng)絡中,使用因果自注意和掩碼自回歸的方式預測未來動作. 作為一類典型的生成式模型,與隱變量變分自編碼、擴散模型、能量模型不同,其主要采用基于Transformer 的自回歸序列模型,可利用離線帶標簽數(shù)據(jù)進行監(jiān)督式訓練與學習.
架構(gòu)增強決策Transformer 方法是面向決策基石模型的表示學習類方法.
3.2.1 表示學習
維基Transformer:REID 等提出利用大規(guī)?,F(xiàn)成的維基百科知識來輔助訓練離線強化學習[40].MINECLIP:FAN 等提出利用大規(guī)模的互聯(lián)網(wǎng)知識來構(gòu)建開放式具身智能體[41]. TOV-VICReg:GOULAO 等提出利用自監(jiān)督學習來預訓練視覺Transformer,可以捕捉連續(xù)幀之間的時序關(guān)系[42].Swin Transformer:MENG等提出利用Swin Transformer 的強化學習方法,嘗試將智能體在環(huán)境中的規(guī)劃輸入改成視圖輸入[43]. 視覺Transformer:TAO 等提出利用視覺Transformer 來處理圖像(像素)輸入和自監(jiān)督學習方法來訓練強化學習策略[44]. IRIS:MICHELI 等提出利用Transformer 來學習樣本效率高的世界模型[45].
3.2.2 網(wǎng)絡組合
DTQN:ESSLINGER 等利用Transformer 和自注意力來編碼智能體的歷史信息來求解部分可觀強化學習問題[46]. Updet:HU 等基于Transformer 的模型,通過使用自注意力機制確定的重要性權(quán)重,將策略分布與交織的觀測輸入解耦,生成靈活的策略[47].TransfQMix:GALLICI 等利用Transformer 來學習潛在圖結(jié)構(gòu),可以從包含智能體內(nèi)部和外部狀態(tài)的大圖中學習單調(diào)混合函數(shù),具備團隊規(guī)模擴展性[48].TransMix:KHAN 等提出基于Transformer 的值函數(shù)分解方法,學習多個智能體的聯(lián)合動作混合策略,具備可擴展性[49]. ATM:YANG 等提出智能體Transformer記憶網(wǎng)絡,可同時處理順序工作記憶和其他空間實體信息,通過動作語義歸納偏差將實體嵌入與動作一一綁定[50]. T3OMVP:YUAN 等引入Transformer 處理觀測序列來實現(xiàn)多車協(xié)同,無需策略解耦[51].
3.2.3 模型擴展
TrMRL:MELO 提出基于Transformer 的元強化學習方法,使用元強化學習智能體模擬記憶恢復機制,將最近的工作記憶聯(lián)系起來,通過Transformer 層遞歸地建立一個情景記憶[52]. AdA:DEEPMIND 的適變智能體組提出利用自主課程學習,基于模型的Transformer 強化學習、和蒸餾來實現(xiàn)強化學習基石模型[53].
圍繞架構(gòu)增強決策Transformer 的3 類方法的相關(guān)特點如表2 所示.
表2 架構(gòu)增強決策Transformer 各類方法及特點Table 2 Methods and features of decision Transformer with architecture enhancement
序列建模決策Transformer 方法是面向決策基石模型的條件生成類方法.
3.3.1 離線預訓練
決策Transformer:CHEN 等通過將交互序列進行重構(gòu),構(gòu)造了第1 個基于軌跡優(yōu)化離線強化學習的決策Transformer(decision transofmer,DT)方法[4]. DT 是一種條件生成行為的方法,試圖將序貫決策問題建模成可用Transformer 來完成序列生成任務,從而避免了顯式?jīng)Q策過程建模問題和交互數(shù)據(jù)分布偏離導致的Q 值過估計問題. 軌跡Transformer:圍繞“軌跡優(yōu)化”類離線強化學習,與決策Transformer 類似,JANNER等提出軌跡Transformer(trajectory transformer,TT)方法[54]. TT 是一種條件生成模型的方法,由于沒有采用基于獎勵條件的學習方式,取而代之的是基于集束搜索(Beam Search)的規(guī)劃方法,對于長序列建模的準確率有所提高. 自助Transformer:由于離線數(shù)據(jù)集無法做到充分的分布覆蓋,WANG 等提出自啟動Transformer[55]. 該方法結(jié)合了自助(bootstrapping)的思想,利用學習到的模型來自我生成更多的離線數(shù)據(jù),以進一步提高序列模型的訓練. 雙向Transformer:由于無向模型通常被用來訓練根據(jù)左測條件信息預測下一個動作,而雙向模型可以同時預測左側(cè)和右側(cè). CARROLL 等提出利用雙向Transformer 的方法,可以通過微調(diào)更好的適應下游任務[56]. 廣義決策Transformer:由于DT 方法本質(zhì)上是在利用“事后信息匹配”(hindsight information matching,HIM)的方式來訓練策略,輸出符合未來狀態(tài)信息對應某種分布的最優(yōu)軌跡.FURUTA 等提出了廣義決策Transformer,可以求解任意HIM 問題,通過選擇不同的特征函數(shù)和反因果聚合網(wǎng)絡,可以將決策Transformer 變成該模型的一個特例[57]. 對比決策Transformer:在多任務學習中通過圍繞不同任務,分離輸入數(shù)據(jù)的表示可以提高性能.KONAN 等提出對比DT 方法,創(chuàng)建了一個子空間變換層,可以利用增強對比損失來訓練輸入嵌入的回報依賴變換[58]. 技能Transformer:由于利用信息統(tǒng)計形式的未來軌跡信息可以從離線軌跡數(shù)據(jù)中提取更多信息,SUDHAKARAN 等提出了技能Transformer 方法,采用事后重標注和技能發(fā)掘來發(fā)現(xiàn)多樣基元動作或技能,可以實現(xiàn)離線狀態(tài)邊際匹配(state-marginalmatching,SMM),發(fā)掘更便采樣的描述性動作[59]. 分離潛軌跡Transformer:如何在需要考慮安全因素的場景中做長線規(guī)劃,CORREIA 等提出了分離潛軌跡Transformer 方法,通過引入兩個獨立的Transformer結(jié)構(gòu)網(wǎng)絡來表征世界模型與策略模型,采用類似minmax 搜索的方式,規(guī)劃過程中搜索潛變量空間來最小化世界模型、最大化策略模型[60]. 安全Transformer:離線強化學習如何部署至現(xiàn)實世界應用中需要獲取一些滿足一定約束的策略. 當在線安全需求變化時,固定參數(shù)的預訓練模型可能無法滿足要求. ZHANG 等提出了安全Transformer 方法,利用代價相關(guān)的Token來限制動作空間,并采用后驗安全驗證來顯式地執(zhí)行約束,以最大剩余代價為條件,執(zhí)行兩階段自回歸來生成可行的候選方案,然后過濾掉不安全的、執(zhí)行具有最高預期回報的最佳操作[61]. Q 學習決策Transformer:由于離線數(shù)據(jù)集中可能包含次優(yōu)軌跡,可能導致學習算法的不穩(wěn)定性,YAMGATA 等提出了基于Q學習決策Transformer 方法,可以利用動態(tài)規(guī)劃結(jié)果對訓練數(shù)據(jù)中的“未來回報”進行重標注,然后用重新標注的數(shù)據(jù)對決策Transformer 進行訓練[62].
3.3.2 在線適變
在線微調(diào):由于決策Transformer 沒有在線自適應模塊,泛化性比較差. ZHENG 等提出了在線Transformer 方法,可以針對任務指定的環(huán)境,采用在線微調(diào),將離線預訓練與在線微調(diào)合成為一個統(tǒng)一的框架,利用序列層的熵正則化與自回歸建模目標來獲得樣本利率率高的探索與微調(diào)效果[63]. 在線提示:圍繞在線快速適應,利用架構(gòu)歸納偏差對應的少樣本學習能力,XU 等提出基于提示的決策Transformer 方法,利用Transformer 結(jié)構(gòu)的序列建模能力和提示框架實現(xiàn)離線強化學習的少樣本自適應,設計軌跡提示,包含幾個樣本的演示片段,并對特定于任務的信息進行編碼,以指導策略生[64]. 在線遷移:為了適應變化環(huán)境,將此前已經(jīng)掌握的知識應用至未見結(jié)構(gòu)屬性的環(huán)境中可以提高策略的彈性和效率. BOUSTATI 等提出在決策Transformer 中應用基于因果反事實推理的遷移學習方法,采用基于決策Transformer 架構(gòu)的蒸餾方法為適應新環(huán)境生成策略[65]. 超決策Transformer:為了適應新的任務,獲取“數(shù)據(jù)-參數(shù)”高效的泛化能力,XU 等提出了超決策Transformer 方法,利用超網(wǎng)絡設計自適應模塊,針對未知任務只需微調(diào)自適應模塊即可[66]. 情境適應:為了提高應對不同情境的適應性能力,LIN 等提出了情境Transformer,將情境向量序列與原本輸入進行級聯(lián)來引導條件策略生成,其次利用元強化學習方法來利用不同任務間的情境,提升應對未知任務的泛化能力[67].
3.3.3 模型擴展
多智能體協(xié)同:圍繞多智能體協(xié)同,MENG 等提出多智能體決策Transformer 方法,將多智能體離線預訓練建模成一個大型序列模型,可以同時利用離線與在線數(shù)據(jù)進行訓練[68]. WEN 等提出多智能體Transformer,利用編碼器-解碼器框架與多智能體優(yōu)勢函數(shù)值分解,將聯(lián)合策略搜索問題變換成序列決策問題,從而保證單調(diào)性能提升[69]. LIN 等提出的情境元Transformer,充分利用場景信息來提高泛化能力[67]. 多任務泛化:圍繞多類任務,瞄準提高泛化性,LEE 等提出多游戲決策Transformer 方法,基于多類任務場景專家級經(jīng)典回放數(shù)據(jù)進行離線學習,利用專家動作推理的方式持續(xù)生成高價值回報行為[70]. 為了提高TT 方法的泛化性,LIN 等提出基于開關(guān)(Switch)的軌跡Transformer. 利用稀疏激活模型來降低多任務離線模型學習中的計算成本,采用分布軌跡值估計器來提高稀疏獎勵場景下的策略性能[71]. 多模態(tài)協(xié)同:圍繞多種模態(tài)信息輸入,SHAFIULLAH 等提出行為Transformer模型,可以建模非標注的多模態(tài)演示數(shù)據(jù),利用多模態(tài)建模能力來預測動作[72]. 虛實遷移探索:圍繞如何將虛擬仿真器中學習到的優(yōu)化策略遷移應用于具體的實物中一直以來是值得探索的大挑戰(zhàn). SHANG 等提出基于“狀態(tài)-動作-獎勵”的StARformer 方法,引入類似馬可夫的歸納偏差來改進長程建模[73]. 圍繞自動駕駛,SUN 等提出控制Transformer,運用自監(jiān)督學習的方式訓練以控制為中心的目標,具備應對預訓練與微調(diào)之間分布偏移的韌性[74]. 圍繞真實世界機器人控制問題,BROHAN 等提出了RT-1 模型[75]. 當前,機器人操控、導航、任務分配和自動駕駛等探索虛實遷移(sim-to-real)問題的關(guān)鍵研究領(lǐng)域.
圍繞序列建模決策Transformer 的3 類方法的相關(guān)特點如表3 所示.
3.4.1 面臨的挑戰(zhàn)
環(huán)境模型:由于預訓練與微調(diào)所對應的場景不同,分布偏移導致直接利用離線學習策略可能輸出次優(yōu)動作. 如何應對隨機環(huán)境[76]、最優(yōu)偏差[77]、不確定[78]等都是當前面臨的挑戰(zhàn).
博弈預訓練:當前多類方法均從是決策理論、優(yōu)化單方目標的角度設計的,多方(智能體)的連續(xù)(序貫)對抗場景均可采用基于交互的博弈理論建模,如何設計面向均衡解的離線博弈學習方法,考慮離線均衡搜尋[79]、離線博弈對抗數(shù)據(jù)分布[80]、分析離線博弈策略的可學習性[81]等仍是當前面臨的挑戰(zhàn).
情境學習:從一般的小型預訓練模型到大型的基石模型,如何提高模型的適應性仍是當前面臨的挑戰(zhàn),利用情境學習方法[82],可以逐漸提高算法應對新場景新任務的能力.
3.4.2 前沿發(fā)展
Transformer 結(jié)構(gòu):隨著各類基礎(chǔ)模型的迭代更新,分布Transformer 結(jié)構(gòu)的重要性[83],改進Transformer 的結(jié)構(gòu)模型是值得研究的方向.
人工智能生成基石模型:與判別式人工智能不同,生成式人工智能模型探索未知策略空間提供了方法途徑,條件生成建模[84]等生成式人工智能方向值得研究.
多模態(tài)交互決策:多種模態(tài)信息流轉(zhuǎn)為交互式?jīng)Q策提出了挑戰(zhàn),如何利用好Transformer 等架構(gòu),輸入自然語言指令[85]和其他不同模態(tài)[86]信息值得探索. 此外,多種模態(tài)的基石模型可用作“即插即用”(plugand-play)模塊,輔助智能決策.
博弈強對抗環(huán)境下,如何響應高動態(tài)性、不確定性、高復雜性對抗,給出自適應可信任應對策略,均是智能博弈問題求解的重要課題. 方法的集成本質(zhì)是為了提高問題求解的樣本效率、策略的泛化性、魯棒性、安全性、可信任性等,但如何自洽融合、模塊適配求解智能博弈問題仍是一個開放性問題. 人工智能算法與GPU 算力的完美結(jié)合為各研究領(lǐng)域帶了范式革命,基于云原生基礎(chǔ)設施的決策基石模型已然到來.
本文介紹了智能博弈問題的3 類博弈模型、分析了4 類博弈認知模型、給出了智能博弈求解方案,著力設計了智能博弈問題求解的集成框架,深入分析了決策Transformer 方法. 可以為智能兵棋推演、智能戰(zhàn)略博弈、智能藍軍、智能決策輔助等項目提供綜合式策略集成學習解決方案. 決策基石模型的生成與服務化是一種可行方案,可為分布式對抗場景下的智能指揮決策提供支撐.