張瑤 馬亞輝
本文圍繞體系對(duì)抗中的智能策略生成問題,重點(diǎn)分析了圍棋和即時(shí)戰(zhàn)略游戲等計(jì)算機(jī)博弈問題的技術(shù)發(fā)展,總結(jié)了智能策略生成可能用到的關(guān)鍵技術(shù),提出體系對(duì)抗智能策略AI系統(tǒng)的組成架構(gòu),并討論了智能策略AI的軍事應(yīng)用,為體系對(duì)抗的研究提供了一定的支撐。
一、引言
當(dāng)前,戰(zhàn)爭(zhēng)形態(tài)正在由機(jī)械化戰(zhàn)爭(zhēng)向信息化戰(zhàn)爭(zhēng)演變。信息化戰(zhàn)爭(zhēng)的重要內(nèi)涵和根本要求是體系作戰(zhàn),需要運(yùn)用信息系統(tǒng),把各種作戰(zhàn)力量、作戰(zhàn)單元、作戰(zhàn)要素融合集成為整體作戰(zhàn)能力,通過靈敏感知戰(zhàn)場(chǎng)、分布指揮控制、快速精確打擊、全維一體防護(hù)和動(dòng)態(tài)綜合保障,實(shí)現(xiàn)作戰(zhàn)效能最大化和作戰(zhàn)進(jìn)程最短化,在作戰(zhàn)樣式上集中表現(xiàn)為體系的對(duì)抗。
由于體系對(duì)抗的復(fù)雜性、動(dòng)態(tài)性和對(duì)抗性等特點(diǎn),傳統(tǒng)的經(jīng)驗(yàn)式、規(guī)則性的系統(tǒng)難以滿足瞬息萬變的戰(zhàn)場(chǎng)要求,而利用人工智能技術(shù)的智能化系統(tǒng)將會(huì)給我們提供一條新的途徑。智能化的體系作戰(zhàn)將成為未來的趨勢(shì),體系對(duì)抗的智能水平也將成為決定作戰(zhàn)雙方對(duì)抗優(yōu)勢(shì)的重要因素。
美國(guó)很早就開始探索人工智能技術(shù)在體系對(duì)抗中的應(yīng)用。DARPA于2007年啟動(dòng)了“深綠”計(jì)劃,“深綠”計(jì)劃核心思想是借鑒“深藍(lán)”,預(yù)判敵人的可能行動(dòng),從而提前做出決策。雖因經(jīng)費(fèi)削減等原因該計(jì)劃于2011年暫停,但其提出的思路和方法值得借鑒。2015年12月,美國(guó)防部提出了第三次抵消戰(zhàn)略,其發(fā)展方向是打造智能化作戰(zhàn)體系,將帶來以智能化軍隊(duì)、自主化裝備和無人化戰(zhàn)爭(zhēng)為標(biāo)志的軍事大變革。2016年6月美國(guó)辛辛那提大學(xué)開發(fā)的AlphaAI系統(tǒng),在空戰(zhàn)模擬仿真器上,完勝經(jīng)驗(yàn)豐富的美退役空軍上校。
目前國(guó)內(nèi)軍事信息系統(tǒng)基本停留在輔助勞力而非智能階段,還需深入研究。
體系對(duì)抗是作戰(zhàn)雙方之間的博弈,博弈的本質(zhì)問題是博弈參與方之間博弈策略的對(duì)抗。因此,體系對(duì)抗的關(guān)鍵是智能策略的生成。近年來,人工智能技術(shù)以人機(jī)大戰(zhàn)為標(biāo)志,在計(jì)算機(jī)博弈上取得突破性重大進(jìn)展,這對(duì)體系對(duì)抗中智能策略的研究有重要的借鑒意義。
本文基于人工智能技術(shù)在計(jì)算機(jī)博弈問題上的進(jìn)展,圍繞體系對(duì)抗,綜述體系對(duì)抗智能策略生成中的人工智能技術(shù),分析體系對(duì)抗智能策略系統(tǒng)的組成,為體系作戰(zhàn)的研究和設(shè)計(jì)提供一定的支撐。
二、計(jì)算機(jī)博弈
計(jì)算機(jī)博弈是人工智能的一個(gè)重要研究分支,圍棋、即時(shí)戰(zhàn)略游戲、雅達(dá)利、撲克等游戲AI都是計(jì)算機(jī)博弈的典型問題。
(一)圍棋:從AlphaGo到AlphaZero
2016年,谷歌DeepMind發(fā)表于《Nature》上的計(jì)算機(jī)圍棋AlphaGo擊敗了人類頂尖職業(yè)棋手,成為人工智能領(lǐng)域的一個(gè)里程碑事件。在此基礎(chǔ)上,2017年DeepMind又研發(fā)了AlphaGo Zero,完全不用人類棋譜數(shù)據(jù),就能達(dá)到更強(qiáng)的性能。而在2017年底,DeepMind又推出了更加通用的AlphaZero,在國(guó)際象棋、日本將棋以及圍棋上分別戰(zhàn)勝了此前最強(qiáng)的AI,而且在這三種游戲上,AlphaZero所用的算法設(shè)置、網(wǎng)絡(luò)結(jié)構(gòu)以及超參數(shù)都是完全相同的,是一種在多種任務(wù)上達(dá)到超越人類水平的通用性算法。
1. AlphaGo
計(jì)算機(jī)圍棋被認(rèn)為是人工智能領(lǐng)域的一大挑戰(zhàn),這是因?yàn)槠渌阉骺臻g非常巨大并且棋盤盤面和走子難以評(píng)估。AlphaGo采用深度卷積神經(jīng)網(wǎng)絡(luò)來減少搜索寬度和搜索深度:使用策略網(wǎng)絡(luò)采樣動(dòng)作來減少搜索寬度,使用價(jià)值網(wǎng)絡(luò)評(píng)估盤面來減少搜索深度。
AlphaGo 主要包括三個(gè)策略網(wǎng)絡(luò)和一個(gè)估值網(wǎng)絡(luò),最后用蒙特卡洛樹搜索將策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)整合起來,形成完整的系統(tǒng)。策略網(wǎng)絡(luò)主要用于預(yù)測(cè)下一步走棋,估值網(wǎng)絡(luò)主要用于評(píng)估當(dāng)前盤面。AlphaGo 利用人類下棋的樣本數(shù)據(jù),采用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練了監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò),又用線性softmax回歸訓(xùn)練了快速走子策略網(wǎng)絡(luò),并用強(qiáng)化學(xué)習(xí)訓(xùn)練了增強(qiáng)策略網(wǎng)絡(luò),用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練了估值網(wǎng)絡(luò)。
AlphaGo完整的算法流程如圖 1所示,包含離線學(xué)習(xí)與在線對(duì)弈兩個(gè)階段。在離線學(xué)習(xí)階段,采用人類棋譜和自對(duì)弈的方式獲取樣本數(shù)據(jù),利用樣本數(shù)據(jù)進(jìn)行訓(xùn)練,得到監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)、快速走子、增強(qiáng)學(xué)習(xí)策略網(wǎng)絡(luò)以及估值網(wǎng)絡(luò)。在在線對(duì)弈階段,利用蒙特卡洛樹搜索將訓(xùn)練好的網(wǎng)絡(luò)整合起來,給出下一步落子的位置,從而完成整個(gè)過程。
2. AlphaGo Zero
AlphaGo Zero與之前AlphaGo的區(qū)別在于:只用自對(duì)弈強(qiáng)化學(xué)習(xí)來訓(xùn)練,從隨機(jī)下法開始,完全不用任何人類數(shù)據(jù);只用黑棋和白棋作為輸入特征;只用一個(gè)神經(jīng)網(wǎng)絡(luò),而不是分成策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò);采用的樹搜索更簡(jiǎn)單,只依賴于一個(gè)神經(jīng)網(wǎng)絡(luò)來評(píng)估盤面和采樣走子,不用蒙特卡洛走子。
AlphaGo Zero 完全不用任何人類數(shù)據(jù),也不用給出除了基本規(guī)則外的其他領(lǐng)域知識(shí),只用深度強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索就能訓(xùn)練到超過人類水平,顯示了強(qiáng)大的性能。
3. AlphaZero
DeepMind 發(fā)表AlphaGo Zero之后,尋求將這種算法泛化到其他任務(wù)中的可能性,提出了AlphaZero。它是一種不使用游戲規(guī)則以外的任何知識(shí),可以從零開始通過自對(duì)弈強(qiáng)化學(xué)習(xí)在多種任務(wù)上達(dá)到超越人類水平的通用性算法。AlphaZero在國(guó)際象棋、日本將棋以及圍棋上分別戰(zhàn)勝了此前最強(qiáng)的AI,展現(xiàn)出了強(qiáng)大的性能;而且在這三種棋類游戲上,AlphaZero都使用了相同的算法設(shè)置、網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù),顯示了通用性。
AlphaZero與AlphaGo Zero的算法基本相同,在技術(shù)上的不同點(diǎn)有:AlphaGo Zero 評(píng)估和優(yōu)化贏率,只考慮勝、負(fù)兩種結(jié)果,而AlphaZero 則評(píng)估優(yōu)化期望結(jié)果,考慮了平局或其它可能結(jié)果;AlphaGo Zero 利用了圍棋的旋轉(zhuǎn)和鏡像不變性等特點(diǎn),擴(kuò)大訓(xùn)練數(shù)據(jù),并且在MCTS中,在神經(jīng)網(wǎng)絡(luò)評(píng)估盤面之前,使用隨機(jī)選擇的旋轉(zhuǎn)或反射對(duì)盤面進(jìn)行變換。由于國(guó)際象棋和日本將棋的規(guī)則不對(duì)稱性,在AlphaZero的MCTS中,沒有擴(kuò)大訓(xùn)練數(shù)據(jù),也沒有對(duì)棋盤盤面進(jìn)行變換;AlphaGo Zero中自對(duì)弈的數(shù)據(jù)是通過之前訓(xùn)練過程中的最優(yōu)模型生成,用于訓(xùn)練更新當(dāng)前最新模型。而Alpha Zero 則只更新一個(gè)神經(jīng)網(wǎng)絡(luò),自對(duì)弈的數(shù)據(jù)直接由當(dāng)前最新模型生成,并用于訓(xùn)練更新當(dāng)前最新模型;AlphaGo Zero中的超參數(shù)是通過貝葉斯優(yōu)化得到的,超參數(shù)的選取會(huì)對(duì)結(jié)果產(chǎn)生很大的影響。而AlphaZero 中所有的對(duì)弈都使用相同的超參數(shù),無需使用特定的超參數(shù)調(diào)整方法。
AlphaZero 化繁為簡(jiǎn),算法相當(dāng)簡(jiǎn)潔漂亮。AlphaZero 解決規(guī)則明確的完美信息博弈很有效,但是對(duì)于更復(fù)雜的其他問題,AlphaZero 依然會(huì)遇到困難。
(二)即時(shí)戰(zhàn)略游戲
人工智能技術(shù)邁向通用人工智能的一個(gè)基礎(chǔ),就是讓不同智能體之間實(shí)現(xiàn)合作與競(jìng)爭(zhēng)。經(jīng)典即時(shí)戰(zhàn)略游戲,如《星際爭(zhēng)霸》、《文明》等游戲,是進(jìn)行此類實(shí)驗(yàn)的絕佳實(shí)驗(yàn)環(huán)境。
即時(shí)戰(zhàn)略游戲具有很多不同于圍棋的特點(diǎn),比如,即時(shí)戰(zhàn)略游戲是關(guān)于多智能體的問題,需要多方競(jìng)爭(zhēng)資源,而每方操作多種兵力進(jìn)行合作完成共同目標(biāo);即時(shí)戰(zhàn)略游戲是不完全信息博弈,存在“戰(zhàn)爭(zhēng)迷霧”;動(dòng)作空間巨大;游戲中操作方所做決策的反饋結(jié)果時(shí)間太遲,并且每個(gè)參與者都只有很短的時(shí)間思考行動(dòng)計(jì)劃等。
從即時(shí)戰(zhàn)略游戲的游戲特性以及操作流程來看,即時(shí)戰(zhàn)略游戲需要進(jìn)行序列決策。根據(jù)決策特性,即時(shí)戰(zhàn)略游戲中的決策通常分為宏觀管理和微觀操作。宏觀管理負(fù)責(zé)宏觀上的長(zhǎng)期的決策,包括如何建造基地、如何研發(fā)科技和如何摧毀敵方基地等。微觀操作是在短期內(nèi)參與方控制一個(gè)游戲單位或者游戲單位群組進(jìn)行游戲行為。
即時(shí)戰(zhàn)略游戲AI中的微觀操作和宏觀管理所用的學(xué)習(xí)訓(xùn)練方法是不一樣的。微觀操作需要解決的關(guān)鍵問題是戰(zhàn)術(shù)決策,它的學(xué)習(xí)訓(xùn)練方法包括強(qiáng)化學(xué)習(xí)、博弈樹搜索、貝葉斯模型、神經(jīng)網(wǎng)絡(luò)、基于案例的推理等。宏觀管理需要解決的關(guān)鍵問題是戰(zhàn)略決策,它的學(xué)習(xí)訓(xùn)練方法包括行為樹、進(jìn)化算法、分層規(guī)劃、狀態(tài)空間規(guī)劃、推理等。
星際爭(zhēng)霸AI的研究環(huán)境平臺(tái)有阿里巴巴開源的Gym StarCraft,谷歌DeepMind開發(fā)的SC2LE, Facebook公司開發(fā)的ELF等。
關(guān)于星際爭(zhēng)霸AI的研究,DeepMind 在SC2LE平臺(tái)上應(yīng)用A3C算法實(shí)現(xiàn)收集礦石、與敵方單位戰(zhàn)斗等簡(jiǎn)單任務(wù)。阿里巴巴與倫敦大學(xué)合作,以游戲“星際爭(zhēng)霸1”中的微觀戰(zhàn)斗場(chǎng)景為測(cè)試環(huán)境,引入多智能體雙向協(xié)調(diào)網(wǎng)絡(luò),可以自動(dòng)學(xué)習(xí)各種最佳策略來使多個(gè)智能體協(xié)同作戰(zhàn)。
(三)其他游戲
計(jì)算機(jī)游戲中研究得較多的還有雅達(dá)利(Atari)游戲和撲克等。深度強(qiáng)化學(xué)習(xí)算法DQN在雅達(dá)利游戲上取得了巨大突破。撲克是不完全信息博弈,玩家對(duì)歷史事件只能進(jìn)行部分觀察,而看不到對(duì)手的信息。2016年由阿爾伯塔大學(xué)開發(fā)的DeepStack和由卡耐基梅隆大學(xué)開發(fā)的Libratus都在一對(duì)一無限注德州撲克比賽上擊敗了人類職業(yè)選手,表明在不完全信息博弈中人工智能也可以發(fā)揮優(yōu)勢(shì)。
三、智能策略生成中的AI技術(shù)
體系對(duì)抗中的智能策略生成問題具有復(fù)雜性、實(shí)時(shí)性、動(dòng)態(tài)對(duì)抗性等特點(diǎn),涉及多種理論技術(shù),如深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)、模仿學(xué)習(xí)、少樣本學(xué)習(xí)、多任務(wù)學(xué)習(xí)、多智能體學(xué)習(xí)、遷移學(xué)習(xí)等。
(一)深度學(xué)習(xí)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種方法,自2006年Hinton等人提出深度置信網(wǎng)絡(luò)后,在語(yǔ)音識(shí)別、圖像分類、自然語(yǔ)言處理等信號(hào)處理和人工智能任務(wù)上取得了非常好的效果,受到了極大關(guān)注。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要人工提取特征,而深度學(xué)習(xí)直接從原始輸入信號(hào)出發(fā),逐層的將低層次特征組合為更 層次的抽象特征表示,并利用中、 層次的特征表示學(xué)習(xí)輸入和輸出之間的復(fù)雜的映射關(guān)系。與淺層結(jié)構(gòu)相比,深層結(jié)構(gòu)能更有效地表征復(fù)雜函數(shù)。
常用的深度神經(jīng)網(wǎng)絡(luò)模型有深度信念網(wǎng)絡(luò)、棧式自編碼網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)等。
(二)深度強(qiáng)化學(xué)習(xí)
在強(qiáng)化學(xué)習(xí)中,智能體通過與環(huán)境的交互,自主地了解環(huán)境并完成任務(wù)。強(qiáng)化學(xué)習(xí)以試錯(cuò)的方式與環(huán)境進(jìn)行交互,通過最大化累積獎(jiǎng)賞的方式來學(xué)習(xí)最優(yōu)策略,對(duì)于任意的狀態(tài),最優(yōu)策略可給出相應(yīng)的動(dòng)作。
經(jīng)典強(qiáng)化學(xué)習(xí)中狀態(tài)空間和動(dòng)作空間都是離散有限的,可以使用表格來記錄值函數(shù)?;诒砀裰档慕?jīng)典強(qiáng)化學(xué)習(xí)算法包括時(shí)序差分學(xué)習(xí)算法、Sarsa學(xué)習(xí)算法以及Q學(xué)習(xí)算法等。
如果狀態(tài)空間維數(shù)很大,或者狀態(tài)空間為連續(xù)空間,此時(shí)基于表格值的強(qiáng)化學(xué)習(xí)算法不適用,可以采取函數(shù)近似的方法,將策略或值函數(shù)用一個(gè)函數(shù)顯示描述。最近幾年發(fā)展起來的深度強(qiáng)化學(xué)習(xí)算法,主要有基于值函數(shù)的DQN及其擴(kuò)展算法,基于Actor-Critic的A3C算法,基于策略梯度的TRPO、DDPG算法,以及其他類型的深度強(qiáng)化學(xué)習(xí)算法,如分層深度強(qiáng)化學(xué)習(xí)、多智能體深度強(qiáng)化學(xué)習(xí)等。
(三)元學(xué)習(xí)
由于深度強(qiáng)化學(xué)習(xí)太依賴于巨量的訓(xùn)練,并且需要精確的獎(jiǎng)賞函數(shù),然而對(duì)于現(xiàn)實(shí)世界的很多問題來說,設(shè)計(jì)好的獎(jiǎng)賞函數(shù)是比較困難的,也沒有辦法無限量訓(xùn)練,這就需要智能體能夠快速學(xué)習(xí)。人類之所以能夠快速學(xué)習(xí)的關(guān)鍵是人類具備學(xué)會(huì)學(xué)習(xí)的能力,能夠充分的利用以往的知識(shí)經(jīng)驗(yàn)來指導(dǎo)新任務(wù)的學(xué)習(xí)。因此,讓機(jī)器能夠快速學(xué)習(xí)來應(yīng)對(duì)新任務(wù)就需要研究元學(xué)習(xí)。
元學(xué)習(xí)是人工智能領(lǐng)域繼深度強(qiáng)化學(xué)習(xí)之后又一重要研究分支。元學(xué)習(xí)可以理解為要學(xué)習(xí)一種學(xué)習(xí)能力。關(guān)于元學(xué)習(xí)的研究目前處于剛起步的狀態(tài),呈現(xiàn)一種百花齊放的趨勢(shì),有很多不同的研究思路出現(xiàn),比如學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的超參數(shù)或神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及優(yōu)化器等以往需要人為設(shè)定的東西;通過在神經(jīng)網(wǎng)絡(luò)上添加記憶來實(shí)現(xiàn)充分利用以往的經(jīng)驗(yàn)學(xué)習(xí);在強(qiáng)化學(xué)習(xí)中,通過在輸入上增加以往的獎(jiǎng)賞或狀態(tài)動(dòng)作等信息來推斷環(huán)境或任務(wù)級(jí)別的信息;同時(shí)運(yùn)用多個(gè)任務(wù)的合成梯度方向進(jìn)行訓(xùn)練等。
(四)其他AI技術(shù)
在智能策略生成中,可能用到的其他AI技術(shù)有遷移學(xué)習(xí)、小樣本學(xué)習(xí)、模仿學(xué)習(xí)、多任務(wù)學(xué)習(xí)、多智能體學(xué)習(xí)等,還有傳統(tǒng)的AI技術(shù)如搜索、推理、規(guī)劃、行為樹等。
由于體系對(duì)抗中的智能策略博弈的復(fù)雜性,智能策略生成可能需要人工智能理論、多智能體理論、博弈論等多種理論技術(shù)的交叉綜合。
四、智能策略AI 系統(tǒng)組成
智能策略AI系統(tǒng)由仿真系統(tǒng)和智能策略AI組成。仿真系統(tǒng)包括仿真模型(戰(zhàn)場(chǎng)環(huán)境模擬、各作戰(zhàn)單元仿真模型等)、推演規(guī)則等。智能策略AI包括智能感知系統(tǒng)、智能決策系統(tǒng)、智能武器控制系統(tǒng)等。智能感知是智能決策的基礎(chǔ),智能決策為智能控制提供行動(dòng)的方向。
智能感知包括戰(zhàn)場(chǎng)態(tài)勢(shì)生成,戰(zhàn)場(chǎng)態(tài)勢(shì)預(yù)測(cè),戰(zhàn)場(chǎng)態(tài)勢(shì)評(píng)估等。戰(zhàn)場(chǎng)態(tài)勢(shì)生成包括情報(bào)收集與綜合、多源信息融合、目標(biāo)綜合識(shí)別等。戰(zhàn)場(chǎng)態(tài)勢(shì)預(yù)測(cè)包括對(duì)手意圖識(shí)別、對(duì)手意圖預(yù)測(cè)等。戰(zhàn)場(chǎng)態(tài)勢(shì)評(píng)估包括戰(zhàn)損評(píng)估、雙方贏率估計(jì)等。
智能決策主要解決下一步如何行動(dòng)的問題。智能感知的輸出作為智能決策的輸入。智能決策包括宏觀對(duì)抗策略和微觀對(duì)抗策略。對(duì)抗策略包括策略生成、策略評(píng)估、策略優(yōu)化等。
智能控制主要解決各作戰(zhàn)單元或武器平臺(tái)如何執(zhí)行智能決策的輸出結(jié)果。
五、智能策略AI的軍事應(yīng)用展望
體系對(duì)抗的關(guān)鍵是智能策略博弈。智能策略博弈可以應(yīng)用于兵棋推演,以及軍事指揮信息系統(tǒng)的設(shè)計(jì)等方面。兵棋推演是研究現(xiàn)代戰(zhàn)爭(zhēng)的有力工具。在兵棋推演中,對(duì)抗雙方或多方運(yùn)用兵棋,按照一定規(guī)則,在模擬的戰(zhàn)場(chǎng)環(huán)境中對(duì)設(shè)想的軍事行動(dòng)進(jìn)行交替決策和指揮對(duì)抗的演練。兵棋推演的作用是推演各方通過排兵布陣及對(duì)戰(zhàn)場(chǎng)資源的利用來模擬戰(zhàn)爭(zhēng),通過對(duì)推演過程中指揮員決策的分析來尋找適合這場(chǎng)戰(zhàn)爭(zhēng)的最佳策略。兵棋推演是智能策略AI的一個(gè)重要應(yīng)用場(chǎng)景,可以利用智能策略AI進(jìn)行人機(jī)對(duì)抗、機(jī)機(jī)對(duì)抗。軍事指揮信息系統(tǒng)是作戰(zhàn)體系的中樞神經(jīng),軍事指揮信息系統(tǒng)的智能化可以通過智能策略AI重點(diǎn)解決戰(zhàn)場(chǎng)態(tài)勢(shì)理解、方案分析和輔助決策等問題。
六、結(jié)語(yǔ)
本文圍繞智能體系作戰(zhàn)中的智能策略,從人工智能技術(shù)大放異彩的計(jì)算機(jī)博弈問題開始,重點(diǎn)分析了AlphaGo、AlphaGo Zero和AlphaZero等計(jì)算機(jī)圍棋的技術(shù)原理,以及即時(shí)戰(zhàn)略游戲等游戲AI,總結(jié)了體系對(duì)抗中智能策略生成可能用到的人工智能技術(shù),提出體系對(duì)抗中智能策略AI系統(tǒng)的組成架構(gòu),并討論了智能策略AI的軍事應(yīng)用。體系對(duì)抗中的智能策略生成是涉及實(shí)時(shí)性需求、不完全信息博弈和多智能體協(xié)同等多個(gè)問題的復(fù)雜性系統(tǒng)問題,傳統(tǒng)算法難以滿足任務(wù)的需求,需要綜合運(yùn)用多領(lǐng)域的先進(jìn)理論和技術(shù)來進(jìn)行突破。