耿志文
摘? ?要:國(guó)際信息科技領(lǐng)域新興一項(xiàng)前沿機(jī)器人學(xué)習(xí)方面大型學(xué)術(shù)活動(dòng)—機(jī)器人足球世界杯。機(jī)器人足球世界杯涉及領(lǐng)域廣泛,研究方法多樣,集合了多領(lǐng)域合作,涉及計(jì)算機(jī)、通信、自動(dòng)化、機(jī)電一體、機(jī)器學(xué)習(xí)等多項(xiàng)前沿技術(shù)的開(kāi)拓和綜合集成;對(duì)其的研究已經(jīng)成為各個(gè)領(lǐng)域的重點(diǎn)。在教育方面,機(jī)器人足球已經(jīng)成為21世紀(jì)計(jì)算機(jī)科技與信息科技頂尖人才的重要方向。甚至在歐美很多國(guó)家已將其設(shè)定為核心課程。概括來(lái)說(shuō),機(jī)器人足球世界杯是以仿真體育賽事為載體的前沿科技競(jìng)爭(zhēng)和高科技對(duì)抗賽事,機(jī)器人賽事的蓬勃發(fā)展極大地促進(jìn)了計(jì)算機(jī)科學(xué)等學(xué)科前沿技術(shù)的發(fā)展,在某種程度來(lái)說(shuō),機(jī)器人賽事的發(fā)展也是自動(dòng)化、機(jī)器人、計(jì)算機(jī)等科技的重要窗口。
關(guān)鍵詞:機(jī)器學(xué)習(xí);計(jì)算機(jī); RobuCup;人工智能
1? ? RobuCup簡(jiǎn)介
RoboCup聯(lián)盟是一個(gè)國(guó)際性研究和教育組織,提供一個(gè)標(biāo)準(zhǔn)問(wèn)題來(lái)應(yīng)對(duì)機(jī)器人運(yùn)動(dòng)方面的研究。這個(gè)領(lǐng)域可以檢驗(yàn)許多提出的設(shè)想性方案的實(shí)際呈現(xiàn),也可以檢驗(yàn)許多新技術(shù)在應(yīng)用方面存在的問(wèn)題,同時(shí)也可以用作教育領(lǐng)域,促進(jìn)許多學(xué)科基礎(chǔ)教育的進(jìn)步與前沿科技發(fā)展。
足球比賽被RoboCup選作一個(gè)基本領(lǐng)域,組織了世界上級(jí)別最高、規(guī)模最大、影響最廣泛的機(jī)器人足球賽事和學(xué)術(shù)會(huì)議—機(jī)器人足球世界杯及其學(xué)術(shù)會(huì)議。機(jī)器人球隊(duì)的正常運(yùn)作,涉及多方面的技術(shù),而文章所研究的RobuCup 2D則是為軟件及策略方面研究,以用于實(shí)際操作。
2? ? RobuCup研究重點(diǎn)
RobuCup 2D挑戰(zhàn)為智能主體提供了一系列挑戰(zhàn),同時(shí)還提供了一個(gè)動(dòng)態(tài)、實(shí)時(shí)多主體的平臺(tái)對(duì)戰(zhàn)展現(xiàn)效果,通過(guò)足球場(chǎng)上仿真設(shè)定各種影響因素來(lái)模擬真實(shí)賽場(chǎng)環(huán)境,例如通過(guò)“噪音”干擾智能主體之間的通信,提高其信息傳遞的失敗率;通過(guò)“視野”限制降低智能主體對(duì)場(chǎng)上信息的獲取;通過(guò)場(chǎng)上球員的相互阻礙來(lái)提高策略的重要性。因此,為了在重重限制下贏得比賽,如何讓智能主體有目的地學(xué)習(xí)進(jìn)攻策略就變得極其重要,因此在研究這個(gè)方面課題的時(shí)候要學(xué)會(huì)對(duì)智能主體的訓(xùn)練。
如上所述,學(xué)習(xí)成為智能主體非常重要的一個(gè)環(huán)節(jié),所以在RobuCup學(xué)習(xí)挑戰(zhàn)中,為一組智能主體創(chuàng)建有效的學(xué)習(xí)方法成為主要挑戰(zhàn),這個(gè)挑戰(zhàn)分為以下幾個(gè)部分:
(1)單個(gè)智能主體的離線學(xué)習(xí)技術(shù)(對(duì)球的攔截與踢球)。
(2)智能主體之間配合的離線學(xué)習(xí)(傳接球)。
(3)在線技術(shù)和合作學(xué)習(xí)(如適應(yīng)性跑位)。
(4)在線對(duì)抗學(xué)習(xí)(如預(yù)測(cè)對(duì)手行為并采取有效策略)。
足球這種復(fù)雜、動(dòng)態(tài)的多主體分布式人工智能的訓(xùn)練需要各種考慮多種因素,需要靈活的協(xié)調(diào)和通信來(lái)克服場(chǎng)上的不確定性,所以必須建立一個(gè)讓智能主體之間聯(lián)系更加緊密的神經(jīng)網(wǎng)絡(luò)來(lái)加強(qiáng)團(tuán)隊(duì)之間的聯(lián)系和實(shí)現(xiàn)更加完善的攻防策略,要建立一個(gè)完整的體系結(jié)構(gòu)來(lái)讓分布的智能主體即使在視野、信息受限的情況下也能將戰(zhàn)術(shù)與隊(duì)形調(diào)整到最佳狀態(tài)。
3? ? 多智能體的學(xué)習(xí)
在分布式多主體的人工智能中,一個(gè)多智能主體的系統(tǒng)在結(jié)構(gòu)上和系統(tǒng)功能上都比較復(fù)雜,智能體之間信息傳遞的不穩(wěn)定性以及場(chǎng)上干擾都會(huì)給整個(gè)系統(tǒng)的功能發(fā)揮帶來(lái)干擾,而無(wú)法實(shí)現(xiàn)給定所有可能發(fā)生的情況,因此需要讓多智能主體擁有一定的學(xué)習(xí)能力和自適應(yīng)性,讓多智能主體的系統(tǒng)可以通過(guò)學(xué)習(xí)和分析來(lái)更好的實(shí)現(xiàn)功能。而采用神經(jīng)網(wǎng)絡(luò)來(lái)加強(qiáng)團(tuán)隊(duì)之間的學(xué)習(xí)和配合是文章的重點(diǎn)。
4? ? 反應(yīng)式Agent結(jié)構(gòu)
反應(yīng)式Agent指簡(jiǎn)單地對(duì)外部刺激產(chǎn)生響應(yīng),沒(méi)有里面的任何狀態(tài),每個(gè)Agent可以是用戶也可以是服務(wù)端。
5? ? Monitor
Monitor是可視化工具,提供平臺(tái)讓人們觀看比賽時(shí)候的場(chǎng)景,利用可視化平臺(tái)讓人們更直觀地看見(jiàn)智能主體的表現(xiàn)和團(tuán)隊(duì)策略的實(shí)施,可以直接看見(jiàn)智能主體和球在場(chǎng)上的運(yùn)動(dòng)坐標(biāo),RobuCup 2D為二維球場(chǎng),需要考慮的球員因素例如人形關(guān)節(jié)、轉(zhuǎn)頭等比較少,但對(duì)于團(tuán)隊(duì)策略更為注重。
6? ? 球場(chǎng)上的動(dòng)態(tài)規(guī)劃
球場(chǎng)上的每個(gè)周期都需要準(zhǔn)確的判斷,由于踢球力量到加速度轉(zhuǎn)換率(Kick Power Rate,KPR)提高到0.027以后,把球高速踢出比以前容易多了,在4個(gè)周期內(nèi)都可以把球加速到2.5左右。
使用搜索和強(qiáng)化算法來(lái)設(shè)計(jì)踢球模塊,讓智能主體擁有快速踢球的能力是非常重要的一個(gè)環(huán)節(jié),但是智能主體對(duì)場(chǎng)上的時(shí)機(jī)判斷并不準(zhǔn)確,球的運(yùn)動(dòng)會(huì)干擾所有智能主體的判斷,當(dāng)運(yùn)動(dòng)狀態(tài)改變時(shí),智能主體的決策也會(huì)相應(yīng)改變,所以要離散化球隊(duì)球員的位置空間,用來(lái)表示過(guò)度踢球的中間狀態(tài)。所以這里使用動(dòng)態(tài)規(guī)劃來(lái)準(zhǔn)確的確定球隊(duì)球員之間策略的決定。以10×10離散球員魏忠賢,邊長(zhǎng)2x kickable area的正方形。首先需要得出兩個(gè)點(diǎn)的球運(yùn)動(dòng)狀態(tài),如果確定了第二個(gè)點(diǎn),那智能主體就可以擁有對(duì)第二個(gè)點(diǎn)球的實(shí)際控制能力。
智能主體給球的加速度和智能主體的力量之比為kick rate,其只與KPR、球到智能主體的距離以及球和智能主體的角度有關(guān)。
7? ? 動(dòng)作訓(xùn)練
在對(duì)智能主體策略的規(guī)劃中,還需要考慮到對(duì)智能主體離線和在線的訓(xùn)練,將Q學(xué)習(xí)和UCT結(jié)合,保證探索和盡量保證選取最優(yōu)動(dòng)作獲得一個(gè)比較科學(xué)的估值機(jī)制。
8? ? 結(jié)語(yǔ)
設(shè)計(jì)了一個(gè)簡(jiǎn)單的場(chǎng)上教練實(shí)現(xiàn)改變球員的類型,詳細(xì)的球員類型應(yīng)用非常復(fù)雜,本設(shè)計(jì)演示了如何使用場(chǎng)上教練來(lái)改變球員類型,這些改變不是策略的一部分,球員類型的改變目前還影響不到策略實(shí)施的效果。