• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度增強學習的智能體行為演進研究綜述

    2017-10-16 23:37:01郭憲
    中國新通信 2017年17期
    關(guān)鍵詞:訓練策略人工智能

    郭憲

    【摘要】 智能體行為演進技術(shù)是人工智能方面一個新興且具有潛力的領(lǐng)域。隨著AlphaGo勝利,基于深度增強學習的智能體行為演進技術(shù)被大量應用。首先介紹深度增強學習的基本概念及原理,然后介紹當前主流的智能體訓練策略,著重分析單智能體提升以及多智能體協(xié)作問題的解決方法并對其優(yōu)缺點進行全面的闡述,最后在深入分析多智能體協(xié)作技術(shù)目前存在的問題的基礎(chǔ)上,對未來發(fā)展趨勢進行展望。

    【關(guān)鍵詞】 智能體 行為演進 人工智能 深度增強學習 訓練策略

    Overview of agent behaviors evolution based on deep reinforcement learning GUO Xian (School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044)

    Abstract: agent behaviors evolution technology is a new and emerging field for artificial intelligence. With the victory of AlphaGo, agent behaviors evolution technology based on deep reinforcement learning has been widely used. Firstly, concepts and principles of deep reinforcement learning were introduced, then the current mainstream training strategies of multi-agent were discussed. This paper analyzed the solution to multi-agent cooperation problem and made an overview about their advantages and disadvantages.Finally, the direction of future work was proposed based on in-depth study of current multi-agent collaboration technology researches.

    Key words: multiagent;artificial intelligence; deep reinforcement learning; training strategy; collaborative technology

    引言

    目前,單智能體的研究已取得了重大的進展,包括下圍棋的AlphaGo[1]、打德州撲克的Libratus[2]以及用于醫(yī)療診斷的Watson[3]。但是,智能的提升一方面來自個體,另一方面群體交流、協(xié)作也是提升智能水平的重要手段;尤其針對人類不擅長的復雜問題,多智能體協(xié)作、共同決策可能是個有效途徑[4],在電商、游戲、醫(yī)療健康等領(lǐng)域都有廣泛應用前景。

    如何訓練機器人進行相互協(xié)作,在對信息進行高效整合利用的同時,對敵對方機器人做出打擊和摧毀。在訓練中,期望讓機器人根據(jù)對抗訓練的動態(tài)反饋,自我生成出一套應對的智能體戰(zhàn)術(shù),配合彼此,完成戰(zhàn)役設想。

    一、深度增強學習

    1.1增強學習的基本理念架構(gòu)

    目前,解決智能體行為演進的基本思路是把這一問題作為一個增強學習[5]問題來解決。不同于分類學習根據(jù)類別結(jié)果評價智能體表現(xiàn),增強學習利用狀態(tài)下的環(huán)境反饋來改善自己的行為。一個增強學習問題,一般可以被抽象為:在環(huán)境狀態(tài)s下尋求合理行為a,利用環(huán)境反饋r來做出修正。這里,狀態(tài)s是指隨著行動發(fā)生,個體與相關(guān)區(qū)域所處的狀態(tài)(state);行為a是指在環(huán)境狀態(tài)s下,智能體所做出的對應行為(action);反饋r是指智能體在環(huán)境s中做出行為a的評價激勵(reward)。在增強學習問題中,智能體可以通過行為a來改變環(huán)境狀態(tài)s;提升手段利用評價反饋r來改變行為a;行為a和狀態(tài)s聯(lián)合起來,決定對應的反饋值r[6]。

    二、智能體訓練策略

    基于環(huán)境反饋信息自主形成應對策略,一直是智能體研究領(lǐng)域里的核心話題。在過去的一段時間中,計算能力不足和提升策略的限制使得這一領(lǐng)域一直缺乏根本性的進展。近年來,由于摩爾定律以及深度神經(jīng)網(wǎng)絡方法的應用[9-11],硬件性能和提升算法有了長足的進步。隨著神經(jīng)網(wǎng)絡在增強學習任務中投入應用,業(yè)界不斷發(fā)展出來一系列相對成熟的智能體訓練策略。

    2.1單智能體訓練策略

    到目前為止,滿足實踐檢驗的單智能體策略演進機理,可分為DQN (Deep Q Network, 深度Q值網(wǎng)絡) [12]和DDPG(Deep Deterministic Policy Gradient,深度決定策略梯度)[13]兩類。為了加速神經(jīng)網(wǎng)絡收斂速度,兩者采用了逐步優(yōu)化的TD(Time Difference,時間差)方法[14-16]取代了整體優(yōu)化的MC(Monte-Carlo,蒙特卡洛)方法[17-18]。

    DQN使用Q值網(wǎng)絡對步驟行為的逐步長期回報進行預計,在有限離散的行動策略中選取長期回報最大的一個選項;DDPG則在DQN的基礎(chǔ)上更進一步,使用Actor-Critic(行動-評價)[19-20]的雙網(wǎng)絡架構(gòu)對智能體行動策略進行優(yōu)化:使用值網(wǎng)絡生成連續(xù)行動,使得策略總體長期回報J最大;再使用Q值網(wǎng)絡對逐步長期回報進行實時評價,以輔助對總體長期回報J的更新優(yōu)化。DQN與DDPG方法作為單智能體行動策略的基本訓練方法,已經(jīng)在多種機器人的行為訓練如機器臂取物[21]、機器腿行走[22]中起到了顯著的效果。DQN由于原理限制,能夠處理活動速度固定的少數(shù)離散自由度的訓練問題;而DDPG由于原理上的優(yōu)勢,能夠進一步處理活動速度變化的大量連續(xù)自由度的訓練問題。目前,業(yè)內(nèi)很多智能個體的訓練方法正在從人為給定行為策略轉(zhuǎn)變?yōu)楦鶕?jù)反饋自動生成的DQN乃至DDPG方法。因此,應用DQN和 DDPG的自動訓練方法替代人為給定方法,解決多智能體問題,被認為有更大的前景和空間。

    2.2多智能體訓練策略

    智能單體策略訓練的進展,使得關(guān)于智能群體協(xié)作訓練的探討,變得日益重要。同時,現(xiàn)實中的大量零和博弈[23-24]使得團體間的對抗十分常見。由此,多智能體的協(xié)作問題[25]應運而生。

    相對于以往的單體環(huán)境問題,這里探討的多智能體協(xié)作具有更高的復雜度:一方面在于智能團體協(xié)同對抗相對于智能單體任務,不但要考慮環(huán)境因素,還要考慮到己方、敵方、中立方的行動和意圖;另一方面在于考慮個體行動策略的以外,智能團體間的神經(jīng)元網(wǎng)絡聯(lián)結(jié)模式[26]也應納入考慮。

    現(xiàn)有的多智能體協(xié)作方法,大都是2016之后提出的。CommNet(Communication Neural Net,交流神經(jīng)網(wǎng))[27]默認智能體一定范圍內(nèi)的全聯(lián)結(jié),對多個同類的智能體采用了同一個網(wǎng)絡,用當前態(tài)(隱態(tài))和交流信息得出下一時刻的狀態(tài),信息交流從利用隱態(tài)的均值得出。其優(yōu)點能夠根據(jù)現(xiàn)實位置變化對智能體聯(lián)結(jié)結(jié)構(gòu)做出自主規(guī)劃,而缺點在于信息采用均值過于籠統(tǒng),不能夠處理多個種類的智能體。除此以外,RIAL(Reinforced Inter-agent Learning,增強智能體間學習)[28]和DIAL(Differentiable Inter-agent Learning,差異智能體間學習)[29]個體行為中采取了類DQN的解決方式,在智能體間進行單向信息交流,采用了單向環(huán)整體架構(gòu)[30]兩者的區(qū)別在于RIAL向一個智能體傳遞的是Q網(wǎng)絡結(jié)果中的極大值,DIAL則傳遞的是Q網(wǎng)絡的所有結(jié)果。在實驗中,兩者均可以解決多種類協(xié)同的現(xiàn)實問題,且DIAL表現(xiàn)出了很好的抗信號干擾能力。但是,在處理非靜態(tài)環(huán)境的快速反應問題上,RIAL與DIAL的表現(xiàn)仍舊不足。借鑒之前CommNet和DIAL的研究,阿里巴巴團隊為了解決多智能體的協(xié)作問題,提出了使用BiCNet(Bidirectionally - Coordinated Nets,雙向協(xié)作網(wǎng)絡)[31]決多智能體協(xié)作的方法。相較于之前的研究,BiCNet在個體行為上采取了DDPG取代DQN作為提升方法,在群體連接中采用了雙向循環(huán)網(wǎng)絡取代單向網(wǎng)絡進行聯(lián)結(jié)。這一方法在DIAL的基礎(chǔ)上利用了雙向信息傳遞取代單向信息傳遞,在多種類協(xié)同的基礎(chǔ)上一定程度上解決了快速反應的問題。然而,BiCNet的組織架構(gòu)思想仍舊沒有擺脫鏈狀拓撲或者環(huán)狀拓撲結(jié)構(gòu),且不具有動態(tài)規(guī)劃能力,在現(xiàn)實實踐中會有很大問題。在相互摧毀的真實戰(zhàn)術(shù)背景下,不具有動態(tài)規(guī)劃能力的網(wǎng)絡中一點的破壞會導致所有經(jīng)過該點的所有信息交流徹底終止。在無恢復的前提下,鏈狀拓撲和環(huán)狀拓撲對于網(wǎng)絡中的每一端點過分依賴,導致少量幾點的破壞會對智能體交流網(wǎng)絡造成毀滅性影響,團體被徹底拆分失去交流協(xié)同能力。

    三、單智能體策略提升的基本方法

    3.1深度Q值網(wǎng)絡DQN

    3.1.1 DQN的基本方法

    在策略的生成中,由于DDPG的神經(jīng)網(wǎng)絡能夠自主產(chǎn)生解,取代了在DQN的已知枚舉結(jié)果中選擇最大的值,DDPG彌補了DQN只能選擇有限離散行動的不足,能夠解決連續(xù)策略生成的訓練提升問題。在處理對象自由度提升時,所要做的僅僅是線性加寬μ和Q網(wǎng)絡的輸入層,而不是指數(shù)性地增加Q網(wǎng)絡輸入層中的行動對應項。在處理多復雜度問題[32]和連續(xù)行動策略的表現(xiàn)上,DDPG相較于DQN有著顯著的優(yōu)勢。

    DQN和DDPG中的Q網(wǎng)絡,因為離散枚舉和連續(xù)求解的區(qū)別,在形式上稍有不同,但兩種表述等價。DQN采用的是枚舉多個Q值,輸入層的是狀態(tài) ,輸出層是所有行動 對應的多個Q值 。DDPG的輸入層是狀態(tài) 和行動 ,輸出層是一個Q值 。兩者的區(qū)別僅僅是前者未定行動但能有限枚舉,后者行動既定允許連續(xù)變化。在其他方面,例如Bellman公式終止環(huán)節(jié)的處理以及神經(jīng)網(wǎng)絡反向傳播的方法,DQN和DDPG并不存在本質(zhì)上的差異。

    四、多智能體協(xié)同問題的解決方法

    受到單智能體策略演進方法的啟發(fā),當前較先進的多智能體協(xié)同問題多采用DQN[12]或者DDPG[13]作為個體行動策略,在此基礎(chǔ)上進行個體間神經(jīng)網(wǎng)絡的設計與規(guī)劃。在多智能體協(xié)作問題的研究中[33],相對主流的實現(xiàn)方法是2016年提出的CommNet[27]和DIAL(RIAL)[28],基于二者發(fā)展出的最新方法是2017年提出的BiCNet[31]。

    4.1交流神經(jīng)網(wǎng)CommNet

    4.1.1CommNet技術(shù)原理

    CommNet(Communication Neural Net,交流神經(jīng)網(wǎng))是最早提出的一類多體問題解決方案,不同于為每一個個體分配一個不同的神經(jīng)網(wǎng)絡來進行決策,CommNet利用同一個網(wǎng)絡解決所有個體的行動。在網(wǎng)絡中的每一層中,CommNet進行了一次信息的范圍交互。而且每一層之間的輸入和輸出可以形成迭代關(guān)系[34]。

    然而其缺點是只能處理同種智能體。CommNet在交流公式遞推中采取了平均值的形式,假設了所有智能體的權(quán)重相同。這其實意味著,CommNet描述的問題默認了智能體的一致性[35]。

    4.2差異(增強)智能體間學習

    4.2.1 DIAL(RIAL)的基本方法

    RIAL(Reinforced Inter-agent Learning,增強智能體間學習)和DIAL(Differentiable Inter-agent Learning,差異智能體間學習)是單智能體策略演進方法DQN在多體問題上擴展。就具體進步而言,RIAL和DIAL在智能個體的DQN步驟間構(gòu)建了網(wǎng)絡聯(lián)結(jié),使得智能體的DQN評價Q和行動a對應的最大Q做到了信息的單向共享。

    RIAL和DIAL的思路是,將第i智能體中的步驟結(jié)果,輸出到i+1智能體的原始數(shù)據(jù)中,作為和si+1相同作用的一部分。DIAL將第i智能體諸多{Qk}作為信息進行傳遞,RIAL僅僅將行動對應最大值maxQk進行傳遞。

    4.2.2 DIAL(RIAL)的優(yōu)劣

    在實際的表現(xiàn)中,DIAL表現(xiàn)出了優(yōu)于RIAL的性質(zhì),這一方面是因為傳遞的信息更多,另一方面是因為Q網(wǎng)絡的全部結(jié)果體現(xiàn)了行動的全部可能性,勝過某一個結(jié)果所內(nèi)含的可能性。DIAL相對RIAL在智能體間的信號傳遞過程中表現(xiàn)出極好的噪聲容忍性,對于傳遞信號添加的適當噪聲,仍然能保證訓練的正常進行[36-37]。

    不過,DIAL(RIAL)在通信架構(gòu)上實際上采取了單向環(huán)狀的通信架構(gòu),而且動態(tài)規(guī)劃能力不足??傃灾?,DIAL解決了多種智能體協(xié)作的問題,但是在處理快速變化環(huán)境上的表現(xiàn)不佳。另外,聯(lián)結(jié)結(jié)構(gòu)僵化脆弱,無法處理動態(tài)強的問題,無法耐受網(wǎng)絡架構(gòu)上的破壞,也是DIAL不足之處。

    4.3雙向協(xié)作網(wǎng)絡BiCNet

    4.3.1BiCNet的基本方法

    BiCNet(Bidirectionally-Coordinated Nets, 雙向協(xié)作網(wǎng)絡),是迄今為止實現(xiàn)方法最為先進的多智能體協(xié)同方法,結(jié)合了 CommNet和DIAL的優(yōu)點,在能夠處理多種類智能體協(xié)作問題的同時,在快速變化問題的表現(xiàn)上有了提高。

    BiCNet以雙向循環(huán)網(wǎng)絡(Bi-Directional RNN)[38]作為智能體間的聯(lián)結(jié)方式,這樣做一方面是為了在智能體間信息交互,另一方面是為了產(chǎn)生局域記憶。在智能個體的行動策略上,BiCNet采用DDPG作為智能體的個體策略。這也就意味著BiCNet實際上使用了兩個網(wǎng)絡來處理多智能體訓練問題,μ網(wǎng)絡形成行動策略[39Q網(wǎng)絡評價行動。總體來看,BiCNet的μ網(wǎng)絡,在作用上等于DDPGμ網(wǎng)絡形成策略、雙向RNN進行交流、智能體局域關(guān)聯(lián)進行組織三者的有機組合。

    4.3.2 BiCNet的優(yōu)劣

    BiCNet的改進之處在于使用了雙向循環(huán)網(wǎng)絡代替了單向網(wǎng)絡,使得信息可以進行雙向的交流。這樣使得智能體的信息交流速度變快,處理動態(tài)問題表現(xiàn)更好。同時,BiCNet采用了DDPG而非DQN作為智能體個體策略,一方面能夠處理連續(xù)策略問題,一方面復雜度有所降低。另外,又因為其本身并沒有做出一些特別的智能體假設限制,使得其對于多種類智能體有處理能力。

    五、結(jié)束語

    現(xiàn)有多智能體協(xié)作方法大多具有的結(jié)構(gòu)脆弱以及組織僵化的弱點[40在網(wǎng)絡中,信息傳遞只能按照固有的智能體編號進行傳遞:以1,2,…,i,…,I,1,…的順序往復循環(huán)。當智能體數(shù)量增大時,一次信息遍歷需要歷經(jīng)比較長的時間,在這段時間內(nèi)智能體狀態(tài)一旦大幅改變,會造成網(wǎng)絡失去實時性,進而失效無法有效訓練多智能體。這一問題是單向環(huán)狀通信導致的,i+1對i的通信需要多種連接繞環(huán)一周,影響傳遞的速度可以想見是非常慢的。另外,如果環(huán)狀網(wǎng)絡上的某點出現(xiàn)問題,通信序列在后的智能體將永遠無法將信息傳給通信在前的智能體,智能體的交流徹底失效。

    因此,在智能體連接的信息交換方面,信息交換網(wǎng)絡的端點和內(nèi)容,有很大的探討的空間。就具體而言,可以在BiCNet的DDPG方法基礎(chǔ)上,嘗試仿照DIAL(RIAL)中對DQN網(wǎng)絡做出的調(diào)整,為智能體內(nèi)部的 網(wǎng)絡和Q網(wǎng)絡,提供更多種類的交互信息,找尋對應信息的提取源頭和最佳的輸出點。

    綜上所述,為多智能體協(xié)作提供一種能夠耐受打擊破壞的有效聯(lián)結(jié)架構(gòu),并且為之提供一種動態(tài)組織方式。使多智能體架構(gòu)能夠在高破壞烈度的戰(zhàn)場環(huán)境中保證有效運轉(zhuǎn)并具有自我恢復、調(diào)配和規(guī)劃能力,是未來多智能體協(xié)作技術(shù)的研究重點。

    參 考 文 獻

    [1]田淵棟. 阿法狗圍棋系統(tǒng)的簡要分析[J]. 自動化學報,2016,42(5):671-675.

    [2] Matej Morav?ík,Martin Schmid,,Neil Burch,et al. DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker[J]. Science,2017,356 (6337):508

    [3]Murthy Devarakonda, Ching-Huei Tsou. Automated Problem List Generation from Electronic Medical Records in IBM Watson[C]. Proceedings of the 27th Conference on Innovative Applications of Artificial Intelligence. 2015: 3942-3947.

    [4] Burt Wilsker. A Study of Multi-Agent Collaboration Theories [R]. Information Science Institute,Research Report. 1996

    [5] L. Busoniu, R. Babuska, B. De Schutter. A comprehensive survey of multiagent reinforcement learning[J]. IEEE Transactions on Systems Man & Cybernetics Part C,2008,38(2):156-172.

    [6] 劉佳,陳增強,劉忠信. 多智能體系統(tǒng)及其協(xié)同控制研究進展[J]. 智能系統(tǒng)學報,2010, 5(1):1-9.

    [7]Christopher JCH Watkins,Peter Dayan. Q-learning[J]. Machine learning,1992,8(3-4):279-292,

    [8]Hu J L, Wellman M P. Nash. Q-learning for general-sum stochastic games[J]. Journal of Machine Learning Research,2004,4(6):1039-1069.

    [9]郭麗麗,丁世飛. 深度學習研究進展[J]. 計算機科學. 2015,42(5):28-33.

    [10] C. J. Maddison, A. Huang, I. Sutskever, et al. Move evaluation in go using deep convolutional neural networks[C]. ICLR. 2015.

    [11]A. Tampuu, T. Matiisen, D. Kodelja, et al. Multiagent cooperation and competition with deep reinforcement learning[J]. Plos One,2017,12(4):e0172395.

    [12]V. Mnih, K. Kavukcuoglu, D. Silver, et al. Playing Atari with deep reinforcement learning[C]. In Deep Learning, Neural Information Processing Systems Workshop. 2013.

    [13] TP. Lillicrap,JJ. Hunt, A. Pritzel. Continuous control with deep reinforcement learning[C]. ICLR. 2016

    [14]Jordan B. Pollack,Alan D. Blair. Why did td-gammon work[C]. International Conference on Neural Information Processing Systems. 1996,10-16.[15]Gerald Tesauro. Temporal difference learning and td-gammon[J]. Communications of the ACM,1995,38(3):58-68.

    [16] J. Schmidhuber. Deep learning in neural networks: An overview[J]. Neural Networks,2014,61-85.

    [17]L. Kocsis,C. Szepesvari. Bandit based Monte-Carlo planning[C]. European Conference on Machine Learning,2006:282-293.

    [18] X. Guo, S. Singh, H. Lee. Deep learning for real-time atari game play using offline monte-carlo tree search planning[C]. NIPS. 2014

    [19]Xin Xu, Chunming Liu, Dewen Hu. Continuous-action reinforcement learning with fast policy search and adaptive basis function selection[J]. Soft Computing - A Fusion of Foundations, Methodologies and Applications,2011,15(6):1055-1070.

    [20]陳興國, 高陽, 范順國. 基于核方法的連續(xù)動作Actor-Critic學習[J]. 模式識別與人工智能, 2017,27(2):103-110.

    [21]祁若龍,周維佳,王鐵軍. 一種基于遺傳算法的空間機械臂避障軌跡規(guī)劃方法[J]. 機器人, 2014 , 36 (3) :263-270.

    [22]任陳俊. 基于機器視覺的場景目標檢測與分類研究[D]. 杭州:杭州電子科技大學,2016.

    [23]黎萍,楊宜民. 基于博弈論的多機器人系統(tǒng)任務分配算法[J]. 計算機應用研究,2013,30(2):392-395.

    [24]葉曄,岑豫皖,謝能剛. 基于博弈論的多移動機器人聚集任務路徑規(guī)劃[J]. 計算機工程與應用, 2009,45(06):216-218.

    [25]段勇,徐心和. 基于多智能體強化學習的多機器人協(xié)作策略研究[J]. 系統(tǒng)工程理論與實踐,2014,34(5):1305-1310.

    [26]D. Maravall, J. De Lope, R. Domnguez. Coordination of communication in robot teams by reinforcement learning[J]. Robotics and Autonomous Systems,2013,61(7):661-666.

    [27] S. Sukhbaatar, A. Szlam, R. Fergus. Learning Multiagent Communication with Backpropagation[C]. NIPS. 2016

    [28]JN Foerster , YM Assael , ND Freitas. Learning to Communicate with Deep Multi-Agent Reinforcement Learning[C]. NIPS. 2016

    [29]S. Ioffe,C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]. ICML,2015:448-456.

    [30] F. S. Melo, M. Spaan, S. J. Witwicki. QueryPOMDP: POMDP-based communication in multiagent systems[C]. European Conference on Multi-agent Systems,2011,7541 :189-204.

    [31] Peng Pengy, Quan Yuany, YingWen.Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games[EB/OL].https://arxiv. org/abs/1703.10069,2017-03-29.

    [32] Angeliki Lazaridou, Alexander Peysakhovich, Marco Baroni. Multi-agent cooperation and the emergence of (natural) language[EB/OL].https://arxiv. org/abs/1612.07182,2017-03-05.

    [33] Caroline Claus,Craig Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems[C]. AAAI/IAAI, 1998:746-752.

    [34]Y. Li, D. Tarlow, M. Brockschmidt, et al. Gated graph sequence neural networks. ICLR, 2015

    [35]袁坤. 多智能體網(wǎng)絡一致性問題的分布式算法研究[D]. 合肥:中國科學技術(shù)大學,2014.

    [36]M. Courbariaux,Y. Bengio. BinaryNet: Training deep neural networks with weights and activations constrained to +1 or -1[EB/OL]. https://arxiv.org/ abs/1602.02830,2016-03-17.

    [37] G. Hinton,R. Salakhutdinov.Discovering binary codes for documents by learning deep generative models[J]. Topics in Cognitive Science,2011,3(1):74-91.

    [38]Mike Schuster,Kuldip K Paliwal.Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

    [39]Nicolas Usunier, Gabriel Synnaeve,Zeming Lin, et al. Episodic exploration for deep deterministic policies: An application to starcraft micromanagement tasks[EB/OL].https://arxiv.org/abs/1609.02993,2016-11-26.

    [40] Long-Ji Lin. Reinforcement learning for robots using neural networks[R]. Technical report, DTIC Document, 1993.

    猜你喜歡
    訓練策略人工智能
    我校新增“人工智能”本科專業(yè)
    2019:人工智能
    商界(2019年12期)2019-01-03 06:59:05
    人工智能與就業(yè)
    數(shù)讀人工智能
    小康(2017年16期)2017-06-07 09:00:59
    核心力量在短跑運動中的作用及其訓練策略
    淺議初中英語聽力障礙及訓練策略
    農(nóng)村初中英語教學中聽力訓練的加強措施
    下一幕,人工智能!
    南風窗(2016年19期)2016-09-21 16:51:29
    下一幕,人工智能!
    南風窗(2016年19期)2016-09-21 04:56:22
    高職選修課《演講與口才》訓練策略與原則探析
    考試周刊(2016年45期)2016-06-24 19:27:20
    一区福利在线观看| 高清欧美精品videossex| av福利片在线| 嫩草影院精品99| 国产欧美日韩一区二区三| 久久久久久免费高清国产稀缺| 最新美女视频免费是黄的| 久久草成人影院| 久久人妻福利社区极品人妻图片| a级片在线免费高清观看视频| 午夜影院日韩av| 在线观看免费视频日本深夜| 咕卡用的链子| 亚洲欧洲精品一区二区精品久久久| 精品无人区乱码1区二区| 久久久久国内视频| 久久人妻熟女aⅴ| 亚洲av成人av| 亚洲国产看品久久| 99久久人妻综合| 夜夜看夜夜爽夜夜摸 | 欧洲精品卡2卡3卡4卡5卡区| 欧美日韩福利视频一区二区| 天堂√8在线中文| 国产一区在线观看成人免费| 久久久久国产精品人妻aⅴ院| 精品一区二区三区四区五区乱码| 国产一区二区激情短视频| 一二三四在线观看免费中文在| 欧美日韩福利视频一区二区| 国产成人影院久久av| 巨乳人妻的诱惑在线观看| 欧美精品一区二区免费开放| 大型黄色视频在线免费观看| 丝袜美足系列| 在线观看免费高清a一片| 久久草成人影院| 黄色片一级片一级黄色片| 日日干狠狠操夜夜爽| 天天影视国产精品| 91字幕亚洲| 欧美精品啪啪一区二区三区| 国产蜜桃级精品一区二区三区| 热re99久久精品国产66热6| 国产亚洲精品综合一区在线观看 | 国产精品久久电影中文字幕| 69精品国产乱码久久久| 亚洲五月天丁香| 欧美激情极品国产一区二区三区| 久久亚洲精品不卡| 水蜜桃什么品种好| 曰老女人黄片| 久久久久国产精品人妻aⅴ院| 午夜91福利影院| 脱女人内裤的视频| 欧洲精品卡2卡3卡4卡5卡区| 亚洲国产中文字幕在线视频| 夜夜夜夜夜久久久久| 制服诱惑二区| 俄罗斯特黄特色一大片| www.999成人在线观看| 在线永久观看黄色视频| 色在线成人网| 自线自在国产av| 精品电影一区二区在线| 亚洲国产欧美日韩在线播放| 曰老女人黄片| 欧美不卡视频在线免费观看 | 90打野战视频偷拍视频| 国产成年人精品一区二区 | 亚洲少妇的诱惑av| 亚洲一区二区三区色噜噜 | 欧美中文日本在线观看视频| 极品人妻少妇av视频| 免费在线观看黄色视频的| 欧美日韩福利视频一区二区| 一夜夜www| 国产av精品麻豆| 极品教师在线免费播放| 91av网站免费观看| 91精品三级在线观看| 国产午夜精品久久久久久| 岛国视频午夜一区免费看| 亚洲第一av免费看| 波多野结衣av一区二区av| 国产三级在线视频| 午夜免费成人在线视频| 欧美一区二区精品小视频在线| 又紧又爽又黄一区二区| 在线观看66精品国产| 国产伦一二天堂av在线观看| 在线国产一区二区在线| 真人做人爱边吃奶动态| 免费观看精品视频网站| 国产日韩一区二区三区精品不卡| 成年女人毛片免费观看观看9| 久久精品国产99精品国产亚洲性色 | 国产亚洲精品久久久久5区| 嫩草影院精品99| 亚洲精品美女久久久久99蜜臀| 国产精品久久久人人做人人爽| a级片在线免费高清观看视频| 午夜福利一区二区在线看| 久久久久久免费高清国产稀缺| 国产精品亚洲一级av第二区| 成年版毛片免费区| 美女福利国产在线| 亚洲精品av麻豆狂野| 黄色怎么调成土黄色| 成人精品一区二区免费| 一级毛片精品| 国产高清videossex| 色尼玛亚洲综合影院| 十分钟在线观看高清视频www| 免费搜索国产男女视频| 亚洲黑人精品在线| 欧美激情高清一区二区三区| 国产精品自产拍在线观看55亚洲| 88av欧美| 亚洲,欧美精品.| 18禁国产床啪视频网站| 日本欧美视频一区| 午夜福利欧美成人| 男女午夜视频在线观看| 日韩精品青青久久久久久| 好男人电影高清在线观看| 亚洲专区中文字幕在线| 窝窝影院91人妻| 人成视频在线观看免费观看| 国产精品av久久久久免费| 免费观看人在逋| 欧美在线一区亚洲| 狠狠狠狠99中文字幕| 99国产精品一区二区蜜桃av| 亚洲欧美一区二区三区黑人| 免费搜索国产男女视频| 久久九九热精品免费| 99riav亚洲国产免费| 青草久久国产| 99在线视频只有这里精品首页| 午夜老司机福利片| 十分钟在线观看高清视频www| 校园春色视频在线观看| 久久久久精品国产欧美久久久| 国产aⅴ精品一区二区三区波| 高清av免费在线| 成人影院久久| 一级毛片女人18水好多| 91大片在线观看| 国产精品电影一区二区三区| 搡老熟女国产l中国老女人| 757午夜福利合集在线观看| 757午夜福利合集在线观看| 变态另类成人亚洲欧美熟女 | 精品一区二区三区四区五区乱码| 亚洲欧美精品综合久久99| 亚洲欧洲精品一区二区精品久久久| 夜夜躁狠狠躁天天躁| 看免费av毛片| 久久国产精品人妻蜜桃| 欧美大码av| 亚洲 欧美一区二区三区| 两性午夜刺激爽爽歪歪视频在线观看 | 757午夜福利合集在线观看| 激情视频va一区二区三区| 大型黄色视频在线免费观看| 国产在线观看jvid| 两个人免费观看高清视频| 免费在线观看完整版高清| 国产黄a三级三级三级人| av欧美777| 亚洲av美国av| 俄罗斯特黄特色一大片| 欧美激情高清一区二区三区| 一边摸一边抽搐一进一小说| 99热国产这里只有精品6| 日本撒尿小便嘘嘘汇集6| 色尼玛亚洲综合影院| 老司机在亚洲福利影院| 国产成人系列免费观看| 叶爱在线成人免费视频播放| 精品一区二区三区四区五区乱码| 人妻丰满熟妇av一区二区三区| 亚洲 欧美 日韩 在线 免费| 韩国精品一区二区三区| 国产精品一区二区三区四区久久 | 婷婷丁香在线五月| 精品国产一区二区久久| 两人在一起打扑克的视频| 在线av久久热| 成年女人毛片免费观看观看9| 国产高清videossex| 亚洲va日本ⅴa欧美va伊人久久| 国产亚洲av高清不卡| 国产精品99久久99久久久不卡| 亚洲国产欧美日韩在线播放| 久久久久国产精品人妻aⅴ院| 国产在线精品亚洲第一网站| 欧美国产精品va在线观看不卡| 国产97色在线日韩免费| 老司机福利观看| www.熟女人妻精品国产| 窝窝影院91人妻| 美女国产高潮福利片在线看| 亚洲成人久久性| 亚洲自拍偷在线| 国产成年人精品一区二区 | 两性夫妻黄色片| 操美女的视频在线观看| 日本三级黄在线观看| 看片在线看免费视频| 色婷婷久久久亚洲欧美| 亚洲精品中文字幕在线视频| a级毛片黄视频| 50天的宝宝边吃奶边哭怎么回事| 日韩精品中文字幕看吧| 久久人人97超碰香蕉20202| 人妻丰满熟妇av一区二区三区| 亚洲人成77777在线视频| 日韩免费av在线播放| 国产一区二区三区视频了| 村上凉子中文字幕在线| 欧美老熟妇乱子伦牲交| av在线天堂中文字幕 | 精品国产美女av久久久久小说| 啦啦啦 在线观看视频| 久久中文字幕一级| www.www免费av| 桃色一区二区三区在线观看| 亚洲人成伊人成综合网2020| 国产高清国产精品国产三级| 久久人人爽av亚洲精品天堂| 国产精品一区二区在线不卡| 亚洲精品久久午夜乱码| 在线观看舔阴道视频| 亚洲国产欧美网| 一本大道久久a久久精品| 搡老熟女国产l中国老女人| 亚洲五月婷婷丁香| 日本vs欧美在线观看视频| 亚洲一区高清亚洲精品| 久久久久国产一级毛片高清牌| 国产97色在线日韩免费| 久久人人爽av亚洲精品天堂| 精品国内亚洲2022精品成人| a级毛片黄视频| 国产成人免费无遮挡视频| 久久精品亚洲精品国产色婷小说| 色综合欧美亚洲国产小说| 色婷婷av一区二区三区视频| 久久国产精品人妻蜜桃| 久久久国产一区二区| 国产aⅴ精品一区二区三区波| 99热国产这里只有精品6| 精品少妇一区二区三区视频日本电影| 亚洲精品中文字幕在线视频| 亚洲av成人av| 国产欧美日韩一区二区精品| 亚洲午夜理论影院| 精品欧美一区二区三区在线| a级毛片在线看网站| 18禁裸乳无遮挡免费网站照片 | 一边摸一边做爽爽视频免费| 人人妻人人爽人人添夜夜欢视频| 91国产中文字幕| 亚洲精品久久午夜乱码| 久久人人97超碰香蕉20202| 欧美日韩亚洲综合一区二区三区_| 欧美成人免费av一区二区三区| 人人澡人人妻人| 黄色怎么调成土黄色| 超碰成人久久| av电影中文网址| 亚洲自偷自拍图片 自拍| 午夜激情av网站| 脱女人内裤的视频| 亚洲一区中文字幕在线| av免费在线观看网站| 女人被躁到高潮嗷嗷叫费观| 亚洲精品国产色婷婷电影| 日韩免费高清中文字幕av| 黄色a级毛片大全视频| 国产免费男女视频| 窝窝影院91人妻| 老司机深夜福利视频在线观看| 色老头精品视频在线观看| 最好的美女福利视频网| 80岁老熟妇乱子伦牲交| 国产精品日韩av在线免费观看 | 亚洲avbb在线观看| 视频区图区小说| www国产在线视频色| 多毛熟女@视频| 久久久久国产一级毛片高清牌| 麻豆一二三区av精品| 国产伦一二天堂av在线观看| 人妻久久中文字幕网| 自拍欧美九色日韩亚洲蝌蚪91| 国产亚洲欧美精品永久| bbb黄色大片| 欧美久久黑人一区二区| 啦啦啦在线免费观看视频4| 久久国产亚洲av麻豆专区| 欧美 亚洲 国产 日韩一| 又黄又爽又免费观看的视频| 午夜精品国产一区二区电影| 色精品久久人妻99蜜桃| 少妇裸体淫交视频免费看高清 | av在线播放免费不卡| 亚洲久久久国产精品| 国产熟女午夜一区二区三区| 欧美激情久久久久久爽电影 | 精品少妇一区二区三区视频日本电影| av视频免费观看在线观看| 国内毛片毛片毛片毛片毛片| 国内久久婷婷六月综合欲色啪| 亚洲欧美日韩另类电影网站| 亚洲视频免费观看视频| 久久久久久久午夜电影 | 97碰自拍视频| 久久人妻福利社区极品人妻图片| 99久久综合精品五月天人人| 亚洲色图av天堂| 深夜精品福利| 别揉我奶头~嗯~啊~动态视频| 欧美中文综合在线视频| 国产精品1区2区在线观看.| 国产精品香港三级国产av潘金莲| 午夜福利在线观看吧| 99精品久久久久人妻精品| 久久国产亚洲av麻豆专区| 成人av一区二区三区在线看| 天堂√8在线中文| 99在线视频只有这里精品首页| 亚洲情色 制服丝袜| 久久久久亚洲av毛片大全| 久久久久久大精品| 伦理电影免费视频| 免费在线观看影片大全网站| 十八禁网站免费在线| 精品午夜福利视频在线观看一区| 亚洲av五月六月丁香网| 欧美老熟妇乱子伦牲交| 很黄的视频免费| 我的亚洲天堂| 最好的美女福利视频网| 日韩欧美一区视频在线观看| 99香蕉大伊视频| 亚洲专区字幕在线| 亚洲国产精品999在线| 十八禁人妻一区二区| 国内久久婷婷六月综合欲色啪| 亚洲全国av大片| av在线天堂中文字幕 | 老汉色∧v一级毛片| 亚洲成人国产一区在线观看| 这个男人来自地球电影免费观看| aaaaa片日本免费| 色老头精品视频在线观看| 在线天堂中文资源库| 18禁黄网站禁片午夜丰满| 黄色成人免费大全| 成在线人永久免费视频| 成年女人毛片免费观看观看9| 身体一侧抽搐| 亚洲精品国产精品久久久不卡| aaaaa片日本免费| 亚洲精品一卡2卡三卡4卡5卡| 亚洲精品粉嫩美女一区| 午夜成年电影在线免费观看| 乱人伦中国视频| 51午夜福利影视在线观看| 国产成人av激情在线播放| 欧美精品亚洲一区二区| 黑丝袜美女国产一区| 免费av中文字幕在线| av免费在线观看网站| 黄色视频不卡| 大香蕉久久成人网| 午夜福利影视在线免费观看| 一区二区三区激情视频| 天天添夜夜摸| 正在播放国产对白刺激| 黑人巨大精品欧美一区二区mp4| 欧美日本中文国产一区发布| 精品久久久久久成人av| 夜夜看夜夜爽夜夜摸 | x7x7x7水蜜桃| 国产精品免费视频内射| 天天添夜夜摸| 级片在线观看| 乱人伦中国视频| 亚洲国产欧美一区二区综合| svipshipincom国产片| www.自偷自拍.com| 国产一区二区在线av高清观看| 午夜成年电影在线免费观看| 麻豆久久精品国产亚洲av | 成人永久免费在线观看视频| 每晚都被弄得嗷嗷叫到高潮| 丝袜美腿诱惑在线| 久99久视频精品免费| 午夜激情av网站| 一个人免费在线观看的高清视频| 国产精品 欧美亚洲| 成人特级黄色片久久久久久久| 久久久国产精品麻豆| 丰满迷人的少妇在线观看| 超碰97精品在线观看| 69av精品久久久久久| 国产在线精品亚洲第一网站| 国产在线观看jvid| 久久九九热精品免费| 老司机亚洲免费影院| 婷婷六月久久综合丁香| 国产成人av教育| 国产视频一区二区在线看| 一夜夜www| 亚洲男人的天堂狠狠| 国产av在哪里看| av福利片在线| 亚洲在线自拍视频| 久久狼人影院| 国产成人一区二区三区免费视频网站| 午夜激情av网站| 大陆偷拍与自拍| 夫妻午夜视频| 久久久国产欧美日韩av| 麻豆av在线久日| 日韩免费高清中文字幕av| 欧美日本中文国产一区发布| 成人18禁高潮啪啪吃奶动态图| 国产高清激情床上av| aaaaa片日本免费| 12—13女人毛片做爰片一| 麻豆av在线久日| 啦啦啦在线免费观看视频4| 日本欧美视频一区| 国产精品成人在线| 欧美日韩av久久| 大陆偷拍与自拍| 一区在线观看完整版| 精品少妇一区二区三区视频日本电影| 久久人妻熟女aⅴ| 久久精品91无色码中文字幕| 男男h啪啪无遮挡| 黄色 视频免费看| 欧美激情高清一区二区三区| 国产99久久九九免费精品| 一级黄色大片毛片| 免费一级毛片在线播放高清视频 | 欧美中文日本在线观看视频| 色哟哟哟哟哟哟| 国产一区二区三区在线臀色熟女 | 在线视频色国产色| 色婷婷av一区二区三区视频| 国产成人欧美| av超薄肉色丝袜交足视频| 国产片内射在线| 午夜a级毛片| 老司机午夜十八禁免费视频| 色老头精品视频在线观看| 宅男免费午夜| 精品久久蜜臀av无| 欧美av亚洲av综合av国产av| 亚洲七黄色美女视频| 亚洲自偷自拍图片 自拍| 黄色视频,在线免费观看| 看黄色毛片网站| 亚洲中文av在线| 亚洲 欧美一区二区三区| 国产精品一区二区三区四区久久 | 国产精品久久久av美女十八| 精品无人区乱码1区二区| 日韩免费av在线播放| 国产精品美女特级片免费视频播放器 | 桃色一区二区三区在线观看| 亚洲av成人不卡在线观看播放网| 久久香蕉激情| 久久久久久人人人人人| 亚洲五月天丁香| 国产成+人综合+亚洲专区| 久久久久久久午夜电影 | 欧美日韩中文字幕国产精品一区二区三区 | 一夜夜www| 无限看片的www在线观看| 欧美日韩亚洲综合一区二区三区_| 91在线观看av| 日韩视频一区二区在线观看| 精品高清国产在线一区| 国产一区二区在线av高清观看| 日日摸夜夜添夜夜添小说| 91精品三级在线观看| 国产日韩一区二区三区精品不卡| 少妇被粗大的猛进出69影院| 少妇的丰满在线观看| 美女大奶头视频| 成人国语在线视频| 婷婷精品国产亚洲av在线| 亚洲成a人片在线一区二区| 国产男靠女视频免费网站| 午夜老司机福利片| 国产深夜福利视频在线观看| 日本撒尿小便嘘嘘汇集6| 免费看a级黄色片| 精品国产一区二区久久| av天堂在线播放| 国产精品秋霞免费鲁丝片| 国产男靠女视频免费网站| 亚洲欧美激情综合另类| 国产亚洲精品第一综合不卡| 成人国语在线视频| 涩涩av久久男人的天堂| 老司机午夜十八禁免费视频| 好男人电影高清在线观看| 18禁黄网站禁片午夜丰满| 国产男靠女视频免费网站| 成人国语在线视频| 日韩成人在线观看一区二区三区| 99久久综合精品五月天人人| 国产又爽黄色视频| 欧洲精品卡2卡3卡4卡5卡区| 久久精品国产亚洲av香蕉五月| 搡老乐熟女国产| 91麻豆精品激情在线观看国产 | 一a级毛片在线观看| 欧洲精品卡2卡3卡4卡5卡区| 久久精品国产清高在天天线| xxx96com| 天堂√8在线中文| 怎么达到女性高潮| 88av欧美| 久久久久久久久免费视频了| 日本黄色日本黄色录像| av国产精品久久久久影院| 国产免费现黄频在线看| 亚洲国产欧美网| 男女之事视频高清在线观看| 又黄又爽又免费观看的视频| 午夜福利在线观看吧| 精品国产亚洲在线| 亚洲人成电影免费在线| 欧美一区二区精品小视频在线| 精品一区二区三区四区五区乱码| 亚洲精品在线观看二区| 国产亚洲欧美98| av欧美777| 9色porny在线观看| 欧美激情极品国产一区二区三区| 黑人操中国人逼视频| 精品免费久久久久久久清纯| 国产精品一区二区精品视频观看| 这个男人来自地球电影免费观看| 久久精品91蜜桃| 99香蕉大伊视频| 国产亚洲精品第一综合不卡| 高清av免费在线| 免费在线观看完整版高清| 99国产精品99久久久久| 欧美激情高清一区二区三区| 亚洲色图av天堂| 嫁个100分男人电影在线观看| 欧美日韩亚洲高清精品| 日本撒尿小便嘘嘘汇集6| 国产又色又爽无遮挡免费看| 国产片内射在线| 在线天堂中文资源库| 精品国产国语对白av| 一夜夜www| 女同久久另类99精品国产91| 亚洲一卡2卡3卡4卡5卡精品中文| 午夜免费成人在线视频| 久久久国产一区二区| 在线免费观看的www视频| 99精品在免费线老司机午夜| 免费高清在线观看日韩| 亚洲国产精品合色在线| 在线观看免费日韩欧美大片| 伊人久久大香线蕉亚洲五| 少妇的丰满在线观看| 两个人免费观看高清视频| 一级毛片女人18水好多| 欧美日韩亚洲综合一区二区三区_| 激情在线观看视频在线高清| 欧美乱妇无乱码| 亚洲少妇的诱惑av| 日本三级黄在线观看| 亚洲精品美女久久久久99蜜臀| 欧美日韩国产mv在线观看视频| 少妇裸体淫交视频免费看高清 | 天天躁夜夜躁狠狠躁躁| 精品久久久精品久久久| 狠狠狠狠99中文字幕| 亚洲 欧美 日韩 在线 免费| x7x7x7水蜜桃| 国产精品香港三级国产av潘金莲| 久久久久久久久免费视频了| 免费高清在线观看日韩| 99国产精品一区二区三区| 91国产中文字幕| 亚洲精品一区av在线观看| √禁漫天堂资源中文www| 日韩三级视频一区二区三区| 欧美性长视频在线观看| 日韩高清综合在线| 18禁观看日本| av网站在线播放免费| 日本精品一区二区三区蜜桃| 精品久久久精品久久久| 国产黄色免费在线视频| 精品电影一区二区在线| 欧美日韩亚洲国产一区二区在线观看| 亚洲av美国av| 欧美乱码精品一区二区三区| 18美女黄网站色大片免费观看|