• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      關(guān)于中國象棋人機(jī)對戰(zhàn)的自學(xué)方法分析

      2015-05-09 09:37:00馬麟
      青年文學(xué)家 2015年33期
      關(guān)鍵詞:中國象棋

      摘 ?要:相較國際象棋人機(jī)對戰(zhàn)程序的開發(fā),中國象棋人機(jī)對戰(zhàn)的設(shè)計(jì)更具有難度,然而我國相關(guān)學(xué)者人數(shù)并不多,具備研發(fā)人機(jī)對戰(zhàn)自學(xué)習(xí)能力的學(xué)者更為缺乏。本文探究了通過激勵(lì)學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)、利用有效的算法學(xué)習(xí)兩種中國象棋人機(jī)對戰(zhàn)自學(xué)習(xí)辦法,以便為中國象棋人機(jī)對戰(zhàn)的開發(fā)提供參考。

      關(guān)鍵詞:中國象棋;人機(jī)對戰(zhàn);自學(xué)習(xí)

      作者簡介:馬麟(1966-),女,河北清河人,本科學(xué)歷,陜西省體育運(yùn)動(dòng)學(xué)校中職講師,國家級象棋大師,國家級象棋裁判,多次進(jìn)入全國女子個(gè)人錦標(biāo)賽前六名,研究方向:中國象棋。

      [中圖分類號]:G891 ?[文獻(xiàn)標(biāo)識(shí)碼]:A

      [文章編號]:1002-2139(2015)-33--01

      自從國際象棋研發(fā)人機(jī)對戰(zhàn)系統(tǒng)后,世界各國學(xué)者將研究目標(biāo)轉(zhuǎn)向規(guī)則、棋路更為復(fù)雜的中國象棋。中國象棋是一種將兩軍對戰(zhàn)轉(zhuǎn)化為利用棋子博弈的游戲,對戰(zhàn)雙方在下棋時(shí),充分活躍自身的思維,將形象思維與邏輯思維的作用發(fā)揮到極致。

      一、中國象棋人機(jī)對戰(zhàn)的自學(xué)習(xí)的具體方法

      (一)通過激勵(lì)學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)

      象棋對戰(zhàn)機(jī)器的學(xué)習(xí)方法共有三種:激勵(lì)學(xué)習(xí)、監(jiān)督學(xué)習(xí)以及無監(jiān)督學(xué)習(xí)。其中監(jiān)督學(xué)習(xí)必須由導(dǎo)師輔助完成,導(dǎo)師在智能體運(yùn)行狀態(tài)時(shí),告知智能體正確動(dòng)作,并要求智能體記憶。無監(jiān)督學(xué)習(xí)中只存在輸入集,之后通過輸入集之上的實(shí)例進(jìn)行分組學(xué)習(xí)。激勵(lì)學(xué)習(xí)是人類在智能體在接觸環(huán)境過程中,通過給予智能體即時(shí)簡單的獎(jiǎng)勵(lì)信號,使智能體在不斷的嘗試中,逐漸趨向合理的行為。激勵(lì)學(xué)習(xí)有別于其他方法,區(qū)別在于人類并不告知智能體行為的對錯(cuò),而是讓其主動(dòng)與外界接觸,不斷嘗試,借由收到的獎(jiǎng)懲信息,積累學(xué)習(xí)經(jīng)驗(yàn),以便確認(rèn)哪種行為可以收到獎(jiǎng)勵(lì)信號,從而對這種行為進(jìn)行學(xué)習(xí),無限逼近最優(yōu)行為。

      現(xiàn)今,棋類博弈算法多采用TD學(xué)習(xí)算法以及Q-學(xué)習(xí)算法。TD學(xué)習(xí)算法結(jié)合了蒙塔卡洛思想與動(dòng)態(tài)規(guī)劃思想,一方面TD算法無需借助系統(tǒng)模型的幫助,即可從智能體所獲取的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)。另一方面,TD算法與動(dòng)態(tài)規(guī)劃的運(yùn)行過程相同,迭代通過預(yù)估所得的值函數(shù)。Q-學(xué)習(xí)算法與TD算法的主要區(qū)別在于,Q-在進(jìn)行學(xué)習(xí)迭代時(shí),采取狀態(tài)-動(dòng)作對等獎(jiǎng)賞以及采用Q*(s,a)作為估計(jì)函數(shù),而不同于TD函數(shù)所采用的狀態(tài)獎(jiǎng)賞和V(s),因此智能體在每次進(jìn)行學(xué)習(xí)迭代時(shí)都需對行為過程進(jìn)行全面考察,以保證其規(guī)范學(xué)習(xí)過程。

      神經(jīng)網(wǎng)絡(luò)應(yīng)用廣泛,各種問題均可以借助神經(jīng)網(wǎng)絡(luò)幫助解決,其作用主要有三類:分類、模式識(shí)別、函數(shù)逼近。BP神經(jīng)網(wǎng)絡(luò)得到廣泛普及,成為目前非線性控制系統(tǒng)中使用的主流神經(jīng)網(wǎng)絡(luò)模型,因其能夠解決當(dāng)多層網(wǎng)絡(luò)存在隱層時(shí),導(dǎo)致學(xué)習(xí)存在障礙的問題。BP算法屬監(jiān)督學(xué)習(xí),對神經(jīng)網(wǎng)絡(luò)訓(xùn)練而言,只能通過批量提供輸入輸出對的方法進(jìn)行。然而許多實(shí)際應(yīng)用的智能體不能識(shí)別最優(yōu)策略,因此無法獲取輸入輸出對。因此可將BP神經(jīng)網(wǎng)絡(luò)與激勵(lì)網(wǎng)絡(luò)融合為一體,形成新模型:RBP模型,該模型能夠幫助BP網(wǎng)絡(luò)從實(shí)際系統(tǒng)中獲取學(xué)習(xí)經(jīng)驗(yàn),并以此作為參考改變學(xué)習(xí)策略,其過程是向最優(yōu)策略無限逼近的過程,且在學(xué)習(xí)過程中無需由導(dǎo)師進(jìn)行監(jiān)督。該模型可以將所學(xué)知識(shí)用以訓(xùn)練精神系統(tǒng),從而使網(wǎng)絡(luò)逐漸達(dá)到最優(yōu)狀態(tài)。現(xiàn)將神經(jīng)網(wǎng)絡(luò)運(yùn)用于棋類對戰(zhàn)機(jī)器中,使其作為棋類對戰(zhàn)的評估函數(shù),機(jī)器通過不斷地對戰(zhàn),利用激勵(lì)學(xué)習(xí)算法對網(wǎng)絡(luò)物產(chǎn)進(jìn)行預(yù)測,進(jìn)而訓(xùn)練神經(jīng)網(wǎng)絡(luò),機(jī)器可通過誤差反向傳播的方法,對節(jié)點(diǎn)的權(quán)值進(jìn)行反復(fù)的修正,從而使棋類評估函數(shù)愈發(fā)精確。

      (二)利用有效的學(xué)習(xí)算法學(xué)習(xí)更合理的參數(shù)

      無論評估函數(shù)有多復(fù)雜,都可以將其列作多項(xiàng)式。中國象棋的評估函數(shù)中至少含有五個(gè)方面的要點(diǎn),而每一要點(diǎn)中又包含許多參數(shù)值,線性的將其組合在一起從而得到最終評估值。然而這樣編出的程序,其棋力的高低,完全取決于編程者對象棋的理解,之后即使通過手調(diào)節(jié),也很難提高機(jī)器的棋力。

      若評估函數(shù)由經(jīng)驗(yàn)累積而得,其參數(shù)也必定是由經(jīng)驗(yàn)的積累而產(chǎn)生。因此利用某種學(xué)習(xí)算法以修改評估函數(shù)中的各個(gè)參數(shù),則能達(dá)到更為理想的效果,機(jī)器的下棋水平逐漸提升。

      相機(jī)對戰(zhàn)機(jī)器可利用瞬時(shí)差分TD算法以尋求最為合適的參數(shù)組合。TD屬激勵(lì)學(xué)習(xí),設(shè)計(jì)者可將全部棋子子力值配置歸一,同時(shí)結(jié)合Alpha-Beta搜索方法,利用TD算法修該棋子的子力值,以達(dá)到有過中國象棋參數(shù)的目的。

      棋子子力值更新的具體公式如下:

      其中:

      和分別代表棋子的權(quán)值和當(dāng)前局勢中該棋子對己方提供的優(yōu)勢。設(shè)我方棋子“車”,計(jì)算時(shí)除以2,若你場上“車”的數(shù)量為二,而對方為一,則計(jì)算返還值為。

      先將前式的梯度與求和展開:

      之后讓機(jī)器進(jìn)行大量的游戲?qū)?zhàn),為機(jī)器提供經(jīng)驗(yàn)值,一定數(shù)量的練習(xí)之后,即可使機(jī)器與他人對戰(zhàn)。

      二、結(jié)束語:

      就目前來說,中國象棋人機(jī)對戰(zhàn)博弈技術(shù)的研究尚處于探索階段,擁有極大的發(fā)展空間。由研究象棋機(jī)器博弈的所得的技術(shù)成果,不只可以用做娛樂,也可用做保護(hù)社會(huì)安全,模擬城市可能出現(xiàn)的危險(xiǎn),或進(jìn)行軍事對戰(zhàn)模擬綜合提升我國軍事力量,人機(jī)對戰(zhàn)技術(shù)的研究無論理論意義或是應(yīng)用前景都有其不可替代的價(jià)值。

      參考文獻(xiàn):

      [1]陳業(yè)鵬. 基于Alpha-Beta搜索算法的中國象棋人機(jī)對戰(zhàn)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)光盤軟件與應(yīng)用,2012,04:197-199.

      [2]周明明. 基于專家系統(tǒng)和蒙特卡羅方法的計(jì)算機(jī)圍棋博弈的研究[D].南京航空航天大學(xué),2012.

      猜你喜歡
      中國象棋
      “中國象棋第一人”涉嫌“買棋”“賣棋”
      王跑跑
      走特色發(fā)展之路 譜學(xué)校發(fā)展華章
      ——邯鄲市展覽路小學(xué)校園象棋活動(dòng)側(cè)記
      馬踏連營
      馬踏連營
      讀寫算(上)(2016年12期)2016-12-13 10:50:39
      中國象棋博弈程序中邊界判斷的優(yōu)化方法研究
      大博士回答
      為業(yè)余棋手診脈
      棋藝(2014年7期)2014-09-09 09:42:59
      中國象棋棋盤
      中國象棋在德國越來越紅火
      海外星云 (2009年13期)2009-04-29 00:44:03
      华阴市| 巴彦淖尔市| 宝兴县| 浮梁县| 永登县| 寿光市| 海淀区| 祁东县| 黄平县| 乌鲁木齐县| 盐津县| 高州市| 荣成市| 邵东县| 东城区| 三台县| 常德市| 贵阳市| 旬邑县| 西乡县| 章丘市| 茂名市| 疏勒县| 福海县| 图木舒克市| 云霄县| 五大连池市| 休宁县| 锦州市| 汶川县| 汶上县| 潞城市| 彭阳县| 吉首市| 云霄县| 洪湖市| 榆社县| 西安市| 兰考县| 乳源| 孟津县|