• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      連“石頭剪刀布”,人類也玩不過(guò)AI了

      2020-12-25 06:36:54
      海外星云 2020年12期
      關(guān)鍵詞:勝率馬爾可夫剪刀

      如果說(shuō)有一種解決問(wèn)題的方法能跨域文化、種族和地域,那么除了抽簽這種純靠運(yùn)氣的方式,恐怕只剩下猜拳了。

      人們普遍認(rèn)可 “石頭-剪刀-布” 三者之間的克制關(guān)系。“公平+隨機(jī)” 的特性使其不僅是活躍氣氛的小游戲,更能作為一種相對(duì)公平的解決問(wèn)題的手段,廣泛應(yīng)用在解決分歧,決定順序,或者確定歸屬的關(guān)鍵時(shí)刻。更不用說(shuō),在誰(shuí)洗碗、誰(shuí)拖地、誰(shuí)做飯之類的家務(wù)活上,猜拳自帶的 “愿賭服輸” 可以有效維系家庭和睦,堪稱隨叫隨到的家庭關(guān)系調(diào)解員。

      在大多數(shù)人的認(rèn)知里,猜拳是隨機(jī)事件,玩家獲勝的概率應(yīng)該是一樣的且恒定在1/3,但事實(shí)可能并非如此。近日,浙江大學(xué)何賽靈教授的研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)基于馬爾可夫鏈的 AI 模型,專門(mén)用來(lái)玩猜拳游戲。在和 52 名人類玩家分別大戰(zhàn) 300 回合之后,AI 擊敗了 95% 的玩家。

      對(duì)于人類玩家來(lái)說(shuō),規(guī)則是贏 +2 分,平 +1 分,輸不得分。在與 AI 對(duì)戰(zhàn)之前,參與者知道獲勝會(huì)獲得金錢(qián)獎(jiǎng)勵(lì),總分越高,贏的錢(qián)越多。因此玩家故意放水或者隨便亂選的概率極低。即便如此,AI 仍然大勝人類。在最懸殊的一場(chǎng)較量中,AI 獲得了 198 次勝利,55 次平手,僅輸了 47 次,勝率超過(guò)人類對(duì)手 4 倍。全部 15600 回合詳盡的原始博弈數(shù)據(jù),在論文的補(bǔ)充資料中給出(詳見(jiàn)參考文獻(xiàn))。如果猜拳勝負(fù)真的是隨機(jī)概率,那么從統(tǒng)計(jì)學(xué)的角度來(lái)講,15600 場(chǎng)比賽下來(lái),AI 獲得如此大優(yōu)勢(shì)的概率非常低。

      擁有“智囊團(tuán)”的Multi-AI模型

      本質(zhì)上來(lái)看,猜拳屬于博弈問(wèn)題,其背后蘊(yùn)藏著經(jīng)典的納什均衡,而每個(gè)個(gè)體的習(xí)慣、認(rèn)知、策略和策略變化都會(huì)影響實(shí)際勝率。比如你和對(duì)手很熟悉,那么你可能知道他/她經(jīng)常出布,因此可以多出剪刀來(lái)克制。

      浙江大學(xué)何賽靈教授團(tuán)隊(duì)提出的 AI 模型就是利用了類似的方法,證明了猜拳真的存在針對(duì)不同個(gè)體的長(zhǎng)期制勝策略,可以有效提高勝率。這套 AI 模型基于 n-階馬爾可夫鏈設(shè)計(jì),擁有記憶性,能夠向前追溯最多 n 個(gè)歷史狀態(tài)并加以利用。為了在實(shí)戰(zhàn)中應(yīng)對(duì)人類玩家的不同性格和策略,研究團(tuán)隊(duì)還發(fā)明了一套 Multi-AI 模型?!敖?duì)每個(gè)人都有效的單一模型很困難,因此我們決定將單個(gè)模型結(jié)合起來(lái),使其能夠區(qū)分和適應(yīng)更多不同的競(jìng)爭(zhēng)策略?!?研究人員在論文中解釋稱。

      在與人類對(duì)戰(zhàn)的第一套 Multi-AI 模型中,他們放入了 1-5 階馬爾可夫鏈,即 5 個(gè)獨(dú)立的 AI 模型,分別參考之前 1-5 個(gè)動(dòng)作。Multi-AI 會(huì)從整體上參考 5 個(gè) AI 模型各自的決策,至于選擇哪個(gè),還要看它們最近 5 次的表現(xiàn)。這里的 “最近 5 次” 被定義為一個(gè)超參數(shù),名為 Focus length,可以視情況調(diào)整大小,實(shí)現(xiàn)進(jìn)一步優(yōu)化。在與人類對(duì)戰(zhàn)的第二套 Multi-AI 模型中,該參數(shù)就被設(shè)為了 10。打個(gè)比方,每一個(gè) n 階馬爾可夫鏈模型就像是一位軍師,各自有不同的決策標(biāo)準(zhǔn)。而 Multi-AI 模型就是司令,手底下有好多名軍師組成的智囊團(tuán)。做決策時(shí),每個(gè)軍師會(huì)提交自己的出拳建議,司令會(huì)根據(jù)他們過(guò)去幾次的表現(xiàn),采納綜合分?jǐn)?shù)最高的人的建議,以提高長(zhǎng)期勝率。如果人類玩家連續(xù)勝利,就會(huì)促使 Multi-AI 轉(zhuǎn)向選擇其他 AI 模型的更優(yōu)解。如果人類玩家連續(xù)失敗,大概率會(huì)轉(zhuǎn)換策略,或者打破之前的出拳規(guī)律,這時(shí) Multi-AI 也可以隨之調(diào)整。

      最終的社會(huì)實(shí)驗(yàn)結(jié)果反映出了這個(gè)想法的有效性。在 52 名志愿者中,只有不到 5 人擊敗了 AI。很多人都在最初 20個(gè)~50 個(gè)回合里處于領(lǐng)先,但隨后就被 AI 捕捉到了隱藏的行為模式,飲恨敗北。那些擊敗 AI 的人,勝率也只是稍微高出一些,并未拉開(kāi)太大差距。

      6 年前被質(zhì)疑的研究

      值得一提的是,在開(kāi)發(fā) AI 模型背后的算法時(shí),研究團(tuán)隊(duì)閱讀了 6 年前另一個(gè)浙大團(tuán)隊(duì)的研究成果,但使用了另一種不同的博弈策略。

      相較于之前對(duì)于所有玩家數(shù)據(jù)整體以統(tǒng)計(jì)學(xué)的方式進(jìn)行研究,這里的 Multi-AI 模型更強(qiáng)調(diào)針對(duì)不同玩家之間的個(gè)性差異、出拳策略,來(lái)及時(shí)的進(jìn)行調(diào)控,選取當(dāng)下最適宜的博弈策略。2014 年 5 月,很多媒體都報(bào)道了一項(xiàng)以 “石頭剪刀布” 游戲?yàn)閷?duì)象的科研成果。這項(xiàng)研究課題原本是 “可控實(shí)驗(yàn)社會(huì)博弈系統(tǒng)中一些非平衡統(tǒng)計(jì)物理問(wèn)題”,但媒體和輿論關(guān)注的重點(diǎn)大多是 “如何提高猜拳勝率”,因此還被質(zhì)疑是浪費(fèi)經(jīng)費(fèi)。

      其實(shí)不然。這項(xiàng)研究還被《麻省理工科技評(píng)論》評(píng)為 2014 年最佳成果(預(yù)印本)之一。論文揭示了猜拳游戲背后蘊(yùn)藏著不同的行為模式,比如贏家傾向于下一輪出同樣的手勢(shì),而輸家傾向于改變;人們更愿意出石頭等等。但更深層的主旨是探討納什均衡在真實(shí)博弈中是否成立,研究現(xiàn)實(shí)中的博弈模型框架,并且分析游戲中的宏觀周期現(xiàn)象與微觀行為基礎(chǔ)。這其中用到的基礎(chǔ)理論涉獵博弈論、心理學(xué)和神經(jīng)科學(xué)等多個(gè)領(lǐng)域。

      類似的,2020 年這項(xiàng)關(guān)于 “石頭剪刀布” 的最新研究,成果不僅僅是一個(gè)很厲害的猜拳 AI,還是一個(gè)很厲害的循環(huán)制衡模型分析師。未來(lái)有望拓展到其他博弈場(chǎng)景,比如預(yù)測(cè)競(jìng)爭(zhēng)對(duì)手的下一步舉動(dòng),規(guī)劃更有效的競(jìng)選策略,或者制定更有利的定價(jià)方案等等?!埃ㄎ覀儼l(fā)現(xiàn))人類的競(jìng)爭(zhēng)行為確實(shí)有規(guī)律可循,通過(guò)使用適當(dāng)?shù)暮?jiǎn)單模型就能利用這些規(guī)律,”研究人員在論文中總結(jié)道,“對(duì)于競(jìng)爭(zhēng)行為模式以及如何利用它們的研究,有望讓我們更好地建模,預(yù)測(cè)和適應(yīng)不同的競(jìng)爭(zhēng)模式?!?/p>

      (本刊綜合整理)(編輯/華生)

      猜你喜歡
      勝率馬爾可夫剪刀
      一種生成殘局?jǐn)?shù)據(jù)庫(kù)的倒推算法
      基于預(yù)期收益策略與UCT的德州撲克算法
      鈍剪刀
      家教世界(2020年31期)2020-12-02 01:14:06
      風(fēng)有一把剪刀
      大剪刀,小剪刀
      幼兒園(2018年6期)2018-06-19 17:11:38
      保費(fèi)隨機(jī)且?guī)в屑t利支付的復(fù)合馬爾可夫二項(xiàng)模型
      2014—2015年中國(guó)女子籃球職業(yè)聯(lián)賽單節(jié)得失分與比賽結(jié)果相關(guān)性分析
      小小金剪刀
      基于SOP的核電廠操縱員監(jiān)視過(guò)程馬爾可夫模型
      應(yīng)用馬爾可夫鏈對(duì)品牌手機(jī)市場(chǎng)占有率進(jìn)行預(yù)測(cè)
      固原市| 乌鲁木齐市| 克山县| 平湖市| 准格尔旗| 东源县| 石首市| 桑日县| 日土县| 监利县| 宿州市| 绥芬河市| 靖远县| 政和县| 碌曲县| 台中市| 东阳市| 墨竹工卡县| 松桃| 凤城市| 兴山县| 奉新县| 中山市| 通许县| 连江县| 礼泉县| 图们市| 尤溪县| 石嘴山市| 汉沽区| 东乌珠穆沁旗| 宿迁市| 海盐县| 绥芬河市| 蓬溪县| 田阳县| 黄山市| 河曲县| 娱乐| 梁平县| 邳州市|