余靖靜
人工智能研究長期以來的一個(gè)目標(biāo)是,在最具挑戰(zhàn)性的領(lǐng)域,在沒有人類輸入的條件下,創(chuàng)造出實(shí)現(xiàn)超越人類能力的算法
AlphaGo(以下稱“阿爾法狗”)是首個(gè)在圍棋中戰(zhàn)勝人類世界冠軍的系統(tǒng)。該系統(tǒng)開發(fā)團(tuán)隊(duì)DeepMind近日公布,最強(qiáng)版AlphaGo Zero(以下稱“阿爾法元”)能零基礎(chǔ)“自學(xué)成才”,通過幾天的訓(xùn)練,就以100比0的戰(zhàn)績擊敗了“阿爾法狗”。
“阿爾法元”為何能短時(shí)間內(nèi)“完爆”“阿爾法狗”?它給人工智能(AI)的發(fā)展帶來什么啟示?人工智能成長不再受限于人類經(jīng)驗(yàn),是否要喟嘆“顫抖吧,人類”?
對于在如此短的時(shí)間超越了“阿爾法狗”,浙江工業(yè)大學(xué)副教授、博導(dǎo)姚信威認(rèn)為,這種“無師自通”的學(xué)習(xí)模式在AI整個(gè)發(fā)展上是具有里程碑意義的。
姚信威說,“阿爾法元”的偉大之處是第一次讓機(jī)器在不“學(xué)習(xí)”任何棋譜、只設(shè)定規(guī)則的情況下,從“一張白紙”的狀態(tài)開始,迅速成為圍棋大師,“在這個(gè)過程中,‘阿爾法元是自己的老師?!?img alt="" src="https://cimg.fx361.com/images/2017/12/07/lwdf201742lwdf20174236-1-l.jpg" style="">
“‘阿爾法元豐富了人工智能成長的方式,在方法論上是有重大意義的進(jìn)步?!眹仪擞?jì)劃特聘專家羅歡認(rèn)為,“阿爾法狗”學(xué)習(xí)人類經(jīng)驗(yàn),需要大量數(shù)據(jù),學(xué)習(xí)成果是訓(xùn)練數(shù)據(jù)集里隱含的人類專家認(rèn)知的集合;而“阿爾法元”通過機(jī)器間的博弈來提高,不需要人類經(jīng)驗(yàn),在判別模型給定的目標(biāo)下,可以超越人類經(jīng)驗(yàn),發(fā)現(xiàn)人類專家還沒有探索過的博弈路徑。
“人工智能研究長期以來的一個(gè)目標(biāo)是,在最具挑戰(zhàn)性的領(lǐng)域,在沒有人類輸入的條件下,創(chuàng)造出實(shí)現(xiàn)超越人類能力的算法?!柗ㄔ某晒?,是朝這個(gè)目標(biāo)邁進(jìn)的一大步?!币π磐f,“阿爾法元”證明了,即使在最具挑戰(zhàn)的領(lǐng)域,純強(qiáng)化學(xué)習(xí)的方法是完全可行的——即不需要人類的樣例或指導(dǎo),不提供基本規(guī)則以外的任何領(lǐng)域知識,能夠?qū)崿F(xiàn)超越人類的水平。
姚信威分析說,“阿爾法元”得到這樣的結(jié)果,是利用了一種新的強(qiáng)化學(xué)習(xí)方式。該系統(tǒng)從一個(gè)對圍棋游戲完全沒有任何知識的神經(jīng)網(wǎng)絡(luò)開始,通過與一種強(qiáng)大的搜索算法的結(jié)合,它就可以自己和自己下棋了。在這個(gè)自我對弈的過程中,神經(jīng)網(wǎng)絡(luò)不斷被調(diào)整、更新,以預(yù)測下一個(gè)落子位置以及對局的最終贏家。
他解釋說,每一次迭代,更新后的神經(jīng)網(wǎng)絡(luò)都會(huì)將與搜索算法重新組合,進(jìn)而創(chuàng)建一個(gè)新的、更強(qiáng)大的“阿爾法元”版本,使得神經(jīng)網(wǎng)絡(luò)的預(yù)測越來越準(zhǔn)確,得到更加強(qiáng)大的“阿爾法元”版本。
“無師自通”雖然在技術(shù)上令人驚艷,姚信威認(rèn)為,其在短期還是無法成為主流?!澳壳叭斯ぶ悄芙鉀Q的很多事情,實(shí)際上都是在模擬人類的某一種技能,讓機(jī)器應(yīng)用這一技能去完成任務(wù),而這需要海量的數(shù)據(jù)與更多的信號輸入。所以,在今后很長一段時(shí)間內(nèi),監(jiān)督學(xué)習(xí)依然是AI研究與AI商業(yè)化的主流方向。”
“‘阿爾法元是對增強(qiáng)學(xué)習(xí)理論的一個(gè)很好的驗(yàn)證,非常鼓舞人心。”羅歡認(rèn)為,將來我們會(huì)陸續(xù)看到大量的研究成果和實(shí)際應(yīng)用出現(xiàn),“當(dāng)然,從理論初步驗(yàn)證到實(shí)用肯定還有一個(gè)工程化的過程。”
姚信威也認(rèn)為,對弈之外,“阿爾法元”的技術(shù)可能在其他領(lǐng)域應(yīng)用,比如新材料開發(fā)、新藥的化學(xué)結(jié)構(gòu)探索等,“但這需要時(shí)間驗(yàn)證”。
他認(rèn)為,“阿爾法元”的自主學(xué)習(xí)帶來的技術(shù)革新,并非適用于所有人工智能領(lǐng)域——圍棋是一種對弈游戲,信息透明,有明確結(jié)構(gòu);而語音識別、圖像識別、自然語音理解、無人駕駛等領(lǐng)域,數(shù)據(jù)無法窮舉,也很難完全無中生有;“阿爾法元”的技術(shù)可以降低數(shù)據(jù)需求,但依然需要大量的數(shù)據(jù)。
面對如此強(qiáng)大的“阿爾法元”,部分人士難免覺得“被碾壓”“有些可怕”。專家們則認(rèn)為,其實(shí)不必驚慌。
“嚴(yán)格講,圍棋規(guī)則和判定棋局輸贏也是一種監(jiān)督信號。因此,說人類無用,或者說機(jī)器可以自己產(chǎn)生認(rèn)知,都沒有準(zhǔn)確地理解‘阿爾法元?!币π磐f。
“‘阿爾法元畢竟是個(gè)模型,它不是智慧生物。人類棋手依然可以利用智慧,以更奇特的招數(shù)來取勝?!鄙虾:J麓髮W(xué)信息工程學(xué)院教師朱昌明說。
“人的歸人,機(jī)器的歸機(jī)器?!绷_歡說,圍棋人是下不過機(jī)器了,而譬如五子棋、象棋等,人早就下不過機(jī)器了,但還是有非常多的愛好者。
“圍棋有確定的目標(biāo),確定的規(guī)則,確定的評價(jià)方法,這個(gè)問題就變成了一個(gè)搜索問題,而難點(diǎn)就在于對巨大的搜索空間的剪枝,以及得分的預(yù)測。這樣的問題往往是機(jī)器最擅長的。”復(fù)旦大學(xué)博士生四年級陳新馳說,人類不擅長這些,但從語義理解的角度,機(jī)器什么都做不了。
“所以即使‘阿爾法元(下圍棋)可以戰(zhàn)勝人類,也不能說明什么問題,因?yàn)樗静恢雷约涸谙缕??!标愋埋Y說,從實(shí)現(xiàn)人工智能的角度,仍有很長的路要走。
“增強(qiáng)學(xué)習(xí)理論的能力邊界離自主意識還很遠(yuǎn)?!柗ㄔ饕门袆e模型取代了數(shù)據(jù)標(biāo)注,其對應(yīng)的是一個(gè)簡單規(guī)則的封閉系統(tǒng);而對目標(biāo)不能用數(shù)學(xué)模型描述的領(lǐng)域,它還無能為力?!绷_歡說。
“一個(gè)孩子在1歲時(shí),碰幾次樹就知道以后要避開樹行走,而人工智能創(chuàng)造的無人駕駛車卻需要碰撞幾萬次才能學(xué)會(huì)避開障礙物。這是人類先天的優(yōu)勢?!敝觳髡f。