葉子
所謂人工智能,還是對人自身的研究,從有自我意識開始,人類一直在認識自己,并通過認識自己讓生活變得更美好。我們能認識到心臟的運作機制,造出心臟起搏器,但這和造出一個完整的心臟是兩回事,同樣,我們能讓電腦下棋贏了人類,這和能造出一個大腦是兩回事。
前不久,谷歌的“阿爾法圍棋”AlphaGo和韓國九段圍棋手李世石之間的人機世紀大戰(zhàn)引起了全世界人民的關(guān)注,AlphaGo最終以4:1取得勝利。雖然很多人都慶幸人類并沒有輸?shù)煤翢o還手之力,但AlphaGo也有自己的收獲:由于在第四局比賽中輸給了李世石,AlphaGo也有了自己的WHR排名,它以9勝1負的戰(zhàn)績,積3586分,排名世界第二,僅次于中國九段棋手柯潔。
此次人機大戰(zhàn),無論在圍棋界還是人工智能界,抑或是在普通民眾間,都引發(fā)了軒然大波。但在這場被全球圍觀的人機大戰(zhàn)中,似乎只有贏家,沒有輸家。
為什么是圍棋
其實早在1996年,美國IBM公司就開發(fā)出了一款國際象棋超級電腦——“深藍”,它在正常時限的比賽中首次擊敗了排名世界第一的棋手。不過,那次的比賽似乎并沒有引來多少關(guān)注,而這次人機圍棋大戰(zhàn)卻成了全球的聚焦點,為什么?因為它“膽敢”選擇圍棋!
傳統(tǒng)的計算機程序在參與棋類游戲時,往往會使用“暴力計算”的做法,即為所有可能的步數(shù)建立搜索樹,也就是根據(jù)數(shù)學(xué)和邏輯推理的方法,把每種可能的路徑都走一遍,從中選出最優(yōu)的走法。
而圍棋棋盤有361個點,走法變化繁多,其他棋類游戲望塵莫及。圍棋的“分支因子”無窮無盡,19×19格圍棋的精確合法棋局數(shù)的所有可能性是一個171位數(shù)——比宇宙中的原子數(shù)還多。這樣的計算量,哪怕是巨型計算機也要算上許多年。此外,由于圍棋的每顆棋子都相同,沒有大小的區(qū)分,這就使圍棋的下法中增加了很多“隨機”的成分,無法用邏輯推理來預(yù)測(譬如在象棋中,不同的棋對應(yīng)有不同的下法規(guī)則,而圍棋則沒有這些限制)。因此,進入圍棋領(lǐng)域一直被認為是目前人工智能的最大挑戰(zhàn)。
AlphaGo是怎么學(xué)圍棋的
那么AlphaGo是怎么學(xué)習(xí)圍棋的?難道還靠“暴力計算”嗎?答案顯然是否定的。
簡單來說,AlphaGo之所以可以玩轉(zhuǎn)圍棋,主要在于其擁有兩個大腦——負責(zé)選擇下一步走法的“策略網(wǎng)絡(luò)”和負責(zé)預(yù)測比賽實時勝利者的“價值網(wǎng)絡(luò)”。每走一步,它倆估算一次獲勝方,而不是像“深藍”那樣一直搜索到比賽結(jié)局,從而減少了運算量。兩個大腦的配合工作,將圍棋巨大無比的搜索空間壓縮到可以控制的范圍之內(nèi)。
僅僅這樣還不夠,想要戰(zhàn)勝人類,AlphaGo需要做的第一步就是模仿人類。設(shè)計人員首先讓它“學(xué)習(xí)”了圍棋專業(yè)棋手的3000萬步實例,完成“價值網(wǎng)絡(luò)”的基礎(chǔ)訓(xùn)練課程。通過這種經(jīng)驗學(xué)習(xí),AlphaGo對于人類圍棋走法的預(yù)測準確率就已達到57%,之后,等待AlphaGo的便是試著超越人類。與以往的計算機不同,AlphaGo最特別的地方就在于它可以“深度學(xué)習(xí)”——像人類大腦一樣自主學(xué)習(xí),不斷提升棋藝。這才是AlphaGo最令人可怕的地方。
簡單來說,AlphaGo可以自己與自己對弈(目前它已自我對弈超過3000萬局),在這個過程中,它不斷積累著勝負經(jīng)驗,還舉一反三,形成它對圍棋的一種“全局觀”,甚至形成自己對于圍棋的一種“思考”。
伴隨著自我學(xué)習(xí)的不斷深入和對弈次數(shù)的不斷增加,AlphaGo會越來越少地依賴過往的經(jīng)驗,轉(zhuǎn)而越來越多地依靠自己的評價網(wǎng)絡(luò),帶有創(chuàng)新性地選擇最有利于自己的走法。在圍棋世界里,AlphaGo是學(xué)霸中的學(xué)霸。
人類還剩下什么?
本次人機大戰(zhàn)勝負已然分明,許多網(wǎng)友開始幻想,究竟在什么棋類項目上,人類能夠有把握戰(zhàn)勝人工智能,或者至少不會輸?shù)煤軕K。最終的討論結(jié)果是飛行棋——主要依靠運氣的游戲。
其實除了圍棋,人工智能已經(jīng)從各個方面開始挑戰(zhàn)人類,比如與棋類游戲不盡相同的麻將或是牌類游戲。在這類游戲中,玩家能夠掌握的信息是不完整的,無法控制諸如對手的底牌以及下一張來牌等因素,因此屬于不完全信息博弈,計算難度成倍上升。不過,日本東京大學(xué)卻開發(fā)了一款麻將機器人——“爆打”。“爆打”和 AlphaGo一樣,有自我對弈以及閱讀學(xué)習(xí)人類牌譜的能力。從2015年到2016年,“爆打”已經(jīng)打了約13萬手牌,平均成績在六段以上。2015年,加拿大研究人員則開發(fā)了能夠玩轉(zhuǎn)德州撲克的智能機器人(僅限于雙人限注模式)。無論對手是誰,這款德州撲克機器人都能保證至少不輸。
來自英國的科學(xué)家比爾·西蒙斯早在十幾年前便開發(fā)了“大獎?wù)禄稹?,這是一款可以應(yīng)用于投資領(lǐng)域的人工智能。當(dāng)年他請來一位統(tǒng)計學(xué)大師和一位數(shù)學(xué)家編寫模型,然后讓電腦程序完全自主操作。“大獎?wù)禄稹蓖ㄟ^對歷史數(shù)據(jù)的統(tǒng)計,找出金融產(chǎn)品價格、宏觀經(jīng)濟、市場指標、技術(shù)指標等各種指標間變化的數(shù)學(xué)關(guān)系,從中發(fā)現(xiàn)市場目前存在的微小獲利機會,隨后執(zhí)行快速且大規(guī)模的交易。迄今,“大獎?wù)禄稹比匀槐3种?4%的年化收益率,如果你在20年前向他投資一萬元,那么今天它會回報給你348萬,這樣的投資效率完爆投資巨鱷巴菲特和索羅斯。
而在藝術(shù)方面,智能機器人已經(jīng)創(chuàng)作出既合乎樂曲規(guī)則又符合人類審美的音樂,它們甚至可以創(chuàng)作出具有巴洛克時期或是古典主義早期風(fēng)格的樂曲,許多聽眾甚至都無法分辨樂曲的真正創(chuàng)作者是機器人還是人類。在韓國《金融新聞》編輯部,有一位特殊的人工智能記者。這位“記者”在得知當(dāng)天的股市數(shù)據(jù)后,能夠在短短0.3秒內(nèi)完成一篇股市行情的新聞報道,讀者在字里行間同樣無法發(fā)現(xiàn)人工智能的影子。
說來辛酸,如今還未被人工智能征服的領(lǐng)域恐怕就還剩體育了,它們在短時間內(nèi)根本無法在該領(lǐng)域與人類對抗。人體結(jié)構(gòu)的精妙復(fù)雜,肌肉和骨骼的完美配合,讓科學(xué)家都“望人興嘆”。人機大戰(zhàn)后,很多體育迷開始研究,哪些運動是人工智能還遠不能戰(zhàn)勝人類的“凈土”,結(jié)果排名第一的是足球。從目前的技術(shù)來看,機器人的射門還不錯,角度精準且力量十足,但它們想要玩出“圓月彎刀”、“蝎子擺尾”等動作,恐怕還為時尚早。機器人目前最差的一項技術(shù)就是守門,機器守門員的反應(yīng)絕對比《瘋狂動物城》的樹懶還遲緩。
不過,這并不意味著人工智能不會在某一天向人類運動員發(fā)起挑戰(zhàn)。或許在不久的將來,人類將不得不派出最強11人,去和冷酷的鋼鐵洪流一決雌雄,可能人類僅有的一絲驕傲感也會在那時蕩然無存。不過可以預(yù)見,場面一定會比今日的人機大戰(zhàn)更為壯觀。