Q AlphaGo是什么?
AlphaGo是DeepMind于2010年開始研發(fā)的圍棋人工智能,與之前棋類游戲人工智能主要依靠強大的計算能力來暴力破解不同,AlphaGo采用了更類似于人的算法,以應對圍棋這個具有超高復雜度的游戲。運用了全新的機器學習技術,在走每一步棋時,先通過策略網(wǎng)絡(policy network)將棋盤上的局勢作為信息輸入,對所有可行的落子位置生成概率分布—這就像是圍棋高手先對局勢作出判斷,進而發(fā)現(xiàn)可以進攻的薄弱地帶。接下來它再通過價值網(wǎng)絡(value network)分析每一個落子位置影響勝負的概率—這相當于棋手面對具體問題時,高手會選擇沖、擋、扳、接等各種下法。AlphaGo通過強化學習不斷訓練這兩種神經(jīng)網(wǎng)絡,最終實現(xiàn)了人工智能可以實時有效解決圍棋棋局問題的目標。
隨著AlphaGo能力的不斷增強,圍棋圈對它的稱呼也從開始的“阿爾法狗”到“阿爾法圍棋”,進而到現(xiàn)在的“阿爾法師”。
QDeepMind為什么會選擇圍棋?
自從人工智能誕生的那一天起,游戲就是它最好的伴侶。人工智能的目標在于分析真實世界,而游戲的本質(zhì)是人類對于世界的模擬,想像一下象棋里的將、士、車、馬、炮,以及楚河、漢界等元素就能明白這一點。此外,由于這些游戲有著廣泛的受眾,對于提高和測試人工智能的水平來說,都是再適合不過的對象。
在所有游戲中,棋牌類游戲又因為規(guī)則簡潔明了,輸贏都在盤面,而備受科學家青睞。從簡單的跳棋、五子棋,到更加復雜的中國象棋、國際象棋,以及高難度的圍棋和德州撲克,它們成為一步步檢驗人工智能新算法水平最好的標桿。
QAlphaGo還能做什么?
AlphaGo雖然是圍棋人工智能,但它解決圍棋時所使用的機器學習方法卻能夠廣泛應用到其他領域。例如DeepMind團隊曾在TensorFlow上開源了一個高級框架Sonnet,以幫助科學家快速創(chuàng)建神經(jīng)網(wǎng)絡模塊;此外他們還與Google應用商店Play Store一起嘗試將機器學習應用到廣告推薦系統(tǒng)中,以及與Android團隊合作,試圖提高系統(tǒng)的效能。
其中最令人驚喜的是,他們嘗試利用人工智能來優(yōu)化Google數(shù)據(jù)中心的冷卻系統(tǒng),數(shù)據(jù)顯示,優(yōu)化過的系統(tǒng)可以降低40%的能耗,對于有著成千上萬臺服務器的Google來說,這意味著每年能節(jié)約上億美元的開銷。
Q從棋手角度看,AlphaGo給圍棋帶來的沖擊有哪些?
首先,AlphaGo沖擊了很多圍棋選手固有的理念。
過去,人類棋手的下法都是對過往經(jīng)驗的研究和總結,但即使是職業(yè)棋手,一輩子可以下的圍棋盤數(shù)只有幾千量級,而其中真正有參考價值、能夠推動這門技術前進的僅在百盤左右。然而,AlphaGo最新版本開始自我對弈之后,每天下棋的盤數(shù)從幾千到一萬不等,甚至更多,這迅速將圍棋理念推向極致。
其次,未來頂尖棋手的收入可能會逐漸下降,但是隨著參與圍棋的門檻降低,普及率上升,整體市場將有可能擴大。
圍棋未來的路徑多少可以參考曾經(jīng)的國際象棋,1997年,IBM研發(fā)的人工智能Deep Blue在第二次挑戰(zhàn)國際象棋世界冠軍卡斯帕羅夫中以3.5:2.5贏得勝利,在整個人類世界引起軒然大波,這場精彩的營銷使得IBM的股價一度上漲30%左右。據(jù)統(tǒng)計,在Deep Blue戰(zhàn)勝人類后,很多國家象棋的贊助商吝于投資冠名,頂級棋手收入略有下降,次一級的棋手收入相比與1970年巔峰時期則下降很多。因為人類之間比賽的關注度遠遠低于人機大戰(zhàn)。
但與此同時,國際象棋通過人機大戰(zhàn)在全球普及開來。原先國際象棋的影響力主要集中在蘇聯(lián),以及德國、西班牙、古巴等幾個國家,在非洲和亞洲幾乎沒有影響力。但現(xiàn)在完全不同,例如在中國,這幾年國際象棋的發(fā)展速度就非常顯著。