周華明
2016年3月9日,一場全世界關注的圍棋比賽在韓國首爾開始,對抗的一方是世界排名第四的圍棋高手李世乭,另一方是人工智能(AI)AlphaGo。
創(chuàng) 造
在比賽開始前,德米斯·哈薩比斯與李世 隔著棋盤握手致意,哈薩比斯是人工智能AlphaGo隸屬的DeepMind公司的聯(lián)合創(chuàng)始人。在這一歷史性畫面中,他身側是AlphaGo用于輸出的顯示屏(它的真身位于光纖網(wǎng)路的另一端);而李世石身側則是他的女兒。這一場景被無數(shù)新聞媒體記錄,比賽后,記錄這一場景的照片在各種網(wǎng)絡社交平臺上刷屏,人們紛紛驚呼:
“據(jù)說機器不可能取勝的棋類——圍棋,居然淪陷了!”
“人類以后會被機器超越嗎?”
“AI 將統(tǒng)治人類!”
在這場比賽前,哈薩比斯幾乎不為國人所知,但他的履歷相當驚人:13歲拿到國際象棋大師頭銜,16歲考入劍橋大學攻讀計算機專業(yè),17歲主持開發(fā)了游戲“主題公園”,隨后建立了自己的游戲公司,28歲進入倫敦大學攻讀神經(jīng)學博士學位,34歲創(chuàng)辦人工智能公司DeepMind,致力于讓機器能夠像人類一樣學習。AlphaGo與李世石PK,這場注定載入史冊的圍棋比賽為他的愿景寫下了最好的開端與注解。
作為人工智能,昵稱為“阿爾法狗”的AlphaGo遠超其“前輩”,它的表現(xiàn)似乎已經(jīng)蘊含了某種“智慧”:知進退,好學而近乎知。
知 進 退
以人工智能前輩“深藍”為例,在它戰(zhàn)勝國際象棋大師卡斯帕羅夫的比賽中,“深藍”只是依照對棋子的“估值”來選擇“價值最大化”的下法。它不考慮棋面的整體形勢,無需發(fā)揮創(chuàng)造力,只依照程序員為它設計的算法進行計算,并給出“最優(yōu)解”?!吧钏{”能夠取勝,主要是因為它的計算量足夠滿足要求。
然而,圍棋不同于國際象棋,棋盤上棋子可能的排列組合數(shù)超過了宇宙中的原子數(shù)量,沒有什么計算機能承擔如此龐大的數(shù)據(jù)計算量。所以AlphaGo要想戰(zhàn)勝人類棋手,就必須學會全局思考,并放棄某些可能性來減少計算量。也就是說,必須有棋感,或者說,“直覺”。
好學而近乎知
“直覺”幾乎是人類專屬的能力,AlphaGo是怎么獲得的呢?這正是近年來人工智能領域最大的突破之一 ——“人工神經(jīng)網(wǎng)絡”的功效。
人工神經(jīng)網(wǎng)絡其實是受到生物智能啟發(fā)而來的。簡單來講,生物智能,即生物的神經(jīng)網(wǎng)絡就像一個分類器,把外界刺激分成好的和壞的,從而在自然環(huán)境面前主動作決策,以趨利避害。這種分類能力是可以通過后天學習來生成并存儲下來的,比如著名的巴甫洛夫?qū)嶒?,就是讓狗在反復訓練后,存儲了一個反應——聽到代表喂食的鈴聲就分泌唾液。這一現(xiàn)象的本質(zhì),是神經(jīng)網(wǎng)絡的神經(jīng)元通過不停調(diào)整互相之間的突觸連接,來改變生物體對外界刺激的反應。
20 世紀 40 年代后期,模擬生物神經(jīng)網(wǎng)絡這一特性的人工神經(jīng)網(wǎng)絡理論出現(xiàn)了,其核心是通過調(diào)整眾多神經(jīng)元的連接權值,生成一個能夠處理外界刺激的反應。
我們可以把AlphaGo想象為一個圍棋“黑箱”,這個“黑箱”里有數(shù)百萬個旋鈕,每一次對局,AlphaGo會自行旋轉其中之一。幾百萬次的對局后,它將所有旋鈕都調(diào)整到了合適的位置,這個“黑箱”就變得能夠根據(jù)對方的下法給出一個最優(yōu)的應對,這是人工神經(jīng)網(wǎng)絡自我訓練直至能對“巴甫洛夫鈴聲”產(chǎn)生應激反應的過程,也是AlphaGo“學會”下圍棋的過程。
聽起來簡單,但人工神經(jīng)網(wǎng)絡理論在提出60年后,才真正得以實用化,因為進行這類“訓練”需要大量的計算資源。進入21世紀后,隨著計算機技術的突飛猛進,科學家們才能為人工智能提供足夠的資源進行訓練。
這也是為什么人工智能的理論早已建立,而直到最近5年,我們才看到它取得了大量突破性的進展。
再回到AlphaGo上來。如前文所述,程序員們?yōu)樗O計了兩套人工神經(jīng)網(wǎng)絡——政策網(wǎng)絡(policy network)和價值網(wǎng)絡(value network),分別用于深度學習和強化學習。前者學習人類圍棋高手的棋譜,了解游戲規(guī)則,建立起棋子下法概念,即預測下一步;后者通過反復不斷的自我對局,來評估每一種下法的價值,并形成一套自己的得分原理,進而變成一個價值評判網(wǎng)絡,從而預測棋盤上棋子不同的分布會帶來什么結果。
但需要注意的是,這個價值網(wǎng)絡(AlphaGo作出應對的計算過程)已經(jīng)過于復雜,我們無從分析這一過程和原理,即人類已無法辨析這個“黑箱”里幾百萬個旋鈕的位置和朝向,而只能被動接受整個黑箱。所以,在AlphaGo與李世 對決的過程中,即便是它的創(chuàng)造者——DeepMind的工程師們都無從知曉AlphaGo會采取什么應對方式。
這正是那些對人工智能發(fā)展持悲觀態(tài)度的人最擔憂的:我們不清楚人工智能會如何作判斷。那么下一次面對同樣的問題時,它會作出同樣的判斷嗎?比如,當我們在紅綠燈的指引下穿過馬路時,如果有一個司機突然一腳踩下油門,沖上斑馬線,沖向人群,那將多么可怕。假如司機是人工智能,我們無法判斷它的思維,連它是否陷入瘋狂都無從判斷,這種未知不是更可怕嗎?
如果懷揣著這樣的恐懼,我們應當如何面對人工智能在各個領域的蓬勃發(fā)展,又該如何規(guī)劃人工智能在未來生活中的地位?
超 越
要回答這些問題,我們需要將人工智能(AI)進行如下分類:
1. 用于機械化操作的AI;
2. 用于復雜的機械化操作,需要對復雜情況進行判斷的AI;
3. 具有類人智能的AI;
4. 達到或超過人類智能的AI。
第一類很好理解,我們大多數(shù)的機械、電子產(chǎn)品的生產(chǎn)線都應用了類似的技術。在時間A對物體B進行操作C,然后重復。如果出現(xiàn)異常D,則執(zhí)行操作E,然后嘗試回歸到操作A、B、C,不行則再執(zhí)行操作F。很多人甚至不會將之稱為“人工智能”,而只是簡單地稱之為自動化。
與第一類相比,第二類已經(jīng)有了很大的進步,人工智能似乎學會了作判斷。它不再是簡單地作“如果A則B”的判斷,而是能夠戰(zhàn)勝國際象棋冠軍了。但追根究底,它仍只是無數(shù)個“如果A則B”的判斷相互堆疊形成的一個策略集。
AlphaGo在第二類的基礎上向前邁進了兩步。正如前文所述,相較于深藍的“窮盡所有可能”,AlphaGo進一步“學會”了“不去窮盡所有可能”,從而保證不會耗盡所有計算資源。但即便如此,AlphaGo仍只是一個能對復雜情況加以判斷的AI,并非第三類——類人智能。
那么什么是類人智能呢?當一個黑猩猩看到鏡子里的自己時,它會知道那是“我”。當它看到掛在高處的香蕉時,它會“尋找方法”去摘下香蕉。這不是因為它被設計去執(zhí)行摘香蕉這個任務,而只是因為它“要”吃香蕉。
自我,欲望,創(chuàng)造力——這是人類之所以為“天地之精華,萬物之靈長”的三元素。人工智能在可見的相當長的一段時間里,都不會擁有其中任何一個。AlphaGo雖然戰(zhàn)勝了圍棋高手,但它其實并不知道自己取得了勝利。它沒有“自己”這個概念,它對“勝利”的定義與人類不同,它甚至不知道自己在下“圍棋”。
說到這里,我們終于可以松一口氣,至少不用害怕 “人工智能擁有了自我意識,進而滅絕人類”了,但這并不意味著人類可以從此高枕無憂。雖然科學界并不擔心人工智能會突然獲得某種 “類人智能”,但科學家和哲學家們擔心人工智能會生成某種“超人智能”。
讓我們再回到AlphaGo與人類的對決上來。
2015年10月,AlphaGo戰(zhàn)勝了歐洲圍棋冠軍樊麾,但它在比賽時表現(xiàn)出的棋力并不高明。而僅僅5個月后,它就以4∶1的成績擊敗了世界排名第四的李世 。AlphaGo所表現(xiàn)出的進步能力,讓人不由得猜測,它會在多久之后達到人類都無法企及甚至無法想象的高度?
美國人工智能領域的奇才雷·庫茲維爾在2005年拋出“技術奇點”論時就提出,在2027年,電腦將在意識上超過人腦,2045年,人工智能將超越人類。這個預測現(xiàn)在自然無法證實,但人工智能的開發(fā)方式從監(jiān)督式學習(向AlphaGo灌輸棋譜)跨向非監(jiān)督式學習(AlphaGo通過與自己對局來獲得提升)的更新?lián)Q代,似乎迎合了他的預言:當機器擁有自我學習能力后,它的學習速度將超出人類想象,它成長為超出人類智商的超級智能可能只是一個時間問題。
沒人能預測這樣的超級智能會做什么、關注什么、思考什么,我們甚至無法想象它將以怎樣的方式進行思考和行動,正如我們不知道AlphaGo是依據(jù)怎樣的算法來贏棋的。
眾多科學家、哲學家對此爭論不休,也有人提出,人工智能終究是由人設計的,比起對人工智能超越人類的恐懼,讓人工智能增強人類、與人類融合,才是我們與機器共存的未來。但是,學界的爭論不能替代我們自己的思考,希望這篇小文,能幫你作出自己的判斷。