計(jì)算機(jī)模擬暴力世界，結(jié)果很意外

2019-09-25 06:09:28Fiona

看世界 2019年19期

Fiona

采用“ 希伯來斯式切口”的機(jī)器：數(shù)字模擬顯示，最初的隨機(jī)行為在經(jīng)歷300代之后，進(jìn)入“高合作”階段，該階段的世界被一臺(tái)機(jī)器控制，其他異己滅絕。至大約450代，“高合作”模式崩潰，自那時(shí)起，“低合作”與“高合作”兩個(gè)極端交替出現(xiàn)。

在卡內(nèi)基梅隆大學(xué)的一個(gè)工作室里，研究人員開發(fā)了一個(gè)特別的計(jì)算機(jī)程序—它對(duì)種族殺戮情有獨(dú)鐘。

當(dāng)然，這不是研究者們的目的，他們并不研究種族和戰(zhàn)爭(zhēng)，只是想了解最原初的合作行為是如何促成的。因此，他們?cè)O(shè)計(jì)了這些機(jī)器，讓機(jī)器們?cè)谔摂M世界中參與一場(chǎng)游戲，游戲中的互動(dòng)會(huì)觸發(fā)一系列復(fù)雜的社會(huì)行為。

這個(gè)互動(dòng)游戲就叫作“囚徒困境”。它有很多種變形，但核心是雙方在互動(dòng)中關(guān)于合作與欺騙的抉擇。如果雙方都選擇欺騙，那么他們將蒙受損失;如果都選擇合作，他們將從中獲益。但如果一方選擇合作而另一方選擇欺騙，那么欺騙方將獲得最大收益。

“囚徒困境”

雖然“囚徒困境”描述的情形過于籠統(tǒng)，但通過限定具體的情境與規(guī)則，利用計(jì)算機(jī)模擬是可行的。它作為一種研究人類行為的數(shù)學(xué)工具，和歷史上的伽利略“斜面實(shí)驗(yàn)”、孟德爾“豌豆實(shí)驗(yàn)”一樣，具有科學(xué)性。

這個(gè)虛擬世界如果有考古學(xué)家的話，他將看到繁榮與廢墟的地層交替出現(xiàn)。

這個(gè)計(jì)算機(jī)程序這樣模擬人類互動(dòng)行為：在虛擬世界中，具有決策能力和有限理性的機(jī)器一次次地陷入“囚徒困境”，并一次次地做出決策;研究者對(duì)從中獲益的機(jī)器進(jìn)行獎(jiǎng)賞，對(duì)蒙受損失的進(jìn)行懲罰;那些最終勝出的機(jī)器會(huì)將它們的行動(dòng)策略傳遞給下一代，策略在代際傳遞過程中會(huì)出現(xiàn)些許變形，以模擬人類文化在演進(jìn)中出現(xiàn)的必然變異。

研究人員還賦予機(jī)器一種簡(jiǎn)單的語言用來思考、足夠的智力用來記憶，機(jī)器們據(jù)此做出決策行為。每一代機(jī)器都將被兩兩配對(duì)，并做出決策，如此反復(fù)多次。

這也是真實(shí)生活向人們呈現(xiàn)出來的樣子：一次次地遇到交易伙伴，一次次地做出對(duì)策并承擔(dān)后果。

研究人員試圖通過這個(gè)虛擬社會(huì)的運(yùn)行，來確認(rèn)人們通常所認(rèn)為的應(yīng)對(duì)“囚徒困境”的最佳策略：“針鋒相對(duì)”—機(jī)器首先選擇信守諾言，但在面對(duì)對(duì)方的欺騙行為時(shí)，也會(huì)以牙還牙。在現(xiàn)實(shí)生活中，“針鋒相對(duì)”策略似乎是頗受認(rèn)可的待人處事法則：善待他人，除非你受到欺騙，但即便如此，你也要理性地慷慨原諒對(duì)方。

然而，在這個(gè)虛擬世界中，機(jī)器們并不恪守這個(gè)“最佳策略”，它們的決策行為會(huì)朝向任意方向發(fā)展與迭代。研究人員從中發(fā)現(xiàn)了另一番情景：經(jīng)歷早期階段的混亂，一臺(tái)機(jī)器迅速崛起并占據(jù)統(tǒng)治地位，控制著整個(gè)虛擬世界并歷經(jīng)數(shù)代，直至該秩序突然崩塌，世界重陷混亂與沖突，而下一個(gè)周期開始醞釀。這個(gè)虛擬世界如果有考古學(xué)家的話，他將看到繁榮與廢墟的地層交替出現(xiàn)。

這些機(jī)器似乎并不是理性的合作者，它們的社會(huì)進(jìn)程好像對(duì)我們來說也沒有太大意義。但是，研究人員發(fā)現(xiàn)了其背后的運(yùn)作邏輯：位居統(tǒng)治地位的機(jī)器，將玩家們的決策行為進(jìn)行編碼，并由此識(shí)別出自己的同類。

在游戲的開始階段，這些機(jī)器會(huì)設(shè)置一個(gè)特殊的行為模式編碼：合作—欺騙—欺騙—合作—欺騙—合作。如果對(duì)方的反應(yīng)和它們的行為完全一致，即欺騙時(shí)欺騙、合作時(shí)合作，那么，雙方將進(jìn)入長(zhǎng)期的合作階段，共享利益。

然而，對(duì)于那些不知道該模式編碼的機(jī)器來說，等待它們的將是災(zāi)難。它們的應(yīng)對(duì)行為只要存在對(duì)該模式編碼的任何偏離，都將導(dǎo)致全面的永久戰(zhàn)爭(zhēng)，甚至使雙方同歸于盡—以一種數(shù)字化的自殺性襲擊的方式。

由于這個(gè)編碼很難被意外猜中，所以，只有統(tǒng)治者的同類才能幸免于難，只有統(tǒng)治者的后代才可能在混亂過后的“和平年代”，坐享無私合作帶來的益處。那個(gè)時(shí)候，所有的異己都被殺死了，包括那些使用“針鋒相對(duì)”策略的機(jī)器。

這樣的權(quán)威統(tǒng)治將一直持續(xù)下去，直到編碼在一次次的代際傳遞中累積了足夠多的錯(cuò)誤與偏差，以至于占統(tǒng)治地位的機(jī)器無法識(shí)別彼此。這時(shí)，它們將矛頭指向自己的同類，就像曾經(jīng)指向異己那樣。整個(gè)虛擬社會(huì)就像得了一種自身免疫性疾病，轉(zhuǎn)而開始攻擊自己。

“希伯來斯式切口”

這種編碼被稱作“希伯來斯式切口”，《圣經(jīng)·舊約》中就記錄了這類種族屠殺：

基利德人（Gileadite）先于厄弗雷姆人（Ephraimite）占領(lǐng)了約旦關(guān)隘。逃亡的厄弗雷姆人說：“讓我過去?！被氯苏f：“你是厄弗雷姆人嗎？”如果厄弗雷姆人說不是，那么，基利德人就讓他說一遍“希伯來斯”（Shibboleth），而厄弗雷姆人會(huì)說成斯伯來斯（Sibboleth），因?yàn)樗麄儾粫?huì)發(fā)“希”（sh）這個(gè)音。然后，基利德人把厄弗雷姆人帶到約旦關(guān)隘并殺死了他。那個(gè)時(shí)候，有4.2萬厄弗雷姆人都以這樣的方式喪命。

“希伯來斯式切口”是人類文明和沖突普遍存在的特征。芬蘭內(nèi)戰(zhàn)期間，不會(huì)發(fā)yksi（意為“一”）的芬蘭人被認(rèn)定為俄羅斯人;紐約曼哈頓市中心的游客如果像得克薩斯州人那樣念“休斯頓街”，他們就會(huì)被識(shí)別出來。

中的綠帶和黃帶分別對(duì)應(yīng)著“高合作”和“低合作”的時(shí)代

而在那個(gè)虛擬世界，機(jī)器們已經(jīng)在用“希伯來斯式切口”進(jìn)行有效統(tǒng)治了，任何異己都無法存活。即便權(quán)威統(tǒng)治秩序崩潰后世界化為廢墟，這片廢墟也是由原先統(tǒng)治者們的后代繼承著。文明進(jìn)程這雙看不見的手，已經(jīng)找到了一個(gè)簡(jiǎn)單而暴力的解決方案。

沒錯(cuò)，這是一個(gè)殘酷的社會(huì)。但是，研究人員僅僅賦予了這些機(jī)器以非常有限的才智來思考這場(chǎng)游戲。如果是兩臺(tái)完全理性的機(jī)器在沖突中相遇，并且它們都知曉對(duì)方是和自己具有相同理性的機(jī)器，那么，它們將做出怎樣的應(yīng)對(duì)策略呢？

基于理性本身的特征，兩個(gè)完全理性的行為主體在面對(duì)同樣的問題時(shí)，必然將采取同樣的行事策略。了解到這一點(diǎn)，每個(gè)行為主體都會(huì)選擇合作，這不是出于利他主義，而是它們都意識(shí)到如果自己選擇欺騙，對(duì)方也會(huì)這么做，這會(huì)讓它們同時(shí)淪為游戲的失敗者。

以上述兩種極端行事方式為端點(diǎn)，可以構(gòu)建出一條連續(xù)的光譜帶：一端是僅具有較低計(jì)算能力的機(jī)器，狹隘、保守，最終走向暴力的部落主義;而在另一端，完全理性的行為主體必然地促成一次次合作。

“部落主義”

那么，在“動(dòng)物性”本能的機(jī)器與天使般的理性之間，人類這個(gè)物種處于怎樣的位置呢？

如果人類是理性的，或者說，至少是正走在通往理性的路上，我們就有理由持樂觀態(tài)度。1992年，弗朗西斯·福山在撰寫關(guān)于“歷史終結(jié)”的論文時(shí)，可能一直在思考這個(gè)問題。福山的觀點(diǎn)是：人類歷史將終結(jié)于一種理性的、自由民主的資本主義秩序。這不僅僅是哲學(xué)的推斷，還是基于對(duì)當(dāng)時(shí)重大時(shí)事的思考：蘇聯(lián)的崩潰、電子媒體的興盛、邊界的和平開放，以及股票市場(chǎng)迎來牛市。

“FairBot”可以識(shí)別出同樣公正誠(chéng)實(shí)的機(jī)器，即使它們有著不同的編碼。

然而，到了今天，他的這篇論文似乎成了人類早期夢(mèng)想的紀(jì)念碑。人類文明依然在向前發(fā)展，但似乎并沒有走向和諧的兆頭。親歷21世紀(jì)的動(dòng)亂，人們對(duì)計(jì)算機(jī)模擬的暴力世界感到頗為熟悉。“9·11”事件后的20年間，西方自由民主國(guó)家開始思考人類行為的黑暗模式，以及推崇那些“黑暗系”的政治理論家。

例如，卡爾·施米特認(rèn)為，民主制度中的審議元素，實(shí)則是在為權(quán)威主義政治裝點(diǎn)門面;羅伯特·米歇爾關(guān)于政治不平等的研究，讓他相信民主制度僅僅是文明進(jìn)程中的一個(gè)臨時(shí)階段，人類社會(huì)終將走向少數(shù)精英的寡頭統(tǒng)治。由于知識(shí)分子們?cè)絹碓綄⒔⒗硇哉沃刃虻目赡苄砸曌魅祟愐粠樵傅幕孟耄跋２畞硭故角锌凇痹诮缍ǚN族、民族和宗教身份中重新扮演了重要角色，并再次成為政治生活中無法杜絕的特征。

當(dāng)然，在簡(jiǎn)單、暴力、非理性的機(jī)器與福山認(rèn)為的歷史終結(jié)時(shí)期的理性合作者之間，存在著很大的空間，其中的行為模式至少可以讓我們抱有“謹(jǐn)慎的樂觀”態(tài)度。

參與伯克利機(jī)器智能研究所（MIRI）會(huì)議的研究人員，研究了理性但才智有限的機(jī)器們的行為，這些機(jī)器可以檢查彼此的編碼。彼此信息透明似乎解決了合作的難題：如果能夠通過模擬對(duì)方的編碼來預(yù)測(cè)它的決策行為，我們可能會(huì)覺得欺騙是不值得付出的代價(jià)。

MIRI中一些機(jī)器的處事方式，可能會(huì)讓人覺得似曾相識(shí)。例如，“CliqueBot”只與擁有相同編碼的機(jī)器合作，它只關(guān)心對(duì)方與自己的編碼是否匹配;“FairBot”試圖在表面的差異之下，確認(rèn)對(duì)方是否和自己一樣有合作意向，按照“FairBot”的話來說，“如果我能確定對(duì)方愿意和我合作，我也會(huì)和它合作?！?/p>

這些機(jī)器會(huì)構(gòu)建一個(gè)怎樣的世界呢？相互合作是有可能的?！癋airBot”可以識(shí)別出同樣公正誠(chéng)實(shí)的機(jī)器，即使它們有著不同的編碼，這意味著那些擁有一定理性與才智的機(jī)器，可以保留多樣性、促成更廣泛的合作。

即便是那些處于光譜帶中的另一極端，具有種族滅絕傾向的暴力機(jī)器，也會(huì)給人一些正面的啟示：它們出現(xiàn)在電路板深處，在得克薩斯州的超級(jí)計(jì)算機(jī)上被模擬，并沒有任何生物學(xué)層面上的存在依據(jù)—可見，“部落主義”這種行為模式是如此普遍，以至于在最簡(jiǎn)單的非生物模擬中都會(huì)出現(xiàn)。既然如此，對(duì)于這種極具普遍性的互動(dòng)行為，也許既不應(yīng)該害怕，也不應(yīng)該推崇，而是“應(yīng)對(duì)”它，就像我們“應(yīng)對(duì)”癌癥和流感一樣。

我們可以將“部落主義”視作任何認(rèn)知系統(tǒng)都具有的一種固有故障，無論這個(gè)系統(tǒng)是“硅”構(gòu)建的數(shù)字化世界，還是“碳”構(gòu)建的生物世界。我們無需對(duì)它進(jìn)行價(jià)值評(píng)判—真理抑或罪惡，只是將它作為一種需要克服的客觀事實(shí)罷了。