善與惡的計(jì)算：為什么要做好人

2020-04-10 06:49:51朱萬(wàn)潤(rùn)

社會(huì)科學(xué)研究 2020年2期

關(guān)鍵詞：囚徒困境

朱萬(wàn)潤(rùn)

〔摘要〕 “為什么要做好人？”在道德哲學(xué)中可轉(zhuǎn)化為“為什么要遵守道德規(guī)則？”本文將是否要遵守道德規(guī)則置于囚徒困境模型之下，籍此，可應(yīng)用博弈論尤其是進(jìn)化博弈論的成熟研究深化對(duì)道德規(guī)則的理解。在既有的囚徒困境研究中，應(yīng)用計(jì)算機(jī)模擬的方法，科學(xué)家們發(fā)現(xiàn)了多種有效的、個(gè)人博弈策略。同時(shí)，由于集體競(jìng)爭(zhēng)的存在，每個(gè)集體都有采用更成功策略的壓力，這可以解釋道德規(guī)則的來(lái)源。做好人、遵守道德規(guī)則是個(gè)人與集體共同追求其最大預(yù)期收益的結(jié)果。

〔關(guān)鍵詞〕道德規(guī)則，囚徒困境，進(jìn)化博弈論，集體競(jìng)爭(zhēng)

〔中圖分類(lèi)號(hào)〕B82 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1000-4769（2020）02-0150-08

社會(huì)生活中，我們時(shí)常會(huì)觀察到這樣多少帶有悖論性的現(xiàn)象：一方面，人們常常抱怨“好人沒(méi)好報(bào)”，另一方面，幾乎所有人在教育自己子女的時(shí)候都會(huì)教他們做一個(gè)“好孩子”，長(zhǎng)大成為一個(gè)好人。這與社會(huì)生活中人們經(jīng)常問(wèn)到的一個(gè)問(wèn)題有關(guān)：對(duì)大多數(shù)人來(lái)說(shuō)（不考慮基督教的圣徒、儒家的圣人、佛教中成佛的人），如果做好人沒(méi)有什么好處，那又為什么要做好人？如果做壞人更有利，我們?yōu)槭裁床蝗プ鰤娜?，并且教育我們的子女做好人?/p>

從道德哲學(xué)的角度看，這個(gè)問(wèn)題大體上等同于“為什么要遵守道德規(guī)則？”西方道德哲學(xué)對(duì)此問(wèn)題的回答主要有兩種，即后果論和義務(wù)論。①不論后果論還是義務(wù)論的回答，道德哲學(xué)對(duì)此問(wèn)題的回答都是規(guī)范性的，即回答為什么人們“應(yīng)該”遵守道德義務(wù)。作為道德哲學(xué)的核心問(wèn)題之一，對(duì)此問(wèn)題的討論已經(jīng)比較充分。不過(guò)，道德哲學(xué)的回答有很多不足。比如，不同道德哲學(xué)理論呈現(xiàn)出“神仙打架”的狀況（或者，用韋伯的話說(shuō)是價(jià)值觀領(lǐng)域的“諸神之戰(zhàn)”），對(duì)幾乎所有重大的道德問(wèn)題都莫衷一是、爭(zhēng)論不休，讓普通人無(wú)所適從。再比如，道德哲學(xué)既不關(guān)心道德規(guī)則的內(nèi)容，也無(wú)法回答道德規(guī)則從哪里來(lái)的問(wèn)題。此外，對(duì)普通人而言，道德哲學(xué)過(guò)于抽象、晦澀而遠(yuǎn)離日常生活。本文試圖從進(jìn)化博弈論的角度回答，為什么人們大多數(shù)情形下實(shí)際上會(huì)遵守道德規(guī)則，換句話說(shuō)，為什么多數(shù)情況下人們實(shí)際上會(huì)做好人？本文研究路徑不是規(guī)范性的，而是著眼于事實(shí)與邏輯，從社會(huì)科學(xué)的視角試圖發(fā)現(xiàn)人們行為模式背后的機(jī)制。

一、什么是好人

為下文討論的方便以及避免不必要的誤解，此處要做些鋪墊：明晰要討論的問(wèn)題、排除一些特殊情況，并對(duì)什么是好人給出粗略定義。

首先，本文將要探討的并非康德的“德福一致”問(wèn)題。有德的人是否一定有福，是一個(gè)形而上學(xué)問(wèn)題。并且，在多元主義的背景之下，對(duì)“德”與“?！钡亩x是多種多樣的。什么樣的人是有德的，什么樣的人是有福的，對(duì)于天主教徒、新教徒、穆斯林、佛教徒、無(wú)神論者來(lái)說(shuō)，回答是不一樣的。本文的探討將聚焦于道德規(guī)則和人的行為，并不涉及“德福一致”這樣的形而上學(xué)問(wèn)題。

其次，在對(duì)好人給出嘗試性定義之前，我們要對(duì)人及其理性做一些規(guī)定。博弈論對(duì)人的假定是經(jīng)濟(jì)學(xué)中常用的“理性人”，即人們會(huì)最大化自身的利益或偏好。不過(guò)，進(jìn)化博弈論卻并不要求人們具有完美的理性，或者能夠計(jì)算出哪種選擇能夠最大化自己的利益或偏好。進(jìn)化博弈論只要求初始策略的多樣性、基因或行為選擇的突變，成功的策略在自然選擇過(guò)程中會(huì)自然涌現(xiàn)（下文將有詳細(xì)討論）。盡管如此，一個(gè)自利的、雖然不具備完美理性，但當(dāng)面對(duì)兩種不同行為選擇時(shí)，依然會(huì)選擇能夠?qū)е赂笃没蚶鏉M足的選項(xiàng)，這樣的理性人依然是本文討論所有問(wèn)題的基礎(chǔ)。

一直以來(lái)，理性人假定都面對(duì)很多批評(píng)，尤其是來(lái)自心理學(xué)家的批評(píng)。在此，我想對(duì)理性人假定做四點(diǎn)辯護(hù)。第一，到目前為止，理性人是人文與社會(huì)科學(xué)領(lǐng)域中唯一能夠被清晰定義的關(guān)于人的假定。實(shí)際上，理性人是一個(gè)量化概念，它從對(duì)偏好或利益滿足的量化比較和排序推出行為選擇的排序，即它假定人們總是會(huì)選擇帶來(lái)更大量化滿足的選項(xiàng)。對(duì)量的定義是簡(jiǎn)單明晰、并且很容易做到的（3個(gè)蘋(píng)果>2個(gè)蘋(píng)果），但是對(duì)“質(zhì)”的定義就很困難（試想，什么是“道德”“文化”“政治”“社會(huì)”？）。相反，不管其他對(duì)人的假定多完美（“道德人”“文化人”“政治人”“社會(huì)人”），只要不可定義，就無(wú)法成為探討社會(huì)科學(xué)的可靠出發(fā)點(diǎn)。第二，與第一點(diǎn)相關(guān)，人們能夠?qū)硇匀说男袨檫x擇做出確定無(wú)疑的預(yù)期。這一點(diǎn)是極端重要的，甚至可以說(shuō)正是這一點(diǎn)決定了理性人是一個(gè)有意義的假定。當(dāng)選項(xiàng)A帶來(lái)的偏好或利益滿足大于選項(xiàng)B帶來(lái)的滿足，我們可以確定無(wú)疑地預(yù)期理性人會(huì)選擇與A相對(duì)應(yīng)的行為。這就使得我們據(jù)此做出的預(yù)判是可證偽的，只有具備可證偽性，一個(gè)判斷才可能是科學(xué)的。與此相對(duì)照，我們能夠?qū)Α暗赖氯恕薄拔幕恕薄罢稳恕薄吧鐣?huì)人”的行為選擇做出何種預(yù)期呢？第三，理性人假定是我們建構(gòu)嚴(yán)格理論所必需的。任何理論皆始于假設(shè)。社會(huì)科學(xué)的研究對(duì)象是人和人的行為，因此要建構(gòu)嚴(yán)格的理論，首先就要對(duì)人及其行為給出適當(dāng)假設(shè)?；谝陨蟽蓚€(gè)優(yōu)點(diǎn)，理性人假定足以成為社會(huì)科學(xué)中構(gòu)建嚴(yán)格理論的阿基米德點(diǎn)。社會(huì)科學(xué)中最具嚴(yán)格性的是經(jīng)濟(jì)學(xué)，經(jīng)濟(jì)學(xué)便建基于理性人假定（雖然近年來(lái)也有非理性經(jīng)濟(jì)學(xué)的發(fā)展）。第四，理性人在社會(huì)生活中是大概率事件。盡管有以上優(yōu)點(diǎn)，如果理性人假定在社會(huì)生活中從來(lái)都與事實(shí)不符或者相符的概率很小，這一假定恐怕也早被理論家們拋棄了。在經(jīng)濟(jì)學(xué)應(yīng)用所指向的領(lǐng)域，比如，個(gè)人理財(cái)決策、企業(yè)決策、經(jīng)濟(jì)政策制定等等，理性人假定無(wú)疑都是適用的。此外，如果對(duì)偏好或利益做更寬泛的解讀，則理性人適用范圍會(huì)更廣。當(dāng)然，人們的理性并不完美，人難免有糊涂犯錯(cuò)的時(shí)候，但這并不能否定人們?cè)诖蠖鄶?shù)情況下是理性的?？傊?，理性人假定并不完美，但卻是社會(huì)科學(xué)中唯一可定義的、可靠的出發(fā)點(diǎn)。不管人們?nèi)绾闻u(píng)理性人假定，可曾有人能夠提出一個(gè)足以替代它的選項(xiàng)嗎？基于以上四點(diǎn)，答案是否定的。

與對(duì)理性的討論相關(guān)，為避免特殊偏好扭曲博弈策略的收益，此處要排除特殊偏好。第一種要排除的是“極惡”的偏好，比如，以殺人為樂(lè)的連環(huán)殺手、施虐狂等等，他們從給他人帶來(lái)傷害的行為本身就可以得到滿足，并不是為了搶奪財(cái)產(chǎn)或與他人爭(zhēng)利。另一種要排除的是“極善”的偏好，比如，特蕾莎修女（1979年諾貝爾和平獎(jiǎng)得主）的慈善偏好：她在幫助貧苦人們的行為本身得到滿足，名與利都是外在的甚至是無(wú)關(guān)的。博弈論中對(duì)收益的描述以及利益的估算適用于大多數(shù)人，但并不適用于這些持有特殊偏好的人。

最后，我們要出給一個(gè)粗略的、大多數(shù)人都能接受的對(duì)“好人”的定義。評(píng)價(jià)善與惡、對(duì)與錯(cuò)的根本標(biāo)準(zhǔn)是道德哲學(xué)中最根本、也是最富爭(zhēng)議的問(wèn)題，給出一個(gè)評(píng)價(jià)善惡的根本標(biāo)準(zhǔn)進(jìn)而定義什么是“好人”并不是本文的興趣所在。這里將采用一種策略性的方法來(lái)回應(yīng)此問(wèn)題。想象這樣一個(gè)大多數(shù)人都能承認(rèn)的、惡行的集合：{惡行 | 殺人、放火、搶劫、詐騙、強(qiáng)奸、盜竊、撒謊、施加酷刑、言而無(wú)信、不忠……}。對(duì)這些惡行的禁止實(shí)際上構(gòu)成道德規(guī)則的主體。據(jù)此，我們可以得到一個(gè)道德規(guī)則的集合：{道德規(guī)則 | 不得殺人、不得放火、不得搶劫、不得詐騙、不得奸淫、不得偷盜、不得撒謊、不得施加酷刑、守信、忠誠(chéng)……}。以這些道德規(guī)則為依據(jù)，我們可以給“好人”下一個(gè)初步的定義：好人就是遵守其所在共同體所公認(rèn)的道德規(guī)則的人。當(dāng)然，不同的共同體其道德規(guī)則會(huì)有很多差異，不過(guò)上述給出的道德規(guī)則的集合可以大體上看作多數(shù)共同體都會(huì)恪守的最低的道德底線。不同共同體間道德規(guī)則的差異并不會(huì)對(duì)我們的探討構(gòu)成障礙，因?yàn)椴徽摰赖乱?guī)則的內(nèi)容是什么，是否遵守道德規(guī)則都面臨囚徒困境。

有了上述準(zhǔn)備，此處可以將本文試圖回答的問(wèn)題做更精確陳述：假定大多數(shù)人都是自利的理性人，既沒(méi)有做圣人的動(dòng)機(jī)也沒(méi)有做惡棍的偏好，但是，如果殺人放火的生活方式更有利，他們就會(huì)去殺人放火，對(duì)于這樣的人們，為什么要遵守道德規(guī)則，要做好人？

二、道德規(guī)則與囚徒困境

如果將是否遵守道德規(guī)則視作只進(jìn)行一次的博弈，那么它將是一個(gè)典型的囚徒困境。關(guān)鍵在于，對(duì)于理性人而言，上述提到的每一種惡行都對(duì)應(yīng)著短期利益的誘惑：殺人可能是為了復(fù)仇或奪取他人財(cái)產(chǎn)、官職，搶劫、詐騙、盜竊可以獲得財(cái)物，撒謊是為了達(dá)到特定目的，施加酷刑可以從對(duì)方身上獲得至關(guān)重要的信息等等。因而，在最簡(jiǎn)單的只有甲、乙兩個(gè)玩家的博弈中，如果每個(gè)人的策略選擇僅限于遵守和不遵守道德規(guī)則，那么四種結(jié)果的排序如下：

1.最好的結(jié)果是對(duì)方遵守道德規(guī)則，而我不遵守，我的收益是T（Temptation）。

2.其次的結(jié)果是兩個(gè)人都遵守道德規(guī)則，每個(gè)人的收益是R（Reward）。

3.再次的結(jié)果是兩個(gè)人都不遵守道德規(guī)則，每個(gè)人的收益是P（Punishment）。

4.最壞的結(jié)果是我遵守道德規(guī)則，而對(duì)方不遵守，我的收益是S（Suckers Payoff）。

這樣我們有：T>R>P>S（這一排序基于序數(shù)功利的概念，即相關(guān)選項(xiàng)僅代表偏好排序的優(yōu)先次序而不代表功利值的絕對(duì)度量）。另外，我們假定都遵守道德規(guī)則的集體收益大于一個(gè)人遵守而另一個(gè)人不遵守的情況，這樣R+R>T+S，即R>（T+S）/2。如此，我們有如下的收益矩陣（矩陣中標(biāo)示的是甲的收益）：

這是一個(gè)典型的囚徒困境。當(dāng)然，以上情境是假定沒(méi)有國(guó)家和政府、沒(méi)有中央權(quán)威存在的情況下，即類(lèi)似于霍布斯所說(shuō)的自然狀態(tài)中，一個(gè)理性人會(huì)做何種選擇。在這一困境中，如果兩人都采取合作性的行為，即遵守道德規(guī)則，是集體最優(yōu)的也是最值得期望的結(jié)果。但是，對(duì)于理性人而言，不管對(duì)方做何種選擇，唯一能夠最大化自身收益的行為只能是不遵守道德規(guī)則。因而，兩個(gè)人都困于這樣一種窘境中：如果兩個(gè)人都遵守道德規(guī)則，兩個(gè)人的狀況都會(huì)更好，但是出于自利的、追求自身利益最大化的動(dòng)機(jī)，兩個(gè)人都必然選擇不遵守，因而兩個(gè)人的境況都變得更差了。②

囚徒困境理論模型的建構(gòu)及解決是20世紀(jì)下半葉社會(huì)科學(xué)領(lǐng)域的重大進(jìn)步之一。囚徒困境揭示了一般社會(huì)合作的普遍障礙：凡是涉及個(gè)體利益與集體利益之張力的情景往往會(huì)有情況困境結(jié)構(gòu)的存在。著名的例子，比如，哈丁的“公地悲劇”③、奧爾森的“集體行動(dòng)的困境”，奧斯特羅姆因?yàn)樵凇肮渤靥临Y源”管理方面（與“公地悲劇”相關(guān)）的貢獻(xiàn)而獲得2009年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。社會(huì)生活中囚徒困境的例子更是俯拾皆是：軍備競(jìng)賽、核威懾、廣告投入競(jìng)賽、商業(yè)競(jìng)爭(zhēng)、美國(guó)兩黨制下預(yù)算赤字問(wèn)題、抑制排放與全球變暖、關(guān)稅與貿(mào)易戰(zhàn)、競(jìng)爭(zhēng)性貨幣貶值……同時(shí)，囚徒困境的發(fā)現(xiàn)也曾經(jīng)對(duì)哲學(xué)家造成極大震撼，例如，高希爾就認(rèn)為人類(lèi)的全部道德都是為了克服囚徒困境從而達(dá)成社會(huì)合作。④

借用博弈論的術(shù)語(yǔ)，在單次博弈中遵守道德規(guī)則（做好人）會(huì)被剝削（收益為S），這種情形是社會(huì)生活中“好人吃虧”的一大來(lái)源。根據(jù)囚徒困境模型，在單次博弈中，唯一的均衡就是兩個(gè)人都選擇不合作的行為，即不遵守道德規(guī)則。這種情景在生活中很常見(jiàn)，即所謂的“一錘子買(mǎi)賣(mài)”：如果兩個(gè)陌生人的交互只進(jìn)行一次，每個(gè)人都有很強(qiáng)的動(dòng)機(jī)不遵守通常的道德規(guī)則。比如，景區(qū)飯店招待的客人通常一輩子只來(lái)一次，因此，飯店并不期望招攬“回頭客”，它就有很強(qiáng)的動(dòng)機(jī)“宰客”。另外一個(gè)典型的例子就是老人摔倒了，要不要扶的問(wèn)題，這也是一個(gè)囚徒困境：如果兩個(gè)人都做好人，都遵守通常的道德規(guī)則，見(jiàn)到老人摔倒去扶、被扶的老人表示感謝不去敲詐扶他的人，大家的境況都會(huì)變好，但是，現(xiàn)實(shí)中的均衡有時(shí)是，見(jiàn)到老人摔倒不扶，被扶的時(shí)有敲詐好人。

如何克服這一困境呢？

三、進(jìn)化博弈與策略選擇

如果是否遵守道德規(guī)則的問(wèn)題是囚徒困境，現(xiàn)有的研究告訴我們?nèi)魏斡邢薮螖?shù)的博弈都不能逃脫這一困境。⑤在沒(méi)有外在權(quán)威的情況下，只有通過(guò)重復(fù)博弈才能逃脫這一困境。理論上，這是一種無(wú)限重復(fù)的博弈，但是現(xiàn)實(shí)中只要雙方都不能明確知道博弈將何時(shí)終止，就可以近似地看作是無(wú)限重復(fù)博弈。例如，小區(qū)附近的便利店，只要店主和顧客都沒(méi)有預(yù)期便利店在短期之內(nèi)關(guān)門(mén)，就可以將顧客與店主之間的博弈近似地看作是無(wú)限重復(fù)博弈。

那么，從個(gè)體角度，采用什么樣的策略才能使個(gè)人收益最大化？假設(shè)是否遵守道德規(guī)則的博弈進(jìn)行N回合，每個(gè)回合參與者都有遵守和不遵守兩個(gè)選項(xiàng)，那么N回合中，每個(gè)參與者可能的策略組合都有2n個(gè)。如何從這2n個(gè)可能策略中，選擇收益最大化的策略？實(shí)際上，沒(méi)有人知道該選哪個(gè)策略。在這里，“選擇”是一種幻象：一方面，沒(méi)有人能夠窮盡2n個(gè)策略，對(duì)每一個(gè)策略做徹底的研究，另一方面，在博弈中，每個(gè)人的收益既取決于自身的策略選擇也取決于對(duì)方的策略選擇。因此，收益最大的策略并不能靠事先的計(jì)算被“選擇”出來(lái)。在進(jìn)化機(jī)制中，通過(guò)人們不斷地試錯(cuò)，收益更大的策略在優(yōu)勝劣汰的競(jìng)爭(zhēng)中浮現(xiàn)才是更現(xiàn)實(shí)的路徑。那么，進(jìn)化機(jī)制又是如何發(fā)揮作用的呢？

在N回合的是否遵守道德規(guī)則的囚徒困境中，我們用V（A|B）來(lái)指代策略A與B博弈時(shí)A的收益，用w代表參與博弈雙方再次進(jìn)行博弈的概率。在2n種策略中，有一些極為簡(jiǎn)單的情形，其收益是可以直接計(jì)算的。比如，雙方都選擇完全遵守道德規(guī)則，那么根據(jù)以上收益矩陣，則每個(gè)回合雙方都得到R的收益，將未來(lái)收益做一個(gè)折現(xiàn)，則有：

V（完全遵守|完全遵守）=R+wR+w2R+w3R…wnR=R/（1-w）

類(lèi)似地，如果雙方都完全不遵守道德規(guī)則，則有：

V（完全不遵守|完全不遵守）=P+wP+w2P+w3P…wnP=P/（1-w）

如果w足夠大（比如，0.9），即雙方未來(lái)重復(fù)博弈的概率足夠大，則可以直觀地看出，雙方都完全遵守道德規(guī)則的收益要遠(yuǎn)遠(yuǎn)大于雙方都不遵守的情況。理論上，R/（1-w）是個(gè)人在長(zhǎng)期重復(fù)博弈中所能期望的最大預(yù)期收益。雖然，V（完全不遵守|完全遵守）=T+wT+w2T+w3T…wnT=T/（1-w）>R/（1-w），但是，現(xiàn)實(shí)中沒(méi)有人能夠忍受長(zhǎng)期的剝削而不改變策略。筆者在課堂上所做的實(shí)驗(yàn)中，T/（1-w）的收益值從未出現(xiàn)過(guò)。

那么，不同策略所對(duì)應(yīng)的不同預(yù)期收益值意味著什么呢？在進(jìn)化博弈論中，這些預(yù)期收益值可以做兩種解釋?zhuān)海?）在生物界中，不同的預(yù)期收益代表著不同的適應(yīng)水平，而不同的適應(yīng)水平將決定個(gè)體所能繁衍后代的數(shù)量，（2）在人類(lèi)社會(huì)中，不同策略的收益值代表相應(yīng)策略在人群中出現(xiàn)的頻率，因?yàn)槿祟?lèi)可以復(fù)制他人的成功策略，預(yù)期收益越高的策略在人群中出現(xiàn)的頻率越高，預(yù)期收益低的策略會(huì)被人們拋棄。關(guān)鍵在于，囚徒困境博弈是非零和博弈，彼此合作的行為將產(chǎn)生增量，從而使參與雙方的境況都變好。例如，如果兩匹狼能夠彼此合作，它們將能夠捕獲比它們單獨(dú)捕獵更大更多的獵物，從而養(yǎng)活更多后代，因此它們的適應(yīng)水平都提高了。在人類(lèi)社會(huì)中，因?yàn)槿藗兛梢韵鄬?duì)容易地復(fù)制預(yù)期收益更高的策略，被淘汰的不是人類(lèi)個(gè)體而是策略本身。

至此，我們已經(jīng)了解基本的原理，但我們還是不知道在2n種策略中哪些是更成功的。1980年代，隨著計(jì)算機(jī)的日益普及，科學(xué)家們開(kāi)始使用計(jì)算機(jī)模擬的方式來(lái)尋找答案。其中，最引人注目的研究來(lái)自政治科學(xué)家羅伯特·阿克塞爾羅德。阿克塞爾羅德舉辦了兩次錦標(biāo)賽，讓計(jì)算機(jī)科學(xué)家、生物學(xué)家、心理學(xué)家、政治學(xué)家、經(jīng)濟(jì)學(xué)家、數(shù)學(xué)家以及計(jì)算機(jī)愛(ài)好者提交計(jì)算機(jī)程序，這些計(jì)算機(jī)程序會(huì)執(zhí)行不同的、參與重復(fù)博弈的囚徒困境的策略。在這兩次錦標(biāo)賽中，一個(gè)非常成功的策略脫穎而出，在所有策略中獲得了最高的平均分?jǐn)?shù)。這個(gè)策略就是著名的“以牙還牙”策略（Tit For Tat，下文簡(jiǎn)稱(chēng)TFT）。令人驚訝的是，TFT是一個(gè)非常簡(jiǎn)單的策略：第一個(gè)回合總是合作（遵守道德規(guī)則），接下來(lái)的每一個(gè)回合都簡(jiǎn)單拷貝對(duì)方上一個(gè)回合的策略。TFT有很多優(yōu)點(diǎn)，比如，當(dāng)兩個(gè)參與者都執(zhí)行TFT的策略時(shí)，他們的預(yù)期收益是：

V（TFT|TFT）=R+wR+w2R+w3R…wnR=R/（1-w）

可以看到，當(dāng)雙方都執(zhí)行TFT策略時(shí)，他們達(dá)成了合作（都遵守道德規(guī)則）并且達(dá)到了最高的預(yù)期收益R/（1-w）?；诖耍?dāng)TFT遇到友善的策略時(shí)，它能夠達(dá)到很高的預(yù)期收益。同時(shí)，當(dāng)TFT遇到“壞人”的時(shí)候，它并不會(huì)受到剝削：

V（TFT|完全不遵守）=S+wP+w2P+w3P…wnP=S+wP/（1-w）

當(dāng)w足夠大，這一預(yù)期收益近似等于P/（1-w），與V（完全不遵守|完全不遵守）=P/（1-w）相同，因此，即便在“壞人”中執(zhí)行TFT策略的個(gè)體也不會(huì)吃虧。⑥

阿克塞爾羅德基于TFT做出的最重要的結(jié)論在于：基于進(jìn)化博弈論，即便沒(méi)有中央權(quán)威的干預(yù)，TFT也將促使合作在非合作的人口當(dāng)中出現(xiàn)并使其成為集體穩(wěn)定策略（Collective Stable Strategy）——這便是合作的進(jìn)化。可以想象這樣一個(gè)類(lèi)似于霍布斯自然狀態(tài)的共同體（規(guī)模不能太大），在其中，所有人都是“壞人”：他們彼此攻擊、傷害，每個(gè)人的策略都是完全不遵守道德規(guī)則，所以他們的平均預(yù)期收益是P/（1-w）。只要給這個(gè)共同體中的人們足夠長(zhǎng)的時(shí)間去試錯(cuò)，這樣的情形遲早會(huì)出現(xiàn)：一小部分人最終發(fā)現(xiàn)了一個(gè)有效的策略，即TFT。在這個(gè)共同體中，當(dāng)TFT策略的執(zhí)行者遇到一個(gè)完全不遵守道德規(guī)則的人，他所得到的預(yù)期收益仍然近似于P/（1-w），近似等于共同體平均值，但當(dāng)他遇到另一個(gè)TFT策略的執(zhí)行者時(shí)，他的預(yù)期收益將是R/（1-w）遠(yuǎn)遠(yuǎn)大于共同體平均值。這樣，當(dāng)他遇到另外一個(gè)TFT策略執(zhí)行者的概率越高，他的預(yù)期收益就越大于共同體平均值。但不論如何，他的預(yù)期收益都要大于共同體平均值。這樣，當(dāng)其他人注意到TFT策略收益更高時(shí)，TFT策略將很快在人群中傳播開(kāi)來(lái)，并被大部分人采用。這樣，基于逐利的動(dòng)機(jī)，“壞人”的共同體很快會(huì)轉(zhuǎn)變?yōu)橐粋€(gè)“以牙還牙”的共同體。用進(jìn)化博弈論的術(shù)語(yǔ)說(shuō)，TFT的策略“入侵”了執(zhí)行完全不遵守道德規(guī)則這一策略的人口。并且，TFT策略具有集體穩(wěn)定性，它可以入侵完全不遵守道德規(guī)則的策略，但是完全不遵守的策略卻不能入侵TFT，因?yàn)樵趫?zhí)行TFT策略的人口中使用完全不遵守的策略其收益低于平均值。

1990年代，馬丁·諾瓦克同樣用計(jì)算機(jī)模擬的方法為我們揭示了一個(gè)更大的圖景，并發(fā)現(xiàn)了幾個(gè)比TFT更成功的策略。⑦在這個(gè)更大的圖景中，合作的策略與不合作的策略在整個(gè)人口中表現(xiàn)為一個(gè)大的循環(huán)。應(yīng)用于是否遵守道德規(guī)則的問(wèn)題，則頗有幾分中國(guó)文化中天道循環(huán)的意味。想象一個(gè)小的共同體，一開(kāi)始，在是否遵守道德規(guī)則的問(wèn)題上，自利的理性人誰(shuí)也不知道哪種策略更有效，所有人都在隨機(jī)試錯(cuò)。很快，友好的策略因?yàn)槭艿綈毫硬呗缘膭兿鞫?，整個(gè)人口被完全不遵守道德規(guī)則的策略占據(jù)，此時(shí)整個(gè)人口的平均預(yù)期收益很低。經(jīng)過(guò)很多代的演化，基于策略的隨機(jī)突變，在某個(gè)時(shí)刻會(huì)出現(xiàn)數(shù)量足夠多的TFT玩家，此后TFT策略很快在這個(gè)小共同體中傳播并占據(jù)整個(gè)人口。TFT具有一定的穩(wěn)定性，它不能被完全不遵守道德規(guī)則的策略入侵。不過(guò)，不論在自然界還是人類(lèi)社會(huì)，人和動(dòng)物都會(huì)有偶爾犯錯(cuò)的時(shí)候，如果兩個(gè)玩家的一方因?yàn)榕紶柗稿e(cuò)而沒(méi)有遵守道德規(guī)則，將導(dǎo)致TFT策略一長(zhǎng)串的報(bào)復(fù)行為。這將降低TFT策略的預(yù)期收益。這樣，在TFT所占據(jù)的人口中，更友好的策略，比如“慷慨的以牙還牙”⑧“帕夫洛夫”⑨策略會(huì)入侵TFT人口。最終，這個(gè)小的共同體將進(jìn)化到一個(gè)所有人都完全遵守道德規(guī)則的階段。這將是這個(gè)小共同體的“黃金時(shí)代”。但遺憾的是，所有人都遵守道德規(guī)則的策略不具有穩(wěn)定性，它很容易受到完全不遵守道德規(guī)則策略的剝削和入侵。因?yàn)榇藭r(shí)完全遵守道德規(guī)則的平均預(yù)期收益為R/（1-w），但是完全不遵守的收益為：V（完全不遵守|完全遵守）=T/（1-w），它大于平均收益。在這個(gè)人人都遵守道德規(guī)則的黃金時(shí)代，突變而來(lái)的、完全不遵守道德規(guī)則的策略有豐富的獵物可供其剝削。這樣，這個(gè)“黃金時(shí)代”在經(jīng)歷僅僅4到5代的演化，就會(huì)返回最初的混沌狀態(tài)。因而，在沒(méi)有外在權(quán)威干預(yù)的情況下，是否遵守道德規(guī)則的博弈將呈現(xiàn)出周而復(fù)始的大循環(huán)。

當(dāng)然，對(duì)于今天的個(gè)人而言，沒(méi)有人經(jīng)歷過(guò)從同類(lèi)相食到不可殺人的試錯(cuò)過(guò)程，如果不是考古人類(lèi)學(xué)的發(fā)現(xiàn)這個(gè)階段甚至已經(jīng)湮滅在人類(lèi)歷史的長(zhǎng)河之中。個(gè)人的道德觀念是從家庭、周邊社會(huì)環(huán)境和傳統(tǒng)中習(xí)得的——對(duì)大多數(shù)人而言，做好人還是壞人并不是一個(gè)審慎反思和有意識(shí)選擇的結(jié)果。同時(shí)，如果沒(méi)有這些道德規(guī)則，社會(huì)合作尤其是今天超大規(guī)模的社會(huì)合作就不可能維持。所以，任何共同體都有維護(hù)其道德規(guī)則的壓力，并對(duì)違反道德規(guī)則的行為給予相應(yīng)的懲罰。同時(shí)，道德規(guī)則演化的歷史過(guò)于久遠(yuǎn)，那個(gè)同類(lèi)相食的時(shí)代早已淡出人類(lèi)的記憶。如此一來(lái)，道德規(guī)則與道德觀念很容易成為某種神秘的東西：人們被告知應(yīng)遵守一些基本的道德規(guī)則，但為什么要遵守的理由卻五花八門(mén)甚至相互矛盾。今天，有各種各樣的規(guī)范道德理論給出為什么我們“應(yīng)該”遵守道德規(guī)則的理由，一定程度上，這些理論都帶有虛構(gòu)的性質(zhì)，因?yàn)樗鼈儾⒉皇墙⒃趯?duì)道德規(guī)則背后機(jī)制的透徹了解之上。

好消息是，對(duì)于今天的個(gè)人而言，有諸多因素會(huì)讓好人更好過(guò)、受到更多獎(jiǎng)勵(lì)以及得到更多機(jī)會(huì)。第一，當(dāng)今的生產(chǎn)生活方式使人們有更多機(jī)會(huì)參與到增量的生產(chǎn)與創(chuàng)造活動(dòng)中，而非卷入對(duì)存量的爭(zhēng)奪。工業(yè)經(jīng)濟(jì)以及后工業(yè)時(shí)代的知識(shí)經(jīng)濟(jì)，經(jīng)濟(jì)產(chǎn)出每年都會(huì)以一定的速度增長(zhǎng)（例如，GDP以每年2%左右的速度增長(zhǎng)），一個(gè)工業(yè)國(guó)家的經(jīng)濟(jì)規(guī)模在幾十年內(nèi)翻倍是很正常的現(xiàn)象。這種增長(zhǎng)在農(nóng)耕時(shí)代是很難想象的。農(nóng)耕時(shí)代每年的經(jīng)濟(jì)產(chǎn)出雖有波動(dòng)，但大體上是一個(gè)恒量，其產(chǎn)出主要取決于耕地面積，而耕地面積不可能像工業(yè)產(chǎn)出那樣長(zhǎng)期持續(xù)增長(zhǎng)。第二，相關(guān)的，今天的人們都生活在超大規(guī)模的社會(huì)，進(jìn)行著超大規(guī)模的社會(huì)合作，這種合作對(duì)于一個(gè)共同體道德水準(zhǔn)的要求會(huì)越來(lái)越高而非相反。因而，一個(gè)更善于與他人展開(kāi)合作的個(gè)人會(huì)得到更多機(jī)會(huì)，一個(gè)“壞人”的名聲并不能招徠好運(yùn)。正如英語(yǔ)中一句諺語(yǔ)所說(shuō)，“好人最先完成”，好人會(huì)更適應(yīng)展開(kāi)大規(guī)模合作的社會(huì)，因?yàn)槲覀兌际恰俺?jí)合作者”。第三，信息時(shí)代的信息傳播成本越來(lái)越低，這就使得以往單次博弈、做一錘子買(mǎi)賣(mài)的場(chǎng)合越來(lái)越少。例如，網(wǎng)店買(mǎi)家與賣(mài)家的交易因?yàn)橛性u(píng)價(jià)機(jī)制的存在使得單個(gè)買(mǎi)家與網(wǎng)店的單次博弈變成了所有買(mǎi)家與網(wǎng)店的重復(fù)博弈，因而單次欺騙行為與長(zhǎng)期收益相比就變得不劃算。再比如，在某個(gè)遙遠(yuǎn)地方以“碰瓷”為生的人，只要一次曝光，他很快就會(huì)被幾乎所有人認(rèn)識(shí)，他的“一錘子買(mǎi)賣(mài)”就很難繼續(xù)做下去。

結(jié)論

綜上所述，基于進(jìn)化博弈論的視角，我們可以得出如下幾點(diǎn)結(jié)論：

第一，做好人、遵守道德規(guī)則首先是一項(xiàng)集體的要求。這一要求優(yōu)先考慮的是集體的收益而非個(gè)人的收益，只有共同體的所有成員都遵守道德規(guī)則才能達(dá)到最優(yōu)的集體收益。所有人都做壞人、都不遵守道德規(guī)則乃是集體的不可承受之重，這樣的共同體在面對(duì)生存競(jìng)爭(zhēng)時(shí)是無(wú)法生存下去的。惡人不可成邦：一個(gè)完全由十惡不赦的惡棍組成的共同體從原理上就不可能。

第二，我們不需要過(guò)于擔(dān)心“禮崩樂(lè)壞”“人心不古”之類(lèi)所謂的道德退化。進(jìn)化機(jī)制能夠保證道德規(guī)則在人類(lèi)社會(huì)合作的演化中出現(xiàn)，它也能保證道德規(guī)則的存續(xù)——只要有社會(huì)合作就必然有道德。并且，隨著人類(lèi)社會(huì)合作的水平和規(guī)模的提高，道德規(guī)則與觀念只會(huì)進(jìn)化而不會(huì)退化。

第三，對(duì)個(gè)人而言，做好人的最重要理由在于社會(huì)合作。在個(gè)人的“熟人圈子”中，做一個(gè)好人的益處毋庸諱言。在更廣闊的社會(huì)生活中，有諸多機(jī)制促使一個(gè)人遵守道德規(guī)則、成為一個(gè)潛在的合作者。比如，名譽(yù)的機(jī)制，一個(gè)人即便對(duì)陌生人橫眉冷對(duì)也會(huì)被身邊的人觀察到，從而影響到對(duì)其“人品”的判斷，比如，社會(huì)生活的極度復(fù)雜與不確定性，讓人很難判斷與一個(gè)陌生人的交往是否會(huì)發(fā)展成長(zhǎng)期合作，以一以貫之的方式行事反而省心省力，再比如，社會(huì)作為一個(gè)整體也會(huì)有很多手段和途徑懲罰違規(guī)者，這就是中國(guó)古語(yǔ)所說(shuō)的“多行不義必自斃”?？傮w上，做一個(gè)好人能夠贏得更多參與社會(huì)合作的機(jī)會(huì)，即便除去少數(shù)情況下好人吃虧的情形，其長(zhǎng)期總體收益也會(huì)更高。

① 姚大志：《我們何以負(fù)有服從規(guī)則的道德義務(wù)》，《哲學(xué)研究》2017年第10期，第92頁(yè)。

② Robert Axelrod，“The Evolution of Cooperation，”Science， 1981（vol.211），pp.1390-1396.

③ Garrett Hardin，“The Tragedy of the Commons，”Science， 1968， 162（3859），pp.1243-1248.

④ David Gauthier，Morals by Agreement， Oxford University Press on Demand， 1986， Preface.

⑤ R.D. Luce and H， Raiffa，Games and Decisions， New York： John Wiley & Sons， 1957，pp.94-102.

⑥ Robert Axelrod，“The Emergence of Cooperation among Egoists”，American Political Science Review， 1981（75.2），pp.306-318.

⑦ Lorens A. Imhof， Drew Fudenberg， Martin A. Nowak，“Evolutionary Cycles of Cooperation and Defection，”P(pán)roceedings of the National Academy of Sciences， 2005 （102.31），pp.10797-10800.

⑧ Martin Nowak， Karl Sigmund， “Tit For Tat in Heterogeneous Populations，”Nature，1992（355.6357），pp.250-253.

⑨ Martin Nowak， Karl Sigmund，“A Strategy of WinStay， LoseShift that Outperforms TitForTat in the Prisoners Dilemma Game，”Nature， 1993 （364.6432），pp.56-58.

⑩ Martin Nowak， et al. “Emergence of Cooperation and Evolutionary Stability in Finite Populations，”Nature， 2004 （428.6983），pp.646.

Elinor Ostrom， James Walker， and Roy Gardner， “Covenants with and without a Sword： Self-Governance is Possible，”American Political Science Review， 1992（86.2），pp.404-417.

因?yàn)槔献铀f(shuō)的“國(guó)”并不是國(guó)家而是城市。考慮到老子時(shí)代城市的規(guī)模，“小國(guó)”則更接近本文所說(shuō)的小型共同體的規(guī)模。

Fernández-Jalvo， Yolanda， et al. “Evidence of Early Cannibalism，”ScienceAAASWeekly Paper Edition， 1996 （271.5247），pp.275.

Gat Azar，War in Human Civilization， New York： Oxford University Press Inc.， 2006，pp.13-16.

Richard Joyce，The Evolution of Morality， MIT press， 2007，p.42.

Martin Nowak， Roger Highfield，“Supercooperators： Altruism， Evolution， and Why We Need Each Other to Succeed，”Simon and Schuster， 2011， Chapter 14.

（責(zé)任編輯：顏沖）