囚徒困境從單次博弈到重復(fù)博弈

2009-02-10 03:26:26楊懋祁守成

商業(yè)經(jīng)濟(jì)研究 2009年2期

楊　懋　祁守成

中圖分類號：F224.32 文獻(xiàn)標(biāo)識碼：A

內(nèi)容摘要：本文從博弈論中的經(jīng)典案例“囚徒困境”入手，闡述了單次博弈與重復(fù)博弈中的囚徒困境現(xiàn)象。隨后論證了囚徒困境在單次博弈與重復(fù)博弈中的均衡區(qū)別，說明了在重復(fù)博弈條件下合作產(chǎn)生的可能性。

關(guān)鍵詞：囚徒困境單次博弈重復(fù)博弈合作

囚徒困境是博弈論中非零和博弈的代表性的例子，反映個(gè)人最佳選擇并非團(tuán)體最佳選擇。雖然困境本身只屬模型性質(zhì)，但現(xiàn)實(shí)中囚徒困境的例子屢見不鮮。

“囚徒困境”博弈是博弈論中的經(jīng)典案例。這個(gè)故事講的是兩個(gè)嫌疑犯A和B，作案后被警察抓住，被分別關(guān)在不同的審訊室。警察為了得到所需的口供，告訴每個(gè)人：如果兩人都不坦白，每人以妨礙公務(wù)罪各被判刑三年；如果兩人都坦白，各判刑十年；如果兩人中一人坦白、另一人不坦白，則坦白的人判刑兩年、不坦白的人判刑十二年。在這個(gè)博弈中，每個(gè)嫌疑犯都有兩種可選擇的戰(zhàn)略：坦白或不坦白。顯然每個(gè)囚徒的最優(yōu)戰(zhàn)略都是坦白。這是因?yàn)榧俣ˋ選擇坦白的話、B最好也選擇坦白，因B坦白判刑十年，而不坦白卻要判刑十二年；假定A選擇不坦白的話，B最好還是選擇坦白，因?yàn)锽坦白的話就判刑二年，而不坦白卻要被判刑三年。即是說，不管A坦白或不坦白，B的最優(yōu)選擇都是坦白。反過來，同樣地，不管B是坦白還是不坦白，A的最優(yōu)選擇也是坦白。結(jié)果，兩個(gè)人都選擇了坦白，各判刑十年。

單次博弈中的“囚徒困境”

經(jīng)典的“囚徒困境”博弈單次博弈，反映了集體理性和個(gè)人理性的矛盾。假定每個(gè)參與者（即“囚徒”）都是利己的，即都尋求最大自身利益，而不關(guān)心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，此策略稱為“嚴(yán)格劣勢”，理性的參與者絕不會(huì)選擇。另外，沒有任何其他力量干預(yù)個(gè)人決策，參與者可完全按照自己意愿選擇策略。

假設(shè)二人均為理性的個(gè)人，且只追求自己個(gè)人利益，二人到底應(yīng)該選擇哪一項(xiàng)策略，才能將自己個(gè)人的刑期縮至最短？由于隔絕監(jiān)禁，信息不明，二人并不知道對方選擇；而即使他們能交談，還是未必能夠盡信對方不會(huì)反口。就個(gè)人的理性選擇而言，檢舉背叛對方所得刑期，總比不坦白要來得低。試設(shè)想困境中兩名理性囚徒會(huì)如何作出選擇：

若對方不坦白、不背叛會(huì)讓我獲釋，所以會(huì)選擇背叛；若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會(huì)選擇背叛。二人面對的情況一樣，所以二人的理性思考都會(huì)得出相同的結(jié)論-選擇背叛。背叛是兩種策略之中的支配性策略。因此，這場博弈中唯一可能達(dá)到的納什均衡就是（坦白，坦白）。

這場博弈的納什均衡，顯然不是顧及團(tuán)體利益的帕累托最優(yōu)解決方案。以全體利益而言，如果兩個(gè)參與者都合作保持不坦白，兩人都只會(huì)被判刑3年，總體利益更高，結(jié)果也比兩人背叛對方、判刑2年的情況較佳。

假設(shè)一方是非理性的，另一方是理性的，即博弈雙方均不知道對方是不是理性的，非理性一方(理解為講義氣重信譽(yù)的人或擔(dān)心坦白會(huì)受到出獄后的報(bào)復(fù))，假設(shè)他只有一種策略，如果博弈是重復(fù)的，在第一階段，他必然選擇不坦白，在以后階段他將選擇同伙前一階段的選擇，即你不坦白我就不坦白，你坦白我就坦白。而另一方是理性的，他不管對方是否理性的，他都將選擇坦白。所以這次博弈的均衡是(不坦白，坦白)。

假設(shè)雙方均為非理性的，那么他們不管同伙如何選擇，他們都將選擇不坦白，則博弈的均衡是（不坦白，不坦白）。

重復(fù)博弈中的“囚徒困境”

重復(fù)博弈中的“囚徒困境”，是指相同的博弈者會(huì)不斷重逢，即不斷重復(fù)面對相似的囚徒困境的選擇條件。重復(fù)為博弈產(chǎn)生了新的動(dòng)力結(jié)構(gòu)。在重復(fù)性囚徒困境下，理性博弈者將考慮，如果我拒絕合作，不斷背叛，為了減少你的損失你也背叛。通過重復(fù)，博弈者可按對手以往選擇而決定當(dāng)前選擇。背叛有可能遭到懲罰，合作有可能獲得收益。

（一）重復(fù)性囚徒困境博弈的理論研究

在“重復(fù)性囚徒困境”研究方面，最有成就者當(dāng)推羅伯特?艾克斯羅德、泰勒、哈丁等人。在其《合作的進(jìn)化》一書中，艾克斯羅德用實(shí)驗(yàn)證明，在重復(fù)博弈條件下，一次性囚徒困境下背叛的占優(yōu)策略將會(huì)為有條件合作的占優(yōu)策略所取代，換言之，在一次性囚徒困境中，選擇不合作策略的博弈者，在“重復(fù)性囚徒困境”中，將會(huì)采取合作策略以最大化個(gè)人利益、即“有條件合作”策略將是重復(fù)性囚徒困境下博弈者的占優(yōu)策略。

艾克斯羅德的結(jié)論，肯定了純由利己主義者組成的世界中，建立互惠合作關(guān)系的可能性。這一結(jié)論對于人類社會(huì)的意義在于，即使在缺少政府權(quán)威的人群中，人們合作或建立社會(huì)秩序也是可能的，因?yàn)楹献鞅旧矸袭?dāng)事人長遠(yuǎn)的、根本的利益。合作產(chǎn)生的條件就是：“人們重新相遇的機(jī)會(huì)足夠大”，即“合作是基于互利互惠的基礎(chǔ)；而且未來的影響十分重要，它足以保證目前的互利互惠關(guān)系的穩(wěn)定”。

謝林仔細(xì)考察了博弈者相互之間的信息溝通程度與博弈結(jié)果的相應(yīng)關(guān)系，探討“協(xié)同博弈”（co-ordination games）形成的條件。謝林對非零和模型的研究，表明最大化個(gè)人功利的企圖并不像在零和博弈中那樣等于最小化人的功利。

（二）重復(fù)性囚徒困境模型研究

如果重復(fù)囚徒困境將被精確地重復(fù)N次，已知N是一個(gè)常數(shù)，那么會(huì)產(chǎn)生另一個(gè)事實(shí)：納什均衡就是每次都背叛。用歸納法證明：你也可以在最后的回合背叛，既然你的對手將沒有機(jī)會(huì)懲罰你。因此，你們都將在最后的回合背叛。這時(shí)，你可以在倒數(shù)第二回合中背叛，既然最后一回?zé)o論你做什么，你的對手都將背叛。依此類推。為了達(dá)到合作的目的，對兩個(gè)參與者來說未來必須是不確定的。給出一個(gè)數(shù)據(jù)模型。假設(shè)囚徒困境的策略矩陣如表1。

我們假設(shè)囚徒的支付是階段博弈支付貼現(xiàn)之和，并假定貼現(xiàn)因子等于1。若雙方均為非理性的，那么他們每階段都會(huì)選擇不坦白。在不完全信息情況下，假設(shè)囚徒1有兩種類型，理性的和非理性的，概率分別為1-p和p，假設(shè)囚徒2也有兩種類型，理性的或非理性的，概率分別為1-q和q，為了敘述方便，用C代表“坦白（背叛）”(Confess)，D代表“不坦白（合作）”(Deny)。

首先討論博弈只重復(fù)兩次的情況：在t=1階段，非理性一方會(huì)選擇D。在t=2階段，理性囚徒選擇C，而理性囚徒在t=1階段的選擇將是非理性囚徒在t=2階段的選擇，如表2。

如果選擇X=D，Y=D，

理性囚徒1的期望支付是：-3+[q*(-2)+(1-q)*(-10)]=8q-13；

理性囚徒2的期望支付是：-3+[p*(-2)+(1-p)*(-10)]=8p-13 ......

所以囚徒1和囚徒2對應(yīng)于X，Y的選擇期望支付矩陣為

8q-20≥17q-22且-12≥8q-13由此得出：p≤1/8且q≤2/9再推得：

當(dāng)q≤1/8時(shí)，X=C；當(dāng)q≥2/9時(shí)，X=C。

同理可得：當(dāng)p≤1/8時(shí)，Y=C；當(dāng)p≥2/9時(shí)，Y=C，如表3。

就是說如果理性囚徒1(2)認(rèn)為囚徒2(1)屬于非理性的概率不大于1/8，他將在第一階段選擇坦白，如果不小于2/9，則選擇不坦白。

其次討論理性囚徒認(rèn)為他的同伙屬于非理性的概率在1/8和2/9之間時(shí)，他將如何選擇。

假設(shè)囚徒1和囚徒2都是風(fēng)險(xiǎn)中性者。

當(dāng)理性囚徒一方認(rèn)為另一方屬于非理性的概率p(q)≥a時(shí)，他將在第一階段選擇不坦白。在每個(gè)囚徒都沒有暴露自己是理性的還是非理性的之前，理性囚徒選擇不坦白的概率為1-a，選擇坦白的概率為a。若滿足：

a*(8q-20)+(1-a)*(-12)≥a*(17q-22)+(1-a)*(8q-13)則 q≤（a+1）/(8+a)。

令a=(a+1)/(8+a)，則a=0.14。

所以，當(dāng)一名理性囚徒認(rèn)為同伙屬于非理性的概率q≥0.14時(shí)，他將在第一階段選擇不坦白，在第二階段選擇坦白。重復(fù)三次的博弈均衡如表4。

當(dāng)博弈重復(fù)4次的情況如下：

在t=1階段，類似于前面的討論，囚徒1和囚徒2都將選擇D，那么他們都沒有暴露自己是理性的還是非理性的，那么在t=2，3，4階段的博弈和前面討論的3次重復(fù)博弈的情況是一致的。

∴p， q≥0.14時(shí)，重復(fù)4次的博弈的均衡，如表5。

當(dāng)博弈重復(fù)n(T=n)次的情況：

類似的，如果p、q≥0.14，理性囚徒將t=1到T-1階段選擇D，在t=T時(shí)階段選擇C，非理性囚徒將自始至終選擇D。

如果這個(gè)博弈是無限期的，那么兩個(gè)囚徒都將永遠(yuǎn)選擇D，當(dāng)然對于囚徒博弈來說不可能無限期的進(jìn)行。

結(jié)論

在現(xiàn)實(shí)生活中也存在有多種沖突問題的模擬，如核裁軍、工資談判、傳染病預(yù)防、企業(yè)廣告投入等，特別是經(jīng)濟(jì)活動(dòng)中，參加對策的各方利益并不是完全截然相反，而是由某種共同的利益聯(lián)結(jié)在一起，形成既有對抗又有合作的復(fù)雜局面。比如兩家公司組成的卡特爾，在短期內(nèi)，他們就不會(huì)采取欺詐行為，而會(huì)共同規(guī)定一個(gè)價(jià)格，為爭奪市場的份額此時(shí)博弈的雙方只要他們相信今后還需要合作就一定會(huì)在第一次博弈的基礎(chǔ)上達(dá)成新的協(xié)議，結(jié)成行業(yè)聯(lián)盟。但它們就有可能定高價(jià)，使整個(gè)行業(yè)利潤最大，此時(shí)由于行業(yè)的高利潤和高發(fā)展前景，必然會(huì)不斷出現(xiàn)新產(chǎn)品，必然會(huì)有新的生產(chǎn)者進(jìn)入市場。由于聯(lián)盟內(nèi)部成員之間總是互不信任，暗中互相欺騙，就導(dǎo)致聯(lián)盟的短命使得該博弈過程不可能無限期的重復(fù)進(jìn)行下去。由于政府的介入，如反不正當(dāng)競爭和欺詐行為等，使得博弈的雙方又重新開始下一輪的博弈。

對一次性囚徒困境博弈來說，無論對手的行動(dòng)可能是什么，最佳策略是簡單地背叛；但是在重復(fù)的囚徒困境博弈中，博弈被反復(fù)地進(jìn)行，參與者最佳策略依賴于對手可能的策略，和他們怎樣對背叛和合作作出反應(yīng)。因而每個(gè)參與者都有機(jī)會(huì)去“懲罰”另一個(gè)參與者前一回合的不合作行為。這時(shí)，合作可能會(huì)作為均衡的結(jié)果出現(xiàn)。欺騙的動(dòng)機(jī)這時(shí)可能被受到懲罰的威脅所克服，從而可能導(dǎo)向一個(gè)較好的、合作的結(jié)果。作為反復(fù)接近無限的數(shù)量，納什均衡趨向于帕累托最優(yōu)。

參考文獻(xiàn)：

1.張維迎.博弈論與信息經(jīng)濟(jì)學(xué)[M].上海人民出版社，1996

2.高鴻楨.管理運(yùn)籌學(xué)[M].江西人民出版社，1997

3.胡運(yùn)權(quán)，郭耀煌.運(yùn)籌學(xué)教程[M].清華大學(xué)出版社，1998