楊 懋 祁守成
中圖分類號:F224.32 文獻(xiàn)標(biāo)識碼:A
內(nèi)容摘要:本文從博弈論中的經(jīng)典案例“囚徒困境”入手,闡述了單次博弈與重復(fù)博弈中的囚徒困境現(xiàn)象。隨后論證了囚徒困境在單次博弈與重復(fù)博弈中的均衡區(qū)別,說明了在重復(fù)博弈條件下合作產(chǎn)生的可能性。
關(guān)鍵詞:囚徒困境 單次博弈 重復(fù)博弈 合作
囚徒困境是博弈論中非零和博弈的代表性的例子,反映個(gè)人最佳選擇并非團(tuán)體最佳選擇。雖然困境本身只屬模型性質(zhì),但現(xiàn)實(shí)中囚徒困境的例子屢見不鮮。
“囚徒困境”博弈是博弈論中的經(jīng)典案例。這個(gè)故事講的是兩個(gè)嫌疑犯A和B,作案后被警察抓住,被分別關(guān)在不同的審訊室。警察為了得到所需的口供,告訴每個(gè)人:如果兩人都不坦白,每人以妨礙公務(wù)罪各被判刑三年;如果兩人都坦白,各判刑十年;如果兩人中一人坦白、另一人不坦白,則坦白的人判刑兩年、不坦白的人判刑十二年。在這個(gè)博弈中,每個(gè)嫌疑犯都有兩種可選擇的戰(zhàn)略:坦白或不坦白。顯然每個(gè)囚徒的最優(yōu)戰(zhàn)略都是坦白。這是因?yàn)榧俣ˋ選擇坦白的話、B最好也選擇坦白,因B坦白判刑十年,而不坦白卻要判刑十二年;假定A選擇不坦白的話,B最好還是選擇坦白,因?yàn)锽坦白的話就判刑二年,而不坦白卻要被判刑三年。即是說,不管A坦白或不坦白,B的最優(yōu)選擇都是坦白。反過來,同樣地,不管B是坦白還是不坦白,A的最優(yōu)選擇也是坦白。結(jié)果,兩個(gè)人都選擇了坦白,各判刑十年。
單次博弈中的“囚徒困境”
經(jīng)典的“囚徒困境”博弈單次博弈,反映了集體理性和個(gè)人理性的矛盾。假定每個(gè)參與者(即“囚徒”)都是利己的,即都尋求最大自身利益,而不關(guān)心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為“嚴(yán)格劣勢”,理性的參與者絕不會(huì)選擇。另外,沒有任何其他力量干預(yù)個(gè)人決策,參與者可完全按照自己意愿選擇策略。
假設(shè)二人均為理性的個(gè)人,且只追求自己個(gè)人利益,二人到底應(yīng)該選擇哪一項(xiàng)策略,才能將自己個(gè)人的刑期縮至最短?由于隔絕監(jiān)禁,信息不明,二人并不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會(huì)反口。就個(gè)人的理性選擇而言,檢舉背叛對方所得刑期,總比不坦白要來得低。試設(shè)想困境中兩名理性囚徒會(huì)如何作出選擇:
若對方不坦白、不背叛會(huì)讓我獲釋,所以會(huì)選擇背叛;若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會(huì)選擇背叛。二人面對的情況一樣,所以二人的理性思考都會(huì)得出相同的結(jié)論-選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達(dá)到的納什均衡就是(坦白,坦白)。
這場博弈的納什均衡,顯然不是顧及團(tuán)體利益的帕累托最優(yōu)解決方案。以全體利益而言,如果兩個(gè)參與者都合作保持不坦白,兩人都只會(huì)被判刑3年,總體利益更高,結(jié)果也比兩人背叛對方、判刑2年的情況較佳。
假設(shè)一方是非理性的,另一方是理性的,即博弈雙方均不知道對方是不是理性的,非理性一方(理解為講義氣重信譽(yù)的人或擔(dān)心坦白會(huì)受到出獄后的報(bào)復(fù)),假設(shè)他只有一種策略,如果博弈是重復(fù)的,在第一階段,他必然選擇不坦白,在以后階段他將選擇同伙前一階段的選擇,即你不坦白我就不坦白,你坦白我就坦白。而另一方是理性的,他不管對方是否理性的,他都將選擇坦白。所以這次博弈的均衡是(不坦白,坦白)。
假設(shè)雙方均為非理性的,那么他們不管同伙如何選擇,他們都將選擇不坦白,則博弈的均衡是(不坦白,不坦白)。
重復(fù)博弈中的“囚徒困境”
重復(fù)博弈中的“囚徒困境”,是指相同的博弈者會(huì)不斷重逢,即不斷重復(fù)面對相似的囚徒困境的選擇條件。重復(fù)為博弈產(chǎn)生了新的動(dòng)力結(jié)構(gòu)。在重復(fù)性囚徒困境下,理性博弈者將考慮,如果我拒絕合作,不斷背叛,為了減少你的損失你也背叛。通過重復(fù),博弈者可按對手以往選擇而決定當(dāng)前選擇。背叛有可能遭到懲罰,合作有可能獲得收益。
(一)重復(fù)性囚徒困境博弈的理論研究
在“重復(fù)性囚徒困境”研究方面,最有成就者當(dāng)推羅伯特?艾克斯羅德、泰勒、哈丁等人。在其《合作的進(jìn)化》一書中,艾克斯羅德用實(shí)驗(yàn)證明,在重復(fù)博弈條件下,一次性囚徒困境下背叛的占優(yōu)策略將會(huì)為有條件合作的占優(yōu)策略所取代,換言之,在一次性囚徒困境中,選擇不合作策略的博弈者,在“重復(fù)性囚徒困境”中,將會(huì)采取合作策略以最大化個(gè)人利益、即“有條件合作”策略將是重復(fù)性囚徒困境下博弈者的占優(yōu)策略。
艾克斯羅德的結(jié)論,肯定了純由利己主義者組成的世界中,建立互惠合作關(guān)系的可能性。這一結(jié)論對于人類社會(huì)的意義在于,即使在缺少政府權(quán)威的人群中,人們合作或建立社會(huì)秩序也是可能的,因?yàn)楹献鞅旧矸袭?dāng)事人長遠(yuǎn)的、根本的利益。合作產(chǎn)生的條件就是:“人們重新相遇的機(jī)會(huì)足夠大”,即“合作是基于互利互惠的基礎(chǔ);而且未來的影響十分重要,它足以保證目前的互利互惠關(guān)系的穩(wěn)定”。
謝林仔細(xì)考察了博弈者相互之間的信息溝通程度與博弈結(jié)果的相應(yīng)關(guān)系,探討“協(xié)同博弈”(co-ordination games)形成的條件。謝林對非零和模型的研究,表明最大化個(gè)人功利的企圖并不像在零和博弈中那樣等于最小化人的功利。
(二)重復(fù)性囚徒困境模型研究
如果重復(fù)囚徒困境將被精確地重復(fù)N次,已知N是一個(gè)常數(shù),那么會(huì)產(chǎn)生另一個(gè)事實(shí):納什均衡就是每次都背叛。用歸納法證明:你也可以在最后的回合背叛,既然你的對手將沒有機(jī)會(huì)懲罰你。因此,你們都將在最后的回合背叛。這時(shí),你可以在倒數(shù)第二回合中背叛,既然最后一回?zé)o論你做什么,你的對手都將背叛。依此類推。為了達(dá)到合作的目的,對兩個(gè)參與者來說未來必須是不確定的。給出一個(gè)數(shù)據(jù)模型。假設(shè)囚徒困境的策略矩陣如表1。
我們假設(shè)囚徒的支付是階段博弈支付貼現(xiàn)之和,并假定貼現(xiàn)因子等于1。若雙方均為非理性的,那么他們每階段都會(huì)選擇不坦白。在不完全信息情況下,假設(shè)囚徒1有兩種類型,理性的和非理性的,概率分別為1-p和p,假設(shè)囚徒2也有兩種類型,理性的或非理性的,概率分別為1-q和q,為了敘述方便,用C代表“坦白(背叛)”(Confess),D代表“不坦白(合作)”(Deny)。
首先討論博弈只重復(fù)兩次的情況:在t=1階段,非理性一方會(huì)選擇D。在t=2階段,理性囚徒選擇C,而理性囚徒在t=1階段的選擇將是非理性囚徒在t=2階段的選擇,如表2。
如果選擇X=D,Y=D,
理性囚徒1的期望支付是:-3+[q*(-2)+(1-q)*(-10)]=8q-13;
理性囚徒2的期望支付是:-3+[p*(-2)+(1-p)*(-10)]=8p-13 ......
所以囚徒1和囚徒2對應(yīng)于X,Y的選擇期望支付矩陣為
8q-20≥17q-22且-12≥8q-13由此得出:p≤1/8且q≤2/9再推得:
當(dāng)q≤1/8時(shí),X=C;當(dāng)q≥2/9時(shí),X=C。
同理可得:當(dāng)p≤1/8時(shí),Y=C;當(dāng)p≥2/9時(shí),Y=C,如表3。
就是說如果理性囚徒1(2)認(rèn)為囚徒2(1)屬于非理性的概率不大于1/8,他將在第一階段選擇坦白,如果不小于2/9,則選擇不坦白。
其次討論理性囚徒認(rèn)為他的同伙屬于非理性的概率在1/8和2/9之間時(shí),他將如何選擇。
假設(shè)囚徒1和囚徒2都是風(fēng)險(xiǎn)中性者。
當(dāng)理性囚徒一方認(rèn)為另一方屬于非理性的概率p(q)≥a時(shí),他將在第一階段選擇不坦白。在每個(gè)囚徒都沒有暴露自己是理性的還是非理性的之前,理性囚徒選擇不坦白的概率為1-a,選擇坦白的概率為a。若滿足:
a*(8q-20)+(1-a)*(-12)≥a*(17q-22)+(1-a)*(8q-13)則 q≤(a+1)/(8+a)。
令a=(a+1)/(8+a),則a=0.14。
所以,當(dāng)一名理性囚徒認(rèn)為同伙屬于非理性的概率q≥0.14時(shí),他將在第一階段選擇不坦白,在第二階段選擇坦白。重復(fù)三次的博弈均衡如表4。
當(dāng)博弈重復(fù)4次的情況如下:
在t=1階段,類似于前面的討論,囚徒1和囚徒2都將選擇D,那么他們都沒有暴露自己是理性的還是非理性的,那么在t=2,3,4階段的博弈和前面討論的3次重復(fù)博弈的情況是一致的。
∴p, q≥0.14時(shí),重復(fù)4次的博弈的均衡,如表5。
當(dāng)博弈重復(fù)n(T=n)次的情況:
類似的,如果p、q≥0.14,理性囚徒將t=1到T-1階段選擇D,在t=T時(shí)階段選擇C,非理性囚徒將自始至終選擇D。
如果這個(gè)博弈是無限期的,那么兩個(gè)囚徒都將永遠(yuǎn)選擇D,當(dāng)然對于囚徒博弈來說不可能無限期的進(jìn)行。
結(jié)論
在現(xiàn)實(shí)生活中也存在有多種沖突問題的模擬,如核裁軍、工資談判、傳染病預(yù)防、企業(yè)廣告投入等,特別是經(jīng)濟(jì)活動(dòng)中,參加對策的各方利益并不是完全截然相反,而是由某種共同的利益聯(lián)結(jié)在一起,形成既有對抗又有合作的復(fù)雜局面。比如兩家公司組成的卡特爾,在短期內(nèi),他們就不會(huì)采取欺詐行為,而會(huì)共同規(guī)定一個(gè)價(jià)格,為爭奪市場的份額此時(shí)博弈的雙方只要他們相信今后還需要合作就一定會(huì)在第一次博弈的基礎(chǔ)上達(dá)成新的協(xié)議,結(jié)成行業(yè)聯(lián)盟。但它們就有可能定高價(jià),使整個(gè)行業(yè)利潤最大,此時(shí)由于行業(yè)的高利潤和高發(fā)展前景,必然會(huì)不斷出現(xiàn)新產(chǎn)品,必然會(huì)有新的生產(chǎn)者進(jìn)入市場。由于聯(lián)盟內(nèi)部成員之間總是互不信任,暗中互相欺騙,就導(dǎo)致聯(lián)盟的短命使得該博弈過程不可能無限期的重復(fù)進(jìn)行下去。由于政府的介入,如反不正當(dāng)競爭和欺詐行為等,使得博弈的雙方又重新開始下一輪的博弈。
對一次性囚徒困境博弈來說,無論對手的行動(dòng)可能是什么,最佳策略是簡單地背叛;但是在重復(fù)的囚徒困境博弈中,博弈被反復(fù)地進(jìn)行,參與者最佳策略依賴于對手可能的策略,和他們怎樣對背叛和合作作出反應(yīng)。因而每個(gè)參與者都有機(jī)會(huì)去“懲罰”另一個(gè)參與者前一回合的不合作行為。這時(shí),合作可能會(huì)作為均衡的結(jié)果出現(xiàn)。欺騙的動(dòng)機(jī)這時(shí)可能被受到懲罰的威脅所克服,從而可能導(dǎo)向一個(gè)較好的、合作的結(jié)果。作為反復(fù)接近無限的數(shù)量,納什均衡趨向于帕累托最優(yōu)。
參考文獻(xiàn):
1.張維迎.博弈論與信息經(jīng)濟(jì)學(xué)[M].上海人民出版社,1996
2.高鴻楨.管理運(yùn)籌學(xué)[M].江西人民出版社,1997
3.胡運(yùn)權(quán),郭耀煌.運(yùn)籌學(xué)教程[M].清華大學(xué)出版社,1998