• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      囚徒困境從單次博弈到重復(fù)博弈

      2009-02-10 03:26:26祁守成
      商業(yè)經(jīng)濟(jì)研究 2009年2期
      關(guān)鍵詞:囚徒困境合作

      楊 懋 祁守成

      中圖分類號:F224.32 文獻(xiàn)標(biāo)識碼:A

      內(nèi)容摘要:本文從博弈論中的經(jīng)典案例“囚徒困境”入手,闡述了單次博弈與重復(fù)博弈中的囚徒困境現(xiàn)象。隨后論證了囚徒困境在單次博弈與重復(fù)博弈中的均衡區(qū)別,說明了在重復(fù)博弈條件下合作產(chǎn)生的可能性。

      關(guān)鍵詞:囚徒困境 單次博弈 重復(fù)博弈 合作

      囚徒困境是博弈論中非零和博弈的代表性的例子,反映個(gè)人最佳選擇并非團(tuán)體最佳選擇。雖然困境本身只屬模型性質(zhì),但現(xiàn)實(shí)中囚徒困境的例子屢見不鮮。

      “囚徒困境”博弈是博弈論中的經(jīng)典案例。這個(gè)故事講的是兩個(gè)嫌疑犯A和B,作案后被警察抓住,被分別關(guān)在不同的審訊室。警察為了得到所需的口供,告訴每個(gè)人:如果兩人都不坦白,每人以妨礙公務(wù)罪各被判刑三年;如果兩人都坦白,各判刑十年;如果兩人中一人坦白、另一人不坦白,則坦白的人判刑兩年、不坦白的人判刑十二年。在這個(gè)博弈中,每個(gè)嫌疑犯都有兩種可選擇的戰(zhàn)略:坦白或不坦白。顯然每個(gè)囚徒的最優(yōu)戰(zhàn)略都是坦白。這是因?yàn)榧俣ˋ選擇坦白的話、B最好也選擇坦白,因B坦白判刑十年,而不坦白卻要判刑十二年;假定A選擇不坦白的話,B最好還是選擇坦白,因?yàn)锽坦白的話就判刑二年,而不坦白卻要被判刑三年。即是說,不管A坦白或不坦白,B的最優(yōu)選擇都是坦白。反過來,同樣地,不管B是坦白還是不坦白,A的最優(yōu)選擇也是坦白。結(jié)果,兩個(gè)人都選擇了坦白,各判刑十年。

      單次博弈中的“囚徒困境”

      經(jīng)典的“囚徒困境”博弈單次博弈,反映了集體理性和個(gè)人理性的矛盾。假定每個(gè)參與者(即“囚徒”)都是利己的,即都尋求最大自身利益,而不關(guān)心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為“嚴(yán)格劣勢”,理性的參與者絕不會(huì)選擇。另外,沒有任何其他力量干預(yù)個(gè)人決策,參與者可完全按照自己意愿選擇策略。

      假設(shè)二人均為理性的個(gè)人,且只追求自己個(gè)人利益,二人到底應(yīng)該選擇哪一項(xiàng)策略,才能將自己個(gè)人的刑期縮至最短?由于隔絕監(jiān)禁,信息不明,二人并不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會(huì)反口。就個(gè)人的理性選擇而言,檢舉背叛對方所得刑期,總比不坦白要來得低。試設(shè)想困境中兩名理性囚徒會(huì)如何作出選擇:

      若對方不坦白、不背叛會(huì)讓我獲釋,所以會(huì)選擇背叛;若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會(huì)選擇背叛。二人面對的情況一樣,所以二人的理性思考都會(huì)得出相同的結(jié)論-選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達(dá)到的納什均衡就是(坦白,坦白)。

      這場博弈的納什均衡,顯然不是顧及團(tuán)體利益的帕累托最優(yōu)解決方案。以全體利益而言,如果兩個(gè)參與者都合作保持不坦白,兩人都只會(huì)被判刑3年,總體利益更高,結(jié)果也比兩人背叛對方、判刑2年的情況較佳。

      假設(shè)一方是非理性的,另一方是理性的,即博弈雙方均不知道對方是不是理性的,非理性一方(理解為講義氣重信譽(yù)的人或擔(dān)心坦白會(huì)受到出獄后的報(bào)復(fù)),假設(shè)他只有一種策略,如果博弈是重復(fù)的,在第一階段,他必然選擇不坦白,在以后階段他將選擇同伙前一階段的選擇,即你不坦白我就不坦白,你坦白我就坦白。而另一方是理性的,他不管對方是否理性的,他都將選擇坦白。所以這次博弈的均衡是(不坦白,坦白)。

      假設(shè)雙方均為非理性的,那么他們不管同伙如何選擇,他們都將選擇不坦白,則博弈的均衡是(不坦白,不坦白)。

      重復(fù)博弈中的“囚徒困境”

      重復(fù)博弈中的“囚徒困境”,是指相同的博弈者會(huì)不斷重逢,即不斷重復(fù)面對相似的囚徒困境的選擇條件。重復(fù)為博弈產(chǎn)生了新的動(dòng)力結(jié)構(gòu)。在重復(fù)性囚徒困境下,理性博弈者將考慮,如果我拒絕合作,不斷背叛,為了減少你的損失你也背叛。通過重復(fù),博弈者可按對手以往選擇而決定當(dāng)前選擇。背叛有可能遭到懲罰,合作有可能獲得收益。

      (一)重復(fù)性囚徒困境博弈的理論研究

      在“重復(fù)性囚徒困境”研究方面,最有成就者當(dāng)推羅伯特?艾克斯羅德、泰勒、哈丁等人。在其《合作的進(jìn)化》一書中,艾克斯羅德用實(shí)驗(yàn)證明,在重復(fù)博弈條件下,一次性囚徒困境下背叛的占優(yōu)策略將會(huì)為有條件合作的占優(yōu)策略所取代,換言之,在一次性囚徒困境中,選擇不合作策略的博弈者,在“重復(fù)性囚徒困境”中,將會(huì)采取合作策略以最大化個(gè)人利益、即“有條件合作”策略將是重復(fù)性囚徒困境下博弈者的占優(yōu)策略。

      艾克斯羅德的結(jié)論,肯定了純由利己主義者組成的世界中,建立互惠合作關(guān)系的可能性。這一結(jié)論對于人類社會(huì)的意義在于,即使在缺少政府權(quán)威的人群中,人們合作或建立社會(huì)秩序也是可能的,因?yàn)楹献鞅旧矸袭?dāng)事人長遠(yuǎn)的、根本的利益。合作產(chǎn)生的條件就是:“人們重新相遇的機(jī)會(huì)足夠大”,即“合作是基于互利互惠的基礎(chǔ);而且未來的影響十分重要,它足以保證目前的互利互惠關(guān)系的穩(wěn)定”。

      謝林仔細(xì)考察了博弈者相互之間的信息溝通程度與博弈結(jié)果的相應(yīng)關(guān)系,探討“協(xié)同博弈”(co-ordination games)形成的條件。謝林對非零和模型的研究,表明最大化個(gè)人功利的企圖并不像在零和博弈中那樣等于最小化人的功利。

      (二)重復(fù)性囚徒困境模型研究

      如果重復(fù)囚徒困境將被精確地重復(fù)N次,已知N是一個(gè)常數(shù),那么會(huì)產(chǎn)生另一個(gè)事實(shí):納什均衡就是每次都背叛。用歸納法證明:你也可以在最后的回合背叛,既然你的對手將沒有機(jī)會(huì)懲罰你。因此,你們都將在最后的回合背叛。這時(shí),你可以在倒數(shù)第二回合中背叛,既然最后一回?zé)o論你做什么,你的對手都將背叛。依此類推。為了達(dá)到合作的目的,對兩個(gè)參與者來說未來必須是不確定的。給出一個(gè)數(shù)據(jù)模型。假設(shè)囚徒困境的策略矩陣如表1。

      我們假設(shè)囚徒的支付是階段博弈支付貼現(xiàn)之和,并假定貼現(xiàn)因子等于1。若雙方均為非理性的,那么他們每階段都會(huì)選擇不坦白。在不完全信息情況下,假設(shè)囚徒1有兩種類型,理性的和非理性的,概率分別為1-p和p,假設(shè)囚徒2也有兩種類型,理性的或非理性的,概率分別為1-q和q,為了敘述方便,用C代表“坦白(背叛)”(Confess),D代表“不坦白(合作)”(Deny)。

      首先討論博弈只重復(fù)兩次的情況:在t=1階段,非理性一方會(huì)選擇D。在t=2階段,理性囚徒選擇C,而理性囚徒在t=1階段的選擇將是非理性囚徒在t=2階段的選擇,如表2。

      如果選擇X=D,Y=D,

      理性囚徒1的期望支付是:-3+[q*(-2)+(1-q)*(-10)]=8q-13;

      理性囚徒2的期望支付是:-3+[p*(-2)+(1-p)*(-10)]=8p-13 ......

      所以囚徒1和囚徒2對應(yīng)于X,Y的選擇期望支付矩陣為

      8q-20≥17q-22且-12≥8q-13由此得出:p≤1/8且q≤2/9再推得:

      當(dāng)q≤1/8時(shí),X=C;當(dāng)q≥2/9時(shí),X=C。

      同理可得:當(dāng)p≤1/8時(shí),Y=C;當(dāng)p≥2/9時(shí),Y=C,如表3。

      就是說如果理性囚徒1(2)認(rèn)為囚徒2(1)屬于非理性的概率不大于1/8,他將在第一階段選擇坦白,如果不小于2/9,則選擇不坦白。

      其次討論理性囚徒認(rèn)為他的同伙屬于非理性的概率在1/8和2/9之間時(shí),他將如何選擇。

      假設(shè)囚徒1和囚徒2都是風(fēng)險(xiǎn)中性者。

      當(dāng)理性囚徒一方認(rèn)為另一方屬于非理性的概率p(q)≥a時(shí),他將在第一階段選擇不坦白。在每個(gè)囚徒都沒有暴露自己是理性的還是非理性的之前,理性囚徒選擇不坦白的概率為1-a,選擇坦白的概率為a。若滿足:

      a*(8q-20)+(1-a)*(-12)≥a*(17q-22)+(1-a)*(8q-13)則 q≤(a+1)/(8+a)。

      令a=(a+1)/(8+a),則a=0.14。

      所以,當(dāng)一名理性囚徒認(rèn)為同伙屬于非理性的概率q≥0.14時(shí),他將在第一階段選擇不坦白,在第二階段選擇坦白。重復(fù)三次的博弈均衡如表4。

      當(dāng)博弈重復(fù)4次的情況如下:

      在t=1階段,類似于前面的討論,囚徒1和囚徒2都將選擇D,那么他們都沒有暴露自己是理性的還是非理性的,那么在t=2,3,4階段的博弈和前面討論的3次重復(fù)博弈的情況是一致的。

      ∴p, q≥0.14時(shí),重復(fù)4次的博弈的均衡,如表5。

      當(dāng)博弈重復(fù)n(T=n)次的情況:

      類似的,如果p、q≥0.14,理性囚徒將t=1到T-1階段選擇D,在t=T時(shí)階段選擇C,非理性囚徒將自始至終選擇D。

      如果這個(gè)博弈是無限期的,那么兩個(gè)囚徒都將永遠(yuǎn)選擇D,當(dāng)然對于囚徒博弈來說不可能無限期的進(jìn)行。

      結(jié)論

      在現(xiàn)實(shí)生活中也存在有多種沖突問題的模擬,如核裁軍、工資談判、傳染病預(yù)防、企業(yè)廣告投入等,特別是經(jīng)濟(jì)活動(dòng)中,參加對策的各方利益并不是完全截然相反,而是由某種共同的利益聯(lián)結(jié)在一起,形成既有對抗又有合作的復(fù)雜局面。比如兩家公司組成的卡特爾,在短期內(nèi),他們就不會(huì)采取欺詐行為,而會(huì)共同規(guī)定一個(gè)價(jià)格,為爭奪市場的份額此時(shí)博弈的雙方只要他們相信今后還需要合作就一定會(huì)在第一次博弈的基礎(chǔ)上達(dá)成新的協(xié)議,結(jié)成行業(yè)聯(lián)盟。但它們就有可能定高價(jià),使整個(gè)行業(yè)利潤最大,此時(shí)由于行業(yè)的高利潤和高發(fā)展前景,必然會(huì)不斷出現(xiàn)新產(chǎn)品,必然會(huì)有新的生產(chǎn)者進(jìn)入市場。由于聯(lián)盟內(nèi)部成員之間總是互不信任,暗中互相欺騙,就導(dǎo)致聯(lián)盟的短命使得該博弈過程不可能無限期的重復(fù)進(jìn)行下去。由于政府的介入,如反不正當(dāng)競爭和欺詐行為等,使得博弈的雙方又重新開始下一輪的博弈。

      對一次性囚徒困境博弈來說,無論對手的行動(dòng)可能是什么,最佳策略是簡單地背叛;但是在重復(fù)的囚徒困境博弈中,博弈被反復(fù)地進(jìn)行,參與者最佳策略依賴于對手可能的策略,和他們怎樣對背叛和合作作出反應(yīng)。因而每個(gè)參與者都有機(jī)會(huì)去“懲罰”另一個(gè)參與者前一回合的不合作行為。這時(shí),合作可能會(huì)作為均衡的結(jié)果出現(xiàn)。欺騙的動(dòng)機(jī)這時(shí)可能被受到懲罰的威脅所克服,從而可能導(dǎo)向一個(gè)較好的、合作的結(jié)果。作為反復(fù)接近無限的數(shù)量,納什均衡趨向于帕累托最優(yōu)。

      參考文獻(xiàn):

      1.張維迎.博弈論與信息經(jīng)濟(jì)學(xué)[M].上海人民出版社,1996

      2.高鴻楨.管理運(yùn)籌學(xué)[M].江西人民出版社,1997

      3.胡運(yùn)權(quán),郭耀煌.運(yùn)籌學(xué)教程[M].清華大學(xué)出版社,1998

      猜你喜歡
      囚徒困境合作
      “囚徒困境”在賄賂犯罪審訊中的運(yùn)用
      關(guān)于公共品博弈的文獻(xiàn)綜述
      商(2016年33期)2016-11-24 20:12:41
      例談自主識字的有效方式
      高職圖書館與系部合作共建文獻(xiàn)資源新模式
      人間(2016年28期)2016-11-10 23:25:06
      初中體育多樣化教學(xué)改革的實(shí)踐探索
      中國社保雙軌制問題
      商(2016年30期)2016-11-09 09:36:03
      校地合作促進(jìn)居民健身的探析
      大學(xué)英語創(chuàng)造性學(xué)習(xí)共同體模式建構(gòu)案例研究
      重復(fù)博弈現(xiàn)象分析
      科技視界(2016年24期)2016-10-11 13:27:15
      中小企業(yè)激勵(lì)機(jī)制優(yōu)化研究
      中國市場(2016年29期)2016-07-19 05:00:49
      巢湖市| 大邑县| 赤峰市| 麻城市| 兴业县| 宜宾市| 永兴县| 越西县| 荔波县| 突泉县| 濉溪县| 昌图县| 宝应县| 香河县| 扎鲁特旗| 黄大仙区| 托里县| 牡丹江市| 盐津县| 常山县| 饶平县| 南充市| 福贡县| 合阳县| 清原| 中超| 房产| 绍兴市| 浦北县| 阳朔县| 武威市| 哈巴河县| 华蓥市| 清苑县| 天镇县| 克什克腾旗| 兴城市| 宜兰县| 临湘市| 蛟河市| 扶绥县|