基于信念變化的蜈蚣博弈悖論解悖探析

2016-09-14 08:36:51張峰趙緒濤

深圳大學(xué)學(xué)報(人文社會科學(xué)版) 2016年2期

關(guān)鍵詞：局中人蜈蚣歸納法

張峰，趙緒濤

（1.北京理工大學(xué)，北京 100081；2.中國人民大學(xué)，北京 100872）

基于信念變化的蜈蚣博弈悖論解悖探析

張峰1，趙緒濤2

（1.北京理工大學(xué)，北京 100081；2.中國人民大學(xué)，北京 100872）

逆推歸納法是研究完美信息動態(tài)博弈的常用方法，通過完全歸納得到必然結(jié)論，但用于分析蜈蚣博弈時理論預(yù)測與人們的實際博弈行為發(fā)生偏離，導(dǎo)致悖論。蜈蚣博弈的結(jié)構(gòu)精致而復(fù)雜，局中人對博弈收益情況的權(quán)衡以及局中人試圖在非合作的博弈機制中進行合作的主觀傾向，影響了局中人決策時的信念變化?，F(xiàn)實中的主體并不具有絕對理性，伴隨信念變化的主觀感受是主體相信自己的決策合理的決定性因素。一種新的解悖思路是考察局中人信念變化并將主觀感受計入收益，進而分析和預(yù)測博弈的結(jié)果。

逆推歸納法；蜈蚣博弈；悖論；信念

逆推歸納法是博弈論及博弈邏輯研究中的一種常用的方法，由策梅洛（E.Zermelo）在討論象棋博弈問題時首先使用，后經(jīng)澤爾騰（R.Selten）完善及推廣。逆推歸納法主要用于求解完全且完美信息動態(tài)博弈。完全且完美信息動態(tài)博弈的特點是，兩個或多個局中人輪流博弈，局中人完全了解全部局中人任何決策可能導(dǎo)致的收益情況，并且局中人在進行每一次決策時完全知道之前階段中自己和對手的策略。逆推歸納法從動態(tài)博弈的最后一個階段開始分析，向后推理、逐步倒推，直到博弈開始階段局中人的決策。逆推歸納法是完全歸納推理，結(jié)論是必然的。然而這種邏輯嚴(yán)密的推理方法得到的預(yù)測或結(jié)果與現(xiàn)實中的博弈行為往往不一致，這就是“逆推歸納法悖論”的基本內(nèi)涵。

逆推歸納法悖論的典型案例有連鎖店悖論，有限重復(fù)囚徒困境、蜈蚣博弈悖論等。真正引起人們對逆推歸納法悖論極大關(guān)注的是羅森塔爾（R. Rosenthal）首先研究的蜈蚣博弈悖論[1]。逆推歸納法悖論是一種合理行為悖論，體現(xiàn)的是博弈論推理與人們實際行動的矛盾，這種矛盾無疑對博弈理論的合理性提出了挑戰(zhàn)。

一、蜈蚣博弈的逆推歸納法分析及悖論

蜈蚣博弈悖論屬于典型的逆推歸納法悖論，運用逆推歸納法分析博弈所得到的結(jié)果與人們的直覺不一致，并且與實驗及現(xiàn)實博弈結(jié)果均發(fā)生了偏離[2]。

圖1　蜈蚣博弈的原始模型

羅森塔爾在1981年的文獻[3]中給出了3個完美信息動態(tài)博弈的模型，其中之一便是蜈蚣博弈的原始模型，如圖1所示；后來賓默（K.Binmore）進行了擴展，研究了有100個博弈階段的情況，他將這種博弈形象地稱為“蜈蚣”博弈[4]。

蜈蚣博弈的原始模型是一個10階段的完美信息2人動態(tài)博弈，兩個局中人輪流決策，并且都知道博弈結(jié)構(gòu)的信息，前一輪的決策可以在之后階段觀察到。局中人A、B在博弈中的決策為“獲取”或者“放棄”收益，本例中收益為錢。博弈由A開始，如果A選擇獲取，博弈結(jié)束，A、B都得到0元。如果A選擇放棄，決策權(quán)就交到B手里。如果B選擇獲取，則博弈結(jié)束，A交出1元（收益為-1），B得到3元，等等，最后一個階段，無論B選擇放棄和獲得博弈都會結(jié)束，如果B選擇獲得，A得到7元，B得到11元；選擇放棄，A得到10元，B得到10元。

A、B會如何決策？運用逆推歸納法進行推理，在理性人假設(shè)的前提下，顯然B在最后階段會選擇獲得，他得到11元。但是要到達這個階段，需要A在第9階段選擇放棄。A在第9階段會怎么決策？A會選擇獲取。因為如果A不獲取，進入第10階段由B決策，B肯定會選擇對自己有利的決策即“獲取”，這樣的結(jié)果是A的收益只有7元，而如果A選擇獲取的收益是8元，因此A在第9階段自然會選擇獲取。同樣道理，在博弈的每個階段，有決策權(quán)的一方都會為了防止下一個階段對方作出不利于自己的選擇而結(jié)束博弈。用逆推歸納法的結(jié)論就是，這個博弈不可能進行，必然會在第1階段就結(jié)束。也就是A先決策，選擇獲取，得到0元，B得到0元。B并沒有作出決策。

然而，只要渡過第兩個階段，無論如何A得到的收益都會比第1階段結(jié)束博弈獲得的收益多。按照逆推歸納法的預(yù)測，A將無視第1階段之后可能得到的更大收益而直接結(jié)束博弈，雙方取得0收益。但是不論在直覺上，還是在實驗或現(xiàn)實中的這種博弈，A大都不會立刻結(jié)束博弈，這與運用逆推歸納法分析預(yù)測的第1階段結(jié)束博弈是不一致的[5]，嚴(yán)密的理論預(yù)測與實際情況不符，這就是蜈蚣博弈悖論。通過分析可知，蜈蚣博弈的特點是：2人（2個個體或2個集體，如伯恩斯坦（G.Bornstein）的6階段蜈蚣博弈[6]中即為2個集體）完美信息動態(tài)博弈；局中人可選策略相同；博弈各階段收益按一定規(guī)律排列；運用逆推歸納法分析得到的結(jié)果是第1階段博弈結(jié)束。

蜈蚣博弈收益的主要特點是：蜈蚣博弈的每兩個階段上，當(dāng)前的階段有決策權(quán)局中人在當(dāng)前階段上的收益大于等于下一階段收益，而對手的收益小于等于下一階段的收益。如圖2所示：

圖2　蜈蚣博弈原始模型的單一階段分析

框圖I中，在A有決策權(quán)的第1階段，局中人收益為：A收益0，B收益0；下一階段A收益-1，B收益3。顯然，當(dāng)前階段有決策權(quán)的局中人（局中人的A）收益與下一階段的收益關(guān)系有：0>-1，對手（局中人B）兩個階段的收益關(guān)系有：0<3；框圖II中，當(dāng)前階段有決策權(quán)的局中人（局中人的B）收益與下一階段的收益關(guān)系有：3>2，對手（局中人A）兩個階段的收益關(guān)系有：-1<2；框圖III、IV中有類似關(guān)系。

這樣，顯然在某一個階段上，按照逆推歸納法推理，有決策權(quán)的局中人會選擇拿走收益。而著眼于整個博弈，雖然之后階段的收益可能遠(yuǎn)遠(yuǎn)大于第1階段。這恰是蜈蚣博弈收益規(guī)律的巧妙之處，將每一個階段的關(guān)系糾纏起來，從而增加了博弈理性分析的復(fù)雜程度。當(dāng)局中人面對蜈蚣博弈的時候，很可能無法將整個博弈機制分析透徹，博弈的復(fù)雜程度大大復(fù)雜化了局中人以對決策的分析，從而使得局中人在短時間內(nèi)無法得到合理的決策，或者主觀上不想進行如此復(fù)雜的分析而僅僅作出能夠滿足當(dāng)前意愿的決策。可見，之前階段的高收益更多的只是假象，在此之間尚有許多無法逾越的決策階段，理性人假設(shè)確保了在每一個決策階段上局中人都會拿走收益使博弈結(jié)束。

A第1階段的決策決定了整個博弈。如果A在第1階段結(jié)束博弈，那么B沒有機會進行決策。按照逆推歸納法進行分析，蜈蚣博弈必然在第1階段結(jié)束。這樣，博弈就轉(zhuǎn)化為單人決策問題，考察局中人A的決策如何作出，可以對為什么會出現(xiàn)蜈蚣博弈悖論找到可信的回答。

二、決策者的信念變化是蜈蚣博弈悖論的主要原因

蜈蚣博弈的逆推歸納法預(yù)測和現(xiàn)實不相符，其主要原因是由于局中人并不是完全理性人，博弈的收益信息和局中人身份為主的各種主觀信息會影響局中人做出決策時的信念，進而影響了局中人的決策內(nèi)容，造成實際博弈的結(jié)果與理論預(yù)測的結(jié)果發(fā)生偏離。主體做出任何一個決策，無論其對所接受和理解的信息進行了怎樣的處理，最終做出決策的時候，都可以歸結(jié)到這樣一種信念：由于這些原因，我將做出這種決策。決策是一個客觀的行為，扼要地說，主體的思維的結(jié)果通過神經(jīng)系統(tǒng)和軀體反映到客觀世界。因此，主體做出決策的最終原因，是主體具有與這種決策相應(yīng)的主觀信念或主觀的認(rèn)知狀態(tài)。

所謂的信念影響決策，其實是完善理性人假設(shè)研究進路的一種?，F(xiàn)實人畢竟不可能是完全理性人，支配其作出某種決策的不只是理性的分析，主觀信念的傾向有時候在決策影響因素中往往是決定性的。因為決策這個行為，畢竟是主觀權(quán)衡后的客觀結(jié)果。

考察蜈蚣博弈中局中人決策時的信念狀態(tài)，無論是何種原因?qū)е戮种腥俗龀鰶Q策，在蜈蚣博弈的每個階段，局中人有兩個決策：“放棄”和“獲取”，局中人選擇“放棄”時，一定是因為他認(rèn)為應(yīng)該選擇“放棄”（如果他徹底的執(zhí)行了他的決策計劃）。導(dǎo)致其產(chǎn)生這種信念的原因，包括利他主義、收益差距的不同、理性的分析、預(yù)期收益、信任的偏好、學(xué)習(xí)能力、對對手身份的考慮和權(quán)衡等。局中人在做出決策的時候，他有充分的理由來認(rèn)定所做出的決策，他具備了做出此種決策的信念。綜合所有的理由和原因，他原有的信念修正為此決策對應(yīng)的信念，這種信念進而影響了他的實際決策。

蜈蚣博弈局中人的信念變化過程可用下圖表示：

圖3　局中人在蜈蚣博弈中的信念變化

將視角關(guān)注于與主體參與博弈這個事件過程上，主體在參與博弈之前，有一個初始的信念狀態(tài)，這個狀態(tài)表示的是主體信念的一種平衡狀態(tài)，其內(nèi)容包括的是主體在過去所獲得和積累的普遍知識，以及主體在處理事件時的一般偏好和傾向。在接受了博弈的相關(guān)信息之后，信念狀態(tài)發(fā)生了相應(yīng)變化，到達在博弈初始時的信念狀態(tài)，主體對博弈相關(guān)信息的接受和理解通過權(quán)衡和思考掌握和了解了博弈局勢，并對接下來的博弈做出了決策或行為的整體計劃。在博弈的過程中，與對手發(fā)生互動，從而不斷地修正或更新自己的信念狀態(tài)，進而調(diào)整后續(xù)的決策或行為的計劃。

而在理性人假設(shè)和公共知識假設(shè)下，局中人具有完全的理性，參與博弈的過程可以用圖4表示：

圖4　具有完全理性的主體的博弈過程

對比兩種思考，顯然，如果不考慮主體信念的變化過程，主體參與博弈將變成一個靜態(tài)的毫無變化的決策過程，這個過程由逆推歸納法在邏輯上得到了唯一的確定的結(jié)果。

三、將主體的主觀感受計入收益的一般性框架

主體的個性差別或稱異質(zhì)性導(dǎo)致主體的認(rèn)知水平或認(rèn)知狀態(tài)是不同的，顯然無法確保特定的認(rèn)知分析對所有主體具有一致性。將主體的主觀感受計入收益的一般性框架，為蜈蚣博弈悖論提供了一種新的解悖思路。

目前，有些學(xué)者將主體的主觀感受在某種前提假設(shè)下折算為收益，計入蜈蚣博弈的總收益，從而建立模型分析和預(yù)測博弈結(jié)果。

羅森塔爾提出“主觀概率”（subjective probability）概念來分析蜈蚣博弈[4]。博弈中局中人1應(yīng)該達到某種對局中人2的策略選擇的主觀概率分布，如果選擇繼續(xù)博弈所帶來的預(yù)期收益超過其選擇結(jié)束博弈的固定收益，那么局中人1將選擇繼續(xù)博弈。主觀概率是一個與收益差別有關(guān)的概念，D為局中人當(dāng)前階段和下階段的收益的差別，兩個選擇中較好的那個的概率為min（1，0.5+0.4D），其中0.4為羅森塔爾為解釋模型所提出的一個系數(shù)。在最后一個節(jié)點上，局中人2選擇向下的概率為1，但是按照主觀概率的預(yù)測方法，他選擇向下的概率為0.9，選擇向右為0.1。在倒數(shù)第兩個節(jié)點上，局中人1選向右得到的收益為，向下收益為8，向下的概率為，向右的概率為。在倒數(shù)第三個節(jié)點，局中人2向下為收益為9，向右的收益為兩種情況，如果局中人2認(rèn)為他自己不會犯錯誤，那么收益為；如果他將錯誤決策的產(chǎn)生歸因于他自己的行為，那么他的收益為。但是無論是哪種情況，向右的主觀概率隨著博弈階段的倒推逐漸增長，在一個節(jié)點上增長為1。如圖5所示。

圖5　蜈蚣博弈的主觀概率模型

然而，使用這個模型分析麥克凱文的4階段蜈蚣博弈實驗數(shù)據(jù)[7]，所得到的概率與實驗得到的數(shù)據(jù)是不相符的，并且大致的規(guī)律和趨勢也是不同的?？梢娺@種主觀概率模型并不具有較強的解釋力，其中的系數(shù)0.4更像是為了分析的而提出的。

國內(nèi)學(xué)者饒育蕾等沿著麥克凱文的利他主義偏好解釋進一步研究，將異質(zhì)性利他偏好引入到博弈者的效應(yīng)函數(shù)中，構(gòu)建了基于心理效應(yīng)的隨機擾動的異質(zhì)性利他模型來擬合蜈蚣博弈實驗數(shù)據(jù)[8]，提出用表示在任意階段s上主體的心理效用。心理效應(yīng)反映了因為利他偏好所導(dǎo)致的不同策略選擇對主體效用的沖擊。這個模型中賦予了的意義是利他偏好的效應(yīng)，但這一項也可能具有其它含義，比如公平、信任、學(xué)習(xí)等行為動機。

一般的博弈分析認(rèn)為，特定博弈所給出的固定收益的差距是導(dǎo)致局中人作出決策的主要原因。這在理性人假設(shè)的前提下是毫無疑問的結(jié)論。但是，理性人假設(shè)并不能完全表述主體的博弈動機。在理性人假設(shè)的基礎(chǔ)上，增加主觀條件，上述的兩個建模思路所代表的增加某些主觀條件來分析博弈的方法，正是完善理性人假設(shè)的研究進路，但是并沒有明確的闡述和分析主體究竟為何做出了這樣一個決策，對逆推歸納法悖論產(chǎn)生的原因分析得不夠深刻和全面。另一個困難在于，將主觀感受計入收益進行決策時，應(yīng)該如何解釋主體決策的合理性？

理解“合理”或判定怎樣是合理行為的原則主要有兩種，一種是“最大期望效益原則”，另一種是“優(yōu)勢原則”。前者是指，主體的行為應(yīng)獲得主體能從該行為中所期望的最大效益。而優(yōu)勢原則的含義是，要評價一個行為R是合理的，需要考察兩個條件：（1）無論之后發(fā)生什么，對主體而言采取行為R的結(jié)果不壞于當(dāng)前能夠選擇的其他任何行為；（2）至少有一種可能得到的結(jié)果使主體采取行動R比當(dāng)前能選擇的其他行為的結(jié)果更好。

筆者認(rèn)為，作為將主觀感受計入收益的一般性框架，主體在博弈中的一個決策是否合理的評價標(biāo)準(zhǔn)應(yīng)當(dāng)結(jié)合上述兩種原則：無論此決策之后博弈的進展如何，當(dāng)前階段主體選擇的決策所能得到的期望效應(yīng)不壞于他認(rèn)為是可能的決策得到的期望效應(yīng)，那么這一決策就是理性的。為便于表述，稱之為“期望效益優(yōu)勢原則”。根據(jù)信念修正的AGM理論，局中人在參與博弈時的信念狀態(tài)包含具體的命題集合[9]。對于一個能夠參與并完成蜈蚣博弈的主體，在參與博弈之前具有平衡的信念狀態(tài)，其信念集包括理解蜈蚣博弈規(guī)則的語言能力；對蜈蚣博弈中的收益數(shù)值的對比、計算能力；基本的推理能力；自我偏好?！巴评砟芰Α迸c“自我偏好”的意義在于，局中人具有期望并能經(jīng)由推理或推測作出符合期望效益優(yōu)勢原則的決策。

局中人在作出決策的時候，他有足夠充分的理由來認(rèn)定所作出的決策滿足了他的意愿，他具備了作出此種決策的信念。由于蜈蚣博弈的結(jié)構(gòu)和收益以及局中人的自我偏好和對對手偏好的推測，他原有的信念修正為此決策對應(yīng)的信念。這種信念進而影響了他的實際決策。

信念修正的目的則是使每一個決策均符合期望效益優(yōu)勢原則，即做出合理的決策。

現(xiàn)實人是存在個體差異的，有著不同的心理情緒狀態(tài)、不同的習(xí)慣和偏好，研究單一個體的信念具體是如何修正的，不具有普遍意義，并且要做到定量研究極其困難。在蜈蚣博弈中，主體具體的心理變化和信念變化是無法確定的，唯一可以確定的就是，博弈的結(jié)構(gòu)對局中人造成了心理和信念的影響，使其對局勢有了了解和分析，并修正了自己的信念，作出他認(rèn)為合理的博弈計劃?？梢砸胍粋€參數(shù)表示各種因素導(dǎo)致的主體信念的修正作用所造成的可以折算為收益的影響。這樣，就可以不具體分析主體信念修正的過程，而重點考慮信念修正對博弈行為影響的結(jié)果。

這種分析思路可做如下表述：博弈的某個階段，局中人A、B收益為（n，m），A、B的信念改變對決策造成的影響折算為收益記為α，β，A的折合收益為n+α，在局中人A的信念對決策的影響結(jié)束要做出決策時，他有“選擇放棄”和“不選擇放棄”兩種信念，如果他認(rèn)為“必須選擇放棄”，則相當(dāng)于α=-∞，n+α將小于其后任何階段A的收益；如果A認(rèn)為“絕不選擇放棄”，則α=+∞，n+α將大于之后任何階段的收益。對于β可作出類似的分析。這樣，就可以把各種將主體主觀因素折算為收益的模型納入信念改變影響決策的這個假設(shè)中，只要考慮主觀因素最終使局中人在多大程度上認(rèn)為應(yīng)該“選擇Pass”即可確定α，β的范圍，并最終得出總的收益。這一思路中，需要對理性人假設(shè)做一些調(diào)整，主體在博弈中的一個決策是否合理的評價標(biāo)準(zhǔn)為：無論此決策之后博弈的進展如何，當(dāng)前階段主體選擇的決策所能得到的期望效應(yīng)不壞于他認(rèn)為是可能的決策得到的期望效應(yīng)，那么這一決策就是理性的。

將主觀感受計入收益是對蜈蚣博弈悖論的一種有效解釋，信念修正的思路為這種解釋提供了一個一般性的探討框架。這一框架的基礎(chǔ)是調(diào)整了的理性人假設(shè)，即期望效益優(yōu)勢原則；對博弈過程的分析應(yīng)采取動態(tài)的視角，以信念修正理論考察局中人在博弈不同階段的信念狀態(tài)及信念變化。

對于一個博弈，局中人博弈前、博弈開始、博弈中的信念狀態(tài)是動態(tài)變化的。而信念是構(gòu)成對理性理解的主要內(nèi)容。由于與博弈相關(guān)的信息持續(xù)的輸入主體的信念集中，主體對博弈局勢的分析和把握也是動態(tài)變化的。信念的改變事實上決定了博弈策略，解決蜈蚣博弈悖論的一個新思路是將導(dǎo)致信念變化的主觀感受折算為收益，這較為符合人們進行博弈的實際情況。

[1]Robert J.Aumann.On the Centipede Game[J].Games and Economic Behavior,1998，(23):97-105.

[2]謝識予.經(jīng)濟博弈論[M].上海:復(fù)旦大學(xué)出版社,2007.162-164.

[3]RobertW.Rosenthal.GamesofPerfectInformation, Predatory Pricing and the Chain-Store Paradox[J].Journal of Economic Theory,1981，(25):92-100.

[4]Ken Binmore.Game Theory and Social Contract[M].MIT Press，1993.20-29;230-134.

[5]張峰.逆推歸納法悖論探析[J].福建論壇(人文社會科學(xué)版)，2004，(12):78-81.

[6]GaryBornstein,TamarKugler,AnthonyZiegelmeyer. Individual and group Decisions in the centipede game:Are groups more“rational”players?[J].Journal of Experimental Social Psychology,2004,40(5):299-605.

[7]Richard D.McKelvey;Thomas R.Palfrey.An Experimental Study of the Centipede Game[J].Econometrica,1992，(60)4: 803-836.

[8]饒育蕾,張媛，彭疊峰.利他偏好是否導(dǎo)致博弈均衡的偏離——對蜈蚣博弈實驗的解釋[J].系統(tǒng)管理學(xué)報，2010，19 (6):666-683.

[9]Alchourron,C.E.,Gardenfors,P,Makinson,D.On the logic of theory change:partial meet contraction and revision functions [J].Journal of Symbolic Logic,1985,50(2):510-530.

【責(zé)任編輯：來小喬】

Centipede Game Paradox Solution Based on Belief Changes

ZHANG Feng1,ZHAO Xu-tao2
(1.Beijing Institute of Technology，Beijing 100081;2.Renmin University of China，Beijing 100872)

Backward induction is a common method to analyze the dynamic game with perfect information and draw inevitable conclusions with complete induction.However,when used to analyze the centipede game,the theoretical prediction deviates from the actual behaviors in real games,resulting in paradox.The centipede game has an intricate and delicate structure.Players deliberate the payoffs and intend to cooperate in the noncooperative game,which influence their belief change when making decisions.Subjects do not have absolute rationality in reality,the subjective sensation along with belief change determines whether or not the subject believes his decision is rational.According to the theory of belief revision,a general analytical framework can be constructed to describe causes of the decision making in the centipede game.

backward induction;centipede game;paradox;belief

B 0

1000－260X（2016）02-0059-05

2016-01-10

國家社會科學(xué)基金項目“大數(shù)據(jù)視域下科學(xué)方法創(chuàng)新研究”（15BZX040）

張峰，哲學(xué)博士，北京理工大學(xué)副教授，主要從事現(xiàn)代邏輯、科學(xué)方法論研究；趙緒濤，中國人民大學(xué)博士研究生，主要從事科學(xué)哲學(xué)研究。

基于信念變化的蜈蚣博弈悖論解悖探析

一、蜈蚣博弈的逆推歸納法分析及悖論

二、決策者的信念變化是蜈蚣博弈悖論的主要原因

三、將主體的主觀感受計入收益的一般性框架

一、蜈蚣博弈的逆推歸納法分析及悖論

二、決策者的信念變化是蜈蚣博弈悖論的主要原因

三、將主體的主觀感受計入收益的一般性框架