從有限重復博弈實驗展示人的行為可導致多樣性結局

2016-05-30 11:13:35黃文棣

中國集體經濟 2016年21期

黃文棣

摘要：為了驗證博弈理論對人類行為的解釋度，文章以傳統(tǒng)的囚徒困局為基礎，改編出有限重復博弈的實驗，旨在找出理論對實際人的行為的可預測性。實驗以高中學生為局中人其中分為普通生組和領袖生組，毎組各自進行有限重復博弈游戲。結果顯示納什均衡未能充分達到，原因由于局中人的行為往往因為博弈的復習性、背景、教育、訓練、知識水平和經驗所影響，而未能作出最理性的決定。

關鍵詞：囚徒困局；有限重復博弈

一、引論

為了探討博弈理論用于現(xiàn)實的解釋力，筆者安排了一場游戲給不同學歷背景的學生博弈，本文詳細闡釋該博弈游戲的設計、理論基礎和結果分析。

游戲以經典的囚徒困境為基礎，筆者參考了Osborne（2004）雙寡頭壟斷的合作和背叛環(huán)境，設計出一個有限重覆囚徒困境博弈的環(huán)境供學生進行分組比賽，模擬商業(yè)競爭的情況，并且要求他們向盈利最大化的方向思考。在筆者的角度，就是驗證一下博弈結果是否符合書中所示。結果出人意料，并不完全符合書中所指，值得深思。

為了進行比較，筆者把這個實驗試做了兩次，一次給普通中學生玩，另一次給領袖生玩。領袖生和普通生的區(qū)別在于領袖生積極參與活動，有上進心，富團隊精神，學習態(tài)度績極，經常參與活動，在身心方面都得到均衡發(fā)展；而普通生組是隨機招募，沒有特定的組織背景，學習態(tài)度也欠積極，也不愛參加有益的活動。這個實驗的目的就是分別讓兩班不同學習經驗的人進行重覆囚徒困境的游戲，驗證一下現(xiàn)實會否依從理論所推論的進行。

下文將把這個實驗的方法和結果詳細闡釋及討論。

二、實驗設計

改編Osborne （2004）雙寡頭壟斷的合作和背叛環(huán)境，以下列出其盈利剖面。

局中人：A 組及B組學生

勝負規(guī)則：1. 使最終盈利比對手多；盈利不能為負數(shù)，否則不分勝負；

2. 盈利越多所獲得的分數(shù)越高（追求最大盈利）；

3. 能擊敗對手的將有額外分數(shù)。

行動：以高價或低價發(fā)售產品

重覆博弈回合次數(shù)：10個回合

納什均衡：原本根據(jù)書中所指，有限重覆博弈的納什均衡是任何回合都是（低價，低價），如果就這樣給學生玩，這就太消極了，所以這個實驗帶有附加的規(guī)則，就是最后盈利不能是負數(shù)（可以為0，經濟學上的均衡情況），否則當作輸，這個規(guī)則加強了現(xiàn)實性，因沒有商業(yè)希望盈利是負數(shù)的，而且提高學生思考的積極性，所以這個實驗的納什均衡跟書中有點不同，表1利用”冷酷觸發(fā)策略” 配合后退歸納法推出各回合的納什均衡。

因為在第10回合不合作不用受到下一回合懲罰，而且可以較高盈利取勝，所以第10回合的納什均衡是（低價，低價），由于累績盈利不能為負數(shù)否則當輸論，所以各局中人以第十回合累積盈利最少為0的結局進行后退歸納法，倒推出在第三回合中如果不合作便不論如何也獲得最少是0的盈利，這個推論引用自（施錫銓， 2000），說明在有限重復博弈中有可能導致在均衡結局中出現(xiàn)一次非均衡結局的博弈。以上策略也可防止對方在中途不合作導致自己輸?shù)簟?這個實驗理論上會將雙方的盈利偏離了最大化的方向。

三、結果及討論

實驗一結果：普通中學生為局中人。

實驗一的局中人是素質比較低的學生，兩組局中人的回報都是負回報，亦即是不能獲得任何分數(shù)，這令人非常氣餒，原先認為以游戲的方式引導他們競爭，以該科目的實際分數(shù)作為獎勵，應該可以誘發(fā)他們主動思考和作出正面的行為，就算他們不用任何數(shù)學辨法分析出最優(yōu)的行動，也不至于一開始B組就擺出一副完全不合作，而且必定是兩敗具傷的態(tài)勢，直接點說就是損人不利己，是這個博弈的最差結局。

有限重覆博弈，毎一回合所作出的行動是由歷史行動所影響，B組一開始就選擇以不合作的態(tài)度去玩，似乎是他們從一開始就不相信A組會合作，那為什么會這樣的呢？筆者沒有問學生們?yōu)楹文菢?，因為答案都未必是真。以筆者的推斷，那可能是他們根據(jù)A組的日常生活行為比較自私而導致B組不相信他們，又或者A組是成績比較好的一組，兩敗具傷對B組有利，因為這樣可以控制A組的盈利。無論如何，這個結局的出發(fā)點是自私和兩敗具傷，負面的態(tài)度令這個博弈在一開始便偏離了盈利最大化的目的，是自己不好也不想人家好的態(tài)度。

實驗二結果：領袖生為局中人。

然而，實驗二的局中人是素質比較高的學生，他們從小已接受紀律訓練，自我要求高，熱愛思考和重視道德，這樣的素質，能沖破第三回合不合作的預測，使雙方的盈利皆有機會在0之上。這個耐性一直持續(xù)至第六個回合，實在是令人安慰的。由此可以想像他們身處的道德世界是正面的，思考也較成熟，懂得以大局為重，以自己及別人的角度思考。但從另一個角度看他們，是訓練有素但未有戰(zhàn)爭經驗的士兵，他們的世界太美好，未曾經歷人性的險惡。

實驗二的轉變點（不均衡結局）是第七回合，C組出賣了D組，導致往后的博弈變?yōu)椋ǖ蛢r，低價）的納什均衡。顯然，C組比D組更有野心，C組的背叛行為非但沒有受罰，反而使他們勝出。從好的方面看，他們有商業(yè)頭腦；從壞的角度看，他們的不合作較遲使出，技術上未夠爐火純清。

游戲完結后，D組同聲表示自己品格比較好一點，原先他們的策略是在第八局中不合作的，結果別人比他們早了一步。通過這游戲，他們學會了防人之心不可無的處世之道，再問他們下次再玩這個游戲會如何，他們都說早一點不合作比較好。

四、結論

筆者的原意本是一個小型的博弈游戲，豈料普通中學生組的表現(xiàn)著實令人失望。于是筆者便決定跟其他人再玩一次，結果就由一個小博弈變成驗證博弈論的實驗。

兩個實驗的結果偏離了理論所預測的結果，可以分兩方面解釋：

1.局中人的思考復雜性。局中人只是高中生，沒有受過嚴格經濟學或數(shù)學訓

練，而且之前也沒接觸過這種游戲，不懂其思考方法，可見知識是重要的。

2.局中人生活的背景。亦即是局中人對對手的歷史行為的認識程度，實驗一

和實驗二兩班局中人身處的背景不同，行為偏好也不同，普通生就是因為對游戲態(tài)度不積極，結果兩敗具傷，極其負面，不能以理性為前題預測和解釋他們的行為。因此，透過教育改善人的積極性是需要的，這樣可減少一點社會成本。

這個實驗證明了良好的教育能塑造出正面的道德行為，至少他們的出發(fā)點是正面的。這個社會上需要設定多些機制保障正面的行為，否則當人學會了有限重覆博弈致勝策略后，懲罰好人將會成為主流，人們將只顧自己的利益而破壞了社會的整體盈利。然而，在現(xiàn)實商業(yè)中，也不一定需要以盈利較高勝出游戲，所以，正如施錫銓（2000）所指，在重復有限博弈中可通過談判協(xié)商來加強雙方合作的意欲，使雙方達致能使盈利最大化的納什均衡。

參考文獻：

[1]Osborne， M.J. Introduction to Game Theory. Ch.2.2.2.2004.

[2]施錫銓.博弈論[M].上海財經大學出版社，2000.

（作者單位：上海財經大學香港教學點）