“重復(fù)博弈”與股改思路的調(diào)整

2005-04-29 23:03:34黃海懿

新財經(jīng) 2005年12期

黃海懿

阿克謝羅德總結(jié)了那些在“重復(fù)博弈”中能夠獲得較好博弈效果的策略具有五大特點：“善良的”、“可激怒的”、“寬容的”、“累積的”、“清晰的”。股改是一場參與者眾多、促使我國金融體系深度變革的博弈，在股改中各方參與者獲得“共贏”而非“共損”的博弈結(jié)果是股改要實現(xiàn)的重要目標(biāo)

迄今為止，“重復(fù)博弈”最具有說服力的理論來自著名的“阿克謝羅德競賽”。這一競賽以“囚徒困境”為基本博弈單元，經(jīng)過幾百次的重復(fù)試驗總結(jié)出成功的重復(fù)博弈應(yīng)具備的幾個特點。

阿克謝羅德競賽

阿克謝羅德是一名政治科學(xué)家，在1984年的著作中他描述了借助數(shù)學(xué)和計算機化的方法所做的兩次重復(fù)博弈試驗——“阿克謝羅德競賽”。

“阿克謝羅德競賽”的規(guī)則是這樣的：參賽者以電腦程序的方式在賽前提交一個博弈策略，這一策略將被固定下來而在競賽過程中不能加以改動。策略既可以為復(fù)雜策略，也可以為非完美策略（如“兩次不合作就報復(fù)”）。競賽為循環(huán)賽，重復(fù)200次“囚徒困境博弈”，前次博弈的結(jié)果將被記錄下來從而對后次博弈產(chǎn)生影響。競賽中由電腦將參賽各策略予以匹配，運行結(jié)束后累計得分最高者為勝。

首次“阿克謝羅德競賽”共有15個策略參賽，其中包括阿克謝羅德自己的一個隨機程序（以50%的概率選取合作或不合作）。循環(huán)賽最后的勝利者為加拿大學(xué)者安那托爾·若珀特提交的“針鋒相對策略”。該策略的特點是：第一次對局采用合作的策略，以后每一步都跟隨對方上一步的策略，你上次若合作，我這次就合作，你上次若不合作，我這次就不合作。

競賽中排名前三位的策略有三個共同特點：一、“善良的”，即采用“合作”的博弈策略，從不首先背叛；二、對方出現(xiàn)背叛行為就一定要報復(fù)，不能總是合作，即“可激怒的”；三、不會因?qū)Ψ降谋撑讯M行無休止的報復(fù)，如果對方以后改為合作，則也進行合作，即“寬容的”。

為了驗證這些特點，阿克謝羅德將第一次的競賽結(jié)果公開發(fā)表后，邀請更多的人參加第二輪競賽。第二輪共有63個策略參賽，其中仍然包括阿克謝羅德自己的那個隨機程序。第二輪競賽的獲勝者仍然是“針鋒相對策略”，同時競賽中還體現(xiàn)出這樣的特點：

一、“善良的”：排在前15位的策略中，14個策略都是“善良”的，只有1個不善良的“哈靈頓程序”（策略為首先合作，當(dāng)發(fā)現(xiàn)對方一直在合作，它就突然來個不合作，如果對方立刻報復(fù)它，它就恢復(fù)合作，如果對方仍然合作，它就繼續(xù)背叛）列入其中。排在最后15位的策略中，只有1個“總選擇合作的程序”是“善良”的；二、“可激怒的”、“寬容的”的特點仍然存在；三、“累積的”：“針鋒相對策略”在循環(huán)賽博弈中取勝的原因是它能夠通過合作行為獲得最高的累計分?jǐn)?shù)，它得高分的情況較多而得低分的情況較少。但是“針鋒相對策略”從來不是單次試驗的最高分（其在對局中的得分從來不可能超過對方，最多打個平手），所以，如果遇到淘汰制的循環(huán)賽，它會很快被其他策略所淘汰。四、得勝的策略都是“清晰的”，即能讓對方在三五步對局內(nèi)辨識出來。如“針鋒相對策略”很快就讓對手很快發(fā)現(xiàn)了規(guī)律，從而不得不采取“合作”的態(tài)度。而那些過于復(fù)雜的策略則由于需要實踐的次數(shù)過多、“學(xué)習(xí)”時間過長，博弈的效果并不好。

通過這兩次競賽，阿克謝羅德總結(jié)了那些在“重復(fù)博弈”中能夠獲得較好博弈效果的策略具有五大特點：“善良的”、“可激怒的”、“寬容的”、“累積的”、“清晰的”。

股改思路的調(diào)整

股改是一場參與者眾多、促使我國金融體系深度變革的博弈，在股改中各方參與者獲得“共贏”而非“共損”的博弈結(jié)果是股改要實現(xiàn)的重要目標(biāo)。正如我們以前所分析的，財政資金積極介入但市場仍舊低迷、流通股股東持續(xù)售股，實際上這就是股改在得到“共損”結(jié)果的市場體現(xiàn)。

那么，我們的股改思路是否該做一些調(diào)整？如何實現(xiàn)“共贏”的博弈目標(biāo)？當(dāng)運用“重復(fù)博弈”理論進行分析時，可以得到這樣幾點啟示：

對價方案必須是“善良的”

對價方案是股改博弈的起點，它由非流通股股東先行制定，再與流通股股東進行溝通。由于這一過程存在著時間上的先后關(guān)系，所以，與“囚徒困境博弈”略有所不同，流通股股東是在了解了非流通股股東的博弈策略后再選擇自己的博弈策略，如果非流通股股東選擇了背叛，流通股股東就將直接選擇背叛。也就是說，非流通股股東的博弈策略將直接決定了博弈的方向。

在目前的股改實踐中，非流通股股東普遍利用方案的絕對制定權(quán)推出“背叛”的對價方案；在隨后的表決過程中，部分基金管理人為了“回扣”而再次“背叛”普通流通股股東，于是流通股股東在表決階段難以“背叛”地將方案否決；于是，在“股改后的股價走勢”的第三階段中，由于不存在限制條件，“被背叛的”普通流通股股東和基金管理人為求自保，紛紛利用售股的時間優(yōu)勢在二級市場上“背叛”非流通股股東，從而產(chǎn)生市場的持續(xù)下跌。如果究其根源的話，是非流通股股東在博弈起點上的“背叛”導(dǎo)致了整體博弈的“背叛”走向。

如何改變這一現(xiàn)狀，使博弈的方向回到“合作”的軌跡上？借鑒重復(fù)博弈試驗，博弈整體效果最好的15個策略中14個是“善良的”（唯一的不善良哈靈頓程序在“千次進化試驗”中被淘汰）。也就是說，要獲得“共贏”的博弈效果，需要在股改實踐中倡導(dǎo)博弈者采用“合作”策略，對首先采用“背叛”策略的博弈者進行限制和打擊。具體到股改的初始階段，是非流通股股東制定的對價方案必須是“善良的”。

“善良的”的對價方案應(yīng)具備這樣三個標(biāo)準(zhǔn)：一、股改的目的是解決股權(quán)分置的歷史遺留問題，因此，方案首先需要實現(xiàn)全流通目標(biāo)；二、對價方案應(yīng)達(dá)到“共贏”的博弈結(jié)果。股改后如股價穩(wěn)中有升，全體博弈者將受益，即“共贏”；若股改后股價大跌，各方博弈者均受損，為“共損”。所以，這一對價方案應(yīng)該具有穩(wěn)定股價的安排；三、對價方案還應(yīng)體現(xiàn)“合作”的博弈策略，雙方得到的利益均等；四、股改是非流通股股東因打破上市承諾而進行的補償，因此，應(yīng)以上市發(fā)行價作為計算基準(zhǔn)，有增發(fā)和配股的需要一并計算成本。因為這正是非流通股股東與流通股股東兩個群體之間進行交易的真實成本。至于其后數(shù)年股價上的跌幅，是流通股股東內(nèi)部交易造成的，不應(yīng)該成為非流通股股東減少支付的理由。同樣的，那些以往損失了現(xiàn)在又尚未持股的流通股股東如果希望得到補償，它們買股和增持就可以了。

博弈者的態(tài)度必須是“可激怒的”

由“重復(fù)博弈”試驗結(jié)果可以看到，只有博弈者對“背叛”行為“可激怒”，才會使背叛者畏懼“共損”而不得不“合作”。相比之下，那個“總選擇合作的”的最善良策略其博弈效果并不好。一個任何情況下都會“合作”的博弈者，又有誰會跟它“合作”呢？

在我們股改實踐中，卻存在著這樣的理解，以為投贊成票就是完全的“合作”，這是完全錯誤的。當(dāng)我們一味地姑息那些“背叛”的方案，我們就是在成為那個最善良的策略，就是在走向了“共損”的博弈結(jié)果。

所以，我們有必要調(diào)整思路，在股改中鼓勵博弈者采取“可激怒的”博弈策略。

股改政策的走向必須是“清晰的”

“重復(fù)博弈”試驗證明了排名居前的策略是“清晰的”，能夠很快讓博弈對方發(fā)現(xiàn)規(guī)律，減少試錯和學(xué)習(xí)的時間，這樣方能獲得較好的博弈效果。

反觀股改實踐，政策走向上較為模糊，對價方案的制定缺少標(biāo)準(zhǔn)，股改審核的權(quán)力交到了深滬兩處交易所，監(jiān)管也沒能及時跟上。由于缺少相對統(tǒng)一的指導(dǎo)性思路，股改雖歷經(jīng)數(shù)月，但市場仍對各操作思路爭執(zhí)不休、意見分歧。如果這樣繼續(xù)“試錯”下去，又如何能獲得好的整體博弈效果呢？

追求“累積”的博弈效果

重復(fù)博弈試驗中反映了這樣的規(guī)律：“針鋒相對策略”不會在任一次單次對局中獲得最高分，最多只是打個平手，但是其整體的累計效果卻是最優(yōu)的。

同樣，我們的股改追求的是協(xié)調(diào)各方利益，平穩(wěn)地解決股權(quán)分置的歷史問題。所以，股改的重點不是幾十家、二三百家的局部博弈效果，更不是某些公司某些股東的個別利益，而是千次重復(fù)博弈的“累積”效果。

對博弈速度的再思考

目前股改中存在著一些未能及時解決的問題，包括如何制定合理的對價方案，倡導(dǎo)怎樣的博弈態(tài)度，包括如何修改對價程序以避免基金管理人的“尋租”和“背叛”，包括如何懲處改票等違法行為以及彌補流通股股東損失的利益，還包括如何對近千家質(zhì)地一般、質(zhì)地較差的公司進行股改，等等。

在未能解決這些問題之前，若股改的速度過快，將會增加大量試錯的案例從而影響整體博弈效果，也許前松后緊的時間安排會更穩(wěn)妥一些。