俞建 賈文生
摘要:本文簡要介紹了經(jīng)濟(jì)學(xué)中的博弈論革命、Simon的有限理性理論以及有限理性研究中的博弈論模型,指出了對于建立在完全理性假設(shè)上的模型分析結(jié)果,大多數(shù)情況下仍然是合理的和可以接受的。作為應(yīng)用,本文還介紹了最優(yōu)化問題的逼近定理。
關(guān)鍵詞:博弈論;有限理性;逼近定理;最優(yōu)化
中圖分類號:O225;F019.1文獻(xiàn)標(biāo)識碼:A文章編號:1000-5099(2021)02-0034-07
一、 經(jīng)濟(jì)學(xué)中的博弈論革命
1944年,von Neumann 等出版了名著《博弈論與經(jīng)濟(jì)行為》[1],宣告了博弈論的誕生。他們指出:“博弈論是建立經(jīng)濟(jì)行為理論的最恰當(dāng)?shù)姆椒ā薄敖?jīng)濟(jì)和社會問題可以從這個角度得到最好的解釋”[1]。他們重點研究了矩陣博弈和合作博弈。
矩陣博弈是零和博弈,這種零和思維模式有很大的局限性,尤其是在當(dāng)今世界。1950年,年輕的 Nash 突破了von Neumann等的零和思維,將矩陣博弈推廣到了一般來說是非零和的n人非合作有限博弈。
以n=2的雙矩陣博弈為例:博弈有兩個局中人Ⅰ和Ⅱ,局中人Ⅰ的純策略集合A={a1,…,am},Ⅱ的純策略集合B={b1,…,bn}。如果局中人Ⅰ選擇ai,Ⅱ選擇bj,則局中人Ⅰ獲得支付cij,Ⅱ獲得支付dij。如果i=1,…,m,j=1,…,n,都有cij+dij=0,這就是零和,矩陣博弈;否則就是非零和,雙矩陣博弈,因為所有{cij}和{dij}分別構(gòu)成兩個矩陣。如果對某些i和j有cij>0,dij>0,則局中人Ⅰ選擇ai,Ⅱ選擇bj,這就是雙贏。
每個局中人都是理性的,都希望自己能獲得最大的利益,因此都努力不讓對手猜出自己將采取的策略,他們可以用隨機(jī)方法來選擇自己的策略。通過引進(jìn)所謂混合策略的概念,Nash證明了:存在局中人Ⅰ的混合策略x*和Ⅱ的混合策略y*,雙方能夠達(dá)到平衡;誰也不能通過單獨改變自己的策略而使自己獲得更大的利益[2]。(x*,y*)稱為雙矩陣博弈的Nash平衡。
關(guān)于局中人的利益,用他獲得的支付來表示,不僅包括收入,也包括風(fēng)險、休閑、名聲以及社會責(zé)任等,每個局中人都有自己獨立的價值體系,它可以是利己的,也可以是利他或部分利他的,這一點很重要。
“天下熙熙,皆為利來;天下攘攘,皆為利往?!?000多年以前我國偉大的史學(xué)家和文學(xué)家司馬遷在《史記》中的名言,今天讀起來仍然感受到其思想之深刻。試問當(dāng)今世界離開了對利益沖突與合作的分析,我們又如何能夠研究經(jīng)濟(jì)乃至于整個社會的天下大事呢?
數(shù)學(xué)在經(jīng)濟(jì)中的應(yīng)用,是與經(jīng)濟(jì)學(xué)中最基礎(chǔ)也是最核心的利益最大化原則密切相關(guān)的:如果在模型中決策者只是一個,那就應(yīng)用種種最優(yōu)化方法;如果在模型中決策者不止一個,每個決策者都追求利益的最大化,且他們的利益是互相關(guān)聯(lián)的(在很多情況下是互有沖突的),那只有達(dá)到平衡,這就是博弈論的思想,博弈論正是研究這種利益沖突與合作的運籌學(xué)的一個重要分支。應(yīng)當(dāng)說,相比最優(yōu)化方法,博弈論更具普遍性,因為它是更加接近實際的你中有我且我中有你的行為互動的決策科學(xué),它與當(dāng)今世界經(jīng)濟(jì)和社會發(fā)展的全球化潮流是一致的。當(dāng)然,博弈論與最優(yōu)化方法并不是對立的,很多博弈的平衡點,也還是要通過最優(yōu)化方法來求得,例如,矩陣博弈的平衡點,就可以用線性規(guī)劃的算法來求得。
1954年,正是在von Neumann和Nash工作的鼓舞下,Arrow和Debreu合作,應(yīng)用廣義博弈平衡點的存在性定理證明了一般經(jīng)濟(jì)均衡的存在性定理[3],產(chǎn)生了巨大的影響,他們也分別獲得了1972和1983年的諾貝爾經(jīng)濟(jì)學(xué)獎。66年過去了,這些年來經(jīng)濟(jì)全球化深入發(fā)展,科學(xué)技術(shù)突飛猛進(jìn),生產(chǎn)規(guī)模擴(kuò)大,壟斷勢力增強(qiáng),隨著這種競爭的日益加劇以及各種利益沖突與合作的持續(xù)展開,博弈論的思想和方法已逐漸成為理解和分析經(jīng)濟(jì)問題的工具和語言,這就是經(jīng)濟(jì)學(xué)中的博弈論革命。
西爾維婭·娜薩在其序言中指出:“1987年,新版的大型經(jīng)濟(jì)百科全書《新帕爾格雷夫經(jīng)濟(jì)學(xué)大辭典》問世,編寫者指出那場橫掃經(jīng)濟(jì)學(xué)的博弈論革命‘很顯然完全是由von Neumann和Nash的數(shù)學(xué)原理所引發(fā),別人的任何貢獻(xiàn)都不能與他們相比。”[4]
1994年,授予Harsanyi、Nash和Selten三人諾貝爾經(jīng)濟(jì)學(xué)獎,瑞典皇家科學(xué)院的“新聞公告”中指出:“von Neumann等的不朽研究《博弈論與經(jīng)濟(jì)行為》奠定了經(jīng)濟(jì)學(xué)中運用博弈論基礎(chǔ)。在50年后的今天,博弈論已成為一種經(jīng)濟(jì)問題分析的主導(dǎo)工具。特別的,非合作博弈(即排除了有約束力合同的博弈論分支)對經(jīng)濟(jì)研究有著巨大影響。該理論的主要內(nèi)容是平衡概念,這一概念被用來預(yù)測策略互動的結(jié)果。”[5]在這以后,又有6次(分別是1996、2001、2005、2007、2012和2014年)諾貝爾經(jīng)濟(jì)學(xué)獎授予從事博弈論研究與應(yīng)用的學(xué)者,除去2012年的獲獎工作,諾貝爾經(jīng)濟(jì)學(xué)獎中的博弈論工作都屬于非合作博弈。
非合作博弈論與合作博弈論,它們之間的關(guān)系如何?
非合作博弈論不允許局中人結(jié)盟,也不允許局中人之間對支付進(jìn)行再分配,強(qiáng)調(diào)的是策略和平衡(注意到非合作博弈并不意味著局中人總是拒絕與其他局中人合作,受自身利益的驅(qū)使,局中人也能在一些情況下表現(xiàn)合作的行為);合作博弈論則允許局中人結(jié)盟,也允許局中人之間對支付進(jìn)行再分配,強(qiáng)調(diào)的是結(jié)盟和分配。合作博弈論強(qiáng)調(diào)結(jié)盟,這就需要局中人之間在博弈開始之前進(jìn)行談判,包括如何協(xié)調(diào)各自的策略以及如何進(jìn)行再分配,達(dá)成一個具有強(qiáng)制力的協(xié)議。談判是要以實力為基礎(chǔ)的,談判達(dá)成的協(xié)議往往是不穩(wěn)定的,這難道不是當(dāng)今世界的現(xiàn)實嗎?正如國際著名博弈論學(xué)者Dixit在名著《策略博弈》中指出的那樣:“現(xiàn)實中絕大多數(shù)博弈并沒有充足的實施聯(lián)合行為協(xié)議的外部強(qiáng)制力,因此本書以非合作博弈為主要分析對象?!盵6]總之,在這場經(jīng)濟(jì)學(xué)的博弈論革命中,非合作博弈論處于基礎(chǔ)和核心的地位,而合作博弈論有時可以起到必不可少的補充作用。
二、 Simon的有限理性理論
無論是von Neumann的矩陣博弈,Nash的n人非合作有限博弈,還是Arrow-Debreu數(shù)理經(jīng)濟(jì)學(xué)中的一般均衡模型,其基礎(chǔ)都建立在決策者完全理性的假設(shè)之上,即每個決策者都能夠在一定的約束條件下做出對自己最為有利的選擇,這就是上節(jié)提及的經(jīng)濟(jì)學(xué)中的利益最大化原則。
1955年,Simon對完全理性的假設(shè)進(jìn)行了深刻的質(zhì)疑和批判:“在關(guān)于理性的論述方面,社會科學(xué)深受著‘精神分裂癥之苦。在一個極端,經(jīng)濟(jì)學(xué)家給經(jīng)濟(jì)人賦以一種全智全能的荒謬?yán)硇?。這種經(jīng)濟(jì)人有一個完整而內(nèi)在一致的偏好體系,使其總能夠在他所面臨的備選方案當(dāng)中作出抉擇;他總是完全了解有哪些備選的替代方案;他為擇優(yōu)而進(jìn)行的計算,不受任何復(fù)雜性的限制;……他具有很大的智慧和美學(xué)魅力;但同具有血肉之軀的人的真實行為(或可能的行為),看不出有多大關(guān)系?!盵7]
Simon提出了有限理性理論,而其核心是滿意原則,就是使決策者感到滿意的原則。他認(rèn)為問題本身是近似的,其求解方法也是近似的,只能尋求某種近似的、但已經(jīng)是足夠好的,可以使決策者滿意的方案或策略。
Simon曾因他的杰出貢獻(xiàn)在1978年獲得諾貝爾經(jīng)濟(jì)學(xué)獎,他也是諾貝爾經(jīng)濟(jì)學(xué)獎獲得者中唯一的一名管理科學(xué)家。 此外,他還在1975年獲得計算機(jī)科學(xué)的圖靈獎,1988年獲得運籌學(xué)和管理科學(xué)的von Neumann獎,并曾獲得心理學(xué)以及人工智能的終生榮譽獎等。
究竟什么是有限理性? Simon在《新帕爾格雷夫經(jīng)濟(jì)學(xué)大辭典》中的“有限理性”的條目中指出:“‘有限理性一詞,系指那種把決策者在認(rèn)知方面的局限性(包括知識和計算能力兩方面的局限性)考慮在內(nèi)的理性選擇”[8]。對此定義,學(xué)術(shù)界爭論較多,國際著名博弈論學(xué)者Kreps指出:“迄今為止,文獻(xiàn)記載了許多有限理性的定義,就某種意義而言,他們彼此之間相互矛盾,我個人認(rèn)為,Simon的定義最為恰當(dāng),即有限理性行為是指主觀上期望合理,但客觀上受到限制的行為。這就是說,某些人主觀上期望達(dá)到某些目標(biāo),但是他們追求這些目標(biāo)的方式反映出他們自身認(rèn)識能力的局限性與計算能力的局限性。”[9]
按照Simon的論述[8],有限理性理論“只能建立在心理學(xué)研究的基礎(chǔ)之上”,這一點很重要。
滿意原則當(dāng)然有他的合理性,但是什么是滿意?究竟能否應(yīng)用一些心理學(xué)理論,用實驗數(shù)據(jù)對原有模型的系統(tǒng)性偏差進(jìn)行種種修正,并據(jù)此替代利益最大化原則,從而為博弈論和經(jīng)濟(jì)學(xué)建立起嚴(yán)格和漂亮的新體系呢?在學(xué)術(shù)界是有很多爭論的,客觀地說,這些年來有進(jìn)展,但進(jìn)展不是很大,至少還有很長的路要走。
Simon在《新帕爾格雷夫經(jīng)濟(jì)學(xué)大辭典》中的“滿意化”的條目中指出:“決策者選擇出一個備選方案達(dá)到一定的標(biāo)準(zhǔn)或超過之,……,叫作滿意。”[8]“滿意者如何確定達(dá)到滿意定義的準(zhǔn)則水平?心理學(xué)設(shè)置了愿望水平機(jī)制:如果很容易找出達(dá)到準(zhǔn)則水平的替代,標(biāo)準(zhǔn)就逐漸提高,如果找了半天還未找出滿意的替代,標(biāo)準(zhǔn)便逐步降低?!薄斑\籌學(xué)與管理科學(xué)的多數(shù)最優(yōu)化模型可以被看作有用的滿意化模型?!边@樣的論述顯然是不能令人滿意的。國際著名博弈論學(xué)者Binmore指出:“Simon曾引入滿意概念開辟了有限理性下的經(jīng)濟(jì)理論研究,但是從那時到現(xiàn)在,這個領(lǐng)域的進(jìn)展一直曖昧不明?!盵10]
這些年來,以心理學(xué)為基礎(chǔ)的行為心理學(xué)興起,2002年諾貝爾經(jīng)濟(jì)學(xué)獎獲得者、行為經(jīng)濟(jì)學(xué)的倡導(dǎo)者Kahneman指出:“行為經(jīng)濟(jì)學(xué)理論總的來說保留了理性人模型中的基本結(jié)構(gòu),同時添加了一些有關(guān)認(rèn)知局限性的假設(shè),設(shè)置這些假設(shè)是為了解釋一些具體的非正常情況,……,行為人一般是理性的。”[11]2017諾貝爾經(jīng)濟(jì)學(xué)獎獲得者,對行為經(jīng)濟(jì)學(xué)的發(fā)展作出突出貢獻(xiàn)的Thaler指出:“許多經(jīng)濟(jì)學(xué)家繼續(xù)使用理性假設(shè),因為他們認(rèn)為沒有更好的替代?!盵12]
我國著名經(jīng)濟(jì)學(xué)家林毅夫指出:“不管在什么社會里,人都是理性的,所謂理性指的是一個決策者在做決策時,在他可做的選擇中,總會選擇他認(rèn)為是最好的選擇。”“理性的決策者所要最大化的目標(biāo)可以各式各樣,可以收益最大化,可以選擇風(fēng)險規(guī)避,可以選擇內(nèi)心的滿足,也可以選擇社會責(zé)任等。”[13]
作者認(rèn)為:大多數(shù)決策者總是理性的,在大多數(shù)情況下總是追求自身利益最大化的,這一點必須肯定。另一方面,每個決策者都有自己獨立的價值體系,自身利益并不限于收入,他不必是利己的,可以是利他或部分利他的,這一點也必須肯定。我們應(yīng)當(dāng)思考這樣的問題:在博弈論與經(jīng)濟(jì)學(xué)模型中考慮有限理性作用,究竟會對建立在完全理性假設(shè)之上的模型分析結(jié)果產(chǎn)生怎樣的影響或沖擊呢?如果回答是基本正面的,即一般來說不會產(chǎn)生較大的影響或沖擊,那么對于建立在完全理性假設(shè)之上的模型分析結(jié)果,大多數(shù)情況下仍然是合理的和可以接受的。
三、有限理性研究的博弈論模型
以下介紹有限理性研究的博弈論模型。
2001年,Anderlini和Canning用博弈論的語言建立了有限理性研究的抽象模型M[14],這是一類帶有抽象理性函數(shù)的一般博弈(general games)。模型M的建立是很有創(chuàng)新性的,但是其假設(shè)條件太強(qiáng),很多重要的博弈論與經(jīng)濟(jì)學(xué)模型都無法滿足。俞建等作者[15-20]對此模型進(jìn)行了必要的改造,將Anderlini等作者的假設(shè)條件大大減弱[14],不僅擴(kuò)大了模型的應(yīng)用范圍,還得到了一系列新的相當(dāng)深刻的定理。
總結(jié)以上的說明,可以這樣說,當(dāng)λ∈Q時,雖然博弈λn是近似的(λn→λ),求解方法也是近似的(εn→0),但可以用有限理性得到的εn-平衡點集E(λn,εn)來近似代替E(λ)。這表明在Baire分類的意義上或者在非線性分析和拓?fù)鋵W(xué)的意義上,有限理性的引入一般不會對完全理性假設(shè)之上的模型分析結(jié)果產(chǎn)生較大的影響和沖擊。在大多數(shù)的情況下,可以用有限理性來逼近完全理性。這是一個很有理論意義的結(jié)果,也是對上節(jié)中Simon質(zhì)疑和批判的一個回應(yīng)。
四、最優(yōu)化問題與逼近定理
Montet C、Serra D等作者指出:“決策論也可被認(rèn)為是一種兩人博弈,只不過其中一方是一個虛擬的參與者—自然?!盵21]由此,可以將最優(yōu)化等決策問題看作為決策者與虛擬的決策者“自然”之間的博弈問題:當(dāng)決策者是完全理性時,他就得到最優(yōu)解,而當(dāng)決策者是有限理性時,他就得到ε-最優(yōu)解。一個最優(yōu)化算法,往往是通過迭代,通過f在A上的εn-最優(yōu)解的一個序列(εn→0)來逼近f在A上的最優(yōu)解;或者更一般地,往往是通過迭代,通過fn(滿足fn→f)在An(滿足An→A)上的εn-最優(yōu)解的一個序列(εn→0)來逼近f在A上的最優(yōu)解。推而廣之,數(shù)學(xué)中的各種迭代算法或者說逐次逼近算法,往往都是通過有限理性來逼近完全理性。
以下給出兩個最優(yōu)化問題的逼近定理,具體證明可見俞建的《有限理性與博弈論中平衡點集的穩(wěn)定性》及俞建、賈文生的《有限理性研究的博弈論模型》[19-20],當(dāng)然假設(shè)條件還可減弱。