互惠利他理論對霍布斯問題的破解及其啟示

2014-04-11 11:36:37饒異

山西師大學(xué)報(社會科學(xué)版) 2014年6期

饒異

(仲愷農(nóng)業(yè)工程學(xué)院思想政治理論課教學(xué)部，廣州 510225)

“霍布斯問題”(Hobbesian Problem)是西方社會哲學(xué)史上的一個著名的倫理學(xué)問題。這個概念先后在1949 年和1981 年被社會學(xué)家帕森斯、哲學(xué)家哈貝馬斯所采用，它反映了一個問題，即指人們在追求自身利益最大化的同時，怎樣實現(xiàn)合作，保持社會秩序不陷入“一切人反對一切人的戰(zhàn)爭中”[1]280?！盎舨妓箚栴}”是一個經(jīng)久不衰的問題，它構(gòu)成了社會生活的核心問題。對于如何破解“霍布斯問題”，互惠利他理論提供了某種啟示?；セ堇碚撌且环N生物學(xué)理論，該領(lǐng)域合作與競爭問題的提出和模型的建立為我們提供了一種簡單明了的行為解釋方式。從人類發(fā)展的歷程來看，正是因為有了合作與利他行為，人類社會才免于在霍布斯叢林中分崩離析。

一、合作的難題：霍布斯問題

基于人性惡的假設(shè)，霍布斯認(rèn)為自然資源具有稀缺性，要滿足每個人的欲望，必定存在競爭，在此基礎(chǔ)上，他提出了二元人性觀。一方面，人具有動物性，人有“自然欲望”，這個欲望的根源在于人的感官享受稟性，即他的動物性。人像其他動物一樣，這些感性知覺自動地喚起欲望和厭惡，于是他的生活就像其他動物一樣，在欲望的支配下充滿著對自然的貪婪。另一方面，人類具有理性。人不會像動物一樣只受剎那間的感性知覺支配，人具有設(shè)想未來的能力，因而成為最掠奪成性和最危險的高級動物。由于物質(zhì)產(chǎn)品的相對匱乏和人在欲望支配下對自然的貪婪，使得人們欲求同一事物而又無法同時享用時，彼此就會成為仇敵，人與人之間就形成了競爭。在人的天性中，由于競爭、猜疑和榮譽，使得人們之間相互爭斗。霍布斯稱這種狀態(tài)為自然狀態(tài)，在這種狀態(tài)中，每個人都要實現(xiàn)自己占有一切的“自然權(quán)利”，“人對人像狼一樣”，彼此爭斗不已，從而出現(xiàn)了“一切人反對一切人的戰(zhàn)爭”狀態(tài)。

人們長期處于恐懼與痛苦之中，必然會產(chǎn)生求取和平、擺脫戰(zhàn)爭狀態(tài)的迫切愿望，可謂“苦亂久矣，人心思定”。那么，人類怎樣才能擺脫自然狀態(tài)中的無序、恐怖狀態(tài)？自然法作為道德的原則正是一種理性的箴言，為人們處理好與社會的關(guān)系提供了一種理性的思維模式——每一個人應(yīng)當(dāng)服從那些大家必須遵守的共同的準(zhǔn)則和公約。在自然法中，為了和平，人們必須放棄力圖占有一切的自然權(quán)利，承認(rèn)他人和自己具有同樣多的權(quán)利，做出對權(quán)利的放棄和轉(zhuǎn)讓。自然法為人們由戰(zhàn)爭狀態(tài)向和平狀態(tài)過渡提供了基本法則，使人們擺脫自然狀態(tài)成為可能。但自然法只是一種內(nèi)在的道德約束力量，如果沒有強有力的外在規(guī)范，它就得不到貫徹執(zhí)行。由此，霍布斯進一步提出了他的國家學(xué)說。

霍布斯認(rèn)為，盡管有自然法，但如果沒有外部強制力量，信約便只是毫無約束力的一紙空文，所有人的生命安全都沒法得到保障。他說：“要是沒有建立一個權(quán)力或權(quán)力不足以保障我們的安全的話，每一個人就會、而且也可以合法地依靠自己的力量和計策來戒備所有其他的人?！盵2]128為了使“自然法”得到切實的遵守，人們便訂立契約，放棄每個人的自然權(quán)利，把大家的權(quán)利交給一個人，或一些人組成的團體，這個人或團體能把大家的意志變成一個意志，能把大家的人格統(tǒng)一為一個完整的人格，這個人格就是作為國家的“法人”，國家一旦出現(xiàn)，所有的人就必須接受并服從他的意志和判斷。這樣訂立的協(xié)議就叫做“社會契約”，其根本目的是謀求一種人與人之間和平相處、社會安定有序的良好狀態(tài)。[2]131—132國家的權(quán)力是至高無上的，如同《圣經(jīng)》中提到的海中巨獸——“利維坦”一樣，使人敬畏，國家不斷運用強制力量來限制個人私欲，使“人對人像狼一樣”的自然狀態(tài)得以終結(jié)?？偠灾?，霍布斯在解決個人利益與集體利益的沖突問題上，是通過訂立相互合作的協(xié)議來實現(xiàn)的，而合作的動力是為了結(jié)束野蠻的戰(zhàn)爭狀態(tài)，創(chuàng)造和平生活。

二、合作的進化：互惠利他理論

人類合作與利他行為是生物進化和社會發(fā)展的綜合產(chǎn)物，對這個問題的研究歷來受到社會科學(xué)各分支以及生物學(xué)的重視，其中當(dāng)代生物學(xué)的研究成果使這一探索別具一格。在達爾文進化論思想的基礎(chǔ)上，人們提出了親緣選擇理論、互惠利他理論和馴順性理論對合作與利他行為做出了解釋。[3]親緣選擇理論和馴順性理論分別對親緣利他和純粹利他行為給出了較為系統(tǒng)的分析。然而，無論在自然界還是在人類社會，個體之間的行為選擇更常見的是非近親個體之間的互惠利他行為。

1971年，哈佛大學(xué)生物學(xué)家特里弗斯提出了互惠利他理論[4]，指出非近親個體之間的利他行為是以互惠為基礎(chǔ)的。互惠利他行為即兩個無親緣關(guān)系的個體為了回報而相互提供幫助的行為，施惠者幫助受惠者期待的是日后再次相遇時獲得更大利益的回報?；セ堇袨閷嵸|(zhì)上是一種基于回報的合作?；セ堇枷胩岢鲋螅?981年，艾克斯羅德與漢密爾頓采用囚徒困境模型，發(fā)展了合作進化理論。他們認(rèn)為，在非零和博弈中，由于部分利益沖突，有機體相互競爭的制勝之策是合作而不是背叛策略。……個體的合作和利他行為實際上也是一種生存策略。[5]1—2

囚徒困境模型是博弈論的經(jīng)典模型，也是互惠利他理論的研究原型，該模型所反映出的深刻問題是個人理性與集體理性之間的矛盾。在單局性或局?jǐn)?shù)一定的囚徒困境對局中不會有合作的產(chǎn)生，對每一個均無法獲知對方?jīng)Q策信息的對局者來說，占優(yōu)策略只能是背叛。如何擺脫這種困境實現(xiàn)長期而穩(wěn)定的合作，艾克斯羅德的重復(fù)囚徒困境博弈實驗為尋求困境消解的方法提供了路徑。實驗以競賽的方式進行，在兩輪競賽中，參賽者提交了很多復(fù)雜而精巧的策略，但最后得分最高的是程序最簡單的一報還一報(TFT ,tit for tat.即第一步選擇合作，以后重復(fù)對方在上一步的策略，對方合作，自己合作；對方背叛，自己背叛)策略，該策略是一種基于回報的互惠合作策略。在競賽中具有成功特性的合作策略在現(xiàn)實生活中能否奏效？如果基于回報的合作能夠產(chǎn)生的話，還需解決這樣幾個問題：第一，在現(xiàn)實生活中需要什么條件才能培育合作，即考慮沒有集權(quán)的利己主義者之間合作如何出現(xiàn)？第二，潛在的合作策略如何才能在不合作占優(yōu)勢的環(huán)境中取得最初的立足之地？這個問題是策略的初始成活性問題。第三，如何在各種策略的較量中脫穎而出？這個問題是策略的強健性問題。第四，在復(fù)雜的策略環(huán)境中，合作策略是如何成為進化穩(wěn)定策略(ESS，evolutionary stable strategy)的，即合作策略怎樣能抵御不合作策略的侵入，從而在群體中完全立足？這是策略的穩(wěn)定性問題。

艾克斯羅德總結(jié)了TFT策略獲勝的原因與特點：第一, TFT策略是不嫉妒的，它能夠贏得競賽不是靠打擊對方，而是靠從對方引出使雙方都有好處的合作。即便會存在對手的得分高于自己的情況，然而由于TFT策略的不嫉妒，能堅持引出雙方有利的結(jié)果，從而使它在重復(fù)博弈中的收益居高不下。第二，TFT策略是善良的，它從不做首先的背叛者，以避免陷入被別人報復(fù)的泥潭，這為合作的出現(xiàn)提供了前提條件。第三，TFT策略具有報復(fù)性，它不僅回報合作，也回?fù)舯撑?，具有強可激怒性。這能很好地對付畏強欺弱者，使對方一旦背叛后就不敢堅持，這為合作的維系提供了必要保證。如果博弈雙方只相遇一次的話，善良的策略是沒有機會報復(fù)背叛的，所以如果博弈雙方會再次相遇，基于對未來的預(yù)期，每個對局者就可以用潛在的報復(fù)來威脅對方，從而使合作得以維系。第四，TFT策略是寬容的，是維護合作的必要讓步，有助于小的沖突之后重新恢復(fù)合作。不能對方背叛一次,就無休止地報復(fù)，應(yīng)該在對方改為合作時，重新與其合作。缺乏寬容性的策略，雙方收益不會高，不利于自身的發(fā)展。最優(yōu)的寬容水平既能防止高頻率的報復(fù)導(dǎo)致陷入惡性循環(huán)因而破壞合作，又能避免過低頻率懲罰而鼓勵了背叛者被占更多便宜。第五，TFT策略的清晰性明確了合作的效用，讓對方很快發(fā)現(xiàn)規(guī)律，從而不得不采取合作的態(tài)度。

為了證明TFT策略的強健性，艾克斯羅德進一步用生態(tài)學(xué)的原理設(shè)計了生態(tài)競賽。在動態(tài)的進化群體中，所有策略的對局都遵循一定的規(guī)則：第一，遺傳。善于合作的策略，它的后代的合作基因就變多。第二，試錯。在各種各樣的策略環(huán)境中，最初人們不知道什么是好的策略，通過不斷的試錯來發(fā)現(xiàn)好的策略。第三，學(xué)習(xí)。通過個體之間的學(xué)習(xí)，好的策略會在群體中傳播開來。實際上，進化的過程就是找到、模仿、遺傳高分策略的過程。通過一代又一代的生態(tài)模擬，TFT策略的增長率遠遠大于其他策略。因此，TFT策略不僅是一種強健性策略，也是一種進化穩(wěn)定策略，最終能取代其他策略而被固定下來，并可以抵擋其他變異策略的入侵。單個的合作者難以入侵全是背叛策略的極端環(huán)境，但如果是合作群體，即便是小的群體，彼此有機會交往，雙方的合作所帶來的好處遠大于小人之間背叛所帶來的低收益，從而入侵一個背叛廣泛存在的世界。但是，相反的情況則不會出現(xiàn)，也就是說一報還一報策略固定下來后,不能被單個背叛者打入，也不能被背叛的小群體入侵。這是合作策略在進化過程中優(yōu)于全背叛策略的地方。[6]

三、合作的自發(fā)生成：霍布斯問題求解

霍布斯以精辟的論證構(gòu)建了一個強大的利維坦理論體系，其目的是為了擺脫“每個人對每個人的戰(zhàn)爭”狀態(tài)。在自然狀態(tài)中，人們往往并不采取合作行為。因為如果一個人自己交出了武裝，但無法確信其他人是否也能交出武裝，那么他就處于被殺的危險之中。在這種充滿極端不確定性的狀態(tài)中，選擇純粹利他，毋庸置疑是不明智且難以保存下去的行為策略，因而，每個人都會選擇保持武裝作為最有利的策略?；舨妓沟摹斑@一基本的政治和社會問題清楚地證明——超出親緣關(guān)系范圍的十分明顯的自私自利的個體組合為什么和如何避免陷入混戰(zhàn)，是17世紀(jì)的偉大成就”[7]1。博弈論可以從這里找到哲學(xué)的理論先驅(qū)者。在霍布斯的理論進路中，他闡釋了囚徒困境面臨的問題并尋求如何走出困境的解決方案。

我們可以用博弈論的語言還原霍布斯問題。假設(shè)A、B為自然狀態(tài)下的兩個人，兩人能力相等，每個人都會面臨兩種策略選擇：合作(不戰(zhàn)爭，保持和平)或背叛(戰(zhàn)爭)，這樣就會出現(xiàn)四種情況：如果A和B都背叛，彼此處于戰(zhàn)爭狀態(tài)，每個人或者要花時間和精力來保護自己的利益不被對方搶去，或者兩敗俱傷，假設(shè)雙方收益為1∶1；如果A和B都合作，保持和平，每個人都得到了自己的利益，假設(shè)雙方收益為2∶2；如果A和B兩人中，有一方進攻，處于戰(zhàn)爭狀態(tài)，獲得了更多的利益，假設(shè)其收益為6，另一方因為保持和平，處于危險境地的同時利益被搶奪，假設(shè)其收益為0。事實上，雙方都背叛，彼此處于戰(zhàn)爭狀態(tài)會使所有人都比在解除武裝保持和平的情況下過得更加糟糕，但每個人都面臨著自己解除武裝對方保持戰(zhàn)爭狀態(tài)的擔(dān)心。這實際上就陷入了一個囚徒困境博弈，雙方都背叛(戰(zhàn)爭，戰(zhàn)爭)成為這場博弈的納什均衡，個人理性的選擇得到了令人悲觀的結(jié)果，個人理性與集體理性相沖突。這就是霍布斯的自然狀態(tài)博弈論的結(jié)構(gòu)。

那么，如何消解這種困境？自私自利的人能否實現(xiàn)合作而和睦相處，從而改善人與人之間狼對狼的關(guān)系呢？霍布斯期望的是依靠擁有絕對至高無上的政治權(quán)威的國家來解決背叛和沖突問題，他相信絕對權(quán)威對任何違反協(xié)議的背叛者能進行有效的懲罰與制裁。我們假定國家對每個人通過法律強制性地實施這樣的懲罰措施：如果某人采取戰(zhàn)爭的策略，那么罰去5；如果采取和平的策略，不獎不罰，這樣，自然狀態(tài)下人與人之間的支付就會發(fā)生變化：A與B都合作，雙方的收益為2∶2；A與B都背叛，雙方的收益則為-4∶-4；A和B兩人中，一人保持和平，一人處于戰(zhàn)爭狀態(tài)，背叛的一方收益為1，合作的一方收益為0。顯而易見，當(dāng)國家出現(xiàn)時，這個博弈的均衡則是雙方都合作(和平，和平)。按照霍布斯的思路，在外在強制力量的作用下，一個具有共同利益的群體,一定會為實現(xiàn)共同利益采取集體行動，要么導(dǎo)致君主專制，要么導(dǎo)致共和獨裁。[8]從霍布斯的方案可見，強權(quán)的政府機構(gòu)是合作所必須的?；谌诵詯旱募俣?，在借助自然法的條件下，霍布斯以社會契約為外在規(guī)范，構(gòu)建了他的國家與人的學(xué)說。但引入一個第三方的強權(quán)政府，是否能夠?qū)崿F(xiàn)人們合作的可能？霍布斯的不朽功績是提出了問題，但從推理角度來看，他對問題的解決方案是不夠恰當(dāng)?shù)摹９鸫髮W(xué)政治學(xué)教授羅伯特·D.帕特南在《使民主運轉(zhuǎn)起來——現(xiàn)代意大利的公民傳統(tǒng)》一書中指出了霍布斯方案的不足之處：一方面,公正執(zhí)行本身就是一個公共品，一樣受制于它所致力于解決的基本困境。要想使第三方的強權(quán)政府能夠運轉(zhuǎn)，第三方本身必須是可信的。這里引入一個外在強制力量的時候又出現(xiàn)了一個邏輯鴻溝，誰來監(jiān)督“自利的政府”？什么樣的權(quán)利能夠保證國家權(quán)利履行自己的義務(wù)？況且，強制執(zhí)行成本是非常昂貴的。

如何實現(xiàn)霍布斯?fàn)顟B(tài)下的合作，人們無法用親緣利他和純粹利他行為做出較為合理的解釋和尋求問題的解。在社會生物學(xué)看來，人類社會的合作和利他行為主要是互惠利他行為，互惠利他主義是人類文明產(chǎn)生的源泉?；舨妓拐J(rèn)識到自然狀態(tài)下“各個個體會發(fā)現(xiàn)克制相互損害和相互欺詐的傾向能夠產(chǎn)生互利互惠”[7]1。但霍布斯的思維路徑是借助外部強制力量。事實上，合作不一定需要外部強制力量，國家可以通過策略和行為互動創(chuàng)造合作的有利條件，即合作能夠在互動中自發(fā)產(chǎn)生?；セ堇碚摓楹献鞯漠a(chǎn)生提供了基本思路，該理論從互動領(lǐng)域而非通過外部強制力量來理解人類合作。艾克斯羅德的實驗解決的根本問題是：在缺乏外部強制力量的情況下，利己主義者如何走出囚徒困境從而實現(xiàn)合作？按照囚徒困境，當(dāng)博弈只進行一次或有限次時，個體選擇都會是背叛。但是在無限次重復(fù)博弈中，這個結(jié)論是不適用的，因為博弈不知何時結(jié)束，博弈者就會意識到，任何背叛行為都可能遭到對方的報復(fù)，背叛的策略將是一種目光短淺的選擇，從謀求長遠利益的最大化考慮，嘗試合作是明智之舉，從而也就出現(xiàn)比次數(shù)已知的多次博弈更有效率的均衡。通過艾克斯羅德的實驗，TFT策略在各種策略的比較中顯示出獨一無二的優(yōu)勢。“一個采用基于回報的策略的社會確實能夠自我控制。由于確保了對試圖不合作的懲罰，這些不合作的策略就得不到好處。因而這些策略就發(fā)展不起來，也就提供不了一個供他人模仿的有吸引力的模式?！盵5]105—106基于回報的合作策略這種自我控制的特性可以激勵人們相互教育、相互學(xué)習(xí)，由此在復(fù)雜的策略環(huán)境中產(chǎn)生，同時作為成功的策略代代傳承。艾克斯羅德的實驗結(jié)論表明，合作的基礎(chǔ)不是真正的信任，而是關(guān)系的持續(xù)性。合作能夠出現(xiàn)是因為博弈者之間的接觸不是一次，而是持續(xù)或反復(fù)發(fā)生的，未來的充分重要性使得今天做出的策略選擇不僅決定當(dāng)前對局的結(jié)果，而且還影響對局者以后的收益。在這種持續(xù)的關(guān)系中，“對策者能通過對雙方有利的可能性的試錯學(xué)習(xí)、通過對其他成功者的模仿或通過選擇成功的策略剔除不成功的策略的盲目過程來達到相互的合作”[5]139。在重復(fù)囚徒困境模型中，一方面，合作的出現(xiàn)并不是依靠外部強制，而是通過博弈過程中關(guān)系的持續(xù)性、一系列學(xué)習(xí)和自我教育的內(nèi)部過程而實現(xiàn)的，從而得到了霍布斯問題的解。從自私的人性出發(fā)，不需要附加政府的外部作用，當(dāng)然外部強制不是沒有必要，某種程度上，它能夠加速一種客觀必然性的實現(xiàn)，在這里，只需要附加上多次不確定性博弈的條件便可以實現(xiàn)合作，也正是這無數(shù)次的博弈交往行為達成博弈規(guī)則和制度共識。重復(fù)博弈是一個不斷摸索、學(xué)習(xí)和合作程度提高的過程，在人們認(rèn)識到雙贏的重要性的過程中，逐步建立起互惠互利的機制。當(dāng)然合作秩序的形成還有賴于文化、習(xí)俗、傳統(tǒng)等自然因素。另一方面，重復(fù)囚徒困境模型是非零和博弈，博弈雙方存在著的是部分利益沖突。在霍布斯的自然狀態(tài)中，如果雙方選擇戰(zhàn)爭，放棄和平，不僅整體收益會下降，而且付出的成本更大。所以權(quán)衡利弊,合作是最佳選擇。并且合作范圍越大、參與合作的人數(shù)越多,獲得的收益越大。在霍布斯問題中，互惠利他理論認(rèn)為，博弈中自發(fā)產(chǎn)生博弈秩序,它維系和約束著人們在現(xiàn)實生活中通過自組織內(nèi)在地形成合作與互惠行為，由此,人們在反復(fù)的生活中會得到一種最佳的行為決策方法。

[1] 周輔成.西方倫理學(xué)名著選輯[M].北京：商務(wù)印書館，1996.

[2] (英)霍布斯.利維坦[M].黎思復(fù)，黎廷弼譯.北京：商務(wù)印書館，1985.

[3] 劉鶴玲.親緣、互惠與馴順：利他理論的三次突破[J].自然辯證法研究，2000，(3).

[4] RLTrivers.The Evolution of Reciprocal Altruism.The Quarterly Review of Biology， 1971，(46).

[5] (美)羅伯特·艾克斯羅德.對策中的制勝之道——合作的進化[M].吳堅忠譯.上海：上海人民出版社，1996.

[6] 饒異.基于回報的合作——生物有機體競爭中的制勝之策[J].華南理工大學(xué)學(xué)報，2006，(3).

[7] (美)菲爾德.利他主義傾向——行為科學(xué)、進化理論與互惠的起源[M].趙培，等譯.長春：長春出版社，2005.

[8] 黃真.從“互惠利他”到“強互惠”：國際合作理論的發(fā)展與反思[J].國際關(guān)系學(xué)院學(xué)報，2009,(4).

互惠利他理論對霍布斯問題的破解及其啟示

一、 合作的難題：霍布斯問題

二、合作的進化：互惠利他理論

三、合作的自發(fā)生成：霍布斯問題求解

一、合作的難題：霍布斯問題

二、合作的進化：互惠利他理論

三、合作的自發(fā)生成：霍布斯問題求解