基于博弈理論的流域生態(tài)補償利益相關(guān)方?jīng)Q策行為研究

2018-01-06 05:10:32張建清

統(tǒng)計與決策 2017年23期

李寧，王磊，張建清

（武漢大學(xué) 中國中部發(fā)展研究院，武漢 430072）

0 引言

隨著《長江中游城市群發(fā)展規(guī)劃》的批復(fù)實施和《長江經(jīng)濟帶發(fā)展規(guī)劃綱要》的正式印發(fā)，長江流域迎來了重大發(fā)展機遇，而長江流域生態(tài)環(huán)境的保護建設(shè)與流域水資源的可持續(xù)發(fā)展是長江流域經(jīng)濟發(fā)展的前提和保證，一直以來受到全社會的重點關(guān)注與高度重視。流域生態(tài)補償通過對使用或破壞（保護或建設(shè)）流域生態(tài)環(huán)境和資源的行為進行收費（補償），將流域生態(tài)資源開發(fā)與使用的外部效應(yīng)內(nèi)部化，發(fā)揮了調(diào)節(jié)利益相關(guān)方利益關(guān)系的重要作用，是保護流域生態(tài)資源、促進區(qū)域可持續(xù)發(fā)展的重要手段。

高文軍等[1]利用演化博弈對流域生態(tài)補償中的上游政府針對行為主體的監(jiān)督與管理問題進行了研究，李昌峰等[2]、胡振華等[3]則利用演化博弈分別對太湖流域和漓江流域生態(tài)補償利益均衡問題進行了研究，胡小飛和傅春[4]對自然保護區(qū)生態(tài)補償利益主體有關(guān)行為進行了演化博弈分析，徐大偉[5]、王俊能等[6]也從演化博弈的角度對流域生態(tài)補償?shù)睦鏇_突進行了研究，曲富國和孫宇飛[7]則用靜態(tài)博弈分析方法對流域生態(tài)補償機制構(gòu)建中政府間博弈關(guān)系進行了分析。分析現(xiàn)有研究，本文認為流域生態(tài)補償?shù)母灸康氖谴龠M流域生態(tài)資源的可持續(xù)發(fā)展。因此，應(yīng)當(dāng)對利益相關(guān)方?jīng)Q策行為的演變及深層原因進行研究，以此構(gòu)建相應(yīng)的流域生態(tài)補償機制，引導(dǎo)和約束利益相關(guān)方選擇能夠促進流域生態(tài)資源可持續(xù)發(fā)展的決策行為?；诖耍疚耐ㄟ^構(gòu)建流域生態(tài)補償各利益相關(guān)方靜態(tài)博弈模型和動態(tài)演化博弈模型，分別對流域生態(tài)補償利益相關(guān)方的靜態(tài)博弈和動態(tài)演化博弈進行分析，探析各利益相關(guān)方在流域生態(tài)補償中不同行為表現(xiàn)的演化過程及深層原因。

1 基本假設(shè)和模型構(gòu)建

1.1 基本假設(shè)和參數(shù)設(shè)定

本文將流域生態(tài)補償利益相關(guān)方劃分為中央政府、上游政府和下游政府，其中，中央政府是整個流域生態(tài)補償?shù)慕M織者、協(xié)調(diào)者和仲裁者，其決策行為的最終目的是促進整個流域生態(tài)資源和各地區(qū)經(jīng)濟建設(shè)的可持續(xù)發(fā)展，使整個流域環(huán)境收益最大化，上游政府和下游政府是流域生態(tài)補償?shù)木唧w參與者，其決策行為的最終目的是區(qū)域環(huán)境收益最大化。因此，本文假設(shè)上游政府、下游政府為博弈雙方，其中上游政府從保護流域水資源、促進流域可持續(xù)發(fā)展的角度考慮，可以投入資金保護流域生態(tài)資源，從促進本地區(qū)經(jīng)濟發(fā)展的角度考慮，也可以不投入資金，不保護流域生態(tài)資源，所以上游政府具有“保護”和“不保護”兩種策略選擇；而下游政府考慮到上游政府為保護流域生態(tài)資源做出的貢獻，可以補償上游政府，也可以認為享用優(yōu)質(zhì)的水資源是自己的權(quán)利，從而不補償上游政府，所以下游政府具有“補償”和“不補償”兩種策略選擇。而上游政府采取“保護”策略，同時下游政府采取“補償”策略是社會期盼的最優(yōu)策略，中央政府則通過各種宏觀調(diào)控措施促進最優(yōu)策略的實現(xiàn)。

根據(jù)上述假設(shè)，本文做出如下變量設(shè)定：

B上：上游政府采取不保護策略時所獲得的收益，也就是上游政府的初始收益；

B上增：上游政府采取保護策略時由于流域生態(tài)環(huán)境改善而給上游政府帶來的收益，也就是流域生態(tài)環(huán)境保護后，上游新增的收益；

B下：下游政府在上游政府采取不保護策略時所獲得的收益，也就是下游政府的初始收益；

B下增：下游政府在上游政府采取保護策略時由于生態(tài)保護而給下游政府帶來的收益，也就是流域生態(tài)環(huán)境保護后，下游新增的收益；

C上：上游政府在流域生態(tài)保護中投入的總成本，也就是上游政府進行流域生態(tài)保護的直接成本與因進行流域生態(tài)補償而喪失的機會成本之和；

R：下游政府對上游政府的生態(tài)補償額度；以上各變量均為正值。

1.2 博弈模型構(gòu)建

根據(jù)以上基本假設(shè)和變量設(shè)定，可以得出流域上、下游政府分別采取不同策略時各自的收益函數(shù)，進而可以構(gòu)建博弈雙方的成本收益矩陣，也就是流域生態(tài)補償博弈分析模型，如表1所示。

表1 流域生態(tài)補償博弈模型

2 流域生態(tài)補償上下游政府間博弈分析

2.1 靜態(tài)博弈分析

靜態(tài)博弈分析中，流域上、下游政府均是完全理性主體，對他人的策略空間以及收益函數(shù)完全了解，并且博弈雙方在博弈中同時選擇策略或雖非同時選擇但后行動者并不知道先行動者采取了什么具體行動。因此，從表1的流域生態(tài)補償博弈分析模型可以進行如下靜態(tài)博弈分析：

對于下游政府來說，當(dāng)上游政府采取“保護”策略時，下游政府采取“不補償”策略的收益大于采取“補償”策略的收益（B下+B下增＞B下+B下增-R）；當(dāng)上游政府采取“不保護”策略時，下游政策采取“不補償”策略的收益也大于采取“補償”策略的收益（B下＞B下-R）。因此，對于下游政府來說，“不補償”策略始終是占優(yōu)策略。

對于上游政府來說，當(dāng)B上增大于C上，即 B上增-C上＞0時，如果下游政府采取“補償”策略，上游政府采取“保護”策略的收益大于上游政府采取“不保護”策略的收益（B上+B上增+R-C上＞B上+R）；如果下游政府采取“不補償”策略，上游政府采取“保護”策略的收益也大于上游政府采取“不保護”策略的收益（B上+B上增-C上＞B上）。因此，當(dāng)B上增大于C上時，無論下游政府采取何種策略，對于上游政府來說，“保護”策略始終是占優(yōu)策略。

同理，當(dāng) B上增小于C上，即 B上增-C上＜0時，對于上游政府來說，無論下游政府采取何種策略，上游政府采取“不保護”策略的收益都要大于采取“保護”策略的收益，“不保護”策略始終是下游政府的占優(yōu)策略。

綜上，流域生態(tài)補償靜態(tài)博弈存在最優(yōu)解，但是最優(yōu)解并不是社會所最期盼的策略組合，也就是說，僅靠上、下游政府間的靜態(tài)博弈無法實現(xiàn)上游政府保護、下游政府補償?shù)睦硐霠顟B(tài)。

2.2 動態(tài)演化博弈分析

本文進一步假設(shè)上游政府采取“保護”策略的比例為x，下游政府采取“補償”策略的比例為y，x、y隨時間t不斷變化，且0≤x≤1，0≤y≤1。

根據(jù)表1，可以得到動態(tài)演化博弈中上游政府分別采取“保護”策略和“不保護”策略的期望收益U11、U12以及上游政府的平均期望收益，分別為：

由方程（1）—（3）、方程（4）—（6）可以得到上游政府采取“保護”策略、下游政府采取“補償”策略的復(fù)制動態(tài)方程F（x）和F（y），分別為：

現(xiàn)在根據(jù)方程（7）和方程（8）分別對上游政府、下游政府及整個博弈系統(tǒng)的動態(tài)演化博弈穩(wěn)定性進行分析。

2.2.1 上游政府動態(tài)演化博弈穩(wěn)定性分析

當(dāng) B上增-C上=0，即 B上增=C上時，F(xiàn)（x）始終等于0，對于所有x都是上游政府的穩(wěn)定狀態(tài)，不符合社會所期盼的最優(yōu)策略。

當(dāng) B上增-C上＞0，即 B上增＞C上時，令 F（x）=0，可知x*=0和x*=1是復(fù)制動態(tài)方程的兩個穩(wěn)定狀態(tài)點。

根據(jù)演化博弈穩(wěn)定策略的特征，如果某策略是演化系統(tǒng)的演化穩(wěn)定策略，則該策略除了本身必須是穩(wěn)定狀態(tài)以外，還必須具有這樣的性質(zhì)：如果某些博弈方由于偶然的錯誤使策略偏離了演化穩(wěn)定策略，復(fù)制動態(tài)仍然會使策略回復(fù)到演化穩(wěn)定策略。在數(shù)學(xué)上，這相當(dāng)于要求：如果x*是演化穩(wěn)定策略，當(dāng)干擾使x小于x*時，dx dt必須大于0，當(dāng)打擾使x大于x*時，dx dt必須小于0，也就是演化穩(wěn)定策略所在的復(fù)制動態(tài)方程的導(dǎo)數(shù)必須小于0。

當(dāng) B上增-C上＜0，即 B上增＜C上時，因為F'（1）＞0，同理可得x*=0是演化穩(wěn)定狀態(tài)，此時上游政府從“保護”策略逐漸趨向于“不保護”策略，“不保護”策略逐漸演化為上游政府的演化穩(wěn)定策略。

綜上，當(dāng)B上增＞C上時，上游政府采取“保護”策略是上游政府的演化穩(wěn)定策略。但是，在實際生態(tài)補償中，B上增＞C上的條件很難滿足，因為上游政府在流域生態(tài)補償中的總投入通常會大于因進行生態(tài)補償而增加的收益，即C上＞B上增。因此，在實際生態(tài)補償中，通?！安槐Ｗo”策略會成為上游政府的演化穩(wěn)定策略，而社會所期盼的最優(yōu)策略無法實現(xiàn)。

2.2.2 下游政府動態(tài)演化博弈穩(wěn)定性分析

2.2.3 上、下游政府動態(tài)演化博弈模型穩(wěn)定性分析

方程（7）和方程（8）構(gòu)成了上、下游政府演化博弈的動態(tài)復(fù)制系統(tǒng)，對該系統(tǒng)的雅克比（Jacobi）矩陣進行局部均衡點穩(wěn)定分析可以檢驗該博弈系統(tǒng)的穩(wěn)定狀態(tài)，進而分析上、下游政府的策略選擇及演變。方程（7）和方程（8）所構(gòu)成的動態(tài)復(fù)制系統(tǒng)的雅克比矩陣為：

矩陣的跡為：

矩陣的行列式為：

假設(shè)社會所期望達到的最優(yōu)策略是演化博弈系統(tǒng)的演化穩(wěn)定策略，此時策略（x=1，y=1）是演化博弈分析模型的演化穩(wěn)定均衡，滿足det（J ）＞0，tr（J）＜0這兩個條件，將（x=1，y=1）代入方程（10）和方程（11）可得：

因為 R＞0，由 det（J）=R（C上-B上增）＞0可得 C上-B上增＞0，此時 C上-B上增+R＞0，與條件 tr（J）=C上-B上增+R＜0矛盾，因此假設(shè)錯誤。所以策略（x=1，y=1）不是演化博弈分析模型的穩(wěn)定均衡，即社會所期望達到的最優(yōu)策略（上游政府采取“保護”策略，下游政府采取“補償”策略）不能演變?yōu)樯嫌握拖掠握┺牡难莼€(wěn)定策略，這一結(jié)論也和本文前面分別對上游政府、下游政府策略穩(wěn)定性分析結(jié)論一致。

3 引入激勵約束機制的流域生態(tài)補償上下游政府間博弈分析

上文分析表明，僅靠上、下游政府間的決策選擇不能實現(xiàn)社會所期盼的最優(yōu)策略。因此，必須引入中央政府進行干預(yù)，讓中央政府充分發(fā)揮流域生態(tài)補償組織者、協(xié)調(diào)者和仲裁者的作用，構(gòu)建起相應(yīng)的激勵約束機制，對上、下游政府進行適度的補償、獎勵和懲罰，從而規(guī)范上游政府、下游政府的行為，促進社會所期盼最優(yōu)策略是上、下游政府的最終策略選擇。

3.1 引入激勵約束機制的博弈模型構(gòu)建

3.1.1 新增基本假設(shè)與變量設(shè)定

本文進一步假設(shè)：上游政府采取“保護”策略、下游政府采取“補償”策略是地方政府保護環(huán)境、促進流域生態(tài)資源可持續(xù)發(fā)展應(yīng)盡的義務(wù)。中央政府通過補償、獎勵和處罰的方式構(gòu)建激勵約束機制，對上、下游政府的行為進行規(guī)范。如果上、下游政府中至少有一方履行義務(wù)，中央政府則給履行義務(wù)的地方政府補償獎勵，給不履行義務(wù)的地方政府處罰；如果上、下游政府同時不履行義務(wù)，則中央政府給予雙方政府處罰。

根據(jù)以上假設(shè)，本文在研究中新增三個變量，分別為：

R0：當(dāng)上游政府、下游政府中同時履行義務(wù)或只有一方履行義務(wù)時，中央政府給予履行義務(wù)政府的補償獎勵額度；

F：當(dāng)上游政府、下游政府中只有一方不履行相應(yīng)義務(wù)時，中央政府給予不履行義務(wù)的單方面政府的處罰額度；

Q：當(dāng)上游政府、下游政府中均不履行相應(yīng)義務(wù)時，中央政府給予雙方政府的處罰額度；

3.1.2 引入激勵約束機制的流域生態(tài)補償博弈模型

根據(jù)新增基本假設(shè)與變量設(shè)定，可以得到激勵約束機制下流域上、下游政府的收益函數(shù)，進而構(gòu)建引入激勵約束機制的流域生態(tài)補償博弈模型，如表2所示：

表2 引入激勵約束機制的流域生態(tài)補償博弈模型

3.2 博弈分析

3.2.1 引入激勵約束機制的靜態(tài)博弈分析

靜態(tài)博弈分析中，流域上下游政府均是完全理性主體，雙方通過一次博弈確定最終策略選擇。對于上游政府來說，無論下游政府采取何種策略，上游政府選擇“保護”策略的收益均要大于選擇“不保護”策略的收益；對于下游政府來說，無論上游政府采取何種策略，下游政府選擇“補償”策略的收益均要大于選擇“不補償”策略的收益。因此，可得靜態(tài)博弈中實現(xiàn)社會所期盼最優(yōu)策略需要滿足的條件是：

求解不等式組（13）可得：

通過以上分析可知，如果要在靜態(tài)博弈中通過一次博弈實現(xiàn)社會所期盼的最優(yōu)策略，中央政府需要構(gòu)建激勵約束機制，且補償、獎勵和處罰的額度需要滿足不等式組（14）。

3.2.2 引入激勵約束機制的動態(tài)演化博弈分析

根據(jù)表2可以得到激勵約束機制下上游政府采取“保護”策略、下游政府采取“補償”策略的復(fù)制動態(tài)方程，分別為：

根據(jù)方程（15）和（16），可以做出如下分析：

（1）引入激勵約束機制的上游政府動態(tài)演化博弈穩(wěn)定性分析

從方程（15）可知，對于上游政府來說：

在實際補償中，因為上游政府采取“保護”策略，下游政府采取“補償”策略是社會所期盼的最優(yōu)策略，也就是說隨著演化的推進，下游政府采取“補償”策略的比例y不斷趨近于1，如果0＜y*＜1成立，那么 y＞y*的條件必然成立。因此，在實際補償中，如果要實現(xiàn)社會最期盼的策略組合，需要滿足條件F＞Q。

（2）引入激勵約束機制的下游政府動態(tài)演化博弈穩(wěn)定性分析

同理，對于下游政府來說：

當(dāng)x=x*=（R-R0-Q（F-Q）,且0≤x*≤1成立時，G（y）始終等于0，對于所有y都是下游政府的穩(wěn)定狀態(tài)，不符合社會所期盼的最優(yōu)策略。

當(dāng) x＜x*=（R-R0-Q（F-Q）時，如果 F＞Q ，因為此時 y*=0是下游政府的演化穩(wěn)定策略；如果 F＜Q ，因為此時 y*=1是下游政府的演化穩(wěn)定策略。因此，當(dāng)上游政府以x＜x*的水平采取“保護”策略時，要使下游政府采取“補償”策略，實現(xiàn)社會所期盼的理想策略，必須滿足F＜Q的條件。

同樣，在實際補償中，由于隨著演化的推進，上游政府采取“補償”策略的比例x越趨近于1，如果0＜x*＜1成立，那么x＞x*的條件必然成立。因此，在實際補償中，如果要實現(xiàn)社會所期盼的最優(yōu)策略組合，同樣需要滿足條件F＞Q。

（3）引入激勵約束機制的上、下游政府動態(tài)演化博弈模型穩(wěn)定性分析

方程（15）和方程（16）構(gòu)成了引入激勵約束機制后上、下游政府動態(tài)演化博弈的動態(tài)復(fù)制系統(tǒng)，該系統(tǒng)的雅克比矩陣為：

矩陣的行列式為：

矩陣的跡為：

根據(jù)方程（15）和方程（16）可得動態(tài)演化博弈系統(tǒng)的5個局部均衡點為（0,0）、（1,0）、（0,1）、（1,1）、（x*，y*），各均衡點的行列式和跡如表3所示。

表3 激勵約束機制下動態(tài)演化博弈模型局部均衡點行列式和跡

上游政府采取“保護”策略，下游政府采取“補償”策略成為動態(tài)博弈系統(tǒng)演化穩(wěn)定策略的條件是局部均衡點（1,1）是動態(tài)演化博弈的演化穩(wěn)定均衡點，此時需滿足條件：

求解不等式組（20）可得：

不等式組（21）就是上游政府采取“保護”策略，下游政府采取“補償”策略為博弈演化穩(wěn)定均衡的必要條件。在實際補償中，不僅要求上述策略是博弈的演化穩(wěn)定均衡，而且要求該策略是博弈的唯一演化穩(wěn)定均衡。因此，需要在滿足不等式組（21）的前提下進一步分析其他均衡點的穩(wěn)定狀態(tài)。

由表3可知，可以通過代數(shù)式（R0+Q+B上增-C上）和（R0+Q-R）的正負情況來進一步確定各局部均衡點的穩(wěn)定狀態(tài)。當(dāng) R0+Q+B上增-C上≠0且R0+Q-R≠0時，需要分四種情況來具體分析，分別為：

上述四種情況各局部均衡點的det（J ）和tr（J）的正負情況及穩(wěn)定性，如下頁表4所示，其中ESS為演化穩(wěn)定策略（Evolutionary Stable Strategy），鞍點是博弈系統(tǒng)的臨界點，±表示取值可能為正，也可能為負。

從表4可以看出，情況四有兩個演化穩(wěn)定策略，不符合要求，排除。而情況一、情況二和情況三均只有唯一的演化穩(wěn)定策略，且該穩(wěn)定策略就是社會所期盼的最優(yōu)策略，符合要求。因此，要使社會所最期盼的策略成為博弈系統(tǒng)的唯一演化穩(wěn)定策略，需要在滿足不等式組（21）的前提下，再滿足不等式組（22）或（23）或（24）。

同時，當(dāng)R0+Q+B上增-C上=0或R0+Q-R=0時，情況一、情況二、情況三不會新增演化穩(wěn)定策略，社會所期盼的最優(yōu)策略依然是唯一演化策略，符合條件。且從不等式組（20）和（21）可以得出，當(dāng) R0+Q+B上增-C上＞0時，無論代數(shù)式R0+Q-R取值如何，博弈系統(tǒng)均只有一個演化穩(wěn)定策略。

綜上所述，激勵約束機制下實現(xiàn)上游政府選擇“保護”策略、下游政府選擇“補償”這一社會所期盼最優(yōu)策略的條件是：

表4 激勵約束機制下動態(tài)演化博弈模型四種不同情況局部均衡點穩(wěn)定性分析

4 結(jié)論

本文運用博弈理論的靜態(tài)博弈分析方法和動態(tài)演化博弈分析方法對流域生態(tài)補償利益相關(guān)方的決策行為進行了研究，得出以下結(jié)論：

第一，在流域生態(tài)補償中，如果只有上游政府和下游政府參與其中，那么為了追求各自收益的最大化，上游政府會采取“不保護”策略，下游政府會采取“不補償”策略，上下游政府之間的博弈會陷入“囚徒困境”，此時上游政府沒有進行流域生態(tài)保護的積極性，下游政府也沒有進行生態(tài)補償?shù)膭恿?，從而處于一種惡性循環(huán)狀態(tài)，流域生態(tài)資源會過度使用，流域生態(tài)系統(tǒng)不斷遭受破壞。也就是說，依靠上、下游政府間的自主選擇無法實現(xiàn)上游政府采取“保護”策略、下游政府采取“補償”策略這一社會所期盼的最優(yōu)策略。

第二，要想在流域生態(tài)補償中實現(xiàn)社會所期盼的最優(yōu)策略，必須引入中央政府進行干預(yù)，讓中央政府充分發(fā)揮流域生態(tài)補償組織者、協(xié)調(diào)者和仲裁者的作用，構(gòu)建起相應(yīng)的激勵約束機制，對上、下游政府各種行為進行相應(yīng)的補償、獎勵和懲罰，并且補償、獎勵和懲罰的額度必須滿足一定條件才能起到激勵約束的效果，從而規(guī)范上游政府、下游政府的行為，使得上游政府選擇“保護”策略、下游政府選擇“補償”策略。

[1]高文軍,郭根龍,石曉基.基于演化博弈的流域生態(tài)補償與監(jiān)管決策研究[J].環(huán)境科學(xué)與技術(shù),2015,38（1）.

[2]李昌峰,張孿英,趙廣川等.基于演化博弈理論的流域生態(tài)補償研究——以太湖流域為例[J].中國人口·資源與環(huán)境,2015,24（1）.

[3]胡振華,劉景月,種美瑞等.基于演化博弈的跨界流域生態(tài)補償利益均衡分析——以漓江流域為例[J].經(jīng)濟地理,2016,36（6）.

[4]胡小飛,傅春.自然保護區(qū)生態(tài)補償利益主體的演化博弈分析[J].經(jīng)濟縱橫,2013，（9）.

[5]徐大偉,涂少云,常亮等.基于演化博弈的流域生態(tài)補償利益沖突分析[J].中國人口·資源與環(huán)境,2012,22（2）.

[6]王俊能,許振成,彭曉春.流域生態(tài)補償機制的進化博弈分析[J].環(huán)境保護科學(xué),2010,36（1）.

[7]曲富國,孫宇飛.基于政府間博弈的流域生態(tài)補償機制研究[J].中國人口·資源與環(huán)境,2014,24（11）.