劉 莊
內容提要: 法學作為社會科學,其理論命題必然從社會生活中總結而來,也應當接受經驗證據的進一步檢驗。這種從經驗到命題,又從命題到經驗的研究方法(或“猜想與反駁”的方法),被視為實證科學發(fā)展的關鍵甚至唯一路徑。實驗方法是一種總結經驗并用經驗證據論證或反駁命題的方法,在包括社會科學內的各類實證科學中得到普遍使用。與以往的社會科學研究方法相比,實驗方法更具科學的精確性和可驗證性。在法學中,實驗方法可以應用在研究法律實施效果、研究法官決策等領域。具體地,實驗方法可以分為人工可控實驗、自然實驗、田野實驗等。我們常強調要加強立法和司法的科學性。提高科學性,需要調查和研究,需要不斷用實際生活來檢驗法律。實驗是我們需要考慮的一種研究方法。
目 次:一、研究法律的效果
二、研究法官的決策
三、多組間實驗設計
四、田野實驗
五、實驗方法在法學研究中的定位*
香港中文大學(深圳)經管學院助理教授。
我們通常所說的科學(包括自然科學和社會科學)可以分為兩類:一類是以數學和邏輯為代表的,以分析方法為手段的科學,核心是從一系列公理系統(tǒng)出發(fā)演繹出一套命題;另一類是以物理學、經濟學為代表的,以對經驗事實的總結為基礎,進而提出理論即因果關系的科學。我們稱后者為實證科學或經驗科學。一般來說,實證科學提出的任何命題都要進行實證性的驗證。我們通常用實驗的方法來做這種驗證。
在實證科學中,實驗方法又可以分為人工可控實驗和自然實驗。前者的典型例子,如著名的伽利略“兩個鐵球同時落地”實驗,它推翻了亞里士多德“物體下落速度和重量成比例”的學說。就自然實驗而言,科學史上最著名的例子可能是1919年5月29日的日食現(xiàn)象,這一天,愛因斯坦的廣義相對論在非洲和巴西的日全食中得到了驗證——愛因斯坦的理論預計光束的路徑通過質量足夠大的物體周邊時會被該物體引力扭曲,而星光繞太陽彎曲則能驗證這點。日全食時,人們確實觀測到太陽周邊背景上恒星位置和平常觀測到的位置不同。這就證實了其廣義相對論的預測。在這里,平常恒星的位置是實驗“控制組”(或稱“對照組”),而日食時恒星位置則是“實驗組”。人們通過外來的因素“日食”找到了自然形成的控制組和實驗組,進而驗證了愛因斯坦的理論。
人們一般所說的“實驗”,多指人工可控實驗。本文介紹實驗方法在法學中的應用。由于是對方法的介紹,我們不對文獻進行完整回顧,只選擇有代表性的研究作為例子加以說明。
法學中一切涉及法律效果的命題,理論上,都可以用實驗的方法驗證。這些命題的本質是認定哪種規(guī)則“更好”,它幾乎涵蓋了法律的方方面面。
從簡單的問題說起。我國所有高速公路都設有最高時速限制,這可以說是最基本的法律規(guī)則。將一個路段的最高時速限制為80、100或120公里,有兩個最基本的考慮:一是車輛的通行效率,二是事故的發(fā)生概率和嚴重性。在一個路段,為了比較哪種限速的效果更好,我們可以采用實驗的方法。比如,在為期兩個月的實驗時間內,我們在隨機產生的一半的天數將限速設置為80公里,另一半則設為100公里。我們比較這兩種規(guī)則下車輛的通行效率和事故情況,進而確定哪一規(guī)則總體效果更好,更適用于這一路段。最后,我們將這一規(guī)則設定為長期的限速規(guī)定。這就是研究法律效果的實驗方案。
與此相似的例子很多。各國合同法上的違約責任,要么采取以實際履行為默認規(guī)則,要么采取以違約賠償為默認規(guī)則。作為理論假設,我們當然可以提出,實際履行比違約賠償更好,或者相反,但這些命題需要實際生活的驗證。實驗是一種驗證的方法。比如,我們可以在我國隨機抽取的一半的市、縣采實際履行為默認規(guī)則,另一半市、縣采損害賠償為默認規(guī)則;我們觀察這兩組市、縣合同糾紛的具體情況,如合同糾紛發(fā)生的概率、合同糾紛涉及的成本等,進而確定哪一規(guī)則更優(yōu)。1實際上,已有學者用另一種實驗方法對此問題進行了研究,見Christoph Engel and Lars Freund, “Behaviorally Efficient Remedies-An Experiment” (September 1, 2017),MPI Collective Goods Preprint, No. 2017/17,available at https://ssrn.com/abstract=2988653。又如,2017年施行的《民法總則》將限制民事行為能力人的年齡下限從《民法通則》規(guī)定的十周歲調整為八周歲。將民事行為能力下限設為多少歲,其核心考慮顯然是該規(guī)則的社會效果——是設為十歲好,還是設為八歲好?我們也可以設想一種實驗,在我國一半的市、縣將民事行為能力年齡下限設為十歲,另一半市、縣則設為八歲,并觀察兩組市、縣因民事行為能力而出現(xiàn)糾紛的情況,進而確定哪一規(guī)則效果更佳。實踐中,我們確實也有著為了考察法律效果而進行實驗的例子。改革開放之初設立經濟特區(qū),可以視為一種實驗。我們通過考察經濟特區(qū)是否有優(yōu)于中國其他地區(qū)的經濟和社會發(fā)展水平,來判斷經濟特區(qū)所采納的“一攬子”法律政策是否更有利于經濟特區(qū)的發(fā)展。
從以上例子看,實驗的本質是創(chuàng)造一組控制組和實驗組,而控制組和實驗組在我們關注的研究因素上有顯著的不同。我們通過研究控制組和實驗組在實驗后果上的不同,推斷研究因素和實驗后果是否有因果關系。所有涉及法律效果的命題都可以通過實驗來檢驗,但現(xiàn)實中,并不是所有實驗都是可操作的。比如,實驗涉及很多的成本,也可能違背我國單一制的原則。但是,在重要的問題上,我們仍然希望通過實驗方法慎重地檢驗法律或政策的效果,經濟特區(qū)就是其中一個例子。
目前,西方已經有不少研究通過實驗的方法探索法律的效果。試舉以下例子加以說明。在合同法中,人們?yōu)槭裁醋袷睾贤?,以及什么樣的合同法?guī)則能促進人們履行承諾,是一個基本的問題。理論上,人們遵守合同,可能是因為訂立合同時的承諾給自己帶來了道德感和道德義務,也可能是因為擔憂違約將給自身帶來經濟上的損失。作為立法的考量,如果大多數人是因為道德義務而信守合同,那么,實際履行是一個較好的違約責任原則;而如果人們是因為擔心違約的后果而遵守合同,那么,期待利益損失原則是更好的立法選擇。為了研究這一基本問題,美國西北大學的艾根教授(Zev Eigen)開展了一項實驗。實驗在互聯(lián)網上進行,研究者設計了一個問卷網站,邀請美國各地網民參與一項“答題送DVD”活動——參與者認為正在參與一項調查活動,而并不知道正在參與實驗研究。參與者登錄網站時,與網站達成一項協(xié)議,協(xié)議的內容包括:第一,參與者承諾回答完網頁上的所有問題;第二,如果參與者回答完所有問題,網站承諾向參與者寄送一張電影DVD作為獎勵,如果未回答完畢,則不寄送該DVD。實際上,這個問卷包含數百道問題,研究者預計數百名參與者中沒有人會完成全部問題。實驗的關鍵在于,在參與者感到不耐煩并決定放棄(違約)時,需要點擊“退出”鍵,而此時,網絡頁面將彈出對話框,一組參與者看到的是“如果您現(xiàn)在退出網站,將不能得到我們的獎品”,另一組參與者則看到“如果您現(xiàn)在退出網站,將違背自己許下的承諾”。研究者希望觀察,在出現(xiàn)這兩種提示時,哪種提示會促使更多的參與者回到回答問卷的過程中去——繼續(xù)遵守承諾、履行合同。實驗結果是,在第二組中有顯著更多的參與者經過思考取消了立即退出的決定,回到了答卷的過程中。可見,當僅考慮利益損失時,參與者更傾向于違約;而當考慮道德義務時,參與者更可能遵守合同。通過這樣的設計,這一實驗試圖說明,人們遵守承諾,主要是出于自身道德感的要求,而非功利的計算。2Zev J. Eigen, "When and Why Individuals Obey Contracts: Experimental Evidence of Consent, Compliance, Promise, and Performance", J. Legal Stud., Vol. 41, No. 1 (January 2012), p. 67.作為對立法的啟示,作者希望論證,合同法具體規(guī)則的制定,要注重引導人們的道德感,用道德感降低違約的可能性,促進守約并提升效率。
分析這一研究,我們看到,實驗的設計有兩個關鍵:第一,組別間(控制組和實驗組間)實驗對象的同質性。比如,要保證以上的實驗是合理的,我們需要兩組在性別、年齡等方面大體相同的參與者。實踐中,我們一般用隨機分配來保障同質性,即我們一般從總體中獲取一定的樣本,并將一部分樣本隨機分配到實驗組,另一部分樣本隨機分配到控制組——比如,以上的實驗將所有網上參與者隨機分配到了兩組中,兩組參與者看到了不同的退出提示。而如何完成隨機分配,是一個技術細節(jié),其基本原理可以用拋硬幣來理解:對于一個100人的樣本,我們對每個人拋擲一次硬幣,獲得正面時,則將其分配至實驗組,背面時,則分配至對比組。實踐中,許多實驗軟件(如Qualtrics平臺)自帶隨機分配功能,我們可以借助其進行隨機分組。如果不使用實驗軟件平臺,我們可以用Excel等辦公軟件生成隨機數,對實驗對象進行隨機分配。
第二,實驗的“干預”,或稱“刺激”(stimulus),是不同的。我們通過觀察不同的“干預”在同質的對象間產生的不同效果,來確定干預與效果間的因果關系。比如,以上實驗的“干預”,是對道德感和利益損失的不同提示。當然,要使干預產生效果,我們需要足夠大的樣本量,以獲取統(tǒng)計上的功效(power)。一般而言,樣本量越大,越容易得到統(tǒng)計上穩(wěn)健的結果。不過,獲取樣本需要成本,一個好的研究需要權衡統(tǒng)計的穩(wěn)健性和實驗的可操作性。以上這兩點是所有實驗設計的最基本原理。
通過這個例子,我們也略加探討檢驗實證研究是否科學的兩項標準,即“內部有效性”和“外部有效性”標準。內部有效性,一般是指一項實驗(或其他實證研究)的結論,在多大程度上是明確的和可信的;外部有效性,一般是指實驗得出的結論,在多大程度上可以推廣到真實世界中去。實驗研究的內部有效性,主要依靠樣本的隨機分配來保障,一般不成為嚴重的問題。3相反,實驗以外的實證研究方法由于沒有樣本的隨機分配,則要考慮很多與內部有效性相關的問題。對實驗研究的科學性挑戰(zhàn)較大的是外部有效性問題。就以上實驗而言,我們需要提出的問題是:研究者在一個特定的互聯(lián)網問卷的場景下發(fā)現(xiàn),影響人們遵守合同與否的主要因素是道德義務而非利害權衡。但是,這一結論在多大程度上能成為一般的原理,推廣到與違約相關的所有場景呢?一些合理的懷疑包括:第一,這一實驗場景涉及的利益較小,可能僅在利益不大的場景下,道德義務對人們違約行為有約束作用,而在利益較大的場景,道德義務的作用并不明顯,因而,這一研究結論并不能適用到合同法的所有領域;第二,人們在網上交易和線下交易,對道德義務和違約責任的認知不同,這一研究結論對線下的合同場景可能并不適用;第三,參與網上實驗的人,可能來自收入較低的群體,其與一般消費者的行為特征可能并不一致。
我們需要注意,所有的實證類科學研究都使用具體場景推測一般理論,因而,外部有效性對所有科學部門而言都是潛在的問題。當然,這一問題在自然科學中并不嚴重,而在社會科學中顯得比較關鍵。不過,我們似乎不應對外部有效性的要求過于苛刻??茖W的發(fā)展在于經驗證據的不斷積累,只要有一定的發(fā)現(xiàn),即可視為好的研究。
最后,值得指出的是,用實驗研究評估法律效果,在社會科學較為發(fā)達的國家已經被應用于很多領域。在美國,人工可控實驗被用于研究餐飲業(yè)衛(wèi)生監(jiān)管規(guī)則是否提高餐廳衛(wèi)生質量、金融業(yè)披露規(guī)則是否促進投資者對金融產品的正確理解、社會保險的強制性選擇是否促進社會福利等各個領域。
實驗方法的另一大應用領域是對法官決策過程的研究。對法官行為和決策過程的剖析,是近年來美國法學研究的一個前沿。比如,波斯納(Posner)法官和他的合作者,著名政治科學家愛潑斯坦(Epstein)以及經濟學家蘭德斯(Landes),在2013年出版《聯(lián)邦法官行為》(The Behavior of Federal Judges)一書,提出了關于法官行為的理性選擇理論,并以實證方法驗證這一理論。4Lee Epstein, William M. Landes & Richard A. Posner, The Behavior of Federal Judges: A Theoretical and Empirical Study of Rational Choice, Harvard University Press, 2013.事實上,法官行為這一研究領域方興未艾,很多問題亟待探索,是法學、經濟學和政治學持續(xù)關注的熱點。
由于法官的決策過程很大程度上是一個心理學和認知科學的現(xiàn)象,而實驗是心理學和認知科學的主要研究方法,因而,實驗在法官決策領域有著天然的應用價值。在一些較為早期的研究中,學者著重用實驗方法研究一些“法外因素”是否會給法官的決策帶來影響,以康奈爾大學法學院的法學和心理學家拉林斯基(Rachlinski)的一系列文章最為著名。
在一項實驗中,包括拉林斯基在內的幾名研究者希望探索法官的感情是否影響法官對案件的決策。5Andrew J. Wistrich, Jeffrey J. Rachlinski & Chris Guthrie, "Heart versus Head: Do Judges Follow the Law of Follow Their feelings", Tex. L. Rev. ,Vol.93 (2014) ,p.855.為此,研究者制作了多則刑事案件材料,組織美國法官閱讀這些材料,并作出判決。這些法官又被分為控制組和實驗組,兩組的材料略有不同,以期引起法官不同的情感反應。比如,在一個實驗中,作者提供了如下案例:一名來自秘魯的被告被指控為非法移民。被告在進入美國時,將一張偽造的簽證粘貼于真實的護照上。法官需要判斷這一行為是否構成美國國內法上的“偽造身份證”(forging an identification card)。如果不構成這一行為,被告將被移交移民局并遣送出境;而如果構成這一行為,被告不但要被遣送出境,還要被判處有罪,并在出境前被處最高180天的監(jiān)禁。在實驗組,被告被描述為一名秘魯的毒品幫派成員,非法進入美國是為了暗殺一名叛逃組織的成員;在控制組,被告則被描述為一名慈愛的父親,非法進入美國是為了獲取一份工資更高的工作,以救治患病在家的女兒。顯然,作者希望在控制組和實驗組中引起法官不同的情緒,并觀察情緒對法官判決的影響。通過分析數據,作者發(fā)現(xiàn),實驗組的法官相比于控制組的法官更傾向于判決被告的行為構成“偽造身份證”。需要注意,由于行為是否構成“偽造身份證”是一個事實判斷,理論上,不應與被告進入美國的動機有關聯(lián),因而,被告的動機實際上是與本案無關的“法外因素”。而恰恰是這一法外因素,影響了法官的最終判決。通過這一研究,作者證明了情感因素會對法官決策產生關鍵性的影響。
除了以上對情感與判決關系的研究,拉林斯基等研究者還使用同樣的實驗方法,探索了行為經濟學中的各種認知偏誤與法官決策的關系。他們發(fā)現(xiàn),錨定效應、框架效應、損失厭惡等認知偏誤都對法官的判決有著關鍵性的作用——換句話說,法官容易受各種認知偏誤的誤導。這無疑對法律的穩(wěn)定性和公正性提出了挑戰(zhàn)。6Chris Guthrie, Jeffrey J. Rachlinski & Andrew J. Wistrich, "Inside the Judicial Mind", Cornell L. Rev., Vol.86 (2000) ,p.777.
值得指出的是,在法律認知科學領域,我國學者走在世界前沿。比如,在一個關于認知流暢度的實驗中,李學堯、葛巖、何俊濤、秦裕林組織數十名法官現(xiàn)場閱讀一則刑事案件材料,并要求他們作出判決。這兩組法官又被隨機分配至控制組和實驗組。實驗組中,案例閱讀材料被設計為字體較小、較難辨識,控制組的材料則字體較大、辨識清晰。法官在閱讀時,兩種材料給他們帶來的認知負擔和認知流暢度不同。通過分析實驗數據,作者發(fā)現(xiàn),在認知負擔重、認知流暢度差的實驗組,法官給出的判決更重。這就初步建立了認知負擔、流暢程度和判決輕重間的因果關系,是一項重要的科學發(fā)現(xiàn)。7李學堯、葛巖、何俊濤、秦裕林:《認知流暢度對司法裁判的影響》,載《中國社會科學》2014年第5期。注意到,認知流暢度同樣是一項法外因素,實踐中,我們希望盡量降低這些法外因素對判決的影響。
以上的研究在方法上有很大的相似性,他們都通過在實驗室中(或課堂上)向法官集中發(fā)放問卷的方法來開展實驗。這些研究在案件的選擇和流程的設計上非常精巧,提供了較高的內部有效性;同時,他們以真實的法官為實驗對象,使實驗發(fā)現(xiàn)有著一定的外部有效性。不過,人們對這些研究的疑慮也往往集中在它們的外部有效性上。比如,在實驗中,法官往往僅使用十幾分鐘的時間閱讀一則一兩頁紙的案例,進而進行判決;而現(xiàn)實中,法官有更多的時間研究更為細致的案卷材料,也有機會在庭審中聽取案件當事人的當庭陳述。就此,法外因素或許僅能在實驗中而非真實世界中對法官決策產生影響。這引發(fā)我們思考,如何才能提高實驗研究的外部有效性,即可推廣性。
提高外部有效性的一個方法是提高實驗的真實性,或者說,讓實驗場景更好地模擬法官真實的決策過程。為了增加真實性,哈佛大學法學院斯堡曼(Spamann)教授、洪堡大學法學院克魯恩(Kl?hn)教授和我設計了一項較為復雜的實驗。我們選取了一個海牙國際刑事法庭的案件,并編寫程序制作了一個電子審判系統(tǒng)。在該系統(tǒng)中,參與者——法官可以通過索引和鏈接獲取與案件相關的所有材料,包括起訴書、案件事實、法律條文、相關判例、初審法庭意見等。參與者有一個小時的時間閱讀材料并作出判決。我們記錄參與者的閱讀順序、閱讀時長、判決結果和裁判理由。在各種材料中,我們又穿插了實驗組和控制組的設計,用以比較法外因素和法律因素對法官判決的相對重要性。這項實驗研究在中、美、英、德、法、阿根廷、印度等國分別開展,以比較各國和各法系法官思維的異同。實驗產出了不少新的發(fā)現(xiàn)。比如,通過對實驗數據的初步分析,我們明確地看到,中國法官在判決中受判例的影響非常顯著,同時,他們花在閱讀和分析判例的時間顯著大于閱讀法條的時間;然而,他們并不在判決說理中提及判例對判決的影響。換句話說,法官有意遮掩了判例對決策的決定性影響——這當然與我國不允許法官在裁判文書中援引判例的制度相聯(lián)系,但它也顯示了中國法官一些特殊的思維特征,以及現(xiàn)有裁判文書寫作制度可能存在的缺乏透明度的問題。8Zhuang Liu, Lars Kl?hn & Holger Spamann, "Precedent in China", Unpublished Manuscript.
以上研究都僅涉及控制組和實驗組的直接對比。就一些特定問題而言,直接對比并不能很好確定因果關系并得出實驗結論。因此,有時我們需要更為復雜的實驗設計。下面以我的一項研究為例進行說明。9Zhuang Liu, "Does Reason Writing Reduce Decision Bias? Experimental Evidence from Judges in China", J. Legal Stud.,Vol. 47, Issue 1(2018), p.83.
近年來,法官行為領域的研究重點出現(xiàn)了一個變化:從側重研究法外因素對法官決策的影響,轉向研究有哪些法律程序可以降低法外因素的影響強度。我的一項實驗研究發(fā)現(xiàn),要求法官在判決前寫下說理將有效降低法外因素對法官判決的影響。這一實驗整體采用了2×3(共六組)的組間比較。不過,為了方便說明,我們僅介紹其中2×2(共四組)的組間設計部分。這一設計較一般的實驗組和控制組的2組組間設計略為復雜。具體而言,我將一定數量的法官隨機分配至四個組別中(見下表)。法官閱讀一則刑事案件材料,并作出判決。案件中,被告(女)駕車在小區(qū)車庫出口遭到幾名男性搶劫,被告車窗被砸碎,放于副駕駛一側座椅上的提包被搶走。幾名男性得手后,乘坐一輛摩托車準備逃走。被告駕車追逐摩托車,摩托車側翻,以高速沖入道路隔離帶中,致幾名搶劫犯嫌疑人死亡和重傷。被告被檢察機關以犯有過失致人死亡罪起訴。被告稱其行為屬于對正在發(fā)生的犯罪實施的正當防衛(wèi),不應被判處有罪。
在設計上,我將一半法官隨機分配到了實驗組(A組與C組)。實驗組中,法官得知被告是一名政府官員,被搶提包中的數萬元人民幣系其當天索賄所得,該案已另案處理。顯然,實驗組的干預是為了引起法官對本案被告在情感上的反感。需要注意,被搶的現(xiàn)金是否系索賄所得與本案被告是否構成正當防衛(wèi),在法理上并不存在任何關系,因此是一個典型的法外因素。根據以往的研究,法外的情感因素可能會影響法官作出公正的判決。
這一實驗的重點在于研究說理是否能夠降低法官受法外因素影響的程度。為此,我要求實驗組和控制組中各一半法官(C組與D組法官)在作出判決前寫下其判決理由;對另一半的法官(A組和B組法官)則不做此要求。我希望通過組間的比較來確認:寫下說理的組別中,法官受法外因素影響的程度是否較低。通過四組間的比較,我發(fā)現(xiàn):第一,法外因素的影響確實存在(A組法官給出的判決顯著重于B組法官的判決);第二, 說理確實降低了法外因素的影響(C組與D組法官的判決差異較?。?。
要求判決前說理實驗組(被告品格較差) A組 C組控制組 B組 D組組別 不要求判決前說理
對以上的研究問題,采用實驗組和控制組直接對比并不能得出科學的結論。比如,我們不能僅通過比較C組和D組法官的判決得出以上結論。這時,即便C組和D組的判決不存在顯著差異,我們也并不能確定是說理降低了法外因素的影響,還是法外因素的設計并不成功。我們也不能僅比較A組和C組法官判決的異同。這是因為,如果缺乏B組和D組作為標桿,我們并不能明確得知說理降低決策偏誤的程度??梢钥吹?,實驗設計的本質是比較組間的差異。如何設計組間比較,有多種方法。這些方法要隨著研究的問題而定。
在本文開頭我們提到,實驗分為人工可控實驗(實驗室實驗)和自然實驗。上文的例子大體都來自實驗室實驗。而實驗室實驗的方法在社會科學研究中存在一大“瓶頸”,即研究的外部有效性問題:人們往往不能確信在實驗室中發(fā)現(xiàn)的規(guī)律在多大程度上能夠推廣到真實世界中。
與此相比,自然實驗的方法一般不存在外部有效性問題。這是因為,自然實驗研究的是社會生活中自然形成的現(xiàn)象,這些現(xiàn)象恰好形成了類似于實驗室實驗的控制組和實驗組。文章開頭的例子來自自然科學,我們再試舉一個社會科學中自然實驗的例子:我國冬季供暖以淮河為界,淮河以北的城市,冬季統(tǒng)一供暖。研究者發(fā)現(xiàn),淮河以北一緯度內的城市,其空氣中可懸浮顆粒物比淮河以南一緯度的城市高70%,而北部城市人均壽命低于南部城市5.5年。由于南北城市在GDP、人口數量、產業(yè)布局等要素上同質性很強,研究者判斷壽命的差異是由空氣污染造成的,而空氣污染的區(qū)別又主要是由冬季統(tǒng)一供暖引起。10Yuyu Chen, Avraham Ebenstein,Michael Greenstone & Hongbin Li, "Evidence on the Impact of Sustained Exposure to Air Pollution on Life Expectancy from China's Huai River Policy", Proceedings of the National Academy of Sciences,Vol.110,Issue32 (2013) ,p.12936.在這里,淮河沿線南北城市互相構成了對方的對比組,形成了一個很好的自然實驗。實際上,自然實驗是當代實證經濟學上最被廣泛接受的研究方法,又演化成為如雙重差分法、斷點回歸、工具變量等較為成熟的研究設計。
顯然,自然實驗方法也有其應用上的限制:并不是所有我們關心的問題都恰好能對應由自然狀態(tài)形成的實驗,因而,研究者的研究范圍在很大程度上受限于可得的數據和信息。另外,在社會科學中,人們也很難像在實驗室中那樣自如控制實際社會經濟生活,這更加限定了自然實驗方法的應用范圍。
那么,有沒有一種研究方法,既能解決外部有效性問題,又能使研究者介入社會生活,通過改變刺激(干預)來觀察現(xiàn)實中的因果關系呢?近些年來,社會科學領域出現(xiàn)了一類新型研究方法——田野實驗(field experiment,或稱“現(xiàn)場實驗”),實現(xiàn)了類似的功能。田野實驗不同于在實驗室中進行的人工可控實驗,它通常涉及對真實世界的介入和干預;它也不同于由獨立于研究目的事件引發(fā)的自然實驗。它在方法上既包含了對現(xiàn)實的干預,又超出了實驗室之外,描述了真實世界的規(guī)律。
在一項發(fā)表在《美國國家科學院學報》的研究中,來自耶魯大學生物學、心理學、管理學等多個專業(yè)的學者希望測試科研機構培養(yǎng)科學家時是否存在性別歧視。他們制作了兩份一樣的簡歷,唯一不同的是簡歷人的姓名:一份簡歷寫著典型的男性姓名,另一份寫著典型的女性姓名。研究者將這些簡歷投給美國一百多家高??茖W實驗室,應聘實驗室主管職位。結果是,即便男女簡歷內容完全一樣,男性姓名的簡歷得到了潛在雇主顯著更高的評價;同時,這些實驗室向這些男性提供了更高的工資。這驗證了美國科學領域性別歧視的廣泛存在。11Corinne A. Moss-Racusin et al., "Science Faculty's Subtle Gender Biases Favor Male Students", Proceedings of the National Academy of Sciences, Vol.109(2012) ,p.16474.在一項類似的研究中,來自芝加哥大學布斯商學院的研究者瑪麗安·伯川德(Marianne Bertrand)用類似的方法研究了勞動力市場上的種族歧視。12Marianne Bertrand &Sendhil Mullainathan, "Are Emily and Greg More Employable than Lakisha and Jamal? A field Experiment on Labor Market Discrimination", American Econmic Review, Vol. 94, No. 4 (2004) ,p.991.她在西雅圖和芝加哥等地的報紙上刊發(fā)求職簡歷,試圖尋找工作。結果是,指代白人姓名的簡歷得到了顯著更多的回復和面試機會。這證明了美國就業(yè)市場上種族歧視現(xiàn)象的存在。
另一項研究中,哈佛大學年輕的經濟學家拉杰·切蒂(Raj Chetty)與一家美國超市合作研究消費者行為。13Raj Chetty, Adam Looney & Kory Kroft, "Salience and Taxation: Theory and Evidence", American Econmic Review,Vol. 99,No. 4 (2009), p.1145.他們先觀察超市商品價牌標價不含稅時的銷售量,再改變價牌標示方式,使其價格包含稅金,進而觀察同類商品銷售量。研究者發(fā)現(xiàn),雖然這兩種標價方式下消費者支付的全款是相同的,但在價牌標價含稅時——消費者第一眼看到的價格更高時,商品的銷售量顯著降低。這一研究通過介入價格標示體系,展現(xiàn)了消費者決策中的非理性因素,也展現(xiàn)了不同的稅率標注體系可能給消費者福利帶來的影響——而價內稅和價外稅如何標注,恰恰是稅法的最基本問題。
在經濟學界,最著名的運用田野實驗方法的研究者當屬芝加哥大學經濟學系的李斯特(John List)教授,其著作《Why軸》(The Why Axis)也是一本經濟學名著。14List John & Uri Gneezy, The Why Axis: Hidden Motives and the Undiscovered Economics of Everyday Life, Random House, 2014.在一項研究中,研究者在廈門萬利達集團進行了為期6個月的實驗。研究者將工人分為兩組,其中一組獲得的激勵是“如果你們小組的平均生產效率超過每小時400件,你每周會獲得80元的獎金”,另外一組獲得的激勵是“你們會獲得一次性的獎金320元,但如果某個星期你們小組的平均生產效率低于每小時400件,你的工資會減少80元”。他發(fā)現(xiàn)相比獎勵,懲罰對提高生產力更有效果。顯然,害怕失去現(xiàn)有利益比增加預期收益對工人的激勵更強——雖然這兩者的經濟實質是相同的。這巧妙地驗證了行為經濟學中著名的框架效應,即人們對損失的厭惡超過對同等收益的偏好。
以上三個例子體現(xiàn)了田野實驗的兩項重要特點:第一,田野實驗通過巧妙地介入實際社會經濟生活而驗證一定的命題,有實驗室實驗人工可控、自由靈活的特點。第二,這種實驗通常在實際生活中進行,其外部有效性,或結論的可推廣性,比一般的實驗室實驗更為可靠。綜合來看,田野實驗是一種結合了人工可控實驗和自然實驗兩者優(yōu)點的研究方法。事實上,它也在當今的社會科學,特別是經濟學研究中嶄露頭角,甚至成為學界最為追捧的研究方法。
同時,這一方法也逐漸從經濟學遷移到了其他社會科學領域。比如,在法學研究中,學者以田野實驗的方式研究了以色列一家幼兒園如何懲罰放學時遲到(接回兒童)的家長。15Uri Gneezy & Aldo Rustichini, "A Fine Is A Price", J. Legal Stud. ,Vol.29,No.1 (2000).一開始,幼兒園將遲到的家長姓名公布;隨后,幼兒園取消了這種聲譽懲罰措施,而改成金錢懲罰。研究者發(fā)現(xiàn),改為金錢懲罰后,遲到的家長明顯增多。雖然最后幼兒園又恢復了聲譽懲罰措施,但這時遲到家長數目并沒有明顯降低。這一研究說明:很多時候,聲譽較金錢懲罰是更好的預防違法的社會機制;同時,已有的聲譽機制和社會規(guī)范一旦經資本化而瓦解后,很難得到恢復和重建。
當然,田野實驗也面臨著一些困難。首先是成本。并非所有田野實驗都能以較低的成本實施。比如,上述李斯特教授的田野實驗,就要耗費研究者本身和實驗所在工廠比較多的時間、精力和金錢,而工廠也要承受工人工作量的波動帶來的可能損失。其次是倫理上的限制。有許多研究領域并不適宜開展田野實驗。比如,以色列幼兒園的這項田野實驗,實際上就使原本溫和而有效的聲譽懲罰機制徹底瓦解。而什么是田野實驗的倫理邊界,也是一個學術界日益重視的問題。目前,在美國的主要大學,研究者在開展介入實際生活的田野實驗前都要經過學校倫理委員會的批準——這一制度正是出于這樣的擔憂。
總的來看,田野實驗彌補了一些原有的社會科學研究方法的不足,展現(xiàn)了很強的生機和活力。它呼喚研究者開動腦筋,走進和介入實際生活,不斷用事實和證據驗證命題和理論。它的應用前景非常廣闊。
作為本文的總結,我們簡略探討實驗方法在法學研究中的總體定位。我們在法律實踐中普遍地觀察到兩類問題,兩類問題又對應著兩種法學研究的方法——法學一部分是技藝,另一部分是科學。作為技藝的法學(或者說,狹義的“法教義學”),研究的是法律適用問題,核心是如何從卷帙浩繁的法律中準確找出與案情對應的條文,并將條文與案情結合以得出結論;作為(社會)科學的法學,研究法律與相關現(xiàn)象間的因果關系。顯然,實驗方法是用以研究后一類問題的。
如果加以細分,作為科學的法學又主要關注“(廣義的)立法”和“法律的決定因素”兩類問題。前者研究各種立法的不同社會后果,并根據我們希望獲得的社會后果來確立法律規(guī)則;后者研究什么因素決定了法律和社會制度,將法律和制度本身視為結果。我們在現(xiàn)代學科劃分中一般把法律劃為社會科學,就是更側重把法律研究視為科學研究。這并不是因為法學作為科學較其作為技藝更為重要,而僅是因為科學是唯一有必要或者有可能通過大學來教授的學問。一般認為,技藝更適合在實踐中學習。我們較為熟悉的英國的學徒制律師是其例子。
考察或預測不同立法的不同社會后果,這是把法律現(xiàn)象作為社會現(xiàn)象的原因來研究,并希圖通過改變法律來改變社會。這一般是立法者關注的問題。比如,制定婚姻法司法解釋時,婚前一方家長購置的房產產權應該歸誰;刑法修訂時,非法吸收公眾存款是否應該入罪;證券法和民事訴訟法調整時,證券集體訴訟是否應先得到監(jiān)管部門批準。這些問題的核心都是試圖通過預測法律所帶來的社會變化,進而反過來研究如何訂立法律。還有一些研究走得更遠,但關注問題的基本架構并沒有改變。比如蘇力用“送法下鄉(xiāng)”和“秋菊打官司”提出的問題:西方法制在中國基層遇到哪些難處,會給中國農村帶來哪些改變;或者是法律與金融學派的問題:法系淵源的不同是否導致了不同國家對金融投資者保護水平的不同,進而最終決定了各國歷史上的經濟發(fā)展率,形成了當今的世界格局。16Rafael La Porta, et al., "Legal Determinants of External Finance", Journal of Finance, Vol. 52, No. 3 (1997) ,p.1131以及Florencio López de Silanes, et al., "Law and Finance", Journal Of Political Economy, Vol.106,p.1113 (1998)。這些問題超越了具體的法律條文,研究作為宏大制度的法律的社會后果。
關注法律的決定因素,則是將法律現(xiàn)象作為社會力量的結果來研究。比如,上述對法官行為的一系列研究就是在探索什么因素決定了法官的決策——在很大程度上,也就是法律本身。當然,將法律視為結果來研究,還涉及很多更宏大的問題。比如,馬克思認為法律作為一種上層建筑由作為一切生產關系總和的經濟基礎所決定。17這貫徹于馬克思主義政治經濟學的始終。注意經濟基礎和上層建筑的定義,前者指一切生產關系的總和,后者指一定的社會意識形態(tài)以及與之相適應的政治法律制度等的總和。參見[德]馬克思:《資本論》(第一卷),人民出版社1975年版。實際上,這是在說不同的生產關系導致了不同的宏觀制度和微觀法律安排,揭示的是一組因果關系。再比如,韋伯認為新教倫理引發(fā)了適應資本主義生產方式的一系列法律和制度的產生。如果把法律的定義再放寬,我們看到福山的歷史終結說:資本主義生產方式決定了自由民主制是人類最終極的社會制度。18[美]福山:《歷史的終結及最后之人》,黃勝強、許銘原譯,中國社會科學出版社2003年版。這同樣是將法律作為結果來進行考察。而近年來福山不得不反駁自己提出的終結說,認為在中產階級不斷萎縮的經濟環(huán)境下,自由民主作為制度難以維持19Francis Fukuyama, "Future of History: Can Liberal Democracy Survive the Decline of the Middle Class", Foreign Aff., Vol. 91(2012), p. 53.——所提出的仍然是關于什么決定了制度和法律的命題。
凡是關于因果關系的命題,必然是從社會生活中總結而來,也應當接受經驗證據的進一步檢驗。波普爾將這種方法稱為“猜想與反駁”,將其視為科學發(fā)展的關鍵甚至唯一方法。實驗的方法,歸根結底,是一種總結經驗并用經驗證據論證或反駁命題的方法。只不過,與以往的方法相比,實驗的方法更具科學的精確性和可驗證性。當伽利略從比薩斜塔拋下兩顆鐵球的一刻,他注定將超越亞里士多德。這是方法的力量。今天,我們常常提到要加強立法和司法的科學性。提高科學性,需要調查和研究,需要不斷用實際生活來檢驗法律。實驗是我們需要考慮的一種研究方法。