• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)對(duì)法學(xué)研究的些許影響

      2015-01-21 00:35:15白建軍
      中外法學(xué) 2015年1期
      關(guān)鍵詞:總體樣本研究

      大數(shù)據(jù)對(duì)法學(xué)研究的些許影響

      白建軍(北京大學(xué)法學(xué)院教授)

      到底是相對(duì)封閉些,堅(jiān)守自身特有的話語(yǔ)模式,還是適當(dāng)打開(kāi)自己,接受其他學(xué)科的影響,一直以來(lái)都是法學(xué)研究時(shí)不時(shí)面臨的選擇。比如,經(jīng)濟(jì)學(xué)之于法學(xué)、社會(huì)學(xué)之于法學(xué)、政治學(xué)之于法學(xué),等等?,F(xiàn)如今,大數(shù)據(jù)的概念來(lái)了。不管是不是情愿,法學(xué)可能又得有所準(zhǔn)備,思考如何回應(yīng)無(wú)處不在的大數(shù)據(jù)及其影響。

      什么是大數(shù)據(jù)?有一本英國(guó)學(xué)者寫(xiě)的《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,從中大概得知何為大數(shù)據(jù)。所謂大數(shù)據(jù),有三個(gè)特征:全樣本、混雜性、相關(guān)性。其中,最重要的就是全樣本。做經(jīng)驗(yàn)研究的都知道,當(dāng)樣本等于總體時(shí),抽樣誤差為零。但是,由于財(cái)力、人力、分析技術(shù)等條件的限制,人們很難拿到全樣本。最早,國(guó)家為了知道納稅人的實(shí)際情況,就發(fā)展出各種消減、控制抽樣誤差的統(tǒng)計(jì)技術(shù)。而現(xiàn)在,隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們驚訝地發(fā)現(xiàn),即使面對(duì)海量的信息,獲取某類(lèi)現(xiàn)象的全樣本也并非完全不可能?;谶@種全樣本,人們可能更好地了解現(xiàn)實(shí)社會(huì)中的各種真實(shí)。于是,根據(jù)這些真實(shí)去預(yù)測(cè)某種現(xiàn)象的發(fā)生概率,就更可靠了??梢?jiàn),大數(shù)據(jù)并不在于樣本絕對(duì)量的大小,關(guān)鍵在于“全”。

      比如,蘋(píng)果公司的喬布斯身患癌癥,嘗試了許多種治療方法,成為世界上第一個(gè)對(duì)自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此,他支付了高昂的費(fèi)用。他得到的不是一個(gè)只有一系列標(biāo)記的樣本,而是包括整個(gè)基因密碼的數(shù)據(jù)文檔。對(duì)于一個(gè)普通癌癥患者,醫(yī)生只能期望他或她的DNA排列同試驗(yàn)中使用的樣本足夠相似。而喬布斯的醫(yī)生能夠基于喬布斯的特定基因組成,按所需效果用藥。盡管他仍然死于癌癥,但這種獲得所有數(shù)據(jù)而不僅是有限樣本的方法還是將他的生命延長(zhǎng)了好幾年。從這個(gè)意義上說(shuō),某個(gè)研究的樣本再大,哪怕達(dá)到上億,如果相對(duì)總體而言只是幾分之一,也只是大樣本而不是嚴(yán)格意義上的大數(shù)據(jù)。反過(guò)來(lái),即使對(duì)一個(gè)個(gè)體,也可能進(jìn)行全樣本的大數(shù)據(jù)研究。

      于是,我們理解了為什么說(shuō)費(fèi)孝通的《江村經(jīng)濟(jì)》、孔飛力的《叫魂》、吉爾茨的巴厘島人類(lèi)學(xué)研究、朱曉陽(yáng)的《小村故事》,盡管只聚焦某個(gè)點(diǎn),但都盡最大可能收集與這個(gè)點(diǎn)有關(guān)的全部信息,因而也是某種意義上的大數(shù)據(jù)。例如,美國(guó)學(xué)者孔飛力是個(gè)漢學(xué)家,他研究專(zhuān)制權(quán)力如何凌駕于法律之上而不是受到法律的限制;官僚機(jī)制如何試圖通過(guò)操縱通訊體系來(lái)控制最高統(tǒng)治者;最高統(tǒng)治者如何試圖擺脫這種控制。對(duì)這樣的大題目,孔飛力也是從發(fā)生在清代乾隆時(shí)期浙江的“剪辮案”這個(gè)個(gè)案著手。“叫魂”是一種民間迷信的妖術(shù),換句話說(shuō),是一種能給他人帶來(lái)不利后果的超自然的行為方式。在1768年的春天到秋天這大半年的時(shí)間里,因這種行為而引發(fā)的恐慌蔓延至大半個(gè)中國(guó),使得整個(gè)國(guó)家陷入動(dòng)蕩不安??罪w力發(fā)現(xiàn),可以從小故事中發(fā)現(xiàn)大道理。于是,他在中國(guó)第一歷史檔案館收集研究了海量的文獻(xiàn),至少有《朱批奏折》、《宮中上諭》、《宮中廷寄》、《附錄奏折· 法律·其他》、《上諭檔方本》,以及圖書(shū)集成局1886年版的《刑案匯覽》、薛允升的《讀例存疑》、臺(tái)北故宮博物院的《宮中檔乾隆朝奏折》、1899年版的《大清會(huì)典事例》、光緒年編輯的《大清十朝圣訓(xùn)》等等,最終寫(xiě)出了《叫魂:1768年中國(guó)妖術(shù)大恐慌》一書(shū)。書(shū)中詳細(xì)觀察百姓、官僚、皇帝三個(gè)層面在叫魂案中的不同反應(yīng),發(fā)現(xiàn)每個(gè)群體對(duì)叫魂事件都有基于自己的利益而做的重新解釋和塑造,并且這種再解釋很大程度上已經(jīng)遠(yuǎn)離了叫魂事件本身??梢哉f(shuō),叫魂事件是中國(guó)放大版的羅生門(mén)。我們從中看到的是犯罪定義者是如何從自身利益出發(fā),千方百計(jì)對(duì)社會(huì)事實(shí)本身進(jìn)行符合自身利益的再定義,從而獲得有利于自己的結(jié)果。于是,犯罪定義過(guò)程就成了利益博弈過(guò)程,犯罪定義就成為一個(gè)并非純粹客觀的對(duì)于社會(huì)現(xiàn)實(shí)的反映,不可避免地帶有濃重的定義者的主觀色彩。

      由此我想起,一位學(xué)者曾經(jīng)計(jì)劃深入到某個(gè)縣法院,收集該法院全部文革前的判決書(shū)進(jìn)行觀察,看看在沒(méi)有法律的情況下,法院是如何處理糾紛的。這無(wú)疑是一個(gè)極有價(jià)值的想法,盡管樣本范圍只限于一個(gè)縣,但在這個(gè)范圍內(nèi),如果做到全樣本研究,那也是標(biāo)準(zhǔn)的經(jīng)驗(yàn)研究,也是法律大數(shù)據(jù)研究。只可惜,這個(gè)計(jì)劃未能成行。

      可見(jiàn),我們對(duì)大數(shù)據(jù)來(lái)襲的恐懼或反感,可能與我們對(duì)大數(shù)據(jù)的誤解有關(guān)。形式上,大數(shù)據(jù)好像意味著大量的數(shù)據(jù)運(yùn)算、統(tǒng)計(jì)甚至大型計(jì)算機(jī)的運(yùn)用。其實(shí),大數(shù)據(jù)的核心是尊重經(jīng)驗(yàn)真實(shí),敬畏經(jīng)驗(yàn)真實(shí),在乎經(jīng)驗(yàn)的代表性。哪怕從一個(gè)小故事切入,只要收集足夠的信息,也可能得到大張力、大格局的結(jié)論,用來(lái)解釋、預(yù)測(cè)較大時(shí)間跨度和空間跨度的社會(huì)現(xiàn)象。正是由于不懂得這一點(diǎn),我們一方面會(huì)排斥大樣本經(jīng)驗(yàn)研究,同時(shí)會(huì)夸大、輕信個(gè)案甚至只是幾經(jīng)裁剪的教學(xué)案例的可推論性,以為理解了這種個(gè)案,也就理解了所有個(gè)案。可是,天下沒(méi)有兩片一樣的樹(shù)葉,法律現(xiàn)象的異質(zhì)性越大,某片樹(shù)葉的代表性以及某個(gè)案件的可推論性就越有限。除非你堅(jiān)持認(rèn)為,天下所有的麻雀都沒(méi)有任何差異,那你只解剖一只麻雀當(dāng)然可以認(rèn)為知道了所有麻雀。而在法律世界中,如果說(shuō)所有案例都一個(gè)樣,你自己信嗎?

      說(shuō)到樣本與數(shù)據(jù),還有一點(diǎn)需要特別說(shuō)明:大數(shù)據(jù)與大樣本的區(qū)別其實(shí)也是相對(duì)的。當(dāng)樣本大到一定程度,即使不完全等于總體,只要其代表性和可推論性已經(jīng)基本上不是問(wèn)題了,就是近似的大數(shù)據(jù)。比如,谷歌基于5000萬(wàn)條最頻繁出現(xiàn)的檢索詞條進(jìn)行分析推算,成功地早于官方兩周準(zhǔn)確預(yù)測(cè)到流感的傳播。那么,這個(gè)5000萬(wàn)是全樣本嗎?未必,只能說(shuō)是最大的樣本,其預(yù)測(cè)的可靠性其實(shí)也來(lái)自于這個(gè)樣本的巨大。所以,當(dāng)我們接受大數(shù)據(jù)時(shí),切忌走到另一個(gè)極端,放棄所有大樣本研究,一味地追求全樣本。

      用大樣本做研究,結(jié)論不一定是科學(xué)的;科學(xué)的結(jié)論也不都出自大樣本研究。但我還是偏好大樣本研究,也常常受益于大樣本研究。因?yàn)槲蚁嘈?,真理藏在大量事件背后。有人常?huì)說(shuō),不用大樣本,不是一樣能得出你現(xiàn)在得出的結(jié)論嗎?只用一兩個(gè)故事,不是一樣能表達(dá)你想表達(dá)的思想嗎?沒(méi)錯(cuò)。我不否認(rèn),幸運(yùn)的淘寶者一伸手就能抓到個(gè)金娃娃。從一兩個(gè)案例中,也可以提煉出某些宏大理論、原則或者規(guī)則。我不知道我有沒(méi)有這個(gè)運(yùn)氣,但我知道我沒(méi)這個(gè)勇氣。不論怎樣,多觀察一些現(xiàn)象,得出結(jié)論所冒的犯錯(cuò)誤的風(fēng)險(xiǎn)總會(huì)小一點(diǎn)。

      一次,一個(gè)學(xué)生想寫(xiě)篇論文,題目是“從貪污罪看……犯罪學(xué)原理”。下面是我和這位學(xué)生的對(duì)話:

      提問(wèn):貪污罪的確可以反映出……犯罪學(xué)原理。不過(guò),刑法規(guī)定有幾百個(gè)犯罪,何以見(jiàn)得某某犯罪學(xué)原理可以從A罪中抽象出來(lái),因而也一定能從B罪、C罪……等其他各種犯罪中抽象出來(lái)呢?換句話說(shuō),你為什么對(duì)幾百分之一的個(gè)罪足以代表所有犯罪抱有如此的自信或把握呢?

      答辯:據(jù)我所知,著名社會(huì)學(xué)家費(fèi)孝通先生的博士論文《江村經(jīng)濟(jì)》就是以一個(gè)鄉(xiāng)村的材料為樣本對(duì)中國(guó)農(nóng)村狀況的研究。

      (好厲害!一個(gè)問(wèn)題就惹出了費(fèi)先生,要再問(wèn)一個(gè)問(wèn)題,恩格斯還不舉著《英國(guó)工人階級(jí)狀況》出來(lái)幫他理論?按照他的意思,費(fèi)先生可以用一個(gè)江村代表中國(guó)農(nóng)村,我為什么不能用一個(gè)犯罪代表所有犯罪?)

      提問(wèn):很好,你讀了不少書(shū)。的確,費(fèi)先生的博士論文在倫敦大學(xué)通過(guò)的當(dāng)晚,他的導(dǎo)師就將其介紹給英國(guó)Routledge書(shū)局出版。書(shū)局的編輯拿到書(shū)稿后,還建議把書(shū)名《開(kāi)弦弓,一個(gè)中國(guó)農(nóng)村的經(jīng)濟(jì)生活》中的“開(kāi)弦弓”(村)和“一個(gè)”去掉,直接稱(chēng)作《中國(guó)農(nóng)民的生活》呢!不過(guò),我們現(xiàn)在看到的該書(shū)中文版,書(shū)名仍是《江村經(jīng)濟(jì)》,而不是“中國(guó)農(nóng)村經(jīng)濟(jì)”什么的。這是為什么呢?當(dāng)然,費(fèi)先生能不能幫得了你,要看你怎么回答這樣一個(gè)問(wèn)題:江村的確是中國(guó)農(nóng)村的一部分,貪污罪也的確是犯罪的一部分。問(wèn)題是,江村與中國(guó)其他鄉(xiāng)村之間的關(guān)系,和貪污罪與其他犯罪之間的關(guān)系一樣嗎?

      (我暗想,這可是第一個(gè)陷阱,看他怎么辦。為了證明用一個(gè)犯罪代表所有犯罪的合理性,他很可能回答說(shuō),兩個(gè)關(guān)系之間沒(méi)什么根本區(qū)別,都是部分與整體的關(guān)系。正因此,江村可以代表中國(guó)農(nóng)村,貪污罪也可以代表所有犯罪。言外之意,費(fèi)先生做得,我為什么做不得。不過(guò),他要真這么答就慘了,因?yàn)檫@將使他自己陷于一個(gè)被動(dòng)境地,他沒(méi)辦法把“鄉(xiāng)村”與“個(gè)罪”這兩個(gè)分析單位完全不同的事物做簡(jiǎn)單類(lèi)比。這顯得多不嚴(yán)謹(jǐn)呀!果然,他非常審慎地繞開(kāi)了這個(gè)陷阱。既沒(méi)有說(shuō)兩者具有可比性,又沒(méi)有說(shuō)兩者不具有可比性。)

      答辯:這個(gè),不一定,兩者既有相同點(diǎn),又有不同之處。不過(guò),費(fèi)先生可是社會(huì)科學(xué)大家,嫻熟運(yùn)用實(shí)證分析的研究方法研究許多社會(huì)問(wèn)題,是我們每個(gè)學(xué)者的榜樣。

      (你看,博士就是博士。不僅繞開(kāi)了我設(shè)下的陷阱,還用費(fèi)先生堵我的嘴——意思是別在費(fèi)先生面前擺弄實(shí)證研究!不過(guò),該竊喜的還指不定是誰(shuí)呢。他已經(jīng)走近另一個(gè)陷阱。)

      提問(wèn):你說(shuō)的很好。也就是說(shuō),我們沒(méi)有根據(jù)說(shuō),江村與其他鄉(xiāng)村之間的關(guān)系,等同于貪污罪與其他個(gè)罪之間的關(guān)系。是,亦或不是?

      答辯:嗯,是。

      (因?yàn)檎娴奶斆?,所以他已?jīng)意識(shí)到被套牢,可憐的學(xué)生一臉的沮喪。)

      提問(wèn):既然沒(méi)有足夠的根據(jù),從江村與其他農(nóng)村之間的關(guān)系直接推論貪污罪與其他犯罪之間的關(guān)系,那你憑什么從一個(gè)貪污罪就抽象出那么大一個(gè)犯罪學(xué)理論呢?

      ……

      我用這個(gè)例子是想說(shuō)明,有的研究者對(duì)大樣本、大數(shù)據(jù)的偏見(jiàn),源自于并不真正理解小樣本及個(gè)案研究。結(jié)果,在誤解大樣本研究的同時(shí),也在誤用小樣本研究。

      其實(shí),我們生活中也常常見(jiàn)到缺乏樣本意識(shí)的例子。一個(gè)城市中有一家大醫(yī)院和一家小醫(yī)院。根據(jù)記錄,大醫(yī)院三天來(lái)每天接生的新生兒中,男女各占約50%。而那家小醫(yī)院三天來(lái)每天接生的新生兒中,恰巧60%是男孩,40%是女孩。這時(shí),一對(duì)年輕父母盡管每天都?jí)粝胫泻?,也不?huì)僅僅根據(jù)這個(gè)統(tǒng)計(jì)數(shù)據(jù)就做出決定,到那家小醫(yī)院產(chǎn)子。因?yàn)檎l(shuí)都知道,出生率的性別比是大約男女各占50%。大醫(yī)院每天接產(chǎn)數(shù)量大,所以樣本性別比更可能接近實(shí)際比例。但是,可以設(shè)想,如果這對(duì)夫婦并不知道這個(gè)一般的統(tǒng)計(jì)數(shù)據(jù),或者說(shuō),如果他們腦子里沒(méi)有這個(gè)先驗(yàn)概率,我們還敢肯定他們不選擇小醫(yī)院產(chǎn)子嗎?這樣提問(wèn)有點(diǎn)可笑,因?yàn)樗麄儾粫?huì)蠢到分不清懷孕在先還是產(chǎn)子在先。但很難說(shuō)類(lèi)似的低級(jí)錯(cuò)誤不以高級(jí)的形式發(fā)生在我們中間。

      當(dāng)然,要想證明一種理論,人們隨時(shí)可以找到一兩個(gè)事例作為支持這種理論的證據(jù),這種個(gè)別事例也是一種意義上的真實(shí)。但嚴(yán)格地說(shuō),個(gè)別事例作為證據(jù),不僅可能隨時(shí)遭遇反例,而且其誤差是不可控的。因此,只有一兩個(gè)事例作為證據(jù)的所謂理論,很可能只能是一種意見(jiàn)、猜想或者判斷,無(wú)法作為規(guī)律性認(rèn)識(shí)為人所接受,更不能作為社會(huì)政策制定過(guò)程的決策基礎(chǔ)。因?yàn)閭€(gè)別事件可能處在正態(tài)分布中的任何一個(gè)位置上,既可能碰巧代表大量同類(lèi)事件的集中趨勢(shì),也可能只是極端事件。從這個(gè)意義上說(shuō),實(shí)證分析所追求的客觀真實(shí)來(lái)自符合科學(xué)抽樣程序性、規(guī)模性和可重復(fù)性要求的樣本。

      有學(xué)者就指出:大數(shù)定律保證非常大的樣本確實(shí)能高度代表它從中抽出的總體。而如果一個(gè)研究人員信守小數(shù)律,就會(huì)對(duì)在小樣本基礎(chǔ)上得出的結(jié)論的有效性抱有夸大的自信。因?yàn)樾?shù)律的信徒是這樣從事科學(xué)研究的:①在檢驗(yàn)研究假設(shè)時(shí),他把賭注放在小樣本上,而未意識(shí)到他的失敗機(jī)會(huì)非常之高。他高估了檢驗(yàn)力。②他對(duì)于初期的趨勢(shì)(如最早的幾個(gè)被試的數(shù)據(jù))以及觀察到的模式的穩(wěn)定性(如顯著結(jié)果的數(shù)量和屬性),有過(guò)分的自信。他高估了結(jié)果的顯著性。③在評(píng)價(jià)自身或別人的重復(fù)實(shí)驗(yàn)的時(shí)候,他對(duì)顯著結(jié)果的可重復(fù)性,抱有非分的高預(yù)期。他低估了置信區(qū)間的范圍。④他很少將實(shí)際結(jié)果與預(yù)期間的偏離歸結(jié)為樣本的變異性,因?yàn)閷?duì)于任意的偏差,他都能發(fā)現(xiàn)因果“解釋”??傊?,人們對(duì)樣本的直覺(jué)往往會(huì)產(chǎn)生不適當(dāng)?shù)暮蠊?/p>

      當(dāng)然,也許有人會(huì)說(shuō),這里所說(shuō)的是發(fā)現(xiàn)真理的過(guò)程,而不是敘述真理的過(guò)程。發(fā)現(xiàn)真理時(shí),當(dāng)然要多觀察些現(xiàn)象,得到更多個(gè)案的數(shù)據(jù)支持。而敘述真理時(shí),樣本就不需要太多。當(dāng)你在課堂上講授故意殺人罪的概念時(shí),沒(méi)必要?dú)v數(shù)幾百個(gè)故意殺人案甚至窮盡所有個(gè)案后再告訴學(xué)生什么是故意殺人罪。沒(méi)錯(cuò),這其實(shí)正是我要說(shuō)的。研究性論文或?qū)V皇墙炭茣?shū),更不是學(xué)習(xí)心得或者綜述。在教科書(shū)中,可以例舉少量故事說(shuō)理。但通過(guò)一項(xiàng)研究,你要告訴人們你發(fā)現(xiàn)了什么,而不是告訴人們你認(rèn)為怎樣。既然如此,怎么能剛看見(jiàn)一棵樹(shù)就宣告說(shuō),我發(fā)現(xiàn)了一片森林?

      由此還可以看出,就是對(duì)定量研究而言,樣本規(guī)模不同,研究結(jié)果也可能不同。關(guān)鍵不在于定量不定量,而在于是否對(duì)經(jīng)驗(yàn)(集體經(jīng)驗(yàn)、群體經(jīng)驗(yàn))心懷敬畏。我們可以掰著手指做樣本,把十個(gè)手指的特征輸入SPSS,照樣可以運(yùn)行交互分析、T檢驗(yàn)、方差分析、多元線性回歸、降維分析等幾乎所有量化分析過(guò)程,然后用圖表、餅圖、線圖等形式熱熱鬧鬧地表現(xiàn)出來(lái)。我們還可以上街隨便找來(lái)三個(gè)路人,問(wèn)他們是否贊成廢除死刑。然后我們照樣可以報(bào)告說(shuō),有66.6666%的民眾贊成或反對(duì)廢除死刑。這都是在做量化分析,但都是對(duì)經(jīng)驗(yàn)的褻瀆,是對(duì)現(xiàn)實(shí)生活的褻瀆,是對(duì)科學(xué)的褻瀆,也是對(duì)學(xué)者這個(gè)稱(chēng)謂的褻瀆。換個(gè)角度看,我們不能說(shuō),一百個(gè)樣本中的經(jīng)驗(yàn)才是經(jīng)驗(yàn),一個(gè)樣本中的經(jīng)驗(yàn)就不是經(jīng)驗(yàn)。更不能說(shuō),我的經(jīng)驗(yàn)才是經(jīng)驗(yàn),你的經(jīng)驗(yàn)就不是經(jīng)驗(yàn)。關(guān)鍵在于,誰(shuí)報(bào)告的經(jīng)驗(yàn)相對(duì)更加接近生活現(xiàn)實(shí)的總體。

      這樣想問(wèn)題便不難理解大樣本研究的幾個(gè)好處:第一,只要抽樣過(guò)程符合隨機(jī)性要求,樣本越大,抽樣誤差就越小,由此所得結(jié)論偏離現(xiàn)實(shí)世界的可能性就越小。理論上說(shuō),當(dāng)樣本等于總體時(shí),誤差為零。第二,樣本越大,所含信息、類(lèi)型就越豐富,所研究的對(duì)象就能以更多的方式展現(xiàn)自己。通常,人們對(duì)定量分析有一個(gè)誤解,認(rèn)為量化過(guò)程對(duì)現(xiàn)象進(jìn)行壓縮處理,脫水后的研究對(duì)象失去了生氣,面無(wú)血色。的確,這正是小樣本量化分析可能有的效果。但隨著樣本的增大,人們可以靈活運(yùn)用各種觀察手段,看到事物更多的側(cè)面。大樣本用得好,可以讓研究對(duì)象表情豐富,百般風(fēng)情;而用極端個(gè)案說(shuō)事,展現(xiàn)的往往是說(shuō)故事者自己。極端個(gè)案的確有血有肉,生動(dòng)具體。但是,由于無(wú)法控制某個(gè)極端個(gè)案在多大程度上代表了總體,因此,也無(wú)從知道這種用極端個(gè)案說(shuō)故事的方法是否掩蓋、侵吞甚至扭曲了多少客觀真實(shí)。第三,樣本越大,可供選擇的分析工具也就越多,其結(jié)論也越可信。如果只有二、三十個(gè)樣本,就算用上多元線性回歸,統(tǒng)計(jì)軟件也會(huì)報(bào)告結(jié)果,但這樣的結(jié)果連你自己都不信。換句話說(shuō),樣本越大,可選的分析工具越多,你就越自由。難道,你不想要這種自由嗎?

      當(dāng)然,我們不能無(wú)條件地說(shuō),樣本越大越好。我們把某個(gè)省的全部案件都拿來(lái)分析,有幾十萬(wàn),夠大了吧?但我們還是不能把結(jié)論直接推論到全中國(guó)。樣本是否具有代表性,還要看抽樣程序是否規(guī)范。

      抽樣是從研究總體中抽取部分單位加以研究,并用所得結(jié)果推斷總體特征的方法,是實(shí)證研究的基本功之一。之所以需要抽樣,首先因?yàn)闃颖九c總體是個(gè)別與一般的關(guān)系。研究總體,沒(méi)有必要對(duì)總體中每個(gè)單位進(jìn)行逐一調(diào)查。只要符合統(tǒng)計(jì)要求,可以認(rèn)為樣本特征近似于總體特征。第二,由于需要研究的總體巨大,受人力、財(cái)力所限,除國(guó)家實(shí)施的大規(guī)模人口普查以外,不可能逐一調(diào)查所有研究對(duì)象的個(gè)體。所以,不僅可以借助樣本觀察總體,也只能借助樣本觀察總體。第三,被研究的總體本身具有程度不同的異質(zhì)性,只抽取其中一個(gè)單位,不可能代表總體中其他未被抽取單位的情況。因此,用來(lái)觀察總體的樣本盡管不可能太多,但也不能過(guò)少。過(guò)多的樣本耗費(fèi)調(diào)查資源,過(guò)少的樣本可能產(chǎn)生過(guò)大的抽樣誤差。

      具體來(lái)說(shuō),抽樣分為隨機(jī)抽樣(概率抽樣)和非隨機(jī)抽樣(非概率抽樣)兩種。在隨機(jī)抽樣中,總體中的每個(gè)單位都有同等機(jī)會(huì)被抽取成為樣本。其特點(diǎn)有四:第一,按隨機(jī)原則抽取而非隨意抽取。第二,每個(gè)單位被抽取的概率是已知的,而非未知的。第三,由樣本推論到總體的可靠程度可計(jì)算,可控制。第四,抽樣前,對(duì)總體邊界已知。隨機(jī)抽樣分為簡(jiǎn)單隨機(jī)抽樣、分層抽樣、系統(tǒng)抽樣、聚類(lèi)抽樣等等。與隨機(jī)抽樣不同,非隨機(jī)抽樣是無(wú)法精確給出抽樣誤差因而無(wú)法將研究結(jié)論直接推論到研究對(duì)象的總體的抽樣方法。非隨機(jī)抽樣包括方便抽樣、立意抽樣等等。抽樣技術(shù)的關(guān)鍵,就在于盡可能減少誤差,控制誤差,抽出真正代表總體的樣本。

      作為社會(huì)現(xiàn)象的一部分,法律現(xiàn)象與自然現(xiàn)象之間有著顯著區(qū)別。法是由人制定的,法是由人實(shí)施的,法是由人違反的。所以,法律現(xiàn)象有著太多的異質(zhì)性和不確定性。但另一方面,法律現(xiàn)象的總體又往往巨大無(wú)比,每年法院處理的各類(lèi)案件幾百萬(wàn)件,每個(gè)達(dá)到一定責(zé)任年齡的公民都是潛在的違法者,所有公民都是潛在的被害人。那么,法學(xué)研究該如何迎接大數(shù)據(jù)的到來(lái),至少做出一些像樣的的大樣本研究呢?

      首先,全樣本選題。在法律現(xiàn)象的研究中,并不是所有問(wèn)題的對(duì)象總體都是十三億人或者百萬(wàn)、千萬(wàn)計(jì)的案件。比如,截止到2006年6月《刑法》修正案(六)通過(guò)頒布以前,中國(guó)《刑法》規(guī)定有425個(gè)罪名,截止到2003年12月23日,最高司法當(dāng)局發(fā)布的刑事司法解釋共有1233個(gè),某一筆專(zhuān)項(xiàng)資金總額400億元,涉及該項(xiàng)資金的全部職務(wù)犯罪案件共幾百件。這些,都是力所能及的全樣本選題。此外,某個(gè)行業(yè)的行業(yè)性規(guī)范、某個(gè)部門(mén)的執(zhí)法活動(dòng)等等,也都可以成為全樣本研究的選題。除了這些以全國(guó)范圍為總體的選題以外,還可以將有代表性的某個(gè)省、某個(gè)市、某個(gè)地區(qū),甚至某個(gè)縣、鄉(xiāng)的全部某類(lèi)案件、某些司法文書(shū)、判決結(jié)果、政策文件等確定為全樣本研究的對(duì)象。此類(lèi)全樣本雖非全國(guó)范圍的全樣本,但為什么研究對(duì)象及其結(jié)論一定要能推論到全國(guó)才算是科學(xué)呢?為什么學(xué)術(shù)活動(dòng)一定要左右于一個(gè)中心才算是觸摸到了真理呢?其實(shí),這本身就是一種關(guān)于學(xué)術(shù)研究的誤解,一種盲目追求宏大敘事而不屑于細(xì)微具體研究的浮躁。既然如此,法律實(shí)證研究中豐富的全樣本選題,是盡可能降低抽樣誤差的一個(gè)較好對(duì)策。

      其次,合理確定抽樣框架。所謂抽樣框架,就是一份與總體非常相似的用來(lái)選取具體樣本的名單。例如,1936年是美國(guó)的選舉年,民主黨競(jìng)選人是競(jìng)選連任的總統(tǒng)富蘭克林·羅斯福,共和黨的競(jìng)選人是來(lái)自堪薩斯州的阿爾弗·蘭登。為了預(yù)測(cè)誰(shuí)將在選舉中獲勝,美國(guó)的《文摘》雜志進(jìn)行了一次美國(guó)歷史上規(guī)模最大的民意測(cè)驗(yàn),它調(diào)查了240萬(wàn)美國(guó)人的選舉傾向。根據(jù)調(diào)查結(jié)果,《文摘》雜志宣布,蘭登將以57%對(duì)43%擊敗羅斯福。而實(shí)際的選舉結(jié)果卻是,羅斯福以62%對(duì)38%獲得大勝。預(yù)測(cè)失敗的問(wèn)題就出在抽樣框架上。《文摘》雜志總共寄出了1000萬(wàn)份調(diào)查表,地址與姓名大都取自于電話簿與汽車(chē)俱樂(lè)部會(huì)員名單。但在1936年,大多數(shù)美國(guó)人沒(méi)有安裝電話,很多人也沒(méi)有汽車(chē)。這樣,低收入的窮人就被完全排斥在調(diào)查之外,而正是這部分窮人支持了羅斯福,造成了同樣是美國(guó)歷史上規(guī)模最大的抽樣誤差。這個(gè)例子中的抽樣框架就是《文摘》所選定的電話簿和汽車(chē)俱樂(lè)部會(huì)員名單。從抽樣原理來(lái)看,這個(gè)抽樣框架與美國(guó)全體選民這個(gè)總體之間的相似性程度不大,所以才會(huì)預(yù)測(cè)失敗。

      由此也可以看出,關(guān)鍵不在于樣本的數(shù)量大小,也不在于抽樣框架是出于何種目的確定的,而在于根據(jù)某個(gè)框架所獲得的樣本與總體之間是否相似。而所謂是否相似,其實(shí)又有多個(gè)可能的側(cè)面:年齡、性別、職業(yè)、文化,還是社會(huì)地位?只要對(duì)既定研究目的而言,抽樣框架與總體之間具有相似性即可,而兩者不可能在所有方面都滿足相似性要求。調(diào)查者所以選定電話簿和俱樂(lè)部名單,也是因?yàn)樗麄冋娴南嘈胚@個(gè)框架的選舉意向能代表總體。否則,他們?yōu)槭裁匆幸庵圃熳约旱念A(yù)測(cè)失敗呢?所以,當(dāng)無(wú)力于全國(guó)普查時(shí),我們可以根據(jù)研究目的的要求確定一個(gè)抽樣框架,假定這個(gè)抽樣框架可能代表總體,然后或者基于這個(gè)框架進(jìn)行全樣本研究,或者在這個(gè)框架內(nèi)進(jìn)行隨機(jī)抽樣。這樣,研究結(jié)論能否推論到總體首先可以基本上排除主觀偏好或者其他人為因素對(duì)樣本獲取過(guò)程的影響,而剩下的問(wèn)題只是人們?cè)诙啻蟪潭壬舷嘈胚@個(gè)框架與總體之間的相似性,或者說(shuō)兩者之間的差異在多大程度上可能對(duì)研究結(jié)論向總體推論構(gòu)成根本性影響。

      例如,我們不可能首先獲得全國(guó)所有刑事案件的名單,然后據(jù)此進(jìn)行隨機(jī)抽樣,但我們可以把來(lái)自最高法院各業(yè)務(wù)庭、研究機(jī)構(gòu)、出版單位、網(wǎng)站等權(quán)威機(jī)構(gòu)公開(kāi)發(fā)布、發(fā)表的全部真實(shí)判決設(shè)定為抽樣框架,并稱(chēng)其為“示范性案例”,然后抽取其中的某類(lèi)案件進(jìn)行全樣本研究。這種案例的代表性在于:第一,由于這些案件來(lái)自全國(guó)各地,由各地各級(jí)法院選送,具有對(duì)全國(guó)總體的代表性;第二,由于是最高法院各權(quán)威機(jī)構(gòu)認(rèn)可并公開(kāi)的案件,因而具有對(duì)司法實(shí)踐的指導(dǎo)性;第三,由于其中絕大部分案件屬于生效判決,因而具有一定的有效性;第四,由于各地選送案件以及最高法院各單位選取案件時(shí)充分考慮到案件類(lèi)型和性質(zhì)的多樣化,因而對(duì)學(xué)術(shù)研究而言具有一定的標(biāo)志性;第五,由于是公開(kāi)發(fā)布的案件,因而對(duì)公民行為而言具有相當(dāng)?shù)囊?guī)范性、模范性和可預(yù)測(cè)性;最后,由于提取了這個(gè)范圍內(nèi)的幾乎全部某類(lèi)案例,將抽樣誤差降低為零,因而具有研究依據(jù)上的準(zhǔn)確性。其實(shí),如果可能將總體的所有特征一模一樣地微縮到某個(gè)隨手可得的抽樣框架中的話,無(wú)異于對(duì)總體完成了一次嚴(yán)格的隨機(jī)抽樣,并以其結(jié)果為抽樣框架進(jìn)行二次抽樣,其實(shí)這已經(jīng)不是在選擇抽樣框架而是進(jìn)行多段抽樣了。

      再次,避免盲目放大樣本容量。一般而言,研究總體本身的異質(zhì)性程度越大,需要分析的變量的個(gè)數(shù)越多,則所需要的樣本規(guī)模就越大。但是,一個(gè)占總體5%的樣本,未必要比一個(gè)只占總體1%的樣本要好上5倍。有研究證明,在總體小于1000的情況下,如果樣本占總體的比例低于30%,那么,樣本誤差將會(huì)很大。但是,當(dāng)總體的規(guī)模增加時(shí),樣本比例的作用趨向于越來(lái)越小,當(dāng)總體為10000時(shí),我們只需有10%的樣本比例,當(dāng)總體為150000時(shí),1%的樣本比例就已經(jīng)足夠。當(dāng)總體為1000萬(wàn)或者以上時(shí),樣本比例的增加實(shí)際上已經(jīng)不起作用。換言之,樣本規(guī)模絕對(duì)數(shù)值的重要性大大超過(guò)樣本占總體比例的重要性。

      最后需要說(shuō)明,最高法院已經(jīng)從2013年起開(kāi)通了裁判文書(shū)網(wǎng),公開(kāi)了幾乎全部司法判決文書(shū)。盡管在技術(shù)上還有待改進(jìn),但這件事的意義之大,超出了許多人的想象。至少今后我們不能再說(shuō),拿不到全樣本,所以無(wú)法做大數(shù)據(jù)。現(xiàn)在的問(wèn)題是,司法當(dāng)局已經(jīng)為法律大數(shù)據(jù)研究提供了相應(yīng)的條件,學(xué)界能跟上嗎?

      猜你喜歡
      總體樣本研究
      FMS與YBT相關(guān)性的實(shí)證研究
      遼代千人邑研究述論
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      2020年秋糧收購(gòu)總體進(jìn)度快于上年
      視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
      科技傳播(2019年22期)2020-01-14 03:06:54
      外匯市場(chǎng)運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢(shì)
      EMA伺服控制系統(tǒng)研究
      推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
      直擊高考中的用樣本估計(jì)總體
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      镇平县| 太仆寺旗| 高唐县| 梁平县| 荆门市| 瑞昌市| 景洪市| 梓潼县| 博爱县| 红桥区| 齐齐哈尔市| 昌黎县| 岳阳市| 鄂尔多斯市| 和田市| 鹿邑县| 宜阳县| 库尔勒市| 咸宁市| 龙岩市| 平泉县| 酉阳| 天等县| 古丈县| 郎溪县| 东安县| 乌鲁木齐县| 库车县| 上虞市| 资中县| 贵南县| 鄯善县| 正蓝旗| 斗六市| 桃江县| 义乌市| 金华市| 高清| 灵寿县| 诸暨市| 马公市|