郝 麗,劉樂平,申亞飛
(天津財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)分析中心,天津 300222)
?
【統(tǒng)計(jì)理論與方法】
統(tǒng)計(jì)顯著性:一個(gè)被誤讀的P值
——基于美國統(tǒng)計(jì)學(xué)會(huì)的聲明
郝 麗,劉樂平,申亞飛
(天津財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)分析中心,天津 300222)
美國統(tǒng)計(jì)學(xué)會(huì)“關(guān)于統(tǒng)計(jì)顯著性與P值”的官方聲明發(fā)布之后,再次引發(fā)國內(nèi)外研究學(xué)者對P值的廣泛關(guān)注。在介紹國內(nèi)統(tǒng)計(jì)教材中假設(shè)檢驗(yàn)的基本內(nèi)容和步驟的基礎(chǔ)上,以“硬幣投擲”與“背影識(shí)人”為例直觀性解釋P值、統(tǒng)計(jì)顯著性與統(tǒng)計(jì)功效等相關(guān)概念,并引用心理學(xué)統(tǒng)計(jì)經(jīng)典調(diào)查案例分析P值被誤讀的原因。同時(shí),基于美國統(tǒng)計(jì)學(xué)會(huì)的聲明,給出正確使用P值的建議。
統(tǒng)計(jì)顯著性;P值;心理統(tǒng)計(jì)學(xué);貝葉斯統(tǒng)計(jì)
2014年2月,在美國統(tǒng)計(jì)學(xué)會(huì)(ASA)召開的一次重要學(xué)術(shù)論壇上,來自美國曼荷蓮女子學(xué)院(Mount Holyoke College)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)榮譽(yù)退休教授George Cobb,以一問一答的方式提出了如下有趣的問題:“為什么那么多大學(xué)和研究院都在教P=0.05?因?yàn)槟鞘强茖W(xué)社團(tuán)和期刊編輯仍然都在用的標(biāo)準(zhǔn)”;“為什么還有那么多人在用P=0.05?因?yàn)榇髮W(xué)和研究院里還在這么教”。
Cobb教授關(guān)切的問題并非一時(shí)興起,因?yàn)樵诖酥?,心理學(xué)、循證醫(yī)學(xué)和社會(huì)學(xué)的學(xué)者就早已針對P值和使用P<0.05進(jìn)行科學(xué)推斷的弊端展開了激烈的學(xué)術(shù)爭論,“地球是圓的(P<0.05)”早已成為諷刺濫用統(tǒng)計(jì)推斷的經(jīng)典笑話,這些現(xiàn)象引起了美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)的高度關(guān)注[1]。
2010年, Siegfried在《Science News》撰文言辭激烈地指出:“這是科學(xué)界中最不可告人的秘密:統(tǒng)計(jì)分析中檢驗(yàn)假設(shè)的‘科學(xué)方法’建立在一個(gè)脆弱的基礎(chǔ)之上”;2014年2月7日,他繼續(xù)在《Science News》上撰文批評(píng):“檢驗(yàn)各種科學(xué)假設(shè)中用到的統(tǒng)計(jì)方法……比Facebook隱私條款中的缺陷還要多”。一周之后,Regina Nuzzo在《Nature》雜志科學(xué)方法專欄中發(fā)表了名為《統(tǒng)計(jì)誤差》的論文[2],目前已成為該雜志閱讀次數(shù)最多的文章之一。國內(nèi)“果殼網(wǎng)”科學(xué)人專欄將此文進(jìn)行了編譯,取名為“統(tǒng)計(jì)學(xué)里‘P’的故事:蚊子、皇帝的新衣和不育的風(fēng)流才子”,隨后“數(shù)據(jù)工作室”微信公眾號(hào)的推文《P值之死》在朋友圈和各類網(wǎng)絡(luò)媒體中盛傳。
2016年3月7日,美國統(tǒng)計(jì)學(xué)會(huì)執(zhí)行主任Ronald L. Wasserstein代表美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)在《The American Statistician》雜志(網(wǎng)絡(luò)版)上發(fā)表了名為《關(guān)于統(tǒng)計(jì)顯著性與P值》的官方聲明。之后,在中國統(tǒng)計(jì)學(xué)門戶網(wǎng)站“統(tǒng)計(jì)之都”上,邱怡軒發(fā)表博文“美國統(tǒng)計(jì)協(xié)會(huì)開始正式吐槽(錯(cuò)用)P值啦”;2016年3月23日,在微信公眾號(hào)“科研圈”上,譚坤編譯了“美國統(tǒng)計(jì)學(xué)會(huì)權(quán)威發(fā)布:P值應(yīng)該這么用,學(xué)界有錯(cuò)須改正”的有關(guān)內(nèi)容。
P值究竟怎么了?統(tǒng)計(jì)顯著性到底是否科學(xué)?鑒此,筆者從被誤讀與誤導(dǎo)的P值入手,基于國內(nèi)統(tǒng)計(jì)學(xué)教材和文獻(xiàn)的“假設(shè)檢驗(yàn)”內(nèi)容,通過示例和幾何圖示,直觀地解釋P值、統(tǒng)計(jì)顯著性與統(tǒng)計(jì)功效等不易理解的概念;回顧心理學(xué)統(tǒng)計(jì)研究經(jīng)典文獻(xiàn)《顯著性誤讀:一個(gè)師生共存的問題》,討論P(yáng)值是如何被誤讀與怎樣被誤導(dǎo)的,并基于美國統(tǒng)計(jì)學(xué)會(huì)的官方聲明,給出正確使用P值的建議。
(一)假設(shè)檢驗(yàn)
1.假設(shè)檢驗(yàn)的臨界值法。目前,國內(nèi)的《概率論與數(shù)理統(tǒng)計(jì)》和《統(tǒng)計(jì)學(xué)》教材中,都會(huì)至少用一章的內(nèi)容介紹假設(shè)檢驗(yàn)的基本原理與步驟。如果檢驗(yàn)需要利用“Z檢驗(yàn)(或t檢驗(yàn))的臨界值表”,則被稱為假設(shè)檢驗(yàn)的“臨界值法”,并已被廣泛應(yīng)用于實(shí)際問題中。在此,以“假設(shè)檢驗(yàn)在審計(jì)抽樣工作中的應(yīng)用研究”為例[3],將教材所傳授的假設(shè)檢驗(yàn)“四部曲”總結(jié)如下:
第一步,根據(jù)實(shí)際問題的要求,提出原假設(shè)H0及備擇假設(shè)H1。例如,假設(shè)X1, X2,…,Xn是取自正態(tài)總體N(μ,σ2)的一組樣本,要檢驗(yàn)如下假設(shè):
H0:μ=μ0,H1:μ≠μ0(雙側(cè)檢驗(yàn);或H1:μ<μ0左側(cè)檢驗(yàn);H1:μ>μ0右側(cè)檢驗(yàn))。
第二步,根據(jù)總體分布情況及方差是否已知,選擇合適的統(tǒng)計(jì)量。
第三步,給定顯著性水平α,確定相應(yīng)臨界值水平。顯著性水平α表示假設(shè)H0為真時(shí)拒絕原假設(shè)的概率,也就是拒絕原假設(shè)所面臨的風(fēng)險(xiǎn),一般是人為給定,取值通常很小,如 0.1、0.05、0.01 等,表明原假設(shè)為真時(shí),檢驗(yàn)統(tǒng)計(jì)量落在其拒絕區(qū)域內(nèi)的概率只有α,而落入其接受區(qū)域內(nèi)的可能概率是 1-α 。
第四步,依據(jù)假設(shè)檢驗(yàn)的規(guī)則,由樣本數(shù)據(jù)計(jì)算出檢驗(yàn)統(tǒng)計(jì)量的實(shí)際值,與查表獲得的臨界值進(jìn)行比較,視實(shí)際值落入接受區(qū)域還是拒絕區(qū)域,做出是否拒絕原假設(shè)H0的結(jié)論。
具體來說,當(dāng)需要采用 Z統(tǒng)計(jì)量進(jìn)行右側(cè)檢驗(yàn)時(shí),檢驗(yàn)規(guī)則為:當(dāng)Z≥zα?xí)r,拒絕H0;當(dāng)Z 2. 假設(shè)檢驗(yàn)的P值檢驗(yàn)法。隨著計(jì)算機(jī)軟件的普及和發(fā)展,在假設(shè)檢驗(yàn)“臨界值法”的基礎(chǔ)上,部分教材還簡要介紹了假設(shè)檢驗(yàn)的P值檢驗(yàn)法的一般步驟,并討論了兩種檢驗(yàn)方法的區(qū)別[4]214-216。 “假設(shè)檢驗(yàn)問題的P值是由檢驗(yàn)統(tǒng)計(jì)量的樣本觀測值得出的原假設(shè)可被拒絕的最小顯著性水平”,在現(xiàn)代計(jì)算機(jī)統(tǒng)計(jì)軟件中一般都給出檢驗(yàn)問題的P值,按P值的定義,對于任意給定的顯著性水平就有: (1)若P值≤ α,則在顯著性水平α下拒絕H0。 (2)若P值>α,則在顯著性水平α下接受H0*正取的說法應(yīng)為“不能拒絕”。。 P值法給出了拒絕H0的最小顯著性水平,因此P值法比臨界值法給出了有關(guān)拒絕域更多的信息。 3. P值的幾何圖示。我們以右側(cè)假設(shè)檢驗(yàn)H0:μ=μ0,H1:μ>μ0為例,圖示臨界值與P值的關(guān)系。假設(shè)顯著性水平為α在H0為真的條件下,PH0(Z≥zα)=α (總體方差已知時(shí)的Z檢驗(yàn))。 zα為臨界值,可通過標(biāo)準(zhǔn)正態(tài)分布表查出具體數(shù)值,如α =0.05時(shí),zα= 1.65。P值是由檢驗(yàn)統(tǒng)計(jì)量的樣本觀測值得出的原假設(shè)可被拒絕的最小顯著性水平,正態(tài)分布概率密度函數(shù)條件下,假設(shè)檢驗(yàn)的臨界值和P值幾何意義如圖1所示。 (二)P值與統(tǒng)計(jì)顯著性 1. P值。以上教材和文獻(xiàn)中的P值概念比較晦澀難懂。美國統(tǒng)計(jì)學(xué)會(huì)的聲明中也給出了P值的非正式定義:“P值就是基于某個(gè)特定統(tǒng)計(jì)模型之下, 圖1 正態(tài)分布概率密度函數(shù)下臨界值和P值圖 對于數(shù)據(jù)的某個(gè)統(tǒng)計(jì)量(如兩個(gè)對照組的樣本平均值之差)與觀測值相等或比觀測值更極端的概率”,此定義也有些繞口,不易理解;百度或維基百科上關(guān)于P值的概念要相對精煉簡要:“P值就是當(dāng)原假設(shè)為真時(shí),所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率”,但“更極端”的含義似乎也不夠直觀。 下面通過“硬幣投擲”直觀性試驗(yàn),盡可能用非數(shù)學(xué)語言來解釋以上P值的概念*更加深入淺出、圖文并茂的解讀詳見謝益輝、胡江堂等在“統(tǒng)計(jì)之都”上的博文和張之昊在“協(xié)和八”微信公眾號(hào)上連載的“說人話的統(tǒng)計(jì)學(xué)”系列。。 (1)原假設(shè)。你從錢包中拿出一枚硬幣,隨手向空中一拋。一般來講,如果一枚硬幣沒有做假是“均勻”的,那么結(jié)果出現(xiàn)正面和反面的可能性(概率)應(yīng)該都是1/2。現(xiàn)在,如何來證明你手中的硬幣是“均勻”的呢? 除了直接觀察,人們會(huì)想到用試驗(yàn)的方法來證明,即將硬幣拋2次,結(jié)果2次都是正面或者2次都是反面,這時(shí)是否會(huì)懷疑你的硬幣?假如結(jié)果正好是1正1反(或1反1正),是否能肯定你的硬幣是均勻的?你可能不會(huì)輕易下結(jié)論,因?yàn)閼{直覺會(huì)認(rèn)為硬幣拋2次太少了。以上每種結(jié)果的出現(xiàn)都很正常,此證據(jù)不足以否定硬幣的“均勻”性。 增加投擲硬幣的次數(shù),即將硬幣投擲5次,每次拋擲的結(jié)果都做記錄;最后把出現(xiàn)正反面的次數(shù)分別統(tǒng)計(jì),假設(shè)某一次試驗(yàn)的結(jié)果是:正面4次,反面1次,這時(shí)將如何判斷硬幣是否“均勻”呢? 按照R. A. Fisher(1890—1962)創(chuàng)建的“顯著性檢驗(yàn)(Significance Testing)”理論(注意:非J. Neyman(1894—1981)與E.S. Pearson(1895—1980)創(chuàng)建的“一致最優(yōu)檢驗(yàn)(Uniformly Most Powerul Test)”理論*兩者的區(qū)別可參見Lehmann EL. The Fisher, Neyman-Pearson Theories of Testing Hypotheses: One Theory or Two? Journal of the American Statistical Association, 1993(88):1242-1249.),首先“假設(shè)”硬幣是均勻的,也就是拋出來正面和反面的概率都是0.5,這就是P值定義里的“原假設(shè)”。 (2)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)。硬幣試驗(yàn)中的“樣本”就是拋5次硬幣,得到了“4正1反”;如果拋了5次,得到的觀察結(jié)果是“5正0反”,這就是比“樣本4正1反”“更極端的結(jié)果”。 假設(shè)硬幣是均勻的(“原假設(shè)”為真),連拋5次硬幣得到都是正面的概率就是0.5的5次方,也就是0.031 25,這就是所定義的P值。換言之,這種結(jié)果的出現(xiàn),在32次試驗(yàn)中才可能出現(xiàn)1次。 2. 統(tǒng)計(jì)顯著性。從日常生活的經(jīng)驗(yàn)中人們能感覺到,對于一塊均勻的硬幣來說,5次拋擲中可能性最大的結(jié)果應(yīng)是“3正2反或3反2正”,而得到“4正1反”這樣的結(jié)果就有些懷疑了*此例設(shè)計(jì)硬幣投擲5次,是為了使概率計(jì)算過程簡單,便于理解。實(shí)際上,試驗(yàn)次數(shù)設(shè)計(jì)偏少,若改為100次投擲后,結(jié)果90正10反,則更符合實(shí)際。,得到比“4正1反”更極端的結(jié)果“5正0反”實(shí)在是不太可能了。與其相信這樣的小概率事件在一次試驗(yàn)中真的發(fā)生了,還不如懷疑“原假設(shè)”硬幣均勻的正確性,而認(rèn)為更合理的解釋是這塊硬幣可能是“不均勻”的。 那么,多小的P值算是小呢?在統(tǒng)計(jì)學(xué)中,按慣例事先給出的界線是0.05,因?yàn)橐陨显囼?yàn)的樣本結(jié)果為“5正0反”,則對應(yīng)的P值=0.031 25,因?yàn)镻值<0.05,所以就拒絕“原假設(shè)”,否定硬幣的“均勻性”,這就是常見的“具有統(tǒng)計(jì)學(xué)意義上的顯著性”,可以推斷該硬幣是一枚偏向正面的非均勻硬幣。 P值的定義中蘊(yùn)含了“顯著性檢驗(yàn)”的基本統(tǒng)計(jì)思維方法,這種統(tǒng)計(jì)歸納思維方法幾乎被運(yùn)用在所有學(xué)科領(lǐng)域的主流統(tǒng)計(jì)分析之中,對它的準(zhǔn)確理解不僅是通向掌握各種具體統(tǒng)計(jì)學(xué)測試的大門,更影響著人們對統(tǒng)計(jì)分析結(jié)果的解讀。 P值本質(zhì)上是什么?它是基于特定假設(shè)和實(shí)際樣本進(jìn)行統(tǒng)計(jì)推斷的一個(gè)工具。某種意義上說,P值體現(xiàn)了如果原假設(shè)成立時(shí)研究者看到樣本的奇怪程度。P值越小,所獲得的樣本在原假設(shè)成立的前提下就越不可能出現(xiàn);而當(dāng)P值小到一定程度時(shí),不得不認(rèn)定其假設(shè)是錯(cuò)誤的,因?yàn)榭赡苄赃@么小的事件,實(shí)在是在一次試驗(yàn)中太難發(fā)生了。 根據(jù)P值進(jìn)行統(tǒng)計(jì)推斷的思想與數(shù)學(xué)中的反證法具有一定的相似性。但是,由于歸納與演繹邏輯的不同,兩者有一個(gè)關(guān)鍵的區(qū)別,由于隨機(jī)性的存在,在統(tǒng)計(jì)推斷中無法像在數(shù)學(xué)反證法中一樣千真萬確地認(rèn)定原假設(shè)是絕對錯(cuò)誤的,只能根據(jù)“小概率事件在一次隨機(jī)實(shí)驗(yàn)中不會(huì)發(fā)生”的原理做出有較大可能性推翻原假設(shè)的統(tǒng)計(jì)決策。 (三) 統(tǒng)計(jì)功效 1.第一類錯(cuò)誤與第二類錯(cuò)誤。統(tǒng)計(jì)功效與統(tǒng)計(jì)顯著性有著極為密切的聯(lián)系,而它們又都是建立在統(tǒng)計(jì)假設(shè)檢驗(yàn)的兩個(gè)基本概念“第一類錯(cuò)誤”和“第二類錯(cuò)誤”之上。為了更加生動(dòng)形象介紹多數(shù)統(tǒng)計(jì)教材沒有涉及的“統(tǒng)計(jì)功效”的概念與含義,用“背影識(shí)人”為例進(jìn)行直觀性說明: 某一大型商場的經(jīng)理,在月末盤點(diǎn)時(shí)需要了解該月光臨商場顧客中女性的比例。假設(shè)只有商場出口的監(jiān)控記錄可以調(diào)用,且監(jiān)控?cái)z像只攝錄到了顧客出門時(shí)的頭部影像而無法看到臉部,故只能從背部看清顧客頭發(fā)的長短。那么,如何辨別顧客的性別呢?有人給出建議,即如果顧客是長發(fā)則為女性;如果顧客是短發(fā)則為男性。 改用統(tǒng)計(jì)學(xué)的語言來描述:由于旨在找出女性顧客,每當(dāng)看到一個(gè)顧客背影的頭像時(shí),就先假設(shè)這是個(gè)女人(“原假設(shè)”)。如果此人頭發(fā)太短,那就認(rèn)為他不是女人(“拒絕原假設(shè)”); 如果此人頭發(fā)夠長,那就認(rèn)為她是女人(“接受原假設(shè)”,更嚴(yán)格地說應(yīng)為“不能拒絕原假設(shè)”)。 但是,這種判別方法可能會(huì)犯以下兩類錯(cuò)誤:一是把一小部分短發(fā)女人當(dāng)成了男人,也就是在原假設(shè)其實(shí)為真時(shí)錯(cuò)誤地拒絕之(棄真),這在統(tǒng)計(jì)學(xué)中被稱為“第一類錯(cuò)誤”;二是把另一小部分長發(fā)男人當(dāng)成了女人,也就是在原假設(shè)其實(shí)為假時(shí)錯(cuò)誤地接受之(取偽),這在統(tǒng)計(jì)學(xué)中被稱為“第二類錯(cuò)誤”。 2. 統(tǒng)計(jì)功效。教科書中通常用希臘字母α代表犯第一類錯(cuò)誤的概率;β代表犯第二類錯(cuò)誤的概率,α和β的幾何意義如圖2所示。在這個(gè)例子中,α就是被誤判的女人在所有女人中的比例,而β則是被誤判的男人在所有男人中的比例。 第一類錯(cuò)誤與之前討論的統(tǒng)計(jì)顯著性密切相關(guān),α就是事先給定的顯著性水平(通常為0.05),之所以要在P值足夠小的時(shí)候才拒絕原假設(shè),就是為了讓犯第一類錯(cuò)誤的可能性盡可能低,而如何知道這個(gè)建議的最終識(shí)別率有多高呢?既然商場經(jīng)理的目的是想?yún)^(qū)別出男性顧客,那就要看到底多大比例的男性顧客被識(shí)別了出來,這個(gè)比例就是1-β,即所有男人減去誤判的男人(長發(fā)男人)在所有男人中的比例,“1-β”正是“統(tǒng)計(jì)功效”。 第一類錯(cuò)誤用α值和P值來控制,第二類錯(cuò)誤由什么來控制呢?用統(tǒng)計(jì)功效。統(tǒng)計(jì)功效指的就是:如果我們感興趣的效應(yīng)或差異的確存在,在給定的顯著性水平的規(guī)定下能夠正確地拒絕原假設(shè)的概率,這其實(shí)就是不犯第二類錯(cuò)誤的概率,因此統(tǒng)計(jì)功效的值可以用1減去β得到。 在任何統(tǒng)計(jì)學(xué)問題上,以上兩類錯(cuò)誤都是此消彼長的。如果商場經(jīng)理想少犯第二類錯(cuò)誤,增加頭發(fā)長度的標(biāo)準(zhǔn),把中長發(fā)男性盡量排出,那么必然會(huì)有更多中短發(fā)女性被誤判;相反,如果經(jīng)理想少犯第一類錯(cuò)誤,降低頭發(fā)長度的標(biāo)準(zhǔn),那么男性錯(cuò)判的可能性就增加了。 圖2 假設(shè)檢驗(yàn)犯兩類錯(cuò)誤概率示圖 (一) 經(jīng)典案例“顯著性誤讀,一個(gè)師生共存的問題” 關(guān)于P值的爭議由來已久,主要集中在大量應(yīng)用統(tǒng)計(jì)假設(shè)檢驗(yàn)進(jìn)行實(shí)證研究的心理學(xué)和醫(yī)學(xué)領(lǐng)域中。2000年,德國柏林自由大學(xué)(Free University of Berlin)教育科學(xué)與心理學(xué)系的Heiko Haller教授與馬克思·普朗克人類發(fā)展研究所(Max Planck Institute for Human Development)的Stefan Krauss研究員,在德國的6所大學(xué)中進(jìn)行了一項(xiàng)小型的關(guān)于“顯著性(Significance)誤讀:一個(gè)師生共存的問題”的問卷調(diào)查[5],調(diào)查結(jié)果大大出乎他們的意料。 此次問卷的調(diào)查對象是德國6所大學(xué)的心理學(xué)系師生。調(diào)查對象被分成三組:第一組是教師組(N=30名),包括給心理學(xué)系學(xué)生講授統(tǒng)計(jì)學(xué)和假設(shè)檢驗(yàn)的教授和輔導(dǎo)新生的高年級(jí)研究生助教;第二組是研究員組(N=39名),包括沒有講授統(tǒng)計(jì)學(xué)的教授和研究人員;第三組是學(xué)生組(N=44名),全部由心理學(xué)專業(yè)的學(xué)生組成。 問卷非常簡短,只包含一個(gè)問題和6個(gè)“是非”選項(xiàng):“假設(shè)你進(jìn)行了一項(xiàng)對照組試驗(yàn),需要比較兩組實(shí)驗(yàn)結(jié)果的均值(每組樣本個(gè)數(shù)為20),采用的方法是獨(dú)立均值t檢驗(yàn),檢驗(yàn)結(jié)果為:t = 2.7,df(自由度)= 18, p(P值)= 0.01?!闭埮袛嘁韵?個(gè)陳述是“正確”還是“錯(cuò)誤”(“錯(cuò)誤”意指該陳述不能由以上檢驗(yàn)結(jié)果得出,以下錯(cuò)誤結(jié)果可能不止1個(gè))。 1.你可以完全否定“總體均值無差異”的原假設(shè)。[ ]正確/錯(cuò)誤[ ] 2.你已經(jīng)知道了原假設(shè)為真的概率。[ ]正確/錯(cuò)誤[ ] 3.你可以完全肯定“總體均值有差異”的備擇假設(shè)。[ ]正確/錯(cuò)誤[ ] 4.你可以推斷出備擇假設(shè)為真的概率。[ ]正確/錯(cuò)誤[ ] 5.如果你決定拒絕原假設(shè),你就可以推斷你做出錯(cuò)誤決定的概率。[ ]正確/錯(cuò)誤[ ] 6.如果以上同樣的試驗(yàn)重復(fù)很多遍,將有99%的試驗(yàn)獲得顯著性的結(jié)果。[ ]正確/錯(cuò)誤[ ] Haller教授與Krauss研究員將113份有效調(diào)查問卷進(jìn)行統(tǒng)計(jì)分析,最終結(jié)果如表1所示。表1中的比率值為各組回答的“錯(cuò)誤率”,即在每組參加調(diào)查者的回答中至少出現(xiàn)一個(gè)錯(cuò)誤的人數(shù)占小組人數(shù)的百分比;表1第4列的比例是Oakes在1986年所做類似研究的結(jié)果。 表1 2000年德國六所大學(xué)師生關(guān)于“顯著性誤讀” 問卷調(diào)查結(jié)果比較表 注:資料來源于參考文獻(xiàn)[5]。 (二)P值被誤讀的原因分析 Haller教授與Krauss研究員對以上調(diào)查結(jié)果表示極其驚訝,“盡管Oakes(1986)的調(diào)查結(jié)果和研究著作發(fā)表已經(jīng)過去了15 年,而且有關(guān)討論顯著性檢驗(yàn)誤解的論文也發(fā)表了很多篇,但是似乎一切都沒改變”。*2015年,筆者也將以上問題對30名統(tǒng)計(jì)專業(yè)的本科生進(jìn)行了調(diào)查。同樣,距離2000年德國大學(xué)的調(diào)查,15年時(shí)間過去了,我們的結(jié)果也驚人地相似,學(xué)生組錯(cuò)誤率100%,沒有1名學(xué)生全部答對。 表1顯示,問卷調(diào)查結(jié)果中學(xué)生組全部答錯(cuò),錯(cuò)誤率100%;近 90%的心理學(xué)科學(xué)研究人員至少將一個(gè)含有錯(cuò)誤“意義”的P值誤認(rèn)為是正確的;更加重要的是,造成以上結(jié)果的重要原因在于,講授假設(shè)檢驗(yàn)方法的教師們的錯(cuò)誤率也高達(dá)80%,可以想象他們對顯著性的“誤解”正在課堂的講解中一遍又一遍地重復(fù),不斷“誤導(dǎo)”著一批又一批的學(xué)生,對于這種現(xiàn)象,兩位學(xué)者表示“實(shí)在是令人目瞪口呆、無言以對”。 事實(shí)上,Haller教授與Krauss研究員調(diào)查問題中的6個(gè)“是非”陳述選項(xiàng)答案全是錯(cuò)誤的。 陳述選項(xiàng)1 和 3 容易答對,兩者的錯(cuò)誤比較明顯:顯著性檢驗(yàn)絕對不能證明 (或否定) 假設(shè);顯著性檢驗(yàn)只能提供“可能的”信息,這些信息最多只能用來對某些理論進(jìn)行印證;統(tǒng)計(jì)推斷不可能得出“完全肯定(或否定)”的“絕對”結(jié)論。 一般來說,通過顯著性檢驗(yàn)不可能得到任何假設(shè)成立的概率:既不能得到概率值為1(陳述選項(xiàng)1 和 3) 也不能得到其他概率值 (陳述選項(xiàng)2 和 4)。所以,陳述選項(xiàng)2 和 4也都是錯(cuò)誤的。對假設(shè)給出概率的描述只可能在貝葉斯統(tǒng)計(jì)中出現(xiàn)[6]。 陳述選項(xiàng) 5 看起來與第一類錯(cuò)誤的定義非常相似(即當(dāng)原假設(shè)為真時(shí)拒絕原假設(shè)的概率),但實(shí)際上如果你決定拒絕原假設(shè) (陳述選項(xiàng) 5所述 ),當(dāng)且僅當(dāng)原假設(shè)是正確的情況下,你的這個(gè)決定才是錯(cuò)誤的,因此在陳述選項(xiàng) 5中的“概率 ”(“你做出錯(cuò)誤決定”) 其實(shí)是“原假設(shè)”為真的概率,而這個(gè)概率如選項(xiàng) 2所述,是不可能由這種檢驗(yàn)方法得到的。 陳述選項(xiàng) 6是所有選項(xiàng)中極易混淆的難題,它實(shí)際上反映的是所謂“重復(fù)謬誤”。在Neyman 和 Pearsons的檢驗(yàn)范式中,以頻率學(xué)派的觀點(diǎn),可以通過P=0.01解釋 “如果原假設(shè)為真,在多次重復(fù)試驗(yàn)中拒絕原假設(shè)的相對頻率”,但在本例中你只進(jìn)行了一次試驗(yàn),沒有證據(jù)證明原假設(shè)是真的。在許多人的腦海里,會(huì)對“P=0.01”的含義“過度”引申,將1-p錯(cuò)誤地演變成拒絕原假設(shè)的相對頻率,即顯著性結(jié)果可以被重復(fù)的概率。實(shí)際上,如果你將以上同樣的試驗(yàn)重復(fù)多遍,由于影響試驗(yàn)條件的不確定性,你很難每次試驗(yàn)都獲得顯著性的結(jié)果。 所以,我們不能簡單地停留在“P值是什么”的問題上,而要將重點(diǎn)放在“P值為什么”,而真正理解“統(tǒng)計(jì)顯著性”,又要從了解“P值不是什么”開始。 P值是目前科學(xué)界廣泛使用的主流統(tǒng)計(jì)學(xué)方法中最重要的一個(gè)概念,同時(shí)也可能是被誤讀和誤導(dǎo)最多的一個(gè)概念。翻閱各學(xué)科的文獻(xiàn),很容易就發(fā)現(xiàn)對P值的錯(cuò)誤理解和表述,即便是發(fā)表在《Science》和《Nature》之類頂級(jí)期刊的文章也不可避免。 對P值定義的誤解一般可分為兩個(gè)層面:一是基本層面,將P值簡化誤認(rèn)為“P值是原假設(shè)為真的概率”;二是引申層面,先按“原假設(shè)為真”推斷至“備擇假設(shè)為假”,再將“P值是原假設(shè)為真的概率”引申到“P值是備擇假設(shè)為假的概率”。 當(dāng)P值很小時(shí)就拒絕原假設(shè),認(rèn)為備擇假設(shè)是真的嗎?那難道不是說P值代表原假設(shè)有多真嗎?不是,這個(gè)問題最簡單的解釋是:對于任何一個(gè)假設(shè)它為真的概率都是固定的。然而,已經(jīng)知道P值是根據(jù)具體的樣本數(shù)據(jù)計(jì)算得出的,同樣的實(shí)驗(yàn)重復(fù)做幾次,每次得到不同的樣本,P值也自然會(huì)有區(qū)別。因此,P值不可能是原假設(shè)為真或備擇假設(shè)為假的概率。 進(jìn)一步,回顧“顯著性檢驗(yàn)”的統(tǒng)計(jì)思維邏輯:P值越小,樣本提供的支持“原假設(shè)正確”的證據(jù)就越少,少到一定程度時(shí)則可以(統(tǒng)計(jì))推斷原假設(shè)是不正確的。P值只描述樣本與原假設(shè)的相悖程度,原假設(shè)的真與假是我們“僅僅以一次試驗(yàn)觀察為根據(jù)”做出的一個(gè)判斷。事實(shí)上,P值并不是刻畫“原假設(shè)為真假”或“備擇假設(shè)為真假”的概率。 所以,P值既不是原假設(shè)為真或假的概率,也不是備擇假設(shè)為真或假的概率。目前,所廣泛使用的一整套統(tǒng)計(jì)推斷和假設(shè)檢驗(yàn)方法及其思想體系,均屬于統(tǒng)計(jì)學(xué)的 “頻率學(xué)派”,P值能做的就是在特定的原假設(shè)條件下,對數(shù)據(jù)未知特征進(jìn)行推斷分析。但是,如果要對這些假設(shè)本身作出判斷,僅憑數(shù)據(jù)本身是不夠的,還需要根據(jù)相關(guān)學(xué)科的理論知識(shí),了解研究對象中除了人們感興趣的假設(shè)以外其他假設(shè)存在的概率。 實(shí)際上,假設(shè)本身成立與否的概率是統(tǒng)計(jì)學(xué)科中另一個(gè)近年來日漸受到重視的流派“貝葉斯學(xué)派”試圖解決的問題[7]。隨著大數(shù)據(jù)時(shí)代的到來和計(jì)算機(jī)技術(shù)的發(fā)展,需要大量計(jì)算輔助的貝葉斯統(tǒng)計(jì)方法逐漸受到了重視[8],也有不少統(tǒng)計(jì)學(xué)者呼吁學(xué)術(shù)界應(yīng)當(dāng)用貝葉斯方法補(bǔ)充如今僅以P值為中心的頻率學(xué)派方法。 P值只是在特定數(shù)據(jù)和模型的條件下,利用顯著性檢驗(yàn)理論框架進(jìn)行統(tǒng)計(jì)推斷,以表明總體未知特征是否具有統(tǒng)計(jì)顯著性的一個(gè)簡化閾值標(biāo)準(zhǔn)。但是,隨著研究問題的復(fù)雜性和不確定性的增加,P值已逐漸被研究人員“異化”成為論文能否發(fā)表的“關(guān)鍵之值”,部分研究人員似乎忘了研究本來的真正目標(biāo),而是將研究目的變?yōu)榻弑M全力追逐一個(gè)小于0.05的P值。進(jìn)而,一個(gè)小小的P值引發(fā)了許多重大的“科學(xué)”發(fā)現(xiàn)。 由于在各學(xué)科實(shí)際問題的數(shù)據(jù)統(tǒng)計(jì)分析研究中,P值經(jīng)常被誤讀和濫用。鑒于此,美國統(tǒng)計(jì)學(xué)會(huì)在聲明中提出了以下6條正確使用P值的準(zhǔn)則[1]。筆者基于這6條準(zhǔn)則,建議在理論探討和應(yīng)用研究方面注意以下三方面的問題: (一) 重點(diǎn)關(guān)注P值的“一個(gè)可以,三個(gè)不能” 對于一個(gè)特定的數(shù)據(jù)集,常用的研究方法是對此數(shù)據(jù)集在一定的假設(shè)條件下設(shè)定一個(gè)模型,由于不確定性,數(shù)據(jù)與模型之間總會(huì)存在不相容性,將這些假設(shè)的條件與設(shè)定的模型統(tǒng)稱為“原假設(shè)*也翻譯成“零假設(shè)”,心理學(xué)中常翻譯成“虛無假設(shè)”?!薄R话銇碚f,“原假設(shè)”表示某種效應(yīng)不存在,例如兩個(gè)試驗(yàn)組之間不存在差異,或一個(gè)因素與一種結(jié)果之間的沒有關(guān)系。如果在給定的“原假設(shè)”(假設(shè)的條件與設(shè)定的模型)下計(jì)算得到了一個(gè)P值,而此P值越小,數(shù)據(jù)與“原假設(shè)”之間統(tǒng)計(jì)的不相容性就越大,這種不相容性可以用來詮釋對“原假設(shè)”存疑的程度,或提供反對“原假設(shè)”成立的證據(jù)。所以,P值可以表明數(shù)據(jù)與一個(gè)設(shè)定統(tǒng)計(jì)模型之間不相容的程度。不過,對于研究者來說,更加重要的是要特別關(guān)注P值的“三個(gè)不能”。 1.P值不能度量某個(gè)研究假設(shè)為真或假的概率,也不能度量數(shù)據(jù)僅由隨機(jī)因素影響的概率。研究人員非常希望將P值轉(zhuǎn)化成一個(gè)“原假設(shè)”為真的證據(jù),或者能夠度量觀測數(shù)據(jù)僅由隨機(jī)事件造成的概率,但P值兩者都做不到,P值只能解釋數(shù)據(jù)與特定假設(shè)之間的關(guān)系,而并不能解釋假設(shè)本身。 2.P值或統(tǒng)計(jì)顯著性并不能度量某個(gè)效應(yīng)的大小,也不能度量某種結(jié)果是否重要。統(tǒng)計(jì)上的顯著性并不等于科學(xué)、人文或經(jīng)濟(jì)上的重要性。較小的P值并不一定意味著有更大或更重要的效應(yīng);較大的P值也不代表重要性缺乏或更小的效應(yīng)。所以,不管某個(gè)效應(yīng)的影響有多小,當(dāng)樣本量足夠大或測量精度足夠高時(shí),有可能得到一個(gè)較小的P值;反之,無論某個(gè)效應(yīng)影響有多大,當(dāng)樣本量很小或測量不精確時(shí),也可能會(huì)得到一個(gè)較大的P值。相類似,對于相同的估計(jì)效應(yīng),當(dāng)估計(jì)的精度不同時(shí)也會(huì)得到不同的P值。 3.P值本身并不能對統(tǒng)計(jì)模型或研究假設(shè)的可信度進(jìn)行一個(gè)充分的評(píng)價(jià)。研究者應(yīng)該在研究中清楚地意識(shí)到:在沒有充分的專業(yè)理論背景和其他相關(guān)證據(jù)時(shí),P值所能表示的信息極其有限。例如以0.05為標(biāo)準(zhǔn),較小的P值只能為拒絕“原假設(shè)”提供非常弱的信息。同樣,相對較大的P值也不一定意味著信息就偏向支持“原假設(shè)”,因?yàn)榭赡苓€有其他的“假設(shè)”與觀測數(shù)據(jù)具有更強(qiáng)的一致性。因此,如果還存在其他可靠的研究證據(jù),研究者對數(shù)據(jù)的分析就不應(yīng)僅僅停留在對P值的計(jì)算上。 (二) 基于P值的推論需要完整的研究報(bào)告和透明的研究過程 研究者不應(yīng)選擇性地報(bào)告P值和相關(guān)分析。某項(xiàng)研究可能使用了多種分析方法,而研究者只報(bào)告其中的一部分P值的結(jié)果(特別是那些通過顯著性標(biāo)準(zhǔn)的),這些P值難以從本質(zhì)上解釋研究結(jié)論。在已發(fā)表的文獻(xiàn)中,用“櫻桃采摘式”的只挑好不選壞的研究方法,諸如數(shù)據(jù)疏浚、 顯著性追逐、 顯著性探索、 選擇性推斷和“P值黑客”,得到了許多虛假的統(tǒng)計(jì)顯著結(jié)果。如果不對問題進(jìn)行多項(xiàng)統(tǒng)計(jì)檢驗(yàn),容易產(chǎn)生如下結(jié)果:無論研究者選擇哪種基于統(tǒng)計(jì)結(jié)果的結(jié)論,由于讀者無法得知研究者所采用的全部依據(jù)和選擇,研究結(jié)果的有效性就打了大大的折扣。研究者應(yīng)該盡量展示研究過程中所使用過的假設(shè)、所有數(shù)據(jù)收集的過程、所有進(jìn)行的統(tǒng)計(jì)分析和所有計(jì)算得到的P值。如果連進(jìn)行了多少次分析、進(jìn)行了哪些分析以及得到了什么樣的分析結(jié)果(包括P值)都不知道,基于P值和相關(guān)統(tǒng)計(jì)量的研究結(jié)論就不能推斷出有效的科學(xué)結(jié)論。 (三) 科學(xué)研究的結(jié)論、商業(yè)企業(yè)的決策或公共政策的制定,都不應(yīng)該只取決于看一個(gè)P值是否達(dá)到了一個(gè)認(rèn)為給定的標(biāo)準(zhǔn) 在實(shí)踐中,為了給某種科學(xué)主張或論斷提供佐證,將數(shù)據(jù)分析或科學(xué)推斷簡化為一個(gè)機(jī)械的“明線”規(guī)則 (如“P< 0.05”) ,這種做法可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論和失誤的商業(yè)決策。事實(shí)上,一個(gè)科學(xué)結(jié)論的正確與否,并不會(huì)隨著研究者算出的P值大于還是小于0.05而改變。研究人員需要將更多專業(yè)理論背景和其他相關(guān)證據(jù)納入到科學(xué)推斷的過程中,包括研究的有效設(shè)計(jì)、樣本數(shù)據(jù)的質(zhì)量評(píng)價(jià)、研究問題的非樣本信息以及數(shù)據(jù)分析時(shí)所采用的合理假設(shè)等。出于簡化實(shí)用的考慮,商業(yè)決策者常需根據(jù)研究結(jié)論做出“是與否”的決策,但這并不意味著僅憑P值本身就可以單獨(dú)斷定這一商業(yè)決策的正確與否。 總之,數(shù)據(jù)分析不能僅僅局限于計(jì)算P值,而應(yīng)探索其他更擬合數(shù)據(jù)的模型。科學(xué)的世界中,不存在哪個(gè)單一的指標(biāo)能替代科學(xué)求真的思維方式。 大數(shù)據(jù)時(shí)代,小小的P值已引起了國際學(xué)術(shù)界和美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)的高度關(guān)注,因?yàn)樗鼘y(tǒng)計(jì)學(xué)的科學(xué)性提出了嚴(yán)重質(zhì)疑。所以,希望國內(nèi)相關(guān)部門也能引起高度重視,將以上P值的“注意事項(xiàng)”早日編入中國的統(tǒng)計(jì)教科書,重編假設(shè)檢驗(yàn)相關(guān)章節(jié),不要再讓美國教授嘲諷“我們教它是因?yàn)槲覀冇盟覀冇盟且驗(yàn)槲覀兘趟钡倪@種循環(huán)誤導(dǎo)、以訛傳訛的現(xiàn)象,在中國的大學(xué)和研究生院里繼續(xù)重演。 [1] Wasserstein R L, Lazar N A. The ASA's Statement on P-Values: Context, Process, and Purpose[J]. The American Statistician, 2016 (3). [2] Nuzzo R . Statistical Errors[J]. Nature, 2014 (2). [3] 王芳,王景東. 統(tǒng)計(jì)假設(shè)檢驗(yàn)在審計(jì)抽樣工作中的應(yīng)用研究[J]. 審計(jì)研究,2010(5). [4] 盛驟, 謝式千, 潘承毅. 概率論與數(shù)理統(tǒng)計(jì)[M]. 4版.北京:高等教育出版社,2008. [5] Haller H, Krauss S. Misinterpretations of Significance: A Problem Students Share with Their Teachers? [J]. Methods of Psychological Research, 2002(7). [6] 丁東洋,周麗莉. 基于貝葉斯方法的信用評(píng)級(jí)模型構(gòu)建與違約概率估計(jì)[J]. 統(tǒng)計(jì)與信息論壇, 2010(9). [7] 王佐仁,楊琳. 貝葉斯統(tǒng)計(jì)推斷及其主要進(jìn)展[J]. 統(tǒng)計(jì)與信息論壇,2012(12). [8] 劉樂平,高磊,楊娜. MCMC方法的發(fā)展與現(xiàn)代貝葉斯的復(fù)興——紀(jì)念貝葉斯定理發(fā)現(xiàn)250周年[J]. 統(tǒng)計(jì)與信息論壇,2014(2). (責(zé)任編輯:郭詩夢) Statistical Significance a Misreading of P-Values:Based on the Official Statement of ASA HAO Li, LIU Le-ping, SHEN Ya-fei (Big Data Statistics Research Center, Tianjin University of Finance and Economics, Tianjin 300222, China) After the ASA's statement on p-values and significance, p-value was brought to the attention of the scholars. The paper briefly explains p-value, statistical significance, and statistical power concepts, through "Coin-Throwing" and "Hair Length Determine Person's" intuitive examples, analysis the reason of p-value misreading with the classic case of psychological statistics. The paper strongly recommends that researchers in accordance with the "Six Principles" of proper use the p-value, based on the official statement of ASA. statistical significance; p-values; psychological statistics; Bayesian statistics 2016-04-06;修復(fù)日期:2016-10-11 國家社會(huì)科學(xué)基金項(xiàng)目 《基于大數(shù)據(jù)分析的城市社區(qū)養(yǎng)老模式研究》(15BRK002) 郝 麗,女,安徽壽縣人,經(jīng)濟(jì)學(xué)碩士,副教授,研究方向:體育與健康大數(shù)據(jù)統(tǒng)計(jì)分析; 劉樂平,男,江西萍鄉(xiāng)人,經(jīng)濟(jì)學(xué)博士,教授,博士生導(dǎo)師,研究方向:貝葉斯數(shù)據(jù)分析,精算與風(fēng)險(xiǎn)管理; 申亞飛,男,山西黎城人,碩士生,研究方向:大數(shù)據(jù)統(tǒng)計(jì)分析。 C829.29∶O211.9 A 1007-3116(2016)12-0003-08三、P值誤讀經(jīng)典案例及其原因分析
四、正確使用P值的建議