2016年2月5日
Ronald L.Wasserstein,執(zhí)行主席代表美國統(tǒng)計學(xué)會理事會
(方積乾譯)
ASA關(guān)于統(tǒng)計意義和p-值的聲明
2016年2月5日
Ronald L.Wasserstein,執(zhí)行主席代表美國統(tǒng)計學(xué)會理事會
(方積乾譯)
近些年,科學(xué)研究的日益定量化和大型復(fù)雜數(shù)據(jù)集的激增擴充了統(tǒng)計學(xué)方法應(yīng)用的范圍。它創(chuàng)造了科學(xué)進步的新途徑,但也帶來對從研究數(shù)據(jù)提取結(jié)論的關(guān)注??蒲薪Y(jié)論的真實性,包括其可再現(xiàn)性,不僅僅取決于統(tǒng)計學(xué)方法。合適地選擇技術(shù)、恰當(dāng)?shù)剡M行分析以及正確解釋統(tǒng)計結(jié)論,在保證結(jié)論正確和確切表達(dá)結(jié)果的不確定性上也起了關(guān)鍵作用。許多發(fā)表的科學(xué)結(jié)論是以p-值這個指標(biāo)評估的“統(tǒng)計學(xué)意義”概念為支撐的。雖然p-值是一個有用的統(tǒng)計學(xué)測度,但它普遍地被錯誤使用和錯誤解釋。這已經(jīng)導(dǎo)致某些科學(xué)雜志不鼓勵使用p-值,某些科學(xué)家建議廢棄它,自從引入p-值以來某些爭論就基本上沒有變過。在這個背景下,ASA相信,以一個正式的聲明來澄清關(guān)于正確使用和解釋p-值的若干廣泛贊同的原則,可以使科學(xué)界從中得益。這里提及的內(nèi)容不僅影響科研,而且也影響研究基金、雜志工作、職業(yè)發(fā)展、科學(xué)教育、公共政策、新聞和法律。這個聲明并不想解決與合理統(tǒng)計實踐有關(guān)的所有問題,也不想平息基本爭議。而是借這個聲明以非技術(shù)的語言,按照統(tǒng)計學(xué)界的廣泛共識,闡明若干原則,有助于改善定量科學(xué)的實施或解釋。
什么是p-值?
非正式而言,p-值是在一個特定統(tǒng)計模型之下,數(shù)據(jù)(例如,兩個比較組樣本均數(shù)之差)的一個統(tǒng)計學(xué)概括,等于其觀察值或取更極端值的概率。
p-值提供一個辦法來概括一個特定數(shù)據(jù)集和為其建議的一個模型之間的不相容性。最常見的情形是在一組假定之下構(gòu)建的一個模型和一個所謂的“零假設(shè)”。零假設(shè)常常是效應(yīng)不存在,諸如兩組之間無差異,或者一個因素和一個結(jié)局之間無關(guān)系。如果用以計算p-值的基本假定成立,p-值越小,數(shù)據(jù)和零假設(shè)之間不相容性越大。這個不相容性可以解釋為質(zhì)疑或提供證據(jù)反對零假設(shè)或基本假定。
研究者常常希望把p-值放到關(guān)于零假設(shè)為真,或者觀察數(shù)據(jù)系隨機產(chǎn)生的敘述中。p-值并非如此。它描述數(shù)據(jù)和特定假設(shè)之間的關(guān)系,而不是描述假設(shè)本身。
將數(shù)據(jù)分析或科學(xué)推斷簡化為機械的“一刀切”裁定(諸如“p<0.05”),這樣來證明科學(xué)論斷或結(jié)論會導(dǎo)致錯誤的信念和糟糕的決策。在“一刀切”的一側(cè),結(jié)論立即是“正確”,在另一側(cè),立即是“錯誤”。研究者作科學(xué)推斷時必須考慮許多因素,包括研究的設(shè)計、測量的品質(zhì)、所研究現(xiàn)象的外部證據(jù),以及數(shù)據(jù)分析背后的假定是否成立。實踐固然常要求二擇一,作“yes-no”決定,但是,并不意味單靠p-值就能保證一個決定正確與否。將廣泛使用的“統(tǒng)計學(xué)意義”(通常解釋為“p≤0.05”)作為宣布一個科學(xué)發(fā)現(xiàn)(或真理)的合格證會導(dǎo)致科學(xué)過程相當(dāng)大的歪曲。
p-值和有關(guān)的分析決不可選擇性地報告。數(shù)據(jù)作了多重分析,卻只報告特定部分的p-值(一般報告通過了閾值的那些)會使得所報告的p-值根本不可解釋。專挑有前途的發(fā)現(xiàn),又稱為數(shù)據(jù)捕撈、意義追逐、意義尋覓、選擇性推斷和“p-黑客”,導(dǎo)致已發(fā)表文獻(xiàn)中虛假的、過度統(tǒng)計學(xué)意義的結(jié)果,必須嚴(yán)格避免。人們一定不要正規(guī)地實施多重統(tǒng)計檢驗而產(chǎn)生這個問題:每當(dāng)研究者基于根據(jù)統(tǒng)計結(jié)果選擇報告什么,如果不告訴讀者如何選擇及其偏倚,那些結(jié)果的解釋必是嚴(yán)重歪曲不實的。研究者必須公開研究階段被探索假設(shè)的個數(shù)、所有數(shù)據(jù)收集的決策、實施過的所有統(tǒng)計分析和計算過的所有p-值。至少要知道進行了多少分析和什么分析以及怎樣選擇某些分析(包括p-值)來報告,才能基于p-值和相關(guān)的統(tǒng)計量作出真實的結(jié)論。
統(tǒng)計學(xué)意義并不等價于科學(xué)、人類或經(jīng)濟意義。較小的p-值不一定意味較大或較重要效應(yīng)的出現(xiàn),較大的p-值不一定意味缺乏重要性或沒有效應(yīng)。任何效應(yīng),不論多小,如果樣本量足夠大或測量精度足夠高,總能產(chǎn)生一個小的p-值;如果樣本量小或測量不精確,大的效應(yīng)也可能產(chǎn)生不起眼的p-值。類似地,如果估計的精度不同,同一個被估計的效應(yīng)將有不同的p-值。
研究者必須知道,沒有背景或其他證據(jù),p-值提供的信息是有限的。例如,一個接近0.05的p-值本身只是反對零假設(shè)的微弱證據(jù)。類似地,一個相對大的p-值并不意味證據(jù)有利于零假設(shè);許多其他的假設(shè)可能和觀察到的數(shù)據(jù)同樣或者更加一致。由于這些原因,當(dāng)其他方法適宜和可行時,數(shù)據(jù)分析決不可止于一個p-值的計算。
鑒于出現(xiàn)p-值的錯誤使用和錯誤概念,有些統(tǒng)計學(xué)家愿意以其他方法補充甚至取代p-值。包括比檢驗更強調(diào)估計,諸如置信區(qū)間、可信區(qū)間或預(yù)測區(qū)間;貝葉斯方法;證據(jù)的其他測度,諸如似然比或貝葉斯因子;以及其他途徑,諸如決策理論模型和錯誤發(fā)現(xiàn)率。所有這些測度和方法依賴于更多假定,但它們較多直接關(guān)注效應(yīng)的大?。捌溥B帶的不確定性)或假設(shè)是否正確。
好的統(tǒng)計實踐,作為好的科學(xué)實踐的基本成分,強調(diào)好的研究設(shè)計和實施原則,數(shù)據(jù)的多種數(shù)值和圖形概括、理解所研究的現(xiàn)象、結(jié)果的全面和完整的報告,以及正確邏輯和定量地理解數(shù)據(jù)概括意味什么。沒有任何單一的指標(biāo)可以取代科學(xué)推理。
(致謝:ASA理事會感謝下列人士在此聲明發(fā)展過程中和我們分享他們的專業(yè)知識和見解。這份聲明未必反映所有人的觀點,實際上,有些觀點可能完全或部分與本聲明相反。無論如何,我們深深地感謝他們的貢獻(xiàn)。
Naomi Altman,Jim Berger,YoavBenjamini,Don Berry,Brad Carlin,John Carlin,George Cobb,Marie Davidian,Steve Fienberg,Andrew Gelman,Steve Goodman,Sander Greenland,Guido Imbens,John Ioannidis,Valen Johnson,Michael Lavine,MichaelLew,Rod Little,Deborah Mayo,Chuck McCulloch,Michele Millar,Sally Morton,ReginaNuzzo,Hilary Parker,Kenneth Rothman,Don Rubin,Stephen Senn,Uri Simonsohn,DaleneStangl,Philip Stark,Steve Ziliak.)
一份關(guān)于p-值和統(tǒng)計學(xué)意義的簡短文獻(xiàn)清單
以下清單與ASA關(guān)于p-值和統(tǒng)計學(xué)意義的聲明相伴,它并不全面,但為希望詳細(xì)探索本聲明所提及內(nèi)容的人們提供一個好的起點。
(排列以字母為序)
1.A ltman,D.G.,Bland,J.M.(1995),“Absence of evidence is not evidence of absence,”British Medical Journal,311:485.
2.Altman,D.G.,Machin,D.,Bryant,T.N.,Gardner,M.J.,eds.(2000),Statisticswith Confidence,2nd ed.,London:BMJ Books.
3.Berger,J.O.,Delampady,M.(1987),”Testing precise hypotheses,”Statistical Science,2,317-335.
4.Berry,D.(2012),“Multiplicities in Cancer Research:U-biquitous and Necessary Evils,”Journalof the National Cancer Institute,104,1124-1132.
5.Christensen,R.(2005),“Testing Fisher,Neyman,Pearson,and Bayes,”The American Statistician,59,2,121-126.
6.Cox,D.R.(1982),“Statistical Significance Tests,”British Journal of Clinical Pharmacology,14,325-331.
7.Edwards,W.,Lindman,H.,and Savage,L.J.(1963),“Bayesian statistical inference forpsychological research,”Psychological Review,70,193-242.
8.Gelman,A.,Loken,E.(2014),“The Statistical Crisis in Science[online],”American Scientist,102.Available at http://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis-in-science
9.Gelman,A.,Stern HS.(2006),“The difference between‘significant’and‘not significant’is notitself statistically significant,”The American Statistician,60:328-331.
10.Gigerenzer,G.(2004),“Mindless statistics,”Journal of Socioeconomics,33:567-606.
11.Goodman,S.N.(1999a),“Toward Evidence-Based Medical Statistics 1:The P Value Fallacy,”Annals of Internal Medicine,130,995-1004.
12.____________(1999b),“Toward Evidence-Based Medical Statistics.2:The Bayes Factor,”Annals of Internal Medicine,130,1005-1013.
13.____________(2008),“A Dirty Dozen:Twelve p-Value Misconceptions,”Seminars in Hematology,45,135-140.
14.Greenland,S.(2011),“Nullm isinterpretation in statistical testing and its impact on health riskassessment,”Preventive Medicine,53,225-228.
15.___________(2012).Nonsignificance plus high power does not imply support for the null overthe alternative.Annals of Epidemiology,22:364-368.
16.Greenland,S.,and Poole,C.(2011),“Problems in common interpretations of statistics inscientific articles,expert reports,and testimony,”Jurimetrics,51,113-129.
17.Hoenig,J.M.,and Heisey,D.M.(2001).The abuse of power:The pervasive fallacy of power calculations for data analysis.The American Statistician,55:19-24.
18.Ioannidis,J.P.(2005),“Contradicted and initially stronger effects in highly cited clinical research.”Journal of the American Medical Association,294,218-228.
19.___________(2008),“Why most discovered true associations are inflated(with discussion),”Epidemiology,19:640-658.
20.Johnson,V.E.(2013),“Revised standards for statistical evidence,”Proceedings of the National Academy of Sciences,110(48),19313-19317.
21.__________(2013),“Uniform ly most powerful Bayesian tests,”Annals of Statistics,41,1716-1741.
22.Lang,J.,Rothman K.J.,and Cann,C.I.(1998),“That confounded P-value.(Editorial),”Epidemiology,9,7-8.
23.Lavine,M.(1999),“What is Bayesian Statistics and Why Everything Else is Wrong,”UMAP Journal,20:2.
24.Lew,M.J.(2012),“Bad statistical practice in pharmacology(and other basic biomedical disciplines):you probably don′t know P,”British Journal of Pharmacology,166:5,1559-1567.
25.Phillips,C.V.(2004),“Publication bias in situ,”BMC Medical Research Methodology,4:20.
26.Poole,C.(1987),“Beyond the confidence interval,”A-merican Journal of Public Health,77,195-199.
27.Poole,C.(2001).Low P-values or narrow confidence intervals:Which are more durable?Epidemiology,12,291-294.
28.Rothman,K.J.(1978),“A show of confidence(Editorial),”New England Journal of Medicine,299,1362-1363.
29.___________(1986),“Significance questing(Editorial),”Annals of Internal Medicine,105,445-447.
30.___________(2010),“Curbing type I and type II errors,”European Journal of Epidemiology,25,223-224.
31.Rothman,K.J.,Weiss,N.S.,Robins,J.,Neutra,R.,and Stellman,S.(1992),“Amicus Curiaebrief for the U.S.Supreme Court,Daubert v.Merrell Dow Pharmaceuticals,Petition for W rit of Certiorari to the United States Court of Appeals for the Ninth Circuit,”No.92-102,October Term,1992.
32.Rozeboom,W.M.(1960),“The fallacy of the null-hypothesis significance test,”Psychological Bulletin,57:416-428.
33.Schervish,M.J.(1996),“P Values:What They A re and What They Are Not,”The American Statistician,50:3,203-206.
34.Simmons,J.P.,Nelson,L.D.,Simonsohn,U.(2011),“False-Positive Psychology:Undisclosed Flexibility in Data Collection and Analysis A llows Presenting Anything as Significant,”Psychological Science,22(11),1359-1366.
35.Stang,A.,and Rothman,K.J.(2011),“That confounded P-value revisited,”Journal of Clinical Epidemiology,64(9),1047-1048.
36.Stang,A.,Poole,C.,and Kuss,O.(2010),“The ongoing tyranny of statistical significance testing in biomedical research,”European Journal of Epidemiology,25(4),225-30.
37.Sterne,J.A.C.(2002).“Teaching hypothesis tests-time for significant change?”Statistics in Medicine,21,985-994.
38.Sterne,J.A.C.Smith,G.D.(2001).“Sifting the evidence-what′s wrong with significancetests?”British Medical Journal,322,226-231.
39.Ziliak,S.T.(2010),“The Validus Medicus and a New Gold Standard,”The Lancet,376,9738,324-325.
40.Ziliak,S.T.,and McCloskey,D.N.(2008),The Cult of Statistical Significance:How the Standard Error Costs Us Jobs,Justice,and Lives,Ann Arbor:University of Michigan Press.
欲了解英文原文,請參閱:
Ronald L.Wasserstein&Nicole A.Lazar(2016):The ASA′s statement on p-values:context,process,and purpose,The American Statistician,DOI:10.1080/00031305.2016.1154108
To link to this article:http://dx.doi.org/10.1080/00031305.2016.1154108
(責(zé)任編輯:郭海強)