ASA關(guān)于統(tǒng)計意義和p-值的聲明

2016-02-06 00:31:252016年2月5日

中國衛(wèi)生統(tǒng)計 2016年3期

關(guān)鍵詞：研究者聲明結(jié)論

2016年2月5日

Ronald L.Wasserstein，執(zhí)行主席代表美國統(tǒng)計學(xué)會理事會

（方積乾譯）

ASA關(guān)于統(tǒng)計意義和p-值的聲明

2016年2月5日

Ronald L.Wasserstein，執(zhí)行主席代表美國統(tǒng)計學(xué)會理事會

（方積乾譯）

近些年，科學(xué)研究的日益定量化和大型復(fù)雜數(shù)據(jù)集的激增擴充了統(tǒng)計學(xué)方法應(yīng)用的范圍。它創(chuàng)造了科學(xué)進步的新途徑，但也帶來對從研究數(shù)據(jù)提取結(jié)論的關(guān)注?？蒲薪Y(jié)論的真實性，包括其可再現(xiàn)性，不僅僅取決于統(tǒng)計學(xué)方法。合適地選擇技術(shù)、恰當(dāng)?shù)剡M行分析以及正確解釋統(tǒng)計結(jié)論，在保證結(jié)論正確和確切表達(dá)結(jié)果的不確定性上也起了關(guān)鍵作用。許多發(fā)表的科學(xué)結(jié)論是以p-值這個指標(biāo)評估的“統(tǒng)計學(xué)意義”概念為支撐的。雖然p-值是一個有用的統(tǒng)計學(xué)測度，但它普遍地被錯誤使用和錯誤解釋。這已經(jīng)導(dǎo)致某些科學(xué)雜志不鼓勵使用p-值，某些科學(xué)家建議廢棄它，自從引入p-值以來某些爭論就基本上沒有變過。在這個背景下，ASA相信，以一個正式的聲明來澄清關(guān)于正確使用和解釋p-值的若干廣泛贊同的原則，可以使科學(xué)界從中得益。這里提及的內(nèi)容不僅影響科研，而且也影響研究基金、雜志工作、職業(yè)發(fā)展、科學(xué)教育、公共政策、新聞和法律。這個聲明并不想解決與合理統(tǒng)計實踐有關(guān)的所有問題，也不想平息基本爭議。而是借這個聲明以非技術(shù)的語言，按照統(tǒng)計學(xué)界的廣泛共識，闡明若干原則，有助于改善定量科學(xué)的實施或解釋。

什么是p-值？

非正式而言，p-值是在一個特定統(tǒng)計模型之下，數(shù)據(jù)（例如，兩個比較組樣本均數(shù)之差）的一個統(tǒng)計學(xué)概括，等于其觀察值或取更極端值的概率。

原則

1.p-值可以表明數(shù)據(jù)和特定統(tǒng)計模型之間如何不相容。

p-值提供一個辦法來概括一個特定數(shù)據(jù)集和為其建議的一個模型之間的不相容性。最常見的情形是在一組假定之下構(gòu)建的一個模型和一個所謂的“零假設(shè)”。零假設(shè)常常是效應(yīng)不存在，諸如兩組之間無差異，或者一個因素和一個結(jié)局之間無關(guān)系。如果用以計算p-值的基本假定成立，p-值越小，數(shù)據(jù)和零假設(shè)之間不相容性越大。這個不相容性可以解釋為質(zhì)疑或提供證據(jù)反對零假設(shè)或基本假定。

2.p-值并不度量研究假設(shè)為真的概率，或者數(shù)據(jù)純系隨機產(chǎn)生的概率。

研究者常常希望把p-值放到關(guān)于零假設(shè)為真，或者觀察數(shù)據(jù)系隨機產(chǎn)生的敘述中。p-值并非如此。它描述數(shù)據(jù)和特定假設(shè)之間的關(guān)系，而不是描述假設(shè)本身。

3.科學(xué)結(jié)論和商務(wù)或政策決定不可以僅僅基于一個p-值是否通過特定的閾值。

將數(shù)據(jù)分析或科學(xué)推斷簡化為機械的“一刀切”裁定（諸如“p＜0.05”），這樣來證明科學(xué)論斷或結(jié)論會導(dǎo)致錯誤的信念和糟糕的決策。在“一刀切”的一側(cè)，結(jié)論立即是“正確”，在另一側(cè)，立即是“錯誤”。研究者作科學(xué)推斷時必須考慮許多因素，包括研究的設(shè)計、測量的品質(zhì)、所研究現(xiàn)象的外部證據(jù)，以及數(shù)據(jù)分析背后的假定是否成立。實踐固然常要求二擇一，作“yes-no”決定，但是，并不意味單靠p-值就能保證一個決定正確與否。將廣泛使用的“統(tǒng)計學(xué)意義”（通常解釋為“p≤0.05”）作為宣布一個科學(xué)發(fā)現(xiàn)（或真理）的合格證會導(dǎo)致科學(xué)過程相當(dāng)大的歪曲。

4.正確恰當(dāng)?shù)耐茢嘁笸暾膱蟾婧屯该鞫?/h3>
p-值和有關(guān)的分析決不可選擇性地報告。數(shù)據(jù)作了多重分析，卻只報告特定部分的p-值（一般報告通過了閾值的那些）會使得所報告的p-值根本不可解釋。專挑有前途的發(fā)現(xiàn)，又稱為數(shù)據(jù)捕撈、意義追逐、意義尋覓、選擇性推斷和“p-黑客”，導(dǎo)致已發(fā)表文獻(xiàn)中虛假的、過度統(tǒng)計學(xué)意義的結(jié)果，必須嚴(yán)格避免。人們一定不要正規(guī)地實施多重統(tǒng)計檢驗而產(chǎn)生這個問題:每當(dāng)研究者基于根據(jù)統(tǒng)計結(jié)果選擇報告什么，如果不告訴讀者如何選擇及其偏倚，那些結(jié)果的解釋必是嚴(yán)重歪曲不實的。研究者必須公開研究階段被探索假設(shè)的個數(shù)、所有數(shù)據(jù)收集的決策、實施過的所有統(tǒng)計分析和計算過的所有p-值。至少要知道進行了多少分析和什么分析以及怎樣選擇某些分析（包括p-值）來報告，才能基于p-值和相關(guān)的統(tǒng)計量作出真實的結(jié)論。

5.p-值或統(tǒng)計學(xué)意義并不度量效應(yīng)的大小或結(jié)果的重要性。

統(tǒng)計學(xué)意義并不等價于科學(xué)、人類或經(jīng)濟意義。較小的p-值不一定意味較大或較重要效應(yīng)的出現(xiàn)，較大的p-值不一定意味缺乏重要性或沒有效應(yīng)。任何效應(yīng)，不論多小，如果樣本量足夠大或測量精度足夠高，總能產(chǎn)生一個小的p-值；如果樣本量小或測量不精確，大的效應(yīng)也可能產(chǎn)生不起眼的p-值。類似地，如果估計的精度不同，同一個被估計的效應(yīng)將有不同的p-值。

6.p-值本身并不對模型或假設(shè)提供一個好的度量

研究者必須知道，沒有背景或其他證據(jù)，p-值提供的信息是有限的。例如，一個接近0.05的p-值本身只是反對零假設(shè)的微弱證據(jù)。類似地，一個相對大的p-值并不意味證據(jù)有利于零假設(shè)；許多其他的假設(shè)可能和觀察到的數(shù)據(jù)同樣或者更加一致。由于這些原因，當(dāng)其他方法適宜和可行時，數(shù)據(jù)分析決不可止于一個p-值的計算。

其他方法

鑒于出現(xiàn)p-值的錯誤使用和錯誤概念，有些統(tǒng)計學(xué)家愿意以其他方法補充甚至取代p-值。包括比檢驗更強調(diào)估計，諸如置信區(qū)間、可信區(qū)間或預(yù)測區(qū)間；貝葉斯方法；證據(jù)的其他測度，諸如似然比或貝葉斯因子；以及其他途徑，諸如決策理論模型和錯誤發(fā)現(xiàn)率。所有這些測度和方法依賴于更多假定，但它們較多直接關(guān)注效應(yīng)的大?。捌溥B帶的不確定性）或假設(shè)是否正確。

結(jié) 論

好的統(tǒng)計實踐，作為好的科學(xué)實踐的基本成分，強調(diào)好的研究設(shè)計和實施原則，數(shù)據(jù)的多種數(shù)值和圖形概括、理解所研究的現(xiàn)象、結(jié)果的全面和完整的報告，以及正確邏輯和定量地理解數(shù)據(jù)概括意味什么。沒有任何單一的指標(biāo)可以取代科學(xué)推理。

（致謝:ASA理事會感謝下列人士在此聲明發(fā)展過程中和我們分享他們的專業(yè)知識和見解。這份聲明未必反映所有人的觀點，實際上，有些觀點可能完全或部分與本聲明相反。無論如何，我們深深地感謝他們的貢獻(xiàn)。

Naomi Altman，Jim Berger，YoavBenjamini，Don Berry，Brad Carlin，John Carlin，George Cobb，Marie Davidian，Steve Fienberg，Andrew Gelman，Steve Goodman，Sander Greenland，Guido Imbens，John Ioannidis，Valen Johnson，Michael Lavine，MichaelLew，Rod Little，Deborah Mayo，Chuck McCulloch，Michele Millar，Sally Morton，ReginaNuzzo，Hilary Parker，Kenneth Rothman，Don Rubin，Stephen Senn，Uri Simonsohn，DaleneStangl，Philip Stark，Steve Ziliak．）

一份關(guān)于p-值和統(tǒng)計學(xué)意義的簡短文獻(xiàn)清單

以下清單與ASA關(guān)于p-值和統(tǒng)計學(xué)意義的聲明相伴，它并不全面，但為希望詳細(xì)探索本聲明所提及內(nèi)容的人們提供一個好的起點。

（排列以字母為序）

1.A ltman，D.G.，Bland，J.M.（1995），“Absence of evidence is not evidence of absence，”British Medical Journal，311:485.

2.Altman，D.G.，Machin，D.，Bryant，T.N.，Gardner，M.J.，eds.（2000），Statisticswith Confidence，2nd ed.，London:BMJ Books.

3.Berger，J.O.，Delampady，M.（1987），”Testing precise hypotheses，”Statistical Science，2，317-335.

4.Berry，D.（2012），“Multiplicities in Cancer Research:U-biquitous and Necessary Evils，”Journalof the National Cancer Institute，104，1124-1132.

5.Christensen，R.（2005），“Testing Fisher，Neyman，Pearson，and Bayes，”The American Statistician，59，2，121-126.

6.Cox，D.R.（1982），“Statistical Significance Tests，”British Journal of Clinical Pharmacology，14，325-331.

7.Edwards，W.，Lindman，H.，and Savage，L.J.（1963），“Bayesian statistical inference forpsychological research，”Psychological Review，70，193-242.

8.Gelman，A.，Loken，E.（2014），“The Statistical Crisis in Science［online］，”American Scientist，102.Available at http://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis-in-science

9.Gelman，A.，Stern HS.（2006），“The difference between‘significant’and‘not significant’is notitself statistically significant，”The American Statistician，60:328-331.

10.Gigerenzer，G.（2004），“Mindless statistics，”Journal of Socioeconomics，33:567-606.

11.Goodman，S.N.（1999a），“Toward Evidence-Based Medical Statistics 1:The P Value Fallacy，”Annals of Internal Medicine，130，995-1004.

12.＿＿＿＿＿＿＿＿＿＿＿＿（1999b），“Toward Evidence-Based Medical Statistics.2:The Bayes Factor，”Annals of Internal Medicine，130，1005-1013.

13.＿＿＿＿＿＿＿＿＿＿＿＿（2008），“A Dirty Dozen:Twelve p-Value Misconceptions，”Seminars in Hematology，45，135-140.

14.Greenland，S.（2011），“Nullm isinterpretation in statistical testing and its impact on health riskassessment，”Preventive Medicine，53，225-228.

15.＿＿＿＿＿＿＿＿＿＿＿（2012）.Nonsignificance plus high power does not imply support for the null overthe alternative.Annals of Epidemiology，22:364-368.

16.Greenland，S.，and Poole，C.（2011），“Problems in common interpretations of statistics inscientific articles，expert reports，and testimony，”Jurimetrics，51，113-129.

17.Hoenig，J.M.，and Heisey，D.M.（2001）.The abuse of power:The pervasive fallacy of power calculations for data analysis.The American Statistician，55:19-24.

18.Ioannidis，J.P.（2005），“Contradicted and initially stronger effects in highly cited clinical research.”Journal of the American Medical Association，294，218-228.

19.＿＿＿＿＿＿＿＿＿＿＿（2008），“Why most discovered true associations are inflated（with discussion），”Epidemiology，19:640-658.

20.Johnson，V.E.（2013），“Revised standards for statistical evidence，”Proceedings of the National Academy of Sciences，110（48），19313-19317.

21.＿＿＿＿＿＿＿＿＿＿（2013），“Uniform ly most powerful Bayesian tests，”Annals of Statistics，41，1716-1741.

22.Lang，J.，Rothman K.J.，and Cann，C.I.（1998），“That confounded P-value.（Editorial），”Epidemiology，9，7-8.

23.Lavine，M.（1999），“What is Bayesian Statistics and Why Everything Else is Wrong，”UMAP Journal，20:2.

24.Lew，M.J.（2012），“Bad statistical practice in pharmacology（and other basic biomedical disciplines）:you probably don′t know P，”British Journal of Pharmacology，166:5，1559-1567.

25.Phillips，C.V.（2004），“Publication bias in situ，”BMC Medical Research Methodology，4:20.

26.Poole，C.（1987），“Beyond the confidence interval，”A-merican Journal of Public Health，77，195-199.

27.Poole，C.（2001）.Low P-values or narrow confidence intervals:Which are more durable？Epidemiology，12，291-294.

28.Rothman，K.J.（1978），“A show of confidence（Editorial），”New England Journal of Medicine，299，1362-1363.

29.＿＿＿＿＿＿＿＿＿＿＿（1986），“Significance questing（Editorial），”Annals of Internal Medicine，105，445-447.

30.＿＿＿＿＿＿＿＿＿＿＿（2010），“Curbing type I and type II errors，”European Journal of Epidemiology，25，223-224.

31.Rothman，K.J.，Weiss，N.S.，Robins，J.，Neutra，R.，and Stellman，S.（1992），“Amicus Curiaebrief for the U.S.Supreme Court，Daubert v.Merrell Dow Pharmaceuticals，Petition for W rit of Certiorari to the United States Court of Appeals for the Ninth Circuit，”No.92-102，October Term，1992.

32.Rozeboom，W.M.（1960），“The fallacy of the null-hypothesis significance test，”Psychological Bulletin，57:416-428.

33.Schervish，M.J.（1996），“P Values:What They A re and What They Are Not，”The American Statistician，50:3，203-206.

34.Simmons，J.P.，Nelson，L.D.，Simonsohn，U.（2011），“False-Positive Psychology:Undisclosed Flexibility in Data Collection and Analysis A llows Presenting Anything as Significant，”Psychological Science，22（11），1359-1366.

35.Stang，A.，and Rothman，K.J.（2011），“That confounded P-value revisited，”Journal of Clinical Epidemiology，64（9），1047-1048.

36.Stang，A.，Poole，C.，and Kuss，O.（2010），“The ongoing tyranny of statistical significance testing in biomedical research，”European Journal of Epidemiology，25（4），225-30.

37.Sterne，J.A.C.（2002）.“Teaching hypothesis tests-time for significant change？”Statistics in Medicine，21，985-994.

38.Sterne，J.A.C.Smith，G.D.（2001）.“Sifting the evidence-what′s wrong with significancetests？”British Medical Journal，322，226-231.

39.Ziliak，S.T.（2010），“The Validus Medicus and a New Gold Standard，”The Lancet，376，9738，324-325.

40.Ziliak，S.T.，and McCloskey，D.N.（2008），The Cult of Statistical Significance:How the Standard Error Costs Us Jobs，Justice，and Lives，Ann Arbor:University of Michigan Press.

欲了解英文原文，請參閱:

Ronald L.Wasserstein＆Nicole A.Lazar（2016）:The ASA′s statement on p-values:context，process，and purpose，The American Statistician，DOI:10.1080/00031305.2016.1154108

To link to this article:http://dx.doi.org/10.1080/00031305.2016.1154108

（責(zé)任編輯:郭海強）

ASA關(guān)于統(tǒng)計意義和p-值的聲明

原 則

1.p-值可以表明數(shù)據(jù)和特定統(tǒng)計模型之間如何不相容。

2.p-值并不度量研究假設(shè)為真的概率，或者數(shù)據(jù)純系隨機產(chǎn)生的概率。

3.科學(xué)結(jié)論和商務(wù)或政策決定不可以僅僅基于一個p-值是否通過特定的閾值。

5.p-值或統(tǒng)計學(xué)意義并不度量效應(yīng)的大小或結(jié)果的重要性。

6.p-值本身并不對模型或假設(shè)提供一個好的度量

其他方法

結(jié) 論

原則

1.p-值可以表明數(shù)據(jù)和特定統(tǒng)計模型之間如何不相容。

2.p-值并不度量研究假設(shè)為真的概率，或者數(shù)據(jù)純系隨機產(chǎn)生的概率。

3.科學(xué)結(jié)論和商務(wù)或政策決定不可以僅僅基于一個p-值是否通過特定的閾值。

5.p-值或統(tǒng)計學(xué)意義并不度量效應(yīng)的大小或結(jié)果的重要性。