• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      ASA關(guān)于統(tǒng)計意義和p-值的聲明

      2016-02-06 00:31:252016年2月5日
      中國衛(wèi)生統(tǒng)計 2016年3期
      關(guān)鍵詞:研究者聲明結(jié)論

      2016年2月5日

      Ronald L.Wasserstein,執(zhí)行主席代表美國統(tǒng)計學(xué)會理事會

      (方積乾譯)

      ASA關(guān)于統(tǒng)計意義和p-值的聲明

      2016年2月5日

      Ronald L.Wasserstein,執(zhí)行主席代表美國統(tǒng)計學(xué)會理事會

      (方積乾譯)

      近些年,科學(xué)研究的日益定量化和大型復(fù)雜數(shù)據(jù)集的激增擴充了統(tǒng)計學(xué)方法應(yīng)用的范圍。它創(chuàng)造了科學(xué)進步的新途徑,但也帶來對從研究數(shù)據(jù)提取結(jié)論的關(guān)注??蒲薪Y(jié)論的真實性,包括其可再現(xiàn)性,不僅僅取決于統(tǒng)計學(xué)方法。合適地選擇技術(shù)、恰當(dāng)?shù)剡M行分析以及正確解釋統(tǒng)計結(jié)論,在保證結(jié)論正確和確切表達(dá)結(jié)果的不確定性上也起了關(guān)鍵作用。許多發(fā)表的科學(xué)結(jié)論是以p-值這個指標(biāo)評估的“統(tǒng)計學(xué)意義”概念為支撐的。雖然p-值是一個有用的統(tǒng)計學(xué)測度,但它普遍地被錯誤使用和錯誤解釋。這已經(jīng)導(dǎo)致某些科學(xué)雜志不鼓勵使用p-值,某些科學(xué)家建議廢棄它,自從引入p-值以來某些爭論就基本上沒有變過。在這個背景下,ASA相信,以一個正式的聲明來澄清關(guān)于正確使用和解釋p-值的若干廣泛贊同的原則,可以使科學(xué)界從中得益。這里提及的內(nèi)容不僅影響科研,而且也影響研究基金、雜志工作、職業(yè)發(fā)展、科學(xué)教育、公共政策、新聞和法律。這個聲明并不想解決與合理統(tǒng)計實踐有關(guān)的所有問題,也不想平息基本爭議。而是借這個聲明以非技術(shù)的語言,按照統(tǒng)計學(xué)界的廣泛共識,闡明若干原則,有助于改善定量科學(xué)的實施或解釋。

      什么是p-值?

      非正式而言,p-值是在一個特定統(tǒng)計模型之下,數(shù)據(jù)(例如,兩個比較組樣本均數(shù)之差)的一個統(tǒng)計學(xué)概括,等于其觀察值或取更極端值的概率。

      原 則

      1.p-值可以表明數(shù)據(jù)和特定統(tǒng)計模型之間如何不相容。

      p-值提供一個辦法來概括一個特定數(shù)據(jù)集和為其建議的一個模型之間的不相容性。最常見的情形是在一組假定之下構(gòu)建的一個模型和一個所謂的“零假設(shè)”。零假設(shè)常常是效應(yīng)不存在,諸如兩組之間無差異,或者一個因素和一個結(jié)局之間無關(guān)系。如果用以計算p-值的基本假定成立,p-值越小,數(shù)據(jù)和零假設(shè)之間不相容性越大。這個不相容性可以解釋為質(zhì)疑或提供證據(jù)反對零假設(shè)或基本假定。

      2.p-值并不度量研究假設(shè)為真的概率,或者數(shù)據(jù)純系隨機產(chǎn)生的概率。

      研究者常常希望把p-值放到關(guān)于零假設(shè)為真,或者觀察數(shù)據(jù)系隨機產(chǎn)生的敘述中。p-值并非如此。它描述數(shù)據(jù)和特定假設(shè)之間的關(guān)系,而不是描述假設(shè)本身。

      3.科學(xué)結(jié)論和商務(wù)或政策決定不可以僅僅基于一個p-值是否通過特定的閾值。

      將數(shù)據(jù)分析或科學(xué)推斷簡化為機械的“一刀切”裁定(諸如“p<0.05”),這樣來證明科學(xué)論斷或結(jié)論會導(dǎo)致錯誤的信念和糟糕的決策。在“一刀切”的一側(cè),結(jié)論立即是“正確”,在另一側(cè),立即是“錯誤”。研究者作科學(xué)推斷時必須考慮許多因素,包括研究的設(shè)計、測量的品質(zhì)、所研究現(xiàn)象的外部證據(jù),以及數(shù)據(jù)分析背后的假定是否成立。實踐固然常要求二擇一,作“yes-no”決定,但是,并不意味單靠p-值就能保證一個決定正確與否。將廣泛使用的“統(tǒng)計學(xué)意義”(通常解釋為“p≤0.05”)作為宣布一個科學(xué)發(fā)現(xiàn)(或真理)的合格證會導(dǎo)致科學(xué)過程相當(dāng)大的歪曲。

      4.正確恰當(dāng)?shù)耐茢嘁笸暾膱蟾婧屯该鞫?/h3>

      p-值和有關(guān)的分析決不可選擇性地報告。數(shù)據(jù)作了多重分析,卻只報告特定部分的p-值(一般報告通過了閾值的那些)會使得所報告的p-值根本不可解釋。專挑有前途的發(fā)現(xiàn),又稱為數(shù)據(jù)捕撈、意義追逐、意義尋覓、選擇性推斷和“p-黑客”,導(dǎo)致已發(fā)表文獻(xiàn)中虛假的、過度統(tǒng)計學(xué)意義的結(jié)果,必須嚴(yán)格避免。人們一定不要正規(guī)地實施多重統(tǒng)計檢驗而產(chǎn)生這個問題:每當(dāng)研究者基于根據(jù)統(tǒng)計結(jié)果選擇報告什么,如果不告訴讀者如何選擇及其偏倚,那些結(jié)果的解釋必是嚴(yán)重歪曲不實的。研究者必須公開研究階段被探索假設(shè)的個數(shù)、所有數(shù)據(jù)收集的決策、實施過的所有統(tǒng)計分析和計算過的所有p-值。至少要知道進行了多少分析和什么分析以及怎樣選擇某些分析(包括p-值)來報告,才能基于p-值和相關(guān)的統(tǒng)計量作出真實的結(jié)論。

      5.p-值或統(tǒng)計學(xué)意義并不度量效應(yīng)的大小或結(jié)果的重要性。

      統(tǒng)計學(xué)意義并不等價于科學(xué)、人類或經(jīng)濟意義。較小的p-值不一定意味較大或較重要效應(yīng)的出現(xiàn),較大的p-值不一定意味缺乏重要性或沒有效應(yīng)。任何效應(yīng),不論多小,如果樣本量足夠大或測量精度足夠高,總能產(chǎn)生一個小的p-值;如果樣本量小或測量不精確,大的效應(yīng)也可能產(chǎn)生不起眼的p-值。類似地,如果估計的精度不同,同一個被估計的效應(yīng)將有不同的p-值。

      6.p-值本身并不對模型或假設(shè)提供一個好的度量

      研究者必須知道,沒有背景或其他證據(jù),p-值提供的信息是有限的。例如,一個接近0.05的p-值本身只是反對零假設(shè)的微弱證據(jù)。類似地,一個相對大的p-值并不意味證據(jù)有利于零假設(shè);許多其他的假設(shè)可能和觀察到的數(shù)據(jù)同樣或者更加一致。由于這些原因,當(dāng)其他方法適宜和可行時,數(shù)據(jù)分析決不可止于一個p-值的計算。

      其他方法

      鑒于出現(xiàn)p-值的錯誤使用和錯誤概念,有些統(tǒng)計學(xué)家愿意以其他方法補充甚至取代p-值。包括比檢驗更強調(diào)估計,諸如置信區(qū)間、可信區(qū)間或預(yù)測區(qū)間;貝葉斯方法;證據(jù)的其他測度,諸如似然比或貝葉斯因子;以及其他途徑,諸如決策理論模型和錯誤發(fā)現(xiàn)率。所有這些測度和方法依賴于更多假定,但它們較多直接關(guān)注效應(yīng)的大?。捌溥B帶的不確定性)或假設(shè)是否正確。

      結(jié) 論

      好的統(tǒng)計實踐,作為好的科學(xué)實踐的基本成分,強調(diào)好的研究設(shè)計和實施原則,數(shù)據(jù)的多種數(shù)值和圖形概括、理解所研究的現(xiàn)象、結(jié)果的全面和完整的報告,以及正確邏輯和定量地理解數(shù)據(jù)概括意味什么。沒有任何單一的指標(biāo)可以取代科學(xué)推理。

      (致謝:ASA理事會感謝下列人士在此聲明發(fā)展過程中和我們分享他們的專業(yè)知識和見解。這份聲明未必反映所有人的觀點,實際上,有些觀點可能完全或部分與本聲明相反。無論如何,我們深深地感謝他們的貢獻(xiàn)。

      Naomi Altman,Jim Berger,YoavBenjamini,Don Berry,Brad Carlin,John Carlin,George Cobb,Marie Davidian,Steve Fienberg,Andrew Gelman,Steve Goodman,Sander Greenland,Guido Imbens,John Ioannidis,Valen Johnson,Michael Lavine,MichaelLew,Rod Little,Deborah Mayo,Chuck McCulloch,Michele Millar,Sally Morton,ReginaNuzzo,Hilary Parker,Kenneth Rothman,Don Rubin,Stephen Senn,Uri Simonsohn,DaleneStangl,Philip Stark,Steve Ziliak.)

      一份關(guān)于p-值和統(tǒng)計學(xué)意義的簡短文獻(xiàn)清單

      以下清單與ASA關(guān)于p-值和統(tǒng)計學(xué)意義的聲明相伴,它并不全面,但為希望詳細(xì)探索本聲明所提及內(nèi)容的人們提供一個好的起點。

      (排列以字母為序)

      1.A ltman,D.G.,Bland,J.M.(1995),“Absence of evidence is not evidence of absence,”British Medical Journal,311:485.

      2.Altman,D.G.,Machin,D.,Bryant,T.N.,Gardner,M.J.,eds.(2000),Statisticswith Confidence,2nd ed.,London:BMJ Books.

      3.Berger,J.O.,Delampady,M.(1987),”Testing precise hypotheses,”Statistical Science,2,317-335.

      4.Berry,D.(2012),“Multiplicities in Cancer Research:U-biquitous and Necessary Evils,”Journalof the National Cancer Institute,104,1124-1132.

      5.Christensen,R.(2005),“Testing Fisher,Neyman,Pearson,and Bayes,”The American Statistician,59,2,121-126.

      6.Cox,D.R.(1982),“Statistical Significance Tests,”British Journal of Clinical Pharmacology,14,325-331.

      7.Edwards,W.,Lindman,H.,and Savage,L.J.(1963),“Bayesian statistical inference forpsychological research,”Psychological Review,70,193-242.

      8.Gelman,A.,Loken,E.(2014),“The Statistical Crisis in Science[online],”American Scientist,102.Available at http://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis-in-science

      9.Gelman,A.,Stern HS.(2006),“The difference between‘significant’and‘not significant’is notitself statistically significant,”The American Statistician,60:328-331.

      10.Gigerenzer,G.(2004),“Mindless statistics,”Journal of Socioeconomics,33:567-606.

      11.Goodman,S.N.(1999a),“Toward Evidence-Based Medical Statistics 1:The P Value Fallacy,”Annals of Internal Medicine,130,995-1004.

      12.____________(1999b),“Toward Evidence-Based Medical Statistics.2:The Bayes Factor,”Annals of Internal Medicine,130,1005-1013.

      13.____________(2008),“A Dirty Dozen:Twelve p-Value Misconceptions,”Seminars in Hematology,45,135-140.

      14.Greenland,S.(2011),“Nullm isinterpretation in statistical testing and its impact on health riskassessment,”Preventive Medicine,53,225-228.

      15.___________(2012).Nonsignificance plus high power does not imply support for the null overthe alternative.Annals of Epidemiology,22:364-368.

      16.Greenland,S.,and Poole,C.(2011),“Problems in common interpretations of statistics inscientific articles,expert reports,and testimony,”Jurimetrics,51,113-129.

      17.Hoenig,J.M.,and Heisey,D.M.(2001).The abuse of power:The pervasive fallacy of power calculations for data analysis.The American Statistician,55:19-24.

      18.Ioannidis,J.P.(2005),“Contradicted and initially stronger effects in highly cited clinical research.”Journal of the American Medical Association,294,218-228.

      19.___________(2008),“Why most discovered true associations are inflated(with discussion),”Epidemiology,19:640-658.

      20.Johnson,V.E.(2013),“Revised standards for statistical evidence,”Proceedings of the National Academy of Sciences,110(48),19313-19317.

      21.__________(2013),“Uniform ly most powerful Bayesian tests,”Annals of Statistics,41,1716-1741.

      22.Lang,J.,Rothman K.J.,and Cann,C.I.(1998),“That confounded P-value.(Editorial),”Epidemiology,9,7-8.

      23.Lavine,M.(1999),“What is Bayesian Statistics and Why Everything Else is Wrong,”UMAP Journal,20:2.

      24.Lew,M.J.(2012),“Bad statistical practice in pharmacology(and other basic biomedical disciplines):you probably don′t know P,”British Journal of Pharmacology,166:5,1559-1567.

      25.Phillips,C.V.(2004),“Publication bias in situ,”BMC Medical Research Methodology,4:20.

      26.Poole,C.(1987),“Beyond the confidence interval,”A-merican Journal of Public Health,77,195-199.

      27.Poole,C.(2001).Low P-values or narrow confidence intervals:Which are more durable?Epidemiology,12,291-294.

      28.Rothman,K.J.(1978),“A show of confidence(Editorial),”New England Journal of Medicine,299,1362-1363.

      29.___________(1986),“Significance questing(Editorial),”Annals of Internal Medicine,105,445-447.

      30.___________(2010),“Curbing type I and type II errors,”European Journal of Epidemiology,25,223-224.

      31.Rothman,K.J.,Weiss,N.S.,Robins,J.,Neutra,R.,and Stellman,S.(1992),“Amicus Curiaebrief for the U.S.Supreme Court,Daubert v.Merrell Dow Pharmaceuticals,Petition for W rit of Certiorari to the United States Court of Appeals for the Ninth Circuit,”No.92-102,October Term,1992.

      32.Rozeboom,W.M.(1960),“The fallacy of the null-hypothesis significance test,”Psychological Bulletin,57:416-428.

      33.Schervish,M.J.(1996),“P Values:What They A re and What They Are Not,”The American Statistician,50:3,203-206.

      34.Simmons,J.P.,Nelson,L.D.,Simonsohn,U.(2011),“False-Positive Psychology:Undisclosed Flexibility in Data Collection and Analysis A llows Presenting Anything as Significant,”Psychological Science,22(11),1359-1366.

      35.Stang,A.,and Rothman,K.J.(2011),“That confounded P-value revisited,”Journal of Clinical Epidemiology,64(9),1047-1048.

      36.Stang,A.,Poole,C.,and Kuss,O.(2010),“The ongoing tyranny of statistical significance testing in biomedical research,”European Journal of Epidemiology,25(4),225-30.

      37.Sterne,J.A.C.(2002).“Teaching hypothesis tests-time for significant change?”Statistics in Medicine,21,985-994.

      38.Sterne,J.A.C.Smith,G.D.(2001).“Sifting the evidence-what′s wrong with significancetests?”British Medical Journal,322,226-231.

      39.Ziliak,S.T.(2010),“The Validus Medicus and a New Gold Standard,”The Lancet,376,9738,324-325.

      40.Ziliak,S.T.,and McCloskey,D.N.(2008),The Cult of Statistical Significance:How the Standard Error Costs Us Jobs,Justice,and Lives,Ann Arbor:University of Michigan Press.

      欲了解英文原文,請參閱:

      Ronald L.Wasserstein&Nicole A.Lazar(2016):The ASA′s statement on p-values:context,process,and purpose,The American Statistician,DOI:10.1080/00031305.2016.1154108

      To link to this article:http://dx.doi.org/10.1080/00031305.2016.1154108

      (責(zé)任編輯:郭海強)

      猜你喜歡
      研究者聲明結(jié)論
      由一個簡單結(jié)論聯(lián)想到的數(shù)論題
      本刊聲明
      本刊聲明
      中國德育(2022年12期)2022-08-22 06:16:46
      高等教育中的學(xué)生成為研究者及其啟示
      立體幾何中的一個有用結(jié)論
      本刊聲明
      本刊聲明
      研究者稱,經(jīng)CRISPR技術(shù)編輯過的雙胞胎已出生??茖W(xué)將如何回應(yīng)?
      英語文摘(2019年2期)2019-03-30 01:48:40
      研究者調(diào)查數(shù)據(jù)統(tǒng)計
      中華手工(2018年6期)2018-07-17 10:37:42
      結(jié)論
      云安县| 杭锦后旗| 浦城县| 应城市| 文安县| 江陵县| 定结县| 屏山县| 芒康县| 花莲市| 德钦县| 台江县| 宾川县| 清水县| 清涧县| 永昌县| 桂平市| 萝北县| 淮安市| 涞水县| 康马县| 克山县| 勃利县| 成安县| 宽甸| 通海县| 什邡市| 平谷区| 如皋市| 玉门市| 宜丰县| 荣昌县| 静乐县| 沂南县| 绥阳县| 房产| 罗城| 新巴尔虎左旗| 桂东县| 长白| 谷城县|