• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    統(tǒng)計(jì)顯著性:一個(gè)被誤讀的P值——基于美國統(tǒng)計(jì)學(xué)會(huì)的聲明

    2016-12-20 05:43:13劉樂平申亞飛
    統(tǒng)計(jì)與信息論壇 2016年12期
    關(guān)鍵詞:假設(shè)檢驗(yàn)硬幣概率

    郝 麗,劉樂平,申亞飛

    (天津財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)分析中心,天津 300222)

    ?

    【統(tǒng)計(jì)理論與方法】

    統(tǒng)計(jì)顯著性:一個(gè)被誤讀的P值
    ——基于美國統(tǒng)計(jì)學(xué)會(huì)的聲明

    郝 麗,劉樂平,申亞飛

    (天津財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)分析中心,天津 300222)

    美國統(tǒng)計(jì)學(xué)會(huì)“關(guān)于統(tǒng)計(jì)顯著性與P值”的官方聲明發(fā)布之后,再次引發(fā)國內(nèi)外研究學(xué)者對P值的廣泛關(guān)注。在介紹國內(nèi)統(tǒng)計(jì)教材中假設(shè)檢驗(yàn)的基本內(nèi)容和步驟的基礎(chǔ)上,以“硬幣投擲”與“背影識(shí)人”為例直觀性解釋P值、統(tǒng)計(jì)顯著性與統(tǒng)計(jì)功效等相關(guān)概念,并引用心理學(xué)統(tǒng)計(jì)經(jīng)典調(diào)查案例分析P值被誤讀的原因。同時(shí),基于美國統(tǒng)計(jì)學(xué)會(huì)的聲明,給出正確使用P值的建議。

    統(tǒng)計(jì)顯著性;P值;心理統(tǒng)計(jì)學(xué);貝葉斯統(tǒng)計(jì)

    一、引 言

    2014年2月,在美國統(tǒng)計(jì)學(xué)會(huì)(ASA)召開的一次重要學(xué)術(shù)論壇上,來自美國曼荷蓮女子學(xué)院(Mount Holyoke College)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)榮譽(yù)退休教授George Cobb,以一問一答的方式提出了如下有趣的問題:“為什么那么多大學(xué)和研究院都在教P=0.05?因?yàn)槟鞘强茖W(xué)社團(tuán)和期刊編輯仍然都在用的標(biāo)準(zhǔn)”;“為什么還有那么多人在用P=0.05?因?yàn)榇髮W(xué)和研究院里還在這么教”。

    Cobb教授關(guān)切的問題并非一時(shí)興起,因?yàn)樵诖酥?,心理學(xué)、循證醫(yī)學(xué)和社會(huì)學(xué)的學(xué)者就早已針對P值和使用P<0.05進(jìn)行科學(xué)推斷的弊端展開了激烈的學(xué)術(shù)爭論,“地球是圓的(P<0.05)”早已成為諷刺濫用統(tǒng)計(jì)推斷的經(jīng)典笑話,這些現(xiàn)象引起了美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)的高度關(guān)注[1]。

    2010年, Siegfried在《Science News》撰文言辭激烈地指出:“這是科學(xué)界中最不可告人的秘密:統(tǒng)計(jì)分析中檢驗(yàn)假設(shè)的‘科學(xué)方法’建立在一個(gè)脆弱的基礎(chǔ)之上”;2014年2月7日,他繼續(xù)在《Science News》上撰文批評(píng):“檢驗(yàn)各種科學(xué)假設(shè)中用到的統(tǒng)計(jì)方法……比Facebook隱私條款中的缺陷還要多”。一周之后,Regina Nuzzo在《Nature》雜志科學(xué)方法專欄中發(fā)表了名為《統(tǒng)計(jì)誤差》的論文[2],目前已成為該雜志閱讀次數(shù)最多的文章之一。國內(nèi)“果殼網(wǎng)”科學(xué)人專欄將此文進(jìn)行了編譯,取名為“統(tǒng)計(jì)學(xué)里‘P’的故事:蚊子、皇帝的新衣和不育的風(fēng)流才子”,隨后“數(shù)據(jù)工作室”微信公眾號(hào)的推文《P值之死》在朋友圈和各類網(wǎng)絡(luò)媒體中盛傳。

    2016年3月7日,美國統(tǒng)計(jì)學(xué)會(huì)執(zhí)行主任Ronald L. Wasserstein代表美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)在《The American Statistician》雜志(網(wǎng)絡(luò)版)上發(fā)表了名為《關(guān)于統(tǒng)計(jì)顯著性與P值》的官方聲明。之后,在中國統(tǒng)計(jì)學(xué)門戶網(wǎng)站“統(tǒng)計(jì)之都”上,邱怡軒發(fā)表博文“美國統(tǒng)計(jì)協(xié)會(huì)開始正式吐槽(錯(cuò)用)P值啦”;2016年3月23日,在微信公眾號(hào)“科研圈”上,譚坤編譯了“美國統(tǒng)計(jì)學(xué)會(huì)權(quán)威發(fā)布:P值應(yīng)該這么用,學(xué)界有錯(cuò)須改正”的有關(guān)內(nèi)容。

    P值究竟怎么了?統(tǒng)計(jì)顯著性到底是否科學(xué)?鑒此,筆者從被誤讀與誤導(dǎo)的P值入手,基于國內(nèi)統(tǒng)計(jì)學(xué)教材和文獻(xiàn)的“假設(shè)檢驗(yàn)”內(nèi)容,通過示例和幾何圖示,直觀地解釋P值、統(tǒng)計(jì)顯著性與統(tǒng)計(jì)功效等不易理解的概念;回顧心理學(xué)統(tǒng)計(jì)研究經(jīng)典文獻(xiàn)《顯著性誤讀:一個(gè)師生共存的問題》,討論P(yáng)值是如何被誤讀與怎樣被誤導(dǎo)的,并基于美國統(tǒng)計(jì)學(xué)會(huì)的官方聲明,給出正確使用P值的建議。

    二、假設(shè)檢驗(yàn)、統(tǒng)計(jì)顯著性與統(tǒng)計(jì)功效

    (一)假設(shè)檢驗(yàn)

    1.假設(shè)檢驗(yàn)的臨界值法。目前,國內(nèi)的《概率論與數(shù)理統(tǒng)計(jì)》和《統(tǒng)計(jì)學(xué)》教材中,都會(huì)至少用一章的內(nèi)容介紹假設(shè)檢驗(yàn)的基本原理與步驟。如果檢驗(yàn)需要利用“Z檢驗(yàn)(或t檢驗(yàn))的臨界值表”,則被稱為假設(shè)檢驗(yàn)的“臨界值法”,并已被廣泛應(yīng)用于實(shí)際問題中。在此,以“假設(shè)檢驗(yàn)在審計(jì)抽樣工作中的應(yīng)用研究”為例[3],將教材所傳授的假設(shè)檢驗(yàn)“四部曲”總結(jié)如下:

    第一步,根據(jù)實(shí)際問題的要求,提出原假設(shè)H0及備擇假設(shè)H1。例如,假設(shè)X1, X2,…,Xn是取自正態(tài)總體N(μ,σ2)的一組樣本,要檢驗(yàn)如下假設(shè):

    H0:μ=μ0,H1:μ≠μ0(雙側(cè)檢驗(yàn);或H1:μ<μ0左側(cè)檢驗(yàn);H1:μ>μ0右側(cè)檢驗(yàn))。

    第二步,根據(jù)總體分布情況及方差是否已知,選擇合適的統(tǒng)計(jì)量。

    第三步,給定顯著性水平α,確定相應(yīng)臨界值水平。顯著性水平α表示假設(shè)H0為真時(shí)拒絕原假設(shè)的概率,也就是拒絕原假設(shè)所面臨的風(fēng)險(xiǎn),一般是人為給定,取值通常很小,如 0.1、0.05、0.01 等,表明原假設(shè)為真時(shí),檢驗(yàn)統(tǒng)計(jì)量落在其拒絕區(qū)域內(nèi)的概率只有α,而落入其接受區(qū)域內(nèi)的可能概率是 1-α 。

    第四步,依據(jù)假設(shè)檢驗(yàn)的規(guī)則,由樣本數(shù)據(jù)計(jì)算出檢驗(yàn)統(tǒng)計(jì)量的實(shí)際值,與查表獲得的臨界值進(jìn)行比較,視實(shí)際值落入接受區(qū)域還是拒絕區(qū)域,做出是否拒絕原假設(shè)H0的結(jié)論。

    具體來說,當(dāng)需要采用 Z統(tǒng)計(jì)量進(jìn)行右側(cè)檢驗(yàn)時(shí),檢驗(yàn)規(guī)則為:當(dāng)Z≥zα?xí)r,拒絕H0;當(dāng)Z

    2. 假設(shè)檢驗(yàn)的P值檢驗(yàn)法。隨著計(jì)算機(jī)軟件的普及和發(fā)展,在假設(shè)檢驗(yàn)“臨界值法”的基礎(chǔ)上,部分教材還簡要介紹了假設(shè)檢驗(yàn)的P值檢驗(yàn)法的一般步驟,并討論了兩種檢驗(yàn)方法的區(qū)別[4]214-216。

    “假設(shè)檢驗(yàn)問題的P值是由檢驗(yàn)統(tǒng)計(jì)量的樣本觀測值得出的原假設(shè)可被拒絕的最小顯著性水平”,在現(xiàn)代計(jì)算機(jī)統(tǒng)計(jì)軟件中一般都給出檢驗(yàn)問題的P值,按P值的定義,對于任意給定的顯著性水平就有:

    (1)若P值≤ α,則在顯著性水平α下拒絕H0。

    (2)若P值>α,則在顯著性水平α下接受H0*正取的說法應(yīng)為“不能拒絕”。。

    P值法給出了拒絕H0的最小顯著性水平,因此P值法比臨界值法給出了有關(guān)拒絕域更多的信息。

    3. P值的幾何圖示。我們以右側(cè)假設(shè)檢驗(yàn)H0:μ=μ0,H1:μ>μ0為例,圖示臨界值與P值的關(guān)系。假設(shè)顯著性水平為α在H0為真的條件下,PH0(Z≥zα)=α (總體方差已知時(shí)的Z檢驗(yàn))。

    zα為臨界值,可通過標(biāo)準(zhǔn)正態(tài)分布表查出具體數(shù)值,如α =0.05時(shí),zα= 1.65。P值是由檢驗(yàn)統(tǒng)計(jì)量的樣本觀測值得出的原假設(shè)可被拒絕的最小顯著性水平,正態(tài)分布概率密度函數(shù)條件下,假設(shè)檢驗(yàn)的臨界值和P值幾何意義如圖1所示。

    (二)P值與統(tǒng)計(jì)顯著性

    1. P值。以上教材和文獻(xiàn)中的P值概念比較晦澀難懂。美國統(tǒng)計(jì)學(xué)會(huì)的聲明中也給出了P值的非正式定義:“P值就是基于某個(gè)特定統(tǒng)計(jì)模型之下,

    圖1 正態(tài)分布概率密度函數(shù)下臨界值和P值圖

    對于數(shù)據(jù)的某個(gè)統(tǒng)計(jì)量(如兩個(gè)對照組的樣本平均值之差)與觀測值相等或比觀測值更極端的概率”,此定義也有些繞口,不易理解;百度或維基百科上關(guān)于P值的概念要相對精煉簡要:“P值就是當(dāng)原假設(shè)為真時(shí),所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率”,但“更極端”的含義似乎也不夠直觀。

    下面通過“硬幣投擲”直觀性試驗(yàn),盡可能用非數(shù)學(xué)語言來解釋以上P值的概念*更加深入淺出、圖文并茂的解讀詳見謝益輝、胡江堂等在“統(tǒng)計(jì)之都”上的博文和張之昊在“協(xié)和八”微信公眾號(hào)上連載的“說人話的統(tǒng)計(jì)學(xué)”系列。。

    (1)原假設(shè)。你從錢包中拿出一枚硬幣,隨手向空中一拋。一般來講,如果一枚硬幣沒有做假是“均勻”的,那么結(jié)果出現(xiàn)正面和反面的可能性(概率)應(yīng)該都是1/2。現(xiàn)在,如何來證明你手中的硬幣是“均勻”的呢?

    除了直接觀察,人們會(huì)想到用試驗(yàn)的方法來證明,即將硬幣拋2次,結(jié)果2次都是正面或者2次都是反面,這時(shí)是否會(huì)懷疑你的硬幣?假如結(jié)果正好是1正1反(或1反1正),是否能肯定你的硬幣是均勻的?你可能不會(huì)輕易下結(jié)論,因?yàn)閼{直覺會(huì)認(rèn)為硬幣拋2次太少了。以上每種結(jié)果的出現(xiàn)都很正常,此證據(jù)不足以否定硬幣的“均勻”性。

    增加投擲硬幣的次數(shù),即將硬幣投擲5次,每次拋擲的結(jié)果都做記錄;最后把出現(xiàn)正反面的次數(shù)分別統(tǒng)計(jì),假設(shè)某一次試驗(yàn)的結(jié)果是:正面4次,反面1次,這時(shí)將如何判斷硬幣是否“均勻”呢?

    按照R. A. Fisher(1890—1962)創(chuàng)建的“顯著性檢驗(yàn)(Significance Testing)”理論(注意:非J. Neyman(1894—1981)與E.S. Pearson(1895—1980)創(chuàng)建的“一致最優(yōu)檢驗(yàn)(Uniformly Most Powerul Test)”理論*兩者的區(qū)別可參見Lehmann EL. The Fisher, Neyman-Pearson Theories of Testing Hypotheses: One Theory or Two? Journal of the American Statistical Association, 1993(88):1242-1249.),首先“假設(shè)”硬幣是均勻的,也就是拋出來正面和反面的概率都是0.5,這就是P值定義里的“原假設(shè)”。

    (2)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)。硬幣試驗(yàn)中的“樣本”就是拋5次硬幣,得到了“4正1反”;如果拋了5次,得到的觀察結(jié)果是“5正0反”,這就是比“樣本4正1反”“更極端的結(jié)果”。

    假設(shè)硬幣是均勻的(“原假設(shè)”為真),連拋5次硬幣得到都是正面的概率就是0.5的5次方,也就是0.031 25,這就是所定義的P值。換言之,這種結(jié)果的出現(xiàn),在32次試驗(yàn)中才可能出現(xiàn)1次。

    2. 統(tǒng)計(jì)顯著性。從日常生活的經(jīng)驗(yàn)中人們能感覺到,對于一塊均勻的硬幣來說,5次拋擲中可能性最大的結(jié)果應(yīng)是“3正2反或3反2正”,而得到“4正1反”這樣的結(jié)果就有些懷疑了*此例設(shè)計(jì)硬幣投擲5次,是為了使概率計(jì)算過程簡單,便于理解。實(shí)際上,試驗(yàn)次數(shù)設(shè)計(jì)偏少,若改為100次投擲后,結(jié)果90正10反,則更符合實(shí)際。,得到比“4正1反”更極端的結(jié)果“5正0反”實(shí)在是不太可能了。與其相信這樣的小概率事件在一次試驗(yàn)中真的發(fā)生了,還不如懷疑“原假設(shè)”硬幣均勻的正確性,而認(rèn)為更合理的解釋是這塊硬幣可能是“不均勻”的。

    那么,多小的P值算是小呢?在統(tǒng)計(jì)學(xué)中,按慣例事先給出的界線是0.05,因?yàn)橐陨显囼?yàn)的樣本結(jié)果為“5正0反”,則對應(yīng)的P值=0.031 25,因?yàn)镻值<0.05,所以就拒絕“原假設(shè)”,否定硬幣的“均勻性”,這就是常見的“具有統(tǒng)計(jì)學(xué)意義上的顯著性”,可以推斷該硬幣是一枚偏向正面的非均勻硬幣。

    P值的定義中蘊(yùn)含了“顯著性檢驗(yàn)”的基本統(tǒng)計(jì)思維方法,這種統(tǒng)計(jì)歸納思維方法幾乎被運(yùn)用在所有學(xué)科領(lǐng)域的主流統(tǒng)計(jì)分析之中,對它的準(zhǔn)確理解不僅是通向掌握各種具體統(tǒng)計(jì)學(xué)測試的大門,更影響著人們對統(tǒng)計(jì)分析結(jié)果的解讀。

    P值本質(zhì)上是什么?它是基于特定假設(shè)和實(shí)際樣本進(jìn)行統(tǒng)計(jì)推斷的一個(gè)工具。某種意義上說,P值體現(xiàn)了如果原假設(shè)成立時(shí)研究者看到樣本的奇怪程度。P值越小,所獲得的樣本在原假設(shè)成立的前提下就越不可能出現(xiàn);而當(dāng)P值小到一定程度時(shí),不得不認(rèn)定其假設(shè)是錯(cuò)誤的,因?yàn)榭赡苄赃@么小的事件,實(shí)在是在一次試驗(yàn)中太難發(fā)生了。

    根據(jù)P值進(jìn)行統(tǒng)計(jì)推斷的思想與數(shù)學(xué)中的反證法具有一定的相似性。但是,由于歸納與演繹邏輯的不同,兩者有一個(gè)關(guān)鍵的區(qū)別,由于隨機(jī)性的存在,在統(tǒng)計(jì)推斷中無法像在數(shù)學(xué)反證法中一樣千真萬確地認(rèn)定原假設(shè)是絕對錯(cuò)誤的,只能根據(jù)“小概率事件在一次隨機(jī)實(shí)驗(yàn)中不會(huì)發(fā)生”的原理做出有較大可能性推翻原假設(shè)的統(tǒng)計(jì)決策。

    (三) 統(tǒng)計(jì)功效

    1.第一類錯(cuò)誤與第二類錯(cuò)誤。統(tǒng)計(jì)功效與統(tǒng)計(jì)顯著性有著極為密切的聯(lián)系,而它們又都是建立在統(tǒng)計(jì)假設(shè)檢驗(yàn)的兩個(gè)基本概念“第一類錯(cuò)誤”和“第二類錯(cuò)誤”之上。為了更加生動(dòng)形象介紹多數(shù)統(tǒng)計(jì)教材沒有涉及的“統(tǒng)計(jì)功效”的概念與含義,用“背影識(shí)人”為例進(jìn)行直觀性說明:

    某一大型商場的經(jīng)理,在月末盤點(diǎn)時(shí)需要了解該月光臨商場顧客中女性的比例。假設(shè)只有商場出口的監(jiān)控記錄可以調(diào)用,且監(jiān)控?cái)z像只攝錄到了顧客出門時(shí)的頭部影像而無法看到臉部,故只能從背部看清顧客頭發(fā)的長短。那么,如何辨別顧客的性別呢?有人給出建議,即如果顧客是長發(fā)則為女性;如果顧客是短發(fā)則為男性。

    改用統(tǒng)計(jì)學(xué)的語言來描述:由于旨在找出女性顧客,每當(dāng)看到一個(gè)顧客背影的頭像時(shí),就先假設(shè)這是個(gè)女人(“原假設(shè)”)。如果此人頭發(fā)太短,那就認(rèn)為他不是女人(“拒絕原假設(shè)”); 如果此人頭發(fā)夠長,那就認(rèn)為她是女人(“接受原假設(shè)”,更嚴(yán)格地說應(yīng)為“不能拒絕原假設(shè)”)。

    但是,這種判別方法可能會(huì)犯以下兩類錯(cuò)誤:一是把一小部分短發(fā)女人當(dāng)成了男人,也就是在原假設(shè)其實(shí)為真時(shí)錯(cuò)誤地拒絕之(棄真),這在統(tǒng)計(jì)學(xué)中被稱為“第一類錯(cuò)誤”;二是把另一小部分長發(fā)男人當(dāng)成了女人,也就是在原假設(shè)其實(shí)為假時(shí)錯(cuò)誤地接受之(取偽),這在統(tǒng)計(jì)學(xué)中被稱為“第二類錯(cuò)誤”。

    2. 統(tǒng)計(jì)功效。教科書中通常用希臘字母α代表犯第一類錯(cuò)誤的概率;β代表犯第二類錯(cuò)誤的概率,α和β的幾何意義如圖2所示。在這個(gè)例子中,α就是被誤判的女人在所有女人中的比例,而β則是被誤判的男人在所有男人中的比例。

    第一類錯(cuò)誤與之前討論的統(tǒng)計(jì)顯著性密切相關(guān),α就是事先給定的顯著性水平(通常為0.05),之所以要在P值足夠小的時(shí)候才拒絕原假設(shè),就是為了讓犯第一類錯(cuò)誤的可能性盡可能低,而如何知道這個(gè)建議的最終識(shí)別率有多高呢?既然商場經(jīng)理的目的是想?yún)^(qū)別出男性顧客,那就要看到底多大比例的男性顧客被識(shí)別了出來,這個(gè)比例就是1-β,即所有男人減去誤判的男人(長發(fā)男人)在所有男人中的比例,“1-β”正是“統(tǒng)計(jì)功效”。

    第一類錯(cuò)誤用α值和P值來控制,第二類錯(cuò)誤由什么來控制呢?用統(tǒng)計(jì)功效。統(tǒng)計(jì)功效指的就是:如果我們感興趣的效應(yīng)或差異的確存在,在給定的顯著性水平的規(guī)定下能夠正確地拒絕原假設(shè)的概率,這其實(shí)就是不犯第二類錯(cuò)誤的概率,因此統(tǒng)計(jì)功效的值可以用1減去β得到。

    在任何統(tǒng)計(jì)學(xué)問題上,以上兩類錯(cuò)誤都是此消彼長的。如果商場經(jīng)理想少犯第二類錯(cuò)誤,增加頭發(fā)長度的標(biāo)準(zhǔn),把中長發(fā)男性盡量排出,那么必然會(huì)有更多中短發(fā)女性被誤判;相反,如果經(jīng)理想少犯第一類錯(cuò)誤,降低頭發(fā)長度的標(biāo)準(zhǔn),那么男性錯(cuò)判的可能性就增加了。

    圖2 假設(shè)檢驗(yàn)犯兩類錯(cuò)誤概率示圖

    三、P值誤讀經(jīng)典案例及其原因分析

    (一) 經(jīng)典案例“顯著性誤讀,一個(gè)師生共存的問題”

    關(guān)于P值的爭議由來已久,主要集中在大量應(yīng)用統(tǒng)計(jì)假設(shè)檢驗(yàn)進(jìn)行實(shí)證研究的心理學(xué)和醫(yī)學(xué)領(lǐng)域中。2000年,德國柏林自由大學(xué)(Free University of Berlin)教育科學(xué)與心理學(xué)系的Heiko Haller教授與馬克思·普朗克人類發(fā)展研究所(Max Planck Institute for Human Development)的Stefan Krauss研究員,在德國的6所大學(xué)中進(jìn)行了一項(xiàng)小型的關(guān)于“顯著性(Significance)誤讀:一個(gè)師生共存的問題”的問卷調(diào)查[5],調(diào)查結(jié)果大大出乎他們的意料。

    此次問卷的調(diào)查對象是德國6所大學(xué)的心理學(xué)系師生。調(diào)查對象被分成三組:第一組是教師組(N=30名),包括給心理學(xué)系學(xué)生講授統(tǒng)計(jì)學(xué)和假設(shè)檢驗(yàn)的教授和輔導(dǎo)新生的高年級(jí)研究生助教;第二組是研究員組(N=39名),包括沒有講授統(tǒng)計(jì)學(xué)的教授和研究人員;第三組是學(xué)生組(N=44名),全部由心理學(xué)專業(yè)的學(xué)生組成。

    問卷非常簡短,只包含一個(gè)問題和6個(gè)“是非”選項(xiàng):“假設(shè)你進(jìn)行了一項(xiàng)對照組試驗(yàn),需要比較兩組實(shí)驗(yàn)結(jié)果的均值(每組樣本個(gè)數(shù)為20),采用的方法是獨(dú)立均值t檢驗(yàn),檢驗(yàn)結(jié)果為:t = 2.7,df(自由度)= 18, p(P值)= 0.01?!闭埮袛嘁韵?個(gè)陳述是“正確”還是“錯(cuò)誤”(“錯(cuò)誤”意指該陳述不能由以上檢驗(yàn)結(jié)果得出,以下錯(cuò)誤結(jié)果可能不止1個(gè))。

    1.你可以完全否定“總體均值無差異”的原假設(shè)。[ ]正確/錯(cuò)誤[ ]

    2.你已經(jīng)知道了原假設(shè)為真的概率。[ ]正確/錯(cuò)誤[ ]

    3.你可以完全肯定“總體均值有差異”的備擇假設(shè)。[ ]正確/錯(cuò)誤[ ]

    4.你可以推斷出備擇假設(shè)為真的概率。[ ]正確/錯(cuò)誤[ ]

    5.如果你決定拒絕原假設(shè),你就可以推斷你做出錯(cuò)誤決定的概率。[ ]正確/錯(cuò)誤[ ]

    6.如果以上同樣的試驗(yàn)重復(fù)很多遍,將有99%的試驗(yàn)獲得顯著性的結(jié)果。[ ]正確/錯(cuò)誤[ ]

    Haller教授與Krauss研究員將113份有效調(diào)查問卷進(jìn)行統(tǒng)計(jì)分析,最終結(jié)果如表1所示。表1中的比率值為各組回答的“錯(cuò)誤率”,即在每組參加調(diào)查者的回答中至少出現(xiàn)一個(gè)錯(cuò)誤的人數(shù)占小組人數(shù)的百分比;表1第4列的比例是Oakes在1986年所做類似研究的結(jié)果。

    表1 2000年德國六所大學(xué)師生關(guān)于“顯著性誤讀” 問卷調(diào)查結(jié)果比較表

    注:資料來源于參考文獻(xiàn)[5]。

    (二)P值被誤讀的原因分析

    Haller教授與Krauss研究員對以上調(diào)查結(jié)果表示極其驚訝,“盡管Oakes(1986)的調(diào)查結(jié)果和研究著作發(fā)表已經(jīng)過去了15 年,而且有關(guān)討論顯著性檢驗(yàn)誤解的論文也發(fā)表了很多篇,但是似乎一切都沒改變”。*2015年,筆者也將以上問題對30名統(tǒng)計(jì)專業(yè)的本科生進(jìn)行了調(diào)查。同樣,距離2000年德國大學(xué)的調(diào)查,15年時(shí)間過去了,我們的結(jié)果也驚人地相似,學(xué)生組錯(cuò)誤率100%,沒有1名學(xué)生全部答對。

    表1顯示,問卷調(diào)查結(jié)果中學(xué)生組全部答錯(cuò),錯(cuò)誤率100%;近 90%的心理學(xué)科學(xué)研究人員至少將一個(gè)含有錯(cuò)誤“意義”的P值誤認(rèn)為是正確的;更加重要的是,造成以上結(jié)果的重要原因在于,講授假設(shè)檢驗(yàn)方法的教師們的錯(cuò)誤率也高達(dá)80%,可以想象他們對顯著性的“誤解”正在課堂的講解中一遍又一遍地重復(fù),不斷“誤導(dǎo)”著一批又一批的學(xué)生,對于這種現(xiàn)象,兩位學(xué)者表示“實(shí)在是令人目瞪口呆、無言以對”。

    事實(shí)上,Haller教授與Krauss研究員調(diào)查問題中的6個(gè)“是非”陳述選項(xiàng)答案全是錯(cuò)誤的。

    陳述選項(xiàng)1 和 3 容易答對,兩者的錯(cuò)誤比較明顯:顯著性檢驗(yàn)絕對不能證明 (或否定) 假設(shè);顯著性檢驗(yàn)只能提供“可能的”信息,這些信息最多只能用來對某些理論進(jìn)行印證;統(tǒng)計(jì)推斷不可能得出“完全肯定(或否定)”的“絕對”結(jié)論。

    一般來說,通過顯著性檢驗(yàn)不可能得到任何假設(shè)成立的概率:既不能得到概率值為1(陳述選項(xiàng)1 和 3) 也不能得到其他概率值 (陳述選項(xiàng)2 和 4)。所以,陳述選項(xiàng)2 和 4也都是錯(cuò)誤的。對假設(shè)給出概率的描述只可能在貝葉斯統(tǒng)計(jì)中出現(xiàn)[6]。

    陳述選項(xiàng) 5 看起來與第一類錯(cuò)誤的定義非常相似(即當(dāng)原假設(shè)為真時(shí)拒絕原假設(shè)的概率),但實(shí)際上如果你決定拒絕原假設(shè) (陳述選項(xiàng) 5所述 ),當(dāng)且僅當(dāng)原假設(shè)是正確的情況下,你的這個(gè)決定才是錯(cuò)誤的,因此在陳述選項(xiàng) 5中的“概率 ”(“你做出錯(cuò)誤決定”) 其實(shí)是“原假設(shè)”為真的概率,而這個(gè)概率如選項(xiàng) 2所述,是不可能由這種檢驗(yàn)方法得到的。

    陳述選項(xiàng) 6是所有選項(xiàng)中極易混淆的難題,它實(shí)際上反映的是所謂“重復(fù)謬誤”。在Neyman 和 Pearsons的檢驗(yàn)范式中,以頻率學(xué)派的觀點(diǎn),可以通過P=0.01解釋 “如果原假設(shè)為真,在多次重復(fù)試驗(yàn)中拒絕原假設(shè)的相對頻率”,但在本例中你只進(jìn)行了一次試驗(yàn),沒有證據(jù)證明原假設(shè)是真的。在許多人的腦海里,會(huì)對“P=0.01”的含義“過度”引申,將1-p錯(cuò)誤地演變成拒絕原假設(shè)的相對頻率,即顯著性結(jié)果可以被重復(fù)的概率。實(shí)際上,如果你將以上同樣的試驗(yàn)重復(fù)多遍,由于影響試驗(yàn)條件的不確定性,你很難每次試驗(yàn)都獲得顯著性的結(jié)果。

    所以,我們不能簡單地停留在“P值是什么”的問題上,而要將重點(diǎn)放在“P值為什么”,而真正理解“統(tǒng)計(jì)顯著性”,又要從了解“P值不是什么”開始。

    P值是目前科學(xué)界廣泛使用的主流統(tǒng)計(jì)學(xué)方法中最重要的一個(gè)概念,同時(shí)也可能是被誤讀和誤導(dǎo)最多的一個(gè)概念。翻閱各學(xué)科的文獻(xiàn),很容易就發(fā)現(xiàn)對P值的錯(cuò)誤理解和表述,即便是發(fā)表在《Science》和《Nature》之類頂級(jí)期刊的文章也不可避免。

    對P值定義的誤解一般可分為兩個(gè)層面:一是基本層面,將P值簡化誤認(rèn)為“P值是原假設(shè)為真的概率”;二是引申層面,先按“原假設(shè)為真”推斷至“備擇假設(shè)為假”,再將“P值是原假設(shè)為真的概率”引申到“P值是備擇假設(shè)為假的概率”。

    當(dāng)P值很小時(shí)就拒絕原假設(shè),認(rèn)為備擇假設(shè)是真的嗎?那難道不是說P值代表原假設(shè)有多真嗎?不是,這個(gè)問題最簡單的解釋是:對于任何一個(gè)假設(shè)它為真的概率都是固定的。然而,已經(jīng)知道P值是根據(jù)具體的樣本數(shù)據(jù)計(jì)算得出的,同樣的實(shí)驗(yàn)重復(fù)做幾次,每次得到不同的樣本,P值也自然會(huì)有區(qū)別。因此,P值不可能是原假設(shè)為真或備擇假設(shè)為假的概率。

    進(jìn)一步,回顧“顯著性檢驗(yàn)”的統(tǒng)計(jì)思維邏輯:P值越小,樣本提供的支持“原假設(shè)正確”的證據(jù)就越少,少到一定程度時(shí)則可以(統(tǒng)計(jì))推斷原假設(shè)是不正確的。P值只描述樣本與原假設(shè)的相悖程度,原假設(shè)的真與假是我們“僅僅以一次試驗(yàn)觀察為根據(jù)”做出的一個(gè)判斷。事實(shí)上,P值并不是刻畫“原假設(shè)為真假”或“備擇假設(shè)為真假”的概率。

    所以,P值既不是原假設(shè)為真或假的概率,也不是備擇假設(shè)為真或假的概率。目前,所廣泛使用的一整套統(tǒng)計(jì)推斷和假設(shè)檢驗(yàn)方法及其思想體系,均屬于統(tǒng)計(jì)學(xué)的 “頻率學(xué)派”,P值能做的就是在特定的原假設(shè)條件下,對數(shù)據(jù)未知特征進(jìn)行推斷分析。但是,如果要對這些假設(shè)本身作出判斷,僅憑數(shù)據(jù)本身是不夠的,還需要根據(jù)相關(guān)學(xué)科的理論知識(shí),了解研究對象中除了人們感興趣的假設(shè)以外其他假設(shè)存在的概率。

    實(shí)際上,假設(shè)本身成立與否的概率是統(tǒng)計(jì)學(xué)科中另一個(gè)近年來日漸受到重視的流派“貝葉斯學(xué)派”試圖解決的問題[7]。隨著大數(shù)據(jù)時(shí)代的到來和計(jì)算機(jī)技術(shù)的發(fā)展,需要大量計(jì)算輔助的貝葉斯統(tǒng)計(jì)方法逐漸受到了重視[8],也有不少統(tǒng)計(jì)學(xué)者呼吁學(xué)術(shù)界應(yīng)當(dāng)用貝葉斯方法補(bǔ)充如今僅以P值為中心的頻率學(xué)派方法。

    四、正確使用P值的建議

    P值只是在特定數(shù)據(jù)和模型的條件下,利用顯著性檢驗(yàn)理論框架進(jìn)行統(tǒng)計(jì)推斷,以表明總體未知特征是否具有統(tǒng)計(jì)顯著性的一個(gè)簡化閾值標(biāo)準(zhǔn)。但是,隨著研究問題的復(fù)雜性和不確定性的增加,P值已逐漸被研究人員“異化”成為論文能否發(fā)表的“關(guān)鍵之值”,部分研究人員似乎忘了研究本來的真正目標(biāo),而是將研究目的變?yōu)榻弑M全力追逐一個(gè)小于0.05的P值。進(jìn)而,一個(gè)小小的P值引發(fā)了許多重大的“科學(xué)”發(fā)現(xiàn)。

    由于在各學(xué)科實(shí)際問題的數(shù)據(jù)統(tǒng)計(jì)分析研究中,P值經(jīng)常被誤讀和濫用。鑒于此,美國統(tǒng)計(jì)學(xué)會(huì)在聲明中提出了以下6條正確使用P值的準(zhǔn)則[1]。筆者基于這6條準(zhǔn)則,建議在理論探討和應(yīng)用研究方面注意以下三方面的問題:

    (一) 重點(diǎn)關(guān)注P值的“一個(gè)可以,三個(gè)不能”

    對于一個(gè)特定的數(shù)據(jù)集,常用的研究方法是對此數(shù)據(jù)集在一定的假設(shè)條件下設(shè)定一個(gè)模型,由于不確定性,數(shù)據(jù)與模型之間總會(huì)存在不相容性,將這些假設(shè)的條件與設(shè)定的模型統(tǒng)稱為“原假設(shè)*也翻譯成“零假設(shè)”,心理學(xué)中常翻譯成“虛無假設(shè)”?!薄R话銇碚f,“原假設(shè)”表示某種效應(yīng)不存在,例如兩個(gè)試驗(yàn)組之間不存在差異,或一個(gè)因素與一種結(jié)果之間的沒有關(guān)系。如果在給定的“原假設(shè)”(假設(shè)的條件與設(shè)定的模型)下計(jì)算得到了一個(gè)P值,而此P值越小,數(shù)據(jù)與“原假設(shè)”之間統(tǒng)計(jì)的不相容性就越大,這種不相容性可以用來詮釋對“原假設(shè)”存疑的程度,或提供反對“原假設(shè)”成立的證據(jù)。所以,P值可以表明數(shù)據(jù)與一個(gè)設(shè)定統(tǒng)計(jì)模型之間不相容的程度。不過,對于研究者來說,更加重要的是要特別關(guān)注P值的“三個(gè)不能”。

    1.P值不能度量某個(gè)研究假設(shè)為真或假的概率,也不能度量數(shù)據(jù)僅由隨機(jī)因素影響的概率。研究人員非常希望將P值轉(zhuǎn)化成一個(gè)“原假設(shè)”為真的證據(jù),或者能夠度量觀測數(shù)據(jù)僅由隨機(jī)事件造成的概率,但P值兩者都做不到,P值只能解釋數(shù)據(jù)與特定假設(shè)之間的關(guān)系,而并不能解釋假設(shè)本身。

    2.P值或統(tǒng)計(jì)顯著性并不能度量某個(gè)效應(yīng)的大小,也不能度量某種結(jié)果是否重要。統(tǒng)計(jì)上的顯著性并不等于科學(xué)、人文或經(jīng)濟(jì)上的重要性。較小的P值并不一定意味著有更大或更重要的效應(yīng);較大的P值也不代表重要性缺乏或更小的效應(yīng)。所以,不管某個(gè)效應(yīng)的影響有多小,當(dāng)樣本量足夠大或測量精度足夠高時(shí),有可能得到一個(gè)較小的P值;反之,無論某個(gè)效應(yīng)影響有多大,當(dāng)樣本量很小或測量不精確時(shí),也可能會(huì)得到一個(gè)較大的P值。相類似,對于相同的估計(jì)效應(yīng),當(dāng)估計(jì)的精度不同時(shí)也會(huì)得到不同的P值。

    3.P值本身并不能對統(tǒng)計(jì)模型或研究假設(shè)的可信度進(jìn)行一個(gè)充分的評(píng)價(jià)。研究者應(yīng)該在研究中清楚地意識(shí)到:在沒有充分的專業(yè)理論背景和其他相關(guān)證據(jù)時(shí),P值所能表示的信息極其有限。例如以0.05為標(biāo)準(zhǔn),較小的P值只能為拒絕“原假設(shè)”提供非常弱的信息。同樣,相對較大的P值也不一定意味著信息就偏向支持“原假設(shè)”,因?yàn)榭赡苓€有其他的“假設(shè)”與觀測數(shù)據(jù)具有更強(qiáng)的一致性。因此,如果還存在其他可靠的研究證據(jù),研究者對數(shù)據(jù)的分析就不應(yīng)僅僅停留在對P值的計(jì)算上。

    (二) 基于P值的推論需要完整的研究報(bào)告和透明的研究過程

    研究者不應(yīng)選擇性地報(bào)告P值和相關(guān)分析。某項(xiàng)研究可能使用了多種分析方法,而研究者只報(bào)告其中的一部分P值的結(jié)果(特別是那些通過顯著性標(biāo)準(zhǔn)的),這些P值難以從本質(zhì)上解釋研究結(jié)論。在已發(fā)表的文獻(xiàn)中,用“櫻桃采摘式”的只挑好不選壞的研究方法,諸如數(shù)據(jù)疏浚、 顯著性追逐、 顯著性探索、 選擇性推斷和“P值黑客”,得到了許多虛假的統(tǒng)計(jì)顯著結(jié)果。如果不對問題進(jìn)行多項(xiàng)統(tǒng)計(jì)檢驗(yàn),容易產(chǎn)生如下結(jié)果:無論研究者選擇哪種基于統(tǒng)計(jì)結(jié)果的結(jié)論,由于讀者無法得知研究者所采用的全部依據(jù)和選擇,研究結(jié)果的有效性就打了大大的折扣。研究者應(yīng)該盡量展示研究過程中所使用過的假設(shè)、所有數(shù)據(jù)收集的過程、所有進(jìn)行的統(tǒng)計(jì)分析和所有計(jì)算得到的P值。如果連進(jìn)行了多少次分析、進(jìn)行了哪些分析以及得到了什么樣的分析結(jié)果(包括P值)都不知道,基于P值和相關(guān)統(tǒng)計(jì)量的研究結(jié)論就不能推斷出有效的科學(xué)結(jié)論。

    (三) 科學(xué)研究的結(jié)論、商業(yè)企業(yè)的決策或公共政策的制定,都不應(yīng)該只取決于看一個(gè)P值是否達(dá)到了一個(gè)認(rèn)為給定的標(biāo)準(zhǔn)

    在實(shí)踐中,為了給某種科學(xué)主張或論斷提供佐證,將數(shù)據(jù)分析或科學(xué)推斷簡化為一個(gè)機(jī)械的“明線”規(guī)則 (如“P< 0.05”) ,這種做法可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論和失誤的商業(yè)決策。事實(shí)上,一個(gè)科學(xué)結(jié)論的正確與否,并不會(huì)隨著研究者算出的P值大于還是小于0.05而改變。研究人員需要將更多專業(yè)理論背景和其他相關(guān)證據(jù)納入到科學(xué)推斷的過程中,包括研究的有效設(shè)計(jì)、樣本數(shù)據(jù)的質(zhì)量評(píng)價(jià)、研究問題的非樣本信息以及數(shù)據(jù)分析時(shí)所采用的合理假設(shè)等。出于簡化實(shí)用的考慮,商業(yè)決策者常需根據(jù)研究結(jié)論做出“是與否”的決策,但這并不意味著僅憑P值本身就可以單獨(dú)斷定這一商業(yè)決策的正確與否。

    總之,數(shù)據(jù)分析不能僅僅局限于計(jì)算P值,而應(yīng)探索其他更擬合數(shù)據(jù)的模型。科學(xué)的世界中,不存在哪個(gè)單一的指標(biāo)能替代科學(xué)求真的思維方式。

    大數(shù)據(jù)時(shí)代,小小的P值已引起了國際學(xué)術(shù)界和美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)的高度關(guān)注,因?yàn)樗鼘y(tǒng)計(jì)學(xué)的科學(xué)性提出了嚴(yán)重質(zhì)疑。所以,希望國內(nèi)相關(guān)部門也能引起高度重視,將以上P值的“注意事項(xiàng)”早日編入中國的統(tǒng)計(jì)教科書,重編假設(shè)檢驗(yàn)相關(guān)章節(jié),不要再讓美國教授嘲諷“我們教它是因?yàn)槲覀冇盟覀冇盟且驗(yàn)槲覀兘趟钡倪@種循環(huán)誤導(dǎo)、以訛傳訛的現(xiàn)象,在中國的大學(xué)和研究生院里繼續(xù)重演。

    [1] Wasserstein R L, Lazar N A. The ASA's Statement on P-Values: Context, Process, and Purpose[J]. The American Statistician, 2016 (3).

    [2] Nuzzo R . Statistical Errors[J]. Nature, 2014 (2).

    [3] 王芳,王景東. 統(tǒng)計(jì)假設(shè)檢驗(yàn)在審計(jì)抽樣工作中的應(yīng)用研究[J]. 審計(jì)研究,2010(5).

    [4] 盛驟, 謝式千, 潘承毅. 概率論與數(shù)理統(tǒng)計(jì)[M]. 4版.北京:高等教育出版社,2008.

    [5] Haller H, Krauss S. Misinterpretations of Significance: A Problem Students Share with Their Teachers? [J]. Methods of Psychological Research, 2002(7).

    [6] 丁東洋,周麗莉. 基于貝葉斯方法的信用評(píng)級(jí)模型構(gòu)建與違約概率估計(jì)[J]. 統(tǒng)計(jì)與信息論壇, 2010(9).

    [7] 王佐仁,楊琳. 貝葉斯統(tǒng)計(jì)推斷及其主要進(jìn)展[J]. 統(tǒng)計(jì)與信息論壇,2012(12).

    [8] 劉樂平,高磊,楊娜. MCMC方法的發(fā)展與現(xiàn)代貝葉斯的復(fù)興——紀(jì)念貝葉斯定理發(fā)現(xiàn)250周年[J]. 統(tǒng)計(jì)與信息論壇,2014(2).

    (責(zé)任編輯:郭詩夢)

    Statistical Significance a Misreading of P-Values:Based on the Official Statement of ASA

    HAO Li, LIU Le-ping, SHEN Ya-fei

    (Big Data Statistics Research Center, Tianjin University of Finance and Economics, Tianjin 300222, China)

    After the ASA's statement on p-values and significance, p-value was brought to the attention of the scholars. The paper briefly explains p-value, statistical significance, and statistical power concepts, through "Coin-Throwing" and "Hair Length Determine Person's" intuitive examples, analysis the reason of p-value misreading with the classic case of psychological statistics. The paper strongly recommends that researchers in accordance with the "Six Principles" of proper use the p-value, based on the official statement of ASA.

    statistical significance; p-values; psychological statistics; Bayesian statistics

    2016-04-06;修復(fù)日期:2016-10-11

    國家社會(huì)科學(xué)基金項(xiàng)目 《基于大數(shù)據(jù)分析的城市社區(qū)養(yǎng)老模式研究》(15BRK002)

    郝 麗,女,安徽壽縣人,經(jīng)濟(jì)學(xué)碩士,副教授,研究方向:體育與健康大數(shù)據(jù)統(tǒng)計(jì)分析; 劉樂平,男,江西萍鄉(xiāng)人,經(jīng)濟(jì)學(xué)博士,教授,博士生導(dǎo)師,研究方向:貝葉斯數(shù)據(jù)分析,精算與風(fēng)險(xiǎn)管理; 申亞飛,男,山西黎城人,碩士生,研究方向:大數(shù)據(jù)統(tǒng)計(jì)分析。

    C829.29∶O211.9

    A

    1007-3116(2016)12-0003-08

    猜你喜歡
    假設(shè)檢驗(yàn)硬幣概率
    第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
    第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
    概率與統(tǒng)計(jì)(一)
    概率與統(tǒng)計(jì)(二)
    硬幣巧入盤
    不翼而飛的硬幣
    統(tǒng)計(jì)推斷的研究
    雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
    Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
    統(tǒng)計(jì)學(xué)教學(xué)中關(guān)于假設(shè)檢驗(yàn)問題探討
    欧美乱码精品一区二区三区| 国产熟女xx| 亚洲电影在线观看av| 亚洲精品在线美女| 国产精品免费一区二区三区在线| 欧美成人一区二区免费高清观看 | 男女做爰动态图高潮gif福利片| 成人三级黄色视频| 在线天堂中文资源库| 这个男人来自地球电影免费观看| 亚洲国产精品久久男人天堂| 精品福利观看| 一区福利在线观看| 女性生殖器流出的白浆| 国产精品美女特级片免费视频播放器 | 国产不卡一卡二| 嫩草影院精品99| 国产高清有码在线观看视频 | 一卡2卡三卡四卡精品乱码亚洲| 日本三级黄在线观看| 成人永久免费在线观看视频| 欧美日本亚洲视频在线播放| 香蕉丝袜av| 黄色片一级片一级黄色片| 两个人看的免费小视频| 亚洲人成网站在线播放欧美日韩| 午夜免费观看网址| 高清毛片免费观看视频网站| 精品第一国产精品| 美国免费a级毛片| 天天躁夜夜躁狠狠躁躁| 亚洲无线在线观看| 免费在线观看成人毛片| 在线国产一区二区在线| av中文乱码字幕在线| 国产午夜精品久久久久久| 青草久久国产| 夜夜躁狠狠躁天天躁| 亚洲专区国产一区二区| 国产一卡二卡三卡精品| 禁无遮挡网站| 高潮久久久久久久久久久不卡| 侵犯人妻中文字幕一二三四区| 一a级毛片在线观看| 欧美日韩乱码在线| 精品日产1卡2卡| 香蕉久久夜色| 国产野战对白在线观看| 51午夜福利影视在线观看| 精品无人区乱码1区二区| 国产99久久九九免费精品| 亚洲三区欧美一区| 国产欧美日韩一区二区三| 一个人观看的视频www高清免费观看 | 亚洲精品色激情综合| 色精品久久人妻99蜜桃| 最近最新中文字幕大全电影3 | 欧美日韩乱码在线| 亚洲avbb在线观看| 变态另类成人亚洲欧美熟女| 国产私拍福利视频在线观看| 国产亚洲av嫩草精品影院| 精品久久久久久成人av| 欧美精品亚洲一区二区| 午夜免费观看网址| 99在线视频只有这里精品首页| 观看免费一级毛片| 日韩欧美 国产精品| 欧美黑人欧美精品刺激| 在线观看日韩欧美| 人人妻人人看人人澡| 日本免费一区二区三区高清不卡| 一个人免费在线观看的高清视频| 最新在线观看一区二区三区| 色婷婷久久久亚洲欧美| 国产av一区二区精品久久| 国产精品久久久久久人妻精品电影| 成年女人毛片免费观看观看9| 国产亚洲精品一区二区www| 日韩欧美国产一区二区入口| 国内毛片毛片毛片毛片毛片| 老司机福利观看| 亚洲最大成人中文| 久久99热这里只有精品18| 国产精品久久久久久人妻精品电影| 欧美日韩亚洲国产一区二区在线观看| 亚洲专区国产一区二区| 波多野结衣高清作品| 久久九九热精品免费| 国产人伦9x9x在线观看| 久久国产精品影院| 欧美日本亚洲视频在线播放| 日本免费a在线| 可以免费在线观看a视频的电影网站| 欧美绝顶高潮抽搐喷水| 久久亚洲精品不卡| 欧美乱妇无乱码| 久久国产精品人妻蜜桃| 日本免费一区二区三区高清不卡| 欧美日韩乱码在线| 级片在线观看| 国产高清视频在线播放一区| 极品教师在线免费播放| 亚洲国产中文字幕在线视频| 国产99白浆流出| 亚洲精品美女久久av网站| 男人操女人黄网站| 香蕉久久夜色| 日韩欧美一区二区三区在线观看| 男人操女人黄网站| 久久久国产成人精品二区| 午夜久久久在线观看| 精品久久久久久成人av| 国产成人欧美在线观看| 欧美成人性av电影在线观看| or卡值多少钱| 亚洲中文av在线| 波多野结衣高清作品| 99国产综合亚洲精品| tocl精华| 美国免费a级毛片| 又紧又爽又黄一区二区| 亚洲精品在线观看二区| 久久中文看片网| 久久中文字幕一级| 精品久久久久久久末码| 精品欧美一区二区三区在线| 日韩中文字幕欧美一区二区| 国产精品自产拍在线观看55亚洲| 国内久久婷婷六月综合欲色啪| 亚洲电影在线观看av| 国产精品日韩av在线免费观看| 国产日本99.免费观看| 欧美绝顶高潮抽搐喷水| 亚洲久久久国产精品| 午夜老司机福利片| 亚洲欧美精品综合一区二区三区| 深夜精品福利| 亚洲成国产人片在线观看| 国产乱人伦免费视频| 欧美激情 高清一区二区三区| 麻豆成人午夜福利视频| 老司机深夜福利视频在线观看| 两个人免费观看高清视频| 在线观看免费日韩欧美大片| 一本大道久久a久久精品| 男女做爰动态图高潮gif福利片| 亚洲成av人片免费观看| 日韩国内少妇激情av| 他把我摸到了高潮在线观看| 国产真实乱freesex| 亚洲av成人一区二区三| 香蕉av资源在线| 欧美日韩一级在线毛片| 欧美不卡视频在线免费观看 | 久久精品91无色码中文字幕| 国产99久久九九免费精品| 国产野战对白在线观看| 好男人在线观看高清免费视频 | 亚洲国产精品成人综合色| 伦理电影免费视频| 2021天堂中文幕一二区在线观 | 一进一出抽搐gif免费好疼| 国产精品自产拍在线观看55亚洲| 精品第一国产精品| 国产一区在线观看成人免费| 别揉我奶头~嗯~啊~动态视频| 99久久99久久久精品蜜桃| 午夜a级毛片| 真人一进一出gif抽搐免费| 韩国av一区二区三区四区| 一a级毛片在线观看| 一本一本综合久久| 老司机在亚洲福利影院| 嫩草影院精品99| svipshipincom国产片| 不卡一级毛片| 日韩av在线大香蕉| 欧美日本视频| 欧美黑人欧美精品刺激| 久久久久国产一级毛片高清牌| 日本成人三级电影网站| 香蕉丝袜av| 91大片在线观看| 国产av在哪里看| 欧美黑人巨大hd| 怎么达到女性高潮| 午夜a级毛片| 别揉我奶头~嗯~啊~动态视频| 两性午夜刺激爽爽歪歪视频在线观看 | 88av欧美| 欧美另类亚洲清纯唯美| 亚洲av成人不卡在线观看播放网| 亚洲黑人精品在线| 人人妻人人看人人澡| 一区二区日韩欧美中文字幕| 两人在一起打扑克的视频| 精品国产美女av久久久久小说| 欧美日韩福利视频一区二区| 欧美精品亚洲一区二区| 久久久久久大精品| 精品久久久久久久久久免费视频| 国产又色又爽无遮挡免费看| av福利片在线| 精品少妇一区二区三区视频日本电影| 日本a在线网址| 黄色a级毛片大全视频| 午夜福利18| 国产成人影院久久av| 热re99久久国产66热| 村上凉子中文字幕在线| 国产亚洲精品久久久久5区| 黄色 视频免费看| 午夜福利高清视频| 色综合站精品国产| 一本一本综合久久| 欧美国产日韩亚洲一区| 在线观看舔阴道视频| 12—13女人毛片做爰片一| 亚洲成av片中文字幕在线观看| 青草久久国产| 国产成人av激情在线播放| 熟女电影av网| 1024香蕉在线观看| 在线观看免费日韩欧美大片| 日本一本二区三区精品| 动漫黄色视频在线观看| 亚洲精品色激情综合| 给我免费播放毛片高清在线观看| 国产又黄又爽又无遮挡在线| 一边摸一边做爽爽视频免费| 亚洲熟妇中文字幕五十中出| 老司机午夜福利在线观看视频| 亚洲国产欧美日韩在线播放| 中国美女看黄片| 精品卡一卡二卡四卡免费| 欧美午夜高清在线| 久久久久国产一级毛片高清牌| 少妇粗大呻吟视频| 国产精华一区二区三区| 国产精品98久久久久久宅男小说| 久久中文字幕人妻熟女| 高潮久久久久久久久久久不卡| 中文字幕人成人乱码亚洲影| 国产亚洲欧美98| 999久久久精品免费观看国产| а√天堂www在线а√下载| 精品国内亚洲2022精品成人| 国产高清激情床上av| 日韩一卡2卡3卡4卡2021年| 精品少妇一区二区三区视频日本电影| 色播亚洲综合网| 精品高清国产在线一区| 1024香蕉在线观看| 亚洲国产精品久久男人天堂| 精华霜和精华液先用哪个| 亚洲成人久久爱视频| 日本成人三级电影网站| 一个人观看的视频www高清免费观看 | 激情在线观看视频在线高清| 精品少妇一区二区三区视频日本电影| 两个人看的免费小视频| 国产亚洲精品第一综合不卡| 免费搜索国产男女视频| 啦啦啦观看免费观看视频高清| 波多野结衣av一区二区av| 在线观看免费日韩欧美大片| 久久国产亚洲av麻豆专区| 美女免费视频网站| 桃红色精品国产亚洲av| 窝窝影院91人妻| 国产精品久久久av美女十八| 成年人黄色毛片网站| 亚洲一区二区三区不卡视频| av在线播放免费不卡| 亚洲人成电影免费在线| 日韩国内少妇激情av| 十八禁网站免费在线| 99久久国产精品久久久| 搡老熟女国产l中国老女人| 欧美日本亚洲视频在线播放| а√天堂www在线а√下载| 99久久精品国产亚洲精品| 搞女人的毛片| 久热这里只有精品99| 男人的好看免费观看在线视频 | 亚洲精品国产一区二区精华液| 亚洲五月色婷婷综合| 十八禁网站免费在线| xxxwww97欧美| 国产精品一区二区精品视频观看| 欧美午夜高清在线| 久久香蕉激情| 国产熟女xx| 亚洲久久久国产精品| 老司机福利观看| 免费在线观看影片大全网站| 久久中文字幕人妻熟女| 91在线观看av| 黄色视频,在线免费观看| 国产激情欧美一区二区| 日本精品一区二区三区蜜桃| 亚洲欧洲精品一区二区精品久久久| 国产在线观看jvid| 精品久久蜜臀av无| 神马国产精品三级电影在线观看 | 啦啦啦韩国在线观看视频| 欧美午夜高清在线| 正在播放国产对白刺激| 中文字幕人成人乱码亚洲影| 色av中文字幕| 精品国产一区二区三区四区第35| 欧美中文日本在线观看视频| 午夜福利18| 免费在线观看亚洲国产| 国产av在哪里看| 国产极品粉嫩免费观看在线| 大型黄色视频在线免费观看| 女警被强在线播放| 99久久久亚洲精品蜜臀av| 一区二区三区精品91| 777久久人妻少妇嫩草av网站| 性色av乱码一区二区三区2| 午夜免费鲁丝| 久久久国产欧美日韩av| 国产午夜福利久久久久久| 久热爱精品视频在线9| 精品国产美女av久久久久小说| 青草久久国产| 女人爽到高潮嗷嗷叫在线视频| 精品国产美女av久久久久小说| av福利片在线| 久久久久国产精品人妻aⅴ院| 岛国视频午夜一区免费看| 亚洲欧美激情综合另类| 欧美精品亚洲一区二区| 日本精品一区二区三区蜜桃| 桃色一区二区三区在线观看| 又紧又爽又黄一区二区| 国产精品日韩av在线免费观看| 亚洲av电影不卡..在线观看| 黄网站色视频无遮挡免费观看| 国产精品自产拍在线观看55亚洲| 国产av一区在线观看免费| 亚洲精品在线观看二区| 夜夜夜夜夜久久久久| 91字幕亚洲| 亚洲成人久久性| 精品少妇一区二区三区视频日本电影| 黄片小视频在线播放| 女人被狂操c到高潮| 一区二区三区激情视频| 男女之事视频高清在线观看| 成人一区二区视频在线观看| av在线播放免费不卡| 日本一区二区免费在线视频| 亚洲专区国产一区二区| 淫秽高清视频在线观看| xxx96com| 波多野结衣av一区二区av| 可以在线观看的亚洲视频| www日本在线高清视频| 久久久久久国产a免费观看| 国产人伦9x9x在线观看| 美女午夜性视频免费| 国产精品美女特级片免费视频播放器 | 日韩精品免费视频一区二区三区| 非洲黑人性xxxx精品又粗又长| 欧美激情久久久久久爽电影| av有码第一页| 亚洲av电影不卡..在线观看| 自线自在国产av| 又大又爽又粗| 精品国产国语对白av| 国产成年人精品一区二区| 两人在一起打扑克的视频| 一边摸一边做爽爽视频免费| 欧美日韩乱码在线| 淫妇啪啪啪对白视频| 亚洲国产毛片av蜜桃av| 午夜精品在线福利| 国产精品国产高清国产av| 国产一区二区在线av高清观看| 精品午夜福利视频在线观看一区| 日本免费一区二区三区高清不卡| 非洲黑人性xxxx精品又粗又长| 国产精品影院久久| 女人被狂操c到高潮| 亚洲国产精品sss在线观看| 在线av久久热| av欧美777| 亚洲男人的天堂狠狠| 久久亚洲精品不卡| 最近最新中文字幕大全电影3 | 精品午夜福利视频在线观看一区| 一a级毛片在线观看| 国产久久久一区二区三区| 久热这里只有精品99| 亚洲欧洲精品一区二区精品久久久| 亚洲成人国产一区在线观看| 精品国产乱子伦一区二区三区| 99在线人妻在线中文字幕| 久久国产亚洲av麻豆专区| 亚洲狠狠婷婷综合久久图片| 91九色精品人成在线观看| 91av网站免费观看| 欧美不卡视频在线免费观看 | 一本精品99久久精品77| 国产av不卡久久| 久久 成人 亚洲| 亚洲狠狠婷婷综合久久图片| 久久久久国产精品人妻aⅴ院| 母亲3免费完整高清在线观看| av免费在线观看网站| 又大又爽又粗| 老熟妇仑乱视频hdxx| 非洲黑人性xxxx精品又粗又长| 国产三级在线视频| www.精华液| 亚洲激情在线av| 夜夜躁狠狠躁天天躁| 99在线人妻在线中文字幕| 亚洲男人的天堂狠狠| 日本撒尿小便嘘嘘汇集6| 侵犯人妻中文字幕一二三四区| 国产亚洲欧美在线一区二区| 99热这里只有精品一区 | 免费观看人在逋| 欧美精品啪啪一区二区三区| 久久精品91无色码中文字幕| 国产成人欧美| 免费在线观看亚洲国产| av在线播放免费不卡| 国产高清videossex| 欧美日韩中文字幕国产精品一区二区三区| 看片在线看免费视频| 精品久久久久久久毛片微露脸| 亚洲一区二区三区不卡视频| a级毛片在线看网站| 欧美三级亚洲精品| 国产成人av教育| 欧美av亚洲av综合av国产av| 久久伊人香网站| 男女床上黄色一级片免费看| 看黄色毛片网站| 日韩欧美免费精品| 一级黄色大片毛片| 欧美人与性动交α欧美精品济南到| 国产精品影院久久| 午夜久久久在线观看| 免费在线观看完整版高清| 久久国产亚洲av麻豆专区| 欧美日韩乱码在线| 女同久久另类99精品国产91| 女警被强在线播放| 啦啦啦免费观看视频1| 高清在线国产一区| 欧美激情极品国产一区二区三区| 免费在线观看视频国产中文字幕亚洲| 久久久久国内视频| 欧美一区二区精品小视频在线| 最新在线观看一区二区三区| 免费av毛片视频| 成人一区二区视频在线观看| 一夜夜www| 女同久久另类99精品国产91| 热99re8久久精品国产| 亚洲国产精品999在线| 国产精品永久免费网站| 国产三级黄色录像| 欧美性长视频在线观看| 午夜福利视频1000在线观看| 午夜免费成人在线视频| 欧美中文综合在线视频| АⅤ资源中文在线天堂| 欧美绝顶高潮抽搐喷水| 大香蕉久久成人网| 亚洲中文字幕一区二区三区有码在线看 | 一a级毛片在线观看| 一区二区三区精品91| 亚洲av五月六月丁香网| 天天添夜夜摸| 日日摸夜夜添夜夜添小说| 亚洲久久久国产精品| 精品第一国产精品| 18禁国产床啪视频网站| 99热这里只有精品一区 | 免费在线观看亚洲国产| 亚洲 国产 在线| 国产色视频综合| 动漫黄色视频在线观看| 午夜免费激情av| 精品不卡国产一区二区三区| 啪啪无遮挡十八禁网站| 婷婷亚洲欧美| 亚洲国产精品成人综合色| 女性被躁到高潮视频| 大型av网站在线播放| 婷婷亚洲欧美| 最近最新免费中文字幕在线| 国产精品免费视频内射| 精品人妻1区二区| 亚洲av电影不卡..在线观看| 久久精品影院6| 99国产精品一区二区三区| 十八禁人妻一区二区| 波多野结衣高清无吗| 午夜成年电影在线免费观看| 久久久水蜜桃国产精品网| 久久精品亚洲精品国产色婷小说| 久久久久国内视频| 久久久久亚洲av毛片大全| 欧美日韩亚洲国产一区二区在线观看| 国产av不卡久久| 欧美性长视频在线观看| 久久九九热精品免费| 亚洲美女黄片视频| 久久久久久久久免费视频了| 欧美日韩乱码在线| 欧美日韩黄片免| 首页视频小说图片口味搜索| 99热只有精品国产| 熟妇人妻久久中文字幕3abv| 成人手机av| 亚洲精品在线观看二区| 成人国语在线视频| 亚洲五月色婷婷综合| 村上凉子中文字幕在线| 亚洲人成伊人成综合网2020| 老熟妇乱子伦视频在线观看| 99riav亚洲国产免费| 亚洲一区二区三区色噜噜| 久99久视频精品免费| 日韩欧美国产一区二区入口| 免费在线观看亚洲国产| 成人国产一区最新在线观看| 免费在线观看成人毛片| 97碰自拍视频| 在线观看日韩欧美| 亚洲av成人不卡在线观看播放网| 亚洲成a人片在线一区二区| 无遮挡黄片免费观看| 首页视频小说图片口味搜索| www日本黄色视频网| 国产97色在线日韩免费| 亚洲精品在线观看二区| 免费在线观看亚洲国产| 男人舔女人的私密视频| 美女 人体艺术 gogo| 悠悠久久av| 欧美日韩福利视频一区二区| 久久久久久人人人人人| 日韩有码中文字幕| 丝袜在线中文字幕| 香蕉国产在线看| 一区二区三区高清视频在线| 别揉我奶头~嗯~啊~动态视频| 成人av一区二区三区在线看| 麻豆成人午夜福利视频| 12—13女人毛片做爰片一| 国产麻豆成人av免费视频| 欧美一区二区精品小视频在线| 非洲黑人性xxxx精品又粗又长| 亚洲美女黄片视频| 亚洲欧美精品综合久久99| 日韩精品免费视频一区二区三区| 久久国产精品人妻蜜桃| 一夜夜www| 国产一级毛片七仙女欲春2 | 伊人久久大香线蕉亚洲五| 高清在线国产一区| 亚洲精品国产精品久久久不卡| 亚洲中文日韩欧美视频| 亚洲性夜色夜夜综合| 欧美性长视频在线观看| 99国产精品一区二区蜜桃av| 熟女电影av网| 好男人在线观看高清免费视频 | 精品久久久久久久末码| 久热爱精品视频在线9| 桃红色精品国产亚洲av| 欧美亚洲日本最大视频资源| 女警被强在线播放| 亚洲国产精品sss在线观看| 午夜成年电影在线免费观看| 亚洲av美国av| 亚洲av中文字字幕乱码综合 | 精品国内亚洲2022精品成人| 日韩三级视频一区二区三区| 亚洲国产日韩欧美精品在线观看 | 精品一区二区三区四区五区乱码| 国产亚洲精品第一综合不卡| 少妇的丰满在线观看| 日本 av在线| 色av中文字幕| 日韩欧美一区二区三区在线观看| 亚洲在线自拍视频| 露出奶头的视频| 无限看片的www在线观看| 一夜夜www| 黄色成人免费大全| 欧美乱妇无乱码| 精品人妻1区二区| 久久久久国产一级毛片高清牌| 国产高清激情床上av| 级片在线观看| 国产一区二区激情短视频| 成人18禁高潮啪啪吃奶动态图| 久久天堂一区二区三区四区| 日韩大尺度精品在线看网址| 午夜福利免费观看在线| 日韩国内少妇激情av| 人成视频在线观看免费观看| 国产精品国产高清国产av| 午夜福利在线观看吧|