• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      從重復(fù)原則視角審視體育科學(xué)實(shí)驗(yàn)設(shè)計(jì)中的樣本量問題

      2023-06-15 03:25:32張連成劉潔呂嘉玉高淑青
      體育科學(xué) 2023年1期
      關(guān)鍵詞:樣本量實(shí)驗(yàn)設(shè)計(jì)原則

      張連成,劉潔,呂嘉玉,高淑青

      從重復(fù)原則視角審視體育科學(xué)實(shí)驗(yàn)設(shè)計(jì)中的樣本量問題

      張連成,劉潔,呂嘉玉,高淑青

      (天津體育學(xué)院 競技運(yùn)動(dòng)心理與生理調(diào)控重點(diǎn)實(shí)驗(yàn)室,天津 301617)

      重復(fù)原則是實(shí)驗(yàn)設(shè)計(jì)的基本原則之一,也是研究者控制實(shí)驗(yàn)受試者個(gè)體差異的常用手段。遵循重復(fù)原則可以降低實(shí)驗(yàn)誤差,改善實(shí)驗(yàn)精度,提高研究的效度和研究的可重復(fù)性。體育科學(xué)領(lǐng)域?qū)嶒?yàn)研究中違背重復(fù)原則的問題主要包括:多因素實(shí)驗(yàn)設(shè)計(jì)中某種處理缺乏必要重復(fù)、重復(fù)測量代替重復(fù)實(shí)驗(yàn)以及混淆實(shí)驗(yàn)分析單位導(dǎo)致偽重復(fù)、沒有科學(xué)估算樣本量等,這嚴(yán)重影響了實(shí)驗(yàn)的嚴(yán)謹(jǐn)性,其實(shí)驗(yàn)結(jié)果的可重復(fù)性令人擔(dān)憂。為提高體育科學(xué)實(shí)驗(yàn)研究的可重復(fù)性,研究者應(yīng)該重視遵循重復(fù)原則,合理把握樣本量。體育科學(xué)實(shí)驗(yàn)研究在遵循重復(fù)原則時(shí)需要注意4個(gè)問題:1)厘清實(shí)驗(yàn)處理的最小單元;2)確定實(shí)驗(yàn)分析單位,避免偽重復(fù);3)確定最小重復(fù)次數(shù);4)科學(xué)估算樣本量,估算時(shí)除了要考慮值、效果量和統(tǒng)計(jì)功效外,還需要考慮精度等因素。

      重復(fù)原則;可重復(fù)性;樣本量;精度;統(tǒng)計(jì)功效

      近年來很多學(xué)科爆發(fā)了可重復(fù)性危機(jī)??芍貜?fù)性是科學(xué)研究中的一個(gè)基本原則(Ayer et al., 2017),即科學(xué)結(jié)果應(yīng)經(jīng)得起反復(fù)推敲,并且由同行進(jìn)行驗(yàn)證。然而,在實(shí)踐中,重復(fù)或驗(yàn)證以前的研究結(jié)果面臨著挑戰(zhàn)。研究表明,在心理學(xué)領(lǐng)域,已發(fā)表的研究假陽性結(jié)果占比過高(Schweizeret al., 2016),且只有39%的研究被認(rèn)為是可重復(fù)的(Nosek et al., 2015)。雜志對1 576名科學(xué)家進(jìn)行的調(diào)查顯示,超過70%的研究人員未能重現(xiàn)其他學(xué)者的實(shí)驗(yàn),并且超過50%的研究人員無法重復(fù)自己的實(shí)驗(yàn)(Baker, 2016)。對此有學(xué)者提出研究操作可疑、存在發(fā)表偏倚和過度依賴虛無假設(shè)檢驗(yàn)等,都有可能是可重復(fù)率低的原因(胡傳鵬等,2016)。在體育學(xué)領(lǐng)域,張力為等(2021)探討了預(yù)防體育科學(xué)研究中可重復(fù)性危機(jī)的方法,如提前注冊、做好樣本量規(guī)劃等。但體育科學(xué)領(lǐng)域?qū)﹀e(cuò)誤估算樣本量、可重復(fù)性危機(jī)問題還沒有給予足夠關(guān)注,更沒有像心理學(xué)領(lǐng)域那樣開展大規(guī)模的重復(fù)實(shí)驗(yàn)。

      國外有學(xué)者分析了2009—2013年在運(yùn)動(dòng)和運(yùn)動(dòng)心理學(xué)領(lǐng)域的4種主要期刊上發(fā)表的所有定量研究的樣本量,結(jié)果顯示有50%的研究存在總樣本量不足的問題(Schweizeret al., 2016),進(jìn)而強(qiáng)調(diào)樣本大小在化解可重復(fù)性危機(jī)中的重要作用,認(rèn)為可重復(fù)率低可能是樣本量不足、檢驗(yàn)功效低的研究設(shè)計(jì)所致的。于此,提高研究可重復(fù)性的首要任務(wù)應(yīng)是做好實(shí)驗(yàn)設(shè)計(jì),科學(xué)估算樣本量,實(shí)驗(yàn)設(shè)計(jì)中應(yīng)遵循“隨機(jī)、對照、重復(fù)、均衡”4項(xiàng)原則,否則可能導(dǎo)致錯(cuò)誤結(jié)論(王琪等,2010)。其中,重復(fù)有助于隨機(jī)等組效果的體現(xiàn)、發(fā)現(xiàn)真實(shí)存在的差異、提高實(shí)驗(yàn)效度并保持結(jié)果穩(wěn)定,有利于他人對其進(jìn)行重復(fù);如果某項(xiàng)實(shí)驗(yàn)隨意設(shè)置樣本量且過程中違背重復(fù)原則,則該實(shí)驗(yàn)被他人重復(fù)的可能性幾乎為零。

      綜上所述,本文將在闡述重復(fù)原則相關(guān)概念的基礎(chǔ)上,關(guān)注體育科學(xué)實(shí)驗(yàn)中樣本量估算和重復(fù)原則應(yīng)用的問題,針對如何規(guī)范體育科學(xué)實(shí)驗(yàn)中的重復(fù)原則提出建議。

      1 重復(fù)原則與可重復(fù)性

      1.1 重復(fù)原則的概念

      重復(fù)有3層含義:重復(fù)取樣、重復(fù)測量和重復(fù)實(shí)驗(yàn)(胡良平等,2004)。重復(fù)取樣是指從同一個(gè)樣本中多次取樣,測量某定量指標(biāo)的數(shù)值,目的是保證樣本中某定量觀測指標(biāo)含量的分布盡可能均勻,避免將個(gè)別情況誤認(rèn)為普遍情況,把偶然性或者巧合現(xiàn)象當(dāng)成必然的規(guī)律;重復(fù)測量是指受試對象在接受某種處理后,在不同時(shí)間點(diǎn)或?qū)ΨQ的不同部位上重復(fù)觀測某個(gè)定量指標(biāo),目的是掌握定量指標(biāo)隨時(shí)間推移(或部位改變)的動(dòng)態(tài)變化情況;重復(fù)實(shí)驗(yàn)是指實(shí)驗(yàn)研究中的受試對象要達(dá)到一定的數(shù)量,即在相同實(shí)驗(yàn)條件下要對足夠數(shù)量的受試對象進(jìn)行觀察。通常在研究過程中都要追求重復(fù)實(shí)驗(yàn),也就是將研究方案應(yīng)用于多個(gè)被試中進(jìn)行實(shí)驗(yàn)。雖然單被試實(shí)驗(yàn)設(shè)計(jì)在某些研究中有著特殊的貢獻(xiàn),但在需要量化推廣的隨機(jī)抽樣研究中只征用1個(gè)被試,這樣的實(shí)驗(yàn)結(jié)果是不可靠的,不足以將其作為普適性結(jié)果進(jìn)行推廣。

      實(shí)驗(yàn)設(shè)計(jì)中的重復(fù)原則多指實(shí)驗(yàn)內(nèi)部重復(fù)原則,是現(xiàn)代科學(xué)研究中的規(guī)范性原則,即在相同的實(shí)驗(yàn)條件下要獨(dú)立重復(fù)實(shí)驗(yàn)足夠次數(shù),這里的“獨(dú)立”是指要用不同的個(gè)體或樣品做實(shí)驗(yàn),而不是在同一個(gè)體或樣品上做多次實(shí)驗(yàn),進(jìn)而揭示出隨機(jī)現(xiàn)象的基本規(guī)律(柳偉偉等,2010)。

      1.2 重復(fù)原則與可重復(fù)性的關(guān)系

      重復(fù)原則與可重復(fù)性是兩個(gè)概念。有學(xué)者提出,實(shí)驗(yàn)的可重復(fù)性是指實(shí)驗(yàn)的過程和結(jié)果均可重復(fù),一個(gè)成功的實(shí)驗(yàn)不會(huì)因不同的時(shí)間、空間、實(shí)驗(yàn)者而異,即可重復(fù)性指的是針對同一研究問題,其他研究者的獨(dú)立研究可以借助作者提供的方案再現(xiàn)實(shí)驗(yàn)結(jié)果(何華青等,2008)。判定一個(gè)實(shí)驗(yàn)成功與否的標(biāo)準(zhǔn)是看其是否具有可重復(fù)性,這是科學(xué)家們普遍認(rèn)可的一條準(zhǔn)則(何華青等,2008)。想要重復(fù)實(shí)驗(yàn)結(jié)果,首先要實(shí)現(xiàn)實(shí)驗(yàn)本身結(jié)果的穩(wěn)定,只有實(shí)驗(yàn)結(jié)果穩(wěn)定,他人才能更好地對該實(shí)驗(yàn)進(jìn)行重復(fù)。即在實(shí)驗(yàn)中遵循重復(fù)原則,合理把握樣本量,提高實(shí)驗(yàn)效度,是提高研究可重復(fù)性的基礎(chǔ)。

      由此可見,科學(xué)實(shí)驗(yàn)需要遵守重復(fù)原則,在相同實(shí)驗(yàn)條件下要對足夠數(shù)量的受試對象進(jìn)行觀察,以提高研究的可重復(fù)性。其中,內(nèi)部重復(fù)是重復(fù)實(shí)驗(yàn)處理,增加樣本量,是重復(fù)原則的要求;外部重復(fù)是重復(fù)整個(gè)實(shí)驗(yàn)過程,提高研究的可重復(fù)性,是可重復(fù)性的要求。提示,研究者可以根據(jù)某一研究主題設(shè)計(jì)系列研究,在自己的系列研究中加入重復(fù)實(shí)驗(yàn),以達(dá)到“真重復(fù)”。這樣的研究雖費(fèi)時(shí)費(fèi)力,但更具科學(xué)價(jià)值,也更有利于解決可重復(fù)性危機(jī)問題。

      1.3 重復(fù)原則的作用

      體育科學(xué)研究中的許多實(shí)驗(yàn)都屬于隨機(jī)實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果不能事先準(zhǔn)確斷定。雖然隨機(jī)化能在很大程度上消除非實(shí)驗(yàn)因素所產(chǎn)生的影響,但若樣本量過小,則可能把個(gè)別或偶然現(xiàn)象誤認(rèn)為是普遍或必然現(xiàn)象,在實(shí)際工作中產(chǎn)生負(fù)面影響甚至造成重大損失。并且,要想正確地反映隨機(jī)實(shí)驗(yàn)結(jié)果出現(xiàn)的一般規(guī)律,必須進(jìn)行大量的獨(dú)立重復(fù)實(shí)驗(yàn),因此,在實(shí)驗(yàn)中遵守重復(fù)原則十分重要。重復(fù)可以排除隨機(jī)誤差的干擾和影響,真實(shí)地反映隨機(jī)變量的統(tǒng)計(jì)規(guī)律性,是消除非實(shí)驗(yàn)因素影響的一種重要手段(柳偉偉等,2010)。其在科學(xué)研究中的具體作用如下:

      第一,穩(wěn)定標(biāo)準(zhǔn)差,反映隨機(jī)變量的規(guī)律性。實(shí)驗(yàn)研究需要由樣本去推斷總體,即由樣本的特征去推斷其所在總體的規(guī)律。由于實(shí)驗(yàn)研究對象之間的異質(zhì)性,實(shí)驗(yàn)結(jié)果具有隨機(jī)性。因此,合理把握樣本特征非常重要,其中對樣本規(guī)律的把握應(yīng)將隨機(jī)變量的異質(zhì)性充分展示出來,這就需要通過進(jìn)行重復(fù)實(shí)驗(yàn)來實(shí)現(xiàn)。只有重復(fù)實(shí)驗(yàn),才能穩(wěn)定標(biāo)準(zhǔn)差,使樣本的均數(shù)與總體保持一致。這樣,樣本的異質(zhì)性才能代表總體的異質(zhì)性,進(jìn)而確保真實(shí)地反映隨機(jī)變量的統(tǒng)計(jì)規(guī)律。

      第二,降低實(shí)驗(yàn)誤差,提高實(shí)驗(yàn)精度。誤差主要由樣本量決定,在體育科學(xué)研究中,樣本含量越小,其抽樣誤差越大,可重復(fù)性越差,檢驗(yàn)效能越低,研究結(jié)論將缺乏科學(xué)性、真實(shí)性(祁國杰等,2011)。并且個(gè)體差異是客觀存在的且抽樣誤差不可避免,因此,在特定實(shí)驗(yàn)條件下,完全有可能出現(xiàn)效果量(effect size)偏小或偏大的實(shí)驗(yàn)結(jié)果。針對此情況,研究者可以通過增加重復(fù)次數(shù)以減少實(shí)驗(yàn)分配給實(shí)驗(yàn)處理帶來的偏差,進(jìn)而使實(shí)驗(yàn)組與對照組的差異能夠準(zhǔn)確顯露出來,在正確估計(jì)實(shí)驗(yàn)誤差與明確組間差異的基礎(chǔ)上,科學(xué)地做出統(tǒng)計(jì)推斷,為結(jié)論的可重復(fù)性提供保障。據(jù)此可以得知,重復(fù)原則對于提高實(shí)驗(yàn)精度以及判斷治療效果可靠性都非常重要,并為結(jié)論可靠性提供了合理的評(píng)估指南。

      第三,穩(wěn)定實(shí)驗(yàn)結(jié)果,提高研究可重復(fù)性。要實(shí)現(xiàn)研究的效應(yīng)穩(wěn)定,即通過某個(gè)實(shí)驗(yàn)觀察到的結(jié)果在后續(xù)實(shí)驗(yàn)中仍然可以被發(fā)現(xiàn),則需要對大量被試進(jìn)行重復(fù)實(shí)驗(yàn)。由前文提到的兩點(diǎn)可知,遵循重復(fù)原則不僅減少了實(shí)驗(yàn)結(jié)果的可變性,排除偶然因素的影響,還提高了實(shí)驗(yàn)的精度,進(jìn)而精確估計(jì)其取值范圍,將隨機(jī)現(xiàn)象的規(guī)律顯現(xiàn)出來,得出科學(xué)的、真實(shí)的、規(guī)律性的結(jié)論,為總體差異檢驗(yàn)和結(jié)果的穩(wěn)定奠定了基礎(chǔ)。提示,在實(shí)驗(yàn)設(shè)計(jì)中遵循重復(fù)原則可以提高研究的可重復(fù)性,降低發(fā)生重復(fù)性危機(jī)的可能性。

      2 體育科學(xué)實(shí)驗(yàn)中違背重復(fù)原則的常見問題

      2.1 多因素實(shí)驗(yàn)設(shè)計(jì)中某種處理缺乏必要重復(fù)

      多因素實(shí)驗(yàn)設(shè)計(jì)有被試內(nèi)設(shè)計(jì)(可也稱重復(fù)測量設(shè)計(jì))和被試間設(shè)計(jì)兩種形式。重復(fù)測量設(shè)計(jì)是在不同條件、不同時(shí)間、對稱部位、鄰近區(qū)域等對同一受試對象進(jìn)行重復(fù)觀測獲得指標(biāo)數(shù)據(jù)的一種實(shí)驗(yàn)設(shè)計(jì)類型(游永豪等,2010),被試在重復(fù)測量因素上可以重復(fù)實(shí)驗(yàn),能夠節(jié)省樣本量。被試間設(shè)計(jì)中由于被試只接受一種實(shí)驗(yàn)處理,則需要更大樣本量。

      根據(jù)重復(fù)原則,在每一個(gè)實(shí)驗(yàn)處理中都需要足夠的重復(fù)次數(shù)。采用完全被試間設(shè)計(jì)又存在多個(gè)因素時(shí),就會(huì)產(chǎn)生多種實(shí)驗(yàn)處理。此時(shí),雖然整個(gè)研究的樣本量很大,但是在具體的實(shí)驗(yàn)單元中可能存在重復(fù)不足的現(xiàn)象。例如,對于2×2×3的完全被試間設(shè)計(jì)來說,共有12種實(shí)驗(yàn)處理方式,如果此時(shí)只有20名被試參加實(shí)驗(yàn),那么就會(huì)產(chǎn)生某種實(shí)驗(yàn)處理下只有1名被試的情況,違背重復(fù)原則。此外,一些動(dòng)物實(shí)驗(yàn)需要在運(yùn)動(dòng)后不同時(shí)間進(jìn)行取材,也可能會(huì)產(chǎn)生重復(fù)不足的現(xiàn)象。例如,某項(xiàng)研究為探討運(yùn)動(dòng)后不同時(shí)間的線粒體分裂過程,需要將大鼠分為實(shí)驗(yàn)組和運(yùn)動(dòng)組,運(yùn)動(dòng)組還需要在運(yùn)動(dòng)后即刻、6 h、12 h、24 h、48 h和72 h分別進(jìn)行6次取材;此時(shí),如果僅有16只大鼠,則每次取材的大鼠數(shù)量不足2只,那么后續(xù)運(yùn)動(dòng)干預(yù)后的各取材組就很可能出現(xiàn)樣本量不足,違背重復(fù)原則。

      綜上,進(jìn)行重復(fù)實(shí)驗(yàn)時(shí),首先要明確實(shí)驗(yàn)設(shè)計(jì)中有多少種實(shí)驗(yàn)處理方式,保證每種實(shí)驗(yàn)處理下至少有2名被試。當(dāng)然,在實(shí)際操作中進(jìn)行樣本量選取時(shí),只選取2人進(jìn)行實(shí)驗(yàn)是遠(yuǎn)遠(yuǎn)不夠的,因此,根據(jù)實(shí)驗(yàn)設(shè)計(jì)類型及其處理方式進(jìn)行相應(yīng)的重復(fù)是十分必要的。

      2.2 重復(fù)測量代替重復(fù)實(shí)驗(yàn)以及混淆實(shí)驗(yàn)分析單位導(dǎo)致偽重復(fù)

      偽重復(fù)主要指實(shí)驗(yàn)中的樣本量(實(shí)驗(yàn)重復(fù)次數(shù))小于真實(shí)樣本量(最小實(shí)驗(yàn)重復(fù)次數(shù))。換句話說,是指研究者雖然在實(shí)驗(yàn)過程中進(jìn)行了重復(fù),但并不是以實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)最小處理單位和實(shí)驗(yàn)設(shè)計(jì)等為標(biāo)準(zhǔn)進(jìn)行的科學(xué)重復(fù),主要是由研究者對于“重復(fù)”的操作性定義不清晰、最小重復(fù)次數(shù)計(jì)算方面存在困難等原因?qū)е?。Lazic等(2018)指出,46%的研究將偽重復(fù)(重復(fù)測量)誤認(rèn)為是真正的重復(fù)。例如,Serdar等(2021)指出,在動(dòng)物研究的實(shí)驗(yàn)設(shè)計(jì)中,常使用技術(shù)重復(fù)(重復(fù)測量)而不是生物重復(fù)(重復(fù)實(shí)驗(yàn)):假設(shè)一個(gè)研究小組正在調(diào)查一種治療藥物對血糖水平的影響,如果研究人員測量3只接受實(shí)際治療的小鼠和3只接受安慰劑的小鼠的血糖水平,則是一個(gè)生物學(xué)上的重復(fù),即重復(fù)實(shí)驗(yàn);如果對接受實(shí)際治療的單個(gè)小鼠的血糖水平和接受安慰劑的單個(gè)小鼠的血糖水平分別測量3次,則是技術(shù)上的重復(fù),即重復(fù)測量。兩種設(shè)計(jì)都將提供6個(gè)數(shù)據(jù)點(diǎn)來計(jì)算值,但從第二種實(shí)驗(yàn)設(shè)計(jì)獲得的值毫無意義,因?yàn)槊總€(gè)治療組只有一個(gè)樣本。綜上可知,對單個(gè)小鼠的多次測量是偽重復(fù),而對不同小鼠進(jìn)行獨(dú)立測量則是真重復(fù)。這一問題在許多科學(xué)研究中大多被低估、忽視或隱瞞。

      在體育科學(xué)實(shí)驗(yàn)研究中也是如此,一些研究缺乏代表性抽樣,通常是從相關(guān)人群中進(jìn)行非隨機(jī)抽樣。如果在統(tǒng)計(jì)模型中沒有考慮到這種非隨機(jī)抽樣,則會(huì)導(dǎo)致不確定性區(qū)間過于狹窄,其結(jié)果將難以推廣,且可重復(fù)性低(Lazic et al., 2020)。此外,還有一些研究中被試個(gè)體不具有統(tǒng)計(jì)學(xué)獨(dú)立性,樣本總量很多,但是難以推廣至總體,進(jìn)而導(dǎo)致偽重復(fù)。例如,為了探討新的體育教學(xué)方法是否優(yōu)于傳統(tǒng)體育課程,研究者僅選取了2個(gè)班級(jí)進(jìn)行干預(yù),一個(gè)班級(jí)實(shí)施新教學(xué)方法,一個(gè)班級(jí)實(shí)施傳統(tǒng)教學(xué)方法,則實(shí)質(zhì)上每種干預(yù)方式下只有1個(gè)樣本。如果實(shí)施新教學(xué)方法的班級(jí)表現(xiàn)優(yōu)于另外一個(gè)班級(jí),那么該結(jié)果不能有效展示教學(xué)方法這個(gè)變量的隨機(jī)性,因此至少需要在2個(gè)班級(jí)進(jìn)行新教學(xué)方法的實(shí)驗(yàn),同樣傳統(tǒng)的教學(xué)方法也要應(yīng)用于2個(gè)及以上班級(jí)。這提示,如果在實(shí)驗(yàn)中發(fā)生了偽重復(fù),則會(huì)影響實(shí)驗(yàn)的內(nèi)部效度和外部效度,其實(shí)驗(yàn)結(jié)果不具備推廣性。

      綜上可知,當(dāng)一個(gè)研究想對其結(jié)果進(jìn)行推廣時(shí),應(yīng)在實(shí)驗(yàn)設(shè)計(jì)階段注意對被試進(jìn)行重復(fù)實(shí)驗(yàn)而不是重復(fù)測量,另外需要注意分析單位,避免發(fā)生偽重復(fù),降低實(shí)驗(yàn)效度進(jìn)而影響實(shí)驗(yàn)結(jié)果。

      2.3 沒有科學(xué)估計(jì)樣本含量

      樣本量是科學(xué)實(shí)驗(yàn)中最關(guān)鍵的統(tǒng)計(jì)量之一,原因如下:1)一項(xiàng)研究是否真實(shí)有效,取決于樣本量的大小。2)樣本量大小在精確估計(jì)效應(yīng)大小方面起著重要的作用。3)一項(xiàng)研究是否可以重復(fù),得到類似的結(jié)果,也取決于樣本量的大小。因此,正確估計(jì)樣本含量體現(xiàn)了統(tǒng)計(jì)研究設(shè)計(jì)中的重復(fù)原則,可以降低研究中的抽樣誤差。同時(shí),足夠的樣本量也是保證實(shí)驗(yàn)研究中組間均衡性的基礎(chǔ)(張效嘉等,2016)。

      2.3.1 樣本量過小

      雖然較小的樣本產(chǎn)生漏檢的可能性較高已成為共識(shí),但許多研究人員沒有意識(shí)到較小的樣本產(chǎn)生假陽性的可能性也較高(Button et al., 2013),并且小樣本研究中的效應(yīng)大小通常偏大,因?yàn)樾颖靖菀资艿匠闃訑?shù)據(jù)中偶然變化的影響。同時(shí),當(dāng)樣本較小時(shí),大于真實(shí)效應(yīng)的研究才會(huì)被公開發(fā)表,而小于真實(shí)效應(yīng)的研究則會(huì)被丟棄,從而產(chǎn)生偏倚(Ioannidis, 2005)。這樣的結(jié)果雖然容易發(fā)表,但會(huì)降低研究的可重復(fù)性,造成重復(fù)性危機(jī)。在體育科學(xué)研究領(lǐng)域中,有許多樣本量過小的案例。

      例如,某研究探討核心力量對老年人跌倒的影響,將老年人隨機(jī)分為核心力量練習(xí)組和對照組,每組被試僅有9名。若根據(jù)文章內(nèi)的統(tǒng)計(jì)量將效果量設(shè)置為0.5,設(shè)置為0.05,統(tǒng)計(jì)功效為0.8,則每組至少需要34人;如果將效果量設(shè)置為大效果量0.8,此時(shí)每組也應(yīng)至少需要15人。再如,某研究選擇10位慢性心力衰竭患者,隨機(jī)分成2組,每組5人,探討用心肺運(yùn)動(dòng)實(shí)驗(yàn)指導(dǎo)制定個(gè)體化運(yùn)動(dòng)處方對慢性心力衰竭患者康復(fù)的療效。該研究采用的是成組設(shè)計(jì),樣本量較小且沒有推算過程,雖然結(jié)果顯示兩組差異顯著,但計(jì)算該實(shí)驗(yàn)的檢驗(yàn)效能后發(fā)現(xiàn),不管是單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn),檢驗(yàn)功效都很低,即該實(shí)驗(yàn)可能犯了Ⅱ型錯(cuò)誤。這提示,過小的樣本量雖然可能產(chǎn)生較大的效果量,有利于公開發(fā)表,但這個(gè)結(jié)果并不容易重復(fù),實(shí)驗(yàn)的效果量虛高以及研究結(jié)果呈現(xiàn)假陽性的可能性更大。

      比較極端的例子還有一些研究者使用1名被試開展實(shí)驗(yàn)。例如,某項(xiàng)比較3種不同品牌籃球鞋足跟部壓縮性能的研究,隨機(jī)選取1名籃球?qū)I(yè)的大學(xué)生穿著3種品牌籃球鞋,測試其在正常步行速度下的足底壓力分布情況,結(jié)合材料力學(xué)試驗(yàn)機(jī)對3種不同類型的鞋底材料進(jìn)行壓縮實(shí)驗(yàn),并對相關(guān)數(shù)據(jù)進(jìn)行分析。該研究完全忽略了個(gè)體之間的差異性,違背重復(fù)原則,其結(jié)論只適用于個(gè)案而無法推廣至大眾。

      綜上所述,即使某些研究在選取被試時(shí)遵循了隨機(jī)原則,但不可否認(rèn)研究者并未對樣本容量進(jìn)行考量,違背重復(fù)原則。實(shí)驗(yàn)法的一個(gè)顯著特點(diǎn)就是精確性,但由于個(gè)體差異的存在,必然導(dǎo)致實(shí)驗(yàn)結(jié)果有一定的誤差,因此研究者必須堅(jiān)持重復(fù)原則,在大量重復(fù)的實(shí)驗(yàn)中,降低個(gè)體差異所帶來的實(shí)驗(yàn)誤差,保證實(shí)驗(yàn)的精度。

      2.3.2 樣本量過大

      檢驗(yàn)功效與樣本量的大小有關(guān),樣本量越大發(fā)現(xiàn)陽性結(jié)果的概率越高(Cohen, 1992)。但在現(xiàn)實(shí)研究過程中,過大的樣本量則可能導(dǎo)致人力、物力資源的浪費(fèi)。例如,在功能性磁共振成像研究領(lǐng)域,即使是樣本量相對較小的研究也可能花費(fèi)數(shù)萬美元,大部分地區(qū)的資助系統(tǒng)通常無法實(shí)現(xiàn)大樣本(>100)的常規(guī)采集(Mumford et al., 2008)。并且在體育科學(xué)領(lǐng)域,如果研究對象為高水平運(yùn)動(dòng)員,則可選取的被試范圍較小,同樣無法實(shí)現(xiàn)大樣本。此外,大樣本量雖然容易產(chǎn)生顯著差異,但如果不提高實(shí)驗(yàn)的檢驗(yàn)功效,則容易產(chǎn)生假陽性結(jié)果。在許多情況下,大樣本量的研究會(huì)產(chǎn)生系統(tǒng)性偏倚或缺失大量信息,甚至缺失關(guān)鍵變量,進(jìn)而放大由其他研究設(shè)計(jì)問題引起的偏差。

      Celik等(2014)提出,如果有兩項(xiàng)隨機(jī)臨床實(shí)驗(yàn)比較了肺炎的新療法,這兩項(xiàng)實(shí)驗(yàn)都產(chǎn)生了具有統(tǒng)計(jì)學(xué)意義的結(jié)果。一項(xiàng)實(shí)驗(yàn)的研究對象是150名患者,另一項(xiàng)實(shí)驗(yàn)的研究對象則是15 000名患者。在二者都具有統(tǒng)計(jì)學(xué)意義的前提下,應(yīng)該首選哪種治療方法?許多人可能更傾向于基于大樣本量的實(shí)驗(yàn)研究結(jié)果,然而,當(dāng)樣本量足夠大時(shí),產(chǎn)生顯著性差異并不是難事。換句話說,雖然基于大樣本量的實(shí)驗(yàn)有許多優(yōu)點(diǎn),但其觀察到的顯著差異并不能說明該治療方法效果極好。因?yàn)椋诤愣ǖ木_值水平下,個(gè)體患者更有可能從小型實(shí)驗(yàn)所得結(jié)果中受益。在大樣本量中確定的治療效果雖然具有統(tǒng)計(jì)學(xué)意義,但在個(gè)人層面上幾乎是微不足道的。因此,在處理大數(shù)據(jù)集時(shí),應(yīng)較少關(guān)注值的大小,而更多地關(guān)注效果量的大小,后者可以幫助確定發(fā)現(xiàn)的差異是否有意義(Bakker et al., 2019)。同樣,在體育科學(xué)領(lǐng)域也存在選取樣本量過大的案例,例如,某研究采用2×3的完全被試內(nèi)設(shè)計(jì),探討振動(dòng)刺激對肌肉激活的影響,根據(jù)該研究中的相關(guān)指標(biāo)(中等效果量為0.25,=0.05,統(tǒng)計(jì)功效為0.8)進(jìn)行計(jì)算后發(fā)現(xiàn)樣本量應(yīng)為19人,而該研究選取46人則會(huì)導(dǎo)致研究成本大大提高,也浪費(fèi)資源。

      綜上,在實(shí)驗(yàn)設(shè)計(jì)中,過小的樣本量容易產(chǎn)生假陽性的結(jié)果,雖然有利于公開發(fā)表,但可重復(fù)性低并且結(jié)果不具有推廣性;過大的樣本量雖易產(chǎn)生顯著性差異,但會(huì)浪費(fèi)大量的人力物力,且實(shí)際效果可能微不足道。此外,現(xiàn)有研究大多關(guān)注總樣本量的大小,忽視實(shí)驗(yàn)中每組被試的數(shù)量,容易導(dǎo)致總樣本量看似足夠,但實(shí)際每組被試數(shù)目不足以實(shí)現(xiàn)每種處理方式的重復(fù),提示未來研究要根據(jù)實(shí)際的實(shí)驗(yàn)設(shè)計(jì)科學(xué)計(jì)算樣本量。

      3 體育科學(xué)實(shí)驗(yàn)設(shè)計(jì)中如何選擇樣本量

      一般實(shí)驗(yàn)過程中,初始條件與實(shí)驗(yàn)條件均難免控制得完全一致,因此重復(fù)次數(shù)越多,未必誤差就越小,即對于實(shí)驗(yàn)的重復(fù)次數(shù)不能一味地追求多,而需要根據(jù)實(shí)驗(yàn)要求和實(shí)驗(yàn)條件進(jìn)行判斷,結(jié)合具體情況做出合理的估計(jì)。例如,若個(gè)體之間差異較大,需要進(jìn)行重復(fù)的次數(shù)就多;反之,若差異較小,重復(fù)次數(shù)也應(yīng)該相應(yīng)地減少。在進(jìn)行相關(guān)實(shí)驗(yàn)設(shè)計(jì)時(shí),不可能完成無數(shù)次重復(fù)驗(yàn)證,但是不做重復(fù)或僅重復(fù)2~3次,其可靠性是值得懷疑的。因此,本文結(jié)合前人研究以及相關(guān)案例,對于體育科學(xué)實(shí)驗(yàn)設(shè)計(jì)中如何遵循重復(fù)原則提出以下建議。

      3.1 厘清實(shí)驗(yàn)處理單位,實(shí)現(xiàn)必要重復(fù)

      首先,厘清實(shí)驗(yàn)設(shè)計(jì)中的實(shí)驗(yàn)處理單位對于遵循重復(fù)原則是必要的,這里的實(shí)驗(yàn)處理單位指的是實(shí)驗(yàn)中最小的獨(dú)立部分。實(shí)驗(yàn)處理單位通常是各種實(shí)驗(yàn)處理的交互,需要清楚每個(gè)實(shí)驗(yàn)有多少種處理方式,實(shí)驗(yàn)處理單位越多,需要的樣本量越大。析因設(shè)計(jì)是多因素多水平全面組合的一種設(shè)計(jì)方法,析因設(shè)計(jì)中最簡單就是2×2的析因?qū)嶒?yàn),是指2個(gè)研究因素分別有2個(gè)水平,一共構(gòu)成4個(gè)實(shí)驗(yàn)處理單位;再拓展一下,如2×3×4則表示3個(gè)研究因素分別含有2、3和4個(gè)水平,一共構(gòu)成24個(gè)實(shí)驗(yàn)處理單位。析因設(shè)計(jì)的優(yōu)點(diǎn)是能夠全面地分析每一種組合,但缺點(diǎn)也很明顯,如果因素和水平增加,則實(shí)驗(yàn)實(shí)施的難度會(huì)越來越大,實(shí)驗(yàn)消耗的物力精力也均較大。各實(shí)驗(yàn)條件下都應(yīng)該開展足夠的重復(fù)實(shí)驗(yàn),各實(shí)驗(yàn)因素需同時(shí)施加,因此需要厘清實(shí)驗(yàn)處理單位,以更好地遵循重復(fù)原則。

      3.2 確定實(shí)驗(yàn)分析單位,避免偽重復(fù)

      實(shí)驗(yàn)分析單位是指在進(jìn)行實(shí)驗(yàn)數(shù)據(jù)分析時(shí)用于比較結(jié)果差異的最小計(jì)量單位。例如,在探討不同教學(xué)方式效果時(shí),要明確此時(shí)最小的實(shí)驗(yàn)分析單位是班級(jí)或?qū)W校,而不是學(xué)生個(gè)體,所以在進(jìn)行重復(fù)時(shí)應(yīng)對班級(jí)或?qū)W校進(jìn)行重復(fù),這樣才能得到真實(shí)的實(shí)驗(yàn)結(jié)果。例如,Chen等(2013)為探討建構(gòu)主義課堂對課堂中體育活動(dòng)的影響,隨機(jī)選取30所小學(xué)的1 043個(gè)班級(jí),以學(xué)校為單位進(jìn)行干預(yù),這些學(xué)校被隨機(jī)分配到試驗(yàn)性課程組(=15)或控制性課程組(=15),最終得出建構(gòu)主義教學(xué)方法可以促進(jìn)學(xué)生的知識(shí)學(xué)習(xí),而不會(huì)減少課堂上的體育活動(dòng)的結(jié)論。

      3.3 確定最小重復(fù)次數(shù)

      在重復(fù)原則相關(guān)研究中,重復(fù)次數(shù)指的是重復(fù)實(shí)驗(yàn)的次數(shù),本質(zhì)上與樣本量相關(guān)。如前文所述,確定最小重復(fù)次數(shù)在研究過程中是必要的。但在不同的科學(xué)領(lǐng)域,最小重復(fù)次數(shù)并不相同。趙鼎新(2015)指出,某一類自然或社會(huì)現(xiàn)象所呈現(xiàn)的各種規(guī)律的背后總是存在著某種總體性規(guī)律,總體性規(guī)律一旦被揭示,原來已知的各種規(guī)律就會(huì)成為這種總體性規(guī)律的具體表現(xiàn)形式或組成部分。但對于社會(huì)科學(xué)來說,其研究對象是人,在常用的社會(huì)科學(xué)方法中,訪談?wù){(diào)查時(shí)訪談?wù)吆褪茉L者的特征,以及兩者之間的互動(dòng)方式都難以得到有效的控制;采用觀察法所觀察到的往往是研究者的感官能夠和愿意接受的信號(hào);問卷調(diào)查最多只“控制”了問卷設(shè)計(jì)者注意到的和想控制的“變量”,并且調(diào)查結(jié)果會(huì)顯著地受到提問方式的影響;實(shí)驗(yàn)法則因?yàn)閭€(gè)體之間的差異性而難以得出普遍適用的結(jié)論。因此,對于自然科學(xué)來說,有些研究只要得到結(jié)論,則其具有普適性,不需要過多的重復(fù),如太陽東升西落;而在社會(huì)科學(xué)中,有必要計(jì)算重復(fù)實(shí)驗(yàn)的次數(shù)來提高發(fā)現(xiàn)總體規(guī)律的能力,從而減少Ⅱ型錯(cuò)誤。

      對于重復(fù)的次數(shù)是否有一個(gè)標(biāo)準(zhǔn)?在生物學(xué)領(lǐng)域,大多數(shù)研究人員都選擇了重復(fù)3次,原因是在重復(fù)3次的情況下,才能得到除了標(biāo)準(zhǔn)差之外的其他統(tǒng)計(jì)量,并且這個(gè)重復(fù)次數(shù)還取決于樣本之間的標(biāo)準(zhǔn)偏差、效應(yīng)大小、潛在生物學(xué)的噪聲以及所使用的特定統(tǒng)計(jì)分析方法(Naegle et al., 2015)。另一種確定實(shí)驗(yàn)重復(fù)次數(shù)的方法是使用操作特性曲線,操作特性曲線是一種圖表,它根據(jù)反映零假設(shè)為假時(shí)的參數(shù)來計(jì)算產(chǎn)生Ⅱ型錯(cuò)誤的可能性(Juristoetal., 2001)。操作特性曲線可作為實(shí)驗(yàn)者決定重復(fù)次數(shù)的指南,以確保設(shè)計(jì)對備選方案之間的潛在重要差異敏感,并確保在分析過程中正確拒絕無效假設(shè)。簡而言之,操作特性曲線可用于計(jì)算實(shí)驗(yàn)中的重復(fù)次數(shù),以提高統(tǒng)計(jì)能力。

      Juristo等(2001)通過操作特性曲線以及相關(guān)案例得出,對于單因素設(shè)計(jì)的實(shí)驗(yàn)來說,至少需要6次重復(fù)才能使得實(shí)驗(yàn)結(jié)果穩(wěn)定;對于雙因素設(shè)計(jì)的實(shí)驗(yàn)來說,如果在估計(jì)時(shí)間的標(biāo)準(zhǔn)偏差時(shí)沒有出現(xiàn)嚴(yán)重錯(cuò)誤,則4次重復(fù)足以穩(wěn)定實(shí)驗(yàn)結(jié)果。其他設(shè)計(jì)類型的實(shí)驗(yàn)?zāi)壳斑€沒有得到相關(guān)研究的驗(yàn)證,提示未來可以根據(jù)實(shí)驗(yàn)類型對最小重復(fù)次數(shù)進(jìn)行科學(xué)計(jì)算與推論。此外,雖然上述研究針對不同實(shí)驗(yàn)類型得出了相應(yīng)的重復(fù)次數(shù),但在實(shí)踐中,重復(fù)次數(shù)往往要高于這個(gè)數(shù)量才能保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性,提高其可重復(fù)性。因此,在實(shí)際研究中,需要使用G*Power、PASS等軟件進(jìn)行樣本量的科學(xué)估算,根據(jù)實(shí)驗(yàn)類型及樣本量的大小推算重復(fù)次數(shù)。

      3.4 科學(xué)估算樣本量

      樣本量的影響因素有很多,如實(shí)驗(yàn)問題、實(shí)驗(yàn)?zāi)繕?biāo)、檢驗(yàn)效能、檢驗(yàn)水準(zhǔn)、單雙側(cè)檢驗(yàn)、實(shí)驗(yàn)設(shè)計(jì)類型、預(yù)期效果量、置信區(qū)間、總體個(gè)體差異等,這就需要我們盡可能全面地對其進(jìn)行估算。Abt等(2020)為了解估算樣本量的方法,對中3年的研究進(jìn)行了數(shù)據(jù)分析,結(jié)果顯示,120篇研究中只有12篇包含基于檢驗(yàn)功效的先驗(yàn)樣本大小估計(jì),1篇使用精度方法估計(jì)樣本大小,其他研究均沒有對樣本量的計(jì)算過程進(jìn)行說明。提示,樣本量估算還沒有得到體育科學(xué)各領(lǐng)域?qū)W者的廣泛重視。對樣本量的估算是研究準(zhǔn)備階段的重要組成部分,不同的研究問題、研究對象、研究設(shè)計(jì)及數(shù)據(jù)處理方法對樣本量的要求不同,樣本量是否適宜對研究的質(zhì)量有重要影響。

      足夠且適當(dāng)?shù)臉颖玖坎拍鼙WC重復(fù)原則的要求,進(jìn)而發(fā)現(xiàn)真實(shí)存在的實(shí)驗(yàn)效益,如果研究人員不能正確估計(jì)樣本量,只是一味地增加樣本量,那么該研究產(chǎn)生假陽性結(jié)果的可能性就會(huì)增加。此外,為了更好地提高可重復(fù)性,也應(yīng)對重復(fù)研究時(shí)所選取的樣本量進(jìn)行科學(xué)的計(jì)算,而不是完全與被重復(fù)研究樣本量一致?,F(xiàn)階段,為應(yīng)對可重復(fù)性危機(jī),各領(lǐng)域存在一些爭論,但大多數(shù)學(xué)者都提出科學(xué)估算樣本量是一個(gè)重要的應(yīng)對措施(劉佳等,2018)。當(dāng)?shù)玫疥幮越Y(jié)論時(shí)(>0.05),需要關(guān)心檢驗(yàn)功效的大小,即實(shí)驗(yàn)產(chǎn)生陰性結(jié)果的原因是檢驗(yàn)功效過低還是比較的兩組之間差異確實(shí)不顯著。如果此時(shí)檢驗(yàn)效能較高(>75%),陰性結(jié)果可解釋為后者;反之,如果檢驗(yàn)效能低于75%,則需適當(dāng)增加樣本含量后再作分析。因此,早期考慮樣本含量可以有效檢驗(yàn)實(shí)驗(yàn)的可行性,進(jìn)行重復(fù)研究時(shí)估算樣本含量可以提高研究的可重復(fù)性。

      目前,根據(jù)實(shí)驗(yàn)?zāi)康牟煌?,估算樣本量的方法主要有兩種。為了拒絕零假設(shè)時(shí),可以選擇基于統(tǒng)計(jì)功效估算樣本量的方法。但對于某些實(shí)驗(yàn),尤其是對臨床醫(yī)學(xué)領(lǐng)域的優(yōu)效性實(shí)驗(yàn)、等效性實(shí)驗(yàn)以及非劣效性實(shí)驗(yàn)來說,僅僅得出干預(yù)結(jié)果具有顯著性是遠(yuǎn)遠(yuǎn)不夠的,還需要給出臨界值,在正負(fù)臨界值之間[-Δ、Δ]為等效性;95%置信區(qū)間的下限大于預(yù)先設(shè)定的臨界值Δ,則為優(yōu)效性檢驗(yàn);95%置信區(qū)間的下限大于負(fù)的臨界值(-Δ),為非劣效性檢驗(yàn)(黃欽等,2007)。因此,為了使實(shí)驗(yàn)結(jié)果更精準(zhǔn),厘清干預(yù)條件在何種情況下才為顯著,要選擇基于精度估算樣本量的方法。二者的使用方法和所得結(jié)果均有差異,本文將通過一個(gè)案例對兩種方法進(jìn)行詳細(xì)介紹:假設(shè)一位研究人員為探討一種新藥物對抑郁癥的影響,將抑郁癥患者隨機(jī)分為治療組和對照組,治療組接受新藥物的干預(yù)并保持日常的活動(dòng),對照組則接受安慰劑代替活性藥物并保持日常的活動(dòng)。根據(jù)之前的調(diào)查,研究人員預(yù)估組內(nèi)標(biāo)準(zhǔn)差(假設(shè)兩組的標(biāo)準(zhǔn)差相等)為20,=0.05,區(qū)間估計(jì)的置信水平為95%,那么如何通過兩種方法科學(xué)估算該實(shí)驗(yàn)所需樣本量?

      3.4.1 依據(jù)統(tǒng)計(jì)功效估算

      為應(yīng)對由于樣本量不合適而造成的研究結(jié)果可重復(fù)性低的問題,目前常采用G*Power等軟件計(jì)算合適的樣本數(shù)量。在假設(shè)檢驗(yàn)中,既定的統(tǒng)計(jì)模型包含4個(gè)參數(shù):值、效果量、樣本量和統(tǒng)計(jì)功效。當(dāng)其中3個(gè)參數(shù)確定之后,可計(jì)算出第4個(gè)參數(shù)的值。通常設(shè)定=0.05,統(tǒng)計(jì)功效為0.8(更好的標(biāo)準(zhǔn)是0.9或0.95),效果量的默認(rèn)值為中等效果量,可作為沒有特別依據(jù)時(shí)設(shè)定效果量的參考,但如果有前人實(shí)證研究或元分析的結(jié)果,則可據(jù)此計(jì)算得出(張力為等,2021)。在使用軟件時(shí),要根據(jù)統(tǒng)計(jì)檢驗(yàn)類型進(jìn)行檢驗(yàn)方法選擇,這就需要我們明確自己的實(shí)驗(yàn)設(shè)計(jì)類型,厘清最小實(shí)驗(yàn)單元。本文以G*Power為例,依據(jù)檢驗(yàn)功效估算樣本量的具體步驟如下:1)確定設(shè)計(jì)方法;2)確定資料類型;3)考慮統(tǒng)計(jì)方法;4)確定基本參數(shù);5)計(jì)算樣本含量;6)校正樣本含量。

      例如,為比較兩組均數(shù)之間的差異,首先應(yīng)在G*Power中選擇獨(dú)立樣本檢驗(yàn),將值設(shè)為0.05,統(tǒng)計(jì)功效設(shè)置為0.8,效果量選擇中等效果量0.5,所得結(jié)果如圖1所示,即要想滿足檢驗(yàn)功效為0.8,該實(shí)驗(yàn)每組樣本量至少為64人,若想要達(dá)到更好的檢驗(yàn)功效(如0.95),則每組樣本量至少為105人。提示,一項(xiàng)研究想要得到更大的統(tǒng)計(jì)功效,有必要增加相應(yīng)的樣本量。此外,如果假設(shè)有明確的方向性,可以采用單尾檢驗(yàn),如此,上述案例中在進(jìn)行單尾檢驗(yàn)時(shí),實(shí)驗(yàn)每組的樣本量至少為51人,降低了所需樣本量。

      圖1 通過G*Power估算的樣本量

      Figure 1.Sample Size Estimated by G*Power

      3.4.2 依據(jù)參數(shù)精度估算

      Abt等(2020)提出,科學(xué)估算樣本量不能只考慮值、效果量和統(tǒng)計(jì)功效,還需要考慮實(shí)驗(yàn)的精度。該作者進(jìn)一步提出了根據(jù)精度計(jì)算樣本量的做法,即參數(shù)精度估計(jì)法(accuracy in parameter estimation, AIPE),與傳統(tǒng)基于功效的樣本量估計(jì)不同,AIPE方法將樣本量的估計(jì)建立在一定置信區(qū)間寬度的基礎(chǔ)上。其目標(biāo)不是獲取具有統(tǒng)計(jì)意義的參數(shù)估計(jì)值,而是為了準(zhǔn)確估計(jì)相應(yīng)總體參數(shù)值(Kelley et al., 2003),該方法也得到了的認(rèn)可。具體來說,精度通常用置信區(qū)間的半寬度來衡量,置信區(qū)間可以表示為標(biāo)準(zhǔn)偏差的比例或因變量的度量,其寬度與樣本大小成比例(Cumming, 2014)。精度的高低決定著檢驗(yàn)力的大小,即置信區(qū)間越窄,得到的點(diǎn)估計(jì)越有可能準(zhǔn)確地表示真實(shí)的總體值。因此,根據(jù)精度去估算相應(yīng)的樣本量是有必要的。

      對于上述案例,在使用AIPE方法的情況下,研究人員需要估計(jì)期望的置信區(qū)間寬度或半寬度。為估算合適的樣本量,使用PASS軟件,選擇置信區(qū)間估算兩組平均值差異的方法,將檢驗(yàn)功效設(shè)置為0.8,置信區(qū)間寬度取值為5,此時(shí)每組的樣本量至少為54人(圖2),若將置信區(qū)間寬度取值為2.5,則需要的樣本量將增加4倍,每組至少211人(圖3)。提示,在使用精度估算樣本量時(shí),置信區(qū)間的寬窄起著重要的作用,置信區(qū)間的寬度越窄,所需樣本量越大,實(shí)驗(yàn)結(jié)果越精確。

      很明顯,這兩種方法從一開始就不同,并且在同一研究中可以產(chǎn)生不同的樣本大小。研究者需要根據(jù)研究目的科學(xué)合理規(guī)劃樣本量。

      3.4.3 進(jìn)行重復(fù)研究時(shí)估算樣本量

      為了提高研究的可重復(fù)性,不僅要在實(shí)驗(yàn)設(shè)計(jì)時(shí)科學(xué)估算樣本量,在進(jìn)行重復(fù)研究時(shí)也應(yīng)該根據(jù)原始研究的值計(jì)算實(shí)驗(yàn)的復(fù)制概率或預(yù)測能力,進(jìn)而估算最佳樣本量。Zwet等(2022)匯總了Cochrane Collaboration數(shù)據(jù)庫中4萬項(xiàng)實(shí)驗(yàn)的數(shù)據(jù)信息,發(fā)現(xiàn)若要重復(fù)=0.05的輕微顯著性結(jié)果,概率小于30%;在=0.005時(shí),重復(fù)該結(jié)果的概率也只有50%。該研究還計(jì)算了估計(jì)效果方向正確的概率,結(jié)果顯示,當(dāng)=0.05時(shí),重復(fù)時(shí)方向正確的概率為93%;當(dāng)=0.005時(shí),則重復(fù)時(shí)方向正確的概率為99%。最后,該研究根據(jù)原始研究的值計(jì)算了進(jìn)行重復(fù)研究時(shí)所需的樣本量,以獲得某些特定的檢驗(yàn)功效,結(jié)果顯示,重復(fù)=0.05的結(jié)果時(shí),樣本量應(yīng)是原始研究樣本量的16倍才能達(dá)到80%的功效,而=0.005時(shí),樣本量應(yīng)是原始研究樣本量的72倍。

      綜上可知,不同的研究有不同的理想效果量,也有各自適宜的樣本容量大小,所以樣本量并不以絕對的數(shù)量作為評(píng)判標(biāo)準(zhǔn)。在估算樣本含量時(shí),首先要確定實(shí)驗(yàn)設(shè)計(jì)方案,在其基礎(chǔ)上進(jìn)行估算;其次要確定資料類型(計(jì)量、計(jì)數(shù)等)以及數(shù)據(jù)分析時(shí)要使用的統(tǒng)計(jì)方法(單因素分析、相關(guān)與回歸、多因素分析等);最后要確定基本參數(shù),綜合考慮值、效果量、統(tǒng)計(jì)功效以及精度(置信區(qū)間寬度)。在進(jìn)行重復(fù)研究時(shí),應(yīng)根據(jù)原始研究的值以及想要達(dá)到的統(tǒng)計(jì)功效值進(jìn)行樣本量的估算,從而提高研究的可重復(fù)性。

      圖2 置信區(qū)間寬度為5時(shí)所需樣本量

      Figure 2.The Sample Size at Confidence Interval Width of 5

      圖3 置信區(qū)間寬度為2.5時(shí)所需樣本量

      Figure 3.The Sample Size at Confidence Interval Width of 2.5

      4 小結(jié)

      近些年來科學(xué)界的可重復(fù)危機(jī)提示我們,應(yīng)注重研究的可重復(fù)性,提高科學(xué)研究的真實(shí)有效性。為應(yīng)對可重復(fù)性危機(jī),科學(xué)界發(fā)起了開放科學(xué)(open science)的革命,提出提前注冊、開放數(shù)據(jù)庫等策略。作者認(rèn)為論文的質(zhì)量是保證科學(xué)研究可重復(fù)性的第一步,而這其中最重要的一環(huán)便是要遵循重復(fù)原則。本文從重復(fù)原則的角度回顧了體育科學(xué)實(shí)驗(yàn)中的樣本量問題,并提出規(guī)范性的建議,以期體育領(lǐng)域?qū)W者在未來的實(shí)驗(yàn)中科學(xué)估算樣本量、更好地遵循實(shí)驗(yàn)的重復(fù)原則、確保研究的科學(xué)有效性,提高實(shí)驗(yàn)的精度,進(jìn)而提高研究的可重復(fù)性。

      何華青,吳彤,2008.實(shí)驗(yàn)的可重復(fù)性研究:新實(shí)驗(yàn)主義與科學(xué)知識(shí)社會(huì)學(xué)比較[J].自然辯證法通訊,30(4):42-48,111.

      胡傳鵬,王非,過繼成思,等,2016.心理學(xué)研究中的可重復(fù)性問題:從危機(jī)到契機(jī)[J].心理科學(xué)進(jìn)展,24(9):1504-1518.

      胡良平,劉惠剛,李子建,2004.醫(yī)學(xué)論文中統(tǒng)計(jì)分析錯(cuò)誤辨析與釋疑(16):實(shí)驗(yàn)設(shè)計(jì)原則的正確把握[J].中華醫(yī)學(xué)雜志,84(16):91-93..

      黃欽,趙明,2007.對臨床試驗(yàn)統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)中非劣效、等效和優(yōu)效性設(shè)計(jì)的認(rèn)識(shí)[J].中國臨床藥理學(xué)雜志,23(1):63-67.

      劉佳,霍涌泉,陳文博,等,2018.心理學(xué)研究的可重復(fù)性“危機(jī)”:一些積極應(yīng)對策略[J].心理學(xué)探新,38(1):86-90.

      柳偉偉,胡良平,賈元杰,等,2010.實(shí)驗(yàn)設(shè)計(jì)中的重復(fù)原則[J].藥學(xué)服務(wù)與研究,10(5):330-334.

      祁國杰,游永豪,溫愛玲,2011.實(shí)驗(yàn)設(shè)計(jì)在體育科學(xué)中應(yīng)用的現(xiàn)狀與評(píng)價(jià)[J].體育科學(xué),31(3):81-86.

      王琪,胡良平,毛瑋,等,2010.如何把握實(shí)驗(yàn)設(shè)計(jì)的隨機(jī)原則[J].藥學(xué)服務(wù)與研究,10(3):171-174.

      游永豪,藺新茂,羅利華,2010.幾種多因素實(shí)驗(yàn)設(shè)計(jì)及統(tǒng)計(jì)分析方法在體育科研中應(yīng)用[J].北京體育大學(xué)學(xué)報(bào),33(8):75-78.

      張力為,彭凡,2021.體育科學(xué)如何應(yīng)對可重復(fù)性危機(jī)?[J].體育學(xué)研究,35(6):1-11.

      張效嘉,胡良平,2016.精神衛(wèi)生科研如何嚴(yán)格遵守試驗(yàn)設(shè)計(jì)四原則之重復(fù)原則[J].四川精神衛(wèi)生,29(4):303-306.

      趙鼎新,2015.社會(huì)科學(xué)研究的困境:從與自然科學(xué)的區(qū)別談起[J].社會(huì)學(xué)評(píng)論,3(4):3-18.

      ABT G, BOREHAM C, DAVISON G, et al., 2020 Power, precision, and sample size estimation in sport and exercise science research [J]. J Sports Sci, 38(17): 1933-1935.

      AYER V, PIETSCH C, VOMPRAS J, et al., 2017. Conquaire: Towards an architecture supporting continuous quality control to ensure reproducibility of research[J]. D-Lib Magazine, 23(1/2).

      BAKER M, 2016. Reproducibility crisis[J]. Nature, 533(26): 353-366.

      BAKKER A, CAI J, ENGLISH L, et al., 2019. Beyond small, medium, or large: Points of consideration when interpreting effect sizes [J]. Ed. Studies Math, 102(1): 1-8.

      BUTTON K S, IOANNIDIS J, MOKRYSZ C, et al., 2013. Power failure: Why small sample size undermines the reliability of neuroscience[J]. NatRevNeurosci, 14(5): 365-376.

      CELIK S, YAZICI Y, YAZICI H, 2014. Are sample sizes of randomized clinical trials in rheumatoid arthritis too large?[J]. EurJClinInves, 44(11): 1034-1044.

      CHEN A, MARTIN R, SUN H, et al., 2013. Is in-class physical activity at risk in constructivist physical education?[J]. ResQuarExercSport, 78(5): 500-509.

      COHEN J, 1992. A power primer[J]. Tutor Quant Meth Psychol, 3(2):79-79.

      CUMMING G, 2014. The new statistics: Why and how [J]. PsycholSci, 25(1): 7-29.

      IOANNIDIS J P A, 2005. Why most published research findings are false[J]. PLoSMed, 2(8): e124.

      JURISTO N, MORENO A M, 2001. How many times should an experiment be replicated?[M]//Basics of Software Engineering Experimentation. Boston, Springer: 337-346.

      KELLEY K, MAXWELL S E, RAUSCH J R, 2003. Obtaining power or obtaining precision: Delineating methods of sample-size planning[J]. EvalHealProfess, 26(3): 258-287.

      LAZIC S E, CLARKE-WILLIAMS C J, MUNAFò M R, 2018. What exactly is ‘N’in cell culture and animal experiments?[J]. PLoSBiol, 16(4): e2005282.

      LAZIC S E, MELLOR J R, ASHBY M C, et al., 2020. A Bayesian predictive approach for dealing with pseudoreplication[J]. SciRep, 10(1): 1-10.

      MUMFORD J A, NICHOLS T E, 2008. Power calculation for group fMRI studies accounting for arbitrary design and temporal autocorrelation[J]. Neuroimage, 39(1): 261-268.

      NAEGLE K, GOUGH N R, YAFFE M B, 2015. Criteria for biological reproducibility: What does “n” mean?[J]. SciSigna, 8(371): fs7-fs7.

      NOSEK B A, KUHLMANN T, STIEGER S, 2015. Estimating the reproducibility of psychological science[J]. Science, 349(6251): aac4716.

      SCHWEIZER G, FURLEY P, 2016. Reproducible research in sport and exercise psychology: The role of sample sizes[J]. Psychol Sport Exer, 100(23): 114-122.

      SERDAR C C, Cihan M, Yücel D, et al., 2021. Sample size, power and effect size revisited: Simplified and practical approaches in pre-clinical, clinical and laboratory studies[J]. BiochemMedica, 31(1): 27-53.

      ZWET E W V, GOODMAN S N, 2022. How large should the next study be? Predictive power and sample size requirements for replication studies[J]. Statistics Med, 41(16): 3090-3101.

      Examination of Sample Size in Experimental Designs of Sports Sciences Based on Replication Principle

      ZHANG Liancheng,LIU Jie,LYU Jiayu,GAO Shuqing

      Replication principle is one fundamental principle of experimental design, and it is also a common means for researchers to control the individual differences of experimental subjects. Following the replication principle can enablefewer experimental errors, higher experimental precision, higher research validity and replicability. Major problems that violate the replicationprinciple of experimental studiesin the field ofsports science are: lack of necessary replications of a certain treatment in a multi-factor experimental design, pseudoreplication caused byrepeated measuresrather than experiments, pseudoreplicationcaused by confusion of experimental analysis units, and no scientific estimation of sample size. These problemshave had a seriousimpacton experiment integrity and resulted in concerns over the reproducibility of experimental results. Researchers should attach importance tothe adherence to the replication principle and to a reasonable sample sizein order to increase the replicability of sports science experiments. In line with the replication principle, emphasis should be put on four issues in experimental studiesof sports sciences: 1) Clarify the minimum unit of experimental treatment; 2) Determine the experimental analysis unit to avoid pseudoreplication; 3) Determine the minimum amount of replications; 4) Perform sample sizeestimationsscientifically, consider precision and other factorsbesidesvalue, effect size and statistical power.

      1000-677X(2023)01-0090-08

      10.16469/j.css.202301010

      2022-11-10;

      2023-01-04

      張連成(1981-),男,教授,博士,研究方向?yàn)檫\(yùn)動(dòng)心理學(xué),E-mail: zlc-hhht@163.com。

      G804.8

      A

      猜你喜歡
      樣本量實(shí)驗(yàn)設(shè)計(jì)原則
      醫(yī)學(xué)研究中樣本量的選擇
      不同的溫度
      幼兒畫刊(2021年11期)2021-11-05 08:26:02
      有趣的放大鏡
      幼兒畫刊(2021年10期)2021-10-20 01:44:40
      哪個(gè)涼得快?
      幼兒畫刊(2020年2期)2020-04-02 01:26:22
      無字天書
      幼兒畫刊(2019年2期)2019-04-08 00:53:30
      航空裝備測試性試驗(yàn)樣本量確定方法
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      堅(jiān)守原則,逐浪前行
      無罪推定原則的理解與完善
      自適應(yīng)樣本量調(diào)整中Fisher合并P值法和傳統(tǒng)檢驗(yàn)法的模擬比較
      惠东县| 余庆县| 邹城市| 张掖市| 葵青区| 和林格尔县| 蒙城县| 牙克石市| 西华县| 栾川县| 玉屏| 内江市| 塔城市| 五河县| 中山市| 汉阴县| 白河县| 伊金霍洛旗| 龙泉市| 隆尧县| 永定县| 库尔勒市| 措勤县| 射阳县| 玉林市| 满洲里市| 陆丰市| 黄龙县| 贵定县| 马尔康县| 林州市| 康乐县| 扬中市| 崇州市| 沙雅县| 武邑县| 延津县| 永修县| 南乐县| 余江县| 万宁市|