DING Lin 張 萍 徐 禎
(1 長江大學(xué)物理與光電工程學(xué)院,湖北 荊州 434023;2俄亥俄州立大學(xué)教育學(xué)院,美國俄亥俄哥倫布 43210;3北京師范大學(xué)物理學(xué)系,北京 100875)
物理教育研究(physics education research,PER)中的實驗/準(zhǔn)實驗研究允許研究人員通過兩個或多個事件之間的比較來研究某些教學(xué)改進(jìn)或干預(yù)的效果。如果這種比較涉及定量分析,那么推斷統(tǒng)計就是一種有效的工具[1]。在PER 的實驗/準(zhǔn)實驗研究中,合理使用推斷統(tǒng)計離不開細(xì)致的研究設(shè)計[2]。
簡單地說物理實驗研究是通過改變某些變量(自變量)的值,觀察另一個變量(因變量)的變化效果;而物理教育實驗研究也有相似情形,研究者通常對他們感興趣的事件進(jìn)行精心的控制和操縱——引入一個干預(yù),測量這個干預(yù)帶來的差異。也就是說教育研究者也會嘗試操控某種東西以決定實驗效果。這種被操控的東西就被稱作自變量,自變量可以是一個或者多個,通過操控自變量,觀測其帶來的效果,即因變量的變化。例如在一項關(guān)于“不同的教學(xué)方法影響大學(xué)生物理成績的研究”中,教學(xué)方法是教育研究者感興趣的自變量,學(xué)生的物理成績則是因變量。
實驗研究的前提條件是:為了建立因果關(guān)系,要對變量進(jìn)行分離和控制。物理實驗研究通常在實驗室中進(jìn)行,控制和分離變量從理論的角度比較容易實現(xiàn);而物理教育實驗研究則在社會情境下進(jìn)行,學(xué)校和課堂不像實驗室那樣可以人為制造和隨意組裝,我們不能把人當(dāng)作是可隨意操控的、無生命的研究客體,因此物理教育實驗研究的對象是一個復(fù)雜的系統(tǒng),常常會面臨不可控的內(nèi)部和外部干擾和倫理困境,研究者基本上不可能在“理想”環(huán)境中進(jìn)行“真”實驗,通常采用一些接近真實的實驗(準(zhǔn)實驗)設(shè)計[3]。
我們先從物理教育實驗研究的設(shè)計入手,說明理想狀態(tài)下實驗研究的本質(zhì),然后介紹在實踐中可行的準(zhǔn)實驗研究的設(shè)計,從而理解物理教育實驗研究設(shè)計如何在理想和可行之間尋求最優(yōu)方案,實現(xiàn)在可行之中做到可信。
在討論物理教育實驗研究設(shè)計時有兩個術(shù)語:前測和后測,常常出現(xiàn)在與收集數(shù)據(jù)有關(guān)的研究中。前測是指在實驗處理之前對被試進(jìn)行的測量或測驗,后測是指在實驗處理后進(jìn)行的測量或測驗。不是所有實驗都需要進(jìn)行前測,而后測作為考查實驗處理效果的因變量是必須的。下面簡要介紹兩個實驗研究設(shè)計和一個準(zhǔn)實驗研究設(shè)計。
物理教育實驗研究設(shè)計一般包含兩組或更多組學(xué)生,一次實驗處理(干預(yù))一個組(實驗組),可能還有一個控制組,在實驗前將被試隨機(jī)分配到兩個組,實驗組接受實驗處理。在實驗結(jié)束時,對兩個組的研究變量進(jìn)行測量(后測)。僅施后測控制組設(shè)計對研究者來說是有效的設(shè)計,因為是隨機(jī)分組,它不需要前測。僅施后測控制組的設(shè)計如下表示:
G 表示組,R 表示隨機(jī)抽取或分組。X 表示實驗處理(自變量),短線表示沒有實驗處理。O表示對因變量的測量,置于X 和短線—的左/右面,分別表示前/后測,在這個設(shè)計中只有后測、沒有前測。
以前面提到的“關(guān)于不同的教學(xué)方法影響大學(xué)生物理成績的研究”為例,使用這種研究設(shè)計,首先將學(xué)生隨機(jī)分配到實驗組RG1 和控制組RG2中,實驗組使用一個新的教學(xué)方法講授課程——實驗處理X(自變量),控制組仍然用原來的教學(xué)方法——沒有干預(yù)。在經(jīng)過一學(xué)期的教學(xué)后,可以對兩個班學(xué)生的物理成績(因變量O)進(jìn)行后測和比較。
在物理實驗室中,將一個金屬棒加熱,研究者可以肯定地將所觀察到的物體膨脹效應(yīng)歸因于溫度升高,因為他們在實驗中可以排除(控制)所有其他無關(guān)的因素。但是在PER 實驗研究中,任何變量的變異都可能受到多種因素的影響,例如上述研究中學(xué)生的物理學(xué)習(xí)成績的變異除了可能受到教學(xué)方法的影響外,還可能受能力、態(tài)度、動機(jī)和以前的學(xué)習(xí)成績等因素的影響。將學(xué)生隨機(jī)分配到實驗組和控制組,在理論上可以減小所有可能的無關(guān)變量對因變量的影響。也就是說,除了實驗變量(教學(xué)方法)之外的其他無關(guān)變量產(chǎn)生的影響(干擾)近似同等地分配在實驗組和控制組,其產(chǎn)生的“干擾”效應(yīng)就勢必在兩個組中都有,因此隨機(jī)化確保了實驗組和控制組的狀態(tài)盡可能相當(dāng)。實踐中只有在保證有足夠多的被試時,隨機(jī)化的原則才有可能起作用。良好的PER 實驗研究要求研究者能提供公正的、沒有偏差的組間比較結(jié)果,為此在研究設(shè)計時必須小心翼翼確保任何組間差異能夠歸因于研究設(shè)計的自變量。
在“僅施后測控制組設(shè)計”的基礎(chǔ)上在實驗處理前加上前測,就是“前測-后測控制組設(shè)計”,表示如下:
由于是隨機(jī)分組,因此,前測的目的不是保證對比組相等。對一個或多個變量的前測可以在分析時進(jìn)行統(tǒng)計控制,計算增益(gain),它是由后測分?jǐn)?shù)減去前測分?jǐn)?shù)得到的。
研究人員除了使用增益來表示變量隨時間變化外,還經(jīng)常使用標(biāo)準(zhǔn)化增益(normalizedgain)——實際的增益與潛在的最大增益變化之間的比率:
實際增益是后測得分與前測得分的差值(gain=postscore-prescore),潛在最大增益是滿分?jǐn)?shù)和前測得分(maximumchange=fullscore-prescore)的差值。從Hake首次將其引入PER 以來[4],標(biāo)準(zhǔn)化增益在物理教育研究中被廣泛采用。研究人員通常使用標(biāo)準(zhǔn)化增益直接與0進(jìn)行比較,以檢查學(xué)生前后的表現(xiàn)是否有顯著變化。
PER實驗研究的特征是隨機(jī)安排被試(組)進(jìn)行實驗處理。然而,在進(jìn)行物理教育研究實踐時,被試的挑選和組合不可能總是隨機(jī)的。準(zhǔn)實驗研究是指在實驗中,使用原始教學(xué)班作為被試進(jìn)行分組,而不是隨機(jī)安排被試接受處理。如果研究者不能隨機(jī)分配被試進(jìn)入各組,那么原始組就會在某些因素上有所不同,并導(dǎo)致各組不對等。使用不經(jīng)隨機(jī)分配的組進(jìn)行實驗是有風(fēng)險的,因此研究者需要做出努力使它盡可能接近“理想”實驗設(shè)計。這種準(zhǔn)實驗設(shè)計是能夠為教育做出有價值的貢獻(xiàn),但有一點很重要:研究者對實驗結(jié)果的解釋和推廣應(yīng)該特別慎重。下面介紹一個準(zhǔn)實驗研究設(shè)計。
在前面“實驗研究設(shè)計:前測-后測控制組設(shè)計”中,如果實驗組和對照組不是隨機(jī)分組,而是使用原始或自然形成的班級構(gòu)成被試組時,就構(gòu)成一個“準(zhǔn)實驗設(shè)計中的前測—后測不等組設(shè)計”,表示如下:
實驗組G1和控制組G2不是通過隨機(jī)化的方式達(dá)到對等。我們使用原始或自然的教學(xué)班作為被試組時,有可能帶來取樣偏差,兩組之間的相似性(或缺乏相似性)必須加以考慮,研究者在一定程度上要使兩組在除了實驗干預(yù)因素(自變量)外的其他可以影響到因變量的干擾盡可能地相當(dāng)。前測的結(jié)論對檢驗實驗組和對照組間的相似性是非常有幫助的,因為前測是與因變量有密切關(guān)系的變量。
在物理教育研究中,除了上述幾種實驗/準(zhǔn)實驗研究設(shè)計外,還有所羅門四組設(shè)計,因素設(shè)計,重復(fù)測量設(shè)計,時間系列設(shè)計等。另外為了適用具體的研究情況,研究者可以對這些實驗設(shè)計進(jìn)行一些改動,重要的是讓我們的設(shè)計適合實驗的目的,只有實行了充分控制的實驗,其結(jié)果才能令人信服,并且按照研究結(jié)果的適用性加以推廣。
在物理教育準(zhǔn)實驗研究設(shè)計時,為了能提供公正的、沒有偏差的組間比較數(shù)據(jù)結(jié)果,研究者需要盡力確保任何組間差異都能歸因于研究的自變量里,在實驗設(shè)計時,需要做到以下幾點:(1)減少變量的混淆或使這種混淆處于最小程度;(2)辨別和控制無關(guān)變量,縮小或減少它們的影響;(3)通過數(shù)據(jù)獲得充分的信息,以滿足檢驗實驗假設(shè)的條件和統(tǒng)計的精確性。理論上我們用實驗效度來評價實驗設(shè)計的好壞,實驗效度有四種類型:內(nèi)在效度關(guān)注的是因變量的變化是否由實驗變量所引起的;外在效度是指實驗結(jié)論的外推范圍;結(jié)構(gòu)效度是對自變量結(jié)構(gòu)和因變量結(jié)構(gòu)的明確界定;統(tǒng)計結(jié)論的效度是對實驗組和控制組之間是否存在差異和精確性檢驗。
物理實驗研究中遵循實驗可重復(fù)性要求。在物理教育實驗/準(zhǔn)實驗研究中,這個要求可能不會特別有效。物理教育實驗研究是將復(fù)雜的現(xiàn)象分成可測量的變量,然后僅僅聚焦在其中的某些變量,如同盲人摸象,每個研究的價值在于它提供了部分信息,但無法獲得整體的視角。物理教育實驗研究結(jié)果不僅具有樣本依賴性,而樣本中的每個個體之間也存在差異。理想的物理教育實驗研究是從某一個總體樣本中隨機(jī)性抽取實驗樣本,然后隨機(jī)分配到不同組中,其研究結(jié)果在一定的可靠程度上可以代表對應(yīng)的這個總體樣本的情況(外在效度)。例如,一項以各大學(xué)文科物理課程的學(xué)生作為總體樣本進(jìn)行抽樣的某一項物理教育實驗研究,其研究結(jié)果在一定的可靠性上可以外推到不同大學(xué)的文科物理課程,但是不能輕率地外推到理工科物理課程。涉及物理教育準(zhǔn)實驗研究的效度時,研究者必須對它的缺陷有清楚的認(rèn)識,對實驗組和控制組間的對等性進(jìn)行確定,在研究報告中需要非常詳盡說明實驗的條件細(xì)節(jié),同時在邏輯上對其可能的代表性和可推廣性加以論證。
本系列文章中的第2篇我們介紹了描述統(tǒng)計在物理教育研究中的應(yīng)用[5],而物理教育實驗/準(zhǔn)實驗研究更依賴于推斷統(tǒng)計進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)差異的顯著性檢驗是推斷統(tǒng)計的重要內(nèi)容,在物理教育實驗/準(zhǔn)實驗研究中具有廣泛的應(yīng)用,其目的是對兩組數(shù)據(jù)之間是否存在顯著性差異進(jìn)行判斷。
我們?nèi)匀灰躁P(guān)于“不同的教學(xué)方法影響大學(xué)生物理成績的研究”為例,若該項研究使用“準(zhǔn)實驗設(shè)計中的前測—后測不等組設(shè)計”,如果兩個班的前測數(shù)據(jù)之間差異性不顯著,則表明兩個班的測量變量在實驗開始時是相當(dāng)?shù)?。?jīng)過一段時間教學(xué)之后再進(jìn)行后測,如果實驗班的后測成績平均值高于對照班,并且兩組數(shù)據(jù)差異性檢驗的結(jié)果表明它們之間存在顯著差異,假設(shè)沒有理由懷疑兩個班在其他方面存在差異(如學(xué)生能力、態(tài)度、動機(jī)、教師差異等),則結(jié)果表明實驗班采用的新的教學(xué)方法對提高學(xué)生物理成績是有效的。
有許多推斷統(tǒng)計的方法,在統(tǒng)計學(xué)教科書中有詳細(xì)的講解,有一些方法在計算上很復(fù)雜,大部分?jǐn)?shù)據(jù)分析可以通過計算機(jī)進(jìn)行,因此對研究者而言,更重要的是理解不同方法的原理和適用條件。研究者需要根據(jù)研究目標(biāo)、樣本類型、數(shù)據(jù)類型[6]、數(shù)據(jù)分布形態(tài)等,選擇適合的推斷統(tǒng)計方法,表1給出一些基本的差異性檢驗的方法和適用條件,并以參考文獻(xiàn)編號形式標(biāo)出這些方法在PER 中的應(yīng)用案例,方便讀者查閱。
表1只提供了PER 實驗/準(zhǔn)實驗研究中較為常見的幾個統(tǒng)計方法及其適用條件,并不是全部。其中涉及很多專業(yè)名詞,需要系統(tǒng)學(xué)習(xí)過推斷統(tǒng)計才能理解。
用一盒拼圖來比喻,本文試圖描繪一個印在包裝盒外面的那張簡圖,目的是提供一個指引,實踐者必須自己打開盒子,對每一個碎片進(jìn)行查看和研究,努力地將他們一張一張地拼接成完整的圖像。物理教育研究領(lǐng)域是一個多元化、復(fù)雜但是非常有魅力的研究領(lǐng)域[15]。也是一個專業(yè)化很強(qiáng)、很有挑戰(zhàn)的領(lǐng)域,進(jìn)入這個領(lǐng)域需要專業(yè)化的學(xué)習(xí)。
物理教育的共同體需要證據(jù)作為評價和行動的基礎(chǔ),政策的制定應(yīng)該建立在已有研究的基礎(chǔ)上,將未經(jīng)實驗和檢驗的建議付諸教育實踐,大規(guī)模推行是不合理的。物理教育實驗/準(zhǔn)實驗研究可以增進(jìn)人們對物理教育的理解,從而改善物理教育實踐。
表1 差異性檢驗方法及適用條件
續(xù)表