曾昭炳 姚繼軍
(南京師范大學(xué)教育科學(xué)學(xué)院,南京 210097)
文獻綜述是對既往研究文獻的梳理和概括。對于一項規(guī)范的學(xué)術(shù)研究而言,對文獻進行“再研究”都是必不可少的環(huán)節(jié)。通過撰寫文獻綜述,研究者可以充分了解所關(guān)注領(lǐng)域的研究進展,發(fā)現(xiàn)既有研究的不足,確定新的研究思路和研究問題,闡明本研究的緣由和意義,并在理論基礎(chǔ)、變量設(shè)置、研究內(nèi)容和研究方法等方面為新的研究提供依據(jù)(Denney,2013)。從這個角度而言,文獻綜述為所有類型的研究所必需。
就當下的教育研究現(xiàn)狀而言,實證研究往往對文獻綜述更為重視。大多數(shù)規(guī)范的實證研究,都會基于對既往文獻的梳理,提出研究的問題和假設(shè),給出變量及方法選取的依據(jù)。但在文獻綜述的方法方面,目前大多數(shù)研究均采用傳統(tǒng)的文獻回顧和評述方法,所得結(jié)論更多地依賴于評述者的個人經(jīng)驗和主觀判斷,往往難以令人信服。姚計海(2017)認為,教育研究方法應(yīng)具有科學(xué)性、系統(tǒng)性和獨特性,按此標準,描述性文獻綜述并不能被當作獨立的研究方法使用,其結(jié)論也不具有客觀性、可驗證性和可重復(fù)性,難以消除讀者的質(zhì)疑。
相對于實證研究,當下思辨研究的文獻綜述質(zhì)量則受到了更多的批評。有研究在分析了我國教育學(xué)博士學(xué)位論文的文獻綜述后認為,目前大多數(shù)博士論文皆為思辨研究,其文獻綜述存在著堆砌材料、來源單一、缺少實質(zhì)性分析、未能對既往研究進行充分概括與分析、寫作不夠規(guī)范等問題(張斌賢,李曙光,2015)。在這種情況下,文獻綜述根本無法為研究提供扎實的依據(jù),有些研究者甚至出于便于論述或發(fā)表的目的,對文獻進行篩選,選擇有利于自己觀點的文獻而非具有重要學(xué)術(shù)價值的文獻進行呈現(xiàn),這就使得文獻綜述喪失了為研究提供依據(jù)的功能,從而變成了一個“任人打扮的小姑娘”。
這種情況正如教育循證研究(evidence-based educational research)代表人物、約翰霍普金斯大學(xué)Slavin 教授所批評的那樣,“進入新世紀的教育實踐仍處于前科學(xué)階段(pre-scientific point),很多研究和決策缺少嚴謹、科學(xué)的評估證據(jù),無法為兒童提供最好的教育項目,也無法推動教育的創(chuàng)新”(Slavin,2008)。而要解決這一問題,就需將“有效的證據(jù)作為選擇教育產(chǎn)品和服務(wù)的主要標準”,這樣才能讓所實施的教育項目為兒童帶來更好的發(fā)展,進而使教育進入創(chuàng)新、評估和漸進式改革的良性循環(huán)(Slavin,2017)。但問題在于,教育學(xué)這樣的社會科學(xué)領(lǐng)域存在著大量的不可控因素,即便是嚴格控制了相關(guān)變量的實驗研究及準實驗研究,同類研究的結(jié)果也會不同。因此,人們需要一種科學(xué)嚴謹?shù)姆椒▽ΜF(xiàn)有研究結(jié)果進行綜合分析,以得出一個“最佳證據(jù)”來支持教育決策。這樣的“最佳證據(jù)”,至少應(yīng)滿足以下條件:首先,它需按一定的標準,對既往研究成果做無偏的、全面的總結(jié),不能因個人好惡或論證方便,對研究結(jié)果進行有目的地篩選和“控制”;其次,它需運用可比較的指標,分析不同的研究成果,并明確告訴人們,某項干預(yù)是否真的有效,以及有哪些因素會影響到這些外生變量的實施效果;再次,這樣的證據(jù)應(yīng)能經(jīng)受并通過嚴格的穩(wěn)健性檢驗,其結(jié)論具有一致性和可重復(fù)性。元分析作為一種定量與定性相結(jié)合的文獻分析方法,能對既有實證文獻進行較好的綜合分析,或是尋求“最佳證據(jù)”的一種有效手段。
元分析最早由Glass 提出并應(yīng)用于臨床心理學(xué),其基本思路是通過一定的標準對某一領(lǐng)域內(nèi)的文獻進行檢索和篩選,對結(jié)果進行標準化處理后,通過加權(quán)平均得出一個綜合性結(jié)論,并利用一定的統(tǒng)計方法探討異質(zhì)性的來源。元分析因能較好控制不同研究間的差異性并使其具有可比性而受到了研究者們的廣泛重視和應(yīng)用,與傳統(tǒng)的、描述性的文獻綜述相比,元分析具有兩個突出的優(yōu)勢:一是可相對科學(xué)地給出綜合性的結(jié)論以解決研究爭議,并能有效探索不同研究結(jié)果存在差異的原因;二是可對既有文獻中的數(shù)據(jù)進行二次分析,使人們無需獲得直接研究數(shù)據(jù)便可對某一領(lǐng)域的研究結(jié)果進行討論(Borenstein et al.,2009,p. 9-13)。元分析雖不排斥評價者自身的研究經(jīng)驗,但由于有著較為嚴格的規(guī)范和要求,其結(jié)論會更為穩(wěn)健與科學(xué)。因此,元分析迅速成為循證研究的主要方法之一。新世紀以來,隨著教育循證改革的推進,使用元分析方法的研究數(shù)量迅速攀升。此類研究,不但對前期研究結(jié)論做了很好的總結(jié),還能通過“異質(zhì)性分析”等手段清晰地告訴人們,導(dǎo)致研究結(jié)論差異的因素是什么,這無疑對后續(xù)的實證研究和實踐探索具有導(dǎo)向與啟示作用。
與西方相比,我國高品質(zhì)的教育實證研究成果還不夠豐富,對既有實證研究成果的歸納與總結(jié)也比較欠缺。以本文探討的STEM 教育為例,目前國內(nèi)研究對這一舶來品的討論大多停留在概念討論和經(jīng)驗介紹階段,相關(guān)實證研究幾為空白,以致難以回答實踐工作者迫切需要了解的一些問題:這一教育模式對學(xué)生發(fā)展是否有效?如果有效,哪些因素是其見效的關(guān)鍵?哪些STEM 教育方法可能取得更好的效果?等等??紤]到國外的相關(guān)研究早已展開,運用元分析技術(shù)對國外STEM 教育實證研究進行梳理,應(yīng)可為國內(nèi)STEM 教育的科學(xué)推進提供高價值的證據(jù)。本文下面的內(nèi)容,即著眼于此,以STEM 教育對中小學(xué)生學(xué)習成績的影響為切入點,運用元分析對國外相關(guān)實證研究結(jié)論進行定量整合,力圖為中國的STEM 教育改革提供可靠的研究證據(jù)。
以1986 年美國國家科學(xué)委員會(NSB)發(fā)布的《本科科學(xué)、數(shù)學(xué)和工程教育》(Undergraduate Science Mathematics and Engineering Education)為標志,STEM 教育迅速成為國際教育界普遍關(guān)注的熱點問題。成績作為衡量教育質(zhì)量的一個重要指標,STEM 教育是否有助于提高學(xué)生成績,進而是否有利于提高人才培養(yǎng)質(zhì)量,便成為人們最為關(guān)注的問題之一。
如前所述,以美國為代表的一些國家(或地區(qū))在STEM 教育評估領(lǐng)域已積累了一定的實證研究成果,但這部分研究對STEM 教育效果的認識未達成一致。有學(xué)者發(fā)現(xiàn)接受STEM 教育的學(xué)生在測試中的表現(xiàn)要遠遠好于未接受STEM 教育的學(xué)生,比如Cakici & Turkemen(2013)發(fā)現(xiàn),在前測差異不顯著的情況下,STEM 教育組學(xué)生的科學(xué)測試成績遠高于非STEM 教育組的學(xué)生,效應(yīng)量高達2.404;類似的研究還有Kassir(2013)、Robinson 等(2014)、Rehmat(2015)、Acar 等(2018),都發(fā)現(xiàn)STEM 教育對學(xué)生科學(xué)成績的提升有很大幫助,效應(yīng)量分別為1.781、1.902、0.940 和1.247。也有些研究發(fā)現(xiàn),接受STEM 教育的學(xué)生,其成績只在較小或中等程度上有所提升。比如Korur 等(2015)發(fā)現(xiàn)基于設(shè)計的學(xué)習(design-based learning)幫助學(xué)生提高科學(xué)成績的效果為0.728;Cervetti(2012)的研究結(jié)果表明采用STEM 整合教育模式后,可在中等程度上提高學(xué)生的科學(xué)成績(ES=0.501);Olivarez(2013)使用因果比較研究分析了STEM 教育組與非STEM 教育組的學(xué)生在數(shù)學(xué)、閱讀測試中的表現(xiàn),發(fā)現(xiàn)STEM 教育組的學(xué)生優(yōu)于非STEM 教育組,效應(yīng)量分別為0.649 和0.549;Harris 等(2015)以及Han 等(2016)的研究則表明在提升學(xué)生測試表現(xiàn)上,STEM 教育相比非STEM 教育只具有微弱的優(yōu)勢,效應(yīng)量分別為0.220 和0.170。上述研究雖然在STEM 教育效果的大小方面觀點不一,但至少說明STEM 教育更有利于提高學(xué)生的學(xué)業(yè)成績。有些學(xué)者則與上述學(xué)者的觀點完全相反,他們發(fā)現(xiàn)STEM 教育在提升學(xué)生成績方面并不比傳統(tǒng)教育更為有效,甚至存在負效應(yīng)。比如Merill(2001)、Li 等(2016)的研究表明STEM 教育對學(xué)生學(xué)業(yè)成績幾乎沒有影響,效應(yīng)量接近為0(d=0.026、d=0.015);Barth(2013)、James(2014)的研究則表明STEM 教育不利于提高學(xué)生的學(xué)業(yè)成績,其效應(yīng)量分別為-0.147 和-0.412。
由此可見,有關(guān)STEM 教育效果的實證研究并未得出統(tǒng)一的結(jié)論,這意味著STEM 教育對學(xué)生成績的影響,或受多種因素影響并有著較為復(fù)雜的影響機制。正如Glass 當年試圖用元分析方法回應(yīng)“心理療法是否有效”這一爭議一樣,目前已有學(xué)者試圖通過元分析來解決“STEM 教育是否有效”這個問題中存在的分歧,并探討造成研究差異的原因。相關(guān)研究的大致信息如表1 所示。
表1 STEM 教育領(lǐng)域內(nèi)元分析研究的基本信息
續(xù)表1
從表1 中可以看出,既有的元分析研究大多探討某一方法在STEM 學(xué)科教育中的教學(xué)效果,此類研究約占九成。僅有Yildirim(2016)、Sarac(2018)從整體上探討STEM 教育對學(xué)生學(xué)業(yè)成績、能力或態(tài)度的影響。但是他們的研究仍有許多可以改進的地方。比如Yildirim 只對相關(guān)實證研究進行了系統(tǒng)性綜述,未計算效應(yīng)量從而無法直觀、具體地判斷STEM 教育對學(xué)生成績和能力的影響。Sarac 的研究雖然計算了合并效應(yīng)量,比較全面地測算了STEM 教育的效果(對學(xué)生成績、態(tài)度和能力的影響的合并效應(yīng)量分別為0.442、0.620 和0.820);但是他對STEM 教育概念的界定過于寬泛,沒有給出篩選文獻的標準,未對納入的文獻進行質(zhì)量評估,異質(zhì)性分析也不夠詳細。這表明,盡管元分析是解決本領(lǐng)域?qū)嵶C研究差異的重要手段,但到目前為止,規(guī)范的、高質(zhì)量的元分析仍較為缺乏。這在一定程度上影響了人們對STEM 教育規(guī)律的認識。
近年來,中國開始嘗試推進STEM 教育,但人們對于STEM 教育效果的認識還基本停留在理論和經(jīng)驗層面。因此對國外本領(lǐng)域的實證研究結(jié)果進行歸納和總結(jié),將在規(guī)律層面為我國的STEM 教育事業(yè)發(fā)展提供科學(xué)證據(jù)。有鑒于此,本研究將運用嚴謹而規(guī)范的元分析方法,討論國外的實證研究結(jié)論,以幫助我國的研究者和實踐工作者,了解STEM 教育對學(xué)生成績影響的一般規(guī)律,推進我國STEM 教育的發(fā)展。為此,本研究將重點回答以下三個問題:
1. 相比于非STEM 教育,STEM 教育是否有利于提高學(xué)生成績?
2. 若STEM 教育對學(xué)生的成績有影響,影響程度有多大?
3. 哪些因素會影響到STEM 教育的效果?
在元分析的過程中,首先要做的工作就是對核心概念進行界定。這是因為只有確定了核心概念(或研究對象)的“操作性”定義后,才可能框定文獻檢索和篩選的范圍。到目前為止,人們對“STEM教育”這個概念并未形成完全統(tǒng)一的認識。Carmichael(2017)通過分析政策文本,發(fā)現(xiàn)美國各州在實施STEM 教育的過程中,對STEM 教育的理解和期望都存有差異。因此,我們將通過簡單回顧STEM 教育的發(fā)展歷程,來把握其核心內(nèi)涵并合理界定概念。事實上,在STEM 這個縮寫剛被提出時,它所指的只是科學(xué)、技術(shù)、工程和數(shù)學(xué)四門學(xué)科及相關(guān)領(lǐng)域。早期的STEM 教育更多地聚焦于學(xué)科領(lǐng)域的知識,并常常單獨教授STEM 的學(xué)科內(nèi)容,這往往使得學(xué)生缺乏對STEM 學(xué)科的興趣,學(xué)業(yè)表現(xiàn)也差強人意(Atkinson & Mayo,2010;Kelley & Knowles,2016)。因此美國提出了一系列改進STEM 教育質(zhì)量的措施,其中就包括實行STEM 整合教育(integrated STEM education),并將學(xué)科間的整合從STEM 學(xué)科擴大到其他領(lǐng)域,強調(diào)基于真實情境與問題的教學(xué)(Honey,et al.,2014;Macdonald,2016)。在此過程中,以真實情景、學(xué)科融合、問題解決及學(xué)生中心為特征的STEM 教育模式逐步得到了廣泛認可?;诖?,我們將“STEM 教育”界定為:在真實情境中,利用項目式學(xué)習、問題式學(xué)習等以學(xué)生為中心的學(xué)習方式有機整合科學(xué)、技術(shù)、工程、數(shù)學(xué)或更多學(xué)科的一種教育。本文將按此定義框定文獻范圍并篩選符合要求的文獻。
本文按照元分析的一般步驟展開:第一,在理論分析和概念界定的基礎(chǔ)上,確定文獻搜索的范圍和納入標準,進而在各類數(shù)據(jù)庫中檢索相關(guān)文獻,形成分析所需數(shù)據(jù);第二,對所納入的文獻進行編碼,列出納入文獻的詳細統(tǒng)計信息,并對所納入文獻的質(zhì)量進行評估;第三,計算合并效應(yīng)量,分析STEM 教育對學(xué)習成績影響的整體程度,回答本研究的第一和第二個問題,并在此基礎(chǔ)上,進行異質(zhì)性分析以討論STEM 教育影響學(xué)生成績的因素和機制,回答本研究的第三個問題;第四,進行穩(wěn)健性檢驗,通過檢驗、校正發(fā)表偏倚與敏感性分析,確保結(jié)果的可靠性和科學(xué)性。以上步驟中涉及的數(shù)據(jù)分析工作均通過Comprehensive Meta-Analysis 2.0 軟件來完成。
元分析在確定文獻納入標準的過程中要盡量排除研究者的個人偏好,更多地依據(jù)研究目的、研究內(nèi)容、文獻特征和統(tǒng)計要求來確定。比如Lipsey & Wilson(2001,p. 16-20)指出,文獻納入標準需至少包含以下幾個基本要素:需納入文獻的顯著特征、研究對象、關(guān)鍵變量、研究設(shè)計、文化和語言范圍、時間范圍、文獻類型。結(jié)合研究目的以及納入標準應(yīng)包含的基本要素,本研究擬定了以下七條標準用以篩選文獻:
1. 研究所使用的語言為英語,發(fā)表于1996—2018 年間,文獻類型不限。
2. 研究內(nèi)容為STEM 教育對基礎(chǔ)教育階段學(xué)生測試成績的影響,不包括特殊教育、職業(yè)教育及校外STEM 項目(out-school program)。
3. 研究設(shè)計為實驗設(shè)計,對比STEM 教育與非STEM 教育效果的差異。參照Cheung & Slavin(2013a)的標準,文章需報告前測結(jié)果,差異過大的研究將被排除(ES>0.5),隨機實驗可不進行前測。
4. 至少由兩名老師分別對實驗組和控制組進行教學(xué),盡量減少教師因素所帶來的影響。若兩組只由一名老師進行教學(xué),無法保證干預(yù)措施的獨立性,或會影響實驗結(jié)果。
5. 研究在實驗的進程中,不應(yīng)告知學(xué)生研究的目的。因為在告知學(xué)生研究目的的情況下可能會導(dǎo)致實驗結(jié)果出現(xiàn)偏差。
6. 實驗組與對照組的樣本量應(yīng)相近。若實驗組與對照組有一組樣本量過小,且兩者之間差距過大,可能導(dǎo)致研究結(jié)果存在偏誤。
7. 研究應(yīng)報告均值、標準差、樣本量或t 值、F 值等統(tǒng)計信息,確保能夠計算出效應(yīng)量。
所謂“最佳證據(jù)”應(yīng)當是更具代表性和全面性的證據(jù),其來源應(yīng)當盡可能地廣泛,不遺漏任何有價值的研究。為此,本研究以“STEM education”、“integrated STEM education”、“student achievement”等關(guān)鍵詞在教育數(shù)據(jù)庫以及搜索引擎(e.g.,ERIC,EBSCO,Springer,Google Scholar)中進行檢索。根據(jù)已制定的納入標準,先是對文獻標題進行篩選,排除明顯不符合標準的研究,并將可能符合標準的文獻下載存檔;然后閱讀文獻摘要,進一步排除不符合要求的研究;最后對剩余的文獻進行全文閱讀,篩選出完全符合標準的文獻。本研究共檢索了28683 篇文獻,最終納入17 篇,獲得20 個效應(yīng)量。文獻檢索與篩選流程如圖1 所示。
圖1 文獻檢索與篩選流程
獲得可供分析的文獻后,需要將文獻進行編碼以便于信息提取與數(shù)據(jù)分析。本研究使用的編碼規(guī)則如下:
1. 性別(Ge):女編碼為F,男編碼為M,男女都有編碼為B,未報告樣本性別信息的編碼為U。
2. 家庭社會經(jīng)濟地位(SES):低SES 編碼為L,中SES 編碼為M,高SES 編碼為H,樣本低、中、高SES 都有編碼為V,未報告SES 編碼為U。
3. 種族(E):白人編碼為W,非裔編碼為B,亞裔編碼為A,西班牙裔編碼為H,其他編碼為O,樣本中包含多個種族編碼為V,未報告種族信息編碼為U。
4. 受教育階段(Gr):K—5 年級編碼為P,6—8 年級編碼為M,9—12 年級編碼為H。由于各地區(qū)學(xué)制不同,具體編碼以作者報告為準。
5. 學(xué)科(D):科學(xué)編碼為science,數(shù)學(xué)編碼為mathematics,工程編碼為engineering。
6. 地區(qū)(L):以作者報告的地區(qū)名稱作為編碼。
7. STEM 教育方法(I):項目式學(xué)習(project-based learning)編碼為PBL,問題式學(xué)習(problem-based learning)編碼為pbl,探究式學(xué)習編碼為(inquiry-based learning)IBL,其他以作者所報告STEM 教育措施為編碼。
8. 研究設(shè)計(Rd):準實驗設(shè)計編碼為QE,隨機實驗設(shè)計編碼為RE。
9. 樣本量(Ss):大樣本編碼為L,小樣本編碼為S。參照Cheung & Slavin(2013b),樣本量大于250 的為大樣本,小于等于250 的為小樣本。
10. 測試工具類型(Ti):標準化測試工具編碼為1,非標準化測試工具編碼為0(研究中將大型測試或依據(jù)學(xué)科標準制定的測試題視為標準化測試,其余視為非標準化測試)。
11. 文獻發(fā)表年份(Py):分階段編碼為1996—2007 或2007—NOW。根據(jù)Sanders(2009),上世紀90 年代中期首次提出“STEM”這個縮寫;2007 年首次提出“STEM 教育整合”,強調(diào)學(xué)科之間的有機融合。
12. 文獻類型(Lt):期刊編碼為(J),非期刊類編碼為(non-J)。
已納入文獻的部分信息如表2 所示。
表2 納入文獻的信息
在元分析過程中,所納入文獻的質(zhì)量會影響到最終結(jié)果的質(zhì)量。我們參照Valentine & Cooper(2003)評估文獻質(zhì)量的方法,從納入文獻是否清楚地描述了干預(yù)措施、研究設(shè)計、樣本特征、測試工具以及測量過程等五個方面對文獻質(zhì)量打分,其中,“不清楚”賦值為1,“較清楚”賦值為2,“清楚”賦值為3。一篇文獻可獲得的最高分為15 分,得分越高質(zhì)量越高。為確保文獻質(zhì)量的評價盡可能客觀,這一過程由本文的第一作者與通訊作者(姚繼軍)獨立進行,各文獻得分分值范圍為7—13 分,評分一致性為0.910(p<0.0001),納入文獻的質(zhì)量基本滿足分析需求。
計算合并效應(yīng)量是元分析的核心工作。這是因為,傳統(tǒng)的虛無假設(shè)顯著性檢驗(null hypothesis significance testing,NHST)僅能給出結(jié)果顯著與否的結(jié)論,但卻無法在不同樣本數(shù)量的研究中比較結(jié)果的有效性。從尋找“最佳證據(jù)”的角度而言,如果我們得到的證據(jù)無法確切地給出某項干預(yù)措施的效果大小,且無法比較不同干預(yù)措施之間的優(yōu)劣,那么這樣的證據(jù)也就無法準確判斷相關(guān)教育改革(干預(yù))的效果并給出未來改進的方向。效應(yīng)量指標恰恰可以解決這個問題,Chow(1988)認為,效應(yīng)量不但能指出自變量作用的大小,而且可作為統(tǒng)一的度量標準用以比較包含相同變量的系列實驗的結(jié)果;更為重要的是,人們可以通過元分析等技術(shù)手段,對效應(yīng)量進行平均以給出某一方面研究的一般性結(jié)論。
然而,不同文獻的研究設(shè)計不同,所使用的數(shù)據(jù)類型也有所差別。因此需要針對不同的數(shù)據(jù)和研究設(shè)計選擇合適的效應(yīng)量,必要的時候還需要進行效應(yīng)量之間的轉(zhuǎn)換(盧謝峰等,2011;Borenstein et al.,2009,p. 45-49)。具體到本研究,由于學(xué)生成績?yōu)檫B續(xù)性變量,納入的文獻皆為實驗設(shè)計并比較組間差異,因此筆者選用Cohen’s d 作為效應(yīng)量。計算合并效應(yīng)量的具體步驟是:
1. 計算各文獻的效應(yīng)量。
其中si為合并標準差,m1i為實驗組均值,m2i為對照組均值。
2. 采用逆方差加權(quán)(inverse variance weighting)對各效應(yīng)量進行賦權(quán)。
3. 通過加權(quán)平均計算合并效應(yīng)量。
經(jīng)Q 檢驗,發(fā)現(xiàn)研究間存在異質(zhì)性(Q=168.11,p < 0.0001),且我們假設(shè)除樣本誤差外,還有其他因素導(dǎo)致了各研究結(jié)果存在差異,因此采用隨機效應(yīng)模型(random-effect model)(Borenstein et al.,2009,p.83)進行分析,詳細結(jié)果如表3 所示。
各文獻的效應(yīng)量分布在(-0.147,1.902)之間。參照Cohen(1988)的標準,0.2 為小效應(yīng),0.5 為中等效應(yīng),0.8 為大效應(yīng)。所納入文獻中,報告了大效應(yīng)的有8 篇,且都具有統(tǒng)計意義,其中3 篇文獻報告的效應(yīng)量超過了1。效應(yīng)量最大的是Robinson 等(2014)的研究,第一年測得的效應(yīng)量為1.902(p<0.0001),第二年測得的效應(yīng)量為1.713(p<0.0001);Kassir(2013)的結(jié)果與Robinson 相近,效應(yīng)量為1.781;Acar(2018)則發(fā)現(xiàn)STEM 教育對科學(xué)和數(shù)學(xué)成績的提高程度都比較大,效應(yīng)量分別為1.247 和1.174。報告了中等效應(yīng)的有2 篇,且都比較接近于大效應(yīng)量,其大小分別為0.789 和0.693。其余文獻所報告的為小效應(yīng)、負效應(yīng)或不具統(tǒng)計意義。通過計算,未經(jīng)發(fā)表偏倚矯正和穩(wěn)健性檢驗的合并效應(yīng)量為0.700(p<0.0001),是一個中等大小的效應(yīng)量。
元分析的另一項核心工作是異質(zhì)性分析。在尋找“最佳證據(jù)”的過程中,我們不僅需要了解某項干預(yù)的綜合效應(yīng),還需要知道有哪些因素會對干預(yù)的結(jié)果產(chǎn)生影響。元分析可以通過異質(zhì)性分析,來對影響研究結(jié)論的因素進行討論。調(diào)節(jié)變量分析(moderator analysis)是進行異質(zhì)性分析的主要方法之一,根據(jù)一定的特征劃分亞組,通過Q 檢驗比較各組之間是否存在差異,便可判斷該特征是不是導(dǎo)致異質(zhì)性的原因(Borenstein et al.,2009,p. 149-186)。調(diào)節(jié)變量的選取主要有兩條途徑。一是參照既有的元分析文獻,或是探討影響STEM 教育效果的因素的研究。對表1 中元分析文獻所選定的調(diào)節(jié)變量進行簡單的頻數(shù)統(tǒng)計,出現(xiàn)頻數(shù)超過3 次的調(diào)節(jié)變量有以下幾個:受教育階段(11 次),教學(xué)方法(6 次)、學(xué)科(8 次)、干預(yù)時長(5 次)、研究設(shè)計(7 次)、文獻類型(3 次)、測試工具類型(3 次)、測試項目(3 次)、文獻年份(3 次)。此外,還有學(xué)者表明STEM 教育的效果或受學(xué)生的性別、家庭社會經(jīng)濟地位(SES)以及種族等因素的影響。比如Bicer 等(2015)發(fā)現(xiàn)接受STEM 教育的女同學(xué)比未接受STEM 教育的男同學(xué)的成績要好,STEM 教育組中低SES 的學(xué)生要比非STEM 教育組中高SES 的學(xué)生在數(shù)學(xué)上表現(xiàn)更好;Rozek 等人(2019)表明低SES 的學(xué)生在學(xué)習STEM 課程時更為吃力。諸如此類的研究都可以作為選擇調(diào)節(jié)變量的參考。二是從專業(yè)角度及統(tǒng)計學(xué)角度來選取,比如張?zhí)灬缘龋?015,第312 頁)認為可從設(shè)計方案、研究質(zhì)量等角度選取劃分亞組的因素。結(jié)合以上兩條選取調(diào)節(jié)變量的途徑及本文的研究目的,筆者從研究特征、干預(yù)特征及文獻特征三個方面選取調(diào)節(jié)變量,具體如表4 所示。
表4 調(diào)節(jié)變量的選取及其分類
由于已納入的文獻所報告的樣本特征信息不足,加之本研究只探討STEM 教育對學(xué)生學(xué)業(yè)成績的影響,因此樣本特征和測試項目不納入調(diào)節(jié)變量分析之中。其余調(diào)節(jié)變量的分析結(jié)果如表5 所示。
由表5 可知,STEM 教育方法、受教育階段、地區(qū)以及樣本量的不同都是造成各研究效應(yīng)量存在差異的原因:
1. 就STEM 教育方法而言(QB=47.760,p<0.0001),效果最好的是探究式學(xué)習(d=0.907),其次是問題式學(xué)習(d=0.888),二者都是大效應(yīng);學(xué)科整合則在中等程度上有利于提高學(xué)生的成績(d=0.614);項目式學(xué)習在提升學(xué)生成績方面的效應(yīng)量為0.228,是一個小效應(yīng)量。
2. 就受教育階段而言(QB=8.287,p=0.016),小學(xué)階段STEM 教育效果最好(d=1.021),高中階段其次(d=0.487),初中階段STEM 教育效果較為一般(d=0.237)且不顯著。
3. 就地區(qū)而言(QB=14.022,p=0.007),中國臺灣、尼日利亞、土耳其以及阿拉伯聯(lián)合酋長國STEM 教育的效果比較好,效應(yīng)量分別為0.862、0.880、0.834 和1.781;而作為STEM 教育起源地的美國,納入的文獻最多,效應(yīng)量相對較小(d=0.515),但也是一個中等效應(yīng)量。
4. 就樣本量而言(QB=5.782,p=0.016),大樣本研究的效應(yīng)量較小,為0.333;小樣本研究的效應(yīng)量則比較大,為0.816。
表5 調(diào)節(jié)效應(yīng)分析
一般而言,發(fā)表偏倚是指統(tǒng)計結(jié)果為正向顯著的研究成果,更容易被期刊所接受并發(fā)表的一種現(xiàn)象。如果存在發(fā)表偏倚,元分析的結(jié)果可能會面臨放大干預(yù)措施真實效果的風險(Rothstein et al.,2005,p. 2-3)。發(fā)表偏倚是影響研究結(jié)果可靠性的一個重要因素,因此對其進行檢驗是元分析不可或缺的重要一環(huán)。常用的檢驗方法是漏斗圖,通過觀察漏斗圖是否對稱來判斷發(fā)表偏倚存在與否;若無法直觀判斷出漏斗圖是否對稱,則可通過Egger 檢驗來確定。本研究的漏斗圖如圖2 所示,該圖明顯不對稱,Egger 檢驗的結(jié)果也顯著(B0=3.289,t=2.714,p1=0.007,p2=0.014),這表明本研究存在發(fā)表偏倚。發(fā)表偏倚作為一種不可控的因素,元分析的研究者很難完全避免這一問題。若存在發(fā)表偏倚,則需要對發(fā)表偏倚進行修正并測算所缺失的研究文獻對元分析結(jié)果的影響,同時還要更為謹慎地討論研究的結(jié)果,以確保分析結(jié)果足夠穩(wěn)健。但需要指出的是,是否存在發(fā)表偏倚并不能作為評價元分析質(zhì)量的唯一標準。事實上,無論是元分析還是傳統(tǒng)的文獻綜述,都可能存在因發(fā)表偏倚而導(dǎo)致的“有偏估計”問題。相比于傳統(tǒng)文獻綜述,元分析的研究者們已經(jīng)發(fā)展出了一系列檢驗、修正發(fā)表偏倚的技術(shù),以最大限度地保證分析結(jié)果的穩(wěn)健性。
圖2 發(fā)表偏倚檢驗(漏斗圖)
修正與測算發(fā)表偏倚影響的常用方法是剪補法(trim and fill),其主要步驟是:首先,剪除(trim)引起漏斗圖不對稱的研究,并重新計算合并效應(yīng)量(中心值);其次,將去除的研究沿新的中心對稱地填補(fill)到對稱軸的另一側(cè);最后,計算合并效應(yīng)量及其標準差,并不斷疊代以上過程直至結(jié)果穩(wěn)定(Duval & Tweedie,2000;Rothstein et al.,2005,p. 127-144)。Bediou 等人(2018)近期發(fā)表在心理學(xué)權(quán)威期刊《Psychology Bulletin》上的研究,便是利用這一方法修正了發(fā)表偏倚對研究結(jié)果的影響。參考以上研究,我們同樣運用剪補法,對本文的效應(yīng)量進行修正。修正后的合并效應(yīng)量為0.410,95%置信區(qū)間為(0.185,0.636),說明發(fā)表偏倚的存在或?qū)е滦?yīng)量放大了41.43%。那么,這樣一個經(jīng)過修正的效應(yīng)量是否可靠呢?為解決這個問題,我們還需要對結(jié)果進行敏感性檢驗,以評估元分析結(jié)果對發(fā)表偏倚的反應(yīng)程度。
進行敏感性分析的常用方法是失安全系數(shù)法(failed-safe N)。通過對失安全系數(shù)的計算,我們可以判斷因存在發(fā)表偏倚而逆轉(zhuǎn)元分析結(jié)論的可能性(Cheung,& Slavin,2012;Lazowski,& Hulleman,2015)。該方法由Rosenthal(1979)提出,通過計算最少需要缺失多少研究才能使元分析的結(jié)論發(fā)生逆轉(zhuǎn),進而判斷結(jié)論的穩(wěn)健性。該系數(shù)值越大,說明雖然存在發(fā)表偏倚,但元分析結(jié)果對缺失文獻的反應(yīng)越不敏感。若新增研究個數(shù)小于5K+10 個(K 為納入的文獻數(shù)量),則對所得到的結(jié)論要慎重對待。本研究計算的Classic 失安全系數(shù)N=1257(α=0.050,p<0.0001),即需要額外納入1257 篇文獻,元分析的結(jié)論才能被推翻。
以上分析結(jié)果表明,本研究修正后的效應(yīng)量,已經(jīng)在一定程度上消除了發(fā)表偏倚對分析結(jié)果的影響,且研究結(jié)果較為穩(wěn)健。這說明0.410 更為接近STEM 教育效果的真實效應(yīng)量。
經(jīng)過嚴格的統(tǒng)計分析,我們可以得出結(jié)論:STEM 教育有利于提高學(xué)生的學(xué)業(yè)成績,但是提升的程度較?。╠=0.410);諸如STEM 教育方法、受教育階段、地區(qū)和樣本量等都是造成實證研究結(jié)果不同的因素。本研究的結(jié)論支持“STEM 教育比傳統(tǒng)教育模式更有利于提高學(xué)生的成績”這一觀點。對比同類研究,本文所得到的合并效應(yīng)量略小于Sarac(2018)的0.442。但是Sarac 的研究除了前文提到的一些不足外,對發(fā)表偏倚的檢驗和討論也有失嚴謹。因此,可認為本研究的結(jié)論更具穩(wěn)健性。
本研究還進一步分析了造成各研究結(jié)果存在差異的原因。整體而言,這些原因可以分為兩類。一類是研究設(shè)計本身引起的差異。比如,本研究發(fā)現(xiàn),樣本所在地區(qū)不同,STEM 教育的效果也不同。由于地區(qū)間文化存在差異,或可推測文化因素會影響STEM 教育的效果。就樣本量而言,大樣本研究的效應(yīng)量遠小于小樣本研究,也更接近合并效應(yīng)量。此外,雖然干預(yù)時長的異質(zhì)性分析結(jié)果不顯著,但是干預(yù)時長過短(0—2 月)的研究其平均效應(yīng)量與其他亞組相比要小很多??梢酝普撘鼮闇蚀_地評估STEM 教育的效果,應(yīng)在條件允許的情況下,盡可能地增加樣本量,并延長干預(yù)的時間,這樣可減小研究結(jié)果的誤差。
另一類導(dǎo)致結(jié)果不同的原因可歸結(jié)為STEM 教育本身的特征。對這類原因的分析,將有助于我們了解,到底什么樣的STEM 教育對學(xué)生的學(xué)習結(jié)果作用更為明顯。具體而言,在STEM 教育方法方面,本研究表明不同的教育方法在提升學(xué)生學(xué)業(yè)成績的表現(xiàn)上有所差別。比如學(xué)科整合方法在中等程度上有利于學(xué)生學(xué)業(yè)成績的提升(d=0.614),這一結(jié)果與Becker & Park(2011)所得的結(jié)論非常接近(d=0.630);問題式學(xué)習又比學(xué)科整合的效果更好,是一個大效應(yīng)量(d=0.888);項目式學(xué)習在提高學(xué)生成績方面的效應(yīng)量最小。既有研究表明,一些學(xué)習方法在促進學(xué)生能力發(fā)展方面的作用或遠大于其在提高學(xué)生成績方面的作用。以項目式學(xué)習為例,本研究表明其提高學(xué)生的成績的效應(yīng)量僅為0.228,Zeng 等人(2018)的研究卻發(fā)現(xiàn),這一方法對學(xué)生能力的提升作用非常明顯,效應(yīng)量高達1.335。就學(xué)科內(nèi)容而言,本研究發(fā)現(xiàn)使用同一STEM 教育方法教授不同的內(nèi)容,其效果差異并不顯著,這也從一定程度上反映了STEM 學(xué)科之間具有緊密的內(nèi)在聯(lián)系(Bicer,et al.,2017)。就學(xué)生的受教育階段而言,STEM 教育似乎最適合于在小學(xué)階段實施,高中階段實施STEM 教育的效果則一般,初中階段的效應(yīng)量最小,僅為0.237 且不具統(tǒng)計意義。已有研究表明STEM 教育的效果或受學(xué)生學(xué)習經(jīng)驗的影響,剛接觸STEM 教育的學(xué)生其表現(xiàn)要好于接觸過STEM 教育的學(xué)生(Taylor,2016),但這無法解釋為何STEM 教育在初中階段表現(xiàn)一般,其中的機制仍有待進一步揭示。
受納入文獻信息所限,本研究無法通過調(diào)節(jié)變量分析來判斷樣本特征(性別、SES、種族)是否會影響STEM 教育的效果,但已有研究指出,不同性別的學(xué)生在空間能力(spacial ability)上存在差異,進而影響STEM 學(xué)習表現(xiàn),但這種能力上的差異是可塑的(Kine,2017);還有研究發(fā)現(xiàn)家庭社會經(jīng)濟地位也會影響學(xué)生學(xué)習STEM 的效果(Bicer,et al.,2015;Rozek,et al.,2019)。
綜合來看,STEM 教育雖然比傳統(tǒng)教育模式更有利于學(xué)生的發(fā)展,但其作用機制仍是一個黑箱,打開這個黑箱是今后STEM 教育研究的一個重點方向。
回到本文最初探討的問題:如何基于既往教育研究文獻為教育的改革與發(fā)展提供“最佳證據(jù)”?本研究可被視為是一個方法上的探索。與傳統(tǒng)的主觀性文獻綜述相比,本文的研究過程表明,規(guī)范的元分析至少具有以下幾個方面的優(yōu)勢:第一,由于在文獻搜集前,必須要確定“操作性定義”,因此元分析要求對核心概念進行嚴謹?shù)慕缍ǎ@就避免了概念含混不清的問題。第二,元分析有著明確的文獻檢索和納入標準,這就解決了過度依賴個人經(jīng)驗甚至主觀好惡選擇文獻的問題。雖然元分析在確定文獻納入標準時,也會受研究者個人研究背景和經(jīng)驗的影響,但這樣的影響最終仍要以確定性的標準來體現(xiàn),而非像有些主觀性文獻綜述那樣,可將文獻篩選的標準“隱藏”于作者的意圖之后,進而根據(jù)預(yù)設(shè)觀點去安排文獻。第三,在技術(shù)層面,元分析有著更為嚴謹?shù)臋z驗流程,可通過漏斗圖、失安全系數(shù)等定量分析手段,更好地確保分析結(jié)果的穩(wěn)健性。第四,與以上幾點相關(guān),元分析具有可重復(fù)性和可驗證性。在研究對象、核心概念界定、文獻篩選標準一致的情況下,不同的研究者使用元分析方法可以得到相同或相近的結(jié)論,這是傳統(tǒng)的主觀性文獻綜述所不具備的優(yōu)勢。需要指出的是,元分析到目前為止,主要還是用于對實證研究文獻的分析,難以分析思辨研究文獻。這可以視為這一方法的局限之一。但這并不意味著,基于元分析的結(jié)論不能為思辨研究提供證據(jù)。相對于傳統(tǒng)的主觀性文獻綜述,通過元分析方法對既有研究文獻進行科學(xué)的梳理和綜合歸納,所得到的證據(jù),無疑更具一般性和指導(dǎo)性,更符合“最佳證據(jù)”的要求。這樣的證據(jù),無論對哪一類研究而言,都具有更強的證據(jù)效力,從而幫助相關(guān)研究建立在更為扎實的基礎(chǔ)之上。
毋庸諱言的是,由于聚焦國內(nèi)教育問題的高水準實證研究,尤其是嚴格設(shè)計的實驗研究還較為缺乏,當前開展教育領(lǐng)域的元分析,在國內(nèi)文獻來源方面存在著一定的困難。為此,一方面,要大力強化和推動國內(nèi)的教育實驗研究。這是因為國內(nèi)大多數(shù)實證研究均為相關(guān)性分析,這雖能幫助人們認識特定教育現(xiàn)象的影響因素,但卻難以進行因果推斷。而在不設(shè)對照組的教育實證研究中,還存在著有偏估計干預(yù)效果的風險(Cheung & Slavin,2016)。要解決這一問題,從技術(shù)上來說,最好的方式便是開展嚴格設(shè)計的實驗研究。這樣,人們才能在更多的實證研究的基礎(chǔ)之上,通過元分析等技術(shù)獲得一般性的結(jié)論。另一方面,要倡導(dǎo)文獻綜述研究的“證據(jù)”意識。當前的教育類綜述研究很多都存在著評述不全面、過程不嚴謹、結(jié)論不可靠等問題。我們無意否定主觀性文獻綜述研究的價值,并堅信高品質(zhì)的綜述研究,無論是否使用元分析方法,都會推進教育的研究與實踐的進步。但如前所述,從理論研究與實踐工作的關(guān)系而言,主要聚焦于學(xué)理探究和觀點表達的主觀性文獻綜述,很難為實踐工作提供直接的、有效的、穩(wěn)健的“最佳證據(jù)”。從這個角度而言,本文所展示的方法,或為豐富教育文獻綜述研究,更好地服務(wù)教育實踐探索提供了一條有效路徑。