蒲顯偉,陸雷娜
(南京理工大學 外國語學院,江蘇 南京210094)
?
國際應用語言學期刊效應值報告與解釋現(xiàn)狀研究
蒲顯偉,陸雷娜
(南京理工大學 外國語學院,江蘇 南京210094)
摘要:針對顯著性檢驗存在的問題,美國心理學會出版手冊第6版和國外社會科學領域的不少期刊都要求將定量研究報告效應值作為補充。分析6種重要的國際應用語言學期刊發(fā)表于2012—2014年的定量數據分析文章效應值的報告與解釋現(xiàn)狀,研究發(fā)現(xiàn):6種期刊共239個統(tǒng)計檢驗平均有66%報告了效應值,其中53%對效應值進行了解釋,僅1.3%報告了效應值的置信區(qū)間;相比相關分析和回歸分析,t檢驗和非參數檢驗效應值報告比例較低;研究者存在過度報告Cohen’s 等效應值的傾向;相比美國心理學會出版手冊,期刊編輯對效應值報告的要求更為有效。
關鍵詞:效應值;報告;解釋
一、引 言
顯著性檢驗被廣泛地應用于教育學、心理學、應用語言學等社會科學的定量研究中已有幾十年時間了。然而,顯著性檢驗從出現(xiàn)開始就有學者指出其存在的問題,近年來研究者對顯著性檢驗的批評更加猛烈[1-2]。鑒于此,許多研究者建議在定量研究中將報告效應值(effect size)作為對顯著性檢驗結果的補充。美國心理學會出版手冊第4、第5、第6版(APA, 1994、2001、 2010)也分別“鼓勵”、“建議”和“要求”研究者匯報定量研究結果的效應值[3]18,26,33。目前,國外應用語言學、教育學、心理學等社會科學領域已有不少期刊,如《語言學習》(LanguageLearning)、 《現(xiàn)代語言期刊》(TheModernLanguageJournal)、《對外英語教學季刊》(TESOLQuarterly)、 《當代教育心理學》(ContemporaryEducationalPsychology)等, 在其投稿須知中明確要求定量研究必須報告效應值。
受這些建議和要求的影響,國外研究者開始對效應值的報告現(xiàn)狀與解釋標準展開研究,目的是為了考察這些建議和要求是否對定量數據分析結果的報告方法產生實質性的影響。研究結果表明,APA出版手冊第4版和第5版對定量數據分析結果效應值的報告并沒有產生顯著影響[4],原因之一可能是第4、第5版的措辭較為溫和,僅僅是鼓勵和建議研究者報告效應值。APA出版手冊第6版已于2010年出版,第6版對于效應值報告的“要求”估計會對定量數據分析結果的報告方法產生較大影響。此外,為數不多的關于效應值報告現(xiàn)狀的研究主要集中在教育學和心理學領域,因為美國心理學會和美國教育研究學會對這兩個學科領域具有較大的影響,應用語言學領域還沒有學者對此進行專門研究。應用語言學期刊《語言學習》、《對外英語教學季刊》和《現(xiàn)代語言期刊》分別于2000年、2003年、2013年開始要求投稿人報告定量研究結果的效應值。因此,本研究目的之一是考察APA出版手冊第6版對國外應用語言學期刊定量研究結果效應值報告與解釋現(xiàn)狀的影響;之二是比較國外應用語言學領域兩類期刊(對效應值報告有明確要求和無明確要求的期刊)在效應值報告與解釋方面是否具有顯著性差異。
二、國內外研究現(xiàn)狀
國外對效應值的報告現(xiàn)狀研究始于20世紀90年代,主要集中在教育學和心理學領域,目前其他社會學科領域還沒有人對效應值的報告現(xiàn)狀進行專門的研究。在應用語言學領域,Plonsky對《語言學習》和《二語習得研究》(StudiesinSecondLanguageAcquisition)兩種期刊于1990—2010年間發(fā)表的606篇定量文章的研究質量進行了綜述,并對效應值的報告作了簡單統(tǒng)計,結果表明在前10年間(1990—1999)僅有3%的文章報告了效應值,后10年間(2000—2010)這一比例上升到了42%,20年的平均比例為26%[5]。
國內對效應值的研究大概始于2000年后,僅有幾位研究者在其發(fā)表的文章中介紹了效應值[6-8]。在效應值的報告現(xiàn)狀方面,國內還沒有人進行專門的研究。焦璨對《心理學報》和《心理科學》兩種期刊于1998—2008年20年間發(fā)表的文章所采用的統(tǒng)計方法進行了元分析,目的是為了了解國內心理學研究領域最常用的統(tǒng)計方法及運用中存在的問題,發(fā)現(xiàn)兩種期刊報告效果量的文章分別為30篇和21篇,均僅占所分析文章總數的1.6%。因此,呼吁中國心理學會應更加重視效果量的報告[9]。
從2014年開始,國內已有幾種期刊如《心理學報》、《心理學探新》、《心理發(fā)展與教育》等,在其投稿須知中明確要求定量數據分析文章在報告統(tǒng)計顯著性的同時必須報告分析結果的效應值,這表明國內一些期刊已經注意到了國際上定量數據分析結果報告方法的最新動向,并作出了相應的要求,以促使國內研究者改善定量數據分析結果的報告方法。
三、研究設計
(一)期刊選擇
本研究選取了6種重要的國際應用語言學期刊發(fā)表于2012年第3期至2014年第2期共兩年時間的原創(chuàng)性定量數據分析文章作為研究對象,目的是考察APA出版手冊第6版和期刊編輯對效應值報告的要求對效應值報告與解釋現(xiàn)狀的影響,其中3種期刊(《語言學習》、《對外英語教學季刊》、《現(xiàn)代語言期刊》)對效應值的報告有明確要求,另3種期刊《二語習得研究》、《應用語言學》(AppliedLinguistics)、《二語寫作期刊》(JournalofSecondLanguageWriting)對效應值的報告沒有明確要求。選擇后3種期刊進行對比研究的原因是,盡管這些期刊對于效應值的報告沒有明確要求,但已有部分作者在其定量研究結果中報告了效應值。
(二)研究問題
第一,國外應用語言學期刊定量研究效應值報告現(xiàn)狀如何?兩類期刊(對效應值報告有和無明確要求)是否具有顯著性差異?
第二,研究者是如何報告效應值的?哪些檢驗方法效應值報告比例較高?哪些效應值報告比例較高?研究者是否報告了效應值的置信區(qū)間?是否報告了所采用效應值的定義、意義、計算方法和參考文獻?
第三,效應值解釋現(xiàn)狀如何?兩類期刊是否具有顯著性差異?
第四, 研究者是如何解釋所報告的效應值的?
(三)分析方案
國外社會科學領域現(xiàn)有的效應值報告現(xiàn)狀研究基本是以文章作為分析單位,然而大多數的定量分析文章都采用了一個以上的統(tǒng)計檢驗方法,而有些作者只報告了其中一部分檢驗方法結果的效應值,因此現(xiàn)有效應值報告現(xiàn)狀的研究結果在一定程度上夸大了效應值報告的比例。本研究以統(tǒng)計檢驗方法為基本分析單位,采用表1中的分析方案對每篇文章的主要定量數據統(tǒng)計檢驗方法進行分析,以期對應用語言學期刊效應值的報告現(xiàn)狀作出更準確的描述[10]。
表1 分析方案表
四、研究結果
(一)效應值報告現(xiàn)狀
本研究的6種期刊在2012年第3期至2014年第2期刊登的原創(chuàng)性定量數據分析文章149篇,共239個主要的統(tǒng)計檢驗。表2是6種期刊統(tǒng)計檢驗效應值報告頻次和比例,6種期刊報告了效應值的檢驗數平均為66%,其中《語言學習》最高(83%)、《二語習得研究》最低(45%)。就兩類期刊而言,在投稿須知中對效應值報告有明確要求的期刊,其效應值報告的比例均高于對效應值報告沒有明確要求的期刊,兩類期刊平均比例分別為78%和51%,卡方檢驗結果顯示兩者具有統(tǒng)計顯著性差異(2= 19.06、p=0.000),檢驗結果效應值為 OR = 3.39、95%CI = 1.87~6.17。
表2 效應值報告頻次與比例表
表3 明確報告效應值檢驗的頻次與比例表
然而,有些統(tǒng)計檢驗方法的結果如相關分析的r值既是統(tǒng)計量又是效應值,部分研究者并沒有給出明確說明,因此表2中效應值報告比例可能偏大[11]。鑒于此,筆者又對明確報告效應值的檢驗比例進行了統(tǒng)計,即作者在檢驗方法中明確提到了效應值、或報告的效應值與統(tǒng)計量不同的檢驗,統(tǒng)計結果見表3。6種期刊明確報告了效應值的檢驗數平均為40%,最高的仍是《語言學習》(58%),最低的是《應用語言學》(25%),兩類期刊的平均比例分別為50%和31%,比表2中的比例分別降低了28%和20%,但仍具有統(tǒng)計顯著性差異,2= 9.59、p=0.002、OR = 2.31、95%CI =1.31~4.08。
由于目前國外應用語言學、教育學、心理學等領域關于效應值報告現(xiàn)狀的文章并沒有說明所報告的比例是否為明確報告效應值的比例,因此很難將本研究結果同其他研究進行橫向對比。例如Plonsky發(fā)現(xiàn)《語言學習》和《二語習得研究》兩種期刊在2000—2010年間發(fā)表的文章效應值的報告比例為42%[5]。從表2表3結果看,APA出版手冊第6版出版后,國外應用語言學期刊效應值的報告比例有一定的提升,這在一定程度上表明了第6版對于效應值報告的要求起到了一定的作用。
與APA出版手冊第6版的要求相比,期刊編輯的要求似乎更為有效。對效應值有明確要求的期刊,效應值的報告比例要明顯高于沒有明確要求的期刊。有明確要求的3種期刊之間也存在差異,表3顯示了《語言學習》和《對外英語教學季刊》明確報告效應值的檢驗比例分別為58%和54%,比《現(xiàn)代語言期刊》(42%)高12%以上,這是因為前兩個期刊分別在2000年和2003年就對效應值的報告作出了要求,而后者在2013年才作出要求。因此,正如Kirk所言,期刊編輯是改變效應值報告現(xiàn)狀的主導力量,編輯對效應值報告的要求能產生連鎖反應,文章作者會相應改變對研究結果的推斷和報告方法、統(tǒng)計學專著作者會修改其出版物、統(tǒng)計學教師也會相應改變課程內容并加入對效應值的介紹[4]。
(二)效應值報告方式
表4是兩類期刊不同檢驗方法效應值的報告比例。兩類期刊在相關分析和回歸分析檢驗方法上效應值的報告比例均達到100%。在其他3類檢驗方法上,兩類期刊有明顯差異,對效應值報告有明確要求期刊的報告比例均高于沒有要求的期刊。兩類期刊方差分析效應值報告比例分別為81%和57%,2= 6.49、p=0.011、OR = 3.19、95%CI = 1.28~7.95;t檢驗效應值報告比例分別為56%和29%,2=3.49、p=0.062、OR=3.18、95%CI=0.93~10.92;非參數檢驗效應值報告比例最低,分別為47%和17%,2=3.78、p=0.052、OR = 4.16、95%CI=0.95~18.27。兩類期刊的相關分析和回歸分析效應值報告比例達到100%,主要是因為這兩種方法的檢驗結果如相關分析的r值,是SPSS統(tǒng)計軟件可以直接輸出的結果,既是統(tǒng)計量又是效應值,而t檢驗和非參數檢驗SPSS輸出的結果不包括效應值,需要手動或借助其他軟件進行計算。值得注意的是,盡管SPSS輸出的方差分析結果中包含效應值,但兩類期刊方差分析效應值報告比例分別僅為81%和57%。
表4 不同檢驗方法效應值報告比例表
注:*包括卡方檢驗、Mann-Whitney、Wilcoxon Signed-Rank和Kruskal-Wallis檢驗。
表5 不同檢驗方法報告的效應值類型及頻次表
在效應值置信區(qū)間報告方面,6種期刊共有157個統(tǒng)計檢驗報告了效應值,但只有兩個檢驗(《語言學習》和《二語習得研究》各一個)報告了效應值的置信區(qū)間,比例僅為1.3%,該結果與現(xiàn)有的關于效應值報告現(xiàn)狀的研究結果一致,即效應值置信區(qū)間的報告比例基本為零[12]。早在2001年,APA出版手冊第5版就指出置信區(qū)間是代表最好的研究結果報告方法,因此極力建議研究者報告效應值的置信區(qū)間。APA出版手冊第6版也要求研究者盡可能地報告效應值的置信區(qū)間,因為置信區(qū)間的報告不僅有助于理解效應值點估計的準確性,而且有助于比較不同研究的效應值。
表6 效應值定義、意義、計算方法或參考文獻
表6是兩類期刊報告效應值時對效應值的定義、意義、計算方法或參考文獻進行說明的頻次和比例。兩類期刊分別有27個(26%)和14個(25%)統(tǒng)計檢驗方法在報告效應值的同時提供了效應值的意義或計算方法或參考文獻,各有75(74%)個和21個(75%)檢驗方法對所采用的效應值沒有進行任何說明。兩類期刊之間沒有統(tǒng)計顯著性,2=0.02、p=0.890、效應值為OR = 1.05、95%CI = 0.50~2.23。在本研究分析的149篇文章中,只有1篇對所采用的效應值給予了充分的說明,既解釋了效應值的定義和意義,也提供了效應值的計算方法和參考文獻[14]。
Third, the differences among the four groups’ gain scores were investigated by calculating effect sizes using Cohen’sd(Cohen, 1988) ...Because of the lack of previous studies in this area, we used Cohen’s tentative guidelines to estimate the magnitude of the effect sizes. Cohen defined effect sizes as small (d=0.20), medium (d=0.50), and large (d=0.80). (p. 681)
... ohen’sd, a scale-free measure of the separation between two group means, is calculated by dividing the difference between group means by the pooled standard deviation or the standard deviation of the IR Group. The resulting measure is the difference between the group means expressed in standard deviation units. For instance, a d of 0.50 is an indication that one-half of a standard deviation separates the two measures... Finally, effect sizes can be conceptualized in terms of the percent of nonoverlap in the distribution of one group’s scores with that of another group. For instance, an effect size (d) of 0.8 corresponds to a nonoverlap of 47.4% in two distributions. (p. 698)
(三)效應值解釋現(xiàn)狀
6種期刊共有157個統(tǒng)計檢驗報告了效應值,其中對效應值進行了解釋的統(tǒng)計檢驗個數為83,占53%。對效應值有明確要求和無明確要求的兩類期刊分別有49和34個統(tǒng)計檢驗對效應值進行了解釋,比例分別為48%和34%,卡方檢驗顯示兩者之間沒有統(tǒng)計顯著性差異(2=2.72、p=0.099),效應值為OR = 0.57、95%CI = 0.29~1.11(表7)。盡管對效應值報告有明確要求和無明確要求的兩類期刊在效應值的解釋比例上沒有統(tǒng)計顯著性差異,而且前一類期刊效應值的報告比例要顯著高于后一類期刊,但對效應值報告沒有明確要求的期刊效應值的解釋比例要比有明確要求期刊高14%,該結果與Alhija和Levy的研究結果基本一致,他們的研究結果表明,對效應值報告有明確要求和沒有明確要求的期刊效應值的解釋比例分別為55%和57%,兩者之間也沒有統(tǒng)計顯著性差異[10]。后一類期刊在投稿要求中對效應值沒有明確要求,而部分研究者卻主動報告了統(tǒng)計檢驗結果的效應值,這表明此部分作者可能對效應值比較熟悉或有所了解,因此對效應值的報告也更為完整,并在報告效應值的同時對效應值作出了解釋。
表7 效應值解釋頻次和比例表
(四)效應值解釋方式
盡管表7顯示兩類期刊共有83個統(tǒng)計檢驗,占53%,對所報告的效應值進行了解釋,其中80個(96%)統(tǒng)計檢驗只是根據Cohen提出的各類效應值大、中、小的經驗標準對效應值的大小進行了簡單說明[15]40。83個統(tǒng)計檢驗中僅有3個對效應值大小的實際意義作出了說明,例如Zhang對其研究結果的效應值作了如下解釋[16]:
Result showed a significant difference between the pre-test and post-test scores (t=6.663,p=0.000). To detect the effect size of this difference, Cohen’sdwas computed using the mean score and standard deviations, and the result showed a large effect size (d=2.08). This means that at post-test, the students on average improved their writing quality by 1.6 points on a 6-point scoring scale. (p. 59)
目前,社會科學領域研究者在效應值的解釋上對Cohen解釋標準的過度依賴,主要是由于各個學科領域缺乏適合自身學科特點的解釋標準。不同學科領域為數不多的關于效應值解釋標準的研究也顯示了與Cohen標準不一樣的結果。Olejnik等人對教育學領域前人研究的分析表明,較大的效應值在0.246到0.372之間[17],這比Cohen的標準要小很多。Ferguson在對前人研究進行分析后總結出的社會學領域的解釋標準比Cohen的標準要大很多,d=0.41、1.15、2.70分別為小、中、大效應值標準[1]。在二語習得領域,Plonsky等人比較了346個原創(chuàng)性研究和91個元分析研究后,提出的二語習得領域效應值標準分別為d=0.40、0.70、1.00[18]。
許多研究者(包括Cohen自己)也指出,研究者在解釋定量數據分析研究結果效應值時不能機械地照搬現(xiàn)有的標準。研究者應結合自己的研究領域和研究設計,將自己研究結果的效應值與同領域前人研究結果的效應值進行對比分析和解釋,指出研究結果是否具有實際意義,同時報告效應值的置信區(qū)間[19]。這樣,經過不斷地積累和元分析者的努力,各個研究領域就能制定出適合自身特點的效應值解釋標準,而機械地照搬Cohen提出的解釋標準,則會又一次陷入顯著性檢驗以點為界二分決策的錯誤中。因此,社會科學各領域的研究者應加強對效應值解釋標準的研究。
五、總結與建議
從研究結果可以看出,應用語言學領域效應值的報告與解釋現(xiàn)狀有較大的提升空間。因此,本文就改進效應值報告與解釋現(xiàn)狀提出如下建議:第一,研究者應根據自己的研究設計、所采用的統(tǒng)計檢驗方法以及對數據的探索分析選用適當效應值,并對所采用的效應值的意義、計算方法和參考文獻給予適當的說明;第二,在報告檢驗結果效應值的同時,要報告效應值的置信區(qū)間以提高效應值點估計的準確性;第三,報告所有統(tǒng)計檢驗方法結果的效應值,包括統(tǒng)計顯著性大于臨界值的統(tǒng)計結果,因為受研究樣本容量的影響,研究結果的統(tǒng)計顯著性和實際顯著性很多時候并不完全匹配;第四,結合前人研究結果,對自己研究結果的效應值大小給予明確解釋;第五,社會科學領域的期刊應對定量數據分析效應值的報告提出明確的要求,期刊編輯是改變效應值報告與解釋現(xiàn)狀的主導力量。
參考文獻:
[1]Ferguson C. An Effect Size Primer: A Guide for Clinicians and Researchers[J]. Professional Psychology: Research and Practice, 2009(5).
[2]Sun S, Pan W, Wang L. A Comprehensive Review of Effect Size Reporting and Interpreting Practices in Academic Journals in Education and Psychology[J]. Journal of Educational Psychology, 2010(4).
[3]American Psychological Association. Publication Manual of the American Psychological Association (4th/5th/6th ed.)[M]. Washington, DC: Author, 1994.
[4]Kirk R E. Practical Significance: A Concept Whose Time Has Come[J]. Educational and Psychological Measurement, 1996(5).
[5]Plonsky L. Study Quality in Quantitative L2 Research (1990-2010): A Methodological Synthesis and Call for Reform[J]. The Modern Language Journal, 2014(1).
[6]胡竹菁, 戴海琦. 方差分析的統(tǒng)計檢驗力和效果大小的常用方法比較[J]. 心理學探新, 2011(3).
[7]蒲顯偉. 定量數據分析效應值研究綜述[J]. 統(tǒng)計與信息論壇, 2014(11).
[8]蒲顯偉. 定量數據分析效應值:意義、計算與解釋[J]. 心理學探新, 2016(1).
[9]焦璨. 心理研究中統(tǒng)計方法應用的無分析——以《心理學報》、《心理科學》(1998-2008)統(tǒng)計方法應用為例[J]. 心理科學, 2010(1).
[10]Alhija F N, Levy A. Effect Size Reporting Practices in Published Articles[J]. Education and Psychological Measurement, 2009(2).
[11]Matthews M S, et al. Evaluating the State of a Field: Effect Size Reporting in Gifted Education[J]. The Journal of Experimental Education, 2008(1).
[12]Fritz C, Morris P, Richler J. Effect Size Estimates: Current Use, Calculations, and Interpretation[J]. Journal of Experiemtnal Psychology: General, 2012(1).
[13]Peng C Y, Chen L T, Chiang H M, et al. The Impact of APA and AERA Guidelines on Effect Size Reporting[J]. Educational Psychology Review, 2013(2).
[14]Beglar D, Hunt A, Kite Y. The Effect of Pleasure Reading on Japanese University EFL Learners’ Reading Rates [J]. Language Learning, 2012(3).
[15]Cohen J. Statistical Power Analysis for the Behavioral Sciences[M]. 2nd ed.Hillsdale, NJ: Erlbaum, 1988.
[16]Zhang C. Effect of Instruction on ESL Students' Synthesis Writing[J]. Journal of Second Language Writing, 2013(1).
[17]Olejnik S, Algina J. Measures of Effect Size for Comparative Studies: Applications, Interpretations, and Limitations[J]. Contemporary Educational Psychology, 2000(3).
[18]Plonsky L, Oswald F. How big is “big”? Interpreting Effect Sizes in L2 Research[J]. Language Learning, 2014(4).
[19]Larson-Hall J, Plonsky L. Reporting and Interpreting Quantitative Research Findings: What Gets Reported and Recommendations for the Field[J]. Language Learning, 2015(S1).
Effect Size Reporting and Interpreting Practices in International Academic Journals in Applied Linguistics
PU Xian-wei, LU Lei-na
(School of Foreing Studies, Nanjing University of Science and Technology, Nanjing 210094, China)
Abstract:Considering the problems related to null hypothesis significance testing, the 6th APA Publication Manual (2010) and the editorial policies of many journals require the reporting of effect sizes
Key words:effect sizes; reporting; interpreting
收稿日期:2015-11-27;修復日期:2016-03-03
基金項目:中央高校基本科研業(yè)務費專項資金項目《國際應用語言學期刊效應值報告現(xiàn)狀研究》(NJUSTWGY14001);江蘇省社會科學基金項目《中美大學生社會責任教育方式比較研究》(13JYC014);南京理工大學教改項目《英語專業(yè)創(chuàng)新實驗教學體系建設》
作者簡介:蒲顯偉,男,四川南江人,外國語言學及應用語言學博士,講師,研究方向:二語習得,應用統(tǒng)計分析;
中圖分類號:C32
文獻標志碼:A
文章編號:1007-3116(2016)05-0077-07
陸雷娜,女,江蘇江陰人,博士生,講師,研究方向:語言學,教育學。
【統(tǒng)計應用研究】