賀滿足
(湖南第一師范學(xué)院, 湖南 長沙410205)
TEM-4公平性的影響要素分析
賀滿足
(湖南第一師范學(xué)院, 湖南 長沙410205)
作為全面檢測高校英語專業(yè)基礎(chǔ)階段學(xué)生對教學(xué)大綱規(guī)定的語言知識和技能掌握情況的一種手段,TEM-4需要具備公平性以體現(xiàn)社會公正.考試公平性涉及多個(gè)因素,是考試賴以存在的基礎(chǔ).本文從考試機(jī)會、考生群體、考試內(nèi)容和考試結(jié)果評閱四個(gè)方面對TEM-4考試的公平性加以分析.
TEM-4;考試公平性;要素
當(dāng)今社會,公平已成為各個(gè)領(lǐng)域的重要價(jià)值追求目標(biāo).社會的進(jìn)步,推動(dòng)了公平的實(shí)現(xiàn),也加深了人們對公平的認(rèn)識,提高了對公平的期待與要求.在教育領(lǐng)域,教育公平問題是當(dāng)前我國社會生活和教育領(lǐng)域十分關(guān)注的熱點(diǎn)問題.考試作為選拔人才和檢查教學(xué)質(zhì)量的一種重要手段,其公平性也備受關(guān)注.作為一個(gè)規(guī)模大、風(fēng)險(xiǎn)高的考試,TEM-4考試本身的質(zhì)量以及考試的公平性尤為重要,值得深入研究.
英語專業(yè)四級考試 (Test for English Majors-4,簡稱TEM-4),全稱為全國高校英語專業(yè)四級考試,考試對象為高等院校英語專業(yè)二年級學(xué)生,自1991年起由教育部實(shí)行,每年舉行一次,以筆試形式考核,無口試.該考試以《高等學(xué)校英語專業(yè)英語教學(xué)大綱》為依據(jù),全面檢查英語專業(yè)(本科層次)二年級學(xué)生對基礎(chǔ)階段所要求掌握的英語語法結(jié)構(gòu)和詞語用法以及聽、讀、寫基本技能的掌握程度.因此,TEM-4屬尺度參照性教學(xué)檢查類考試.考試由教育部高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員會英語組組織有關(guān)測試專家命題,外語專業(yè)教學(xué)指導(dǎo)委員會辦公室負(fù)責(zé)考試的實(shí)施[1].
作為檢查各高校貫徹和落實(shí)教學(xué)大綱情況,以促進(jìn)英語專業(yè)教學(xué),提高教學(xué)質(zhì)量的一種形式,TEM-4自開考以來,其權(quán)威性在不斷提高,在教學(xué)中的評估功功能也在不斷突顯.該考試成績不僅作為學(xué)生是否達(dá)標(biāo)的依據(jù),更是英語專業(yè)本科教學(xué)評估指標(biāo)體系中的一項(xiàng)指標(biāo).當(dāng)前,研究者從不同層面對TEM-4展開了研究,如鄒申、王海貞、孔文等研究了TEM-4的效度;侯艷萍、李清華等、彭康洲研究了TEM-4閱讀和寫作的難度;陸遠(yuǎn)、鄒申等研究了TEM-4寫作評分過程及評分效度;張喆等、顏靜蘭等、秦秀白研究了TEM-4對教學(xué)的反撥效應(yīng)等.這些成果,特別是構(gòu)念效度研究成果,提高了TEM-4測量的準(zhǔn)確度和分?jǐn)?shù)的解釋力度,有助于提升考試的公平性.
考試的公平性是指在考試的各個(gè)環(huán)節(jié)(包括試卷設(shè)計(jì)、開發(fā)、施考、評卷和成績公布),對所有考生公平對待、一視同仁,不存在只影響部分考生的其他相關(guān)因素,考試結(jié)果僅僅反映考生個(gè)人在考試中的知識和能力水平情況[2].根據(jù)美國教育研究學(xué)會等機(jī)構(gòu)編制的《教育與心理測量標(biāo)準(zhǔn)》[3],考試公平性體現(xiàn)在以下幾個(gè)方面.第一,沒有偏頗(lack of bias).考試偏頗可由考試內(nèi)容、答題形式所致,也可能因?yàn)榭荚嚨氖褂?,?dǎo)致對不同考生群體而言,考試結(jié)果意義不一致.這種偏頗會使考試結(jié)果出現(xiàn)偏差,不能準(zhǔn)確反映所測的目標(biāo)(知識、技能或能力),從而降低考試的構(gòu)念效度.第二,考試過程的公平.包括考前準(zhǔn)備過程中,所有考生都應(yīng)有機(jī)會得到考試復(fù)習(xí)資料;考試實(shí)施過程中所有考生都受到公正待遇,具有同等機(jī)會來展現(xiàn)考試所測的知識或能力,以及給考生提供合適的條件,以便他們在考試中發(fā)揮正常.第三,基于考試結(jié)果(成績)決策的公平.標(biāo)準(zhǔn)參照類考試(CRT)結(jié)果需確保不同考生群體之間的通過率具有可比性;選拔性考試(屬常模參照考試
從以上分析不難看出,考試公平性涉及多個(gè)因素,涵蓋考試效度(包括內(nèi)容效度和構(gòu)念效度)、考前準(zhǔn)備、考試實(shí)施、考試結(jié)果的使用和學(xué)習(xí)考試內(nèi)容的機(jī)會.這些因素既包括考試自身的質(zhì)量,也包括考試的外部條件;既有考試結(jié)果的使用,也有考試成績本身;既涉及考前,也涉及考試過程和考后階段.因而,考試公平性的概念涉及面廣,貫穿甚至超越整個(gè)考試過程,是任何考試賴以存在及使用的基礎(chǔ)[4].在實(shí)際工作中,語言測試工作者(命題、施考及評閱人員等)要將確保考試公平性放在首位,并具體落實(shí)到考試的每個(gè)階段.
TEM-4考試用來檢查學(xué)生是否達(dá)到教學(xué)大綱所規(guī)定各項(xiàng)語言技能/能力、語言知識的目標(biāo),其考試結(jié)果被用作評判考生是否達(dá)標(biāo)(即考試通過或不通過)的唯一依據(jù),這就要求考試本身質(zhì)量、考試用途等方面都要具有公平性.影響TEM-4公平性的因素有考試機(jī)會、考生群體、考試內(nèi)容和考試結(jié)果評閱等.
3.1 考試機(jī)會
為了降低考試成本,提高考試效率,TEM4每年只舉行一次.Bachman&Palmer認(rèn)為影響考試分?jǐn)?shù)的因素有四類:個(gè)人特點(diǎn)(如性別、年齡、母語等)、情感因素、考生所具備的背景、專業(yè)和文化知識和語言水平/能力.這四類因素中,語言水平/能力對考試成績起決定作用,但不能排除其它三類特征影響考生在考試中的表現(xiàn)[5].由此可見,一次考試往往不能準(zhǔn)確測試所有考生的真實(shí)水平,僅以某次考試結(jié)果作為學(xué)生是否達(dá)標(biāo)的依據(jù),在公平性上有失偏頗.為了彌補(bǔ)這一不足,TEM4考試未達(dá)標(biāo)的考生可以參加下一年的考試.即使這樣,這些考生需要為第二次考試機(jī)會的到來等待一年,在時(shí)間、精神壓力等方面付出代價(jià)也不容忽視.
3.2 考生群體
TEM-4自開考以來,考生數(shù)量快速增加.據(jù)外語專業(yè)教學(xué)指導(dǎo)委員會辦公室統(tǒng)計(jì),1992年參考院校為155所,參考學(xué)生為8554人;到了2010年,參考院校為827所,考生人數(shù)高達(dá)27萬.這些參考學(xué)生都來自全國各高等院校的英語專業(yè):綜合大學(xué)、外語院校、理工類大學(xué)、師范院校、其他院校以及獨(dú)立學(xué)院等.
這些院校既有沿海發(fā)達(dá)地區(qū)的,也有內(nèi)陸省份和邊疆地區(qū)的.表面上,TEM-4考生均為在校英語專業(yè)學(xué)生,具有同質(zhì)性,但仔細(xì)研究后不難發(fā)現(xiàn),由于學(xué)校師資、課程設(shè)置、地理位置等方面的原因,這些考生存在許多不同特征.就語言能力而言,考生群體間(或?qū)W校之間)存在著顯著差異.影響語言能力發(fā)展的因素有多個(gè),包括性別、年齡、外語學(xué)習(xí)起始期、專業(yè)知識/背景、學(xué)習(xí)風(fēng)格、認(rèn)知風(fēng)格、對所學(xué)語言國家文化與社會的了解/認(rèn)同程度等.這更說明科學(xué)甄別差異、合理解釋差異的必要性.因而“在分析和持續(xù)研究階段,需關(guān)注不同考生群體的實(shí)際差異或潛在差異,采取措施避免差異成為影響考試結(jié)果或分?jǐn)?shù)解釋的因素”[6].
3.3 考試內(nèi)容
考試內(nèi)容的公平性是指考試內(nèi)容對于所有考生應(yīng)有同等的作答機(jī)會和相同的答題條件,能力相當(dāng)?shù)目忌寄塬@得相同的成績,不致因考生背景的不同而導(dǎo)致正確作答幾率的嚴(yán)重失衡.影響考試內(nèi)容公平性的原因是多方面的:①考試答題是否需要特殊的專業(yè)/背景知識;②試題是否原創(chuàng);③試題對于全部考點(diǎn)的代表性.由于背景/專業(yè)/文化知識可能影響考試結(jié)果,在語言水平相當(dāng)?shù)那闆r下,是否具備試題內(nèi)容涉及的背景知識就有可能成為決定TEM-4考試中閱讀、聽力或?qū)懽骺荚嚦煽兏叩偷囊蛩?因此,在考試規(guī)劃和命題段,命題小組需兼顧考生因素,使試卷具有包容性.以2011年的TEM-4為例,考試材料具有較好的代表性和較廣的覆蓋面,主題包括時(shí)事熱點(diǎn)、金融貿(mào)易、文化習(xí)俗、社會與生活、人物介紹、科技通訊等方面.材料主題廣泛有效避免了因考試材料選取的缺陷而產(chǎn)生的偏頗,為提升考試公平性打下了基礎(chǔ)[7].由于TEM-4考試屬于標(biāo)準(zhǔn)參照教學(xué)檢查類考試,對教學(xué)的影響不斷增強(qiáng),研究考試的反撥效應(yīng)的必要性已日趨突顯.因此,對TEM-4考試影響的研究也應(yīng)成為提升TEM-4考試公平性的一大舉措.在這方面積極開展研究可以幫助我們加深對考試目的、用途以及作用的認(rèn)識[7].
3.4 考試結(jié)果評判
考試結(jié)果評閱是指將考生的解答與試題標(biāo)準(zhǔn)答案進(jìn)行對照,根據(jù)兩者的吻合程度給考生評分的過程.為保證評分的公平性,TEM4考試閱卷小組從以下幾個(gè)方面進(jìn)行了嚴(yán)格的把關(guān):制定科學(xué)、全面、可行的評分標(biāo)準(zhǔn);認(rèn)真挑選評分樣卷;培訓(xùn)評卷人員以及監(jiān)控整個(gè)評卷過程.在實(shí)際的評分過程中,評卷者之間可能會存在較大的差異,其原因包括:長時(shí)間的評卷導(dǎo)致疲倦,注意力不集中;對評分標(biāo)準(zhǔn)自由度的把握,評卷教師自身的知識水平、經(jīng)驗(yàn)等.因此評卷者之間存在主觀上的差異,相同評卷者在不同的時(shí)間內(nèi)也具有不穩(wěn)定性,在評分的準(zhǔn)確性、嚴(yán)厲度等方面,同一評卷者難以在多次評分中保持一致,不同評卷者對于相同被試的評分也難以相同[8].
那么,在評卷過程中如何維護(hù)考試的公平性呢?筆者認(rèn)為可以從控制閱卷的隨機(jī)誤差和系統(tǒng)誤差入手.考試評閱小組對隨機(jī)誤差的控制可以通過選擇評卷人員、強(qiáng)化評卷人員的責(zé)任心以及強(qiáng)化統(tǒng)分、登分環(huán)節(jié)的邏輯校驗(yàn)來實(shí)現(xiàn).對評閱過程中系統(tǒng)誤差控制的措施有:①加強(qiáng)對評分系統(tǒng)的操作數(shù)據(jù)進(jìn)行邏輯校驗(yàn);②對評卷教師進(jìn)行嚴(yán)格的培訓(xùn),組織他們認(rèn)真研究評分標(biāo)準(zhǔn)并試評,確保他們真正全面把握評分細(xì)則;③采用網(wǎng)上評卷,對評卷教師隨機(jī)發(fā)放試卷,實(shí)時(shí)監(jiān)控評卷中教師對評分細(xì)則的把握情況[9].如 果對同一份測評卷,評卷教師的評分差異超出了可接受的范圍,則需由另一評卷老師進(jìn)行評閱.
為了提升評卷的公平性,從2009年起TEM-4考試閱卷小組開始改變評卷模式,實(shí)行計(jì)算機(jī)輔助評卷.這一評卷系統(tǒng)將先進(jìn)的計(jì)算機(jī)技術(shù)與人工評卷的豐富經(jīng)驗(yàn)有機(jī)結(jié)合,采用隨機(jī)誤差和系統(tǒng)誤差控制模型對整個(gè)評分過程進(jìn)行實(shí)時(shí)監(jiān)控,極大地推進(jìn)了評分的標(biāo)準(zhǔn)化,盡可能確保了每個(gè)考生所得分?jǐn)?shù)客觀、公正,有效提升了評分的公平性.
作為全面檢測高校英語專業(yè)基礎(chǔ)階段學(xué)生對教學(xué)大綱規(guī)定的語言知識和技能掌握情況的一種手段,TEM-4需要具備公平性以體現(xiàn)社會公正.如前所述,影響TEM-4公平性的要素有考試機(jī)會、考生群體、考試內(nèi)容和考試結(jié)果評閱等.
這些要素密切相關(guān),缺少任何一個(gè)都將影響到考試整體的公平性.只有從這些影響要素入手,逐一分析其產(chǎn)生不公平的原因,才能有效地采取針對性措施,確保和提升TEM-4的公平性,從而穩(wěn)固其作為評價(jià)、甄別學(xué)生及教學(xué)評估指標(biāo)的地位.
〔1〕鄒申.關(guān)于考試科學(xué)屬性的思考[J].中國外 語,2006(2):14-18.
〔2〕Brown JD.Testing in Language Programs[M].London: Prentice Hall(international),1996.
〔3〕American Educational Research Association,et al. Standards for educational and psychological testing[Z]. W ashington,D.C:American Educational Research Association,1999.
〔4〕鄒申.提升考試公平性———以英語專業(yè)四、八級考試為例[J].外語教學(xué)與測試,2011(1):42-50.
〔5〕Bachman L F&Palmer A S.Language Testing in Practice[M].Oxford:Oxford University Press,1996.
〔6〕鄒申.提升考試公平性——以英語專業(yè)四、八級考試為例[J].外語教學(xué)與測試,2011(1):42-50.
〔7〕鄒申,方秀才,陳煒.2011年英語專業(yè)四/八級考試分析報(bào)[J].外語測試與教學(xué),2012(1).
〔8〕賀滿足.多層面Rasch模型分析寫作測試中評卷者的偏差性[J].長沙鐵道學(xué)院學(xué)報(bào)(社科版),2011(1).
〔9〕郭 光 明 ,高 考 公平 性 的 影 響要 素 分 析[J].教 育 理 論 與 實(shí)踐,2010(6).
H31
A
1673-260X(2014)06-0214-02
湖南第一師范學(xué)院科研立項(xiàng)課題“TEM-4考試的構(gòu)念效度與公平性研究”(XYS12S25)
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2014年12期