汪劍
摘要:本研究采用SIBTEST軟件對(duì)河南省英語(yǔ)中招試卷中的客觀題部分進(jìn)行城鄉(xiāng)生源方面項(xiàng)目偏差分析,試圖回答:(1)該試卷中75個(gè)客觀題在城鄉(xiāng)生源方面是否存在項(xiàng)目功能差異;(2)該試卷中5個(gè)語(yǔ)篇在城鄉(xiāng)生源方面是否存在項(xiàng)目束功能差異。研究發(fā)現(xiàn):(1)該試卷中的第32題和第36題存在明顯的城鄉(xiāng)生源項(xiàng)目功能差異,對(duì)農(nóng)村考生不利;且第32題β絕對(duì)值已經(jīng)超過(guò)0.88,表明32題已經(jīng)不宜采用,而第36題在選用時(shí)需考慮,仍可以采用;(2)該試卷中第3篇閱讀理解語(yǔ)篇項(xiàng)目束的β值較各個(gè)分項(xiàng)有明顯放大,這表明,雖然各個(gè)分項(xiàng)中沒(méi)能顯示針對(duì)城鄉(xiāng)生源的項(xiàng)目功能差異,但從整個(gè)語(yǔ)篇角度觀察,該語(yǔ)篇對(duì)農(nóng)村考生明顯不利,存在明顯的項(xiàng)目束功能差異;而其他四個(gè)語(yǔ)篇未發(fā)現(xiàn)存在項(xiàng)目束功能差異。
關(guān)鍵詞:河南省中考英語(yǔ)試卷;城鄉(xiāng)生源;項(xiàng)目功能差異;公平性
一、 引言
任何一個(gè)大規(guī)模,高風(fēng)險(xiǎn)的考試的公平與否對(duì)考試研發(fā)機(jī)構(gòu),組織實(shí)施機(jī)構(gòu),所有的考試?yán)嫦嚓P(guān)者,乃至整個(gè)社會(huì)都會(huì)有重要的影響。中招英語(yǔ)考試作為選拔性考試,事關(guān)考生的命運(yùn),事關(guān)政府部門(mén)的公信力,對(duì)整個(gè)社會(huì)都影響巨大。河南省每年中招考試參與人數(shù)都數(shù)以十萬(wàn)計(jì),如此一項(xiàng)大規(guī)模,高風(fēng)險(xiǎn)測(cè)試,許多潛在的因素都可能會(huì)影響到測(cè)試的信度和效度,對(duì)考試公平性和有效性產(chǎn)生潛在影響,進(jìn)而產(chǎn)生難以估量的社會(huì)效應(yīng)。
項(xiàng)目功能差異(Differential Item Functioning,簡(jiǎn)稱DIF)檢驗(yàn)方法是常用的用來(lái)檢驗(yàn)測(cè)試公平性的統(tǒng)計(jì)方法。DIF是指,對(duì)于某個(gè)特定項(xiàng)目,如果在來(lái)自同一目標(biāo)特質(zhì)的兩批平行被試組中,顯現(xiàn)出不同的統(tǒng)計(jì)特性,那么該項(xiàng)目就存在功能差異。(董圣鴻,馬世曄,2001)“同一目標(biāo)特質(zhì)的兩批平行被試組”是指在測(cè)驗(yàn)打算測(cè)查的能力(目標(biāo)特質(zhì))上,兩組被試具有相同的水平。在DIF的實(shí)際研究中,常會(huì)人為地把被試分為兩組,分別稱為參照組和目標(biāo)組。
二、 文獻(xiàn)綜述
項(xiàng)目功能差異的檢測(cè)在國(guó)外已是大規(guī)模測(cè)試研發(fā)的重要環(huán)節(jié)。在針對(duì)語(yǔ)言水平測(cè)試方面,國(guó)外已有眾多相關(guān)研究(SauliTakala & Felianka Kaftand jieva,2000;Mikyung Kim,2001;Geranpayeh,A.& Kunnan,A.J.2007)。國(guó)內(nèi)學(xué)者對(duì)項(xiàng)目功能差異理論的研究中,一部分涉及方法論問(wèn)題,主要包括統(tǒng)計(jì)學(xué)中的計(jì)算方法(曾秀芹、孟慶茂,1999;曹亦薇,張厚粲,1999)。另一部分主要是對(duì)具體測(cè)試進(jìn)行的一些實(shí)證性研究。目前國(guó)內(nèi)學(xué)者已經(jīng)運(yùn)用DIF檢驗(yàn)方法對(duì)高考英語(yǔ)考試(雷新勇,2007),英語(yǔ)專四考試(李清華,孔文,2009)等考試進(jìn)行了相關(guān)研究。但是尚未見(jiàn)到運(yùn)用DIF方法對(duì)中招考試進(jìn)行的相關(guān)研究。目前河南省中招考試實(shí)行全省統(tǒng)一命題考試,涉及的考生人數(shù)眾多。因此同一套試卷中難免出現(xiàn)對(duì)某一特定群體不利或有利的項(xiàng)目(題目)。當(dāng)前,我國(guó)城鄉(xiāng)差異明顯,經(jīng)濟(jì)上的差別反應(yīng)在城區(qū)考生和農(nóng)村考生身上不光體現(xiàn)在外表、衣著方面,由經(jīng)濟(jì)差異造成的不同生源的認(rèn)知、生活體驗(yàn)這些隱形的差異映射到他們對(duì)同一個(gè)試題的作答上有巨大差異;同等能力層面的來(lái)自不同生源的考生對(duì)某一帶有項(xiàng)目功能差異的項(xiàng)目會(huì)給出截然不同的作答反應(yīng);因此當(dāng)下社會(huì)中城鄉(xiāng)生源差異的客觀性,讓測(cè)試設(shè)計(jì)者必須在試題命制過(guò)程中將之作為一個(gè)影響測(cè)試信度的一個(gè)因素考慮。
三、 研究設(shè)計(jì)
1. 研究對(duì)象
本研究選擇河南省中招英語(yǔ)試卷進(jìn)行檢測(cè)。
河南省英語(yǔ)中考試卷題型包括七個(gè)題型:聽(tīng)力理解(單選題,共20題)、單項(xiàng)選擇題(單選題,共15題)、完形填空題(單選題,共10題)、閱讀理解題(單選題,共四個(gè)語(yǔ)篇,每個(gè)語(yǔ)篇包括5個(gè)選擇題,共20題)、詞語(yǔ)運(yùn)用題(選詞填空題,共10題)、補(bǔ)全對(duì)話(一個(gè)語(yǔ)篇,共5題)和書(shū)面表達(dá)(寫(xiě)作題,1個(gè)題目)。因?yàn)樽詈髢蓚€(gè)題型屬于主觀題,不作為本研究的考察對(duì)象,本研究選用前五個(gè)題型進(jìn)行考察,共75個(gè)小題(項(xiàng)目)。另外,對(duì)完形填空和閱讀理解題目共有5個(gè)語(yǔ)篇,每個(gè)語(yǔ)篇后都附帶有多個(gè)題目,即多個(gè)題目是基于同一個(gè)語(yǔ)篇來(lái)進(jìn)行能力考察的,基于此,本研究對(duì)5個(gè)語(yǔ)篇進(jìn)行項(xiàng)目束功能差異檢驗(yàn)。
2. 研究問(wèn)題
問(wèn)題1,河南省中招英語(yǔ)試卷的前75個(gè)題目在城鄉(xiāng)生源方面是否存在項(xiàng)目功能差異,即該試卷中是否存在對(duì)城區(qū)考生,或農(nóng)村考生更有利的題目;
問(wèn)題2,河南省中招英語(yǔ)試卷的完形填空和閱讀理解在城鄉(xiāng)生源方面是否存在項(xiàng)目束功能差異,即該試卷中完形填空和閱讀理解共5個(gè)語(yǔ)篇的是否存在對(duì)城區(qū)考生,或農(nóng)村考生更有利的語(yǔ)篇;
問(wèn)題3,如果檢測(cè)到在城鄉(xiāng)生源方面存在項(xiàng)目功能差異的題目或項(xiàng)目束功能差異的語(yǔ)篇,造成差異的原因是什么。
3. 研究樣本
本研究施測(cè)對(duì)象為河南省內(nèi)一所城區(qū)中學(xué)的九年級(jí)500名同學(xué)和一所鄉(xiāng)鎮(zhèn)中學(xué)九年級(jí)500名同學(xué)。因嚴(yán)格統(tǒng)計(jì)困難,本研究假定該城區(qū)中學(xué)的所有受試對(duì)象均為城區(qū)生源,而鄉(xiāng)鎮(zhèn)中學(xué)所有受試對(duì)象均為農(nóng)村生源。
4. 研究工具
本研究研究工具為SIBTEST軟件。得到的分析結(jié)果中,β為正值,表示對(duì)參照組有利;β為負(fù)值,表示對(duì)目標(biāo)組有利。顯著水平定為0.05。若DBF顯著放大(amplification),則表明該語(yǔ)篇(任務(wù))對(duì)兩組受試的功能存在差異;若DBF顯著收縮(cancellation),則表明該語(yǔ)篇(任務(wù))對(duì)兩組受試的功能差異互相抵消,整項(xiàng)任務(wù)無(wú)功能差異。
5. 研究步驟
第一,施測(cè)并整理數(shù)據(jù)。本研究數(shù)據(jù)采集采用模擬中考的形式進(jìn)行,以最大限度還原中考中的施測(cè)情景。本研究在兩所中學(xué)的受試對(duì)象對(duì)中考英語(yǔ)課程要求內(nèi)容全部講授完畢后立即用月考的形式用中考題對(duì)其進(jìn)行施測(cè),以保證受試對(duì)象尚未對(duì)此類真題有全面接觸或試做,能保證考試信度;用Excel格式對(duì)每位考生的答題情況進(jìn)行統(tǒng)計(jì),(將答案轉(zhuǎn)換“0”、“1”計(jì)分的數(shù)據(jù))按照生源分類,并分別命名為城區(qū)生源組和農(nóng)村生源組。并假設(shè)有的題目?jī)?nèi)容對(duì)農(nóng)村生源組不利農(nóng)村生源組被設(shè)定為目標(biāo)組,城區(qū)生源組相應(yīng)為參照組。
第二,用軟件處理數(shù)據(jù)。
(1) 對(duì)問(wèn)題一進(jìn)行數(shù)據(jù)處理:運(yùn)用SIBTEST程序進(jìn)行分析,以分測(cè)驗(yàn)為匹配變量來(lái)操作。第一次將所有的項(xiàng)目都列為懷疑有DIF的范圍,經(jīng)過(guò)篩選的得到結(jié)果是:聽(tīng)力理解部分1道題,單項(xiàng)選擇題部分2道題,完形填空部分1道題,閱讀理解部分3道題被懷疑有DIF;把這些題目分別剔除,對(duì)剩下的題目進(jìn)行再一次操作,反復(fù)進(jìn)行,直到?jīng)]有DIF項(xiàng)目為止,這樣得到一個(gè)最佳的匹配變量;把篩選出來(lái)的項(xiàng)目組成一個(gè)“懷疑分測(cè)驗(yàn)組”,用上一步操作得到的最佳匹配變量,再運(yùn)用程序運(yùn)算,如果此時(shí)得到的項(xiàng)目的β值,仍然在0.05的標(biāo)準(zhǔn)之上,那么這樣的項(xiàng)目就是有DIF的項(xiàng)目。
(2) 用SIBTEST程序分別檢驗(yàn)問(wèn)題2中的項(xiàng)目束功能差異(DBF)。
第三,對(duì)得出的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)意義的解讀。
四、 研究結(jié)果及分析
1. 研究問(wèn)題1
表1是針對(duì)問(wèn)題1的檢測(cè)結(jié)果。結(jié)果顯示,對(duì)疑似存在城鄉(xiāng)生源方面DIF的7個(gè)題目中,第6,22,47,54,57這5個(gè)題組的β絕對(duì)值都小于0.05,這表明這5個(gè)題目在城鄉(xiāng)差異方面未有明顯項(xiàng)目功能差異;而54題中顯示β值為負(fù),表明該題目可能對(duì)目標(biāo)組(農(nóng)村考生組)有利,但是β絕對(duì)值為0.028,遠(yuǎn)低于0.05,表明該題目的項(xiàng)目功能差異不顯著;其他題目β值為正,表明該題目可能對(duì)目標(biāo)組(農(nóng)村考生組)不利。而第32題和第36題的β值超過(guò)了0.05,分別為0.089、0.072,達(dá)到了顯著水平,表明這兩道題目存在明顯的城鄉(xiāng)地域項(xiàng)目功能差異,對(duì)目標(biāo)組(農(nóng)村考生組)不利。根據(jù)DIF顯著性的判斷標(biāo)準(zhǔn),如果β絕對(duì)值在0.05到0.88之間,表明此類題目在選用時(shí)需考慮,所以第36題仍可以采用,但32題已經(jīng)超過(guò)應(yīng)被棄用的標(biāo)準(zhǔn),已不宜采用。
2. 研究問(wèn)題2
表2是針對(duì)問(wèn)題2的檢測(cè)結(jié)果中有異常的語(yǔ)篇3的檢測(cè)結(jié)果。結(jié)果顯示,第3篇閱讀理解語(yǔ)篇項(xiàng)目束的β值為0.266,而56-60五個(gè)題目中,β值全部都低于0.05的標(biāo)準(zhǔn)線,所以該項(xiàng)目束的β值較各個(gè)分項(xiàng)有明顯放大(見(jiàn)表格中有黑色底紋部分);這表明,雖然各個(gè)分項(xiàng)中沒(méi)能顯示針對(duì)城鄉(xiāng)生源差異的項(xiàng)目功能差異,但從整個(gè)語(yǔ)篇角度觀察,這個(gè)語(yǔ)篇對(duì)目標(biāo)組(農(nóng)村考生組)明顯不利,存在明顯的項(xiàng)目束功能差異;而在其他四個(gè)語(yǔ)篇中,各個(gè)分項(xiàng)目有的對(duì)目標(biāo)組不利(β值為正),有的對(duì)參照組不利(β值為負(fù)),且β的絕對(duì)值都低于0.05的標(biāo)準(zhǔn)線,經(jīng)過(guò)抵消,項(xiàng)目束β值未有明顯放大現(xiàn)象,所以其他四個(gè)語(yǔ)篇不存在項(xiàng)目束功能差異。
五、 討論
1. 針對(duì)問(wèn)題1的檢測(cè)結(jié)果的討論
針對(duì)問(wèn)題1檢測(cè)結(jié)果顯示,第32題和第36題的β值分別為0.089和0.072,超過(guò)了0.05,達(dá)到了顯著水平,表明這3道題目存在明顯的城鄉(xiāng)生源項(xiàng)目功能差異,對(duì)目標(biāo)組(農(nóng)村考生組)不利。
第32題:Now its much easier to shop online when your order is ready, the things you want to buy to you soon.
A. sendB. were sent
C. are sendingD. will be sent
該題答案為D
針對(duì)第32題的檢測(cè)結(jié)果,筆者認(rèn)為造成這種結(jié)果的原因在于:本題的話題為網(wǎng)上購(gòu)物,這個(gè)話題是城區(qū)學(xué)生日常生活中經(jīng)常接觸到的,而網(wǎng)上購(gòu)物現(xiàn)象在農(nóng)村尚不普遍,所以農(nóng)村學(xué)生對(duì)網(wǎng)上購(gòu)物這個(gè)語(yǔ)境尚不夠充分了解,所以可能誤選。但是由于網(wǎng)上購(gòu)物將會(huì)是一種趨勢(shì),所以這種題目雖然暫時(shí)會(huì)造成不公平,但是相信造成這種不公平的原因會(huì)很快消失,所以這種題目也將隨著社會(huì)變遷,不再成為測(cè)試不公平的制造者。
第36題為完形填空部分的第二自然段,上下文和選項(xiàng)如下:When I looked 36 the plane,I could see that nearly all the passengers were worried and afraid.
A. atB. around
C. upD. into
該題答案為B
針對(duì)第36題的檢測(cè)結(jié)果,筆者認(rèn)為造成這種結(jié)果的原因在于:文章講述的在飛機(jī)上的事情,而農(nóng)村學(xué)生受經(jīng)濟(jì)條件制約,很少坐過(guò)飛機(jī),對(duì)坐飛機(jī)機(jī)艙內(nèi)的情景幾乎沒(méi)有概念,對(duì)講述的故事只能憑空想象,對(duì)幾個(gè)介詞的選擇更多是靠想象,就更容易誤選,相比較,城區(qū)的學(xué)生坐過(guò)飛機(jī)的比例較高,在做題時(shí)更能結(jié)合自身的經(jīng)驗(yàn),更可能選對(duì)正確答案。
2. 針對(duì)問(wèn)題2的檢測(cè)結(jié)果的討論
針對(duì)問(wèn)題2所做設(shè)計(jì)得出的檢測(cè)結(jié)果顯示,該試卷中的完形填空和閱讀理解共5個(gè)語(yǔ)篇中,除了第3篇閱讀理解外,其他4個(gè)語(yǔ)篇中,相對(duì)于每個(gè)語(yǔ)篇后的單個(gè)題目在城鄉(xiāng)地域方面顯示出的項(xiàng)目功能差異(DIF)的β值,4個(gè)語(yǔ)篇(項(xiàng)目束)的DBF都沒(méi)有明顯放大或縮小,所以這4個(gè)語(yǔ)篇對(duì)目標(biāo)組沒(méi)有明顯不利或有利,表明這4個(gè)語(yǔ)篇(項(xiàng)目束)在城鄉(xiāng)生源方面沒(méi)有明顯的項(xiàng)目束功能差異。
而針對(duì)第3篇閱讀理解檢測(cè)的數(shù)據(jù)表明,語(yǔ)篇(項(xiàng)目束)的DBF有顯著放大,β值為0.266,較該語(yǔ)篇中的各單個(gè)題目,差別明顯。這表明,該語(yǔ)篇個(gè)語(yǔ)篇(項(xiàng)目束)在城鄉(xiāng)生源差異方面有明顯的項(xiàng)目束功能差異,對(duì)目標(biāo)組(農(nóng)村生源組)明顯不利。
針對(duì)第3篇閱讀理解的檢測(cè)結(jié)果,結(jié)合具體語(yǔ)篇,筆者認(rèn)為造成這種結(jié)果的原因在于:語(yǔ)篇為一篇旅游景點(diǎn)指南,而相比較而言,城區(qū)學(xué)生肯定比農(nóng)村的學(xué)生的旅游經(jīng)歷更多,所以當(dāng)遇到此類語(yǔ)篇他們對(duì)語(yǔ)篇的理解能力也較農(nóng)村學(xué)生更強(qiáng)些,所以更容易選出正確選項(xiàng)。
這說(shuō)明該年河南種中考英語(yǔ)試卷的所選用的這一語(yǔ)篇選擇未能較好地避免因城鄉(xiāng)差異因素造成的不公平。
六、 結(jié)論
本研究對(duì)河南省中考英語(yǔ)試卷進(jìn)行城鄉(xiāng)生源方面的項(xiàng)目功能差異分析。研究發(fā)現(xiàn):第一,本次試卷中的第32題和第36題存在明顯的城鄉(xiāng)地域項(xiàng)目功能差異對(duì)農(nóng)村考生不利。且第32題β絕對(duì)值已經(jīng)超過(guò)0.88,表明32題已經(jīng)不宜采用,而第36題在選用時(shí)需考慮,仍可以采用;第二,本次試卷中第3篇閱讀理解語(yǔ)篇項(xiàng)目束的β值較各個(gè)分項(xiàng)有明顯放大,表明雖然各個(gè)分項(xiàng)中沒(méi)能顯示針對(duì)城鄉(xiāng)差異的項(xiàng)目功能差異,但從整個(gè)語(yǔ)篇角度觀察,這個(gè)語(yǔ)篇存在著針對(duì)農(nóng)村考生組明顯不利,存在明顯的項(xiàng)目束功能差異;而其他四個(gè)語(yǔ)篇未發(fā)現(xiàn)存在項(xiàng)目束功能差異;第三,造成研究結(jié)果的原因與城鄉(xiāng)經(jīng)濟(jì)發(fā)展差距有密切聯(lián)系。
由于主客觀條件的限制,本研究存在著不足之處。如本研究是模擬中考情景下采集的數(shù)據(jù),樣本不具備充分的代表性;此外本研究討論部分,更多憑借筆者的主觀猜斷,主觀性較強(qiáng);再加上本研究局限于對(duì)二級(jí)題型進(jìn)行了檢測(cè),最后兩部分的主觀題都沒(méi)有納入的檢測(cè)范圍,因此僅憑這得出的結(jié)果,可能有失偏頗。
參考文獻(xiàn):
[1]SauliTakala &FeliankaKaftandjieva,Test Fairness:A DIF Analysis of an L2 Vocabulary Test,Language Testing,2000(3).
[2]Mikyung Kim,Detecting DIF across the Different Language Groups in a Speaking Test,Language Testing,2001(1).
[3]Geranpayeh,A.& Kunnan,A.J.Differential Item Functioning in Terms of Age in the Certificate in Advanced English Examination[J].Language Assessment Quarterly.2007,(2).
[4]曾秀琴,孟慶茂.項(xiàng)目功能差異及其檢測(cè)方法[J].心理學(xué)動(dòng)態(tài),1999(2).
[5]曹亦薇,張厚粲.漢語(yǔ)詞匯測(cè)驗(yàn)中的項(xiàng)目功能差異初探[J].心理學(xué)報(bào),1999(4).
[6]李清華,孔文.TEM-4閱讀測(cè)試的DIF研究,中國(guó)外語(yǔ),2009(1).
[7]雷新勇.上海高考英語(yǔ)分?jǐn)?shù)的性別差異及其原因,上海教育科研,2007(6).