張三元
(淮安市教學(xué)教研室, 江蘇 淮安 223001)
地理試題的公平性檢驗(yàn)
——以淮安市2016屆高三第一次調(diào)研測(cè)試試題為例
張三元
(淮安市教學(xué)教研室, 江蘇 淮安 223001)
以淮安市2016屆高三第一次調(diào)研測(cè)試獲得的數(shù)據(jù)為基礎(chǔ),探討了檢驗(yàn)試題公平性的理論依據(jù)、技術(shù)路線(xiàn),運(yùn)用excel軟件實(shí)現(xiàn)MH法檢驗(yàn)試題公平性得到相關(guān)結(jié)果并建立相應(yīng)模板。根據(jù)得到的結(jié)果,文章進(jìn)行了案例分析并對(duì)公平性檢驗(yàn)在高中階段的應(yīng)用進(jìn)行了初步的思考。
試題公平性;MH法;調(diào)研測(cè)試;excel
保證試題公平是實(shí)現(xiàn)考試公平的前提和保證,然而長(zhǎng)時(shí)間以來(lái)高中地理的各級(jí)各類(lèi)測(cè)試中對(duì)試題公平性的關(guān)注往往是定性的而非定量的,檢驗(yàn)試題公平性往往依據(jù)教師的經(jīng)驗(yàn),這在一定程度上影響了對(duì)試題公平性判斷的準(zhǔn)確性。
近來(lái),筆者對(duì)淮安歷年統(tǒng)測(cè)的成績(jī)進(jìn)行分析的過(guò)程中,注意到運(yùn)用統(tǒng)測(cè)大數(shù)據(jù)檢驗(yàn)試題公平性,有了一定的收獲。
所謂試題的公平性,就是對(duì)不同群體的學(xué)生來(lái)說(shuō),沒(méi)有偏向,一視同仁,結(jié)果平等,機(jī)會(huì)均等。影響試題公平性的因素很多,如性別差異、城鄉(xiāng)差異、校際差異(如不同星級(jí)的學(xué)校之間的差異)、教材差異等。
檢驗(yàn)試題公平性的方法很多,比如同質(zhì)性信度分析、試題功能差異(DIF)分析等。其中,試題功能差異分析試圖通過(guò)統(tǒng)計(jì)方法來(lái)識(shí)別題目偏差,是目前使用較廣泛的一種公平性分析方法。
MH法是檢驗(yàn)試題功能差異最廣泛的方法之一,得名于兩位研究者M(jìn)antel和Haenszel,該方法將被試者分為兩個(gè)群體:由研究目標(biāo)組成的目標(biāo)組和作為參照的參照組,通過(guò)統(tǒng)計(jì)目標(biāo)組和參照組正誤頻次求得固定偏移比αMH,進(jìn)而求得固定偏移比的標(biāo)準(zhǔn)化值ΔMH,從而獲得對(duì)試題公平性的認(rèn)知。
1.確定組別變量
首先要確定目標(biāo)組和參照組以及匹配變量并進(jìn)行數(shù)據(jù)分組,比如為研究淮安市2016屆高三第一次調(diào)研測(cè)試中不同學(xué)校之間的試題公平性,筆者以老四星級(jí)學(xué)校為目標(biāo)組,其他學(xué)校為參照組,試卷總分為匹配變量,以本次調(diào)研測(cè)試地理學(xué)科等級(jí)劃分作為數(shù)據(jù)分組的依據(jù),分別將學(xué)生分成A、B、C、D四組。
A B C D目標(biāo)組(老四星)總分≥72 72>總分≥59 59>總分≥34總分<34參照組(其他)
2.統(tǒng)計(jì)對(duì)錯(cuò)人數(shù)
統(tǒng)計(jì)每個(gè)匹配小組中目標(biāo)組和參照組對(duì)錯(cuò)人數(shù)。如第2題A組統(tǒng)計(jì)結(jié)果如下:
列A列B列C列D行6正確人數(shù)錯(cuò)誤人數(shù)總?cè)藬?shù)行7目標(biāo)組196 215 411行8參照組71 75 146行9總計(jì)267 290 557
3.計(jì)算標(biāo)準(zhǔn)化值
固定偏移比αMH=(Σ B7*C8/D9)/(Σ C7*B8/ D9)。其中B7等表示上述表格中對(duì)應(yīng)列和行的單元格(下同)。
固定偏移比的標(biāo)準(zhǔn)化值ΔMH=-2.35*ln(αMH)。
通過(guò)計(jì)算可得到本題αMH=1.48,ΔMH=-0.92
4.檢驗(yàn)DIF顯著性
一般根據(jù)以下表格來(lái)檢驗(yàn)DIF顯著性:
|ΔMH|等級(jí)顯著性<1 A項(xiàng)目可以直接用于測(cè)驗(yàn)>1且<1.5 B項(xiàng)目經(jīng)過(guò)專(zhuān)家修改后可以用于測(cè)驗(yàn)>1.5 C除非專(zhuān)家認(rèn)為項(xiàng)目至關(guān)重要,否則應(yīng)被刪除
其中ΔMH>0表示對(duì)參照組有利,而ΔMH<0表示對(duì)目標(biāo)組有利。本題ΔMH=-0.92,│ΔMH│<1表明可以直接用于測(cè)驗(yàn)。
專(zhuān)家往往使用SPSS等專(zhuān)業(yè)軟件統(tǒng)計(jì),但對(duì)于普通高中地理教師來(lái)說(shuō),利用excel進(jìn)行MH法檢驗(yàn)試題公平性可能更易于實(shí)現(xiàn)。具體操作如下:
1.導(dǎo)入原始數(shù)據(jù)
原始數(shù)據(jù)包括兩張sheet,其中一是原始成績(jī),重命名為“成績(jī)”,其表頭如下:
列A列B列C列D列E列F列G列H……列AC列AD列AE行1姓名縣區(qū)卷面得分客觀分主觀分dx-1 dx-2 dx-3……mx-6 mx-7 mx-8行2馬騫三星74 35 39 0 0 2……3 3 3
另一是分組依據(jù),重命名為“分組”,其中目標(biāo)組為老四星組,參照組為其他組,數(shù)據(jù)分組依據(jù)為本次測(cè)試等級(jí)劃分分?jǐn)?shù)線(xiàn)。相關(guān)數(shù)據(jù)如下:
列A列B行1目標(biāo)組老四星行2參照組其他行3行4 A 72行5 B 59行6 C 34行7 D 33
2.統(tǒng)計(jì)對(duì)錯(cuò)人數(shù)
目標(biāo)組正確人數(shù)計(jì)算公式如下:
=SUMPRODUCT((成績(jī)!B:B=分組!$B$1)*(成績(jī)!F:F=2)*(成績(jī)!C:C>=分組!$B$4))
其他各組公式可以依此類(lèi)推。最終可以統(tǒng)計(jì)各題各組的對(duì)錯(cuò)人數(shù)等相關(guān)數(shù)據(jù)。如第一題相關(guān)數(shù)據(jù)如下:
3.計(jì)算標(biāo)準(zhǔn)化值
αMH、ΔMH可以根據(jù)以下公式分別計(jì)算并分別填在Q3、Q4單元格。
列A列B列C列D列E列F列G列H列I列J列K列L列M列N列O列P列Q行1 dx-1正確人數(shù)錯(cuò)誤人數(shù)總?cè)藬?shù) 正確人數(shù)錯(cuò)誤人數(shù)總?cè)藬?shù) 正確人數(shù)錯(cuò)誤人數(shù)總?cè)藬?shù) 正確人數(shù)錯(cuò)誤人數(shù)總?cè)藬?shù)行2目標(biāo)組174 237 411目標(biāo)組270 496 766目標(biāo)組366 827 1193目標(biāo)組367 830 1197行3參照組43 103 146參照組116 307 423參照組231 969 1200參照組236 991 1227行4總計(jì)217 340 557總計(jì)386 803 1189總計(jì)597 1796 2393總計(jì)603 1821 2424
αMH=((B 2*C 3/D4)+(F 2*G3/H4)+(J 2*K 3/ L4)+(N2*O3/P4))/((C2*B3/D4)+(G2*F3/H4)+(K2*J3/ L4)+(N3*O2/P4))
ΔMH=-2.35*ln(Q3)
利用同樣的方法可以計(jì)算出所有題目的αMH、ΔMH值,還可以將最終的excel文件存為模板,這樣今后只要重新錄入數(shù)據(jù)(如考生成績(jī)、等級(jí)標(biāo)準(zhǔn)、目標(biāo)組和參照組等)就可以自動(dòng)生成相關(guān)數(shù)值。
1.校際差異的檢驗(yàn)案例:第7題
以全體考生為樣本,以老四星為目標(biāo)組、其他學(xué)校為參照組,最終計(jì)算出各題的ΔMH,發(fā)現(xiàn)大多數(shù)題目的|ΔMH|在1.5以?xún)?nèi),僅單選第7題和雙選第8題略大于1.5,說(shuō)明總的來(lái)說(shuō)校際差異不明顯,但大多數(shù)題目ΔMH<0,這表明對(duì)目標(biāo)組相對(duì)有利。其中單選第7題的ΔMH為-1.57,是本份試卷ΔMH最大的題目。題目如下:
圖7為北半球某地?zé)崃Νh(huán)流模式圖。讀圖,回答7~8題。
圖7
7.圖中甲、乙、丙、丁四地
A.甲地氣溫低于丁地 B.丁地氣溫低于丙地
C.乙地氣壓高于丙地 D.甲地氣壓低于乙地
專(zhuān)家組對(duì)此題進(jìn)行了分析討論,認(rèn)為本題選用熱力環(huán)流的三維立體圖,對(duì)空間概念有較高的要求,因而對(duì)參照組的學(xué)生有一定難度。如果將“等壓線(xiàn)”幾個(gè)字直接標(biāo)示在圖上,并且將甲、丁之間和乙、丙之間標(biāo)上反映氣流運(yùn)動(dòng)方向的箭頭,可能降低對(duì)空間概念的要求,從而促進(jìn)不同級(jí)別之間的公平性。
2.性別差異的檢驗(yàn)案例:第24題(雙選題6)
因?yàn)楸敬谓y(tǒng)測(cè)沒(méi)有錄入性別數(shù)據(jù),所以這里只能以部分考生(淮安市某中學(xué)考生)為樣本進(jìn)行統(tǒng)計(jì)和計(jì)算。我們以男生為目標(biāo)組、女生為參照組,最終計(jì)算出各題的ΔMH,發(fā)現(xiàn)部分題目性別差異明顯,其中多數(shù)題目對(duì)目標(biāo)組(男生)有利,雙選題6的ΔMH更是高達(dá)-3.22。
我們分析,如不考慮由于采樣樣本較少可能造成的誤差,出現(xiàn)這一現(xiàn)象的主要原因,一是本份試卷自然地理占比相對(duì)較大,對(duì)考生地理思維和地理核心素養(yǎng)要求較高;二是本份試卷覆蓋面廣,多數(shù)試題的綜合性較強(qiáng)。這也從一個(gè)側(cè)面印證了男生的讀圖能力、區(qū)域定位能力和綜合判斷能力強(qiáng)于女生,當(dāng)然女生在記憶和語(yǔ)言表達(dá)等方面強(qiáng)于男生。
總的來(lái)說(shuō),本次調(diào)研測(cè)試試題的編制比較公平合理,可以達(dá)到預(yù)期的效果和目的。
通過(guò)檢驗(yàn)試題公平性的初步實(shí)踐,我們認(rèn)識(shí)到:
1.加強(qiáng)教育測(cè)量公平性的認(rèn)識(shí)和理解勢(shì)在必行
長(zhǎng)期以來(lái)我們對(duì)教育測(cè)量公平性的關(guān)注不夠,或者說(shuō)我們更關(guān)注試卷保密、考場(chǎng)紀(jì)律、閱卷過(guò)程等方面,而忽視對(duì)試題本身公平性的科學(xué)認(rèn)識(shí)和理解,今后有必要對(duì)這一方面進(jìn)一步強(qiáng)化,使教育測(cè)量更具有科學(xué)性和公平性。
2.加強(qiáng)教育測(cè)量公平性的培訓(xùn)和指導(dǎo)刻不容緩
目前我國(guó)高中階段教育測(cè)量公平性的研究還處于空白狀態(tài),需要更多的高等院校、科研院所進(jìn)行長(zhǎng)期的培訓(xùn)和指導(dǎo),培養(yǎng)出一批能夠初步掌握科學(xué)檢驗(yàn)試題公平性的教師隊(duì)伍。
3.加強(qiáng)教育測(cè)量公平性的實(shí)踐和推廣功在千秋
從短期來(lái)看,這一工作有利于關(guān)注弱勢(shì)群體,促進(jìn)教育公平,實(shí)現(xiàn)教育均衡發(fā)展。從長(zhǎng)期來(lái)看,在高中學(xué)業(yè)水平測(cè)試題庫(kù)建立以后,這一工作有助于加強(qiáng)試題審核,提升試題質(zhì)量,從而提高測(cè)試的信度和效度。
[1] 陳吉,黃偉.試題開(kāi)發(fā)中的公平性審核——避免試題中的構(gòu)念無(wú)關(guān)因素[J].教育測(cè)量與評(píng)價(jià)(理論版),2012(2):4-8.
[2] 柴省三. 漢語(yǔ)水平考試(HSK)閱讀理解測(cè)驗(yàn)公平性研究[J]. 語(yǔ)言文字應(yīng)用,2013(4):107-116.
[3] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版者,2008.
(責(zé)任編校:周曉輝)