何 壯,袁淑莉,余 水,任 敏
(貴陽學院 教育科學學院,貴州 貴陽 550005)
如果一個測驗的結果對接受測驗的個體、群體或單位意義重大,則該測驗可稱為“高風險考試”或“高利害測驗”(High-stakes Test)。中考是義務教育階段的重要考試之一,考試目的是衡量學生是否達到畢業(yè)標準,同時考試成績也是高中階段學校招生選拔的重要依據(jù),是典型的高風險考試。為了保證高風險考試試題的質量,西方國家普遍要求試題開發(fā)者提供有力的心理測量學方面的證據(jù)。[1]
新一輪課改對中考命題提出了更高的要求:中考命題應當起到導向性作用。這種導向性不僅體現(xiàn)在知識層面,更體現(xiàn)在能力水平和價值觀層面。對試卷和考試結果的分析,不僅可以獲得有關考題質量的信息,還能獲得具有導向價值的信息,更可以了解考試對學生能力的要求,為調整教學提供參考。
隨著心理測量理論的發(fā)展,以項目反應理論(Item Response Theory, IRT)為代表的技術已經(jīng)逐漸成為考試數(shù)據(jù)分析的主流。與經(jīng)典測量理論(Classical Test Theory, CTT)相比,項目反應理論具有能力參數(shù)與項目難度參數(shù)配套、參數(shù)等距、參數(shù)不變性等優(yōu)勢。[2]以最常用的Rasch模型為例,Rasch分析將被試能力和題目難度定義在同一量尺上,方便被試能力和題目難度之間的比較,同時還克服了CTT題目難度受抽樣影響、原始數(shù)據(jù)之間不等距的缺陷。在對考試數(shù)據(jù)的分析中如果能夠綜合兩種測量理論進行分析,得出的結果將更有實用價值。
由于大規(guī)模高風險考試對數(shù)據(jù)的保密要求較高,國內高風險考試的分析最常見的是英語等級考試的相關研究。中考、高考、研究生入學考試等社會影響更大考試的研究還很少,可參見趙守盈等對研究生入學考試客觀題的分析。[3]而對中高考等高風險考試整套試卷進行分析的研究還非常少。筆者擬以中考化學模擬考試數(shù)據(jù)為例,介紹Rasch模型為代表的現(xiàn)代測評理論在這一領域的應用。
數(shù)據(jù)來自東部某市,共有47636人參加了當次考試,研究所用到的數(shù)據(jù)是化學考試的全部數(shù)據(jù)。試卷包括6個客觀題、7個主觀題,滿分60分??陀^題(1—6題)每題2分、主觀題(7—13題)分數(shù)從5至9分不等。
對考試數(shù)據(jù)的分析理論以IRT為主,CTT作必要補充。數(shù)據(jù)整理及CTT分析使用SPSS 22軟件,IRT分析使用Winsteps 3.7軟件,參數(shù)估計選用Rasch模型,參數(shù)估計過程中將試題的平均難度設定為Rasch量尺的零點。分析得到的主要結果包括:學生能力參數(shù)、學生能力分布、試題難度、擬合指數(shù)、測驗信息量。
單維性是IRT使用的前提條件之一。本研究中,單維性是指考試過程中只有化學知識一種潛在能力起決定作用,可以忽視其他因素對考試結果的影響。Rasch中常用模型解釋的方差與未解釋方差的關系來判斷數(shù)據(jù)是否單維。[4]參數(shù)估計結果發(fā)現(xiàn),由題目所解釋的方差為38.6,占總方差的39.2%。模型未解釋方差為13。由學生所解釋的方差為46.8,占總方差的47.6%。對未解釋方差進行主成分分析,首因子所解釋的方差為1.5,占總方差的1.5%。這表明學生作答過程中“化學能力”對整個考試過程起主導作用,其他因素對考試的影響不大。這說明考試數(shù)據(jù)是單維的,可以用Rasch模型分析。
Rasch理論認為:只有實際數(shù)據(jù)與模型預測值相擬合時測量的結果才是客觀準確的,分析得到的結果才有實際價值。Rasch分析中主要的擬合統(tǒng)計量稱為加權均方擬合統(tǒng)計量(Infit MNSQ),擬合指數(shù)為1,說明實際數(shù)據(jù)與模型預測完全擬合。擬合指數(shù)在[0.6,1.4]范圍內最好。[5]題目的Infit MNSQ>1.4說明實際數(shù)據(jù)與模型預測值間存在隨機偏差,稱為不擬合(Under fit);Infit MNSQ<0.6說明實際數(shù)據(jù)間差異小于模型預測值,稱為過度擬合(Over fit)。不論是過度擬合還是不擬合都會對測量的效果產(chǎn)生影響。表1的分析結果顯示多數(shù)題目擬合都在Rasch理論要求的范圍之內,但第3題和第6題的擬合較差,屬于不擬合。題總相關系數(shù)也能用于評價題目的擬合,這兩題的相關系數(shù)在所有題目中也是最低的。這表明這兩個題目的命題質量相對較低,與整套題目測量目標的一致性較低。
表1 數(shù)據(jù)—模型擬合
47636名學生平均32分,標準差15分,及格率46%。Rasch模型可以根據(jù)學生在每個題目上的作答情況為每名學生估計出一個能力。該能力與原始成績不同,具有等距的特點,這種特點可以通過下面的例子來理解。
在實際的教學工作中,低能力學生提高幾分比高能力學生提高同樣的分數(shù)要容易得多。例如:將學生成績從30分提高到40分比較容易,但從90分提高到100分卻困難得多。原始分數(shù)看似等距,但卻不能體現(xiàn)這種差異。Rasch的能力分數(shù)就解決了這一問題。以此次考試的數(shù)據(jù)為例:同樣相差1分,在高分端原始分數(shù)58分與59分的學生能力分別為6.167和7.155,能力相差0.988;在低分段,原始分數(shù)18分與19分的學生能力分別為-1.201和-0.725,能力相差0.476。同樣是1分的差距,在高分端所體現(xiàn)的能力差異就大于低分段,這與教育的實際情況更相符。所以,Rasch分數(shù)才是真正的等距數(shù)據(jù),對學生能力的分析以Rasch能力分數(shù)為基礎才更加科學。本次考試學生能力分布的峰度(Kurtosis)為-0.012。峰度接近于0,學生能力分布呈正態(tài)分布。
圖1為學生能力與試題難度分布圖。圖左側以#代表學生,越靠近上方學生能力越高。圖右側為題目的難度分布情況,越靠近上方題目難度越大。最左側的一列數(shù)字為Rasch量尺,以Logit為單位。量尺的零點為所有題目的平均難度。
當題目難度與學生能力相當時,題目的測量效果最好。即高難度題目更適用于測量高水平學生,低難度題目測量低水平學生時誤差更小。從圖1題目與學生的分布關系來看,高難度題目較少,能力大于3的學生附近沒有與之相對應的題目。這部分學生有可能答對全部題目,出現(xiàn)“天花板效應”。這就影響了對優(yōu)秀學生能力的測量。
圖1 學生能力與試題難度分布圖
試卷共有6個客觀題,均為四選一的選擇題??陀^題以考察基本知識為主,難度在[-2.42,0.71]之間,為中低難度水平。最難的題目為第6題,難度0.71。該題考察學生從圖像獲取信息的能力,要求學生分析給出的幾張圖表,結合坐標軸標注的信息回答問題。考察的是初中化學學習的重點內容,學生需要掌握讀圖和相應的化學知識才能正確作答。學生在這一題目上的表現(xiàn)也最差,只有48.4%的學生回答正確。最簡單的是第2題,難度為-2.09,有88.1%的學生回答正確。題目選擇了與環(huán)保相關的材料,考察的是初中化學最基礎的知識??陀^題難度處在中、低水平,符合客觀題命題特點和要求。另外,從知識點和價值觀兩個方面起到了導向作用,符合當前考試命題選材體現(xiàn)價值觀引導作用的要求。
表2 客觀題分析結果
主觀題可以測量學生對某個知識點的理解、遷移以及應用知識解決問題的過程。與客觀題相比,主觀題考察范圍更廣,考察結果更具外部效度。[6]此次考試中共有7個主觀題,均以等級方式計分。
主觀題分析使用了分部計分模型(Rasch-Masters Partial Credit Model, PCM)。[7]PCM分析得到的參數(shù)稱為閾值參數(shù)(Threshold Parameter),對于有n個得分的題目,存在n-1個參數(shù)。閾值參數(shù)其實是兩個相鄰等級的選項特征曲線(Category response curves, CRC)之交點。
以第8題為例,滿分為8分,理論上可以有0至8分共九種得分的可能。圖2為該題各選項的特征曲線。橫軸為Rasch量尺,縱軸為得分的概率。A至H點為相鄰兩條曲線的交點,如點H為7、8分兩條曲線的交點,H點對應到Rasch量尺上的值為1.65。在該點右側代表8分的曲線位置最高,在該點左側代表7分的曲線位置最高。這表示當學生能力大于1.65時,得8分的概率最高;當學生能力在[0.90,1.65]區(qū)間內時(點G和點H所對應的區(qū)間),得7分的概率最高。這些交點對應的能力值就是該題目的閾值參數(shù)。每兩個閾值之間有一條曲線的位置最高,代表能力在這一區(qū)間內的學生得到這一分數(shù)的概率最大。
閾值參數(shù)應當是從左至右遞增的[8],但第8題卻出現(xiàn)了閾值順序錯亂的現(xiàn)象。A點對應的能力為-0.9,大于B點所對應的能力值-1.1。從圖形上看能力在[-1.1,-0.9]區(qū)間內的學生得1分的概率還不及得0分的概率。出現(xiàn)這種情況的原因可能是閱卷教師對0分和1分的評分標準掌握較差,或者評分標準在這兩個分數(shù)的使用上表述不明,這都將影響測評的結果。對主觀題的閾值參數(shù)進行整理后發(fā)現(xiàn),除第8題的0、1得分外,第7題的3、4得分和第13題的4、5得分也出現(xiàn)了上述現(xiàn)象。
圖2 第8題選項特征曲線
從例子中不難看出,兩個閾值之間的距離不宜太小,整個閾值的分布也應當越寬越好,這樣才能更好地區(qū)分不同能力水平的學生。主觀題中閾值寬度最大的是第11和12題,最小的是第13題。該題考查的內容均為基礎知識,將多個基礎知識整合后命題是當前考試的一種重要命題形式。該題目考查的知識點是溶液中溶質的計算方法、分子式化學方程式的書寫、質量守恒定律等。這種學科內的綜合的考查方式有利于引導學生重視對所學化學知識進行整合,建立起知識內聯(lián)系,培養(yǎng)對化學知識的概括、歸納、判斷以及對化學知識的遷移運用能力。
表3 主觀題分析結果
各題目的第一個閾值可以看作是學生“能否得分的臨界點”,以第7題為例:學生能力高于-1.58,則有可能高出越多,得分越高,因此-1.58可以作為學生“能否得分的臨界點”。這一臨界點對應的能力值越小,說明學生在該題上得分越容易。由表3可以發(fā)現(xiàn),第10題和第12題得分最容易,這兩個題考查的內容均為基礎的化學實驗,這表明中考對實驗相關內容的考查注重基礎知識的掌握。與學生“能否得分的臨界點”相對應,最后一個閾值參數(shù)則稱為學生“得滿分的臨界點”。該點對應的能力值越高表明該題目得滿分越難,只有高水平的學生才有可能得到滿分。從表3中可以發(fā)現(xiàn),得滿分難度最高的是第11題。該題要求學生根據(jù)提示內容寫出化學反應的方程式、配平方程式,之后在此基礎上回答一系列問題。在這一題目上獲得高分需要學生掌握題干中所描述的化學反應和配平公式等多個知識點。這些知識對學生能力都有很高的要求。
值得一提的是第10、12題的第一個閾值對應的能力很低,同時最后一個閾值對應的能力很高。這表明中考對實驗知識的考查不僅注重基本知識的掌握,同時也試圖通過實驗題拉開學生之間的得分差距。實驗知識是初中化學學習的重點,是高中階段學習的基礎,因此中考非常重視對實驗技能的考查,利用這部分知識區(qū)分學生能力,為高中選拔優(yōu)秀學生提供了重要參考,同時也起到了引導化學教學重視實驗的導向作用。
信息量是IRT中表示測量精度的指標,信息量越大測量誤差越小。整套測驗的信息量如圖3。測驗的最高信息量Imax=10.81,信息曲線的峰值點對應的能力值為0.32,表明測驗對能力在該水平附近學生的測量精度最高。中考作為選拔性考試,參加考試的學生人數(shù)很多,學生的能力水平差異很大。能力很高的學生肯定可以達到入學要求,能力很低的學生則肯定會落榜。與這兩類極端能力水平的學生相比,一套好的試卷更應當精確區(qū)分能力在中等水平的學生?;瘜W試卷測量精度最高的能力范圍在0.32附近,符合了這一命題思路。
圖3 測驗信息量
項目分析及信息量分析結果表明:學生能力與題目難度基本匹配,但高難度題目較少,導致對極高能力的優(yōu)秀考生測量誤差較大。以全市前1000名考生為例,他們的能力在[4.24,8.55]之間,測量的誤差在[0.73,1.89]之間,測量誤差較大。所以在選拔優(yōu)秀學生時,對這些學生再進行難度更大的第二階段測試,如發(fā)揮學校自主招生環(huán)節(jié)的作用,才能準確評估他們的能力。
選擇題分析結果表明:命題的內容選擇和難度分配比較合理,符合客觀題題型的特點和以往的命題傳統(tǒng);主觀題數(shù)據(jù)分析結果表明:題目難度評分細則的設計或在閱卷環(huán)節(jié)未予明確,導致教師在閱卷過程中出現(xiàn)評分誤差,對評分的客觀性、公平性有一定的影響。建議在閱卷環(huán)節(jié)組織教師對評分規(guī)則進行評審、集中學習,增加修訂和試評環(huán)節(jié)。
以中考為代表的大型選拔性高風險考試,在命題時首先追求考試的效率,題目不宜過長,所以才會出現(xiàn)壓縮分值、多個科目合卷的情況,如中、高考中的文理科綜合考試。這就造成了對能力水平處在Rasch量尺兩端的學生測量精度較低的現(xiàn)狀,可能會造成考試結果的不公平。解決效率與公平的問題可以通過多階段測試的方法,如在入學后再根據(jù)學生成績,分組進行更有針對性的考試,得到較為準確的學生能力參數(shù),這樣才有利于對不同能力水平學生的培養(yǎng),真正實現(xiàn)因材施教。