宋吉祥 李付鵬
(安徽省教育招生考試院命題中心,合肥,230022)
學業(yè)水平考試實行等級賦分是新一輪高考改革的重要內(nèi)容。根據(jù)試點省市已出臺的文件規(guī)定,學業(yè)水平等級性考試科目以等級成績計入高校招生錄取總成績,具體轉(zhuǎn)換時,先按等級性考試科目的考生原始成績從高到低劃定若干個等級;再將各等級內(nèi)的考生原始成績,依照給定的轉(zhuǎn)換方法,分別對應(yīng)轉(zhuǎn)換到相應(yīng)的分數(shù)區(qū)間,得到考生的等級成績。因此,等級劃分的準確性和一致性在很大程度上決定了等級成績轉(zhuǎn)換的科學性和公平性。
本文利用項目反應(yīng)理論的Lee方法,使用大規(guī)模教育考試的實測數(shù)據(jù),對改革試點省市學業(yè)水平等級性考試科目采用五等級和八等級等比例轉(zhuǎn)換方法進行分數(shù)分類的一致性和準確性研究。
在教育測量中用分類一致性和分類準確性指數(shù)來評價分數(shù)等級分類的可靠性。分類一致性指在重復(fù)測驗中被試被劃分為同一類別的程度,也即兩次平行測驗中被試觀察分類相同的概率。由于很少對同一被試進行兩次平行測試,分類一致性通常是通過單一測試來估計,并且對測量誤差和真實分數(shù)的分布有很強的假設(shè)[1]。以考試分數(shù)的分類為例,對于只有一個及格分數(shù)線的考試來說,考生重復(fù)參加考試時被相同地劃分為及格或不及格的概率,這就是分類一致性[2]。該定義也可以推廣到多個分數(shù)等級的情況[3]。分類準確性是指被試觀察分類與真實分類相同的概率[4]。假定通過某種方法得知考生的真分數(shù),根據(jù)考生在考試中得到的觀察分數(shù)所作的分類和根據(jù)其真分數(shù)所作分類的一致性就稱為分類準確性。
從某種意義上來說,分類一致性反映的是對考生決策的信度,而分類準確性反映的是對考生決策的效度。也就是說,等級分類準確性和一致性類似于常模參照考試的信度和效度。在實行等級計分的學業(yè)水平考試中,如果考生重復(fù)參加一項考試的分數(shù)是在同一個等級之內(nèi),就可以認為分類具有一致性;如果考生被分類在相應(yīng)的能力等級水平,就認為分類具有準確性。
目前已發(fā)展了多種分數(shù)分類準確性和一致性的方法。從方法所屬的測量理論分類,可以分為基于經(jīng)典測量理論的方法和基于項目反應(yīng)理論的方法。從方法所屬的試題計分類型分類,可以分為二級計分的方法和多級計分的方法。本研究主要探討項目反應(yīng)理論的Lee方法為代表的基于觀察分數(shù)的分類情況。Lee方法使用IRT作為心理測驗的基礎(chǔ)。假設(shè)θ和g(θ)分別表示被試潛在特質(zhì)及密度函數(shù),x 表示觀察分數(shù),x1,x2,…,xh-1分別表示將被試分為k類的k-1個等級分數(shù),h表示被試分類類別,h=1,2,…,k。分數(shù)分類一致性和分類準確性指數(shù)可按如下方法計算得到。
分數(shù)分類一致性指數(shù)。根據(jù)IRT模型估計項目反應(yīng)概率,考慮到條件求和分數(shù)分布以及劃界分數(shù),條件分類概率可通過計算在類別h上所有分數(shù)x的條件概率之和得出。條件分類一致性φ(θ)被定義為能力為θ的考生在平行測驗上被歸為同一類別h的概率,即θ分布上的條件分類一致性。根據(jù)能力分布的密度函數(shù),對條件求和分數(shù)概率求積分,就可得到所有考生在測驗中被一致分類的概率,即邊際分類一致性。另一個反映邊際分類一致性系數(shù)的指標是Kappa系數(shù),是指測驗真實分類一致性與最大可能分類一致性的比值K=(φ-φc)/(1-φc),φc表示由于偶然機會造成的分類結(jié)果一致的概率,其計算公式為,p(h)為 θ在分布上條件分類一致性概率進行積分后的邊際一致性概率,通過對條件分類概率pθ(h)在所有的θ取值區(qū)間進行積分所得。
分數(shù)分類準確性指數(shù)。假設(shè)在總成績測量中有一組真實的分數(shù),即 τ1,τ2,…,τk-1,可確定每個具有能力參數(shù)為或者真分數(shù)為τ的考生真實的分類狀態(tài)。如果已知考生真實的分類狀態(tài)η(1,2…,K),可計算出真分數(shù)下的條件分類概率準確分類的條件概率,γ(θ)=pθ(η),邊際分類準確度指數(shù)為。分類準確度通常通過假正向和假負向錯誤率來評估。條件假正向分類錯誤率是指考生被劃分到高于考生真實類別的概率,條件假負向分類錯誤率是指考生被劃分到低于考生真實類別的概率。對于θ∈η*,條件假正向分類錯誤率和條件假負向分類錯誤率可分別表示為,,邊際正向分類指數(shù)和邊際負向分類指數(shù)分別為。有關(guān)Lee方法更為詳細的介紹可參見有關(guān)文獻[5]。
通過模擬研究,分析到Lee方法估計分類一致性和準確性指數(shù),探討高中學業(yè)水平考試五等級賦分方法和八等級賦分方法的分類一致性和準確性。
研究數(shù)據(jù)取自某省某年度高中大規(guī)模測試的考試成績,抽取樣本量2942(不含零分考生)。試題來自綜合科目,共計90道,這里選取前60道進行研究。試題編碼后的主要統(tǒng)計信息見表1所示。60道試題,均為四選一選擇題,采用0~1計分方式編碼(答對得1分,答錯得0分),總分為60分;總體平均分38.27分,標準差10.12,成績呈負偏態(tài)分布。
表1 試題編碼后的主要統(tǒng)計信息
基于Rasch模型的測量,在檢驗分數(shù)分類的一致性和準確性之前,需進行試題數(shù)據(jù)與Rasch模型的擬合分析。只有當數(shù)據(jù)擬合模型時,Rasch測量的客觀和等距的優(yōu)良特性才能表現(xiàn)出來,后續(xù)統(tǒng)計分析的結(jié)果才是有效的。表2提供了Infit MNSQ(Infit Mean Square)和 Outfit MNSQ(Outfit Mean Square)卡方擬合指標。Infit MNSQ和Outfit MNSQ可接受的取值范圍在很大程度上取決于研究目的,一般建議取0.5~1.5的范圍[6]。從表2中可知,這里Infit MNSQ的值基本處于0.7~1.3,說明學生的能力水平與題目難度比較吻合。Outfit MNSQ的值僅有個別試題的擬合統(tǒng)計指標略高于1.5,沒有擬合統(tǒng)計指標低于0.5的試題。總體上來說,本研究選取的數(shù)據(jù)基本擬合Rasch模型,可以進行后續(xù)的Rasch分析。
表2 試題擬合統(tǒng)計
本研究討論的是試點省市學業(yè)水平等級性考試科目采用的五等級和八等級等比例轉(zhuǎn)換方法。八等級賦分方法將每門等級性考試科目中考生的原始成績從高到低分為 A、B+、B、C+、C、D+、D、E共8個等級,對應(yīng)的等級比例依次為3%、7%、16%、24%、24%、16%、7%、3%。五等級賦分方法將每門等級性考試科目中考生的原始成績從高到低分為A、B、C、D、E共5個等級,對應(yīng)的等級比例依次為15%、35%、35%、13%、2%。兩種等級賦分方法的劃界分數(shù)均是按照考生成績分布與各等級既定比例確定。等級劃分從總體上決定了對考生能力層次的劃分?;诒狙芯繕颖荆?jīng)測算,五等級的劃界分數(shù)依次為50、38、27、20,八等級的劃界分數(shù)依次為 55、52、47、38、31、25、21。
一般認為,不同等級的被試應(yīng)具有一定的水平差異,劃分等級時,一個基本的要求是每相鄰兩個等級的條件標準測量誤差之和必須小于兩個等級的劃界分數(shù)之差[7]。圖1給出了五等級賦分和八等級賦分的成績分布密度曲線圖,表3給出了分數(shù)分布及條件標準測量誤差。由于兩個等級模擬使用的數(shù)據(jù)相同,圖1中兩個圖形的密度曲線圖是相同的,圖形具有較為明顯的雙峰特點,正態(tài)性略差。與五等級相比,八等級區(qū)間之間的分差小一些,最小的分數(shù)區(qū)間為[52,55],僅有3分的差異。等級B+和B的劃界分數(shù)52分,等級B+和等級A的劃界分數(shù)為55分,兩個劃界分數(shù)之差為3分,52分和55分處的條件標準測量誤差分別為1.81和1.29,兩者之和略高于區(qū)間分差3分。表3顯示條件標準測量誤差較大的區(qū)域在中低分區(qū)間,兩種等級賦分方式各等級區(qū)間具有一定的差異,也都沒有出現(xiàn)等級區(qū)間端點分數(shù)重疊或較為接近的現(xiàn)象。五等級和八等級兩種等級劃分方式,五等級相鄰兩個等級的條件測量標準誤差之和均小于兩個等級的劃界分數(shù)之差,八等級在中低分端出現(xiàn)相鄰兩個等級的條件測量標準誤差之和略高于兩個等級的劃界分數(shù)之差的情況。初步判斷,五等級分類更為合理。
圖1 五等級(上)和八等級(下)的成績分布
表3 分數(shù)分布與條件測量標準誤差(CSEM)對應(yīng)關(guān)系
表4給出了五等級賦分和八等級賦分的分類準確性和一致性統(tǒng)計指數(shù)。結(jié)果顯示,五等級和八等級賦分的各項統(tǒng)計指數(shù)都不是很高,分類一致性和準確性指數(shù)都低于0.8,邊際分類一致性指數(shù)高于Kappa系數(shù),正向錯誤分類和負向錯誤分類均比較高。其原因可能是多方面的,既可能與等級劃分有關(guān),也可能與測驗編制有關(guān)。
表4 分數(shù)分類一致性和準確性
但就分類一致性和準確性比較而言,分數(shù)分類準確性的指數(shù)好于分類一致性;就五等級賦分和八等級賦分比較而言,五等級賦分的分類一致性和準確性指數(shù)好于八等級賦分。
圖2給出了五等級和八等級分類一致性指數(shù)的可視化分布圖。每個單元格都顯示了在兩個假設(shè)的平行測驗形式上實現(xiàn)等級組合的概率。對角線代表分類一致性的概率。考生在2個平行測驗中被一致分類的概率可能和劃界分數(shù)的位置有關(guān),由于八等級臨界分類點更多,劃界分數(shù)附近的考生更多,就更容易在兩次劃分中被分到不同的等級;五等級臨界分類點較少,劃界分數(shù)附近的學生相對少一些,相對來說,被錯誤分到兩個相鄰等級的概率也就少一些,分類的一致性略高一些。從圖2中可以看出,五等級中兩次被分類超過一個等級的可能性為零。對于八等級,有可能在一次被分類為A,而在另一次被分類為B+或B,其他等級也存在類似的情況。
圖2 五等級(左)和八等級(右)分類一致性
計算分類準確性的目的是確定在給定其真實能力水平的情況下是否將個人實際劃分為適當?shù)念悇e[8]。如果根據(jù)個人的真實分數(shù),我們的分類決策不準確,那么考生真實分類時可能被高估或低估。圖3給出了五等級和八等級分類準確性的圖形化分布。顯示了兩類等級劃分方式都是在劃界分數(shù)點附近的分類準確性具有下降的趨勢,遠離劃界分數(shù)點的分類準確性具有上升的趨勢;兩類等級劃分方式在均值附近的分類準確性均較低;分數(shù)的兩端和較寬分數(shù)區(qū)間的分類準確性相對高一些,較窄的分數(shù)區(qū)間的分類準確性相對較低;也顯示出五等級的分類準確性明顯好于八等級。
圖3 五等級(上)和八等級(下)分類準確性
上述研究表明,在IRT模型下分類一致性和分類準確性指數(shù)受等級數(shù)量、劃界分數(shù)位置、分數(shù)分布等因素影響。
劃界分數(shù)位置的影響。劃界分數(shù)在測驗分數(shù)分布中的位置對分類一致性和分類準確性的估計影響較大??拷鼊澖绶謹?shù)的分類一致性和分類準確性有降低的趨勢,遠離劃界分數(shù)的分類一致性和分類準確性有升高的趨勢。這顯示測驗分數(shù)在等級劃界分數(shù)附近的考生更容易在兩次或多次劃分中被分到不同的等級,而測驗分數(shù)距劃界分數(shù)較遠的考生相對更能夠被劃分到同一個等級。當劃界分數(shù)靠近測驗分數(shù)平均值時,分類一致性指標和分類準確性指標較小,而當劃界分數(shù)在分數(shù)分布的兩端,也就是在平均分的臨近區(qū)間中,劃界分數(shù)與測驗分數(shù)平均值距離變大時,分類一致性指標和分類準確性指標也變大。這與目前的研究結(jié)論具有一致性[9][10]。
等級劃界分數(shù)數(shù)量的影響。測驗等級劃分的數(shù)量少一些,分數(shù)分類一致性和分類準確性相對高一些,測驗等級劃分的數(shù)量多一些,分類一致性和分類準確性相對低一些。這顯示等級數(shù)量越少,處于劃界分數(shù)點及其附近的考生數(shù)量也相對較少,兩次或多次被劃分到不同等級的考生數(shù)量也相對較小。
分數(shù)分布的影響。等級劃界分數(shù)點落在考生分數(shù)分布較為密集的區(qū)域,等級分類的一致性和準確性相對更低一些。這說明在較為密集的分數(shù)分布區(qū)域進行等級分數(shù)的劃分,必然存在著有較多的學生處于不同臨界等級的附近,兩次或多次分類被劃分到不同等級的可能性更大一些。
本文采用一份大規(guī)模教育測量數(shù)據(jù),以高中學業(yè)水平等級性考試科目兩種賦分方法為例進行了分類一致性和分類準確性的研究,得出如下啟示:第一,等級賦分應(yīng)保持適當?shù)牡燃墧?shù)量。較多的等級數(shù)量易造成分數(shù)分類一致性和分類準確性較低,前三輪高考改革試點省市依次減少等級數(shù)量,這個改革方向是正確的,目前大多數(shù)高考改革省市實行的五等級賦分方法是較為適當?shù)?。第二,等級賦分應(yīng)根據(jù)分數(shù)分布合理設(shè)定劃界分數(shù)。目前試點改革省市,第一批省市以3分一個等級的均勻等距分數(shù)區(qū)間設(shè)定等級,第二批部分省市和第三批、第四批省市在高分端和低分端實行小的分數(shù)區(qū)間等級,在分數(shù)的中部實行較大的分數(shù)分布區(qū)間等級,后者更加符合大規(guī)模測試分數(shù)分布的規(guī)律,一般認為具有一定規(guī)模測試考生人數(shù)的原始分數(shù)服從正態(tài)分布,測驗分數(shù)的分類一致性和分類準確性更高,更加具有科學依據(jù)。但是,對所有學科使用基于觀察分數(shù)的固定百分比確定劃界分數(shù)的方式,還有待進一步研究。第三,等級賦分對學業(yè)水平考試命題提出了較高的要求。試題命制應(yīng)充分考慮考試的分數(shù)分布,試卷的平均分應(yīng)設(shè)定在盡量遠離等級分數(shù)劃界點的位置,由于均值附近一般分布較多的考生,使劃界分數(shù)盡量遠離測試的平均分,避免出現(xiàn)較多的考生被錯誤的分類。同時,要合理劃分學生的學業(yè)水平,在命題時就要規(guī)定不同知識深度水平試題的比例,一方面要滿足課程標準規(guī)定的不同認知類型比例的要求,以便于保證考試的認知要求或能力結(jié)構(gòu)與課程標準的能力結(jié)構(gòu)相一致;另一方面也要與學業(yè)水平考試等級的劃分要求相一致,由于學業(yè)水平考試科目在國家課程設(shè)置上天然存在著課程內(nèi)容、學時和要求的差異,不同的課程在未來高校不同專業(yè)學習中也各有側(cè)重,而實現(xiàn)不同學科分數(shù)之間的可比性,則要求不同科目的基本條件具有一致性,特別是在統(tǒng)計指標上具有一致性,應(yīng)該合理設(shè)置考試內(nèi)容與試卷結(jié)構(gòu),在確定不同知識深度水平的試題比例時,要考慮學生達到某一水平,正確應(yīng)答的試題比例和數(shù)量,合理設(shè)定各學科試卷難度,進一步提高試題質(zhì)量。
本文的研究有一定的局限性。分數(shù)分類的影響因素非常多,運用一個特定的理論和分析方法分析的結(jié)果可能不具有普遍性,不同的學科也可能具有不同的分數(shù)分布特征,還有其他的一些因素都有可能影響分析結(jié)果。因此,本文研究結(jié)果的穩(wěn)定性和有效性還需要進行進一步的驗證,這是下一步的工作。