標(biāo)準(zhǔn)設(shè)定與等級劃分

2013-08-08 16:56:52向冠春

成人教育 2013年1期

向冠春

(教育部考試中心，北京 100084)

一、引言

標(biāo)準(zhǔn)即衡量事物的準(zhǔn)則，在心理與教育測量研究領(lǐng)域中，標(biāo)準(zhǔn)更多地涉及到受試者的表現(xiàn)。對于任何一種標(biāo)準(zhǔn)參照測驗而言，都必須根據(jù)受試者的表現(xiàn)，對其達(dá)標(biāo)與否、合格與否、掌握與否進(jìn)行判斷，這就需要確定分界分?jǐn)?shù)/及格分?jǐn)?shù)(cutoff score，passing score)。分界分?jǐn)?shù)/及格分?jǐn)?shù)將測驗分?jǐn)?shù)分布劃分為兩類或兩類以上，兩類諸如達(dá)標(biāo)與未達(dá)標(biāo)、及格與不及格等，兩類以上則諸如等級A、B、C、D、E，或初級、中級、高級等，據(jù)此對受試者是否掌握某一具體的知識技能，是否勝任某一具體的職位等做出明確的判斷。整個確定分界分?jǐn)?shù)的過程，就被稱為標(biāo)準(zhǔn)設(shè)定(standard setting)，其目的在于確定一個能夠引導(dǎo)決策制定的準(zhǔn)則。

對于高利害關(guān)系的考試來說，可信賴的分?jǐn)?shù)線的設(shè)立是測試開發(fā)中最關(guān)鍵的問題之一。比較不同測試的通過分?jǐn)?shù)是一個重要的效度問題。如果使用絕對通過分?jǐn)?shù)，大家爭議的問題是使用測試分?jǐn)?shù)等值以保持分?jǐn)?shù)量表的穩(wěn)定性，如果分?jǐn)?shù)不進(jìn)行等值處理，即使不同考試的試題難度有一個微小的差別就會造成通過分?jǐn)?shù)的解釋力喪失，且對一些考生造成不公平。因此，大多數(shù)涉及到通過分?jǐn)?shù)線的標(biāo)準(zhǔn)(Standards(AERA，APA，NCME))都會討論等值問題。關(guān)于劃定絕對分?jǐn)?shù)線，標(biāo)準(zhǔn)要求標(biāo)準(zhǔn)設(shè)定專家的任務(wù)是清晰的，且標(biāo)準(zhǔn)設(shè)定專家能夠做出合理的、充分的判斷。標(biāo)準(zhǔn)強調(diào)了分?jǐn)?shù)線劃定程序的公平性及制定出的分?jǐn)?shù)線產(chǎn)生的影響。

無論是傳統(tǒng)的相對方法還是現(xiàn)代的絕對方法，不同的標(biāo)準(zhǔn)設(shè)定方法會產(chǎn)生不同的通過分?jǐn)?shù)線和通過率。不能說哪個方法比其他方法更正確。內(nèi)容專家使用絕對標(biāo)準(zhǔn)設(shè)定方法來制定通過分?jǐn)?shù)，他們的目的不是發(fā)現(xiàn)一個真實的通過分?jǐn)?shù)，而是通過專業(yè)判斷來回答掌握多少知識就足夠(通過)了。通過分?jǐn)?shù)反映了一個社會的政策取向、人們的價值觀、專家判斷、政治制度等。與通過分?jǐn)?shù)相關(guān)的效度證據(jù)的可靠性和強度依賴于所采取方法的合理性、方法的基本原理和研究基礎(chǔ)以及專家的心理特征。

因此，心理與教育測量學(xué)界一致認(rèn)為，標(biāo)準(zhǔn)設(shè)定是相當(dāng)重要、且涉及面很廣、爭議很大、十分棘手的一個議題，自20世紀(jì)70年代起國外涌現(xiàn)出大量關(guān)于標(biāo)準(zhǔn)設(shè)定方法的研究，而我國這方面的研究還比較欠缺。下面主要介紹標(biāo)準(zhǔn)設(shè)定通常涉及的步驟和一些比較經(jīng)典的標(biāo)準(zhǔn)設(shè)定方法及其在等級劃分中的運用，以期對我們在確定考試及格分?jǐn)?shù)線、劃分成績等級等方面有所裨益。

二、標(biāo)準(zhǔn)設(shè)定的步驟

考試中，標(biāo)準(zhǔn)是考試目的和內(nèi)容、應(yīng)試者的能力以及廣泛的社會或教育環(huán)境中專業(yè)價值的體現(xiàn)，設(shè)定標(biāo)準(zhǔn)或切點的方法不是一種憑直覺推測正確解答的技術(shù)，而是一種系統(tǒng)性的方法，包括搜集判斷價值的依據(jù)、對標(biāo)準(zhǔn)達(dá)成共識以及對單個分?jǐn)?shù)的共識。標(biāo)準(zhǔn)設(shè)定的方法很多，可以從一些經(jīng)典標(biāo)準(zhǔn)設(shè)定方法中歸納出一般的標(biāo)準(zhǔn)設(shè)定步驟。

步驟1:確定標(biāo)準(zhǔn)的類型

標(biāo)準(zhǔn)通常有兩種類型，即相對標(biāo)準(zhǔn)和絕對標(biāo)準(zhǔn)。相對標(biāo)準(zhǔn)是以一定數(shù)量或一定百分比的應(yīng)試者來表示，以此來確定切點，例如以一次考試中前50名最優(yōu)秀應(yīng)試者的成績或按得分高低分成前15%和后85%作為切點。絕對標(biāo)準(zhǔn)是以一定數(shù)量或一定百分比的試題來表示，以此來設(shè)定及格標(biāo)準(zhǔn)，例如在100道試題組成的考試中答對70題為合格。

采用何種標(biāo)準(zhǔn)與考試的目的有關(guān)，有的考試項目主要服務(wù)于對特定群體的選拔，有的考試項目的目的在于測試受試者的能力。相對標(biāo)準(zhǔn)非常適用于選拔最高或最低錄取分?jǐn)?shù)的考試，因為在這種情況下能夠被接受的學(xué)生數(shù)是有限的。絕對標(biāo)準(zhǔn)特別適用于以測試能力為目的的考試，包括終末考試、證書考試和執(zhí)照考試等。

步驟2:確定設(shè)置標(biāo)準(zhǔn)的方法

設(shè)定標(biāo)準(zhǔn)的方法有很多，大體上可分為四類:即相對方法、以試題評判為基礎(chǔ)的絕對方法、以對應(yīng)試者個人的評判為基礎(chǔ)的絕對方法以及絕對相對折衷的方法。與上述四類方法相對應(yīng)的具體方法很多，如Angoff法、Nedelsky法、對照組法等。各種標(biāo)準(zhǔn)設(shè)定方法各有其優(yōu)缺點，在為某一項目考試選擇標(biāo)準(zhǔn)設(shè)定方法時，需要考慮某種方法設(shè)定的標(biāo)準(zhǔn)是否同該考試的目的一致。如果二者一致，并且這種標(biāo)準(zhǔn)是以專家們利用應(yīng)試者的成績所做的判斷為依據(jù)，那么這種標(biāo)準(zhǔn)的可信度將得到提高。如果某種方法得到了學(xué)者們充分地研究，且在實踐中得到了檢驗，那么它就易于實施和做出解釋。選擇合適的標(biāo)準(zhǔn)設(shè)定方法是構(gòu)成考試效度證據(jù)的重要來源。

步驟3:選擇標(biāo)準(zhǔn)設(shè)定專家

在考慮考試項目的性質(zhì)、考試的目的、標(biāo)準(zhǔn)設(shè)定方法的特點、標(biāo)準(zhǔn)設(shè)定的成本等因素的前提下，確定參加標(biāo)準(zhǔn)設(shè)定的專家人數(shù)。在邀請這些標(biāo)準(zhǔn)設(shè)定專家時，需要考慮各位專家的特點，如研究領(lǐng)域、所處的地理位置、性別、種族、年齡、經(jīng)歷、觀點等。如為一項醫(yī)師資格考試設(shè)置標(biāo)準(zhǔn)，邀請醫(yī)學(xué)教師、執(zhí)業(yè)醫(yī)生、全科醫(yī)生和?？漆t(yī)生是必須的，同時還應(yīng)邀請醫(yī)師資格考試命題專家、標(biāo)準(zhǔn)設(shè)定方面的教育測量專家。此外，專家構(gòu)成中還需要考慮專家的區(qū)域分布、性別、年齡等因素，這樣可以保證考試項目的標(biāo)準(zhǔn)設(shè)定的信度要求，增加社會對該項考試的信任度。

步驟4:舉行設(shè)定標(biāo)準(zhǔn)的會議

為標(biāo)準(zhǔn)設(shè)定專家提供考試試卷、歷年考試分界分?jǐn)?shù)線、相關(guān)統(tǒng)計數(shù)據(jù)等材料，舉行標(biāo)準(zhǔn)設(shè)定會議。在舉行標(biāo)準(zhǔn)設(shè)定會議時，不同標(biāo)準(zhǔn)設(shè)定方法所涉及的工作內(nèi)容不盡相同。通常情況下，舉行標(biāo)準(zhǔn)設(shè)定會議的要求和要做的工作主要如下:(1)專家們應(yīng)當(dāng)非常熟悉考試內(nèi)容和考試形式，討論處于邊界分?jǐn)?shù)的考生對考試內(nèi)容應(yīng)該掌握的程度，可能部分工作在舉行標(biāo)準(zhǔn)設(shè)定會議前就需要做;(2)專家們應(yīng)當(dāng)討論考試的性質(zhì)、目的、應(yīng)試者的特點以及能力的特質(zhì)，這種討論要服從于使小組定向于設(shè)定標(biāo)準(zhǔn)的演練，澄清怎樣做出評判的某些問題;(3)對參加標(biāo)準(zhǔn)設(shè)定的專家進(jìn)行培訓(xùn)，讓其熟悉所使用的標(biāo)準(zhǔn)設(shè)定方法的原理和步驟，并在培訓(xùn)和演練過程中鞏固其對標(biāo)準(zhǔn)設(shè)定方法的掌握;(4)在整個過程中，專家們應(yīng)當(dāng)給予反饋，彼此知道其他人的判斷，尤其想知道他們所做出判斷的最后結(jié)果;(5)專家們應(yīng)當(dāng)自始至終參加標(biāo)準(zhǔn)設(shè)定會議，任何原因的缺席都會導(dǎo)致資料的缺失，在討論過程中，參加者的缺席也會對其他人產(chǎn)生不利影響。

步驟5:計算合格標(biāo)準(zhǔn)

合格標(biāo)準(zhǔn)的計算將隨著所采用的計算方法而有所不同，但是有些問題是相同的。常常碰到的問題是專家人數(shù)相對較少時，會出現(xiàn)一兩個局外人明顯影響到標(biāo)準(zhǔn)的可能性。在這種情況下，采用中位數(shù)來代替平均數(shù)，或者去掉一個最高分和一個最低分也許是合理的。刪去資料應(yīng)當(dāng)謹(jǐn)慎，只有當(dāng)它的影響相當(dāng)大時，例如對標(biāo)準(zhǔn)的信度具有負(fù)面影響時才不得不刪去某些資料。作為計算標(biāo)準(zhǔn)的一部分，重要的問題是確定設(shè)定標(biāo)準(zhǔn)的過程是否充分可信或者可重現(xiàn)?？尚哦认禂?shù)或可重現(xiàn)性系數(shù)可以用許多種方法來計算，而這種計算會證明這一標(biāo)準(zhǔn)是否相似，如果不相似，就必須由可比較的評判組來重新計算。

步驟6:考試完畢后續(xù)工作

設(shè)定考試標(biāo)準(zhǔn)是一項對專業(yè)價值達(dá)成共識的系統(tǒng)工程，涉及到方方面面的因素。考試完畢以后，重要的問題是保證這種標(biāo)準(zhǔn)應(yīng)產(chǎn)生合理的結(jié)果，在一種連續(xù)不斷進(jìn)行的考試項目中，這一問題涉及到三個方面:首先應(yīng)當(dāng)由有重大利害關(guān)系的各方提出問題，保證他們從可靠性方面去檢查考試的結(jié)果;其次，合格率應(yīng)當(dāng)與同步進(jìn)行的能力評分相比較，以保證它們之間具有預(yù)期的一致性;最后，采用某種標(biāo)準(zhǔn)的結(jié)果應(yīng)當(dāng)同將來的成績進(jìn)行比較。

Johnson等(1998)在Rose(1992)的基礎(chǔ)上又進(jìn)一步擴展了對DCT不同形式的研究。他們在情景描述后進(jìn)行了三種處理：提供肯定答復(fù)、提供否定答復(fù)、不提供答復(fù)。研究結(jié)果呈現(xiàn)出一個更為復(fù)雜的局面：有無答復(fù)以及答復(fù)是肯定還是否定對被試的回答有不同程度的影響，其中對抱怨的影響最小，對道歉的影響最大，對請求的影響居中。該研究得出結(jié)論：運用不同形式DCT得到的結(jié)果可能不具備可比性，它們可能體現(xiàn)了被試對于是否有答復(fù)以及答復(fù)的不同性質(zhì)的敏感程度(Johnson,1998:172)。

三、標(biāo)準(zhǔn)設(shè)定方法

早期的標(biāo)準(zhǔn)設(shè)定方法常常是參照某個特定的團體來界定受試者的表現(xiàn)成就，因而我們稱其為相對方法(relative method)。如固定百分比法，這種方法是請每一位參與標(biāo)準(zhǔn)設(shè)定的專家提出一個他認(rèn)為合格的應(yīng)試者應(yīng)占的百分比，然后將他們建議的百分比在全體專家中進(jìn)行討論，專家可以接受其他人的合理意見，改變自己的評判，討論結(jié)束時，計算各專家的平均合格率，該合格率就是最低合格標(biāo)準(zhǔn)或切點。固定百分比法使用比較方便，可以相同地運用于不同形式和不同類型的考試之中。然而，這種方法只設(shè)定相對的標(biāo)準(zhǔn)，其獨立于考試內(nèi)容，應(yīng)試者都知道合格率是多少。另外，按這種方法設(shè)定的標(biāo)準(zhǔn)，根據(jù)應(yīng)試者的能力，從本次到下一次考試將是不同的。因此，固定百分比法較適用于期望鑒別一定數(shù)量最佳或最差應(yīng)試者的考試。

20世紀(jì)70年代，隨著標(biāo)準(zhǔn)參照測驗的迅猛發(fā)展，相對方法逐漸被絕對方法(absolute method)所取代。絕對方法不需要參照其他受試者的表現(xiàn)來界定某一特定的受試者，只需要專家對于特定受試者的知識和技能水平做出評判即可。下面介紹幾種典型的絕對方法。

1.Nedelsky 法

這一方法是Nedelsky在1954年首先提出的，僅適用于多項選擇測驗。其基本理論假設(shè)是:最低能力受試者能夠區(qū)分多項選擇測驗中每個題目中明顯錯誤的選項，但是對于剩余的選項只能進(jìn)行隨機的猜測。Nedelsky方法操作步驟具體如下:(1)要求專家考察測驗中每個題目的選項，評判最低能力受試者能夠排除明顯錯誤的選項;(2)計算出每個題目剩余選項個數(shù)，對剩余選項個數(shù)求倒，即得到每個題目的“最低通過水平”(minimum passing level，MPL);(3)對測驗中所有題目的MPL求和，即為一位專家評判測驗的MPL;(4)每位專家按照以上步驟得出測驗的MPL，然后求平均，即為整個測驗的最終分界分?jǐn)?shù)。若結(jié)果為非整數(shù)，進(jìn)位至整數(shù)。

表1 Nedelsky方法的一個實例

表1為一位專家運用Nedelsky方法，對由10個題目構(gòu)成的一個多項選擇測驗進(jìn)行標(biāo)準(zhǔn)設(shè)定的例子，每個題目由4個選項構(gòu)成，每個題目1分，專家按照Nedelsky方法的操作步驟，得到的 MPL為6.41。其他專家按照上述同樣的步驟便可得出他們的MPL值，若共邀請了5位專家，其余4位專家的MPL值分別為 6.21、6.47、7.24和 7.56，5位專家MPL值的平均數(shù)為6.78，則測驗的最終分界分?jǐn)?shù)為7。

2.Angoff法

這一方法是Angoff在1971年首先提出的，可適用于包括多項選擇測驗在內(nèi)的多種測驗形式，且只需對每個測試題目進(jìn)行考察即可，而不象Nedelsky方法，要對每個題目的每一選項進(jìn)行考察。Angoff方法操作步驟具體如下:(1)專家考察測驗中每個測試題目，估計最低能力受試者能夠正確作答每個題目的概率，概率取值在［0，1］之間;(2)將一個專家對測驗中所有題目估計的概率求和，即為此專家評判的測驗分界分?jǐn)?shù);(3)每位專家按照以上步驟得出測驗分界分?jǐn)?shù)，然后求平均，即為整個測驗的最終分界分?jǐn)?shù)。若結(jié)果為非整數(shù)，進(jìn)位至整數(shù)。

Angoff方法是到目前為止應(yīng)用最廣、研究最多的一種方法。它擁有許多變式，一種變式是將每題的概率估計值限定為特定的幾種，如10%的倍數(shù)。另一種變式則要求專家進(jìn)行多輪循環(huán)評定，除第一輪外其余幾輪允許專家參考他人的估計作相應(yīng)的調(diào)整。

表2 Angoff方法的一個實例

表2為五位專家運用Angoff方法，對由10個題目構(gòu)成的一個多項選擇測驗進(jìn)行標(biāo)準(zhǔn)設(shè)定的例子。每個題目由4個選項構(gòu)成，每個題目1分，專家按照Angoff方法的操作步驟，得到的測驗分界分?jǐn)?shù)介于5.10至7.25之間，再求平均，得到整個測驗的最終分界分?jǐn)?shù)為6.57，進(jìn)位至7。

3.Jaeger法

這一方法是Jaeger在1978年首先提出的，概念上如同yes/no的Angoff法，將可能判定的幾率值具體化為兩種選擇，但差別在于加入需反復(fù)執(zhí)行的過程，即給予專家討論先前所評定結(jié)果的機會，以供調(diào)整時參考。與傳統(tǒng)的Angoff或Nedelsky法相比，Jaeger法強調(diào)對所有受試者作判定，專家則不需在心目中概念化所謂最低能力表現(xiàn)者。此外，在反復(fù)過程中額外提供三類參照信息:首次評定后其他專家建議的標(biāo)準(zhǔn)、專家本身先前評定結(jié)果、依學(xué)生真實表現(xiàn)得出的試題難度值。Jaeger方法操作步驟具體如下:(1)要求專家考察測驗中每個題目，并回答這樣一個問題“是否每一個受試者都能正確回答這一題目?”是，則賦值1;否，則賦值0。(2)將專家對測驗中所有題目的估計值求和，即為一位專家設(shè)定的測驗分界分?jǐn)?shù)。(3)每位專家按照以上步驟得出測驗的分界分?jǐn)?shù)，然后求平均，即為這一輪整個測驗的分界分?jǐn)?shù)。若結(jié)果為非整數(shù)，進(jìn)位至整數(shù)。

表3 Jaeger方法的一個實例

4.書簽法(The Bookmark Method)

為彌補傳統(tǒng)方法的不足，Lewis，Mitzel，Green 三位學(xué)者于1996年提出了Bookmark法，它是基于項目反應(yīng)理論(Item Response Theory，IRT)、以Angoff法為基礎(chǔ)的專家評定法，通過邀請有關(guān)學(xué)科專家以測驗材料的難度參數(shù)值為基礎(chǔ)，按照由易到難的順序討論每道題目，判斷“基本掌握該領(lǐng)域知識的考生”能否做對所討論的題目，在考生不能通過的題目上做出標(biāo)識，以此作為設(shè)置劃界分?jǐn)?shù)的依據(jù)。

由于Bookmark法融合了IRT與Angoff法原理，因此 Lewis，Green，Mitzel，Baum 和 Patz(1998)等學(xué)者又將其稱為修正的IRT－Angoff法。作為以IRT為基礎(chǔ)的方法，當(dāng)不同測驗的樣本來自同一總體時，Bookmark法能將多個測驗的題目放在同一題目手冊中排序，然后合并為一個測驗，達(dá)到為多種類型的測驗設(shè)置單一劃界分?jǐn)?shù)的目的。此外，在Angoff法的基礎(chǔ)上，Bookmark法能夠在一次測驗中設(shè)置及格、優(yōu)良等多重劃界分?jǐn)?shù)線。

Bookmark法的使用流程與Angoff法相似，但Bookmark法向?qū)W科專家呈現(xiàn)的是題目的難度值，其結(jié)果包括所有考生正確作答每道題目的比例和累積百分比，簡單步驟如下:(1)學(xué)科專家分組，對題目進(jìn)行由易到難排序，同時提供學(xué)科專家一份試題圖(item map)，說明試題在排序后與排序前在測驗卷中所處的位置和各試題所欲測量的內(nèi)容或知識;(2)第一次放置書簽，將書簽放置在最低能力受試者有2/3(約67%)能正確作答的2個試題簽;(3)反饋并討論第一次書簽放置結(jié)果，再次放置書簽;(4)向所有學(xué)科專家呈現(xiàn)所有書簽放置結(jié)果，參照前兩輪步驟開展第三次討論，放置書簽，結(jié)束Bookmark程序。

此外，若加以延伸可按相同步驟設(shè)置多重分?jǐn)?shù)線，如圖1所示(B:Basic，合格;P:Proficient，熟練;A:Advanced，優(yōu)良)。

圖1 書簽法中已排序的題目手冊

5.Ebel法

這一方法是Ebel在1972年首先提出的。概念上是借助試題的特性來決定最低通過分?jǐn)?shù)。相較于Nedelsky方法和Angoff方法，Ebel方法要求專家對測驗題目進(jìn)行更加仔細(xì)的分析，因而在操作上具有一定的難度。Ebel方法操作步驟具體如下:(1)專家按照題目難度(difficulty)(低、中、高三個水平)和題目與內(nèi)容的相關(guān)度(relevance)(高相關(guān)、中等相關(guān)、低相關(guān)、不相關(guān)四個水平)兩個維度對每個測驗題目的特性進(jìn)行判定，分別將其置入各細(xì)格內(nèi)，形成一個3×4的列聯(lián)表;(2)對于3×4列聯(lián)表的每一單元格(共12個單元格)賦予一個所有專家協(xié)商得出的概率，這個概率假定的是最低能力受試者能夠正確作答的可能性;(3)將各單元格的題目個數(shù)與各單元格被賦予的概率相乘，再求出所有單元格分?jǐn)?shù)之和，即為測驗的分界分?jǐn)?shù);(4)每位專家按照以上步驟得出測驗的分界分?jǐn)?shù)，然后求平均，即為整個測驗的最終分界分?jǐn)?shù)。若結(jié)果為非整數(shù)，進(jìn)位至整數(shù)。

表4為一位專家運用Ebel方法，對由15個題目構(gòu)成的一個多項選擇測驗進(jìn)行標(biāo)準(zhǔn)設(shè)定的例子。專家按照Ebel方法的操作步驟，得到的測驗分界分?jǐn)?shù)為10.9。

表4 Ebel方法的一個實例

6.邊界組法

這一方法是Zieky和Livingston在1977年首先提出的，其依據(jù)的理論假設(shè)是分界分?jǐn)?shù)應(yīng)從一組邊界組受試者的測驗分?jǐn)?shù)中產(chǎn)生。邊界組受試者的知識和技能水平介于掌握和不掌握之間的模糊狀態(tài)。從這個意義上說，邊界組受試者有點類似于前面幾種方法(項目中心模型方法)中提到的最低能力受試者，但并不完全相同。邊界組受試者是對受試者的實際知識和技能水平進(jìn)行判斷，而最低能力受試者則是一個假想的概念。邊界組方法的操作步驟具體如下:(1)選拔內(nèi)容學(xué)科專家和教育測量專家;(2)針對測驗所測內(nèi)容，界定邊界組受試者具有的知識和技能水平;(3)根據(jù)界定，找出一組邊界組受試者;(4)向這組受試者實施測驗，獲得測驗分?jǐn)?shù);(5)求這組受試者測驗分?jǐn)?shù)的中位數(shù)，即為測驗的分界分?jǐn)?shù)(見圖2)。

圖2 邊界組方法示意圖

7.對照組法

這一方法是Livingston和Zieky在1982年首先提出的，其依據(jù)的理論假設(shè)是根據(jù)受試者的知識和技能水平，可以將受試者劃分為掌握組和不掌握組，將兩組受試者的測驗分?jǐn)?shù)分配曲線畫出，兩曲線的交叉點即為分界分?jǐn)?shù)，認(rèn)為此交叉點形成的分類錯誤是最小的。對照組方法的操作步驟具體如下:(1)選拔內(nèi)容學(xué)科專家和教育測量專家;(2)針對測驗所測內(nèi)容，界定掌握組和不掌握組受試者具有的知識和技能水平;(3)根據(jù)界定，找出兩組不同的受試者;(4)分別向這兩組受試者實施測驗，獲得測驗分?jǐn)?shù);(5)將這兩組受試者測驗分?jǐn)?shù)的頻數(shù)分布繪制在同一坐標(biāo)系中，這兩個頻數(shù)分布的交叉點就是測驗的分界分?jǐn)?shù)(見圖3)。

圖3 對照組方法示意圖

四、等級劃分

等級劃分評定人員運用某種標(biāo)準(zhǔn)設(shè)定方法，設(shè)置一個或多個分界分?jǐn)?shù)，將考生的考試結(jié)果劃分為兩個等級(如及格和不及格)或多個等級(如A、B、C、U等)，這一過程稱之為等級劃分。對考生的成績進(jìn)行等級劃分，向社會公布考生考試結(jié)果的等級，而不是考生的原始分?jǐn)?shù)，這種分?jǐn)?shù)處理方式在英國比較普遍。下面以劍橋評價劃分GCE考試的等級為例簡要說明等級劃分的過程。

1.準(zhǔn)備等級劃分的材料

進(jìn)行正式等級劃分工作之前，為等級評定人員準(zhǔn)備一些定性和定量的材料，如試卷(作業(yè))和最終評分方案的復(fù)印件、相應(yīng)學(xué)科領(lǐng)域的照片或影像證明材料、可獲得的公開的成績材料、先進(jìn)事跡材料、試卷(作業(yè))的分?jǐn)?shù)分布狀況等內(nèi)、外部評價材料。這些材料越充分，構(gòu)成等級劃分效度證據(jù)越有說服力，社會可信度越高。

2.成立等級劃分評定委員會

在劍橋評價，等級劃分評定委員會由主考官負(fù)責(zé)組織成立并展開工作，除主考官外，委員會的成員還包括執(zhí)行考官、責(zé)任考官、課程專家、標(biāo)準(zhǔn)設(shè)定專家和項目經(jīng)理等人員。從研究領(lǐng)域角度，他們有的是熟悉命題工作的命題專家、有的是熟悉課程內(nèi)容的學(xué)科專家、有的是熟悉標(biāo)準(zhǔn)設(shè)定方法的教育測量專家。從地域分布的角度，他們遍布英國的南部、北部和中部。劍橋評價這種等級劃分評定委員會的成員結(jié)構(gòu)也是構(gòu)成考試效度的強有力的證據(jù)。

3.確定各模塊關(guān)鍵等級的分?jǐn)?shù)

GCE考試將各學(xué)科的內(nèi)容分為幾個模塊，一般一個學(xué)科分為3、4個模塊。各模塊的原始滿分可能是75分，也可能是60分或其他分?jǐn)?shù)。GCE考試等級分為A、B、C、D、E和U六個等級，其中E/U和A/B是關(guān)鍵等級邊界。等級評定人員根據(jù)考生的內(nèi)、外部評價材料，按照實施規(guī)程對關(guān)鍵邊界等級考生應(yīng)該掌握相關(guān)知識、技能和能力的描述和界定，結(jié)合全體考生總體考試情況，運用邊界組法或Angoff法討論確定E/U和A/B是關(guān)鍵等級對應(yīng)的原始分?jǐn)?shù)，B/C、C/D和D/E的邊界分?jǐn)?shù)是由A/B和E/U邊界間的分?jǐn)?shù)區(qū)間除以4計算得出①。如果某一模塊的原始滿分是60分，假設(shè)E/U和A/B這兩個關(guān)鍵等級的邊界分?jǐn)?shù)分別是20分和48分，則B/C、C/D和D/E的邊界分?jǐn)?shù)分別為27分、34分、41分。

4.將各模塊的原始分?jǐn)?shù)轉(zhuǎn)化為標(biāo)準(zhǔn)分?jǐn)?shù)

如上所述，每個模塊有六個等級，每個等級對應(yīng)的標(biāo)準(zhǔn)分?jǐn)?shù)已在實施規(guī)程中有所規(guī)定，可以按照一定的算法將原始分?jǐn)?shù)轉(zhuǎn)化為標(biāo)準(zhǔn)分?jǐn)?shù)，如表5所示。原始分為0轉(zhuǎn)化成標(biāo)準(zhǔn)分也必須為0，某模塊的最高原始分?jǐn)?shù)轉(zhuǎn)化成標(biāo)準(zhǔn)分?jǐn)?shù)時也是該模塊的最高分。

表5 模塊原始分?jǐn)?shù)與標(biāo)準(zhǔn)分?jǐn)?shù)對照表

5.加總各模塊標(biāo)準(zhǔn)分，將其轉(zhuǎn)化為學(xué)科等級

在得到各模塊標(biāo)準(zhǔn)分?jǐn)?shù)之后，將其加總得到學(xué)科的標(biāo)準(zhǔn)總分，參照實施規(guī)程設(shè)定的標(biāo)準(zhǔn)總分與學(xué)科等級對照表(如表6所示)，確定學(xué)科等級。如果各模塊的等級均為A，則其學(xué)科等級必定為A;有些考生一部分模塊的等級為A、一部分模塊的等級為B，其最終學(xué)科等級也有可能為A，例如:某考生的模塊等級分別為A、A、B、B，對應(yīng)的標(biāo)準(zhǔn)分分別為89、85、78 和 76，其學(xué)科總標(biāo)準(zhǔn)分為 328，則其學(xué)科等級應(yīng)為A。

表6 標(biāo)準(zhǔn)總分與學(xué)科等級對照表

［1］曹怡，若干標(biāo)準(zhǔn)設(shè)定方法的心理計量學(xué)比較初探，［C］華東師范大學(xué)碩士論文，2003.

［2］申逸彬，設(shè)定考試標(biāo)準(zhǔn)的步驟和方法，［J］復(fù)旦教育論壇，2005，(3).

［3］American Educational Research Association，American Psychological Association，National Council on Measurement in Education.Standards for educational and psychological testing.Washington，DC:Author.1999.

［4］Angoff，W.H.(1971) .Scales，norms，and equivalent scores.In R.L.Thorndike (Ed.)， Educational Measurement.Washington，DC:American Council on Education.

［5］Ebel，R.L..Essentials of educational measurement(2rd ed.).Englewood Cliffs，NJ:Prentice － Hall.1972.

［6］Jaeger，R.M..An iterative structured judgment process for establishing standards on competency tests:Theory and application.Educational Evaluation and Policy Analysis，4.1982.

［7］Lewis，D.M.，Mitzel，H.C.，＆ Green，D.R..Standard Setting:A Bookmark Approach.In D.R.Green(Chair).IRT－based standard－setting procedures utilizing behavioral anchoring.Symposium conducted at the Council of Chief State School Officers National Conference on Large－scale Assessment，Phoenix，AZ.1996.

［8］Livingston，S.A.＆Zieky，M.J.Passing scores:A manual for setting standards of performance on educational and occupational tests.Princeton，NJ:Educational Testing Service.1982.

［9］Nedelsky，L.Absolute grading standards for objective tests.［J］Educational and Psychological Measurement.1954(14).

［10］Zieky，M.J.，＆Livingston，S.A..Manual for setting standards on the Basic Skills Assessment Tests.Princeton，NJ:Educational Testing Service.1977.

【注釋】

①如果余數(shù)為1，這個分?jǐn)?shù)將加到A－B分?jǐn)?shù)區(qū)間;如果余數(shù)是2，A－B和B－C分?jǐn)?shù)區(qū)間各加1;如果余數(shù)為3，在A－B，B－C和C－D分?jǐn)?shù)區(qū)間各加1。