田 霖 韋小滿
考試內(nèi)容及命題方式改革是新一輪高考改革的重要方面。 2014 年,《國務(wù)院關(guān)于深化考試招生制度改革的實施意見》提出,要深化高考考試內(nèi)容改革,依據(jù)高校人才選拔要求和國家課程標(biāo)準(zhǔn), 科學(xué)設(shè)計命題內(nèi)容[1]。 2019 年,《國務(wù)院辦公廳關(guān)于新時代推進(jìn)普通高中育人方式改革的指導(dǎo)意見》進(jìn)一步提出,要深化考試命題改革, 高等學(xué)校招生全國統(tǒng)一考試(簡稱 “高考”)命題要以普通高中課程標(biāo)準(zhǔn)和高校人才選拔要求為依據(jù), 實施普通高中新課程的省份不再制定考試大綱[2]。 此前,考試大綱作為高考命題的規(guī)范性文件和標(biāo)準(zhǔn),是考試評價、復(fù)習(xí)備考的依據(jù);各分省命題省份依據(jù)考試大綱, 結(jié)合本地高考方案和教學(xué)實際制定考試說明, 對考試大綱做進(jìn)一步細(xì)化、補(bǔ)充,考試說明也是命題和備考的重要參考。 取消考試大綱意味著考試說明也將一同取消, 高考命題將回歸課程標(biāo)準(zhǔn)。 此時,高考與課程標(biāo)準(zhǔn)的一致性就成為衡量高考質(zhì)量的重要指標(biāo), 試卷與課程標(biāo)準(zhǔn)的一致性也成為研究者關(guān)注的熱點(diǎn)。
一致性是指考試與課程標(biāo)準(zhǔn)內(nèi)容要求的吻合程度。 國家課程標(biāo)準(zhǔn)是教材編寫、教學(xué)、評估和考試命題的依據(jù)[3],以課程標(biāo)準(zhǔn)作為依據(jù)進(jìn)行命題,可以確保 “所考即所學(xué)”,保障考生對于考查內(nèi)容擁有平等的學(xué)習(xí)機(jī)會,這既是有效測量的要求,也是考試公平的要求。 國際上廣泛使用的考試與課程標(biāo)準(zhǔn)一致性研究工具主要有 “韋伯模型”“課程實施調(diào)查的模型(簡稱 SEC 模型)” 及 “成功分析模型” 等,其中 SEC模型作為一種定量分析模型, 提出了一致性量化指標(biāo),應(yīng)用較廣。 美國聯(lián)邦政府和十幾個地方州市都采用了SEC 模型分析考試與課程標(biāo)準(zhǔn)的一致性[4]。 SEC模型為高考試卷與課程標(biāo)準(zhǔn)的一致性研究提供了參考,本研究以高考數(shù)學(xué)試卷為例,對SEC 模型在高考中的應(yīng)用進(jìn)行探討與反思。
SEC 模型的全稱為 “課程實施的調(diào)查模型(Survey of Enacted Curriculum Model)”,由美國威斯康辛教育中心研究人員安德魯·波特 (Andrew Porter)和約翰·史密森(John Smithson)等人于 1999 年提出,用于判斷評價項目與課程標(biāo)準(zhǔn)的一致性。 SEC 模型通過建立通用矩陣的方式分析課程標(biāo)準(zhǔn)、課程、評價及教學(xué)之間的一致性, 其中關(guān)于評價與課程標(biāo)準(zhǔn)的一致性有助于深入理解考試與課程標(biāo)準(zhǔn)之間的本質(zhì)關(guān)系[5]。 SEC 模型借鑒了韋伯模型中的一致性分析維度及其判斷標(biāo)準(zhǔn), 提出知識廣度與知識深度的一致性是衡量考試與課程標(biāo)準(zhǔn)一致性的最直接的、 也是最核心的指標(biāo)。 SEC 模型的一致性研究過程主要包括三個步驟:首先,建立分析框架,具體是指由知識主題與認(rèn)知層次要求構(gòu)成的二維矩陣, 這也作為編碼框架;第二,對課程標(biāo)準(zhǔn)和試卷分別進(jìn)行認(rèn)知層次要求編碼, 基于分析框架分別形成課程標(biāo)準(zhǔn)與試卷的知識主題分類與認(rèn)知層次要求分布的矩陣數(shù)據(jù),矩陣中的單元格為知識主題數(shù)量比率或試題分值比率;第三,根據(jù)課程標(biāo)準(zhǔn)與試卷的矩陣數(shù)據(jù)計算波特一致性系數(shù)(簡稱 “一致性系數(shù)”),衡量試卷與課程標(biāo)準(zhǔn)的吻合程度[6]。 SEC 模型提出的波特一致性系數(shù)為一致性研究提供了清晰簡明的量化指標(biāo), 其具體計算公式如下:
式中P 代表波特一致性系數(shù),J 代表矩陣表格的行數(shù),K 代表矩陣表格的列數(shù),ajk與bjk分別代表兩個矩陣表格a、b 中第j 行與k 列對應(yīng)的單元格數(shù)值(比率)。 P 的取值范圍是 0 到 1,P=0 表示試卷與課程標(biāo)準(zhǔn)的一致性最差,即完全不一致;P=1 表示試卷與課程標(biāo)準(zhǔn)在知識主題及認(rèn)知層次要求分布上完全一致[7]。
以A 省2016 年高考數(shù)學(xué)(理科)試卷為例開展實證研究①A 省目前實行高考分省命題,由于2017 年版課程標(biāo)準(zhǔn)發(fā)布以來A 省基于該版本課程標(biāo)準(zhǔn)的高考命題還未開始,2017 年至2019 年A 省高考命題采用過渡版本的課程標(biāo)準(zhǔn)。鑒于此,本研究選擇A 省2016 年試卷為例開展實證研究。。 A 省2016 年高考實行分省命題, 采用2003 年版《普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(實驗)》(簡稱《數(shù)學(xué)課標(biāo)》),A 省根據(jù)當(dāng)年考試大綱、結(jié)合本省教學(xué)實際制定了數(shù)學(xué)科目考試說明(簡稱《考試說明》),作為高考命題的直接依據(jù)。 研究資料包括《數(shù)學(xué)課標(biāo)》、A 省 2016 年高考數(shù)學(xué)(理科)試卷(簡稱“數(shù)學(xué)試卷”)、《考試說明》。 數(shù)學(xué)試卷的題量為 20 題,滿分值為150 分,考試時長為120 分鐘,包括選擇題、填空題、解答題三種題型。
采用SEC 模型進(jìn)行資料編碼及一致性分析。 本研究主要關(guān)注試卷考查的知識主題以及認(rèn)知層次要求兩個方面,SEC 模型中的 “知識主題和認(rèn)知層次要求” 二維編碼矩陣與本研究相符。
1. 建立編碼框架
采用SEC 模型通用編碼框架 “知識主題×認(rèn)知層次要求” 二維矩陣制定本研究的編碼框架。 首先要確定知識主題分類,本研究根據(jù)《數(shù)學(xué)課標(biāo)》中的必修課程及選修課程知識主題,結(jié)合《考試說明》要求及A 省教學(xué)實際,去除不在考查范圍內(nèi)的知識主題,最終納入編碼框架23 個知識主題, 按照知識主題在《數(shù)學(xué)課標(biāo)》中的自然順序依次編號,具體見表1。 其次要確定認(rèn)知層次要求等級,《數(shù)學(xué)課標(biāo)》 將認(rèn)知層次要求劃分為 “知道/了解/模仿”“理解/獨(dú)立操作”“掌握/應(yīng)用/遷移” 三個等級,《考試說明》將認(rèn)知層次要求劃分為 “了解”“理解”“掌握” 三個等級,二者認(rèn)知層次要求等級劃分相似, 只是列舉的行為動詞數(shù)量有所不同。 為了便于表述,本研究將認(rèn)知層次要求統(tǒng)一界定為 “了解”“理解”“掌握” 三個層次,分別編碼為A、B、C,三個認(rèn)知層次要求逐級提升。 三個認(rèn)知層次要求對應(yīng)的《數(shù)學(xué)課標(biāo)》中使用的行為動詞分別是:了解——了解,體會,知道,識別,感知,認(rèn)識,初步了解,初步體會,初步學(xué)會,初步理解,求,等;理解——描述,說明,表達(dá),表述,表示,刻畫,解釋,推測,想像,理解,歸納,總結(jié),抽象,提取,比較,對比,判定,判斷,會求,能,運(yùn)用,初步應(yīng)用,初步討論,等;掌握——掌握、導(dǎo)出、分析,推導(dǎo)、證明,研究、討論、選擇、決策,解決問題,等。 根據(jù)知識主題分類以及認(rèn)知層次要求等級,建立 “23(知識主題)×3(認(rèn)知層次要求)” 的表格矩陣作為本研究的編碼框架,具體見表1。
表1 一致性研究編碼框架
2. 對《數(shù)學(xué)課標(biāo)》編碼
根據(jù)編碼框架,采用23×3 矩陣對《數(shù)學(xué)課標(biāo)》進(jìn)行編碼。 認(rèn)知層次要求針對的是具體知識點(diǎn)(即《數(shù)學(xué)課標(biāo)》或《考試說明》中的三級知識主題),具體知識點(diǎn)劃分以A 省《考試說明》規(guī)定為準(zhǔn),本研究共涉及23 個知識主題162 個知識點(diǎn)。 本研究邀請1 位具有15 年以上高考數(shù)學(xué)命題經(jīng)驗的學(xué)科專家(副研究員職稱) 和1 位具有數(shù)學(xué)學(xué)科背景的教育測量與評價專家(副研究員職稱)擔(dān)任編碼員。 首先,編碼員根據(jù)《數(shù)學(xué)課標(biāo)》中各知識點(diǎn)描述所采用的行為動詞,對162 個知識點(diǎn)依次進(jìn)行認(rèn)知層次要求獨(dú)立編碼,二人編碼結(jié)果的斯皮爾曼等級相關(guān)系數(shù)為0.961(N=162,p<0.01);然后,二人針對編碼分歧進(jìn)行討論,最終對所有知識點(diǎn)認(rèn)知層次要求編碼達(dá)成一致意見,作為最終編碼結(jié)果(限于篇幅,162 個具體知識點(diǎn)及其認(rèn)知層次要求編碼不在文中具體呈現(xiàn))。 完成162個知識點(diǎn)認(rèn)知層次要求編碼后, 將編碼結(jié)果匯總至23×3 矩陣中,具體見表 2。
表2 《數(shù)學(xué)課標(biāo)》知識主題及認(rèn)知層次要求編碼(數(shù)量)
為了與數(shù)學(xué)試卷的編碼矩陣進(jìn)行比較, 對上述矩陣進(jìn)行轉(zhuǎn)化處理, 根據(jù)數(shù)量分布計算各單元格數(shù)量比率,結(jié)果見表3。
表3 《數(shù)學(xué)課標(biāo)》知識主題及認(rèn)知層次要求編碼(比率)
3. 對數(shù)學(xué)試卷編碼
根據(jù)編碼框架,采用23×3 矩陣對數(shù)學(xué)試卷進(jìn)行編碼,編碼員同《數(shù)學(xué)課標(biāo)》編碼員。 首先,兩位編碼員共同對試卷考查的知識主題進(jìn)行判斷, 確定該試卷主要考查了22 個知識主題、40 個知識點(diǎn),并結(jié)合試題滿分值、考查主題權(quán)重進(jìn)行分值分配;然后,編碼員獨(dú)立對試題考查知識點(diǎn)進(jìn)行認(rèn)知層次要求編碼,二人編碼結(jié)果的斯皮爾曼等級相關(guān)系數(shù)為0.947(N=40,p<0.01);最后,兩位編碼員對編碼分歧進(jìn)行討論,最終達(dá)成一致意見。 需要說明的是,一個試題可能同時考查多個不同的知識點(diǎn), 對不同知識點(diǎn)的認(rèn)知層次要求也可能不同, 需要根據(jù)試題實際考查的知識點(diǎn)及認(rèn)知層次要求分別進(jìn)行編碼; 不同試題可能考查同一個知識點(diǎn), 需要按照知識點(diǎn)所屬的知識主題進(jìn)行認(rèn)知層次要求編碼匯總。 完成對試卷全部試題認(rèn)知層次要求編碼后, 按知識主題分類匯總各認(rèn)知層次要求下的試題分值, 將匯總結(jié)果分配到23×3 矩陣中,具體見表 4。
為了與《數(shù)學(xué)課標(biāo)》的編碼矩陣進(jìn)行比較,同樣對上述矩陣進(jìn)行轉(zhuǎn)化處理, 根據(jù)分值分布計算各單元格分值比率,結(jié)果見表5。
在SEC 模型中, 需要通過模擬數(shù)據(jù)獲得一致性系數(shù)顯著性參考值[8],本研究采用R 語言軟件模擬數(shù)據(jù)獲得一致性系數(shù)顯著性參考值。在R 語言軟件中,運(yùn)用均勻隨機(jī)數(shù)生成器runif()函數(shù)進(jìn)行數(shù)據(jù)模擬,將編碼框架涉及的162 個知識點(diǎn)隨機(jī)分配到表1 所示的23×3 矩陣中;然后進(jìn)行轉(zhuǎn)化處理,將矩陣中各單元格數(shù)值以比率形式呈現(xiàn), 所獲矩陣各單元數(shù)值總和是1。 將數(shù)學(xué)試卷滿分值150 分也隨機(jī)分配到表 1 所示的 “23×3” 矩陣中,同樣進(jìn)行轉(zhuǎn)化處理。 然后, 利用一致性系數(shù)公式計算前述兩個隨機(jī)矩陣的一致性系數(shù)P。 將上述過程在R 語言軟件中循環(huán)計算20000 次,可獲得一致性系數(shù)P 值的正態(tài)分布,其在0.05 水平顯著的參考值為0.6987。 即在《數(shù)學(xué)課標(biāo)》與數(shù)學(xué)試卷隨機(jī)一致性系數(shù)的正態(tài)分布中,要達(dá)到0.05 水平統(tǒng)計學(xué)意義上的顯著一致性,在知識主題為23 個、 認(rèn)知層次要求等級為3 個、 知識點(diǎn)為162 個、試卷總分值為150 分的情況下,一致性系數(shù)需要達(dá)到0.6987 及以上。
表4 數(shù)學(xué)試卷考查知識主題及認(rèn)知層次要求分布結(jié)果(分值)
確定一致性系數(shù)顯著性參考值后, 計算本研究中的數(shù)學(xué)試卷與《數(shù)學(xué)課標(biāo)》的一致性系數(shù),將表3和表5 中的數(shù)據(jù)代入一致性系數(shù)計算公式中, 得到P 值為 0.3306,P 值小于 0.6987,并未達(dá)到 0.05 水平的顯著性參考值。 研究結(jié)果表明,A 省2016 年高考數(shù)學(xué)(理科)試卷與《數(shù)學(xué)課標(biāo)》的一致性程度較低,二者不具有統(tǒng)計學(xué)意義上的顯著一致性。
SEC 模型一致性系數(shù)不顯著能否作為否定試卷與課程標(biāo)準(zhǔn)相吻合的充分證據(jù)? 是否反映試卷偏離課程標(biāo)準(zhǔn)、 內(nèi)容效度較低? 對高考命題實踐有何啟發(fā)? 這些問題需要進(jìn)一步討論和反思。
通常高考命題會依據(jù)課程標(biāo)準(zhǔn)、 考試大綱及考試說明等規(guī)定性文件制定命題藍(lán)圖與雙向細(xì)目表,來確保試卷構(gòu)念代表性, 從這個角度而言高考試卷應(yīng)該與課程標(biāo)準(zhǔn)相一致。 例如, 本研究中A 省規(guī)定《數(shù)學(xué)課標(biāo)》23 個知識主題納入考查范圍,數(shù)學(xué)試卷考查了22 個知識主題,試卷覆蓋率為95.7%。 因此,雖然本研究中試卷與《數(shù)學(xué)課標(biāo)》的一致性系數(shù)不顯著, 但這不能作為否定試卷與課程標(biāo)準(zhǔn)相吻合的充分證據(jù)。 目前,并沒有相關(guān)理論明確提出我國高考試卷與課程標(biāo)準(zhǔn)存在顯著一致性, 且SEC 模型提出的波特一致性系數(shù)量化指標(biāo)是否適用于我國高考領(lǐng)域也尚無定論。 對國內(nèi)已有的基于SEC 模型的高考與課程標(biāo)準(zhǔn)一致性研究報告進(jìn)行梳理, 發(fā)現(xiàn)高考各科試卷與課程標(biāo)準(zhǔn)的一致性程度表現(xiàn)不一。 其中,高考物理試卷與課程標(biāo)準(zhǔn)一致性系數(shù)分布于0.277~0.508 之間,均未達(dá)到統(tǒng)計顯著性參考值[9];高考化學(xué)試卷與課程標(biāo)準(zhǔn)一致性系數(shù)分布于0.324~0.524 之間,均未達(dá)到統(tǒng)計顯著性參考值[10,11];高考政治試卷與課程標(biāo)準(zhǔn)一致性系數(shù)為0.448,未達(dá)到統(tǒng)計顯著性參考值[12];高考語文試卷與課程標(biāo)準(zhǔn)一致性系數(shù)為0.717,未達(dá)到統(tǒng)計顯著性參考值[13];高考生物試卷與課程標(biāo)準(zhǔn)一致性系數(shù)分布于0.603~0.705 之間,均未達(dá)到統(tǒng)計顯著性參考值[14];高考地理試卷與課程標(biāo)準(zhǔn)一致性系數(shù)分布于0.300~0.467 之間,均未達(dá)到統(tǒng)計顯著性參考值[15];已有的基于SEC 模型的實證研究結(jié)果都發(fā)現(xiàn), 我國高考各科試卷與課程標(biāo)準(zhǔn)的一致性系數(shù)普遍較低, 而且都沒有達(dá)到統(tǒng)計學(xué)意義顯著水平。
表5 數(shù)學(xué)試卷考查知識主題及認(rèn)知層次要求分布結(jié)果(分值比率)
高考試卷與課程標(biāo)準(zhǔn)的波特一致性系數(shù)不顯著,可能存在多種影響因素。 首先,高考試卷強(qiáng)調(diào)選拔性, 并不是對普通高中階段的最低達(dá)標(biāo)者進(jìn)行篩選,傳統(tǒng)的高考命題以考試大綱及考試說明為依據(jù),可能并未追求或強(qiáng)調(diào)試卷與課程標(biāo)準(zhǔn)的一致性,造成二者一致性系數(shù)較低;其次,SEC 模型中的認(rèn)知層次要求劃分通常采用布魯姆教育目標(biāo)分類法, 包括記憶、理解、運(yùn)用、分析、評價和創(chuàng)造六個層次,而我國普通高中課程標(biāo)準(zhǔn)對認(rèn)知層次要求的劃分并未嚴(yán)格采用布魯姆教育目標(biāo)分類法, 且不同學(xué)科課程標(biāo)準(zhǔn)之間的認(rèn)知層次要求劃分也存在差異, 例如本研究中的數(shù)學(xué)試卷認(rèn)知層次要求劃分為了解、理解、掌握三個等級, 這會影響一致性編碼框架進(jìn)而影響一致性系數(shù);第三,一份高考試卷的試題量有限,考查的具體知識點(diǎn)數(shù)量及認(rèn)知層次要求也是有限的,一致性系數(shù)可能受到試題量局限的影響;第四,在高考分省命題中, 各省制定的考試說明還可能根據(jù)本省教學(xué)實際對課程標(biāo)準(zhǔn)中相關(guān)知識主題考查要求作出調(diào)整, 例如規(guī)定本省高考試題考查的知識點(diǎn)認(rèn)知層次要求高于或低于課程標(biāo)準(zhǔn), 這也會影響一致性編碼框架。鑒于上述原因,本研究認(rèn)為SEC 模型作為考試與課程標(biāo)準(zhǔn)一致性研究工具在分析思路上具有較高的參考價值, 但該模型提出的一致性系數(shù)指標(biāo)并不一定適用于我國高考領(lǐng)域, 不宜將一致性系數(shù)是否顯著作為判斷高考試卷與課程標(biāo)準(zhǔn)一致程度的唯一標(biāo)準(zhǔn);研究者應(yīng)主要關(guān)注試卷考查內(nèi)容覆蓋率、試卷考查深度與課程標(biāo)準(zhǔn)的相符程度, 同時參考其他的考試與課程標(biāo)準(zhǔn)一致性研究工具獲得的指標(biāo)。
高考作為一種終結(jié)性評價活動, 其評價機(jī)制的基礎(chǔ)是被評價對象(即考生群體)在不同程度上掌握的相關(guān)知識或能力。 在這種評價機(jī)制中,教學(xué)和考試是兩個不可或缺的環(huán)節(jié), 而這兩個環(huán)節(jié)的連接紐帶就是高中課程標(biāo)準(zhǔn)。 在高考改革背景下,命題管理回歸課程標(biāo)準(zhǔn)是未來趨勢, 如何加快建立適應(yīng)沒有考試大綱或考試說明的命題工作模式、 如何保障高考試卷與課程標(biāo)準(zhǔn)的吻合程度、 如何利用課程標(biāo)準(zhǔn)銜接教學(xué)與命題實踐, 成為高考命題實踐面臨的新挑戰(zhàn)。 在國務(wù)院于2019 年6 月發(fā)布文件明確提出我國高考不再編制考試大綱后,教育部考試中心于2020年1 月發(fā)布了《高考評價體系》,圍繞高考的核心功能、 考試內(nèi)容和考試要求等關(guān)鍵問題形成系統(tǒng)的理論框架, 旨在建立全面深化高考內(nèi)容改革的長效機(jī)制。 但《高考評價體系》更多的是作為高考內(nèi)容改革和命題工作的理論依據(jù)與實踐指南[16],為高考命題提供理論性的、方向性、原則性的指導(dǎo),命題實踐在落實對具體學(xué)科知識、能力、素養(yǎng)、核心價值的考查要求時,仍然要以課程標(biāo)準(zhǔn)為根本依據(jù)。 我國高考命題采取入闈封閉式管理模式,通常不設(shè)置試測環(huán)節(jié),無法通過試測數(shù)據(jù)的統(tǒng)計分析獲得試卷/試題參數(shù)的量化指標(biāo)。 一致性分析并不依賴試測數(shù)據(jù),命題人員在入闈封閉階段、 試卷投入使用前就可以通過知識廣度與知識深度方面的數(shù)據(jù)處理完成分析過程,獲得試卷質(zhì)量的量化指標(biāo), 進(jìn)而積累試卷的效度證據(jù)。在命題過程中實施試卷與課程標(biāo)準(zhǔn)的一致性分析,能夠在試卷投入使用前形成一致性結(jié)果反饋,為試題修改提供參考, 尤其對于入闈封閉式管理模式而言這種即時反饋更具實用價值,有利于保障命題質(zhì)量。
綜上, 本研究建議命題管理機(jī)構(gòu)充分重視試卷與課程標(biāo)準(zhǔn)一致性的重要意義, 可結(jié)合實際工作條件在命題管理中增設(shè)一致性分析環(huán)節(jié), 作為一項命題重量保障手段;在一致性分析工具選擇方面,建議應(yīng)綜合考慮不同分析模型的優(yōu)缺點(diǎn)并結(jié)合具體學(xué)科試卷特點(diǎn),合理選擇使用一種或多種模型;在一致性指標(biāo)設(shè)計方面,建議結(jié)合不同學(xué)科特點(diǎn),重在形成有效的、 學(xué)科專家充分認(rèn)可的能夠反映試卷與課程標(biāo)準(zhǔn)吻合程度的一個或多個指標(biāo), 不必追求某一絕對數(shù)量標(biāo)準(zhǔn), 而要強(qiáng)調(diào)指標(biāo)促進(jìn)命題活動不斷指向高吻合度的方向。 另外,分析框架制定是實施一致性研究的基礎(chǔ)和難點(diǎn),隨著2017 年版高中課程標(biāo)準(zhǔn)投入使用,基于新版課程標(biāo)準(zhǔn)的高考命題也逐步啟動。 新版課程標(biāo)準(zhǔn)凝練了各學(xué)科的核心素養(yǎng), 明確了學(xué)生學(xué)習(xí)課程后應(yīng)達(dá)成的正確價值觀念、 必備品格和關(guān)鍵能力,對知識與技能、過程與方法、情感態(tài)度價值觀三維目標(biāo)進(jìn)行了整合。 以新版課程標(biāo)準(zhǔn)為依據(jù)的高考命題實踐, 如何在各學(xué)科素養(yǎng)體系下建立恰當(dāng)?shù)囊恢滦苑治隹蚣埽?將是未來一致性研究要解決的關(guān)鍵問題。