趙 軒 任子朝 陳 昂
(教育部考試中心 100084)
2013年,黨的十八屆三中全會(huì)審議通過(guò)的《中共中央關(guān)于全面深化改革若干重大問(wèn)題的決定》中提出了考試招生制度改革的目標(biāo)和任務(wù),明確指出要“探索全國(guó)統(tǒng)考減少科目、不分文理科、外語(yǔ)等科目社會(huì)化考試一年多考[1].” 2014年,《國(guó)務(wù)院關(guān)于深化考試招生制度改革的實(shí)施意見(jiàn)》中進(jìn)一步明確了在高考綜合改革試點(diǎn)中,“保持統(tǒng)一高考的語(yǔ)文、數(shù)學(xué)、外語(yǔ)科目不變、分值不變,不分文理科[2]”.新高考改革后,數(shù)學(xué)科將不再分文理科,這給高考命題和中學(xué)教學(xué)都提出了新的任務(wù)和挑戰(zhàn).為應(yīng)對(duì)這一挑戰(zhàn),需要對(duì)現(xiàn)行文理科試卷進(jìn)行結(jié)構(gòu)、信度、區(qū)分效果等相關(guān)的質(zhì)量研究,重新構(gòu)建數(shù)學(xué)新高考學(xué)科考試的知識(shí)和能力體系.
概化理論(GT,Generalizability Theory)是一種通過(guò)方差分析的方法研究測(cè)驗(yàn)信度的現(xiàn)代測(cè)量理論[3].多元概化理論(MGT,Multivariate Generalizability Theory)在概化理論的基礎(chǔ)之上,可進(jìn)一步研究測(cè)驗(yàn)分解為多個(gè)分測(cè)驗(yàn)時(shí),分測(cè)驗(yàn)的信度以及分測(cè)驗(yàn)題量變化對(duì)于總測(cè)驗(yàn)信度的影響.近年來(lái),這一理論被廣泛應(yīng)用于考試評(píng)價(jià).應(yīng)用多元概化理論模型對(duì)高考試卷的測(cè)試結(jié)果進(jìn)行分析,可定量比較各內(nèi)容模塊以及各種題型的區(qū)分度與內(nèi)部一致性,并為有關(guān)試卷結(jié)構(gòu)、考試信度等方面的研究建立理論框架.相關(guān)研究結(jié)果可為修訂考試大綱說(shuō)明,分析試卷質(zhì)量及各題型區(qū)分功能提供參考,進(jìn)而對(duì)提升命題質(zhì)量給出合理化建議.
概化理論重點(diǎn)探討測(cè)驗(yàn)分?jǐn)?shù)差異和與其相關(guān)的影響因素(如考生個(gè)體水平、題目難度等)之間的關(guān)系,并運(yùn)用方差分析的技術(shù),以方差作為指標(biāo)分別描述每個(gè)因素對(duì)分?jǐn)?shù)總變異的影響與各個(gè)因素之間的交互作用[4].概化理論的一個(gè)主要功能是可以在各種條件下估計(jì)測(cè)驗(yàn)信度,并給出各影響因素與信度的相關(guān)性.在該理論中,測(cè)量信度的概念用概化系數(shù)或可靠性系數(shù)來(lái)代替[5].
概化理論分為G研究和D研究?jī)刹糠郑珿研究是通過(guò)理論計(jì)算估計(jì)各方差成分相對(duì)大小的過(guò)程.D研究是在G研究的基礎(chǔ)上,通過(guò)實(shí)驗(yàn)性研究,進(jìn)一步考察不同測(cè)驗(yàn)設(shè)計(jì)條件下概化系數(shù)的變化狀況,從而尋找最佳的誤差控制方法,為改進(jìn)測(cè)驗(yàn)內(nèi)容、方式方法等提供設(shè)計(jì)方案的過(guò)程[6].D研究的研究對(duì)象和樣本可看作是G研究的子集.G研究確定測(cè)量對(duì)象、測(cè)量模式并對(duì)各項(xiàng)因素的變異進(jìn)行總體估計(jì),D研究可根據(jù)研究目的的需要,對(duì)測(cè)量對(duì)象樣本容量、測(cè)量模式等條件進(jìn)行調(diào)整,進(jìn)而在調(diào)整后的特定條件下估計(jì)各項(xiàng)測(cè)量誤差與指標(biāo),為改進(jìn)測(cè)量質(zhì)量提供信息參考[7].
多元概化理論在概化理論的基礎(chǔ)上,研究測(cè)量目標(biāo)具有多個(gè)全域分?jǐn)?shù)(如總測(cè)驗(yàn)可以分解為多個(gè)不同維度的分測(cè)驗(yàn),可按照不同內(nèi)容模塊、不同題型等維度拆分)的有關(guān)問(wèn)題.主要可應(yīng)用于測(cè)試多個(gè)模塊知識(shí)或多種能力的綜合性測(cè)驗(yàn)[5].近年來(lái),這一理論被廣泛應(yīng)用于高考、研究生考試等大規(guī)模教育考試中,豐富了傳統(tǒng)的信度檢驗(yàn)方式[8][9].
本文應(yīng)用多元概化理論模型對(duì)2017年高考數(shù)學(xué)文、理科全國(guó)Ⅰ卷進(jìn)行質(zhì)量分析與對(duì)比研究,主要比較了文理科試卷各題型的方差貢獻(xiàn)度與其對(duì)試卷信度的影響.并在現(xiàn)行文、理科試卷結(jié)構(gòu)的基礎(chǔ)上,針對(duì)相關(guān)分析結(jié)果對(duì)改進(jìn)試卷質(zhì)量,提升試卷信度與區(qū)分效果提出建議,為文理合卷后試卷結(jié)構(gòu)的構(gòu)建提供數(shù)據(jù)支撐.
本研究從參加2017年高考數(shù)學(xué)文、理科全國(guó)Ⅰ卷考試的9個(gè)省全體考生中各隨機(jī)抽取3000名考生作為樣本,有效試卷共6000份.本文中的數(shù)據(jù)分析與討論均基于此6000份樣本數(shù)據(jù).高考數(shù)學(xué)科試卷包含選擇題、填空題、解答題三種題型.因此對(duì)其測(cè)驗(yàn)信度進(jìn)行研究適宜采用多元概化理論的原理和方法.本研究中多元概化理論模型相關(guān)參數(shù)的計(jì)算使用了mGENOVA程序[10].
現(xiàn)行高考文、理科數(shù)學(xué)試卷題型結(jié)構(gòu)相同.按照試卷題型結(jié)構(gòu),將全部試題劃分為“單項(xiàng)選擇題”、“填空題”和“解答題”三個(gè)部分.全卷共23道題目,滿分150分.選擇題部分包含12道題目,共60分;填空題部分包含4道題目,共20分;解答題部分包含7道題目(其中有兩題為選做題,考生在這兩題中任選一題作答,進(jìn)行數(shù)據(jù)分析時(shí)將兩題按照考生的作答分?jǐn)?shù)合并為一題處理),共70分.
三種題型對(duì)于考生能力的考查雖各有側(cè)重,但試題通常綜合考核考生的多種能力,故各分測(cè)驗(yàn)在測(cè)量考生能力方面存在一定相關(guān)[11][12].每位考生都需作答全部試題,因此本研究選用三因子單面交叉設(shè)計(jì)p×i多元概化模型,p代表考生(測(cè)量目標(biāo)),i代表試題(測(cè)量側(cè)面).分別計(jì)算了各模塊和全卷的概化系數(shù)(信度),并根據(jù)有關(guān)信息評(píng)價(jià)各題型對(duì)于考試區(qū)分能力的貢獻(xiàn)程度.
為了探討各個(gè)分測(cè)驗(yàn)對(duì)于估計(jì)測(cè)驗(yàn)總分可靠性的貢獻(xiàn)程度,本研究考察了各題型題量變化對(duì)于各自測(cè)量信度及總分測(cè)量信度的影響情況,以期為優(yōu)化試卷內(nèi)容和結(jié)構(gòu)提供建議和參考.
根據(jù)G研究設(shè)計(jì),通過(guò)mGENOVA軟件分別計(jì)算得到文、理科卷考生(p)、試題(i)以及考生和試題之間的交互效應(yīng)(pi)在選擇題、填空題和解答題三個(gè)因子上的方差與協(xié)方差分量的估計(jì)矩陣.如表1所示.
表1 G研究中文、理卷各效應(yīng)在三因子上方差與協(xié)方差分量對(duì)比
(注:效應(yīng)p的矩陣中主對(duì)角線上的元素為相應(yīng)因子上的方差分量估計(jì),主對(duì)角線以下元素為不同因子間協(xié)方差分量的估計(jì),主對(duì)角線以上元素為不同因子間相關(guān)系數(shù)的估計(jì).)
從中可見(jiàn),文、理科卷三因子中考生效應(yīng)(p)方差分量最小的因子均為選擇題模塊(分別是1.01403和0.55492),其次均為填空題模塊(分別是2.41438和1.25856),方差分量最大的因子均為解答題模塊(分別是6.99742和7.03841).這說(shuō)明在此次考試的文、理科卷中,區(qū)分作用最大的題型均為解答題,其次是填空題,而選擇題的區(qū)分作用與其他題型相比相對(duì)較小.其原因可能有二,其一是解答題總分值較高,且所含各小題分值高于填空題和選擇題;其二是填空題和選擇題是兩級(jí)賦分的題型,解答題是多級(jí)賦分的題型,對(duì)考生的區(qū)分更加精細(xì),因此其方差分量要高于填空題和選擇題.此外,理科卷在選擇題、填空題上的方差分量均小于文科卷,在解答題上的方差分量大于文科卷,其原因是選擇題、填空題難度較低,更適合文科考生水平.說(shuō)明文科卷選擇題、填空題的區(qū)分效果相對(duì)于理科卷略好,理科卷解答題的區(qū)分效果相對(duì)于文科卷略好.
此外,兩套試卷中三因子之間的相關(guān)系數(shù)均大于0.8,這表示考生在各題型中的得分相關(guān)性很高,說(shuō)明文、理兩套試題的整卷內(nèi)部一致性、試卷信度與各題型的區(qū)分度均良好.
考生效應(yīng)(p)反映了考生水平差異造成的成績(jī)變異大小,試題效應(yīng)(i)反映試題難度差異造成的成績(jī)變異大小,而交互效應(yīng)(pi)反映考生和試題因素交互影響產(chǎn)生的誤差,不同效應(yīng)之間方差分量值不可直接比較[6].從表1試題效應(yīng)(i)部分中可看出解答題模塊由試題難度差異造成的成績(jī)變異最大,說(shuō)明該題型中試題難度跨度相對(duì)較大.
(1)各因子全域分?jǐn)?shù)的測(cè)量精度研究
使用mGENOVA軟件計(jì)算出考生在三種題型中全域分?jǐn)?shù)與相應(yīng)誤差估計(jì)的方差分量,以及概化系數(shù)、可靠性系數(shù)和信噪比等指標(biāo),結(jié)果如表2所示.
表2 D研究中三因子上全域分方差分量等指標(biāo)估計(jì)
從表2中可見(jiàn),文、理科試卷各題型的概化系數(shù)(信度)均較高,所有模塊都在0.5以上,文科卷選擇題、填空題、解答題分別為0.75228、0.77343、0.88823,理科卷選擇題、填空題、解答題分別為0.68210、0.59803、0.88754.這說(shuō)明此次考試試卷質(zhì)量很高,各題型的測(cè)量精度均良好,測(cè)量誤差較小,且考生各題目得分之間的內(nèi)部一致性較高.
(2)全域總分的測(cè)量精度研究
按照各模塊題量所占比重來(lái)決定權(quán)系數(shù),對(duì)三因子全域分?jǐn)?shù)進(jìn)行合成,可得到全域總分與其相應(yīng)誤差估計(jì)的方差分量,以及全域總分的概化系數(shù)、可靠性系數(shù)和信噪比等指標(biāo)的估計(jì)值,結(jié)果見(jiàn)表3.
表3 D研究中合成全域總分的方差分量等指標(biāo)估計(jì)
從表3中可見(jiàn),文、理科試卷全域總分的概化系數(shù)均較高,分別為0.92268和0.90830;且相對(duì)誤差不大,因此相對(duì)信噪比高,分別為11.93279和9.90533.這說(shuō)明此次考試的總體測(cè)量信度與測(cè)量精度良好.
(3)各因子對(duì)總方差貢獻(xiàn)度的研究
用各模塊全域分?jǐn)?shù)與相應(yīng)誤差估計(jì)的方差分量,可計(jì)算出三個(gè)因子對(duì)總方差的貢獻(xiàn)度,見(jiàn)表4.
由表4可見(jiàn),各模塊對(duì)全域分?jǐn)?shù)方差的貢獻(xiàn)比例與考試大綱說(shuō)明規(guī)定的賦分比例差距不大.理科卷中,選擇題的方差貢獻(xiàn)度比其賦分比例低10個(gè)百分點(diǎn)左右,填空題的方差貢獻(xiàn)度與賦分比例相近,解答題的方差貢獻(xiàn)度比賦分比例高8個(gè)百分點(diǎn);文科卷中,選擇題的方差貢獻(xiàn)度比賦分比例低6個(gè)百分點(diǎn)左右,填空題的方差貢獻(xiàn)度比賦分比例高5個(gè)百分點(diǎn)左右,解答題的方差貢獻(xiàn)度與賦分比例相近.這說(shuō)明理科卷中,解答題在區(qū)分考生能力上的功能最好,即試題區(qū)分度最高;文、理科試卷中選擇題的區(qū)分功能均低于填空題和選擇題.解答題在理科卷的區(qū)分效果好于文科卷,其原因在于理科卷考生在解答題上的平均分高于文科卷考生,這說(shuō)明解答題對(duì)數(shù)學(xué)水平較高的考生群體的區(qū)分效果要更好.從數(shù)據(jù)結(jié)果來(lái)看,文理合卷后增加填空題和解答題的比重,都有助于提高試卷對(duì)于考生的區(qū)分能力,進(jìn)而提升考試信度.
表4 各模塊方差分量對(duì)總方差貢獻(xiàn)度與試卷賦分比例比較
(4)各模塊題目容量對(duì)測(cè)量精度的影響研究
為研究進(jìn)一步提高考試測(cè)量精度的方法,我們?cè)谖?、理科卷中分別改變各題型所含題目數(shù)量,并觀察測(cè)驗(yàn)信度隨之產(chǎn)生的變化,具體結(jié)果見(jiàn)表5、表6.
表5 理科卷各模塊題目容量變化對(duì)總分概化系數(shù)的影響
續(xù)表
表6 文科卷各模塊題目容量變化對(duì)總分概化系數(shù)的影響
從中可見(jiàn),各因子樣本容量增加為2倍和3倍時(shí),測(cè)量信度將會(huì)提高,單獨(dú)增加每個(gè)因子的樣本容量,都會(huì)提高測(cè)量信度,但提升的幅度不同.這說(shuō)明各題型題量與測(cè)試信度都是正相關(guān)的,增加考試題量可以提高考試信度,這一結(jié)論和經(jīng)典測(cè)量理論的結(jié)論是一致的.在文、理卷中分別固定三個(gè)模塊中兩個(gè)模塊的樣本容量,變化其中一個(gè)模塊的樣本容量時(shí)發(fā)現(xiàn),各題型題量按倍數(shù)增加時(shí),對(duì)應(yīng)的概化系數(shù)(信度)提升幅度從大到小均為:解答題、填空題、選擇題,這與前文的分析是一致的.
數(shù)據(jù)分析結(jié)果說(shuō)明增加題量可提升考試信度,盡管受到考試時(shí)間的限制,大幅度增加題量是不現(xiàn)實(shí)的,但文理合卷后仍可通過(guò)題型調(diào)整等技術(shù)手段達(dá)到同樣效果.如將一部分單項(xiàng)選擇題變?yōu)槎囗?xiàng)選擇題以增加部分答對(duì)的中間分,填空題增加設(shè)空數(shù)量以增加中間分,解答題進(jìn)一步細(xì)分得分點(diǎn)等方式,均可以增加整卷的分?jǐn)?shù)檔,從而提高試卷的信度與區(qū)分效果.
本研究應(yīng)用多元概化理論對(duì)高考數(shù)學(xué)文、理科試卷進(jìn)行分析,得到如下結(jié)論:
(1)文、理科試卷全域概化系數(shù)均較高,分別為0.92268和0.90830,相對(duì)誤差不大,各部分試題區(qū)分度良好,試卷整體質(zhì)量較好.
(2)文、理科試卷各部分試題的方差貢獻(xiàn)度與考試大綱說(shuō)明賦分比例基本相符,說(shuō)明現(xiàn)有試卷結(jié)構(gòu)較合理.
(3)文、理科試卷之間相比,解答題在理科卷中的區(qū)分效果好于文科卷,填空題在文科卷中的區(qū)分效果好于理科卷,說(shuō)明各題型在不同水平層次的考生群體中的區(qū)分效果存在差異.文理合卷后應(yīng)根據(jù)各題型在不同水平考生群體中的區(qū)分度配置題型結(jié)構(gòu),進(jìn)一步發(fā)揮各種題型的功能,合理控制難度和題型比例,以提高試卷區(qū)分能力.
(4)選擇題、填空題和解答題三種題型中,解答題對(duì)總方差的貢獻(xiàn)度最高,且增加解答題的題量對(duì)于測(cè)量信度的提升最大,填空題次之.因此,文理合卷后在考試時(shí)間和總題量不變的前提下,可通過(guò)適當(dāng)增加解答題與填空題考核比重的方式來(lái)實(shí)現(xiàn)進(jìn)一步提高考試測(cè)量信度的目的.但應(yīng)綜合考慮試卷的覆蓋面、考試時(shí)間、閱卷工作量等因素的影響,合理控制各題型題量,保持試卷結(jié)構(gòu)合理穩(wěn)定.
(5)各題型的題量均與測(cè)驗(yàn)信度正相關(guān),因此可采取增加考試時(shí)間并適當(dāng)增加題量,增加多選題,填空題增加中間分,大題拆分題目分?jǐn)?shù)、增加得分點(diǎn)等技術(shù)手段提高試卷的信度與區(qū)分效果.
多元概化理論可以為探索高考的質(zhì)量評(píng)價(jià)方式提供更多可能性.從研究結(jié)果來(lái)看,對(duì)于試卷結(jié)構(gòu)的調(diào)整,雖受限于考試時(shí)間等確定性要求,但對(duì)試卷的質(zhì)量分析能夠提供在現(xiàn)有結(jié)構(gòu)下的精細(xì)化調(diào)整方案.此外,將多元概化理論與經(jīng)典測(cè)量理論的評(píng)價(jià)結(jié)果相結(jié)合,可以得到更為準(zhǔn)確的試題單題質(zhì)量和試卷整體質(zhì)量改進(jìn)方案.
總的來(lái)說(shuō),通過(guò)引入多元概化理論對(duì)試卷質(zhì)量進(jìn)行分析和評(píng)測(cè),可以為新高考完善考核內(nèi)容、調(diào)整試卷結(jié)構(gòu)提供參考,為提高試題試卷質(zhì)量提供依據(jù).隨著高考內(nèi)容與形式改革的推進(jìn),進(jìn)一步加強(qiáng)基于統(tǒng)計(jì)數(shù)據(jù)的實(shí)證性研究,對(duì)于提升考試命題的專業(yè)化、規(guī)范化和科學(xué)化水平具有重要意義.