教育部考試中心 徐奉先
由一道高考?xì)v史共同題看考生群體的差異
——以定量分析為主
教育部考試中心 徐奉先
近年來(lái),一些研究者對(duì)高考考生群體的差異進(jìn)行了研究和論證,這些研究大多集中在定性方面,缺少量化分析。①任子朝、符華均、黃正正、張心、陳昂:《高中文理科學(xué)生數(shù)學(xué)水平比較研究》,《課程·教材·教法》2015年第6期。2016年高考,山東、安徽、重慶、四川、福建、廣東共6省市首次使用文科綜合全國(guó)卷,為更好地了解不同地域考生的實(shí)際學(xué)習(xí)水平,歷史學(xué)科在該年度文綜全國(guó)卷第Ⅰ、Ⅱ卷中設(shè)計(jì)了一道共同題第28題,可在一定程度上反映使用不同卷種的考生在歷史學(xué)習(xí)能力方面的差異。試題描述如下:
19世紀(jì)中期以后,中國(guó)市場(chǎng)上的洋貨日益增多,火柴、洋布等用品“雖窮鄉(xiāng)僻壤,求之于市,必有所供”。這種狀況表明
A.中國(guó)關(guān)稅主權(quán)開(kāi)始喪失
B.商品經(jīng)濟(jì)基本取代自然經(jīng)濟(jì)
C.民眾生活與世界市場(chǎng)聯(lián)系日趨密切
D.中國(guó)市場(chǎng)由被動(dòng)開(kāi)放轉(zhuǎn)為主動(dòng)開(kāi)放
本題考點(diǎn)是高中歷史主干知識(shí)“晚清中國(guó)經(jīng)濟(jì)結(jié)構(gòu)的變化”,主要考查考生準(zhǔn)確理解、獲取歷史材料信息,并運(yùn)用所學(xué)知識(shí)說(shuō)明和解釋歷史現(xiàn)象、認(rèn)識(shí)歷史事物的本質(zhì)的能力。題干材料描述的歷史現(xiàn)象是:19世紀(jì)中期以后,洋貨大量涌入,即使偏僻的農(nóng)村地區(qū),火柴、洋布等日用品在市場(chǎng)上都有供應(yīng)。出現(xiàn)這種現(xiàn)象的歷史背景,是近代以來(lái)歐美列強(qiáng)以槍炮不斷打開(kāi)亞非拉國(guó)家的國(guó)門(mén),傾銷商品和掠奪原材料,在此過(guò)程中資本主義世界市場(chǎng)逐步形成。近代中國(guó)亦不例外,中國(guó)被迫打開(kāi)國(guó)門(mén)后列強(qiáng)對(duì)華商品輸出不斷擴(kuò)大和深入,城鄉(xiāng)市場(chǎng)日益被納入到世界市場(chǎng)體系中,市場(chǎng)上的洋貨無(wú)論數(shù)量和種類都不斷增多,對(duì)民眾的日常生活產(chǎn)生了深刻影響。這種狀況一方面給中國(guó)傳統(tǒng)自然經(jīng)濟(jì)帶來(lái)巨大的沖擊,另一方面使民眾的日常生活與世界市場(chǎng)的聯(lián)系日趨密切。因此,本題的正確答案是C項(xiàng)。
從考生作答情況來(lái)看,第28題在Ⅰ卷和Ⅱ卷使用省份的測(cè)試效果均比較好。使用全國(guó)Ⅰ卷的省份為河北、河南、山西、山東、安徽、湖北、湖南、江西、福建、廣東共10個(gè),其中山東、安徽、福建、廣東四省為首次使用全國(guó)卷,抽樣人數(shù)共24958人,實(shí)測(cè)難度值0.633,即63.3%的考生能夠答對(duì)(客觀題的難度,以正確回答該題的人數(shù)占參加測(cè)驗(yàn)的總?cè)藬?shù)的比率來(lái)表示)。一般來(lái)說(shuō)難度值在0.5~0.55的試題是測(cè)試效果比較理想的試題,根據(jù)Ⅰ卷使用地區(qū)考生的作答情況來(lái)看,該題顯然是一道偏易的試題。Ⅱ卷的使用省份為內(nèi)蒙古、黑龍江、吉林、遼寧、陜西、甘肅、寧夏、新疆、青海、西藏、重慶共10省市,其中重慶市是首次使用全國(guó)卷,陜西省是首次使用全國(guó)Ⅱ卷。從實(shí)測(cè)數(shù)據(jù)來(lái)看,該卷使用省份共抽樣24820人。與Ⅰ卷抽樣人數(shù)基本持平,實(shí)測(cè)難度值0.558,即55.8%的考生能夠答對(duì),屬于中等難度試題。相較Ⅰ卷的測(cè)試效果,該題對(duì)于Ⅱ卷使用地區(qū)的考生而言,明顯難于Ⅰ卷考生。
從試題的區(qū)分度來(lái)看(試題的區(qū)分度是指測(cè)驗(yàn)題目對(duì)考生實(shí)際水平的區(qū)分程度或鑒別能力),區(qū)分度通常在-1~+1之間,數(shù)值越大區(qū)分度越好。一般而言,試題的區(qū)分度在0.4以上表明此題的區(qū)分度很好,0.3~0.39表明此題的區(qū)分度較好,0.3以下則表明此題的區(qū)分度不好。據(jù)表1、表2可知,第28題在Ⅰ卷中的區(qū)分度為0.475,在Ⅱ卷中的區(qū)分度為0.404,均在0.4以上,是一道區(qū)分度非常好的選擇題。
表1 課標(biāo)文綜Ⅰ卷第28題得分率
表2 課標(biāo)文綜Ⅱ卷第28題得分率
圖1、圖2使用坐標(biāo)系分別描述了在文科綜合Ⅰ卷和Ⅱ卷中第28題的難度分布,在圖示坐標(biāo)中,用橫軸表示參加文科綜合考試的考生從0到300的各個(gè)分?jǐn)?shù)段,縱軸表示第28題的得分率,由圖可見(jiàn),總分越高的考生,在該題的得分越高;得分率呈正態(tài)分布,有效區(qū)分了高、中、低三個(gè)分?jǐn)?shù)段的考生。觀察圖1和圖2的差異,可以看出使用Ⅰ卷的考生在該題的得分率分布,總分180以上者得分率在80%以上,而使用Ⅱ卷的考生得分率分布,總分200以上者得分率才能達(dá)到80%以上,說(shuō)明該題對(duì)于使用Ⅰ卷的考生而言更容易,這與上文中難度的分析結(jié)果是一致的。
圖1 課標(biāo)文綜Ⅰ卷第28題難度分布圖
圖2 課標(biāo)文綜Ⅱ卷第28題難度分布圖
題目的區(qū)分度與難度有密切的關(guān)系,一般而言,題目的難度過(guò)大或過(guò)小,區(qū)分度會(huì)比較低。題目的區(qū)分度與測(cè)驗(yàn)的信度也有密切的關(guān)系,整個(gè)測(cè)驗(yàn)中題目的區(qū)分度平均數(shù)越大,測(cè)驗(yàn)的信度越高。與題目的難度一樣,區(qū)分度也是以某一群體為被試計(jì)算的,受所選群體的同質(zhì)性影響。如果被試的差異很小,一個(gè)區(qū)分能力很強(qiáng)的題目的區(qū)分度指標(biāo)可能很低;如果被試的差異很大,一個(gè)區(qū)分能力很差的題目的區(qū)分度指標(biāo)也可能很高。就高考而言,考生的能力水平差異較大,因此偏難或偏易的試題都會(huì)影響試題的區(qū)分度。但正是由于高考針對(duì)的是水平差異較大的受試群體,在設(shè)計(jì)試題時(shí)就需要考慮到受試者的不同水平設(shè)計(jì)具有針對(duì)性的試題。例如就歷史學(xué)科而言,難度值在0.65以上的試題,能夠比較有效地區(qū)分低水平和中等水平的考生;難度值在0.3左右的試題,對(duì)于區(qū)分高水平和中等偏上水平的考生非常有效;而難度值在0.5~0.6之間的試題,對(duì)于低水平和高水平的考生區(qū)分效果良好。因此,在一張?jiān)嚲碇?,并不是所有試題的難度值都保持在同一區(qū)間就好,這樣并不能將不同水平的考生區(qū)分開(kāi),只有難、中、易各層級(jí)的試題合理搭配,才能保證整張?jiān)嚲砭哂辛己玫膮^(qū)分效果,而通過(guò)在不同受試群體的不同試卷中設(shè)置共同題,則更能看出考生群體之間的差異。
共同題的作用在于能夠?qū)⑹褂貌煌嚲淼目忌g的差異和使用相同試卷的考生間的差異有機(jī)聯(lián)系起來(lái)。一般來(lái)說(shuō),將分值較大的主觀題設(shè)計(jì)為共同題的效果更好,可以直觀地了解和比較考生的作答、得分情況和思維過(guò)程,但由于各省在閱卷的操作過(guò)程中對(duì)主觀題評(píng)分標(biāo)準(zhǔn)的把握存在差異,如果直接將不同省市的數(shù)據(jù)進(jìn)行比較,就降低了比較的科學(xué)性;而且就高考這樣高利害高風(fēng)險(xiǎn)的大規(guī)??荚嚩?,將主觀題設(shè)置為共同題的泄密風(fēng)險(xiǎn)也更大。而將選擇題設(shè)置為共同題的好處是,選擇題答案唯一,不存在測(cè)不準(zhǔn)的情況,分值較小泄密風(fēng)險(xiǎn)也隨之下降。
就2016年文綜Ⅰ卷和Ⅱ卷的共同題第28題而言,Ⅰ卷平均分為2.5分,Ⅱ卷平均分為2.2分,考生群體在該題的表現(xiàn),Ⅰ卷考生優(yōu)于Ⅱ卷考生。以該題為參照,Ⅰ卷中難度值在0.633以下的試題(共10題),如果用于Ⅱ卷,難度值勢(shì)必會(huì)低于0.558。而Ⅱ卷選擇題中難度低于0.558的試題共8題(參看表3)。如果Ⅰ卷中的選擇題由Ⅱ卷考生作答,那么Ⅱ卷考生作答的情況,難度值很可能會(huì)低于0.438,這就證明了Ⅰ、Ⅱ卷考生之間的差異,Ⅰ卷考生在獲取和解讀信息、調(diào)動(dòng)和運(yùn)用知識(shí)方面的水平整體高于Ⅱ卷考生(選擇題主要考查以上兩方面能力)。①教育部考試中心:《2017年普通高等學(xué)校招生全國(guó)統(tǒng)一考試大綱》,2016年,第133頁(yè)。
表3 2016年高考文綜全國(guó)Ⅰ、Ⅱ卷歷史選擇題難度
基于2016年的考后難度值數(shù)據(jù),筆者對(duì)歷史試卷各題型之間的相關(guān)性進(jìn)行了統(tǒng)計(jì)。將歷史試卷的整體難度系數(shù)設(shè)定為1,第41題難度和第40題難度與整卷之間的相關(guān)系數(shù)分別為0.901、0.869,說(shuō)明這兩個(gè)題型(即主觀必答題)的難度對(duì)整卷難度的影響最大。如果以客觀題為錨題來(lái)討論主觀題的難度差異,Ⅰ卷主觀題難度值為0.556,Ⅱ卷主觀題難度值為0.385,說(shuō)明Ⅱ卷考生在描述和闡釋歷史事物、論證和探討問(wèn)題方面的能力尚有待加強(qiáng)。
表4 2016年高考文綜全國(guó)卷歷史科各題型相關(guān)性分析
目前全國(guó)卷的使用情況,是若干省使用同一套試卷,在一定范圍內(nèi)有一個(gè)統(tǒng)一的衡量標(biāo)準(zhǔn),這對(duì)比較各省教育水平、衡量新生的教育質(zhì)量都提供了有益的參考。②李立峰:《高考分省命題不是改革的必然方向》,《粵海風(fēng)》2011年第1期。2016年全國(guó)卷分為Ⅰ、Ⅱ、Ⅲ、Ⅳ卷。上文分析了使用不同試卷的考生群體之間的具體差異,而實(shí)際上使用同一套試卷的不同省份考生之間也同樣存在差異。表5和表6分別是2016年文綜Ⅰ卷、Ⅱ卷歷史試題各題型的平均分與難度統(tǒng)計(jì),由表可知,使用Ⅰ卷的省份中,客觀題(即選擇題,總分48分)平均分的分差為2.19分,差距較小,說(shuō)明考生在該題型表現(xiàn)出的能力水平大體相當(dāng);但主觀題(總分52分)平均分的分差達(dá)到14.31分,差距較大,其中不排除各省閱卷的評(píng)分誤差因素。客觀題和主觀題一致性較好的是江西、湖南、廣東等省,考生的成績(jī)比較能真實(shí)反映實(shí)際水平。而在使用Ⅱ卷的省份中,客觀題平均分的分差為5.98分,差距較大;主觀題平均分的分差達(dá)到22.21分,差距非常大。這一方面反映出各省考生之間確實(shí)存在能力差異,教育水平分布不均衡;另一方面也反映出各省對(duì)評(píng)分標(biāo)準(zhǔn)把握尺度的不同造成了人為的誤差。一些省的客觀題平均分比較低,但主觀題平均分卻遠(yuǎn)遠(yuǎn)高出其他省,造成考生成績(jī)的虛高;而一些省的客觀題平均分較高,主觀題平均分卻偏低,也沒(méi)有反映考生的實(shí)際水平,應(yīng)當(dāng)在今后的高考閱卷過(guò)程中加強(qiáng)對(duì)評(píng)卷教師的培訓(xùn)。
表5 文綜Ⅰ卷歷史試題各省各題型平均分與難度統(tǒng)計(jì)表
表6 文綜Ⅱ卷歷史試題各省各題型平均分與難度統(tǒng)計(jì)表
鑒于恢復(fù)高考后全國(guó)一張卷的高泄密風(fēng)險(xiǎn),自2004年起,全國(guó)卷采用一綱多卷的形式供各省考生使用,最初主要是出于試題信息安全保密的需要。使用全國(guó)卷并不意味著各省份使用同一張?jiān)嚲恚菍?shí)行“一綱多卷”。“一綱”是保證全國(guó)統(tǒng)一高考的基礎(chǔ),通過(guò)“一綱”保證各類型試卷遵循全國(guó)統(tǒng)一的考試要求,充分體現(xiàn)國(guó)家人才選拔要求的一致性和公平性。“多卷”是根據(jù)不同省份的教育發(fā)展水平提供不同的試卷。由于各省經(jīng)濟(jì)社會(huì)發(fā)展水平存在差異、推進(jìn)高中課程改革進(jìn)度不一,高中教育教學(xué)及學(xué)生實(shí)際水平也存在差異。通過(guò)本文對(duì)2016年考后具體數(shù)據(jù)的采用和分析,可以看出各省的考生群體之間既有學(xué)科能力或素養(yǎng)方面的差異,也存在一些共性。針對(duì)考生的具體情況,使用不同類型的試卷能夠使試題更好地與學(xué)生水平相擬合,提高試卷的區(qū)分度,實(shí)現(xiàn)更好的選拔效果。此外,實(shí)行“多卷”還有利于全國(guó)統(tǒng)一考試安全。當(dāng)前高考作為一項(xiàng)高利害考試,組考的外部環(huán)境復(fù)雜嚴(yán)峻,不同地區(qū)使用不同的試卷,有效降低了全國(guó)統(tǒng)一高考的安全事故風(fēng)險(xiǎn)。
隨著考試和課程改革的不斷深入,經(jīng)過(guò)10余年的實(shí)踐與探索,全國(guó)卷的卷種和考試內(nèi)容已經(jīng)發(fā)生了極大的變化?!秶?guó)務(wù)院關(guān)于深化考試招生制度改革的實(shí)施意見(jiàn)》明確指出,新一輪高考改革要從“2015年起增加使用全國(guó)統(tǒng)一命題試卷的省份”,總體目標(biāo)是“到2020年基本建立中國(guó)特色現(xiàn)代教育考試招生制度,形成分類考試、綜合評(píng)價(jià)、多元錄取的考試招生模式”,可見(jiàn)一綱多卷依然是未來(lái)高考的主要形式。但分類依據(jù)已然不僅僅是出于安全保密的需要,而是更多地考慮了考生群體的差異和需求。面對(duì)命題格局的重大調(diào)整,考試中心曾多次赴相關(guān)省份開(kāi)展調(diào)研工作,了解各地教育教學(xué)情況,指導(dǎo)做好命題調(diào)整和復(fù)習(xí)備考的準(zhǔn)備工作,確保命題調(diào)整工作平穩(wěn)順利。在堅(jiān)持統(tǒng)一考試大綱的基礎(chǔ)上,2016年全國(guó)卷又增加了1套,共命制3套“3+文綜/理綜”試卷、1套“3+3”試卷。各套試卷的命題依據(jù)、考試標(biāo)準(zhǔn)、試卷形式等方面均保持穩(wěn)定。
目前北京、上海、天津、江蘇、浙江等省份仍繼續(xù)依據(jù)全國(guó)統(tǒng)一《考試大綱》實(shí)行分省命題,形成了全國(guó)統(tǒng)一命題和少數(shù)省市自主命題相結(jié)合的新格局,這一安排既是對(duì)考試招生制度改革及高中課程改革試點(diǎn)的保障,也有利于促進(jìn)高考命題水平提升和推進(jìn)考試機(jī)構(gòu)專業(yè)化建設(shè)?!案呖济}在堅(jiān)持正確的改革方向的同時(shí),需適當(dāng)考慮眾多學(xué)校的實(shí)際情況和考生的實(shí)際水平,慎重把握改革的力度和步伐,穩(wěn)步推進(jìn),使新高考與新課改實(shí)現(xiàn)良性互動(dòng)”。①毛競(jìng)飛、盛蘭芳、李金波:《高考成績(jī)?nèi)后w差異性分析》,《現(xiàn)代教育管理》2011年第4期。
(責(zé)任編輯:李月琴)
徐奉先,教育部考試中心助理研究員(郵編100080)。