●張麗
?
科學(xué)取樣以小窺大
●張麗
2013年底,成都市被確定為全國(guó)中小學(xué)教育質(zhì)量綜合評(píng)價(jià)改革實(shí)驗(yàn)區(qū)。2014年,成都市在一、二、三圈層分別選取一個(gè)區(qū)(市、縣)試點(diǎn)教育質(zhì)量綜合評(píng)價(jià)改革,并率先在全國(guó)(30個(gè)實(shí)驗(yàn)區(qū))形成評(píng)價(jià)報(bào)告。2015年,成都市教育質(zhì)量綜合評(píng)價(jià)改革覆蓋全市所有區(qū)(市、縣)和直屬學(xué)校,采用抽樣概率與規(guī)模大小成比例的抽樣方法(簡(jiǎn)稱PPS法),抽取了20007名五年級(jí)學(xué)生和11998名八年級(jí)學(xué)生進(jìn)行測(cè)評(píng),涉及全市175所小學(xué)和148所初級(jí)中學(xué)。
由于本次測(cè)評(píng)涵蓋全市21個(gè)區(qū)(市、縣)和直屬學(xué)校,同時(shí)存在沒(méi)有可直接利用的學(xué)校信息數(shù)據(jù)庫(kù)、部分學(xué)校一校多區(qū)、學(xué)生流動(dòng)等實(shí)際問(wèn)題,為了保證收集到的數(shù)據(jù)能代表各個(gè)區(qū)(市、縣)的真實(shí)情況,保證測(cè)評(píng)結(jié)果的科學(xué)性和準(zhǔn)確性,抽樣成為本次測(cè)評(píng)的一項(xiàng)重大基礎(chǔ)性工作。由于實(shí)際問(wèn)題較為復(fù)雜,抽樣過(guò)程經(jīng)歷了多次修改和調(diào)整,力圖保證抽樣學(xué)生的代表性。在經(jīng)歷了本次測(cè)評(píng)的完整抽樣工作后,現(xiàn)對(duì)抽樣的認(rèn)識(shí)以及實(shí)踐后的思考作一梳理,供全國(guó)各實(shí)驗(yàn)區(qū)學(xué)習(xí)交流。
抽樣原因。教育質(zhì)量綜合評(píng)價(jià)采取抽樣方式選定參與評(píng)價(jià)的對(duì)象,主要有兩方面的原因,一是抽樣的目的及其自身的特點(diǎn),二是評(píng)價(jià)改革的政策要求。就抽樣的目的及自身特點(diǎn)而言,抽樣是為了通過(guò)對(duì)有限對(duì)象的測(cè)查推論總體情況,而不用對(duì)全體個(gè)體進(jìn)行逐一考查,相較于普查、典型調(diào)查(包括重點(diǎn)調(diào)查等)、個(gè)案研究,具有節(jié)約調(diào)查成本(人力、費(fèi)用及時(shí)間)、隨機(jī)性、推論準(zhǔn)確性高的特點(diǎn)。抽樣在教育測(cè)評(píng)中實(shí)用性較強(qiáng),由于教育測(cè)評(píng)涉及學(xué)生人數(shù)眾多,測(cè)試的組織和實(shí)施需要較多的人力和物力,目前大型教育測(cè)評(píng)項(xiàng)目(如PISA、TIMSS、NAEP、我國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)等)均采用抽樣的方式搜集數(shù)據(jù)資料,通過(guò)對(duì)抽樣學(xué)生的測(cè)評(píng)推論全體學(xué)生的整體情況。
《教育部關(guān)于推進(jìn)中小學(xué)教育質(zhì)量綜合評(píng)價(jià)改革的意見(jiàn)》(教基二[2013]2號(hào))中就評(píng)價(jià)方法明確指出:“測(cè)試和調(diào)查都要面向?qū)W生群體采取科學(xué)抽樣的辦法實(shí)施,不針對(duì)學(xué)生個(gè)體,不得組織面向全體學(xué)生的縣級(jí)及以上統(tǒng)考統(tǒng)測(cè),避免加重學(xué)校和學(xué)生負(fù)擔(dān)。”因此,無(wú)論是從節(jié)約成本角度,還是從減輕學(xué)校和學(xué)生負(fù)擔(dān)角度,抽樣都是現(xiàn)階段教育質(zhì)量綜合評(píng)價(jià)優(yōu)先采用的方式。
常用抽樣方法及其特點(diǎn)。常見(jiàn)的抽樣方法包括簡(jiǎn)單隨機(jī)抽樣、等距抽樣、分層抽樣、整群抽樣、多階段抽樣。簡(jiǎn)單隨機(jī)抽樣是按隨機(jī)性原則直接從總體中不放回的抽取樣本,其特點(diǎn)是簡(jiǎn)單直觀,推論總體準(zhǔn)確,是其他抽樣方法的基礎(chǔ)。等距抽樣是按某一順序?qū)⒖傮w中所有單位排序,再以固定間距直接隨機(jī)抽取調(diào)查單位,其特點(diǎn)是代表性好,但樣本分散,調(diào)查成本高。分層抽樣是把總體單位按一定標(biāo)志分成若干類型,在各類型中隨機(jī)抽取調(diào)查單位,其特點(diǎn)是代表性好,調(diào)查成本比較節(jié)約。整群抽樣是將總體分成若干群,以群為單位,從總體中隨機(jī)抽取群,對(duì)抽中的群內(nèi)單位全部進(jìn)行調(diào)查,其特點(diǎn)是代表性相對(duì)差一些,但調(diào)查成本較低。多階段抽樣是按不同層級(jí),逐層抽樣,最低層級(jí)上隨機(jī)抽取調(diào)查單位,是簡(jiǎn)單隨機(jī)、等距、分層、整群等方法的綜合運(yùn)用。目前大型教育測(cè)評(píng)項(xiàng)目中一般均采用多階段抽樣,本次中小學(xué)教育質(zhì)量綜合評(píng)價(jià)也采用了這種抽樣方法。
大型教育測(cè)評(píng)的抽樣一般包括抽取樣本區(qū)(市、縣)、抽取樣本校、抽取樣本學(xué)生三個(gè)環(huán)節(jié)。2015年成都市根據(jù)全市五年級(jí)和八年級(jí)學(xué)生總數(shù)確定各抽取12000個(gè)樣本,且全市21個(gè)區(qū)(市、縣)和直屬學(xué)校全部參加本次測(cè)評(píng)。因此,本次測(cè)評(píng)只需抽取樣本校和樣本學(xué)生。
首先是抽取樣本學(xué)校。根據(jù)上報(bào)的學(xué)校學(xué)生數(shù)量信息,分別計(jì)算成都市每個(gè)區(qū)(市、縣)的五年級(jí)和八年級(jí)學(xué)生總量,以此作為從各區(qū)(市、縣)抽樣的基數(shù);根據(jù)各區(qū)(市、縣)五年級(jí)和八年級(jí)的學(xué)生總數(shù),確定24000個(gè)樣本應(yīng)分?jǐn)偟礁鱾€(gè)區(qū)(市、縣)的比例和實(shí)際樣本數(shù)量;以各個(gè)區(qū)(市、縣)應(yīng)被抽取的學(xué)生樣本數(shù)量為基礎(chǔ),根據(jù)PPS法在各個(gè)區(qū)(市、縣)中抽取樣本學(xué)校,并確定樣本學(xué)校中應(yīng)抽取的學(xué)生樣本數(shù)量。
關(guān)于樣本學(xué)校數(shù)量的確定。PISA規(guī)定每個(gè)經(jīng)濟(jì)體不得少于150個(gè)學(xué)校樣本,參照這個(gè)標(biāo)準(zhǔn),本次八年級(jí)抽樣抽取150所學(xué)校,再按各個(gè)區(qū)(市、縣)內(nèi)學(xué)校數(shù)的比例分配。而五年級(jí)學(xué)校數(shù)明顯多于八年級(jí),且五年級(jí)每所學(xué)校的平均人數(shù)要比八年級(jí)少,如果5年級(jí)也抽取150所學(xué)校,會(huì)造成大量學(xué)校人數(shù)小于應(yīng)抽樣的人數(shù)?;谏鲜隹紤],五年級(jí)按150所學(xué)校進(jìn)行分配后,再在每個(gè)區(qū)(市、縣)增加1所學(xué)校,從而減少和避免學(xué)校總?cè)藬?shù)小于應(yīng)抽取樣本數(shù)的情況。本次抽樣設(shè)定學(xué)校樣本數(shù)的目的,是為了估計(jì)一個(gè)區(qū)(市、縣)內(nèi)每所學(xué)校應(yīng)抽取的人數(shù)以及計(jì)算抽樣間距(學(xué)生總數(shù)/抽樣學(xué)校數(shù))。只要每所學(xué)校抽取人數(shù)和步長(zhǎng)比較合理,各個(gè)區(qū)(市、縣)應(yīng)抽取的學(xué)校數(shù)可以按照各個(gè)區(qū)(市、縣)學(xué)校的特點(diǎn)進(jìn)行設(shè)定。
其次是抽取樣本學(xué)生。每個(gè)區(qū)(市、縣)抽取學(xué)校數(shù)設(shè)定后,再根據(jù)每個(gè)區(qū)(市、縣)抽取的總?cè)藬?shù)計(jì)算出每個(gè)學(xué)校應(yīng)抽取的人數(shù),依據(jù)應(yīng)抽取的學(xué)生數(shù)量,隨機(jī)抽取學(xué)生樣本。
建立和維護(hù)學(xué)校基本信息數(shù)據(jù)庫(kù)。本次測(cè)評(píng)抽樣的基礎(chǔ)性工作是收集各個(gè)區(qū)(市、縣)學(xué)校的基本信息,包括學(xué)校城鄉(xiāng)分布、學(xué)校類型、學(xué)校榮譽(yù)、辦學(xué)質(zhì)量、學(xué)生數(shù)量、對(duì)應(yīng)年級(jí)教師數(shù)量等信息。由于缺乏可使用的完整學(xué)?;緮?shù)據(jù)信息,本次基礎(chǔ)信息的采集使用教育局近期相關(guān)數(shù)據(jù)和學(xué)校填報(bào)相結(jié)合的方式,但結(jié)果并不理想。一是教育局提供的相關(guān)數(shù)據(jù)盡管是近期的,但也存在不完全準(zhǔn)確的情況;二是一校多區(qū)的校區(qū)信息沒(méi)有明確,可能導(dǎo)致測(cè)評(píng)實(shí)施的難度增大,因此在抽樣過(guò)程中需要特別注意;三是在間隔期間個(gè)別學(xué)校發(fā)生變動(dòng)的情況未知;四是部分學(xué)校對(duì)于城鄉(xiāng)分布的界定存在疑惑,導(dǎo)致上報(bào)的數(shù)據(jù)存在偏差,不利于后期的數(shù)據(jù)分析。這些因素都可能導(dǎo)致抽樣的誤差增大,因此,建立區(qū)域?qū)W?;拘畔?shù)據(jù)庫(kù)以及針對(duì)學(xué)校、學(xué)生變動(dòng)等情況對(duì)數(shù)據(jù)庫(kù)的維護(hù)和更新顯得尤為重要,這是提高測(cè)評(píng)工作效率的重要保證。
注意抽樣的細(xì)節(jié)問(wèn)題。本次測(cè)評(píng)學(xué)校抽樣結(jié)果中存在不同教學(xué)質(zhì)量學(xué)校的比例在各區(qū)(市、縣)之間存在一定差異。其原因在于,我們?cè)趨^(qū)(市、縣)內(nèi)部抽取學(xué)校時(shí),沒(méi)有進(jìn)一步考慮分層變量。分層變量是可能與學(xué)業(yè)質(zhì)量密切相關(guān)的影響因素,一般有兩類,顯性分層變量和隱性分層變量。顯性分層變量一般為學(xué)校所屬地(分為城區(qū)、鎮(zhèn)區(qū)、鄉(xiāng)村)等;隱性分層變量包括學(xué)生入學(xué)成績(jī)等級(jí)、學(xué)校質(zhì)量、學(xué)校性質(zhì)(公辦、民辦)等。應(yīng)該將區(qū)(市、縣)內(nèi)所有學(xué)校劃分到不同的顯性層級(jí)中,在各層次里再按照隱性變量為學(xué)校排序,最后根據(jù)計(jì)算出的抽樣間距在每個(gè)外顯層面抽取樣本學(xué)校。這個(gè)過(guò)程可以保證各個(gè)顯性分層中均勻包含各類學(xué)校,避免出現(xiàn)區(qū)(市、縣)之間學(xué)校質(zhì)量分布不均的問(wèn)題。對(duì)于顯性分層變量和隱性分層變量,顯性分層變量一般為地域變量,較易確定,如本次測(cè)評(píng)中以區(qū)(市、縣)作為顯性分層變量。而隱性分層變量需要收集相應(yīng)信息,這里又存在一些問(wèn)題,如學(xué)校質(zhì)量涉及如何界定不同質(zhì)量水平的問(wèn)題,不同區(qū)(市、縣)之間學(xué)生初始成績(jī)需要等值的問(wèn)題等。這些問(wèn)題,還有待于我們?cè)趯?shí)際工作中進(jìn)一步研究解決。
基于追蹤研究的需要。成都市作為全國(guó)中小學(xué)教育質(zhì)量綜合評(píng)價(jià)改革實(shí)驗(yàn)區(qū),評(píng)價(jià)工作已經(jīng)成為年度連續(xù)性工作,涉及到評(píng)價(jià)后對(duì)學(xué)校教育質(zhì)量變化的評(píng)估。將連續(xù)測(cè)評(píng)結(jié)果反饋給學(xué)校,對(duì)學(xué)校制定未來(lái)發(fā)展計(jì)劃非常必要。因此,在保證抽樣能代表各區(qū)(市、縣)總體情況的前提下,如何針對(duì)學(xué)校進(jìn)行跟蹤研究,這個(gè)問(wèn)題在抽樣時(shí)需要考慮。一個(gè)思路是,事先確定有代表性的跟蹤研究學(xué)校,在抽樣完成后,如果沒(méi)有抽到該學(xué)校,根據(jù)顯性和隱性變量,取代被抽到的類似學(xué)校。另一個(gè)思路是,不事先確定跟蹤研究對(duì)象,在兩次抽樣中找尋兩次都被抽中的學(xué)校進(jìn)行跟蹤研究。
抽樣測(cè)評(píng)的未來(lái)走向。在“互聯(lián)網(wǎng)+”時(shí)代的云計(jì)算、大數(shù)據(jù)、人工智能技術(shù)不斷成熟的背景下,抽樣測(cè)評(píng)的未來(lái)走向可能有兩個(gè),一是新技術(shù)促使抽樣過(guò)程更加便捷和自動(dòng)化,根據(jù)完善的、豐富的基礎(chǔ)信息,結(jié)合測(cè)評(píng)需求設(shè)計(jì)抽樣步驟,通過(guò)高效的程序化過(guò)程就能迅速準(zhǔn)確地完成抽樣;二是來(lái)自大數(shù)據(jù)的挑戰(zhàn),大數(shù)據(jù)的一個(gè)特點(diǎn)就是全樣本數(shù)據(jù)的收集和分析,目前大數(shù)據(jù)在商業(yè)領(lǐng)域運(yùn)用較多,但在教育領(lǐng)域的應(yīng)用還比較少,如果將來(lái)大數(shù)據(jù)在教育領(lǐng)域的運(yùn)用日益廣泛,未來(lái)在考慮成本、可操作性、教育教學(xué)實(shí)際情況等多種因素后,可以選擇抽樣測(cè)評(píng)或全樣本測(cè)評(píng)。
張麗
成都市教育科學(xué)研究院督導(dǎo)監(jiān)測(cè)評(píng)估研究所教研員。
(責(zé)任編輯曾憲波)