張麗
對教育質(zhì)量進(jìn)行綜合評價(jià)涉及到兩個(gè)關(guān)鍵問題,一是評價(jià)什么,二是怎么評價(jià)。怎么評價(jià)直接指向了測評工具的研發(fā)。測評工具的科學(xué)性、可信性、有效性決定了我們收集的數(shù)據(jù)是否能反映測評對象的真實(shí)情況,因此,測評工具的研發(fā)是整個(gè)教育質(zhì)量評價(jià)過程中至關(guān)重要的一環(huán)。
常用測評工具
目前國際上教育質(zhì)量評價(jià)項(xiàng)目中測評工具主要有學(xué)業(yè)成就測驗(yàn)和量表、問卷工具。在我國,《教育部關(guān)于推進(jìn)中小學(xué)教育質(zhì)量綜合評價(jià)改革的意見》(教基二[2013]2號文件)明確指出,“主要通過測試和問卷調(diào)查等方法進(jìn)行評價(jià),輔之以必要的現(xiàn)場觀察、
個(gè)別訪談、資料查閱等?!逼渲袑W(xué)業(yè)成就測驗(yàn)一般以課程內(nèi)容為基礎(chǔ),測查學(xué)生在接受一段時(shí)間的課程學(xué)習(xí)后達(dá)到的效果。學(xué)業(yè)成就測驗(yàn)的實(shí)施是為了了解學(xué)生學(xué)習(xí)后所達(dá)到的水平,對學(xué)生學(xué)習(xí)的長短板有明確的認(rèn)識。
量表是對事物特質(zhì)用不同的規(guī)則分配數(shù)字等級,從而實(shí)現(xiàn)定量化測量的測評工具,后期進(jìn)行數(shù)據(jù)分析。問卷也是對人的行為和態(tài)度、背景信息進(jìn)行測量,沒有量表那么嚴(yán)格的規(guī)范,不一定是選擇某個(gè)等級分?jǐn)?shù),選項(xiàng)的設(shè)計(jì)和作答要求更加多樣化,后期通過選項(xiàng)百分比統(tǒng)計(jì)、選項(xiàng)比率的差異分析等進(jìn)行數(shù)據(jù)分析。
學(xué)業(yè)成就測驗(yàn)和量表、問卷工具在教育質(zhì)量綜合評價(jià)的運(yùn)用中,主要是測查學(xué)生學(xué)習(xí)、心理、行為等特征,確定學(xué)生在這些特質(zhì)上達(dá)到的水平。鑒于三者的區(qū)別,對于中小學(xué)教育質(zhì)量綜合評價(jià)指標(biāo)框架中涉及的五大內(nèi)容20個(gè)關(guān)鍵指標(biāo),不同的指標(biāo)適用不同的測評工具(具體見左表)。區(qū)別于傳統(tǒng)的學(xué)科考試類測驗(yàn),為了實(shí)現(xiàn)對教育質(zhì)量的診斷功能,學(xué)業(yè)成就測驗(yàn)和量表、問卷工具一般是配套研發(fā)、施測、分析。
測評工具的研發(fā)流程
教育質(zhì)量綜合評價(jià)測評工具的研發(fā)有一套標(biāo)準(zhǔn)化的流程,每個(gè)環(huán)節(jié)都會影響到其他環(huán)節(jié),標(biāo)準(zhǔn)化的命題流程是為了保證工具的質(zhì)量,只有各個(gè)環(huán)節(jié)都操作規(guī)范,才能從整體上確保測評工具的可信性和有效性。測評工具的一般研發(fā)流程如下表。
一是學(xué)業(yè)成就測驗(yàn)。其一,確定測驗(yàn)框架。依據(jù)《國家義務(wù)教育質(zhì)量監(jiān)測方案》(國教督辦[2015]4號)中對監(jiān)測內(nèi)容的要求“測查學(xué)生掌握知識、技能的程度和分析解決問題的能力”,在這種新要求下,對學(xué)生學(xué)業(yè)成就的測評將涉及到學(xué)生的知識、技能、能力三個(gè)方面。對于不同學(xué)科的測評,知識維度需要依據(jù)學(xué)科課程標(biāo)準(zhǔn),根據(jù)標(biāo)準(zhǔn)中的課程目標(biāo)與內(nèi)容確定考查的知識點(diǎn);技能維度將運(yùn)用布魯姆教育目標(biāo)分類學(xué)中的認(rèn)知向度,界定不同認(rèn)知水平,如識記、理解、應(yīng)用等;能力維度則將運(yùn)用多元智能理論,界定語言、數(shù)理邏輯、空間、人際等多種能力。因此,對學(xué)生學(xué)業(yè)成就的測評不再是二維的,而應(yīng)該是三維的,傳統(tǒng)上用于測驗(yàn)框架制定的雙向細(xì)目表將被多向細(xì)目表所取代。在多向細(xì)目表中,將要考查的知識、技能、能力編制成列聯(lián)表,并規(guī)定好各項(xiàng)目的比例。
其次,編寫測驗(yàn)題目、組成題本。根據(jù)多向細(xì)目表,確定好不同內(nèi)容和認(rèn)識水平對應(yīng)的題目類型,利用收集到的資料(如閱讀的文本材料、圖片等)編寫各類型的具體題目。目前,為了較好地覆蓋課程內(nèi)容,并且避免學(xué)生作答過多題目,要將編寫的題目組合成多個(gè)題本,學(xué)生只需要完成一個(gè)題本,通過矩陣抽樣技術(shù)實(shí)現(xiàn)對學(xué)生作答不同題目但分?jǐn)?shù)可比的目標(biāo)。
其三,審讀與模擬測試。題本編制好后,邀請學(xué)科專家、教研員、教師對多向細(xì)目表、題本進(jìn)行審讀,考查題本測查的內(nèi)容與測評目標(biāo)的一致性,題目的具體內(nèi)容是否適合測評對象、表達(dá)上可否優(yōu)化等,根據(jù)審讀的意見對題目進(jìn)行初步修改。之后選取有代表性的學(xué)生進(jìn)行測評,記錄學(xué)生作答的時(shí)間、疑問等信息,并可在學(xué)生作答完畢后進(jìn)一步訪談,了解學(xué)生作答的思路和適合性。
其四,修訂與標(biāo)準(zhǔn)化。對模擬測試收集到的數(shù)據(jù)進(jìn)行分析,明確各題目的難度、區(qū)分度,結(jié)合觀察和訪談收集到的信息,對題目進(jìn)行篩選和修改,最終形成正式題本。標(biāo)準(zhǔn)化實(shí)施還需規(guī)定測驗(yàn)實(shí)施的過程(如指導(dǎo)語、對學(xué)生疑問的解答等)、評分標(biāo)準(zhǔn)。
二是量表、問卷。其一,確定量表、問卷編制的目的和框架。量表、問卷編制的目的應(yīng)與教育質(zhì)量綜合評價(jià)的目的契合,目的的確定是內(nèi)容選取的基礎(chǔ),要明確量表、問卷的用途和實(shí)施的對象。根據(jù)具體目的,建立量表、問卷編制的對應(yīng)框架??蚣苤械膬?nèi)容往往需要從抽象概念到具體可操作的測量點(diǎn)的層層具體化。將抽象的心理行為特質(zhì)可操作化定義非常重要,其準(zhǔn)確性和科學(xué)性直接決定著是否可檢測到目標(biāo)特質(zhì)。面對一個(gè)抽象的心理行為特質(zhì),一般需要查閱相關(guān)文獻(xiàn),建構(gòu)其理論結(jié)構(gòu),再結(jié)合教育教學(xué)實(shí)際情況,選取有代表性的測評點(diǎn)。
其二,編制題目。在確定的量表、問卷框架基礎(chǔ)上,對應(yīng)各個(gè)測評點(diǎn),選取具體的行為、態(tài)度、事實(shí),編制成各個(gè)題目。對于不同內(nèi)容的測評,在題目類型、表達(dá)方式、作答方式上都會不同。如對學(xué)生公民素養(yǎng)的測評,最后量表、問卷的題目可能會指向?qū)W生面對某一情境具體的態(tài)度、行為等,而不是直接讓學(xué)生選擇自己的素養(yǎng)水平。針對學(xué)生綜合素質(zhì)的評價(jià),在編制題目時(shí),要特別避免編寫帶有傾向性或者能顯而易見做出選擇的題目。此外,量表、問卷編制中還涉及到指導(dǎo)語的編寫,指導(dǎo)語既要讓測評對象明白在測評什么,不會對其造成不良影響,不要有所顧忌,同時(shí)也要提醒對方按照實(shí)際情況作答,保證答案的真實(shí)性。
其三,模擬測試。通過模擬測試,可以了解到學(xué)生作答的時(shí)間、學(xué)生在作答過程中的疑問、題目表達(dá)是否產(chǎn)生歧義、指導(dǎo)語是否明晰等等。同時(shí)模擬測試收集到數(shù)據(jù)仍然可以統(tǒng)計(jì)分析出題目選項(xiàng)分布是否合理、信效度是否達(dá)標(biāo)。
其四,修訂并形成正式量表、問卷。針對模擬測試后發(fā)現(xiàn)的問題,對量表、問卷題目進(jìn)行修訂,可能會刪除個(gè)別題目、修改題干表述、修改題目選項(xiàng),特別要注意題目選項(xiàng)之間存在重疊的情況,最終形成正式的量表、問卷。同樣,量表、問卷也需要編寫相應(yīng)的操作手冊。
三點(diǎn)思考
測評工具的編制需要多學(xué)科專家協(xié)作。在編制教育質(zhì)量綜合評價(jià)測評工具時(shí),特別是學(xué)生學(xué)業(yè)成就測驗(yàn)的編制,既需要對學(xué)科教學(xué)非常了解的學(xué)科專家,又需要掌握測評理論和技術(shù)的測量專家。學(xué)科專家需要負(fù)責(zé)測驗(yàn)多向細(xì)目表的建構(gòu)、題目的命制和修改、相關(guān)材料的收集,而測量專家需要設(shè)計(jì)題本的安排、處理數(shù)據(jù)、分析測驗(yàn)的質(zhì)量、規(guī)范測驗(yàn)的標(biāo)準(zhǔn)化實(shí)施流程。
測評工具的編制需要測量新技術(shù)的介入。目前,在國際大型教育測評項(xiàng)目中,科學(xué)先進(jìn)的測量技術(shù)已經(jīng)得到了很好的運(yùn)用。如矩陣抽樣技術(shù),將編制的題目分派到不同題本中,學(xué)生只需要完成其中一個(gè)題本,仍然可以完整反應(yīng)學(xué)生學(xué)業(yè)水平。項(xiàng)目反應(yīng)理論也越來越多的運(yùn)用到對工具質(zhì)量的分析中。這些測量技術(shù)有效提高了測評結(jié)果的科學(xué)性、準(zhǔn)確性和時(shí)效性。
測評工具的編制需要和數(shù)據(jù)分析相結(jié)合。在研發(fā)測評工具時(shí),還需要思考將進(jìn)行哪些數(shù)據(jù)分析,希望得到什么樣的結(jié)果等問題。有些題目只是需要呈現(xiàn)各個(gè)選項(xiàng)的百分比,有些題目需要針對不同人群進(jìn)行方差分析,有些題目需要合成一個(gè)指數(shù)以便做進(jìn)一步的分析等等。不同的數(shù)據(jù)分析需求會影響到題目設(shè)計(jì)的類型。