職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)：國際與本土的尺度整合

2020-02-17 11:49:49李鵬

職業(yè)技術(shù)教育 2020年1期

關(guān)鍵詞：學(xué)習(xí)評價評價標(biāo)準(zhǔn)職業(yè)教育

摘要評估標(biāo)準(zhǔn)建構(gòu)是實(shí)施元評估的重要基礎(chǔ)。為建構(gòu)職業(yè)教育學(xué)習(xí)評價元評估的標(biāo)準(zhǔn)體系，整合國際通行的實(shí)用性、可行性、合理性和準(zhǔn)確性尺度和中國學(xué)習(xí)評價的公平性尺度，綜合運(yùn)用問卷法、訪談法和元分析法，對149名職業(yè)教育學(xué)生進(jìn)行了實(shí)證調(diào)查。研究發(fā)現(xiàn)：國際通用的教育元評估標(biāo)準(zhǔn)與中國學(xué)習(xí)評價的公平性尺度具有內(nèi)在一致性;職業(yè)教育學(xué)習(xí)評價元評估體系是以“過程-結(jié)構(gòu)”為基礎(chǔ)，在過程上包括了評估過程的評價設(shè)計、評價實(shí)施和評價結(jié)果三個環(huán)節(jié)，在結(jié)構(gòu)上包含了不同環(huán)節(jié)的不同標(biāo)準(zhǔn)。實(shí)證分析發(fā)現(xiàn)，基于國際標(biāo)準(zhǔn)與本土尺度整合的職業(yè)教育學(xué)習(xí)評價元評估常模具有良好的測量學(xué)特征，可以用于學(xué)習(xí)評價的元評估。

關(guān)鍵詞職業(yè)教育;學(xué)習(xí)評價;元評估;評價標(biāo)準(zhǔn)

中圖分類號 G719.2 文獻(xiàn)標(biāo)識碼 A 文章編號 1008-3219（2020）01-0006-07

一、問題提出

學(xué)習(xí)評價改革是辦好類型特色職業(yè)教育的重要問題之一。2018年全國教育大會指出，“扭轉(zhuǎn)不科學(xué)的教育評價導(dǎo)向，堅決克服唯分?jǐn)?shù)、唯升學(xué)、唯文憑、唯論文、唯帽子的頑瘴痼疾，從根本上解決教育評價指揮棒問題?！盵1]對于職業(yè)教育學(xué)習(xí)評價來說，最重要的尺度就是評價過程的公平，以及評價結(jié)果能夠促進(jìn)學(xué)生的發(fā)展[2]。然而，如何判斷職業(yè)教育學(xué)習(xí)評價是公平的、促進(jìn)發(fā)展的？這就是對學(xué)習(xí)評價的評估，即元評估（meta-evaluation）。元評估是對評價的評價（the evaluation of evaluation），是人類的一種“自我參照”，通過對評價的再評價，在“指揮棒”和“參照系”[3]中引導(dǎo)初始評價朝著科學(xué)評價的方向發(fā)展。因此，對學(xué)習(xí)評價進(jìn)行元評估有利于保障職業(yè)教育學(xué)習(xí)評價的科學(xué)性，維護(hù)職業(yè)教育學(xué)習(xí)評價的過程公平，實(shí)現(xiàn)“以評價促進(jìn)發(fā)展”的目標(biāo)。但是，實(shí)踐證明，實(shí)施職業(yè)教育學(xué)習(xí)評價的元評估，建構(gòu)標(biāo)準(zhǔn)體系是其基礎(chǔ)性工作。從國內(nèi)外的實(shí)踐經(jīng)驗(yàn)來看，制定學(xué)習(xí)評價元評估評價標(biāo)準(zhǔn)的方法有多種，不同的方法有不同的依據(jù)、價值選擇與方法論，也有不同的實(shí)施程序[4]。盡管職業(yè)教育學(xué)習(xí)元評估標(biāo)準(zhǔn)的編制程序各有不同，但元評估的標(biāo)準(zhǔn)卻是相同的。理想的元評估標(biāo)準(zhǔn)體系必須具備滿足以下條件：有具體的、完整的評價觀測點(diǎn);有細(xì)致的、準(zhǔn)確的評價尺度;有良好的信度和效度;有合理的、權(quán)變的權(quán)重指標(biāo);有公正的、清晰的結(jié)果等級[5]。因此，參照教育元評估標(biāo)準(zhǔn)的理想表征，本研究整合國際通行的實(shí)用性、可行性、合理性和準(zhǔn)確性元評估尺度和中國學(xué)習(xí)評價的公平性標(biāo)準(zhǔn)，運(yùn)用元分析、訪談法等多種研究方法開發(fā)編制職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)。

二、研究設(shè)計

評價標(biāo)準(zhǔn)的開發(fā)需要有先進(jìn)而科學(xué)的理論基礎(chǔ)、豐富和詳實(shí)的數(shù)據(jù)支撐以及必要的數(shù)理統(tǒng)計分析。在特定的研究目標(biāo)指引下，依托合理的研究假設(shè)，運(yùn)用多重研究方法論證指標(biāo)體系的來源、結(jié)構(gòu)與合理性?；诖?，職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)的開發(fā)設(shè)計思路如下。

（一）研究目標(biāo)

學(xué)習(xí)元評估是多功能性的評價，常見的功能有：通過信息收集、價值判斷為政策制定、課程設(shè)計以及學(xué)生學(xué)習(xí)提供支持;通過文本資料分析助推教育政策制定與改革;通過獲取、描述、分析初始評價信息的全過程，指導(dǎo)評價活動改進(jìn)[6]。元評估也是價值判斷和事實(shí)判斷，要實(shí)現(xiàn)元評估的功能屬性，需要一定的參照標(biāo)準(zhǔn)。因此，本研究的目標(biāo)是建構(gòu)職業(yè)教育學(xué)習(xí)評價元評估的評價標(biāo)準(zhǔn)。具體而言，結(jié)合國內(nèi)外現(xiàn)有的學(xué)習(xí)元評估標(biāo)準(zhǔn)體系與職業(yè)教育學(xué)習(xí)評價的自身規(guī)律，分析并建構(gòu)有信度、有效度的職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)。

（二）研究假設(shè)

國際上通行的元評估標(biāo)準(zhǔn)是美國教育評價標(biāo)準(zhǔn)聯(lián)合委員會（JCSEE）開發(fā)的實(shí)用性、可行性、合理性和準(zhǔn)確性四個指標(biāo)尺度[7]。國內(nèi)學(xué)習(xí)元評估的標(biāo)準(zhǔn)主要有高考公平指數(shù)[8]和義務(wù)教育督導(dǎo)評估公平指數(shù)[9]。盡管東西方學(xué)習(xí)元評估的標(biāo)準(zhǔn)尺度在形式上略有差異，但在本質(zhì)上有著良好的內(nèi)部一致性，見圖1。

西方學(xué)習(xí)元評估的實(shí)用性、可行性、合理性、準(zhǔn)確性標(biāo)準(zhǔn)與我國學(xué)習(xí)元評估的公平指數(shù)在本質(zhì)上是一致的。經(jīng)濟(jì)視角的公平是最終的效益分配與共享，這是實(shí)用性標(biāo)準(zhǔn);法律視角的公平是評價程序的公正和參與，這是可行性標(biāo)準(zhǔn);倫理學(xué)視角的公平強(qiáng)調(diào)評價制度的無傷害和道德性，這是合理性標(biāo)準(zhǔn);技術(shù)哲學(xué)視角的公平衡量評價制度的科學(xué)與效率，這是準(zhǔn)確性標(biāo)準(zhǔn)。因此，職業(yè)教育學(xué)習(xí)評價的元評估既可以從實(shí)用性、可行性、合理性、準(zhǔn)確性四個維度衡量，也可以從評價制度的公平性去衡量?；诖耍狙芯堪阎形鞣綄W(xué)習(xí)元評估標(biāo)準(zhǔn)進(jìn)行整合，建立新的元評估體系。

（三）研究方法

在整個職業(yè)教育學(xué)習(xí)評價制度元評估的過程中，為準(zhǔn)確探究職業(yè)教育學(xué)習(xí)評價制度運(yùn)行的現(xiàn)狀，保障研究結(jié)果的信度與效度，本文綜合采用了問卷調(diào)查法、內(nèi)容分析法、德爾菲法和層次分析法等方法。

1.元分析法

借助國內(nèi)外學(xué)習(xí)評價相關(guān)文獻(xiàn)和元評估文獻(xiàn)，分析職業(yè)教育學(xué)習(xí)評價的過程結(jié)構(gòu)，整理國內(nèi)外現(xiàn)存的學(xué)習(xí)評價元評估標(biāo)準(zhǔn)體系，建構(gòu)中西整合的職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)框架。

2.訪談法

職業(yè)教育學(xué)習(xí)評價元評估還通過訪談方法收集學(xué)習(xí)評價實(shí)施的相關(guān)質(zhì)性資料，以此為基礎(chǔ)，分析職業(yè)教育學(xué)習(xí)評價元評估的具體評估要點(diǎn)和觀測點(diǎn)。

3.德爾菲法

職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)還要基于專家的經(jīng)驗(yàn)判斷，確定評估維度以及評估體系的信度效度。同時，還要根據(jù)專家經(jīng)驗(yàn)區(qū)分各維度之間的權(quán)重維度。

三、研究過程與結(jié)果

職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)的設(shè)計與開發(fā)有三個核心工作：一是選擇合理的指標(biāo)觀測點(diǎn)，二是建構(gòu)不同指標(biāo)之間的穩(wěn)定性結(jié)構(gòu)，三是測度整個體系結(jié)構(gòu)的質(zhì)量水平。在國內(nèi)尺度與國際標(biāo)準(zhǔn)相整合的理念下，職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)的開發(fā)過程與結(jié)果如下。

（一）元評估觀測點(diǎn)的選擇

元評估的根本是基于信息收集與分析做出事實(shí)判斷與價值判斷，所以評價的關(guān)鍵還是收集什么樣的信息。建構(gòu)職業(yè)教育學(xué)習(xí)評價元評估的評價標(biāo)準(zhǔn)，首先必須確立元評估信息收集的內(nèi)容標(biāo)準(zhǔn)，明確元評估標(biāo)準(zhǔn)的內(nèi)容觀測點(diǎn)。職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)的觀測點(diǎn)來自兩個方面：一是從國內(nèi)外經(jīng)典元評估模型中汲取精華;二是實(shí)踐觀察，用實(shí)踐經(jīng)驗(yàn)進(jìn)一步補(bǔ)充完善觀測體系。

1.文獻(xiàn)中的元評估觀測點(diǎn)

斯塔弗爾比姆（Stufflebeam， D.L.）主張考究評價主體是否得當(dāng)、評價對象是否準(zhǔn)確、評價過程是否科學(xué)合理、評價目的是否達(dá)到[10]。斯凱瑞文（Scriven， M.）認(rèn)為完整的元評估主要包括：檢查或重新實(shí)施數(shù)據(jù)收集，重新檢測信度效度，評價原來的設(shè)計，檢查數(shù)據(jù)分析方法與過程，分析原來的結(jié)論[11]?？露鞑┛疲↘eun-bok， K.）和陳谷（Chan-goo， Y.）從元評估的評價范式、評價資源、評價過程、評價績效、評價結(jié)果的應(yīng)用建構(gòu)了三階元評估內(nèi)容框架[12]。阿勒武（Aleu， F.G）和凱瑟利（Keathley， H.）則設(shè)計了元評估的“環(huán)境—資源—過程—績效—應(yīng)用”內(nèi)容框架[13]。在研究JCSEE和AEA元評估制度基礎(chǔ)上，借鑒國內(nèi)《學(xué)習(xí)元評估檢核表》[14]的學(xué)習(xí)元評估問卷項(xiàng)目，整合形成國內(nèi)外經(jīng)典的元評估內(nèi)容框架，見表1。

從歸納結(jié)果來看，斯塔弗爾比姆、斯凱瑞文、柯恩博科、陳谷的元評估模型所關(guān)注的評價內(nèi)容觀測點(diǎn)主要為評價目標(biāo)5次、評價標(biāo)準(zhǔn)5次、評價工具4次、評價主體5次、評價程序3次、評價組織2次、評價技術(shù)4次、評價監(jiān)控2次、結(jié)果形式1次、結(jié)果質(zhì)量4次、結(jié)果應(yīng)用3次。實(shí)際上，評價環(huán)境、評價資源、評價方案等內(nèi)容之間相互聯(lián)系、相互包含，幾乎所有的元評估模型都要對初始評價的評價目標(biāo)、評價方案、評價工具、評價主體、評價程序、評價組織、評價技術(shù)、評價監(jiān)控、結(jié)果形式等實(shí)施再評價。

2.實(shí)踐中的元評估觀測點(diǎn)

2016年3月至6月，研究者作為北碚X職業(yè)教育學(xué)?！秾W(xué)前教育研究方法》代課教師，通過學(xué)生訪談和作業(yè)問答掌握學(xué)生們對職業(yè)教育學(xué)習(xí)評價的認(rèn)知，通過開放式問答表收集了第一批資料。同時，研究者于2016年6月，在Y校對部分學(xué)生和教師進(jìn)行了相同的開放式訪談，收集了第二批初始資料。整理所有初始探索的訪談對象，基本情況見表2。

通過對兩所學(xué)校的多次實(shí)地訪談和調(diào)研分析發(fā)現(xiàn)，學(xué)生與教師對職業(yè)教育學(xué)習(xí)評價的評價目的、評價方式、評價標(biāo)準(zhǔn)、評價頻次、評價過程、評價結(jié)果形式、評價結(jié)果應(yīng)用等非常關(guān)心。對兩期訪談的文檔進(jìn)行編碼整理，最終得到實(shí)踐中的學(xué)習(xí)元評估觀測點(diǎn)，見表3。

3.職業(yè)教育學(xué)習(xí)評價元評估觀測點(diǎn)

以斯塔弗爾比姆的評價過程分析為理論支點(diǎn)，結(jié)合元分析的結(jié)果和實(shí)地訪談中所形成的問題項(xiàng)目，進(jìn)一步歸納編碼職業(yè)教育學(xué)習(xí)評價的元評估主要內(nèi)容，可以把評價目標(biāo)、評價方案、評價工具等12個內(nèi)容觀測點(diǎn)聚類為評價設(shè)計、評價實(shí)施和評價結(jié)果三個二階維度，見圖2。

職業(yè)教育學(xué)習(xí)評價元評估內(nèi)容的二階模型，在設(shè)計的元評估環(huán)節(jié)，主要評價初始評價的目標(biāo)定位、評價方式選擇與設(shè)計、評價工具或評價標(biāo)準(zhǔn)開發(fā);在評價實(shí)施環(huán)節(jié)，主要評價主體的參與、程序的推進(jìn)、技術(shù)支撐和評價調(diào)控措施;在評價結(jié)果環(huán)節(jié)，主要評價結(jié)果的表達(dá)、結(jié)果的質(zhì)量、結(jié)果的反饋以及結(jié)果的應(yīng)用。

（二）元評估尺度標(biāo)準(zhǔn)設(shè)計

尺度標(biāo)準(zhǔn)是元評估對評價內(nèi)容、評價對象的信息作出價值判斷的依據(jù)，不同的制度往往會得出不同的結(jié)論，評價尺度一般具有哲學(xué)意義上的普遍性與穩(wěn)定性，而且必須有客觀的公信力。因此，職業(yè)教育學(xué)習(xí)評價元評估尺度必須從經(jīng)典文獻(xiàn)與成熟體系中尋找答案。

1.國際標(biāo)準(zhǔn)的元評估尺度

目前，國際上比較通用的學(xué)習(xí)元評估標(biāo)準(zhǔn)尺度是1981年美國教育評價標(biāo)準(zhǔn)聯(lián)合委員會（JCSEE）開發(fā)的元評估標(biāo)準(zhǔn)尺度，見表4。

JCSEE從實(shí)用性、可行性、合理性和準(zhǔn)確性四個一級維度，對元評估的標(biāo)準(zhǔn)進(jìn)行了系統(tǒng)性規(guī)定。也巴亓（Yarbrough， D.B.）和蘇拉哈（Shulha， L.M.）等人基于JCSEE的元評估標(biāo)準(zhǔn)開發(fā)了五個維度的元評估標(biāo)準(zhǔn)尺度，分別是效用性標(biāo)準(zhǔn)（performance standard）、可行性標(biāo)準(zhǔn)（feasibility criterion）、適切性標(biāo)準(zhǔn)（practical standard）、精確性標(biāo)準(zhǔn)（accuracy standard）以及問責(zé)標(biāo)準(zhǔn)（accountability standards）[15]。此外，比較通用的標(biāo)準(zhǔn)還有美國評價協(xié)會（American Evaluation Association， AEA）開發(fā)的55條元評估標(biāo)準(zhǔn)[16]，這套標(biāo)準(zhǔn)尺度按照元評估的流程來設(shè)計的不同階段的不同標(biāo)準(zhǔn)將元評估分為“規(guī)劃與協(xié)商—結(jié)構(gòu)與設(shè)計—數(shù)據(jù)搜集與準(zhǔn)備—資料分析與解釋—溝通與公布—結(jié)果運(yùn)用”六大模塊流程，并在不同階段設(shè)置相應(yīng)的評價標(biāo)準(zhǔn)。

2.國際元評估標(biāo)準(zhǔn)的啟示

從國際通用的元評估標(biāo)準(zhǔn)可以看出：第一，元評估最核心的標(biāo)準(zhǔn)是可實(shí)用性、可行性、合理性和準(zhǔn)確性四個基礎(chǔ)性標(biāo)準(zhǔn)[17];第二，不同評價環(huán)節(jié)的元評估標(biāo)準(zhǔn)可能會有所不同，因此可以借鑒AEA的元評估標(biāo)準(zhǔn)尺度，在不同階段設(shè)置相應(yīng)的評價標(biāo)準(zhǔn);第三，評價標(biāo)準(zhǔn)不宜過于細(xì)化，因?yàn)檫^分精致化的元評估標(biāo)準(zhǔn)往往會淡化對現(xiàn)實(shí)評價活動的意義作更深層次的思考，阻礙了對評價本身的“價值”作“元”層次的不斷追問[18]。因此，職業(yè)教育學(xué)習(xí)評價的元評估標(biāo)準(zhǔn)建構(gòu)必須以此為基準(zhǔn)。首先，要在根本上實(shí)現(xiàn)評價效用“保障公平、促進(jìn)發(fā)展”的目標(biāo)。其次，以公平與發(fā)展的基本尺度為基準(zhǔn)，整合JCSEE的實(shí)用性、可行性、合理性以及準(zhǔn)確性標(biāo)準(zhǔn)和AEA等其他評價指標(biāo)體系的尺度標(biāo)準(zhǔn)。最后，所有職業(yè)教育學(xué)習(xí)評價元評估的尺度標(biāo)準(zhǔn)根據(jù)不同環(huán)節(jié)設(shè)定相應(yīng)的評價標(biāo)準(zhǔn)。

3.職業(yè)教育學(xué)習(xí)評價元評估的標(biāo)準(zhǔn)尺度

通過對國際學(xué)習(xí)元評估標(biāo)準(zhǔn)的梳理與反思，結(jié)合Stufflebeam學(xué)習(xí)元評估的過程分析和AEA分流程設(shè)計標(biāo)準(zhǔn)的原則，建構(gòu)職業(yè)教育學(xué)習(xí)評價元評估的標(biāo)準(zhǔn)尺度體系框架，見圖3。

職業(yè)教育學(xué)習(xí)評價元評估的標(biāo)準(zhǔn)體系框架以“公平和發(fā)展”為基準(zhǔn)，將元評估標(biāo)準(zhǔn)分解為實(shí)用性、可行性、合理性以及準(zhǔn)確性四個二階維度。但是，四個二階維度并不是按照J(rèn)CSEE評價標(biāo)準(zhǔn)體系進(jìn)行組合，而是根據(jù)元評估的具體流程，可以分為評價設(shè)計的元評估標(biāo)準(zhǔn)、評價實(shí)施的元評估標(biāo)準(zhǔn)和評價結(jié)果的元評估標(biāo)準(zhǔn)。

（三）元評估標(biāo)準(zhǔn)體系的質(zhì)量分析

元評估標(biāo)準(zhǔn)體系在本質(zhì)上就是元評估的評分問卷。元評估標(biāo)準(zhǔn)體系的內(nèi)容觀測就是評分問卷的具體項(xiàng)目，項(xiàng)目關(guān)系之和就是維度。因此，元評估標(biāo)準(zhǔn)體系的質(zhì)量分析就是職業(yè)教育學(xué)習(xí)評價元評估初始評分問卷的質(zhì)量分析。

1.初始問卷：元評估標(biāo)準(zhǔn)體系成型

首先，維度與內(nèi)容設(shè)計。職業(yè)教育學(xué)習(xí)評價元評估的初始評分問卷設(shè)計整合了學(xué)習(xí)元評估的評價內(nèi)容與評價標(biāo)準(zhǔn)，其中，基本維度的設(shè)計主要依據(jù)初始評價的各個環(huán)節(jié)，分為評價設(shè)計元評估、評價實(shí)施元評估和評價結(jié)果元評估三個二階維度，然后根據(jù)評價內(nèi)容觀測點(diǎn)分配到三階維度。

其次，項(xiàng)目評分標(biāo)準(zhǔn)選擇。根據(jù)“不同評價環(huán)節(jié)采用不同評價指標(biāo)”[19]的原則，集合初始評價目標(biāo)定位、評價方式選擇、評價工具、評價標(biāo)準(zhǔn)、評價主體、評價程序、技術(shù)支撐、評價調(diào)控措施、評價結(jié)果表達(dá)、結(jié)果質(zhì)量、結(jié)果的應(yīng)用選擇對應(yīng)評價標(biāo)準(zhǔn)。

最后，項(xiàng)目評分等級。評價體系的最后一級指標(biāo)確定后，還必須確定評價的等級數(shù)量和標(biāo)度[20]。職業(yè)教育學(xué)習(xí)評價元評估部分的所有問題都采用封閉式作答，每個項(xiàng)目的評分用李克特量表（Likert scale）的五級評分模式，其中，5分為最高分，代表“非常好”，依次為4分（比較好）、3分（一般）、2分（比較差）和1分（非常差）。因此，整合初始框架與初始項(xiàng)目，得到初始問卷結(jié)構(gòu)，見表5。

2.問卷預(yù)測：元評估標(biāo)準(zhǔn)體系調(diào)試

初始問卷編成之后，研究者征集了2位教育學(xué)專家、2位教育評價專家、2位教育統(tǒng)計與測評博士研究生和1位一線教師的意見，根據(jù)7人對問卷的審讀和修改意見，對初始問卷的項(xiàng)目進(jìn)行了第一輪刪減和優(yōu)化。根據(jù)專家意見，刪掉意思重復(fù)、意見集中的項(xiàng)目25、30、32、47，對表達(dá)模糊、不易理解的28、49進(jìn)行了重新陳述，形成了初始問卷。

3.元評估標(biāo)準(zhǔn)體系的質(zhì)量：信度與效度分析

評價的實(shí)質(zhì)就是評價主體把評價對象的價值結(jié)構(gòu)映射成一種數(shù)學(xué)結(jié)構(gòu)[21]，因此，倘若評價工具質(zhì)量不好，可能會影響主體判斷的準(zhǔn)確性，所以必須驗(yàn)證并保證評價工具的質(zhì)量。

首先，采用隨機(jī)抽樣的方法，在X、Y、Z三所學(xué)校學(xué)生中實(shí)施預(yù)調(diào)研，發(fā)放學(xué)生問卷156份，回收問卷154份，有效問卷149份，有效回收率為95.51%。對問卷進(jìn)行信度分析，結(jié)果見表6。

問卷的各個因子和總問卷的信度都在0.681～0.819之間，最低水平的評價過程維度信度為0.681。根據(jù)問卷設(shè)計的質(zhì)量水平，問卷信度的最低水平維度也達(dá)到了“尚可”的標(biāo)準(zhǔn)，其余因子和總問卷都在“佳”和“甚佳”之間。盡管沒有因子達(dá)到“非常理想”的信度，但是，問卷的內(nèi)部一致性水平都在“尚可”之上，因此，職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)體系具有良好的內(nèi)在信度。

在信度分析的基礎(chǔ)上，對職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)問卷進(jìn)行效度檢驗(yàn)。由于職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)的結(jié)構(gòu)維度是“強(qiáng)理論驅(qū)動”的結(jié)構(gòu)模型，因此，探索性因素分析的“強(qiáng)數(shù)據(jù)驅(qū)動”模型可以省略。直接對信度檢驗(yàn)之后的問卷進(jìn)行效度分析：首先，《學(xué)習(xí)元評估調(diào)查問卷》的項(xiàng)目源于成熟文獻(xiàn)和訪談觀察整理后的結(jié)果，并請了教育評價專家和一線教師對問卷的項(xiàng)目進(jìn)行了評判，均認(rèn)為本問卷基本能夠代表要測量的問題，量表內(nèi)容效度良好。其次，《學(xué)習(xí)元評估調(diào)查問卷》由3個因子構(gòu)成，各因子之間的區(qū)分度與調(diào)查點(diǎn)明晰，基于“學(xué)習(xí)評價設(shè)計——學(xué)習(xí)評價實(shí)施——學(xué)習(xí)評價結(jié)果”的二階三因子模式的驗(yàn)證性因子分析，得到結(jié)果見圖4。職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)模型的χ2=116.037，χ2/df=1.253，顯著性概率值p=0.06>0.05，接受虛無假設(shè)，因此理論模型與數(shù)據(jù)之間具有較好的擬合度。在重要參考的絕對擬合指數(shù)中，RMSEA=0.052<0.08，AGFI=0.963>0.9，檢驗(yàn)結(jié)果都達(dá)到了較好及其以上水準(zhǔn);在增值適配度指數(shù)中，CFI、NFI、IFI、TLI、RFI等判斷結(jié)果都為好。所以，問卷的結(jié)構(gòu)效度可以接受。

四、討論與結(jié)論

公平與發(fā)展是我國自科舉制度以來就在堅持的評價尺度，但是西方國家卻在教育評價中有著更細(xì)致的操作性原則。整合中西方教育評價的基本尺度，開發(fā)中國職業(yè)教育學(xué)習(xí)評價元評估的標(biāo)準(zhǔn)體系，通過文獻(xiàn)分析、訪談編碼和實(shí)證驗(yàn)證，得到以下結(jié)論：

（一）職業(yè)教育學(xué)習(xí)評價元評估堅持實(shí)用性、可行性、合理性、準(zhǔn)確性與公平尺度

文獻(xiàn)元分析發(fā)現(xiàn)，國際通用的教育元評估標(biāo)準(zhǔn)包括了實(shí)用性、可行性、合理性和準(zhǔn)確性等四個尺度，而我國最關(guān)心的是學(xué)習(xí)評價過程的公平與否。但是，在本質(zhì)上，國際通用的實(shí)用性、可行性、合理性和準(zhǔn)確性標(biāo)準(zhǔn)與我國學(xué)習(xí)評價的公平性尺度具有內(nèi)在一致性。從經(jīng)濟(jì)學(xué)、法學(xué)、倫理學(xué)和技術(shù)哲學(xué)來看，職業(yè)教育學(xué)習(xí)評價元評估的國際標(biāo)準(zhǔn)與我國堅持的公平尺度在價值取向、分配原則、道德正義和主觀感受方面都具有一致性，因此，職業(yè)教育學(xué)習(xí)評價元評估需要堅持實(shí)用性、可行性、合理性、準(zhǔn)確性與公平尺度。

（二）職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)體系以評價的“過程—結(jié)構(gòu)”為框架基礎(chǔ)

職業(yè)教育學(xué)習(xí)評價是復(fù)雜的、多樣的。但是根據(jù)斯塔弗爾比姆的評價過程分析理論，結(jié)合文獻(xiàn)回顧的學(xué)習(xí)評價元評估觀測點(diǎn)和質(zhì)性訪談的觀測點(diǎn)可以發(fā)現(xiàn)，職業(yè)教育學(xué)習(xí)評價元評估體系是以“過程-結(jié)構(gòu)”為基礎(chǔ)，在過程上包括了評估過程的評價設(shè)計、評價實(shí)施和評價結(jié)果三個環(huán)節(jié)。在結(jié)構(gòu)上包含了不同環(huán)節(jié)的不同標(biāo)準(zhǔn)，而根據(jù)“不同評價環(huán)節(jié)采用不同評價指標(biāo)”的原則，集合初始評價觀測點(diǎn)包含了目標(biāo)定位、評價方式選擇、評價工具、評價標(biāo)準(zhǔn)、評價主體、評價程序、技術(shù)支撐、評價調(diào)控措施、評價結(jié)果表達(dá)、結(jié)果質(zhì)量、結(jié)果應(yīng)用等不同標(biāo)準(zhǔn)，但是，“過程—結(jié)構(gòu)”框架的職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)在觀測點(diǎn)上是我國尺度與西方尺度相整合的結(jié)果。

（三）整合性職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)體系具有良好的測量學(xué)性能和推廣可能

根據(jù)五級量表的質(zhì)量分析結(jié)果發(fā)現(xiàn)，國際標(biāo)準(zhǔn)和本土尺度相整合的職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)體系具有較好的測量學(xué)性能。首先，前測數(shù)據(jù)顯示，整合性職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)體系在評價設(shè)計維度的α系數(shù)為0.819，分半系數(shù)為0.817;評價過程維度的α系數(shù)為0.745，分半系數(shù)為0.681;評價結(jié)果維度的α系數(shù)為768，分半系數(shù)為0.724。其次，信度檢測發(fā)現(xiàn)，整合性職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)體系內(nèi)容效度良好。最后，《學(xué)習(xí)元評估調(diào)查問卷》由3個因子構(gòu)成，各因子之間的區(qū)分度與調(diào)查點(diǎn)明晰，問卷的結(jié)構(gòu)效度可以接受。因此，基于國際標(biāo)準(zhǔn)與本土尺度的整合性職業(yè)教育學(xué)習(xí)評價元評估標(biāo)準(zhǔn)具有良好的測量學(xué)特征，可以用于學(xué)習(xí)評價的元評估。

參考文獻(xiàn)

[1]習(xí)近平.堅持中國特色社會主義教育發(fā)展道路培養(yǎng)德智體美勞全面發(fā)展的社會主義建設(shè)者和接班人[EB/OL].（2018-09-10）[2018-09-15].http：//politics.people.com.cn/n1/2018/0910/c1024-30284579.html.

[2]李鵬.職業(yè)教育學(xué)習(xí)評價效用的制度分析[D].重慶：西南大學(xué)，2018：132.

[3]Swaffield， S.Assessment： Servant or Dictator？[J].Forum， 2003， 45（2）： 222-7.

[4]Stufflebeam， D.L.Meta-evaluation[J].Journal of Multidisciplinary Evaluation， 2011， 7（2）： 99-158.

[5]Nyirenda， S.Assessing Highly Accomplished Teaching： Developing a Meta-evaluation Criteria Framework for Performance-assessment Systems for National Certification of Teachers[J].Journal of Personnel Evaluation in Education， 1994， 8（3）： 313-327.

[6]Stufflebeam， D.L.The Meta-evaluation Imperative[J].American Journal of Evaluation， 2001， 22（2）： 183-209.

[7]Stufflebeam， D.L.Standards for Evaluations of Educational Programs， Projects， and Materials[M].New York， NY： McGraw-Hill Book Co.， 1981： 186.

[8]張和生，余軍民，鄭岱.高考公平指數(shù)的建構(gòu)與測評——以湖南省為例[J].北京大學(xué)教育評論，2013（1）：29-42.

[9]李鵬，朱德全.公平與發(fā)展：中國義務(wù)教育督導(dǎo)績效的實(shí)證研究[J].教育學(xué)報，2016（2）：49-57.

[10]Stufflebeam， D.L.The Meta-evaluation[J].American Journal of Evaluation， 2001， 22（2）： 66-69.

[11]Scriven， M.Meta-evaluation Revisited[J].Journal of Multi Disciplinary Evaluation， 2009， 6（11）： iii-viii.

[12]Keun-bok， K.& Chan-goo， Y.A Design of the Meta-evaluation Model[R].Montréal： Canadian Evaluation Society， 2000-05-16.

[13]Aleu， F.G.& Keathley， H.Design and Application of a Meta-evaluation Framework[M].Iie Conference & Expo， 2015： 2640-2651.

[14]嚴(yán)芳.教育元評估的理論與實(shí)踐研究[D].上海：華東師范大學(xué)，2010：120-123.

[15]Yarbrough， D.B.& Shulha， L.M.， et al.The Program Evaluation Standards： A Guide for Evaluators and Evaluation Users（3rd Ed.）[EB/OL].[2013-10-29].http：//www.eval.org/p/cm/ld/fid=103.

[16][19]Wingate， L.A.The Program Evaluation Standards Applied for Meta-evaluation Purposes： Investigating Interrater Reliability and Implications for Use[R].Proquest Llc， 2009： 181.

[17]Speer， S.Peer Evaluation and Its Blurred Boundaries： Results from a Meta-evaluation in Initial Vocational Education and Training[J].Evaluation， 2010， 16（4）： 413-430.

[18]閻光才.教育評價的正當(dāng)性與批判性評價[J].北京師范大學(xué)學(xué)報：社會科學(xué)版，2003（2）：124-131.

[20]張宏，林先成，李世強(qiáng).荒漠化評價指標(biāo)體系的等級系統(tǒng)研究[J].四川師范大學(xué)學(xué)報：自然科學(xué)版，2005（3）：358-361.

[21]錢存陽，李丹青，潘嵐.課堂教學(xué)質(zhì)量評價元評估中的效度和信度分析[J].中國計量學(xué)院學(xué)報，2004（2）：164-167.