陳宛玉,戴海琦
(1.龍巖學(xué)院教育科學(xué)學(xué)院,福建 龍巖 364000;2.江西師范大學(xué),江西 南昌 330022)
我國教師資格證制度自2001年全面實(shí)施以來,對我國教師的專業(yè)化發(fā)展起到了巨大的推動(dòng)作用[1]?!督處熧Y格條例》要求對申請教師資格者的教育教學(xué)能力進(jìn)行考察和評估,并要求各省 (市)制定有關(guān)測試實(shí)施細(xì)則。目前國內(nèi)在教師資格認(rèn)定中都把教育教學(xué)能力測試作為重要的把關(guān)環(huán)節(jié),測試主要采用說課 (或試講)、面試、答辯等方式對申請人的教育教學(xué)能力進(jìn)行評估。教育教學(xué)能力測試已經(jīng)在各個(gè)省份地市廣泛使用,然而對教育教學(xué)能力測試的專門研究卻不多,僅有的研究主要是對測試標(biāo)準(zhǔn)、實(shí)施及其必要性的分析[2-4],尚未有對其心理測量學(xué)性質(zhì)的研究。
概化理論是運(yùn)用實(shí)驗(yàn)設(shè)計(jì)的思想,采用方差分析的統(tǒng)計(jì)分析技術(shù),分析測評中的各種變異來源,并進(jìn)行分解、估計(jì)與控制的一種測量方法[5-6]。概化理論能夠一次性分析多個(gè)測驗(yàn)誤差變異的來源,既可以適用于常模參照測驗(yàn),又可以適用于標(biāo)準(zhǔn)參照測驗(yàn)。而且更多的從整個(gè)測驗(yàn)的宏觀結(jié)構(gòu)及其與外部測驗(yàn)條件的基礎(chǔ)上做深入的計(jì)量分析,對于評分設(shè)計(jì)具有較好的指導(dǎo)作用。概化理論經(jīng)歷了一個(gè)從一元到多元的發(fā)展過程。多元概化理論較之于一元概化理論在處理多個(gè)測量任務(wù)或目標(biāo)測量問題時(shí)具有獨(dú)到的優(yōu)勢。
教育教學(xué)能力測試要求評分員對考生多個(gè)測評任務(wù)上的表現(xiàn)進(jìn)行評定,其數(shù)據(jù)特點(diǎn)符合多元概化理論分析的要求。本研究運(yùn)用多元概化理論對教育教學(xué)能力測試數(shù)據(jù)進(jìn)行分析,旨在對教育教學(xué)能力測試質(zhì)量、分?jǐn)?shù)合成的合理性、評分誤差的來源和測試改進(jìn)方案等問題進(jìn)行探討,進(jìn)而為后續(xù)完善測試設(shè)計(jì)和評分培訓(xùn)提供參考依據(jù)。
數(shù)據(jù)來源于2011年某市組織的高中英語教師資格申請教育教學(xué)能力測試的實(shí)測數(shù)據(jù),三位評委對47名考生進(jìn)行打分。該市制定的教育教學(xué)能力測試標(biāo)準(zhǔn)要求評分員從說課、面試、答辯三個(gè)任務(wù)評估申請人的教育教學(xué)能力。測試要求對評分員從三個(gè)任務(wù)的各個(gè)方面都給予考生打分,然后合并計(jì)算測試總分,考生最終的成績?yōu)槿齻€(gè)評委所評總分的平均分,考生達(dá)到60分以上視為通過測試。本研究所獲取的初始數(shù)據(jù)包括各個(gè)評分員對每一考生說課、面試、答辯等任務(wù)的成績。測試的總成績?yōu)?00分,其中說課總分為50分,面試為20分,答辯為30分。
教育教學(xué)能力測試包括說課、面試、答辯等三個(gè)測評任務(wù),評分員對每個(gè)考生在每個(gè)任務(wù)都進(jìn)行了評分。因此測試數(shù)據(jù)特點(diǎn)選擇多元概化理論中的三因子的單面隨機(jī)交叉設(shè)計(jì) (p˙×r˙)。其中p代表考生教育教學(xué)能力,為測試目標(biāo);r代表評分員側(cè)面,有3個(gè)水平。
本研究采用多元概化理論分析的專門軟件mGEVENA2.1[7]編寫程序進(jìn)行教育教學(xué)能力測試數(shù)據(jù)進(jìn)行處理。
1.G研究方差分量和協(xié)方差分量的估計(jì)
應(yīng)用mGEVENA程序可以得到測量目標(biāo)p和測量側(cè)面r的主效應(yīng)和交互效應(yīng)在說課、面試、答辯三個(gè)任務(wù)上的方差分量和協(xié)方差分量估計(jì)值。具體結(jié)果見表1。
表1 G研究的方差分量和協(xié)方差分量
由表1可知,三個(gè)任務(wù)方差分量的估計(jì)值中,說課的方差分量最大 (11.00956),面試的方差分量最小 (1.53114)。這說明在本次測試中說課所起的作用最大,答辯所起的作用其次,面試所起的作用最小。從數(shù)據(jù)結(jié)果上來看,這也與測試設(shè)計(jì)者對說課、面試和答辯所賦總分值較為一致。
從被試效應(yīng)的協(xié)方差和相關(guān)系數(shù)來看,三個(gè)測試任務(wù)之間協(xié)方差較大,存在較高的相關(guān),其中面試與答辯的相關(guān)相對較低 (0.68294),說課和答辯的相關(guān)最高 (0.78552)。說明考生在三個(gè)評分任務(wù)的得分存在較高的一致性。另一方面也反映了在本次測試中將三個(gè)任務(wù)當(dāng)做三個(gè)測試目標(biāo)進(jìn)行分析是符合MGT的要求的。
從評分員主效應(yīng)的協(xié)方差來看,三個(gè)測試任務(wù)之間的協(xié)方差較大,表明評分員在各個(gè)測試任務(wù)上的打分一致性較高,即在說課任務(wù)上打分較高的評分員在面試和答辯任務(wù)上的打分也比較高,評分員在各分測驗(yàn)上評分間的相關(guān)較高。
2.G研究各測試任務(wù)中不同側(cè)面所占的比例
表2列出了G研究各測試任務(wù)下不同側(cè)面所占的比例。
表2 G研究各測試任務(wù)中不同側(cè)面所占的比例
從考生效應(yīng)來看,三個(gè)測試任務(wù)的考生效應(yīng)相對都占到了較大的比例,但在面試和答辯任務(wù)上略微較低。三個(gè)測試任務(wù)中評分員效應(yīng)所占比例不小,特別是在答辯任務(wù)上,說明不同評分員在評分中所持的寬嚴(yán)程度不一,特別是在答辯任務(wù)上所持的寬嚴(yán)程度差別更大。三個(gè)測試任務(wù)中考生與評分員的交互效應(yīng)中占總變異的比例在 8.43% -30.05%之間,其中面試任務(wù)中交互作用所占的比例較高,反映了在面試任務(wù)中評分員更容易出現(xiàn)評分寬嚴(yán)程度不一致的現(xiàn)象,評分員在面試任務(wù)中出現(xiàn)看人打分的情況更為嚴(yán)重。
1.D研究中方差分量與協(xié)方差分量的估計(jì)。D研究設(shè)計(jì)與G研究設(shè)計(jì)p×r一致,測量模式同為隨機(jī)模式,評分員人數(shù)為3。根據(jù)G研究的結(jié)果可得到樣本均值意義上的各種變異來源的方差與協(xié)方差分量如表3所示。
表3 D研究p×R設(shè)計(jì)的方差與協(xié)方差分量
(注:矩陣中主對角線上的元素為各效應(yīng)在相應(yīng)因子上的方差分量估計(jì),主對角線以下元素為各效應(yīng)在不同因子間協(xié)方差分量的估計(jì)、主對角線之上為因子間相關(guān)系數(shù)的估計(jì)。)
2.各測試任務(wù)全域分?jǐn)?shù)估計(jì)的精度問題。根據(jù)G研究的結(jié)果,可估計(jì)測試任務(wù)的全域分?jǐn)?shù)、相對誤差與絕對誤差估計(jì)的方差分量,進(jìn)而計(jì)算各個(gè)測試任務(wù)的概化系數(shù)和可靠性系數(shù),以及相對信噪比,結(jié)果見表4。
表4 D研究p×R設(shè)計(jì)各個(gè)測試任務(wù)的概化系數(shù)等指標(biāo)
從結(jié)果來看,說課任務(wù)的全域分方差分量最大,答辯任務(wù)的全域分方差分量其次,這與設(shè)計(jì)者賦予的總分基本一致。從概化系數(shù)來看,三個(gè)任務(wù)的信度0.83049-0.95289之間,其中說課任務(wù)和答辯任務(wù)的信度基本理想,面試任務(wù)的信度較低。另一方面三個(gè)測試任務(wù)的可靠性系數(shù)在0.73955-0.79798之間,普遍不高,這也反映了由于評分員之間存在寬嚴(yán)程度的差異,當(dāng)測試結(jié)果用作絕對決策時(shí)存在較大誤差。
3.全域總分的測量精度研究。本研究按照測試的規(guī)定,將說課、答辯、面試進(jìn)行合成,計(jì)算全域總分的方差,以及相應(yīng)誤差的方差分量估計(jì),進(jìn)而估計(jì)全域總分的概化系數(shù)和可靠性系數(shù),具體結(jié)果見表5。
由表5可以看出,全域總分的概化系數(shù)為0.96524,說明本次測試總體具有較高的信度。全域總分的可靠性系數(shù)0.77232,說明測試的在用于絕對決策時(shí)還存在一定的誤差,有待提高。
表5 D研究合成全域分?jǐn)?shù)的方差分量等指標(biāo)的估計(jì)
4.各測試任務(wù)對總方差的貢獻(xiàn)比例的研究。根據(jù)以上結(jié)果可以得到各個(gè)測試任務(wù)對總方差的貢獻(xiàn)比例見表6。表6中我們也列出了三個(gè)測試所賦總分及比例,以比較測試設(shè)計(jì)與實(shí)際方差貢獻(xiàn)是否一致。
表6 各測試任務(wù)對總方差貢獻(xiàn)的比例與測試任務(wù)賦分比例的比較
從表6來看,三個(gè)測試任務(wù)指標(biāo)對全域總分的貢獻(xiàn)比例與設(shè)計(jì)者的賦分基本一致。在說課任務(wù)上所賦總分比例為 50%,實(shí)際的方差貢獻(xiàn)率為49.91%,基本相接近。面試任務(wù)所賦總分比例為20%,實(shí)際方差貢獻(xiàn)率為16.12%,略微低于賦分比例。答辯任務(wù)所賦總分比例為30%,實(shí)際方差貢獻(xiàn)率為33.97%,略微高于賦分比例。這表明此次教育教學(xué)能力測試在決定各個(gè)測試任務(wù)權(quán)重方面還是做得比較好的。
5.改變評分員人數(shù)對測量精度的影響研究。為了研究改善教育教學(xué)能力測試的方法,本研究通過改變各個(gè)測評任務(wù)的評分員人數(shù)來觀察測量精度的變化特點(diǎn),具體結(jié)果見表7。
表7 改變評分員人數(shù)對測量精度的影響
由表7中可知當(dāng)評分員人數(shù)為1時(shí),全域總分的概化系數(shù)還較高,但可靠性系數(shù)降低較大。當(dāng)評分員人數(shù)為3時(shí),全域總分的概化系數(shù)有較大提高,但可靠性還略微較小,不滿足測評要求。從增幅來看,當(dāng)評分員人數(shù)超過6人時(shí),增加不再明顯??紤]到教育教學(xué)能力測試是一種標(biāo)準(zhǔn)參照測驗(yàn),下圖我們單獨(dú)分析了可靠性系數(shù)隨評分員人數(shù)不同而變化情況。
圖1 評分員人數(shù)變化對全域總分可靠性系數(shù)的影響
從圖1中我們也可以較為直觀的看出減少評分員數(shù)量和任務(wù)數(shù)量,將導(dǎo)致測試的可靠性急劇下降,當(dāng)試任務(wù)為5個(gè)時(shí),可靠性系數(shù)的變化不再明顯,并且基本達(dá)到預(yù)期測試精度。
由圖2所示。
圖2 評分員人數(shù)變化對各測試任務(wù)可靠性系數(shù)的影響
隨著評分員人數(shù)的增加,三個(gè)評分任務(wù)的可靠性系數(shù)均有所增加。相對比較而言,不管如何增加評分員人數(shù),說課任務(wù)的可靠性系數(shù)一直高于面試和答辯任務(wù)的可靠性系數(shù)。
1.從G研究各主效應(yīng)結(jié)果來看,三個(gè)測評任務(wù)中,評分員效應(yīng)都有相應(yīng)的較大的比例,這也反映了評分員在評分中所持的寬嚴(yán)標(biāo)準(zhǔn)可能不同。教育教學(xué)能力測試屬于標(biāo)準(zhǔn)參照測試,評分員的取樣對考生評分有一定影響,在以后的測試中有必要加強(qiáng)評分員隊(duì)伍的培訓(xùn),以此來保證測評的公平性。從評分員與考生的交互作用來看,說課和答辯任務(wù)上,交互作用所占的比例較小,說明在這兩個(gè)任務(wù)上評分員具有較好的內(nèi)部一致性。面試任務(wù)的考生與評分員的交互作用所占的比例較大,反映了評分員在面試評分中內(nèi)部一致性較差,反映了評分員沒有較好把握面試評分要求。
2.多元概化理論的分析除了報(bào)告出各測評側(cè)面的主效應(yīng)和交互效應(yīng)的方差分量之外,同時(shí)報(bào)告了協(xié)方差分量。協(xié)方差分量為我們提供了額外的信息??忌?yīng)的協(xié)方差有助于我們解釋測評任務(wù)結(jié)構(gòu)的合理性,從被試效應(yīng)的協(xié)方差和相關(guān)系數(shù)來看,考生在三個(gè)評分任務(wù)的得分存在較高的一致性,將三個(gè)測評任務(wù)合并作為教育教學(xué)能力的總體評估具有一定的合理性。評分員主效應(yīng)的協(xié)方差較大表明評分員在各個(gè)測試任務(wù)上的打分一致性較高,評分員內(nèi)部一致性較高。
3.本次測試各個(gè)測試任務(wù)的合成的全域分?jǐn)?shù)概化系數(shù)在0.96524之間,說明本次測試適合做相對決策。全域分?jǐn)?shù)可靠性系數(shù)在0.77232,微低??紤]到教育教學(xué)能力測試是一種較高利害的標(biāo)準(zhǔn)參照測試,因此還應(yīng)該改進(jìn)測試和增加評分員數(shù)量來提高可靠性系數(shù)。三個(gè)測評任務(wù)中,面試的概化系數(shù)最低,評分員在主觀性較高的面試任務(wù)上較容易出現(xiàn)評分的不一致性,因此后續(xù)為提高測評精度,應(yīng)在面試任務(wù)評分上加強(qiáng)對評分員的有針對性指導(dǎo)。從本研究的三個(gè)測試任務(wù)對測試總分的方差貢獻(xiàn)量來看,說課任務(wù)的貢獻(xiàn)量最大,答辯其次,面試最小。從貢獻(xiàn)比例和測試設(shè)計(jì)者對每個(gè)任務(wù)賦分情況的比較來看兩者基本一致,說明本次測試的設(shè)計(jì)具有一定的合理性。
從結(jié)果來看,使用三個(gè)評分員進(jìn)行評分,做決策時(shí)存在著一定的風(fēng)險(xiǎn)。提高評分員人數(shù)可以提高決策的有效性和公平性。研究結(jié)果表明隨著評分員人數(shù)的增加,概化系數(shù)和可靠性指數(shù)不斷提高,但增加的幅度遞減??紤]到實(shí)際測評的需要和測試的人力成本,將評分員的數(shù)量提到5名是比較合適的。此時(shí)的概化系數(shù)為0.97885,可靠性系數(shù)為0.84971,已經(jīng)可以滿足測評的精度要求。當(dāng)然選拔和培訓(xùn)評分員同樣重要。
1.本次教育教學(xué)能力測試將說課、答辯和面試成績進(jìn)行合成是比較合理的。總體而言測試結(jié)果較適合于相對決策,不適宜做絕對決策。
2.三個(gè)測評任務(wù)中說課和答辯的評分質(zhì)量較好,面試評分的質(zhì)量較差,后續(xù)尤其需要加強(qiáng)主觀性較強(qiáng)的面試評分方面的培訓(xùn)。
3.影響教育教學(xué)能力測試質(zhì)量的主要原因是評分者寬嚴(yán)程度不一。后續(xù)應(yīng)加強(qiáng)評分員的培訓(xùn),使其統(tǒng)一對各測評任務(wù)的認(rèn)識。
4.通過增加評分員人數(shù)可以提高教育教學(xué)能力測試的精度,但增幅遞減,當(dāng)評分員人數(shù)為5時(shí),結(jié)果已經(jīng)能夠較好滿足測試要求。
[1]魏新春.改進(jìn)與完善我國教師資格證制度的思考[J].臨沂大學(xué)學(xué)報(bào),2011,33(5):23-25.
[2]徐玉斌.初中教師資格教育教學(xué)基本能力測試方案初探[J].河南教育學(xué)院學(xué)報(bào),2003,22(1):30-32.
[3]鄒循東,黃坤,陸家海.為什么對非師范類專業(yè)畢業(yè)的教師資格申請人進(jìn)行教育教學(xué)能力培訓(xùn)考試 [J].廣西教育,2004(11):11.
[4]陳振豪,沈惠君.教育教學(xué)能力測試的建議[J].上海教育,2005(06B):32-33.
[5]BRENNAN.Generalizability theory[M].New York: Springer Verlag,2001:3-5.
[6]楊志明,張雷.測評的概化理論及其應(yīng)用[M].教育科學(xué)出版社,2004:18-20.
[7]BRENNAN.Manual for mGENOVA Version 2.1[M].I-owa:Testing Programs Occasional Papers,2001:45-67.