多元概化理論在教育教學(xué)能力測試中的應(yīng)用

2014-03-30 10:05:54陳宛玉戴海琦

集美大學(xué)學(xué)報(bào)(教育科學(xué)版) 2014年2期

陳宛玉，戴海琦

(1.龍巖學(xué)院教育科學(xué)學(xué)院，福建龍巖 364000;2.江西師范大學(xué)，江西南昌 330022)

我國教師資格證制度自2001年全面實(shí)施以來，對我國教師的專業(yè)化發(fā)展起到了巨大的推動(dòng)作用［1］?！督處熧Y格條例》要求對申請教師資格者的教育教學(xué)能力進(jìn)行考察和評估，并要求各省 (市)制定有關(guān)測試實(shí)施細(xì)則。目前國內(nèi)在教師資格認(rèn)定中都把教育教學(xué)能力測試作為重要的把關(guān)環(huán)節(jié)，測試主要采用說課 (或試講)、面試、答辯等方式對申請人的教育教學(xué)能力進(jìn)行評估。教育教學(xué)能力測試已經(jīng)在各個(gè)省份地市廣泛使用，然而對教育教學(xué)能力測試的專門研究卻不多，僅有的研究主要是對測試標(biāo)準(zhǔn)、實(shí)施及其必要性的分析［2－4］，尚未有對其心理測量學(xué)性質(zhì)的研究。

概化理論是運(yùn)用實(shí)驗(yàn)設(shè)計(jì)的思想，采用方差分析的統(tǒng)計(jì)分析技術(shù)，分析測評中的各種變異來源，并進(jìn)行分解、估計(jì)與控制的一種測量方法［5－6］。概化理論能夠一次性分析多個(gè)測驗(yàn)誤差變異的來源，既可以適用于常模參照測驗(yàn)，又可以適用于標(biāo)準(zhǔn)參照測驗(yàn)。而且更多的從整個(gè)測驗(yàn)的宏觀結(jié)構(gòu)及其與外部測驗(yàn)條件的基礎(chǔ)上做深入的計(jì)量分析，對于評分設(shè)計(jì)具有較好的指導(dǎo)作用。概化理論經(jīng)歷了一個(gè)從一元到多元的發(fā)展過程。多元概化理論較之于一元概化理論在處理多個(gè)測量任務(wù)或目標(biāo)測量問題時(shí)具有獨(dú)到的優(yōu)勢。

教育教學(xué)能力測試要求評分員對考生多個(gè)測評任務(wù)上的表現(xiàn)進(jìn)行評定，其數(shù)據(jù)特點(diǎn)符合多元概化理論分析的要求。本研究運(yùn)用多元概化理論對教育教學(xué)能力測試數(shù)據(jù)進(jìn)行分析，旨在對教育教學(xué)能力測試質(zhì)量、分?jǐn)?shù)合成的合理性、評分誤差的來源和測試改進(jìn)方案等問題進(jìn)行探討，進(jìn)而為后續(xù)完善測試設(shè)計(jì)和評分培訓(xùn)提供參考依據(jù)。

一方法

(一)數(shù)據(jù)來源

數(shù)據(jù)來源于2011年某市組織的高中英語教師資格申請教育教學(xué)能力測試的實(shí)測數(shù)據(jù)，三位評委對47名考生進(jìn)行打分。該市制定的教育教學(xué)能力測試標(biāo)準(zhǔn)要求評分員從說課、面試、答辯三個(gè)任務(wù)評估申請人的教育教學(xué)能力。測試要求對評分員從三個(gè)任務(wù)的各個(gè)方面都給予考生打分，然后合并計(jì)算測試總分，考生最終的成績?yōu)槿齻€(gè)評委所評總分的平均分，考生達(dá)到60分以上視為通過測試。本研究所獲取的初始數(shù)據(jù)包括各個(gè)評分員對每一考生說課、面試、答辯等任務(wù)的成績。測試的總成績?yōu)?00分，其中說課總分為50分，面試為20分，答辯為30分。

(二)分析思路

教育教學(xué)能力測試包括說課、面試、答辯等三個(gè)測評任務(wù)，評分員對每個(gè)考生在每個(gè)任務(wù)都進(jìn)行了評分。因此測試數(shù)據(jù)特點(diǎn)選擇多元概化理論中的三因子的單面隨機(jī)交叉設(shè)計(jì) (p˙×r˙)。其中p代表考生教育教學(xué)能力，為測試目標(biāo);r代表評分員側(cè)面，有3個(gè)水平。

(三)研究工具

本研究采用多元概化理論分析的專門軟件mGEVENA2.1［7］編寫程序進(jìn)行教育教學(xué)能力測試數(shù)據(jù)進(jìn)行處理。

二結(jié)果

(一)G研究

1.G研究方差分量和協(xié)方差分量的估計(jì)

應(yīng)用mGEVENA程序可以得到測量目標(biāo)p和測量側(cè)面r的主效應(yīng)和交互效應(yīng)在說課、面試、答辯三個(gè)任務(wù)上的方差分量和協(xié)方差分量估計(jì)值。具體結(jié)果見表1。

表1 G研究的方差分量和協(xié)方差分量

由表1可知，三個(gè)任務(wù)方差分量的估計(jì)值中，說課的方差分量最大 (11.00956)，面試的方差分量最小 (1.53114)。這說明在本次測試中說課所起的作用最大，答辯所起的作用其次，面試所起的作用最小。從數(shù)據(jù)結(jié)果上來看，這也與測試設(shè)計(jì)者對說課、面試和答辯所賦總分值較為一致。

從被試效應(yīng)的協(xié)方差和相關(guān)系數(shù)來看，三個(gè)測試任務(wù)之間協(xié)方差較大，存在較高的相關(guān)，其中面試與答辯的相關(guān)相對較低 (0.68294)，說課和答辯的相關(guān)最高 (0.78552)。說明考生在三個(gè)評分任務(wù)的得分存在較高的一致性。另一方面也反映了在本次測試中將三個(gè)任務(wù)當(dāng)做三個(gè)測試目標(biāo)進(jìn)行分析是符合MGT的要求的。

從評分員主效應(yīng)的協(xié)方差來看，三個(gè)測試任務(wù)之間的協(xié)方差較大，表明評分員在各個(gè)測試任務(wù)上的打分一致性較高，即在說課任務(wù)上打分較高的評分員在面試和答辯任務(wù)上的打分也比較高，評分員在各分測驗(yàn)上評分間的相關(guān)較高。

2.G研究各測試任務(wù)中不同側(cè)面所占的比例

表2列出了G研究各測試任務(wù)下不同側(cè)面所占的比例。

表2 G研究各測試任務(wù)中不同側(cè)面所占的比例

從考生效應(yīng)來看，三個(gè)測試任務(wù)的考生效應(yīng)相對都占到了較大的比例，但在面試和答辯任務(wù)上略微較低。三個(gè)測試任務(wù)中評分員效應(yīng)所占比例不小，特別是在答辯任務(wù)上，說明不同評分員在評分中所持的寬嚴(yán)程度不一，特別是在答辯任務(wù)上所持的寬嚴(yán)程度差別更大。三個(gè)測試任務(wù)中考生與評分員的交互效應(yīng)中占總變異的比例在 8.43% －30.05%之間，其中面試任務(wù)中交互作用所占的比例較高，反映了在面試任務(wù)中評分員更容易出現(xiàn)評分寬嚴(yán)程度不一致的現(xiàn)象，評分員在面試任務(wù)中出現(xiàn)看人打分的情況更為嚴(yán)重。

(二)D研究

1.D研究中方差分量與協(xié)方差分量的估計(jì)。D研究設(shè)計(jì)與G研究設(shè)計(jì)p×r一致，測量模式同為隨機(jī)模式，評分員人數(shù)為3。根據(jù)G研究的結(jié)果可得到樣本均值意義上的各種變異來源的方差與協(xié)方差分量如表3所示。

表3 D研究p×R設(shè)計(jì)的方差與協(xié)方差分量

(注:矩陣中主對角線上的元素為各效應(yīng)在相應(yīng)因子上的方差分量估計(jì)，主對角線以下元素為各效應(yīng)在不同因子間協(xié)方差分量的估計(jì)、主對角線之上為因子間相關(guān)系數(shù)的估計(jì)。)

2.各測試任務(wù)全域分?jǐn)?shù)估計(jì)的精度問題。根據(jù)G研究的結(jié)果，可估計(jì)測試任務(wù)的全域分?jǐn)?shù)、相對誤差與絕對誤差估計(jì)的方差分量，進(jìn)而計(jì)算各個(gè)測試任務(wù)的概化系數(shù)和可靠性系數(shù)，以及相對信噪比，結(jié)果見表4。

表4 D研究p×R設(shè)計(jì)各個(gè)測試任務(wù)的概化系數(shù)等指標(biāo)

從結(jié)果來看，說課任務(wù)的全域分方差分量最大，答辯任務(wù)的全域分方差分量其次，這與設(shè)計(jì)者賦予的總分基本一致。從概化系數(shù)來看，三個(gè)任務(wù)的信度0.83049－0.95289之間，其中說課任務(wù)和答辯任務(wù)的信度基本理想，面試任務(wù)的信度較低。另一方面三個(gè)測試任務(wù)的可靠性系數(shù)在0.73955－0.79798之間，普遍不高，這也反映了由于評分員之間存在寬嚴(yán)程度的差異，當(dāng)測試結(jié)果用作絕對決策時(shí)存在較大誤差。

3.全域總分的測量精度研究。本研究按照測試的規(guī)定，將說課、答辯、面試進(jìn)行合成，計(jì)算全域總分的方差，以及相應(yīng)誤差的方差分量估計(jì)，進(jìn)而估計(jì)全域總分的概化系數(shù)和可靠性系數(shù)，具體結(jié)果見表5。

由表5可以看出，全域總分的概化系數(shù)為0.96524，說明本次測試總體具有較高的信度。全域總分的可靠性系數(shù)0.77232，說明測試的在用于絕對決策時(shí)還存在一定的誤差，有待提高。

表5 D研究合成全域分?jǐn)?shù)的方差分量等指標(biāo)的估計(jì)

4.各測試任務(wù)對總方差的貢獻(xiàn)比例的研究。根據(jù)以上結(jié)果可以得到各個(gè)測試任務(wù)對總方差的貢獻(xiàn)比例見表6。表6中我們也列出了三個(gè)測試所賦總分及比例，以比較測試設(shè)計(jì)與實(shí)際方差貢獻(xiàn)是否一致。

表6 各測試任務(wù)對總方差貢獻(xiàn)的比例與測試任務(wù)賦分比例的比較

從表6來看，三個(gè)測試任務(wù)指標(biāo)對全域總分的貢獻(xiàn)比例與設(shè)計(jì)者的賦分基本一致。在說課任務(wù)上所賦總分比例為 50%，實(shí)際的方差貢獻(xiàn)率為49.91%，基本相接近。面試任務(wù)所賦總分比例為20%，實(shí)際方差貢獻(xiàn)率為16.12%，略微低于賦分比例。答辯任務(wù)所賦總分比例為30%，實(shí)際方差貢獻(xiàn)率為33.97%，略微高于賦分比例。這表明此次教育教學(xué)能力測試在決定各個(gè)測試任務(wù)權(quán)重方面還是做得比較好的。

5.改變評分員人數(shù)對測量精度的影響研究。為了研究改善教育教學(xué)能力測試的方法，本研究通過改變各個(gè)測評任務(wù)的評分員人數(shù)來觀察測量精度的變化特點(diǎn)，具體結(jié)果見表7。

表7 改變評分員人數(shù)對測量精度的影響

由表7中可知當(dāng)評分員人數(shù)為1時(shí)，全域總分的概化系數(shù)還較高，但可靠性系數(shù)降低較大。當(dāng)評分員人數(shù)為3時(shí)，全域總分的概化系數(shù)有較大提高，但可靠性還略微較小，不滿足測評要求。從增幅來看，當(dāng)評分員人數(shù)超過6人時(shí)，增加不再明顯?？紤]到教育教學(xué)能力測試是一種標(biāo)準(zhǔn)參照測驗(yàn)，下圖我們單獨(dú)分析了可靠性系數(shù)隨評分員人數(shù)不同而變化情況。

圖1 評分員人數(shù)變化對全域總分可靠性系數(shù)的影響

從圖1中我們也可以較為直觀的看出減少評分員數(shù)量和任務(wù)數(shù)量，將導(dǎo)致測試的可靠性急劇下降，當(dāng)試任務(wù)為5個(gè)時(shí)，可靠性系數(shù)的變化不再明顯，并且基本達(dá)到預(yù)期測試精度。

由圖2所示。

圖2 評分員人數(shù)變化對各測試任務(wù)可靠性系數(shù)的影響

隨著評分員人數(shù)的增加，三個(gè)評分任務(wù)的可靠性系數(shù)均有所增加。相對比較而言，不管如何增加評分員人數(shù)，說課任務(wù)的可靠性系數(shù)一直高于面試和答辯任務(wù)的可靠性系數(shù)。

三討論

1.從G研究各主效應(yīng)結(jié)果來看，三個(gè)測評任務(wù)中，評分員效應(yīng)都有相應(yīng)的較大的比例，這也反映了評分員在評分中所持的寬嚴(yán)標(biāo)準(zhǔn)可能不同。教育教學(xué)能力測試屬于標(biāo)準(zhǔn)參照測試，評分員的取樣對考生評分有一定影響，在以后的測試中有必要加強(qiáng)評分員隊(duì)伍的培訓(xùn)，以此來保證測評的公平性。從評分員與考生的交互作用來看，說課和答辯任務(wù)上，交互作用所占的比例較小，說明在這兩個(gè)任務(wù)上評分員具有較好的內(nèi)部一致性。面試任務(wù)的考生與評分員的交互作用所占的比例較大，反映了評分員在面試評分中內(nèi)部一致性較差，反映了評分員沒有較好把握面試評分要求。

2.多元概化理論的分析除了報(bào)告出各測評側(cè)面的主效應(yīng)和交互效應(yīng)的方差分量之外，同時(shí)報(bào)告了協(xié)方差分量。協(xié)方差分量為我們提供了額外的信息?？忌?yīng)的協(xié)方差有助于我們解釋測評任務(wù)結(jié)構(gòu)的合理性，從被試效應(yīng)的協(xié)方差和相關(guān)系數(shù)來看，考生在三個(gè)評分任務(wù)的得分存在較高的一致性，將三個(gè)測評任務(wù)合并作為教育教學(xué)能力的總體評估具有一定的合理性。評分員主效應(yīng)的協(xié)方差較大表明評分員在各個(gè)測試任務(wù)上的打分一致性較高，評分員內(nèi)部一致性較高。

3.本次測試各個(gè)測試任務(wù)的合成的全域分?jǐn)?shù)概化系數(shù)在0.96524之間，說明本次測試適合做相對決策。全域分?jǐn)?shù)可靠性系數(shù)在0.77232，微低?？紤]到教育教學(xué)能力測試是一種較高利害的標(biāo)準(zhǔn)參照測試，因此還應(yīng)該改進(jìn)測試和增加評分員數(shù)量來提高可靠性系數(shù)。三個(gè)測評任務(wù)中，面試的概化系數(shù)最低，評分員在主觀性較高的面試任務(wù)上較容易出現(xiàn)評分的不一致性，因此后續(xù)為提高測評精度，應(yīng)在面試任務(wù)評分上加強(qiáng)對評分員的有針對性指導(dǎo)。從本研究的三個(gè)測試任務(wù)對測試總分的方差貢獻(xiàn)量來看，說課任務(wù)的貢獻(xiàn)量最大，答辯其次，面試最小。從貢獻(xiàn)比例和測試設(shè)計(jì)者對每個(gè)任務(wù)賦分情況的比較來看兩者基本一致，說明本次測試的設(shè)計(jì)具有一定的合理性。

從結(jié)果來看，使用三個(gè)評分員進(jìn)行評分，做決策時(shí)存在著一定的風(fēng)險(xiǎn)。提高評分員人數(shù)可以提高決策的有效性和公平性。研究結(jié)果表明隨著評分員人數(shù)的增加，概化系數(shù)和可靠性指數(shù)不斷提高，但增加的幅度遞減?？紤]到實(shí)際測評的需要和測試的人力成本，將評分員的數(shù)量提到5名是比較合適的。此時(shí)的概化系數(shù)為0.97885，可靠性系數(shù)為0.84971，已經(jīng)可以滿足測評的精度要求。當(dāng)然選拔和培訓(xùn)評分員同樣重要。

四結(jié)論

1.本次教育教學(xué)能力測試將說課、答辯和面試成績進(jìn)行合成是比較合理的。總體而言測試結(jié)果較適合于相對決策，不適宜做絕對決策。

2.三個(gè)測評任務(wù)中說課和答辯的評分質(zhì)量較好，面試評分的質(zhì)量較差，后續(xù)尤其需要加強(qiáng)主觀性較強(qiáng)的面試評分方面的培訓(xùn)。

3.影響教育教學(xué)能力測試質(zhì)量的主要原因是評分者寬嚴(yán)程度不一。后續(xù)應(yīng)加強(qiáng)評分員的培訓(xùn)，使其統(tǒng)一對各測評任務(wù)的認(rèn)識。

4.通過增加評分員人數(shù)可以提高教育教學(xué)能力測試的精度，但增幅遞減，當(dāng)評分員人數(shù)為5時(shí)，結(jié)果已經(jīng)能夠較好滿足測試要求。

［1］魏新春.改進(jìn)與完善我國教師資格證制度的思考［J］.臨沂大學(xué)學(xué)報(bào)，2011，33(5):23－25.

［2］徐玉斌.初中教師資格教育教學(xué)基本能力測試方案初探［J］.河南教育學(xué)院學(xué)報(bào)，2003，22(1):30－32.

［3］鄒循東，黃坤，陸家海.為什么對非師范類專業(yè)畢業(yè)的教師資格申請人進(jìn)行教育教學(xué)能力培訓(xùn)考試［J］.廣西教育，2004(11):11.

［4］陳振豪，沈惠君.教育教學(xué)能力測試的建議［J］.上海教育，2005(06B):32－33.

［5］BRENNAN.Generalizability theory［M］.New York: Springer Verlag，2001:3－5.

［6］楊志明，張雷.測評的概化理論及其應(yīng)用［M］.教育科學(xué)出版社，2004:18－20.

［7］BRENNAN.Manual for mGENOVA Version 2.1［M］.I-owa:Testing Programs Occasional Papers，2001:45－67.