• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多元概化理論在教育教學(xué)能力測試中的應(yīng)用

      2014-03-30 10:05:54陳宛玉戴海琦
      關(guān)鍵詞:協(xié)方差全域方差

      陳宛玉,戴海琦

      (1.龍巖學(xué)院教育科學(xué)學(xué)院,福建 龍巖 364000;2.江西師范大學(xué),江西 南昌 330022)

      我國教師資格證制度自2001年全面實(shí)施以來,對我國教師的專業(yè)化發(fā)展起到了巨大的推動(dòng)作用[1]?!督處熧Y格條例》要求對申請教師資格者的教育教學(xué)能力進(jìn)行考察和評估,并要求各省 (市)制定有關(guān)測試實(shí)施細(xì)則。目前國內(nèi)在教師資格認(rèn)定中都把教育教學(xué)能力測試作為重要的把關(guān)環(huán)節(jié),測試主要采用說課 (或試講)、面試、答辯等方式對申請人的教育教學(xué)能力進(jìn)行評估。教育教學(xué)能力測試已經(jīng)在各個(gè)省份地市廣泛使用,然而對教育教學(xué)能力測試的專門研究卻不多,僅有的研究主要是對測試標(biāo)準(zhǔn)、實(shí)施及其必要性的分析[2-4],尚未有對其心理測量學(xué)性質(zhì)的研究。

      概化理論是運(yùn)用實(shí)驗(yàn)設(shè)計(jì)的思想,采用方差分析的統(tǒng)計(jì)分析技術(shù),分析測評中的各種變異來源,并進(jìn)行分解、估計(jì)與控制的一種測量方法[5-6]。概化理論能夠一次性分析多個(gè)測驗(yàn)誤差變異的來源,既可以適用于常模參照測驗(yàn),又可以適用于標(biāo)準(zhǔn)參照測驗(yàn)。而且更多的從整個(gè)測驗(yàn)的宏觀結(jié)構(gòu)及其與外部測驗(yàn)條件的基礎(chǔ)上做深入的計(jì)量分析,對于評分設(shè)計(jì)具有較好的指導(dǎo)作用。概化理論經(jīng)歷了一個(gè)從一元到多元的發(fā)展過程。多元概化理論較之于一元概化理論在處理多個(gè)測量任務(wù)或目標(biāo)測量問題時(shí)具有獨(dú)到的優(yōu)勢。

      教育教學(xué)能力測試要求評分員對考生多個(gè)測評任務(wù)上的表現(xiàn)進(jìn)行評定,其數(shù)據(jù)特點(diǎn)符合多元概化理論分析的要求。本研究運(yùn)用多元概化理論對教育教學(xué)能力測試數(shù)據(jù)進(jìn)行分析,旨在對教育教學(xué)能力測試質(zhì)量、分?jǐn)?shù)合成的合理性、評分誤差的來源和測試改進(jìn)方案等問題進(jìn)行探討,進(jìn)而為后續(xù)完善測試設(shè)計(jì)和評分培訓(xùn)提供參考依據(jù)。

      一方法

      (一)數(shù)據(jù)來源

      數(shù)據(jù)來源于2011年某市組織的高中英語教師資格申請教育教學(xué)能力測試的實(shí)測數(shù)據(jù),三位評委對47名考生進(jìn)行打分。該市制定的教育教學(xué)能力測試標(biāo)準(zhǔn)要求評分員從說課、面試、答辯三個(gè)任務(wù)評估申請人的教育教學(xué)能力。測試要求對評分員從三個(gè)任務(wù)的各個(gè)方面都給予考生打分,然后合并計(jì)算測試總分,考生最終的成績?yōu)槿齻€(gè)評委所評總分的平均分,考生達(dá)到60分以上視為通過測試。本研究所獲取的初始數(shù)據(jù)包括各個(gè)評分員對每一考生說課、面試、答辯等任務(wù)的成績。測試的總成績?yōu)?00分,其中說課總分為50分,面試為20分,答辯為30分。

      (二)分析思路

      教育教學(xué)能力測試包括說課、面試、答辯等三個(gè)測評任務(wù),評分員對每個(gè)考生在每個(gè)任務(wù)都進(jìn)行了評分。因此測試數(shù)據(jù)特點(diǎn)選擇多元概化理論中的三因子的單面隨機(jī)交叉設(shè)計(jì) (p˙×r˙)。其中p代表考生教育教學(xué)能力,為測試目標(biāo);r代表評分員側(cè)面,有3個(gè)水平。

      (三)研究工具

      本研究采用多元概化理論分析的專門軟件mGEVENA2.1[7]編寫程序進(jìn)行教育教學(xué)能力測試數(shù)據(jù)進(jìn)行處理。

      二結(jié)果

      (一)G研究

      1.G研究方差分量和協(xié)方差分量的估計(jì)

      應(yīng)用mGEVENA程序可以得到測量目標(biāo)p和測量側(cè)面r的主效應(yīng)和交互效應(yīng)在說課、面試、答辯三個(gè)任務(wù)上的方差分量和協(xié)方差分量估計(jì)值。具體結(jié)果見表1。

      表1 G研究的方差分量和協(xié)方差分量

      由表1可知,三個(gè)任務(wù)方差分量的估計(jì)值中,說課的方差分量最大 (11.00956),面試的方差分量最小 (1.53114)。這說明在本次測試中說課所起的作用最大,答辯所起的作用其次,面試所起的作用最小。從數(shù)據(jù)結(jié)果上來看,這也與測試設(shè)計(jì)者對說課、面試和答辯所賦總分值較為一致。

      從被試效應(yīng)的協(xié)方差和相關(guān)系數(shù)來看,三個(gè)測試任務(wù)之間協(xié)方差較大,存在較高的相關(guān),其中面試與答辯的相關(guān)相對較低 (0.68294),說課和答辯的相關(guān)最高 (0.78552)。說明考生在三個(gè)評分任務(wù)的得分存在較高的一致性。另一方面也反映了在本次測試中將三個(gè)任務(wù)當(dāng)做三個(gè)測試目標(biāo)進(jìn)行分析是符合MGT的要求的。

      從評分員主效應(yīng)的協(xié)方差來看,三個(gè)測試任務(wù)之間的協(xié)方差較大,表明評分員在各個(gè)測試任務(wù)上的打分一致性較高,即在說課任務(wù)上打分較高的評分員在面試和答辯任務(wù)上的打分也比較高,評分員在各分測驗(yàn)上評分間的相關(guān)較高。

      2.G研究各測試任務(wù)中不同側(cè)面所占的比例

      表2列出了G研究各測試任務(wù)下不同側(cè)面所占的比例。

      表2 G研究各測試任務(wù)中不同側(cè)面所占的比例

      從考生效應(yīng)來看,三個(gè)測試任務(wù)的考生效應(yīng)相對都占到了較大的比例,但在面試和答辯任務(wù)上略微較低。三個(gè)測試任務(wù)中評分員效應(yīng)所占比例不小,特別是在答辯任務(wù)上,說明不同評分員在評分中所持的寬嚴(yán)程度不一,特別是在答辯任務(wù)上所持的寬嚴(yán)程度差別更大。三個(gè)測試任務(wù)中考生與評分員的交互效應(yīng)中占總變異的比例在 8.43% -30.05%之間,其中面試任務(wù)中交互作用所占的比例較高,反映了在面試任務(wù)中評分員更容易出現(xiàn)評分寬嚴(yán)程度不一致的現(xiàn)象,評分員在面試任務(wù)中出現(xiàn)看人打分的情況更為嚴(yán)重。

      (二)D研究

      1.D研究中方差分量與協(xié)方差分量的估計(jì)。D研究設(shè)計(jì)與G研究設(shè)計(jì)p×r一致,測量模式同為隨機(jī)模式,評分員人數(shù)為3。根據(jù)G研究的結(jié)果可得到樣本均值意義上的各種變異來源的方差與協(xié)方差分量如表3所示。

      表3 D研究p×R設(shè)計(jì)的方差與協(xié)方差分量

      (注:矩陣中主對角線上的元素為各效應(yīng)在相應(yīng)因子上的方差分量估計(jì),主對角線以下元素為各效應(yīng)在不同因子間協(xié)方差分量的估計(jì)、主對角線之上為因子間相關(guān)系數(shù)的估計(jì)。)

      2.各測試任務(wù)全域分?jǐn)?shù)估計(jì)的精度問題。根據(jù)G研究的結(jié)果,可估計(jì)測試任務(wù)的全域分?jǐn)?shù)、相對誤差與絕對誤差估計(jì)的方差分量,進(jìn)而計(jì)算各個(gè)測試任務(wù)的概化系數(shù)和可靠性系數(shù),以及相對信噪比,結(jié)果見表4。

      表4 D研究p×R設(shè)計(jì)各個(gè)測試任務(wù)的概化系數(shù)等指標(biāo)

      從結(jié)果來看,說課任務(wù)的全域分方差分量最大,答辯任務(wù)的全域分方差分量其次,這與設(shè)計(jì)者賦予的總分基本一致。從概化系數(shù)來看,三個(gè)任務(wù)的信度0.83049-0.95289之間,其中說課任務(wù)和答辯任務(wù)的信度基本理想,面試任務(wù)的信度較低。另一方面三個(gè)測試任務(wù)的可靠性系數(shù)在0.73955-0.79798之間,普遍不高,這也反映了由于評分員之間存在寬嚴(yán)程度的差異,當(dāng)測試結(jié)果用作絕對決策時(shí)存在較大誤差。

      3.全域總分的測量精度研究。本研究按照測試的規(guī)定,將說課、答辯、面試進(jìn)行合成,計(jì)算全域總分的方差,以及相應(yīng)誤差的方差分量估計(jì),進(jìn)而估計(jì)全域總分的概化系數(shù)和可靠性系數(shù),具體結(jié)果見表5。

      由表5可以看出,全域總分的概化系數(shù)為0.96524,說明本次測試總體具有較高的信度。全域總分的可靠性系數(shù)0.77232,說明測試的在用于絕對決策時(shí)還存在一定的誤差,有待提高。

      表5 D研究合成全域分?jǐn)?shù)的方差分量等指標(biāo)的估計(jì)

      4.各測試任務(wù)對總方差的貢獻(xiàn)比例的研究。根據(jù)以上結(jié)果可以得到各個(gè)測試任務(wù)對總方差的貢獻(xiàn)比例見表6。表6中我們也列出了三個(gè)測試所賦總分及比例,以比較測試設(shè)計(jì)與實(shí)際方差貢獻(xiàn)是否一致。

      表6 各測試任務(wù)對總方差貢獻(xiàn)的比例與測試任務(wù)賦分比例的比較

      從表6來看,三個(gè)測試任務(wù)指標(biāo)對全域總分的貢獻(xiàn)比例與設(shè)計(jì)者的賦分基本一致。在說課任務(wù)上所賦總分比例為 50%,實(shí)際的方差貢獻(xiàn)率為49.91%,基本相接近。面試任務(wù)所賦總分比例為20%,實(shí)際方差貢獻(xiàn)率為16.12%,略微低于賦分比例。答辯任務(wù)所賦總分比例為30%,實(shí)際方差貢獻(xiàn)率為33.97%,略微高于賦分比例。這表明此次教育教學(xué)能力測試在決定各個(gè)測試任務(wù)權(quán)重方面還是做得比較好的。

      5.改變評分員人數(shù)對測量精度的影響研究。為了研究改善教育教學(xué)能力測試的方法,本研究通過改變各個(gè)測評任務(wù)的評分員人數(shù)來觀察測量精度的變化特點(diǎn),具體結(jié)果見表7。

      表7 改變評分員人數(shù)對測量精度的影響

      由表7中可知當(dāng)評分員人數(shù)為1時(shí),全域總分的概化系數(shù)還較高,但可靠性系數(shù)降低較大。當(dāng)評分員人數(shù)為3時(shí),全域總分的概化系數(shù)有較大提高,但可靠性還略微較小,不滿足測評要求。從增幅來看,當(dāng)評分員人數(shù)超過6人時(shí),增加不再明顯??紤]到教育教學(xué)能力測試是一種標(biāo)準(zhǔn)參照測驗(yàn),下圖我們單獨(dú)分析了可靠性系數(shù)隨評分員人數(shù)不同而變化情況。

      圖1 評分員人數(shù)變化對全域總分可靠性系數(shù)的影響

      從圖1中我們也可以較為直觀的看出減少評分員數(shù)量和任務(wù)數(shù)量,將導(dǎo)致測試的可靠性急劇下降,當(dāng)試任務(wù)為5個(gè)時(shí),可靠性系數(shù)的變化不再明顯,并且基本達(dá)到預(yù)期測試精度。

      由圖2所示。

      圖2 評分員人數(shù)變化對各測試任務(wù)可靠性系數(shù)的影響

      隨著評分員人數(shù)的增加,三個(gè)評分任務(wù)的可靠性系數(shù)均有所增加。相對比較而言,不管如何增加評分員人數(shù),說課任務(wù)的可靠性系數(shù)一直高于面試和答辯任務(wù)的可靠性系數(shù)。

      三 討論

      1.從G研究各主效應(yīng)結(jié)果來看,三個(gè)測評任務(wù)中,評分員效應(yīng)都有相應(yīng)的較大的比例,這也反映了評分員在評分中所持的寬嚴(yán)標(biāo)準(zhǔn)可能不同。教育教學(xué)能力測試屬于標(biāo)準(zhǔn)參照測試,評分員的取樣對考生評分有一定影響,在以后的測試中有必要加強(qiáng)評分員隊(duì)伍的培訓(xùn),以此來保證測評的公平性。從評分員與考生的交互作用來看,說課和答辯任務(wù)上,交互作用所占的比例較小,說明在這兩個(gè)任務(wù)上評分員具有較好的內(nèi)部一致性。面試任務(wù)的考生與評分員的交互作用所占的比例較大,反映了評分員在面試評分中內(nèi)部一致性較差,反映了評分員沒有較好把握面試評分要求。

      2.多元概化理論的分析除了報(bào)告出各測評側(cè)面的主效應(yīng)和交互效應(yīng)的方差分量之外,同時(shí)報(bào)告了協(xié)方差分量。協(xié)方差分量為我們提供了額外的信息??忌?yīng)的協(xié)方差有助于我們解釋測評任務(wù)結(jié)構(gòu)的合理性,從被試效應(yīng)的協(xié)方差和相關(guān)系數(shù)來看,考生在三個(gè)評分任務(wù)的得分存在較高的一致性,將三個(gè)測評任務(wù)合并作為教育教學(xué)能力的總體評估具有一定的合理性。評分員主效應(yīng)的協(xié)方差較大表明評分員在各個(gè)測試任務(wù)上的打分一致性較高,評分員內(nèi)部一致性較高。

      3.本次測試各個(gè)測試任務(wù)的合成的全域分?jǐn)?shù)概化系數(shù)在0.96524之間,說明本次測試適合做相對決策。全域分?jǐn)?shù)可靠性系數(shù)在0.77232,微低??紤]到教育教學(xué)能力測試是一種較高利害的標(biāo)準(zhǔn)參照測試,因此還應(yīng)該改進(jìn)測試和增加評分員數(shù)量來提高可靠性系數(shù)。三個(gè)測評任務(wù)中,面試的概化系數(shù)最低,評分員在主觀性較高的面試任務(wù)上較容易出現(xiàn)評分的不一致性,因此后續(xù)為提高測評精度,應(yīng)在面試任務(wù)評分上加強(qiáng)對評分員的有針對性指導(dǎo)。從本研究的三個(gè)測試任務(wù)對測試總分的方差貢獻(xiàn)量來看,說課任務(wù)的貢獻(xiàn)量最大,答辯其次,面試最小。從貢獻(xiàn)比例和測試設(shè)計(jì)者對每個(gè)任務(wù)賦分情況的比較來看兩者基本一致,說明本次測試的設(shè)計(jì)具有一定的合理性。

      從結(jié)果來看,使用三個(gè)評分員進(jìn)行評分,做決策時(shí)存在著一定的風(fēng)險(xiǎn)。提高評分員人數(shù)可以提高決策的有效性和公平性。研究結(jié)果表明隨著評分員人數(shù)的增加,概化系數(shù)和可靠性指數(shù)不斷提高,但增加的幅度遞減??紤]到實(shí)際測評的需要和測試的人力成本,將評分員的數(shù)量提到5名是比較合適的。此時(shí)的概化系數(shù)為0.97885,可靠性系數(shù)為0.84971,已經(jīng)可以滿足測評的精度要求。當(dāng)然選拔和培訓(xùn)評分員同樣重要。

      四 結(jié)論

      1.本次教育教學(xué)能力測試將說課、答辯和面試成績進(jìn)行合成是比較合理的。總體而言測試結(jié)果較適合于相對決策,不適宜做絕對決策。

      2.三個(gè)測評任務(wù)中說課和答辯的評分質(zhì)量較好,面試評分的質(zhì)量較差,后續(xù)尤其需要加強(qiáng)主觀性較強(qiáng)的面試評分方面的培訓(xùn)。

      3.影響教育教學(xué)能力測試質(zhì)量的主要原因是評分者寬嚴(yán)程度不一。后續(xù)應(yīng)加強(qiáng)評分員的培訓(xùn),使其統(tǒng)一對各測評任務(wù)的認(rèn)識。

      4.通過增加評分員人數(shù)可以提高教育教學(xué)能力測試的精度,但增幅遞減,當(dāng)評分員人數(shù)為5時(shí),結(jié)果已經(jīng)能夠較好滿足測試要求。

      [1]魏新春.改進(jìn)與完善我國教師資格證制度的思考[J].臨沂大學(xué)學(xué)報(bào),2011,33(5):23-25.

      [2]徐玉斌.初中教師資格教育教學(xué)基本能力測試方案初探[J].河南教育學(xué)院學(xué)報(bào),2003,22(1):30-32.

      [3]鄒循東,黃坤,陸家海.為什么對非師范類專業(yè)畢業(yè)的教師資格申請人進(jìn)行教育教學(xué)能力培訓(xùn)考試 [J].廣西教育,2004(11):11.

      [4]陳振豪,沈惠君.教育教學(xué)能力測試的建議[J].上海教育,2005(06B):32-33.

      [5]BRENNAN.Generalizability theory[M].New York: Springer Verlag,2001:3-5.

      [6]楊志明,張雷.測評的概化理論及其應(yīng)用[M].教育科學(xué)出版社,2004:18-20.

      [7]BRENNAN.Manual for mGENOVA Version 2.1[M].I-owa:Testing Programs Occasional Papers,2001:45-67.

      猜你喜歡
      協(xié)方差全域方差
      方差怎么算
      用一粒米撬動(dòng)全域旅游
      概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
      計(jì)算方差用哪個(gè)公式
      方差生活秀
      “全域人人游”火爆周寧
      海峽姐妹(2017年9期)2017-11-06 08:39:37
      謀全域 圖四時(shí) 大連金普新區(qū)的全域“旅游+”
      全域旅游向更廣更深發(fā)展
      不確定系統(tǒng)改進(jìn)的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報(bào)器
      一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
      太原市| 高尔夫| 阿图什市| 金华市| 榆中县| 巴林左旗| 雷山县| 青河县| 建阳市| 富平县| 视频| 兴义市| 商河县| 翼城县| 湾仔区| 荆州市| 绩溪县| 互助| 玉山县| 玛纳斯县| 墨玉县| 五常市| 丹东市| 上饶县| 深泽县| 尉氏县| 安岳县| 泸水县| 公主岭市| 新安县| 黄骅市| 县级市| 华容县| 海口市| 海南省| 延安市| 航空| 万山特区| 宜宾县| 财经| 巧家县|