張軍之
摘要:等值的發(fā)展,從CTT理論等值發(fā)展到IRT等值以及MIRT等值的發(fā)展。等值以及一種心理測(cè)量領(lǐng)域的重要課題,具有十分現(xiàn)實(shí)的應(yīng)用價(jià)值。等值包括平行等值和垂直等值,單位等值和多維等值。此外由于實(shí)踐的需要,等值研究由單位發(fā)展到多維。單位等值與多維等值有很多不同的特點(diǎn)。
關(guān)鍵詞:項(xiàng)目反應(yīng)理論;MIRT;等值;垂直等值;分割與并行等值
一、引言測(cè)驗(yàn)等值(test equating)是心理測(cè)量領(lǐng)域以及教育測(cè)量領(lǐng)域的重要研究方面,一直占有重要的地位。等值就是指將測(cè)量同一種心理的特質(zhì),但是由于測(cè)驗(yàn)的形式、測(cè)驗(yàn)誤差‘測(cè)驗(yàn)對(duì)象、計(jì)分等因素造成的不同。在兩個(gè)或者多個(gè)測(cè)驗(yàn)之間進(jìn)行轉(zhuǎn)換的過(guò)程。等值都是要滿足以下幾個(gè)基本條件的:同質(zhì)、等價(jià)性、對(duì)稱性、樣本一致性。等值的方式包括錨題或者錨人也就是有一部分共同的被試。在具體的測(cè)和數(shù)據(jù)收集過(guò)程中,常見(jiàn)的設(shè)計(jì)方案包括;單組設(shè)計(jì)、隨機(jī)組、設(shè)計(jì)與共同題設(shè)計(jì)。伴隨著測(cè)試?yán)碚搹腃TT到IRT以及MIRT的發(fā)展,等值的理論也相應(yīng)有經(jīng)典等值方法,項(xiàng)目反應(yīng)等值以及多維項(xiàng)目等值方法。經(jīng)典測(cè)量等值的方法一般包括百分位等值、線性等值。項(xiàng)目反應(yīng)理論等值的方法一般包括有:均值/均值方法(MM),均值/標(biāo)準(zhǔn)差方法(MS),SL(Stoking-Lord)方法,HB(Haebara)方法.項(xiàng)目反應(yīng)理論發(fā)展到多維結(jié)構(gòu)之后,又引起許多新的等值研究。項(xiàng)目在不同維度情況下,等值結(jié)果是一個(gè)非常值得研究課題。垂直等值也是當(dāng)前等值研究的一個(gè)熱點(diǎn)。
二、垂直等值。通常的等值研究都是研究同一心理特質(zhì)、難度在同一個(gè)水平的等信度對(duì)稱的樣本中。但是在實(shí)際生活中,常常需要對(duì)一個(gè)或者一個(gè)群體進(jìn)行追蹤研究,這就涉及到需要對(duì)同一個(gè)體或群體在不同難度水平的相同心理特質(zhì)的等值研究。比如對(duì)某門課不同年級(jí)之間進(jìn)行等值,這就涉及到難度水平的不同。通常的等值方法是不能夠解答這類需求,這個(gè)時(shí)候就需要采取新的等值方法,垂直但這就是解決此類問(wèn)題的方法。垂直等值是指在相同的心理特質(zhì)或者相同的學(xué)科不同水平測(cè)試之間進(jìn)行轉(zhuǎn)換,使之轉(zhuǎn)換掉相同的尺度系統(tǒng)上進(jìn)行等值分析。垂直等值的要求是測(cè)試具有高的信度和相同的結(jié)構(gòu),但是難度水平不同。其實(shí)目前的等值研究,主要是用于不同難度群主之間的等值研究,用于同一群體的追蹤研究,尚未見(jiàn)。
早期的垂直等值主要采用Thurshone方法,就是假設(shè)被試能力成正太分布,年級(jí)水平呈線性關(guān)系。具體操作的時(shí)候,先將同群體被試內(nèi)部進(jìn)行能力正太話處理,然后在年級(jí)間進(jìn)行線性轉(zhuǎn)換。這種方法比較簡(jiǎn)便,但是遇到被試呈偏太分布就難以獲取合理的結(jié)果。目前的方法主要采用IRT理論方法,這種方式的優(yōu)點(diǎn)是,無(wú)需對(duì)被試進(jìn)行正態(tài)假設(shè),被試與項(xiàng)目參數(shù)不依賴樣本,具有總體不變性。不過(guò)IRT垂直等值大多用在單維的期刊下,當(dāng)考慮多維情況時(shí)這種方法就不合適。隨著項(xiàng)目理論的發(fā)展到多維,垂直等值也提出適應(yīng)多維度的方法。
Patz和Yao(2007)發(fā)展了MIRT情況下的垂直等值。
垂直等值具體實(shí)施的時(shí)候一般,首先選定模型,根據(jù)不同的數(shù)據(jù)結(jié)構(gòu)選擇不同的模型。例如0,1評(píng)分的數(shù)據(jù)與多級(jí)以及混合評(píng)分的模型選擇是不同的。第二不是進(jìn)行模型參數(shù)的估計(jì)和標(biāo)定,第三步是在量尺轉(zhuǎn)換的基礎(chǔ)上進(jìn)行估計(jì)被試的能力分?jǐn)?shù)。多維項(xiàng)目等值也基本是同樣的步驟,不同是多維同時(shí)標(biāo)定要由于分別標(biāo)定。另外多維等值存在一個(gè)問(wèn)題就是,不同水平測(cè)試的維度可能不一致這使得參數(shù)的估計(jì)和轉(zhuǎn)換造成困難。針對(duì)此問(wèn)題Reckase和Martineau(2004)提出非正交普羅克魯斯旋轉(zhuǎn)法解決該問(wèn)題。實(shí)際應(yīng)用效果也較好。
三、最新發(fā)展。從經(jīng)典測(cè)量理論發(fā)展到項(xiàng)目反應(yīng)理論,雖然因?yàn)槔碚撎攸c(diǎn)不同但是都是在單位度的范圍考慮等值問(wèn)題。發(fā)展到多維項(xiàng)目反應(yīng)理論之后,由于涉及到維度的不同,所以就需要考慮不同維度情況下的等值。多維等值研究可以根據(jù)維度的不同,可以分為分隔等值和合并等值。關(guān)于多維分隔等值和合并等值的研究已經(jīng)有一些,關(guān)于把分隔等值于合并等值已經(jīng)進(jìn)行比較的研究不多。Mayuko Kanada Simon(2008)比較了多維分隔與合并研究。在單位分隔與合并等值已經(jīng)基礎(chǔ)上,在群體相同的情況下合并等值比分隔等值效果更好。在非等組情況下分隔等值比合并等值效果更好。
實(shí)驗(yàn)考慮了樣本大小、測(cè)試長(zhǎng)度、群體等價(jià)、能力是否相關(guān)變量,采用五種不同的等值方式。研究結(jié)果顯示總體上合并等值都優(yōu)于分隔等值,甚至在群體能力相關(guān)比較高,群體平均數(shù)在0.5標(biāo)注差的情況下,合并等值都優(yōu)于分隔等值。關(guān)于參數(shù),特別是在測(cè)試長(zhǎng)度比較短的情況下,合并等值比分隔等值在大樣本中更為有效。在分隔等值方式中,在非等群體情況下,ICF方式等值效果更好。Min方式效果相對(duì)最差。在等群體情況下各分隔等值方法效果相似。
另外,等值研究最重要就是如何設(shè)計(jì)錨的方式。既可以錨題也可以通過(guò)錨被試的方法進(jìn)行等值?;阱^題設(shè)計(jì),劉玥、劉紅云(2013)在研究不同錨測(cè)驗(yàn)情況下的等值情況。同時(shí)考慮了測(cè)試長(zhǎng)度、不同維度錨題數(shù)目比例、錨測(cè)試長(zhǎng)度、維度的相關(guān)、能力水平的不同、錨題的選擇策略幾個(gè)方面的變量。等值方法采用了:均值/均值(MM)方法,均值/標(biāo)準(zhǔn)差(MS)方法,Stoking-Lord(SL)方法.Haebara(HB)方法,最小平方(LS)方法。研究結(jié)果表明,SL、HB、LS三種等值方法在各種情況下表現(xiàn)均比較理想。MM、MS在非等組情況下誤差比較大。不同的錨測(cè)試設(shè)計(jì)對(duì)SL、HB、LS方法影響不大。在群體水平?jīng)]有差異,測(cè)試長(zhǎng)度、錨測(cè)試長(zhǎng)度、維度之間的相關(guān)性相同情況下還是SL、HB、LS方法誤差均方根最小。
在等值方法的研究方面除了以上已經(jīng)發(fā)展比較成熟的物中方法,李韶偉(2015)有提出最小離差法(LC)。該方法與以上幾種方法不同的是。其只考慮由各參數(shù)組成的矩陣,根據(jù)被試在測(cè)驗(yàn)和測(cè)驗(yàn)上的反應(yīng)矩陣,分別估計(jì)出測(cè)驗(yàn)和;測(cè)驗(yàn)的項(xiàng)目參數(shù)。設(shè)目標(biāo)函數(shù)
只要求出使函數(shù)達(dá)到最大值的等值常數(shù)α1,α2,β1,β2就是所求的等值常數(shù).
等值一直以來(lái)都是心理測(cè)量與教育測(cè)量的一個(gè)重要研究領(lǐng)域,等值研究的發(fā)展有助于更好地解決教學(xué)和實(shí)際工作的需要。能夠客觀地刻畫學(xué)業(yè)發(fā)展?fàn)顩r,對(duì)不同的測(cè)試之間進(jìn)行比較也使得測(cè)試對(duì)象可以更便利地使用各種測(cè)試。(作者單位:江西師范大學(xué)心理學(xué)院)
參考文獻(xiàn):
[1]Patz,R.J,& Yao,L.H.(2007).Methods and models for vertical scaling.In:N.J.Dorans,M.Pommerich,& P.W.Holland(Eds).Linking and aligning scores and scales(pp.253–273).New York:Springer–Verlag.
[2]Reckase,M.D,& Martineau,J.A.(2004).The vertical scaling of science achievement tests.Paper commissioned by the Committee on Test Design for K-12 Science Achievement Center for Education National Research Council,Washington,DC.
[3][中]劉玥劉紅云.心理學(xué)報(bào).2013,Vol.45,No.4,466-480.
[4]李韶偉.多維項(xiàng)目反應(yīng)理論的等值問(wèn)題研究.西南大學(xué).2015