潘 浩
(遼寧醫(yī)學(xué)院國(guó)際教育學(xué)院,遼寧 121000)
?
一種新的多維IRT模型——高階IRT模型
潘浩
(遼寧醫(yī)學(xué)院國(guó)際教育學(xué)院,遼寧 121000)
摘要:早期的單維IRT模型忽視了測(cè)驗(yàn)多維性的可能,而多維IRT模型對(duì)各維度的劃分不夠明確,不能良好反應(yīng)各維度能力的內(nèi)涵。高階IRT模型承認(rèn)測(cè)驗(yàn)的多維性,以分測(cè)驗(yàn)劃分維度,同時(shí)又將多個(gè)維度的能力統(tǒng)一到一個(gè)高階的能力中,能夠在了解被試各維度能力的同時(shí),為被試提供整體的能力估計(jì),它能更好地反映實(shí)際,并且適應(yīng)大規(guī)模測(cè)驗(yàn)的需求。
關(guān)鍵詞:高階IRT;多維IRT;單維IRT
1引言
項(xiàng)目反應(yīng)理論(IRT)是關(guān)于被試潛在特質(zhì)(能力水平)與其對(duì)測(cè)驗(yàn)項(xiàng)目反應(yīng)之間關(guān)系的理論(王孝玲,2005)。它能夠反映單一被試和單個(gè)項(xiàng)目間的關(guān)系,提供更精確的測(cè)量指標(biāo),解決了CTT樣本和測(cè)驗(yàn)的相互依賴的問(wèn)題。項(xiàng)目反應(yīng)理論(IRT)發(fā)展至今,依據(jù)基本假設(shè)的不同主要有單維IRT模型和多維IRT模型兩種。
2常見(jiàn)的IRT模型
2.1單維IRT
單維性假設(shè)是指每個(gè)測(cè)驗(yàn)只考察一種能力,或者可解釋為影響測(cè)驗(yàn)表現(xiàn)的只有一種“主導(dǎo)”因素。
第一個(gè)IRT模型是Lord在他1952年(Lord,1952)的博士論文中提出的雙參正態(tài)拱形模型,以正態(tài)累積分布的函數(shù)形式作為項(xiàng)目的反應(yīng)函數(shù)。其數(shù)學(xué)表達(dá)形式如下:
丹麥學(xué)者Rasch(Rasch,1960)提出了Rasch模型,這是最簡(jiǎn)單的單維IRT模型。其數(shù)學(xué)表達(dá)式如下(轉(zhuǎn)引自Embretson&Reise,2000):
Birnbaum(1968)在Rasch單參邏輯斯蒂模型的基礎(chǔ)上,又發(fā)展出雙參,三參邏輯斯蒂模型。表達(dá)式如下:
其中a是項(xiàng)目的區(qū)分度,c是曲線的下漸近線位置,代表猜測(cè)度。當(dāng)c值越大,下漸近線越高,猜測(cè)度越大。
單維IRT模型簡(jiǎn)單明了,實(shí)現(xiàn)了對(duì)被試能力和題目質(zhì)量的同時(shí)估計(jì),但是在實(shí)際測(cè)驗(yàn)中,常常需要幾種能力共同或者有所側(cè)重地完成測(cè)驗(yàn)任務(wù),利用單維IRT模型顯然不能提供全面的信息。
2.2多維IRT
為了解決單維IRT的局限,Robert和Mark(1982)對(duì)多維IRT進(jìn)行了研究。多維項(xiàng)目反應(yīng)理論模型是以多維度心理機(jī)制為前提,通過(guò)引入各維度上的能力和項(xiàng)目參數(shù),來(lái)表征被試與項(xiàng)目之間交互作用的一種非線性數(shù)學(xué)模型。在心理和語(yǔ)言測(cè)驗(yàn)中,許多測(cè)驗(yàn)的完成實(shí)際上需要不止一種能力,多維IRT模型的出現(xiàn)在理論假設(shè)上較好地符合了實(shí)際(Reckase,1997)。
目前較常見(jiàn)的是補(bǔ)償性和非補(bǔ)償性兩種模型。所謂補(bǔ)償,就是在被試完成或作答某一項(xiàng)目時(shí),由多種能力共同產(chǎn)生作用影響被試的反應(yīng)情況,當(dāng)所需要的一種能力偏低時(shí),所需要的其他能力的高水平可以彌補(bǔ)。而非補(bǔ)償性是假設(shè)一個(gè)問(wèn)題的解決或者一個(gè)項(xiàng)目的完成是由多個(gè)能力共同決定的,它們之間是不能相互補(bǔ)償?shù)?,正確反應(yīng)概率的上限取決于能力結(jié)構(gòu)中最低的那一項(xiàng)(Reckase,1997)。
三參多維補(bǔ)償性模型
Xij是指被試i在項(xiàng)目j上的得分,θik表示被試i在第k個(gè)維度的能力參數(shù)向量,αjk是第j個(gè)項(xiàng)目在第k個(gè)維度的區(qū)分度參數(shù)向量,bj是第j個(gè)項(xiàng)目的難度系數(shù)等級(jí)。需要說(shuō)明的是,每個(gè)項(xiàng)目每一個(gè)維度都有一個(gè)區(qū)分度參數(shù),但每個(gè)項(xiàng)目只有一個(gè)項(xiàng)目難度參數(shù),不依維度不同而變化。
三參多維非補(bǔ)償性模型(Sympson,1978)
其中,m是維度,a,b,c是項(xiàng)目的區(qū)分度,難度和猜測(cè)度參數(shù)。
補(bǔ)償性模型每個(gè)項(xiàng)目有一個(gè)難度系數(shù)和一個(gè)猜測(cè)度,在每個(gè)維度上有一個(gè)區(qū)分度參數(shù),完成項(xiàng)目的能力是多個(gè)維度能力的和。而非補(bǔ)償性模型每個(gè)項(xiàng)目在每個(gè)維度上都有一個(gè)區(qū)分度參數(shù)和一個(gè)難度系數(shù),這個(gè)模型也可以寫(xiě)成多個(gè)單維雙參邏輯斯蒂模型的積。
多維IRT解決了單維性假設(shè)與測(cè)驗(yàn)實(shí)際不符的問(wèn)題,但是完成一個(gè)測(cè)驗(yàn)或者一張?jiān)嚲硗ǔP枰獛追N不同的能力,雖然這些能力可能不是完全按照分測(cè)驗(yàn)嚴(yán)格區(qū)分,但是往往有所側(cè)重。在實(shí)際的參數(shù)估計(jì)中,根據(jù)不同維度的能力參數(shù)估計(jì)值來(lái)判斷項(xiàng)目所屬的分維度,因此常常有分維度包含的項(xiàng)目過(guò)少的情況,不足以確保參數(shù)估計(jì)的精確性。另外,參與測(cè)驗(yàn)的被試往往需要一個(gè)整體的評(píng)價(jià),即對(duì)整體能力的一個(gè)估計(jì),而傳統(tǒng)的單維IRT雖然可以完成整體能力的估計(jì),但完成測(cè)驗(yàn)所需能力的多維性假設(shè)顯然是與單維IRT不符的。因此,無(wú)論是傳統(tǒng)單維IRT還是多維IRT,都在參數(shù)估計(jì)上存在一定問(wèn)題而偏離實(shí)際需求。
在這種背景下,Song(2007)在Ahigher-orderitemresponsemodel:Developmentandapplication一書(shū)中首次提出了一種高階IRT模型。高階IRT模型是以能力的不同層次為前提假設(shè)的,即影響被試測(cè)驗(yàn)表現(xiàn)的是兩個(gè)層次的能力,處于高層的是一個(gè)整體的高階能力,而這個(gè)高階能力又是由一組低層次的不同分能力組成的。
3高階IRT模型內(nèi)涵
高階IRT假設(shè)測(cè)驗(yàn)是一個(gè)維度內(nèi)單維的多維測(cè)驗(yàn),它依照分測(cè)驗(yàn)來(lái)劃分能力維度,每一個(gè)分測(cè)驗(yàn)測(cè)量一個(gè)并且只測(cè)量一種能力,因此,它所假設(shè)的能力結(jié)構(gòu)實(shí)際上是一種比較簡(jiǎn)單的多維測(cè)驗(yàn)的能力結(jié)構(gòu),只是在多種能力之上多了一個(gè)高層次的整體能力。
圖1 高階IRT層次結(jié)構(gòu)圖
高階IRT模型所選取的數(shù)學(xué)形式是三參邏輯斯蒂模型。它的數(shù)學(xué)表達(dá)如下:
如果用整體能力和相關(guān)系數(shù)來(lái)表示維度能力,簡(jiǎn)化一下項(xiàng)目參數(shù)的表示方法,則變?yōu)椋?/p>
4高階IRT的研究進(jìn)展
最初的研究者通過(guò)模擬實(shí)驗(yàn),研究了高階IRT模型和其他IRT模型在參數(shù)估計(jì)方面的表現(xiàn)。Song(2007)提出了高階IRT模型,書(shū)中詳細(xì)闡述了從經(jīng)典測(cè)驗(yàn)理論到IRT的發(fā)展歷程,并利用高階IRT模型進(jìn)行了模擬實(shí)驗(yàn)。HaoSong使用了貝葉斯等級(jí)框架下的MCMC方法,分別采用傳統(tǒng)單維IRT和高階IRT對(duì)模擬數(shù)據(jù)進(jìn)行了參數(shù)估計(jì)。HaoSong通過(guò)變化不同測(cè)驗(yàn)長(zhǎng)度,不同維度數(shù),分測(cè)驗(yàn)間不同的相關(guān)系數(shù)進(jìn)行了對(duì)比實(shí)驗(yàn)。結(jié)果顯示,當(dāng)分測(cè)驗(yàn)間相關(guān)極低或者不相關(guān)時(shí),高階IRT的估計(jì)效果明顯好于傳統(tǒng)單維IRT,而當(dāng)分測(cè)驗(yàn)間相關(guān)較高時(shí),兩者估計(jì)結(jié)果差不多,但高階IRT更為準(zhǔn)確。
delaTorre和Song(2009)采用同樣方法對(duì)高階IRT模型與傳統(tǒng)IRT模型進(jìn)行了對(duì)比研究。此外,他們又利用了CTB/McGraw-Hill九年級(jí)測(cè)驗(yàn)的實(shí)測(cè)數(shù)據(jù)對(duì)兩個(gè)模型的能力參數(shù)估計(jì)情況進(jìn)行了對(duì)比分析。結(jié)果顯示,兩個(gè)模型在分測(cè)驗(yàn)間相關(guān)高時(shí)在整體能力估計(jì)上差異不大,高階IRT的標(biāo)準(zhǔn)差和測(cè)驗(yàn)偏差(bias)更小。當(dāng)分測(cè)驗(yàn)間相關(guān)較低時(shí),高階IRT的估計(jì)效果明顯更好。Jimmy和YuanHong(2010)利用了同樣的方法針對(duì)小樣本數(shù)據(jù)進(jìn)行了模擬和實(shí)測(cè)數(shù)據(jù)的估計(jì),結(jié)果顯示,當(dāng)樣本數(shù)量小且維度數(shù)較多時(shí),高階IRT體現(xiàn)出了明顯優(yōu)勢(shì),標(biāo)準(zhǔn)誤和測(cè)驗(yàn)偏差明顯更小,證明高階IRT利用測(cè)驗(yàn)內(nèi)維度間相關(guān)信息這一點(diǎn)是對(duì)參數(shù)估計(jì)的一次改進(jìn)(Hung,Wang,Chen,&Su,2013;Huang&Wang,2013)。
后來(lái)的研究者主要利用自編測(cè)驗(yàn),對(duì)高階IRT進(jìn)行實(shí)踐檢驗(yàn),并對(duì)比幾種IRT模型的估計(jì)效果。Yang等(Yang,Kuo,&Liao,2011)設(shè)計(jì)了一個(gè)分?jǐn)?shù)乘法的計(jì)算機(jī)自適應(yīng)性測(cè)驗(yàn),并利用高階IRT模型對(duì)被試的整體能力和分能力進(jìn)行了估計(jì),并利用整體能力估計(jì)結(jié)果對(duì)被試進(jìn)行了整體的評(píng)價(jià),利用分能力估計(jì)結(jié)果對(duì)存在的學(xué)習(xí)障礙進(jìn)行診斷。Chih-WeiYang等將數(shù)學(xué)能力分成概念性知識(shí)、程序性知識(shí)和解決問(wèn)題的能力三種分能力。結(jié)果顯示,計(jì)算機(jī)對(duì)于學(xué)習(xí)障礙的診斷和人工評(píng)分對(duì)于學(xué)習(xí)障礙的診斷平均一致性高達(dá)97%,而利用高階IRT模型估計(jì)出的分能力和在該能力維度內(nèi)學(xué)習(xí)障礙的數(shù)量之間呈現(xiàn)高相關(guān),結(jié)果證明學(xué)習(xí)障礙越多,被試的數(shù)學(xué)能力越差。臺(tái)灣學(xué)者孫長(zhǎng)蓀(2010),張勝凱(2009),黃子晏(2010),蘇啟明(2010),張素珍等(2010)通過(guò)對(duì)自編測(cè)驗(yàn)的分析,比較單維、多維和高階IRT模型,結(jié)果表明高階IRT能提供更多信息,效果更好。
上述研究結(jié)果顯示,高階IRT模型較之傳統(tǒng)單維IRT模型和多維IRT模型的估計(jì)結(jié)果更為精確(誤差小),且能夠同時(shí)估計(jì)整體能力和分能力,提供較多信息。但是針對(duì)實(shí)測(cè)數(shù)據(jù)的研究還很少,在實(shí)際應(yīng)用上說(shuō)服力不強(qiáng)。國(guó)外學(xué)者采用模擬實(shí)驗(yàn)預(yù)先設(shè)定了項(xiàng)目參數(shù),這對(duì)能力的估計(jì)會(huì)產(chǎn)生一定影響,臺(tái)灣學(xué)者自編的測(cè)驗(yàn)項(xiàng)目過(guò)少(有的分測(cè)驗(yàn)甚至只有三道題),題目質(zhì)量對(duì)估計(jì)結(jié)果的影響很大。
5小結(jié)和展望
高階IRT模型利用了分維度能力和整體能力的相關(guān),實(shí)現(xiàn)了對(duì)兩個(gè)層次能力的同時(shí)估計(jì),是對(duì)IRT的進(jìn)一步發(fā)展,也是在能力結(jié)構(gòu)假設(shè)上的一次新的突破。高階IRT模型能夠提供被試分項(xiàng)和整體能力的估計(jì),是符合大規(guī)模測(cè)驗(yàn)的實(shí)際需求,對(duì)心理和教育測(cè)量有著實(shí)踐意義的。
高階IRT在整分能力關(guān)系上采用了線性相關(guān),這是一種簡(jiǎn)單的相關(guān)關(guān)系,然而相關(guān)關(guān)系還可能更加復(fù)雜,比如非線性相關(guān)。因此,所選取的相關(guān)關(guān)系是否需要調(diào)整還有待進(jìn)一步證實(shí)。另外,高階IRT模型的一個(gè)重要假設(shè)是維度內(nèi)單維,即項(xiàng)目間或分測(cè)驗(yàn)間單維,而在實(shí)際測(cè)量中,項(xiàng)目?jī)?nèi)或者分測(cè)驗(yàn)內(nèi)是否存在多維情況,將分測(cè)驗(yàn)劃為單維測(cè)驗(yàn)是否過(guò)于籠統(tǒng)有待進(jìn)一步研究。
參考文獻(xiàn)
黃子晏.(2010).階層式試題反應(yīng)理論之多點(diǎn)計(jì)分模探討.2013-10-15取自http://ndltd.ncl.edu.tw/cgi-bin/gs32/gswev.cgi
蘇啟明.(2010).高階層試題反應(yīng)理論模式延伸與應(yīng)用.2013-10-15取自http://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi
孫長(zhǎng)蓀.(2010).以NAEP數(shù)學(xué)評(píng)量中數(shù)學(xué)能力架構(gòu)進(jìn)行國(guó)小六年級(jí)幾何測(cè)驗(yàn)的編制與分析.研究所碩士論文.國(guó)立臺(tái)中教育大學(xué)教育測(cè)驗(yàn)統(tǒng)計(jì).
王孝玲.(2005).教育測(cè)量(修訂版)(p.242).上海:華東師大出版社.
張素珍,李佩瑾,郭伯臣,林佳樺.(2010).應(yīng)用HIRT于實(shí)證資料分析—以國(guó)小六年級(jí)數(shù)學(xué)小數(shù)的除法單元為例.測(cè)驗(yàn)統(tǒng)計(jì)年刊(臺(tái)灣),第十八輯,51-66.
張勝凱.(2010).使用HIRT模式建立國(guó)小六年級(jí)學(xué)童數(shù)學(xué)推理能力測(cè)驗(yàn).碩士論文.國(guó)立臺(tái)中教育大學(xué)教育測(cè)驗(yàn)統(tǒng)計(jì)研究所.
Birnbaum,A.(1968).Some latent trait models and their use in inferring an examinee’s ability.In F.M.Lord & M.R.Novick(Eds.),Statisticaltheoriesofmentaltestscores(pp.17-20).Reading,MA:Addison-Wesley.
de la Torre,J.,& Song,H.(2009).Simultaneous estimation of overall and domain abilities:A higher-order IRT Model Approach.AppliedPsychologicalMeasurement,33(8),620-639.
de la Torre,J.,& Hong,Y.(2010).Parameter estimation with small sample size a higher-order IRT Model Approach.AppliedPsychologicalMeasurement,34(4),267-285.
Huang,H.Y.,Wang,W.C.,Chen,P.H.,& Su,C.M.(2013).Higher-Order Item Response Models for Hierarchical Latent Traits.AppliedPsychologicalMeasurement,37(8),619-637.
Huang,H.Y.,& Wang,W.C.(2013).Higher order testlet response models for hierarchical latent traits and testlet-based items.EducationalandPsychologicalMeasurement,73(3),491-511.
Lord,F(xiàn).M.(1952).A theory of test scores.PsychometricMonographs,(7),84.
Rasch,G.(1960).Probabilitymodelsforsomeintelligenceandattainmenttests.Copenhagen:Paedogogiske Institute.
Reckase,M.D.(1997).The past and future of multidimensional item response theory.AppliedPsychologicalMeasurement,21(1),25-36.
Song,H.(2007).A higher-order item response model:Development and application.Unpublished doctoral dissertation.TheStateUniversityofNewJersey,95-107.
Sympson,J.B.(1978).A model for testing with multidimensional items.In D.J.Weiss(Ed.),Proceedingsofthe1977ComputerizedAdaptiveTestingConference.Minneapolis:University of Minnesota.
Yang,C.W.,Kuo,B.C.,& Liao,C.H.(2011).A HO-IRT based diagnostic assessment system with constructed response items.TheTurkishOnlineJournalofEducationalTechnology,10(4),46-51.
A New Multidimensional IRT——Higher-Order IRT Model
Pan Hao
(International Education College,Liaoning Medical University,Liaoning 121000)
Abstract:Item Response Theory(IRT)is a well known theory which can reflect the relationship between latent trait and items.However,both unidimensional IR model and multidimentional IRT model are short at reflecting ability structure precisely and appropriately.The Higher-Order IRT(H-O IRT)model is a multi-unidimensional model that uses in-test collateral information and represents it in the correlational structure of the domains through a higher-order latent trait formulation.H-O IRT model can provide both domain and the whole information,which is better fulfilling the needs of large-scale tests.
Key words:H-O IRT;Multidimensional IRT;Unidimensional IRT
中圖分類號(hào):B841.2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003-5184(2015)05-0448-04