IRT框架下的缺失過(guò)程建模及其Bayes估計(jì)方法

2015-02-18 05:00:10付志慧李曉毅彭毳鑫

統(tǒng)計(jì)與決策 2015年14期

付志慧，李斌，李曉毅，彭毳鑫

（1.沈陽(yáng)師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院，沈陽(yáng) 110034；2.吉林師范大學(xué) 外語(yǔ)部，吉林四平 136000）

0 引言

另外，在似然基本結(jié)構(gòu)中，參數(shù)ζ和θ需是已知的。如果缺失數(shù)據(jù)是隨機(jī)缺失（MAR）且是確定的，那么缺失數(shù)據(jù)就是可以被忽略的。所以在似然基本推斷中，如果缺失數(shù)據(jù)是MAR，那么缺失數(shù)據(jù)機(jī)制或過(guò)程是可忽略的。這意味著，在分析過(guò)程中我們可以不用考慮ζ還能夠保證我們得估計(jì)結(jié)果是不變的。而B(niǎo)ayesian過(guò)程中，在缺失數(shù)據(jù)是MAR且θ與ζ的先驗(yàn)是獨(dú)立的條件下，缺失數(shù)據(jù)機(jī)制是可忽略的。

在教育測(cè)量中，有時(shí)候不反應(yīng)項(xiàng)目是不可忽略的。例如，有時(shí)間限制的測(cè)試中，能力低的測(cè)試者不能答到最后，缺失數(shù)據(jù)的模式與被測(cè)試者的能力有關(guān)，因此缺失數(shù)據(jù)是不可忽略的。

處理缺失數(shù)據(jù)有四種方法[2,3]。

第一種，在做統(tǒng)計(jì)分析前先刪除缺失數(shù)據(jù)，這種刪除數(shù)據(jù)的方法偶爾是合適的，但這種方法存在它的弊端，這種嘗試會(huì)導(dǎo)致減少樣本的大小使估計(jì)是無(wú)效的，如果缺失數(shù)據(jù)是系統(tǒng)的或者與我們的結(jié)果相關(guān)聯(lián)，刪除數(shù)據(jù)會(huì)使估計(jì)是有偏的[4]；

第二種，填補(bǔ)法。簡(jiǎn)單填補(bǔ)和多重填補(bǔ)。簡(jiǎn)單填補(bǔ)是指對(duì)于每一個(gè)缺失數(shù)據(jù)給一個(gè)替代值，再按照完全數(shù)據(jù)來(lái)處理；多重填補(bǔ)法是指以一系列隨機(jī)值來(lái)替代缺失值，來(lái)保證缺失數(shù)據(jù)的隨機(jī)性[5,6]。

第三種，忽略缺失數(shù)據(jù)，利用所有合適的可觀(guān)測(cè)數(shù)據(jù)進(jìn)行估計(jì)，這種方法存在的問(wèn)題是對(duì)軟件要求很高，需要能夠處理很復(fù)雜的計(jì)算問(wèn)題[7]；

第四種，明確地模擬引起缺失數(shù)據(jù)的機(jī)制，將觀(guān)測(cè)數(shù)據(jù)擬合模型和附加模型合并[8-10]。

本文采用第四種方法，引入缺失模型。用一個(gè)二值項(xiàng)目反應(yīng)模型來(lái)擬合缺失機(jī)制[11,12](Moustakiand Knott,2000；Holman and Glas,2005）,目的是處理項(xiàng)目反應(yīng)理論中不可忽略的缺失數(shù)據(jù)參數(shù)估計(jì)問(wèn)題。分別采用2PLM模型和Rasch模型來(lái)擬合觀(guān)測(cè)數(shù)據(jù)和缺失指標(biāo)。通過(guò)MCMC中的Gibbs抽樣方法，對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充，將較為復(fù)雜的后驗(yàn)密度轉(zhuǎn)化成滿(mǎn)條件分布，在此基礎(chǔ)上，給出參數(shù)的Bayes后驗(yàn)估計(jì)。

培育現(xiàn)代竹產(chǎn)業(yè)園區(qū)。對(duì)符合條件的竹產(chǎn)業(yè)園區(qū)進(jìn)行培育，并納入到省級(jí)現(xiàn)代農(nóng)業(yè)(林業(yè))示范園區(qū)中，擇優(yōu)推薦申報(bào)國(guó)家林業(yè)產(chǎn)業(yè)示范園區(qū)。2015年四川創(chuàng)建的青神竹文化創(chuàng)意產(chǎn)業(yè)園成為四川省首個(gè)成功創(chuàng)建全國(guó)版權(quán)示范園區(qū)(基地)的縣(區(qū))域。

1 缺失過(guò)程建模

設(shè)X為二維數(shù)據(jù)陣，矩陣元素Xik表示被試i對(duì)項(xiàng)目k的反應(yīng)變量；定義與反應(yīng)陣相同的指示陣D，當(dāng)Xik有觀(guān)測(cè)時(shí)，其元素dik=1；當(dāng) Xik缺失時(shí)，dik=0，其中i=1，…，N，k=1，…，K 。觀(guān) 測(cè) 數(shù) 據(jù) 的測(cè) 量模型為p(xik|dik，θi，αk，βk)，是觀(guān)測(cè)變量關(guān)于缺失數(shù)據(jù)指示變量指標(biāo)、潛變量θ和項(xiàng)目參數(shù)的條件概率。當(dāng)數(shù)據(jù)缺失時(shí)，Xik的條件分布為退化分布，p(Xik=xik|dik=0，θi，αk，βk)=1；當(dāng)dik=1時(shí)，采用2PLM對(duì)其建模，被試i對(duì)項(xiàng)目k的正確反應(yīng)概率為：

其中ζi為缺失過(guò)程的潛在變量，δk為缺失過(guò)程的難度參數(shù)。

在MAR模型中，似然函數(shù)為：

其中，g(·)是 ζi和 θi的密度函數(shù)，來(lái)自于一個(gè)多元正態(tài)分布，均值為0，斜方差陣為Σ。

我們采用Bayesian對(duì)（3）和（4）進(jìn)行參數(shù)估計(jì)。Beguin（2001）和Glas(2005)給出了模型識(shí)別的方法，從他們的結(jié)論可知，通過(guò)基底變換，可以使觀(guān)測(cè)數(shù)據(jù)模型和缺失數(shù)據(jù)指示模型依賴(lài)于相同的兩個(gè)潛在變量。因此，在這個(gè)模型框架下，這兩個(gè)潛在變量是函數(shù)相依的。

2 不可忽略IRT模型的MCMC估計(jì)方法

MCMC方法的基本思想是通過(guò)建立一個(gè)平穩(wěn)分布為π(x)的Markov鏈來(lái)得到π(x)的樣本，基于這些樣本就可以做統(tǒng)計(jì)推斷。最簡(jiǎn)單、應(yīng)用最廣泛的MCMC方法就是Gibbs抽樣。本文利用Gibbs方法來(lái)建立馬氏鏈。在Gibbs抽樣的構(gòu)造之初，先將參數(shù)分成幾個(gè)分量，依次給定其他分量，對(duì)每一個(gè)分量關(guān)于滿(mǎn)條件分布抽樣。

令 λ=(θ，ζ，α，β，δ，μ，Σ)為模型中所有未知參數(shù)分量的集合，λ的后驗(yàn)分布為

引入潛在變量Uik和Vik，對(duì)應(yīng)于第i個(gè)被試在第k個(gè)項(xiàng)目上的反應(yīng)變量Xik和缺失數(shù)據(jù)指示變量dik，潛在變量服從均勻分布U(0，1)，Xik與Uik之間滿(mǎn)足如下關(guān)系：

Xik=1當(dāng)且僅當(dāng)Uik≤Φik

第三步：抽取η。

通過(guò)以上五步，我們完成了所有參數(shù)滿(mǎn)條件分布的抽取。利用Gibbs抽樣的優(yōu)勢(shì)，除去參數(shù)u，Σ外的所有參數(shù)的滿(mǎn)條件分布都是相應(yīng)先驗(yàn)的截尾分布。給定參數(shù)初值，進(jìn)行迭代，從上述分布中抽取樣本U，V，β，δ，η，α，μ，Σ。但要注意的是，所有的抽樣分布都是以缺失數(shù)據(jù)指示陣D為條件的(詳細(xì)程序由MATLAB編寫(xiě))。

3 模擬研究

利用生成的數(shù)據(jù)，對(duì)隨機(jī)缺失模型和非隨機(jī)缺失模型進(jìn)行項(xiàng)目參數(shù)的Bayes估計(jì)，利用Geman-Rubin方法進(jìn)行收斂性診斷。進(jìn)行如下操作：調(diào)試期n0=4000，迭代次數(shù)為20000次，重復(fù)進(jìn)行模擬實(shí)驗(yàn)20次。比較實(shí)驗(yàn)結(jié)果υ^(r)，r=1，…，20和參數(shù)真值，兩者之間差異越小說(shuō)明估計(jì)方法越有效。選取統(tǒng)計(jì)量偏差，表達(dá)式為：

圖1 Bias(β′)（細(xì)線(xiàn)）及Bias(β )（粗線(xiàn)）在不同 ρ下取值的比較

4 結(jié)論

近年來(lái)，缺失數(shù)據(jù)的處理方法很受統(tǒng)計(jì)學(xué)家的重視，相關(guān)文獻(xiàn)很多。在IRT框架下，大部分研究主要還是處理可忽略缺失數(shù)據(jù)，對(duì)于不可忽略缺失問(wèn)題，Holman&Glas提出采用邊際最大似然法給出估計(jì)，然而該方法要受積分維數(shù)的限制。本文針對(duì)二參數(shù)Logistic模型，通過(guò)對(duì)缺失指標(biāo)進(jìn)行建模，采用一種簡(jiǎn)單靈活的Gibbs抽樣方法給出了模型參數(shù)的Bayesian估計(jì)。通過(guò)模擬易見(jiàn)，對(duì)于不可忽略缺失數(shù)據(jù)，如果將其忽略掉(采用MAR(3)模型估計(jì)),會(huì)給項(xiàng)目參數(shù)估計(jì)帶來(lái)很大偏差，而且觀(guān)測(cè)數(shù)據(jù)模型中的潛變量和缺失指標(biāo)模型中的潛變量之間的相關(guān)度越高，偏差越大；進(jìn)一步地，模擬表明采用NONMAR(4)估計(jì)，偏差大大減少。另外，該方法還可以推廣到含有協(xié)變量的缺失模型及多層反應(yīng)模型中。

[1]Beguia A A,Glas C A W.MCMC Estimation and Some Model-Fit Analysis of Multidimensional IRT Models[Z].Psychometrika,2001,(66).

[2]Little R J A,Rubin D B.Statistical Analysis With Missing Data.2nd ed.(Sun,S Z,Trans.)[Z].New York:John Wiley&Sons,2004.

[3]Rubin D B.Inference and Missing Data[C].Biometrika,1976,(63).

[4]Karkee T,Finkelman M.(April).Missing Data Treatment Methods in Parameter Recovery for A Mixed-Format Test[J].Paper Presented at The Annual Meeting of The American Educational Research Association,Chicago,2007.

[5]Gelman A,Rubin D B.Inference From Iterative Simulation Using Multiple Sequences(With Discussion)[J].Statistical Science,1992,(7).

[6]Huisman M.Imputation of Missing Item Responses:Some Simple Techniques[J].Quality and Quantity,2000,(34).

[7]Muraki E,Bock R D.IRT Based Test Scoring and Item Analysis For Graded Open-Ended Exercises and Performance Tasks[J].Chicago:Scienti-C Software Int,1993.

[8]Moustaki I,Knott M.Weighting for Item Non-Response in Attitude Scales By Using Latent Variable Models With Covariates[J].Journal of The Royal Statistical Society,2000,(163).

[9]汪金暉,張淑梅,辛濤.缺失數(shù)據(jù)下等級(jí)反應(yīng)模型參數(shù)MCMC估計(jì)[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版)，2011,47(3).

[10]曾莉,辛濤,張淑梅.2PL模型的兩種馬爾科夫蒙特卡洛缺失數(shù)據(jù)處理方法比較[J].心理學(xué)報(bào)，2009,(41).

[11]Holman R,Glas C A W.Modeling Non-Ignorable Missing-Data Mechanism With Item Response Theory Models[J].British Journal of Mathematical and Statistical Psychology,2005,（58）.

[12]付志慧.多維項(xiàng)目反應(yīng)模型的參數(shù)估計(jì)[D].吉林大學(xué),2010.