付志慧,李 斌,李曉毅,彭毳鑫
(1.沈陽(yáng)師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,沈陽(yáng) 110034;2.吉林師范大學(xué) 外語(yǔ)部,吉林 四平 136000)
另外,在似然基本結(jié)構(gòu)中,參數(shù)ζ和θ需是已知的。如果缺失數(shù)據(jù)是隨機(jī)缺失(MAR)且是確定的,那么缺失數(shù)據(jù)就是可以被忽略的。所以在似然基本推斷中,如果缺失數(shù)據(jù)是MAR,那么缺失數(shù)據(jù)機(jī)制或過(guò)程是可忽略的。這意味著,在分析過(guò)程中我們可以不用考慮ζ還能夠保證我們得估計(jì)結(jié)果是不變的。而B(niǎo)ayesian過(guò)程中,在缺失數(shù)據(jù)是MAR且θ與ζ的先驗(yàn)是獨(dú)立的條件下,缺失數(shù)據(jù)機(jī)制是可忽略的。
在教育測(cè)量中,有時(shí)候不反應(yīng)項(xiàng)目是不可忽略的。例如,有時(shí)間限制的測(cè)試中,能力低的測(cè)試者不能答到最后,缺失數(shù)據(jù)的模式與被測(cè)試者的能力有關(guān),因此缺失數(shù)據(jù)是不可忽略的。
處理缺失數(shù)據(jù)有四種方法[2,3]。
第一種,在做統(tǒng)計(jì)分析前先刪除缺失數(shù)據(jù),這種刪除數(shù)據(jù)的方法偶爾是合適的,但這種方法存在它的弊端,這種嘗試會(huì)導(dǎo)致減少樣本的大小使估計(jì)是無(wú)效的,如果缺失數(shù)據(jù)是系統(tǒng)的或者與我們的結(jié)果相關(guān)聯(lián),刪除數(shù)據(jù)會(huì)使估計(jì)是有偏的[4];
第二種,填補(bǔ)法。簡(jiǎn)單填補(bǔ)和多重填補(bǔ)。簡(jiǎn)單填補(bǔ)是指對(duì)于每一個(gè)缺失數(shù)據(jù)給一個(gè)替代值,再按照完全數(shù)據(jù)來(lái)處理;多重填補(bǔ)法是指以一系列隨機(jī)值來(lái)替代缺失值,來(lái)保證缺失數(shù)據(jù)的隨機(jī)性[5,6]。
第三種,忽略缺失數(shù)據(jù),利用所有合適的可觀(guān)測(cè)數(shù)據(jù)進(jìn)行估計(jì),這種方法存在的問(wèn)題是對(duì)軟件要求很高,需要能夠處理很復(fù)雜的計(jì)算問(wèn)題[7];
第四種,明確地模擬引起缺失數(shù)據(jù)的機(jī)制,將觀(guān)測(cè)數(shù)據(jù)擬合模型和附加模型合并[8-10]。
本文采用第四種方法,引入缺失模型。用一個(gè)二值項(xiàng)目反應(yīng)模型來(lái)擬合缺失機(jī)制[11,12](Moustakiand Knott,2000;Holman and Glas,2005),目的是處理項(xiàng)目反應(yīng)理論中不可忽略的缺失數(shù)據(jù)參數(shù)估計(jì)問(wèn)題。分別采用2PLM模型和Rasch模型來(lái)擬合觀(guān)測(cè)數(shù)據(jù)和缺失指標(biāo)。通過(guò)MCMC中的Gibbs抽樣方法,對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,將較為復(fù)雜的后驗(yàn)密度轉(zhuǎn)化成滿(mǎn)條件分布,在此基礎(chǔ)上,給出參數(shù)的Bayes后驗(yàn)估計(jì)。
培育現(xiàn)代竹產(chǎn)業(yè)園區(qū)。對(duì)符合條件的竹產(chǎn)業(yè)園區(qū)進(jìn)行培育,并納入到省級(jí)現(xiàn)代農(nóng)業(yè)(林業(yè))示范園區(qū)中,擇優(yōu)推薦申報(bào)國(guó)家林業(yè)產(chǎn)業(yè)示范園區(qū)。2015年四川創(chuàng)建的青神竹文化創(chuàng)意產(chǎn)業(yè)園成為四川省首個(gè)成功創(chuàng)建全國(guó)版權(quán)示范園區(qū)(基地)的縣(區(qū))域。
設(shè)X為二維數(shù)據(jù)陣,矩陣元素Xik表示被試i對(duì)項(xiàng)目k的反應(yīng)變量;定義與反應(yīng)陣相同的指示陣D,當(dāng)Xik有觀(guān)測(cè)時(shí),其元素dik=1;當(dāng) Xik缺失時(shí),dik=0,其中i=1,…,N,k=1,…,K 。 觀(guān) 測(cè) 數(shù) 據(jù) 的 測(cè) 量 模 型 為p(xik|dik,θi,αk,βk),是觀(guān)測(cè)變量關(guān)于缺失數(shù)據(jù)指示變量指標(biāo)、潛變量θ和項(xiàng)目參數(shù)的條件概率。當(dāng)數(shù)據(jù)缺失時(shí),Xik的條件分布為退化分布,p(Xik=xik|dik=0,θi,αk,βk)=1;當(dāng)dik=1時(shí),采用2PLM對(duì)其建模,被試i對(duì)項(xiàng)目k的正確反應(yīng)概率為:
其中ζi為缺失過(guò)程的潛在變量,δk為缺失過(guò)程的難度參數(shù)。
在MAR模型中,似然函數(shù)為:
其中,g(·)是 ζi和 θi的密度函數(shù),來(lái)自于一個(gè)多元正態(tài)分布,均值為0,斜方差陣為Σ。
我們采用Bayesian對(duì)(3)和(4)進(jìn)行參數(shù)估計(jì)。Beguin(2001)和Glas(2005)給出了模型識(shí)別的方法,從他們的結(jié)論可知,通過(guò)基底變換,可以使觀(guān)測(cè)數(shù)據(jù)模型和缺失數(shù)據(jù)指示模型依賴(lài)于相同的兩個(gè)潛在變量。因此,在這個(gè)模型框架下,這兩個(gè)潛在變量是函數(shù)相依的。
MCMC方法的基本思想是通過(guò)建立一個(gè)平穩(wěn)分布為π(x)的Markov鏈來(lái)得到π(x)的樣本,基于這些樣本就可以做統(tǒng)計(jì)推斷。最簡(jiǎn)單、應(yīng)用最廣泛的MCMC方法就是Gibbs抽樣。本文利用Gibbs方法來(lái)建立馬氏鏈。在Gibbs抽樣的構(gòu)造之初,先將參數(shù)分成幾個(gè)分量,依次給定其他分量,對(duì)每一個(gè)分量關(guān)于滿(mǎn)條件分布抽樣。
令 λ=(θ,ζ,α,β,δ,μ,Σ)為模型中所有未知參數(shù)分量的集合,λ的后驗(yàn)分布為
引入潛在變量Uik和Vik,對(duì)應(yīng)于第i個(gè)被試在第k個(gè)項(xiàng)目上的反應(yīng)變量Xik和缺失數(shù)據(jù)指示變量dik,潛在變量服從均勻分布U(0,1),Xik與Uik之間滿(mǎn)足如下關(guān)系:
Xik=1當(dāng)且僅當(dāng)Uik≤Φik
第三步:抽取η。
通過(guò)以上五步,我們完成了所有參數(shù)滿(mǎn)條件分布的抽取。利用Gibbs抽樣的優(yōu)勢(shì),除去參數(shù)u,Σ外的所有參數(shù)的滿(mǎn)條件分布都是相應(yīng)先驗(yàn)的截尾分布。給定參數(shù)初值,進(jìn)行迭代,從上述分布中抽取樣本U,V,β,δ,η,α,μ,Σ。但要注意的是,所有的抽樣分布都是以缺失數(shù)據(jù)指示陣D為條件的(詳細(xì)程序由MATLAB編寫(xiě))。
利用生成的數(shù)據(jù),對(duì)隨機(jī)缺失模型和非隨機(jī)缺失模型進(jìn)行項(xiàng)目參數(shù)的Bayes估計(jì),利用Geman-Rubin方法進(jìn)行收斂性診斷。進(jìn)行如下操作:調(diào)試期n0=4000,迭代次數(shù)為20000次,重復(fù)進(jìn)行模擬實(shí)驗(yàn)20次。比較實(shí)驗(yàn)結(jié)果υ^(r),r=1,…,20和參數(shù)真值,兩者之間差異越小說(shuō)明估計(jì)方法越有效。選取統(tǒng)計(jì)量偏差,表達(dá)式為:
圖1 Bias(β′)(細(xì)線(xiàn))及Bias(β )(粗線(xiàn))在不同 ρ下取值的比較
近年來(lái),缺失數(shù)據(jù)的處理方法很受統(tǒng)計(jì)學(xué)家的重視,相關(guān)文獻(xiàn)很多。在IRT框架下,大部分研究主要還是處理可忽略缺失數(shù)據(jù),對(duì)于不可忽略缺失問(wèn)題,Holman&Glas提出采用邊際最大似然法給出估計(jì),然而該方法要受積分維數(shù)的限制。本文針對(duì)二參數(shù)Logistic模型,通過(guò)對(duì)缺失指標(biāo)進(jìn)行建模,采用一種簡(jiǎn)單靈活的Gibbs抽樣方法給出了模型參數(shù)的Bayesian估計(jì)。通過(guò)模擬易見(jiàn),對(duì)于不可忽略缺失數(shù)據(jù),如果將其忽略掉(采用MAR(3)模型估計(jì)),會(huì)給項(xiàng)目參數(shù)估計(jì)帶來(lái)很大偏差,而且觀(guān)測(cè)數(shù)據(jù)模型中的潛變量和缺失指標(biāo)模型中的潛變量之間的相關(guān)度越高,偏差越大;進(jìn)一步地,模擬表明采用NONMAR(4)估計(jì),偏差大大減少。另外,該方法還可以推廣到含有協(xié)變量的缺失模型及多層反應(yīng)模型中。
[1]Beguia A A,Glas C A W.MCMC Estimation and Some Model-Fit Analysis of Multidimensional IRT Models[Z].Psychometrika,2001,(66).
[2]Little R J A,Rubin D B.Statistical Analysis With Missing Data.2nd ed.(Sun,S Z,Trans.)[Z].New York:John Wiley&Sons,2004.
[3]Rubin D B.Inference and Missing Data[C].Biometrika,1976,(63).
[4]Karkee T,Finkelman M.(April).Missing Data Treatment Methods in Parameter Recovery for A Mixed-Format Test[J].Paper Presented at The Annual Meeting of The American Educational Research Association,Chicago,2007.
[5]Gelman A,Rubin D B.Inference From Iterative Simulation Using Multiple Sequences(With Discussion)[J].Statistical Science,1992,(7).
[6]Huisman M.Imputation of Missing Item Responses:Some Simple Techniques[J].Quality and Quantity,2000,(34).
[7]Muraki E,Bock R D.IRT Based Test Scoring and Item Analysis For Graded Open-Ended Exercises and Performance Tasks[J].Chicago:Scienti-C Software Int,1993.
[8]Moustaki I,Knott M.Weighting for Item Non-Response in Attitude Scales By Using Latent Variable Models With Covariates[J].Journal of The Royal Statistical Society,2000,(163).
[9]汪金暉,張淑梅,辛濤.缺失數(shù)據(jù)下等級(jí)反應(yīng)模型參數(shù)MCMC估計(jì)[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,47(3).
[10]曾莉,辛濤,張淑梅.2PL模型的兩種馬爾科夫蒙特卡洛缺失數(shù)據(jù)處理方法比較[J].心理學(xué)報(bào),2009,(41).
[11]Holman R,Glas C A W.Modeling Non-Ignorable Missing-Data Mechanism With Item Response Theory Models[J].British Journal of Mathematical and Statistical Psychology,2005,(58).
[12]付志慧.多維項(xiàng)目反應(yīng)模型的參數(shù)估計(jì)[D].吉林大學(xué),2010.