中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080) 林岳卿 方積乾
多維IRT與單維IRT在多維量表中應(yīng)用的差異
中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080) 林岳卿 方積乾△
目的探討單維條目反應(yīng)理論與多維條目反應(yīng)理論在多維量表分析中的差異,并從中找出較優(yōu)的分析方法。方法 用單維分部評分模型(PCM)和多維分部評分模型分別對世界衛(wèi)生組織生存質(zhì)量研究小組提供的來自世界20個(gè)研究中心的WHOQOL-OLD量表數(shù)據(jù)進(jìn)行條目和量表結(jié)構(gòu)的分析。結(jié)果 “感覺能力”領(lǐng)域中的條目OLD_10“您的感覺功能的問題影響您和他人交往的能力嗎?”同時(shí)不擬合兩種模型,單維IRT得到Infit和Outfit均方擬合指數(shù)、6個(gè)維度的信度系數(shù)及潛在特質(zhì)間的相關(guān)系數(shù)均低于多維IRT。結(jié)論 多維IRT更適合于條目數(shù)較少的多維量表的分析和評價(jià)。
多維量表 條目反應(yīng)理論 多維條目反應(yīng)理論模型 生存質(zhì)量
△通訊作者:方積乾
條目反應(yīng)理論(item response theory,IRT)又譯為項(xiàng)目反應(yīng)理論。IRT的出現(xiàn)克服了經(jīng)典測量理論(classical test theory,CTT)的種種缺陷,同時(shí)建立了調(diào)查對象對條目的反應(yīng)與其潛在特質(zhì)之間的非線性關(guān)系,這種關(guān)系可用不同的概率函數(shù)模型表示,并通過這些模型估計(jì)出調(diào)查對象的特質(zhì)參數(shù)(能力參數(shù))和條目參數(shù)〔1,2〕。然而,IRT的單維性假設(shè)與許多心理測驗(yàn)或者一般的生存質(zhì)量量表在理論上是不相符的,因?yàn)槿说男睦硖刭|(zhì)是多個(gè)維度的,病人生存質(zhì)量的高低是由多個(gè)側(cè)面共同決定的,很少有研究只測量單一的潛在特質(zhì)。對于這樣的多維量表,有些研究者分維度進(jìn)行IRT分析,在維度內(nèi)維持單維性;也有些研究者認(rèn)為輕微違背單維性是可以接受的,特別是維度相關(guān)性較高的情況,于是將整個(gè)量表看作一維量表進(jìn)行分析,這樣的處理方法是否恰當(dāng)?多維的條目反應(yīng)理論是否會更優(yōu)呢?為解決這一問題,本研究分別用單維IRT和多維IRT方法對同一組數(shù)據(jù)進(jìn)行分析,比較這兩種方法的差異。
本研究的資料由世界衛(wèi)生組織生存質(zhì)量研究小組提供,由世界20個(gè)不同的研究中心于2000~2004年用世界衛(wèi)生組織生存質(zhì)量老年人量表(WHOQOLOLD)調(diào)查60歲及以上老年人收集得到的,共調(diào)查了5 566人。WHOQOL-OLD量表是在WHOQOL-100和WHOQOL-BREF的基礎(chǔ)上發(fā)展起來的一個(gè)多維量表,Power等〔3〕的研究表明此量表包括6個(gè)維度,每個(gè)維度有4個(gè)5級有序記分條目,從1到5表示健康狀態(tài)由差到好。這些維度分別為:感覺能力、自主、死亡、過去/現(xiàn)在和將來的活動、社會參與、親密。
(1)單維條目反應(yīng)理論(UIRT)〔2〕
單維IRT分析的基本步驟:
①檢驗(yàn)IRT的應(yīng)用假設(shè):單維性和局部獨(dú)立性,只有兩個(gè)假設(shè)都滿足才能更好地體現(xiàn)IRT模型的優(yōu)越性。這兩個(gè)假設(shè)可用探索性(EFA)和驗(yàn)證性因子分析(CFA)進(jìn)行檢驗(yàn),若EFA顯示第一特征值與第二特征值的比值大于3,則可認(rèn)為數(shù)據(jù)滿足單維性〔4〕。若CFA顯示條目的殘差相關(guān)系數(shù)小于0.2,則可以認(rèn)為量表的條目是滿足局部獨(dú)立性的〔5〕。
②用邊緣極大似然估計(jì)法和EM算法估計(jì)PCM模型中的特質(zhì)參數(shù)和閾值參數(shù)。
③用項(xiàng)目功能差異(DIF)分析和條目擬合統(tǒng)計(jì)分析檢驗(yàn)條目與理論模型的擬合情況。DIF分析用于判斷條目在性別、年齡組(<80與>80)、國家(歐洲國家與非歐洲國家)、健康情況(健康與非健康)等方面內(nèi)容和結(jié)構(gòu)的等價(jià)性。當(dāng)同一條目在兩個(gè)亞組中的條目閾值差異大于0.5,則可認(rèn)為該條目存在DIF〔6〕。Infit均方(MNSQ)和Outfit均方是條目擬合分析中常用的兩個(gè)擬合指標(biāo)〔7〕。假設(shè)N是觀察例數(shù),X是觀察值,E是PCM模型的參數(shù)估計(jì)理論值,σ2是模型的理論方差,則Infit=∑(X-E)2/∑(σ2),表示條目對接近調(diào)查對象能力的非理論反應(yīng)模式的敏感度,而Outfit=∑((X-E)2/σ2)/N,表示條目對遠(yuǎn)離受試者能力的非理論反應(yīng)模式的敏感度。這兩擬合指標(biāo)的理論值均為1,多數(shù)研究者認(rèn)為這兩個(gè)值介于0.7~1.3之間,則可認(rèn)為條目是擬合模型的。
④上述分析是分維度進(jìn)行的,每個(gè)維度都可以估計(jì)自己的特質(zhì)參數(shù)值和測量信度。計(jì)算6個(gè)維度潛在特質(zhì)參數(shù)估計(jì)值的相關(guān)系數(shù),分析它們之間的相關(guān)性。
(2)多維條目反應(yīng)理論(MIRT)
3.統(tǒng)計(jì)方法 分析在ConQuest 2.0軟件中進(jìn)行,單維分析中潛在特質(zhì)間的相關(guān)性用SPSS 17.0分析,探索性和驗(yàn)證性因子分析用Mplus 5.21分析,檢驗(yàn)水準(zhǔn)為0.05(雙側(cè))。
探索性因子分析顯示,6個(gè)領(lǐng)域的第一特征值與第二特征值的比均大于3,且最大的殘差相關(guān)系數(shù)為0.144,說明6個(gè)領(lǐng)域的數(shù)據(jù)都滿足單維性和局部獨(dú)立性。所有24個(gè)條目在性別、年齡組、國家、健康情況等4個(gè)方面均沒有顯示具有統(tǒng)計(jì)學(xué)意義的項(xiàng)目功能差異?!案杏X能力”領(lǐng)域中的條目OLD_10“您的感覺功能的問題影響您和他人交往的能力嗎?”顯示輕度地不擬合單維的分部評分模型(Outfit Mnsq=1.32)。其他條目的擬合指數(shù)都顯示好的擬合。6個(gè)領(lǐng)域的信度系數(shù)和潛在特質(zhì)之間的相關(guān)系數(shù)分別介于0.73~0.84之間和0.05~0.67之間,詳見表1和表2。
表1 多維和單維條目反應(yīng)理論分析的信度系數(shù)及單維信度提高到多維的信度水平需要增加的條目比例(N=5 566)
表2 多維和單維IRT分析的相關(guān)系數(shù)矩陣(N=5 566)
隨著生存質(zhì)量研究的不斷發(fā)展,早期用于教育和心理測量學(xué)領(lǐng)域的條目反應(yīng)理論受到越來越多醫(yī)學(xué)研究者的關(guān)注。它不僅可用于指導(dǎo)量表編制和條目篩選,而且可以用于量表信效度的考核,由于其理論較成熟,模型相對簡單,且有很多的參數(shù)估計(jì)軟件支持而得到廣泛的應(yīng)用。然而,根據(jù)上述分析結(jié)果,單維IRT在多維量表的分析中仍存在一些技術(shù)問題。很多研究表明生存質(zhì)量是一個(gè)多維的概念,包括身體功能、心理功能、社會功能等側(cè)面,而條目反應(yīng)理論中的單維性假設(shè)對于這樣一個(gè)多維的生存質(zhì)量研究顯然是不恰當(dāng)?shù)?。同時(shí),當(dāng)維度間的相關(guān)性較低時(shí),單維IRT方法對被試人群的特質(zhì)估計(jì)、條目的參數(shù)估計(jì)、條目選擇等方面也存在偏倚。對一個(gè)維度間具有高相關(guān)的量表,如果用單維IRT分析,研究者會錯(cuò)誤地認(rèn)為維度間只有低的或者中等程度的相關(guān)。從表2可知,單維IRT由于在分析的過程中沒有考慮測量誤差的影響而導(dǎo)致潛在特質(zhì)間的相關(guān)性偏低。同時(shí),表1也顯示單維IRT由于沒有考慮維度間的相關(guān)性,從而導(dǎo)致測量信度偏低,不利于個(gè)體的診斷。從擬合指標(biāo)上來看,有很多研究者也認(rèn)為Infit和Outfit Mnsq指數(shù)在0.6~1.4這個(gè)范圍內(nèi)也是可以接受的。對于條目OLD_10,單維IRT分析的擬合指數(shù)大于1.3,但小于1.4,若按上面的標(biāo)準(zhǔn),則尚可認(rèn)為這個(gè)條目是擬合模型的;然而多維IRT顯示的兩個(gè)擬合指數(shù)都大于1.4,表明此條目不擬合模型。從這個(gè)例子可以看出,多維IRT更容易發(fā)現(xiàn)條目的優(yōu)劣。
與單維IRT相比,多維IRT由于能同時(shí)考慮測量誤差和維度間相關(guān)的影響,不僅能提高參數(shù)估計(jì)的準(zhǔn)確性,而且能改善測量的精度(信度)。在量表的發(fā)展過程中,研究者經(jīng)常面臨這樣一個(gè)問題:既想獲得被試者更多的信息,又想得到更準(zhǔn)確的信息,即“寬度-準(zhǔn)確問題”(bandwidth-fidelity dilemma)。然而,這兩者經(jīng)常是矛盾的,條目信息涉及的范圍越廣,準(zhǔn)確性越低。多維IRT的發(fā)展成功地解決了這個(gè)問題。對于條目數(shù)較少的多維量表,尤其是每個(gè)維度條目數(shù)均很少的情況,多維IRT的使用能更好突顯它的優(yōu)越性〔9〕。目前也有很多計(jì)算機(jī)軟件支持MIRT的分析,如Con-Quest、TESTFACT、NOHARM、SAS 中的 NLM IXED、STATA中的GLLAMM等。因此,對于多維量表的分析,無論是從理論上還是技術(shù)上,都需要把單維的IRT拓展為多維的IRT,多維IRT更適合多維量表的分析和評價(jià)。
(致謝:衷心感謝世界衛(wèi)生組織生存質(zhì)量研究小組為本次研究提供數(shù)據(jù)。)
1.韓耀風(fēng),郝元濤,方積乾.項(xiàng)目反應(yīng)理論及其在生存質(zhì)量研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2006,23(6):562-565.
2.Embretson SE,Reise SP.Item response theory for psychologists.Mahwah,NJ:Law rence Erlbaum Associates,2000,3-12.
3.Power M,Quinn K,Schmidt S,WHOQOL-OLD Group.Development of the WHOQOL-Old module.Qual Life Res,2005,14(10):2197-2214.
4.Slocum SL.Assessing unidimensionality of psychological scales:using individual and integrative criteria from factor analysis.2005.
5.Reeves BB,Hays RD,Bjorner JB,et al.Psychometric evaluation and calibration of health-related Quality of Life item banks:Plans for the Patient-Reported Outcomes Measurement Information systems(PROM IS).Med Care,2007,45(Supp l 1):22-31.
6.Lai JS,Cella D,Chang CH,et al.Item banking to improve,shorten and computerize self-reported fatigue:an illustration of steps to create a core item bank from the FACIT-Fatigue Scale.Qual Life Res,2003,12(5):485-501.
7.Prieto L,Alonso J,Lamarca R.Classical test theory versus rasch analysis for quality of life questionnaire reduction.Health Qual Life Outcomes,2003,1(27):1-13.
8.康春花,辛濤.測驗(yàn)理論的新發(fā)展:多維項(xiàng)目反應(yīng)理論.心理科學(xué)進(jìn)展,2010,18(3):530-536.
9.Wang WC,Yao G,Tsai YJ,et al.validating,improving reliability,and estimating correlation of the four subscales in the WHOQOL-BREF using multidimensional Rasch analysis.Qual Life Res,2006,15(4):607-620.
10.Cheng YY,Wang WC,Ho YH.Multidimensional rasch analysis of a psychological test with multiple subtests:a statistical solution for the bandwidth_fidelity dilemma.Educ Psychol Meas,2009,69(3):369-388.
11.Adams RJ,Wilson M,Wang WC.The multidimensional random coefficients multinomial logit model.J Appl Meas,1997,21(1):1-23.
The Difference between Unidimensional IRT and Multidimensional IRT in the Application of Multidimensional Scale
LinYueqing,F(xiàn)angJiqian.DepartmentofMedicalStatisticsandEpidemiology,SchoolofPublicHealth,SunYat-SenUniversity(510080),Guangzhou
ObjectiveTo explore the difference between unidimensional IRT and multidimensional IRT in the application of scale which includes several subscales and find out the better method.MethodsThe data of WHOQOL-OLD came from the field study of 20 national study centers of WHOQOL Group which was conducted.The Unidimensional Partial Credit Model and Multidimensional Partial Credit Model were used to analyze the property of items and construct of scale.ResultsI-tem OLD_10(Problems with sensory functioning affect ability to interact)in the“Sensory Abilities”domain showed poorer fit to two models.And the In fit and Outfit Mnsq,reliability coefficients and correlation coefficients of latent ability of six domains from unidimensional IRT analysis all were lower than that of multidimensional IRT analysis.ConclusionMultidimensional IRT is more appropriate than unidimensional IRT for the analysis and evaluation of multidimensional and short scale.
Multidimensional scale;Item response theory;Multidimensional item response theory model;Quality of life