林岳卿 張偉濤 方積乾
1.廣東省工傷康復(fù)中心,廣東廣州510440;2.中山大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系,廣東廣州510275
項(xiàng)目反應(yīng)理論在醫(yī)學(xué)量表?xiàng)l目篩選中的應(yīng)用
林岳卿1張偉濤1方積乾2
1.廣東省工傷康復(fù)中心,廣東廣州510440;2.中山大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系,廣東廣州510275
本文著重介紹項(xiàng)目反應(yīng)理論(IRT)的基本特征及其在醫(yī)學(xué)量表編制和修訂中的具體應(yīng)用。IRT具有項(xiàng)目參數(shù)不變性,可以為條目和量表提供信息量及不同潛在能力對(duì)應(yīng)的測(cè)量信度。因此,IRT主要從項(xiàng)目參數(shù)、項(xiàng)目特征曲線、個(gè)體-條目圖、條目對(duì)模型的擬合情況、條目信息量、條目在不同群體上的項(xiàng)目功能差異等方面判斷條目的優(yōu)劣。
生存質(zhì)量;條目篩選;項(xiàng)目反應(yīng)理論
條目篩選是量表編制及簡(jiǎn)化工作中不可缺少的部分,選擇好的篩選方法、恰當(dāng)?shù)脑u(píng)價(jià)指標(biāo)及篩選好的條目是保證最終量表具有較好的信度和效度的重要過程。目前條目篩選的方法主要包括經(jīng)典測(cè)量方法(CTT)和項(xiàng)目反應(yīng)理論(item response theory,IRT)方法。CTT,比如相關(guān)系數(shù)法、因子分析法、克朗巴赫系數(shù)法、重測(cè)信度法等[1-2],因其理論較成熟,數(shù)學(xué)模型簡(jiǎn)單,在國(guó)內(nèi)得到廣泛的應(yīng)用。然而它在理論假設(shè)和實(shí)際應(yīng)用方面也存在許多不足,如潛變量與觀測(cè)變量之間通常不是線性關(guān)系,項(xiàng)目參數(shù)嚴(yán)重依賴于被試樣本,只提供平均測(cè)量信度等。IRT的發(fā)展克服了上述缺陷[3]。與CTT相比,IRT具有下列優(yōu)點(diǎn):①被試者的能力估計(jì)不依賴于量表?xiàng)l目;②項(xiàng)目參數(shù)(區(qū)分度和難度)估計(jì)不依賴于被試樣本;③用信息函數(shù)的概念代替了CTT的信度理論,可以提供條目信息量及不同能力水平對(duì)應(yīng)的測(cè)量信度。IRT是20世紀(jì)50年代發(fā)展起來的一種心理與教育測(cè)量理論,主要用于試題、量表?xiàng)l目的篩選和評(píng)價(jià),在西方國(guó)家發(fā)展很快,但在國(guó)內(nèi)用于醫(yī)學(xué)研究的很少,因此,本文介紹IRT的基本特征及其在醫(yī)學(xué)量表的項(xiàng)目分析中的應(yīng)用。
IRT是一系列心理統(tǒng)計(jì)學(xué)模型的總稱。美國(guó)心理測(cè)量學(xué)家Lord于1952年提出著名的累積正態(tài)模型(normal ogive model)標(biāo)志著IRT的正式誕生。IRT對(duì)所測(cè)量的項(xiàng)目可以找到一條項(xiàng)目特征曲線(ICC),通過被試者對(duì)項(xiàng)目的反應(yīng)與其潛在特質(zhì)之間的關(guān)系用一單調(diào)遞增的項(xiàng)目反應(yīng)函數(shù)來估計(jì)被試者的能力水平。ICC是IRT的基礎(chǔ),兩個(gè)常用的參數(shù)(區(qū)分度和難度)決定了它的形狀,常為一條“S”型曲線,見圖1。難度參數(shù)(b,也稱閾值參數(shù))是指被試者按給定方向選擇某個(gè)選項(xiàng)的概率為50%所對(duì)應(yīng)的潛在能力點(diǎn);難度參數(shù)越大,被試者選擇這個(gè)選項(xiàng)需要的能力就越大。區(qū)分度參數(shù)(a)是指難度參數(shù)對(duì)應(yīng)的ICC曲線拐點(diǎn)的斜率。區(qū)分度參數(shù)越大,表示條目對(duì)不同潛在特質(zhì)水平的人群有越高的區(qū)分能力。二參數(shù)模型還可以估計(jì)偽機(jī)遇參數(shù)(c),在考試中,c的估計(jì)可以提高能力估計(jì)的精度,但在健康研究中,估計(jì)c的意義不大,反而增加了參數(shù)估計(jì)的復(fù)雜性。對(duì)于多級(jí)記分模型,不同模型的難度參數(shù)概念略有不同,它們的原理都是將k個(gè)選項(xiàng)的條目分成(k-1)個(gè)二分類條目,故有(k-1)個(gè)閾值參數(shù)。在ICC的基礎(chǔ)上,IRT還可以產(chǎn)生類別反應(yīng)曲線(CRCs),它表示每個(gè)反應(yīng)選項(xiàng)在特定能力水平下被選擇的概率,因此,每個(gè)選項(xiàng)都有一條相應(yīng)的類別反應(yīng)曲線,如圖2為一個(gè)5分類條目的CRCs,若條目基于分部評(píng)分模型,則相鄰兩個(gè)類別反應(yīng)曲線的交點(diǎn)可作為這個(gè)條目的閾值參數(shù)。
圖1 項(xiàng)目反應(yīng)曲線
IRT的另一個(gè)重要特征就是信息函數(shù),它是潛在能力θ的一個(gè)連續(xù)函數(shù)。對(duì)具有同一能力θ的一組被試,其能力估計(jì)值的標(biāo)準(zhǔn)誤差越小,估計(jì)值對(duì)真實(shí)值提供的信息量就越大,當(dāng)用極大似然法估計(jì)θ時(shí),估計(jì)量隨樣本量的增大而漸近正態(tài)分布,則測(cè)驗(yàn)信息函數(shù)可以定義為能力估計(jì)值的方差的倒數(shù),即I(θ)=1/ var(θ)或者SE(θ)=1/I(θ)。測(cè)驗(yàn)信息與測(cè)量誤差是一一對(duì)應(yīng)的,信息量越大,測(cè)量精度越高,信息量最大值所對(duì)應(yīng)的能力水平代表該條目所能最精確測(cè)量到的能力參數(shù)估計(jì)值。若記項(xiàng)目信息函數(shù)為Ii(θ),n個(gè)條目的信息累加,則可產(chǎn)生測(cè)驗(yàn)信息函數(shù),其數(shù)學(xué)表達(dá)式為可見,每個(gè)條目可以單獨(dú)對(duì)量表總信息作貢獻(xiàn),貢獻(xiàn)量大小不受量表其它條目的影響,因此可以為增加或者刪除條目提供依據(jù)。
圖2 類別反應(yīng)曲線
2.1 IRT模型的選擇
IRT模型是建立在強(qiáng)假設(shè)的基礎(chǔ)上,若假設(shè)不成立,則可能導(dǎo)致得到的結(jié)果不能很好地解釋數(shù)據(jù)信息。因此,選擇適當(dāng)?shù)哪P褪呛苤匾?。IRT有單維、多維的參數(shù)模型及非參數(shù)模型等多種模型,由于后兩種模型較復(fù)雜且應(yīng)用少,本文主要介紹單維的參數(shù)模型[3-4]。選擇模型時(shí),需要考慮條目的選項(xiàng)個(gè)數(shù)、模型參數(shù)及參數(shù)是否受到限制等問題,表1總結(jié)了8種模型的主要特征。
表1 8種模型的基本特征
目前IRT的參數(shù)估計(jì)方法很多,大多數(shù)方法是以極大似然估計(jì)法和Bayes估計(jì)法為基礎(chǔ),其中極大似然估計(jì)法的應(yīng)用最廣泛。目前對(duì)于PCM、GPCM、GRM等模型的選擇沒有明確的標(biāo)準(zhǔn),主要根據(jù)個(gè)人的偏好或者對(duì)軟件的熟悉程度選擇其中一個(gè)模型。比如Rumm、Parscale、Winsteps等軟件可用于PCM的估計(jì),而Multilog軟件多用于GRM的估計(jì)。
2.2 評(píng)價(jià)IRT模型的擬合情況
2.2.1 考察模型假設(shè)IRT的應(yīng)用有兩個(gè)基本的假設(shè)[3]:?jiǎn)尉S性和局部獨(dú)立性。前提假設(shè)滿足的程度越高,越能體現(xiàn)IRT模型應(yīng)用的有效性。①單維性是指量表或者子量表中的每個(gè)條目測(cè)量的都是同一種潛在特質(zhì),如躁狂人格量表主要測(cè)量患者的躁狂水平。實(shí)際上任何量表都不可能是嚴(yán)格單維性,而是指在被試者反應(yīng)的所有因子中僅有一個(gè)因子占主導(dǎo)地位,且是感興趣的因子。目前檢驗(yàn)的方法主要有4種:探索性因子分析,是最常用的一種方法[5];證實(shí)性因子分析;殘差主成分分析[6];平行分析。這些方法可以單獨(dú)使用,也可以聯(lián)合使用。②局部獨(dú)立性是指具有同一能力水平的被試者對(duì)量表中的每個(gè)條目的反應(yīng)都只受其能力的影響,而獨(dú)立于其他條目的反應(yīng)。目前檢驗(yàn)的方法主要有χ2檢驗(yàn)和殘差相關(guān)分析[7]。實(shí)際上,局部獨(dú)立性與單維性是相關(guān)聯(lián)的,只有基于單一潛在特質(zhì)變量的項(xiàng)目反應(yīng)是局部獨(dú)立的,這個(gè)數(shù)據(jù)才是單維的[3]。③若條目在不同群體(如性別)中表現(xiàn)的特性不同,則單維性假設(shè)也可能不滿足。因此還需要檢測(cè)條目的項(xiàng)目功能差異(DIF),以保證條目?jī)?nèi)容在不同群體中的等價(jià)性。在生存質(zhì)量研究中,DIF是指具有不同的文化背景和生活經(jīng)歷但具有相同生存質(zhì)量(能力)的不同群體(比如性別)對(duì)同一條目的理解和反應(yīng)不同[8]。DIF分析在教育、心理測(cè)量和生存質(zhì)量研究中已得到廣泛的應(yīng)用。目前分析DIF的方法很多,如STAND、SIBTEST、Mantel-Haenszel、Logistic回歸、基于IRT的方法(MIMIC、DFIT、IRTLRDIF、TESTGRAF)[8]等。
2.2.2 模型-數(shù)據(jù)的擬合優(yōu)度檢驗(yàn)對(duì)于模型-數(shù)據(jù)的整體擬合,不同的軟件提供不同的擬合指標(biāo)。多數(shù)軟件是對(duì)觀察分?jǐn)?shù)與模型預(yù)測(cè)值之間的分布進(jìn)行χ2檢驗(yàn)。如BIOLOG、MULTILOG及PARSCALE等的擬合統(tǒng)計(jì)量主要是χ2統(tǒng)計(jì)量(-2倍的對(duì)數(shù)似然函數(shù))[9];Rumm軟件提供條目特質(zhì)χ2擬合統(tǒng)計(jì)量(item-trait interaction statistic);也有研究認(rèn)為對(duì)于同一條目的每個(gè)類別,觀察頻率與模型概率的差異小于0.02,便可認(rèn)為模型與數(shù)據(jù)是擬合的[10]。對(duì)于條目(個(gè)體)-模型的擬合,一般是通過擬合殘差(所有被試者對(duì)某一條目反應(yīng)得分的標(biāo)準(zhǔn)化殘差之和)評(píng)價(jià)條目水平上單維模型的擬合情況。目前很多IRT軟件都提供不同的擬合指標(biāo),如Rumm提供條目擬合殘差;Winsteps提供Infit均方和Outfit均方;IRTFIT還可以針對(duì)上述8種模型通過G2和χ2判斷每個(gè)條目的擬合情況[11]。此外,很多IRT軟件還提供個(gè)體擬合殘差,從個(gè)體水平上評(píng)價(jià)個(gè)體反應(yīng)模式與模型預(yù)測(cè)模式的一致性。
2.3 條目篩選和評(píng)價(jià)指標(biāo)
根據(jù)Edelen等[12]和Meads等[13]的研究,目前基于IRT的條目篩選指標(biāo)主要有:①區(qū)分度參數(shù)(a),a太小說明條目對(duì)被試者的能力估計(jì)提供的信息量太少;②根據(jù)類別反應(yīng)曲線(CRCs)和難度參數(shù)判斷條目是否存在逆反閾值(reversed thresholds)、條目選項(xiàng)的有效性及條目的難度范圍是否合適;③個(gè)體-條目圖,將條目難度和個(gè)體潛在特性反應(yīng)在同一尺度上,用于考察條目測(cè)量被試者能力的范圍及條目是否足夠或者出現(xiàn)冗余等情況;④條目對(duì)模型的擬合情況;⑤條目信息量及信息曲線,選擇信息量大和覆蓋能力范圍廣的條目,通過信息曲線可以判斷條目冗余的情況;⑥條目在不同群體上的功能差異分析。不同的模型提供不同的指標(biāo),因此不是所有模型都提供上述6種指標(biāo),比如分部評(píng)分模型不提供區(qū)分度參數(shù),等級(jí)反應(yīng)模型不提供個(gè)體條目圖等。對(duì)于量表的編制或者修訂,應(yīng)該根據(jù)選定的模型選擇相應(yīng)的篩選指標(biāo),刪除某些不符合要求的條目后,再對(duì)剩余條目進(jìn)行重新評(píng)價(jià),直至所有條目都滿足要求為止。對(duì)于較成熟的量表,除考慮上述指標(biāo)外,還可以用其他方法考察量表簡(jiǎn)化的情況。Bjorner等[14]根據(jù)簡(jiǎn)明量表的條目構(gòu)建評(píng)分算法預(yù)測(cè)原始量表的總分,評(píng)價(jià)預(yù)測(cè)分與原始分的關(guān)系。
大多數(shù)應(yīng)用IRT的文獻(xiàn)都沒有對(duì)樣本量有明確的說明,樣本量的多少是否會(huì)影響IRT模型的應(yīng)用呢?根據(jù)國(guó)外文獻(xiàn),模型越復(fù)雜,需要的樣本量越大。Linacre[15]認(rèn)為,要保證Rasch模型參數(shù)估計(jì)的穩(wěn)定性,至少需要100名被試者。對(duì)于擁有兩個(gè)及以上參數(shù)的模型,如等級(jí)反應(yīng)模型至少需要250人,但為了更精確的估計(jì)參數(shù),樣本量為500人較為合適[3]。樣本量越大,條目參數(shù)估計(jì)對(duì)應(yīng)的標(biāo)準(zhǔn)誤越小,測(cè)量也越精確。如果IRT是用于條目池的項(xiàng)目分析,則需要的樣本量較大,而若是用于成熟量表?xiàng)l目特性的評(píng)價(jià),則需要的樣本量較小[12]。此外,數(shù)據(jù)滿足IRT模型假設(shè)的程度越好,需要的樣本量越小[9]。
隨著生存質(zhì)量和患者報(bào)告結(jié)局的不斷發(fā)展,人群健康評(píng)價(jià)、患者生存質(zhì)量監(jiān)測(cè)、患者篩選(如抑郁患者)等研究需要越來越多的量表,IRT的引入為這些量表的發(fā)展及簡(jiǎn)化提供了有力的工具。然而IRT的引入并不意味著要摒棄經(jīng)典測(cè)量理論。經(jīng)典測(cè)量理論主要從宏觀的角度評(píng)價(jià)量表,而IRT則從微觀的角度分析每個(gè)條目,兩種理論相輔相成,互相補(bǔ)充,將兩者有機(jī)融合能使最終量表具有更好的信度和效度。隨著IRT在生存質(zhì)量量表研究中的應(yīng)用的不斷增多,其自身的某些缺陷也逐漸突現(xiàn),如IRT是建立在比較復(fù)雜的數(shù)學(xué)模型上,理解比較困難,依賴較強(qiáng)的假設(shè)。在健康結(jié)局測(cè)量研究中,多數(shù)量表由多個(gè)方面組成,很少只測(cè)量單一的能力,因此IRT的單維性假設(shè)在健康研究中很難實(shí)現(xiàn)。若分維度來分析多維度量表,單維性的問題解決了,但在每個(gè)維度包含的條目數(shù)很少的情況下會(huì)增大測(cè)量誤差,且沒有考慮多維度之間的相關(guān)性,致使測(cè)量結(jié)果準(zhǔn)確性下降。為解決這些問題,國(guó)外研究者開始向多維IRT模型(MIRT)和非參數(shù)IRT模型(NIRT)發(fā)展,探討它們?cè)诮】笛芯恐械膽?yīng)用,不同模型之間的比較以及不同模型對(duì)樣本量的要求等問題。本文的研究目的是介紹基本的IRT方法,鼓勵(lì)更多的研究者應(yīng)用IRT去發(fā)展和修訂量表,感興趣的研究者也可以從上述方面更深入的研究IRT,拓展IRT在國(guó)內(nèi)的發(fā)展。
[1]郝元濤,孫希鳳,方積乾,等.量表?xiàng)l目篩選的統(tǒng)計(jì)學(xué)方法研究[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(4):209-211.
[2]秦浩,陳景武.醫(yī)學(xué)量表?xiàng)l目的篩選考評(píng)方法及其應(yīng)用[J].中國(guó)行為醫(yī)學(xué)科學(xué),2006,15(4):375-376.
[3]Embretson SE,Reise SP.Item response theory for psychologists[M].Mahwah:Lawrence Erlbaum,2000:13-125.
[4]漆書青.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002:179-189.
[5]Slocum SL.Assessing unidimensionality of psychological scales:using individual and integrative criteria from factor analysis[J].Social Indrcators Research,2011,102(3):443-461.
[6]Levine TR.Confirmatory Factor Analysis and Scale Validation in Communication Research[J].Communication Research Reports,2005,22(4):335-338.
[7]Reeve BB,Hays RD,Bjorner JB,et al.Psychometric evaluation and calibration of health-related quality of life item banks:plans for the Patient-Reported Outcomes Measurement Information System(PROMIS)[J].Med Care,2007,45(5):22-31.
[8]Teresi JA,F(xiàn)leishman JA.Differential item functioning and health assessment[J].Qual Life Res,2007,16(1):33-42.
[9]Du Toit M.IRT from SSI:BILOG-MG,MULTILOG,PARSCALE,TESTFACT[M].USA:Scientific Software International,lnc,2003:528-591.
[10]Gomez R,Cooper A,Gomez A.An item response theory analysis of the Carver and White(1994)BIS/BAS Scales[J]. Pers Indiv Differ,2005,39(6):1093-1103.
[11]Bjorner JB,Smith KJ.IRTFIT:A Macro for Item Fit and Local Dependence Tests under IRT Models[EB/OL]. Quality Metric Incorporated.http://appliedresearch.cancer.gov/archive/irt/irtfit_macro_users_guide.pdf.2007.
[12]Edelen MO,Reeve BB.Applying item response theory(IRT)modeling to questionnaire development,evaluation,and refinement[J].Qual Life Res,2007,16(1):5-18.
[13]Meads DM,Bentall RP.Rasch analysis and item reduction of the hypomanic personality scale[J].Pers Indiv Differ,2008,44:1772-1783.
[14]Bjorner JB,Petersen MA,Groenvold M,et al.Use of item response theory to develop a shortened version of the EORTC QLQ-C30 emotional functioning scale[J].Qual Life Res,2004,13(10):1683-1697.
[15]Linacre JM.Sample size and item calibration stability[J]. Rasch Measurement Transactions,1994,7(4):328.
The application of item response theory in screening item of medical scale
LIN Yueqing1ZHANG Weitao1FANG Jiqian21.Rehabilitation Center of Guangdong Province Occupational Injury,Guangdong Province,Guangzhou510440,China; 2.Department of Epidemiology and Health Statistics,School of Public Health,Sun Yat-Sen University,Guangdong Province,Guangzhou510275,China
This article focuses on the basic features of item response theory(IRT)and the specific application in the establishment and revision of medical scale.The item parameters of IRT have the nature of invariance,so IRT can provide the information of item and scale,and the measurement reliability of different potential ability.Therefore,IRT judges the merits of item from the item parameters,item characteristic curve,the individual-item chart,fit of the model,the amount of information and DIF in different groups.
Quality of life;Item screening;Item response theory
R195
C
1673-7210(2014)02(b)-0155-04
2013-10-16本文編輯:程銘)
林岳卿(1984-),女,碩士研究生;研究方向:統(tǒng)計(jì)學(xué)方法及其醫(yī)學(xué)應(yīng)用。
方積乾(1939-),男,教授,博士生導(dǎo)師;研究方向:適用于生物醫(yī)學(xué)的統(tǒng)計(jì)學(xué)理論、方法與技術(shù)。