廣州中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院(510006)
陳新林△ 陳麗霞 郎建英 鄧潔敏
項(xiàng)目反應(yīng)理論(item response theory,IRT)也稱條目反應(yīng)理論,廣泛用于教育學(xué)、心理學(xué)及醫(yī)學(xué)量表測(cè)驗(yàn)中。Parscale軟件是實(shí)現(xiàn)IRT理論的常用軟件,由Eiji Muraki 和Darrell Bock等開發(fā),現(xiàn)在由Scientific Software International(SSI)公司擁有(http://www.ssicentral.com/irt/)。Parscale軟件可以用于二分類和多分類條目的分析,包括單、二和三參數(shù)logistic 模型,Samejima模型(graded response model),Master部分評(píng)分模型(partial credit model),廣義部分評(píng)分模型(generalized partial credit model),多項(xiàng)選擇項(xiàng)目分析,多組多分類項(xiàng)目反應(yīng)模型(multiple-group polytomous item response models)。Parscale軟件還可以對(duì)量表進(jìn)行項(xiàng)目功能差異(differential item functioning,DIF)分析。
目前,Parscale軟件廣泛用于心理量表的評(píng)價(jià)[1-3],教育學(xué)的評(píng)價(jià),生存質(zhì)量量表的研發(fā)和分析[6-9]。例如Castro等使用Parscale軟件評(píng)價(jià)Beck抑郁問卷,研究發(fā)現(xiàn)Beck抑郁問卷中,患者最嚴(yán)重的條目是減肥、自殺的想法和社會(huì)退出[1]。Kopec等使用Parscale軟件評(píng)價(jià)關(guān)節(jié)炎患者生存質(zhì)量量表,從218個(gè)條目中篩選出不存在DIF的31個(gè)條目,構(gòu)成5個(gè)領(lǐng)域。Fukuhara等使用Parscale軟件研制視覺功能問卷的簡(jiǎn)短版,將原來的32個(gè)條目簡(jiǎn)化為11個(gè)條目[8]。本文結(jié)合多分類條目介紹如何使用Parscale軟件。
分析資料為鼻咽癌患者生存質(zhì)量量表的生理領(lǐng)域,一共包括9個(gè)條目,都是五分類的正向條目,得分越高說明生存質(zhì)量越大。資料保存為dat格式,命名為NPC.DAT。一共15列,前面3列是ID,中間3列是空格,后面9列是條目得分。使用Samejima模型計(jì)算各個(gè)條目的參數(shù),并估計(jì)患者的能力參數(shù)。
本文使用的Parscale軟件是4.1版本。打開Parscale軟件。點(diǎn)擊“File…New”,建立分析的文件,文件命名為Pars.PSL。 Parscale的語(yǔ)法都以“>”開始。在Pars.PSL中輸入以下語(yǔ)法:
>FILE DFNAME=′NPC.DAT′,SAVE;
>SAVE PARM=′NPC.PAR′,SCORE=′NPC.SCO′;
>INPUTNIDW=3,NTOTAL=9,NTEST=1,LENGTH=(9),NFMT=1;
(3A1,3X,9A1)
>TEST1TNAME=SCALE1,ITEM=(1(1)9),NBLOCK=1;
>BLOCK1 BNAME=SBLOCK1,NITEMS=9,NCAT=4,CADJUST=0.0;
>CALIBGRADED,LOGISTIC,SCALE=1.7,NQPTS=30,CYCLES=(25,2,2,2,2),NEWTON=5,CRIT=0.005,ITEMFIT=10;
>SCOREEAP,NQPT=30,SMEAN=0.0,SSD=1.0,NAME=EAP,PFQ=5;
FILES語(yǔ)句,用于讀取數(shù)據(jù)。DFNAME=NPC.DAT表示讀取NPC.DAT 的數(shù)據(jù),要求數(shù)據(jù)和語(yǔ)法文件放在同一個(gè)文件夾。SAVE表示保存語(yǔ)法。
SAVE語(yǔ)句,用于保存結(jié)果。PARM=′NPC.PAR′,表示保存條目參數(shù)(包括名字和文件擴(kuò)展名);SCORE= NPC.SCO,表示保存患者的能力參數(shù)(得分)。
INPUT語(yǔ)句,說明分析數(shù)據(jù)的屬性。NIDW表示患者的ID數(shù)量;NTOTAL表示分析的總條目數(shù);NTEST表示量表(測(cè)試)的數(shù)量;LENGTH表示每個(gè)量表的條目數(shù);NFMT表示讀取原始記錄的行數(shù)。另外TAKE = n表示選取前面n個(gè)測(cè)試者進(jìn)行分析;MGROUP/MRATER說明亞組(或評(píng)價(jià)者)的數(shù)目,用于DIF分析;WEIGHT表示加權(quán)。
(3A1,3X,9A1) 語(yǔ)句,是變量格式語(yǔ)句,說明數(shù)據(jù)的存儲(chǔ)格式,前3列是ID,其次3列是屬性,最后9列是分析的條目。
TEST1語(yǔ)句,是測(cè)試命令語(yǔ)法,用于說明分析的條目數(shù),測(cè)試的名字,定義閾值參數(shù)和區(qū)分度的初始值等。TNAME 表示測(cè)試量表的名字;INAME表示條目的列表;NBLOCK表示有相同分類參數(shù)(區(qū)組)條目的數(shù)量。另外,ITEMS表示估計(jì)的條目;INTERCEPT、THRESHOLD和SLOPE分別設(shè)定條目截距、閾值參數(shù)和區(qū)分度的初始值,經(jīng)常采用默認(rèn)值。
BLOCK1語(yǔ)句,說明每個(gè)區(qū)組的屬性,Parscale軟件把具有相同分類數(shù)目的條目放在一起估計(jì)。BNAME表示區(qū)組的名字;NITEMS表示每個(gè)區(qū)組包含的條目;NCAT表示每個(gè)條目的分類數(shù)目(條目的分類,本例是四分類);CADJUST對(duì)區(qū)組參數(shù)的均數(shù)進(jìn)行調(diào)整。另外,GPARM設(shè)定猜測(cè)參數(shù),RATER用于提供評(píng)價(jià)者的方差比例;REPEAT表示BLOCK語(yǔ)法的重復(fù)次數(shù);SCORING表示指定計(jì)分函數(shù)。ORIGINAL表示條目的初始得分,MODIFIED表示對(duì)條目重新賦分。例如將1、2得分轉(zhuǎn)化為2、1,使用ORIGINAL=(1,2),MODIFIED=(2,1)。
CALIB語(yǔ)句,說明估計(jì)所采用的方法。GRADED/PARTIAL表示采用Samejima模型(GRM)或者M(jìn)aster模型(partial credit model)對(duì)參數(shù)進(jìn)行估計(jì);LOGISTIC/NORMAL說明要使用的響應(yīng)函數(shù);SCALE表示尺度常數(shù),設(shè)定為1.7;NQPTS表示積分點(diǎn)的數(shù)目;CYCLE完成EM估計(jì)的最大次數(shù);NEWTON表示Gauss-Newton迭代的最大次數(shù);CRIT為EM估計(jì)和Gauss-Newton迭代的收斂標(biāo)準(zhǔn);ITEMFIT說明用于計(jì)算條目擬合統(tǒng)計(jì)的次數(shù)。>SCOREEAP,NQPTS=30,SMEAN=0.0,SSD=1.0,NAME=EAP,PFQ=5;
SCORE語(yǔ)句,說明評(píng)分過程,用于估計(jì)被測(cè)試者的得分。EAP/MLE/WML為估計(jì)的方法,EAP、ML和WML分別表示Bayes后驗(yàn)估計(jì)、最大似然估計(jì)和加權(quán)最大似然估計(jì)方法;NQPT為積分點(diǎn)的數(shù)目;SMEAN為測(cè)試的平均值;SSD為測(cè)試的標(biāo)準(zhǔn)差;NAME為估計(jì)文件的名字;PFQ說明移動(dòng)到臨近分類的百分比;DIST說明先驗(yàn)分布類型。
點(diǎn)擊菜單欄的Run,包括四個(gè)階段:
(1)0階段(phase 0),輸入數(shù)據(jù)和準(zhǔn)備分析,包括模型說明(model specifications)、校準(zhǔn)參數(shù)(calibration parameters)、文件任務(wù)和規(guī)定(file assignments dispositions)。校準(zhǔn)參數(shù)的結(jié)果主要包括:最大EM周期數(shù)、最大內(nèi)部EM周期數(shù)、最大類別估計(jì)周期、最大條目參數(shù)估計(jì)周期數(shù)、EM周期的收斂標(biāo)準(zhǔn)、斜率的收斂標(biāo)準(zhǔn)、閾值的收斂標(biāo)準(zhǔn)等等。
(2)1階段(phase 1),輸出數(shù)據(jù)和計(jì)算條目統(tǒng)計(jì)量。條目匯總統(tǒng)計(jì)量(summary item statistics),給出每個(gè)條目的總?cè)藬?shù)、每個(gè)選項(xiàng)的人數(shù)及比例,見表1;條目參數(shù)估計(jì)值,給出每個(gè)條目的均數(shù)和標(biāo)準(zhǔn)差,所有條目的均數(shù)(31.922)和標(biāo)準(zhǔn)差(5.416),并計(jì)算出經(jīng)典測(cè)量理論下的閾值參數(shù)(initial location)和區(qū)分度參數(shù)(initial slope),見表2。
表1 條目匯總統(tǒng)計(jì)量
*:Cumul表示匯總結(jié)果。
表2 條目參數(shù)估計(jì)值
*:本表結(jié)果基于經(jīng)典測(cè)量理論。
(3)2階段(phase 2),估計(jì)模型的條目參數(shù)。包括給出類別參數(shù)(category parameter)及其標(biāo)準(zhǔn)誤;每個(gè)條目的參數(shù)估計(jì)值,包括區(qū)分度參數(shù)(slope)及標(biāo)準(zhǔn)誤;閾值參數(shù)(location)及標(biāo)準(zhǔn)誤,猜測(cè)參數(shù)(guessing)及標(biāo)準(zhǔn)誤,條目擬合統(tǒng)計(jì)量的χ2值和P值,見表3。所有條目的猜測(cè)參數(shù)均為0,條目5的閾值參數(shù)最小(-2.376),條目3的閾值參數(shù)最大(0.578),所有條目閾值參數(shù)的平均數(shù)為-1.005,說明擬定的條目對(duì)患者而言偏容易。
表3 條目的參數(shù)估計(jì)值及條目擬合統(tǒng)計(jì)量
*:Slope表示區(qū)分度,location表示閾值參數(shù),guessing表示猜測(cè)參數(shù),SE表示標(biāo)準(zhǔn)誤,χ2表示條目擬合統(tǒng)計(jì)量。
(4)3階段(phase 3),估計(jì)被測(cè)試者的參數(shù),包括每個(gè)被測(cè)試者的平均分類(mean category)、能力參數(shù)(ability)及標(biāo)準(zhǔn)誤,見表4。這里的ability是根據(jù)IRT理論計(jì)算出來的能力參數(shù),跟閾值參數(shù)的尺寸一致。
表4 被測(cè)試者的參數(shù)估計(jì)值
(5)顯示圖形。Parscale軟件還提供了很多圖形,運(yùn)行完所有程序后,點(diǎn)擊Run…Plot,顯示了常見的圖形,包括條目特征曲線(item characteristic curve,ICC),條目信息曲線(item information curves),總體信息曲線(total information curves)等。例如圖1顯示了條目0001的條目特征曲線;圖2顯示了總體信息曲線。同時(shí)顯示所有條目的ICC,見圖3;估計(jì)能力的直方圖,見圖4。
圖1 條目0001的條目特征曲線
圖2 總體信息曲線
圖3 同時(shí)顯示所有條目的ICC
圖4 估計(jì)能力的直方圖
Parscale軟件功能強(qiáng)大,可以估計(jì)條目參數(shù)和被試者的能力參數(shù),并展現(xiàn)多種圖形,廣泛用于多種模型,包括logistic 模型,Samejima模型,Master模型和廣義部分評(píng)分模型等。RUMM 2030軟件也可以用于分析多個(gè)模型[10];而Bilog-MG軟件只能分析二分類條目(logistic 模型),不能分析多分類條目[11]。Parscale軟件的實(shí)現(xiàn)需要編寫語(yǔ)句,而RUMM 2030采用點(diǎn)擊的操作模式;兩種軟件各有優(yōu)缺點(diǎn),相對(duì)而言,Parscale軟件的語(yǔ)句容易出錯(cuò),在一定程度上影響了它的使用。