• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多維題組效應Rasch模型*

      2014-02-02 07:04:07詹沛達王文中王立君李曉敏
      心理學報 2014年8期
      關鍵詞:題組指標值參數估計

      詹沛達 王文中 王立君 李曉敏

      (1浙江師范大學心理系, 金華 321004) (2香港教育學院評估研究中心, 香港)

      1 引言

      在實際心理或教育測驗中, 經常出現多個項目共用相同刺激(stimulus)的情況, 這種受共同刺激影響和制約的項目集合通常被稱為題組(testlet)(Wainer & Kiely, 1987)或項目束(item bundle)(Rosenbaum, 1988)。使用題組可以節(jié)約考生閱讀材料的時間, 提高測驗的效率, 提供邏輯關系更強的材料(Bradlow, Wainer, & Wang, 1999; Wainer,Bradlow, & Du, 2000; DeMars, 2006; Wainer,Bradlow, & Wang, 2007; Huang & Wang, 2013)。目前, 如全國碩士研究生入學統一考試、CET、TOEFL、GRE、PISA等均涉及了大量的題組, 可以說測驗已經出現了由采用大量的獨立多選題向采用題組的過渡趨勢(Wainer et al., 2007), 對題組進行研究的必要性日顯重要。

      當測驗存在題組時, 由于嵌在題組內的項目共用相同的題組刺激, 這時題組項目反應間就存在一定的相依性, 即局部項目依賴性。若直接使用標準項目反應模型(standard item response model)去擬合存在局部項目依賴性的反應數據會導致諸多問題,如:高估測驗精度(低估測驗的標準誤)、項目參數的偏差估計、增加測驗等值誤差、 DIF檢驗不合理等(Wang & Wilson, 2005a; Wang & Wilson, 2005c;Li, Bolt, & Fu, 2005; Marais & Andrich, 2008;Fukuhara & Kamata, 2011; DeMars, 2012; He, Li,Wolfe, & Mao, 2012; Jiao, Kamata, Wang, & Jin,2012; Huang & Wang, 2013; 吳銳, 丁樹良, 甘登文,2010; 鄭蟬金, 郭聰穎, 邊玉芳, 2011; 劉玥, 劉紅云, 2012)。此外, 當局部項目依賴性適中或題組項目占全部測驗項目的比例較小時(Wainer, 1995), 也可將整個題組看成一個多級評分的超級項目(super item) (Sireci, Thissen, & Wainer, 1991), 并采用多級評分模型去擬合超級項目的反應數據(Cook, Dodd,& Fitzpatrick, 1999; Marais & Andrich, 2008)。雖然該方法能在一定程度上減輕局部項目依賴性對參數估計精度和信度的影響, 但仍存在如:無法區(qū)分在超級項目上得分相同的反應組合、低估測驗信度、不適用于基于題組的計算機化自適應測驗等一系列問題。之后, 為了從題組中獲得更詳細的信息且更合理地處理題組效應, 研究者們相繼開發(fā)出了一系列題組反應模型(testlet response models), 如:雙參數邏輯斯蒂克貝葉斯題組模型(two-parameter logistic Bayesian testlet model, 2-PLBTM) (Bradlow et al., 1999)、三參數邏輯斯蒂克貝葉斯題組模型(3-PLBTM) (Wainer et al., 2000)、Rasch題組模型(Rasch testlet model, RTM) (Wang & Wilson, 2005c)等。近期, 隨著如高階題組模型(higher-order testlet model) (Huang & Wang, 2013)、多水平題組模型(multilevel testlet model) (Jiao et al., 2012)等一些新的題組反應模型的提出, 題組反應模型可處理的測驗情況豐富了, 功能增強了, 為題組反應模型在實際測驗中的應用和推廣做出了貢獻。

      但至今, 人們對題組的認識仍局限于一份閱讀材料或已知條件后配上若干個項目(如:英語測驗中的閱讀理解題、數學測驗中的分步證明題等)這樣一種常見的簡單的直接的捆綁式題組(bundledtestlet)形式。通常, 一個項目是無法被同時捆綁在兩個閱讀材料或已知條件之下的, 所以同一個項目也不會同時被歸入兩個捆綁式題組之中, 進而導致被試對捆綁式題組中的不同項目間的反應也僅依賴于被試對該題組材料的整體認知上, 即在捆綁式題組中的項目反應僅受到了題組材料這1種共同刺激的影響。回顧國內外關于題組的已有研究, 也均假設題組項目反應僅受到1個共同刺激的影響。然而在實際測驗中項目反應可能同時受到多個共同刺激的影響, 而這又是已有題組反應模型所無法處理的。

      對此, 本文首先詮釋了“題組(testlet)”的本質(見 2.1), 并基于此提出了項目內多維題組效應(見2.2.2)。為了實現對項目內多維題組效應的處理, 本研究又基于Rasch模型同時開發(fā)了二級評分和多級評分的多維題組效應 Rasch模型(見 2.3), 并采用ConQuest (Wu, Adams, Wilson, & Heldane, 2007)來實現新模型的參數估計(見 3)。全文共設計了 2個包含項目內多維題組效應的模擬測驗(見4.1和5.1),并對比研究了新模型、Rasch題組模型(RTM)和分部評分模型(PCM) (Masters, 1982)三者在處理模擬測驗數據時的差異, 以探究新模型對項目內多維題組效應的分析處理情況。

      2 多維題組效應Rasch模型的開發(fā)

      2.1 “題組(testlet)”的本質

      Wainer和Kiely (1987)指出“題組是與某單一內容域相關的一組項目(A testlet is a group of items related to a single content area)”。Bradlow 等(1999)將題組描述為“基于一個共同刺激的一組選擇題(Coherent groups of multiple choice items based on a common stimulus)”。Wang 和 Wilson (2005c)將題組描述為“受到一個共同刺激影響的項目束(A bundle of items that share a common stimulus)”。Wainer等(2007)在

      Testlet Response Theory and its Applications

      一書中將題組描述為“一個被共同管制的測驗項目包(A packet of test items that are administered together)”。Brandt (2008)將題組描述為“一個測驗中包含共同建構元素的項目集合(A subset of items in a test that have a common structural element)”。Ip (2010)將題組描述為“關于某單一主題的項目集合(An aggregation of items on a single theme)”, 等等。從這些描述中可以提取出兩個核心元素:(1)項目集合、(2)共同刺激。如圖 1所示, 從項目集合到題組的轉變, 其關鍵在于該項目集合是否存在共同刺激以及該共同刺激是否對被試的項目反應產生了影響, 而對于項目集合以及共同刺激的形式并不局限于捆綁式題組中的形式。換句話說, “集合”并不只是形式上的集合, 它更是一種概念上的集合; 集合中的項目并不一定要捆綁在一起。同樣, “共同刺激”也不僅限于一篇閱讀材料(內容), 它還可以是相同的單元內容(如:數學測驗中考查“四則運算”單元的所有項目)、相同的題型(如:英語測驗中所有的聽力題)、相同的知識點(如:科學測驗中所有考查“重力”的項目)、相同的先驗猜測概率(如:數學測驗中所有的四擇一選擇題), 等等。

      圖1 項目集合與題組的關系

      為了更好地說明題組和題組項目的關系, 這里舉一個關于家庭和家庭成員的例子:將家庭看作題組, 將家庭成員看作題組項目。當孩子沒有和父母住在一起的時候, 我們能說他們不是一個家庭嗎?答案顯然是否定的, 因為他們之間存在一個共同刺激—— 血緣關系。其實, 家庭成員間的這種共同刺激是多樣的, 它既可以是血緣關系也可以是婚姻關系、認養(yǎng)關系等等。同理, 一個項目集合之所以能被稱為題組, 并不是因為這些項目被捆綁在了一起, 而是因為它們之間存在一個共同刺激, 且這種共同刺激的形式也是多樣的, 可以是單元、題型、知識點甚至是評分者。但在已有研究中, 研究者們只關注到了相對明顯的捆綁式題組, 而忽略了題組的本質。

      總結前人研究并綜上所述, 本研究認為:當多個項目間存在共同刺激且被試對這些項目的反應受到該共同刺激影響時, 這些項目組成的集合就可被稱為題組—— “題組(testlet)”的本質是一個存在共同刺激的項目集合。

      2.2 題組效應

      題組效應是指當被試對題組項目的反應依賴于被試對題組刺激(共同刺激)的整體認知時, 項目反應間存在的一種相依性(詹沛達, 王文中, 王立君, 2013), 即題組效應會導致項目反應間出現局部項目依賴性; 把圖 1中“被試對項目集合的反應受到共同刺激的影響”和“項目反應間出現局部項目依賴性”結合起來, 就構成了題組效應。

      2.2.1 項目內單維題組效應

      如上文所述, 已有關于題組反應模型的研究均假設題組項目反應僅受到(目標能力

      θ

      外)1個共同刺激的影響, 如圖2(a), 7個項目被歸納到2個題組之中; 被試在每個項目上的反應僅受到1個題組效應的影響, 且不同的題組效應間相互獨立(Wang &Wilson, 2005c; Wainer et al., 2007; DeMars, 2012;Huang & Wang, 2013)—— 即假設從目標能力中抽離出1個干擾因素(題組效應)就能夠滿足廣義局部獨立性假設。則可將這類題組效應稱為項目內單維題組效應(within-item unidimensional testleteffect)。

      2.2.2 項目內多維題組效應

      實際測驗中某項目可能因為與不同的項目共用了不同的刺激而被同時劃分到不同的題組之中,進而被試在該項目上的反應就會同時受到多個共同刺激的影響, 即同一項目反應中包含了多種題組效應, 如圖 2(b)。與項目內單維題組效應不同, 該情況假設從目標能力中抽離出有限個題組效應才可滿足廣義局部獨立性假設。則可將這類題組效應稱為項目內多維題組效應(within-item multidimensional testlet-effect)。

      圖2 項目內單維/多維題組效應示意圖。θ表示被試能力, γ表示題組效應, □表示項目

      此外應明確的是無論是項目內單維題組效應還是項目內多維題組效應, 它們都屬于項目內多維度(within-item multidimensionality) (Adams, Wilson,& Wang, 1997)。

      2.3 多維題組效應Rasch模型

      與項目內單維題組效應(見 2.2.1)相對應, 將僅包含一個題組效應參數的題組反應模型統稱為單維題組效應模型(unidimensional testlet-effect models)。單維題組效應模型包括現有的全部題組反應模型(如:RTM 可重新命名為單維題組效應Rasch模型)。通常也將單維題組效應模型視為雙因子模型(bi-factor model) (Gibbons & Hedeker,1992)的約束模型(Li, Bolt, & Fu, 2006; Wainer et al., 2007; Rijmen, 2009; DeMars, 2006, 2012)。因此本研究將雙因子模型與單維題組效應模型視為同物, 不再贅述。

      題組反應模型的核心觀念是應用題組效應參數把不可忽略的題組效應與目標能力進行分離, 進而實現對目標被試能力或項目參數更為準確的估計(詹沛達等, 2013)。因此, 當同一項目反應中包含了項目內多維題組效應時, 就需要將不可忽略的多個題組效應從目標能力中抽取出來, 進而需要將單維題組效應參數拓廣至多維題組效應向量, 有:

      因為Rasch模型具有數據的線性特性、模型參數具有充分統計量、參數估計對樣本量需求較小、被試與項目共用同一量尺、參數分離等優(yōu)勢(王文中, 2004; Wang, Wilson, & Adams, 1997; 晏子,2010; Bond & Fox, 2007)而被稱為“心理科學領域內的客觀測量”, 所以本研究以 Rasch模型為基礎,提出了可處理項目內多維題組效應的多維題組效應Rasch模型(multidimensional testlet-effect Rasch model, MTERM)。二級評分的 MTERM (記為dMTERM)的條件反應可描述為:

      式中,

      p

      p

      分別表示被試

      n

      在項目

      i

      上答對和答錯的概率,

      θ

      為被試

      n

      的能力參數,

      b

      為項目

      i

      難度參數。

      當被試的項目反應受到某潛因素的影響且該影響隨著被試的不同而不同時, 可將該潛因素稱為隨機效應(random-effect), 則被試能力即可被看作一種隨機效應(Wang & Wu, 2011)。與隨機效應對應的是固定效應(fixed-effect), 即被試的項目反應受到某潛因素的影響不會隨著被試的變化而變化(Wang & Wilson, 2005b), 則項目參數即可被看作一種固定效應。自Bradlow等(1999)提出2-PLBTM起, 題組效應就被看作一種隨機效應; 與之相對應,項目內多維題組效應就可被看作項目內共存的多種隨機效應。

      由于實際的心理與教育測驗通常是一種既包含二級評分項目(選擇題、填空題等)也包含多級評分項目(應用題、問答題等)的混合式測驗, 所以題組內也可能既包含二級評分項目也包含多級評分項目(Wang, Bradlow, & Wainer, 2002)。Wang等(2002)在二級評分的3PLBTM和GRM (Samejima,1969)中分別加入題組效應而將兩者結合, 提出了多級評分的廣義貝葉斯題組模型(general Bayesian model for testlets)。Wang 和 Wilson (2005c)同時提出了二級評分和多級評分的RTM。Li, Li和Wang(2010)將 GPCM (Muraki, 1992)與廣義題組模型(general testlet model) (Li et al., 2006)相結合提出了廣義多級評分題組模型(general polytomous testlet model)。Huang和Wang (2013)也同時提出了二級評分和多級評分的高階題組模型。為滿足現實測驗的需求, 本研究將 dMTERM (見公式(3))與 PCM(Masters, 1982)相結合提出多級評分的MTERM (記為 pMTERM):

      式中,

      p

      p

      分別表示被試

      n

      在項目

      i

      上得

      j

      分和(

      j

      ?1)分的概率,

      b

      為項目

      i

      j

      個步驟難度參數(step difficulty parameter)。?。?p>

      式中,

      b

      為項目

      i

      的全局難度(overall difficulty)或定位參數(location parameter),

      τ

      為項目

      i

      的第

      j

      臨界參數。此時, 公式(4)可重新描述為:

      可將公式(6)稱為多維題組效應分部評分模型(multidimensional testlet-effect partial credit model)。當 u=0時, 多維題組效應分部評分模型則退化為PCM (Masters, 1982)。那么對于各項目間的臨界參數相等(

      τ=τ

      )的李克特式項目或評定量表項目, 公式(6)可轉換為:

      可將公式(7)稱為多維題組效應評定量表模型(multidimensional testlet-effect rating scale model)。當 u=0時, 多維題組效應評定量表模型則退化為RSM (Andrich, 1978)。另外, 當u中僅有1個元素為1時, MTERM退化為RTM。

      3 多維題組效應Rasch模型的參數估計

      目前, 有不少用于實現多維項目反應模型參數估計的軟件, 如:ConQuest (Wu et al., 2007)、WinBUGS (Spiegelhalter, Thomas, & Best, 2003)、M

      plus (

      Muthén & Muthén, 2012)、IRTPRO (Cai, De Toit, & Thissen, 2011)、BMIRT (Yao, 2003)等。不同的軟件有不同的適用范圍, 比如:ConQuest僅限于分析Rasch框架下的項目反應模型, 而M

      plus

      僅限于分析項目反應函數滿足累積 logits分布的模型(Agresti, 2010):可適用于2-PLM或GRM, 但不適用于3-PLM、PCM或GPCM (Huang & Wang, in press)。據2.3可知, MTERM可看成RTM的拓廣模型,所以本研究使用ConQuest來實現MTERM的參數估計是一個直接且合理的選擇。此外, 亦可使用WinBUGS、基于R或Matlab的自編程序來實現參數估計。而由于pMTERM (見公式(3))是基于PCM建構的, 所以M

      plus

      不適用于本研究。

      多維隨機系數多項邏輯斯蒂克模型(multidimensional random coefficients multinomial logit model, MRCMLM) (Adams et al., 1997)是ConQuest的基礎, 因此欲使用 ConQuest來實現MTERM 的參數估計就必須進行一系列設定, 以使多維隨機系數多項邏輯斯蒂克模型轉化(約束)為MTERM。

      多維隨機系數多項邏輯斯蒂克模型假設, 被試的項目反應受到

      L

      個測驗潛因素(Latent factor)的影響, 則

      L

      維測驗潛因素向量 θ=(

      θ,θ,...,θ

      )可被認為是一個從多元密度函數

      g

      (θ;α)中隨機抽取的代表性樣本; 其中α是一個用于描述分布情況的參數向量/矩陣。本研究限定MTERM的多元密度函數

      g (

      )符合正態(tài)分布(見公式(7)), 所以有 α≡(μ, Σ)。多維隨機系數多項邏輯斯蒂克模型規(guī)定被試

      n

      在項目

      i

      上做出第

      k

      類別(category)反應的概率為:

      式中,

      X

      =1表示被試

      n

      在項目

      i

      上做出類別

      k

      的反應(否則為0);

      K

      表示項目

      i

      中作答類別的數量; ξ是各項目中各類別對應的難度參數矩陣; b是項目

      i

      上類別

      k

      的得分向量, 可以通過得分矩陣(Scoring matrix)B來獲得; α是項目

      i

      上類別

      k

      的設計向量,用于描述ξ中各元素間的線性關系, 可以通過設計矩陣(Design matrix)A來獲得。關于多維隨機系數多項邏輯斯蒂克模型更詳細的內容, 讀者可參閱Adams等(1997)和Wu等(2007)等文獻。

      將公式(8)重新描述為:

      設定指標向量u=(

      u,u,...,u

      ), 當

      u

      =1表示項目

      i

      存在題組效應

      m

      ;

      u

      =0表示項目

      i

      不存在題組效應

      m, m

      =1,2,...,

      M

      ; 并設定類別指標變量

      v

      (

      i

      =1,2,...

      I

      ;

      j

      =1,...,

      J

      -1), 當

      v

      =

      v

      =...=

      v

      =?1表示項目

      i

      存在第

      j

      類別反應。

      M

      I

      分別表示測驗中題組效應數量和項目數量。在多維隨機系數多項邏輯斯蒂克模型中對α和b進行自定義:

      且有:

      依據公式(10)有:

      公式(15)與公式(4)等價。對于二級評分項目

      j

      =1, 則有:

      公式(16)與公式(3)等價。在公式(15)和(16)中,當指標向量u中只有1個元素等于1時, MTERM退化為RTM; 而當u=0時, MTERM退化為Rasch模型或PCM。

      經過一系列設定(公式(11)~(14)), 可將多維隨機系數多項邏輯斯蒂克模型轉化(約束)為MTERM,因此可直接使用 ConQuest軟件實現參數估計, 而無需重新編寫復雜的參數估計程序(基于 MTERM的ConQuest程序可參見本文附錄)。這就為新模型在實際應用中的使用和推廣帶來了極大的方便。

      雖然 ConQuest軟件已經被用于分析多種Rasch框架內的項目反應模型, 但還沒有被用于分析包含項目內多維題組效應的數據。因此, 有必要先探究ConQuest軟件是否能為MTERM提供較好的返真性(recovery)。本研究在實驗1和實驗2中分別設計了兩個不同的模擬測驗。實驗1的主要目的是為探究ConQuest軟件是否能為MTERM提供較好的返真性(見4.1)。在模擬測驗二中, 設計了一個更加復雜且更接近現實的模擬測驗(見 5.1), 并分別采用MTERM、RTM和PCM對模擬測驗數據進行了對比分析。

      4 實驗1

      4.1 模擬測驗設計

      4.1.1 模擬測驗設定

      (1)模擬測驗目標潛質為被試總能力

      θ

      ;

      (2)共包含40題。前10題為非捆綁式題組項目。第11題~第40題包含了3個捆綁式題組;

      (3)共考查2個單元內容, 且考慮到內容平衡問題, 將2個單元內容按如下方案設定:第1題~第5題、第31題~第35題和第1個捆綁式題組均考查單元1的內容, 共包含20題; 其余題目考查單元2的內容, 同樣包含20題。

      基于對上述測驗的分析(見圖 3), 認為該測驗共包含2類題組效應, 每類題組效應中又包含2~3個題組效應, 即, 捆綁式題組效應(bundled testleteffect, 記為 A):

      γ

      、

      γ

      γ

      , 單元題組效應(unit testlet-effect, 記為 B):

      γ

      、γ

      , 共 5 個題組效應。

      圖3 實驗1模擬測驗設計示意圖

      4.1.2 被試能力和題組效應參數設定

      表1 實驗1各項目包含的項目內多維題組效應

      4.1.3 項目參數設定

      因為 MTERM 同時包含二級評分模型和多級評分模型, 所以模擬測驗的項目參數設定將分為兩部分進行:

      (1)二級評分項目的難度參數整體分布滿足

      b

      U

      (?2, 2);多級評分項目的步驟難度參數整體分布滿足

      b

      U

      (?2.5, 2.5), 均包含3個分數級別(0分,1分,2分), 且各項目的第1臨界參數分布滿足

      τ

      U

      (?1, 0)。

      以上項目參數整體分布的設定范圍與實證研究中普遍存在的項目參數分布相符, 且各項目參數是獨立生成的, 當然, 如果需要也可以引入多元正態(tài)分布(van der Linden, Klein Entink, & Fox, 2010)。

      4.2 被試作答模擬

      模擬被試作答時, 首先根據參數“真值”和所選用的模型來計算被試

      n

      在項目

      i

      上得

      j

      分的概率

      P

      。其次生成一個隨機數

      r

      (0≤

      r

      ≤1), 則得分被定義為:

      r

      小于或等于累計概率所對應的最高分數

      h

      , 即:

      4.3 評價指標

      本研究采用平均偏差 Bias指標、均方根誤差RMSE、相對偏差的絕對值(the absolute value of relative bias, ARB)做為參數返真性的評價指標, 模擬作答及ConQuest軟件分析過程循環(huán)

      R

      =50次以減小實驗誤差:

      4.4 實驗1結果與結論

      4.4.1 實驗1結果

      實驗1結果見表2(限于篇幅原因只列出了部分實驗結果), 表中分別列出了dMTERM (見公式(3))和pMTERM (見公式(4))的參數估計返真性結果。整體看, dMTERM和pMTERM的參數估計返真性都很好。其中, 基于dMTERM對隨機效應參數(被試能力參數和題組效應參數)的估計, Bias指標值介于[?0.055, 0.011]之間, RMSE 指標值介于[0.033,0.105]之間, ARB指標值介于[0.001, 0.044]之間。對于項目參數的估計, Bias指標值介于[?0.022, 0.035]之間, RMSE指標值介于[0.061, 0.090]之間, ARB指標值介于[0.001, 0.256]之間。根據ARB指標值, 大多數參數估計值是可以被接受的?;?pMTERM對隨機效應參數的估計, Bias指標值介于[?0.013,0.008]之間, RMSE指標值介于[0.031, 0.076]之間,ARB指標值介于[0.001, 0.044]之間。而對于項目參數的估計, Bias指標值介于[?0.034, 0.024]之間,RMSE指標值介于[0.043, 0.105]之間, ARB指標值介于[0.001, 0.992]之間。根據ARB指標值, 大多數參數估計值也是可以被接受的。

      4.4.2 實驗1結論

      由實驗 1結果得知:ConQuest軟件能夠為MTERM 提供較好的參數估計返真性—— 它為實驗2中對比MTERM、RTM和PCM在處理包含項目內多維題組效應數據時的表現提供了前提保證。

      5 實驗2

      5.1 模擬測驗設計

      5.1.1 模擬測驗設定

      (1)模擬測驗目標潛質為被試總能力

      θ

      ;

      (2)共包含50題, 分為聽力(第1題~第20題)、閱讀(第 21題~第 48題)和寫作(第 49、50題)三類題型。第1題~第10題為非捆綁式題組項目。第11題~第48題包含了4個捆綁式題組。第49、50題為獨立的寫作題;

      (3)共考查 2個單元內容, 考慮到內容平衡問題,將2個單元內容按如下方案設定:第1題~第5題、第11題~第15題、第2個捆綁式題組和第41題~第44題均考查單元1的內容, 共包含24題; 其余題目(除49、50外)考查單元2的內容, 同樣包含24題。第49、50題均涉及2個單元的內容;

      (4)該模擬測驗既包含二級評分項目也包含多級評分項目。第 1題~第 40題均為二級評分項目,第 4個捆綁式題組為三級評分項目(如:一篇閱讀材料下面配上多道填空題或問答題), 第 49、50為6級評分項目。

      5.1.2 被試能力和題組效應參數設定

      表2 模擬測驗一結果

      圖4 實驗2模擬測驗設計示意圖

      生成。那么結合5.1.1中的題型設定, 表3給出了模擬測驗二中各項目包含的項目內多維題組效應及評分方式。

      表3 實驗 2各項目包含的項目內多維題組效應及評分方式

      5.1.3 項目參數設定

      (1)測驗前 40題為二級評分項目, 其參數分布同4.1.3;

      (2)第41題~第48題的步驟難度參數分布設定為滿足

      U

      (?0.5, 2.5)且第1臨界參數分布滿足

      τ

      U

      (?1, 0);(3)第49、50題的步驟難度參數分布設定為滿足

      U

      (0.5, 2.5), 定位參數設定為

      b=b

      =1.5且它們的第1臨界參數均取自

      τ

      U

      (?1, 0), 于是有:第2臨界參數

      τ

      =

      τ

      +|

      τ

      |/2、第 3 臨界參數

      τ

      =

      τ

      +|

      τ

      |/2、第 4 臨界參數

      τ

      =

      τ

      +|

      τ

      |/2、第 5 臨界參數

      τ

      =

      τ

      +|

      τ

      |/2, 最終有:

      τ

      +

      τ

      +

      τ

      +

      τ

      +

      τ

      =0。

      5.2 被試作答模擬及評價指標

      實驗2中的模擬被試作答以及評價指標同實驗1中大體一致(見4.2)。所不同的是, 為了能更好地呈現出MTERM、RTM和PCM在處理模擬作答數據時的差異, 在實驗2中還添加了1個相對評價指標:即絕對差異均值(the mean of the absolute value of differences, MAD):

      MAD作為對評價指標結果進行評價的指標,其值越小說明參數估計在某評價指標上的整體表現越好, 其中

      ζ

      為某評價指標值, X表示某評價指標的數量。

      5.3 實驗2結果與結論

      5.3.1 實驗2結果

      實驗2結果見表4 (限于篇幅原因只列出了部分實驗結果), 表中分別列出了 MTERM、RTM 和PCM的參數估計返真性結果。

      從單個模型的結果看, 其中MTERM對隨機效應參數(被試能力參數和題組效應參數)的估計,Bias指標值介于[?0.085, 0.026]之間, RMSE指標值介于[0.029, 0.104]之間, ARB指標值介于[0.008,0.213]之間。對于項目參數的估計(二級評分項目難度參數、多級評分項目定位參數和臨界參數), Bias指標值介于[?0.038, 0.031]之間, RMSE指標值介于[0.039, 0.149]之間, ARB指標值介于[0.001, 0.752]之間。整體而言, 基于MTERM的參數估計返真性很好, 且根據 ARB指標值, 絕大多數參數估計值是可以被接受的(第43題、第46題和第48題的臨界參數接近于0, 導致

      τ

      、

      τ

      τ

      的ARB指標值較大, 下同)。

      表4 模擬測驗二結果

      RTM對隨機效應參數的估計, Bias指標值介于[?0.048, 0.561]之間, RMSE 指標值介于[0.076,0.566]之間, ARB指標值介于[0.038, 1.091]之間。而對于項目參數的估計, Bias指標值介于[?0.311,0.382]之間, RMSE指標值介于[0.038, 0.386]之間,ARB指標值介于[0.001, 5.339]之間。整體而言,RTM 對隨機效應參數的估計表現較差, 由于忽略了

      γ

      γ

      這兩類題組效應, 導致 RTM 對

      θ

      γ

      都出現了較大的正偏差估計。而RTM對項目參數的估計表現較好, 且根據 ARB指標值, 大多數項目參數估計值也是可以被接受的。這說明, 如若測驗中存在捆綁式題組效應以外的其他題組效應時,僅將捆綁式題組效應進行分離仍會出現一定的參數偏差估計, 且對隨機效應參數的估計影響較大,進而導致對被試能力的不準確估計。

      PCM 對隨機效應參數的估計, Bias指標值為0.012, RMSE指標值為0.019, ARB指標值為0.012。而對于項目參數的估計, Bias指標值介于[?0.039,0.501]之間, RMSE指標值介于[0.036, 0.504]之間,ARB指標值介于[0.037, 20.389]之間。整體而言,PCM 對隨機效應參數的估計表現較好, 而對項目參數的估計表現較差, 且根據 ARB指標值, 大多數項目參數估計值也是不可以被接受的(尤其是那些被歸屬于某個捆綁式題組之中的項目, 其參數估計值偏差更大, 精度更差)。這說明, 采用忽略潛在的題組效應的PCM去分析測驗數據時往往會導致項目參數的偏差估計:當“真值”為正數時會產生負偏差, 為負數時會產生正偏差; 即參數估計存在收縮效應(shrunken effect)。這與 Wang和 Wilson(2005b; 2005c)的結論一致。

      通過MAD指標值可對3個模型的數據分析結果進行橫向對比。對于Bias指標, 三模型的MAD指標值分別為 0.017、0.086和 0.183。對于 RMSE指標, 三模型的 MAD指標值分別為 0.065、0.114和0.197。而對于ARB指標, 三模型的MAD值分別為0.052、0.254和0.717。這說明MTERM的參數估計在Bias、RMSE和ARB這3個指標上的表現均是最好的, RTM的參數估計表現次之, 表現最差的是PCM的參數估計。

      由于 ConQuest軟件采用 MMLE, 則測驗信度可描述為:

      5.3.2 實驗2結論

      由實驗2結果表明:(1)當測驗存在項目內多維題組效應, 采用忽略題組效應的標準項目反應模型會導致對項目參數的偏差估計, 高估測驗的信度。僅采用RTM把明顯的捆綁式題組效應進行分離而忽略其他潛在的題組效應, 同樣會導致參數的偏差估計; 其中對被試能力參數估計的偏差大于對項目參數的估計偏差, 另外測驗的信度仍會被高估。(2)MTERM相對于RTM和標準項目反應模型更具普適性, 即便當被試作答數據不存在題組效應或只存在項目內單維題組效應時, 測驗分析采用 MTERM也能得到較好的參數估計結果。

      表5 輔助實驗結果

      6 總結與展望

      隨著當今心理與教育領域測驗的發(fā)展, 測驗已經出現了由采用獨立多項選擇題向采用題組的過渡趨勢。為了滿足實際測驗的需要, 對題組進行研究的必要性日顯突出。本文首先對“題組(testlet)”的本質進行了詮釋, 并基于此提出了項目內多維題組效應的概念。在認識到關于題組反應模型的已有研究均假設題組項目反應僅受到1個共同刺激的影響而無法處理項目內多維題組效應后, 本研究基于Rasch模型同時提出了二級評分和多級評分的MTERM, 新模型亦可看作是對 RTM 的多維度拓廣。全文共設計了2個模擬實驗, 實驗1結果認為:ConQuest軟件能夠為 MTERM 提供較好的參數估計返真性, 其為在模擬測驗二中對比 MTERM、RTM和PCM在處理包含項目內多維題組效應數據時的表現提供了前提保證。由實驗2結果可知:(1)當測驗存在項目內多維題組效應, 僅采用 RTM 把明顯的捆綁式題組效應進行分離而忽略其他潛在的題組效應, 會導致參數的偏差估計, 其中對被試能力參數估計的偏差大于對項目參數的估計偏差,甚或高估測驗信度。(2) MTERM相對更具普適性,即便當被試作答數據不存在題組效應或只存在項目內單維題組效應, 測驗分析采用MTERM也能得到較好的參數估計結果。整體來看, MTERM合理、有效, 達到了實驗目的。

      本研究中的測驗分析基于使用3.4GHz的Inter Core i7-3770處理器、8GB的DDR3 1333MHZ內存的個人電腦。每次循環(huán)需耗費15分鐘~45分鐘時長, 該分析速度可適用于分析絕大多數的真實測驗數據。

      當然, 本研究還存在著些許值得今后進一步探討的地方, 如:(1)雖然 MTERM 是基于“心理科學領域內的客觀測量”—— Rasch模型開發(fā)的, 但Rasch模型對測驗編制質量和數據質量要求很高,除 PISA、TMISS等國際大型考試外, 現實中已有的測驗編制質量和數據質量通常是無法達標的。為了能更好的去擬合現實測驗中已有的數據, 今后可嘗試對 MTERM 多參數拓廣至多維題組效應雙參數模型甚至是三參數模型。(2)近期, 多水平題組模型、高階題組模型等一些新的單維題組效應模型的提出, 為測驗編制和分析人員提供了新的理論和模型支持。今后還可嘗試將已有的單維題組效應模型拓廣至多維題組效應模型, 為題組反應模型在實際測驗中的應用和推廣做出更大的貢獻。(3)目前, 已經有一些基于單維題組效應模型的 CAT研究報告(如: Keng, 2008; Murphy, Dodd, & Vaughn, 2010;Chien & Shin, 2013), 今后亦可嘗試探討或開發(fā)基于多維題組效應模型的CAT。

      致謝:

      感謝兩位外審專家對本研究提出的修改意見,你們的付出為提升本文質量提供了極大的幫助。Agresti, A. (2010).

      Analysis of ordinal categorical data

      (2nd ed.). New York: John Wiley & Sons.Andrich, D. (1978). A rating formulation for ordered response categories.

      Psychometrika, 43

      (4), 561–573.Adams, R. J., Wilson, M., & Wang, W.-C. (1997). The multidimensional random coefficients multinomial logit model.

      Applied Psychological Measurement, 21

      (1), 1–23.Brandt, S. (2008). Estimation of a Rasch model including subdimensions.

      IERI Monograph Series: Issues and Methodologies in Large-scale Assessments,1

      , 51–69.Bond, T. G., & Fox, C. M. (2007).

      Applying the rasch model:Fundamental measurement in the human sciences

      (2nd ed.).Mahwah, N.J.: Erlbaum.Bradlow, E. T., Wainer, H., & Wang, X. (1999). A Bayesian random effects model for testlets.

      Psychometrika, 64

      (2),153–168.

      Cai, L., Du Toit, S. H. C., & Thissen, D. (2011). IRTPRO:Flexible, multidimensional, multiple categorical IRT modeling [Computer software].Chicago, IL: Scientific Software International.

      Chien, Y., & Shin, C. D. (2013).

      An Adaptive-within-testlet Item Selection Method with Both testlet Level and Test Level Content Balancing in CAT

      . 2013-05-01, Retrieved from https://www.pearsonassessments.com/hai/Images/tmrs/Research_Report_An_Item_Selection_Procedure_for_testle ts_CAT.pdfCook, K. F., Dodd, B. G., & Fitzpatrick, S. J. (1999). A comparison of three polytomous item response theory models in the context of testlet Scoring.

      Journal of Outcome Measurement, 3

      (1), 1–20.DeMars, C. E. (2006). Application of the bi-factor multidimensional item response theory model to testlet-based tests.

      Journal of Educational Measurement, 43

      (2), 145–168.DeMars, C. E. (2012). Confirming testlet effects.

      Applied Psychological Measurement, 36

      (2), 104–121.Fischer, G. H. (1973). The linear logistic test model as instrument in educational research.

      Acta Psychologica, 37

      ,359–374.Fukuhara, H., & Kamata, A. (2011). A bifactor multidimensional item response theory model for differential item functioning analysis on testlet-based items.

      Applied Psychological Measurement, 35

      (8), 604–622.Gibbons, R. D., & Hedeker, D. R. (1992). Full-information bi-factor analysis.

      Psychometrika, 57

      (3), 423–436.Hoogland, J. J., & Boomsma, A. (1998). Robustness studies in covariance structure modeling: An overview and a meta-analysis.

      Sociological Methods & Research, 26

      ,329–367.He, W., Li, F., Wolfe, E. W., & Mao, X. (2012, Apirl).

      Model selection for equating testlet-based tests in the NEAT design: An empirical study

      . Paper presented at the 2012 Annual NCME Conference.Huang, H.-Y., & Wang, W.-C. (2013). Higher-order testlet response models for hierarchical latent traits and testlet-based items.

      Educational and Psychological Measurement, 73

      , 491–511.Huang, H.-Y., & Wang, W.-C. (in press). Multilevel higher-order item response theory models.

      Educational and Psychological Measurement

      .Ip, E. H. (2010). Empirically indistinguishable multidimensional IRT and locally dependent undimensional item response models.

      British Journal of Mathematical and Statistical Psychology, 63

      , 395–416.Jiao, H., Kamata, A., Wang, S., & Jin, Y. (2012). A multilevel testlet model for dual local dependence.

      Journal of Educational Measurement, 49

      (1), 82–100.Keng, L. (2008).

      A Comparison of the performance of testlet-based computer adaptive tests and multistage tests

      (Unpublished doctorial dissertation). The University of Texas at Austin.Linacre, J. M. (1989).

      Many-facet Rasch measurement

      . Chicago:Measurement, Evaluation, Statistics, and Assessment Press.Li, Y., Bolt, D. M., & Fu, J. (2006). A comparison of alternative models for testlets.

      Applied Psychological Measurement, 30

      (1), 3–21.Li, Y., Bolt, D. M., & Fu, J. (2005). A test characteristic curve linking method for the testlet model.

      Applied Psychological Measurement, 29

      (5), 340–356.Liu, Y., & Liu, H.-Y. (2012). When should we use testlet model? A comparison study of bayesian testlet randomeffects model and standard 2-PL bayesian model.

      Acta Psychologica Sinica, 44

      (2), 263?275.[劉玥, 劉紅云. (2012). 貝葉斯題組隨機效應模型的必要性及影響因素.

      心理學報, 44

      (2), 263–275.]Li, Y., Li,S., & Wang, L. (2010).

      Application of a general polytomas testlet model to the reading section of a large-scale English language assessment

      (ETS Report RR-10-21). Princeton, NJ: Educational Testing Service.Muraki, E. (1992). A generalized partial credit model:Application of an EM algorithm.

      Applied Psychological Measurement, 16

      (2), 159–176.Masters, G. N. (1982). A rasch model for partial credit scoring.

      Psychometrika, 47

      (2), 149–174.Marais, I., & Andrich, D. (2008). Formalizing dimension and response violations of local independence in the unidimensional Rasch model.

      Journal of Applied Measurement,9

      (3), 200–15.Mislevy, R. J., Beaton, A. E., Kaplan, B., & Sheehan, K. M.(1992). Estimating population characteristics from sparse matrix samples of item responses.

      Journal of Educational Measurement, 29

      , 133–161.Murphy, D. L., Dodd, B. G., & Vaughn, B. K. (2010). A comparison of item selection techniques for testlets.

      Applied Psychological Measurement, 34

      (6), 424–437.Muthén, L. K., & Muthén, B. O. (2012).

      Mplus user’s guide

      (7th ed.). Los Angeles, CA: Muthén and Muthén.Rosenbaum, P. R. (1988). Item bundles.

      Psychometrika, 53

      (3),349–359.Rijmen, F. (2009).

      Three multidimensional models for testlet-based tests: Formal relations and an empirical comparison.

      (ETS Report RR-09-37). Princeton, NJ:Educational Testing Service.Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores.

      Psychometrika Monograph Supplement, 17

      , 1–100.

      Spiegelhalter, D. J., Thomas, A., & Best, N. (2003). WinBUGS version 1.4 [Computer Program]. Cambridge, UK: MRC Biostatistics Unit, Institute of Public Health.

      Sireci, S. G., Thissen, D., & Wainer, H. (1991). On the reliability of testlet-based tests.

      Journal of Educational Measurement, 28

      (3), 237–247.van der Linden, W. J., Klein Entink, R. H., & Fox, J.-P. (2010).IRT parameter estimation with response times as collateral information.

      Applied Psychological Measurement, 34

      ,327–347.Wainer, H. (1995). Precision and differential item functioning on a testlet-based test: The 1991 Law School Admissions Test as an example.

      Applied Measurement in Education,8

      (2), 157–186.Wang, W.-C. (2004). Rasch measurement theory and application in education and psychology.

      Journal of Education & Psychology, 27

      (4), 637–694.[王文中. (2004). Rasch測量理論與其在教育和心理之應用.

      教育與心理研究, 27

      (4), 637–694.]Wilson, M., & Adams, R. J. (1995). Rasch models for item bundles.

      Psychometrika, 60

      , 181–198.Wainer, H., & Kiely, G. (1987). Item clusters and computerized adaptive testing: A case for testlets.

      Journal of Educational Measurement,24

      (3), 185–202.Wang, W.-C., & Wilson, M. (2005a). Assessment of differential item functioning in testlet-based items using the Rasch testlet model.

      Educational and Psychological Measurement,65

      (4), 549–576.Wang, W.-C., & Wilson, M. (2005b). Exploring local item dependence using a random-effects facet model.

      Applied Psychological Measurement, 29

      (4), 296–318.Wang, W.-C., & Wilson, M. (2005c). The rasch testlet model.

      Applied Psychological Measurement,29

      (2), 126–149.Wang, W.-C., & Wu, S-L. (2011). The random-effect generalized rating scale model.

      Journal of Educational Measurement,48

      , 441-456.Wainer, H., & Wang, X. (2000). Using a new statistical model for testlets to score TOEFL.

      Journal of Educational Measurement, 37

      (3), 203–220.

      Wu, M. L., Adams, R. J., Wilson, M., & Heldane, S. A. (2007).ACER ConQuest: Generalized item response modeling software (Version 2.0) [computer software]. Melbourne:Australian Council for Educational Research.

      Wainer, H., Bradlow, E. T., & Du, Z. (2000). Test-let response theory: An analog for the 3PL model using in testlet-based adaptive testing. In W. van der Linden & C. A. W. Glas(Eds.),

      Computerized adaptive testing: Theory and practice

      (pp. 245–269). London: Kluwer.Wang, X., Bradlow, E. T., & Wainer, H. (2002). A general Bayesian model for testlets: Theory and applications.

      Applied Psychological Measurement, 26

      (1), 109–128.Wainer, H., Bradlow, E. T., & Wang, X. (2007).

      testlet response theory and its applications

      . New York, NY:Cambridge University Press.Wu, R., Ding, S.-L., & Gan, W.-D. (2010). Test equating with testlets.

      Acta Psychologica Sinica, 42

      (3), 434?442.[吳銳, 丁樹良, 甘登文. (2010). 含題組的測驗等值.

      心理學報,42

      (3), 434–442.]Wang, W.-C., Jin, K.-Y., Qiu, X.-L., & Wang, L. (2012). Item response models for examinee-selected items.

      Journal ofEducational Measurement, 49

      (4), 419–445.Wang, W.-C., Wilson, M., & Adams, R. J. (1997). Rasch models for multidimensionality between items and within items.

      Objective Measurement: Theory Into Practice, 4

      ,139–155.

      Yao, L. (2003). BMIRT: Bayesian multivariate item response theory [Computer software]. Monterey, CA: CTB/McGraw-Hill.

      Yen, W. M. (1993). Scaling performance assessment:Strategies for managing local item dependence.

      Journal of Educational Measurement, 30

      (3), 187–213.Yan, Z. (2012). Objective measurement in psychological science: An overview of rasch model.

      Advances in Psychological Science, 18

      (8), 1298–1305.[晏子. (2010). 心理科學領域內的客觀測量—— Rasch模型之特點及發(fā)展趨勢.

      心理科學進展, 18

      (8), 1298–1305.]Zheng, C.-J., Guo, C.-Y., & Bian, Y.-F. (2011). Using testlet DIF procedures to detect testlet DIF in Chinese passage-based reading testing.

      Acta Psychologica Sinica,43

      (7), 830?835.[鄭蟬金, 郭聰穎, 邊玉芳. (2011). 變通的題組項目功能差異檢驗方法在篇章閱讀測驗中的應用.

      心理學報, 43

      (7),830–835.]Zhan, P.-D., Wang, W.-C., & Wang, L.-J. (2013). Testlet response theory: An introduction and new developments.

      Advances in Psychological Science, 21

      (12), 2265?2280.[詹沛達, 王文中, 王立君. (2013). 項目反應理論新進展之題組反應理論.

      心理科學進展, 21

      (12), 2265?2280.]

      猜你喜歡
      題組指標值參數估計
      善用變式題組突破二項展開式問題
      高中數理化(2024年1期)2024-03-02 11:43:39
      題組助力學習“光現象”
      題組助力學習“聲現象”
      基于新型DFrFT的LFM信號參數估計算法
      商榷這道商榷題的修改題組
      淺談食品中大腸菌群檢測方法以及指標值的對應關系
      維修性定性要求評價指標融合模型研究
      Logistic回歸模型的幾乎無偏兩參數估計
      統計與決策(2017年2期)2017-03-20 15:25:22
      基于向前方程的平穩(wěn)分布參數估計
      基于競爭失效數據的Lindley分布參數估計
      寿阳县| 紫金县| 滕州市| 密山市| 庆云县| 永善县| 集贤县| 雅安市| 鹤岗市| 恩平市| 桑植县| 白山市| 海城市| 浏阳市| 千阳县| 防城港市| 江门市| 吉隆县| 和龙市| 泸溪县| 巴青县| 唐河县| 沁水县| 黔南| 巢湖市| 南丰县| 安龙县| 柳河县| 清河县| 济阳县| 敖汉旗| 高邑县| 崇阳县| 丰台区| 松江区| 信丰县| 普格县| 和龙市| 芷江| 娱乐| 海宁市|