• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多維計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn):模型、技術(shù)和方法*

    2015-02-01 03:47:54毛秀珍
    心理科學(xué)進(jìn)展 2015年5期
    關(guān)鍵詞:題庫(kù)測(cè)驗(yàn)選題

    毛秀珍 辛 濤

    (1四川師范大學(xué)教育科學(xué)學(xué)院, 成都 610066) (2北京師范大學(xué)發(fā)展心理研究所, 北京 100875)

    1 引言

    多維項(xiàng)目反應(yīng)理論(multidimensional item response theory, MIRT)引入多維能力、多維項(xiàng)目區(qū)分度以及多個(gè)步驟難度參數(shù)模擬測(cè)驗(yàn)項(xiàng)目和被試間的相互作用, 采用概率模型來(lái)表征具有特定多維能力水平的被試正確答對(duì)特定項(xiàng)目的概率(Reckase, 2009)。一方面, MIRT能同時(shí)估計(jì)被試在測(cè)驗(yàn)每個(gè)維度上的能力水平, 實(shí)現(xiàn)測(cè)驗(yàn)的認(rèn)知診斷功能(Zhang & Stone, 2008)。于是, MIRT的應(yīng)用順應(yīng)了從 2001年美國(guó)法案“No Child Left Behind” (NCLB)到 2011“Race to the top”早期學(xué)習(xí)挑戰(zhàn)經(jīng)費(fèi)的設(shè)立, 再到我國(guó)《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010?2020)年》對(duì)教育認(rèn)知診斷功能的要求。另一方面, MIRT比項(xiàng)目反應(yīng)理論(item response theory, IRT)更適用于分析許多新形式的測(cè)驗(yàn)如認(rèn)知診斷測(cè)驗(yàn)、公務(wù)員考試、表現(xiàn)性評(píng)估以及寫作測(cè)驗(yàn)的項(xiàng)目和被試特征(van der Linden & Hambleton, 1997)。例如, Yao和Schwarz(2006)運(yùn)用 MIRT分析五年級(jí)學(xué)生寫作測(cè)驗(yàn)的二維結(jié)構(gòu)和項(xiàng)目特征; 涂冬波、蔡艷、戴海琦和丁樹(shù)良(2011)運(yùn)用 MIRT獲得瑞文高級(jí)推理測(cè)驗(yàn)的項(xiàng)目參數(shù)和被試的能力水平; 張軍(2011)運(yùn)用MIRT分析漢語(yǔ)水平考試(HSK)閱讀部分的潛在多維度結(jié)構(gòu); 許志勇、丁樹(shù)良和鐘君(2013)應(yīng)用MIRT分析2010年某省市高考數(shù)學(xué)理工試卷考查的五個(gè)能力維度, 并獲得各維度之間的相關(guān)系數(shù)和考生的多維能力水平。由此可見(jiàn), MIRT具有廣闊的應(yīng)用前景,是現(xiàn)代心理測(cè)量學(xué)的重點(diǎn)研究方向。

    計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(computerized adaptive testing, CAT)的核心是基于被試在已作答項(xiàng)目上的反應(yīng)估計(jì)其能力水平, 然后根據(jù)選題策略從剩余題庫(kù)中選擇最適合被試作答的項(xiàng)目施測(cè)被試,重復(fù)上述步驟直到測(cè)驗(yàn)結(jié)束。它包括采用的項(xiàng)目反應(yīng)模型、題庫(kù)、初始項(xiàng)目的選擇、選題策略、能力估計(jì)方法和測(cè)驗(yàn)終止規(guī)則幾個(gè)部分。根據(jù)CAT采用的測(cè)量模型, 可將其劃分為基于IRT的單維CAT (unidimensional CAT, UCAT); 基于MIRT的多維 CAT (multidimensional CAT, MCAT)以及以認(rèn)知診斷理論為基礎(chǔ)的認(rèn)知診斷 CAT (cognitive diagnostic CAT, CD-CAT)。

    MCAT與UCAT相比, 除了能同時(shí)分析被試在測(cè)驗(yàn)每個(gè)維度上的表現(xiàn)獲得更多診斷信息外,它還具有如下優(yōu)點(diǎn)。第一, Segall (1996)和Luecht(1996)研究表明, 在達(dá)到相同甚至更高測(cè)量精度時(shí), MCAT需要的項(xiàng)目比UCAT少1/3左右。第二,Frey和Seitz (2011)指出只有MCAT可用于多維測(cè)驗(yàn), UCAT不能用于這類測(cè)驗(yàn)。第三, MCAT不需要內(nèi)容平衡策略就能自動(dòng)滿足各個(gè)內(nèi)容領(lǐng)域的測(cè)量要求(Wang, Chang, & Boughton, 2011)。另外,雖然 MCAT提供的診斷信息不及 CD-CAT豐富,但它與CD-CAT相比具有以下特點(diǎn)。第一, MCAT有成熟的、可適用于二級(jí)和多級(jí)評(píng)分項(xiàng)目的反應(yīng)模型(Reckase, 2009), CD-CAT還將在一定時(shí)期內(nèi)受到多級(jí)評(píng)分項(xiàng)目認(rèn)知診斷模型研究的限制而局限于二級(jí)評(píng)分項(xiàng)目的研究。第二, MCAT根據(jù)數(shù)據(jù)與模型的擬合度分析測(cè)驗(yàn)維度, 而不需要分析表征項(xiàng)目與屬性間關(guān)系的Q矩陣(這正是認(rèn)知診斷評(píng)估的難點(diǎn)之一)。第三, MCAT中每個(gè)維度涵蓋的內(nèi)容通常比CD-CAT中屬性包含的內(nèi)容更多。一般地, 測(cè)驗(yàn)考查的屬性越多, CD-CAT的測(cè)量準(zhǔn)確性越低。因此, MCAT適用范圍比CD-CAT更廣。

    MCAT兼具M(jìn)IRT和CAT的優(yōu)點(diǎn), 其在實(shí)踐中突顯了測(cè)驗(yàn)的高效、快捷和診斷功能, 必將成為研究者關(guān)注的重點(diǎn)內(nèi)容之一。自Bloxom和Vale(1987)將UCAT推廣到多維以來(lái), MCAT的相關(guān)研究在最近幾年才有了突破性進(jìn)展。下面分別對(duì)MCAT的模型基礎(chǔ)、能力估計(jì)方法、選題策略和終止規(guī)則進(jìn)行介紹和評(píng)價(jià), 然后對(duì)今后的研究方向提出幾點(diǎn)思考和建議。

    2 MCA T的模型基礎(chǔ)

    測(cè)量模型貫穿CAT的始終, 決定分?jǐn)?shù)報(bào)告的形式也是影響測(cè)評(píng)結(jié)果準(zhǔn)確性和有效性的重要因素之一。根據(jù)項(xiàng)目記分方式可將多維項(xiàng)目反應(yīng)模型(multidimensional item response model, MIRM)劃分為二級(jí)評(píng)分項(xiàng)目反應(yīng)模型和多級(jí)評(píng)分項(xiàng)目反應(yīng)模型; 按完成任務(wù)時(shí)某一能力維度上的不足是否可以被其它優(yōu)勢(shì)能力所補(bǔ)償可將MIRM分為補(bǔ)償和非補(bǔ)償模型。Bolt和Lall (2003)指出(1)非補(bǔ)償模型產(chǎn)生的數(shù)據(jù), 補(bǔ)償模型和非補(bǔ)償模型具有相似擬合度; (2)由補(bǔ)償模型產(chǎn)生的數(shù)據(jù), 非補(bǔ)償模型的擬合度不高。于是, 本文僅討論補(bǔ)償MIRM。

    2.1 二級(jí)評(píng)分項(xiàng)目的MIRM

    針對(duì)二級(jí)評(píng)分項(xiàng)目, 下面主要介紹 logistic MIRM 和正態(tài)肩形 MIRM。另外, 全文中同一字母的含義相同, 且僅在首次出現(xiàn)時(shí)給予說(shuō)明。

    2.1.1 logi stic MIRM

    假設(shè)測(cè)驗(yàn)考查M個(gè)能力維度。向量標(biāo)量和ci分別表示項(xiàng)目i的區(qū)分度、斜率(截距)參數(shù)以及猜測(cè)參數(shù), 且T表示轉(zhuǎn)置。那么, 能力為的被試p正確作答項(xiàng)目i的概率用三參數(shù) logistic MIRM(multidimensional extension of three-parameter logistic model, M3PL)表示如下(Reckase, 1985):

    此外, MIRT還定義原點(diǎn)到項(xiàng)目反應(yīng)曲面上點(diǎn)的連線中的最大斜率值為多維項(xiàng)目區(qū)分度(multidimensional discrimination, MDISC),用以評(píng)價(jià)項(xiàng)目的整體區(qū)分度; 原點(diǎn)到項(xiàng)目反應(yīng)曲面上點(diǎn)的連線中具有最大斜率的點(diǎn)之間的距離Bi表示多維項(xiàng)目難度(multidimensional difficulty,MDIFF), 且

    2.1.2 正態(tài)肩形MIRM

    正態(tài)肩形 MIRM 的一般形式是(Samejima,1974):

    2.2 多級(jí)評(píng)分項(xiàng)目的MIRM

    2.2.1 Rasc h模型的多維推廣

    將Rasch模型推廣到多維能力空間沒(méi)有l(wèi)ogistic模型的推廣那么容易。因?yàn)? 如果 M2PL中的各個(gè)分量等于 1, 則于是,除能力參數(shù)等于各個(gè)維度能力值之和外, 它和Rasch模型沒(méi)有任何區(qū)別。Adams, Wilson和Wang(1997)推廣了Adams和Wilson (1996)提出的廣義Rasch模型, 得到適用于二分和多分項(xiàng)目的多維廣義Rasch模型, 又稱為多維隨機(jī)系數(shù)多項(xiàng)logit模型(multidimensional random coefficient multinomial logit model, MRCMLM) (Wang, 2014b)。Kelderman和 Rijkes (1994)還給出另一個(gè)非常相似的多分Rasch MIRM。假設(shè)項(xiàng)目i的個(gè)反應(yīng)類別分別對(duì)應(yīng)的得分為0,1,..,Ki, 被試p在項(xiàng)目i上得k(0,1,...,Ki)分的概率用MRCMLM表示為:

    其中,M維列向量表示第i題第k+1個(gè)反應(yīng)類別上的計(jì)分向量, 它反映影響項(xiàng)目i得k分的能力維度; 列向量稱為第i題在第k+1個(gè)反應(yīng)類別的設(shè)計(jì)向量; 列向量表示試題參數(shù)向量。的行數(shù)與的行數(shù)相等, 等于所有項(xiàng)目的Ki之和。舉例來(lái)說(shuō), 若一份測(cè)驗(yàn)包含2個(gè)項(xiàng)目考查2個(gè)維度。其中, 第一題是二級(jí)計(jì)分項(xiàng)目, 考查第一個(gè)能力維度。第二題有三種反應(yīng)類別, 得1分受到第二個(gè)能力維度的影響, 于是得2分受到兩個(gè)能力維度的影響, 則因此,對(duì)第二個(gè)項(xiàng)目第2個(gè)反應(yīng)類別而言, 有通過(guò)(4)式即可求被試p在第2題得1分的概率。更多參數(shù)設(shè)置的例子請(qǐng)參見(jiàn)許志勇等(2013)。特別地, 對(duì)二分項(xiàng)目中k=0時(shí), (4)式分母對(duì)應(yīng)的指數(shù)部分等于1。于是,對(duì)二級(jí)評(píng)分項(xiàng)目的多維Rasch模型表示如下:

    2.2.2 多維分部評(píng)分模型(multidimensional partial credit model, MPCM)

    如果項(xiàng)目各個(gè)維度的區(qū)分度不相等, 被試p在項(xiàng)目i上得k(k=0,1,...,Ki)分的概率可用多維兩參數(shù)分部評(píng)分模型(multidimensional two parameter partial credit model, M-2PPC)計(jì)算(Yao & Schwarz,2006)。M-2PPC的模型表達(dá)式為:

    上式中δiu(u=0,1,...,Ki)表示得u分的閾值參數(shù), 且。此外, 他們還推導(dǎo)了M-2PPC模型中項(xiàng)目難度、區(qū)分度以及信息量的計(jì)算方法, 為該模型的廣泛應(yīng)用奠定了基礎(chǔ)。

    2.2.3 多維等級(jí)反應(yīng)模型(multidimensional grade d response model, MGRM)

    當(dāng)完成項(xiàng)目i需要多個(gè)步驟, 并且完成第k步需要完成前面k-1步時(shí), 一般用MGRM模擬正確作答概率。令得分大于等于分的概率為于是且那么被試恰好得k分的概率表示為:

    Muraki和 Carlson (1993)采用正態(tài)肩形模型得到其中標(biāo)量被定義為被試達(dá)到第k個(gè)等級(jí)的類別參數(shù), 它表示被試答對(duì)第k步的“難度參數(shù)”,等級(jí)越高, 其值越大, 且和只有從數(shù)據(jù)估計(jì)而得。為避免積分運(yùn)算的復(fù)雜性, 杜文久和肖涵敏(2012)用logistic函數(shù)表示得到 logistic形式的MGRM。他們還以二維 MGRM 為例分析其數(shù)學(xué)函數(shù)圖象和性質(zhì)并推導(dǎo)項(xiàng)目信息函數(shù)的計(jì)算。

    2.3 MIRM簡(jiǎn)評(píng)

    大部分 MIRM 直接從對(duì)應(yīng)項(xiàng)目反應(yīng)模型(item response model, IRM)推廣而得, 具有類似于IRM的特點(diǎn)。例如(5)式所示的二分MRCMLM模型中能力的充分統(tǒng)計(jì)量是對(duì)被試在每個(gè)項(xiàng)目i(i=1,2,...,L,L表示被試作答的所有項(xiàng)目數(shù))上的得分與向量之積求和, 即被試正確作答的項(xiàng)目i(i=1,2,...,L)的向量之和; 項(xiàng)目的參數(shù)的充分統(tǒng)計(jì)量是對(duì)所有被試在該項(xiàng)目上的得分與向量之積求和, 即正確作答該項(xiàng)目的被試人數(shù)乘以向量(Reckase, 2009)。又如 MGRM中步驟難度參數(shù)遞增, 而MPCM中步驟難度參數(shù)不一定遞增。再如, MGRM 中“難度參數(shù)”bi,k與GRM 中等級(jí)難度的意義一致。MIRM, 特別是多分MIRM描述實(shí)際數(shù)據(jù)潛在維度結(jié)構(gòu)的程度如何,MIRM 的項(xiàng)目統(tǒng)計(jì)特征、測(cè)驗(yàn)特征等都還有待深入研究。此外, 康春花和辛濤(2010)還強(qiáng)調(diào)今后需要開(kāi)發(fā)更多程序估計(jì)高維多級(jí)評(píng)分項(xiàng)目MIRM的模型參數(shù)。

    3 MCAT的能力估計(jì)方法

    Bloxom和 Vale (1987)將 Owen (1975)的序列更新程序推廣到 MCAT, 通過(guò)一系列正態(tài)逼近獲得能力的點(diǎn)估計(jì)。Tam (1992)針對(duì)二維正態(tài)肩形模型推導(dǎo)了迭代極大似然能力估計(jì)方法, Segall(1996)推導(dǎo)了 M3PL中能力的極大似然估計(jì)和貝葉斯估計(jì)算法, Yao (2014a)還給出M-2PPC的相應(yīng)算法。具體而言, 記包含已施測(cè)的k-1個(gè)項(xiàng)目, 項(xiàng)目反應(yīng)記為

    3.1 極大似然估計(jì)方法(maximum li kelihood estimation, MLE)

    一般采用 Newton-Raphson迭代算法求其近似解。令的第h次和h+1次逼近分別記為和為保證算法收斂, 實(shí)際采用如下 Newton-Raphson程序:

    3.2 貝葉斯估計(jì)方法

    貝葉斯能力估計(jì)方法通常指最大后驗(yàn)估計(jì)(maximum a posterior estimation, MAP)和期望后驗(yàn)估計(jì)(expected a posterior estimation, EAP)。前者求后驗(yàn)概率密度的最大值, 后者對(duì)其求期望。

    3.2.1 MAP

    基于貝葉斯定理, 令的先驗(yàn)密度服從均值為0μ, 協(xié)方差矩陣為Σ0的多變量正態(tài)分布。基于的邊際概率可得的后驗(yàn)密度為欲求等價(jià)于求下述非線性方程組的解。

    類似于 MLE方法, 實(shí)際上 Newton-Raphson迭代程序用代替(9)式中W的r行s列元素等于

    3.2.2 E AP

    EAP方法通過(guò)高斯-埃爾米特求積公式或Monte Carlo積分求能力維度l(l=1,2,…,M)的后驗(yàn)邊際期望估計(jì)值, 即進(jìn)而獲得

    3.3 能力估計(jì)方法簡(jiǎn)評(píng)

    上述方法具有以下特點(diǎn)。首先, MLE在測(cè)驗(yàn)之初對(duì)全部正確(錯(cuò)誤)回答項(xiàng)目的被試不能得到有限估計(jì)值, 但其估計(jì)偏差小于貝葉斯方法。其次, 貝葉斯方法中后驗(yàn)分布的返真性極大地受到先驗(yàn)分布的影響從而使其估計(jì)值往往趨于先驗(yàn)分布的均值, 但它們的估計(jì)均方根誤差小于MLE方法。再次, 與MAP方法相比, EAP方法的估計(jì)方差更小更穩(wěn)健, 但其計(jì)算量更大、計(jì)算時(shí)間更長(zhǎng)。一般地, 隨著測(cè)驗(yàn)項(xiàng)目的增多, MLE、EAP和MAP的估計(jì)值越來(lái)越接近(Reckase, 2009)。因此, 大部分研究都采用MLE或者M(jìn)AP方法。另外, van der Linden (1999)還推導(dǎo)估計(jì)線性組合能力的MLE方法, Wang (2014b)介紹了基于單維加權(quán)似然估計(jì)方法(Warm, 1989)推廣而得的多變量加權(quán)MLE方法。

    MCAT的測(cè)驗(yàn)條件通常比較復(fù)雜。它不僅需要考慮各個(gè)維度之間的相關(guān), 還需要考慮測(cè)驗(yàn)是項(xiàng)目間多維還是項(xiàng)目?jī)?nèi)多維。所謂項(xiàng)目間多維是指測(cè)驗(yàn)考查多種能力, 但是每個(gè)項(xiàng)目只考查一種能力; 項(xiàng)目?jī)?nèi)多維是指測(cè)驗(yàn)至少包含一個(gè)同時(shí)考查多種能力的項(xiàng)目。除此之外, 測(cè)驗(yàn)長(zhǎng)度、每個(gè)量表的項(xiàng)目數(shù)、總體分布也都是影響估計(jì)準(zhǔn)確性的重要因素。于是, 在不同測(cè)驗(yàn)條件下探討各種能力估計(jì)方法的特點(diǎn)、比較它們的表現(xiàn)對(duì) MCAT實(shí)踐具有重要意義。

    4 MCA T的選題策略

    選題策略決定被試作答的測(cè)驗(yàn)項(xiàng)目, 關(guān)系到測(cè)驗(yàn)結(jié)果的準(zhǔn)確性、測(cè)驗(yàn)安全和測(cè)驗(yàn)信、效度, 是MCAT的重要環(huán)節(jié)之一。

    4.1 提高測(cè)量精度的選題策略

    MCAT與UCAT在選題方面存在兩點(diǎn)顯著差異。第一, UCAT要求在一個(gè)維度上達(dá)到最優(yōu)估計(jì),而MCAT要求同時(shí)在多個(gè)維度上達(dá)到最優(yōu)估計(jì)。第二, UCAT中單一的測(cè)驗(yàn)維度是測(cè)驗(yàn)考查的目標(biāo), 而MCAT中項(xiàng)目敏感的維度不一定都是研究者關(guān)注的目標(biāo)。換句話說(shuō), 研究者可能不同程度地關(guān)注MCAT考查的各個(gè)維度。以下用R表示題庫(kù), 其中的項(xiàng)目記為表示作答k-1個(gè)項(xiàng)目后的能力估計(jì)值,ik表示將施測(cè)的第k個(gè)項(xiàng)目, 它選自剩余題庫(kù)

    4.1.1 基于項(xiàng)目信息量的選題方法

    研究者不僅將 Fisher信息、Kullback-Leibler(KL)信息、shannon熵和互信息推廣到多維能力空間, 而且深入探討了各種方法之間的關(guān)系。

    4.1.1.1 基于Fisher信息矩陣的選題方法

    MIRT中Fisher信息量不再是一個(gè)實(shí)數(shù), 而是一個(gè)矩陣。例如, 以M3PL為例, 項(xiàng)目i的Fisher信息矩陣等于施測(cè)k-1個(gè)項(xiàng)目后, 能力區(qū)間估計(jì)構(gòu)成一個(gè)橢圓(橢球體), 其面積(體積)的方差-協(xié)方差矩陣的行列式成正比, 且于是,為使施測(cè)第k個(gè)項(xiàng)目后Vk下降最快, Segall (1996,2010)提出選擇使測(cè)驗(yàn)Fisher信息矩陣行列式值最大的方法, 又稱為D-優(yōu)化方法(Mulder & van der Linden, 2009)。具體而言, 該方法依據(jù)下式

    選擇項(xiàng)目ik。其中, det表示求行列式的值,和分別表示項(xiàng)目集Sk?1和項(xiàng)目j在處的信息矩陣。當(dāng)考慮能力先驗(yàn)分布時(shí)可得貝葉斯 D-優(yōu)化方法的項(xiàng)目選擇標(biāo)準(zhǔn)劉發(fā)明和丁樹(shù)良(2006)還推導(dǎo)了與貝葉斯 D-優(yōu)化規(guī)則等價(jià)的項(xiàng)目選擇方法。

    另外, Mulder和van der Linden (2009)從能力估計(jì)橢圓(橢球體)的最大軸與能力估計(jì)誤差的關(guān)系出發(fā)提出最小化能力極大似然估計(jì)的漸近抽樣方差的和, 稱為A-優(yōu)化方法。

    該方法與Wang, Chang和Boughton (2013)采用的T-規(guī)則選題方法本質(zhì)上是相同的。上述方法的表現(xiàn)均依賴中間能力估計(jì)與能力真值的接近程度, 而測(cè)驗(yàn)初期二者往往相差很大。類似于UCAT, MCAT中一種弱化此條件的方法就是KL方法。

    4.1.1.2 基于KL信息量的選題方法

    KL與Fisher信息一樣具有可加性, 即測(cè)驗(yàn)信息等于項(xiàng)目信息之和。項(xiàng)目i的KL信息表示為

    由于真實(shí)能力未知, 通常計(jì)算全局 KL信息量指標(biāo)(記為KI), 即

    其中r通常取值3, 進(jìn)而KI方法選擇使KI值最大的項(xiàng)目。van der Linden等人還基于KL信息提出以下三種項(xiàng)目選擇方法。

    (1)后驗(yàn)期望KL信息方法(B K)

    Veldkamp和van der Linden (2002)提出以能力后驗(yàn)分布為權(quán)重對(duì)項(xiàng)目 KL距離求期望的B K方法, 其項(xiàng)目選擇指標(biāo)為:

    研究證明, 該方法與貝葉斯 D-優(yōu)化方法具有相似的測(cè)量精度, 但B K方法更適用于具有內(nèi)容約束的測(cè)驗(yàn)(Mulder & van der Linden, 2010)。

    (2)能力后驗(yàn)分布的KL距離方法(P K)

    適應(yīng)性測(cè)驗(yàn)中, 每施測(cè)一個(gè)項(xiàng)目后都會(huì)更新能力的后驗(yàn)分布。然而, 如果施測(cè)一個(gè)不恰當(dāng)?shù)捻?xiàng)目將使的后驗(yàn)密度變化不大。于是, Mulder和van der Linden (2010)建議選擇在兩個(gè)連續(xù)后驗(yàn)分布之間具有最大 KL距離的項(xiàng)目, 記為KP方法。其項(xiàng)目選擇標(biāo)準(zhǔn)為:

    (3)互信息(mutual information)方法(IM)

    互信息表示隨機(jī)變量X,Y的聯(lián)合分布f(x,y)和邊際分布積的KL距離。若X和Y表示連續(xù)變量, 則特別地, 令則IM項(xiàng)目選擇指標(biāo)表示為

    Mulder和van der Linden (2010)證明互信息等價(jià)于與之間KL信息量的均值, 而P K等價(jià)于之間KL信息量的均值。由于KL具有非對(duì)稱性, 因此P K和IM本質(zhì)上并不相同。

    KB、均定義了兩個(gè)概率分布間的KL距離。對(duì)應(yīng)反應(yīng)分布間 KL距離以為權(quán)重的期望。KP和IM則從不同角度定義兩個(gè)連續(xù)后驗(yàn)分布的 KL距離。另外, 根據(jù) Mulder和 van der Linden (2010)及Wang (2014a), 可知Wang和Chang (2011)與Wang(2014a)中提到的基于貝葉斯更新的KL信息(KLB)方法實(shí)質(zhì)上與IM方法等價(jià)。

    4.1.1.3 連續(xù)熵方法(continuous entropy method, CEM)

    香農(nóng)熵(Shannon entropy)測(cè)量隨機(jī)變量分布內(nèi)在不確定性程度。當(dāng)隨機(jī)變量X服從連續(xù)分布時(shí), 香農(nóng)熵就是連續(xù)熵, 也稱為微分熵。Wang和Chang (2011)指出在作答k-1個(gè)項(xiàng)目之后后驗(yàn)分布的連續(xù)熵為:若選擇第k個(gè)項(xiàng)目之前對(duì)項(xiàng)目j的反應(yīng)求期望, 便得到如下期望后驗(yàn)連續(xù)熵:

    CEM 方法將選擇Rk中使期望后驗(yàn)連續(xù)熵最小的項(xiàng)目。

    4.1.1.4 基于項(xiàng)目信息量選題方法簡(jiǎn)評(píng)

    總結(jié)相關(guān)研究, 不難發(fā)現(xiàn)上述方法具有如下關(guān)系。第一, KI方法等價(jià)于最大化Fisher信息矩陣的跡(即其特征值之和), 盡管它更傾向于選擇所有維度具有高區(qū)分度的項(xiàng)目, 它也選擇各維度區(qū)分度參數(shù)差異較大的項(xiàng)目??傊? KI方法嚴(yán)重依賴MDISC值選擇項(xiàng)目。D-優(yōu)化方法等價(jià)于最大化Fisher信息矩陣行列式的值, 傾向于選擇在某一維度具有高區(qū)分度的項(xiàng)目(Wang, Chang, & Boughton,2011)。第二, KL與Fisher信息都很容易從單維推廣到多維。無(wú)論能力維度多大,都是一個(gè)數(shù)量值, 而基于 Fisher信息矩陣選題需要將信息矩陣約減為一個(gè)單維指標(biāo)值。第三, CEM試圖極大地降低的后驗(yàn)熵, 間接使從下面項(xiàng)目中獲得關(guān)于能力的信息最大化, 而IM則直接使獲得的信息最大化, 二者的不同在于熵的基線不同。第三, 當(dāng)題庫(kù)項(xiàng)目各維度的區(qū)分度參數(shù)分布一致時(shí),IM和 D-優(yōu)化方法所選項(xiàng)目的重疊率最大, 其次是KI方法和D-優(yōu)化方法,IM與CEM或與KI方法所選項(xiàng)目的重疊率都更低。最后, 無(wú)論題庫(kù)項(xiàng)目各維度區(qū)分度參數(shù)分布是否一致,IM方法的測(cè)量精度最高, D-優(yōu)化和CEM方法的測(cè)量精度次之, KI方法的測(cè)量精度最低(Wang & Chang,2011)。

    4.1.2 基于項(xiàng)目參數(shù)選題

    基于項(xiàng)目信息量選題方法的計(jì)算量通常很大,而項(xiàng)目選擇標(biāo)準(zhǔn)總離不開(kāi)項(xiàng)目特征參數(shù)。于是,研究者還根據(jù)項(xiàng)目參數(shù)提出一些簡(jiǎn)便的選題方法。例如, Bloxom和Vale (1987), Tam (1992)以難度和能力匹配來(lái)選擇項(xiàng)目; Wang等(2011)基于二維能力空間中 KI方法的選題特征提出兩種簡(jiǎn)化的KL信息指標(biāo)這兩種方法與 KI方法相比極大地降低了計(jì)算復(fù)雜度、縮短了計(jì)算時(shí)間的同時(shí)沒(méi)有明顯降低測(cè)量精度。對(duì)高維測(cè)驗(yàn),可由代替, 其中i,j=1,2,…,M,且i≠j。但是它們?cè)谌S及更高維能力空間的表現(xiàn)還有待進(jìn)一步研究證實(shí)。

    4.1.3 復(fù)合能力的項(xiàng)目選擇方法

    當(dāng)測(cè)驗(yàn)考查的各個(gè)維度的重要程度不同時(shí),MCAT通常要求在能力線性組合處達(dá)到最優(yōu)。van der Linden (1999)以二維能力空間為例, 給出估計(jì)復(fù)合能力分?jǐn)?shù)方差的計(jì)算方法后提出第k個(gè)項(xiàng)目應(yīng)使復(fù)合分?jǐn)?shù)具有最小誤差方差, 即

    研究表明, 復(fù)合分?jǐn)?shù)中權(quán)重λ的值對(duì)測(cè)量精度影響不大。復(fù)合能力值處于極端水平被試的估計(jì)誤差比中等水平被試的估計(jì)誤差更大, 但如果增加測(cè)驗(yàn)長(zhǎng)度可以提高測(cè)量精度。

    另外, Mulder和van der Linden (2009, 2010)針對(duì)測(cè)驗(yàn)考查無(wú)關(guān)能力維度和復(fù)合能力分?jǐn)?shù)的情況, 分別給出給出D-優(yōu)化和A-優(yōu)化,和的相應(yīng)變式。他們指出大部分條件下 D-優(yōu)化和A-優(yōu)化的表現(xiàn)類似, A-優(yōu)化指標(biāo)的表現(xiàn)有時(shí)候比 D-優(yōu)化更好, 但其計(jì)算也更復(fù)雜;K P與IM比方法更適合這類測(cè)驗(yàn)。

    上述研究中復(fù)合分?jǐn)?shù)的權(quán)重由研究者或考試機(jī)構(gòu)決定。Yao (2012)通過(guò)數(shù)理論證得到使復(fù)合能力的測(cè)量標(biāo)準(zhǔn)誤最小時(shí)權(quán)重的計(jì)算方法。在此基礎(chǔ)上, 她提出在最優(yōu)權(quán)重復(fù)合分?jǐn)?shù)處具有最小誤差的選題方法(記為 V2), 即

    然后, 比較了 V2與等權(quán)重復(fù)合分?jǐn)?shù)處具有最小誤差方差的選題方法(記為 V1)、B K、D-優(yōu)化方法以及使在已施測(cè)項(xiàng)目處具有最小信息量的方向上具有最大信息量的項(xiàng)目選擇方法(記為 Ag)(Reckase, 2009)的選題表現(xiàn)。結(jié)果表明 D-優(yōu)化和Ag方法的表現(xiàn)類似, 均能平衡各個(gè)維度的測(cè)量精度; V1, V2和B K方法在復(fù)合能力和各個(gè)能力維度都達(dá)到了較高測(cè)量精度, 新方法 V2還提高了題庫(kù)利用率。Yao (2012)不僅關(guān)注復(fù)合能力, 而且關(guān)注各個(gè)能力維度的測(cè)量精度, 體現(xiàn)了MCAT不僅可用于預(yù)測(cè)將來(lái)表現(xiàn), 還可用于提供診斷信息的雙重目的。

    4.2 滿足內(nèi)容約束的選題策略

    CAT通常要求測(cè)驗(yàn)所考查的各個(gè)內(nèi)容域具有恰當(dāng)比例, 項(xiàng)目呈現(xiàn)的順序合理, 正確答案選項(xiàng)的分布平衡、項(xiàng)目的長(zhǎng)度適當(dāng), 等等。如果違反這些約束將影響被試作答, 從而降低測(cè)量準(zhǔn)確性和有效性。因而, 滿足內(nèi)容約束是MCAT實(shí)踐需要考慮的問(wèn)題之一。

    4.2.1 影子測(cè)驗(yàn)方法

    影子測(cè)驗(yàn)方法的核心是選擇第k個(gè)項(xiàng)目之前組合一個(gè)在處具有最大測(cè)驗(yàn)信息量、包括已施測(cè)項(xiàng)目且滿足內(nèi)容約束的完整測(cè)驗(yàn), 然后將影子測(cè)驗(yàn)中具有最大信息量的項(xiàng)目施測(cè)給被試。Veldkamp和van der Linden (2002)在五種測(cè)驗(yàn)條件下運(yùn)用線性規(guī)劃方法組合影子測(cè)驗(yàn), 證明影子測(cè)驗(yàn)方法可滿足MCAT多種內(nèi)容約束。

    4.2.2 最大優(yōu)先指標(biāo)方法

    Yao (2013)借鑒最大優(yōu)先指標(biāo)方法(Cheng &Chang, 2009)定義MCAT中項(xiàng)目i的優(yōu)先指標(biāo)為

    UCAT中, Belov, Armstrong和Weissman (2008)指出影子測(cè)驗(yàn)方法可以滿足多種內(nèi)容約束, 但它降低了測(cè)量精度并導(dǎo)致項(xiàng)目曝光不均衡。最大優(yōu)先指標(biāo)方法則將約束條件轉(zhuǎn)化為目標(biāo)值并結(jié)合已施測(cè)項(xiàng)目的信息構(gòu)建選題指標(biāo), 避免了計(jì)算的復(fù)雜性和不可解問(wèn)題。但是它采用序列選題的方式,不但不能保證滿足所有約束條件也不一定能選到最優(yōu)項(xiàng)目, 因而可能會(huì)降低測(cè)量準(zhǔn)確性(Cheng &Chang, 2009)。對(duì)于MCAT, 情況是否如此, 是否還有更好的選題方法都值得進(jìn)一步研究。

    4.3 平衡項(xiàng)目曝光率的選題策略

    項(xiàng)目曝光率即項(xiàng)目的使用頻率。曝光率越大,項(xiàng)目使用的次數(shù)越多, 則考生之間越可能分享試題信息, 從而影響測(cè)驗(yàn)安全和測(cè)量準(zhǔn)確性。反之,當(dāng)大部分項(xiàng)目都曝光過(guò)低甚至沒(méi)有使用時(shí), 意味著項(xiàng)目沒(méi)有得到充分利用, 這將嚴(yán)重影響題庫(kù)建設(shè)。因而, 項(xiàng)目曝光均勻性是評(píng)價(jià)選題方法優(yōu)劣的重要標(biāo)準(zhǔn)之一。

    4.3.1 分層方法

    Lee, Ip和Fuh (2008)借鑒UCAT中a-分層方法的思想, 基于 M2PL提出按區(qū)分度向量的函數(shù)的值從小到大的順序?qū)㈩}庫(kù)分為F層, 并將測(cè)驗(yàn)分成F個(gè)階段, 然后第k個(gè)項(xiàng)目選擇對(duì)應(yīng)題庫(kù)層中項(xiàng)目參數(shù)b與最接近的項(xiàng)目, 以達(dá)到控制項(xiàng)目曝光率的目的。結(jié)果表明, 該方法與 a-分層方法在控制項(xiàng)目曝光率方面具有相似特點(diǎn)。另外, 它與 D-優(yōu)化方法相比, 能顯著提高項(xiàng)目曝光均勻性, 但也適當(dāng)降低了測(cè)量精度。測(cè)驗(yàn)越長(zhǎng),它們的測(cè)量精度相差越小。但該方法僅適用于二維測(cè)驗(yàn), 能否直接推廣到三維或更高維能力空間還有待研究證實(shí)。

    4.3.2 曝光率參數(shù)控制方法

    另外, Finkelman, Nering和Roussos (2009)首先將Sympson-Hetter方法(SH) (Sympson & Hetter,1985)應(yīng)用到MCAT (記為GSH方法), 然后基于能力點(diǎn)控制項(xiàng)目曝光率的思想在 Stocking-Lewis方法(SL) (Stocking & Lewis, 1998)的基礎(chǔ)上簡(jiǎn)化得到GSL方法, 最后比較了GSH、GSL和KB方法的表現(xiàn)。結(jié)果表明:GSL方法與KB的測(cè)量精度差不多, 且高于GSH方法; GSL的最大項(xiàng)目曝光率和項(xiàng)目曝光率的標(biāo)準(zhǔn)差都最小, 其項(xiàng)目曝光率比GSH和KB方法更均勻??傮w上, GSH和GSL方法能較好地控制最大項(xiàng)目曝光率, 但仍有大部分項(xiàng)目曝光過(guò)低, 而且它們都需要事先模擬決定曝光率控制參數(shù)。此外, GSL方法從基于能力分布網(wǎng)格中能力點(diǎn)的思想控制項(xiàng)目曝光率, 當(dāng)測(cè)驗(yàn)增加到三維及以上時(shí), GSL方法也將變得非常復(fù)雜甚至不可用。

    另外, Yao (2014b)在滿足各個(gè)內(nèi)容域項(xiàng)目個(gè)數(shù)要求的條件下將 Yao (2012)的五種項(xiàng)目選擇方法分別與最大優(yōu)先指標(biāo)方法和S-H方法相結(jié)合選題以控制最大項(xiàng)目曝光率。結(jié)果表明, 結(jié)合 S-H方法選題比結(jié)合最大優(yōu)先指標(biāo)方法選題的測(cè)量精度更高, 但是題庫(kù)利用率更低, 運(yùn)行時(shí)間更長(zhǎng)。

    4.4 對(duì)MCAT選題策略的綜合評(píng)價(jià)

    針對(duì)二級(jí)評(píng)分項(xiàng)目, 以提高測(cè)量精度為主要目標(biāo)的選題方法具有幾個(gè)顯著特點(diǎn)。第一, 研究將UCAT和CD-CAT中各類信息量指標(biāo)推廣到多維能力空間, 并論證它們之間的關(guān)系。從中不難發(fā)現(xiàn) D-優(yōu)化和 A-優(yōu)化方法需要將信息矩陣簡(jiǎn)化為一個(gè)單一維度指標(biāo), 其它方法均包含積分運(yùn)算。于是, 隨著能力維度的增加, 基于項(xiàng)目信息量選題的計(jì)算量將隨之增大。第二, 基于項(xiàng)目參數(shù)選題在不明顯降低測(cè)量精度的同時(shí)極大地降低了計(jì)算復(fù)雜度, 具有廣泛的應(yīng)用前景。但它們僅適用于二維測(cè)驗(yàn), 因而有待將它們推廣到更高維能力空間。除此之外, 針對(duì)測(cè)驗(yàn)考查無(wú)關(guān)維度和復(fù)合分?jǐn)?shù)的情形, 研究者還全面探討了各種項(xiàng)目信息量方法在這些情況下的變式及表現(xiàn)。

    另外, 參加CAT的考生一般在不同時(shí)間、地點(diǎn)作答不完全相同的項(xiàng)目。因此, 如何使不同被試作答的測(cè)驗(yàn)具有相同結(jié)構(gòu)以保證測(cè)驗(yàn)的信、效度和測(cè)驗(yàn)公平是CAT選題面臨的又一實(shí)際問(wèn)題。而對(duì)具有內(nèi)容約束的選題方法, MCAT相關(guān)研究還涉足不深。今后一方面可借鑒UCAT和CD-CAT的相關(guān)方法, 另一方面從MCAT自身特點(diǎn)出發(fā)探索滿足內(nèi)容約束的選題方法。

    最后, 針對(duì)MCAT中項(xiàng)目曝光控制的研究表明, 按區(qū)分度函數(shù)值分層的選題方法能提高曝光不足項(xiàng)目的使用率, 但不能明顯降低最大項(xiàng)目曝光率; GSH和GSL方法能有效控制最大項(xiàng)目曝光率, 但不能提高曝光不足項(xiàng)目的使用率; 最大優(yōu)先指標(biāo)方法能很好地控制最大項(xiàng)目曝光率, 并提高題庫(kù)利用率。值得注意的是, D-優(yōu)化方法和IM方法傾向于選擇某一個(gè)維度具有高區(qū)分度的項(xiàng)目,而 KI 傾向于選擇所有維度具有高區(qū)分度的項(xiàng)目,于是, 為保證測(cè)量精度并提高題庫(kù)利用率, 不妨結(jié)合多種方法選題。一般地, 項(xiàng)目曝光控制不僅要降低過(guò)度曝光項(xiàng)目的使用率而且應(yīng)提高曝光過(guò)低項(xiàng)目的使用率。因此, MCAT中如何進(jìn)一步提高項(xiàng)目曝光均勻性仍有待深入研究。

    5 MCA T的終止規(guī)則

    同UCAT一樣, MCAT要么固定測(cè)驗(yàn)長(zhǎng)度, 要么固定測(cè)量精度作為測(cè)驗(yàn)結(jié)束準(zhǔn)則。目前, 幾乎所有定長(zhǎng)MCAT的測(cè)驗(yàn)長(zhǎng)度都不小于25, 針對(duì)變長(zhǎng) MCAT, Yao (2013)、Wang 等(2013)和 Wang(2014a)從不同角度度量測(cè)量精度, 提出以下幾種終止規(guī)則。

    5.1 基于能力估計(jì)誤差的終止規(guī)則

    5.1.1 D-規(guī)則和E-規(guī)則

    在α顯著性水平下能力估計(jì)置信橢圓(橢球體)S 的面積(體積)V 等于其中, Γ(?) 表 示Gamma函數(shù)。若限制V的最大值為c或S的最大軸長(zhǎng)度為 2q以滿足某一測(cè)量精度, 便得到如下D-規(guī)則和 E-規(guī)則。具體而言, D-規(guī)則表示為即滿足j≥1和的最小整數(shù)j時(shí)停止測(cè)驗(yàn)。E規(guī)則表示為表示廣義Fisher信息矩陣的最小特征值。

    5.1.2 T-規(guī)則

    T-規(guī)則規(guī)定當(dāng)能力估計(jì)的總方差小于x時(shí)結(jié)束測(cè)驗(yàn), 即值得注意的是, 當(dāng)題庫(kù)項(xiàng)目在各個(gè)維度的區(qū)分度參數(shù)分布不均衡時(shí), 盡管總方差低于閾值x, 仍可能在某些維度具有較大方差。于是, 為保證每個(gè)維度的最大方差小于預(yù)設(shè)值e, T-規(guī)則通常修改為:T-規(guī)則涉及信息矩陣的逆矩陣, 因此無(wú)論實(shí)踐還是模擬研究都應(yīng)考慮信息矩陣是否為奇異矩陣。

    5.1.3 基于測(cè)量標(biāo)準(zhǔn)誤規(guī)則

    Yao (2013)在滿足內(nèi)容約束和控制最大項(xiàng)目曝光率的條件下比較了變長(zhǎng)MCAT中基于測(cè)量標(biāo)準(zhǔn)誤(standard error, SE)方法和預(yù)測(cè)標(biāo)準(zhǔn)誤減少量(predicted standard error reduction, PSER)終止規(guī)則的表現(xiàn)。結(jié)果發(fā)現(xiàn), PSER方法的測(cè)量精度略低于SE方法, 但它的測(cè)驗(yàn)長(zhǎng)度更短。Yao (2013)不僅考察了變長(zhǎng) MCAT的終止規(guī)則, 而且在變長(zhǎng)MCAT中實(shí)現(xiàn)了內(nèi)容約束, 這是研究的亮點(diǎn), 也是今后深入研究的方向。

    5.2 基于項(xiàng)目信息量的終止規(guī)則

    和CEM-規(guī)則:

    5.3 MCA T終止規(guī)則簡(jiǎn)評(píng)

    上述方法都能在達(dá)到預(yù)定測(cè)量精度時(shí)結(jié)束測(cè)驗(yàn), 它們還具有如下關(guān)系。第一, D、T和E規(guī)則從不同角度度量能力估計(jì)標(biāo)準(zhǔn)誤, 類似于 UCAT中 SE規(guī)則, 而 K-規(guī)則通過(guò)控制候選項(xiàng)目有用信息量的大小來(lái)結(jié)束測(cè)驗(yàn)。第二, 對(duì)D, E和T規(guī)則,具有極端能力值被試的測(cè)驗(yàn)長(zhǎng)度近似是那些中等能力水平被試測(cè)驗(yàn)長(zhǎng)度的2倍以上, 而K規(guī)則中測(cè)驗(yàn)長(zhǎng)度的差異不明顯。但K規(guī)則受先驗(yàn)密度的影響, 先驗(yàn)密度的信息量越大, 測(cè)驗(yàn)越短。于是,將來(lái)可考察不同先驗(yàn)分布對(duì)K規(guī)則的影響模式。第三, 當(dāng)能力后驗(yàn)分布服從多變量正態(tài)分布時(shí),CEM-規(guī)則與D-規(guī)則等價(jià)。第四, 終止規(guī)則往往包括統(tǒng)計(jì)表達(dá)式和臨界值。臨界值與測(cè)量精度息息相關(guān), 其值需要根據(jù)期望測(cè)量精度、能力維度、題庫(kù)特征進(jìn)行調(diào)整。因此, 今后不僅需要探討臨界值的設(shè)置方法, 而且有待在不同測(cè)驗(yàn)條件(如各維度之間的相關(guān)、項(xiàng)目質(zhì)量?jī)?yōu)劣等等)下深入比較終止規(guī)則的表現(xiàn)。

    6 問(wèn)題與展望

    MIRT、認(rèn)知診斷理論和 CAT是現(xiàn)代心理測(cè)量學(xué)發(fā)展的三大主要方向。MIRT是近期的研究熱點(diǎn), CAT是一種新興的、有前途的測(cè)驗(yàn)形式, 將兩者結(jié)合在一起的MCAT勢(shì)必成為CAT研究的一個(gè)新方向。本文對(duì)MCAT的相關(guān)研究做了比較系統(tǒng)的介紹和評(píng)價(jià)??v觀其發(fā)展趨勢(shì), 我們認(rèn)為還有待從以下幾個(gè)方面研究MCAT。

    6.1 基于多種MIRM的MCAT

    迄今為止, 大部分MCAT都以M2PL或M3PL為模型基礎(chǔ), 也有極少研究基于其它 MIRM。例如, Wang和Chen (2004)以MRCMLM為基礎(chǔ)的研究表明MCAT在高維測(cè)驗(yàn)、各個(gè)維度高相關(guān)、評(píng)分水平數(shù)較多的情況下同樣具有較高測(cè)驗(yàn)效率。今后首先應(yīng)更加深入探討各類MIRM的模型特點(diǎn)和數(shù)學(xué)函數(shù)圖象等各種統(tǒng)計(jì)特征, 然后以多維Rasch模型和多級(jí)評(píng)分項(xiàng)目 MIRM 為基礎(chǔ)開(kāi)展MCAT研究。

    6.2 MCA T選題策略的發(fā)展動(dòng)態(tài)

    6.2.1 MCA T中二級(jí)評(píng)分項(xiàng)目的選題策略

    隨著能力維度的增加, 基于項(xiàng)目信息量選題的計(jì)算都愈加復(fù)雜。因此, 三維甚至更高維度的情況下, 如何在各種信息量指標(biāo)基礎(chǔ)上簡(jiǎn)化選題策略將是今后的重點(diǎn)研究?jī)?nèi)容。其次, MCAT中項(xiàng)目曝光控制方法要么能有效控制最大項(xiàng)目曝光率,要么能提高曝光不足項(xiàng)目的使用率。于是, 今后研究一方面可借鑒UCAT和CD-CAT中表現(xiàn)較好的隨機(jī)程序法及變式(Barrada Olea, Ponsoda, &Abad, 2008; Wang, Chang, & Huebner, 2011), 另一方面可結(jié)合運(yùn)用多種項(xiàng)目曝光控制方法以進(jìn)一步提高項(xiàng)目曝光均勻性。再次, 雖然MCAT可保證各個(gè)內(nèi)容域的測(cè)量精度, 但如何選題以滿足多種約束條件也是今后的研究問(wèn)題之一。例如, 考察UCAT和CD-CAT中表現(xiàn)較好的Monte Carlo方法(Belov et al., 2008; Mao & Xin, 2013)在MCAT中的表現(xiàn),將測(cè)驗(yàn)組卷中滿足約束的 0-1線性規(guī)劃(binary programming, BP)和遺傳算法(genetic algorithm,GA) (Finkelman, Kim, Roussos, & Verschoor, 2010)等用到具有多種約束的MCAT選題, 或者探索滿足約束的測(cè)驗(yàn)組卷算法都是有價(jià)值的研究問(wèn)題。最后, 盡管針對(duì) MCAT提出了多種選題方法, 但沒(méi)有全面比較各種方法的表現(xiàn)。因此, 在不同測(cè)驗(yàn)條件下比較它們的表現(xiàn)同樣具有重要實(shí)踐意義。

    6.2.2 MCA T中多分項(xiàng)目的選題策略

    隨著多級(jí)評(píng)分項(xiàng)目復(fù)雜評(píng)分算法的出現(xiàn)使得問(wèn)答題、題組和結(jié)構(gòu)反應(yīng)項(xiàng)目逐漸出現(xiàn)在CAT中(Clauser, Margolis, Clyman, & Ross, 1997), 多級(jí)評(píng)分項(xiàng)目的應(yīng)用將越來(lái)越受到重視。例如, 美國(guó)醫(yī)學(xué)院學(xué)會(huì)已設(shè)立專項(xiàng)經(jīng)費(fèi)用于研究醫(yī)大入學(xué)考試的語(yǔ)文推理部分采用題組評(píng)分項(xiàng)目的 CAT; 美國(guó)國(guó)立衛(wèi)生研究院 2003年申請(qǐng)數(shù)百萬(wàn)美元用于開(kāi)發(fā)根據(jù)病人的臨床報(bào)告進(jìn)行診斷的CAT系統(tǒng)。然而, 迄今為止未曾見(jiàn)到多級(jí)評(píng)分項(xiàng)目MCAT的相關(guān)研究。因此, 針對(duì)測(cè)量精度、項(xiàng)目曝光控制和內(nèi)容約束問(wèn)題探索多級(jí)評(píng)分項(xiàng)目MCAT的選題策略無(wú)疑是今后研究的趨勢(shì)與重點(diǎn)內(nèi)容之一。

    6.3 MCA T題庫(kù)的研究

    MCAT要付諸實(shí)踐關(guān)鍵要有由大量質(zhì)量合格、參數(shù)已標(biāo)定的項(xiàng)目構(gòu)成的題庫(kù)。隨著時(shí)間的推移, 題庫(kù)中的一些項(xiàng)目會(huì)因?yàn)榇嬖谌毕?、過(guò)時(shí)或過(guò)度曝光等原因需要用新題去替換或進(jìn)行增補(bǔ)(陳平, 2011)。于是, 項(xiàng)目增補(bǔ)對(duì)MCAT題庫(kù)的維護(hù)和開(kāi)發(fā)至關(guān)重要。UCAT和CD-CAT中在線校準(zhǔn)技術(shù)常用于估計(jì)新題的項(xiàng)目參數(shù)。因此, 借鑒已有研究探索MCAT中基于被試在項(xiàng)目上的作答反應(yīng)準(zhǔn)確地、聯(lián)合地估計(jì)項(xiàng)目參數(shù)將具有不言而喻的意義。

    6.4 MCA T的實(shí)證研究

    MCAT理論研究不僅需要實(shí)踐來(lái)檢驗(yàn)其實(shí)踐效能, 其理論研究成果反過(guò)來(lái)又推動(dòng)實(shí)踐進(jìn)步。因此, 如何在 MIRT理論指導(dǎo)下編寫測(cè)驗(yàn)項(xiàng)目、分析項(xiàng)目特征完成題庫(kù)建構(gòu); 探索多級(jí)評(píng)分項(xiàng)目在線自動(dòng)評(píng)分算法; 開(kāi)發(fā) MCAT考試系統(tǒng)都是MCAT實(shí)踐的必要前提。

    陳平. (2011).認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的項(xiàng)目增補(bǔ)——以DINA模型為例(博士學(xué)位論文), 北京師范大學(xué).

    杜文久, 肖涵敏. (2012). 多維項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型.心理學(xué)報(bào), 44, 1402–1407.

    劉發(fā)明, 丁樹(shù)良. (2006). 多維自適應(yīng)測(cè)驗(yàn)初探.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 30, 428–430.

    康春花, 辛濤. (2010). 測(cè)驗(yàn)理論的新發(fā)展: 多維項(xiàng)目反應(yīng)理論.心理科學(xué)進(jìn)展, 18, 530–536.

    涂冬波, 蔡艷, 戴海琦, 丁樹(shù)良. (2011). 多維項(xiàng)目反應(yīng)理論: 參數(shù)估計(jì)及其在心理測(cè)驗(yàn)中的應(yīng)用.心理學(xué)報(bào), 43,1329–1340.

    許志勇, 丁樹(shù)良, 鐘君. (2013). 高考數(shù)學(xué)試卷多維項(xiàng)目反應(yīng)理論的分析及應(yīng)用.心理學(xué)探新, 33, 438–443.

    張軍. (2011). HSK潛在維度的探索性分析——多維項(xiàng)目反應(yīng)理論的應(yīng)用.考試研究, 29, 47–58.

    Adams, R. J., & Wilson, M. (1996). A random coefficients multinomial logit: A generalized approach to fitting Rasch models. In G. Engelhard & M. Wilson (Eds.),Objective measurement III: Theory into practice(pp. 142–166).Norwood, NJ: Ablex.

    Adams, R. J., Wilson, M., & Wang, W. (1997). The multidimensional random coefficients multinomial logit model.Applied Psychological Measurement, 21, 1–24.

    Barrada, J. R., Olea, J., Ponsoda, V., & Abad, F. J. (2008).Incorporating randomness in the Fisher information for improving item-exposure control in CATs.British Journal of Mathematical and Statistical Psychology, 61, 493–513.

    Belov, D. I., Armstrong, R. D., & Weissman, A. (2008). A Monte Carlo approach for adaptive testing with content constraints.Applied Psychological Measurement, 32, 431–446.

    Bloxom, B. M., & Vale, C. D. (1987).Multididmensional adaptive testing: A procedure for sequential estimation of the posterior centriod and dispersion of theta. Paper presented at the meeting of the Psychometric society, Montreal, Canada.

    Bolt, D. M., & Lall, V. F. (2003). Estimation of compensatory and noncompensatory multidimensional item response models using Markov chain Monte Carlo.Applied Psychological Measurement, 27, 395–414.

    Cheng, Y., & Chang, H. H. (2009). The maximum priority index method for severely constrained item selection in computerized adaptive testing.British Journal of Mathematical and Statistical Psychology, 62, 369–383.

    Clauser, B. E., Margolis, M. J., Clyman, S. G., & Ross, L. P.(1997). Development of automated scoring algorithms for complex performance assessments: A comparison of two approaches.Journal of Educational Measurement, 34,141–161.

    Finkelman, M. D., Kim, W., Roussos, L., & Verschoor, A.(2010). A binary programming approach to automated test assembly for cognitive diagnosis models.Applied Psychological Measurement, 34, 310–326.

    Finkelman, M., Nering, M. L., & Roussos, L. A. (2009). A conditional exposure control method for multidimensional adaptive testing.Journal of Educational Measurement, 46,84–103.

    Frey, A., & Seitz, N. N. (2011). Hypothetical use of multidimensional adaptive testing for the assessment of student achievement on the programme for international student assessment.Educational and Psychological Measurement, 71, 503–522.

    Kelderman, H., & Rijkes, C. E. M. (1994). Loglinear multidimensional IRT models for polytomously scored items.Psychometrika, 59, 149–176.

    Lee, Y. H., Ip, E. H., & Fuh, C. D. (2008). A strategy for controlling item exposure in multidimensional computerized adaptive testing.Educational and Psychological Measurement,68, 215–232.

    Luecht, R. M. (1996). Multidimensional computerized adaptive testing in a certification or licensure context.Applied Psychological Measurement, 20, 389–404.

    Mao, X. Z., & Xin, T. (2013). The application of the monte carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.Applied Psychological Measurement, 37, 482–496.

    McKinley, R. L., & Reckase, M. D. (1982).The use of the general Rasch model with multidimensional item response data(Research Report ONR 82–1). American College Testing, Iowa City, IA.

    Mulder, J., & van der Linden, W. J. (2009). Multidimensional adaptive testing with optimal design criteria for item selection.Psychometrika, 74, 273–296.

    Mulder, J., & van der Linden, W. J. (2010). Multidimensional adaptive testing with Kullback-Leibler information item selection. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behaviroal sciences.New-York: Springer Science+Business Media.

    Muraki, E., & Carlson, J. E. (1993).Full-information factor analysis for polytomous item responses.Paper presented at the annual meeting of the American Educational Research Association, Atlanta.

    Owen, R. J. (1975). A bayesian sequential procedure for quantal response in the context of adaptive mental testing.Journal of the American Statistical Association, 70, 351–356.

    Reckase, M. D. (1985). The difficulty of test items that measure more than one ability.Applied Psychological Measurement,9, 401–412.

    Reckase, M. D. (2009).Multidimensional item response theory. New York: Springer.

    Samejima, F. (1974). Normal ogive model on the continuous response level in the multidimensional latent space.Psychometrika, 39, 111–121.

    Segall, D. O. (1996). Multidimensional adaptive testing.Psychometrika, 61, 331–354.

    Segall, D. O. (2010). Principles of multidimensional adaptive testing. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behavioral sciences.New York: Springer Science+Business Media.

    Stocking, M. L., & Lewis, C. (1998). Controlling item exposure conditional on ability in computerized adaptive testing.Journalof Educational and Behavioral Statistics, 23, 57–75.

    Sympson, J. B., & Hetter, R. D. (1985).Controlling item-exposure rates in computerized adaptive testing.In Proceedings of the 27th annual meeting of the Military Testing Association (pp. 973–977). San Diego, CA: Navy Personnel Research and Development Center.

    Tam, S. S. (1992).A comparison of methods for adaptive estimation of a multidimensional trait(Unpublished doctoral dissertation). Columbia University, New York.

    van der Linden, W. J. (1999). Multidimensional adaptive testing with a minimum error-variance criterion.Journal of Educational and Behavioral Statistics, 24, 398–412.

    van der Linden, W. J., & Hambleton, R. K. (1997).Handbook of modern item response theory. New York: Springer-Verlag.

    Veldkamp, B. P., & van der Linden, W. J. (2002).Multidimensional adaptive testing with constraints on test content.Psychometrika, 67, 575–588.

    Wang, C. (2014a). Multidimensional computerized adaptive testing: Early development and recent advancements. In Y.Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC: Information Age.

    Wang, C., & Chang, H. H. (2011). Item selection in multidimensional computerized adaptive testing-gaining information from different angles.Psychometrika, 76, 363–384.

    Wang, C., Chang, H. H., & Boughton, K. A. (2011).Kullback-Leibler information and its applications in multidimensional adaptive testing.Psychometrika, 76, 13–39.

    Wang, C., Chang, H. H., & Boughton, K. A. (2013). Deriving stopping rules for multidimensional computerized adaptive testing.Applied Psychological Measurement, 37, 99–122.

    Wang, C., Chang, H. H., & Huebner, A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement, 48, 255–273.

    Wang, W. C. (2014b). Multidimensional Rasch models:Theories and applications. In Y. Cheng & H.-H. Chang(Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC:Information Age.

    Wang, W. C., & Chen, P. H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing.Applied Psychological Measurement, 28,295–316.

    Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory.Psychometrika, 54, 427–450.

    Yao, L. H. (2012). Multidimensional CAT item selection methods for domain scores and composite scores: Theory and applications.Psychometrika, 77, 495–523.

    Yao, L. H. (2013). Comparing the performance of five multidimensional CAT selection procedures with different stopping rules.Applied Psychological Measurement, 37, 3–23.

    Yao, L. H. (2014a). Multidimensional item response theory for score reporting. In Y. Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment.Charlotte, NC:Information Age.

    Yao, L. H. (2014b). Multidimensional CAT item selection methods for domain scores and composite scores with item exposure control and content constrains.Journal of Educational Measurement, 51, 18–38.

    Yao, L. H., & Schwarz, R. D. (2006). A multidimensional partial credit model with associated item and test statistics:An application to mixed-format tests.Applied Psychological Measurement, 30, 469–492.

    Zhang, B., & Stone, C. A. (2008). Evaluating item fit for multidimensional item response models.Educational and Psychological Measurement, 68(2), 181–196.

    猜你喜歡
    題庫(kù)測(cè)驗(yàn)選題
    “勾股定理”優(yōu)題庫(kù)
    “軸對(duì)稱”優(yōu)題庫(kù)
    本刊誠(chéng)征“獨(dú)唱團(tuán)”選題
    “軸對(duì)稱”優(yōu)題庫(kù)
    “整式的乘法與因式分解”優(yōu)題庫(kù)
    談詩(shī)詞的選題
    本刊誠(chéng)征“獨(dú)唱團(tuán)”選題
    本刊誠(chéng)征“獨(dú)唱團(tuán)”選題
    《新年大測(cè)驗(yàn)》大揭榜
    兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    亚洲精品粉嫩美女一区| 好男人在线观看高清免费视频| 久久久国产成人精品二区| 中文字幕久久专区| 国产亚洲av高清不卡| 亚洲国产精品999在线| 亚洲精品粉嫩美女一区| 给我免费播放毛片高清在线观看| 国产精品永久免费网站| 欧美精品亚洲一区二区| 亚洲国产看品久久| 一个人观看的视频www高清免费观看 | 久久国产精品影院| 窝窝影院91人妻| 国产探花在线观看一区二区| 国产精品亚洲一级av第二区| 色综合亚洲欧美另类图片| 黄频高清免费视频| 欧美丝袜亚洲另类 | 在线观看www视频免费| 两个人免费观看高清视频| 亚洲欧美一区二区三区黑人| 校园春色视频在线观看| av福利片在线观看| 欧美黑人精品巨大| 国产精品 国内视频| 91麻豆av在线| 欧美日韩精品网址| 丰满的人妻完整版| 午夜福利视频1000在线观看| 正在播放国产对白刺激| 精品国产亚洲在线| 99在线人妻在线中文字幕| 后天国语完整版免费观看| 国产在线精品亚洲第一网站| 不卡一级毛片| 床上黄色一级片| 欧美乱妇无乱码| 久久热在线av| 老司机靠b影院| 在线免费观看的www视频| 久久天躁狠狠躁夜夜2o2o| 亚洲av电影不卡..在线观看| 亚洲精品一卡2卡三卡4卡5卡| 男女下面进入的视频免费午夜| 搡老妇女老女人老熟妇| 99久久综合精品五月天人人| 欧美日韩瑟瑟在线播放| 国产主播在线观看一区二区| 最近最新中文字幕大全免费视频| 色尼玛亚洲综合影院| 久久久久国产精品人妻aⅴ院| 巨乳人妻的诱惑在线观看| 久久人妻福利社区极品人妻图片| 蜜桃久久精品国产亚洲av| 日韩精品中文字幕看吧| 久久婷婷人人爽人人干人人爱| 成人午夜高清在线视频| 日韩欧美国产在线观看| 我的老师免费观看完整版| 国产精品一区二区三区四区久久| 国产成人一区二区三区免费视频网站| 黑人操中国人逼视频| 此物有八面人人有两片| 我要搜黄色片| 午夜成年电影在线免费观看| 精品国产亚洲在线| 国产精品爽爽va在线观看网站| 无人区码免费观看不卡| 亚洲专区字幕在线| 亚洲 国产 在线| 日韩成人在线观看一区二区三区| 99久久无色码亚洲精品果冻| 三级毛片av免费| 精品国产乱子伦一区二区三区| 国产一级毛片七仙女欲春2| 长腿黑丝高跟| 国产熟女午夜一区二区三区| 搡老熟女国产l中国老女人| 此物有八面人人有两片| 国产成人精品无人区| 国产精品久久电影中文字幕| 亚洲精品在线美女| videosex国产| 国产精品亚洲av一区麻豆| 女人爽到高潮嗷嗷叫在线视频| 午夜影院日韩av| 亚洲九九香蕉| 日本在线视频免费播放| 熟女电影av网| 国产精品日韩av在线免费观看| 免费在线观看黄色视频的| 亚洲av中文字字幕乱码综合| 亚洲国产精品999在线| 国产成人精品久久二区二区91| 欧美日韩亚洲国产一区二区在线观看| 一二三四在线观看免费中文在| 亚洲激情在线av| 成人手机av| 啦啦啦观看免费观看视频高清| 不卡一级毛片| 少妇裸体淫交视频免费看高清 | 精品电影一区二区在线| 精品国产乱码久久久久久男人| 欧美中文日本在线观看视频| 成年版毛片免费区| 国产蜜桃级精品一区二区三区| 久久中文字幕人妻熟女| 两性夫妻黄色片| 午夜日韩欧美国产| 熟妇人妻久久中文字幕3abv| 两个人的视频大全免费| 精华霜和精华液先用哪个| 深夜精品福利| 久久精品国产亚洲av高清一级| av片东京热男人的天堂| 女人被狂操c到高潮| 中文在线观看免费www的网站 | 啦啦啦免费观看视频1| 亚洲狠狠婷婷综合久久图片| 中亚洲国语对白在线视频| 国产熟女午夜一区二区三区| www.精华液| 国产成人av激情在线播放| 麻豆一二三区av精品| 欧美日韩瑟瑟在线播放| 老熟妇仑乱视频hdxx| 一区福利在线观看| 叶爱在线成人免费视频播放| 久久午夜亚洲精品久久| 成人亚洲精品av一区二区| 亚洲中文日韩欧美视频| 日韩中文字幕欧美一区二区| 亚洲成人中文字幕在线播放| 欧美日韩中文字幕国产精品一区二区三区| 欧美乱妇无乱码| 亚洲欧洲精品一区二区精品久久久| 老熟妇乱子伦视频在线观看| 精品欧美国产一区二区三| 看免费av毛片| 日韩欧美精品v在线| 久久亚洲真实| 国产激情欧美一区二区| 日韩欧美精品v在线| 中亚洲国语对白在线视频| 午夜精品一区二区三区免费看| 大型黄色视频在线免费观看| 欧美zozozo另类| 中文在线观看免费www的网站 | 桃色一区二区三区在线观看| 国产亚洲精品久久久久久毛片| 亚洲熟妇中文字幕五十中出| 婷婷丁香在线五月| 久久婷婷成人综合色麻豆| 亚洲av电影在线进入| 亚洲第一欧美日韩一区二区三区| 老汉色∧v一级毛片| 国产一区二区三区在线臀色熟女| 久久伊人香网站| 午夜两性在线视频| 国产精品自产拍在线观看55亚洲| 成人亚洲精品av一区二区| 日本黄色视频三级网站网址| 午夜亚洲福利在线播放| 精品一区二区三区av网在线观看| av国产免费在线观看| 久久久久国内视频| 国产亚洲精品综合一区在线观看 | 国产成人av激情在线播放| 国产精品久久久久久亚洲av鲁大| 国产成人影院久久av| 国产av麻豆久久久久久久| 亚洲国产精品sss在线观看| 这个男人来自地球电影免费观看| netflix在线观看网站| 一a级毛片在线观看| 桃红色精品国产亚洲av| 亚洲av成人一区二区三| 亚洲av美国av| 欧美极品一区二区三区四区| 91字幕亚洲| 国产高清有码在线观看视频 | 国产精品香港三级国产av潘金莲| 国产麻豆成人av免费视频| www日本在线高清视频| 美女黄网站色视频| 午夜激情福利司机影院| 亚洲人成网站在线播放欧美日韩| 欧美日韩亚洲综合一区二区三区_| 亚洲国产精品久久男人天堂| 欧美日韩黄片免| 免费观看人在逋| 中文字幕最新亚洲高清| 亚洲成人精品中文字幕电影| 欧美日韩福利视频一区二区| 国产精品一区二区三区四区免费观看 | 日韩精品中文字幕看吧| 一个人免费在线观看的高清视频| 欧美久久黑人一区二区| 中文字幕人成人乱码亚洲影| 午夜老司机福利片| 国产视频一区二区在线看| or卡值多少钱| 午夜精品一区二区三区免费看| 在线视频色国产色| 欧美日韩福利视频一区二区| 国产视频一区二区在线看| 久久久精品欧美日韩精品| 国产高清videossex| 此物有八面人人有两片| 制服诱惑二区| 国产精品99久久99久久久不卡| 久久精品影院6| www国产在线视频色| 亚洲 欧美 日韩 在线 免费| 国产亚洲精品久久久久5区| 国产在线精品亚洲第一网站| 欧美黑人精品巨大| 久久精品国产99精品国产亚洲性色| 国产精品久久久久久久电影 | 国产一区二区在线av高清观看| 午夜福利成人在线免费观看| 日韩欧美国产一区二区入口| 久久久久国内视频| 亚洲午夜精品一区,二区,三区| 99在线人妻在线中文字幕| 亚洲avbb在线观看| 此物有八面人人有两片| 欧美人与性动交α欧美精品济南到| www日本在线高清视频| 日韩三级视频一区二区三区| 中文字幕最新亚洲高清| 亚洲自拍偷在线| 久久九九热精品免费| 欧美绝顶高潮抽搐喷水| 日韩三级视频一区二区三区| xxx96com| 欧美午夜高清在线| 精品日产1卡2卡| 国产精品综合久久久久久久免费| 亚洲黑人精品在线| 精品高清国产在线一区| 国产av不卡久久| 日韩欧美在线二视频| 好男人电影高清在线观看| 18美女黄网站色大片免费观看| 久久久久免费精品人妻一区二区| 国产精品,欧美在线| 国产区一区二久久| 精品电影一区二区在线| 丝袜人妻中文字幕| 又黄又粗又硬又大视频| 亚洲av成人av| 国产人伦9x9x在线观看| 成人三级黄色视频| 国产区一区二久久| 国产精品久久久久久亚洲av鲁大| 精品熟女少妇八av免费久了| 久久精品91蜜桃| 亚洲一码二码三码区别大吗| 熟妇人妻久久中文字幕3abv| 国产精品精品国产色婷婷| 男女那种视频在线观看| 国产精品av视频在线免费观看| 99久久精品国产亚洲精品| 全区人妻精品视频| 老鸭窝网址在线观看| 亚洲国产欧美网| 亚洲精品色激情综合| 熟女少妇亚洲综合色aaa.| 欧美又色又爽又黄视频| 别揉我奶头~嗯~啊~动态视频| av福利片在线观看| 一个人观看的视频www高清免费观看 | 国产aⅴ精品一区二区三区波| 亚洲国产精品999在线| 日本一区二区免费在线视频| 色哟哟哟哟哟哟| 亚洲国产欧美一区二区综合| 国产精品一区二区三区四区免费观看 | 亚洲 国产 在线| 国产成人影院久久av| 欧美日韩瑟瑟在线播放| 国产黄色小视频在线观看| 精品久久久久久久人妻蜜臀av| 国产精品久久久久久精品电影| 国产精品亚洲av一区麻豆| 日本免费一区二区三区高清不卡| 亚洲精品国产精品久久久不卡| 99久久精品国产亚洲精品| 一进一出抽搐gif免费好疼| a在线观看视频网站| 亚洲最大成人中文| 久久中文字幕一级| 国产亚洲精品一区二区www| 日韩三级视频一区二区三区| 脱女人内裤的视频| 亚洲av美国av| 国产精品一区二区免费欧美| 99热只有精品国产| 成人18禁高潮啪啪吃奶动态图| 午夜福利欧美成人| 成人亚洲精品av一区二区| 午夜影院日韩av| 日本一区二区免费在线视频| 大型黄色视频在线免费观看| 一进一出抽搐动态| 大型黄色视频在线免费观看| 狂野欧美白嫩少妇大欣赏| 亚洲电影在线观看av| 久久亚洲真实| 国产黄片美女视频| 久久亚洲真实| 国产精品1区2区在线观看.| 搡老妇女老女人老熟妇| 日韩国内少妇激情av| 国产一区二区三区在线臀色熟女| 欧美高清成人免费视频www| 亚洲精品国产精品久久久不卡| 精品久久久久久久久久免费视频| 久久中文看片网| 99热这里只有精品一区 | 国产精品久久久久久精品电影| 人妻久久中文字幕网| 国产三级在线视频| 国产精品亚洲av一区麻豆| 国产精品影院久久| 97超级碰碰碰精品色视频在线观看| 日韩欧美 国产精品| 午夜免费激情av| 国产精品99久久99久久久不卡| 日本a在线网址| 国产伦一二天堂av在线观看| 日韩欧美免费精品| 国产伦一二天堂av在线观看| 性色av乱码一区二区三区2| 色综合婷婷激情| 久久久水蜜桃国产精品网| 精品一区二区三区av网在线观看| 十八禁网站免费在线| 91大片在线观看| 国产高清激情床上av| 精品久久蜜臀av无| 日韩 欧美 亚洲 中文字幕| 免费看日本二区| 国产男靠女视频免费网站| 精品一区二区三区四区五区乱码| 嫩草影视91久久| av福利片在线| www.自偷自拍.com| 精品无人区乱码1区二区| 又粗又爽又猛毛片免费看| 成人av在线播放网站| 欧美三级亚洲精品| 欧美乱妇无乱码| 亚洲电影在线观看av| 黄片大片在线免费观看| 妹子高潮喷水视频| 香蕉国产在线看| 久久香蕉精品热| 久久精品91无色码中文字幕| 亚洲人成网站在线播放欧美日韩| 给我免费播放毛片高清在线观看| 动漫黄色视频在线观看| tocl精华| 久久久久久人人人人人| 18禁黄网站禁片午夜丰满| 午夜福利高清视频| 热99re8久久精品国产| 老熟妇仑乱视频hdxx| 欧美日韩福利视频一区二区| 国产精品免费视频内射| 少妇裸体淫交视频免费看高清 | 日本免费一区二区三区高清不卡| 午夜亚洲福利在线播放| 久久久精品大字幕| 美女免费视频网站| 好男人在线观看高清免费视频| 女人爽到高潮嗷嗷叫在线视频| 婷婷六月久久综合丁香| av福利片在线| 老司机深夜福利视频在线观看| 99精品欧美一区二区三区四区| 精品日产1卡2卡| 日韩精品青青久久久久久| 久久久久国内视频| 国产伦在线观看视频一区| 国产成年人精品一区二区| 色av中文字幕| 欧美+亚洲+日韩+国产| 午夜免费激情av| 国产精品乱码一区二三区的特点| 黄色视频不卡| 国产激情久久老熟女| 国产精品久久久久久亚洲av鲁大| 嫁个100分男人电影在线观看| 不卡av一区二区三区| 亚洲中文av在线| 欧洲精品卡2卡3卡4卡5卡区| 久久久久亚洲av毛片大全| 99riav亚洲国产免费| 亚洲va日本ⅴa欧美va伊人久久| 亚洲精品粉嫩美女一区| 久久久久精品国产欧美久久久| 久久久国产欧美日韩av| 久9热在线精品视频| 又紧又爽又黄一区二区| 成在线人永久免费视频| 亚洲专区字幕在线| 99久久无色码亚洲精品果冻| 一区二区三区激情视频| 在线观看免费午夜福利视频| 97碰自拍视频| 国产v大片淫在线免费观看| 啦啦啦免费观看视频1| www.精华液| 久久精品国产清高在天天线| 99精品在免费线老司机午夜| 国产一区二区三区在线臀色熟女| 亚洲最大成人中文| 丝袜人妻中文字幕| 免费在线观看影片大全网站| 日本撒尿小便嘘嘘汇集6| 男女午夜视频在线观看| 熟女少妇亚洲综合色aaa.| 国产精品久久久久久精品电影| 两个人看的免费小视频| 床上黄色一级片| 亚洲午夜理论影院| 国产成人精品久久二区二区91| 亚洲精品粉嫩美女一区| 日韩欧美在线乱码| 两个人视频免费观看高清| 777久久人妻少妇嫩草av网站| 99riav亚洲国产免费| 久久婷婷成人综合色麻豆| 无人区码免费观看不卡| av国产免费在线观看| 亚洲第一电影网av| 天堂√8在线中文| 波多野结衣巨乳人妻| 91av网站免费观看| 亚洲av五月六月丁香网| www.www免费av| 亚洲成人久久性| 国内精品久久久久久久电影| 亚洲国产看品久久| 国产在线精品亚洲第一网站| a级毛片a级免费在线| 亚洲va日本ⅴa欧美va伊人久久| 日本 欧美在线| 欧美日韩黄片免| 美女 人体艺术 gogo| 午夜影院日韩av| 蜜桃久久精品国产亚洲av| 久久久久久久久久黄片| 波多野结衣巨乳人妻| 一个人免费在线观看电影 | av天堂在线播放| 亚洲国产欧美一区二区综合| 桃红色精品国产亚洲av| 在线十欧美十亚洲十日本专区| 国产精品自产拍在线观看55亚洲| 欧美最黄视频在线播放免费| 99久久精品热视频| www国产在线视频色| 人人妻,人人澡人人爽秒播| 成年人黄色毛片网站| 99国产精品99久久久久| 91麻豆精品激情在线观看国产| 少妇的丰满在线观看| 伊人久久大香线蕉亚洲五| tocl精华| 久久香蕉精品热| av超薄肉色丝袜交足视频| 一本综合久久免费| 麻豆国产97在线/欧美 | 亚洲一区二区三区不卡视频| 久久久久久大精品| 淫妇啪啪啪对白视频| 他把我摸到了高潮在线观看| 中文在线观看免费www的网站 | 在线十欧美十亚洲十日本专区| 在线观看午夜福利视频| ponron亚洲| 老司机午夜福利在线观看视频| 丰满的人妻完整版| 精品高清国产在线一区| 免费搜索国产男女视频| 麻豆久久精品国产亚洲av| 夜夜夜夜夜久久久久| 99久久精品热视频| 看片在线看免费视频| 一个人免费在线观看电影 | 丰满人妻一区二区三区视频av | 日本撒尿小便嘘嘘汇集6| 午夜a级毛片| 中文字幕久久专区| 亚洲欧美一区二区三区黑人| 国产午夜福利久久久久久| 久99久视频精品免费| 色在线成人网| 久久热在线av| 国产精品av久久久久免费| 成年版毛片免费区| 日韩有码中文字幕| 男人舔女人下体高潮全视频| 成人一区二区视频在线观看| 日本免费a在线| 黑人巨大精品欧美一区二区mp4| bbb黄色大片| 午夜a级毛片| 99精品在免费线老司机午夜| 亚洲一码二码三码区别大吗| 免费在线观看影片大全网站| 91麻豆av在线| 国产欧美日韩精品亚洲av| 国产免费男女视频| 欧美成狂野欧美在线观看| 午夜福利18| 久久国产精品人妻蜜桃| 叶爱在线成人免费视频播放| 全区人妻精品视频| 国产69精品久久久久777片 | 国产黄a三级三级三级人| 一级毛片女人18水好多| 久久99热这里只有精品18| 高清在线国产一区| 日韩欧美一区二区三区在线观看| 国产成人啪精品午夜网站| 国内揄拍国产精品人妻在线| 丰满人妻熟妇乱又伦精品不卡| 久久99热这里只有精品18| xxx96com| 国产精品一区二区三区四区久久| 国产99久久九九免费精品| 岛国视频午夜一区免费看| 成人欧美大片| 亚洲狠狠婷婷综合久久图片| 欧美性长视频在线观看| 亚洲国产欧美一区二区综合| 日本黄色视频三级网站网址| 麻豆国产av国片精品| 久久欧美精品欧美久久欧美| av片东京热男人的天堂| 日韩 欧美 亚洲 中文字幕| 正在播放国产对白刺激| 免费高清视频大片| 一区二区三区国产精品乱码| 极品教师在线免费播放| 日韩精品中文字幕看吧| 这个男人来自地球电影免费观看| 人妻夜夜爽99麻豆av| 三级毛片av免费| 亚洲美女黄片视频| 精品午夜福利视频在线观看一区| 亚洲国产精品sss在线观看| 久久久久国产一级毛片高清牌| 少妇人妻一区二区三区视频| 两人在一起打扑克的视频| 国产亚洲精品第一综合不卡| 老司机午夜福利在线观看视频| 亚洲成人中文字幕在线播放| 国产激情久久老熟女| 国产91精品成人一区二区三区| 欧美中文日本在线观看视频| av国产免费在线观看| 欧洲精品卡2卡3卡4卡5卡区| 亚洲美女视频黄频| 99热这里只有精品一区 | 亚洲午夜理论影院| 亚洲av第一区精品v没综合| 国产黄片美女视频| 1024视频免费在线观看| 在线a可以看的网站| 亚洲五月天丁香| 亚洲av五月六月丁香网| 一边摸一边抽搐一进一小说| 日本黄色视频三级网站网址| 欧美人与性动交α欧美精品济南到| 此物有八面人人有两片| 成人国语在线视频| 村上凉子中文字幕在线| 婷婷丁香在线五月| 国产私拍福利视频在线观看| 欧美最黄视频在线播放免费| 欧美一区二区国产精品久久精品 | 欧美三级亚洲精品| 无人区码免费观看不卡| 丁香欧美五月| 亚洲国产精品久久男人天堂| 日本精品一区二区三区蜜桃| 成人精品一区二区免费| 听说在线观看完整版免费高清| 特级一级黄色大片| 精品久久久久久久末码| 亚洲精品在线美女| x7x7x7水蜜桃| 久久精品夜夜夜夜夜久久蜜豆 | 免费在线观看影片大全网站| 97超级碰碰碰精品色视频在线观看| 在线观看一区二区三区| 两个人看的免费小视频| 九九热线精品视视频播放| 亚洲国产精品合色在线| 成人手机av| 免费看a级黄色片| 国产精品永久免费网站| 19禁男女啪啪无遮挡网站| 日韩国内少妇激情av| 又大又爽又粗| 我的老师免费观看完整版| 欧美丝袜亚洲另类 | 日本黄大片高清| 三级毛片av免费|