• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn)中新的選題策略:結(jié)合項(xiàng)目區(qū)分度指標(biāo)*

    2016-01-10 00:48:12鄭蟬金邊玉芳宋乃慶夏凌翔
    心理學(xué)報 2016年7期
    關(guān)鍵詞:區(qū)分度題庫測驗(yàn)

    郭 磊 鄭蟬金 邊玉芳 宋乃慶 夏凌翔

    (1西南大學(xué)心理學(xué)部,重慶 400715) (2西南大學(xué)統(tǒng)計(jì)學(xué)博士后科研流動站,重慶 400715)(3中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心西南大學(xué)分中心,重慶 400715) (4江西師范大學(xué)心理學(xué)院,南昌 330022)(5北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875) (6西南大學(xué)基礎(chǔ)教育研究中心,重慶 400715)

    1 引言

    近些年,國內(nèi)外心理測量著重于形成性評估(

    formative assessment

    ),它要求提供給教育工作者和學(xué)生更多的測驗(yàn)信息,以幫助教師教學(xué)和學(xué)生改進(jìn)?;诖?認(rèn)知診斷評估(

    Cognitive Diagnostic Assessment,

    CDA)通過測查學(xué)生是否掌握了某一知識領(lǐng)域內(nèi)的認(rèn)知屬性和技能而蓬勃發(fā)展。計(jì)算機(jī)化適應(yīng)性測驗(yàn)(

    Computerized adaptive testing,

    CAT)是量體裁衣式的新型測驗(yàn)形式,在美國得以廣泛運(yùn)用,例如研究生入學(xué)考試(

    Graduate Record Examination

    ,GRE)、美國護(hù)士資格考試(

    The National Council of State Boards of Nursing,

    NCSBN)等。和傳統(tǒng)紙筆測驗(yàn)相比,CAT測驗(yàn)長度更短,能力估計(jì)精度更高。將CDA和CAT結(jié)合兼具二者優(yōu)勢,能夠快速精準(zhǔn)地得到學(xué)生知識狀態(tài)(

    Knowledge State,

    KS),該測驗(yàn)形式被稱作認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn)(

    Cognitive Diagnostic Computerized adaptive testing,

    CD-CAT;Cheng,2009)。和傳統(tǒng)CAT一樣,CD-CAT同樣具有5個重要組成部分(郭磊,2014)。其中,研究最多的當(dāng)屬選題策略(Cheng,2009;Wang,Chang,&Douglas,2012;Wang,Chang,&Huebner,2011;Xu,Chang,&Douglas,2003;毛秀珍,辛濤,2011;尚志勇,丁樹良,2011;汪文義,丁樹良,宋麗紅,2014),因?yàn)檫x題策略的好壞不僅影響測驗(yàn)效率,還影響題庫的使用情況,通常被視作CAT系統(tǒng)的核心成分。CD-CAT在形成性評估中的一個重要作用是讓教師能在課堂中快速地掌握學(xué)生的學(xué)習(xí)動態(tài)。例如,上課前幾分鐘,教師用較短的測驗(yàn)可以初步掌握學(xué)生的知識狀態(tài),便于接下來有針對性地進(jìn)行課堂教學(xué)。因此,如何能在較短測驗(yàn)中準(zhǔn)確地估計(jì)學(xué)生的知識狀態(tài)尤為重要,這就跟選題策略息息相關(guān)。目前,在眾多選題策略中,效果較好并且應(yīng)用較多的是后驗(yàn)加權(quán)庫爾貝克-萊布勒信息量法(

    Posterior-Weighted Kullback-Leibler,

    PWKL;Cheng,2009)。該方法將每次更新后的被試知識狀態(tài)的后驗(yàn)概率作為權(quán)重融合到庫爾貝克-萊布勒信息量(

    Kullback-Leibler information

    )指標(biāo)中,大大提高了被試KS的估計(jì)精度。但PWKL指標(biāo)僅從個體層面(

    person-level

    )對KL信息量進(jìn)行加權(quán),并未考慮項(xiàng)目質(zhì)量對估計(jì)精度的影響,屬于單源指標(biāo)(

    single-source index

    )。在經(jīng)典測驗(yàn)理論(

    Classical Test Theory

    ,CTT)和項(xiàng)目反應(yīng)理論(

    Item Response Theory

    ,IRT)中,題目的質(zhì)量決定著測驗(yàn)的質(zhì)量,而題目質(zhì)量中比較關(guān)鍵的指標(biāo)之一就是項(xiàng)目區(qū)分度(

    item discrimination

    )。項(xiàng)目區(qū)分度較高,表明該題目能夠較好地區(qū)分出高能力被試和低能力被試,這也是測驗(yàn)編制所追求的目標(biāo)之一。正是基于項(xiàng)目區(qū)分度如此重要的作用,Chang和Ying (1999)在傳統(tǒng)CAT中提出了著名的a分層選題法。他們建議在測驗(yàn)初期使用區(qū)分度較低的項(xiàng)目,因?yàn)闇y驗(yàn)初期對被試能力值的估計(jì)還不是很精確,無需使用項(xiàng)目信息量較高的項(xiàng)目,等到測驗(yàn)后期需要對被試能力值進(jìn)行精確估計(jì)時,再使用高區(qū)分度的項(xiàng)目。同樣,在CDA領(lǐng)域,我們?nèi)孕杩紤]項(xiàng)目質(zhì)量的問題。若項(xiàng)目區(qū)分度較高,則題目能夠區(qū)分出掌握該題目所考察屬性的被試和未掌握該題目所考察屬性的被試的能力(

    power

    )就較大(Rupp,Templin,&Henson,2010)。可以看出,不論測驗(yàn)理論是CTT,IRT,還是CDA,項(xiàng)目區(qū)分度均是用來衡量題目能否有效區(qū)分出高能力被試和低能力被試(或不同知識狀態(tài))的關(guān)鍵指標(biāo)。Rupp等(2010)書中第13章總結(jié)了當(dāng)前CDA中常用的一些項(xiàng)目區(qū)分度指標(biāo),主要包括兩大類:一類是基于CTT思想提出的項(xiàng)目區(qū)分度指標(biāo),另一類是基于KL信息量提出的項(xiàng)目區(qū)分度指標(biāo)。另一方面,Wang(2013)基于互信息理論提出了互信息選題方法(

    Mutual Information Method

    ,MIM),模擬研究結(jié)果表明 MIM 在大多數(shù)實(shí)驗(yàn)條件下的判準(zhǔn)率要優(yōu)于PWKL,特別是在測驗(yàn)長度較短(5題)時,但 MIM并未考慮項(xiàng)目區(qū)分度信息。

    與傳統(tǒng)CAT一樣,在CD-CAT的實(shí)際應(yīng)用中,不容忽視的一個重要問題是項(xiàng)目曝光問題。當(dāng)前CD-CAT著重于測量精度的實(shí)現(xiàn),較少考慮項(xiàng)目曝光問題,導(dǎo)致題庫使用極其不均勻,優(yōu)質(zhì)題目曝光十分嚴(yán)重(Wang et al.,2011)。在選題策略的研究中,估計(jì)精度和項(xiàng)目曝光度往往是相互制約的。因此,要全面考察一個選題指標(biāo)的好壞,并與實(shí)際應(yīng)用情景相符,對項(xiàng)目過度曝光的控制是很重要的。但即使是在 Wang (2013)的研究中,也未曾考慮曝光控制問題。

    查閱國內(nèi)外相關(guān)文獻(xiàn),將區(qū)分度信息納入CD-CAT選題過程的研究并不多,據(jù)我們所知,汪文義等(2014)基于CTT的思想將項(xiàng)目區(qū)分度信息納入選題策略中進(jìn)行了研究,但該方法不僅在加權(quán)形式上與 Rupp等(2010)提出的加權(quán)形式不同,而且也不是對PWKL指標(biāo)的加權(quán)。除此之外,尚未見到基于KL信息量提出的項(xiàng)目區(qū)分度加權(quán)指標(biāo)。因此,本文以確定性輸入,噪音“與”門(

    the Deterministic Inputs,Noisy “and”Gate

    ,DINA)模型為例(DINA 模型是認(rèn)知診斷研究中最常使用的模型,由于 DINA模型參數(shù)較少、簡單易懂、方便解釋,因此成為了許多研究者修正和拓展的基礎(chǔ)模型),將項(xiàng)目區(qū)分度信息融入選題策略中,對 PWKL指標(biāo)進(jìn)行修正,提出4個新的多源選題指標(biāo)(

    multiple-source index

    ),分別稱作:基于經(jīng)典測驗(yàn)理論的項(xiàng)目區(qū)分度加權(quán)法(

    CTT-analogous item-discrimination-posterior-weighted Kullback-Leibler

    ,CIDPWKL)、基于KL信息量的全局項(xiàng)目區(qū)分度加權(quán)法(

    KLI-based global-itemdiscrimination-posterior-weighted Kullback-Leibler,

    GIDPWKL)、基于KL信息量的屬性層面項(xiàng)目區(qū)分度加權(quán)法(

    KLI-based attribute-specific-itemdiscrimination-posterior-weighted Kullback-Leibler,

    AIDPWKL)、以及使用汪文義等(2014)提出的權(quán)重加權(quán)方法(本文將該方法稱作 KLEDPWKL法),并在加入曝光控制技術(shù)下,將4種新方法和PWKL、MIM 在不同實(shí)驗(yàn)條件下進(jìn)行系統(tǒng)比較,以驗(yàn)證新方法的優(yōu)越性。

    本文按如下方式組織。首先對DINA模型進(jìn)行簡單介紹,其次對 PWKL、4種新的選題方法、以及MIM方法進(jìn)行詳細(xì)介紹。第四部分和第五部分分別進(jìn)行兩個模擬研究,最后部分為本文的研究結(jié)論,討論及展望。

    2 DINA模型簡介

    DINA模型是具有顯式項(xiàng)目特征函數(shù)的診斷模型(Haertel,1989;Junker &Sijtsma,2001),其數(shù)學(xué)表達(dá)式為:

    3 相關(guān)選題策略介紹

    Cheng (2009)在提出了PWKL指標(biāo)的同時還提出了 HKL指標(biāo),并通過模擬研究發(fā)現(xiàn)兩者的表現(xiàn)相差無幾。由此表明,僅僅在 PWKL指標(biāo)中融入KS之間距離的加權(quán)做法收效不大。受Cheng的研究和項(xiàng)目區(qū)分度效能的啟發(fā),一個更加合適的權(quán)重應(yīng)該是 CDA中的項(xiàng)目區(qū)分度(請見本文 3.3和3.4部分介紹)。因?yàn)轫?xiàng)目區(qū)分度不僅包含了項(xiàng)目是如何考察

    K

    個屬性的信息(即Q矩陣中的

    q

    向量),還包含了項(xiàng)目參數(shù)以及被試KS之間不同組合提供的信息,提供的信息更加豐富。下面將分別對本文涉及的6種選題方法進(jìn)行介紹。

    3.1 PWKL指標(biāo)

    但KL選題策略中KL指標(biāo)是計(jì)算當(dāng)前估計(jì)的KS與所有可能KS之間的KL距離的等權(quán)之和,該做法不太合理。Cheng (2009)認(rèn)為,隨著被試作答項(xiàng)目數(shù)量的增長,被試能提供更多的診斷信息,因此各種可能的KS之間的后驗(yàn)概率差異會越來越大,即該被試從屬于某類KS的可能性會逐漸增大。于是,她利用后驗(yàn)概率對 KL信息量進(jìn)行修正,提出了PWKL方法,PWKL指標(biāo)為:

    3.2 CIDPWKL指標(biāo)

    可以看出,一個題目的猜測參數(shù)和失誤參數(shù)的和越小,該題目的區(qū)分度就越大。因此,結(jié)合了基于CTT思想推導(dǎo)出的項(xiàng)目區(qū)分度后,CIDPWKL指標(biāo)的公式如下:

    CIDPWKL指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大CIDPWKL信息量的題目給被試作答。

    3.3 GIDPWKL指標(biāo)

    Henson和Douglas (2005)指出,如果某個項(xiàng)目能夠很好地區(qū)分相似的 KS,那么它也能夠較好地區(qū)分差異較大的KS?;诖?他們提出了全局項(xiàng)目區(qū)分度指標(biāo)CDI (

    Cognitive Diagnostic Index

    )。題目

    j

    的CDI計(jì)算公式如下:

    GIDPWKL指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大 GIDPWKL信息量的題目給被試作答。

    3.4 AIDPWKL指標(biāo)

    Henson,Roussos,Douglas和He (2008)提出了屬性層面(

    attribute-specific

    )的項(xiàng)目區(qū)分度指標(biāo)

    C

    ,該指標(biāo)表示項(xiàng)目

    j

    能夠區(qū)分掌握屬性

    k

    和未掌握屬性

    k

    的效能(

    power

    )。基于

    D

    矩陣,

    C

    關(guān)注只在屬性

    k

    上有差異的那些元素。例如,測驗(yàn)考察3個屬性,那么在第一個屬性上有差異的元素共包括 8組:000和100、100和000、010和110、001和101、110和010、101和001、011和111、111和011。類似地,可以在

    D

    矩陣中找出在第二個和第三個屬性上有差異的元素。由此,項(xiàng)目

    j

    在第

    k

    個屬性上的區(qū)分度計(jì)算公式如下:

    若項(xiàng)目

    i

    考察的屬性個數(shù)多于項(xiàng)目

    j

    ,則項(xiàng)目

    i

    的屬性區(qū)分度個數(shù)也要多于項(xiàng)目

    j

    ,因此,項(xiàng)目

    i

    能夠貢獻(xiàn)的效能就越多。基于此,結(jié)合了屬性層面的項(xiàng)目區(qū)分度指標(biāo)

    C

    后,AIDPWKL指標(biāo)的公式如下:

    AIDPWKL指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大 AIDPWKL信息量的題目給被試作答。

    3.5 MI指標(biāo)

    給定兩個隨機(jī)變量

    X

    Y

    ,互信息為兩變量邊際分布的乘積

    f

    (

    x

    )

    f

    (

    y

    )與它們聯(lián)合分布

    f

    (

    x

    ,

    y

    )的KL距離,其表達(dá)式為:

    I

    (

    X

    ;

    Y

    )測量了

    X

    Y

    之間的依賴程度,

    X

    能夠提供給

    Y

    越多信息(或

    Y

    能夠提供給

    X

    越多信息【互信息的對稱性】),

    I

    (

    X

    ;

    Y

    )越大。在CD-CAT中,互信息可以看作是臨近兩次后驗(yàn)概率分布的期望 KL距離(

    expected KL distance

    )。Wang (2013)將KS為α的被試作答完

    t

    -1題的后驗(yàn)概率

    π

    (α|x)替換公式(10)中的

    f

    (

    y

    ),將給定作答完

    t

    -1題在第

    t

    題上反應(yīng)的二項(xiàng)分布

    p

    (

    x

    |x)替換公式(10)中的

    f

    (

    x

    ),并通過簡單的運(yùn)算,得到了互信息指標(biāo)為:

    MI指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大MI值的題目給被試作答。

    3.6 KLEDPWKL指標(biāo)

    汪文義等(2014)提出了 KLED 選題方法,在DINA模型下可以將其換算為:

    基于此,將 KLED中的權(quán)重

    w

    與PWKL結(jié)合后的KLEDPWKL計(jì)算公式如下:

    KLEDPWKL指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大KLEDPWKL值的題目給被試作答。

    4 模擬研究1

    4.1 研究目的

    采用蒙特卡洛模擬方法,在固定測驗(yàn)長度條件下比較6種選題策略:PWKL法、CIDPWKL法、GIDPWKL法、AIDPWKL法、KLEDPWKL法和MIM法,重點(diǎn)考察不同選題策略對被試KS估計(jì)精度的影響。其中,PWKL法作為基線。所有程序采用Matlab 2012b進(jìn)行編程。需要指出的是,在進(jìn)行新方法的編程時,可以提前將

    D

    矩陣以及相應(yīng)的

    C

    C

    計(jì)算好。在每次使用項(xiàng)目區(qū)分度信息時,直接從該矩陣中調(diào)取即可,這樣可以有效提高選題速度。除了一開始計(jì)算

    D

    矩陣等需要較短的時間以外,整個選題過程所用時間和PWKL所用時間基本相同。

    4.2 研究設(shè)計(jì)

    本研究中的Q矩陣包括兩種結(jié)構(gòu)(如表1所示):(1)簡單結(jié)構(gòu)(S)中包含800題,考察相互獨(dú)立的6個屬性,每個屬性有20%的項(xiàng)目考察,每個項(xiàng)目至少考察一個屬性;(2)復(fù)雜結(jié)構(gòu)(C)中每個屬性有 50%的項(xiàng)目考察,其余條件同簡單結(jié)構(gòu)。項(xiàng)目的s參數(shù)和g參數(shù)越小,項(xiàng)目的質(zhì)量越高,本研究的題目質(zhì)量包括兩個水平:(1)高質(zhì)量題目的s參數(shù)和g參數(shù)被定義為平均數(shù)為0.1,波動范圍為0.05,因此均從

    U

    (0.05,0.15)中抽取;(2)低質(zhì)量題目的s參數(shù)和g參數(shù)的波動范圍與高質(zhì)量題目相同,其平均數(shù)被定義為0.2,因此均從

    U

    (0.15,0.25)中抽取。測驗(yàn)長度為5題和10題,分別表示較短測驗(yàn)長度和中等測驗(yàn)長度(Wang,2013)。1000個被試KS的真值按照高階DINA模型生成(Wang,2013),其中高階能力值

    θ

    從標(biāo)準(zhǔn)正態(tài)分布

    N (

    0,1)中抽取,斜率

    λ

    從對數(shù)正態(tài)分布中抽取,截距

    λ

    從標(biāo)準(zhǔn)正態(tài)分布中抽取。在高階DINA模型中,被試

    i

    在屬性

    k

    上的掌握情況為:

    因此,本研究共包括 2(Q矩陣結(jié)構(gòu))× 2(題目質(zhì)量)× 2(測驗(yàn)長度)×6(選題策略)=48 種實(shí)驗(yàn)條件。每個實(shí)驗(yàn)條件重復(fù)30次以減小隨機(jī)誤差。

    表1 簡單結(jié)構(gòu)和復(fù)雜結(jié)構(gòu)中每個屬性的項(xiàng)目比例

    Wang等(2011)提出了兩種 CD-CAT中的曝光控制方法:限制進(jìn)度法(

    Restrictive Progressive method

    ,RP)和限制閾值法(

    Restrictive Threshold method

    ,RT)。估計(jì)精度和項(xiàng)目曝光度往往是相互制約的,比起RT法,RP法在平衡估計(jì)精度和項(xiàng)目曝光度方面做得更好,而且本文的目的也并非比較不同曝光控制方法之間的差異,因此,本文借用 RP法的思想作為曝光控制方法(由于篇幅所限,RP法請參見相關(guān)文獻(xiàn))。具體而言,當(dāng)采用本文提出的新選題策略時,按RP法的思想將Wang等(2011)提出的原始公式中的PWKL指標(biāo)分別替換成CIDPWKL、GIDPWKL、AIDPWKL、KLEDPWKL和MIM 指標(biāo),從而實(shí)現(xiàn)對題目的曝光控制。其中,允許的最大曝光率設(shè)置為0.2,

    β

    =2。

    4.3 評價指標(biāo)

    (1)平均屬性判準(zhǔn)率(

    Average Attribute Correct Classification Rate

    ,AACCR)

    AACCR考察所有屬性平均返真性情況。假設(shè)測驗(yàn)共考察了

    K

    個屬性,有

    N

    個被試參加了測驗(yàn),現(xiàn)在考察第

    k

    個屬性,如果被試

    i

    掌握(未掌握)第

    k

    個屬性,今診斷其掌握(未掌握)該屬性,則表明對第

    k

    個屬性判準(zhǔn)了一次,記為

    g

    =1,否則

    g

    =0。(2)模式判準(zhǔn)率(

    Pattern Correct Classification Rate

    ,PCCR)

    PCCR

    考察被試屬性掌握模式(

    α

    =(

    α

    ,

    α

    ,…,

    α

    ))的返真性。假設(shè)測驗(yàn)共考察了

    K

    個屬性,有

    N

    個被試參加了測驗(yàn),被試

    i

    真實(shí)的屬性掌握向量記為X,但把該被試歸類為 Ζ,如果有X=Z,記

    n

    =1;否則記

    n

    =0。

    (3)測驗(yàn)重疊率

    測驗(yàn)重疊率被定義為兩個隨機(jī)抽取的被試作答相同題目的期望數(shù)除以測驗(yàn)長度,計(jì)算公式如下:

    其中,

    T

    表示測驗(yàn)重疊率,

    M

    是第

    j

    個題目被調(diào)用的次數(shù),

    J

    是題庫大小,

    L

    是測驗(yàn)長度,

    N

    是被試人數(shù)。測驗(yàn)重疊率越小,說明兩個隨機(jī)抽取的被試作答相同題目的比例越小。(4)題庫使用均勻性指標(biāo),卡方

    χ

    其中,

    er

    是第

    j

    個題目的曝光率,其大小等于作答題目

    j

    的被試人數(shù)除以參加測驗(yàn)的總被試人數(shù),其余符號定義同測驗(yàn)重疊率指標(biāo)。

    χ

    越小越好,

    χ

    越小,說明整個題庫使用越均勻。

    除上述指標(biāo)外,研究結(jié)果還記錄了題庫中未使用的題目數(shù)量。

    4.4 研究結(jié)果

    表2和表3分別是簡單結(jié)構(gòu)和復(fù)雜結(jié)構(gòu)中6種選題策略在不同測驗(yàn)長度和不同題目質(zhì)量下的平均屬性判準(zhǔn)率和模式判準(zhǔn)率。由結(jié)果可知,在各種實(shí)驗(yàn)條件下,與PWKL方法相比,其余5種選題策略的AACCR和PCCR均有不同程度的提高。整體上來看,表現(xiàn)最好的是GIDPWKL指標(biāo),其判準(zhǔn)率的增長幅度均是最大的,如表2和表3中粗體數(shù)值所示。表現(xiàn)次之的是AIDPWKL方法。而CIDPWKL、KLEDPWKL和MIM方法并未呈現(xiàn)出一致的表現(xiàn)結(jié)果。例如在簡單結(jié)構(gòu)×5題×高質(zhì)量題目實(shí)驗(yàn)條件下,KLEDPWKL的判準(zhǔn)率要高于 CIDPWKL和MIM,但在簡單結(jié)構(gòu)×5題×低質(zhì)量題目實(shí)驗(yàn)條件下,MIM的判準(zhǔn)率要高于其余兩種方法。具體來看,在絕大多數(shù)實(shí)驗(yàn)條件下,測驗(yàn)長度越短,GIDPWKL和AIDPWKL方法的優(yōu)勢越明顯,且均要優(yōu)于其余方法。例如,在簡單結(jié)構(gòu)中題目質(zhì)量較高時,測驗(yàn)長度為5題條件下,與PWKL相比,GIDPWKL和AIDPWKL的AACCR值分別提高了0.025和0.019;PCCR值分別提高了0.051和0.049;當(dāng)測驗(yàn)長度增加至10題時,GIDPWKL和AIDPWKL的AACCR值分別提高了0.017和0.014;PCCR值分別提高了0.033和0.022。而 CIDPWKL、KLEDPWKL 和MIM之間并沒有展現(xiàn)出一致的優(yōu)勢結(jié)果,但三者的表現(xiàn)相差無幾。

    大部分實(shí)驗(yàn)結(jié)果表明,題目質(zhì)量越高,GIDPWKL和AIDPWKL方法的優(yōu)勢越明顯,且均要優(yōu)于其余方法。例如,在簡單結(jié)構(gòu)中測驗(yàn)長度為5題時,高題目質(zhì)量條件下,與 PWKL相比,GIDPWKL和AIDPWKL的AACCR值分別提高了0.025和0.019;PCCR值分別提高了0.051和0.049;低題目質(zhì)量條件下,GIDPWKL和AIDPWKL的AACCR值分別提高了0.024和0.005;PCCR值分別提高了0.037和0.032。而CIDPWKL、KLEDPWKL和MIM 之間并沒有展現(xiàn)出一致的優(yōu)勢結(jié)果,但三者的表現(xiàn)相差無幾。

    Q矩陣結(jié)構(gòu)的復(fù)雜性也會影響不同選題方法的表現(xiàn)。在大部分實(shí)驗(yàn)條件下,Q矩陣越復(fù)雜,不同選題方法的AACCR和PCCR的增長幅度也越大。例如,測驗(yàn)長度為10題的高質(zhì)量題目條件下,在復(fù)

    雜結(jié)構(gòu)中,GIDPWKL、AIDPWKL、CIDPWKL、KLEDPWKL和MIM的 AACCR值分別提高了0.021,0.015、0.007、0.013和0.015;PCCR值分別提高了0.056、0.043、0.034、0.041和0.038;在簡單結(jié)構(gòu)中,GIDPWKL、AIDPWKL、CIDPWKL、KLEDPWKL和MIM的 AACCR值分別提高了0.017,0.014、0.010、0.008和0.011;PCCR值分別提高了0.033、0.022、0.019、0.014和0.020。

    表2 簡單結(jié)構(gòu)下不同選題策略的判準(zhǔn)率及題庫使用情況

    表3 復(fù)雜結(jié)構(gòu)下不同選題策略的判準(zhǔn)率及題庫使用情況

    在題庫使用情況上,由于GIDPWKL和AIDPWKL方法的判準(zhǔn)精度更高,因此這兩種方法的測驗(yàn)重疊率,未使用的題目數(shù)量以及卡方值也是最大的,其余3種方法雖然判準(zhǔn)精度比GIDPWKL和AIDPWKL低,但它們的題庫使用情況要更好。該結(jié)果正是CAT形式測驗(yàn)中精度與題庫使用情況的權(quán)衡(

    trade-off

    )問題的體現(xiàn)。由于本研究加入了曝光控制,因此題庫使用情況是可以控制在預(yù)期范圍之內(nèi)的。

    5 模擬研究2

    5.1 研究目的

    采用蒙特卡洛模擬方法,在固定測驗(yàn)精度(Hsu,Wang,&Chen,2013;Tatsuoka,2002;郭磊,2014),即變長終止規(guī)則條件下比較6種選題策略。重點(diǎn)考察不同選題策略下的測驗(yàn)使用情況,主要包括平均測驗(yàn)長度 Mean,測驗(yàn)長度的標(biāo)準(zhǔn)差 SD,最大測驗(yàn)長度Max和最小測驗(yàn)長度Min。其中,PWKL法作為基線。所有程序采用Matlab 2012b進(jìn)行編程。將測驗(yàn)的使用情況作為該研究的評價指標(biāo)是因?yàn)椋罕容^不同的選題策略質(zhì)量差異時(控制其他條件均相同),若使用定長終止規(guī)則,那么判準(zhǔn)率高的選題方法較好;若使用變長終止規(guī)則,即在固定終止精度時,主要看平均用題量,即平均用題量少的選題方法較好。因此,在研究 2中,我們不再關(guān)注判準(zhǔn)精度,而是比較不同方法的測驗(yàn)使用情況。

    5.2 研究設(shè)計(jì)

    由于研究2采用變長終止規(guī)則,一個比較簡單可行的做法是通過改變被試KS后驗(yàn)概率分布中的最大值(記作

    P

    )來控制終止精度(Tatsuoka,2002)。本研究的終止精度包括3個水平:

    P

    =0.7,

    P

    =0.8和

    P

    =0.9,其余條件同研究1。郭磊、鄭蟬金和邊玉芳(2015)提出了3種變長CD-CAT的項(xiàng)目曝光控制方法,研究結(jié)果表明,修正的RT法和修正的RP法在項(xiàng)目曝光率的控制上存在過度控制現(xiàn)象,而simple法不存在該現(xiàn)象,并且操作更加簡潔,因此,本文選用simple法作為變長CD-CAT中的曝光控制方法。同時為了不讓變長CD-CAT的題目過長,與實(shí)際情況更加貼近,本文將測驗(yàn)長度上限設(shè)置為30題(郭磊等,2015)。simple法是在選題指標(biāo)前乘以曝光控制因子

    f

    ,計(jì)算公式如下:

    其中,

    r

    為允許的最大項(xiàng)目曝光率(本研究設(shè)置為0.2),

    m

    為第

    j

    個項(xiàng)目當(dāng)前的被調(diào)用次數(shù),

    N

    為參加測驗(yàn)的總?cè)藬?shù)。

    5.3 評價指標(biāo)

    由于研究2和研究1的目的不同,因此,本研究的評價指標(biāo)主要是測驗(yàn)的使用情況,主要包括平均測驗(yàn)長度 Mean,測驗(yàn)長度的標(biāo)準(zhǔn)差 SD,最大測驗(yàn)長度Max和最小測驗(yàn)長度Min。

    5.4 研究結(jié)果

    表4和表5是6種選題策略的測驗(yàn)使用情況。由結(jié)果可知,與PWKL方法相比,其余5種方法的平均測驗(yàn)長度更少,其中表現(xiàn)最好的依然是 GIDPWKL方法。

    從表4結(jié)果可以看出,除了按照最大測驗(yàn)長度終止以外,大部分的實(shí)驗(yàn)條件下,其余 5種方法的最大測驗(yàn)長度要低于 PWKL方法,最小測驗(yàn)長度和PWKL相差無幾。該結(jié)果表明其余 5種方法較PWKL方法的優(yōu)勢所在:在具有相同測量精度時,可以有效降低被試作答的最大測驗(yàn)長度。

    與 AIDPWKL、CIDPWKL、KLEDPWKL和MIM相比,GIDPWKL的平均測驗(yàn)長度與PWKL的平均測驗(yàn)長度之差是最大的(除表5中最后一行以外),節(jié)約的平均題目數(shù)量介于 0.47~0.87之間,如表5中粗體數(shù)值所示。該結(jié)果表明,4種新方法和MIM的選題效率更高,在相同的測驗(yàn)情景中,新方法能夠用更少的題目達(dá)到與 PWKL方法相同的測量精度。

    值得注意的是,不論采用何種方法,隨著終止精度

    P

    的增大,平均測驗(yàn)長度和最大測驗(yàn)長度均增大,該結(jié)果和Hsu等(2013)的研究結(jié)果一致。Q矩陣結(jié)構(gòu)和題目質(zhì)量均會影響這幾種選題策略的測驗(yàn)使用情況。例如,當(dāng)固定Q矩陣結(jié)構(gòu)時,題目質(zhì)量越高,平均測驗(yàn)長度和最大測驗(yàn)長度越小;當(dāng)固定題目質(zhì)量時,Q矩陣結(jié)構(gòu)越簡單,平均測驗(yàn)長度和最大測驗(yàn)長度越小。該結(jié)果表明,在實(shí)際編制Q矩陣和題目時,應(yīng)注重提高題目的質(zhì)量和適當(dāng)減小Q矩陣的復(fù)雜性。

    表4 變長終止規(guī)則下測驗(yàn)長度的最大值和最小值

    表5 變長終止規(guī)則下測驗(yàn)長度的平均值和標(biāo)準(zhǔn)差

    6 研究結(jié)論

    本文首先指出了傳統(tǒng)的 PWKL指標(biāo)僅考慮了被試 KS后驗(yàn)分布所提供的信息,并未關(guān)注在選題過程中題目能夠提供的項(xiàng)目層面的信息,因此,PWKL屬于單源指標(biāo)。隨后,本文將能夠提供更加豐富信息的項(xiàng)目區(qū)分度融入到 PWKL指標(biāo)中,對PWKL指標(biāo)進(jìn)行了修正,提出了4種新的多源選題指標(biāo):GIDPWKL、AIDPWKL、CIDPWKL和KLEDPWKL指標(biāo)。另一方面,根據(jù) Wang (2013)的研究結(jié)果表明:MIM 在大部分實(shí)驗(yàn)條件下的表現(xiàn)要優(yōu)于 PWKL,特別是在測驗(yàn)長度較短時。但Wang本人并未考慮在曝光控制條件下MIM的表現(xiàn),目前也沒有新方法與MIM之間的比較研究。因此,本文通過兩個模擬研究,在控制項(xiàng)目曝光基礎(chǔ)上,系統(tǒng)比較了這 6種方法在不同實(shí)驗(yàn)條件下的表現(xiàn),并得到以下結(jié)論:

    (1)在定長測驗(yàn)情景下,不論實(shí)驗(yàn)條件如何改變,4種新方法以及MIM方法的平均屬性/模式判準(zhǔn)率均要高于原始的PWKL方法。4種新方法中表現(xiàn)最好的是GIDPWKL,PCCR最大增幅高達(dá)5.8個百分點(diǎn)(復(fù)雜結(jié)構(gòu)×高質(zhì)量題目×5題),這意味著在1000人參加的較短測驗(yàn)中,比 PWKL方法可以多判準(zhǔn)58人;

    (2)在定長測驗(yàn)情景下的絕大多數(shù)實(shí)驗(yàn)結(jié)果表明,測驗(yàn)長度越短,新方法的優(yōu)勢越明顯。表現(xiàn)最好的是 GIDPWKL方法,之后是 AIDPWKL方法,而CIDPWKL、KLEDPWKL和MIM方法的優(yōu)勢隨實(shí)驗(yàn)條件不同而不同。該結(jié)果表明,新的選題策略在測驗(yàn)初期就會收到較大成效,能夠加快對被試KS判準(zhǔn)的速度;

    (3)在定長測驗(yàn)情景下的絕大多數(shù)實(shí)驗(yàn)結(jié)果表明,題目質(zhì)量越高,新方法的優(yōu)勢越明顯。表現(xiàn)最好的是 GIDPWKL方法,之后是 AIDPWKL方法,其余 3種方法(CIDPWKL、KLEDPWKL和MIM)之間并沒有展現(xiàn)出一致的優(yōu)勢結(jié)果,但三者的表現(xiàn)相差無幾。該結(jié)果表明,項(xiàng)目區(qū)分度信息的確可以,也應(yīng)該作為另一方面的信息源加入到選題過程中,以此提高被試KS的判準(zhǔn)率;

    (4) Q矩陣結(jié)構(gòu)的復(fù)雜性影響著不同選題策略的表現(xiàn)。從實(shí)驗(yàn)結(jié)果可以看出,與簡單結(jié)構(gòu)相比,復(fù)雜結(jié)構(gòu)的Q矩陣更能體現(xiàn)出新方法的優(yōu)勢,表明新方法更能有效處理復(fù)雜的測驗(yàn)情景;

    (5)在變長測驗(yàn)情景下,4種新方法及MIM的平均測驗(yàn)長度要低于 PWKL方法,表現(xiàn)最好的是GIDPWKL方法。該結(jié)果表明新方法能夠用更少的題目達(dá)到與PWKL方法相同的測量精度,效率更高。

    (6)整體來看,4種新方法以及MIM均比PWKL表現(xiàn)好。但相對而言,在4種新方法中,CIDPWKL和KLEDPWKL的表現(xiàn)不如 GIDPWKL和AIDPWKL。這是因?yàn)?CIDPWKL和KLEDPWKL指標(biāo)的項(xiàng)目區(qū)分度比較簡單,只考慮了項(xiàng)目參數(shù)的信息(即s和g參數(shù)),而其余二者是基于

    D

    計(jì)算得到的項(xiàng)目區(qū)分度,能提供的區(qū)分信息更加豐富。

    本文提出的 4種新方法通過將項(xiàng)目區(qū)分度作為權(quán)重融入PWKL指標(biāo)中,提高了選題效率。一個良好的選題方法的標(biāo)準(zhǔn)應(yīng)該是在固定測驗(yàn)長度時,具有較高的判準(zhǔn)率;或在固定測驗(yàn)精度時,具有較少的測驗(yàn)長度,而不是看該指標(biāo)/方法應(yīng)該有多復(fù)雜。根據(jù)實(shí)驗(yàn)結(jié)果表明,本文提出的4種新方法在較短測驗(yàn)長度時,比PWKL更加高效。根據(jù)上述結(jié)論,多源指標(biāo)是更加有效的選題策略。在定長測驗(yàn)中,GIDPWKL方法的判準(zhǔn)率是最高的;在變長測驗(yàn)中,GIDPWKL方法的平均測驗(yàn)長度是最少的,因此,在實(shí)際應(yīng)用中應(yīng)該首選測驗(yàn)效率最高的GIDPWKL方法。

    7 討論及展望

    本文成功地將項(xiàng)目區(qū)分度信息融入到傳統(tǒng)的PWKL指標(biāo)中,取得了令人滿意的結(jié)果,但仍有繼續(xù)可以研究的地方:

    (1)本研究僅選用了 DINA模型作為認(rèn)知診斷模型進(jìn)行研究,而融合模型(

    Fusion Model

    ,FM)被認(rèn)為是目前最優(yōu)的診斷模型,本文提出的4種新方法在FM中表現(xiàn)如何,特別是CIDPWKL表現(xiàn)如何值得進(jìn)一步研究。在FM中,基于CTT思想的項(xiàng)目區(qū)分度指標(biāo)不再是公式(4)所示,而是下式:

    (2)本研究并未考慮一些非統(tǒng)計(jì)約束條件,例如內(nèi)容平衡(Mao &Xin,2013),答案平衡和屬性平衡(Cheng,2010)等因素對新方法的影響,未來可以進(jìn)行這方面的研究。

    (3)本研究是從項(xiàng)目區(qū)分度角度對 PWKL進(jìn)行的改進(jìn),未來研究可以考慮其他加權(quán)方法。例如,可以根據(jù)Rupp等(2010;P242)提出的計(jì)算屬性標(biāo)準(zhǔn)誤的方法,將計(jì)算出來的屬性標(biāo)準(zhǔn)誤作為權(quán)重,考察利用屬性標(biāo)準(zhǔn)誤進(jìn)行加權(quán)方法的效果。

    Chang,H.H.,&Ying,Z.L.(1999).α-stratified multistage computerized adaptive testing.

    Applied Psychological Measurement,23

    (3),211–222.Cheng,Y.(2009).When cognitive diagnosis meets computerized adaptive testing:CD-CAT.

    Psychometrika,74

    (4),619–632.Cheng,Y.(2010).Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverage:The modified maximum global discrimination index method.

    Educational and Psychological Measurement,70

    (6),902–913.Guo,L.(2014).

    Variable-length cognitive diagnostic computerized adaptive testing:Termination rules,exposure control and quality monitoring technique

    (Unpublished doctorial dissertation).Beijing Normal University.[郭磊.(2014).

    變長認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn):終止規(guī)則、曝光控制及題庫質(zhì)量監(jiān)控技術(shù)

    (博士學(xué)位論文).北京師范大學(xué).]Guo,L.,Zheng,C.J.,&Bian,Y.F.(2015).Exposure control methods and termination rules in variable-length cognitive diagnostic computerized adaptive testing.

    Acta Psychologica Sinica,47

    (1),129–140.[郭磊,鄭蟬金,邊玉芳.(2015).變長 CD-CAT中的曝光控制與終止規(guī)則.

    心理學(xué)報,47

    (1),129–140.]Haertel,E.H.(1989).Using restricted latent class models to map the skill structure of achievement items.

    Journal of Educational Measurement,26

    (4),301–321.Henson,R.,&Douglas,J.(2005).Test construction for cognitive diagnosis.

    Applied Psychological Measurement,29

    (4),262–277.Henson,R.,Roussos,L.,Douglas,J.,&He,X.M.(2008).Cognitive diagnostic attribute-level discrimination indices.

    Applied Psychological Measurement,32

    (4),275–288.Hsu,C.L.,Wang,W.C.,&Chen,S.Y.(2013).Variable- length computerized adaptive testing based on cognitive diagnosis models.

    Applied Psychological Measurement,37

    (7),563–582.Junker,B.W.,&Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.

    Applied Psychological Measurement,25

    (3),258–272.Mao,X.Z.,&Xin,T.(2011).Improvement of item selection method in cognitive diagnostic computerized adaptive testing.

    Journal of Beijing Normal University (Natural Science),47

    (3),326–330.[毛秀珍,辛濤.(2011).認(rèn)知診斷 CAT中選題策略的改進(jìn).

    北京師范大學(xué)學(xué)報 (自然科學(xué)版),47

    (3),326–330.]Mao,X.Z.,&Xin,T.(2013).The application of the monte carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.

    Applied Psychological Measurement,37

    (6),482–496.Rupp,A.A.,Templin,J.,&Henson,R.A.(2010).

    Diagnostic measurement:Theory,methods,and applications

    .New York:Guilford Press.Shang,Z.Y.,&Ding,S.L.(2011).The exploration of item selection strategy of computerized adaptive testing for cognitive diagnosis.

    Journal of Jiangxi Normal University(Natural Science),35

    (4),418–421.[尚志勇,丁樹良.(2011).認(rèn)知診斷自適應(yīng)測驗(yàn)選題策略探新.

    江西師范大學(xué)學(xué)報 (自然科學(xué)版),35

    (4),418–421.]Tatsuoka,C.(2002).Data analytic methods for latent partially ordered classification models.

    Journal of the Royal Statistical Society:Series C (Applied Statistics),51

    (3),337–350.Templin,J.L.,&Henson,R.A.(2006).Measurement of psychological disorders using cognitive diagnosis models.

    Psychological Methods,11

    (3),287–305.Wang,C.(2013).Mutual information item selection method in cognitive diagnostic computerized adaptive testing with short test length.

    Educational and Psychological Measurement,73

    (6),1017–1035.Wang,C.,Chang,H.H.,&Douglas,J.(2012).Combining CAT with cognitive diagnosis:A weighted item selection approach.

    Behavior Research Methods,44

    (1),95–109.Wang,C.,Chang,H.H.,&Huebner,A.(2011).Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.

    Journal of Educational Measurement,48

    (3),255–273.Wang,W.Y.,Ding,S.L.,&Song,L.H.(2014).Item selection methods for balancing test efficiency with item bank usage efficiency in CD-CAT.

    Journal of Psychological Science,37

    (1),212–216.[汪文義,丁樹良,宋麗紅.(2014).兼顧測驗(yàn)效率和題庫使用率的CD-CAT選題策略.

    心理科學(xué),37

    (1),212–216.]Xu,X.L.,Chang,H.H.,&Douglas,J.(2003).

    A simulation study to compare CAT strategies for cognitive diagnosis

    .Paper presented at the Paper presented at the annual meeting of National Council on Measurement in Education,Montreal,Canada.

    猜你喜歡
    區(qū)分度題庫測驗(yàn)
    “勾股定理”優(yōu)題庫
    “軸對稱”優(yōu)題庫
    “軸對稱”優(yōu)題庫
    “整式的乘法與因式分解”優(yōu)題庫
    淺談試卷分析常用的幾個參數(shù)及其應(yīng)用
    圖形推理測量指標(biāo)相關(guān)性考察*
    江淮論壇(2018年4期)2018-08-24 01:22:30
    《新年大測驗(yàn)》大揭榜
    趣味(語文)(2018年7期)2018-06-26 08:13:48
    淺觀一道題的“區(qū)分度”
    兩個處理t測驗(yàn)與F測驗(yàn)的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    單維參數(shù)型與非參數(shù)型項(xiàng)目反應(yīng)理論項(xiàng)目參數(shù)的比較研究*
    在线观看免费视频网站a站| 久久99热这里只频精品6学生| 久久97久久精品| 午夜福利影视在线免费观看| 国产爽快片一区二区三区| 日本欧美视频一区| 女人久久www免费人成看片| 免费观看在线日韩| 免费看不卡的av| 99精国产麻豆久久婷婷| 日本与韩国留学比较| 免费在线观看黄色视频的| 久久这里只有精品19| 精品午夜福利在线看| 国精品久久久久久国模美| 丝袜脚勾引网站| 亚洲美女搞黄在线观看| 久久鲁丝午夜福利片| 欧美激情极品国产一区二区三区 | 国产成人精品久久久久久| 免费人妻精品一区二区三区视频| 精品久久国产蜜桃| 亚洲国产最新在线播放| 韩国av在线不卡| 亚洲欧美中文字幕日韩二区| 免费看av在线观看网站| 自线自在国产av| 午夜免费男女啪啪视频观看| 你懂的网址亚洲精品在线观看| av又黄又爽大尺度在线免费看| 国产激情久久老熟女| 国产精品嫩草影院av在线观看| 国产成人欧美| 18+在线观看网站| 日本免费在线观看一区| 国产极品天堂在线| 国产成人精品婷婷| 亚洲国产最新在线播放| 九九爱精品视频在线观看| 亚洲精品久久成人aⅴ小说| 久久精品人人爽人人爽视色| 亚洲一区二区三区欧美精品| 777米奇影视久久| 看免费av毛片| 激情视频va一区二区三区| tube8黄色片| 男女国产视频网站| 美女内射精品一级片tv| 日日啪夜夜爽| 国产免费一级a男人的天堂| 亚洲精品乱久久久久久| 国产精品嫩草影院av在线观看| 在线观看一区二区三区激情| 久久久亚洲精品成人影院| 一级a做视频免费观看| 曰老女人黄片| 午夜免费观看性视频| 交换朋友夫妻互换小说| 91久久精品国产一区二区三区| 九色亚洲精品在线播放| 一区二区日韩欧美中文字幕 | 亚洲情色 制服丝袜| 国产精品99久久99久久久不卡 | 乱码一卡2卡4卡精品| 免费av不卡在线播放| 大香蕉久久成人网| 卡戴珊不雅视频在线播放| 国产伦理片在线播放av一区| 最近最新中文字幕免费大全7| 精品久久蜜臀av无| 亚洲内射少妇av| 亚洲欧美日韩卡通动漫| 亚洲国产成人一精品久久久| 少妇高潮的动态图| 少妇人妻久久综合中文| 91精品国产国语对白视频| 飞空精品影院首页| 国产一区二区三区综合在线观看 | 一级片免费观看大全| 亚洲av福利一区| 王馨瑶露胸无遮挡在线观看| 香蕉精品网在线| 99国产精品免费福利视频| 国产黄频视频在线观看| 天堂8中文在线网| 亚洲av电影在线观看一区二区三区| 免费人妻精品一区二区三区视频| 女人被躁到高潮嗷嗷叫费观| 久久久久精品性色| 大片免费播放器 马上看| 男女国产视频网站| 一区二区av电影网| 五月玫瑰六月丁香| 国产一区二区在线观看av| 亚洲色图 男人天堂 中文字幕 | 国产一区有黄有色的免费视频| 一本久久精品| xxxhd国产人妻xxx| 亚洲av电影在线观看一区二区三区| 国产综合精华液| 国产视频首页在线观看| 少妇的逼好多水| 爱豆传媒免费全集在线观看| 亚洲精品乱久久久久久| 国产一区二区在线观看日韩| 亚洲国产av新网站| 精品午夜福利在线看| 国产精品欧美亚洲77777| 男女高潮啪啪啪动态图| 国产一区二区在线观看日韩| 婷婷色综合大香蕉| 美女脱内裤让男人舔精品视频| 日本黄色日本黄色录像| 你懂的网址亚洲精品在线观看| 亚洲精品aⅴ在线观看| 欧美精品一区二区大全| 成人手机av| 日韩伦理黄色片| 午夜激情久久久久久久| 观看美女的网站| 热99国产精品久久久久久7| 精品国产国语对白av| 亚洲精品av麻豆狂野| 中文乱码字字幕精品一区二区三区| 久久久精品区二区三区| 久久久国产欧美日韩av| 人妻一区二区av| 性高湖久久久久久久久免费观看| 美女大奶头黄色视频| 国产一区二区三区av在线| 成人黄色视频免费在线看| 婷婷色综合大香蕉| 桃花免费在线播放| 国产精品一区www在线观看| 国产av一区二区精品久久| 丝袜人妻中文字幕| xxxhd国产人妻xxx| tube8黄色片| 午夜福利网站1000一区二区三区| 啦啦啦在线观看免费高清www| 欧美国产精品va在线观看不卡| 男女午夜视频在线观看 | 中文乱码字字幕精品一区二区三区| 日韩精品免费视频一区二区三区 | 中文字幕精品免费在线观看视频 | 少妇人妻久久综合中文| 亚洲综合色网址| av福利片在线| 国产麻豆69| 我的女老师完整版在线观看| 黑人猛操日本美女一级片| av一本久久久久| 99久久中文字幕三级久久日本| 又大又黄又爽视频免费| 自拍欧美九色日韩亚洲蝌蚪91| 精品一区在线观看国产| 美女xxoo啪啪120秒动态图| 久久热在线av| 精品少妇内射三级| 亚洲欧美清纯卡通| 日韩一区二区三区影片| 久久久久久久国产电影| 少妇精品久久久久久久| 97超碰精品成人国产| 欧美+日韩+精品| 精品酒店卫生间| 中国美白少妇内射xxxbb| 亚洲少妇的诱惑av| 18禁动态无遮挡网站| 亚洲图色成人| 乱人伦中国视频| 久久久久久久亚洲中文字幕| 亚洲国产看品久久| 国产一区二区三区综合在线观看 | 最近中文字幕高清免费大全6| 亚洲欧美清纯卡通| 国产日韩欧美视频二区| 欧美亚洲日本最大视频资源| 久久婷婷青草| 黄片无遮挡物在线观看| 中文字幕精品免费在线观看视频 | 国产成人免费无遮挡视频| 精品亚洲成a人片在线观看| 国产永久视频网站| 久久精品国产综合久久久 | 欧美日韩视频高清一区二区三区二| 自线自在国产av| 永久网站在线| 国精品久久久久久国模美| videos熟女内射| 男女边摸边吃奶| 免费观看无遮挡的男女| 午夜免费男女啪啪视频观看| 国产成人免费观看mmmm| 亚洲av综合色区一区| 波野结衣二区三区在线| 成人漫画全彩无遮挡| 国产深夜福利视频在线观看| 只有这里有精品99| 亚洲精品日本国产第一区| 色5月婷婷丁香| 久久这里只有精品19| 在现免费观看毛片| 国产免费现黄频在线看| 制服人妻中文乱码| 丝袜喷水一区| 欧美日韩精品成人综合77777| 亚洲四区av| 日韩成人伦理影院| 大片电影免费在线观看免费| 内地一区二区视频在线| 汤姆久久久久久久影院中文字幕| 午夜福利影视在线免费观看| 国产探花极品一区二区| 丰满乱子伦码专区| 黑人巨大精品欧美一区二区蜜桃 | 久久99热6这里只有精品| 亚洲av电影在线进入| 亚洲欧洲日产国产| 国产在线一区二区三区精| 97超碰精品成人国产| 女性生殖器流出的白浆| 九九在线视频观看精品| 国产一区二区激情短视频 | 欧美少妇被猛烈插入视频| 一区二区三区四区激情视频| 老司机亚洲免费影院| 狂野欧美激情性bbbbbb| 又黄又爽又刺激的免费视频.| 久久亚洲国产成人精品v| 美女脱内裤让男人舔精品视频| 亚洲精品自拍成人| 中国三级夫妇交换| 亚洲国产欧美日韩在线播放| 久久免费观看电影| 成人无遮挡网站| 赤兔流量卡办理| 26uuu在线亚洲综合色| 曰老女人黄片| 99视频精品全部免费 在线| 亚洲第一av免费看| 国产精品国产三级专区第一集| 国产免费一区二区三区四区乱码| 久热这里只有精品99| 亚洲av成人精品一二三区| 热re99久久国产66热| 五月天丁香电影| 成人漫画全彩无遮挡| 国产亚洲精品久久久com| 在线观看人妻少妇| 寂寞人妻少妇视频99o| 久久久国产一区二区| 欧美成人午夜精品| 国产探花极品一区二区| www.色视频.com| 亚洲欧美清纯卡通| 精品人妻一区二区三区麻豆| 国产探花极品一区二区| 日韩人妻精品一区2区三区| 免费av中文字幕在线| 大香蕉97超碰在线| 欧美精品高潮呻吟av久久| 国产av码专区亚洲av| 精品一区二区三区四区五区乱码 | 最近最新中文字幕免费大全7| 日韩免费高清中文字幕av| 十八禁高潮呻吟视频| 一级毛片黄色毛片免费观看视频| 国产精品秋霞免费鲁丝片| 青青草视频在线视频观看| 国产黄频视频在线观看| 精品久久久久久电影网| 成人漫画全彩无遮挡| 亚洲欧美中文字幕日韩二区| av视频免费观看在线观看| 久久久亚洲精品成人影院| 9色porny在线观看| 热re99久久精品国产66热6| 赤兔流量卡办理| 天天躁夜夜躁狠狠久久av| √禁漫天堂资源中文www| 国产精品熟女久久久久浪| 精品视频人人做人人爽| 亚洲精品乱久久久久久| 久久久久久人妻| 日本与韩国留学比较| 亚洲av免费高清在线观看| 国产成人精品在线电影| 久久青草综合色| 赤兔流量卡办理| 免费不卡的大黄色大毛片视频在线观看| 久热久热在线精品观看| 黄片无遮挡物在线观看| 麻豆乱淫一区二区| 最新的欧美精品一区二区| 国产精品久久久久成人av| 国产成人精品福利久久| 亚洲精品久久午夜乱码| 99re6热这里在线精品视频| 多毛熟女@视频| 老女人水多毛片| 免费播放大片免费观看视频在线观看| 飞空精品影院首页| 如日韩欧美国产精品一区二区三区| 日韩 亚洲 欧美在线| 99国产综合亚洲精品| 亚洲欧美日韩卡通动漫| 精品人妻熟女毛片av久久网站| √禁漫天堂资源中文www| 久久久国产欧美日韩av| 日韩大片免费观看网站| 日日啪夜夜爽| 日本vs欧美在线观看视频| 国产无遮挡羞羞视频在线观看| 日韩av不卡免费在线播放| 春色校园在线视频观看| 香蕉丝袜av| 中文字幕av电影在线播放| 色5月婷婷丁香| 精品久久国产蜜桃| 国产又爽黄色视频| 中国三级夫妇交换| 免费黄频网站在线观看国产| 少妇人妻久久综合中文| av在线app专区| 免费在线观看黄色视频的| 热re99久久精品国产66热6| a级毛片在线看网站| 国产精品熟女久久久久浪| 久久久久久久久久人人人人人人| 午夜91福利影院| 亚洲精品美女久久久久99蜜臀 | 男女午夜视频在线观看 | 精品国产一区二区三区四区第35| 精品久久蜜臀av无| 久久久久久久亚洲中文字幕| 777米奇影视久久| 一个人免费看片子| 一本色道久久久久久精品综合| 久久精品国产a三级三级三级| 欧美人与性动交α欧美精品济南到 | 免费在线观看黄色视频的| 热re99久久精品国产66热6| 1024视频免费在线观看| 三级国产精品片| 美女大奶头黄色视频| 亚洲国产色片| 亚洲av欧美aⅴ国产| 男人爽女人下面视频在线观看| 欧美日韩一区二区视频在线观看视频在线| 欧美人与性动交α欧美软件 | 丝袜脚勾引网站| 亚洲一级一片aⅴ在线观看| 婷婷色av中文字幕| 国产黄色免费在线视频| 亚洲人与动物交配视频| 在线看a的网站| 日本爱情动作片www.在线观看| 日韩成人伦理影院| 色视频在线一区二区三区| 18禁国产床啪视频网站| 国产一区二区在线观看av| 18禁观看日本| 少妇被粗大猛烈的视频| 纯流量卡能插随身wifi吗| av网站免费在线观看视频| 精品国产国语对白av| 久久久国产精品麻豆| 国产1区2区3区精品| 深夜精品福利| av国产精品久久久久影院| 80岁老熟妇乱子伦牲交| 欧美国产精品一级二级三级| 国产精品国产av在线观看| 成人黄色视频免费在线看| av不卡在线播放| 日韩电影二区| 亚洲国产av影院在线观看| 国产成人a∨麻豆精品| tube8黄色片| 亚洲av国产av综合av卡| 97在线视频观看| 韩国精品一区二区三区 | 国精品久久久久久国模美| av黄色大香蕉| 国产福利在线免费观看视频| 免费观看性生交大片5| 亚洲精品一区蜜桃| 熟女电影av网| 人人妻人人添人人爽欧美一区卜| 老女人水多毛片| 日韩人妻精品一区2区三区| 精品少妇内射三级| 日韩精品免费视频一区二区三区 | 91精品伊人久久大香线蕉| 国产又爽黄色视频| 免费在线观看黄色视频的| 97人妻天天添夜夜摸| 亚洲精品美女久久av网站| 国产亚洲午夜精品一区二区久久| 在线亚洲精品国产二区图片欧美| 大话2 男鬼变身卡| 在线观看美女被高潮喷水网站| 又黄又爽又刺激的免费视频.| 日本午夜av视频| 蜜桃国产av成人99| 看非洲黑人一级黄片| 狠狠精品人妻久久久久久综合| 99热国产这里只有精品6| 中文字幕制服av| 99热国产这里只有精品6| 国产深夜福利视频在线观看| 99久久中文字幕三级久久日本| 国产亚洲av片在线观看秒播厂| 日韩不卡一区二区三区视频在线| 国产亚洲精品第一综合不卡 | 国产精品国产av在线观看| 激情五月婷婷亚洲| 欧美激情国产日韩精品一区| 卡戴珊不雅视频在线播放| 成人亚洲欧美一区二区av| 9191精品国产免费久久| 寂寞人妻少妇视频99o| 国产老妇伦熟女老妇高清| 美女大奶头黄色视频| 少妇人妻精品综合一区二区| 日本av免费视频播放| 欧美成人精品欧美一级黄| 少妇被粗大猛烈的视频| 一个人免费看片子| 国产亚洲午夜精品一区二区久久| 伦精品一区二区三区| 久久久久久久精品精品| 亚洲av电影在线进入| 午夜福利影视在线免费观看| 伊人亚洲综合成人网| 一二三四在线观看免费中文在 | 久久久久精品性色| 日产精品乱码卡一卡2卡三| 成人二区视频| 亚洲国产av影院在线观看| 国产精品久久久av美女十八| 大码成人一级视频| 久久久久久人人人人人| 久久这里只有精品19| 国产一区有黄有色的免费视频| 在线观看三级黄色| 中国美白少妇内射xxxbb| 精品少妇久久久久久888优播| 成人免费观看视频高清| 老司机亚洲免费影院| 国产永久视频网站| 飞空精品影院首页| 日日撸夜夜添| 人妻 亚洲 视频| 91久久精品国产一区二区三区| 欧美人与善性xxx| 国产成人免费无遮挡视频| 国产有黄有色有爽视频| 黄色视频在线播放观看不卡| 日本av免费视频播放| 老熟女久久久| 亚洲综合色网址| 国产精品不卡视频一区二区| 日日摸夜夜添夜夜爱| 最近中文字幕2019免费版| 久久久久网色| 中文欧美无线码| 亚洲图色成人| 一级片'在线观看视频| 国产免费又黄又爽又色| 少妇人妻久久综合中文| 晚上一个人看的免费电影| 婷婷色麻豆天堂久久| 美女国产高潮福利片在线看| 老司机影院毛片| 黄片播放在线免费| 久久久精品免费免费高清| 少妇的丰满在线观看| 日韩欧美一区视频在线观看| 午夜免费鲁丝| 99精国产麻豆久久婷婷| 丝袜脚勾引网站| 如日韩欧美国产精品一区二区三区| 熟妇人妻不卡中文字幕| 大码成人一级视频| 国产伦理片在线播放av一区| 亚洲婷婷狠狠爱综合网| 国产精品 国内视频| 婷婷成人精品国产| 最近最新中文字幕免费大全7| 亚洲丝袜综合中文字幕| av国产精品久久久久影院| 九九在线视频观看精品| 亚洲人与动物交配视频| 又大又黄又爽视频免费| 欧美97在线视频| 有码 亚洲区| 成人综合一区亚洲| 男女边吃奶边做爰视频| 日本黄色日本黄色录像| 美国免费a级毛片| 大陆偷拍与自拍| 毛片一级片免费看久久久久| 大话2 男鬼变身卡| 欧美亚洲日本最大视频资源| 极品人妻少妇av视频| 久久99热6这里只有精品| 极品人妻少妇av视频| 成人午夜精彩视频在线观看| av在线播放精品| 九色成人免费人妻av| 宅男免费午夜| 亚洲欧美日韩卡通动漫| 国产女主播在线喷水免费视频网站| 丰满饥渴人妻一区二区三| 国产一区二区在线观看日韩| 青春草视频在线免费观看| 国产综合精华液| 欧美最新免费一区二区三区| 欧美xxxx性猛交bbbb| 成人黄色视频免费在线看| 国产精品麻豆人妻色哟哟久久| 国产男女内射视频| 国产欧美亚洲国产| 国产精品熟女久久久久浪| 香蕉国产在线看| 又黄又爽又刺激的免费视频.| 狂野欧美激情性xxxx在线观看| 免费av不卡在线播放| av不卡在线播放| 如日韩欧美国产精品一区二区三区| 18禁动态无遮挡网站| 午夜激情久久久久久久| 欧美日本中文国产一区发布| 夜夜骑夜夜射夜夜干| 只有这里有精品99| av黄色大香蕉| 9色porny在线观看| 国产熟女欧美一区二区| 亚洲欧美日韩另类电影网站| 久久久亚洲精品成人影院| 少妇人妻精品综合一区二区| 国产精品国产三级专区第一集| 免费日韩欧美在线观看| 美女脱内裤让男人舔精品视频| 丝袜美足系列| 人体艺术视频欧美日本| 啦啦啦视频在线资源免费观看| 国产一区二区三区综合在线观看 | 考比视频在线观看| 成人影院久久| 国产毛片在线视频| 亚洲欧美日韩卡通动漫| 九草在线视频观看| 亚洲婷婷狠狠爱综合网| 最近中文字幕2019免费版| 国产亚洲精品久久久com| 满18在线观看网站| 国产黄色视频一区二区在线观看| 天天躁夜夜躁狠狠久久av| 亚洲国产色片| 亚洲精品乱码久久久久久按摩| 丰满饥渴人妻一区二区三| 欧美人与性动交α欧美精品济南到 | 18禁裸乳无遮挡动漫免费视频| 一级爰片在线观看| 亚洲欧洲日产国产| 人妻 亚洲 视频| 国产综合精华液| www.av在线官网国产| 午夜91福利影院| 免费女性裸体啪啪无遮挡网站| a 毛片基地| 汤姆久久久久久久影院中文字幕| 国产精品久久久久久久久免| 91aial.com中文字幕在线观看| 18禁观看日本| 美女国产视频在线观看| 亚洲欧美色中文字幕在线| 久久久久视频综合| 国产午夜精品一二区理论片| √禁漫天堂资源中文www| 午夜视频国产福利| 搡老乐熟女国产| 黄色一级大片看看| 国产精品久久久久久av不卡| 22中文网久久字幕| 亚洲美女搞黄在线观看| 久久ye,这里只有精品| 在线天堂最新版资源| 成人二区视频| 国产亚洲午夜精品一区二区久久| 欧美日韩综合久久久久久| 在线观看www视频免费| 2018国产大陆天天弄谢| 性高湖久久久久久久久免费观看| 国产乱来视频区| 欧美精品国产亚洲| 成人免费观看视频高清| 黄网站色视频无遮挡免费观看| 精品午夜福利在线看| 国产在线免费精品| 亚洲欧美日韩另类电影网站| 日韩大片免费观看网站| 岛国毛片在线播放| 亚洲欧美日韩另类电影网站| 日韩大片免费观看网站| 黄色一级大片看看| 国产日韩欧美视频二区| 精品久久蜜臀av无| 性高湖久久久久久久久免费观看| 少妇熟女欧美另类| 欧美精品国产亚洲| 色网站视频免费|