• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用游戲log-file預(yù)測(cè)學(xué)生推理能力和數(shù)學(xué)成績(jī)
    ——機(jī)器學(xué)習(xí)的應(yīng)用*

    2018-07-07 07:24:12符植煜
    心理學(xué)報(bào) 2018年7期
    關(guān)鍵詞:受測(cè)者步數(shù)測(cè)驗(yàn)

    孫 鑫 黎 堅(jiān),2 符植煜

    (1北京師范大學(xué)心理學(xué)部; 2應(yīng)用實(shí)驗(yàn)心理北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100875)

    1 引言

    心理測(cè)驗(yàn)(Psychological Testing)發(fā)展百余年來(lái),已經(jīng)被廣泛應(yīng)用于教育(Di Giunta et al., 2013)、企業(yè)管理(Schmidt, 2002)、臨床醫(yī)療(Judd, Schettler, &Rush, 2016)等各個(gè)領(lǐng)域, 并發(fā)揮重要作用。但傳統(tǒng)心理測(cè)驗(yàn)具有的一些不足之處使其在應(yīng)用上面臨挑戰(zhàn)。首先, 傳統(tǒng)心理測(cè)驗(yàn)由于采取明顯的測(cè)驗(yàn)形式, 容易令個(gè)體產(chǎn)生測(cè)驗(yàn)焦慮, 而焦慮會(huì)顯著降低受測(cè)者的外在表現(xiàn), 使個(gè)體真實(shí)的能力水平被低估(Cassady & Johnson, 2002)。已有研究表明, 對(duì)測(cè)驗(yàn)成績(jī)的焦慮會(huì)影響個(gè)體的注意(Keogh & French,2001)、降低工作記憶表現(xiàn)(Ikeda, Iwanaga, & Seiwa,1996)、降低智力測(cè)驗(yàn)表現(xiàn)并使得問(wèn)題解決更加艱難(Cassady & Johnson, 2002)。更為嚴(yán)重的是, 這種由焦慮引起的不良測(cè)驗(yàn)成績(jī)會(huì)反過(guò)來(lái)作用于個(gè)體自尊, 并直接導(dǎo)致恐懼、防御性與逃避性行為(Hembree, 1988), 對(duì)個(gè)體的長(zhǎng)期發(fā)展十分不利。其次, 某些經(jīng)典的心理測(cè)驗(yàn)已經(jīng)被使用了很多年, 可能會(huì)導(dǎo)致測(cè)驗(yàn)的曝光效應(yīng), 從而無(wú)法評(píng)估個(gè)體的真實(shí)水平(Bors & Vigneau, 2003)。研究表明, 測(cè)驗(yàn)的頻繁使用容易被人們破解所謂的“解題秘訣”, 個(gè)體可能事先獲得題目和答案信息而使分?jǐn)?shù)提高(Neisser,1997), 或通過(guò)不斷的備考和練習(xí)來(lái)提高測(cè)評(píng)結(jié)果(Bors & Vigneau, 2003), 但這并不能反映出受測(cè)者的真實(shí)水平, 反而會(huì)干擾真實(shí)的測(cè)量結(jié)果, 對(duì)測(cè)評(píng)的信效度造成污染(Neisser, 1997; Hausknecht, Halpert,Di Paolo, & Moriarty Gerrard, 2007)。

    鑒于傳統(tǒng)心理測(cè)驗(yàn)存在的問(wèn)題, 研究者開(kāi)始考慮采用其他形式和工具對(duì)個(gè)體能力和人格特質(zhì)進(jìn)行評(píng)估。近年來(lái), 隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和電子游戲的普及, 基于游戲的評(píng)估方式漸漸流行起來(lái)。

    基于游戲的評(píng)估(game-based assessment, GBA)是指:通過(guò)游戲(game)或者游戲化的活動(dòng)(game-like activities), 來(lái)對(duì)某一對(duì)象進(jìn)行評(píng)估(Heinzen, Landrum,Gurung, & Dunn, 2015)。從心理學(xué)的角度來(lái)說(shuō), 即采用游戲的方式, 對(duì)一個(gè)人的能力、人格等心理特性和行為進(jìn)行量化評(píng)估。這里所說(shuō)的游戲是指所有一般意義上的游戲, 既包括生活中諸如下棋、捉迷藏等真實(shí)游戲, 也包括模擬經(jīng)營(yíng)、倫敦塔、連連看等各類平臺(tái)上的電子游戲(video game)?;谟螒虻脑u(píng)估方法與傳統(tǒng)的心理測(cè)驗(yàn)相比具有諸多優(yōu)點(diǎn)。首先, 將心理評(píng)估游戲化意味著我們可以跳出傳統(tǒng)紙筆測(cè)驗(yàn)及其變式, 創(chuàng)造出豐富而多樣化的測(cè)驗(yàn)形式和內(nèi)容, 例如:視覺(jué)運(yùn)動(dòng)技能(visuomotor skill)的測(cè)量已經(jīng)可以通過(guò)手指與觸屏的游戲式互動(dòng)來(lái)實(shí)現(xiàn)(Tenorio Delgado, Arango Uribe, Aparicio Alonso,& Rosas Díaz, 2016)。其次, 游戲的可玩性、隱蔽性和仿真性等特點(diǎn)使得基于游戲的評(píng)估更易被人們接受, 其測(cè)驗(yàn)情境更接近于真實(shí)生活, 具有挑戰(zhàn)性和交互式的特點(diǎn), 能夠極大程度地提高受測(cè)者的動(dòng)機(jī)和投入程度, 并且還能通過(guò)降低社會(huì)稱許性的影響(Heinzen et al., 2015), 在一定程度上避免傳統(tǒng)心理測(cè)驗(yàn)中的測(cè)驗(yàn)焦慮和測(cè)驗(yàn)曝光問(wèn)題。此外, 全新的測(cè)驗(yàn)形式意味著可以用不同以往的方式來(lái)收集數(shù)據(jù)。例如以電子游戲作為心理測(cè)評(píng)的載體, 可以通過(guò)計(jì)算機(jī)后臺(tái)記錄玩家的游戲任務(wù)操作過(guò)程(DiCerbo & Behrens, 2012)。對(duì)這些過(guò)程信息加以正確利用, 能夠讓研究者對(duì)個(gè)體的能力和特質(zhì)有一個(gè)更為全面的了解, 也更有利于測(cè)驗(yàn)效度的提升, 使得心理學(xué)研究的重點(diǎn)從“結(jié)果是什么”轉(zhuǎn)變?yōu)榉治觥霸鯓赢a(chǎn)生結(jié)果” (Greiff, Wüstenberg, & Avvisati,2015)。目前, 基于游戲的評(píng)估得到了研究者的重視,如Sonnleitner和K?stering等人分別利用基因?qū)嶒?yàn)室和倫敦塔游戲任務(wù)對(duì)個(gè)體的復(fù)雜問(wèn)題解決和計(jì)劃性等認(rèn)知能力進(jìn)行了評(píng)估(Sonnleitner et al., 2012;K?stering et al., 2015); Ventura和Baumert等人分別利用沙盒游戲和獨(dú)裁者博弈游戲任務(wù)來(lái)評(píng)估個(gè)體的堅(jiān)持性、公平性和利他性等人格特質(zhì)(Ventura &Shute, 2013; Baumert, Schl?sser, & Schmitt, 2014)。

    然而, 目前基于游戲的評(píng)估在應(yīng)用中也存在一些問(wèn)題, 還沒(méi)有在數(shù)據(jù)分析和計(jì)分邏輯中充分利用游戲的過(guò)程信息, 僅使用少數(shù)指標(biāo)對(duì)某變量進(jìn)行評(píng)估。例如Li, Zhang, Du, Zhu和Li (2015)通過(guò)推箱子游戲測(cè)量被試的元認(rèn)知計(jì)劃, 但僅記錄并使用了第一步時(shí)間與總時(shí)間的比值, 以此作為評(píng)估指標(biāo);Berg和 Byrd (2002)在使用倫敦塔游戲測(cè)量計(jì)劃性時(shí), 僅使用第一步移動(dòng)前的時(shí)間作為評(píng)估指標(biāo)。在上述研究中, 大量過(guò)程性信息被浪費(fèi), 而這些信息很可能隱藏著可以衡量個(gè)體特質(zhì)或能力的指標(biāo), 如每一步思考的時(shí)間、動(dòng)作的回溯等(Greiff et al.,2015), 因而無(wú)法對(duì)個(gè)體特質(zhì)或能力進(jìn)行全面完備的評(píng)估。

    鑒于基于游戲的評(píng)估在應(yīng)用中所存在的問(wèn)題,心理測(cè)評(píng)領(lǐng)域亟需一種有效的數(shù)據(jù)分析方法來(lái)處理這些問(wèn)題, 以實(shí)現(xiàn)對(duì)個(gè)體能力和特質(zhì)更為準(zhǔn)確的評(píng)估。隨著人工智能研究的興起和發(fā)展, 機(jī)器學(xué)習(xí)已經(jīng)成為一門集挑戰(zhàn)性、實(shí)用性、價(jià)值性于一體的熱門學(xué)科, 尤其是谷歌AlphaGo在人機(jī)大戰(zhàn)中獲勝的奇跡使得機(jī)器學(xué)習(xí)成為備受矚目和極富發(fā)展前景的領(lǐng)域。目前, 已經(jīng)有研究者將機(jī)器學(xué)習(xí)引入心理學(xué)領(lǐng)域, 并應(yīng)用于人格預(yù)測(cè)(Wu, Kosinski, &Stillwell, 2015)。此外, Zhang, Song, Cui, Liu和Zhu(2016)根據(jù)人類步態(tài)可作為情緒識(shí)別的依據(jù)這一原理, 設(shè)計(jì)了內(nèi)置加速度傳感器的智能手環(huán), 用于測(cè)量被試的情緒狀態(tài)。研究首先對(duì)123名被試進(jìn)行了情緒操縱和原始數(shù)據(jù)收集, 之后進(jìn)行數(shù)據(jù)預(yù)處理和特征提取, 然后通過(guò)機(jī)器學(xué)習(xí)的方法對(duì)數(shù)據(jù)進(jìn)行處理和建模, 結(jié)果發(fā)現(xiàn)機(jī)器學(xué)習(xí)的不同算法均能夠較為準(zhǔn)確地識(shí)別情緒(快樂(lè)、中性、憤怒), 尤其是LibSVM算法在區(qū)分中性和憤怒情緒上的準(zhǔn)確率高達(dá) 91.3%; 在進(jìn)行三種情緒狀態(tài)的區(qū)分上, 也達(dá)到了81.2%的準(zhǔn)確率。

    需要指出的是, 機(jī)器學(xué)習(xí)算法通常需要使用到大體量的數(shù)據(jù), 計(jì)算機(jī)過(guò)程數(shù)據(jù)追蹤技術(shù)——log-file為此提供了實(shí)現(xiàn)可能。所謂log-file是指包含受測(cè)者所有活動(dòng)足跡的日志文件, 其優(yōu)點(diǎn)是能夠全面、實(shí)時(shí)地記錄全部數(shù)據(jù), 信息量豐富, 有利于后期的數(shù)據(jù)挖掘和分析(Moharil et al., 2014)。這一技術(shù)不僅實(shí)現(xiàn)了對(duì)研究變量的在線測(cè)量, 而且避免了傳統(tǒng)方法中數(shù)據(jù)收集工作耗時(shí)費(fèi)力的缺陷, 可在大規(guī)模施測(cè)的同時(shí)無(wú)干擾地記錄被試的真實(shí)行為。近年來(lái), 采用基于計(jì)算機(jī)網(wǎng)絡(luò)平臺(tái)的游戲 log-file方式對(duì)變量進(jìn)行研究已經(jīng)成為心理學(xué)領(lǐng)域的新趨勢(shì), 如 Sonnleitner等人(2012)開(kāi)發(fā)的游戲任務(wù), 會(huì)在計(jì)算機(jī)后臺(tái)生成 log-file文件, 但遺憾的是他們并沒(méi)有充分利用 log-file信息, 只是選取了少數(shù)幾個(gè)指標(biāo)用于評(píng)估受測(cè)者的復(fù)雜問(wèn)題解決能力。這其中的主要原因在于數(shù)據(jù)挖掘本身的困難。log-file數(shù)據(jù)通常變量眾多、數(shù)量巨大, 從這些數(shù)據(jù)中找出有意義的信息和關(guān)系是比較困難的(Csapó, Ainley,Bennett, Latour, & Law, 2012)。也正因?yàn)槿绱? 機(jī)器學(xué)習(xí)技術(shù)可以在這類研究中體現(xiàn)出獨(dú)特的優(yōu)勢(shì), 能夠通過(guò)充分利用 log-file的信息, 建立較為復(fù)雜的模型, 實(shí)現(xiàn)更為準(zhǔn)確的預(yù)測(cè)。

    基于上述分析, 本研究擬采用游戲任務(wù), 并結(jié)合 log-file技術(shù)和機(jī)器學(xué)習(xí)技術(shù), 嘗試對(duì)個(gè)體的能力傾向(aptitude)和學(xué)業(yè)成就(achievement)兩類能力進(jìn)行預(yù)測(cè), 在操作層面將以抽象推理能力和數(shù)學(xué)學(xué)習(xí)成績(jī)作為研究變量。之所以選擇這兩類能力, 是因?yàn)槟芰A向和學(xué)業(yè)成績(jī)均是學(xué)生求學(xué)生涯中的重要變量, 前者能夠反映出個(gè)體在廣泛的信息加工任務(wù)中的潛能, 后者則是學(xué)習(xí)結(jié)果的主要表現(xiàn), 對(duì)學(xué)生自我概念的建構(gòu)、思維能力的發(fā)展以及社會(huì)適應(yīng)的培養(yǎng)等方面都具有顯著的影響(Duncan et al.,2007)。研究擬選取“推箱子”作為游戲任務(wù)。在該游戲中, 受測(cè)者需要調(diào)用其認(rèn)知和元認(rèn)知加工, 持續(xù)對(duì)箱子的位置和小人的移動(dòng)路線進(jìn)行思考, 涉及到大量的抽象推理、空間想象與操作, 以及數(shù)字運(yùn)算工作, 因此, 受測(cè)者在游戲過(guò)程中的表現(xiàn)很有可能能夠反映其推理能力和數(shù)學(xué)學(xué)業(yè)成就的水平。由于從游戲 log-file中收集到的原始數(shù)據(jù)并不規(guī)范, 不能直接作為特征加入模型中, 因此需要研究者進(jìn)行特征提取, 從而生成有可能反映受測(cè)者能力的特征。以往關(guān)于推箱子的研究涉及到認(rèn)知能力、元認(rèn)知能力、認(rèn)知效率三種指標(biāo)(張博, 黎堅(jiān), 徐楚, 李一茗, 2014)。本研究在選取特征時(shí)雖然也將從這三個(gè)方面進(jìn)行考慮, 但會(huì)選取更多特征, 通過(guò)增加特征數(shù)量使模型的預(yù)測(cè)率更高。例如在認(rèn)知能力方面,擬選取完成箱子比例、關(guān)卡是否成功等特征; 在元認(rèn)知能力方面, 擬選取第一步計(jì)劃時(shí)間與總時(shí)間的比值、第一步計(jì)劃時(shí)間與平均執(zhí)行時(shí)間的比值, 以及二者的對(duì)數(shù)等特征; 在認(rèn)知效率方面, 擬選取思考步數(shù)、與最優(yōu)步數(shù)之差等特征。此外, 考慮到受測(cè)者在“成功”的關(guān)卡與“失敗”的關(guān)卡中可能存在不同的表現(xiàn), 因此在特征選取時(shí)對(duì)兩種通關(guān)情況也進(jìn)行了區(qū)分。

    2 方法

    研究包含4個(gè)步驟:數(shù)據(jù)采集、特征提取、數(shù)據(jù)預(yù)處理和模型訓(xùn)練。

    2.1 數(shù)據(jù)采集

    2.1.1 被試

    首都師范大學(xué)第一附屬中學(xué)的395名初一和初二學(xué)生參加了研究, 有效被試為 360名, 其中女生172名, 男生188名。初一學(xué)生平均年齡為13.2歲,最小為11.9歲, 最大為15.1歲; 初二學(xué)生平均年齡為14.6歲, 最小為14.1歲, 最大為16.3歲。

    2.1.2 推箱子游戲

    推箱子(Sokoban)是一款經(jīng)典益智游戲, 由一個(gè)小人和至少1個(gè)箱子組成, 玩家需要操縱小人上下左右移動(dòng), 將箱子推入目標(biāo)位置。經(jīng)過(guò)研究者對(duì)程序的改編, 計(jì)算機(jī)后臺(tái)可以自動(dòng)生成 log-file文件, 記錄受測(cè)者每一步的潛伏期與按鍵動(dòng)作, 例如時(shí)間節(jié)點(diǎn)、小人移動(dòng)的方向、推動(dòng)的箱子、完成步數(shù)等。游戲一共23題, 所有題目都不允許悔棋。前3題為練習(xí)題, 用于幫助受測(cè)者熟悉鍵盤操作及游戲規(guī)則。在練習(xí)題階段, 答錯(cuò)可重來(lái), 直到全部通過(guò)方可進(jìn)入正式游戲。第 4~23題為正式題目, 每題限時(shí) 2 min。與練習(xí)階段不同, 正式題目只有一次機(jī)會(huì), 若一次未通過(guò), 則只能放棄該題。正式題目中的箱子個(gè)數(shù)在 1~3之間, 每題均有唯一最優(yōu)解。游戲界面如圖1所示。

    圖1 推箱子游戲界面截圖

    2.1.3 測(cè)量工具

    瑞文標(biāo)準(zhǔn)推理測(cè)驗(yàn)(Standard Progressive Matrices,SPM; Raven, 1989):用于測(cè)量一般智力中的抽象推理能力, 共計(jì)60個(gè)條目, 每答對(duì)一題計(jì)一分, 滿分60分, 總分即為推理能力得分。在本研究的受測(cè)者中, 平均分為46.2, 標(biāo)準(zhǔn)差為8.5。

    數(shù)學(xué)成績(jī):研究者獲得了學(xué)生的三次數(shù)學(xué)測(cè)驗(yàn)的成績(jī)(期中、月考、期末), 每次數(shù)學(xué)測(cè)驗(yàn)均為年級(jí)內(nèi)統(tǒng)一施測(cè), 因此在年級(jí)內(nèi)具有可比性。將三次數(shù)學(xué)成績(jī)?nèi)∑骄狄垣@得對(duì)學(xué)生數(shù)學(xué)能力較為準(zhǔn)確的估計(jì)。本研究中, 數(shù)學(xué)成績(jī)的平均分為64.9分,標(biāo)準(zhǔn)差為19.9。

    本研究屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)(supervised learning)類別, 而監(jiān)督學(xué)習(xí)分為兩種, 一是利用分類算法預(yù)測(cè)標(biāo)稱型數(shù)據(jù), 二是利用回歸算法預(yù)測(cè)連續(xù)型數(shù)據(jù)。對(duì)于本研究而言, 推理能力和數(shù)學(xué)成績(jī)是連續(xù)型數(shù)據(jù), 理論上應(yīng)使用回歸算法進(jìn)行預(yù)測(cè),但是回歸算法對(duì)特征數(shù)量和樣本量的要求較高, 其創(chuàng)建的模型需要擬合所有的樣本點(diǎn), 當(dāng)數(shù)據(jù)擁有眾多特征且特征之間的關(guān)系十分復(fù)雜時(shí), 構(gòu)建全局模型難以實(shí)現(xiàn)(Harrington, 2013)。囿于現(xiàn)實(shí)因素, 研究無(wú)法獲取更多受測(cè)者, 且眾多特征間的關(guān)系較為復(fù)雜, 堅(jiān)持使用回歸算法將無(wú)法達(dá)到良好的預(yù)測(cè)效果。因此, 作為一項(xiàng)嘗試性研究, 本研究在數(shù)據(jù)分析中將兩個(gè)結(jié)果變量轉(zhuǎn)化為標(biāo)稱型數(shù)據(jù), 具體做法是:將瑞文推理測(cè)驗(yàn)得分在前 25%的學(xué)生記為 1,后 25%得分的學(xué)生記為 0, 構(gòu)造瑞文得分的二分變量作為最終結(jié)果變量(即機(jī)器學(xué)習(xí)算法的標(biāo)簽), 其他學(xué)生的數(shù)據(jù)不予使用, 最終有效的受測(cè)者是 180名; 將數(shù)學(xué)成績(jī)按照年級(jí)分層, 將每個(gè)年級(jí)數(shù)學(xué)成績(jī)排名前25%的學(xué)生標(biāo)記為1, 后25%的學(xué)生標(biāo)記為0, 構(gòu)造數(shù)學(xué)成績(jī)的二分變量作為最終結(jié)果變量,其余學(xué)生的數(shù)據(jù)不予使用, 最終有效受測(cè)者也為180名。

    2.1.4 測(cè)試流程

    所有學(xué)生均以班級(jí)為單位在計(jì)算機(jī)教室參加測(cè)試。受測(cè)者首先在計(jì)算機(jī)上完成推箱子游戲任務(wù),然后填寫紙質(zhì)版的瑞文推理測(cè)驗(yàn)。施測(cè)過(guò)程都由任課教師、班主任和主試一同監(jiān)督, 保證安靜、獨(dú)立作答。

    2.2 特征提取

    程序記錄的受測(cè)者順利通過(guò)某一關(guān)的典型數(shù)據(jù)形式如圖2所示。通常, 在第一步之前會(huì)有較長(zhǎng)時(shí)間的思考, 在思考完成后則有較快的按鍵反應(yīng),在操作過(guò)程中, 偶爾會(huì)出現(xiàn)潛伏期。除了過(guò)程數(shù)據(jù)外, 程序同樣記錄了受測(cè)者在本關(guān)是否通過(guò)、有幾個(gè)箱子被移到了指定位置、受測(cè)者是否主動(dòng)放棄本關(guān)、任務(wù)超時(shí)等信息。下面將對(duì)特征提取的具體方法進(jìn)行說(shuō)明。

    2.2.1 第一步所用時(shí)間

    由圖2可知, 受測(cè)者通常會(huì)分配較長(zhǎng)時(shí)間在第一步之前的思考中。參照文獻(xiàn), 我們計(jì)算出受測(cè)者在每一關(guān)中第一步所用時(shí)間占總時(shí)間的比重。此外,用第一步時(shí)間除以平均執(zhí)行時(shí)間(定義方法見(jiàn) 2.2.3)以及對(duì)上述變量取其對(duì)數(shù)形式, 構(gòu)造出多個(gè)特征以進(jìn)行較為全面的衡量。

    2.2.2 執(zhí)行間思考

    受測(cè)者在執(zhí)行過(guò)程中可能會(huì)停下來(lái)思考, 反映在數(shù)據(jù)中即是:在執(zhí)行過(guò)程中某一步用時(shí)較其他時(shí)間異常變高。為了反映這種波動(dòng)性, 計(jì)算受測(cè)者除了第一步之后各步用時(shí)的標(biāo)準(zhǔn)差, 即執(zhí)行間波動(dòng),同時(shí), 記錄時(shí)間超過(guò)平均值一個(gè)標(biāo)準(zhǔn)差以上的步數(shù)占總步數(shù)的比例作為受測(cè)者在執(zhí)行過(guò)程中的思考次數(shù)的指標(biāo)。

    2.2.3 平均執(zhí)行時(shí)間

    剔除掉包含思考的行動(dòng)后(包括第一步), 將余下的行動(dòng)時(shí)間求平均。這部分時(shí)間反映了受測(cè)者在無(wú)需思考的情況下執(zhí)行操作的時(shí)間。

    2.2.4 冗余步數(shù)

    根據(jù)受測(cè)者的行動(dòng)路線可以求出受測(cè)者每一步行動(dòng)后的整體狀態(tài)。計(jì)算出其路徑中重復(fù)的狀態(tài)(即在兩個(gè)狀態(tài)中, 小人和所有箱子的位置完全相同)占最優(yōu)路徑中總狀態(tài)數(shù)的比例。其中, 對(duì)于一個(gè)狀態(tài)重復(fù)多次的情況只記為 1, 以避免玩家在兩個(gè)狀態(tài)間“來(lái)回踱步”產(chǎn)生誤差。

    2.2.5 與最優(yōu)路徑重合比例

    通過(guò)廣度優(yōu)先搜索算法, 可以求出每一關(guān)的最優(yōu)路徑, 并計(jì)算受測(cè)者的路徑與最優(yōu)路徑重合的比例。具體而言, 計(jì)算受測(cè)者路徑的狀態(tài)集合與最優(yōu)路徑狀態(tài)集合的交集, 計(jì)算交集占最優(yōu)路徑狀態(tài)集的比例, 同樣排除掉“來(lái)回踱步”的情況。

    2.2.6 與最優(yōu)路徑相差步數(shù)

    受測(cè)者步數(shù)與最優(yōu)步數(shù)的差異, 也作為一個(gè)指標(biāo)加入模型中。

    圖2 一個(gè)典型的行動(dòng)過(guò)程

    2.2.7 完成箱子的比例

    所有關(guān)卡中, 程序都會(huì)報(bào)告受測(cè)者完成的箱子數(shù)量占總箱子數(shù)量的比例, 把它作為一個(gè)特征加入到模型中。

    2.2.8 每題是否成功、放棄

    每道題有三種狀態(tài), 成功通過(guò)、放棄、超時(shí), 用兩個(gè)二分變量來(lái)刻畫這三種情況, 并作為特征加入模型中, 即對(duì)于“是否成功”這一特征來(lái)說(shuō), 成功記為 1, 放棄記為 0, 超時(shí)記為 0; 對(duì)于“是否放棄”這一特征來(lái)說(shuō), 成功記為0, 放棄記為1, 超時(shí)記為0。

    2.3 數(shù)據(jù)預(yù)處理

    原始數(shù)據(jù)以每一關(guān)為一個(gè)觀測(cè)值, 但在訓(xùn)練模型時(shí)需要以受測(cè)者為單位的觀測(cè)值。直接將長(zhǎng)型數(shù)據(jù)轉(zhuǎn)換為寬型數(shù)據(jù), 即對(duì)于每個(gè)受測(cè)者每一關(guān)都提取出上述特征, 總共特征數(shù)是單關(guān)特征數(shù)的 20倍,這會(huì)存在以下問(wèn)題:一, 由于樣本規(guī)模不大, 特征過(guò)多不利于模型訓(xùn)練, 容易過(guò)擬合; 二, 同一個(gè)指標(biāo)在成功和失敗兩種狀態(tài)下可能有不同的意義, 以“與最優(yōu)路徑相差步數(shù)”這一特征為例, 失敗的狀態(tài)下, 受測(cè)者的步數(shù)通常會(huì)低于最優(yōu)路徑步數(shù), 數(shù)字越大表明受測(cè)者越堅(jiān)持, 而在成功的狀態(tài)下, 數(shù)字越大則反應(yīng)受測(cè)者的步數(shù)偏離最優(yōu)路徑越遠(yuǎn)。為了克服以上問(wèn)題, 將上述特征均以成功與否劃分為兩組, 即對(duì)于以上每個(gè)特征, 都構(gòu)造出兩類:一類用于描述該特征在成功的關(guān)卡中對(duì)推理能力和數(shù)學(xué)成績(jī)的預(yù)測(cè)能力, 另一類描述在失敗的關(guān)卡中對(duì)二者的預(yù)測(cè)能力。對(duì)于是否成功、是否放棄兩個(gè)二分變量, 直接在各組間求平均容易忽略掉每道題的難度信息, 故使用因子分析從其中提取出兩個(gè)因子作為特征用以訓(xùn)練模型。因此, 模型中共放入23個(gè)特征用于訓(xùn)練, 特征的描述統(tǒng)計(jì)結(jié)果見(jiàn)表1。

    研究者計(jì)算了上述特征與瑞文測(cè)驗(yàn)成績(jī)和數(shù)學(xué)成績(jī)的相關(guān), 結(jié)果發(fā)現(xiàn)成功組和失敗組的第一步用時(shí)/總時(shí)間、ln (第一步用時(shí)/總時(shí)間)、第一步用時(shí)/平均執(zhí)行時(shí)間、ln (第一步用時(shí)/平均執(zhí)行時(shí)間)等特征均與瑞文測(cè)驗(yàn)成績(jī)和數(shù)學(xué)成績(jī)有顯著相關(guān), 相關(guān)系數(shù)在 0.19~0.46之間。此外, 數(shù)學(xué)成績(jī)還與失敗組思考步數(shù)占比、失敗組完成箱子的比例顯著相關(guān),相關(guān)系數(shù)分別是0.16和0.17。這些結(jié)果初步表明了本研究特征選取的有效性。

    2.4 模型訓(xùn)練

    推理能力與數(shù)學(xué)成績(jī)的模型訓(xùn)練策略一致, 使用基于Python 3的scikit-learning包(Pedregosa et al.,2011)提供的隨機(jī)森林模型進(jìn)行訓(xùn)練, 該算法是分類學(xué)習(xí)的常用算法。隨機(jī)森林(Random Forests, RF)是決策樹(shù)的集合, 利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練和評(píng)估。該算法會(huì)重復(fù)選擇隨機(jī)樣本, 在訓(xùn)練集中生成多個(gè)樣本集, 每個(gè)樣本集都會(huì)形成一棵樹(shù), 最后根據(jù)生成的這些樹(shù)在測(cè)試集中進(jìn)行評(píng)估, 投票最多的作為最終類標(biāo)簽(Breiman, 2001)。

    表1 特征的描述統(tǒng)計(jì)結(jié)果

    研究中, 首先隨機(jī)劃出30%的樣本作為評(píng)估集,70%的樣本用于交叉驗(yàn)證以及超參數(shù)搜索。在70%的樣本中, 使用4折交叉驗(yàn)證策略將樣本再次隨機(jī)分成 4組, 依次選擇其中一組作為驗(yàn)證集, 其他三組作為訓(xùn)練集。在訓(xùn)練集上訓(xùn)練特定參數(shù)的模型,將獲得的模型在驗(yàn)證集中測(cè)試, 計(jì)算模型得分。4個(gè)輪次后, 每組樣本均有3次作為訓(xùn)練集, 1次作為驗(yàn)證集, 將 4組中獲得的得分求平均, 為對(duì)應(yīng)超參數(shù)的模型在交叉驗(yàn)證組中的得分。

    隨機(jī)森林模型具有多個(gè)參數(shù)可供調(diào)整, 不同的參數(shù)設(shè)置會(huì)影響模型的擬合效果。本研究關(guān)注的主要參數(shù)為:最大特征數(shù)、最大深度、最小分裂樣本量、擬合器數(shù)量。最大特征數(shù)表示在尋找一個(gè)最優(yōu)的分裂過(guò)程中需要考慮的特征數(shù); 最大深度表示一個(gè)決策樹(shù)最大的深度, 達(dá)到該深度后即停止分裂;當(dāng)一個(gè)節(jié)點(diǎn)上的樣本量低于最小分裂樣本量時(shí)該節(jié)點(diǎn)即停止分裂; 擬合器數(shù)量是指在隨機(jī)森林中的樹(shù)的數(shù)量。采用網(wǎng)格搜索的策略尋找出最優(yōu)的參數(shù),對(duì)每一種超參數(shù)組合都進(jìn)行一次交叉驗(yàn)證, 選擇出交叉驗(yàn)證中平均得分最高的超參數(shù)組合。搜索的范圍為:最大特征數(shù)由5至16, 最小分裂樣本量由2至10, 最大深度由2至8, 擬合器數(shù)量包括5、10、50、160四種, 因此總共需要進(jìn)行3024次交叉驗(yàn)證。經(jīng)過(guò) 3024次交叉驗(yàn)證后, 在驗(yàn)證集上得分最高的超參數(shù)組合即為最優(yōu)參數(shù)組合。但是通過(guò)交叉驗(yàn)證獲得的得分并不能準(zhǔn)確評(píng)估該模型的有效性, 這是因?yàn)槌瑓?shù)搜索本身也相當(dāng)于擬合的過(guò)程, 容易出現(xiàn)過(guò)擬合。因此對(duì)于該模型的評(píng)估需要在評(píng)估集上測(cè)試。首先, 使用獲得的最優(yōu)參數(shù), 用交叉驗(yàn)證中涉及的所有 70%的樣本對(duì)隨機(jī)森林模型進(jìn)行擬合,再用擬合后的模型以及評(píng)估集中的特征對(duì)推理能力分類和數(shù)學(xué)成績(jī)分類進(jìn)行預(yù)測(cè), 用預(yù)測(cè)得到的分類與真實(shí)分類作比較, 計(jì)算得分。由此得到的得分是對(duì)模型預(yù)測(cè)能力比較準(zhǔn)確的評(píng)估。

    分類模型建立后, 可以用多種評(píng)估方式考察模型的預(yù)測(cè)效果, 主要可以分為4類:真實(shí)陽(yáng)性(True Positive), 即預(yù)測(cè)為陽(yáng)性且實(shí)際上也為陽(yáng)性; 虛假陽(yáng)性(Fake Positive), 即預(yù)測(cè)為陽(yáng)性但實(shí)際上為陰性; 真實(shí)陰性(True Negative), 即預(yù)測(cè)為陰性實(shí)際上也為陰性; 虛假陰性(Fake Negative), 即預(yù)測(cè)為陰性但實(shí)際上是陽(yáng)性。每種類別的表示方式如表2所示。

    表2 分類表現(xiàn)評(píng)估表

    根據(jù)上述分類可以得到最常用的指標(biāo):

    (1) 精確率(Accuracy):精確率是最為簡(jiǎn)單、直接的一個(gè)指標(biāo), 為正確預(yù)測(cè)的觀測(cè)值數(shù)量除以總觀測(cè)值數(shù)量, 即(TP+TN)/(TP+TN+FP+FN);

    (2) 查準(zhǔn)率(Precision, P):查準(zhǔn)率描述在預(yù)測(cè)為陽(yáng)性的樣本中, 真實(shí)陽(yáng)性的比例, 即TP/(FP+TP);

    (3) 查全率(Recall, R): 查全率描述在所有實(shí)際陽(yáng)性樣本中, 預(yù)測(cè)為陽(yáng)性的比例, 即TP/(TP+FN);

    (4) F1:查準(zhǔn)率與查全率兩者顯然是存在一些矛盾:追求查準(zhǔn)率則會(huì)犧牲一些查全率, 反之亦然。F1則是查準(zhǔn)率與查全率兩者之間較為平衡的一個(gè)指標(biāo), 公式為F1 = 2RP/(R+P)。

    在超參數(shù)搜索中, 分別以4種計(jì)分方式為目標(biāo),即對(duì)應(yīng)每個(gè)計(jì)分方式均找到一個(gè)能使其最大化的超參數(shù)組合, 以滿足不同的預(yù)測(cè)需要。

    3 結(jié)果

    通過(guò)對(duì)模型的調(diào)整可以發(fā)現(xiàn)一個(gè)模型中所有特征的平均重要性, 特征重要性定義為:標(biāo)準(zhǔn)化后的特征減少的基尼不純度(Tan, Steinbach, & Kumar,2006)。圖 3顯示的是數(shù)學(xué)成績(jī)預(yù)測(cè)模型中排列前十的特征(推理能力預(yù)測(cè)模型與此類似), 可見(jiàn), 第一步時(shí)間與平均執(zhí)行時(shí)間的比值取對(duì)數(shù)(成功組)在數(shù)學(xué)成績(jī)預(yù)測(cè)模型中的平均重要性最高; 第二重要的特征是從成功與否指標(biāo)中通過(guò)因子分析提取出來(lái)的第一個(gè)因素; 與最優(yōu)解相差的步數(shù)、思考時(shí)間占比、執(zhí)行間波動(dòng)、重復(fù)步數(shù)占比等因素均對(duì)模型有一定貢獻(xiàn), 證實(shí)了研究所提取的特征的有效性。

    通過(guò)對(duì)上文所述的特征進(jìn)行訓(xùn)練, 所得模型在評(píng)估集上的表現(xiàn)如表3所示。第一列表示在超參數(shù)搜索時(shí)評(píng)估模型使用的標(biāo)準(zhǔn), 即最優(yōu)化目標(biāo), 其他四列表示相應(yīng)的模型在評(píng)估集上相應(yīng)指標(biāo)的得分。結(jié)果表明, 在超參數(shù)搜索階段采用不同的最優(yōu)化目標(biāo)對(duì)結(jié)果的影響不大。用該模型預(yù)測(cè)數(shù)學(xué)成績(jī), 能夠達(dá)到80%左右的查準(zhǔn)率, 而F1、查全率、精確率都在70%左右; 對(duì)于推理能力的預(yù)測(cè)結(jié)果稍弱于對(duì)數(shù)學(xué)成績(jī)的預(yù)測(cè), 平均能達(dá)到65%左右的F1, 75%左右的查準(zhǔn)率, 60%左右的查全率, 以及 65%左右的精確率。該結(jié)果表明機(jī)器學(xué)習(xí)建立的區(qū)分模型結(jié)果尚可接受。

    4 討論

    本研究嘗試從推箱子的 log-file數(shù)據(jù)中挖掘信息, 并使用隨機(jī)森林模型預(yù)測(cè)學(xué)生的推理能力分類以及數(shù)學(xué)成績(jī)分類, 模型預(yù)測(cè)的推理能力達(dá)到了約75%的查準(zhǔn)率以及 65%左右的精確率; 預(yù)測(cè)數(shù)學(xué)成績(jī)達(dá)到了約 80%的查準(zhǔn)率以及 70%左右的精確率,結(jié)果說(shuō)明模型預(yù)測(cè)效果尚可, 表明游戲 log-file結(jié)合機(jī)器學(xué)習(xí)能夠訓(xùn)練出較好的區(qū)分模型用以預(yù)測(cè)個(gè)體的抽象推理能力和學(xué)業(yè)成就。

    4.1 過(guò)程性數(shù)據(jù)的利用

    圖3 數(shù)學(xué)成績(jī)預(yù)測(cè)模型中平均重要性排列前十位的特征

    表3 模型預(yù)測(cè)結(jié)果

    研究通過(guò)從 log-file的過(guò)程性數(shù)據(jù)中提取多個(gè)特征, 一方面部分支持了以往研究的結(jié)果, 另一方面也完善了前人研究中特征利用不充分的不足。

    首先, 本研究發(fā)現(xiàn), 計(jì)劃性指標(biāo)(即第一步所用時(shí)間占全部時(shí)間的比值)在推理能力和數(shù)學(xué)成績(jī)的區(qū)分模型中均占有重要地位, 且成功組的比值大于失敗組, 說(shuō)明事先計(jì)劃對(duì)于開(kāi)展邏輯推理類任務(wù)至關(guān)重要。無(wú)論是在完成圖形推理題目, 還是在回答數(shù)學(xué)試題方面, 對(duì)題目或任務(wù)的計(jì)劃會(huì)在一定程度上決定最終的結(jié)果, 這與以往研究相一致(Li et al., 2015)。

    其次, 以往使用推箱子的研究沒(méi)有區(qū)分受測(cè)者在題目上成功和失敗兩種情況, 而同一特征在兩種情況下可能代表不同的含義, 這樣做會(huì)浪費(fèi)特征本身具有的價(jià)值。本研究在獲取大量過(guò)程性數(shù)據(jù)的基礎(chǔ)上, 對(duì)特征在成功或失敗情況下進(jìn)行了分解, 以便充分利用每個(gè)特征。結(jié)果發(fā)現(xiàn), 同一特征在不同情況下的貢獻(xiàn)確實(shí)存在差異。例如, 在數(shù)學(xué)成績(jī)預(yù)測(cè)模型中, ln (第一步用時(shí)/平均執(zhí)行時(shí)間)這個(gè)特征在成功和失敗情況下均對(duì)模型有貢獻(xiàn), 但前者的貢獻(xiàn)要大于后者; 在模型貢獻(xiàn)排名前十的特征中, 失敗情況下有較強(qiáng)預(yù)測(cè)效果的是“與最優(yōu)步數(shù)差”、“執(zhí)行間波動(dòng)”、“重復(fù)步數(shù)占比”、“與最優(yōu)路徑重合比例”等特征; 而成功情況下有較強(qiáng)預(yù)測(cè)效果的是“思考步數(shù)占比”、“與最優(yōu)步數(shù)差”、“l(fā)n (第一步時(shí)間/總時(shí)間)”等特征。

    4.2 機(jī)器學(xué)習(xí)算法的預(yù)測(cè)效果

    對(duì)于推理能力和數(shù)學(xué)成績(jī)這兩個(gè)結(jié)果變量來(lái)說(shuō), 使用隨機(jī)森林所建立的區(qū)分模型在預(yù)測(cè)效果上存在一定差異。具體而言, 數(shù)學(xué)成績(jī)的區(qū)分模型能夠達(dá)到 83.07%的查準(zhǔn)率, 而對(duì)于推理能力的區(qū)分模型, 最高能達(dá)到76.11%的查準(zhǔn)率。該結(jié)果一方面說(shuō)明本研究中的隨機(jī)森林模型在查準(zhǔn)率指標(biāo)上達(dá)到了較為一致的最優(yōu)預(yù)測(cè)效果, 另一方面說(shuō)明從推箱子任務(wù)中提取的現(xiàn)有特征更適用于預(yù)測(cè)數(shù)學(xué)成績(jī)。這可能是因?yàn)? 瑞文推理測(cè)驗(yàn)以測(cè)量抽象推理能力為主, 相對(duì)來(lái)說(shuō)對(duì)能力的要求比較單一; 但數(shù)學(xué)考題涉及的認(rèn)知和元認(rèn)知能力更加廣泛, 包括對(duì)數(shù)量關(guān)系的梳理、空間圖形的表征、使用策略的選擇等, 這與推箱子游戲的問(wèn)題解決過(guò)程更為相似。

    在模型訓(xùn)練中, 使用不同的最優(yōu)化目標(biāo)會(huì)對(duì)模型預(yù)測(cè)結(jié)果產(chǎn)生一定影響。對(duì)于推理能力, 采用精確率優(yōu)先條件時(shí)會(huì)得到最高的預(yù)測(cè)查準(zhǔn)率; 對(duì)于數(shù)學(xué)成績(jī), 采用查準(zhǔn)率優(yōu)先條件時(shí)會(huì)得到最高的預(yù)測(cè)查準(zhǔn)率。說(shuō)明對(duì)于不同的結(jié)果變量, 不同的最優(yōu)化指標(biāo)會(huì)產(chǎn)生不同的結(jié)果, 基本不存在可以同時(shí)適用于多個(gè)變量的模型。在不同的模型中, 參數(shù)、最優(yōu)化指標(biāo)會(huì)有所不同, 最后的結(jié)果也會(huì)呈現(xiàn)一定的差異。機(jī)器學(xué)習(xí)的好處就是可以通過(guò)不斷的調(diào)配參數(shù)來(lái)獲取對(duì)結(jié)果變量最為有效的預(yù)測(cè)性, 選擇具有最優(yōu)預(yù)測(cè)效果的模型。

    4.3 游戲log-file和計(jì)算機(jī)技術(shù)在心理測(cè)量中的應(yīng)用

    隨著信息技術(shù)的發(fā)展, 計(jì)算機(jī)過(guò)程數(shù)據(jù)分析技術(shù)(computer logfiles analysis)在心理測(cè)量領(lǐng)域的地位不斷提升。計(jì)算機(jī)過(guò)程數(shù)據(jù)分析技術(shù)是指通過(guò)追蹤、分析受測(cè)者在計(jì)算機(jī)上完成任務(wù)過(guò)程中的操作行為、操作時(shí)間等信息來(lái)提取測(cè)量指標(biāo)(Veenman,Bavelaar, De Wolf, & van Haaren, 2014)。該技術(shù)相較于傳統(tǒng)的技術(shù)有諸多顯而易見(jiàn)的優(yōu)點(diǎn)。首先, 傳統(tǒng)的測(cè)量方法基于被試的自我報(bào)告, 或者基于主試對(duì)于被試行為的編碼, 而過(guò)程數(shù)據(jù)的分析依賴于客觀指標(biāo), 能夠更好地實(shí)現(xiàn)標(biāo)準(zhǔn)化(Veenman, Wilhelm, &Beishuizen, 2004); 其次, 傳統(tǒng)的測(cè)量方法, 尤其是在測(cè)量認(rèn)知能力時(shí), 會(huì)有較強(qiáng)的侵入性, 如觀察、出聲思考技術(shù)(Pressley & Afflerbach, 1995)等, 在這些條件下受測(cè)者完成任務(wù)的能力一定程度上會(huì)受到影響; 而過(guò)程數(shù)據(jù)分析則不具有侵入性, 受測(cè)者完成任務(wù)的過(guò)程中不會(huì)受到打擾, 能夠在最自然地狀態(tài)下表現(xiàn)(Veenman et al., 2014); 最后, 過(guò)程分析技術(shù)成本較低, 可以對(duì)多個(gè)受測(cè)者同時(shí)施測(cè), 數(shù)據(jù)分析通過(guò)計(jì)算機(jī)自動(dòng)化完成, 因此相較于傳統(tǒng)的測(cè)量技術(shù)如出聲思考法以及眼動(dòng)追蹤技術(shù)(Kinnunen& Vauras, 1995)等更加省時(shí)。由于大量的過(guò)程數(shù)據(jù)無(wú)法用傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析, 因而需要機(jī)器學(xué)習(xí)算法的引入和使用。這些優(yōu)點(diǎn)使得游戲log-file、計(jì)算機(jī)過(guò)程數(shù)據(jù)分析技術(shù)、機(jī)器學(xué)習(xí)將在未來(lái)得到更多的發(fā)揮空間。

    4.4 研究意義與局限性

    研究利用推箱子游戲獲取的 log-file信息, 并使用機(jī)器學(xué)習(xí)算法, 建立了較為有效的區(qū)分模型, 初步實(shí)現(xiàn)了對(duì)學(xué)生的能力傾向和學(xué)業(yè)成就的預(yù)測(cè), 結(jié)果可以為其他心理學(xué)和教育學(xué)的測(cè)評(píng)工作提供借鑒。

    同時(shí), 本研究也存在一定局限性。首先, 特征提取和模型建立過(guò)程的樣本僅包含測(cè)驗(yàn)得分排在前25%與后25%的受測(cè)者, 兩個(gè)群體間能力差異較大, 在這種情況下, 80%的查準(zhǔn)度并不完美, 并且如果未來(lái)的研究目標(biāo)轉(zhuǎn)化為對(duì)連續(xù)變量進(jìn)行預(yù)測(cè)時(shí), 預(yù)測(cè)的難度會(huì)進(jìn)一步提高; 其次, 雖然目前基于推箱子游戲的過(guò)程數(shù)據(jù)建立的模型可以較好地預(yù)測(cè)個(gè)體在瑞文推理測(cè)驗(yàn)和數(shù)學(xué)測(cè)驗(yàn)上是否成功,但實(shí)際上我們對(duì)推箱子這一游戲任務(wù)本身到底涉及到哪些認(rèn)知加工過(guò)程并不完全清楚, 因此并不能直接用模型預(yù)測(cè)的分?jǐn)?shù)代替瑞文推理測(cè)驗(yàn)成績(jī)或數(shù)學(xué)測(cè)驗(yàn)成績(jī)。在之后的研究中, 可以考慮從以下幾個(gè)方面進(jìn)行改進(jìn)。第一, 增大樣本量。由于本研究在模型訓(xùn)練中使用的樣本量低于 200, 為了避免過(guò)擬合, 必須減少特征數(shù)量, 因而限制了模型的擬合能力。未來(lái)研究如果能夠收集到足夠大的樣本量,則可以使用更多的特征, 從而提高模型的預(yù)測(cè)能力。第二, 增大受測(cè)者在所預(yù)測(cè)能力上的異質(zhì)性。本研究采用的樣本均來(lái)自于同一所中學(xué), 受測(cè)者的抽象推理能力相對(duì)來(lái)說(shuō)具有較強(qiáng)的同質(zhì)性, 這將增大模型預(yù)測(cè)的難度。未來(lái)研究如果能在不同的地區(qū)(城市、農(nóng)村)、不同水平的學(xué)校(重點(diǎn)、普通)取樣, 也可能會(huì)提高模型的預(yù)測(cè)能力。第三, 提取更多的特征并嘗試其他算法。相對(duì)于以往研究, 本研究從推箱子游戲的過(guò)程數(shù)據(jù)中提取了更多樣化的指標(biāo), 包括重復(fù)狀態(tài)比例、思考次數(shù)等, 但log-file中仍有很多信息可以被挖掘。未來(lái)的研究可以嘗試提取和檢驗(yàn)更多的特征, 并可考慮采用機(jī)器學(xué)習(xí)中的回歸算法對(duì)能力傾向和學(xué)業(yè)成就進(jìn)行預(yù)測(cè)。第四, 相對(duì)于瑞文推理測(cè)驗(yàn)任務(wù), 推箱子游戲任務(wù)所包含的認(rèn)知加工過(guò)程更加多樣化, 更具動(dòng)態(tài)性, 未來(lái)研究可以考慮結(jié)合眼動(dòng)或者fMRI技術(shù)對(duì)這一游戲任務(wù)所涉及的心理加工過(guò)程進(jìn)行更深入的考察, 從而指導(dǎo)研究者構(gòu)造出更多有實(shí)質(zhì)意義的特征, 為能力的個(gè)體差異的預(yù)測(cè)提供更有價(jià)值的預(yù)測(cè)源, 甚至通過(guò)機(jī)器學(xué)習(xí)建模來(lái)替代某些傳統(tǒng)能力測(cè)量工具。

    5 結(jié)論

    (1) 可以利用游戲 log-file收集受測(cè)者在任務(wù)中的過(guò)程性數(shù)據(jù), 并利用機(jī)器學(xué)習(xí)算法進(jìn)行分析。

    (2) 機(jī)器學(xué)習(xí)建立的區(qū)分模型對(duì)數(shù)學(xué)成績(jī)和推理能力具有較好的預(yù)測(cè)效果, 利用電腦所記錄的游戲過(guò)程數(shù)據(jù)可以對(duì)個(gè)體的能力進(jìn)行較為有效的預(yù)測(cè)。

    參 考 文 獻(xiàn)

    Baumert, A., Schl?sser, T., & Schmitt, M. (2014). Economic games: A performance-based assessment of fairness and altruism.European Journal of Psychological Assessment,30(3), 178–192.

    Berg, W. K., & Byrd, D. L. (2002). The Tower of London spatial problem-solving task: Enhancing clinical and research implementation.Journal of Clinical and Experimental Neuropsychology, 24(5), 586–604.

    Bors, D. A., & Vigneau, F. (2003). The effect of practice on Raven's Advanced Progressive Matrices.Learning and Individual Differences, 13(4), 291–312.

    Breiman, L. (2001). Random forests.Machine Learning, 45(1),5–32.

    Cassady, J. C., & Johnson, R. E. (2002). Cognitive test anxiety and academic performance.Contemporary Educational Psychology, 27(2), 270–295.

    Csapó, B., Ainley, J., Bennett, R. E., Latour, T., & Law, N.(2012). Technological issues for computer-based assessment.In P. Griffin, B. McGaw, & E. Care (Eds.),Assessment and teaching of 21st century skills(pp. 143–230). Dordrecht:Springer.

    DiCerbo, K. E., & Behrens, J. T. (2012). Implications of the digital ocean on current and future assessment. In R. W.Lissitz & H. Jiao (Eds.),Computers and their impact on state assessments: Recent history and predictions for the future(pp. 273–306). Charlotte, NC: Information Age Publishing.

    Di Giunta, L., Alessandri, G., Gerbino, M., Kanacri, P. L.,Zuffiano, A., & Caprara, G. V. (2013). The determinants of scholastic achievement: The contribution of personality traits, self-esteem, and academic self-efficacy.Learning and Individual Differences, 27, 102–108.

    Duncan, G. J., Dowsett, C. J., Claessens, A., Magnuson, K.,Huston, A. C., Klebanov, P., ... Japel, C. (2007). School readiness and later achievement.Developmental Psychology,43(6), 1428–1446.

    Greiff, S., Wüstenberg, S., & Avvisati, F. (2015).Computer-generated log-file analyses as a window into students' minds? A showcase study based on the PISA 2012 assessment of problem solving.Computers & Education,91, 92–105.

    Harrington, P. (2013).Machine learning in action(R. Li, P. Li,Y. D. Qu, & B. Wang, Trans.). Beijing, China: Posts &Telecom Press.

    [Harrington, P. (2013). 機(jī)器學(xué)習(xí)實(shí)戰(zhàn) (李銳, 李鵬, 曲亞?wèn)|,王斌 譯). 北京: 人民郵電出版社.]

    Hausknecht, J. P., Halpert, J. A., Di Paolo, N. T., & Moriarty Gerrard, M. O. (2007). Retesting in selection: A metaanalysis of coaching and practice effects for tests of cognitive ability.Journal of Applied Psychology, 92(2), 373–385.

    Heinzen, T. E., Landrum, R. E., Gurung, R. A. R., & Dunn, D.S. (2015). Game-based assessment: The mash-up we've been waiting for. In T. Reiners & L. C. Wood (Eds.),Gamification in education and business(pp. 201–217).Switzerland: Springer International Publishing.

    Hembree, R. (1988). Correlates, causes, effects, and treatment of test anxiety.Review of Educational Research, 58(1),47–77.

    Ikeda, M., Iwanaga, M., & Seiwa, H. (1996). Test anxiety and working memory system.Perceptual and Motor Skills,82(3), 1223–1231.

    Judd, L. L., Schettler, P. J., & Rush, A. J. (2016). A brief clinical tool to estimate individual patients’ risk of depressive relapse following remission: Proof of concept.American Journal of Psychiatry, 173(11), 1140–1146.

    Keogh, E., & French, C. C. (2001). Test anxiety, evaluative stress, and susceptibility to distraction from threat.European Journal of Personality, 15(2), 123–141.

    Kinnunen, R., & Vauras, M. (1995). Comprehension monitoring and the level of comprehension in high-and low-achieving primary school children's reading.Learning and Instruction,5(2), 143–165.

    K?stering, L., Schmidt, C. S. M., Egger, K., Amtage, F., Peter,J., Kl?ppel, S., ... Kaller, C. P. (2015). Assessment of planning performance in clinical samples: Reliability and validity of the Tower of London task (TOL-F).Neuropsychologia, 75,646–655.

    Li, J., Zhang, B., Du, H., Zhu, Z., & Li, Y. M. (2015).Metacognitive planning: Development and validation of an online measure.Psychological Assessment, 27(1), 260–271.

    Moharil, B., Gokhale, C., Ghadge, V., Tambvekar, P., Pundlik, S.,& Rai, G. (2014). Real time generalized log file management and analysis using pattern matching and dynamic clustering.International Journal of Computer Applications, 91(16),1–6.

    Neisser, U. (1997). Rising scores on intelligence tests: Test scores are certainly going up all over the world, but whether intelligence itself has risen remains controversial.American Scientist, 85(5), 440–447.

    Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V.,Thirion, B., Grisel, O., ... Duchesnay, é. (2011).Scikit-learn: Machine learning in python.Journal of Machine Learning Research, 12, 2825–2830.

    Pressley, M., & Afflerbach, P. (1995).Verbal protocols of reading: The nature of constructively responsive reading.Hillsdale, N.J.: Erlbaum.

    Raven, J. (1989). The raven progressive matrices: A review of national norming studies and ethnic and socioeconomic variation within the united-states.Journal of Educational Measurement, 26(1), 1–16.

    Schmidt, F. L. (2002). The role of general cognitive ability and job performance: Why there cannot be a debate.Human Performance, 15(1–2), 187–210.

    Sonnleitner, P., Brunner, M., Greiff, S., Funke, J., Keller, U.,Martin, R., ... Latour, T. (2012). TheGenetics Lab:Acceptance and psychometric characteristics of a computerbased microworld assessing complex problem solving.Psychological Test and Assessment Modeling, 54(1), 54–72.

    Tan, P. N., Steinbach, M., & Kumar, V. (2006).Introduction to data mining. India: Pearson Education.

    Tenorio Delgado, M., Arango Uribe, P., Aparicio Alonso, A.,& Rosas Díaz, R. (2016). TENI: A comprehensive battery for cognitive assessment based on games and technology.Child Neuropsychology, 22(3), 276–291.

    Veenman, M. V. J., Wilhelm, P., & Beishuizen, J. J. (2004).The relation between intellectual and metacognitive skills from a developmental perspective.Learning and Instruction,14(1), 89–109.

    Veenman, M. V. J., Bavelaar, L., De Wolf, L., & van Haaren,M. G. P. (2014). The on-line assessment of metacognitive skills in a computerized learning environment.Learning and Individual Differences, 29, 123–130.

    Ventura, M., & Shute, V. (2013). The validity of a game-based assessment of persistence.Computers in Human Behavior,29(6), 2568–2572.

    Wu, Y. Y., Kosinski, M., & Stillwell, D. (2015). Computerbased personality judgments are more accurate than those made by humans.Proceedings of the National Academy of Sciences of the United States of America, 112(4), 1036–1040.

    Zhang, B., Li, J., Xu, C., & Li, Y. M. (2014). The developmental differences of problem solving ability between intellectuallygifted and intellectually-average children aged from 11-14 years old.Acta Psychologica Sinica, 46, 1823–1834.

    [張博, 黎堅(jiān), 徐楚, 李一茗. (2014). 11~14歲超常兒童與普通兒童問(wèn)題解決能力的發(fā)展比較.心理學(xué)報(bào), 46, 1823–1834.]

    Zhang, Z., Song, Y. F., Cui, L. Q., Liu, X. Q., & Zhu, T. S.(2016). Emotion recognition based on customized smart bracelet with built-in accelerometer.PeerJ, 4, e2258.

    猜你喜歡
    受測(cè)者步數(shù)測(cè)驗(yàn)
    速度和步數(shù),哪個(gè)更重要
    怒氣沖沖 或因睡不好
    楚國(guó)的探索之旅
    奇妙博物館(2021年4期)2021-05-04 08:59:48
    新媒體科研環(huán)境下自發(fā)式科研協(xié)同行為機(jī)制研究
    微信運(yùn)動(dòng)步數(shù)識(shí)人指南
    小演奏家(2018年9期)2018-12-06 08:42:02
    《新年大測(cè)驗(yàn)》大揭榜
    兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    你知道嗎?
    淘寶排行榜
    你知道嗎
    在线看a的网站| 国产精品国产三级国产专区5o| 日本wwww免费看| av网站免费在线观看视频| 久久久久久久久久久免费av| 欧美+日韩+精品| av专区在线播放| 亚洲精品久久成人aⅴ小说 | 日韩视频在线欧美| 国产成人精品一,二区| 亚洲欧美成人精品一区二区| 国产精品 国内视频| 久久精品久久久久久噜噜老黄| 国产亚洲最大av| 男人爽女人下面视频在线观看| 九九爱精品视频在线观看| 18+在线观看网站| 日本黄大片高清| 99久久中文字幕三级久久日本| 欧美日韩视频高清一区二区三区二| av女优亚洲男人天堂| 亚洲美女搞黄在线观看| 亚洲成色77777| 欧美日韩精品成人综合77777| 国产视频首页在线观看| 曰老女人黄片| 成年女人在线观看亚洲视频| 国产精品 国内视频| 亚洲内射少妇av| 一本久久精品| 黄色欧美视频在线观看| 永久免费av网站大全| 国产成人免费观看mmmm| 插阴视频在线观看视频| 精品亚洲成国产av| 日本黄大片高清| 日韩中文字幕视频在线看片| 下体分泌物呈黄色| av专区在线播放| 欧美xxⅹ黑人| 一本—道久久a久久精品蜜桃钙片| 精品少妇久久久久久888优播| 狂野欧美白嫩少妇大欣赏| av专区在线播放| 天堂中文最新版在线下载| 青春草亚洲视频在线观看| 最近的中文字幕免费完整| 两个人免费观看高清视频| 纵有疾风起免费观看全集完整版| 一边亲一边摸免费视频| 久久人人爽人人片av| 另类亚洲欧美激情| 只有这里有精品99| 亚洲情色 制服丝袜| 国产视频内射| 女人久久www免费人成看片| 欧美日韩精品成人综合77777| 成人漫画全彩无遮挡| 国产精品一二三区在线看| 亚洲无线观看免费| 如日韩欧美国产精品一区二区三区 | 久久久国产一区二区| 在现免费观看毛片| 欧美精品高潮呻吟av久久| 你懂的网址亚洲精品在线观看| 国产精品秋霞免费鲁丝片| 国精品久久久久久国模美| 亚洲国产成人一精品久久久| 美女脱内裤让男人舔精品视频| 亚洲精品,欧美精品| 欧美性感艳星| 丰满饥渴人妻一区二区三| 欧美激情 高清一区二区三区| 久久热精品热| 午夜久久久在线观看| 国产片特级美女逼逼视频| 中文字幕久久专区| 久久99精品国语久久久| 啦啦啦中文免费视频观看日本| 久久99热6这里只有精品| 精品人妻在线不人妻| 高清黄色对白视频在线免费看| 国产精品国产三级国产av玫瑰| 亚洲婷婷狠狠爱综合网| 国产淫语在线视频| 黄片无遮挡物在线观看| 天美传媒精品一区二区| 九九爱精品视频在线观看| 精品人妻熟女毛片av久久网站| 超色免费av| 丰满迷人的少妇在线观看| 欧美3d第一页| 黑丝袜美女国产一区| 各种免费的搞黄视频| 国产精品久久久久久精品电影小说| 精品一区二区三卡| 91国产中文字幕| 人人妻人人添人人爽欧美一区卜| 免费黄网站久久成人精品| 欧美激情极品国产一区二区三区 | 亚洲欧美日韩卡通动漫| 狠狠精品人妻久久久久久综合| 欧美激情极品国产一区二区三区 | av卡一久久| 九九爱精品视频在线观看| videosex国产| 亚洲精品色激情综合| 在线 av 中文字幕| 国产午夜精品一二区理论片| 欧美bdsm另类| 夜夜骑夜夜射夜夜干| 国产免费又黄又爽又色| 黄片无遮挡物在线观看| 一本大道久久a久久精品| 男人添女人高潮全过程视频| 欧美精品一区二区免费开放| 人妻人人澡人人爽人人| 少妇的逼水好多| 国产精品 国内视频| 丰满迷人的少妇在线观看| 欧美 日韩 精品 国产| 亚洲成色77777| 亚洲精品色激情综合| 水蜜桃什么品种好| 黄色配什么色好看| 一本—道久久a久久精品蜜桃钙片| 久久国内精品自在自线图片| 国产免费又黄又爽又色| 亚洲av国产av综合av卡| 国产精品久久久久久av不卡| 国产一区有黄有色的免费视频| 久久久久久久久久人人人人人人| 精品国产露脸久久av麻豆| 国产无遮挡羞羞视频在线观看| 一本色道久久久久久精品综合| 免费大片18禁| 老司机亚洲免费影院| 少妇精品久久久久久久| 一级毛片黄色毛片免费观看视频| 亚洲精品久久久久久婷婷小说| 桃花免费在线播放| 国产av国产精品国产| 国产精品久久久久久久久免| 亚洲欧美成人精品一区二区| 国产午夜精品久久久久久一区二区三区| 国产一区二区在线观看日韩| 黑人高潮一二区| 欧美性感艳星| 久久精品国产亚洲网站| 内地一区二区视频在线| 国产av一区二区精品久久| 99精国产麻豆久久婷婷| 街头女战士在线观看网站| 日韩成人av中文字幕在线观看| 久久久久国产精品人妻一区二区| 一级毛片aaaaaa免费看小| 高清午夜精品一区二区三区| 亚洲欧美成人精品一区二区| 天堂中文最新版在线下载| a级毛片在线看网站| 色哟哟·www| 久久国内精品自在自线图片| 特大巨黑吊av在线直播| 两个人免费观看高清视频| .国产精品久久| 亚洲av中文av极速乱| 日本wwww免费看| 青春草亚洲视频在线观看| 中文乱码字字幕精品一区二区三区| 亚洲精品成人av观看孕妇| 97在线人人人人妻| 国产在线视频一区二区| 日本黄色日本黄色录像| 满18在线观看网站| 久久久久精品久久久久真实原创| 一本色道久久久久久精品综合| 91在线精品国自产拍蜜月| 少妇 在线观看| 成人午夜精彩视频在线观看| 婷婷色麻豆天堂久久| av在线播放精品| 免费黄频网站在线观看国产| 成人手机av| 精品国产国语对白av| 亚洲精品久久成人aⅴ小说 | 欧美性感艳星| 一级爰片在线观看| 看非洲黑人一级黄片| 久久国内精品自在自线图片| 99国产精品免费福利视频| 亚洲av男天堂| 亚洲精品中文字幕在线视频| 天堂中文最新版在线下载| 99九九线精品视频在线观看视频| 国产亚洲精品第一综合不卡 | xxx大片免费视频| 久久精品久久久久久久性| 美女脱内裤让男人舔精品视频| 一级a做视频免费观看| 嘟嘟电影网在线观看| 中文字幕人妻丝袜制服| 久久99热这里只频精品6学生| 久久精品国产亚洲av天美| 高清黄色对白视频在线免费看| 成人漫画全彩无遮挡| 乱码一卡2卡4卡精品| 男女边摸边吃奶| 少妇猛男粗大的猛烈进出视频| 欧美精品高潮呻吟av久久| 黄片无遮挡物在线观看| 熟女人妻精品中文字幕| 久久久国产精品麻豆| 日韩av免费高清视频| 久久久久久久大尺度免费视频| 插逼视频在线观看| 亚洲,一卡二卡三卡| 青春草视频在线免费观看| 哪个播放器可以免费观看大片| 插阴视频在线观看视频| 国产精品.久久久| 少妇的逼好多水| 99热这里只有是精品在线观看| 久久久久久久久久久免费av| 久久ye,这里只有精品| 国产深夜福利视频在线观看| 欧美日韩在线观看h| 大香蕉97超碰在线| 色94色欧美一区二区| 免费av中文字幕在线| 自线自在国产av| 男女边摸边吃奶| 午夜91福利影院| 欧美老熟妇乱子伦牲交| 有码 亚洲区| 国产爽快片一区二区三区| 一级,二级,三级黄色视频| 91精品国产国语对白视频| 国产av一区二区精品久久| 亚洲国产精品专区欧美| 欧美成人精品欧美一级黄| 亚洲av欧美aⅴ国产| 91久久精品国产一区二区成人| 青春草视频在线免费观看| 永久免费av网站大全| 热re99久久国产66热| 亚洲欧美成人精品一区二区| 精品久久国产蜜桃| 九九爱精品视频在线观看| 久久久久久久久久久久大奶| 夜夜骑夜夜射夜夜干| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 国产不卡av网站在线观看| 亚洲av男天堂| 久久精品国产亚洲av天美| 成人毛片a级毛片在线播放| xxxhd国产人妻xxx| 亚洲国产精品999| 大片电影免费在线观看免费| 在线观看人妻少妇| 日本午夜av视频| 欧美日韩av久久| 99精国产麻豆久久婷婷| 久久99热这里只频精品6学生| 免费少妇av软件| 国产伦精品一区二区三区视频9| 少妇 在线观看| 亚洲第一区二区三区不卡| 日韩成人av中文字幕在线观看| 国产亚洲av片在线观看秒播厂| 91午夜精品亚洲一区二区三区| 久久韩国三级中文字幕| 免费看光身美女| 国产男女内射视频| 亚洲欧美色中文字幕在线| 欧美人与性动交α欧美精品济南到 | 欧美日韩一区二区视频在线观看视频在线| 人人妻人人添人人爽欧美一区卜| 久久精品熟女亚洲av麻豆精品| 日产精品乱码卡一卡2卡三| videossex国产| 人妻一区二区av| 一本色道久久久久久精品综合| 久久久精品区二区三区| 国产极品天堂在线| 水蜜桃什么品种好| 男的添女的下面高潮视频| 国模一区二区三区四区视频| 麻豆成人av视频| 日本猛色少妇xxxxx猛交久久| 自线自在国产av| 欧美精品一区二区免费开放| 亚洲五月色婷婷综合| 免费观看av网站的网址| 春色校园在线视频观看| 少妇高潮的动态图| 色视频在线一区二区三区| 两个人免费观看高清视频| 各种免费的搞黄视频| 老熟女久久久| 亚洲国产av新网站| av线在线观看网站| 久久久久精品久久久久真实原创| 国产精品久久久久久精品古装| 中文天堂在线官网| 色婷婷久久久亚洲欧美| 亚洲欧美一区二区三区黑人 | 男女国产视频网站| 考比视频在线观看| 夫妻午夜视频| 日韩一区二区视频免费看| 精品国产一区二区久久| 狠狠精品人妻久久久久久综合| 亚洲av国产av综合av卡| 一级黄片播放器| 午夜福利在线观看免费完整高清在| 黄片播放在线免费| 国产精品99久久久久久久久| 伦理电影免费视频| 欧美变态另类bdsm刘玥| 欧美国产精品一级二级三级| av视频免费观看在线观看| 亚洲av福利一区| 涩涩av久久男人的天堂| 国产成人免费观看mmmm| 十八禁高潮呻吟视频| 日韩不卡一区二区三区视频在线| 女的被弄到高潮叫床怎么办| 国产一区二区在线观看日韩| 99热这里只有是精品在线观看| 91久久精品电影网| 在现免费观看毛片| 成年美女黄网站色视频大全免费 | 在线看a的网站| 人妻人人澡人人爽人人| 欧美日韩综合久久久久久| 男男h啪啪无遮挡| 日本黄色日本黄色录像| 国产av国产精品国产| 亚洲久久久国产精品| 一级二级三级毛片免费看| 国产午夜精品一二区理论片| 搡老乐熟女国产| 99久久精品一区二区三区| 爱豆传媒免费全集在线观看| 黄色欧美视频在线观看| av又黄又爽大尺度在线免费看| 乱人伦中国视频| 少妇丰满av| 亚洲av综合色区一区| 国产极品天堂在线| 啦啦啦啦在线视频资源| 成人手机av| 韩国高清视频一区二区三区| 国产精品偷伦视频观看了| 麻豆精品久久久久久蜜桃| 欧美精品人与动牲交sv欧美| 欧美xxxx性猛交bbbb| 午夜福利在线观看免费完整高清在| 久久午夜福利片| 少妇高潮的动态图| 久久韩国三级中文字幕| 夫妻性生交免费视频一级片| 日韩欧美精品免费久久| .国产精品久久| 久久 成人 亚洲| 黄色配什么色好看| 日日摸夜夜添夜夜爱| 黄色一级大片看看| 久久国产亚洲av麻豆专区| 亚洲精品美女久久av网站| 日本爱情动作片www.在线观看| 蜜桃在线观看..| 久久影院123| 中国美白少妇内射xxxbb| 色哟哟·www| 久久狼人影院| 亚洲欧洲精品一区二区精品久久久 | 人妻夜夜爽99麻豆av| 热99国产精品久久久久久7| 日本-黄色视频高清免费观看| 亚洲婷婷狠狠爱综合网| 欧美日韩一区二区视频在线观看视频在线| 亚洲婷婷狠狠爱综合网| 肉色欧美久久久久久久蜜桃| 在现免费观看毛片| 午夜福利网站1000一区二区三区| 99久久精品国产国产毛片| 欧美日韩综合久久久久久| 一级毛片我不卡| 99精国产麻豆久久婷婷| 春色校园在线视频观看| 日本黄大片高清| 精品一区二区三区视频在线| 我的老师免费观看完整版| 中文乱码字字幕精品一区二区三区| 亚洲欧美一区二区三区黑人 | 国产高清有码在线观看视频| 十八禁网站网址无遮挡| 久久青草综合色| 亚洲国产日韩一区二区| videossex国产| 老司机影院毛片| 最后的刺客免费高清国语| 亚洲av二区三区四区| 美女福利国产在线| 国产av码专区亚洲av| 久久国内精品自在自线图片| 高清黄色对白视频在线免费看| 春色校园在线视频观看| 在线看a的网站| 精品人妻熟女av久视频| 久久久亚洲精品成人影院| 亚洲精品成人av观看孕妇| 久久99蜜桃精品久久| 飞空精品影院首页| 亚洲av.av天堂| 伊人久久国产一区二区| 啦啦啦在线观看免费高清www| 国产色婷婷99| 欧美另类一区| 高清视频免费观看一区二区| 国产免费视频播放在线视频| 肉色欧美久久久久久久蜜桃| 狂野欧美激情性bbbbbb| 一区在线观看完整版| 纯流量卡能插随身wifi吗| 亚洲美女视频黄频| 在线观看一区二区三区激情| av一本久久久久| 久久久久久久久久成人| 黄色毛片三级朝国网站| 全区人妻精品视频| 水蜜桃什么品种好| 亚洲天堂av无毛| 老熟女久久久| 高清av免费在线| 国产不卡av网站在线观看| 久久久久久久精品精品| 欧美最新免费一区二区三区| 国产精品久久久久成人av| 26uuu在线亚洲综合色| 狂野欧美激情性bbbbbb| 亚洲天堂av无毛| 久久精品国产鲁丝片午夜精品| 国产成人免费观看mmmm| 国产av一区二区精品久久| 天堂8中文在线网| 久久久久久久久久久免费av| 国产精品嫩草影院av在线观看| 男女免费视频国产| 秋霞在线观看毛片| 少妇丰满av| 亚洲国产精品国产精品| 午夜激情久久久久久久| 国产伦理片在线播放av一区| 久久国产亚洲av麻豆专区| 日本免费在线观看一区| 国产成人aa在线观看| 日本av免费视频播放| 99久久人妻综合| 国产欧美另类精品又又久久亚洲欧美| h视频一区二区三区| 18禁在线播放成人免费| 欧美激情极品国产一区二区三区 | 乱码一卡2卡4卡精品| 五月玫瑰六月丁香| 亚洲无线观看免费| 国精品久久久久久国模美| 国产熟女欧美一区二区| 精品一区二区三区视频在线| a级毛片在线看网站| 91精品国产九色| 国产国语露脸激情在线看| 国产色爽女视频免费观看| 高清av免费在线| 人妻一区二区av| 精品卡一卡二卡四卡免费| 纵有疾风起免费观看全集完整版| 国产乱来视频区| 美女主播在线视频| 免费少妇av软件| 成人漫画全彩无遮挡| 国产免费现黄频在线看| 国产 精品1| 国产熟女午夜一区二区三区 | 亚洲内射少妇av| 97超碰精品成人国产| 国产av国产精品国产| 天堂中文最新版在线下载| 韩国av在线不卡| 最黄视频免费看| 欧美成人午夜免费资源| 99热国产这里只有精品6| 三上悠亚av全集在线观看| 亚洲欧美成人综合另类久久久| 久久ye,这里只有精品| 建设人人有责人人尽责人人享有的| 亚洲av日韩在线播放| 久久久久精品性色| 免费黄频网站在线观看国产| 久久久国产一区二区| 成人综合一区亚洲| 美女国产视频在线观看| 高清在线视频一区二区三区| 亚洲精品乱久久久久久| 亚洲精品中文字幕在线视频| 亚洲无线观看免费| 22中文网久久字幕| 亚洲人与动物交配视频| 如日韩欧美国产精品一区二区三区 | 自拍欧美九色日韩亚洲蝌蚪91| 亚洲欧美成人精品一区二区| 自拍欧美九色日韩亚洲蝌蚪91| 国产在线一区二区三区精| 亚洲av成人精品一二三区| 久久99热6这里只有精品| 在线播放无遮挡| 欧美性感艳星| 久久久久久久久久成人| 久久人人爽av亚洲精品天堂| 99国产精品免费福利视频| 亚洲色图综合在线观看| 十八禁网站网址无遮挡| 久久97久久精品| 色94色欧美一区二区| 午夜老司机福利剧场| 久久久久久久久久久免费av| 精品国产国语对白av| 全区人妻精品视频| 色婷婷久久久亚洲欧美| 99九九在线精品视频| 少妇高潮的动态图| 国产av国产精品国产| 91精品三级在线观看| 少妇猛男粗大的猛烈进出视频| 五月开心婷婷网| 亚洲婷婷狠狠爱综合网| 大陆偷拍与自拍| 国语对白做爰xxxⅹ性视频网站| 韩国高清视频一区二区三区| 国产白丝娇喘喷水9色精品| 亚洲欧美日韩卡通动漫| 日韩成人伦理影院| 91精品伊人久久大香线蕉| 亚洲av二区三区四区| 精品少妇久久久久久888优播| 欧美+日韩+精品| 少妇猛男粗大的猛烈进出视频| 黄色一级大片看看| 亚洲情色 制服丝袜| 国产探花极品一区二区| 一二三四中文在线观看免费高清| 免费大片黄手机在线观看| 午夜91福利影院| 在线看a的网站| 老司机影院成人| 街头女战士在线观看网站| 自线自在国产av| 亚洲精品色激情综合| 尾随美女入室| 最近中文字幕高清免费大全6| 看十八女毛片水多多多| 大片免费播放器 马上看| 夜夜看夜夜爽夜夜摸| 狂野欧美白嫩少妇大欣赏| 超色免费av| 久久精品国产亚洲av天美| 日韩大片免费观看网站| 久久婷婷青草| 国产成人av激情在线播放 | 欧美激情极品国产一区二区三区 | 青春草国产在线视频| 欧美日韩在线观看h| 亚洲精品一区蜜桃| 哪个播放器可以免费观看大片| 久久精品国产自在天天线| 韩国av在线不卡| 在线观看免费日韩欧美大片 | 在线播放无遮挡| 99九九线精品视频在线观看视频| 人妻一区二区av| 亚洲欧美日韩卡通动漫| 国产成人精品福利久久| videossex国产| 午夜福利在线观看免费完整高清在| av卡一久久| 亚洲人成77777在线视频| 婷婷色综合大香蕉| 午夜精品国产一区二区电影| 交换朋友夫妻互换小说| 国产精品一二三区在线看| 国产精品秋霞免费鲁丝片| 成人综合一区亚洲| 丰满乱子伦码专区| 国产伦理片在线播放av一区| 视频中文字幕在线观看| 日本-黄色视频高清免费观看| 国产精品久久久久久精品古装| xxx大片免费视频| 国产免费现黄频在线看| 日本黄色片子视频| 亚洲精品色激情综合| 成人免费观看视频高清| 国产精品一二三区在线看| 国产亚洲欧美精品永久| 夫妻性生交免费视频一级片| 国产无遮挡羞羞视频在线观看| 日韩三级伦理在线观看| 看十八女毛片水多多多| 少妇 在线观看| 国产精品人妻久久久影院| 人妻制服诱惑在线中文字幕| 中文字幕精品免费在线观看视频 | 91午夜精品亚洲一区二区三区| 久久精品国产a三级三级三级|