科學(xué)探究過(guò)程的計(jì)算機(jī)模擬測(cè)試：趨勢(shì)進(jìn)展與實(shí)踐啟示

2023-02-08 12:25:34□田偉駱方

中國(guó)遠(yuǎn)程教育 2023年2期

□ 田偉駱方

科學(xué)探究和實(shí)驗(yàn)是學(xué)生學(xué)習(xí)科學(xué)的重要方式，其對(duì)培養(yǎng)學(xué)生的創(chuàng)新精神和實(shí)踐能力具有重要意義。當(dāng)前，世界各國(guó)針對(duì)科學(xué)探究和實(shí)驗(yàn)?zāi)芰Φ脑u(píng)價(jià)方法變革成為研究趨勢(shì)之一，旨在促進(jìn)評(píng)價(jià)與課程和教學(xué)深度融合，形成培養(yǎng)學(xué)生創(chuàng)新精神和實(shí)踐能力的育人合力。新時(shí)代我國(guó)對(duì)科學(xué)探究和實(shí)驗(yàn)的教學(xué)與評(píng)價(jià)創(chuàng)新也提出了更高要求，“加強(qiáng)科學(xué)教育和實(shí)驗(yàn)教學(xué)”“健全實(shí)驗(yàn)教學(xué)評(píng)價(jià)機(jī)制”“充分運(yùn)用人工智能與大數(shù)據(jù)等領(lǐng)域前沿技術(shù)方法開展人機(jī)交互測(cè)試”“創(chuàng)新評(píng)價(jià)工具”等成為新的國(guó)家政策訴求和改革著力點(diǎn)（教育部,2019,2021;中共中央等,2019,2020）。近年來(lái)，信息技術(shù)的發(fā)展創(chuàng)生出數(shù)字化科學(xué)探究學(xué)習(xí)和評(píng)價(jià)環(huán)境，現(xiàn)實(shí)和虛擬空間融合賦予了科學(xué)探究能力評(píng)價(jià)以全新的特征。本文主要討論計(jì)算機(jī)模擬測(cè)試方法作為一種新的評(píng)價(jià)方法的必然性、理論趨勢(shì)、實(shí)踐進(jìn)展及其構(gòu)建思路和應(yīng)用途徑。

一、傳統(tǒng)科學(xué)探究能力評(píng)價(jià)方法：現(xiàn)狀與問(wèn)題

培養(yǎng)學(xué)生的多種高階能力是科學(xué)探究教學(xué)的主要目標(biāo)。這些高階能力包括學(xué)生提出科學(xué)問(wèn)題的能力，收集和處理信息的能力，分析問(wèn)題和解決問(wèn)題的能力，交流與合作的能力，以及創(chuàng)造性、批判性思維和想象力等（教育部,2022,pp.4-7）。對(duì)這些高階能力進(jìn)行科學(xué)、有效的評(píng)價(jià)是促進(jìn)評(píng)價(jià)與課程和教學(xué)形成內(nèi)在統(tǒng)一的必然要求。然而，傳統(tǒng)的紙筆測(cè)試和表現(xiàn)性測(cè)試方法無(wú)法全面、準(zhǔn)確地對(duì)這些高階能力進(jìn)行評(píng)價(jià)，導(dǎo)致科學(xué)探究教學(xué)的窄化和異化。

（一）紙筆測(cè)試缺乏科學(xué)探究過(guò)程與高階能力的推論證據(jù)

當(dāng)前，紙筆測(cè)試是我國(guó)科學(xué)探究教學(xué)中廣泛使用的主導(dǎo)性評(píng)價(jià)方法，即使用標(biāo)準(zhǔn)化的選擇題和問(wèn)答題等題型間接推論學(xué)生的科學(xué)探究能力。例如，通過(guò)創(chuàng)設(shè)真實(shí)情境和問(wèn)題構(gòu)建一種具體情境下的問(wèn)題解決“活動(dòng)”來(lái)評(píng)價(jià)學(xué)生的科學(xué)探究能力（何美惠等,2020）。紙筆測(cè)試是一種用于大規(guī)模測(cè)試的標(biāo)準(zhǔn)方法，它不僅具有良好的測(cè)量學(xué)特性，而且可以提高評(píng)價(jià)的效率和可操作性（李鋒,2019）。然而，當(dāng)它用于評(píng)價(jià)高階的、復(fù)雜的科學(xué)探究能力時(shí)，卻無(wú)法收集學(xué)生開展科學(xué)探究和進(jìn)行高階思維的推論證據(jù)，從而造成片面推論。具體原因包括以下兩個(gè)方面。

一方面，紙筆測(cè)試與科學(xué)作為一門實(shí)踐性學(xué)科的特性并不契合，設(shè)計(jì)和執(zhí)行調(diào)查等科學(xué)實(shí)踐無(wú)法在靜態(tài)的紙筆測(cè)試工具中展現(xiàn)。使用紙筆測(cè)試工具，只能采集到相對(duì)單一的最終結(jié)果分?jǐn)?shù)，但同一結(jié)果分?jǐn)?shù)背后可能潛藏著多樣化的科學(xué)探究策略或路徑。一些學(xué)生可能直接找到并使用最佳策略，另外一些學(xué)生可能探索很多不同的策略才成功完成任務(wù)，還有一些學(xué)生雖然使用相同的策略，但其花在探索任務(wù)上的時(shí)間和進(jìn)行有效探索的程度不同。因此，學(xué)生與真實(shí)情境之間經(jīng)過(guò)復(fù)雜交互而產(chǎn)生的科學(xué)探究過(guò)程，對(duì)于紙筆測(cè)試方法來(lái)說(shuō)是一個(gè)“黑箱”，難以被觀測(cè)和評(píng)價(jià)。

另一方面，紙筆測(cè)試的功能局限在考查陳述性知識(shí)方面，難以對(duì)科學(xué)探究過(guò)程中的多種高階能力進(jìn)行有效評(píng)價(jià)。學(xué)生在真實(shí)情境中遇到的科學(xué)問(wèn)題通常是結(jié)構(gòu)不良的，必須綜合運(yùn)用批判性思維、創(chuàng)造性思維以及合作解決問(wèn)題能力等多種高階能力進(jìn)行探究。然而在紙筆測(cè)試中，命題人員注重為學(xué)生創(chuàng)設(shè)簡(jiǎn)練的測(cè)試情境，通常使用選擇題引出一些具有明確目標(biāo)和結(jié)構(gòu)良好的問(wèn)題，這些情境和問(wèn)題過(guò)度簡(jiǎn)化了科學(xué)探究的本質(zhì)特征并且限制了學(xué)生的自主探索空間，因此不能展現(xiàn)科學(xué)探究課程對(duì)多種高階能力的要求。

（二）表現(xiàn)性測(cè)試方法的突破及其實(shí)施的實(shí)踐和理論問(wèn)題

表現(xiàn)性測(cè)試是另一種大規(guī)模測(cè)試科學(xué)探究能力的方法，這種方法通常使用綜合性和實(shí)踐性科學(xué)探究任務(wù)，在學(xué)生完成任務(wù)的過(guò)程中評(píng)價(jià)他們進(jìn)行科學(xué)推理和解決問(wèn)題的能力（Harmon,1999;宋歌,2017）。表現(xiàn)性測(cè)試作為紙筆測(cè)試的替代性方案得到廣泛使用，尤其是在大規(guī)模的NAEP和TIMSS科學(xué)教育評(píng)價(jià)項(xiàng)目中。測(cè)試者呈現(xiàn)一些結(jié)構(gòu)不良的真實(shí)問(wèn)題，要求學(xué)生使用提供的材料或?qū)嶒?yàn)器材動(dòng)手操作解決問(wèn)題。學(xué)生記錄自己的思維過(guò)程和作答結(jié)果并交給評(píng)分者進(jìn)行評(píng)分，測(cè)試者最終基于結(jié)果分?jǐn)?shù)對(duì)學(xué)生的科學(xué)探究能力做出判斷。顯然，表現(xiàn)性測(cè)試以“在真實(shí)情境中的表現(xiàn)”為核心依據(jù)測(cè)量科學(xué)探究過(guò)程和高階認(rèn)知技能（宋歌,2017;周文葉等,2021），尤其注重讓學(xué)生經(jīng)歷像科學(xué)家一樣的科學(xué)探究過(guò)程進(jìn)行意義建構(gòu)和科學(xué)論證（宋歌,2017）。

然而，表現(xiàn)性測(cè)試不僅施測(cè)程序復(fù)雜，而且測(cè)試工具的信度和效度具有天然缺陷。一、表現(xiàn)性測(cè)試需要使用統(tǒng)一的實(shí)驗(yàn)材料和器材，配備標(biāo)準(zhǔn)化的工具箱，使得其在大規(guī)模測(cè)評(píng)項(xiàng)目中的可操作性較低（宋歌,2017）。二、表現(xiàn)性測(cè)試工具存在信度和效度方面的測(cè)量技術(shù)問(wèn)題（Stecher et al.,2000）。例如，表現(xiàn)性測(cè)試中每個(gè)任務(wù)不僅涉及的知識(shí)領(lǐng)域具有獨(dú)特性，而且對(duì)學(xué)生科學(xué)探究過(guò)程的記錄要求等也有很多不同，這種異質(zhì)性可能導(dǎo)致學(xué)生在不同測(cè)試任務(wù)上的表現(xiàn)存在很大差異，進(jìn)而限制了將其科學(xué)探究能力表現(xiàn)推廣到更一般的情境中（Shavelson et al.,1991）。

二、新時(shí)期科學(xué)探究能力評(píng)價(jià)：理論趨勢(shì)與實(shí)踐進(jìn)展

從20世紀(jì)90年代開始，已有研究（Shavelson et al.,1991）表明計(jì)算機(jī)模擬測(cè)試方法可以作為表現(xiàn)性測(cè)試的一種替代方法。近年，隨著信息技術(shù)、虛擬科學(xué)探究教學(xué)、大規(guī)?？茖W(xué)教育評(píng)價(jià)以及大數(shù)據(jù)技術(shù)等的飛速發(fā)展，計(jì)算機(jī)模擬測(cè)試方法發(fā)展成為大規(guī)模表現(xiàn)性測(cè)試的一種科學(xué)工具（Clarke-Midura et al.,2011;Quellmalz&Pellegrino,2009）。

（一）利用真實(shí)情境和動(dòng)態(tài)仿真系統(tǒng)構(gòu)建全面的概念評(píng)價(jià)框架

計(jì)算機(jī)模擬測(cè)試方法通?？梢苑譃槿?，科學(xué)現(xiàn)象的模擬、虛擬實(shí)驗(yàn)室和多用戶虛擬環(huán)境（李菲茗等,2020），它們都以信息技術(shù)為基礎(chǔ)創(chuàng)設(shè)真實(shí)情境和開發(fā)動(dòng)態(tài)的仿真科學(xué)系統(tǒng)（OECD,2010;Perdue et al.,2019;Winick et al.,2008）。學(xué)生可以在計(jì)算機(jī)上操作科學(xué)系統(tǒng)開展調(diào)查研究，進(jìn)而根據(jù)交互反饋信息或數(shù)據(jù)回答科學(xué)問(wèn)題。例如，模擬科學(xué)家（SimScientists）項(xiàng)目使用生態(tài)學(xué)家建立的種群動(dòng)態(tài)模型模擬草原生態(tài)系統(tǒng)，系統(tǒng)通過(guò)計(jì)算機(jī)動(dòng)畫的方式展現(xiàn)生物體之間的相互關(guān)系和草原生態(tài)系統(tǒng)20年的變化情況。學(xué)生可以運(yùn)行這種計(jì)算機(jī)模擬系統(tǒng)生成圖表和數(shù)據(jù)表，進(jìn)而解釋數(shù)據(jù)和回答問(wèn)題（Buckley&Quellmalz,2013）?？梢?，動(dòng)態(tài)仿真科學(xué)系統(tǒng)可以促進(jìn)學(xué)生經(jīng)歷像科學(xué)家一樣的科學(xué)探究過(guò)程，即學(xué)生通過(guò)自主探究尋找科學(xué)問(wèn)題的研究證據(jù)并進(jìn)行論證和意義構(gòu)建。因此，以計(jì)算機(jī)模擬測(cè)試方法為工具，可以構(gòu)建與傳統(tǒng)測(cè)試方法截然不同的概念評(píng)價(jià)框架（見圖1），全面和準(zhǔn)確地將學(xué)生的科學(xué)探究能力測(cè)量出來(lái)。

圖1 計(jì)算機(jī)模擬測(cè)試方法的概念評(píng)價(jià)框架

比較而言，計(jì)算機(jī)模擬測(cè)試方法的概念評(píng)價(jià)框架具有四個(gè)方面的顯著優(yōu)勢(shì)。

一是情境更加真實(shí)和仿真，符合現(xiàn)實(shí)世界復(fù)雜、綜合的本源特征，這是開發(fā)非常規(guī)問(wèn)題解決任務(wù)和創(chuàng)設(shè)更加自主的探索空間的基礎(chǔ)。科學(xué)現(xiàn)象的模擬和虛擬實(shí)驗(yàn)室是一種2D的計(jì)算機(jī)模擬測(cè)試方法，它們的情境多是一些常規(guī)性的和高度簡(jiǎn)化的情境，學(xué)生使用相對(duì)簡(jiǎn)單的程序性知識(shí)和遵循一套明確的程序來(lái)探究和解決問(wèn)題。以PISA2015年的一道“澤爾罐”樣題為例，題目要求學(xué)生在氣溫為4℃的條件下，通過(guò)改變沙層的厚度和濕度來(lái)探究澤爾罐最大的食物保鮮量（OECD,2017）。分析可見，其中的科學(xué)探究問(wèn)題、任務(wù)和程序是明確的，可以構(gòu)成一個(gè)結(jié)構(gòu)良好的封閉問(wèn)題情境。學(xué)生遵循相對(duì)明確的程序，承受較低的認(rèn)知負(fù)荷就可以解決問(wèn)題。多用戶虛擬環(huán)境是一種3D計(jì)算機(jī)模擬測(cè)試方法，借此可以創(chuàng)建圖形化的虛擬情境和沉浸式的體驗(yàn)。多個(gè)用戶可以同時(shí)登錄并創(chuàng)建自己的虛擬化身，每個(gè)用戶可以借由自己的化身使用文本和虛擬手勢(shì)與其他用戶的化身進(jìn)行交流，也可以使用數(shù)字化的工具（如查看圖片或操作在線顯微鏡工具）與計(jì)算機(jī)代理進(jìn)行交互。多用戶虛擬環(huán)境中的情境是一種高度復(fù)雜和不確定的科學(xué)現(xiàn)象，學(xué)生在這種模擬真實(shí)現(xiàn)實(shí)世界的情境中具有更大的自主探索和合作探究空間。由于沒(méi)有清晰的問(wèn)題解決路徑，學(xué)生在科學(xué)探究過(guò)程中可能經(jīng)歷一些不可預(yù)期的、非常規(guī)的或不熟悉的問(wèn)題解決過(guò)程，從而引出更多推理過(guò)程或問(wèn)題解決策略（Clarke-Midura et al.,2011）。

二是利用計(jì)算機(jī)過(guò)程數(shù)據(jù)追蹤技術(shù)采集學(xué)生進(jìn)行復(fù)雜科學(xué)探究活動(dòng)的行為過(guò)程，使得科學(xué)探究能力的評(píng)價(jià)證據(jù)變得豐富。教育評(píng)價(jià)活動(dòng)本身的復(fù)雜性要求評(píng)價(jià)者在推論過(guò)程中綜合使用多種評(píng)價(jià)證據(jù)。有研究者將數(shù)字評(píng)價(jià)環(huán)境下采集到的數(shù)據(jù)分為結(jié)果數(shù)據(jù)和過(guò)程數(shù)據(jù)（Rupp et al.,2012）。采集科學(xué)探究過(guò)程數(shù)據(jù)（如科學(xué)探究的設(shè)計(jì)和執(zhí)行過(guò)程）是計(jì)算機(jī)模擬測(cè)試方法超越傳統(tǒng)測(cè)試方法的重要特征，這為綜合采用多源評(píng)價(jià)證據(jù)進(jìn)行科學(xué)探究能力的推論提供了科學(xué)基礎(chǔ)（Wilson&Bertenthal,2006）。過(guò)程數(shù)據(jù)主要來(lái)自計(jì)算機(jī)環(huán)境下學(xué)生與其他學(xué)生和/或計(jì)算機(jī)環(huán)境之間交互的過(guò)程。例如，學(xué)生收集數(shù)據(jù)活動(dòng)的數(shù)據(jù)流。過(guò)程數(shù)據(jù)是帶有時(shí)間標(biāo)記的、由事件組成的行為序列數(shù)據(jù)，通常也被稱為日志文件、跟蹤數(shù)據(jù)或證據(jù)跟蹤文件，其中常見的科學(xué)探究行為過(guò)程包括敲擊鍵盤、移動(dòng)鼠標(biāo)、點(diǎn)擊鼠標(biāo)以及做出反應(yīng)等（Li et al.,2018）。由于每個(gè)學(xué)生都會(huì)產(chǎn)生大量個(gè)性化的科學(xué)探究過(guò)程數(shù)據(jù)，導(dǎo)致過(guò)程數(shù)據(jù)成為一種龐雜的、無(wú)結(jié)構(gòu)的大數(shù)據(jù)，其挖掘和分析比傳統(tǒng)的結(jié)果數(shù)據(jù)更加復(fù)雜。盡管如此，過(guò)程數(shù)據(jù)中蘊(yùn)含的復(fù)雜認(rèn)知規(guī)律對(duì)于精準(zhǔn)估計(jì)科學(xué)探究能力和構(gòu)建教育教學(xué)模型具有重要價(jià)值。當(dāng)前，過(guò)程數(shù)據(jù)挖掘是一個(gè)新興研究領(lǐng)域，研究處于初步發(fā)展階段并取得了一些進(jìn)展。

三是拓展了評(píng)價(jià)內(nèi)容，并促進(jìn)評(píng)價(jià)重心轉(zhuǎn)向高階科學(xué)探究能力。計(jì)算機(jī)模擬測(cè)試方法強(qiáng)調(diào)非常規(guī)問(wèn)題解決和科學(xué)探究過(guò)程，使得評(píng)價(jià)內(nèi)容從傳統(tǒng)的陳述性知識(shí)拓展到程序性知識(shí)、認(rèn)識(shí)論知識(shí)以及評(píng)價(jià)和設(shè)計(jì)科學(xué)探究、科學(xué)地解釋數(shù)據(jù)和證據(jù)、問(wèn)題解決能力、合作解決問(wèn)題能力等各項(xiàng)高階能力（Evagorou et al.,2009;Li et al.,2018;OECD,2017;Quellmalz et al.,2013;Quellmalz et al.,2012;von Davier et al.,2017）。例如，有一個(gè)測(cè)試情境是在南極洲建立可持續(xù)研究中心。題目要求學(xué)生向南極洲的研究中心委員會(huì)描述自己的可持續(xù)能源計(jì)劃建議或?qū)ζ渌颂岢龅姆桨甘欠駶M足設(shè)計(jì)限制條件進(jìn)行評(píng)判，這一題目的評(píng)價(jià)目標(biāo)側(cè)重的是科學(xué)探究中的交流與合作（Quellmalz et al.,2012）。學(xué)生還可以在多用戶虛擬環(huán)境中共同合作進(jìn)行問(wèn)題解決，如以2～4人為一組合作找出河城居民生病的原因（Ketelhut,2007;王建明等,2011）。

四是計(jì)算機(jī)模擬測(cè)試方法具有很好的信度和效度。傳統(tǒng)測(cè)試方法不能有效評(píng)價(jià)學(xué)生設(shè)計(jì)和開展科學(xué)探究的能力。計(jì)算機(jī)模擬測(cè)試方法作為一種革新方法，是否可以有效測(cè)量學(xué)生開展科學(xué)探究的能力也得到關(guān)注。例如，采用專家訪談、認(rèn)知實(shí)驗(yàn)和統(tǒng)計(jì)分析方法的各項(xiàng)研究表明，相比靜態(tài)測(cè)試方法，計(jì)算機(jī)模擬測(cè)試方法作為一種動(dòng)態(tài)交互測(cè)試方法可以更加有效地測(cè)量學(xué)生開展科學(xué)探究的能力（Quellmalz et al.,2013）。在虛擬表現(xiàn)評(píng)價(jià)項(xiàng)目中，數(shù)據(jù)表明計(jì)算機(jī)模擬測(cè)試工具的克隆巴赫α系數(shù)為0.88，可見當(dāng)它用于測(cè)量科學(xué)探究時(shí)是可信的（Scalise&Clarke-Midura,2018）。

（二）挖掘隱含的科學(xué)探究過(guò)程信息和規(guī)律構(gòu)建教育教學(xué)模型

計(jì)算機(jī)模擬測(cè)試方法是一種信息技術(shù)賦能的動(dòng)態(tài)評(píng)價(jià)方法，過(guò)程數(shù)據(jù)是其賦能的一個(gè)重要表現(xiàn)。在技術(shù)環(huán)境下，學(xué)生解決非常規(guī)問(wèn)題的過(guò)程是其進(jìn)行自主探究的過(guò)程，過(guò)程中會(huì)產(chǎn)生大量行為過(guò)程數(shù)據(jù)。而且，過(guò)程數(shù)據(jù)之中蘊(yùn)含著有關(guān)學(xué)生的認(rèn)知、元認(rèn)知、動(dòng)機(jī)和情感狀態(tài)的信息（Goldhammer&Zehner,2017）。充分挖掘這些隱含的科學(xué)探究過(guò)程信息和規(guī)律有助于構(gòu)建教育教學(xué)模型，為教學(xué)和學(xué)習(xí)提供形成性反饋信息。科學(xué)探究過(guò)程數(shù)據(jù)挖掘和分析是一個(gè)新興跨學(xué)科前沿研究領(lǐng)域?？偨Y(jié)現(xiàn)有研究的方向和內(nèi)容可見該領(lǐng)域的研究還處于初級(jí)發(fā)展階段，初步形成了以過(guò)程數(shù)據(jù)為中心的教育教學(xué)模型研究圖景（見圖2）。

圖2 科學(xué)探究過(guò)程數(shù)據(jù)挖掘的研究圖景

挖掘和分析過(guò)程數(shù)據(jù)可以幫助教師、研究者和教育政策制定者深入理解學(xué)生科學(xué)探究表現(xiàn)差異背后的教育教學(xué)過(guò)程和機(jī)制，從而制定相應(yīng)的支持政策。科學(xué)探究過(guò)程數(shù)據(jù)挖掘的研究圖景可以分為三個(gè)方面。

一是使用理論驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)結(jié)合的方法界定科學(xué)探究過(guò)程指標(biāo)（Eichmann et al.,2020），把行為序列和認(rèn)知、元認(rèn)知策略等聯(lián)系起來(lái)，為挖掘過(guò)程數(shù)據(jù)和構(gòu)建教育教學(xué)模型提供理論基礎(chǔ)。研究者基于學(xué)科理論研究界定科學(xué)探究過(guò)程指標(biāo)，把行為序列簡(jiǎn)化為一系列單一統(tǒng)計(jì)指標(biāo)。例如，科學(xué)探究策略（控制變量或交互）、科學(xué)探究中的探索行為（行為、試驗(yàn)、人機(jī)交互和科學(xué)探究的次數(shù)等）以及花費(fèi)在每個(gè)題目或任務(wù)上的總時(shí)間都是常見的過(guò)程指標(biāo)（Teig et al.,2020）。使用數(shù)據(jù)驅(qū)動(dòng)的方法提取行為序列的子序列或全序列作為過(guò)程指標(biāo)（Eichmann et al.,2020;He&von Davier,2015;Tang et al.,2020）。單一統(tǒng)計(jì)指標(biāo)可能會(huì)忽略行為的組合或序列信息，導(dǎo)致重要信息丟失，以至于出現(xiàn)完全不同的行為序列卻得到相似的統(tǒng)計(jì)指標(biāo)，而提取行為序列或其子序列則可以避免這一問(wèn)題。例如，研究者使用n-gram方法將解決復(fù)雜問(wèn)題行為分解成小的子序列，進(jìn)而通過(guò)分析子序列的頻次和成功解決復(fù)雜問(wèn)題之間的關(guān)系來(lái)確定相關(guān)的行為模式（He&von Davier,2015）。除了子序列指標(biāo)以外，還可以提取完整的行為序列以深入理解行為特征與探究成功之間的關(guān)系（Eichmann et al.,2020）。

二是基于過(guò)程指標(biāo)分析影響科學(xué)探究結(jié)果或能力的關(guān)鍵過(guò)程指標(biāo)。研究者（Goldhammer&Zehner,2017）認(rèn)為過(guò)程數(shù)據(jù)會(huì)對(duì)結(jié)果分?jǐn)?shù)產(chǎn)生影響，使得影響機(jī)制成為研究方向之一。例如，一些研究者（Han et al.,2019）使用隨機(jī)森林方法得到了對(duì)問(wèn)題解決結(jié)果具有重要預(yù)測(cè)作用的過(guò)程特征。另一些研究者（Scalise&Clarke-Midura,2018）將傳統(tǒng)的多維項(xiàng)目反應(yīng)理論和貝葉斯方法結(jié)合起來(lái)同時(shí)分析過(guò)程指標(biāo)和結(jié)果數(shù)據(jù)，更加科學(xué)和準(zhǔn)確地評(píng)價(jià)學(xué)生的科學(xué)探究能力。還有一些研究者（Baker et al.,2016）使用沉浸式虛擬環(huán)境（虛擬表現(xiàn)評(píng)價(jià)）下的過(guò)程數(shù)據(jù)構(gòu)建了一個(gè)科學(xué)探究模型以預(yù)測(cè)學(xué)生是否能夠成功開展科學(xué)探究。

三是基于混合模型構(gòu)建影響科學(xué)探究過(guò)程的教育教學(xué)模型。一方面科學(xué)探究過(guò)程的分類成為研究主題之一。例如，研究者將控制變量策略的使用水平分為完全沒(méi)有使用控制變量策略、部分使用控制變量策略和完全使用控制變量策略，并使用潛類別模型把學(xué)生分為熟練的探索者、中級(jí)探索者、低表現(xiàn)探索者、快速學(xué)習(xí)者、新興探索者和不持久的探索者（Greiff et al.,2018）。另一方面，基于背景數(shù)據(jù)融入教育教學(xué)變量研究影響科學(xué)探究過(guò)程發(fā)展的教育教學(xué)機(jī)制。例如，研究者基于PISA2015年計(jì)算機(jī)模擬測(cè)試中的科學(xué)探究過(guò)程數(shù)據(jù)，使用科學(xué)探究策略、科學(xué)探究的探索行為、學(xué)生花在每個(gè)任務(wù)上的時(shí)間以及任務(wù)作答的準(zhǔn)確性四類過(guò)程和結(jié)果指標(biāo)，將所有學(xué)生分為策略型、處于發(fā)展初期型和未卷入型三種，并使用人口學(xué)特征變量（性別、社會(huì)經(jīng)濟(jì)地位、家庭使用的語(yǔ)言）和態(tài)度變量（學(xué)生對(duì)科學(xué)的喜愛、自我效能和考試焦慮）對(duì)學(xué)生的科學(xué)探究過(guò)程類別進(jìn)行預(yù)測(cè)，獲得了有關(guān)科學(xué)探究過(guò)程形成的教育教學(xué)模型（Teig et al.,2020）。

（三）構(gòu)建與課程、教學(xué)和學(xué)習(xí)深度融合的新型評(píng)價(jià)生態(tài)系統(tǒng)

評(píng)價(jià)是教育系統(tǒng)的組成部分之一。使用計(jì)算機(jī)模擬測(cè)試方法構(gòu)建新型評(píng)價(jià)生態(tài)系統(tǒng)，加強(qiáng)評(píng)價(jià)與課程、教學(xué)和學(xué)習(xí)的深度融合，從而促進(jìn)學(xué)生的個(gè)性化學(xué)習(xí)，這是計(jì)算機(jī)模擬測(cè)試方法的重要價(jià)值和功能。當(dāng)前，評(píng)價(jià)與課程、教學(xué)以及學(xué)習(xí)深度融合通常有兩種主要路徑，即大規(guī)?？茖W(xué)教育評(píng)價(jià)和嵌入式課堂評(píng)價(jià)（見圖3），它們分別代表終結(jié)性評(píng)價(jià)和形成性評(píng)價(jià)。核心素養(yǎng)、課程標(biāo)準(zhǔn)和過(guò)程數(shù)據(jù)挖掘是增強(qiáng)終結(jié)性評(píng)價(jià)和形成性評(píng)價(jià)的重要支柱，從而有效支持復(fù)雜科學(xué)知識(shí)和科學(xué)探究技能的個(gè)性化學(xué)習(xí)。

圖3 計(jì)算機(jī)模擬測(cè)試方法與課程、教學(xué)以及學(xué)習(xí)深度融合的兩種主要路徑

一方面，依據(jù)核心素養(yǎng)和國(guó)家課程標(biāo)準(zhǔn)制定科學(xué)探究能力的評(píng)價(jià)指標(biāo)，并在大規(guī)?？茖W(xué)教育評(píng)價(jià)中采用計(jì)算機(jī)模擬測(cè)試方法是促進(jìn)課程和教學(xué)改革的重要抓手?？茖W(xué)探究是科學(xué)學(xué)科的核心特色，科學(xué)家主要使用科學(xué)實(shí)踐的方式解決復(fù)雜的現(xiàn)實(shí)問(wèn)題。因此，促進(jìn)學(xué)生像科學(xué)家一樣通過(guò)科學(xué)實(shí)踐思考和解決問(wèn)題也是當(dāng)代科學(xué)課程的重要目標(biāo)。經(jīng)合組織認(rèn)為學(xué)生有必要理解科學(xué)研究的特性并將其遷移到現(xiàn)實(shí)世界的真實(shí)情境中以解決問(wèn)題（OECD,1999）。改革評(píng)價(jià)方法從而有效評(píng)價(jià)學(xué)生在真實(shí)情境中開展科學(xué)探究的能力是PISA測(cè)試的價(jià)值追求。經(jīng)過(guò)多年的不斷發(fā)展，經(jīng)合組織提出了以科學(xué)探究為中心的評(píng)價(jià)標(biāo)準(zhǔn)：科學(xué)地解釋現(xiàn)象、評(píng)價(jià)和設(shè)計(jì)科學(xué)探究以及科學(xué)地解釋數(shù)據(jù)和證據(jù)，而且將計(jì)算機(jī)模擬測(cè)試方法作為當(dāng)前的主要評(píng)價(jià)方法（OECD,2010,2017）。例如，在2015年經(jīng)合組織公布的試題中，PISA測(cè)試的情境材料不僅包括簡(jiǎn)短的文本以及文本和表格、圖形的組合，還有動(dòng)畫和模擬類的動(dòng)態(tài)刺激材料，在動(dòng)態(tài)的科學(xué)探究過(guò)程中評(píng)價(jià)學(xué)生的科學(xué)探究能力。2019年，美國(guó)的NAEP測(cè)試以國(guó)家課程標(biāo)準(zhǔn)、科學(xué)素養(yǎng)基準(zhǔn)、國(guó)際測(cè)試框架以及各州課程標(biāo)準(zhǔn)為共同基礎(chǔ)提出了科學(xué)素養(yǎng)測(cè)試框架，其中使用科學(xué)探究的四項(xiàng)測(cè)試標(biāo)準(zhǔn)包括：①設(shè)計(jì)或評(píng)價(jià)科學(xué)調(diào)查；②使用合適的工具和技術(shù)開展科學(xué)調(diào)查；③識(shí)別數(shù)據(jù)的模式與/或?qū)?shù)據(jù)模式和理論模型聯(lián)系起來(lái)；④使用經(jīng)驗(yàn)證據(jù)驗(yàn)證或批判解釋和預(yù)測(cè)的結(jié)論（Perdue et al.,2019）。為了全面和準(zhǔn)確評(píng)價(jià)學(xué)生使用科學(xué)探究的能力，NAEP還從正式測(cè)試樣本中抽取部分樣本獨(dú)立進(jìn)行動(dòng)手表現(xiàn)或計(jì)算機(jī)交互任務(wù)測(cè)試。綜上所述，使用計(jì)算機(jī)模擬測(cè)試方法全面和準(zhǔn)確地評(píng)價(jià)學(xué)生的科學(xué)探究能力，深入了解學(xué)生在界定研究問(wèn)題、制訂數(shù)據(jù)收集計(jì)劃、執(zhí)行計(jì)劃以及應(yīng)對(duì)不可預(yù)知的挑戰(zhàn)等方面的高階能力，是有效增強(qiáng)評(píng)價(jià)與課程和教學(xué)的深度融合的關(guān)鍵過(guò)程和方法。

另一方面，以虛擬科學(xué)探究學(xué)習(xí)環(huán)境為主體，嵌入計(jì)算機(jī)模擬測(cè)試工具和過(guò)程數(shù)據(jù)分析方法，構(gòu)建“歸納分析+實(shí)時(shí)反饋+輔導(dǎo)幫助”的新型課堂評(píng)價(jià)系統(tǒng)是促進(jìn)個(gè)性化學(xué)習(xí)的主要表征。美國(guó)West-ED、哈佛大學(xué)、科羅拉多大學(xué)博爾德分校等機(jī)構(gòu)以國(guó)家課程標(biāo)準(zhǔn)為基準(zhǔn)，開發(fā)了模擬科學(xué)家、虛擬表現(xiàn)評(píng)價(jià)（virtual performance assessment）以及PhET模擬等科學(xué)探究學(xué)習(xí)和評(píng)價(jià)系統(tǒng)，均以計(jì)算機(jī)模擬測(cè)試為其理論基礎(chǔ)。例如，“模擬科學(xué)家”項(xiàng)目開發(fā)了一組符合國(guó)家和州科學(xué)課程標(biāo)準(zhǔn)的科學(xué)探究模擬學(xué)習(xí)環(huán)境，其中嵌有形成性和終結(jié)性評(píng)價(jià)系統(tǒng)。學(xué)生可以開展科學(xué)觀察、科學(xué)實(shí)驗(yàn)、數(shù)據(jù)解釋和科學(xué)預(yù)測(cè)活動(dòng)，形成性評(píng)價(jià)系統(tǒng)可以實(shí)時(shí)歸納分析學(xué)生的錯(cuò)誤類型并提供反饋提示和輔導(dǎo)，從而幫助其矯正錯(cuò)誤概念或前概念。學(xué)習(xí)管理系統(tǒng)還會(huì)呈現(xiàn)學(xué)生學(xué)習(xí)進(jìn)展情況，指出每位學(xué)生在每項(xiàng)知識(shí)內(nèi)容和科學(xué)探究學(xué)習(xí)目標(biāo)上是表現(xiàn)較好、正在進(jìn)步還是需要幫助。單元學(xué)習(xí)結(jié)束之后，學(xué)生還會(huì)進(jìn)入終結(jié)性評(píng)價(jià)系統(tǒng)，將所學(xué)知識(shí)和技能遷移到新情境下應(yīng)用，系統(tǒng)以基礎(chǔ)以下、基礎(chǔ)水平、成熟和高級(jí)劃分學(xué)生的能力水平，并為教師和學(xué)生提供能力反饋報(bào)告（Quellmalz et al.,2020）。為了促進(jìn)個(gè)性化學(xué)習(xí)，研究者還使用科學(xué)探究過(guò)程的高級(jí)分析技術(shù)進(jìn)行學(xué)習(xí)分析。例如，研究者使用文本回放標(biāo)簽法、序列模式挖掘法對(duì)復(fù)雜的科學(xué)探究過(guò)程進(jìn)行自動(dòng)化評(píng)分；使用自然語(yǔ)言處理技術(shù)對(duì)科學(xué)解釋進(jìn)行自動(dòng)評(píng)分并預(yù)測(cè)學(xué)生的科學(xué)探究能力?？茖W(xué)探究能力自動(dòng)化評(píng)分可以為學(xué)生實(shí)時(shí)提供自適應(yīng)的、個(gè)性化的反饋和支架從而提升學(xué)生的科學(xué)探究能力（Li et al.,2018）。

三、新時(shí)期科學(xué)探究能力評(píng)價(jià)：構(gòu)建思路與應(yīng)用途徑

計(jì)算機(jī)模擬測(cè)試是一種信息技術(shù)賦能的動(dòng)態(tài)評(píng)價(jià)方法，也是以教育測(cè)量、計(jì)算機(jī)技術(shù)、科學(xué)教育和大數(shù)據(jù)為基礎(chǔ)形成的交叉研究領(lǐng)域，還是一種與課程、教學(xué)和學(xué)習(xí)深度融合的新型評(píng)價(jià)生態(tài)系統(tǒng)。計(jì)算機(jī)模擬測(cè)試方法可以為教育教學(xué)決策提供科學(xué)、全面、可靠、有效和實(shí)時(shí)的評(píng)價(jià)依據(jù)，顯著改進(jìn)了結(jié)果評(píng)價(jià)并強(qiáng)化了過(guò)程評(píng)價(jià)。計(jì)算機(jī)模擬測(cè)試方法在我國(guó)雖被廣泛關(guān)注和初步研究，但還沒(méi)有實(shí)際應(yīng)用。鑒于其意義和價(jià)值，討論計(jì)算機(jī)模擬測(cè)試工具的構(gòu)建思路，對(duì)于著力改進(jìn)課堂評(píng)價(jià)與科學(xué)學(xué)科國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)具有啟示意義。

（一）構(gòu)建計(jì)算機(jī)模擬測(cè)試工具的理論思考

我國(guó)目前有關(guān)計(jì)算機(jī)模擬測(cè)試方法的研究主要是介紹國(guó)際上使用的測(cè)試工具及其開發(fā)的概念框架——證據(jù)中心設(shè)計(jì)（李菲茗等,2020）。由于計(jì)算機(jī)模擬測(cè)試方法具有學(xué)科交叉、形態(tài)多樣和測(cè)試工具構(gòu)建復(fù)雜等特點(diǎn)，在開發(fā)測(cè)試工具的過(guò)程中除了要遵循標(biāo)準(zhǔn)的流程和規(guī)范，還要正確處理設(shè)計(jì)、開發(fā)和解釋的關(guān)鍵理論問(wèn)題，作好各種評(píng)價(jià)和推論決策。

一是正確認(rèn)識(shí)信息技術(shù)和科學(xué)探究能力評(píng)價(jià)之間的主次關(guān)系。計(jì)算機(jī)模擬測(cè)試方法的本質(zhì)特征是“信息技術(shù)+科學(xué)探究能力評(píng)價(jià)”，這一交叉學(xué)科的核心問(wèn)題是使用信息技術(shù)解決科學(xué)探究能力評(píng)價(jià)的科學(xué)性、準(zhǔn)確性和有效性問(wèn)題。因此，開發(fā)測(cè)試工具時(shí)應(yīng)該以科學(xué)探究能力為中心進(jìn)行設(shè)計(jì)和解釋，否則就不能構(gòu)成具有實(shí)質(zhì)意義的評(píng)價(jià)問(wèn)題，導(dǎo)致測(cè)試工具難以用于實(shí)際的教學(xué)實(shí)踐活動(dòng)，不能提供有效的教育教學(xué)建議。加強(qiáng)科學(xué)探究能力的中心地位可以從三個(gè)方面著力。首先，通過(guò)對(duì)科學(xué)探究能力進(jìn)行操作性定義來(lái)構(gòu)建精細(xì)的測(cè)評(píng)維度。科學(xué)探究能力是復(fù)雜、多維和綜合性的，通過(guò)領(lǐng)域分析和領(lǐng)域建模清晰定義科學(xué)探究活動(dòng)必需的知識(shí)、技能和能力是開發(fā)測(cè)試工具的首要步驟。例如，一些研究者關(guān)注科學(xué)探究作為一種問(wèn)題解決過(guò)程——形成假設(shè)、設(shè)計(jì)和開展調(diào)查、解釋數(shù)據(jù)和交流結(jié)果（Gobert et al.,2013），另一些研究者則關(guān)注科學(xué)探究作為一種合作解決問(wèn)題的過(guò)程——分享資源/觀點(diǎn)，協(xié)商觀點(diǎn)，調(diào)節(jié)問(wèn)題解決活動(dòng)并保持積極溝通（von Davier et al.,2017）。其次，明確測(cè)評(píng)維度的外部可觀測(cè)行為證據(jù)以開發(fā)科學(xué)探究任務(wù)來(lái)收集有效數(shù)據(jù)。例如，研究者將合作科學(xué)探究能力具體化為33種可觀測(cè)行為，精細(xì)指導(dǎo)科學(xué)探究任務(wù)設(shè)計(jì)和開發(fā)（von Davier et al.,2017）。在真實(shí)情境中，科學(xué)探究任務(wù)的復(fù)雜性使得解決問(wèn)題需要綜合運(yùn)用多種科學(xué)知識(shí)、技能和能力，測(cè)評(píng)維度與外部可觀測(cè)行為證據(jù)之間的映射關(guān)系不僅可以加強(qiáng)科學(xué)探究任務(wù)設(shè)計(jì)的目標(biāo)性、精準(zhǔn)性，不致毫無(wú)目的地在計(jì)算機(jī)模擬和游戲中增加復(fù)雜的刺激特征（Behrens,2009），而且可以構(gòu)建準(zhǔn)確的測(cè)量模型以推論學(xué)生的科學(xué)探究能力。最后，使用精細(xì)的測(cè)評(píng)維度可以指導(dǎo)過(guò)程數(shù)據(jù)的采集標(biāo)準(zhǔn)、解釋機(jī)制和應(yīng)用規(guī)則構(gòu)建。過(guò)程數(shù)據(jù)是學(xué)生完成科學(xué)探究任務(wù)的內(nèi)在心理過(guò)程寫照和能力推論的直接證據(jù)。測(cè)評(píng)維度與過(guò)程數(shù)據(jù)之間的映射關(guān)系可以加強(qiáng)理論驅(qū)動(dòng)的過(guò)程數(shù)據(jù)采集、過(guò)程指標(biāo)提取和合適測(cè)量模型的選擇。

二是根據(jù)應(yīng)用場(chǎng)景和評(píng)價(jià)目標(biāo)選擇合適的計(jì)算機(jī)模擬測(cè)試類型?？茖W(xué)現(xiàn)象的模擬、虛擬實(shí)驗(yàn)室和多用戶虛擬環(huán)境在情境真實(shí)程度、探究任務(wù)復(fù)雜程度、學(xué)生沉浸體驗(yàn)和應(yīng)用場(chǎng)景上有著顯著差異，在實(shí)踐應(yīng)用中選擇合適的計(jì)算機(jī)模擬測(cè)試類型非常重要。當(dāng)前，鑒于科學(xué)課程改革的內(nèi)在要求，課堂評(píng)價(jià)和大規(guī)模科學(xué)教育評(píng)價(jià)都有創(chuàng)設(shè)虛擬情境和復(fù)雜科學(xué)探究任務(wù)的需求，使得多用戶虛擬環(huán)境成為迫切的現(xiàn)實(shí)訴求。然而，由于評(píng)價(jià)目標(biāo)、技術(shù)條件和現(xiàn)實(shí)問(wèn)題的約束，多用戶虛擬環(huán)境并不適用于大規(guī)模高利害相關(guān)的科學(xué)教育評(píng)價(jià)。例如，多用戶虛擬環(huán)境由于本身的高度開放性和自主性，導(dǎo)致在有限的測(cè)試時(shí)間內(nèi)無(wú)法使用大量的題目，因此難以滿足知識(shí)、技能和能力要有足夠代表性和覆蓋面這一要求。總的來(lái)看，國(guó)際科學(xué)教育評(píng)價(jià)項(xiàng)目主要使用科學(xué)現(xiàn)象模擬和虛擬實(shí)驗(yàn)室（OECD,2010,2017;Perdue et al.,2019）。多用戶虛擬環(huán)境更適合在課堂學(xué)習(xí)和評(píng)價(jià)中廣泛使用，真實(shí)且復(fù)雜的情境和任務(wù)、自主的探索空間以及沉浸式的體驗(yàn)都有利于增強(qiáng)評(píng)價(jià)與課程、教學(xué)和學(xué)習(xí)的深度融合。

三是選擇合適的統(tǒng)計(jì)模型綜合多源證據(jù)以推論學(xué)生的科學(xué)探究能力。傳統(tǒng)測(cè)試方法只能采集高度結(jié)構(gòu)化的結(jié)果數(shù)據(jù)，借助傳統(tǒng)的經(jīng)典測(cè)驗(yàn)理論和項(xiàng)目反應(yīng)理論即可準(zhǔn)確分析這種單一類型的數(shù)據(jù)。然而，科學(xué)探究過(guò)程數(shù)據(jù)作為科學(xué)探究能力的直接證據(jù)，無(wú)法借由傳統(tǒng)的教育測(cè)量模型進(jìn)行分析。過(guò)程數(shù)據(jù)是無(wú)結(jié)構(gòu)的大數(shù)據(jù)，分析時(shí)不僅需要拓展傳統(tǒng)的教育測(cè)量模型，還要開發(fā)機(jī)器學(xué)習(xí)模型。例如，有研究者將傳統(tǒng)的多維項(xiàng)目反應(yīng)理論模型和貝葉斯網(wǎng)絡(luò)結(jié)合，提出了混合模型mIRT-Bayes，用于分析虛擬表現(xiàn)評(píng)價(jià)中的結(jié)果數(shù)據(jù)和過(guò)程數(shù)據(jù)。經(jīng)過(guò)改進(jìn)的測(cè)量模型可以提高科學(xué)探究能力估計(jì)的信度（Scalise&Clarke-Midura,2018）。還有研究者提出了新的貝葉斯網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)和知識(shí)追蹤模型，用以分析科學(xué)探究過(guò)程數(shù)據(jù)（Quellmalz et al.,2009）。

（二）改進(jìn)課堂評(píng)價(jià)與科學(xué)學(xué)科國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)

從有關(guān)課堂教學(xué)和評(píng)價(jià)改革政策的新變化可見，當(dāng)前使用人工智能、大數(shù)據(jù)等現(xiàn)代信息技術(shù)創(chuàng)新評(píng)價(jià)工具成為我國(guó)教育改革中的重要實(shí)踐需求（教育部,2019,2021;中共中央等,2019,2020）。借鑒國(guó)際上計(jì)算機(jī)模擬測(cè)試方法的實(shí)踐進(jìn)展，可以著力構(gòu)建評(píng)價(jià)與課程、教學(xué)和學(xué)習(xí)深度融合，結(jié)果數(shù)據(jù)和過(guò)程數(shù)據(jù)深度融合，以及各種不同學(xué)科領(lǐng)域深度融合的新型科學(xué)探究能力評(píng)價(jià)生態(tài)系統(tǒng)，從而改進(jìn)課堂評(píng)價(jià)與科學(xué)學(xué)科國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)。

一是借鑒國(guó)際科學(xué)教育評(píng)價(jià)項(xiàng)目的成熟經(jīng)驗(yàn)改進(jìn)科學(xué)學(xué)科國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)。總的來(lái)看，國(guó)際科學(xué)教育評(píng)價(jià)項(xiàng)目的計(jì)算機(jī)模擬測(cè)試方法經(jīng)歷了兩個(gè)發(fā)展階段。第一階段為早期探索和理論研究階段（2006—2009年），目標(biāo)是檢驗(yàn)大規(guī)模實(shí)施計(jì)算機(jī)模擬測(cè)試方法的可行性，并系統(tǒng)研究測(cè)試工具的信度、效度和測(cè)量等價(jià)性等理論問(wèn)題。PISA測(cè)試項(xiàng)目是其中的先行者，早在2006年就開展相關(guān)試驗(yàn)和研究（OECD,2010）。美國(guó)各州和全國(guó)的測(cè)試項(xiàng)目也在探索使用計(jì)算機(jī)模擬測(cè)試方法（Quellmalz&Pellegrino,2009）。2009年，修訂之后的美國(guó)NAEP科學(xué)素養(yǎng)測(cè)試框架提出使用計(jì)算機(jī)交互任務(wù)評(píng)價(jià)學(xué)生開展探究和調(diào)查的技能（Winick et al.,2008）。第二階段為測(cè)試工具的實(shí)踐應(yīng)用和升級(jí)階段（2010年至今）。例如，2015年，OECD正式使用計(jì)算機(jī)模擬測(cè)試方法評(píng)價(jià)學(xué)生的科學(xué)素養(yǎng)。還有一些研究者使用更加復(fù)雜的虛擬表現(xiàn)評(píng)價(jià)測(cè)量美國(guó)各州和國(guó)家科學(xué)教育課程標(biāo)準(zhǔn)所要求的科學(xué)探究過(guò)程（Clarke-Midura et al.,2011）。目前，計(jì)算機(jī)模擬測(cè)試工具的價(jià)值得到了普遍認(rèn)可。例如，拓展了可以調(diào)查的科學(xué)現(xiàn)象范圍（如展現(xiàn)過(guò)慢/過(guò)快、肉眼不可見的危險(xiǎn)的科學(xué)現(xiàn)象）（OECD,2010）；測(cè)試題型更加豐富，信息技術(shù)可以創(chuàng)生出各種信息技術(shù)增強(qiáng)題型（如使用下拉菜單進(jìn)行選擇、選擇地圖中的某個(gè)地點(diǎn)、使用鼠標(biāo)拖放進(jìn)行排序）。計(jì)算機(jī)模擬測(cè)試方法在大規(guī)模教育評(píng)價(jià)中的應(yīng)用分為兩種典型的路徑模式：“靜態(tài)單元+動(dòng)態(tài)單元+全部樣本”（PISA測(cè)試模式）和“動(dòng)手操作任務(wù)+計(jì)算機(jī)交互任務(wù)+部分學(xué)生樣本”（NAEP測(cè)試模式）。結(jié)合計(jì)算機(jī)模擬測(cè)試工具開發(fā)的難度、學(xué)生的接受程度以及計(jì)算機(jī)和網(wǎng)絡(luò)硬件的普及程度等各種情況，我國(guó)現(xiàn)階段改進(jìn)科學(xué)學(xué)科國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)可以NAEP測(cè)試模式為主，獨(dú)立實(shí)施計(jì)算機(jī)模擬測(cè)試并報(bào)告結(jié)果，逐步構(gòu)建深度融合的新型教育評(píng)價(jià)生態(tài)系統(tǒng)。

二是結(jié)合中共中央和國(guó)務(wù)院的政策要求，使用計(jì)算機(jī)模擬測(cè)試方法加強(qiáng)評(píng)價(jià)與課堂學(xué)習(xí)的深度融合。2019年6月，中共中央、國(guó)務(wù)院提出精準(zhǔn)分析學(xué)情、差異化教學(xué)和個(gè)別化指導(dǎo)的教學(xué)改革方向（中共中央等,2019）。隨著我國(guó)信息技術(shù)支撐的科學(xué)探究學(xué)習(xí)環(huán)境的發(fā)展成熟，將計(jì)算機(jī)模擬測(cè)試工具嵌入其中即可構(gòu)建課程、教學(xué)、學(xué)習(xí)和評(píng)價(jià)深度融合的學(xué)習(xí)和評(píng)價(jià)系統(tǒng)。通過(guò)構(gòu)建“歸納分析+實(shí)時(shí)反饋+輔導(dǎo)幫助”的學(xué)習(xí)診斷和干預(yù)路徑，充分結(jié)合高級(jí)教育數(shù)據(jù)挖掘方法還可更加高效地開展差異化教學(xué)和個(gè)別化指導(dǎo)，從而加強(qiáng)和改進(jìn)科學(xué)探究和實(shí)驗(yàn)教學(xué)。

四、結(jié)語(yǔ)

使用計(jì)算機(jī)模擬測(cè)試方法評(píng)價(jià)學(xué)生的科學(xué)探究能力是新時(shí)期的理論趨勢(shì)和實(shí)踐進(jìn)展。當(dāng)前，雖然該研究領(lǐng)域還處于初級(jí)階段，國(guó)內(nèi)的相關(guān)研究較少，但是可以看到其對(duì)教育評(píng)價(jià)改革的重要價(jià)值。一方面，利用信息技術(shù)創(chuàng)建真實(shí)情境和探究任務(wù)可以改變教育評(píng)價(jià)的本質(zhì)并提升評(píng)價(jià)工具的結(jié)構(gòu)效度；另一方面，挖掘和使用大量過(guò)程數(shù)據(jù)可以強(qiáng)化過(guò)程評(píng)價(jià)和形成性評(píng)價(jià)。未來(lái)，持續(xù)的理論研究和實(shí)踐應(yīng)用對(duì)于加強(qiáng)和改進(jìn)計(jì)算機(jī)模擬測(cè)試方法至關(guān)重要。例如，在計(jì)算機(jī)模擬測(cè)試方法中加入更多的合作解決問(wèn)題、科學(xué)探究策略、虛擬現(xiàn)實(shí)情境等要素以促進(jìn)對(duì)更加復(fù)雜的科學(xué)探究過(guò)程和要素進(jìn)行評(píng)價(jià)；使用機(jī)器學(xué)習(xí)方法開展過(guò)程數(shù)據(jù)的深入研究；在科學(xué)探究學(xué)習(xí)系統(tǒng)中使用自動(dòng)評(píng)分技術(shù)實(shí)現(xiàn)學(xué)習(xí)和評(píng)價(jià)無(wú)縫銜接和整合。