基于Rasch模型的反直覺力學(xué)測(cè)試（CIDT）質(zhì)量評(píng)價(jià)及其對(duì)中國學(xué)生的適切性研究
——對(duì)733名高中生測(cè)試數(shù)據(jù)的分析

2022-07-14 07:16:44李拉拉鄧金祥李太華

考試研究 2022年4期

李拉拉鄧金祥李太華

物理學(xué)中有大量的概念、規(guī)律與學(xué)生的直覺相悖。當(dāng)新的物理概念與先前的認(rèn)知沖突時(shí)，學(xué)生常常難以接受[1]，因?yàn)樵跐撘庾R(shí)里他們更相信自己的直覺，而不是習(xí)得的物理概念與規(guī)律。反過來，一些反直覺的物理問題，也往往會(huì)挑戰(zhàn)學(xué)生潛在的錯(cuò)誤概念或思維定式[1]，促進(jìn)學(xué)生質(zhì)疑創(chuàng)新思維的發(fā)展。反直覺問題（counterintuitive problem）通常是指其答案或解決方案超出學(xué)生預(yù)期的問題[2]。這類問題看起來有一個(gè)顯而易見的答案，也稱常識(shí)性回答，但其正確答案卻與常識(shí)性回答相反[3]。有研究表明，利用反直覺物理問題能使學(xué)生形成認(rèn)知沖突并激發(fā)學(xué)習(xí)興趣[4]，有效考查學(xué)生的概念理解程度[5]，有助于開展問題解決與概念轉(zhuǎn)變等方面的研究。

我國《普通高中物理課程標(biāo)準(zhǔn)（2017年版）》強(qiáng)調(diào)教學(xué)要增強(qiáng)學(xué)生創(chuàng)造性地解決實(shí)際問題的能力。而實(shí)際情境中的物理問題大多具備反直覺特征，需要學(xué)生具備突破思維定勢(shì)，實(shí)現(xiàn)質(zhì)疑創(chuàng)新的意識(shí)和能力。因此，從提高學(xué)生物理概念與規(guī)律學(xué)習(xí)遷移能力、促進(jìn)實(shí)際問題解決能力提升的培養(yǎng)需求角度，開展反直覺問題的研究極具現(xiàn)實(shí)意義與實(shí)踐價(jià)值。Nuri Balta 等人在綜合了一系列相關(guān)研究成果的基礎(chǔ)上，開發(fā)了反直覺力學(xué)測(cè)試（Counterintuitive Dynamics Test，簡(jiǎn)稱CIDT）[2]，用于評(píng)估學(xué)生反直覺力學(xué)問題的解決能力，成為與國際上廣泛使用的力學(xué)概念測(cè)試（Force Concept Inventory，簡(jiǎn)稱FCI），用于開展力學(xué)概念測(cè)試與問題解決的教學(xué)和研究。作為一個(gè)新開發(fā)的量表，CIDT 的質(zhì)量如何，是否適切于中國學(xué)生，在國內(nèi)開展探索其教學(xué)與科研價(jià)值的研究工作之前，有必要對(duì)其進(jìn)行科學(xué)的檢驗(yàn)。

一、反直覺力學(xué)測(cè)試

反直覺力學(xué)測(cè)試（CIDT）與力學(xué)概念測(cè)試（FCI）類似，由30 道單項(xiàng)選擇題構(gòu)成，內(nèi)容涉及牛頓三大定律，如表1所示。

表1 CIDT中的力學(xué)概念分布

CIDT 將反直覺問題作為載體，考查學(xué)生的反直覺物理問題解決水平。以第24題為例，如圖1所示，學(xué)生通常會(huì)認(rèn)為t1=t2，因?yàn)橹庇X告訴他們，甲、乙兩種情況具有相同的光滑表面和粗糙表面，盡管順序不同，下落的時(shí)間應(yīng)該是一樣的。但實(shí)際上，前一半路程木塊從光滑表面下滑，相對(duì)于粗糙表面，在中間位置的速度更大；且由動(dòng)能定理可知，甲、乙兩種情況下木塊到底端時(shí)末速度相同，所以后一半路程，甲情況下的平均速度也大于乙。兩段時(shí)間相加可得t1＜t2，故選C。

圖1 反直覺力學(xué)測(cè)試（CIDT）第24題

二、研究設(shè)計(jì)

（一）研究對(duì)象

反直覺力學(xué)測(cè)試（CIDT）原為英文版，為了考察其質(zhì)量及對(duì)中國學(xué)生的適切性，本研究先對(duì)CIDT 進(jìn)行中文翻譯，并進(jìn)行小樣本測(cè)試，再根據(jù)學(xué)生的作答情況組織語言學(xué)專家與學(xué)科專家進(jìn)行語義修訂，最終得到CIDT 漢譯版。本測(cè)試采用CIDT 漢譯版，由專業(yè)人員在課堂上監(jiān)督完成，測(cè)試時(shí)間為40 分鐘，計(jì)分方法為獨(dú)立記分法，即每答對(duì)一題計(jì)1 分，答錯(cuò)計(jì)0分。

（二）被試

本研究選取四川境內(nèi)的四所高中進(jìn)行測(cè)試，包括瀘州市某重點(diǎn)私立學(xué)校、廣安市某重點(diǎn)公立學(xué)校、南充市某重點(diǎn)公立學(xué)校和一所普通公立學(xué)校。被試為已經(jīng)學(xué)習(xí)了牛頓三大定律的高中普通班學(xué)生，共計(jì)733人，其中高一347人、高二386人。

（三）研究工具

本研究采用單維Rasch模型評(píng)估CIDT漢譯版的質(zhì)量，并利用Winsteps4.4.6 軟件進(jìn)行分析，輸出結(jié)果包括整體質(zhì)量檢驗(yàn)、懷特圖、各項(xiàng)目擬合分析、氣泡圖等。

Rasch 模型最早是由丹麥數(shù)學(xué)家喬治·拉希（Georg Rasch）在項(xiàng)目反應(yīng)理論基礎(chǔ)上提出的用于測(cè)量被試潛在特質(zhì)的概率模型[6]。Rasch模型是一種理想化的數(shù)學(xué)模型，采用個(gè)體能力（Bn）、題目難度（Di）以及個(gè)體n 正確作答題目i 的概率（Pni）的數(shù)學(xué)函數(shù)來表示，表達(dá)式是：

圖2 Rasch模型數(shù)學(xué)關(guān)系函數(shù)圖像

被試是否能正確回答某一問題完全取決于被試的能力與題目難度之間的差異。當(dāng)被試能力與難度相當(dāng)時(shí)（Bn= Di），被試n 答對(duì)題目i 的概率為0.5；當(dāng)被試能力遠(yuǎn)低于項(xiàng)目難度時(shí)（Bn＜Di），被試答對(duì)題目的概率趨近于0；當(dāng)被試能力遠(yuǎn)大于項(xiàng)目難度時(shí)（Bn＞Di），被試答對(duì)題目的概率趨近于1。

Rasch 模型具有被試與題目共用標(biāo)尺、線性數(shù)據(jù)、參數(shù)分離等特點(diǎn)，所以與經(jīng)典測(cè)試?yán)碚撓啾?，更具?yōu)勢(shì)[7]。

三、研究結(jié)果

（一）測(cè)量工具整體質(zhì)量檢驗(yàn)

將實(shí)驗(yàn)測(cè)得的原始數(shù)據(jù)導(dǎo)入Winsteps4.4.6 軟件進(jìn)行整體質(zhì)量檢驗(yàn)，其中包括難度估計(jì)值（Measure）、項(xiàng) 目擬合（Infit 和Outfit）、信度（Reliability）以及分離度（Separation）等指標(biāo)，具體參數(shù)如圖3所示。

圖3 整體質(zhì)量檢驗(yàn)結(jié)果

Rasch 模型將項(xiàng)目難度均值設(shè)定為0。從圖3 可知，誤差（S.E）為0.09，低于0.4，趨近于理想值0。從擬合度指標(biāo)來看，Infit MNSQ 和Outfit MNSQ 分別為1.00 和1.03，Infit ZSTD 和Outfit ZSTD 分別為-0.4和-0.1，均在理想范圍內(nèi)，說明本次數(shù)據(jù)與Rasch 模型擬合程度較好。從分離度指標(biāo)來看，項(xiàng)目分離度是10.40，大于2，表示CIDT 漢譯版能較好地區(qū)分被試的能力。項(xiàng)目的信度為0.99，大于0.7，信度較高。從上述各項(xiàng)參數(shù)指標(biāo)可以看出測(cè)量工具整體質(zhì)量較好。

（二）學(xué)生能力與CIDT難度匹配情況檢驗(yàn)

Rasch模型通過對(duì)數(shù)轉(zhuǎn)換，將項(xiàng)目難度和被試能力標(biāo)定在同一把量尺上，生成項(xiàng)目-被試對(duì)應(yīng)圖，又稱懷特圖，如圖4所示。懷特圖中間的豎線為logit線性量尺，M（Mean）是均值，S（One Standard Error）指距離均值一個(gè)標(biāo)準(zhǔn)誤差，T（Two Standard Error）指距離均值兩個(gè)標(biāo)準(zhǔn)誤差。左側(cè)分布的是被試的能力水平，每一個(gè)“#”代表6 個(gè)被試，不足6 人用“·”表示。右側(cè)是CIDT漢譯版中30道題目的難度分布情況。從下往上看，被試的能力水平和試題難度均逐漸升高。

圖4 懷特圖

從圖4 可以看出，測(cè)試項(xiàng)目分布合理，不存在明顯的扎堆現(xiàn)象，項(xiàng)目難度分布較廣；被試呈現(xiàn)出中間多兩邊少的正態(tài)分布狀態(tài)；從被試與項(xiàng)目對(duì)應(yīng)來看，被試能力水平的均值M 略低于項(xiàng)目難度均值，比較接近，表明測(cè)試的整體難度適當(dāng)。被試的能力分布范圍約為4.6 個(gè)logit，試題的難度分布范圍約為4.1 個(gè)logit，大部分被試都有與之對(duì)應(yīng)的題目，所以CIDT 漢譯版的難度基本能涵蓋到全體被試的能力。

（三）單維性檢驗(yàn)

對(duì)Rasch 模型的分析需要符合單維性的基本假設(shè)，即測(cè)試項(xiàng)目?jī)H考查被試的一種能力或潛在特質(zhì)。通過圖5 所示的標(biāo)準(zhǔn)殘差對(duì)比圖，可以直觀地看出測(cè)試項(xiàng)目的單維性。圖中30 個(gè)大小寫字母分別對(duì)應(yīng)一個(gè)測(cè)試項(xiàng)目，橫坐標(biāo)表示項(xiàng)目的難度區(qū)間，縱坐標(biāo)表示該項(xiàng)目與其他能力或潛在特質(zhì)的相關(guān)系數(shù)。一般認(rèn)為因子載荷（Contrast Loading）在-0.4～0.4 之間表明該項(xiàng)目單維性較好。

圖5 標(biāo)準(zhǔn)殘差對(duì)比圖

從圖5 可以看出，項(xiàng)目A 和B 超出了理想范圍，說明這兩個(gè)項(xiàng)目可能受到了其他因素的影響，但其他項(xiàng)目均在可接受范圍內(nèi)，故從整體來看符合單維性假設(shè)，這表明CIDT 漢譯版能夠有效測(cè)試出被試解決反直覺力學(xué)問題的能力。

（四）各項(xiàng)目擬合情況分析

通過Rasch模型處理數(shù)據(jù)，不但能夠得到測(cè)量工具整體的質(zhì)量情況，還能得到每個(gè)項(xiàng)目的詳細(xì)信息。表2 反映了CIDT 漢譯版中30 個(gè)項(xiàng)目的擬合指標(biāo)統(tǒng)計(jì)情況，包括項(xiàng)目難度（Measure）、相關(guān)系數(shù)（PTEMEA）、未加權(quán)均方擬合統(tǒng)計(jì)量（Outfit MNSQ）、加權(quán)均方擬合統(tǒng)計(jì)量（Infit MNSQ）和標(biāo)準(zhǔn)化均方擬合統(tǒng)計(jì)量（ZSTD）等。

從表2 可知，30 個(gè)項(xiàng)目的難度范圍在-1.75～2.41logit 之間，跨度為4.16 個(gè)logit。誤差在0.08～0.13 之間，說明項(xiàng)目難度的估計(jì)值較為可靠。除了第3 題的Outfit MNSQ 為1.65 略大于1.5 外，其他各題的Infit MNSQ 和Outfit MNSQ 均在理想范圍內(nèi)，且趨于理想值1。大部分ZSTD 統(tǒng)計(jì)量的絕對(duì)值偏大，超出了理想范圍，是因?yàn)閆STD 值易受樣本容量影響。而本研究的樣本量較大，用Rasch模型進(jìn)行分析時(shí)，導(dǎo)致大部分被試和項(xiàng)目都顯著失配，因此這里的ZSTD 值不具有參考意義[8]。相關(guān)系數(shù)（PTMEA）在0～0.53范圍內(nèi)，且均為正值，表明各個(gè)項(xiàng)目與試卷的測(cè)量目標(biāo)相一致。綜合各項(xiàng)指標(biāo)來看，CIDT漢譯版中各項(xiàng)目與模型擬合度較好。

表2 各項(xiàng)目擬合情況統(tǒng)計(jì)表

（五）項(xiàng)目氣泡圖分析

圖6 是項(xiàng)目氣泡圖，它可以直觀地顯示各項(xiàng)目與模型的擬合程度以及測(cè)量誤差。橫坐標(biāo)為未加權(quán)均方擬合統(tǒng)計(jì)量（Outfit MNSQ），橫軸中的Overfit（＜0.50）表示的是數(shù)據(jù)的變異量小于Rasch 模型的預(yù)期，Underfit（＞1.50）代表的是數(shù)據(jù)的變異量大于Rasch模型的預(yù)期[9]；縱坐標(biāo)為項(xiàng)目難度估計(jì)值，從下往上難度逐漸增加。圖中每一個(gè)氣泡代表一個(gè)題目，氣泡的大小代表標(biāo)準(zhǔn)誤差的大小，氣泡越大則標(biāo)準(zhǔn)誤差越大，測(cè)量的誤差越大。

圖6 氣泡圖

由圖6 可見，第3 題難度最大，第22 題難度最小，且除第3 題外的所有試題的擬合度都落在可接受范圍內(nèi)。其中第3 題氣泡較大，說明其難度估計(jì)值的誤差較大。本氣泡圖所呈現(xiàn)的結(jié)果與表1 能相互印證（具體題目可參考附錄）。

四、結(jié)論與討論

本研究基于Rasch 模型，應(yīng)用Winsteps 軟件對(duì)CIDT 漢譯版進(jìn)行質(zhì)量檢驗(yàn)。通過對(duì)測(cè)量工具整體質(zhì)量參數(shù)、單維性、項(xiàng)目擬合、以及懷特圖和氣泡圖等指標(biāo)的分析，得到以下結(jié)論。

CIDT 漢譯版整體質(zhì)量較好。試題難度均值與被試的能力均值不相上下，所以試題的整體難度設(shè)置合理，而且難度分布比較均勻，能與不同水平的被試相匹配；試題的分離度較高，遠(yuǎn)超理想值，說明該試題能有效區(qū)分不同能力的被試；除第3 題的Outfit MNSQ 指標(biāo)超出理想范圍外，其余各項(xiàng)目的測(cè)試數(shù)據(jù)與模型擬合度較高，說明本研究中被試實(shí)際作答反應(yīng)與模型的預(yù)期結(jié)果一致。

CIDT 漢譯版能有效測(cè)量被試的反直覺力學(xué)問題解決能力?；赗asch模型的分析，需滿足單維性假設(shè)，即測(cè)試的項(xiàng)目?jī)H能測(cè)試出被試的一種能力或潛在特質(zhì)。從單維性檢驗(yàn)的情況來看，除了A、B 兩個(gè)項(xiàng)目（分別對(duì)應(yīng)第28題和第23題）以外，絕大多數(shù)題目都在理想范圍內(nèi)，較好地滿足單維性假設(shè)。

CIDT 漢譯版中個(gè)別題目有待進(jìn)一步觀察或優(yōu)化設(shè)計(jì)。第23、28 題的單維性指標(biāo)略超出理想范圍，說明這兩道題測(cè)量反直覺力學(xué)問題解決水平的有效性偏弱，在今后的測(cè)試中需要進(jìn)一步觀察；第3題的Outfit MNSQ 指標(biāo)超出理想范圍，說明第3 題的測(cè)試數(shù)據(jù)與模型欠擬合，其原因可能是部分低能力水平的學(xué)生正確回答了該題目，而部分高能力水平的學(xué)生錯(cuò)誤地回答了該題目。同時(shí)結(jié)合難度指標(biāo)來看，第3 題的難度最高，所以學(xué)生在作答該題時(shí)，猜測(cè)的成分比較大。在今后的研究中，對(duì)指標(biāo)異常的題目，不提倡直接刪除，應(yīng)該結(jié)合經(jīng)典測(cè)試?yán)碚摵蛯W(xué)科知識(shí)進(jìn)行判斷，再進(jìn)一步觀察或優(yōu)化。

綜上所述，本研究利用Rasch 模型對(duì)CIDT 漢譯版的質(zhì)量進(jìn)行了檢驗(yàn)，結(jié)果表明該量表適用于我國高中學(xué)生。然而在解決了CIDT 適切性的問題后，如何利用該量表考查我國學(xué)生反直覺問題解決水平的發(fā)展趨勢(shì)，及其內(nèi)在的認(rèn)知機(jī)制與差異等問題，則亟需深入研究。

基于Rasch模型的反直覺力學(xué)測(cè)試（CIDT）質(zhì)量評(píng)價(jià)及其對(duì)中國學(xué)生的適切性研究——對(duì)733名高中生測(cè)試數(shù)據(jù)的分析

一、反直覺力學(xué)測(cè)試

二、研究設(shè)計(jì)