摘" 要" "基于項(xiàng)目反應(yīng)理論的學(xué)業(yè)質(zhì)量監(jiān)測(cè)已成為當(dāng)今教育評(píng)價(jià)改革的有效手段和重要實(shí)施項(xiàng)目,為推動(dòng)區(qū)域監(jiān)測(cè)的有效實(shí)施,從大型學(xué)業(yè)質(zhì)量監(jiān)測(cè)的抽樣設(shè)計(jì)與等值數(shù)據(jù)分析入手,深入淺出地闡釋學(xué)業(yè)質(zhì)量監(jiān)測(cè)項(xiàng)目的完整技術(shù)框架,對(duì)學(xué)業(yè)質(zhì)量監(jiān)測(cè)的水平等級(jí)劃分及多維項(xiàng)目等值技術(shù)提出優(yōu)化建議,基于PISA測(cè)試定制軟件ConQuest的技術(shù)參數(shù)設(shè)置原理進(jìn)行數(shù)學(xué)闡釋。
關(guān)鍵詞" 義務(wù)教育;學(xué)業(yè)質(zhì)量監(jiān)測(cè);項(xiàng)目反應(yīng)理論;教育評(píng)價(jià);ConQuest量尺分?jǐn)?shù);等值技術(shù);等級(jí)劃分;PISA
中圖分類號(hào):G40-05" " 文獻(xiàn)標(biāo)識(shí)碼:B
文章編號(hào):1671-489X(2024)15-0-05
DOI:10.3969/j.issn.1671-489X.2024.15.127
0" 引言
對(duì)比分析歷年的國家和省級(jí)義務(wù)教育質(zhì)量監(jiān)測(cè)樣本縣結(jié)果報(bào)告發(fā)現(xiàn),大型學(xué)業(yè)質(zhì)量監(jiān)測(cè)基本采用相對(duì)一致的項(xiàng)目反應(yīng)理論(IRT)模型及技術(shù)參數(shù),呈現(xiàn)了當(dāng)前義務(wù)教育學(xué)業(yè)質(zhì)量監(jiān)測(cè)的主流測(cè)試技術(shù)。區(qū)域監(jiān)測(cè)作為義務(wù)教育質(zhì)量監(jiān)測(cè)體系的組成之一,已納入?yún)^(qū)域教育評(píng)價(jià)改革工作規(guī)劃。為推動(dòng)當(dāng)前區(qū)域?qū)W業(yè)質(zhì)量監(jiān)測(cè)科學(xué)發(fā)展工作,做好國家和省級(jí)義務(wù)教育質(zhì)量監(jiān)測(cè)結(jié)果運(yùn)用工作,本文對(duì)大型學(xué)業(yè)質(zhì)量監(jiān)測(cè)的抽樣設(shè)計(jì)和項(xiàng)目反應(yīng)理論應(yīng)用技術(shù)進(jìn)行分析闡釋,以期幫助一線中小學(xué)教育測(cè)量人員對(duì)學(xué)業(yè)質(zhì)量監(jiān)測(cè)技術(shù)有系統(tǒng)的了解和掌握。
1" 抽樣設(shè)計(jì)
鑒于義務(wù)教育階段學(xué)校和學(xué)生量大、面廣的特點(diǎn),以外顯分層變量進(jìn)行分層,采用分層不等概率抽樣的方式,按照抽樣設(shè)計(jì)效率概念公式將分階段抽樣樣本量折合為簡(jiǎn)單隨機(jī)抽樣樣本量,以此抽樣思想確定樣本縣抽樣學(xué)校數(shù)以及每個(gè)學(xué)校計(jì)劃抽樣學(xué)生數(shù)。通常分階段整群抽樣的設(shè)計(jì)效率依賴于群的規(guī)模大小和組內(nèi)相關(guān)系數(shù)的大小。
1.1" 抽樣原理
按照統(tǒng)計(jì)學(xué)定義,以抽樣的平均值方差作為抽樣方差,樣本均值對(duì)總體均值估計(jì)的精度可以通過均方誤差描述。根據(jù)樣本估計(jì)量事先給定的抽樣絕對(duì)誤差(一般設(shè)定在95%置信區(qū)間內(nèi),即對(duì)應(yīng)約2倍的樣本均值標(biāo)準(zhǔn)誤,抽樣誤差近似視為樣本均值誤差)計(jì)算有效樣本量,即簡(jiǎn)單隨機(jī)抽樣的樣本量。簡(jiǎn)單隨機(jī)抽樣的抽樣誤差(成數(shù)的抽樣平均誤差)公式為:
其中n*為有效樣本量,p為總體參數(shù)(如學(xué)業(yè)質(zhì)量監(jiān)測(cè)抽樣可理解為男女性別比率)。一般國測(cè)報(bào)告中省抽樣誤差控制在4%,可計(jì)算有效樣本不低于156人。
兩階段整群抽樣的有效樣本量是指從抽樣精度的角度,樣本均值的方差與簡(jiǎn)單隨機(jī)抽樣樣本均值方差相同時(shí),簡(jiǎn)單隨機(jī)樣本對(duì)應(yīng)的樣本量。按照設(shè)計(jì)效率的概念及定義公式,分階段整群抽樣的設(shè)計(jì)效率可采用如下公式計(jì)算:
deff=1+(n-1)p
根據(jù)deff的公式,實(shí)際樣本與有效樣本的關(guān)系可用下式表示:
nc=n*×[1+(n-1)p]
其中nc為兩階段整群抽樣的實(shí)際樣本量,n*為有效樣本量,n為每群中抽取的樣本數(shù)(通常n至少大于20),p為組內(nèi)相關(guān)系數(shù)。如總體參數(shù)p在樣本統(tǒng)計(jì)量95%的置信區(qū)間內(nèi),樣本估計(jì)量的絕對(duì)誤差不超過5%,樣本統(tǒng)計(jì)量近似服從標(biāo)準(zhǔn)正態(tài)分布,對(duì)應(yīng)的標(biāo)準(zhǔn)誤的2倍為5%,p取0.1,n=20,要滿足上述抽樣精度,第一階段需抽取58所學(xué)校,第二階段在抽到的學(xué)校中抽取20名學(xué)生。
1.2" 抽樣步驟
1.2.1" 分層
根據(jù)分層變量將樣本抽樣總體學(xué)校分層。
1.2.2" 分階段抽樣
第一階段,在每層內(nèi)采用PPS(概率與元素的規(guī)模大小成比例)的方法抽取學(xué)校(采用等距抽樣確定);第二階段,在抽取到的每個(gè)學(xué)校采用簡(jiǎn)單隨機(jī)抽樣的方法抽取學(xué)生(采用隨機(jī)數(shù)表)。
1.2.3" 設(shè)計(jì)權(quán)重
在抽樣調(diào)查中每個(gè)樣本單元(被試)不僅代表自己,而且代表研究總體中那些沒有被選入的樣本單元。進(jìn)行目標(biāo)變量的有效估計(jì)和推斷時(shí),需要把調(diào)查到的原始結(jié)果擴(kuò)大到能代表研究總體的情況,進(jìn)而得到總體參數(shù)的無偏估計(jì)。在多階段抽樣條件下,設(shè)計(jì)權(quán)重是每個(gè)單元在不同階段入樣概率倒數(shù)的乘積。
1)學(xué)校的設(shè)計(jì)權(quán)重(w11):
其中,Si為i層的所有學(xué)生數(shù),Sij為i層第j個(gè)樣本學(xué)校學(xué)生人數(shù),mi為i層抽到的學(xué)校個(gè)數(shù)。
2)學(xué)生的設(shè)計(jì)權(quán)重(w22):
其中,Sij為i層第j個(gè)樣本學(xué)校學(xué)生人數(shù),Sijk為i層第j個(gè)樣本學(xué)校計(jì)劃參加測(cè)試的學(xué)生人數(shù)。
每個(gè)樣本學(xué)生的設(shè)計(jì)權(quán)重是兩階段權(quán)重的乘積,即:
在計(jì)算樣本縣學(xué)業(yè)成績平均分時(shí)將樣本縣所屬的樣本學(xué)生成績?nèi)〖訖?quán)平均值可以得到樣本縣平均分,采用Fay平衡半樣本方法可計(jì)算樣本縣平均分的抽樣方差的估計(jì)值,即得到抽樣標(biāo)準(zhǔn)誤,以此評(píng)估樣本縣平均分的偏離程度。R語言軟件包survey的svrepdesign命令可以進(jìn)行平衡半樣本方法的方差估計(jì)。國際學(xué)生測(cè)評(píng)項(xiàng)目(PISA)采用KeyQuest軟件進(jìn)行抽樣設(shè)計(jì),被試權(quán)重由抽樣軟件生成。
2" 學(xué)業(yè)描述
國測(cè)和省測(cè)監(jiān)測(cè)學(xué)科結(jié)果報(bào)告一般采用兩種指標(biāo)描述學(xué)生學(xué)業(yè)成績:一是量尺分?jǐn)?shù),通常采取常模參照,如國家義務(wù)教育學(xué)業(yè)質(zhì)量監(jiān)測(cè)以每學(xué)科首次監(jiān)測(cè)平均分為常模;二是水平等級(jí),通常采取標(biāo)準(zhǔn)參照,如國家義務(wù)教育學(xué)業(yè)質(zhì)量監(jiān)測(cè)依據(jù)監(jiān)測(cè)學(xué)科的國家課程標(biāo)準(zhǔn),借助項(xiàng)目反應(yīng)理論劃分確定水平等級(jí)。
2.1" 量尺分?jǐn)?shù)
從2022年山東省首次義務(wù)教育學(xué)業(yè)質(zhì)量監(jiān)測(cè)樣本縣監(jiān)測(cè)結(jié)果報(bào)告分析可以看出,山東省監(jiān)測(cè)采用PISA和國家義務(wù)教育質(zhì)量監(jiān)測(cè)一致的測(cè)量技術(shù)模型程序進(jìn)行。山東省首次監(jiān)測(cè)的文化課學(xué)科有數(shù)學(xué)和科學(xué)(初中物理、生物、地理)兩門課程,量尺分?jǐn)?shù)分別呈現(xiàn)學(xué)生學(xué)科總成績及內(nèi)容維度、認(rèn)知維度、核心素養(yǎng)表現(xiàn)的各子維度成績。通過閱讀PISA的有關(guān)監(jiān)測(cè)結(jié)果數(shù)據(jù)發(fā)現(xiàn),PISA監(jiān)測(cè)同一年度的三門學(xué)科領(lǐng)域(閱讀、數(shù)學(xué)、科學(xué))采用IRT模型進(jìn)行學(xué)生能力成績的估計(jì),又由于同年度某學(xué)科測(cè)試并不是由一個(gè)題本完成,而是由多個(gè)題本完成,每個(gè)題本由不同的試題題塊構(gòu)成,即平衡不完全題塊設(shè)計(jì)(BIB),可采用同時(shí)估計(jì)或分別估計(jì)等化測(cè)量能力和試題參數(shù)。
2022年山東省義務(wù)教育質(zhì)量監(jiān)測(cè)在模型估計(jì)方程中設(shè)置全省參測(cè)樣本學(xué)生學(xué)科能力參數(shù)的平均值為0,同時(shí)采用補(bǔ)償性多維IRT模型,將同一學(xué)科按不同角度劃分的不同維度的各子維度能力值進(jìn)行估計(jì)(同樣設(shè)置各子維度的樣本均值為0),其中初中科學(xué)可劃分為物理、生物、地理三個(gè)不同的內(nèi)容子維度,采用項(xiàng)間多維形式將三科能力參數(shù)分三個(gè)子維度估計(jì)標(biāo)定,認(rèn)知維度和學(xué)科素養(yǎng)表現(xiàn)維度采用項(xiàng)內(nèi)多維形式估計(jì)標(biāo)定。將估計(jì)的服從標(biāo)準(zhǔn)正態(tài)分布的學(xué)科整體和子維度能力值統(tǒng)一轉(zhuǎn)換為平均分為500、標(biāo)準(zhǔn)差為100的量尺分?jǐn)?shù),國測(cè)初中科學(xué)內(nèi)容維度采取平均分為200、標(biāo)準(zhǔn)差為50的轉(zhuǎn)換參數(shù),其用意之一主要是體現(xiàn)初中科學(xué)為合考
科目。
2.2" 等值技術(shù)
大型學(xué)業(yè)質(zhì)量監(jiān)測(cè)項(xiàng)目在系統(tǒng)整體設(shè)計(jì)時(shí)均考慮了不同年度相同科目的等值,基于項(xiàng)目反應(yīng)理論的等值技術(shù)在學(xué)業(yè)質(zhì)量監(jiān)測(cè)中被廣泛采用。利用項(xiàng)目反應(yīng)理論,理論上對(duì)任意兩個(gè)不同的測(cè)驗(yàn)都可以進(jìn)行等值,但在實(shí)踐中,只有兩個(gè)測(cè)驗(yàn)檢測(cè)的是相同的潛在特質(zhì),潛在特質(zhì)的維度相同,并且有共同題或有些被試同時(shí)接受兩份測(cè)驗(yàn)即存在重疊測(cè)驗(yàn)資料,才能進(jìn)行有意義的等值分析。對(duì)兩個(gè)測(cè)驗(yàn)進(jìn)行等值的關(guān)鍵步驟是確定等值常數(shù)。確定等值常數(shù)的方法有很多,但是在實(shí)踐中用得最多的方法是特征線法(“HB”算法)。假設(shè)X測(cè)驗(yàn)和Y測(cè)驗(yàn),含有N個(gè)相同試題,這部分相同試題被稱為錨題。在等值過程中,需制定一個(gè)測(cè)驗(yàn)為基測(cè)驗(yàn),然后將另一個(gè)測(cè)量值標(biāo)定在基測(cè)驗(yàn)上,計(jì)算兩位具有相同能力值的被試在N個(gè)共同題的兩份測(cè)驗(yàn)的真分?jǐn)?shù)(真分?jǐn)?shù)為具備能力θ的被試在整個(gè)試卷各試題的特征曲線之和,即各題答對(duì)概率之和)。由于是共同題,將所有被試的真分?jǐn)?shù)差的平方和求極小值,得到兩個(gè)等值常數(shù)。將不同測(cè)驗(yàn)的項(xiàng)目參數(shù)和被試能力值標(biāo)定在同一能力量尺上,以便進(jìn)行有關(guān)等值比較[1]。
基于等值常數(shù)的確定,不同項(xiàng)目反應(yīng)理論測(cè)量
軟件對(duì)被試潛質(zhì)和項(xiàng)目參數(shù)的等值實(shí)現(xiàn)有著不同的
側(cè)重,如MULTILOG、R語言plink包等軟件采用項(xiàng)
目特征線原理的“HB”算法,能夠?qū)煞轀y(cè)驗(yàn)資料
合并估計(jì)為同一量尺的能力值和項(xiàng)目參數(shù),而
PISA測(cè)試定制軟件ConQuest不含等值軟件模塊,跨年度的等值通常采用“鏈接”等值方法實(shí)現(xiàn)。2015年之前,PISA的等值方法采用均值/方差法(MV),采取線性轉(zhuǎn)換的方式分別標(biāo)定以實(shí)現(xiàn)跨年度等值。因2015年之前PISA測(cè)試用的都是單參數(shù)模型(單參數(shù)模型區(qū)分度為1),經(jīng)典的等值轉(zhuǎn)換公式中的斜率等值常數(shù)為1,故等值常數(shù)只有一個(gè)截距值,也被稱為均值/均值(MM)法。PISA2015進(jìn)行跨年度等值時(shí),因換用兩參數(shù)模型,采用的是同時(shí)標(biāo)定法。
在大型學(xué)業(yè)質(zhì)量監(jiān)測(cè)中,對(duì)參測(cè)學(xué)生學(xué)科子維度的能力測(cè)試是非常必要和重要的數(shù)據(jù)處理環(huán)節(jié),通常采用多維IRT模型。多維IRT模型定義坐標(biāo)原點(diǎn)到項(xiàng)目正確反應(yīng)概率為0.5的等概率線的距離為項(xiàng)目難度的絕對(duì)值。多維項(xiàng)目難度參數(shù)定義為:bj=-dj/MDISCj
,其中,ajk為子維度區(qū)分度,dj為截距參數(shù),為試題難度[2]。
多維IRT模型在做等值分析時(shí)相對(duì)復(fù)雜些,需要將ConQuest估計(jì)的試題整體難度參數(shù)還原為多維項(xiàng)目截距參數(shù),根據(jù)多維項(xiàng)目難度參數(shù)定義公式得知試題難度參數(shù)只是將截距參數(shù)根據(jù)試題自身區(qū)分度向量的模進(jìn)行了縮放??梢越梃b單維IRT模型等值原理,多維IRT模型通過合適的轉(zhuǎn)換矩陣A和B,將不同測(cè)驗(yàn)的能力和試題參數(shù)等值到同一量尺上,從而實(shí)現(xiàn)多維結(jié)構(gòu)的等值。通常用于多維等值轉(zhuǎn)換的公式為:
其中、、表示新測(cè)驗(yàn)的能力參數(shù)向量、區(qū)分度參數(shù)向量和截距參數(shù),、、表示新測(cè)驗(yàn)等值到基測(cè)驗(yàn)上的能力參數(shù)向量、區(qū)分度參數(shù)向量和截距參數(shù)。
對(duì)于項(xiàng)目間多維可采用均值/均值法和均值/標(biāo)準(zhǔn)差(MS)法進(jìn)行等值,類似單維模型的等值算法,由兩個(gè)不同測(cè)驗(yàn)錨題參數(shù)的均值和方差計(jì)算等值常數(shù)矩陣(其中等值斜率矩陣A為對(duì)角矩陣),新測(cè)驗(yàn)各子維度的能力值根據(jù)等值常數(shù)矩陣標(biāo)定到基測(cè)驗(yàn)上,此等值方式簡(jiǎn)單。也可采用同時(shí)標(biāo)定法,將不同年度的樣本(含有足夠錨題)合并到一份測(cè)驗(yàn)中進(jìn)行同時(shí)標(biāo)定,采用類似單維標(biāo)定的方式,根據(jù)基測(cè)驗(yàn)的能力值與已有的量尺分?jǐn)?shù)估算轉(zhuǎn)換常數(shù),得到轉(zhuǎn)換線性方程,將新測(cè)驗(yàn)的能力值轉(zhuǎn)換到量尺分?jǐn)?shù)上,從而實(shí)現(xiàn)等值。此方法理論上誤差小。
對(duì)于國家義務(wù)教育質(zhì)量監(jiān)測(cè)的初中科學(xué)(測(cè)驗(yàn)題本含物理、生物、地理三個(gè)內(nèi)容維度試題)科目,可采用項(xiàng)目間三維模型實(shí)現(xiàn)與起始年度(2017年)的等值,采取MM或MS法進(jìn)行等值標(biāo)定。從2020年的樣本縣監(jiān)測(cè)報(bào)告推斷出目前國家義務(wù)教育質(zhì)量監(jiān)測(cè)的初中科學(xué)沒有考慮物理、生物、地理三科的跨年度等值。
2.3" 等級(jí)劃分
國家義務(wù)教育課程標(biāo)準(zhǔn)將學(xué)生學(xué)業(yè)水平劃分為I(不合格)、II(合格)、III(良好)、IV(優(yōu)秀)四個(gè)水平等級(jí),國家義務(wù)教育質(zhì)量監(jiān)測(cè)的學(xué)生學(xué)業(yè)等級(jí)描述內(nèi)容總體上由專家組初步制定和根據(jù)測(cè)試結(jié)果修改完善兩個(gè)階段組成,并和試題的設(shè)計(jì)與復(fù)查融合在一起,通常采用修正的安格夫法進(jìn)行等級(jí)臨界點(diǎn)的劃分。而PISA測(cè)試采用類似標(biāo)簽法進(jìn)行等級(jí)臨界點(diǎn)的劃分,基于精熟度劃分試題所屬的等級(jí)水平組,利用項(xiàng)目反應(yīng)理論將試題難度和學(xué)生的能力分布特征統(tǒng)一到同一個(gè)量尺上,從而實(shí)現(xiàn)學(xué)生的精熟度水平和試題難度在一個(gè)量尺上表征。參照試題難度參數(shù)與學(xué)生能力值的匹配性檢驗(yàn)——懷特圖,在此量尺上將測(cè)評(píng)題目從易到難排列、學(xué)生的能力從低到高分布;經(jīng)專家評(píng)議后在題冊(cè)中選擇某一個(gè)題目作為劃分等級(jí)的標(biāo)志參考。如PISA等級(jí)劃分以項(xiàng)目反應(yīng)理論為基礎(chǔ),借助預(yù)期成功率、水平寬度、反應(yīng)概率等關(guān)鍵變量的定義規(guī)則劃定等級(jí)臨界點(diǎn)。預(yù)期成功率、水平寬度、反應(yīng)概率的定義描述如下。
1)預(yù)期成功率指在均衡分布于同一等級(jí)水平組的試題組成的測(cè)試中,處于該水平的學(xué)生回答試題時(shí)被期望的正確率。PISA認(rèn)為預(yù)期成功率為至少正確完成該等級(jí)水平組50%的試題,在中間及偏上水平的學(xué)生可以達(dá)到更高的正確率。取預(yù)期成功率為50%的最低被試能力值為該水平層級(jí)的下限等級(jí)分界點(diǎn)。
2)水平寬度指各水平上下界之間的距離。不同水平應(yīng)該有大約基本相等的寬度,有時(shí)也不做此方面的硬性要求,如PISA科學(xué)素養(yǎng)測(cè)試中的水平寬度設(shè)置為0.8logits。最低水平下限的確定服從“最低水平的寬度與其他水平的寬度基本相同”的假定。
3)反應(yīng)概率指當(dāng)某試題難度值與學(xué)生能力值匹配時(shí),學(xué)生正確回答該試題的概率,即確定該層次水平中中等能力水平的學(xué)生正確解決該層次中平均難度試題的概率值。
在滿足預(yù)期成功率的基礎(chǔ)條件下,水平寬度(a)與該層級(jí)的學(xué)生反應(yīng)概率值(b)之間存在一定約束條件公式,基于此公式可計(jì)算水平寬度,劃分出上限等級(jí)分界點(diǎn)。水平寬度與該層級(jí)的學(xué)生反應(yīng)概率值的關(guān)系公式為:
在實(shí)際的等級(jí)劃分中為避免層級(jí)的區(qū)間重疊,可以根據(jù)預(yù)期成功率結(jié)合約束條件公式從優(yōu)先劃分最高等級(jí)的下限分界點(diǎn)開始,再以此劃分低等級(jí)的下限分界點(diǎn)。在應(yīng)用單維項(xiàng)目反應(yīng)理論對(duì)被試的整體學(xué)業(yè)水平等級(jí)劃分后,依據(jù)子維度能力向量合成疊加構(gòu)成整體能力值及個(gè)體從屬整體的基本思想,若整體能力為某一水平等級(jí),則各子維度也處于同一水平等級(jí)。考慮到多維項(xiàng)目反應(yīng)理論(包括題間多維和題內(nèi)多維)一般多采用補(bǔ)償模型,應(yīng)用多維模型進(jìn)行不同維度的子能力值和項(xiàng)目參數(shù)估計(jì)后,在整體能力層級(jí)上下限分界點(diǎn)劃定的區(qū)間內(nèi),對(duì)應(yīng)將各子能力值排序后確定各子能力的等級(jí)區(qū)間分
界點(diǎn)。
3" 軟件應(yīng)用
3.1" 參數(shù)估計(jì)
項(xiàng)目反應(yīng)理論的核心為試題參數(shù)和能力值的估計(jì),ConQuest軟件是PISA測(cè)試的定制分析軟件,前期版本以拉希創(chuàng)制的單參數(shù)邏輯斯蒂模型為基礎(chǔ)[3],采取聯(lián)合極大似然估計(jì)(JMLE)和邊際最大似然估計(jì)(MMLE)構(gòu)建模型方程進(jìn)行能力和試題參數(shù)估計(jì)。其中,聯(lián)合極大似然估計(jì)在參數(shù)估計(jì)Estimate語句中采用的方法為(method=jml);邊際最大似然估計(jì)在參數(shù)估計(jì)Estimate語句中采用的算法可分為邊界積分方法(method=quadrature)、蒙特卡羅方法(method=montecarlo)和高斯-厄米特積分(method=gauss)法,默認(rèn)的是高斯-厄米特積分法。聯(lián)合極大似然估計(jì)是對(duì)能力參數(shù)與試題參數(shù)同時(shí)估計(jì),邊際最大似然估計(jì)是通過作答向量的邊際似然函數(shù)估計(jì)試題參數(shù),在具體參數(shù)估計(jì)計(jì)算積分時(shí)可采用邊界積分、高斯積分和蒙特卡羅采樣積分法。
ConQuest軟件既可以估計(jì)試題參數(shù),也可以估計(jì)被試能力值,分別通過show parameters和show
cases語句實(shí)現(xiàn)。估計(jì)被試時(shí)由Estimates設(shè)定似
然方程估計(jì)能力參數(shù)格式類型,即由Estimates=
type語句設(shè)定,type可以是eap(貝葉斯法的期望估計(jì)值)、latent(似真值估計(jì))、mle(邊際似然估計(jì))、wle(加權(quán)似然估計(jì))和none,也可由plausible給出似真值文件,如plausible=mdim.pls,通常PISA采用5個(gè)不同的似真值描述被試能力值,同時(shí)PISA給出似真值的平均估計(jì)值。當(dāng)對(duì)試題參數(shù)進(jìn)行估計(jì)時(shí),默認(rèn)是使用似然值估計(jì),即latent。在PISA類測(cè)試中通常設(shè)置被試能力分布均值為0,以便于跨年度的比較,通過如下語句
完成:
Set constraints=cases;
通常在估計(jì)學(xué)科整體學(xué)業(yè)表現(xiàn)時(shí)采用單維模型,在估計(jì)各子維度能力時(shí)采用補(bǔ)償性多維項(xiàng)目模型。以某學(xué)校初中七年級(jí)科學(xué)年度學(xué)業(yè)考試為例(188名考生,地理、生物合考。其中地理29題,生物38題;地理為維度1,生物為維度2),采用單參數(shù)多維多級(jí)評(píng)分模型,ConQuest軟件代碼如下:
datafile msd.dat;
format id 1-8 response 10-76;
labels lt;lt;msd.txt;
codes 0,1,2;
key 1111111111111111111111111111111111111111111111111111111111111111111! “1”;
key xxxxxxxxxxxxxxxxxxxxxxxxx2222xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx222222" ! “2”;
score(0,1)(0,1) () !item(1,2,3,4,5,6,7);
score (0,1) (0,1) () !item(8,9,10,11,12,13,14,15,16,
17,18,19,20,21,22,23,24,25);
score (0,1,2)(0,1,2)() !item(26,27,
28,29);
score (0,1) () (0,1) !item(30,31,32,33,
34,35,36,37,38,39,40,41,42,43,44,45,46,
47,48);
score (0,1) () (0,1) !item(49,50,51,52,53,54,55,56,
57,58,59,60,61);
score(0,1,2)()(0,1,2) !item(62,63,64,
65,66,67);
model item + item* step;
Set constraint=cases, update=yes;
Estimate ! method=gauss;
itanal ! estimates=latent gt;gt;MSD.itn;
show cases!estimates=eap gt;gt;MSD.eap;
show cases ! estimate=mle gt;gt;MSD.mle;
show cases!estimates=latent gt;gt;MSD.pls;
show cases!estimates=wle gt;gt;MSD.wle;
show ! estimates=eapgt;gt;MSD.shw;
3.2" 適配度及項(xiàng)目差異檢驗(yàn)
3.2.1" 適配度檢驗(yàn)
ConQuest的模型適配度通常為試題適配度檢驗(yàn),即比較考生在試題上的實(shí)際表現(xiàn)與應(yīng)用IRT模型所估計(jì)出的預(yù)期表現(xiàn),通常習(xí)慣上把能力量尺分割成等距的10~15個(gè)區(qū)間,某個(gè)能力組別考生在某個(gè)試題作答正確的比例為實(shí)得百分比,即某個(gè)能力組內(nèi)的考生答對(duì)某試題的總數(shù)與該能力組的考生總?cè)藬?shù)之比。該能力組的期望百分比為以每一能力組別的組中點(diǎn)代表該組的能力值,以該值按照IRT模型計(jì)算在該題的正確反應(yīng)概率,將實(shí)得百分比與期望百分比之差作為原始?xì)埐?,將原始?xì)埐顦?biāo)準(zhǔn)化后轉(zhuǎn)換為標(biāo)準(zhǔn)化殘差,可構(gòu)建卡方檢驗(yàn),通常采用Q1指標(biāo)檢驗(yàn)?zāi)P瓦m配度。ConQuest軟件有兩種形式的卡方擬合指標(biāo):Outfit MNSQ(未加權(quán))和Infit MNSQ(加權(quán)后),兩項(xiàng)指標(biāo)均由殘差計(jì)算而來,一般取Outfit MNSQ指標(biāo),建議取0.5~1.5的范圍,表示該題對(duì)測(cè)量具有生產(chǎn)性。
3.2.2" 項(xiàng)目差異功能
不同測(cè)量都是由具體的項(xiàng)目試題構(gòu)成,具有不同文化背景和生活環(huán)境的被試由于對(duì)試題的熟悉程度、理解能力等方面不同,可能造成結(jié)果的不同,從而導(dǎo)致測(cè)量結(jié)果對(duì)一些群體的個(gè)體有利,對(duì)其他群體個(gè)體不利,即導(dǎo)致項(xiàng)目功能差異(DIF)現(xiàn)象。利用基于拉希模型的隨機(jī)系數(shù)多項(xiàng)式Logit模型可以獲取不同組別的DIF估計(jì)值,設(shè)用γ表示項(xiàng)目與有關(guān)因素變量的交互效應(yīng),即表示不同組別群體在試題難度上的差異。美國教育考試服務(wù)中心對(duì)DIF進(jìn)行了分類,把ConQuest軟件估計(jì)的DIF效應(yīng)量范圍劃定為:2γ<0.426為輕微DIF;0.426≤
2γ<0.638為中度DIF;2γ≥0.638為嚴(yán)重DIF。
ConQuest軟件的DIF檢定采用多面模型進(jìn)行DIF分析,此DIF分析原理為采取項(xiàng)目反應(yīng)理論取向的DIF鑒定法,通過計(jì)算兩個(gè)群體得到的兩條試題特性曲線之間的面積實(shí)現(xiàn)比較DIF。即不存在DIF時(shí),一道試題在兩個(gè)群體的試題特性曲線是重合的,所夾面積為0。根據(jù)任兩條試題特性曲線(ICC)之間所夾面積的通用計(jì)算公式,對(duì)于單參數(shù)模型在一定能力區(qū)間內(nèi)兩條曲線所夾面積為等量尺后目標(biāo)群體與參照群體的試題難度值差的絕對(duì)值。
現(xiàn)以八年級(jí)地理區(qū)域?qū)W業(yè)考試為例分析,ConQuest代碼為:
datafile dldif.dat;
format id 1-9 xb 10 response 11-39;
labels lt;lt;dldif.txt;
codes 0,1,2;
key 11111111111111111111111111111 ! “1”;
key xxxxxxxxxxxxxxxxxxxxxxxxx2222 ! “2”;
model item + item * step - xb + item * xb;
Set constraint=cases, update=yes;
Estimate ! stderr=full, method=gauss;
show !table=2gt;gt; dldif.shw;
其中,“model item + item* step - xb + item*
xb”語句中涉及項(xiàng)目和性別兩個(gè)方面,當(dāng)ConQuest傳遞數(shù)據(jù)時(shí),它將識(shí)別項(xiàng)目和性別變量的所有可能組合,并構(gòu)建58個(gè)通用項(xiàng)目(兩個(gè)個(gè)性別的29個(gè)試題)。模型聲明要求使用項(xiàng)目、性別主效應(yīng)以及項(xiàng)目和性別之間的交互效應(yīng)來描述對(duì)這些通用項(xiàng)目進(jìn)行正確響應(yīng)的概率,同時(shí)項(xiàng)目評(píng)估模型使用分部模型。
4" 結(jié)束語
總之,以PISA測(cè)試技術(shù)為代表的大型學(xué)業(yè)質(zhì)量
監(jiān)測(cè)項(xiàng)目,技術(shù)細(xì)節(jié)內(nèi)涵豐富,需要探索學(xué)習(xí)的內(nèi)容尚有許多。鑒于PISA監(jiān)測(cè)項(xiàng)目的不同目標(biāo)要求只測(cè)評(píng)學(xué)生的宏觀學(xué)科能力素養(yǎng),而綜合考量基于區(qū)域監(jiān)測(cè)的診斷功能考慮,在進(jìn)行學(xué)生學(xué)科能力素養(yǎng)水平測(cè)量的同時(shí)還要兼顧微觀認(rèn)知診斷。基于此,在應(yīng)用項(xiàng)目反應(yīng)理論測(cè)試學(xué)生核心素養(yǎng)能力的同時(shí)融合認(rèn)知診斷理論模型,能夠更好地發(fā)揮區(qū)域監(jiān)測(cè)宏觀測(cè)量和微觀診斷的雙重功能,從而提高區(qū)域監(jiān)測(cè)效能。
5" 參考文獻(xiàn)
[1] 穆明.基于IRT的測(cè)驗(yàn)等值應(yīng)用研究[J].教育與裝備研究,2023,39(2):64-70.
[2] 杜文久.高等項(xiàng)目反應(yīng)理論[M].北京:科學(xué)出版社,2014:
61-62.
[3] 希爾倫斯,格拉斯.教育評(píng)價(jià)與監(jiān)測(cè):一種系統(tǒng)的方
法[M].邊玉芳,譯.北京:教育科學(xué)出版社,2017:190-191.
作者簡(jiǎn)介:邢建,淄博市教育招生考試院副院長;穆明,高級(jí)教師。