• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Rasch模型的概率論與數(shù)理統(tǒng)計考試質(zhì)量分析

      2019-12-19 10:48:58雷玉潔宋麗娟
      衛(wèi)生職業(yè)教育 2019年24期
      關(guān)鍵詞:數(shù)理統(tǒng)計概率論試題

      馬 翠,雷玉潔,宋麗娟

      (陸軍軍醫(yī)大學(xué),重慶 400038)

      概率論與數(shù)理統(tǒng)計作為醫(yī)學(xué)院校一門重要的公共基礎(chǔ)課程,其教學(xué)內(nèi)容包括概率論的基礎(chǔ)知識和數(shù)理統(tǒng)計的基本方法,主要研究隨機(jī)現(xiàn)象的統(tǒng)計規(guī)律。課程結(jié)束時,通常采用各專業(yè)統(tǒng)考的方式進(jìn)行測試。本文的目的是把現(xiàn)代測量理論Rasch模型引入概率論與數(shù)理統(tǒng)計期末考試客觀題的質(zhì)量分析中,通過科學(xué)的定量分析,驗證試題結(jié)構(gòu)、試題的難易程度、知識點的分配以及覆蓋面是否符合課程標(biāo)準(zhǔn)的要求,力求為今后進(jìn)一步修改組卷策略、提高試題質(zhì)量提供客觀的理論依據(jù)。

      Rasch模型(Rasch model)是由丹麥數(shù)學(xué)家、統(tǒng)計學(xué)家Georg Rasch(1901—1980年)基于項目反應(yīng)理論提出的一個潛在特質(zhì)模型。此模型旨在以自然科學(xué)領(lǐng)域內(nèi)的客觀測量為標(biāo)桿,為社會科學(xué)領(lǐng)域內(nèi)的測量建立起一套客觀標(biāo)準(zhǔn)[1]。Rasch模型以數(shù)據(jù)與模型的擬合為前提,將題目與個體的能力放在同一尺度上,從而克服傳統(tǒng)測量中的樣本依賴 (sample-dependent)與測驗依賴(test-dependent)[2],并在測驗題目的分析中對傳統(tǒng)測量方法所存在的不足做了相應(yīng)改進(jìn),從而確保測量所提供的信息更為客觀和可靠。

      1 資料與方法

      1.1 資料收集

      針對我校2015級醫(yī)學(xué)各專業(yè)3個班453名學(xué)生的概率論與數(shù)理統(tǒng)計期末考試成績,采用Excel 2010對收集到的原始分?jǐn)?shù)數(shù)據(jù)進(jìn)行清理和轉(zhuǎn)化。數(shù)據(jù)矩陣維度為453×28,每個樣本都包含5個判斷題、15個單選題、8個填空題共28道客觀題得分(錯誤計為0,正確計為1)。

      1.2 統(tǒng)計學(xué)方法

      使用Winsteps軟件對所得數(shù)據(jù)進(jìn)行Rasch分析,主要包括單維度檢驗、總體擬合情況、題目與個體分析、Wright圖、氣泡圖與DIF檢驗,并分析了各因素對測試結(jié)果的影響。利用SPSS13.0軟件的獨立樣本t檢驗以及單因素方差分析對Rasch模型所估個體能力進(jìn)行組間差異性比較。

      2 結(jié)果

      2.1 單維性檢驗

      本研究中的單維性檢驗是指題目是否只測量學(xué)生掌握概率論與統(tǒng)計數(shù)理課程相關(guān)知識的能力。主成分分析結(jié)果顯示,第一對比殘差特征值為1.7(見表1),說明單維性較好[3],但僅有26.4%的原始總方差被測試解釋。

      表1 共同因素可解釋的總變異量

      在單維性檢驗圖(見圖1)中,橫坐標(biāo)表示題目難度,縱坐標(biāo)表示當(dāng)控制主要特質(zhì)后,題目分?jǐn)?shù)與另一潛在特質(zhì)之間的相關(guān)系數(shù)。通常認(rèn)為,當(dāng)相關(guān)系數(shù)落在-0.4~0.4之間時,表明它們測量同一特質(zhì)[4]。從圖中可以看出,該套試卷大體上測量的是同一種特質(zhì),單維性較好。A(第28題)、B(第27題)兩題超出該范圍,說明它們可能還測量別的能力,而不僅僅是試題所要測量的能力,應(yīng)進(jìn)一步考查和修改。

      圖1 單維性檢驗圖

      2.2 總體擬合情況(見表2)

      總體擬合效果反映了實際測量數(shù)據(jù)是否符合Rasch模型的預(yù)期,主要依據(jù)是Infit和Outfit兩項指標(biāo)。Infit MNSQ和Outfit MNSQ值為1,表示數(shù)據(jù)與模型完全擬合,二者在0.5~1.5之間都是可接受的[5]。從表2可知,學(xué)生和題目的擬合度加權(quán)殘差均方(Infit MNSQ)均為1.00,Infit ZSTD分別為0.10和0.00,說明模型擬合效果很好。453名學(xué)生掌握概率論與數(shù)理統(tǒng)計課程的平均能力得分為1.71,標(biāo)準(zhǔn)差為1.01;28道題目的平均難度為0.00,標(biāo)準(zhǔn)差為1.24。學(xué)生的分離度為1.33,較試題的分離度(7.69)小,說明學(xué)生的能力水平差異不十分明顯,今后可適當(dāng)增加不同能力水平的學(xué)生,從而增大被試者的分離度。此外,表2顯示試題信度(0.98)很高,接近1,而學(xué)生信度為0.64,這表明可能學(xué)生的能力水平差異不明顯,分布較集中,也可能是有些題目與學(xué)生的能力水平不符,該試題對不同能力水平學(xué)生的區(qū)別能力有待加強(qiáng)。下一步可考慮增加不同能力水平的學(xué)生,也要對有些題目進(jìn)行修改,加強(qiáng)試題對不同能力水平學(xué)生的區(qū)分能力。

      從題目來看,第20、25、26題難度相對較大,均在1.7個Logit以上,第20題達(dá)到了1.98個Logit,難度最大。第9、12題難度較低,均在-2.2個Logit以下,難度最低為第9題,為-2.4個 Logit;從參加測試的學(xué)生來看,編號為 161、258、269、319 的學(xué)生能力最強(qiáng),為 5.17 個 Logit,編號為 27、40、82、188、428、86的學(xué)生能力較低,均在-0.3個Logit以下,能力最低為編號86的學(xué)生,為-0.98個Logit。

      2.3 學(xué)生—題目關(guān)系分析

      Rasch模型經(jīng)典的Wright圖可以更為直觀地在同一維度量尺上顯示比較個體能力和題目難度,它將題目、被試按其難度、能力高低放在同一個Logit量尺上。該圖最左端的數(shù)值是學(xué)生水平和題目難度的Logit值,中間豎線是Logit刻度尺,左側(cè)是學(xué)生分布,每個“#”代表5名學(xué)生、每個“﹒”代表1~4名學(xué)生,從下往上能力逐漸增大;右側(cè)是28道按順序編號的題目,由下往上題目難度逐漸增加。根據(jù)Wright圖的原理,構(gòu)建本次測試的學(xué)生和題目的對應(yīng)關(guān)系圖,見圖2。

      從圖2可清晰地看出題目、學(xué)生在測量變量上的分布及其對應(yīng)情況。從題目整體分布上來看,28道題目難度范圍較廣,且基本呈現(xiàn)均勻分散,學(xué)生的能力分布也較為理想,具有一定的分散度,中間部分的學(xué)生人數(shù)較多,上、下兩端學(xué)生人數(shù)較少。但大部分考生水平在0個Logit以上,且較為集中,表明本次測試對于所有學(xué)生平均而言比較簡單。難度較小的題目(如第1、2、6、8、9、12、14、24 題) 幾乎沒有相應(yīng)能力水平的學(xué)生與之匹配,這就是所謂的“送分題”。在下一步工作中,適當(dāng)減少低難度題目的同時要增加部分難度較大的題目,以增強(qiáng)測試的意義。另外,可考慮適當(dāng)增加水平較低的被試,使學(xué)生的能力分布范圍更廣,能被難度較小的題目鑒別。

      氣泡圖是Winsteps軟件提供的另一種更加直觀、科學(xué)分析題目擬合及誤差情況的圖形,圖中縱坐標(biāo)“Measures”是題目難度,橫坐標(biāo)是擬合指數(shù)Outfit的ZSTD值,“氣泡”的大小代表項目難度估計誤差的大小。通過Winsteps繪制本次測試的氣泡圖(見圖3),從圖中可以看出,大部分試題均落在可接受區(qū)間-2~2之間,但第7、10題略超出可接受范圍,第5題擬合效果最差。此外,氣泡圖顯示,第9、12題的誤差較大。針對上述幾道試題,在后續(xù)的出題工作中,應(yīng)考慮將其刪除或做進(jìn)一步修改。

      圖3 氣泡圖

      2.4 題目功能差異分析

      利用DIF檢驗本次測試對不同性別、不同班級的學(xué)生是否存在功能差異。結(jié)果發(fā)現(xiàn),第3、7、10、18共4道題目對不同性別的學(xué)生存在功能差異(功能差異指數(shù)的絕對值大于1個Logit可認(rèn)為存在功能差異[6]),見表3;第7、9、10、15、17、18、21、23共8道題目對不同班級的學(xué)生存在功能差異,見表4。這提示我們?nèi)粢M(jìn)行不同性別、不同班級間學(xué)生能力的比較,需將上述具有顯著功能差異的題目剔除,以便排除其他干擾因素。

      表3 性別DIF顯著的題目

      表4 班級DIF顯著的題目

      根據(jù)DIF檢驗的結(jié)果,刪除對應(yīng)題目,重新估計學(xué)生的能力后,比較不同性別、不同班級學(xué)生能力的差異是否具有統(tǒng)計學(xué)意義,結(jié)果如表5、表6所示。

      表5 性別因素對測試結(jié)果影響的獨立樣本t檢驗

      表6 班級因素對測試結(jié)果影響的單因素方差分析

      由表5可知,性別的不同對測試結(jié)果有影響,即“女生平均能力較男生平均能力高”這一結(jié)論具有統(tǒng)計學(xué)意義(P<0.05)。由表6可知,班級的不同對測試結(jié)果的影響具有統(tǒng)計學(xué)意義(P<0.05)。進(jìn)一步做多重比較,發(fā)現(xiàn)1班和2班、3班學(xué)生平均能力的差異具有統(tǒng)計學(xué)意義(P值分別為0.002,0.017,均小于0.05),2班、3班的學(xué)生平均能力不具有顯著性差異(P=0.805)。

      3 討論

      本文利用Rasch模型對我校2015級醫(yī)學(xué)各專業(yè)學(xué)生的概率論與數(shù)理統(tǒng)計期末考試成績進(jìn)行了定量分析,主要包括單維度檢驗、總體擬合情況、題目與個體分析、Wright圖、氣泡圖以及題目功能差異分析。根據(jù)研究結(jié)果我們發(fā)現(xiàn),本次測試的總體擬合情況較好,但學(xué)生信度(0.64)不是非常高,其原因可能是低能力個體較少、題目總體難度不高。但出于考查學(xué)生掌握概率論與數(shù)理統(tǒng)計知識的情況、檢驗教學(xué)效果的目的來講,說明參加測試的學(xué)生基本上已經(jīng)掌握了概率論與數(shù)理統(tǒng)計的大部分知識,這也達(dá)到了測試的目的,可見該套試題總體較為合理,但對于諸如單維性檢驗差(第28題)、擬合效果不佳(第5題)以及DIF顯著的題目,可以考慮在以后的測試中進(jìn)一步加以改進(jìn)。從分析結(jié)果來看,學(xué)生總體掌握概率論與數(shù)理統(tǒng)計知識的情況較好,教學(xué)效果比較理想。但從性別和不同班級學(xué)生掌握情況來看,還存在顯著差異,說明在以后的教學(xué)中我們需要重點加強(qiáng)對男生和1班學(xué)生的督促力度。

      猜你喜歡
      數(shù)理統(tǒng)計概率論試題
      2021年高考數(shù)學(xué)模擬試題(四)
      2019年高考數(shù)學(xué)模擬試題(五)
      《陳涉世家》初三復(fù)習(xí)試題
      淺談《概率論與數(shù)理統(tǒng)計》課程的教學(xué)改革
      2019屆高考數(shù)學(xué)模擬試題(二)
      論《概率論與數(shù)理統(tǒng)計》教學(xué)改革與學(xué)生應(yīng)用能力的培養(yǎng)
      財經(jīng)類院校概率論與數(shù)理統(tǒng)計教學(xué)改革的探索
      河南科技(2014年10期)2014-02-27 14:09:37
      多媒體技術(shù)在《概率論與數(shù)理統(tǒng)計》教學(xué)中的應(yīng)用
      河南科技(2014年1期)2014-02-27 14:04:45
      章丘市| 菏泽市| 大渡口区| 博爱县| 大名县| 五常市| 岑巩县| 容城县| 扬州市| 文山县| 兴化市| 广宁县| 巴彦淖尔市| 搜索| 澄城县| 长沙县| 嘉鱼县| 始兴县| 积石山| 根河市| 德州市| 绥棱县| 马山县| 博爱县| 鄂托克旗| 普安县| 镇坪县| 墨江| 澄迈县| 灵丘县| 宕昌县| 平凉市| 包头市| 黑山县| 永定县| 杭锦旗| 股票| 娄底市| 扎鲁特旗| 泊头市| 湛江市|