5～6年級(jí)學(xué)生常見錯(cuò)別字診斷測驗(yàn)的編制

2020-05-13 01:30:20范曉玲王夢翔孫夢杰周喜娣鄺雨漠

教育測量與評(píng)價(jià) 2020年5期

范曉玲王夢翔伍慧孫夢杰周喜娣鄺雨漠

識(shí)字、寫字是學(xué)生掌握書面語言能力的基礎(chǔ)，它不僅是個(gè)體獲取信息和準(zhǔn)確表達(dá)信息的渠道，而且是網(wǎng)絡(luò)信息傳播和共享的重要載體。《義務(wù)教育語文課程標(biāo)準(zhǔn)（2011 年版）》（文中簡稱課程標(biāo)準(zhǔn)）指出：按照規(guī)范要求認(rèn)真寫好漢字是教學(xué)的基本要求。[1]但是，漢字作為典型的表意文字，音、形、義之間的關(guān)系錯(cuò)綜復(fù)雜，致使學(xué)生在識(shí)字、寫字時(shí)難度增大，錯(cuò)別字現(xiàn)象嚴(yán)重，極大影響了學(xué)生閱讀能力和寫作能力的提升。而網(wǎng)絡(luò)時(shí)代常使用不規(guī)范的語言文字導(dǎo)致錯(cuò)別字現(xiàn)象愈加嚴(yán)重，很多網(wǎng)民由于語音失范而對(duì)語言準(zhǔn)確性產(chǎn)生誤解、因?yàn)榉?hào)失范使得文字表達(dá)日趨復(fù)雜、由于詞語失范引起語言表達(dá)出現(xiàn)歧義、句法失范使得閱讀和表達(dá)能力逐漸下降。[2]因此，診斷常見錯(cuò)別字，可為減少或杜絕錯(cuò)別字現(xiàn)象提供教學(xué)、輔導(dǎo)、干預(yù)及研究方面的服務(wù)。

錯(cuò)別字是對(duì)人們在漢字掌握過程中常見錯(cuò)誤的籠統(tǒng)稱呼。錯(cuò)別字實(shí)際上是讀別字和寫錯(cuò)字、寫別字的總稱。讀別字是指將甲字讀成乙字的音。寫錯(cuò)字是指書寫中多筆少畫，或無中生有的字，如“仰”的右部寫成“卯”。寫別字則是把甲字當(dāng)成乙字，字形正確，但用法錯(cuò)誤，如將“已經(jīng)”寫成“己經(jīng)”。[3]小學(xué)階段的重要任務(wù)就是掌握漢字規(guī)律，形成良好的漢字書寫意識(shí)。小學(xué)高年級(jí)處于漢字學(xué)習(xí)清晰階段的末端，學(xué)生需要清晰掌握字形，并建立起音、形、義之間的聯(lián)系，這一階段學(xué)生的錯(cuò)別字問題值得關(guān)注。

目前，針對(duì)小學(xué)語文識(shí)字寫字教學(xué)中嚴(yán)重的錯(cuò)別字現(xiàn)象，尚未有單獨(dú)的標(biāo)準(zhǔn)化測驗(yàn)工具，已有的測量與評(píng)價(jià)多使用教師自編測驗(yàn)，且主要以教材為中心或教師主觀經(jīng)驗(yàn)命題，極少依據(jù)心理、教育測驗(yàn)理論與技術(shù)進(jìn)行編制，測驗(yàn)結(jié)果也沒有進(jìn)行信度和效度的分析，難以全面體現(xiàn)課程標(biāo)準(zhǔn)的要求，也缺乏針對(duì)性和指導(dǎo)性。本研究通過研讀課程標(biāo)準(zhǔn)對(duì)識(shí)字、寫字的各項(xiàng)要求，梳理漢字教學(xué)和錯(cuò)別字研究的相關(guān)文獻(xiàn)，編制5～6 年級(jí)學(xué)生常見錯(cuò)別字診斷測驗(yàn)，并進(jìn)行質(zhì)量分析，以期為小學(xué)語文識(shí)字與寫字教學(xué)的評(píng)估和診斷提供一份標(biāo)準(zhǔn)化的測評(píng)工具。

一、研究方法

1.被試取樣

本研究采用隨機(jī)取樣法，在湖南省長沙市抽取城市學(xué)校和城鄉(xiāng)結(jié)合學(xué)校進(jìn)行團(tuán)體施測，共有5 所學(xué)校的1500 名5～6 年級(jí)學(xué)生參與施測，回收試卷1441 份，回收率96%，遠(yuǎn)遠(yuǎn)超過“用于分析與報(bào)告非常好”的回收率。[4]剔除未作答和胡亂作答的試卷，獲取有效試卷1334 份，有效率為92.60%。其中，A、B 卷分別為 662 人和 672 人，男、女學(xué)生分別為687 人和647 人，五、六年級(jí)學(xué)生分別為693 和641 人。

2.測驗(yàn)編制

本研究遵循經(jīng)典測量理論（CTT）和項(xiàng)目反應(yīng)理論（IRT）相結(jié)合、定性和定量相結(jié)合、理論與實(shí)踐相結(jié)合的原則，綜合采用文獻(xiàn)分析法、專家訪談法和測量法，搜集人教版小學(xué)語文教材生字表中的生字，小學(xué)生作文中常見的錯(cuò)字，小學(xué)生在期中測試、期末測試、字詞小測中錯(cuò)誤較多的字詞，《小學(xué)生易錯(cuò)易混字辨析手冊》[5]，形成測驗(yàn)項(xiàng)目庫。

本研究由語文學(xué)科專家和測量學(xué)專家共同抽取項(xiàng)目庫中的生字和易錯(cuò)字詞編制5 類題型（讀錯(cuò)字拼音、形近字辨析、近義詞辨析、同音字改錯(cuò)、錯(cuò)字填空），組成3 套預(yù)測卷并進(jìn)行測試。預(yù)測后，根據(jù)項(xiàng)目質(zhì)量分析結(jié)果篩選項(xiàng)目，形成A、B 兩套正式卷，每套試卷均由讀錯(cuò)、寫錯(cuò)和用錯(cuò)3 個(gè)分測驗(yàn)構(gòu)成。讀錯(cuò)分測驗(yàn)包括多音字誤讀、聲旁誤讀2 項(xiàng)內(nèi)容；寫錯(cuò)分測驗(yàn)包括增減筆畫，部件、結(jié)構(gòu)錯(cuò)誤2 項(xiàng)內(nèi)容；用錯(cuò)分測驗(yàn)則包括音近致誤、形近致誤、義近致誤3 項(xiàng)內(nèi)容。易讀錯(cuò)字拼音選擇題15 項(xiàng)，易寫錯(cuò)字填空題30 項(xiàng)，同音字改錯(cuò)題16 項(xiàng)，形近字辨析題10 項(xiàng)，近義詞辨析題5 項(xiàng)；每卷均包括76 個(gè)題項(xiàng)。

3.效標(biāo)測量工具

本研究采用范曉玲、龔耀先編制的4～6 年級(jí)多重成就測驗(yàn)（MATs）[6]B 卷語文分量表中的注音注字Y1、詞匯Y2 這2 個(gè)分測驗(yàn)作為效標(biāo)測量工具。MATs 中2 個(gè)分量表的重測信度分別為0.86和0.67，分半信度為0.81 和0.43，α 系數(shù)分別為0.86 和0.74。MATs 與學(xué)業(yè)能力傾向測驗(yàn)的效標(biāo)效度為0.61。

二、研究結(jié)果

1.項(xiàng)目的質(zhì)量分析

（1）基于CTT的項(xiàng)目質(zhì)量分析

基于CTT的項(xiàng)目難度分析如表1 所示：A、B兩卷難度低于0.20 的項(xiàng)目極少，A 卷僅有2 個(gè)，B卷沒有；A、B 卷的項(xiàng)目難度范圍為分別為［0.14，0.99］和［0.25，0.96］；A、B 卷 3 個(gè)分測驗(yàn)的平均難度分別為 0.58、0.60、0.80 和 0.58、0.60、0.75。其中，易讀錯(cuò)字拼音選擇題的難度均為0.58，形近字辨析題的難度分別為0.93 和0.86，近義詞辨析題的難度均為0.72，同音字改錯(cuò)題的難度分別為0.74 和0.69，易寫錯(cuò)字填空題的難度均為0.60。兩卷平均難度分別為0.68 和0.66。

表1 基于CTT的項(xiàng)目難度分布表

基于CTT的項(xiàng)目區(qū)分度分析如表2 所示：A、B 卷項(xiàng)目區(qū)分度高于0.19 的項(xiàng)目數(shù)占總體的80%以上；A、B 卷的項(xiàng)目區(qū)分度區(qū)間分別為［0.08，0.58］和［0.05，0.64］；A、B 卷 3 個(gè)分測驗(yàn)的平均區(qū)分度分別為 0.27、0.47、0.33 和 0.28、0.47、0.37。其中，易讀錯(cuò)字拼音選擇題的區(qū)分度分別為0.27 和0.28，形近字辨析題的區(qū)分度分別為0.21和0.23，近義詞辨析題的區(qū)分度分別為0.24 和0.23，同音字改錯(cuò)題的區(qū)分度分別為0.43 和0.50，易寫錯(cuò)字填空題的區(qū)分度分別為0.47 和0.48。A、B 卷的平均區(qū)分度分別為0.37 和0.40。

表2 基于CTT的區(qū)分度分布表

（2）基于IRT 的項(xiàng)目質(zhì)量分析

本研究基于IRT，對(duì)A、B 兩卷的項(xiàng)目質(zhì)量進(jìn)行了統(tǒng)計(jì)分析。A、B 卷難度參數(shù)區(qū)間分別為［-4.808，3.580］和［-5.196，4.213］，平均難度分別為0.652 和0.494；區(qū)分度參數(shù)區(qū)間分別為［0.246，1.544］和［0.274，1.794］，平均區(qū)分度分別為 0.844 和 0.882；猜測度參數(shù)區(qū)間分別為［0.048，0.500］和［0.044，0.406］，平均猜測系數(shù)分別為0.219 和0.208；5 類題型的猜測系數(shù)分別為0.277、0.258、0.263、0.218、0.170 和 0.235、0.271、0.308、0.205、0.160。如表3 所示，A、B 兩卷的測驗(yàn)平均難度參數(shù)均在0 以下，平均區(qū)分度參數(shù)均在0.80 以上，平均猜測度參數(shù)均在0.30 以下。

表3 基于IRT 的難度參數(shù)、區(qū)分度參數(shù)和猜測度參數(shù)表

A、B 兩卷的被試能力分布如圖1 和圖2 所示，能力值區(qū)間范圍均為［-3，3］，符合正態(tài)分布，說明抽樣質(zhì)量符合要求。如圖3 和圖4 所示，A、B卷的最大信息量為19.43 和23.44，對(duì)應(yīng)能力值分別為 0.40 和 0.20。

2.測驗(yàn)的質(zhì)量分析

圖1 A 卷被試能力分布圖

圖2 B 卷被試能力分布圖

圖3 A卷最大信息函數(shù)圖

圖4 B卷最大信息函數(shù)圖

（1）信度分析

關(guān)于測驗(yàn)信度的統(tǒng)計(jì)分析結(jié)果表明：A、B 兩卷的α 系數(shù)分別為0.92 和0.93；分半信度分別為0.851 和 0.857。兩卷α 系數(shù)均大于 0.90，分半信度均大于0.80，指標(biāo)良好，符合團(tuán)體施測的信度標(biāo)準(zhǔn)，說明測驗(yàn)的項(xiàng)目同質(zhì)性較好。

基于IRT 的信度分析主要探討項(xiàng)目信息函數(shù)。項(xiàng)目信息函數(shù)是IRT 中最重要的指標(biāo)之一，總體的信息函數(shù)是全部測驗(yàn)項(xiàng)目信息量的加成，也是測驗(yàn)的一個(gè)信度指標(biāo)。本研究中，A 卷的最大信息量接近20，B 卷的最大信息量接近24，均大于16，符合團(tuán)體施測的信度標(biāo)準(zhǔn)。

（2）效度分析

本研究外部效度的驗(yàn)證采用效標(biāo)關(guān)聯(lián)效度，內(nèi)部效度的驗(yàn)證則采用結(jié)構(gòu)效度。

本研究在實(shí)施小學(xué)5～6 年級(jí)學(xué)生常見錯(cuò)別字診斷測驗(yàn)的同時(shí)下發(fā)效標(biāo)測驗(yàn)，計(jì)算效標(biāo)測驗(yàn)與自編測驗(yàn)總分及分測驗(yàn)得分的相關(guān)系數(shù)。結(jié)果顯示，自編測驗(yàn)總分及分測驗(yàn)得分都與效標(biāo)測驗(yàn)顯著正相關(guān)，相關(guān)系數(shù)在0.31 至0.50 之間，表明自編測驗(yàn)的效標(biāo)關(guān)聯(lián)效度良好。

統(tǒng)計(jì)分析結(jié)果表明：A、B 兩卷總分與各分測驗(yàn)間的相關(guān)系數(shù)分別為 0.70、0.95、0.74 和0.73、0.97、0.62；各分測驗(yàn)間的相關(guān)分別為 0.55、0.55、0.80 和 0.60、0.45、0.49；總分與分測驗(yàn)之間的相關(guān)明顯高于各分測驗(yàn)間的相關(guān)，表明兩卷結(jié)構(gòu)效度良好。進(jìn)一步的驗(yàn)證性因素分析結(jié)果如表4 所示，兩卷的RMSEA 均小于0.05，模型擬合指數(shù)CFI、TLI 均大于 0.90。以上數(shù)據(jù)表明，A、B 兩卷的結(jié)構(gòu)效度良好。

表4 測驗(yàn)因子模型擬合指數(shù)

3.劃界分的確定與檢出率

在診斷測驗(yàn)中，劃界分?jǐn)?shù)的確定會(huì)對(duì)測驗(yàn)的檢出率和診斷結(jié)果產(chǎn)生重要影響。

本研究采用ROC 曲線法確定劃界分。ROC線即感受者工作曲線，可提供測驗(yàn)的診斷效果。有研究證明，ROC 曲線的線下的面積值（AUC）在0.40～1.00 之間。當(dāng) AUC＞0.50 時(shí)，值越接近 1，測驗(yàn)的診斷效果越好。AUC 在0.70～0.90 時(shí)有一定的診斷準(zhǔn)確性，AUC 在0.90 以上時(shí)有較高的診斷準(zhǔn)確性。[3]如圖5 和圖6 所示：A、B 兩卷的 AUC值分別為0.766 和0.735，且在0.01 水平上顯著，說明診斷具有一定的準(zhǔn)確性。

圖5 A 卷 ROC 曲線圖

圖6 B 卷 ROC 曲線圖

筆者通過尤登指數(shù)，在ROC 曲線上選出敏感性最大且1-特異性最小的劃界分點(diǎn)[7]，得到A、B 測驗(yàn)總分的劃界分均為48.50 分，檢出率分別為58.90%和59.30%。

三、討論

1.項(xiàng)目的質(zhì)量分析

（1）基于CTT的項(xiàng)目質(zhì)量分析

基于CTT的項(xiàng)目質(zhì)量分析結(jié)果表明：A、B卷難度在0.20～0.80 之間的項(xiàng)目分別有47 項(xiàng)和59 項(xiàng)，占全部項(xiàng)目數(shù)的62%和78%；5 種題型的平均難度均在0.50 以上，整體偏易，但符合診斷測驗(yàn)要求，因?yàn)樵\斷性測驗(yàn)?zāi)軌驒z測出某一方面學(xué)習(xí)有一定困難的學(xué)生，要求項(xiàng)目間的變化較小。[8]A、B 兩卷的項(xiàng)目區(qū)分度在0.30 以上的分別有56 項(xiàng)和59 項(xiàng)，占全部項(xiàng)目數(shù)的74%和78%；區(qū)分度在0.20 以上的項(xiàng)目占到了總體的80%以上。因本測驗(yàn)為診斷性測驗(yàn)，項(xiàng)目難度偏易，導(dǎo)致了個(gè)別項(xiàng)目區(qū)分度較低。讀錯(cuò)字拼音、形近字辨析、近義詞辨析這3 類題型的平均區(qū)分度均在0.20～0.30 之間，區(qū)分度尚可，個(gè)別區(qū)分度較低的項(xiàng)目能夠進(jìn)一步修改更好；同音字改錯(cuò)、錯(cuò)字填空這2 類題型的平均區(qū)分度均在0.40 以上，區(qū)分度良好，符合CTT 對(duì)項(xiàng)目區(qū)分度指標(biāo)的要求。[9]

（2）基于IRT 的項(xiàng)目質(zhì)量分析

基于IRT 的項(xiàng)目質(zhì)量分析結(jié)果顯示：在A、B兩卷各 76 個(gè)項(xiàng)目中，難度參數(shù)在［-3，3］之間的項(xiàng)目均有72 項(xiàng)，占全部項(xiàng)目的95%；兩卷平均難度均小于0，符合“診斷測驗(yàn)題目偏容易”的要求，與CTT 結(jié)果一致。A、B 兩卷項(xiàng)目區(qū)分度參數(shù)在0.70 以上的項(xiàng)目分別有50 項(xiàng)和51 項(xiàng)，占全部項(xiàng)目的66%和67%，說明A、B 兩卷的項(xiàng)目區(qū)分度總體良好。A、B 兩卷的平均猜測系數(shù)分別為0.219 和0.208，小于0.30。根據(jù)測驗(yàn)項(xiàng)目三參數(shù)模型的可接受范圍[10]，即難度在［-3，3］之間、區(qū)分度大于0.70、猜測度小于0.30，本研究的三參數(shù)模型分析結(jié)果基本符合測量學(xué)要求。

（3）CTT 和IRT 的項(xiàng)目質(zhì)量分析結(jié)果比較

已有的關(guān)于學(xué)績測驗(yàn)和人格測驗(yàn)的研究結(jié)果都顯示，在進(jìn)行項(xiàng)目質(zhì)量分析時(shí)，IRT 分析結(jié)果較CTT 分析結(jié)果更為精確和有效。[11][12]其原因在于：CTT 題目參數(shù)計(jì)算依賴于被試樣本，對(duì)能力的估計(jì)也依賴于測驗(yàn)題目的難度，因而在編制適應(yīng)性測驗(yàn)和標(biāo)準(zhǔn)參照測驗(yàn)的過程中會(huì)存在一些限制；而IRT 的局限則在于假設(shè)條件要求嚴(yán)格，局限于單維反應(yīng)模型且對(duì)測驗(yàn)條件要求嚴(yán)格等。[13]本研究結(jié)果也表明，基于CTT與IRT 的項(xiàng)目質(zhì)量分析結(jié)果間存在較明顯的相關(guān)，且難度、區(qū)分度劃分優(yōu)良項(xiàng)目標(biāo)準(zhǔn)的比例顯示，基于IRT的分析結(jié)果更為精確，對(duì)測驗(yàn)的要求更高。為此，我們認(rèn)為，自編測驗(yàn)的A、B 兩卷能夠滿足IRT 的各項(xiàng)假設(shè)和測驗(yàn)條件的要求，且測驗(yàn)應(yīng)歸屬于標(biāo)準(zhǔn)參照測驗(yàn)，因而采用基于IRT 的結(jié)果報(bào)告各項(xiàng)參數(shù)指標(biāo)更合適。

2.測驗(yàn)的質(zhì)量分析

（1）關(guān)于測驗(yàn)的信度

本研究中，同質(zhì)性信度和分半信度的分析結(jié)果顯示：A、B 兩卷的同質(zhì)性信度均在0.90 以上，分半信度均在0.85 以上。Gay 認(rèn)為，若信度系數(shù)在0.90 以上，則表示測驗(yàn)或量表的信度良好。[14]當(dāng)信度系數(shù)大于0.70 時(shí)，可用于團(tuán)體間比較，大于0.85 時(shí)，可用于鑒別個(gè)人。[15]本研究A、B 兩卷的同質(zhì)性信度和分半信度均較高，說明測驗(yàn)的信度指標(biāo)良好。

在IRT 中，測驗(yàn)信息函數(shù)作為信度的其中一項(xiàng)指標(biāo)，通常要求測驗(yàn)的最大信息量應(yīng)大于25，標(biāo)準(zhǔn)誤應(yīng)小于或等于0.20，當(dāng)信息量為16～25 時(shí)則需要對(duì)其項(xiàng)目進(jìn)行修改或直接增加項(xiàng)目數(shù)，以提高測驗(yàn)的信度。[16]本研究A、B 兩卷的最大信息量為20～24，對(duì)診斷性測驗(yàn)而言其信度是可以接受的，當(dāng)然也存在少許需要修改的項(xiàng)目。測驗(yàn)信息函數(shù)受到項(xiàng)目數(shù)、項(xiàng)目質(zhì)量和被試能力水平的影響，項(xiàng)目數(shù)越多、區(qū)分度越高、猜測系數(shù)越小，被試能力水平與測驗(yàn)難度水平越接近，信息函數(shù)越大。[17]本研究A、B 兩卷的信息函數(shù)稍低，其原因有3 個(gè)：一是診斷性測驗(yàn)的項(xiàng)目難度偏易，部分項(xiàng)目的區(qū)分度較低，導(dǎo)致信息函數(shù)只能接近標(biāo)準(zhǔn)；二是部分題型的項(xiàng)目較少，小學(xué)生的常見錯(cuò)別字?jǐn)?shù)量繁多，但考慮到學(xué)生的注意力、耐心等影響因素，加上經(jīng)過預(yù)測的篩選，所剩項(xiàng)目數(shù)量較少；三是測驗(yàn)項(xiàng)目的評(píng)分等級(jí)較少，導(dǎo)致猜測系數(shù)較高。信息函數(shù)還受到項(xiàng)目評(píng)分等級(jí)數(shù)的影響，項(xiàng)目評(píng)分等級(jí)數(shù)增多，總體信度會(huì)逐漸增大；評(píng)分等級(jí)越少，信息損失越大，總體信息函數(shù)就越小。[18]

（2）關(guān)于測驗(yàn)的效度

效標(biāo)關(guān)聯(lián)效度的統(tǒng)計(jì)分析結(jié)果顯示，5～6 年級(jí)常見錯(cuò)別字診斷測驗(yàn)總分及分測驗(yàn)得分與效標(biāo)測驗(yàn)呈顯著的正相關(guān)，相關(guān)系數(shù)在0.31 至0.50之間，說明本測驗(yàn)的外部效度優(yōu)良。[19]

結(jié)構(gòu)效度分析結(jié)果顯示，A、B 兩卷的分測驗(yàn)與總分間的相關(guān)為0.45～0.97，達(dá)到中高度相關(guān)。進(jìn)一步的驗(yàn)證性因素分析結(jié)果顯示，A、B 兩卷的各項(xiàng)擬合指標(biāo)均符合測量學(xué)要求[20]，說明模型擬合優(yōu)良，測驗(yàn)結(jié)構(gòu)比較合理。

以上結(jié)果表明，本測驗(yàn)的內(nèi)、外部效度均符合測量學(xué)要求，具有良好的診斷效果。

5～6年級(jí)學(xué)生常見錯(cuò)別字診斷測驗(yàn)的編制

一、研究方法

1.被試取樣

2.測驗(yàn)編制

3.效標(biāo)測量工具

二、研究結(jié)果

1.項(xiàng)目的質(zhì)量分析

2.測驗(yàn)的質(zhì)量分析

3.劃界分的確定與檢出率

三、討論

1.項(xiàng)目的質(zhì)量分析

2.測驗(yàn)的質(zhì)量分析

一、研究方法

三、討論