張籍
摘 要: 對于教育評價,我國教育目前大多是以診斷性測試作為教育評價的主要依據(jù)。它能夠比較準(zhǔn)確地反映學(xué)生一階段內(nèi)的學(xué)習(xí)情況,并以分?jǐn)?shù)的形式呈現(xiàn)。但大數(shù)據(jù)時代下的試卷挖掘,能賦予試卷新的內(nèi)涵。
關(guān)鍵詞: 大數(shù)據(jù) 試卷挖掘 命題要求
一張不起眼的試卷,最多不過100道題。同樣的成績能代表同樣的學(xué)業(yè)水平嗎?除了知識點的掌握外,我們還能從中發(fā)現(xiàn)什么?一樣丟掉10分,有的學(xué)生可能是基礎(chǔ)性分?jǐn)?shù)一分不丟,失分在綜合題上,有的學(xué)生則可能從頭到尾,全部失分在審題疏忽或者迷惑性選擇題上。這就帶來兩種完全不同的診斷結(jié)果。前者是對多知識綜合運用水平不足,后者是對精細(xì)閱讀缺乏辨別。這就要求老師跳出分?jǐn)?shù)乃至題目所考核的知識點的束縛,對試卷進(jìn)行深度挖掘。
一
試卷挖掘是在挖掘什么?
首先,從縱向上分析。從學(xué)生自身單次單科來看,一次考試除了成績外,我們還能讀出什么?除了知識點的掌握外,學(xué)生理解、記憶、運用的水平,以及分析、評價、創(chuàng)造的能力才是分?jǐn)?shù)之外的重點。對學(xué)生的能力關(guān)注,正是素質(zhì)教育倡導(dǎo)的核心。我們暫且將這些能力作一個數(shù)值,以示區(qū)別。然后,從學(xué)生自身單科一段時間的考試來分析,靜止的各能力水平數(shù)值會成為一組變化曲線。這條曲線除了表示能力的波動(或提高,或受影響)以外,還能和學(xué)生學(xué)習(xí)行為及日常行為結(jié)合,從而對學(xué)生學(xué)習(xí)的主要特征、學(xué)習(xí)行為特點、學(xué)習(xí)行為的影響因素及其所帶來的學(xué)業(yè)結(jié)果進(jìn)行分析。根據(jù)所分析的結(jié)果,掌握學(xué)習(xí)者的學(xué)習(xí)規(guī)律,優(yōu)化學(xué)習(xí)過程,強(qiáng)化學(xué)習(xí)效果,提高教育質(zhì)量。
深入一些,從學(xué)生的綜合學(xué)習(xí)水平,也就是學(xué)生所學(xué)的全部科目來看,我們得到的不是一條曲線,而是一張同時間軸下的多曲線變化圖。我們能從一系列的各科能力和興趣點,判斷考生興趣、能力屬性,研究確定考生適合學(xué)習(xí)的專業(yè)和適合報考的學(xué)校,并對考生將來確定就業(yè)方向提出建議。這不正是以學(xué)生為中心的新課改理念嗎?
其次,進(jìn)行學(xué)生間橫向的分析。一個知識點,全班多少人掌握,是否需要重新鞏固。某項能力,比如審題閱讀,是全班性的能力薄弱,還是個別同學(xué)的疏忽,這些來源于全班數(shù)據(jù)的匯總。如果只是照本宣科地將重點一講再講,那么學(xué)生能力不但沒有提高,還浪費了學(xué)生本應(yīng)補(bǔ)足“短板”的時間,教學(xué)質(zhì)量未必得到提高。不是面上的問題,就需要對個別學(xué)生進(jìn)行個性化指導(dǎo)。學(xué)生的能力或注意力發(fā)生了集體性變化的原因是什么?是該摒棄還是引導(dǎo)?再在班級數(shù)據(jù)的基礎(chǔ)上,形成校、區(qū)、市等大范圍對比,很容易找到差距。這樣的數(shù)據(jù)就會形成一個面。每個學(xué)生都會成為面上的一個點,這個點又是一個變量集合。這就形成了關(guān)于本班學(xué)習(xí)的多維數(shù)據(jù)模型。
二
試卷挖掘的幾個層次為:成績分?jǐn)?shù)—知識點掌握—能力數(shù)據(jù)—能力曲線—多曲線變化圖—多維數(shù)據(jù)模型。
歐美一些國家和組織較早地認(rèn)識到了考試數(shù)據(jù)挖掘在教育評價中的作用,并已將它作為新一代評價項目設(shè)計的依據(jù)。如,國際教育評價協(xié)會、國際經(jīng)濟(jì)合作組織分別在其組織的大型國際測試項目中充分利用其組織的測試與調(diào)查問卷的數(shù)據(jù)進(jìn)行深度挖掘,分析影響各國教育的主要因素;英國還在其評價項目中引入了檔案袋管理,結(jié)合計算機(jī)技術(shù)建立了形成性評價;美國教育考試服務(wù)中心在其組織的考試項目的每個環(huán)節(jié)都對數(shù)據(jù)進(jìn)行了有效應(yīng)用,使它能從容地應(yīng)對每年面向全球及國內(nèi)的200多種、數(shù)千次的考試,并對考生進(jìn)行相對科學(xué)合理的評價。我國起步較晚,究其原因不外乎兩個方面:第一,試卷挖掘產(chǎn)生的數(shù)據(jù)極其龐大,加上我國本身的學(xué)生數(shù)量較多,由此帶來的巨量數(shù)據(jù)處理讓教師和教育機(jī)構(gòu)不能承受。第二,要進(jìn)行常規(guī)和高效的數(shù)據(jù)挖掘,就要從試卷設(shè)計、數(shù)據(jù)產(chǎn)生、分析直到匯總都建立標(biāo)準(zhǔn)化的體系。這就要求參與人員有較高水平。而我國教育從業(yè)人員相對素質(zhì)不高,面對系列性設(shè)計往往力不從心,從而制約發(fā)展。
值得欣慰的是,隨著科技的發(fā)展和信息化應(yīng)用水平的提高。以往要靠單機(jī)甚至人力進(jìn)行分析的工作,現(xiàn)在可通過大型數(shù)據(jù)處理中心或數(shù)據(jù)云的方式完成,教育評價由此可以步入大數(shù)據(jù)時代。
三
能夠完成大規(guī)模試卷數(shù)據(jù)挖掘的物質(zhì)層面有了,那么對命題和分析有什么樣的要求呢?首先,從階段性測驗的出題上,不是圍繞知識點進(jìn)行,它應(yīng)該明確每一道題目的測試目標(biāo),而這一目標(biāo)是以能力考核為核心的。第二,試卷考核的知識點應(yīng)該互相印證,區(qū)別相同知識下的不同能力。簡單舉例,題目一考核了知識點A,是以極度迷惑性選項B的方式出現(xiàn)的。那學(xué)生出錯,可能是對A的完全遺忘,也可能是不能區(qū)別AB,甚至可能是對題干的閱讀障礙。應(yīng)在題目二中對知識點A進(jìn)行另外一種形式的考核。有條件的應(yīng)對相同知識點進(jìn)行不同能力方向和程度的測試,辨別學(xué)生的真實差別。當(dāng)然,這不一定在同一試卷內(nèi)完成。第三,主觀題應(yīng)進(jìn)行細(xì)致分析,而不僅僅只是估算分。細(xì)致分析的結(jié)果應(yīng)和客觀題數(shù)據(jù)累加。但應(yīng)控制在一定比例,以便將教師主觀性成分降低。第四,測試應(yīng)小巧,不能加重學(xué)業(yè)負(fù)擔(dān)。但要保證一定頻率以便給出及時結(jié)果,便于教師調(diào)整。第五,測試不一定以考試的方式出現(xiàn),更好的方式是以課堂小測和作業(yè)的方式呈現(xiàn)。第六,試卷考察的能力應(yīng)有對應(yīng)量表。
綜上所述,大數(shù)據(jù)下的試卷挖掘,對于提高教學(xué)質(zhì)量,貫徹新課改方針,真正進(jìn)行素質(zhì)教育都有極大的推動作用。但是,對于教育從業(yè)人員也提出了更高要求。我們在開展教育活動時,更要以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞竭M(jìn)行設(shè)計。相信,大數(shù)據(jù)時代的來臨必將帶來教育的又一次革新。endprint