袁 莉 曹夢瑩 約翰·加德納 邁克爾·奧利里
(1.北京師范大學 未來教育學院,廣東珠海519085;2.上海開放大學 上海開放遠程教育工程技術研究中心,上海200433;3.英國斯特林大學 教育學院, 英國; 4.愛爾蘭都柏林城市大學 教育學院,愛爾蘭)
近年來,隨著人工智能技術的迅速發(fā)展,如何有效地利用這些技術推進教育評價改革,幫助教師全面了解和掌握學習者狀態(tài),并根據(jù)學習者產(chǎn)生的數(shù)據(jù)對學習狀況進行準確評估,促進學習者綜合能力和素質(zhì)的提高,已成為教育界關注的問題。教育評估既要評估學生成績,也要通過評估提高其能力;評估標準既要有篩選價值,也要涵蓋個體的增值性評價(張生等,2021)。然而,許多面向教學的人工智能技術聚焦減輕教師負擔,如自動完成作業(yè)批改、單元測試和考試評估等,隨之也帶來一些問題,如教師需要通過檢查作業(yè)了解學生對知識的理解和掌握程度,為備課提供依據(jù);人工智能技術能否對學生學習作出準確判斷,并避免數(shù)據(jù)偏見和算法黑箱。迄今為止,很少有證據(jù)表明,基于人工智能和大數(shù)據(jù)的學習分析確實改善了學習結(jié)果(Ferguson & Cllow, 2017)。因此,運用人工智能對學生進行評估和考核應該格外慎重,否則不但不能促進學生學習,反而會帶來很多負面影響。
受疫情影響,2020年英國高考A-level和中考GCSE被取消。英國考試監(jiān)管機構(gòu)(Ofqual)公布了評定成績的“標準化模型”——一種旨在避免分數(shù)膨脹的神秘算法,結(jié)果發(fā)現(xiàn)該算法對所有A-level學科成績預測的準確性只有60%,即近40%的學生成績低于教師給出的預估分數(shù)(Ofqual,2020)。鑒于準確率過低,英國政府不得不取消人工智能提供的成績,以教師評估為標準。英國考試監(jiān)管機構(gòu)希望通過使用人工智能算法提高學生成績預測的準確性,但沒有足夠的數(shù)據(jù),無法獲得精準的預測模型。因此,承認歷史數(shù)據(jù)的局限性對于考核評估算法應用尤為重要。
計算機應用于教育教學測評由來已久,特別是在作文批改、語言教學及數(shù)學等標準化學科考試中的應用尤為廣泛。代表性的兩個應用系統(tǒng)是“作文自動評分”(Automated Essay Scoring, AES)和“計算機自適應測驗”(Computerised Adaptive Testing, CAT)。作文自動評分系統(tǒng)被廣泛應用于大型考試的智能作文評分,如美國、英國、澳大利亞等國家研究生管理專業(yè)入學考試(GMAT)寫作部分和一些作文批改評分平臺(批改網(wǎng)、Grammarly等),計算機自適應測驗系統(tǒng)主要被應用于美國研究生入學考試GRE和GMAT。本研究基于對這兩大核心系統(tǒng)應用和相關研究的分析,闡述人工智能應用于教育評估面臨的問題和挑戰(zhàn),以及運用學習分析對學生進行形成性評估的潛力和意義。
人工智能一詞,最早是由計算機專家約翰·麥卡錫 (John McCarthy)等學者提出來的,指運用計算機軟硬件模擬人類某些智能行為的基本理論、方法和技術(黃欣欣,2017)。機器學習作為人工智能的分支,“是對計算機算法的研究,允許計算機程序通過經(jīng)驗自動改進”(Mitchell, 1997)。人工智能本質(zhì)是機器“學習”,即讓計算機具有“學習”能力,通過對數(shù)據(jù)分析,“訓練”出一個模型對新數(shù)據(jù)進行預測。因此,大量的數(shù)據(jù)和機器學習是人工智能的基礎。麥肯錫公司(McKinsey Co.,2011) 和高德納公司(Gartner Glossary,2019)強調(diào),“大數(shù)據(jù)”是需要新的處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)概念起源于工程、量子物理和天文學等科學研究的大規(guī)模計算環(huán)境 ,數(shù)十億份實驗數(shù)據(jù)都要經(jīng)過大規(guī)模算法分析以辨別模型、發(fā)現(xiàn)因果關系和預測可能的結(jié)果。大數(shù)據(jù)已應用到現(xiàn)代社會醫(yī)療診斷、消費趨勢分析、天氣預報等領域。以機器學習為核心的這些應用程序的“智能”特性體現(xiàn)在兩個層面:無監(jiān)督學習和監(jiān)督學習。無監(jiān)督學習指計算機從大量數(shù)據(jù)集中學習并更新識別模型。監(jiān)督學習指計算機利用人工標注的數(shù)據(jù)訓練預設好的模型,從而學習海量數(shù)據(jù)集中的相關性,并對已有模型完善和優(yōu)化。
在教育評估中,機器學習概念同樣適用。如果計算機可以檢查學生“學”的效果,那么它就可以“教”學生知識,并對學生的知識掌握情況進行評估。簡言之,如果訓練計算機“學習”評估標準,評判學生對知識的理解和掌握情況(無論是書面的還是口頭的),并按照既定標準對學生答案進行匹配,那么它就有應用于教育評估的潛力。但是,對教育工作者來說,掌握知識和能夠理解并靈活應用知識存在差異。因此,教育評估中人的判斷和機器的判斷是不同的,這一差異在以計算機為基礎的學生寫作評估中尤為明顯。
1.作文自動評分系統(tǒng)的發(fā)展及其使用特征
基于計算機技術的作文自動評分系統(tǒng)近年被越來越多的高等教育機構(gòu)用于評估學生寫作。四個領先的商業(yè)作文自動評分系統(tǒng)包括項目作文評分(Project Essay Grading,PEG)、智能測評(Intellimetric)、 智能作文評估軟件(Intelligent Essay Assessor,IEA)和電子評分器(e-Rater)。項目作文評分主要應用于教師執(zhí)照考試 (Praxis)、GRE考試和英語分級考試;智能測評用于K-12標準參照測驗(K-12 norm-referenced test);智能作文評估軟件主要用于GMAT考試;電子評分器用于GMAT考試和書面英語考試(Test of Written English,TWE)(Ben-Simon & Bennett,2007)。使用作文自動評分工具進行大規(guī)模評估優(yōu)勢明顯,包括及時反饋、低成本和評分一致性。此外,作文自動評分工具應用于課堂評估,可以減少寫作教師的工作量,并為每個學生提供即時反饋(Bull, 1999)。
早在1966年,項目論文評分的發(fā)明者、作文自動評分系統(tǒng)的先驅(qū)埃利斯·佩奇(Ellis Page)發(fā)表了題為《計算機作文評分的必要性》的文章,描述了使用計算機技術批改論文的想法,期望將英語教師從批改作文的負擔中解脫出來,并預測隨著自然語言處理技術的不斷成熟,機器能夠像人一樣不斷學習、理解和評估寫作的不同指標(Wrech, 1993)。四十多年后,到2007年,本-西蒙和貝內(nèi)特(Ben-Simon & Bennett,2007)分析了四個先進的商業(yè)作文自動評分系統(tǒng)發(fā)現(xiàn),作文評估的基礎(如所使用的指標)幾乎沒有什么變化,但是,這些系統(tǒng)使用的人工智能引擎更加精準,其容量和效率有了很大提高。例如,美國教育考試服務中心的電子評分器使用相對容易檢測的四個評估指標(Deane,2013):語法(如主謂語不一致、代詞誤用、所有格錯誤等)、用詞(如定語和介詞錯誤、詞的形態(tài)錯誤等)、技巧(如字母大小寫、標點符號、拼寫錯誤等)、風格(如單詞重復使用等)。同時,該系統(tǒng)還使用較復雜的指標,如文章立意(如觀點陳述、要點、討論深度)、詞匯的復雜性(如使用不尋?;驈碗s的單詞等)、句子變化、資料引用、觀點一致性(如是否偏離文章主題等)。
作文自動評分系統(tǒng)必須了解這些指標與學生作文質(zhì)量之間的關系,才能給出相應的分數(shù)。因此,人們要先“訓練”計算機,即計算機需要從大量的學生作文中識別這些指標并與人工分數(shù)進行比較。人工評分和范文越多,計算機給出的成績與人工給出的分數(shù)越接近。因此,通常情況下,機器評分和人工評分在一定范圍內(nèi)能夠達成一致。但對特別優(yōu)秀或非常糟糕的作文,人工評分與機器評分會出現(xiàn)較大差異。例如,機器在檢測語法、詞匯和技巧方面比人工更準確迅速,但對寫作的高級表現(xiàn)形式,如創(chuàng)造力、獨特的論據(jù)、分析與綜合能力等,因人工智能處在低級智能階段,數(shù)據(jù)驅(qū)動的評價標準無法全面、深刻地反映學生寫作的真實水平,相比之下,人工測評往往會在全面、深刻理解的基礎上,給出較為準確的評價。
最初使用作文自動評分系統(tǒng)評估寫作的研究,希望通過大規(guī)模、高效和準確的機器作文自動評分降低評估成本。但是,對于從事英語母語和第二外語教學的教師來說,與更為復雜和高級的寫作構(gòu)思相比,寫作的技術指標是次要的。美國中學成功寫作框架(CWPA et al., 2011)表明了寫作過程建構(gòu)的復雜性,強調(diào)教師要通過寫作訓練,發(fā)展學生的能力,為高等教育的學習做準備。它主要集中在以下方面:
?好奇心:渴望更多地了解世界的愿望;
?開放性:愿意接受新的生活方式和思維方式;
?敬業(yè)度:全心投入和參與學習的意識;
?創(chuàng)造力:用新的方法解決問題、研究和表達新的想法的能力;
?持久性:對短期和長期項目保持興趣和注意力的能力;
?責任感:具有較強行動能力并能對行為后果進行判斷;
?靈活性:適應環(huán)境,能達到相應的期望或要求的能力;
?多元認知:能夠不斷反思并提高自己的認知和文化認同能力。
可見,對于作文自動評分系統(tǒng)研發(fā)人員來說,面臨的挑戰(zhàn)是如何將高效、準確和低成本的寫作評估轉(zhuǎn)化為更加復雜和高級的指標?!绊椖孔魑脑u分”的修訂版使用語法檢查器和詞性標記器等自然語言處理工具(Page, 1994; Page & Petersen, 1995)。2003年發(fā)布的電子評分器第二版 (Attali & Burstein, 2005;Burstein et al., 2004)確定了12條優(yōu)秀作文的評價標準,涉及五個維度:語法、用詞、技巧和風格,組織和發(fā)展,主題分析(即特定提示詞匯),詞的復雜性,論文長度(Attali & Burstein, 2005),有助于程序開發(fā)人員理解測評內(nèi)容。
2. 作文自動評分系統(tǒng)的應用及學界對其有效性的質(zhì)疑
近年來,人工智能技術在作文自動評分系統(tǒng)的應用,促使其不斷完善,并在為學生和老師提供寫作技能的快速反饋方面取得了重要進展。中國2011年上線的批改網(wǎng)是一款基于語料庫和云計算技術的機改作文系統(tǒng),此系統(tǒng)以大學英語四級作文考試要求為模板,可以在1.2 秒內(nèi)自動批改學生的英語作文,并給出分數(shù)、總評、按句糾錯的批改反饋(張芳等,2021)。批改網(wǎng)提供的多維分析報告可以幫助教師及時了解學生的寫作水平,指導課堂英語教學;教師可以基于批改網(wǎng)積累的語料庫素材,分析學生作文數(shù)據(jù),了解學生學習軌跡,從而輔助其科研。批改網(wǎng)也能激發(fā)學生英語寫作興趣,幫助他們提高英語寫作能力(張芳等,2021)。但研究人員也發(fā)現(xiàn)一些問題,如“無法準確評估作文內(nèi)在質(zhì)量”(何旭良,2013),智能評價系統(tǒng)對“篇章結(jié)構(gòu)和邏輯思維”無法做出準確判斷(張芳等,2021)。作文自動評分系統(tǒng)對作文質(zhì)量的測量仍以語法和語義內(nèi)容為主,對思想、立意、創(chuàng)新性等深層屬性的測量還遠遠不夠(楊麗萍等,2021)。此外,浙江大學與杭州增慧網(wǎng)絡科技有限公司聯(lián)合開發(fā)了冰果英語智能作文評閱系統(tǒng),但有研究人員(張仲德等,2013)通過實踐發(fā)現(xiàn)該系統(tǒng)評閱得分有時與人工評閱出入較大,且程式化寫作往往得分較高。這些與作文自動評分系統(tǒng)應用出現(xiàn)的問題一致,即系統(tǒng)只能對語言的表層現(xiàn)象加以評定,對深層次的語言現(xiàn)象評判不足,忽視了寫作過程中的修辭、認知、思維發(fā)展過程等因素(張荔等,2016)。
長期以來,不少機構(gòu)和研究人員反對用作文自動評分系統(tǒng)評估寫作質(zhì)量。例如,美國全國英語教師理事會參考大量與自動評估相關的文獻,對作文自動評分提出質(zhì)疑,如計算機無法識別或判斷那些與高水平寫作相關的元素(如邏輯性、清晰度、準確性、創(chuàng)新風格、更強的吸引力、不同的組織形式、說服類型、證據(jù)質(zhì)量、幽默或諷刺,以及重復的有效使用等)。使用計算機評估學生寫作剝奪了學生在寫作中獲得除特定要求外的任何發(fā)揮的機會;迫使教師忽略寫作教學中最重要的因素,而去教學生一些毫無意義的東西。計算機按照編程特定的提示給作文打分,減少了教師通過評估改進寫作教學的興趣和創(chuàng)新的機會 (NCTE, 2013)。佩雷爾曼(Perelman, 2012a)是主要的批評者之一,明確指出“作文自動評分簡直就是荒謬的”。佩雷爾曼設計了被稱為機器評分克星的自動語言生成器“Babel”,以揭示自動評分的弱點和缺陷。機器評分克星通過運用計算機的瘋狂填詞游戲(Mad Libs)創(chuàng)作出毫無意義的作文,卻能在機器評分中獲得高分。佩雷爾曼(Perelman,2018)認為計算機只能計算,不能真正理解意義,往往只是按照設定的算法執(zhí)行。學生一旦掌握了計算機批改的技巧就可以在考試中通過使用大量復雜詞匯、復雜句子和關鍵短語來愚弄算法。他分析了許多作文自動評分系統(tǒng),并以此作為批判作文自動評分的研究證據(jù),認為作文自動評分鼓勵“使用難懂的、晦澀的和矯飾的語言”(Perelman,2012b,p126),并嚴厲地駁斥了所有作文自動評分“不理解意義,也沒有感知能力”(Perelman,2012b,p125),指責它們在評估中過度強調(diào)作文長度等(Perelman,2014)。其他語言專家,如康登(Condon,2013)支持利用“作弊”的方式查找作文自動評分的弱點,但認為這種做法不能解決核心問題,只是將注意力轉(zhuǎn)移到不相關的爭論上,即“把焦點放在作文自動評分提供的分數(shù)是否與人工評分一致上,實際上是將兩個不相關的度量認為是相關的”。迪恩(Deane,2013)指出作文自動評分系統(tǒng)專注于“衡量作品的最終質(zhì)量”,人工評分更關注學生的寫作技能,即閱卷人在閱讀學生作文時側(cè)重于理解寫作者的思想,而作文自動評分系統(tǒng)強調(diào)識別文本中的標識。即使人工和計算機評分結(jié)果一致,它們的內(nèi)在含義差異也很大:“沒有作文自動評分系統(tǒng)可以達到在理解作者意思的基礎上進行評估”(Deane,2013)。迪恩(Deane,2013) 認為,寫作的目的是為了與人交流。如果學生的第一次寫作經(jīng)歷是對著一臺機器,這可能意味著寫作不被視為人際交流,反過來可能降低評估的有效性。此外,由于計算機寫作評分的算法是根據(jù)過去的經(jīng)驗和知識設定的,我們也無法知道評分中是否包含了特定類型的偏見。因此,他強烈反對在入學考試、分班或期末測驗等高風險考試中使用作文自動評分系統(tǒng)進行寫作評估。
從短期看,作文自動評分系統(tǒng)可以幫助老師減輕批改負擔,及時給予學生反饋(張荔等,2016)。但從長遠角度看,學生容易在自動批改評分中形成寫作的固化思維,影響真正的寫作,而且面對計算機評估的寫作本身違背了寫作的社會屬性(Deane,2013)。如果大學的作文評估都是機器評分,很可能導致高中的評分系統(tǒng)和寫作訓練都基于自動評分,從長遠來看,這不利于通過寫作培養(yǎng)學生的交流能力。作文自動評分系統(tǒng)的發(fā)展,除了擴展評估指標的范圍,還需要加強對寫作結(jié)構(gòu)的理解。另外,如何將作文自動評分系統(tǒng)用于寫作教學支持教學創(chuàng)新,幫助學生提高認知能力并與社會實踐相結(jié)合,從而提高學生的寫作水平也非常重要(Deane,2013)。漢姆普-萊昂斯和康登(Hamp-Lyons & Condon,2000)研究證明了將寫作評估視為一個涉及迭代、學習和多方利益相關者互動過程的重要性。edX、麻省理工學院和哈佛大學等相繼使用基于機器的作文自動評分系統(tǒng)評估慕課書面作業(yè)。Coursera在此基礎上,增加以人為基礎的“校準的同行評審”,來對學生寫作進行評分并提供反饋(Balfour,2013)。這種模式將作文自動評分系統(tǒng)用于慕課寫作教學,給學生提出反饋和修改意見,然后使用校準的同行評審進行最終評估(Sandeen,2013)。這使得一些簡單問題能盡早得到糾正,從而改善作文質(zhì)量,且比單一的人工評估或機器評估更為準確和高效(Balfour,2013)。
1.計算機自適應測驗
計算機自適應測驗具有設計標準化和操作簡單等特性,但題目選擇與評估的算法和技術復雜。它與作文自動評分系統(tǒng)的主要區(qū)別是:作文自動評分系統(tǒng)的機器學習試圖模仿人工評分標準進行判斷,計算機自適應測驗使用一系列測試題目決定考生能力,標準是預先設定的,即根據(jù)題目難度判斷考生的知識掌握水平。在計算機自適應測驗評估中,計算機根據(jù)考生對測試題的反應有目的地選擇下一題,直到可以評估考生是否達到被測能力的極限。諾一瓊斯(Noijons,1994)將自適應測試定義為“在計算機幫助下誘發(fā)和評估語言表現(xiàn)的綜合程序,包括生成測試、與參與者互動、反饋評價”。計算機自適應測驗與紙筆測試、一般計算機測驗的區(qū)別是具備估算被試者的能力、不依賴于測試題目的特性;可以根據(jù)題目的信息量, 選擇與被試者能力相匹配的題目;測試管理靈活,測試結(jié)果可以立即顯示,減少考生考試焦慮;與傳統(tǒng)測驗相比,計算機自適應測驗可節(jié)省成本(趙茜等,2020;Mulkern, 1998;Weiss, 1990; Straetmans & Eggen, 1998)。通過計算機自適應測驗彈性水平策略,考生通常被給予適合其特定水平的測試,不需要回答對他們來說太難或太易的問題(Larson & Madsen,1985)。
計算機自適應測驗評估是個迭代過程(Rudner,1998),算法通常包括:1)根據(jù)預估的考生能力和水平,對題庫的所有考題進行評估,確定適合考生水平的題目,選定合適的考題,由考生回答;2)根據(jù)考生答案重新計算其能力和水平;3)重復1到2步驟,直到確定考生最終能夠達到的標準。簡言之,當計算機選擇第一道題時,其預期是考生可以給予正確答案。計算機自適應測驗為了確定適當?shù)碾y易水平,測試前問考生一些代表其能力水平的指標問題,然后根據(jù)這些數(shù)據(jù)決定第一道考題。在缺乏了解考生能力的情況下,計算機自適應測驗通常會在嘗試過程中提供難度較低的題目(如70%的考生可以回答正確),然后逐步加大難度,直到能夠判斷考生可以達到的能力和水平的上限,即“測評的終結(jié)點”。在相對簡單的及格測評設計中,“測評的終結(jié)點”是考生超過及格分數(shù)線或沒有達到及格分數(shù)線。因此,計算機自適應測驗常用于總結(jié)性評估,如高風險的考試測評(大學入學和就業(yè)等)。
2.計算機自適應測驗的應用及存在的問題
教育評估中兩種著名且成功的基于計算機自適應測驗的考試是美國研究生管理入學委員會的GMAT和美國教育考試服務中心的GRE考試。全球商學院都使用GMAT成績挑選MBA申請者。當學生開始GMAT考試時,計算機假設學生有一個平均分數(shù),給出一道中等難度的題目。如果學生回答正確,電腦會給出更難的考題,并增加難度。反之,如果回答錯誤,計算機會降低難度。學生分數(shù)由預設的算法決定,該算法不僅根據(jù)學生答案的對與錯,還根據(jù)他們回答問題的難度計算學生能力。此外,GMAT寫作評估采用六分制,由人和計算機共同完成,學生考試結(jié)束后可立即收到非官方的GMAT成績,并選擇保留或取消他們的GMAT成績(KAPLAN,2020)。GRE科目測試旨在測量學生特定學科領域(如數(shù)學、歷史或英語文學)的成績(Stocking et al., 2000)。
美國 K-12 基礎教育考試服務執(zhí)行主任馬特森認為,計算機自適應測驗的最大優(yōu)勢是學生作答試題的難度與學生能力匹配。這一優(yōu)勢能帶給學生更有益的考試體驗,能力低的學生不會遇到無法回答的題目,因而不會備受打擊;能力高的學生不會因回答過于簡單的試題而失去興趣,這能夠提高學生的測驗參與度和動機(王超,2017)。
由于計算機在語言測試中的重要作用,很多學者開始比較計算機測試與筆試的差異。侯賽尼等(Hosseini et al.,2014)在慕尼黑大學隨機抽取了106名伊朗英語學習者計算機測試與筆試的成績。結(jié)果表明,參與者的筆試成績優(yōu)于計算機測試成績。此外,其他學者也發(fā)現(xiàn),受試者書寫測試比計算機測試表現(xiàn)更好(Coniam, 2006; Cumming et al.,2006; Salimi et al., 2011;Mazzeo et al.,1991)。計算機自適應測驗基于寫作反應理論模型,此模型不能用于所有寫作,因為它不適用于開放式問題和不容易校準的寫作 (Rudner, 1998)。計算機自適應測驗的另一個缺點是,考生無法在測試結(jié)束前退回去更改答案,因為下一道題目是根據(jù)前一道題的結(jié)果給出的 (Rudner, 1998)。安全性是計算機自適應測驗的另一個重要問題。如果題庫被用來測試考生的知識,在測試過程中,有些題目可能比其他題目更頻繁地出現(xiàn),這些題目可能被記住并傳遞給其他考生(Wainer & Eignor,2000)。
另外,莫內(nèi)塔-克勒等(Moneta-Koehler et al.,2017)反對美國教育考試服務中心將GRE考試分數(shù)作為研究生入學的唯一標準。他們以范德堡大學國際研究生項目為例發(fā)現(xiàn),GRE成績不能預測學生能否順利博士畢業(yè)或發(fā)表更多論文。因此,他呼吁生物醫(yī)學科學招生委員會應考慮最大限度地少用GRE分數(shù)預測學生學習成績和創(chuàng)作力。在過去十年,計算機自適應測驗應用結(jié)果的有效性幾乎沒有變化。有研究者擔心,其設計可能會限制婦女和少數(shù)民族人員進入科學等關鍵領域,例如,米勒和斯坦森(Miller & Stassun,2014)指出,女性候選人的GRE成績平均比男性少80分,非裔美國人比白人少200分。
大規(guī)模數(shù)據(jù)分析是人工智能用于教育評估的基礎,例如,作文自動評分系統(tǒng)基于眾多人工測評對大量學生寫作進行評判,計算機自適應測驗基于許多學生多項選擇題測試結(jié)果。大數(shù)據(jù)在這些評估中的共性,也就是機器學習在科學、醫(yī)學和技術發(fā)展中的應用都是過程數(shù)據(jù),即使用應用程序可以有目的或偶然地在線捕獲數(shù)據(jù)。分析這些學習和評估數(shù)據(jù)的技術通常被稱為學習分析(有時稱為教育數(shù)據(jù)挖掘)。學習分析是對與學習活動相關的學習者數(shù)據(jù)采集、分析和干預的過程(Ga?evic et al.,2015),最常使用的定義是第一屆國際學習分析和知識會議(Long & Siemens,2011)提出的:“……關于學習者及其學習數(shù)據(jù)和情境的測量、收集、分析和報告,目的是理解和優(yōu)化學習及其發(fā)生的環(huán)境”。這些目標的實現(xiàn)很有價值。埃利斯等(Ellis et al.,2013) 認為,大部分學習分析活動通常專注于預測,如識別大數(shù)據(jù)中與特定結(jié)果相關的模型,以提高學生的考試成績。然而,越來越多的人認識到課堂或培訓環(huán)境中形成性評估的重要性,因此,如何使用教學大數(shù)據(jù)進行智能分析,幫助學習者形成性地自我調(diào)節(jié)從而改進學習顯得尤為重要。
柯普等(Cope & Kalantzis,2016) 將學習過程中機器評估收集的各種數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)(即由計算機專門預測和捕獲的數(shù)據(jù))和非結(jié)構(gòu)化的偶然數(shù)據(jù),如迪賽爾博和貝倫斯(DiCerbo & Behrens,2014)提出的“數(shù)據(jù)廢氣 ”(data exhaust)。后者包括點擊數(shù)、日志文件等時間、擊鍵和編輯歷史記錄或“軌跡”。通過分析,我們可以了解學生是如何解決問題、所犯的錯誤和所做的修改、對概念的誤解,以及面對學習進展緩慢或沒有進展時的反應和應對能力等。此外,他們通過攝像機、錄音機、智能手表和手環(huán)等對學生進行眼動追蹤、面部表情、身體姿勢、手勢和課堂發(fā)言等方面的數(shù)據(jù)收集,以此作為教學活動過程的評價參數(shù),如分析同伴互動甚至情感狀態(tài),包括困惑、沮喪、無聊和參與度等。對智能導師系統(tǒng)(Intelligent Tutoring Systems)捕獲的數(shù)據(jù)進行深入分析可以幫助教師更好地了解學生并改進教學策略。莫萊納爾等(Molenaar et al.,2021) 將計算機自適應測驗的績效評估數(shù)據(jù)運用到自適應學習平臺,幫助教師選擇合適的學習資源(教學材料)和確定適合于不同學生的問題。教師如果能夠及時分析這些不同類型的數(shù)據(jù),了解學生如何對待學習任務以及他們在哪些方面掌握了知識,哪些方面面臨困難,可以作為形成性反饋及時提供給學生。例如,Embrace系統(tǒng)使用動態(tài)跟蹤數(shù)據(jù),為學生可視化在線閱讀理解任務的表現(xiàn)提供即時形成性反饋(Walker et al.,2017)。阿爾喬哈尼等(Aljohani & Davis,2013) 使用手機數(shù)字儀表板讓學生查看測驗結(jié)果,為學生提供有關學科整體成績的及時反饋,并按照布魯姆分類學對學生認知水平進行評估。上述例子雖然都是按照學校要求對學生的學習進行評估,是一種描述性的可視化分析, 但也展示了人工智能既有用于總結(jié)性評估實時反饋的特性,也有用于形成性評估的潛力。
蒂勒等(Thille et al.,2014) 認為可以從三方面對大規(guī)模評估數(shù)據(jù)進行多樣化評價:1)連續(xù)性(始終自動收集數(shù)據(jù));2)反饋性(為老師和學生提供實時的數(shù)據(jù)分析、解釋和報告);3)多樣性(可以收集點擊數(shù)、日志文件,以及自動記錄的多種數(shù)據(jù))。隨著新的評估測試和測試群體的不斷增長,大規(guī)模評估數(shù)據(jù)分析,可以提供全面的學習“軌跡”建模 (“專家系統(tǒng)”),從而將個體學生的學習表現(xiàn)與以大多數(shù)學生群體為基礎所建立的典型表現(xiàn)模型進行比較。其中非常重要的一點是“專家系統(tǒng)”對學生的評價是由系統(tǒng)自動給出的“提示”,并以腳手架教學或形成性評估干預的形式,在學生解決問題的過程中適當?shù)靥峁崟r反饋。另外,蒂勒等(Thille et al.,2014)還指出,在某些情況下,“專家系統(tǒng)”提出的一個步驟到另一個步驟的學習策略與學生的實際軌跡和決策不符,通過更好地了解學生不同的學習方法,能夠更好地改進專家系統(tǒng),提供更加精準的學習路徑推薦。如果要在實施過程中向?qū)W生提供有意義的反饋,就要求學習分析及時準確,這就是柯普等(Cope & Kalantzis,2016)提出的學習分析結(jié)束了“教學和評估分離的歷史”,并具有“隨時提供反饋”的潛力。然而,將這些形成性評估技術從蒂勒等的小規(guī)模在線環(huán)境(智能導學系統(tǒng)、編碼實踐和應用慕課)遷移到更多樣化的學習環(huán)境,可能因數(shù)據(jù)捕獲的挑戰(zhàn)性,前景有限。
毫無疑問,形成性評估在教育中的作用越來越重要,人們也越來越對運用大數(shù)據(jù)和智能分析幫助學生在在線學習環(huán)境發(fā)展自主學習能力感興趣。自主學習 (self-regulated learning,SRL)是一種復雜的現(xiàn)象,受每個人的個性特征、學習習慣和學習環(huán)境的影響。例如,西奇內(nèi)利等(Cicchinelli et al.,2018) 確定了與學生自我計劃和監(jiān)督相關的指標,這些指標與學生的學習和考試分數(shù)直接相關。另外,賈維拉等 (Jarvela et al.,2020)認為,最近掀起的學習分析熱潮,通過對學生的情緒、社交和認知等進行跟蹤,使以前完全不透明的自主學習過程變得清晰可見,特別是在協(xié)作學習環(huán)境中更是如此?;谶@些發(fā)展,美國高考(ACT)測試研究小組采用移動應用程序 Companion 進行實時測試,對學生學習進度和成果進行及時分析和反饋(ACTNext,2020)。該系統(tǒng)使用“動態(tài)認知診斷模型和機器學習算法”分析測試結(jié)果和學習資源的使用情況,并承諾可以通過亞馬遜的Alexa和蘋果的 Siri 等工具融入學生日常生活。無疑,學習分析反饋對任何學習環(huán)境的個性化形成性評估都非常有用,特別是在慕課或其他大規(guī)模在線學習環(huán)境中,成千上萬的學習者共同學習一門課程。在這種情況下,自主學習變得尤為重要,因為外界的形成性評估和及時性反饋受到教師當面答疑甚至異步互動成本的限制。學伴評估,如果準確的話,可以幫助解決慕課形成性評估問題(Garcia-Martinez et al.,2018),但簡森等(Jansen et al.,2020)提出,使用學習分析和內(nèi)置干預,即按照自主學習設計的課程資源視頻,可以提高慕課課程完成率, 越來越多的研究證實了這一結(jié)論 (例如,Jarvela et al.,2020;Martin & Ndoye,2016;Tempelaar et al.,2013;Gutierrez Rojas & Crespo Garcia,2012)。正因為如此,對于在線學習開發(fā)人員來說,能夠在慕課中提供自動化且具有成本效益的個性化形成性評估和反饋是首要目標。
如果教師對學生學習的反饋主要用于改善教學質(zhì)量而非與其他學生比較,并關注學生個體進步,那么學生可以通過形成性評估反饋知道下一步該做什么,從而產(chǎn)生控制自己學習的滿足感,激發(fā)學習動機和有效完成學習目標(Brookhart, 2008; Crooks, 1988)。學習分析與形成性評估都具有及時反饋的特征。形成性評估幫助學生了解學習過程中的表現(xiàn),而學習分析為學生提供了有關個人表現(xiàn)的信息,并可提高教師對不同學生表現(xiàn)的認識深度(Aljohani & Davis,2013)。布萊克等(Black & William,1998)總結(jié)了250多項形成性評估研究后發(fā)現(xiàn),形成性評估是課堂工作的重要組成部分,可以提高學生學習成績。基于學習分析的形成性評估對于教學過程的評價更為科學、系統(tǒng)和智能,進而可實現(xiàn)數(shù)據(jù)驅(qū)動下的“以學定教和因?qū)W定導”(畢鵬暉,2021)。
斯佩克特等(Spector et al.,2016) 強調(diào)了個性化形成性評估的重要性,但發(fā)現(xiàn)在某種程度上,智能導學系統(tǒng)可能會“一刀切”。這些系統(tǒng)雖然能夠判斷學生存在的問題并幫助學生彌補不足,但對存在同樣問題的學生給出的建議都一樣。他們認為,學習分析系統(tǒng)可以通過對學生進行更深入的分析,并結(jié)合各種績效分析技術提供反饋,以滿足不同學生的需求。個性化學習分析可以通過捕獲學生學習過程的“隱性”數(shù)據(jù),如監(jiān)測那些連續(xù)的、內(nèi)在的和不明顯的行為,識別學生的學習習慣,并結(jié)合“顯性”的學生畫像,包括他們的愛好、興趣和態(tài)度等外在數(shù)據(jù),對學生的學習提供及時、有效的干預。但是,與營銷和其他個人在線活動分析一樣,個性化學習分析使用不當可能會引發(fā)倫理問題。 這種反饋機制“尚未能夠大規(guī)模和持續(xù)運用”(Spector et al.,2016)。
盡管計算機算法和大數(shù)據(jù)分析技術有了突飛猛進的發(fā)展,但目前教育評估中人工智能運用的基本原理和功能幾乎沒有明顯變化,即以總結(jié)性評估為主的計算機自動測評而非以學習過程數(shù)據(jù)為基礎的形成性評價為主。不可否認,人工智能評估的效率、速度和精準都有了顯著提高,能夠達到與人工評估非常相近的結(jié)果,甚至在某種程度上,特別是在標準化測試和自適應教學系統(tǒng)中發(fā)揮了計算機評估和反饋更為迅速、客觀、準確的優(yōu)勢。通過分析作文自動評分系統(tǒng)和計算機自適應測驗的發(fā)展狀況,本研究發(fā)現(xiàn)這些教育評估的核心應用已從機器學習的技術進步中受益,人工智能技術仍會不斷迭代。但是,寄希望于運用人工智能系統(tǒng)取代人工評估仍然是不現(xiàn)實的。將基于學生能力特征分析的計算機自適應測試、模仿人工判斷的作文自動評分系統(tǒng),與復雜學習過程的各種數(shù)據(jù)整合,可以提高教育評估的效率和有效性。精準的學習分析可以通過手機等移動設備為學生在慕課和智能導學系統(tǒng)的學習提供合適和有目的的形成性評估反饋,支持學生的自主學習。隨著計算機硬件技術和軟件系統(tǒng)的不斷進步,人工智能在教育評估中的應用,特別是在形成性評估中的應用潛力值得期待,但數(shù)據(jù)采集和算法方面的局限仍有待探討。