王 建,張?zhí)僖?/p>
(1.西南交通大學(xué)希望學(xué)院 外語系,四川 成都610400;2.商丘學(xué)院 外國語學(xué)院,河南 商丘476000)
近年來,國內(nèi)自主研發(fā)的自動作文評閱(Automated Writing Evaluation,簡稱AWE)系統(tǒng)如冰果、批改網(wǎng)及iWrite等被引入到英語寫作教學(xué)中并逐漸成為重要的形成性評估工具。這些系統(tǒng)不僅能提供及時評分,還可從詞匯、語法、內(nèi)容及組織結(jié)構(gòu)等方面提供詳盡的反饋與指導(dǎo)[1],解決了EFL(English as a Foreign Language)寫作教學(xué)中教師工作量過大、學(xué)生練習嚴重缺乏等諸多問題。AWE系統(tǒng)依托自然語言處理、人工智能、潛勢語義分析等技術(shù)的發(fā)展,使傳統(tǒng)的英語寫作教學(xué)模式適應(yīng)“智慧型教學(xué)”和“智慧型學(xué)習”的發(fā)展趨勢。我國AWE系統(tǒng)的研究要稍晚于國外,伴隨著AWE系統(tǒng)在教學(xué)中的廣泛運用而快速發(fā)展。本文旨在對近二十年于CSSCI來源期刊及外語類專業(yè)期刊發(fā)表的與AWE系統(tǒng)相關(guān)的實證研究進行分類梳理,總結(jié)該領(lǐng)域研究的現(xiàn)狀,分析存在的問題,為該領(lǐng)域研究的發(fā)展提供一定的參考。
首先,在中國期刊網(wǎng)中進行高級檢索,主題詞為“在線寫作/作文”“評閱/評價/評分系統(tǒng)”等,發(fā)表時間為2000—2019年,文獻來源為CSSCI來源期刊及外語類專業(yè)期刊;其次,閱讀檢索到的所有文章的摘要部分,直接篩除掉綜述類、介紹類文章;然后仔細閱讀剩余的文章內(nèi)容及參考文獻部分,找出檢索遺漏的符合條件的文章,最終獲得35篇(把此35篇文章作為研究對象)。
本文基于白麗芳、王建對AWE系統(tǒng)相關(guān)研究的綜述[2-3],對近二十年來AWE系統(tǒng)實證研究的總體趨勢、理論基礎(chǔ)、研究方法和研究主題進行詳細分析和述評,得出研究結(jié)果。
檢索發(fā)現(xiàn),我國AWE系統(tǒng)實證研究始于2005年,2006—2009年呈現(xiàn)空白期,2015年有9篇文章涉及該領(lǐng)域,達到峰值。2009—2016年是信息技術(shù)突飛猛進的一個階段,所以本領(lǐng)域研究受到了研究人員的廣泛關(guān)注。但2015年以后相關(guān)論文的發(fā)表數(shù)量有逐漸下降的趨勢,具體的數(shù)據(jù)如圖1所示。
圖1 2005—2019年AWE實證研究論文篇數(shù)走勢圖
細讀篩選的35項研究之后,筆者確定了4類
研究主題:效度研究(AWE系統(tǒng)作為測量工具的可靠性程度)、寫作結(jié)果研究(系統(tǒng)的使用能否提高學(xué)生的寫作水平)、寫作過程研究(系統(tǒng)的使用能否影響學(xué)生寫作構(gòu)思及修改)和使用者態(tài)度研究(學(xué)生或教師對在線寫作系統(tǒng)優(yōu)缺點的認知)。通過研究可以發(fā)現(xiàn),研究人員更多關(guān)注寫作結(jié)果和使用者態(tài)度(表1)。筆者亦發(fā)現(xiàn),效度研究往往與其他3個主題獨立存在,即研究人員通常對寫作結(jié)果、寫作過程及使用者態(tài)度進行交叉研究。
表1 AWE研究各主題相關(guān)論文篇數(shù)
在所有35項研究中,只有10項明確提出了研究的理論依據(jù)或理論框架,占總數(shù)的28.6%,其他研究并未說明理論基礎(chǔ)。1項研究以效度理論為指導(dǎo),探討了批改網(wǎng)的測量性(evaluation)或評分效度(scoring validity)、歸納性(generalization)和外推性(extrapolation)3個層面[4]。2項研究以技術(shù)接受模型(Technology Acceptance Model)為理論模型探討使用者對AWE系統(tǒng)使用的態(tài)度[5-6]。其余7項主要涉及AWE寫作過程的研究,往往以二語習得理論為依托,如中介作用理論、建構(gòu)主義理論、創(chuàng)造結(jié)構(gòu)理論[7]、布魯納結(jié)構(gòu)主義教學(xué)理論、過程化寫作理論、自我效能感理論、動態(tài)評估理論[8]、社會文化活動理論(Activity Theory)、互動假設(shè)交互理論(Interaction Hypothesis)[9]以及社會文化理論中的最近發(fā)展區(qū)(Zone of Proximity Development)理論[10]。
統(tǒng)計發(fā)現(xiàn),多數(shù)研究缺乏理論基礎(chǔ)的指導(dǎo)。同時值得一提的是,一些研究僅在研究設(shè)計部分簡單羅列相關(guān)理論,實際討論部分似乎“遺忘”了指導(dǎo)研究的理論框架,理論與應(yīng)用脫節(jié)嚴重,導(dǎo)致文章的研究深度不夠。
本節(jié)對國內(nèi)AWE系統(tǒng)實證研究的研究方法進行概述,具體包括各研究涉及的AWE工具、研究對象、研究類型及數(shù)據(jù)收集方法3個方面。
1.涉及的AWE工具
除1項研究未提及AWE系統(tǒng)的名稱之外,剩余34項研究共涉及國內(nèi)外5種系統(tǒng):批改網(wǎng)、iWrite、冰果、Writing Road Map(簡稱WRM)、E-rater。前三者為我國開發(fā)者針對國內(nèi)EFL學(xué)習者設(shè)計的在線評閱工具,而WRM和E-rater分別由美國麥格勞-希爾教育測評中心(McGraw-Hill Education)和美國教育考試服務(wù)中心(Educational Testing Service)推出,用戶涵蓋英語母語者、EFL或ESL(English as a Second Language)學(xué)習者。具體的研究統(tǒng)計如表2所示。數(shù)據(jù)顯示,國內(nèi)句酷批改網(wǎng)為研究人員最為關(guān)注的評閱工具,這與批改網(wǎng)在國內(nèi)的巨大影響力有著直接的關(guān)聯(lián),根據(jù)批改網(wǎng)的網(wǎng)站(http://www.pigai.org/),截至2020年4月20日11時,批改網(wǎng)已經(jīng)完成639 616 142篇作文的評閱任務(wù),而且每學(xué)期批改網(wǎng)會舉辦“百萬同題”寫作大賽,受眾較廣,影響較大。
表2 不同AWE工具相關(guān)的各主題論文篇數(shù)
2. 研究對象
AWE系統(tǒng)效度研究主要以大學(xué)本科學(xué)生產(chǎn)出的英語文本為研究對象,類型包含學(xué)生在系統(tǒng)上提交的課程作文[11]和從語料庫中選取的大規(guī)??荚囅迺r作文[4],研究樣本的數(shù)量從30篇到645篇不等。寫作結(jié)果和寫作過程相關(guān)研究主要針對大學(xué)本科各年級英語專業(yè)和非英語專業(yè)學(xué)生使用AWE系統(tǒng)前后產(chǎn)出的文章在總分、分項得分(analytical score)存在的差異以及利用反饋進行修改的情況、效果等,也有研究探討自動系統(tǒng)對高中生[12]和研究生[13]寫作水平的影響。使用者態(tài)度研究的對象除各階段學(xué)生外也涉及英語教師[14]。
3. 研究類型及數(shù)據(jù)收集
本研究按照文秋芳、林琳的分類方法將研究類型分為質(zhì)性、量化和混合式研究(質(zhì)性、量化相結(jié)合的方法)3類[15]。AWE效度研究中,人機一致性、歸納性和外推性效度均以量化研究設(shè)計,主要計算人工作文分數(shù)、機評分數(shù)及其他任務(wù)分數(shù)間的關(guān)聯(lián)。與寫作構(gòu)念相關(guān)的個別研究亦采用量化設(shè)計,統(tǒng)計文本的量化特征值,計算各個特征對機器分數(shù)的預(yù)測能力[16];也有兩項質(zhì)性研究,主要通過研究自動反饋推斷系統(tǒng)的評分構(gòu)念[17-18]。
寫作結(jié)果研究通過數(shù)據(jù)分析揭示系統(tǒng)的使用對學(xué)習者寫作能力的影響,主要為歷時研究,包含組內(nèi)比較和組間比較,前者只設(shè)計前測后測,不涉及對照組,后者通常設(shè)計實驗組與對照組比較二者間寫作成績是否存在顯著差異。過程研究主要比較學(xué)生使用AWE系統(tǒng)前后或參加實驗教學(xué)前后的文本差異,即學(xué)生是否利用系統(tǒng)反饋進行修改、修改的效果如何等,也有研究通過有聲思維的方法研究學(xué)生利用系統(tǒng)修改文章的過程[9]。AWE態(tài)度研究以質(zhì)性研究為主,多數(shù)研究采用開放式問卷和訪談的形式收集數(shù)據(jù),僅2項為純量化研究,以李克特5級量表為數(shù)據(jù)收集工具[5-6]。從前文可知,多數(shù)研究并非涉及一個主題,統(tǒng)計顯示87.5%的研究(30項)采用混合式研究方法,僅12.5%的研究(5項)為純量化研究,無純質(zhì)性研究。
本研究通過統(tǒng)計分析發(fā)現(xiàn)國內(nèi)AWE系統(tǒng)實證研究主要圍繞系統(tǒng)效度、寫作結(jié)果、寫作過程和使用者態(tài)度四大主題展開。下面詳細介紹各主題相關(guān)研究的結(jié)論并進行批判性述評。
1.AWE系統(tǒng)效度研究
測試學(xué)中廣義的效度概念指測量工具的有效性,即測量工具能夠準確測出所需要測量的事物的程度。AWE系統(tǒng)的效度有別于測試學(xué)中的效度概念,論證框架主要包含4個緯度:評分、歸納、外推和影響[19]。效度論證的具體方面較廣,從人機評分的一致性、機器評分的穩(wěn)定性、機評分數(shù)帶來的影響、到機器評分帶來的后撥效應(yīng)(wash-back effect)不等,詳細的論證框架如表3所示。
表3 AWE系統(tǒng)效度論證框架
國內(nèi)的效度研究主要關(guān)注評分效度,7項研究均探討了AWE系統(tǒng)與人工評閱者的一致性,5項研究涉及了人機評分構(gòu)念一致性,1項研究探討了系統(tǒng)的歸納性和外推性效度。國內(nèi)現(xiàn)有研究僅涉及了效度框架中的3個維度,未涉及影響維度,原因在于目前國內(nèi)AWE系統(tǒng)主要用于寫作教學(xué)中,并未應(yīng)用到高考、大學(xué)英語四、六級等大規(guī)模英語考試評閱中,因此研究人員并未展開相關(guān)的研究。相比,國外研發(fā)的早期AES(Automated Essay Scoring)系統(tǒng)主要用于評閱托福、GMAT等大規(guī)模高風險考試以降低人工成本、提升閱卷效率,因此涉及該維度的研究較多。國內(nèi)大規(guī)??荚嚾舨捎脵C器評分,影響維度必將成為AWE實證研究的新熱點。
效度研究普遍關(guān)注人機評分的一致性,但由于研究對象在性質(zhì)與數(shù)量上均存在差異,針對的AWE系統(tǒng)不一,且統(tǒng)計的數(shù)據(jù)指標也不盡相同,得出的結(jié)論便大相徑庭、不存在可比性。就相關(guān)性而言,較為普遍使用的是皮爾遜相關(guān)系數(shù)(Pearson’s correlation coefficient)。如張荔發(fā)現(xiàn)歷時一年的教學(xué)過程中56名大一學(xué)生產(chǎn)出的作文人工分數(shù)與批改網(wǎng)分數(shù)間的相關(guān)性較高,介于0.479~0.741[11]。李艷玲、田夏春報道了625篇“國際人才英語考試”(簡稱“國才考試”)作文的人工分數(shù)與iWrite分數(shù)間的相關(guān)性為0.566[4]。而白麗芳、王建得出的結(jié)論截然不同,該研究以“中國學(xué)習者英語語料庫”中分層抽樣選出的各150篇四、六級作文為研究語料,發(fā)現(xiàn)四級作文人機分數(shù)不顯著相關(guān),六級人機分數(shù)弱相關(guān),相關(guān)系數(shù)僅為0.391[2]。E-rater與人工的相關(guān)性更低,為0.324[17]。也有研究以克隆巴赫系數(shù)(Cronbach’s Alpha)作為人機間相關(guān)性的指標,如批改網(wǎng)的人機相關(guān)性為0.694[18],iWrite的為0.721[4],不過鮮有國外研究使用該系數(shù)反映人機分數(shù)的相關(guān)性。此外李艷玲、田夏春還報道了iWrite分數(shù)與人工分數(shù)間的卡帕系數(shù)(Cohen’s Kappa)為 0.351 8,說明人機評分高度一致[4]。
第4類指標為完全及相鄰吻合一致性(exact-plus-adjacent agreement),結(jié)果同樣存在差異。研究表明,批改網(wǎng)的人機完全一致率和相鄰吻合一致率高達83.93%和100%[11],iWrite的分別為38.45%和97.98%[4],但也有研究發(fā)現(xiàn)AWE系統(tǒng)對應(yīng)的一致率最高僅為10%和82.67%[2]。蔣艷、馬武林對比了WRM和批改網(wǎng)的評閱,發(fā)現(xiàn)二者評定學(xué)生同一篇作文的吻合度非常高;研究者對學(xué)生的作文從內(nèi)容、篇章結(jié)構(gòu)和句子結(jié)構(gòu)、詞匯運用等方面進行批改,得到了與批改網(wǎng)基本一致的成績[20]。此外,研究人員也計算人機分數(shù)差反映人機評分的一致性,但得出的結(jié)果不盡相同,有研究顯示某AWE系統(tǒng)的最大人機分數(shù)差高達9分(作文滿分為15分)[2],也有研究報道批改網(wǎng)人機平均分差僅為0.01分[11]。
5項研究涉及系統(tǒng)的寫作構(gòu)念,其中2項量化研究和3項質(zhì)性研究。白麗芳、王建利用軟件分析文本在詞匯、句法、語篇和錯誤四方面的量化特征建立機評分數(shù)的回歸模型,結(jié)果顯示,這些特征對四、六級作文分數(shù)的解釋力分別為66.8%和66.4%[2]??娝厍俜治隽吮悄茉u閱系統(tǒng)對191篇議論文打出的分數(shù)與文章中使用的元話語數(shù)量間的關(guān)系,發(fā)現(xiàn)元話語的使用能解釋80%以上的分數(shù)差異[16]。這2項研究通過分析文本量化特征與作文系統(tǒng)分數(shù)間的關(guān)系推斷AWE系統(tǒng)的評分機制,說明機器評分較多依賴淺層的量化特征。兩項研究各方面量化特征選取并不全面:白麗芳、王建選取的詞匯復(fù)雜特征僅為4項,句法復(fù)雜性特征僅為2項,語篇連貫性特征僅為5項,且指標選取的標準不詳;繆素琴僅計算了元話語使用數(shù)量,必須指出的是元話語的使用并非評判二語寫作質(zhì)量的重要參考指標,因此該研究結(jié)果很難對AWE系統(tǒng)的評分機制做出全面的推斷。質(zhì)性研究主要關(guān)注AWE系統(tǒng)的反饋點,得到的研究結(jié)果不一。結(jié)果顯示,批改網(wǎng)能夠?qū)υ~匯和淺層語法方面給予詳細評價,但無法判斷內(nèi)容、修辭、篇章結(jié)構(gòu)和邏輯、深層語法錯誤方面的問題[18][20],說明系統(tǒng)評分主要依據(jù)淺層特征,與量化研究的結(jié)論比較一致。然而,萬鵬杰發(fā)現(xiàn)E-rater在語法、寫作風格、結(jié)構(gòu)、布局和謀篇方面都與人工評閱相一致[17]。筆者認為,質(zhì)性研究僅通過對反饋點的分析無法準確推斷系統(tǒng)的評閱效度,因研究數(shù)據(jù)不詳實結(jié)果難以令使用者信服,因此未來的研究應(yīng)采用質(zhì)性和量化研究相結(jié)合的研究方法,兼顧文本全面的量化特征和自動反饋。
僅1項研究探討了AWE系統(tǒng)的歸納性和外推性。該研究發(fā)現(xiàn)批改網(wǎng)對3次作文的評分呈現(xiàn)顯著相關(guān)性,相關(guān)系數(shù)在0.403到0.498之間。系統(tǒng)分數(shù)與口語成績不存在顯著的相關(guān)性,但是與聽力(r=0.446)、閱讀(r=0.352)以及學(xué)習檔案袋(r=0.500)三項成績均顯著相關(guān)[11]。
總之,因目前國內(nèi)英語考試的寫作部分仍由人工評閱,AWE系統(tǒng)效度研究尚未引起國內(nèi)研究者及一線教師的廣泛關(guān)注。但隨著現(xiàn)代教育技術(shù)的不斷發(fā)展,以及測試省時省力、節(jié)約成本的需求,未來主觀題測評有可能融入機器評閱。此外,多數(shù)大學(xué)英語教師限于寫作評估的壓力將平時練習的作文均交由機器評閱,若機評分數(shù)無法反映學(xué)生真實的寫作水平,那么將機評分數(shù)直接納入學(xué)生最終成績的做法可能會招致不公平性問題。鑒于此,研究人員應(yīng)更多關(guān)注系統(tǒng)的效度問題,因為有效性是使用任何工具的前提。
2.寫作結(jié)果研究
寫作結(jié)果研究主要探討AWE系統(tǒng)的使用對作文質(zhì)量或?qū)W生寫作水平的影響,主要通過組內(nèi)比較和組間比較進行,二者在數(shù)量上五五開。前者比較受試者在使用系統(tǒng)前后作文的總分或在詞匯、句法、內(nèi)容等方面的分項得分是否有所提升,后者比較使用與不使用AWE系統(tǒng)受試寫作能力方面是否存在差異。組內(nèi)與組間比較研究均以縱向研究為主,歷時長短從4個月到1年半不等。
組內(nèi)研究首先對比受試者前后測產(chǎn)出的作文在總分方面的差異,所有8項研究得出的結(jié)論較為一致:后測作文分數(shù)顯著高于前測分數(shù),據(jù)此說明AWE系統(tǒng)的使用能夠提升學(xué)生的寫作水平。3項研究按照前測將受試者分為高分組和低分組,均發(fā)現(xiàn)低分組受試者在經(jīng)過AWE系統(tǒng)寫作訓(xùn)練后寫作水平的提高更為顯著[10][21][22]。此外,也有研究考慮了受試者性別的因素,將受試者分為男生組和女生組,發(fā)現(xiàn)后測僅男生的作文成績有顯著性提升[22]。通過對前后測作文分項得分的比較分析,多數(shù)研究發(fā)現(xiàn)AWE系統(tǒng)的使用有助于提升學(xué)生作文的各個方面,但因各研究關(guān)注的方面不同研究結(jié)果存在差異??傮w而言,使用AWE系統(tǒng)后,學(xué)生的文章更長、寫作規(guī)范(如拼寫)及句法等方面的錯誤明顯下降、銜接及邏輯性明顯提高[10][21][22],詞匯復(fù)雜度(低頻詞匯使用、詞匯豐富度、平均詞長等)有所提升[23-24]。黃紹瑩、張荔發(fā)現(xiàn)高分組與低分組受試者呈現(xiàn)不同的提升路徑:低分組后測文章在準確性、流暢性指標上有顯著提升,而高分組前后測文章在準確性、流暢性、復(fù)雜性指標上均無顯著性差異[22]。
組內(nèi)比較的研究設(shè)計存在以下缺陷:一是未設(shè)計實驗組及對照組,因此很難將寫作成績的提高僅僅歸因于AWE系統(tǒng)的使用,因所有研究均為歷時研究,學(xué)生作文成績的提升有可能得益于教學(xué)過程中的自然增長,與AWE系統(tǒng)的使用無關(guān);二是一半的研究前后測成績均由AWE系統(tǒng)給出,但值得注意的是在目前系統(tǒng)的評分信度及效度尚不明確的情況下,機評分數(shù)的提高不代表寫作水平的提升,研究者不能將二者混為一談。因此作文質(zhì)量的評判任務(wù)應(yīng)該至少由兩位人工評閱者完成,且提供評閱者內(nèi)部一致性數(shù)據(jù)。
組間比較的研究設(shè)計彌補了組內(nèi)比較的缺陷,設(shè)計實驗組(利用AWE平臺寫作)和對照組(不利用AWE平臺寫作),比較兩組受試者后測成績及詞匯、句法、內(nèi)容等方面是否有顯著提升。各研究得出的結(jié)果較為一致:經(jīng)過一段時期的實驗教學(xué),實驗組受試者的作文總體分數(shù)提升顯著,但文章分項得分的提升存在差異。蔣學(xué)清等發(fā)現(xiàn)實驗組作文在內(nèi)容、謀篇布局、句法、規(guī)范方面得分都高于對照組,但在語體、選詞等方面優(yōu)勢不明顯[25]。于莉等表明實驗組的篇章組織提高8%,幅度最大,流利度、作者聲音強度、寫作規(guī)范、選詞分別提高了7%、6%、6%和3%,提高幅度較小的是思想內(nèi)容,僅為2%[7]。唐錦蘭、吳一安利用AB交叉抽樣設(shè)計(AB cross-over sampling)的形式,盡量控制時間及任務(wù)難度對實驗結(jié)果的影響,前者發(fā)現(xiàn)實驗組在內(nèi)容、結(jié)構(gòu)、語體、詞匯、句法、規(guī)范6項維度均顯著提升[26],但后者發(fā)現(xiàn)實驗組內(nèi)容維度的提升不顯著[12]。李奕華發(fā)現(xiàn)批改網(wǎng)對遣詞造句發(fā)揮積極作用,其他方面作用較小[8]。周麗研究了AWE的使用對學(xué)生句法能力的影響,一學(xué)年的教學(xué)實驗發(fā)現(xiàn)實驗組句法的流利度、復(fù)雜度及準確度均總體顯著提升,但復(fù)句產(chǎn)出能力方面僅定語從句的使用存在顯著差異[27]。在研究設(shè)計上更為復(fù)雜的是王淑雯的研究,該研究除采用前測后測之外還設(shè)計了中測和延測,結(jié)果表明實驗組在詞匯、句法和技術(shù)規(guī)范方面顯著高于對照組[28]。組間比較雖然彌補了組內(nèi)比較的缺陷,但存在的類似問題是有2項研究的成績比較僅僅基于機評分數(shù),其他研究盡管避免了此問題,但并沒有報道人工評閱者之間的內(nèi)部一致性,結(jié)果的可靠性受到折損。
3.寫作過程研究
寫作過程研究主要關(guān)注學(xué)生利用AWE系統(tǒng)修改文章的次數(shù)(即學(xué)生的學(xué)習積極性)、采納哪些反饋點修改文章、修改的類型及成效。因研究受試存在差異得出的結(jié)論也不相同。
唐錦蘭、吳一安通過一年的實驗教學(xué)發(fā)現(xiàn),62.3%的學(xué)生修改作文的次數(shù)為1到2次,27.9%修改3到4次[26]。也有研究發(fā)現(xiàn)83%受試作文修改稿提交次數(shù)為2次[29],37%的受試修改稿提交次數(shù)大于10次,甚至多達66次[30]。而鐘彩順發(fā)現(xiàn)受試作文修改頻次不高,積極性大體呈遞減趨勢[13]。修改次數(shù)可以從某種程度上反映學(xué)生提高寫作質(zhì)量的動機以及學(xué)習的自主性,但黃紅兵發(fā)現(xiàn)26%的受試指出,在按照AWE反饋進行相應(yīng)修改并再次提交作文后出現(xiàn)分數(shù)偶有下降的現(xiàn)象[29],這可能會挫敗學(xué)生利用自動反饋進行修改的積極性,而且學(xué)生修改文章受功利性目的驅(qū)動,動機強度不夠,持續(xù)性不足[13]。
學(xué)生在利用AWE系統(tǒng)寫作過程中會關(guān)注到不同的反饋點,根據(jù)自我認知選擇性采納反饋修改文章。盧鹿發(fā)現(xiàn)受試者對糾錯性反饋點的關(guān)注率為98.8%,采納率為80%,拼寫錯誤提示全部采納,對詞匯和句子錯誤提示的采納率在80%以上,資源反饋意見關(guān)注率為28.6%[9]。鐘彩順指出,受試者關(guān)注的反饋點86%屬語言形式層面,結(jié)構(gòu)和意義分別只占6%和8%[13]。黃愛瓊、張文霞發(fā)現(xiàn)學(xué)生尤其關(guān)注批改網(wǎng)的詞匯警示和詞匯錯誤反饋點(如名詞、冠詞、動詞和搭配錯誤)[31]。
過程研究也關(guān)注受試者對不同反饋方式的利用情況。如魏梅發(fā)現(xiàn),在內(nèi)容方面受試者對教師、同伴和批改網(wǎng)的反饋采納率分別為68.4%、31.6% 和0%,組織結(jié)構(gòu)為50%、50%和0%,語言運用為27.5%、22.2%和50.3%,文本設(shè)計為52%、24%和24%[32]。然而,李廣鳳指出,學(xué)生對批改網(wǎng)反饋、教師反饋和同伴反饋的總體采納率為86.1%、73.1%、61.2%,在形式修改方面,基于批改網(wǎng)反饋、教師反饋和同伴反饋的修改點為79.4 %、13.7%、6.9%,意義層面的修改點主要集中在微觀結(jié)構(gòu),且以教師反饋為主,所占比例為73.6%,同伴反饋和批改網(wǎng)反饋采納率分別為占20.9%和5.5%[33]。盧鹿的個案研究顯示學(xué)生對批改網(wǎng)的糾錯性反饋關(guān)注率為98.8%,采納率為80%,全部采納拼寫錯誤警告,詞匯、句子錯誤警告的采納率超過80%,學(xué)習資源反饋關(guān)注率為28.6%,總體的修改成功率為78.8%[9]。也有研究比較了學(xué)生利用QQ、iWrite及Peerceptiv3個不同的平臺修改文章的過程,發(fā)現(xiàn)學(xué)生利用不同的平臺解決不同的問題,學(xué)生傾向于利用Peerceptiv修訂內(nèi)容和結(jié)構(gòu)表達,利用iWrite 修改語言[34]??傮w來說,學(xué)生主要將AWE系統(tǒng)作為潤色文章語言表達的工具,因為限于目前技術(shù)的缺陷,機器還無法真正讀懂文章,只能依靠淺層的量化特征來評閱作文。此外,目前系統(tǒng)的錯誤識別準確率有待提高,比如iWrite錯誤標注的正確率僅為45.42%[35],批改網(wǎng)僅為45.77%[36],技術(shù)規(guī)范類和詞法類錯誤的標注正確率較高,句法類較低,錯誤類型的識別也存在問題。學(xué)生利用自動反饋進行修改也可能會受到反饋質(zhì)量的影響,但二者之間的關(guān)系尚需更多的研究證明。
陳冰青、張荔涉及了修改類型方面的研究,該研究發(fā)現(xiàn)56名非英語專業(yè)大一學(xué)生在修改類型上數(shù)量排序依次為替換、添加、刪除和調(diào)序[37]。具體而言,學(xué)生在詞匯、寫作規(guī)范方面使用替換策略最多,其次為刪除和添加策略,未使用調(diào)序策略,在段落層面很少使用各個修改策略[37]。
目前國內(nèi)有關(guān)學(xué)習者如何利用AWE系統(tǒng)修改文章的研究主要停留在對比學(xué)習者修改前后的文本差異階段,如反饋點的質(zhì)量、學(xué)生對自動反饋的關(guān)注率、采用率及文章修改的質(zhì)量等量化指標。然而,寫作過程本身是一個紛繁復(fù)雜、有關(guān)“寫作者”的過程,因此未來的研究可以從“寫作者”著手,關(guān)注學(xué)習者利用系統(tǒng)寫作的心理過程及情感體驗、在線寫作過程中對自我身份角色認同及重塑等。這些都是目前國內(nèi)外研究的空白,可結(jié)合教育心理學(xué)相關(guān)的理論知識展開探究。
4.使用者態(tài)度研究
態(tài)度研究主要涉及教師及學(xué)生使用者對AWE系統(tǒng)提升寫作質(zhì)量的認知及系統(tǒng)存在的優(yōu)缺點的看法。這類研究主要以問卷(開放式或量表式)及訪談為研究工具,質(zhì)性研究為主要研究方法。同樣,因受試群體不同,結(jié)果也呈現(xiàn)差異性。
現(xiàn)有研究主要發(fā)現(xiàn),首先,受試學(xué)生認為AWE系統(tǒng)的使用能提升寫作興趣、增強寫作自信、提高自我效能感、降低寫作焦慮感[6][38],但黃紹瑩、張荔發(fā)現(xiàn)批改網(wǎng)無法提升學(xué)生寫作興趣、無法降低寫作焦慮度[22]。其次,學(xué)生認為AWE系統(tǒng)的使用能提升自己的寫作能力[39]。最后,通過體驗在線寫作一段時間后,學(xué)生認為系統(tǒng)的主要優(yōu)點是反饋及時,能有效彌補傳統(tǒng)教師評閱的滯后性,但反饋過于籠統(tǒng)抽象、機械化,主要涉及淺層的詞匯、語法方面,忽視了作文內(nèi)容、邏輯、篇章結(jié)構(gòu)及寫作思維方面的指導(dǎo),因此多數(shù)受試者傾向于教師反饋,認為自動反饋與教師反饋相結(jié)合可以更好指導(dǎo)寫作[40]。此外,吳一安、唐錦蘭探究了英語教師對AWE系統(tǒng)的態(tài)度,研究表明教師對寫作教學(xué)過程有了新的認知,更加關(guān)注教學(xué)過程,調(diào)整了評價重點,教師的角色發(fā)生嬗變、更加多元化[14]。
值得一提的是,有關(guān)AWE態(tài)度的研究存在設(shè)計上的問題,尤其是個別量化研究利用李克特5級量表為數(shù)據(jù)收集工具,但是沒有報道量表問題的依據(jù)、編寫過程及信度問題;此外,開放式問卷及訪談問題等是否具有代表性都未見提及,未來的研究可規(guī)避此類問題,使研究設(shè)計更為完美。
從近年來發(fā)表的期刊論文數(shù)量及主題來看,AWE系統(tǒng)的應(yīng)用研究已到達了瓶頸期,復(fù)制性研究較多,鮮有研究能夠進一步推陳出新。未來此領(lǐng)域的研究不僅需要彌補已有研究的缺陷,還需從新的視角進行探索跳出目前的困境。筆者認為,未來的研究可以從以下兩個方面進行。
如前文所示,現(xiàn)有的研究在研究設(shè)計方面存在以下缺陷:一是研究缺乏理論基礎(chǔ)的指導(dǎo)或理論與實踐相脫離,研究結(jié)果及討論顯得牽強附會、深度不夠;二是涉及的受試群體單一,覆蓋面不廣,結(jié)果的推廣性不強;三是研究工具單一,主要為調(diào)查問卷和開放式訪談,且問卷的設(shè)計過于隨意、不夠規(guī)范。
針對以上不足,未來的研究可在現(xiàn)有研究設(shè)計的基礎(chǔ)上進行完善:一是結(jié)合二語習得、教育心理學(xué)或其他領(lǐng)域的理論進行深度研究;二是每項研究的受試群體應(yīng)多樣化、更具代表性;三是研究工具應(yīng)多樣化,如可利用屏幕記錄或Inputlog等軟件研究受試者利用AWE系統(tǒng)寫作或修改文章的過程、學(xué)生在寫作或修改過程中存在的個體差異及成因;四是規(guī)范量表式問卷的設(shè)計,如利用因子分析和信度分析保證問卷的可靠性和實用性。
首先,AWE系統(tǒng)的開發(fā)與研究在一定程度上可以提高作文評價的效率,但各系統(tǒng)并非完美,因此長期被忽略的效度研究應(yīng)得到應(yīng)有的重視。目前國內(nèi)效度研究主要涉及人機評分一致性,僅1項研究分析了系統(tǒng)的外推性和歸納性,系統(tǒng)的影響效度尚未涉及,未來研究值得關(guān)注此方面,為未來機器評閱融入國內(nèi)大規(guī)模英語測試(如全國大學(xué)生英語四六級、高考英語及“國才考試”等)作文評分中提供依據(jù)。比如,可探索AWE系統(tǒng)的運用能否給英語寫作教學(xué)及學(xué)生語言能力提升產(chǎn)生一定正面或負面的反撥效應(yīng)。
其次,過程研究除涉及受試者前后測作文文本的分析外,還可考慮到寫作者在寫作過程中的心理狀態(tài)、情感狀態(tài),這方面的研究需要與心理學(xué)方面的專家通力合作,雖然難度較大,但可以擴大AWE系統(tǒng)研究的研究范式,不局限于寫作教學(xué)。此外,學(xué)生在利用系統(tǒng)寫作、修改的過程中自我身份的認知是否有所改變也是未來需要關(guān)注的領(lǐng)域。
再次,國內(nèi)AWE系統(tǒng)如批改網(wǎng)允許學(xué)生在線互評,但鮮有研究涉及此領(lǐng)域。同伴如何利用在線平臺相互評閱,呈現(xiàn)何種特點,是否具有個體差異等均為尚需回答的問題。
最后,相對于國外有關(guān)AWE系統(tǒng)及軟件的開發(fā)研究,國內(nèi)此領(lǐng)域產(chǎn)學(xué)研的結(jié)合較為滯后,這從某種程度上制約了相關(guān)領(lǐng)域的發(fā)展與人才的培養(yǎng)。雖然國內(nèi)外開發(fā)商或研究者聲稱系統(tǒng)能夠針對內(nèi)容進行客觀評價,但教學(xué)實踐表明該方面的問題仍懸而未決。因此,AWE系統(tǒng)開發(fā)者需與一線教師合作開發(fā)更加適合二語寫作教學(xué)及評價的工具,解決AWE系統(tǒng)長期以來面臨的無法真正讀懂文章內(nèi)容的老大難問題,消除使用者的顧慮。
本文對近二十年來國內(nèi)AWE系統(tǒng)的實證研究進行了梳理,發(fā)現(xiàn)此領(lǐng)域的研究主要涉及四個方面的主題:效度研究、寫作結(jié)果、寫作過程及態(tài)度研究,各方面的研究存在比例失衡的現(xiàn)象,效度研究受到的關(guān)注不夠。文章對此領(lǐng)域研究進行了回顧與述評,指出了各方面研究在設(shè)計上存在的不足并提供了相應(yīng)的意見,最后指出未來研究應(yīng)完善研究設(shè)計并深化本領(lǐng)域的研究,以擺脫AWE系統(tǒng)研究范式的桎梏。