張 荔 上海交通大學(xué)
自動(dòng)作文評(píng)分系統(tǒng)測(cè)量性、歸納性和外推性效度研究*
張 荔 上海交通大學(xué)
研究人員對(duì)常用的自動(dòng)作文評(píng)閱(AWE)系統(tǒng)PEG、IEA、e-rater、IntelliMetric等都開(kāi)展過(guò)大量效度研究,對(duì)AWE系統(tǒng)的發(fā)展起到了積極作用。然而,針對(duì)我國(guó)自主研發(fā)的AWE系統(tǒng)批改網(wǎng)的效度研究卻十分有限。本研究從測(cè)量性、歸納性和外推性三方面對(duì)批改網(wǎng)效度加以驗(yàn)證,結(jié)果顯示,批改網(wǎng)的人機(jī)評(píng)分同一分?jǐn)?shù)檔內(nèi)的完全一致性以及完全加相鄰分?jǐn)?shù)檔一致性與國(guó)外同類AWE系統(tǒng)基本相似,人機(jī)評(píng)分顯著相關(guān),說(shuō)明其具有一定的測(cè)量性,但是相關(guān)性略低于國(guó)外其它AWE系統(tǒng)。批改網(wǎng)對(duì)不同任務(wù)作文評(píng)分呈現(xiàn)顯著相關(guān)性,顯示出一定的歸納性,但相關(guān)性略低于人工評(píng)分間的相關(guān)性以及國(guó)外其它AWE系統(tǒng)的人機(jī)評(píng)分相關(guān)性。批改網(wǎng)作文評(píng)分與聽(tīng)力、閱讀以及學(xué)習(xí)檔案袋分?jǐn)?shù)顯著相關(guān),具有一定的外推性,且相關(guān)性高于國(guó)外其它多數(shù)AWE系統(tǒng)。研究也發(fā)現(xiàn),批改網(wǎng)對(duì)不同任務(wù)作文評(píng)分有顯著差異,系統(tǒng)評(píng)分與口語(yǔ)成績(jī)未呈現(xiàn)顯著相關(guān)性。研究者對(duì)此進(jìn)行了解釋。本研究較為全面地對(duì)批改網(wǎng)系統(tǒng)的效度進(jìn)行了驗(yàn)證,對(duì)于系統(tǒng)的開(kāi)發(fā)、利用和改進(jìn)有著積極意義。
自動(dòng)作文評(píng)分,效度,測(cè)量性,歸納性,外推性
效度是測(cè)量工具能準(zhǔn)確測(cè)出所測(cè)量事物的程度,簡(jiǎn)單地說(shuō)是指測(cè)量工具或手段的準(zhǔn)確性和有用性。某一AWE系統(tǒng)能夠從多大程度上測(cè)量學(xué)生的寫作質(zhì)量和幫助學(xué)生提升寫作水平是十分關(guān)鍵的問(wèn)題。國(guó)外研究人員對(duì)PEG(Kukich 2000)、IEA(Landauer et al.2000), e-rater(Ramineni et al.2012;Attali Lewis&Steier 2013;Weigle 2010,2011),IntelliMetric(Elliot 2003;Vantage Learning 1999,2001;Powers,Escoffery&Duchnowski 2015)Criterion(Klobucar et al.,2013) 等常用 AWE系統(tǒng)進(jìn)行了效度研究,并取得了一定的進(jìn)展。我國(guó)研究人員也針對(duì)自主研發(fā)的批改網(wǎng)AWE系統(tǒng)開(kāi)展了大量研究,但是這些研究主要集中在系統(tǒng)對(duì)寫作教學(xué)的作用,有關(guān)效度的研究比較少,且這些研究往往局限于效度的某一方面,未從效度的多個(gè)層面加以探究。因此本研究將著眼于測(cè)量性、歸納性和外推性,對(duì)批改網(wǎng)進(jìn)行更為全面的效度檢驗(yàn)。
2.1 理論基礎(chǔ)
美國(guó)心理協(xié)會(huì)將效度定義為“證據(jù)能夠支持基于分?jǐn)?shù)的推論的程度,它是指使用測(cè)量做出的某種特定的推論而不是測(cè)量本身是否有效”(AERA1985:9)。在測(cè)試研究中,效度是指“基于測(cè)試分?jǐn)?shù)所做出的推理行為的準(zhǔn)確性和合理性的程度” (Messick 1989:13)。從傳統(tǒng)觀念來(lái)看,效度可分為內(nèi)容效度、關(guān)于標(biāo)準(zhǔn)的效度和結(jié)構(gòu)效度。而現(xiàn)代效度的概念又增加了解釋性和對(duì)分?jǐn)?shù)的使用,換句話說(shuō),效度包含對(duì)分?jǐn)?shù)的解釋所包含的價(jià)值的評(píng)估和使用測(cè)試結(jié)果的社會(huì)效應(yīng)(Yang et al.2002)。研究人員提出效度研究的五個(gè)方面:測(cè)量性(evaluation)、解釋性(interpretation)、外推性(extrapolation)、歸納性(generalization) 和實(shí)用性 (utilization)(Enright&Quinlan 2010; Williamson et al.2012, Xi 2010; Chapelle Cotos&Lee 2015)。測(cè)量性是評(píng)分是否能夠體現(xiàn)寫作能力與分?jǐn)?shù)之間的關(guān)系,也就是說(shuō),根據(jù)評(píng)分標(biāo)準(zhǔn)給一篇作文評(píng)分,那么這個(gè)分?jǐn)?shù)是否真正意義上準(zhǔn)確地反映作文的實(shí)際水平。在自動(dòng)作文評(píng)閱系統(tǒng)來(lái)看,評(píng)分標(biāo)準(zhǔn)必須能夠抓住寫作能力的各個(gè)方面,評(píng)判必須嚴(yán)格按照評(píng)分標(biāo)準(zhǔn)。測(cè)量性主要體現(xiàn)在系統(tǒng)評(píng)分與人工評(píng)分者的評(píng)分是否具有一致性和相關(guān)性,換句話說(shuō)就是研究自動(dòng)作文評(píng)分的信度。解釋性指的是自動(dòng)評(píng)分系統(tǒng)是否反映寫作評(píng)分的結(jié)構(gòu)效度,也就是說(shuō),評(píng)分是否體現(xiàn)寫作能力所需包含的各項(xiàng)內(nèi)容,從某種意義上來(lái)說(shuō),就是評(píng)分標(biāo)準(zhǔn)是否體現(xiàn)寫作能力的各個(gè)方面。解釋性主要體現(xiàn)在評(píng)分對(duì)寫作結(jié)構(gòu)效度的表征性。也就是系統(tǒng)評(píng)分要素與人工評(píng)分要素是否一致。歸納性是指系統(tǒng)評(píng)分可以推測(cè)出其它類似的寫作任務(wù)的得分情況。其依據(jù)體現(xiàn)在不同寫作任務(wù)之間的系統(tǒng)評(píng)分一致性和系統(tǒng)評(píng)分對(duì)其它相似寫作任務(wù)的代表性。歸納性的另一方面體現(xiàn)在自動(dòng)作文評(píng)分系統(tǒng)究竟在多大程度上可以被認(rèn)為是另外一個(gè)評(píng)分員,是否可以推測(cè)出人工評(píng)分的分?jǐn)?shù)。外推性是指分?jǐn)?shù)是否能夠?qū)δ繕?biāo)領(lǐng)域的表現(xiàn)加以推導(dǎo)。所謂目標(biāo)領(lǐng)域,可以指各種不同的寫作領(lǐng)域,比如學(xué)術(shù)寫作、實(shí)用英語(yǔ)寫作、商務(wù)英語(yǔ)寫作;亦或與寫作能力相關(guān)的其它內(nèi)容,例如聽(tīng)力、閱讀、自我及教師評(píng)價(jià)、學(xué)習(xí)檔案袋等等。通過(guò)自動(dòng)作文系統(tǒng)評(píng)分與目標(biāo)領(lǐng)域表現(xiàn)得分的關(guān)系可證明其外推性。實(shí)用性是一種對(duì)語(yǔ)言學(xué)習(xí)政策和策略的決定作用或是對(duì)語(yǔ)言教學(xué)實(shí)踐的預(yù)測(cè)作用,也就是系統(tǒng)評(píng)分結(jié)果對(duì)政策實(shí)施的效應(yīng)。在自動(dòng)評(píng)分中就體現(xiàn)在對(duì)個(gè)人學(xué)習(xí),教學(xué)大綱制定和教學(xué)政策實(shí)施的影響作用。比如使用自動(dòng)作文評(píng)分對(duì)教與學(xué)是否產(chǎn)生正面的影響作用,是否對(duì)某種教學(xué)政策的制定產(chǎn)生積極影響,是否合理地適用于分級(jí)教學(xué)的決策過(guò)程、是否對(duì)學(xué)生考前準(zhǔn)備產(chǎn)生有效推動(dòng)作用等。限于文章篇幅,且對(duì)批改網(wǎng)的解釋性(何旭良2013;張荔、盛越2015) 和實(shí)用性(楊曉瓊、戴運(yùn)財(cái)2015;石曉玲2012) 以往研究已有所涉及,本研究?jī)H對(duì)批改網(wǎng)的測(cè)量性、歸納性和外推性加以研究。
2.2 相關(guān)研究綜述
對(duì)于測(cè)量性的研究主要考察人機(jī)評(píng)分的相關(guān)性和一致性兩個(gè)指標(biāo)。從相關(guān)性指標(biāo)來(lái)看,PEG的人機(jī)評(píng)分的相關(guān)性為0.72-0.78,高于人工評(píng)分者之間0.55-0.75的相關(guān)性(Page&Peterson,1995)。Kukich(2000) 則發(fā)現(xiàn)PEG的人機(jī)評(píng)分相關(guān)性達(dá)0.78,低于人工評(píng)分者間0.85的相關(guān)性。根據(jù)Landauer et al.(2000) 的報(bào)告,IEA人機(jī)評(píng)分的相關(guān)性達(dá)到0.85,與人工評(píng)分在詞匯和文本的意義方面有較高的相似性。Landauer et al.(2003)對(duì)IEA系統(tǒng)的可靠性分析發(fā)現(xiàn)人機(jī)評(píng)分的相關(guān)性為0.81,略低于人工評(píng)分者之間0.83的相關(guān)性。Folze et al.(2013) 對(duì)IEA進(jìn)行人機(jī)評(píng)分對(duì)比研究后發(fā)現(xiàn)相關(guān)性達(dá)到0.88,高于人工評(píng)分者之間0.79的相關(guān)性。對(duì)IntelliMetric的一系列可靠性評(píng)估研究表明,人機(jī)評(píng)分的相關(guān)性為0.50-0.90(Elliot 2003;Vantage Learning 1999,2001)。 對(duì)e-rater的一系列研究發(fā)現(xiàn)人機(jī)評(píng)分相關(guān)性為0.66-0.95(Attali&Burstein 2004;Burstein,Chodorow&Leacock 2004;Powers,Escoffery&Duchnowski 2015;Valenti et al.2003;Attali 2015)。由此可見(jiàn),國(guó)外多數(shù)AWE系統(tǒng)人機(jī)評(píng)分的相關(guān)性高于0.7,但也有個(gè)別研究結(jié)果顯示人機(jī)評(píng)分相關(guān)性在0.5-0.7之間。對(duì)于人機(jī)評(píng)分與人工評(píng)分相關(guān)性的比較,不同的研究結(jié)果也有所不同,人機(jī)評(píng)分相關(guān)性或高于或低于人工評(píng)分者間的相關(guān)性。從一致性指標(biāo)來(lái)看,一系列IntelliMetric可靠性評(píng)估研究表明,人機(jī)評(píng)分的完全一致性為87%-98%,完全一致性加相鄰一致性為94%-100%(Elliot 2003;Vantage Learning1999,2001)。e-rater人機(jī)評(píng)分的完全一致性為56-61%,完全加相鄰一致性都是98%-99%,與人工評(píng)分者間的一致性基本持平(Dekli2006)。Dikli(2006) 認(rèn)為,就滿分為6分的作文,若人機(jī)評(píng)分達(dá)到70%的完全一致性和0.70的相關(guān)性,且與人工評(píng)分者之間的均分差別不大于0.1,則說(shuō)明系統(tǒng)具有較好的信度或測(cè)量性。
對(duì)于歸納性的研究主要從系統(tǒng)測(cè)量不同寫作任務(wù)的相關(guān)性和差異性來(lái)加以評(píng)定。Attali(2007) 對(duì)5000名兩次參加托福考試學(xué)生的寫作成績(jī)進(jìn)行效度的歸納性研究發(fā)現(xiàn),使用e-rater對(duì)兩次作文評(píng)分相關(guān)性達(dá)到0.71,人工兩次評(píng)分間的相關(guān)性為0.54,因此系統(tǒng)對(duì)兩次作文評(píng)分的相關(guān)性高于人工評(píng)分。次年,Attali(見(jiàn)Enright&Quinlan 2010)) 又針對(duì)14,000名學(xué)生三個(gè)月內(nèi)的兩次托??荚囎魑姆?jǐn)?shù)進(jìn)行相關(guān)性檢驗(yàn),結(jié)果發(fā)現(xiàn),人工評(píng)分兩次作文相關(guān)性為0.53,E-rater兩次作文評(píng)分相關(guān)性為0.80。由此可見(jiàn),從歸納性來(lái)看,E-rater系統(tǒng)評(píng)分高于人工評(píng)分。Weigle(2011) 則分別比較了人工評(píng)分和e-rater評(píng)分在兩次不同寫作任務(wù)間的差異性,他使用配對(duì)樣本T檢驗(yàn)對(duì)e-rater兩次作文評(píng)分的結(jié)果進(jìn)行比較后發(fā)現(xiàn),無(wú)論人工評(píng)分(t=0.75,p=0.45)還是系統(tǒng)評(píng)分(t=0.24,p=0.79),兩次作文的均分都沒(méi)有顯著差異,體現(xiàn)出系統(tǒng)評(píng)分具有較好的一致性。因此系統(tǒng)評(píng)分體現(xiàn)了較好的歸納性效度。
對(duì)于外推性的效度研究主要看系統(tǒng)評(píng)分與體現(xiàn)語(yǔ)言能力的其它測(cè)試性(如聽(tīng)力、閱讀、口語(yǔ)成績(jī))或非測(cè)試性(如師生問(wèn)卷評(píng)定、檔案袋評(píng)分等) 指標(biāo)的相關(guān)性。Ramineni等(2012) 將系統(tǒng)評(píng)分與閱讀、聽(tīng)力、口語(yǔ)以及去除寫作的其它項(xiàng)目總分進(jìn)行相關(guān)性檢驗(yàn)后發(fā)現(xiàn),人工作文評(píng)分與以上各項(xiàng)的相關(guān)性分別為0.53、0.53、0.58和0.62,而系統(tǒng)評(píng)分與以上各項(xiàng)的相關(guān)性則分別為0.54、0.52、0.55、0.61,人工評(píng)分與系統(tǒng)評(píng)分的外推力基本相同。Ramineni(2013) 又將e-rater對(duì)學(xué)生四篇作文的評(píng)分與入學(xué)考試閱讀題、多項(xiàng)選擇題、作文題、學(xué)期累積GPA分?jǐn)?shù)、寫作課程得分和個(gè)人學(xué)習(xí)記錄檔案袋進(jìn)行了相關(guān)性檢驗(yàn),結(jié)果發(fā)現(xiàn)e-rater與以上各項(xiàng)的相關(guān)性分別為0.23-0.35、0.29-0.42、0.37-0.46、0.10-0.23、0.17-0.34和0.26-0.41,部分項(xiàng)目顯示出一定的相關(guān)性,但總體來(lái)看相關(guān)性不是很強(qiáng)。Weigle(2010)分析了人機(jī)評(píng)分分別與其它體現(xiàn)寫作能力的非測(cè)試性指標(biāo)之間的相關(guān)性,包括學(xué)生自評(píng)、教師評(píng)價(jià)、課堂作文。結(jié)果發(fā)現(xiàn)系統(tǒng)評(píng)分與這些非測(cè)試性指標(biāo)的相關(guān)性在0.30到0.40之間,略低于人工評(píng)分與指標(biāo)的相關(guān)性。Weigle(2011)又使用網(wǎng)絡(luò)問(wèn)卷收集到學(xué)生對(duì)自身聽(tīng)、說(shuō)、讀、寫的自我評(píng)分以及教師對(duì)學(xué)生的整體學(xué)術(shù)表現(xiàn)、寫作能力、口語(yǔ)能力、英語(yǔ)語(yǔ)言能力的評(píng)分,并將這些評(píng)分與學(xué)生托福網(wǎng)考的e-rater評(píng)分之間進(jìn)行了相關(guān)性檢驗(yàn)。結(jié)果發(fā)現(xiàn)e-rater與學(xué)生自評(píng)的聽(tīng)、說(shuō)、讀、寫的相關(guān)性分別為0.23、0.26、0.36和0.36,略低于人工作文評(píng)分與此的相關(guān)(0.29,0.31,0.40,0.41),與教師對(duì)學(xué)生的整體學(xué)術(shù)表現(xiàn)、寫作能力、口語(yǔ)能力、英語(yǔ)語(yǔ)言能力的評(píng)分的相關(guān)性分別為0.21、0.28、0.27和0.34,略低于人工作文評(píng)分與此的相關(guān)性 (0.23、0.31、0.31、0.38)。Klobucar等人(2013)從其它測(cè)試或非測(cè)試性質(zhì)的指標(biāo)與自動(dòng)作文評(píng)分的關(guān)系對(duì)Criterion的外推性進(jìn)行了研究,這些內(nèi)容包括SAT寫作測(cè)試分?jǐn)?shù)、學(xué)習(xí)記錄檔案袋分?jǐn)?shù)以及學(xué)科成績(jī)。他們于2009和2010年進(jìn)行了兩次數(shù)據(jù)采集和分析,結(jié)果發(fā)現(xiàn)Criterion與SAT的相關(guān)性分別為為0.43和0.41,與學(xué)習(xí)記錄檔案袋的相關(guān)性為0.37和0.39,與學(xué)科成績(jī)的相關(guān)性為0.22和0.29,高出SAT與學(xué)習(xí)記錄檔案袋分?jǐn)?shù)以及學(xué)科成績(jī)的相關(guān)性。說(shuō)明從外推性來(lái)看,Criterion比SAT的效度更高。
以上研究顯示,國(guó)外的AWE系統(tǒng)從測(cè)量性、歸納性和外推性這幾項(xiàng)指標(biāo)來(lái)看顯示了一定的效度,尤其在測(cè)量性和歸納性方面相關(guān)系數(shù)都比較高,而從外推性來(lái)看相關(guān)系數(shù)比較低。不同研究顯示出高于或者低于人工評(píng)分或其它測(cè)試成績(jī)的外推性。為了解批改網(wǎng)的測(cè)量性、歸納性和外推性效度,本研究提出以下三個(gè)問(wèn)題:
1)同一任務(wù)系統(tǒng)評(píng)分與人工評(píng)分的一致性和相關(guān)性如何(測(cè)量性)?
2)不同任務(wù)系統(tǒng)評(píng)分的一致性和相關(guān)性如何(歸納性)?
3)系統(tǒng)評(píng)分與反應(yīng)語(yǔ)言能力的其它測(cè)試或非測(cè)試指標(biāo)(聽(tīng)、說(shuō)、讀等其它測(cè)試項(xiàng)目和學(xué)習(xí)記錄檔案袋)的相關(guān)性如何(外推性)?
3.1 研究對(duì)象
上海交通大學(xué)計(jì)算機(jī)、數(shù)學(xué)、物理、化學(xué)、生物等專業(yè)56名大一學(xué)生參與了該研究,其中男生47名、女生9名。他們被分為兩個(gè)英語(yǔ)教學(xué)班,由同一名教師教授大學(xué)英語(yǔ)課程。在為期16周的大學(xué)英語(yǔ)教學(xué)中完成了同樣的教學(xué)任務(wù)和測(cè)試任務(wù)。
3.2 研究工具
研究工具主要包括寫作任務(wù),學(xué)期末水平考試、學(xué)期末外教口試和學(xué)習(xí)記錄檔案袋。學(xué)生共完成三次寫作任務(wù),題目分別為“My Idea of a Good College Teacher”、“My Expectation about Life in the University”和根據(jù)大學(xué)是否要晨跑的閱讀材料自擬題目的任務(wù),每次作文練習(xí)相隔時(shí)間一個(gè)月左右,字?jǐn)?shù)要求200字以上。學(xué)期結(jié)束時(shí),所有學(xué)生參加了學(xué)校統(tǒng)一舉行的水平測(cè)試,包含聽(tīng)力(長(zhǎng)對(duì)話、復(fù)合式聽(tīng)寫、簡(jiǎn)答題和聽(tīng)譯) 閱讀(15選10完形填空、四選一完形填空、長(zhǎng)篇閱讀理解簡(jiǎn)答)和作文。學(xué)期末所有學(xué)生還進(jìn)行了口語(yǔ)考試,由外教就某個(gè)題目與學(xué)生進(jìn)行交談,并根據(jù)統(tǒng)一的評(píng)分標(biāo)準(zhǔn)給出分?jǐn)?shù)。整個(gè)學(xué)期英語(yǔ)學(xué)習(xí)進(jìn)程都使用電子檔案袋進(jìn)行記錄和整理,包括期中/末筆試成績(jī),期初/末口試成績(jī)、中外教師給出的課堂表現(xiàn)和作業(yè)情況平時(shí)成績(jī)、并將此記錄按期中筆試10%,期末筆試50%,外教口試10%,外教平時(shí)成績(jī)10%,中教平時(shí)成績(jī)20%的比例得出每個(gè)學(xué)生教學(xué)檔案袋的最終得分。
3.3 數(shù)據(jù)收集和分析過(guò)程
學(xué)生將三次作文提交至批改網(wǎng),系統(tǒng)設(shè)定為四級(jí)打分公式,總分15分,得出相應(yīng)的批改網(wǎng)得分。學(xué)生會(huì)根據(jù)批改網(wǎng)反饋進(jìn)行反復(fù)修改,但本研究只使用了批改網(wǎng)對(duì)作文第一稿的評(píng)分,這是因?yàn)槌醺逦唇?jīng)外界因素影響(如根據(jù)批改網(wǎng)或教師的反饋進(jìn)行修改),比較能夠真實(shí)反映學(xué)習(xí)者當(dāng)前的作文水平。兩位多次參加四級(jí)評(píng)分的教師對(duì)三次作文的初稿進(jìn)行了人工評(píng)分,然后我們將這56位學(xué)生的三次作文分別進(jìn)行批改網(wǎng)和人工評(píng)分的相關(guān)性和一致性檢驗(yàn),即系統(tǒng)測(cè)量性效度檢測(cè)。接著我們又進(jìn)行系統(tǒng)歸納性效度檢測(cè),我們將批改網(wǎng)對(duì)每次作文初稿的評(píng)分進(jìn)行了兩兩相關(guān)性檢驗(yàn),同時(shí)計(jì)算每次作文人工評(píng)分的兩兩相關(guān)性,將系統(tǒng)歸納性與人工評(píng)分歸納性加以比較。我們還使用One-Way ANOVA對(duì)三次作文的均分進(jìn)行了比較,又進(jìn)行了Post Hoc兩兩比較,以判斷系統(tǒng)對(duì)每次作文成績(jī)?cè)u(píng)分是否一致。最后我們將水平考試成績(jī)的聽(tīng)力、閱讀分項(xiàng)分?jǐn)?shù)、外教口試分?jǐn)?shù)和學(xué)習(xí)檔案袋分?jǐn)?shù)與批改網(wǎng)作文評(píng)分進(jìn)行了相關(guān)性檢驗(yàn),以檢測(cè)系統(tǒng)的外推性。
4.1 測(cè)量性
研究結(jié)果顯示,三次作文人工評(píng)分的平均分與批改網(wǎng)的平均分十分接近,尤其是兩位人工打分均值的平均分(9.51)與批改網(wǎng)的平均分(9.50)相差僅為0.01,體現(xiàn)出系統(tǒng)評(píng)分與人工評(píng)分在總體平均分上的一致性(見(jiàn)表1)。CET作文評(píng)分標(biāo)準(zhǔn)的同一分?jǐn)?shù)檔上的人機(jī)評(píng)分完全一致性達(dá)62.50%~83.93%,完全加相鄰一致性達(dá)98.21%~100%,與人工評(píng)分者之間的完全一致性(64.28%~78.57%) 和完全加相鄰一致性(100%)比較一致。此外,無(wú)論從三次作文總體來(lái)看還是每次作文來(lái)看,人機(jī)評(píng)分都具有顯著相關(guān)性(0.479~0.741),第二次作文人機(jī)評(píng)分的相關(guān)性(0.741) 高于人工評(píng)分者間(0.725)的相關(guān)性,其它兩次作文人機(jī)評(píng)分的相關(guān)性低于人工評(píng)分者間的相關(guān)性(見(jiàn)表2)。由此可見(jiàn),人機(jī)評(píng)分具有一定的相關(guān)性和一致性。
表1 自動(dòng)評(píng)分系統(tǒng)與人工評(píng)分的描述統(tǒng)計(jì)
表2 三次作文人工評(píng)分與系統(tǒng)評(píng)分的相關(guān)性和一致性
4.2 歸納性
批改網(wǎng)對(duì)三次作文的評(píng)分呈現(xiàn)顯著相關(guān)性,相關(guān)系數(shù)在0.403到0.498之間,而人工對(duì)三次作文評(píng)分的相關(guān)性在0.457到0.679之間,因此系統(tǒng)評(píng)分三次作文相關(guān)性略低于人工評(píng)分(見(jiàn)表3)。三次作文分?jǐn)?shù)的一致性檢驗(yàn)呈現(xiàn)顯著差異(F=3.49,P<0.05,見(jiàn)表4),Post-Hoc兩兩比較發(fā)現(xiàn)第一次作文與第二、三兩次作文都有顯著差異,而后兩次作文之間沒(méi)有顯著差異(見(jiàn)表5)。
表3 系統(tǒng)三次作文評(píng)分的相關(guān)性和人工三次作文評(píng)分的相關(guān)性比較
表4 系統(tǒng)三次作文評(píng)分的差異性(One-way ANOVA)
表5 系統(tǒng)三次作文評(píng)分差異性兩兩比較(Post Hoc)
4.3 外推性
將批改網(wǎng)第一次作文的分?jǐn)?shù)與口語(yǔ)、聽(tīng)力、閱讀和學(xué)習(xí)檔案袋分?jǐn)?shù)的相關(guān)性檢驗(yàn)顯示,系統(tǒng)與口語(yǔ)沒(méi)有顯著相關(guān)性,但與聽(tīng)力(0.446)、閱讀(0.352) 以及學(xué)習(xí)檔案袋(0.500) 都顯著相關(guān)。而人工評(píng)分與這幾項(xiàng)的相關(guān)性分別為0.274~0.325、0.341~0.374、0.276~0.322 和 0.427~0.471。除口語(yǔ)外,系統(tǒng)評(píng)分與聽(tīng)力、閱讀和學(xué)習(xí)檔案袋的相關(guān)性皆高于人工評(píng)分與這幾項(xiàng)的相關(guān)性(見(jiàn)表6)。
5.1 測(cè)量性
人機(jī)三次作文的平均分之差為0.01,三次作文人機(jī)評(píng)分的完全一致性達(dá)62.50%-83.93%,完全加相鄰一致性達(dá)98.21%-100%,人機(jī)評(píng)分的完全一致性雖低于IntelliMetric(87%-98%),但完全加相鄰一致性高于 IntelliMetric(94%-100%)(Elliot 2003;Vantage Learning1998,1999,2001),也高于e-rater人機(jī)評(píng)分的完全一致性(56%-62%)和完全加相鄰一致性(98%-99%) (Dekli 2006),因此批改網(wǎng)顯示出較好的一致性。但是三次作文人機(jī)評(píng)分的相關(guān)性為 0.479~0.741,低于 PEG(0.72~0.78)(Page&Peterson 1995; Petersen 1997; Kukich 2000)、IEA(0.81~0.88)(Landauer et al.2000,2003;Folze et al.2013)、IntelliMetric(0.50~0.90)(Elliot 2003;Vantage Learning 1998,1999,2001)和 e-rater(0.66-0.95)(Attali&Burstein 2004;Burstein,Chodorow&Leacock 2004;Kelly 2001;Powers,Escoffery&Duchnowski 2015;Valenti et al.2003;Dekli 2006)。根據(jù) Dikli(2006)人機(jī)評(píng)分70%完全一致性和0.70相關(guān)性,且與人機(jī)評(píng)分差別不大于0.1的標(biāo)準(zhǔn),批改網(wǎng)從CET作文評(píng)分標(biāo)準(zhǔn)的5個(gè)分?jǐn)?shù)檔來(lái)看,其人工評(píng)分完全一致性基本達(dá)到可靠性要求。從作文的平均分來(lái)看,系統(tǒng)與人工評(píng)分之間的差別亦小于0.1,體現(xiàn)系統(tǒng)與人工評(píng)分有較好的一致性。當(dāng)然,這也有可能是由于中等水平學(xué)生作文偏多,高分和低分段作文比較少,因此無(wú)論是人工評(píng)分還是系統(tǒng)評(píng)分都比較容易集中在8分檔和11分檔,也比較容易達(dá)到檔內(nèi)一致的要求。但是研究發(fā)現(xiàn)人機(jī)評(píng)分的相關(guān)性偏低,也就是說(shuō)系統(tǒng)評(píng)分對(duì)每個(gè)學(xué)生分?jǐn)?shù)的排名與人工評(píng)分有一定的出入,或者說(shuō)有可能出現(xiàn)高分評(píng)低和低分評(píng)高的現(xiàn)象。雖然人機(jī)評(píng)分的相關(guān)性顯著,但是離0.7的標(biāo)準(zhǔn)還有一定的距離。由于批改網(wǎng)是網(wǎng)上自動(dòng)作文反饋系統(tǒng),該系統(tǒng)強(qiáng)調(diào)對(duì)教學(xué)的輔助作用,而不是對(duì)大規(guī)??荚嚨脑u(píng)判作用,其對(duì)相關(guān)性要求往往低于用于TOFEL和GRE考試評(píng)分的e-rater系統(tǒng)??傊畯臏y(cè)量性的一致性和相關(guān)性指標(biāo)來(lái)看人機(jī)評(píng)分一致性較好但相關(guān)性偏低,系統(tǒng)體現(xiàn)出一定的測(cè)量性,但不如用于大規(guī)??荚囋u(píng)分的AWE系統(tǒng)。
表6 人工作文評(píng)分與聽(tīng)說(shuō)讀及檔案袋得分的相關(guān)性
5.2 歸納性
批改網(wǎng)對(duì)三次作文評(píng)分呈現(xiàn)顯著相關(guān)性(0.403-0.498),但低于人工評(píng)分三次作文的相關(guān)性(0.457-0.679),這與國(guó)外同類研究的結(jié)果正好相反。Attali(2007) 的研究發(fā)現(xiàn)e-rater對(duì)兩次作文評(píng)分相關(guān)性達(dá)到0.71和0.80,而人工兩次評(píng)分間的相關(guān)性為0.54和0.53,也就是說(shuō)E-rater的歸納性高于人工評(píng)分,而本研究發(fā)現(xiàn)批改網(wǎng)的歸納性略低于人工評(píng)分。這一方面可能在于批改網(wǎng)比較注重作文反饋,對(duì)評(píng)分的信度要求有所降低。另一方面國(guó)外研究從TOEFL考試中收集大量樣本進(jìn)行比對(duì),而本研究則從教學(xué)角度出發(fā),收集的教學(xué)樣本數(shù)比較有限,所顯示的相關(guān)性有一定局限性。從三次作文分?jǐn)?shù)的一致性檢驗(yàn)來(lái)看有顯著差異(F=3.49,P<0.05),主要體現(xiàn)在第一次作文與后兩次作文之間。這與Weigle(2011) 的研究也有所不同。Weigle在分別比較e-rater對(duì)兩次不同寫作任務(wù)的評(píng)分后發(fā)現(xiàn)系統(tǒng)兩次評(píng)分均值沒(méi)有差異。本研究第一次作文和后兩次作文呈現(xiàn)顯著差異可能是由于樣本與Weigle的樣本有所不同。Weigle使用的是兩次TOFEL考試重復(fù)測(cè)試的樣本,而本研究則使用學(xué)生在一個(gè)學(xué)期三次作文的樣本。由于學(xué)生在每次作文之間有大量的課堂和課后語(yǔ)言輸入和關(guān)于寫作方法的課堂教學(xué),同時(shí)學(xué)生還有根據(jù)批改網(wǎng)提供的反饋進(jìn)行反復(fù)修改以及結(jié)合教師反饋進(jìn)行進(jìn)一步修改的過(guò)程,學(xué)生在寫作水平上已經(jīng)獲得提升,第二次作文均分與第一次作文產(chǎn)生顯著差異。第三次作文與第二次作文之間雖然差異不顯著,但也有所提高??傊畯亩啻巫魑南嚓P(guān)性指標(biāo)來(lái)看系統(tǒng)具有一定的歸納性,但不及國(guó)外同類AWE系統(tǒng)。
5.3 外推性
系統(tǒng)評(píng)分與口語(yǔ)成績(jī)沒(méi)有顯著相關(guān)性,但與聽(tīng)力 (0.446)、閱讀(0.352) 以及學(xué)習(xí)檔案袋(0.500) 都呈現(xiàn)顯著相關(guān)。體現(xiàn)出系統(tǒng)評(píng)分對(duì)聽(tīng)力、閱讀以及總體英語(yǔ)學(xué)習(xí)情況具有一定的推斷性。這一結(jié)果與Ramineni等(2012) 對(duì)e-rater的外推性研究結(jié)果比較一致,他們將系統(tǒng)評(píng)分與閱讀、聽(tīng)力、口語(yǔ)成績(jī)進(jìn)行相關(guān)性檢驗(yàn)后發(fā)現(xiàn)系統(tǒng)評(píng)分與以上各項(xiàng)的相關(guān)性分別為0.54、0.52、0.55,高于批改網(wǎng)對(duì)這幾項(xiàng)指標(biāo)的外推性。但后來(lái)Ramineni(2013)對(duì)系統(tǒng)與閱讀和個(gè)人學(xué)習(xí)記錄檔案袋的相關(guān)性檢驗(yàn)發(fā)現(xiàn)e-rater與閱讀的相關(guān)性為0.23-0.35,與個(gè)人學(xué)習(xí)記錄檔案袋的相關(guān)性為0.26-0.41,低于批改網(wǎng)作文評(píng)分與這兩項(xiàng)指標(biāo)的相關(guān)性。Klobucar等人(2013) 的兩次研究數(shù)據(jù)采集結(jié)果發(fā)現(xiàn)Criterion與學(xué)習(xí)記錄檔案袋的相關(guān)性為0.37和0.39,低于批改網(wǎng)與學(xué)習(xí)檔案袋的相關(guān)性。Weigle(2011) 發(fā)現(xiàn)e-rater與學(xué)生自評(píng)的聽(tīng)、說(shuō)、讀的相關(guān)性分別為0.23、0.26、0.36,均低于批改網(wǎng)與這些指標(biāo)的相關(guān)性。本研究說(shuō)明,批改網(wǎng)在聽(tīng)力和閱讀方面的外推性比很多同類AWE系統(tǒng)要好,但是與口語(yǔ)成績(jī)不具有相關(guān)性,因此對(duì)口語(yǔ)指標(biāo)的外推性則不明顯,這可能是由于這些學(xué)生分別來(lái)自兩個(gè)班級(jí),由不同的外教實(shí)施口語(yǔ)考試,雖然我們要求外教有統(tǒng)一的評(píng)分標(biāo)準(zhǔn),但是口語(yǔ)考試評(píng)分畢竟存在主觀性,導(dǎo)致口語(yǔ)成績(jī)與批改網(wǎng)評(píng)分以及聽(tīng)力(0.164)、閱讀(0.165) 成績(jī)之間的相關(guān)性都不明顯,因此還需要進(jìn)一步研究系統(tǒng)對(duì)口語(yǔ)成績(jī)的外推性。
本研究對(duì)國(guó)內(nèi)自主研發(fā)的AWE系統(tǒng)批改網(wǎng)進(jìn)行了測(cè)量性、歸納性和外推性效度檢驗(yàn),并與國(guó)外AWE系統(tǒng)進(jìn)行了比較。研究結(jié)果發(fā)現(xiàn),從測(cè)量性來(lái)看,批改網(wǎng)的人機(jī)評(píng)分同一分?jǐn)?shù)檔內(nèi)的完全一致性以及完全加相鄰分?jǐn)?shù)檔一致性與國(guó)外同類AWE系統(tǒng)基本相似,人機(jī)評(píng)分顯著相關(guān),但是相關(guān)性低于國(guó)外其它AWE系統(tǒng)。從歸納性來(lái)看,批改網(wǎng)對(duì)三次作文評(píng)分呈現(xiàn)顯著相關(guān)性,但是相關(guān)性低于人工評(píng)分,也低于國(guó)外其它AWE系統(tǒng)。從外推性來(lái)看,批改網(wǎng)作文評(píng)分與聽(tīng)力和閱讀成績(jī)以及學(xué)習(xí)檔案袋分?jǐn)?shù)顯著相關(guān),且相關(guān)性高于國(guó)外其它多數(shù)AWE系統(tǒng)。研究也發(fā)現(xiàn),批改網(wǎng)三次作文評(píng)分有顯著差異,系統(tǒng)評(píng)分與口語(yǔ)成績(jī)未呈現(xiàn)顯著相關(guān)性,研究者對(duì)此進(jìn)行了解釋。本研究較為全面地對(duì)批改網(wǎng)系統(tǒng)的效度進(jìn)行了驗(yàn)證,對(duì)于系統(tǒng)的開(kāi)發(fā)、利用和改進(jìn)有著積極意義。但是鑒于所使用的樣本量較小,所得出的結(jié)論還有一定的局限性,今后可以在更大范圍內(nèi),使用更多樣本對(duì)批改網(wǎng)的測(cè)量性、歸納性和外推性加以研究。對(duì)于效度解釋性和實(shí)用性的研究雖不是本研究涉及的范圍,但相關(guān)研究也可進(jìn)一步深入。
American Educational Research Association(AERA).1985.Standards for Educational and Psychological Testing[M].Washington,DC:American Psychological Association.
AttaliY.2007.Constructvalidityofe-raterinscoringTOEFLessays[R].(ETSRR-07-21).Princeton,NJ:ETS.
Attali,Y.2015.Reliability-based feature weighting for automated essayscoring[J].Applied Psychological Measurement(4):303-313.
Attali,Y.Lewis,W.&Steier,M.2013.Scoringwith the computer:Alternative procedures for improvingthe reliabilityofholistic essayscoring[J].Language Testing(1):125-141.
Attali Y,Burstein,J.2004 Automated essay scoring with e-rater V.2.[R].ETS Research Report(2):i-21.
Burstein,J.,Chodorow,M.,&Leacock,C.2004.Automated essay evaluation:The Criterion online writing service[J].AI Magazine(3):27-35.
Chapelle,C.A.,Cotos,E.&Lee,J.2015.Validity arguments for diagnostic assessment using automated writing evaluation[J].Language Testing(3):385-405.
Dikli,S.2006.An overview of automated scoring of essays[J].Journal of Technology,Learning,and Assessment(1):1-35.
Elliot,S.2003.Howdoes IntelliMetric score essay responses?[R](RB-929).Newtown,PA:Vantage Learning。
Enright,M.,&Quinlan,M.2010,Complementing human judgment ofessays written byEnglish language learners with e-raterscoring[J].Language Testing(3):317-334.
Folze,P.W.,Streeter,L.A.,Lochbaum,K.E.&Landauer,T.2013.Implementation and applications of the Inteligent Essay Assessor[A].Shermis M.D.&J.Bursteineds.Handbook ofAutomated Essay Evaluation:Current Applications and New Directions[C].NewYork,NY:Routledge:68-88.
Klobucar,A.,Elliot,N.,Deess,P.,Rudniy,O.&Joshi,K.2013,Automated scoring in context:Rapid assessment for placed students[J].Assessing Writing(1):62-84.
Kukich,K.2000.Beyond automated essay scoring[J].IEEE Inte lligent systems:The Debate on Automated Essay Grading(5):22-27.
Landauer,T.K.,Laham,D.&Foltz,P.W.2000.The Intelligent Essay Assessor[J].IEEE IntelligentSystems:The Debate on Automated Essay Grading(5):27-31.
Landauer,T.K.,Laham,D.,&Foltz,P.W.2003.Automatic essay assessment[J].Assessment in Education(3):295-308.
Messick,S.1989.Validity[A].Linn,R.L.ed.Educational Measurement(Third edition)[C].New York:American Council on Education and Macmillan,13-103.
Page,E.&N.S.Peterson.1995,The computer moves into essay grading:Updating the ancient test[J].Phi Delta Kappan(76):561-565.
Powers,D.E.,Escoffery,D.S.&Duchnowski,M.P.2015.Validating automated essay scoring:A(modest)refinement of the“Gold Standard”[J].Applied Measurement in Education(2):130-142.
Ramineni,C.,Trapani,C.S.,Williamson,D.M.W.,Davey,T.&Bridgeman,B.2012.Evaluation ofthe e-rater scoring engine for the TOEFL independent and integrated prompts[R](ETSRR-12-06).Princeton,NJ:ETS.
Ramineni,C.&Williamson,D.M.2013.Automated essayscoring:Psychometric guidelines and practices[J].Assessing Writing(18):25-39.
Valenti,S.,Neri,F.,&Cucchiarelli,A.2003.An overview of current research on automated essay grading[J].Journal of Information Technology Education(2):319-330.
Vantage,Learning.1999.Construct validity of intelliMetric with international assessment[R](RB-323).Newtown,PA:Vantage Learning,
Vantage,Learning.2001.About IntelliMetric[R](PB-540).New town,PA:Vantage Learning,
Weigle,S.C.2010.Validation ofautomated scores ofTOEFL iB T tasks against non-test indicators of writing ability[J].Language Testing(3):335-353.
Weigle,S.C.2011.Validation of automated scores of TOEFL iBT tasks against nontest indicators of writing ability[R].ETS Research Report Series(2):i-63.
Williamson,D.M.,Xi,X.,&Breyer,F.J.2012,A framework for evaluation and use of automated scoring[J].Educational Measurement:Issues and Practices(31):2-13.
Xi,X.2010.Automated scoring and feedback systems:Where are we and where are we heading[J]?Language Testing(3):291-300.
Yang,Y.,Buckendahl,C.W.,Juszkiewicz,P.J.,&Bhola,D.S.2002,Areviewofstrategiesforvalidatingcomputer-automated scoring[J].Applied Measurement in Education(4):391-412.
何旭良,2013,句酷批改網(wǎng)英語(yǔ)作文評(píng)分的信度和效度研究[J],《現(xiàn)代教育技術(shù)》(5):64-67。
石曉玲,2012,在線寫作自動(dòng)評(píng)改系統(tǒng)在大學(xué)英語(yǔ)寫作教學(xué)中的應(yīng)用研究——以批改網(wǎng)為例[J],《現(xiàn)代教育技術(shù)》(10):67-71。
楊曉瓊、戴運(yùn)財(cái),2015,基于批改網(wǎng)的大學(xué)英語(yǔ)自主寫作教學(xué)模式實(shí)踐研究[J],《外語(yǔ)電化教學(xué)》(2):17-23。
張荔、盛越,2015,自動(dòng)作文評(píng)閱系統(tǒng)反饋效果個(gè)案研究[J],《外語(yǔ)電化教學(xué)》(3):38-44。
“一帶一路”國(guó)家戰(zhàn)略背景下話語(yǔ)研究與語(yǔ)言服務(wù)高端論壇
為服務(wù)國(guó)家“一帶一路”戰(zhàn)略的實(shí)施、促進(jìn)國(guó)內(nèi)話語(yǔ)研究與語(yǔ)言服務(wù)水平及相關(guān)人才的培養(yǎng)質(zhì)量,“‘一帶一路’國(guó)家戰(zhàn)略背景下話語(yǔ)研究與語(yǔ)言服務(wù)高端論壇”定于2017年12月1日—3日在廣州召開(kāi)。此次論壇由中國(guó)英漢語(yǔ)比較研究會(huì)話語(yǔ)研究專業(yè)委員會(huì)主辦、廣州大學(xué)外國(guó)語(yǔ)學(xué)院承辦。
本次論壇主題為:服務(wù)國(guó)家“一帶一路”戰(zhàn)略,助力構(gòu)建當(dāng)代中國(guó)新話語(yǔ)。議題為:1、“一帶一路”戰(zhàn)略下中國(guó)形象的話語(yǔ)建構(gòu);2、“一帶一路”戰(zhàn)略下的語(yǔ)言服務(wù)與人才培養(yǎng);3、“一帶一路”沿線國(guó)家的語(yǔ)言與文化;4、新媒體與話語(yǔ)研究的新發(fā)展。論壇將特邀中國(guó)話語(yǔ)研究機(jī)構(gòu)聯(lián)盟成員代表及學(xué)者參會(huì)并做大會(huì)報(bào)告。
論壇時(shí)間:2017年12月1日13:00-22:00報(bào)到。
論壇地點(diǎn):廣州大學(xué)城廣州大學(xué)學(xué)術(shù)交流中心。
會(huì)務(wù)費(fèi):800元/人(在讀研究生減半)。
會(huì)議統(tǒng)一安排食宿,費(fèi)用自理。與會(huì)者請(qǐng)于2017年10月30日前將會(huì)議回執(zhí)連同論文摘要發(fā)送到郵箱:3390001548@qq.com
聯(lián)系人:曾祥薇電話:13632220509賀龍會(huì)電話:13424102499 胡安奇電話:15989001498
中國(guó)英漢語(yǔ)比較研究會(huì)話語(yǔ)研究專業(yè)委員會(huì)
廣州大學(xué)外國(guó)語(yǔ)學(xué)院
H319
A
2095-9648(2017)03-0064-08
*本文系國(guó)家社科基金項(xiàng)目“基于語(yǔ)料庫(kù)和云技術(shù)的網(wǎng)絡(luò)自動(dòng)作文評(píng)閱系統(tǒng)信效度及其輔助教學(xué)研究”(項(xiàng)目號(hào):13BYY081)的部分成果。
(張 荔:上海交通大學(xué)外國(guó)語(yǔ)學(xué)院副教授,博士)
2017-05-30
通訊地址:200240上海市閔行區(qū)東川路800號(hào)上海交通大學(xué)外國(guó)語(yǔ)學(xué)院