基于語料庫的大學(xué)英語寫作評估實(shí)證研究

2011-02-26 03:10:00蔣春麗張青妹

大學(xué)英語(學(xué)術(shù)版) 2011年2期

蔣春麗張青妹

（北京工業(yè)大學(xué)，北京 101101）

一、引言

寫作測試評估目前在國內(nèi)主要有人工評估與電子評估兩種。在人工評估中，寫作測試評分中的中心因素是評分員和評分量表，在評分量表中，整體評分法與分項(xiàng)評分法是寫作測試中最常用的兩種評分法。整體評分法是按考官對考生的寫作內(nèi)容和流利性等方面的整體印象，總體給一個(gè)等級或分?jǐn)?shù)，分項(xiàng)評分法則把考生寫作能力的各個(gè)構(gòu)成因素分解開來，從不同的維度分別評分，然后根據(jù)每個(gè)方面的得分和權(quán)重算出寫作總分。這兩種評分方法主要應(yīng)用于口語與寫作等主觀性測試，國內(nèi)外對于兩種方法的評分信度進(jìn)行了相關(guān)研究，但選用哪種評分法以達(dá)更高的評分信度，在語言測試界見解不一。在外語寫作測試領(lǐng)域，由于疲勞因素和不一致性，人工評估成績在可信度方面存在著不可避免的問題，而電子軟件評估則克服了人工評估的不足，被應(yīng)用到外語寫作測評中來。但作文自動評分系統(tǒng)一直受到一些專家和學(xué)者的質(zhì)疑。認(rèn)為其在對每篇學(xué)生的習(xí)作在文章立意、篇章結(jié)構(gòu)、遣詞造句等方面沒有一個(gè)整體的把握。近幾年來國內(nèi)也出現(xiàn)了很多寫作的電子評估，其中也包括基于語料庫的寫作評估，但不管是哪種電子評估，在以往的研究中都說它好，但其有效性、可靠性都沒有有效地、科學(xué)地檢驗(yàn)，我們試圖通過生成的寫作評估量表中收集到的具體客觀的數(shù)值，利用卡方檢驗(yàn)的方法來證明其是否真的具有有效性，與學(xué)生的作文得分是否相關(guān)。

二、具體研究方法和步驟

1.基于語料庫的寫作評估量表的設(shè)計(jì)

由于目前大學(xué)英語寫作的評分缺乏一個(gè)客觀、系統(tǒng)的標(biāo)準(zhǔn)和體系，評分往往過于主觀而導(dǎo)致評分出現(xiàn)偏差，使得寫作測試分?jǐn)?shù)的信度大大降低。而借助于計(jì)算機(jī)的評估方法，盡管減少了人為因素帶來的影響，保證了客觀合理地給學(xué)生打分，但又忽略了學(xué)生作文在篇章結(jié)構(gòu)等方面的把握。

我們設(shè)計(jì)的評估量表主要利用Wordsmith、CST等軟件，在短時(shí)間內(nèi)通過電腦得出學(xué)生在句子、單詞等上的統(tǒng)計(jì)結(jié)果，給每位學(xué)生生成評估報(bào)告，建立他們個(gè)人的寫作檔案。然而，利用語料庫進(jìn)行的寫作評估并不能完全代替教師的批改。因此，雖然我們看到語料庫的介入使得英語寫作評估工作變得更有效，但也應(yīng)意識到教師還對每篇學(xué)生的習(xí)作在文章立意、篇章結(jié)構(gòu)、遣詞造句等方面有一個(gè)整體的把握，才能更好地促進(jìn)寫作教學(xué)和評估。在進(jìn)行總評時(shí)，我們建議客觀描述占70%，教師評價(jià)占30%，這樣既尊重了客觀事實(shí)，又促進(jìn)了多樣化的教學(xué)和個(gè)性化的學(xué)習(xí)。在設(shè)計(jì)評估量表時(shí)，我們充分考慮了計(jì)算機(jī)的作用。大多數(shù)參數(shù)都直接由計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)分析。如作文長度、型符比、詞匯密度和平均詞長等參數(shù)。人工主要介入語篇層面的分析，比如思想內(nèi)容以及語篇連貫等。

2.布置寫作任務(wù)

我們在北京工業(yè)大學(xué)實(shí)驗(yàn)學(xué)院08及09級的非英語專業(yè)學(xué)生里隨堂布置寫作任務(wù)，題目為“Shopping on the Internet”，要求學(xué)生在30分鐘內(nèi)寫出一篇100詞的短文，能夠正確表達(dá)思想，意義連貫，無重大語法錯(cuò)誤。寫作任務(wù)完成后不以書面形式提交，而是以電子文檔的格式在網(wǎng)絡(luò)上提交。

3.語料收集

我們采用了冰果英語智能評閱系統(tǒng)收集學(xué)生的作文，并通過冰果系統(tǒng)先自動為學(xué)生打分。此次調(diào)查共收集了399份學(xué)生作文。

4.通過Wordsmith測評及教師人工評閱

收集到學(xué)生作文后，我們通過Wordsmith軟件為每位學(xué)生生成一份自動的電子評估量表，其中包括作文長度、型符比、詞匯密度和平均詞長等參數(shù)。之后我們再對每篇學(xué)生作文進(jìn)行人工評閱，主要針對學(xué)生在作文的用詞、思想性、組織交流性等方面進(jìn)行打分，并給出具體的評語。把冰果系統(tǒng)得出的自動評分作為參考值，再由兩位教師結(jié)合評估量表的數(shù)值及其他整體情況的把握對學(xué)生作文進(jìn)行再次評分，最后我們?nèi)∵@三項(xiàng)的平均分作為學(xué)生作文的最后得分。

5.生成評估報(bào)告

根據(jù)Wordsmith軟件自動生成的報(bào)告再結(jié)合教師的人工評閱及評語，生成最后的評估報(bào)告，反饋給學(xué)生。下面是一篇學(xué)生作文在經(jīng)過Wordsmith軟件和教師評閱之后生成的評估報(bào)告。

學(xué)生寫作分析報(bào)告

6.評估量表的可行性檢驗(yàn)

為了檢驗(yàn)我們這份評估量表的可靠性和可行性，我們做了一下研究。從我們收集的語料里，總共提取90份作文，分別為11分及以上的作文30篇，9分到10分的30篇，以及9分以下的30篇。

三、研究結(jié)果及分析

我們通過Wordsmith軟件為這90份作文生成了90份評估報(bào)告，根據(jù)這90份評估報(bào)告，我們發(fā)現(xiàn)：

表3-1

根據(jù)這份表格我們發(fā)現(xiàn)抽取的90份作文里，平均詞次為177.80，平均詞型為99.40，平均詞長為4.37，平均句數(shù)為11.97，平均句長為14.91，平均1－5個(gè)字母的單詞為129.43，平均6－10個(gè)字母的單詞為54.43，平均11－13個(gè)字母的單詞為3.7個(gè)。我們再以這個(gè)平均值為基礎(chǔ)，分別按得分不同（11分及以上、9－10分、8分及以下）統(tǒng)計(jì)出在平均數(shù)以上、及以下的人數(shù)，見下表：

表3-2

我們再利用這份表格的數(shù)據(jù)分別就學(xué)生作文得分與詞次、詞型、詞長、句數(shù)、句長、1－5個(gè)字母單詞、6－10個(gè)字母單詞、11－13個(gè)字母單詞做卡方獨(dú)立性檢驗(yàn)，得出以下結(jié)論：

表3-3 學(xué)生作文得分

卡方檢驗(yàn)結(jié)果顯示：

1）學(xué)生作文得分受詞次多少的影響顯著（X=61.071，df=2，p＜0.05）。得分11分及以上的學(xué)生詞次總數(shù)全在平均詞次以上，得分在9－10分的學(xué)生詞次總數(shù)大部分（18人）在平均詞次以下，而得分在8分及以下的同學(xué)詞次總數(shù)全在平均詞次以下。

2）學(xué)生作文得分受詞型多少的影響顯著（X2=52.500，df=2，p＜0.05），得分11分及以上的同學(xué)詞型總數(shù)大部分（27人）在平均詞型以上，得分在9－10分的詞型總數(shù)大部分（21人）在平均詞型以下，而得分在8分及以下的詞型總數(shù)全部在平均詞型以下。

3）學(xué)生作文得分受詞長多少的影響不顯著（X2=5.625，df=2，p＞0.05），即學(xué)生作文得分與詞長的多少不相關(guān)。

4）學(xué)生作文得分受句數(shù)多少的影響顯著（X2=39.910，df=2，p＜0.05），得分11分及以上的同學(xué)句數(shù)總數(shù)全部在平均句數(shù)以上，得分在9－10分的同學(xué)句數(shù)總數(shù)有一半在平均句數(shù)以下，而得分在8分及以下的同學(xué)句數(shù)總數(shù)大部分（24人）在平均句數(shù)以下。

5）學(xué)生作文得分受句長的影響顯著（X2=32.073，df=2，p＜0.05），得分11分及以上的同學(xué)句長大部分（24人）在平均句長以上，得分在9－10分的同學(xué)（24人）句長大部分在平均句長以下，而得分在8分及以下的同學(xué)句長也大部分在平均句長以下，不過人數(shù)比9－10分的同學(xué)更多（25人）。

6）學(xué)生作文得分受 1－5個(gè)字母單詞多少的影響顯著（X2=49.683，df=2，p＜0.05），得分 11分及以上的同學(xué)1－5個(gè)字母單詞總數(shù)大部分（27人）在平均值以上，得分在9－10分的同學(xué)1－5個(gè)字母單詞總數(shù)大部分（18人）在平均值以下，而得分在8分及以下的同學(xué)1－5個(gè)字母單詞總數(shù)全部在平均值以下。

7）學(xué)生作文得分受6－10個(gè)字母單詞多少的影響顯著（X2=28.864，df=2，p＜0.05），得分11分及以上的同學(xué)6－10個(gè)字母單詞總數(shù)一半在平均值以上，得分在9－10分的同學(xué)則大部分（28人）在平均值以下，而得分在8分及以下同學(xué)則全部在平均數(shù)以下。

8）學(xué)生作文得分受 11－13個(gè)字母單詞多少的影響顯著（X2=33.698，df=2，p＜0.05），得分11分及以上的同學(xué)大部分（21人）在平均值以上，得分在9－10分的同學(xué)大部分在平均值以下，而得分在8分及以下的同學(xué)也大部分在平均數(shù)以下，不過人數(shù)更多（29人），只有一個(gè)同學(xué)使用了11－13個(gè)字母的單詞。

總的說來學(xué)生作文得分受詞次、詞型、句數(shù)、句長、1－5個(gè)字母單詞、6－10個(gè)字母單詞、11－13個(gè)字母單詞多少的影響顯著，而受詞長的影響不顯著。這說明學(xué)生作文里詞次詞型越多，學(xué)生作文得分越高；學(xué)生作文的句數(shù)越多，句長越長，得分也越高，這說明學(xué)生使用的句式越豐富；學(xué)生作文的單詞1－5個(gè)字母的單詞往往是使用最多的，同時(shí)各類單詞（包括6－10詞及11－13詞）使用的越多，學(xué)生作文得分也越高，這同時(shí)也說明得分高的學(xué)生詞匯量越豐富，使用的單詞也越復(fù)雜。但是學(xué)生作文的得分與平均詞長沒有關(guān)系，根據(jù)上表我們發(fā)現(xiàn)，不管是得分11分及以上的學(xué)生，還是5分的學(xué)生，平均詞長都在4.37左右。學(xué)生作文得分高，詞次、詞型、句數(shù)、句長等客觀值也相應(yīng)越高，這可能是因?yàn)榈梅指叩膶W(xué)生詞匯量更大，因此在作文里使用的單詞更多，使用的單詞也相應(yīng)更復(fù)雜。另外也可能因?yàn)閷W(xué)生在句型的掌握及應(yīng)用上更好，因此在作文里使用的句式也相應(yīng)越多、越復(fù)雜。學(xué)生作文得分與詞長關(guān)系不大，可能是因?yàn)樵谧魑睦?，學(xué)生大部分使用的都是常用詞匯和一般句型，所以不管是得分高還是得分低，平均詞長都相差不大。

我們的評估報(bào)告里客觀描述主要是以數(shù)值為主，經(jīng)過研究發(fā)現(xiàn)數(shù)值越高，學(xué)生作文得分越高，這也就說明我們的評估報(bào)告具有可靠性和可行性，是可以推廣的。學(xué)生可以簡單的通過自己作文的評估報(bào)告知道自己作文的優(yōu)缺點(diǎn)。

四、結(jié)束語

我們的評估量表及最后生成的評估報(bào)告清晰明了地向?qū)W生展示了自己作文在用詞及句式等方面的內(nèi)容，而且通過明確的數(shù)值很容易讓學(xué)生看到自己在具體各方面的差距，在今后的寫作及練習(xí)過程中可以相應(yīng)地提高詞匯量，增加句式的變化，使用多種句型及復(fù)合句等。同時(shí)這份評估報(bào)告也讓教師清楚地看到學(xué)生在哪一方面有弱點(diǎn)，需要加強(qiáng)在哪一方面的課堂輸入，在教學(xué)的過程中可以有針對性地進(jìn)行教學(xué)。當(dāng)然我們對學(xué)生作文的評估不能簡單地借助于wordsmith軟件提供給我們的數(shù)據(jù)，我們同時(shí)也要在學(xué)生作文的用詞、思想性、組織交流性等方面進(jìn)行打分，并給出具體的評語，這樣才能更有效地也更明確地讓學(xué)生看到自己的缺點(diǎn)，同時(shí)教師積極認(rèn)真的態(tài)度也會刺激學(xué)生更有效地學(xué)習(xí)，提高他們學(xué)習(xí)的積極性。另外，學(xué)生把作業(yè)以電子文本的形式上交，教師只要對提交的作業(yè)進(jìn)行語料分析，往往可以得到可信的實(shí)證材料用于科研和教學(xué)。教師只要把數(shù)據(jù)庫的文本導(dǎo)出，即可利用語料庫索引軟件對學(xué)生的作文進(jìn)行分析，就很容易得到實(shí)證的語言材料，發(fā)現(xiàn)自己教學(xué)中的不足及學(xué)生易犯的錯(cuò)誤。

Hughes，A.(2000).Testing for language teachers[M].Peking and Cambridge:Foreign Language Teaching and Research Press.

蔣春麗（2010）.基于語料庫軟件的大學(xué)英語寫作評估量表的設(shè)計(jì) [J].語文學(xué)刊。

溫晉方（2003）.英語寫作常模測試的高信度評估體系 [J].廣州大學(xué)學(xué)報(bào)(社會科學(xué)版)(2)。

楊惠中（1999）.語言測試與語言教學(xué) [J].外語界（1）。

曾用強(qiáng)（2003）.基于語料庫的診斷評估系統(tǒng) [J].外語電化教學(xué)（91）。