王德亮++周莉++林敦來++高淼
【摘 要】在線考試與測(cè)評(píng)是未來發(fā)展的趨勢(shì),本文主要介紹了一種英語在線考試的最新模式。該模式被命名為HiE測(cè)評(píng)系統(tǒng),力圖對(duì)學(xué)習(xí)者的英語綜合能力提供在線測(cè)評(píng)與反饋。該系統(tǒng)充分利用了現(xiàn)代教育技術(shù)、自然語言處理技術(shù)以及人機(jī)互動(dòng)技術(shù),在最大程度上實(shí)現(xiàn)了自動(dòng)的英語能力在線測(cè)評(píng)與反饋。試測(cè)結(jié)果顯示,該系統(tǒng)安全可靠,具有較高的信度和效度,值得推廣。
【關(guān)鍵詞】在線測(cè)評(píng);英語考試;HiE測(cè)評(píng)系統(tǒng)
【中圖分類號(hào)】G434 【文獻(xiàn)標(biāo)識(shí)碼】B
【論文編號(hào)】1671-7384(2015)09-0065-04
英語在線考試是指通過計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)實(shí)現(xiàn)試題庫的建立、選題組卷、上機(jī)考試、閱卷評(píng)分的英語考試。與傳統(tǒng)的紙筆考試相比,在線考試有著無可比擬的優(yōu)越性:在線考試效率較高,只要有電腦終端,考生可以大規(guī)模參加;試題質(zhì)量有保障,通過構(gòu)建試題庫,可以有效控制考題的信度和效度穩(wěn)定在同一水平上;對(duì)于施測(cè),在線考試可以節(jié)省大量的人力物力成本,不需要試卷印刷、運(yùn)輸保密等環(huán)節(jié);閱卷效率較高,有些在線考試已經(jīng)實(shí)現(xiàn)了自動(dòng)評(píng)分,可以節(jié)約大量的評(píng)卷費(fèi)用和時(shí)間。隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的進(jìn)一步發(fā)展,在線考試是未來考試模式的發(fā)展方向,在不久的將來,一定會(huì)取代傳統(tǒng)的紙筆測(cè)試。
到目前為止,在英語在線測(cè)試方面做得比較成功的是美國(guó)教育考試服務(wù)中心(ETS)主辦的托福和GRE考試,國(guó)內(nèi)還沒有很成功的大規(guī)??荚囅到y(tǒng)案例。我國(guó)是英語學(xué)習(xí)大國(guó),中國(guó)學(xué)習(xí)英語的人口數(shù)量全球最多。2013年,教育部《全國(guó)教育事業(yè)發(fā)展統(tǒng)計(jì)公報(bào)》的數(shù)據(jù)顯示,目前中國(guó)有近3億人的龐大英語培訓(xùn)消費(fèi)群體,英語培訓(xùn)機(jī)構(gòu)總數(shù)量超過5萬家,市值已經(jīng)超過300億元 。對(duì)于這么龐大的英語學(xué)習(xí)群體,我們有必要探索開發(fā)我們自己的英語在線測(cè)試體系。本課題組以此為研究目標(biāo),做了積極的探索,本文內(nèi)容即是我們的探索成果。
英語在線考試的現(xiàn)狀
隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)科技的不斷進(jìn)步,英語在線測(cè)試自然而然地就被提上了日程。到現(xiàn)在為止,這方面的研究和探索已經(jīng)取得了很多成果。綜觀這方面的文獻(xiàn)和成果,我們發(fā)現(xiàn)存在兩個(gè)問題,一方面,英語在線測(cè)試還停留在科研探索階段,主要表現(xiàn)為關(guān)于系統(tǒng)開發(fā)的研究成果主要是計(jì)算機(jī)編程方向的碩士論文,核心刊物上發(fā)表的文獻(xiàn)很少;另一方面,國(guó)內(nèi)期刊上發(fā)表的成果顯示,開發(fā)的在線評(píng)測(cè)系統(tǒng)大多是小規(guī)模,很多都是在自己學(xué)校和院系試用的,沒有做到大面積推廣,而且大多數(shù)系統(tǒng)只針對(duì)聽力、閱讀和寫作的測(cè)試,口語沒有被包括在其中。
究其原因,主要有以下幾點(diǎn)。
首先,英語在線評(píng)測(cè)是一個(gè)系統(tǒng)工程,其中涉及方面很多,包括試題庫的建設(shè)、網(wǎng)站架構(gòu)、程序設(shè)計(jì)、市場(chǎng)推廣等,需要多方面人力物力的投入。任何一個(gè)環(huán)節(jié)跟不上,這個(gè)事情都不會(huì)成功。比如,在線評(píng)測(cè)需要電腦終端,如果一所學(xué)校連電腦都沒有,他們是無法參加這個(gè)評(píng)測(cè)的。國(guó)家已經(jīng)注意到這方面的問題,并在大力推進(jìn)教育信息化?!秶?guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》指出“信息技術(shù)對(duì)教育發(fā)展具有革命性影響,必須予以高度重視。把教育信息化納入國(guó)家信息化發(fā)展整體戰(zhàn)略,超前部署教育信息網(wǎng)絡(luò)。到2020年,基本建成覆蓋城鄉(xiāng)各級(jí)各類學(xué)校的教育信息化體系,促進(jìn)教育內(nèi)容、教學(xué)手段和方法現(xiàn)代化?!彼?,英語在線評(píng)測(cè)也應(yīng)及時(shí)跟上國(guó)家發(fā)展的脈搏,在科研和實(shí)踐方面做出表率。
其次,英語在線評(píng)測(cè)不能大規(guī)模使用的一個(gè)比較大的原因是沒有政府管理部門的支持和協(xié)調(diào)。如果政府管理部門認(rèn)識(shí)到在線評(píng)測(cè)的優(yōu)勢(shì),未來取代傳統(tǒng)的大規(guī)??荚囍械募埞P測(cè)試是非常有可能的。另外,我國(guó)英語考試眾多,且相互之間不認(rèn)可、不抵用,導(dǎo)致我們不管是升學(xué)、畢業(yè)、入職、升職還是出國(guó),都需要參加相應(yīng)的英語考試,這一點(diǎn)一直被人所詬病。正因?yàn)榇?,教育部已?jīng)認(rèn)識(shí)到了這個(gè)問題,并有所行動(dòng),試圖解決這個(gè)矛盾。2014年10月30日,教育部組織召開了專門的會(huì)議,力圖建立統(tǒng)一的外語能力測(cè)評(píng)體系,實(shí)現(xiàn)我國(guó)外語教育與測(cè)評(píng)的 “車同軌、量同衡” 。如果我們實(shí)行統(tǒng)一測(cè)評(píng)體系下的在線測(cè)試系統(tǒng),上面的問題也能迎刃而解。
再次,中國(guó)的英語在線測(cè)評(píng)系統(tǒng)沒有成功的原因在于缺乏先進(jìn)的計(jì)算機(jī)技術(shù),存在設(shè)計(jì)缺陷,不夠人性化,不注重用戶體驗(yàn),導(dǎo)致了它的優(yōu)勢(shì)沒有發(fā)揮出來。比如,目前報(bào)道的現(xiàn)行系統(tǒng)中都沒有專門的反饋系統(tǒng)。參試者參加完考試之后,最多只能得到一個(gè)分?jǐn)?shù),與學(xué)習(xí)者和教師沒有形成互動(dòng)。另外,在線系統(tǒng)中客觀題比較容易實(shí)現(xiàn),主觀題有一定難度,尤其是主觀題的判分,還需要人工干預(yù)。另外,口語部分不容易施測(cè),尤其是口試的評(píng)判也需要人工完成。
在前期調(diào)研的基礎(chǔ)上,本課題組嘗試開發(fā)了自己的系統(tǒng),命名為“HiE測(cè)評(píng)系統(tǒng)”,力圖避免以上的缺陷,即使不能完全避免,也在最大程度上進(jìn)行優(yōu)化。
HiE測(cè)評(píng)系統(tǒng)
1. 研發(fā)背景
2013年初,北京市海淀區(qū)教育科學(xué)研究所啟動(dòng)了一項(xiàng)重大語言教學(xué)類項(xiàng)目——“海淀英語學(xué)習(xí)社區(qū)建設(shè)” (簡(jiǎn)稱“海e社區(qū)”)。本項(xiàng)目的目的是針對(duì)海淀區(qū)中小學(xué)英語聽說互動(dòng)教學(xué)及測(cè)評(píng)系統(tǒng)開展工具研發(fā)及實(shí)驗(yàn)研究,研究海淀區(qū)中小學(xué)英語聽說教學(xué)的目標(biāo)體系和內(nèi)容體系,并基于智能語音交互技術(shù)和互聯(lián)網(wǎng)技術(shù)的靈活性、交互性,實(shí)現(xiàn)英語聽說的個(gè)性化和互動(dòng)式教學(xué)。
北師大團(tuán)隊(duì)從2014年1月開始承建海e社區(qū)的測(cè)評(píng)系統(tǒng),即HiE測(cè)評(píng)系統(tǒng)。本子項(xiàng)目的最終目標(biāo)是研制開發(fā)一套完整的英語綜合能力在線評(píng)測(cè)系統(tǒng)。此系統(tǒng)將充分利用現(xiàn)代教育技術(shù)、自然語言處理技術(shù)以及人機(jī)互動(dòng)技術(shù),在最大程度上實(shí)現(xiàn)全自動(dòng)的英語能力在線測(cè)評(píng)和反饋。除了個(gè)別的口試題型(如自由問答)和作文題需要人工干預(yù)外,其他部分都可以實(shí)現(xiàn)自動(dòng)評(píng)分。本系統(tǒng)可以在保證水平一致的情況下實(shí)現(xiàn)自動(dòng)組卷,并為每一位參試者提供成績(jī)分析和反饋報(bào)告,為參試者提供英語聽、說、讀、寫各方面的優(yōu)勢(shì)和劣勢(shì)分析,為其今后的學(xué)習(xí)指明努力的方向。具體項(xiàng)目?jī)?nèi)容包括測(cè)試框架研制、樣題研制、命題人員培訓(xùn)、試題驗(yàn)收和審核、試測(cè)、評(píng)分標(biāo)準(zhǔn)的制定。
2. 系統(tǒng)簡(jiǎn)介
經(jīng)過充分的需求調(diào)研、原型設(shè)計(jì)和研發(fā)調(diào)試,目前HiE測(cè)評(píng)系統(tǒng)已完成階段性開發(fā)任務(wù)并發(fā)布上線(網(wǎng)址為http://www.haielearning.com)。HiE測(cè)評(píng)系統(tǒng)作為海e社區(qū)中的一個(gè)重要平臺(tái),其入口直接集成在海e社區(qū)的導(dǎo)航欄目上。教師可通過 “測(cè)評(píng)”欄目進(jìn)入測(cè)評(píng)中心,學(xué)生則可通過“測(cè)評(píng)中心”的欄目入口進(jìn)入(如圖1、圖2)。
圖1 教師端入口界面
圖2 學(xué)生端入口界面
測(cè)評(píng)流程體系構(gòu)架包含教師組卷和分發(fā)流程、學(xué)生上機(jī)考試流程、教師管理和閱卷流程、測(cè)評(píng)結(jié)果反饋等過程。這些流程及功能都與測(cè)評(píng)云端服務(wù)器鏈接,進(jìn)行實(shí)時(shí)精準(zhǔn)的數(shù)據(jù)交互,從而實(shí)現(xiàn)規(guī)?;?、標(biāo)準(zhǔn)化、即時(shí)性的測(cè)評(píng)過程(如圖3)。
圖3 測(cè)評(píng)體系架構(gòu)
從測(cè)評(píng)系統(tǒng)功能上劃分,“測(cè)評(píng)中心”主要包含組卷系統(tǒng)、考務(wù)系統(tǒng)、閱卷系統(tǒng)和反饋系統(tǒng)四個(gè)子系統(tǒng)。其中,組卷系統(tǒng)包含了題庫模塊、組卷模塊、分發(fā)模塊;考務(wù)系統(tǒng)包含了題型模塊、流控模塊、收卷模塊;閱卷系統(tǒng)包含了自動(dòng)閱卷模塊和人工閱卷模塊;反饋系統(tǒng)包含了統(tǒng)計(jì)模塊、分析模塊、反饋模塊和查詢模塊(如圖4)。
圖4 測(cè)評(píng)功能構(gòu)架
3. 試測(cè)數(shù)據(jù)分析
2014年10月17日,項(xiàng)目組在北京市某中學(xué)進(jìn)行了首次試測(cè)活動(dòng)。
(1)參試者基本情況
選取了初中三年級(jí)的兩個(gè)平行班,為了避免出現(xiàn)水平偏差,打亂了班級(jí)差異,全部按學(xué)號(hào)的單雙號(hào)進(jìn)行抽取,分成兩組,單號(hào)組41人,雙號(hào)組39人。為了確保兩組的水平?jīng)]有顯著性差異,根據(jù)期中考試成績(jī)做了一個(gè)獨(dú)立樣本T檢驗(yàn),檢驗(yàn)結(jié)果如表1、表2所示。
從表中可以看出p=.869(>.05),表示兩組學(xué)生的成績(jī)沒有顯著性差異。
試測(cè)當(dāng)天,兩個(gè)組做了不同的試題,單號(hào)組參加在線測(cè)試(機(jī)考),雙號(hào)參加紙筆考試(筆考),機(jī)考使用的是HiE-4的樣題,筆考使用的是KET(劍橋英語等級(jí)考試 Key English Test)。
(2)內(nèi)部效度檢驗(yàn)
為了驗(yàn)證HiE試題的有效性,我們根據(jù)參加機(jī)考的學(xué)生答題和得分情況,做了試題內(nèi)容一致性檢驗(yàn),如表3所示。
由統(tǒng)計(jì)數(shù)據(jù)可知,本套試題的內(nèi)部一致性檢驗(yàn)得分為α=0.736??傮w說來還是比較滿意的。現(xiàn)在看來,影響該信度指數(shù)的因素主要有兩個(gè):第一,考生樣本量較小(共41人);第二,試測(cè)當(dāng)天,因網(wǎng)絡(luò)故障,影響了一部分學(xué)生的答題,有一部分考生的聽力或口語部分沒有記錄。即使在這樣的情況下,我們?cè)囶}的內(nèi)部一致性系數(shù)仍然達(dá)到了0.7以上,這已經(jīng)是很不錯(cuò)的成績(jī)了。如果將來進(jìn)一步改善機(jī)考條件,改進(jìn)考試流程控制,我們確信內(nèi)部效度得分還能提高。
(3)外部效度檢驗(yàn)
首先,比較了期中考試與KET的相關(guān)性,找出既參加期中考試,又參加了KET筆試的同一組學(xué)生的數(shù)據(jù),比較它們的相關(guān)性,結(jié)果如表4所示。
表4 KET與期中考試的相關(guān)性
KET成績(jī) 期中考試
KET成績(jī) Pearson 相關(guān)性
顯著性(雙側(cè))
N 1
39 .933**
.000
39
期中考試 Pearson 相關(guān)性
顯著性(雙側(cè))
N .933**
.000
39 1
39
**. 在 .01 水平(雙側(cè))上顯著相關(guān)。
從數(shù)據(jù)中可以看出,Pearson相關(guān)系數(shù)為.933,在.01的水平上顯著相關(guān)。因?yàn)镵ET是很權(quán)威的國(guó)際考試,期中考試與其相關(guān)系數(shù)得分很高,說明這次期中考試是非??煽康?。
然后,又將既參加期中考試,又參加了機(jī)考的同一組學(xué)生的成績(jī)做了相關(guān)檢驗(yàn)。因?yàn)槠谥锌荚嚊]有考口語,所以機(jī)考的成績(jī)中也剔除了口語的得分,最后的數(shù)據(jù)分析結(jié)果如表5所示。
表5 期中考試與機(jī)考的相關(guān)性
期中考試 機(jī)考(除口語)
期中考試 1
41 .647**
.000
41
機(jī)考
(除口語) .647**
.000
41 1
41
**. 在 .01 水平(雙側(cè))上顯著相關(guān)。
從表格中可以看出,相關(guān)系數(shù)為0.647,在0.01的水平上顯著相關(guān),這說明機(jī)考試題也是可靠的。
3. 優(yōu)勢(shì)分析
相比傳統(tǒng)的紙筆測(cè)評(píng),HiE測(cè)評(píng)系統(tǒng)具有以下明顯優(yōu)勢(shì)。
第一,以分層評(píng)價(jià)標(biāo)準(zhǔn)體系為核心。評(píng)價(jià)體系是決定學(xué)習(xí)行為取向的規(guī)范和準(zhǔn)則,是評(píng)判學(xué)習(xí)活動(dòng)效果的客觀依據(jù),在本系統(tǒng)的設(shè)計(jì)中具有提綱挈領(lǐng)的作用。北師大團(tuán)隊(duì)在充分調(diào)研國(guó)際上通用的托福、雅思、SAT、劍橋英語以及《加拿大語言測(cè)試等級(jí)標(biāo)準(zhǔn)2000》《21世紀(jì)外語學(xué)習(xí)標(biāo)準(zhǔn)》《歐洲語言共同參照框架》評(píng)價(jià)系統(tǒng)的基礎(chǔ)上,基于國(guó)家課標(biāo),結(jié)合區(qū)域特色,研制了“HiE”六級(jí)評(píng)價(jià)標(biāo)準(zhǔn)體系,即HiE1-HiE6。其中HiE1-HiE2相當(dāng)于小學(xué)英語的入口與出口,HiE3相當(dāng)于初中中期水平,HiE4相當(dāng)于初中畢業(yè)水平,HiE5相當(dāng)于高中中期水平,HiE6相當(dāng)于高中畢業(yè)水平。該評(píng)價(jià)體系圍繞綜合能力的考查開展,在難度和范圍上略高于國(guó)內(nèi)現(xiàn)有同類測(cè)評(píng),整體上和國(guó)際二語習(xí)得測(cè)評(píng)標(biāo)準(zhǔn)接近。作為一個(gè)分層綜合能力評(píng)價(jià)標(biāo)準(zhǔn)體系,它不以年級(jí)段為基準(zhǔn),只以學(xué)生的實(shí)際綜合能力為考查目標(biāo),學(xué)生可以在任意年級(jí)參與測(cè)評(píng),測(cè)評(píng)結(jié)果代表了學(xué)生的能力等級(jí)。
第二,以多維度評(píng)價(jià)標(biāo)簽為手段。為了全方位考查學(xué)生的英語綜合能力,以上述評(píng)價(jià)標(biāo)準(zhǔn)為基礎(chǔ),北師大團(tuán)隊(duì)對(duì)考題進(jìn)行了縝密的設(shè)計(jì)。每道考題都從不同考查層面設(shè)計(jì)多維評(píng)價(jià)標(biāo)簽,包括知識(shí)點(diǎn)構(gòu)成、語言技能分項(xiàng)、認(rèn)知能力等級(jí)、難度級(jí)別、綜合能力覆蓋等。這些評(píng)價(jià)標(biāo)簽的屬性結(jié)合測(cè)評(píng)結(jié)果,既能夠宏觀地分析學(xué)生的整體英語水平,又能夠從各個(gè)維度上對(duì)學(xué)生的分項(xiàng)能力進(jìn)行評(píng)價(jià)。所有考題都由北京市海淀區(qū)中小學(xué)英語教研員、英語學(xué)科帶頭人、骨干教師、一線英語教師負(fù)責(zé)完成,北師大專家負(fù)責(zé)審定工作。
第三,以網(wǎng)絡(luò)化測(cè)評(píng)模式為載體。和傳統(tǒng)的紙筆考試模式不同,HiE測(cè)評(píng)系統(tǒng)完全基于網(wǎng)絡(luò)環(huán)境,在整體框架上包括組卷系統(tǒng)、考務(wù)系統(tǒng)、閱卷系統(tǒng)、反饋系統(tǒng),在試題類型上覆蓋聽說讀寫各個(gè)環(huán)節(jié),在考試過程中支持自動(dòng)組卷,在閱卷過程中支持部分主觀題型如口語題型和全部客觀題型的自動(dòng)評(píng)閱。它跨越了地理和時(shí)間的限制,使得測(cè)評(píng)的組織和管理更加便捷高效。相比傳統(tǒng)紙筆考,它能夠收集更多有價(jià)值的數(shù)據(jù)信息,從而支持后續(xù)服務(wù)的提供。
第四,以基于數(shù)據(jù)的多級(jí)反饋為目的。反饋是HiE測(cè)評(píng)系統(tǒng)的核心輸出目標(biāo)。通過評(píng)價(jià)標(biāo)準(zhǔn)體系中各項(xiàng)能力標(biāo)簽的構(gòu)建和后臺(tái)數(shù)據(jù)的分析挖掘,系統(tǒng)可以自動(dòng)生成基于學(xué)生測(cè)評(píng)過程和結(jié)果的反饋信息,同時(shí)結(jié)合多次測(cè)評(píng)的過程性分析和群體性測(cè)評(píng)數(shù)據(jù)的綜合結(jié)果,實(shí)現(xiàn)為每名學(xué)生提供個(gè)性化的測(cè)評(píng)報(bào)告,為每位老師提供針對(duì)性的教學(xué)反饋,為每所學(xué)校提供準(zhǔn)確的質(zhì)量分析,為每個(gè)區(qū)域提供詳實(shí)的教學(xué)評(píng)估的多級(jí)反饋功能。
結(jié) 語
HiE測(cè)評(píng)系統(tǒng)參照國(guó)家英語課程標(biāo)準(zhǔn),結(jié)合當(dāng)前國(guó)際英語教育評(píng)價(jià)的理論與實(shí)踐,基于計(jì)算機(jī)輔助英語測(cè)試的相關(guān)研究,充分利用現(xiàn)代教育技術(shù)、自然語言處理技術(shù)以及人機(jī)互動(dòng)技術(shù),避免了傳統(tǒng)紙筆測(cè)試的局限性;可以為各級(jí)教育主管部門、教學(xué)研究機(jī)構(gòu)、學(xué)校、教師、家長(zhǎng)、學(xué)生提供英語學(xué)習(xí)效果的相關(guān)信息;是當(dāng)前測(cè)評(píng)領(lǐng)域從“對(duì)學(xué)習(xí)的評(píng)價(jià)”轉(zhuǎn)向“促學(xué)評(píng)價(jià)”,乃至“以評(píng)帶學(xué)”的重要實(shí)踐。
參考文獻(xiàn)
鄒宏.基于WEB的英語在線考試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué)碩士論文. 2012.
張瑞.英語在線考試及批閱系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].重慶大學(xué)碩士論文. 2009.
周穎.自動(dòng)組卷在線測(cè)試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué)碩士論文.2012.
周越美,孫曉龍,張韌弦.寫作課程的無紙化考試研究[J]. 外語界. 2009(3).
朱音爾,張肖瑩.基于網(wǎng)絡(luò)的大學(xué)英語機(jī)考探索與實(shí)踐[J]. 外語電化教學(xué), 2009(2).
邱東林,季佩英,萬江波,程寅.大學(xué)英語聽說機(jī)考嘗試[J]. 外語界. 2005(4).
(作者單位:北京師范大學(xué) 北京市海淀區(qū)教育科學(xué)研究所 北京師范大學(xué) 中央財(cái)經(jīng)大學(xué))