計(jì)算機(jī)輔助英語聽說測(cè)試任務(wù)研究
——以新托福、培生學(xué)術(shù)英語考試聽說測(cè)試為例

2022-07-14 07:16:40趙劍楠

考試研究 2022年4期

趙劍楠

一、引言

聽力理解和口語表達(dá)是英語語言運(yùn)用中的兩項(xiàng)關(guān)鍵能力。雖然在日常的英語教學(xué)與學(xué)習(xí)中，人們十分重視對(duì)聽說技能的培養(yǎng)，但相較于讀、寫能力而言，成效卻并不顯著，部分原因在于當(dāng)前暫時(shí)缺少合理的測(cè)試手段。測(cè)試的后效作用（wash back）不突出，導(dǎo)致英語教學(xué)中“輕聽說，重讀寫”的問題愈發(fā)嚴(yán)重，阻礙了英語學(xué)習(xí)者語言水平的進(jìn)步與發(fā)展。

計(jì)算機(jī)輔助測(cè)試（Computer-aided Testing）以其獨(dú)特優(yōu)勢(shì)彌補(bǔ)了紙筆型及面試型測(cè)試的部分不足，通過技術(shù)手段實(shí)現(xiàn)了英語聽、說能力在考查形式層面的結(jié)合。目前，這種測(cè)試形式已應(yīng)用于我國的中高考英語聽說測(cè)試、大學(xué)英語四六級(jí)口語測(cè)試等國家級(jí)考試之中，對(duì)英語學(xué)科的教學(xué)評(píng)價(jià)以及英語學(xué)習(xí)者的語言提升起到了積極的導(dǎo)向作用。

測(cè)試任務(wù)是測(cè)試構(gòu)念的體現(xiàn)，同時(shí)也是測(cè)試信度與效度的保障。新托福和培生學(xué)術(shù)英語考試是兩項(xiàng)典型的機(jī)助英語測(cè)試，積累了較多的實(shí)踐經(jīng)驗(yàn)，受到多個(gè)國家及地區(qū)的認(rèn)可。本文對(duì)計(jì)算機(jī)輔助英語聽說測(cè)試的概念、優(yōu)勢(shì)及應(yīng)用進(jìn)行簡要介紹，并結(jié)合交際語言測(cè)試?yán)碚摚–ommunicative Language Testing）對(duì)上述兩項(xiàng)測(cè)試在機(jī)助背景下設(shè)計(jì)的英語聽、說任務(wù)加以詳細(xì)分析，以期為英語聽說機(jī)考的開發(fā)者提供參照。

二、計(jì)算機(jī)輔助語言測(cè)試的優(yōu)勢(shì)及應(yīng)用

計(jì)算機(jī)輔助測(cè)試指利用計(jì)算機(jī)協(xié)助進(jìn)行測(cè)試的一種方法，其在語言測(cè)試方面的應(yīng)用被稱為計(jì)算機(jī)輔助語言測(cè)試（Computer-aid language testing），簡稱CALT。與傳統(tǒng)的紙筆型或面試型語言測(cè)試相比，CALT 具備五項(xiàng)優(yōu)勢(shì)，即（1）受時(shí)空環(huán)境影響小，測(cè)試便捷度高；（2）指令說明規(guī)范，測(cè)試公平性強(qiáng)；（3）計(jì)算機(jī)能夠通過其強(qiáng)大的信息加工技術(shù)適時(shí)調(diào)配諸如圖片、音效以及視頻等多模態(tài)（multi modality）語篇，充分還原語言任務(wù)的交際情境，為受試者提供更為豐富的語境信息，較面試型測(cè)試更加靈活真實(shí)；（4）自適應(yīng)語言測(cè)試（Computerized Adaptive Testing）實(shí)現(xiàn)了計(jì)算機(jī)與受試者輸入的實(shí)時(shí)互動(dòng)，且計(jì)算機(jī)能夠根據(jù)受試者的信息反饋派發(fā)與之相匹配的測(cè)試任務(wù)，以此形成更為動(dòng)態(tài)、高效、精準(zhǔn)的測(cè)試方式，較紙筆型或面試型語言測(cè)試具有更高的信度與效度；（5）自然語言加工技術(shù)實(shí)現(xiàn)自動(dòng)化評(píng)分，評(píng)分靈活性與準(zhǔn)確性高[1]。

目前，CALT 在英語聽說能力測(cè)試方面的應(yīng)用十分廣泛。一般而言，英語聽力能力的檢測(cè)常與紙筆型測(cè)試結(jié)合進(jìn)行，而口語方面則多采用面試型測(cè)試的形式展開檢測(cè)。兩種不同的考查形式使得英語的聽、說能力獨(dú)立存在，語言的輸入與輸出環(huán)節(jié)孤立呈現(xiàn)，不符合語言運(yùn)用的規(guī)律，同時(shí)也無法反映受試者真實(shí)的語言能力水平。此外，面試型測(cè)試還存在著諸如組織復(fù)雜、人力物力成本高、測(cè)試信度效度不夠穩(wěn)定等問題。CALT 在一定程度上彌補(bǔ)了紙筆型與面試型測(cè)試的不足，通過技術(shù)手段做到了視、聽、說的交互結(jié)合，實(shí)現(xiàn)了語言輸入與輸出在考查形式上的統(tǒng)一。計(jì)算機(jī)輔助下的英語聽說測(cè)試任務(wù)完整性高、綜合性強(qiáng)，加之圖片、視頻等多模態(tài)語篇的融入，使得受試者能夠在更為真實(shí)的語境下展現(xiàn)自身的英語聽說能力，有助于提高測(cè)試的效度。此外，CALT通過“人機(jī)互動(dòng)”的方式留存受試者的音譜信息，形成“語音證據(jù)”，可供機(jī)器或人工評(píng)分員進(jìn)行多次評(píng)審，大大提升了測(cè)試的信度。

三、新托福、培生學(xué)術(shù)英語考試聽說機(jī)考任務(wù)設(shè)計(jì)介紹

新托福和培生學(xué)術(shù)英語考試是兩項(xiàng)典型的計(jì)算機(jī)輔助語言測(cè)試。兩項(xiàng)測(cè)試均對(duì)受試者英語的聽、說、讀、寫能力進(jìn)行了比較全面的考查，信度、效度較高，是衡量受試者語言能力水平的較為權(quán)威的測(cè)試，測(cè)試成績得到多個(gè)國家及地區(qū)的認(rèn)可。這兩項(xiàng)測(cè)試之所以能夠比較精準(zhǔn)地反映受試者的英語語言能力水平，關(guān)鍵在于測(cè)試開發(fā)者對(duì)測(cè)試任務(wù)的科學(xué)設(shè)計(jì)。任務(wù)的設(shè)計(jì)離不開諸多方面的考慮，包括施考形式、測(cè)試構(gòu)念、考查目標(biāo)以及評(píng)分方式等因素。本研究聚焦于新托福和培生學(xué)術(shù)英語考試的聽力理解和口語表達(dá)兩個(gè)板塊。

（一）測(cè)試項(xiàng)目簡介

托福全稱為“對(duì)非英語國家留學(xué)生的英語考試”（Test of English as a Foreign Language），是由美國教育考試服務(wù)中心（ETS）研發(fā)的學(xué)術(shù)英語語言測(cè)試，其成績可用于本科及研究生階段的院校申請(qǐng)。2005年9月，托福采用網(wǎng)考形式，新托福由此誕生。目前，新托福已成為全球100多個(gè)國家6000多所大學(xué)認(rèn)可的標(biāo)準(zhǔn)化語言測(cè)試。培生學(xué)術(shù)英語考試由培生教育集團(tuán)開發(fā)，是標(biāo)準(zhǔn)化的出國留學(xué)移民類英語語言能力考試。測(cè)試作答及閱卷評(píng)分均在計(jì)算機(jī)上完成，全程無紙化。培生學(xué)術(shù)英語考試目前已獲得美國、英國、加拿大等多個(gè)國家及地區(qū)的認(rèn)證。

值得說明的是，雖然新托福和培生學(xué)術(shù)英語考試均為計(jì)算機(jī)輔助語言測(cè)試，但均未采用近些年流行的自適應(yīng)性測(cè)驗(yàn)形式。兩項(xiàng)測(cè)試均為常規(guī)的計(jì)算機(jī)化測(cè)驗(yàn)，各受試者所作答的試題內(nèi)容一致。兩項(xiàng)測(cè)試在施考形式上具有較高的相似度，可比性強(qiáng)。

（二）測(cè)試構(gòu)念、能力目標(biāo)及任務(wù)類型

測(cè)試構(gòu)念（Construct）指測(cè)驗(yàn)所測(cè)量的概念或特性。新托福基于交際語言測(cè)試（Communicative Language Testing）理論（由語言能力、策略能力及心理-生理機(jī)制構(gòu)成）進(jìn)行開發(fā)，旨在反映受試者在學(xué)術(shù)語言任務(wù)環(huán)境下的真實(shí)語言能力[2]。培生學(xué)術(shù)英語考試在測(cè)試任務(wù)類型的設(shè)計(jì)上也同樣體現(xiàn)了交際語言測(cè)試?yán)碚摰膬?nèi)涵。兩項(xiàng)測(cè)試均屬于水平性測(cè)試（Proficiency Test），主要功用是為申請(qǐng)留學(xué)、移民的人群提供鑒別英語能力水平的憑證。兩項(xiàng)測(cè)試在聽說方面的測(cè)試構(gòu)念可大致理解為：測(cè)量受試者在學(xué)術(shù)環(huán)境中，理解口頭語言與有效交談的語言能力、策略能力以及心理-生理機(jī)制等。

對(duì)于理解口頭語言，即聽力能力，新托福以選擇式回答（selected responses）任務(wù)為主，包括單（多）項(xiàng)選擇、語意搭配等。相較之下，培生學(xué)術(shù)英語考試的任務(wù)類型則更為豐富，融入了諸如聽后總結(jié)等建構(gòu)式回答（constructed responses）的任務(wù)。此類任務(wù)不僅考查了受試者的聽力能力，同時(shí)還反映了受試者理解主旨、識(shí)別要點(diǎn)、思維邏輯、語言組織等層面的技能。在考查受試者有效交談，即口語表達(dá)方面，兩項(xiàng)測(cè)試均借助CALT 計(jì)算機(jī)技術(shù)將聽、說、讀等語言能力進(jìn)行整合，以觀點(diǎn)討論、回答問題、圖像描述等綜合性較強(qiáng)的口語任務(wù)為主。語言情境方面，多為常見的日常生活、校園學(xué)習(xí)和學(xué)術(shù)交流等內(nèi)容。與此同時(shí)，兩項(xiàng)測(cè)試在進(jìn)行聽說考查時(shí)，還融入了不同區(qū)域的差異化英語發(fā)音和諸如圖像、表格等多模態(tài)語篇，以此保證測(cè)試的相對(duì)真實(shí)。

表1 新托福與培生學(xué)術(shù)英語考試聽力及口語任務(wù)細(xì)目表

（三）評(píng)分標(biāo)準(zhǔn)及成績報(bào)告

新托福聽力采用機(jī)器評(píng)分，口語方面則通過評(píng)分員遠(yuǎn)程集中盲評(píng)的形式進(jìn)行。評(píng)分員在評(píng)分開始前均需接受統(tǒng)一的訓(xùn)練與嚴(yán)格的考核，以確保充分理解評(píng)分標(biāo)準(zhǔn)，保證最終評(píng)分質(zhì)量。培生學(xué)術(shù)英語考試全程采用人工智能評(píng)分，機(jī)器深度學(xué)習(xí)算法后對(duì)受試者的聽、說任務(wù)作答情況進(jìn)行評(píng)價(jià)。

聽力評(píng)分標(biāo)準(zhǔn)方面，新托福聽力以客觀性任務(wù)為主，機(jī)器依照任務(wù)的既定分值進(jìn)行賦分即可。相較之下，培生學(xué)術(shù)英語考試的聽力任務(wù)更為多樣，評(píng)分辦法也相對(duì)復(fù)雜。例如，在多項(xiàng)選擇題中，受試者如存在誤選情況，則會(huì)進(jìn)行分?jǐn)?shù)的倒扣；涉及聽、寫能力相結(jié)合的建構(gòu)式任務(wù)，還需視受試者的具體作答情況，制定相應(yīng)的容錯(cuò)機(jī)制。

口語評(píng)分標(biāo)準(zhǔn)方面，新托福采用綜合法（Holistic Approach）評(píng)分辦法，對(duì)受試者完成測(cè)試任務(wù)的整體情況進(jìn)行打分。各口語任務(wù)分別設(shè)置5 個(gè)分?jǐn)?shù)檔位，且各檔均附有整體描述（General Description）、內(nèi) 容傳達(dá)（Delivery）、語言使用（Language Use）以及主題發(fā)展（Topic Development）四個(gè)維度的描述，以幫助評(píng)分員進(jìn)行評(píng)判。培生學(xué)術(shù)英語考試則采用分析法（Analytic Approach）評(píng)分的方式進(jìn)行，其評(píng)分依據(jù)為培生教育集團(tuán)自主研發(fā)的全球英語水平測(cè)量標(biāo)準(zhǔn)（Global Scale of English）[3]。計(jì)算機(jī)對(duì)受試者完成各項(xiàng)口語任務(wù)的內(nèi)容（Content）、發(fā)音（Pronunciation）、流利性（Oral Fluency）等維度進(jìn)行分析并賦分，最終合成該任務(wù)的整體分?jǐn)?shù)。雖然培生學(xué)術(shù)英語考試采用全機(jī)器評(píng)分，但其評(píng)分結(jié)果同人工評(píng)分有著較高的一致性。研究顯示，培生學(xué)術(shù)英語考試口語人工評(píng)分與機(jī)器評(píng)分相關(guān)度高達(dá)0.96，口語部分整體信度為0.91[4]（Pearson，2009）。

成績報(bào)告方面，新托福除報(bào)告受試者整體成績外，還會(huì)相應(yīng)顯示受試者在聽、說、讀、寫四個(gè)方面的分項(xiàng)成績。培生學(xué)術(shù)英語考試的分?jǐn)?shù)報(bào)告則更為精細(xì)，共包含三個(gè)板塊，即考生信息、總體得分、能力分析等，每一板塊都通過文字或圖表的形式對(duì)受試者的作答情況進(jìn)行解釋與說明。

四、新托福、培生學(xué)術(shù)英語考試聽說機(jī)考測(cè)試任務(wù)分析

（一）充分利用CALT優(yōu)勢(shì)，語境真實(shí)，任務(wù)豐富

相較于紙筆型和面試型測(cè)試，CALT 具有獨(dú)特的優(yōu)勢(shì)，這些優(yōu)勢(shì)為英語聽說能力的科學(xué)測(cè)評(píng)提供了條件。新托福、培生學(xué)術(shù)英語考試聽說測(cè)試充分利用CALT技術(shù)，提高了測(cè)試的真實(shí)有效性。

語言測(cè)試的“真實(shí)性”通常指測(cè)試任務(wù)與目標(biāo)語在真實(shí)情境中語言使用的吻合程度，是影響測(cè)試效度的重要因素[5]。以英語口語測(cè)試為例，基于“人人交互”的面試型測(cè)試雖能直觀地反映出受試者的語言能力水平，但因考官固化的“話術(shù)體系”，受試者機(jī)械的“作答模板”，以及程式化的“一問一答”流程，并非完全貼合現(xiàn)實(shí)生活中的交際環(huán)境，存在著一定的“非真實(shí)性”弊端。結(jié)合語言測(cè)試學(xué)的認(rèn)知效度理論，測(cè)試的設(shè)計(jì)和開發(fā)應(yīng)充分考慮受試者在真實(shí)語言使用環(huán)境中所經(jīng)歷的認(rèn)知過程，并盡可能使受試者在完成考試任務(wù)時(shí)經(jīng)歷相似的認(rèn)知過程，以支持測(cè)試分?jǐn)?shù)的解釋和有效使用[6]。新托福與培生學(xué)術(shù)英語考試口語測(cè)試除在話題選材方面保證了相對(duì)真實(shí)外，兩項(xiàng)測(cè)試還充分借助CALT 的技術(shù)優(yōu)勢(shì)，融入了諸如獨(dú)立語篇、連續(xù)文本、圖片表格等多模態(tài)語篇用于口語能力的考查，拓寬了受試者的信息輸入渠道，豐富了受試者的作答形式，在一定程度上緩解了面試型測(cè)試存在的問題。同時(shí)，CALT 下的英語聽說測(cè)試也充分反映了當(dāng)下日常交際的“新形式”，即隨著信息技術(shù)的不斷發(fā)展，除單一的人際交往外，人類同各種形式的“多模態(tài)因素”的溝通互動(dòng)也變得愈發(fā)密切。

語言使用任務(wù)通常指在特定的情境中，個(gè)人為實(shí)現(xiàn)特定目標(biāo)而使用語言完成的具體活動(dòng)[7]。基于CALT 技術(shù)的兩項(xiàng)測(cè)試在語言使用任務(wù)的設(shè)計(jì)方面各具特色，且類型十分豐富。對(duì)于英語聽力能力的測(cè)量，以往多以紙筆型測(cè)試的形式進(jìn)行考查。為便于在紙質(zhì)卷面上進(jìn)行呈現(xiàn)，英語聽力測(cè)試主要以單（多）項(xiàng)選擇等客觀類測(cè)試任務(wù)為主。此類測(cè)試任務(wù)十分經(jīng)典且優(yōu)勢(shì)突出，但單一的任務(wù)類型僅能反映受試者有關(guān)聽力的個(gè)別能力，并不能全面體現(xiàn)受試者使用語言而達(dá)成的特定目標(biāo)。借助CALT技術(shù)，新托福與培生學(xué)術(shù)英語考試在聽力任務(wù)的設(shè)計(jì)上加以創(chuàng)新，增設(shè)了諸如排序、搭配、標(biāo)記以及聽后寫作等任務(wù)，極大豐富了聽力測(cè)試的任務(wù)類型，受試者也基于不同的任務(wù)類型表現(xiàn)出了更為全面而多樣的語言能力，起到了有效交際的效果。

（二）遵循交際語言測(cè)試?yán)碚?，注重英語聽說能力的整合性考查

新托福與培生學(xué)術(shù)英語考試的聽說任務(wù)均反映交際語言測(cè)試?yán)碚摰睦砟钆c內(nèi)涵。20 世紀(jì)90 年代，語言測(cè)試學(xué)者Bachman 提出“語言交際能力”這一概念，并指出語言交際能力就是把語言知識(shí)和語言使用的情景結(jié)合起來，創(chuàng)造并解釋意義的能力；該理論主要由語言能力（語法能力、語篇能力、功能能力、社會(huì)語言能力）、策略能力（評(píng)估、確定目標(biāo)、制定計(jì)劃、實(shí)施）和心理-生理機(jī)制三個(gè)部分構(gòu)成[8]。

長久以來，多數(shù)語言測(cè)試受結(jié)構(gòu)主義（the Structuralism-Psychometric Approach）影響，認(rèn)為整個(gè)語言系統(tǒng)可以解構(gòu)為若干個(gè)細(xì)小的語言單位，如語音、語法、詞匯等，且可進(jìn)行單獨(dú)測(cè)量[9]。基于這一理論，以往的英語聽說能力測(cè)量簡單地劃分為“聽”與“說”兩個(gè)獨(dú)立的板塊，單一且割裂。但隨著語言研究的不斷深入，人們開始意識(shí)到，在語言學(xué)習(xí)的過程中，除應(yīng)掌握各類不同的語言知識(shí)外，還應(yīng)具備綜合運(yùn)用各項(xiàng)語言技能的能力。新托福和培生學(xué)術(shù)英語考試遵循交際語言測(cè)試?yán)碚?，其聽說測(cè)試強(qiáng)調(diào)受試者通過靈活運(yùn)用聽、說技能解決實(shí)際問題的能力。以新托福的某一口語任務(wù)為例，該任務(wù)要求受試者先在規(guī)定時(shí)間內(nèi)閱讀一篇語篇，閱讀完成后聽取一段相關(guān)主題的音頻，最后結(jié)合所閱讀的語篇及收聽的音頻，口頭回答一個(gè)問題。根據(jù)交際語言測(cè)試?yán)碚摚绢}所反映的相關(guān)能力如圖1所示：

圖1 基于交際語言測(cè)試?yán)碚摰男峦懈Ｄ晨谡Z任務(wù)設(shè)計(jì)分析

該測(cè)試任務(wù)設(shè)于新托福的口語測(cè)試部分，所考查的目標(biāo)自然以受試者的口語表達(dá)能力為主。但經(jīng)過分析，該任務(wù)在測(cè)量受試者口語能力的基礎(chǔ)上，通過CALT 技術(shù)將英語的讀、聽、說等語言技能進(jìn)行整合，對(duì)受試者的語言能力、策略能力以及心理-生理機(jī)制進(jìn)行了全面而綜合的考查，形成了從語言輸入到輸出的完整閉環(huán)。作答該任務(wù)時(shí)，受試者首先需依靠語法、語篇、社會(huì)語言等語言能力閱讀語篇；再次，受試者通過聽力能力收聽音頻，獲取更多的內(nèi)容信息；最后，受試者通過邏輯評(píng)估、目標(biāo)計(jì)劃等策略能力進(jìn)行內(nèi)容整合、邏輯梳理、語言組織并最終形成口語輸出。與此同時(shí)，受試者在話題內(nèi)容、素材情節(jié)等任務(wù)元素的引導(dǎo)下，勢(shì)必會(huì)激發(fā)出其內(nèi)在的心理-生理機(jī)制，由此表現(xiàn)出不同層面的語言或非語言能力，形成獨(dú)有的“自主性”反饋，而這也真實(shí)反映了人們?cè)趯?shí)際語言交際過程中所經(jīng)歷的心理、生理變化?；诮浑H語言測(cè)試?yán)碚摰臏y(cè)試任務(wù)充分調(diào)動(dòng)了受試者有關(guān)英語聽說方面的各項(xiàng)能力，符合語言交際與使用的規(guī)律，在一定程度上緩解了原結(jié)構(gòu)主義語言測(cè)試存在的問題。

（三）基于不同評(píng)價(jià)理念的評(píng)分辦法，成績報(bào)告反撥作用強(qiáng)

新托福與培生學(xué)術(shù)英語考試均采用機(jī)評(píng)方式對(duì)受試者的聽力作答情況進(jìn)行評(píng)閱?？谡Z方面，因其測(cè)試任務(wù)開放性大，受試者作答主觀性強(qiáng)，一直是英語測(cè)試評(píng)分中的難點(diǎn)。因此，選擇恰當(dāng)?shù)脑u(píng)分方式，制定合理的評(píng)分標(biāo)準(zhǔn)則尤為關(guān)鍵。新托福和培生學(xué)術(shù)英語考試基于不同的評(píng)價(jià)理念，在口語評(píng)分的評(píng)分方式、評(píng)分辦法以及評(píng)分標(biāo)準(zhǔn)等方面各有不同，具體情況如表2所示：

新托福采用多人參與的綜合法評(píng)分辦法對(duì)受試者的口語能力進(jìn)行評(píng)價(jià)。評(píng)分員通過對(duì)受試者完成測(cè)試任務(wù)的整體情況進(jìn)行打分，較為宏觀，注重受試者的綜合語言運(yùn)用能力。培生學(xué)術(shù)英語考試則采用機(jī)評(píng)下的分析法評(píng)分方式對(duì)受試者的口語能力進(jìn)行評(píng)價(jià)。通過對(duì)受試者口語表達(dá)的內(nèi)容、發(fā)音、流利性等微觀維度進(jìn)行賦分，較為細(xì)致，注重對(duì)受試者語言使用的不同側(cè)面進(jìn)行評(píng)價(jià)。不同的評(píng)分方式及辦法也側(cè)面反映了兩項(xiàng)測(cè)試口語任務(wù)的不同特點(diǎn)：以人工綜合法評(píng)分為主的新托福側(cè)重受試者的整體交際效果，故其口語測(cè)試任務(wù)的開放性更大；而以機(jī)器分析法評(píng)分為主的培生學(xué)術(shù)英語考試側(cè)重具體語言知識(shí)，故其口語測(cè)試任務(wù)的語言技能針對(duì)性更強(qiáng)。

兩項(xiàng)測(cè)試在考后都為受試者提供了細(xì)致全面的成績報(bào)告。以培生學(xué)術(shù)英語考試為例，其成績報(bào)告一般分為三個(gè)部分，即受試者信息、總體得分以及能力分析。其中，總體得分是對(duì)受試者整體表現(xiàn)的評(píng)價(jià)，除顯示分?jǐn)?shù)外，還附有詳細(xì)的文字說明。能力分析部分則分為交際技能分（Communicative Skills Scores）和語言運(yùn)用技能分（Enabling Skills Scores）兩個(gè)維度[10]。前者是對(duì)受試者聽、說、讀、寫能力的評(píng)價(jià)，后者則是對(duì)受試者語法、口語流利程度、發(fā)音等具體情況的解釋，由粗到細(xì)，為受試者的語言能力提供全方位的評(píng)價(jià)。此外，培生學(xué)術(shù)英語考試還深入開展分值的對(duì)標(biāo)研究，通過自主研發(fā)的全球英語水平測(cè)試標(biāo)準(zhǔn)，精細(xì)化分?jǐn)?shù)標(biāo)準(zhǔn)顆粒度（10-90 分），同歐洲語言共同參考體系、雅思、新托福等國際重要語言標(biāo)準(zhǔn)及測(cè)試進(jìn)行對(duì)接，以幫助受試者更加全面而精確地預(yù)估、比較自身的語言能力水平。

五、計(jì)算機(jī)輔助英語聽說測(cè)試任務(wù)設(shè)計(jì)的啟示

（一）借助機(jī)考平臺(tái)技術(shù)優(yōu)勢(shì)，保證測(cè)試任務(wù)的多樣性與情境的真實(shí)性

計(jì)算機(jī)輔助測(cè)試是語言測(cè)試形式的一大發(fā)展。該測(cè)試形式不僅延續(xù)了紙筆型與面試型測(cè)試的各項(xiàng)特征，同時(shí)還具有一些獨(dú)特的優(yōu)勢(shì)，即通過技術(shù)手段實(shí)現(xiàn)了上述兩種測(cè)試形式所無法呈現(xiàn)的內(nèi)容。這不僅為英語聽說測(cè)試的開發(fā)提供了有利條件，同時(shí)也為英語聽說任務(wù)類型的豐富提供了良好的契機(jī)。測(cè)試開發(fā)者應(yīng)充分借助計(jì)算機(jī)輔助語言測(cè)試的技術(shù)優(yōu)勢(shì)，打破固化測(cè)試思路，勇于創(chuàng)新，力爭從單一的任務(wù)類型向多元的建構(gòu)式任務(wù)進(jìn)行轉(zhuǎn)變。這種轉(zhuǎn)變不僅能夠緩解原諸多英語聽說測(cè)試中僅對(duì)個(gè)別能力進(jìn)行檢驗(yàn)的弊端，同時(shí)還能夠反撥受試者英語聽說能力的全面發(fā)展。此外，測(cè)試開發(fā)者還應(yīng)充分考慮受試者的語言交際實(shí)際，結(jié)合認(rèn)知效度理論，通過計(jì)算機(jī)輔助語言測(cè)試技術(shù)融入更加多元的多模態(tài)語篇，以進(jìn)一步保障測(cè)試的真實(shí)性與有效性。

（二）基于語言的交際功用導(dǎo)向，注重英語聽、說能力的整合性考查

受結(jié)構(gòu)主義測(cè)試影響，在以往的英語測(cè)試中，各項(xiàng)語言能力與技能通常進(jìn)行分項(xiàng)、獨(dú)立考查。這種測(cè)試方法雖能直觀地檢驗(yàn)出所要考查的目標(biāo)能力，但卻具有一定的弊端，造成眾多英語學(xué)習(xí)者雖能夠熟練掌握諸如語音、詞匯、語法等語言知識(shí)，但卻無法將這些技能整合，用英語進(jìn)行自如表達(dá)，其部分原因就在于對(duì)整個(gè)語言系統(tǒng)的割裂化認(rèn)識(shí)。在語言運(yùn)用的過程中，各種語言技能往往不是單獨(dú)使用的，理解性技能（聽、讀）與表達(dá)性技能（說、寫）可能會(huì)同時(shí)存在。因此，測(cè)試開發(fā)者在進(jìn)行英語聽說測(cè)試任務(wù)的設(shè)計(jì)時(shí)，應(yīng)以語言的交際運(yùn)用為導(dǎo)向，結(jié)合交際語言測(cè)試?yán)碚?，通過計(jì)算機(jī)輔助語言測(cè)試技術(shù)將有關(guān)英語聽力與口語的能力進(jìn)行整合。在考查語言知識(shí)的同時(shí)，設(shè)置一定比例的綜合性語言任務(wù)，調(diào)動(dòng)受試者的語言能力、策略能力以及心理-生理機(jī)制，以此激發(fā)受試者通過運(yùn)用語言解決實(shí)際問題，實(shí)現(xiàn)有效交際的能力。

（三）確定合理的評(píng)分辦法，突出測(cè)試的診斷反撥效果

英語口語評(píng)分通常包括分析法評(píng)分和綜合法評(píng)分兩種辦法。分析法評(píng)分注重語言使用的不同側(cè)面，側(cè)重語言的具體知識(shí)與技能。綜合法評(píng)分強(qiáng)調(diào)受試者的綜合語言運(yùn)用能力，側(cè)重受試者完成語言任務(wù)的整體情況。測(cè)試開發(fā)者應(yīng)結(jié)合具體的測(cè)試目標(biāo)選擇相應(yīng)的評(píng)分辦法。此外，測(cè)試開發(fā)者還應(yīng)關(guān)注成績報(bào)告的設(shè)計(jì)。目前，國內(nèi)大部分的英語測(cè)試僅向受試者報(bào)告其最終分?jǐn)?shù)，受試者對(duì)自身語言能力的認(rèn)識(shí)并不清晰，測(cè)試對(duì)語言學(xué)習(xí)的指導(dǎo)意義不強(qiáng)。測(cè)試開發(fā)者可以參考本文中兩項(xiàng)測(cè)試的成績報(bào)告設(shè)計(jì)思路，優(yōu)化成績報(bào)告的內(nèi)容維度，對(duì)受試者掌握各項(xiàng)語言技能的情況進(jìn)行詳細(xì)說明，幫助受試者進(jìn)一步明確需加強(qiáng)的重點(diǎn)，真正起到測(cè)試的診斷與反撥作用。

六、結(jié)語

計(jì)算機(jī)輔助測(cè)試在語言測(cè)試領(lǐng)域中的應(yīng)用愈發(fā)廣泛。其獨(dú)特優(yōu)勢(shì)為英語聽說測(cè)試的開發(fā)與實(shí)施提供了良好的條件與契機(jī)。新托福與培生英語考試是兩項(xiàng)較早基于計(jì)算機(jī)輔助測(cè)試開發(fā)的考試，積累了較多的實(shí)踐經(jīng)驗(yàn)。本文聚焦上述兩項(xiàng)測(cè)試的英語聽說部分，對(duì)其測(cè)試開發(fā)理念、測(cè)試構(gòu)念、任務(wù)類型、能力目標(biāo)、評(píng)分方法等方面進(jìn)行了細(xì)致探究，并提出了在當(dāng)今計(jì)算機(jī)輔助測(cè)試的熱潮下，英語聽說測(cè)試任務(wù)設(shè)計(jì)與開發(fā)的思考之處，以期為相關(guān)測(cè)試的開發(fā)者提供參考。

計(jì)算機(jī)輔助英語聽說測(cè)試任務(wù)研究——以新托福、培生學(xué)術(shù)英語考試聽說測(cè)試為例

一、引言

二、計(jì)算機(jī)輔助語言測(cè)試的優(yōu)勢(shì)及應(yīng)用

三、新托福、培生學(xué)術(shù)英語考試聽說機(jī)考任務(wù)設(shè)計(jì)介紹

（一）測(cè)試項(xiàng)目簡介

（二）測(cè)試構(gòu)念、能力目標(biāo)及任務(wù)類型

（三）評(píng)分標(biāo)準(zhǔn)及成績報(bào)告

四、新托福、培生學(xué)術(shù)英語考試聽說機(jī)考測(cè)試任務(wù)分析

（一）充分利用CALT優(yōu)勢(shì)，語境真實(shí)，任務(wù)豐富

（二）遵循交際語言測(cè)試?yán)碚?，注重英語聽說能力的整合性考查

（三）基于不同評(píng)價(jià)理念的評(píng)分辦法，成績報(bào)告反撥作用強(qiáng)

五、計(jì)算機(jī)輔助英語聽說測(cè)試任務(wù)設(shè)計(jì)的啟示