當代語言測試理論與實踐——席小明博士訪談錄

2015-03-30 03:26:50席小明李清華

當代外語研究 2015年8期

關鍵詞：公平性效度

席小明　李清華

(美國ETS研究中心,普林斯頓,08541;南方醫(yī)科大學,廣州,510515)

當代語言測試理論與實踐——席小明博士訪談錄

席小明李清華

(美國ETS研究中心,普林斯頓,08541;南方醫(yī)科大學,廣州,510515)

摘要:本文是對國際著名語言測試專家席小明博士的訪談。席博士在語言測試諸多領域,特別是效度研究方面取得了豐碩成果。在訪談中,她首先介紹了ETS的研究概況,分析了語言測試領域的現狀與前景,并對國內語言測試研究提出了前瞻性的建議。席博士對語言測試的理論與實踐問題的談話對國內語言測試實踐與研究具有啟發(fā)意義。

關鍵詞:語言測試,效度,公平性

席小明博士現任美國ETS(Educational Testing Service)的“英語語言學習與測評研究中心”(English Language Learning and Assessment,ELLA)主任、高級研究員,是加利福尼亞大學洛杉磯分校應用語言學專業(yè)語言測試方向博士。曾獲國際語言測試學會(International Language Testing Association,ILTA)2005年最佳論文獎。學術兼職有國際語言測試學術期刊LanguageTesting和LanguageAssessmentQuarterly編委,勞特利奇(ROUTLEDGE)出版社系列叢書“Language Assessment at ETS:Innovation and Validation”主編之一。作為國際著名語言測試專家,席小明博士在語言測試領域研究成果豐碩。

本訪談主要涉及三個方面的內容:(1)ETS的介紹;(2)語言測試研究的現狀與熱點;(3)對國內語言測試研究的建議。下面是訪談的筆錄。

李清華(以下簡稱“李”):首先感謝席博士在百忙中抽出時間接受訪談。ETS是世界著名的教育評估與測量的研發(fā)中心,你們所開發(fā)的TOEFL、GRE、TOEIC等大規(guī)模英語測試,在國內有巨大影響。但是國內讀者對ETS的研究還所知甚少。是否請您先介紹一下ETS?

席小明(以下簡稱“席”):好的。國內對ETS可能會有一些誤解,因為ETS通常翻譯成“教育考試服務中心”或者“服務處”,給人感覺好像是幾個工作人員開發(fā)考試,向全世界的考生提供服務,甚至會有人把它當作一個政府機構。實際上呢,ETS是全世界最大的、民間的、非盈利的教育研究機構?？偛烤驮谖覀兯诘男聺晌髦莸钠樟炙诡D。這一研究機構現有員工3000多人。它的研究和開發(fā)部門叫“R & D”,即“Research and Development”。這是ETS最大的部門,有將近1300人。做試題開發(fā)(assessment development,簡稱AD)的部門有700多人。這只是全職的開發(fā)人員,另外,還有很多part-time item writers(兼職命題人),主要在美國國內。每年夏天AD都會組織全國的老師、博士研究生、碩士研究生進行考題設計培訓。也通過這種方式,培養(yǎng)和發(fā)現一些好的兼職命題人,慢慢地會被聘為正式員工。所以,這是一個培養(yǎng)和招聘人才的渠道。R&D部門有一個專門的測量統(tǒng)計人員組成的做數據分析的團隊,有近300人。他們負責ETS所有的考試的數據分析。還有ETS所承擔的考試,這些考試是美國的一些州委托ETS開發(fā)的考試。實際上,考試試題在正式使用之前,要經過pre-test(試測)。測量統(tǒng)計人員對試測的結果分析,再把信息反饋給出題人員,讓他們修改考題。他們還輔助考題設計者assemble test forms(整合考試題目),以滿足每套試題在整體難度和區(qū)分度的要求。正式的考試完畢后,他們要分析考生的分數,做等值,然后做score reporting(分數報道)。他們另外一個重要的任務是為新考試研發(fā)提供統(tǒng)計測量技術支持,如評分標準、評分量表等所有與psychometrics(心理測量學)有關的工作,他們都會參與。

李清華,南方醫(yī)科大學外國語學院教授。主要研究方向為語言測試。電子郵箱:lqhtesting@163.com

*錄音轉寫稿由席小明博士審定。括號內的解釋和附注系筆者所加。

李:研究部門除了負責統(tǒng)計分析的心理測量團隊之外,還有哪些分支?主要的研究工作是什么?

席:除了上面提到的統(tǒng)計測量人員,研究部門的全職研究人員有180多人,這個部門近幾年發(fā)展很快,其研究涉獵很廣,教育測量的各個領域幾乎都有研究。包括認知類的,還有非認知類的。

李:語言能力屬于認知能力之一。那么,非認知構念(non-cognitive construct)指的是什么?

席:比如現在著重研究的團隊工作能力。

李:請您接著介紹研究團隊和他們的工作。

席:我們的分支機構包括Validity Research(效度研究)、Cognitive and Learning Sciences(認知與學習研究)、Career and Workforce Readiness(職業(yè)和職員入職能力研究)、Assessment Innovations(測評創(chuàng)新)、Understanding Teaching Quality(教學質量測評)和我負責的ELLA研究中心。研究工作分四塊。第一塊是基礎研究。大家都覺得ETS是出考題的,其實呢,ETS對基礎研究的投入力度很大。每個領域都有大型研究課題,每年投入超過一千萬美元支持基礎研究。這些研究都是前瞻性的,涉及面很廣。研究內容和ETS的考試沒有直接關系,而是面向未來的考試、學習、教學趨勢,以期推動更廣泛領域內的教育研究發(fā)展。

比如,我們有一個大型研究課題叫CBAL,全稱是Cognitive-based Assessment of,for,as Learning(即基于認知的促學評估)。這個團隊成立很多年了,發(fā)表了一系列研究成果。CBAL研究針對美國國內的學生,從幼兒園到12年級,設計English language arts(英語語文)、science、maths等方面的考試。他們是試圖把認知科學跟測評結合起來,用認知科學來指導測評。而且他們設計的考試是為了促進學習和教學,包括formative assessments(形成性評估)、interim assessments(期中評估)、summative assessments(終結性評估)和teacher professional development(教師專業(yè)發(fā)展)。他們的研究成果對美國中小學的教學做了很大的貢獻,他們研發(fā)的考試模式對我們第二語言測試有很大的借鑒意義。

剛才我說的是fundamental research initiative(基礎研究)。第二個研究板塊是支持每一項大規(guī)?？荚?像TOEFL iBT、TOEFL ITP(TOEFL Institutional Testing Program,即學院托福)、TOEFL Primary(即小學托福,面向8歲以上的小學生)、TOEFL Junior(即初中托福,面向11-15歲中小學生)、GRE、TOEIC和SAT等都有專門的研究團隊,研究它們的信度和效度。這些考試研究大多數都有外面研究人員參與,ETS會提供數據及研究基金,讓領域內專家對我們的考試進行獨立研究。第三塊是新考試的開發(fā)研究。

李:開發(fā)一項新考試,是不是需要多個部門相互合作?

席:是的。這個團隊一般包括研究人員,考試設計及命題人員,和統(tǒng)計測量人員。還有IT以及Business Development(商業(yè)拓展)等部門。

李:開發(fā)一項新考試,要從哪些方面進行研究?比如說,在TOEFL iBT用于正式考試之前,做了什么研究?您也參與了大量工作,您可否介紹得略微詳細一些?

席:我們是做了多方面的研究。一項新的考試從研究到正式實施,需要經過幾個步驟。第一步是conceptualization(理論構建),在設計題目之前,要做前期工作,對要測試的知識技能進行理論闡述。第二步是prototyping research(樣題研究)。一項新考試是不是考出了學生的知識技能?這一階段就是為了回答這個問題。學生做完題之后,我們會做訪談,或者進行stimulated recall(有提示的回憶),讓他們回憶做題的時候用了什么樣的過程和策略。下面一個步驟是pilot study(試測)。這是把前期研究過的題目整合在一起,組成一份完整的試卷。這份試題的content domain(內容域)覆蓋面的問題、reliability(信度)的問題、timing(考題時長)的問題等多個方面的問題都是這個階段要回答的。到了下一個階段field study(實地測試),這個時候,實驗中用的試題跟正式考試是一樣的。讓學生在跟正式考試一樣的程序下來完成。這些學生必須是有代表性的樣本。獲得的數據是用來制定score scale(評分量表)以及equating plan(等值方案)。這就是新考試開發(fā)的四個步驟。

李:ETS的研究工作與外部的研究機構或政府機構有合作嗎?

席:是的。這就是我要談到的研究部門的第四部分工作。ETS每年都會獲得一些external grant(外部資金)。我們的很多研究人員都可以從美國聯(lián)邦教育部(US Department of Education)申請到大量資金從事基礎研究。比如,我們這個中心做的formative reading assessment(形成性閱讀測評)就獲得了一些資金支持。研究部門的工作就是這四大塊。

李:您領導的這個ELLA中心是新成立的研究機構。能否介紹一下它的主要特色?

席:在成立ELLA這個獨立的研究中心以前,我們是Validity Center的一部分,我們做的工作大部分與考試效度有關。這幾年,因為英語考試越來越多,而且地位越來越重要,我們覺得有必要把它獨立出來,把所有的研究人員和資源整合在一起,從而獲得更多重視。我們在2012年成立這個中心。現在中心有15個全職的研究人員,他們都有博士學位,受過語言測試、二語習得專門的訓練;還有很多研究輔助人員,他們基本都有碩士學位,大多是學心理學、教育測量及語言學的。另外還有administration support people(行政服務人員)。我們這個中心跟其他研究中心及部門有大量的研究合作。因為ELLA這個研究領域涉及的面非常廣。比方說做托福,人工智能輔助評分員評分需要大量的自然語言處理的研究人員參與。人工智能評分系統(tǒng)e-rater(寫作評分系統(tǒng))和SpeechRater(口語評分系統(tǒng))也需要許多部門的合作。有些研究項目需要其他研究部門的參與,比如認知科學研究人員。參加我們研究工作的還有很多考試設計和命題人員和教育測量統(tǒng)計人員。

我們有很多的指導委員會。比如托福就有External Advisory Committee(外部咨詢委員會)。這些指導委員會里的國際語言學習和測試專家會對題目的開發(fā)及我們的研究給予指導,每年都開幾次討論會。TOEFL Primary、TOEFL Junior也有專門的委員會,指導跟青少年英語考試有關的研究。

另外,我們還有一個對外的項目,TOEFL COE Research Program(COE是Committee of Examiners的縮寫,即托福測試研究項目),給大學和其他研究機構的研究人員提供資金、考題、數據,讓他們來做TOEFL iBT的研究以及相關的基礎研究。每年都有幾個大的課題調撥給外面的研究人員。有一些世界一流學者參加這些研究。這個項目一直都很成功。我們中心也成立了一個類似的External research program(外部研究項目),給外面的研究人員和研究生提供資助,讓他們來參與研究TOEFL Primary、TOEFL Junior,及其他青少年英語測試和學習的基礎研究。

我們中心的研究人員會參加上面提到的四大部分的研究工作。我們做研究支持開發(fā),但不會參加命題、改卷及數據分析。據我所知,目前世界上還沒有其他機構能投入這么多資金來進行基礎研究。所以,這是世界上最大的專門的英語考試和學習的研究機構。現在的研究范圍越來越拓展,不光是對英語語言能力的測量,還有考試對學生學習的影響、對教師教學的影響等方面都展開深入的研究。

李:剛才您對ETS的研發(fā),特別是研究方面,做了全景式的介紹。下面請您談談世界范圍內語言測試與評估的發(fā)展現狀、研究熱點、未來的發(fā)展方向等問題。首先請您分析一下語言測試的研究現狀吧。

席:好。就英語考試的研究而言,我覺得整個領域的投入還是很不夠的。我們看到,一些大的研究機構在做大量的考試方面的研究,一些小的研究機構和大學也做一些研究,大多是基礎研究,可是,后者很難獲得真實的考試數據來研究考試對教學的影響,僅僅靠幾個大型考試研究機構和公司是不夠的。怎么樣把語言測試的理論和方法簡化一些,讓一線教師掌握一些基礎的研究手段?他們具備了這樣的能力之后,就可以對本地測試及課堂測試展開研究。比如說,要考慮哪些基本的研究論題?收集哪些數據才能針對這些論題進行研究?這是我的一點想法。

從今后的發(fā)展來看,我覺得有幾個大的研究方向。一是technology-enhanced assessment(技術輔助測評)?，F在電腦和網絡越來越普及了,所以技術在考試中的作用是不可避免的。開發(fā)計算機輔助測試,對我們來說,有機遇也有挑戰(zhàn)。這并不是僅僅把紙質考題搬到電腦上。我們應該考慮如下一些問題:如,怎么樣用現代科技設計考題才能更好地測量學生的語言運用能力以及拓展我們所能測量的能力?怎么樣用科技來輔助我們的考試設計?

ETS在這方面做了一些嘗試。比如在TOEFL Primary Speaking中,整個考試就是一個scenario-based task(故事情境)?？梢约僭O一幫小朋友在公園或者動物園玩的時候,里面會出現各種場景,讓學生去give simple descriptions(簡單描述)、tell a story(講故事)、make a request(提出請求),把所有語言交際的東西都融入到情景里面。在這個方面,技術可以起到很大作用。比如,可以用animation(動畫)模擬這些場景,讓學生感覺身臨其境。這是一個主要的研究方向。目前的研究好像還停留在paper-based(紙質)和computer-based(計算機)考試的對比研究階段。這方面的研究是必要的。必須證明同樣的考試試題用不同的呈現方式,得出的分數是一樣的,對學生是公平的。技術能提高考試的效率,但更重要的是,技術能不能幫助我們去測量傳統(tǒng)的紙筆測試所測不到的能力?

另外,大規(guī)?？荚囇芯繖C構在formative assessment或者assessment for learning(促學測評)方面的研究應當加強?，F在,人們提到考試機構,就會想到大規(guī)模的標準化考試。那么,怎么樣把考試與教學緊密地結合在一起?考試怎樣支持教學?作為檢驗教學效果的手段,我剛才提到的CBAL的理念就是想把考試、教學和學習緊密地聯(lián)系起來。我們中心正在做的formative reading assessment以及其他類似的項目就是這方面的嘗試和探索。我覺得,在測試領域會有越來越多這類的考試。所以,支持這類考試的研究要跟上,要有一些新的assessment models(測評理論框架)。

李:您已經談到了兩個大的研究領域。除了這些,還有什么值得我們今后加強研究?

席:再一個就是score interpretation(分數解釋)的問題。我們都知道CEFR(Common European Framework of Reference,歐洲共同語言參考標準)。他們開發(fā)這個標準的時候,恐怕沒有想到它會在全球產生這么大的影響。CEFR對普通的老師來說,是起到了一些作用,起碼有一個common language standard(統(tǒng)一的語言標準)。我們可以判定學生的水平是B1還是B2。但我覺得,這個標準的運用有很多問題。它僅僅考慮了語言這個方面,是為成人研發(fā)的。那在認知方面,對于兒童恐怕不太適合,因為他們還未達到與成人同等的認知水平,盡管從語言水平來看是達到了。這些兒童學習者并不能完成一些過于復雜的交際任務。

另外,CEFR是一個非常generic(通用類)的標準,對于那些特殊用途的語言考試適用嗎?這是我要談的第四個方面,就是ESP(English for Specific Purposes,專門用途英語)的考試問題。能把CEFR用于某個特殊領域嗎?比如,aviation English(航空英語)、academic English(學術英語)、medical English(醫(yī)學英語),這些領域英語交際要求的詞匯量和話語特征等等都會不一樣。所以,為不同的交際領域制訂出不同的語言測試標準,這樣會更有意義。比如,在academic domain(學術英語交際領域)建立一個common yardstick(共同標準)。既然不同交際領域的語言及交流模式有特殊性,那用所謂通用的標準去解釋分數,就會產生問題。

李:CEFR是一個通用的標準,但它是基于歐洲的英語學習者研制的。那么,在其他地區(qū),比如,東亞的中國、日本、韓國,它還適用嗎?

席:我覺得,地域的差異還不是主要的問題。CEFR畢竟不是基于specific curriculum(特定語言課程)開發(fā)的。主要的問題是specificity(具體化),還有它的target audience(適用人群)。CEFR不適用于小學生,也不是ESP的標準。如果一項考試考察的是English for general purposes(一般用途英語),那么CEFR是比較合適的,但在涉及到具體的、專業(yè)的英語測試時,我們需要考慮更具體化的標準。另外,linking methodology(用來劃定與CEFR各水平級對等的考試分數的方法)是個難題。它畢竟要靠expert judgment(專家主觀判斷)。那么,怎樣用多種方法來核對對等的結果?一些大型的考試分數怎樣與CEFR的等級水平進行對等?實際上,這一對等結果對考生的影響及其它的社會效應是很大的。

李:您剛才談到了現代技術對考試的影響,CEFR和ESP等四個方面,主要是圍繞測試的實踐展開。另外,在語言測試的理論層面,近幾年對validity(效度)和fairness(公平性)討論比較多。這二者的關系,目前還是有爭議的。您曾提出過一個考試公平性的模式①。在您看來,是validity包括fairness,還是fairness包括validity。這個問題非常重要,因為它涉及到語言測試研究的對象,需要拓展到社會的因素上,而不僅僅停留在對分數的解釋上。

席:對。這個問題很重要。我個人覺得,validity是一個寬泛的概念,包括test use and test consequence(測試使用和后果),就像Messick(1989)在EducationalMeasurement②的文章里闡述的那樣。最近Michael Kane(2006)的argument-based validation framework(基于論證的效度驗證框架),還有Carol Chapelle等(2008)的應用和擴展,都是基于Messick闡述的validity這一基本概念的。Kane和Chapelle等都把validity看作是非常寬泛的概念?？墒?在Lyle Bachman的AUA(Assessment Use Argument,語言測評用途論證)③中,validity是一個相對窄的概念,他用justification of assessment use(測評使用的正當性)來涵蓋validity。從理論上看,這些框架之間是有區(qū)別的,但從實際操作層面看,區(qū)別并不大,因為它們都包括測試使用和測度后果等。您問到validity和fairness的關系。Validity研究有非常成熟的體系,經過了幾十年的發(fā)展,一開始是1951年版的EducationalMeasurement里面Cureton的第一個關于validity的系統(tǒng)闡述論文,到后來的Cronbach(1971),到Messick(1989),再到Kane(2006)。Validity的概念和validation的方法,等等,都得到了明確的規(guī)范。比較而言,fairness的理論沒有這么系統(tǒng)全面。實際上,我認為validity可以涵蓋fairness。因為對于兩組考生,用考試的結果做決定,如果做不到公平,那就違反了validity的原則。我覺得,把fairness放到validity的大框架下,用validation的方法進行fairness的研究,非常有用。比如,托福的考生有本科生和研究生,這個考試對于這樣兩個大群體來講,是不是公平的?對domain sampling(試題抽樣)、generalizability(概化、外推)、score-based decision(基于考試成績的決定)等這些validity方面的問題,如果更有利于其中的一個群體,那么,這項考試對另一個群體就是不公平的。不公平的設計因素對考試公平性的影響會變得越來越大,對不同人群產生不同的影響。我覺得,應該把fairness放在更大的validity的框架里來考慮和研究。

李:還有一個問題。英語作為一種國際語言,就是作為通用語的英語(English as a Lingua Franca,簡稱ELF),其地位越來越重要。這對托福這種國際型考試的未來發(fā)展有沒有影響?

席:當然,影響是有的。現在也有一些大型考試會考慮不同的accents(口音),但這主要取決于考試的目的,target language domain(適用范圍)、context(語境)、construct(構念)的界定。比如,英國的一項achievement test(學業(yè)成績測試),課程教的就是英式英語,那么,這項測試就要檢驗學生對英式英語的掌握,當然,考學生別的口音或者別的變體,就可能沒有必要。但是,換成一項international communication for business purposes(國際商務交際)考試,因為要跟不同地區(qū)的人打交道,那么考試就應該考慮到英語的不同變體,才能做到考試的題目與target content domain(適用內容范圍)匹配。所以,怎樣考慮ELF,要看具體考試。

李:最后,請您從語言測試研究專家的角度,對我們國內的語言測試研究提一些建議吧。

席:這有些勉為其難,因為我對國內的語言測試研究不是非常了解,我所知道的僅限于國內學者在國際期刊上發(fā)表的論文和在國際會議上的交流,所以可能說不到點子上。我覺得,現在國內對考試的反撥效應(washback)是很重視的。比如一些獨立學者就曾做過四六級考試(即大學英語考試四級和六級,簡稱CET)的反撥效應研究。從前沿的理論和研究方法等方面,像conceptual model(理論模式)、validity model(效度模式)、validation methodology(效度驗證方法)等都跟國際學者做過一些交流,非常有幫助。近幾年來,交流是越來越多了。有一些國際知名的學者到國內講學,國內的研究者也走出來,與國際同行交流。這種雙向交流仍需要擴大。ETS也非常歡迎這樣的雙向交流。

李:國內目前還沒有像ETS這樣獨立的專門的教育測量與評估研究機構,但從ETS的成功以及它對世界教育測量發(fā)展作出的貢獻看,這種模式確實值得推廣。您覺得,在中國可以復制這樣的模式嗎?

席:我覺得,以后有可能產生。國家層面對教育考試非常重視,像CET、高考,都是教育部或者是地方教育部門來管理的?？荚囃墙逃母锏耐黄瓶?我聽說過考試是教學的“指揮棒”的說法。但是,美國的一些模式也值得借鑒。比如,美國College Board(大學考試委員會)④是一個獨立的松散的研究機構,這是一個民間非營利的研究機構。它開發(fā)的SAT在美國中學影響很大?？墒?美國的大學不一定用SAT考試,他們有自己的自主權,可以選擇自己認可的考試。高考涉及的政策層面太多,可能比較難。但一些行業(yè)性考試、地方性考試、學校的學業(yè)考試等可以逐步跟國際接軌。獨立的民間的研究結構可以嘗試介入或主持這樣的考試,用行業(yè)的標準進行開發(fā)和研究。從省市級的考試,再過渡到國家范圍的考試。

李:聽了席博士的談話,我們受益匪淺。歡迎您經常到國內的高校和研究機構講學,讓國內學者分享您和ETS專家的研究成果,促進國內語言測試的發(fā)展。非常感謝您接受我們的訪談！

席:不要客氣。

附注

① 參見Xi(2010)。

②EducationalMeasurement(Brennan 2006)與StandardsforEducationalandPsychologicalTesting(1999)一起,被看作教育與心理測量領域的“圣經”。

③ 對AUA詳細闡述見Bachman(2005)、Bachman和Palmer(2010)。

④ 美國大學考試委員會是一個與大學、學院、學區(qū)和中學有關聯(lián)的非營利組織。該組織主持的最著名的考試是SAT(Scholastic Assessment Test,學術能力評估測試,即美國的“高考”)。

參考文獻

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. 1999.StandardsforEducationalandPsychologicalTesting(2nd ed.) [Z]. Washington: American Educational Research Association.

Bachman, L. F. 2005. Building and supporting a case for test use [J].LanguageAssessmentQuarterly2: 1-34.

Bachman, L. F. & A. Palmer. S. 2010.LanguageAssessmentinPractice[M]. Oxford: Oxford University Press.

Brennan, R. L. (ed.). 2006.EducationalMeasurement[C]. Westport: American Council on Education/Praeger.

Chapelle, C., M. K. Enright & J. M. Jamieson. 2008.BuildingaValidityArgumentfortheTestofEnglishasaForeignLanguage[M]. New York: Routledge.

Cronbach, L. J. 1971. Test validation [A]. In R. L. Thorndike (ed.).EducationalMeasurement(2nd ed.) [C]. Washington, D. C.: American Council on Education. 443-507.

Cureton, E. E. 1951. Validity [A]. In E. F. Lindquist (ed.).EducationalMeasurement(1st ed.) [C]. Washington, D. C.: American Council on Education. 621-94.

Kane, M. 2006. Validation [A]. In R. Brennan(ed.).EducationalMeasurement[C]. Westport: Greenwood. 17-64.

Messick, S. 1989. Validity [A]. In R. L. Linn (ed.),EducationalMeasurement(3rd ed.)[C]. New York: American Council on Education and Macmillan. 13-103.

Xi, X. 2010. How do we go about investigating test fairness? [J].LanguageTesting27(2): 147-70.

(責任編輯甄鳳超)

[中圖分類號]H310.4

[文獻標識碼]A

[文章編號]1674-8921-(2015)08-0026-05

[doi編碼]10.3969/j.issn.1674-8921.2015.08.005

作者簡介:席小明,見正文。