高淼
基于多面Rasch模型的初中英語口語測試EBB評分標準研究與效度驗證
高淼
評分標準是測試構(gòu)念的可操作化體現(xiàn)。本文介紹了EBB評分標準的定義和優(yōu)勢,嘗試了如何基于考生真實的測試表現(xiàn)數(shù)據(jù),為一項低風險的大規(guī)模初中英語口語測試制定EBB評分標準,并基于項目反應理論,利用多面Rasch模型對其進行效度驗證。研究結(jié)果表明,包含語音語調(diào)、準確性、交際有效性和任務完成度四個評分維度的EBB評分標準符合分割指數(shù)、平均測量值和未加權(quán)均方擬合指數(shù)等關鍵測量指標要求,具有較好的效度,并且分數(shù)段劃分合理,可操作性強。
EBB評分標準;口語測試;多面Rasch;效度
隨著信息技術(shù)的發(fā)展和數(shù)據(jù)模式的爆炸式增長,當今世界已經(jīng)進入網(wǎng)絡化的“大數(shù)據(jù)時代”,美國等發(fā)達國家已將對“大數(shù)據(jù)”的研究上升至戰(zhàn)略高度[1-2]。在教育領域,構(gòu)建和發(fā)展“教育大數(shù)據(jù)”對于制定教育政策、優(yōu)化教育制度、促進教師教學、提升學習質(zhì)量意義重大。長期的、大規(guī)模的、科學的教育質(zhì)量測評是收集“教育大數(shù)據(jù)”的重要工具,如國際學生評價項目(PISA,國際經(jīng)合組織OECD主持),美國國家教育進步評價項目(NAEP,美國國家評價管理委員會NAGB主持)以及國際數(shù)學與科學趨勢研究項目(TIMSS,國際教育成就評價協(xié)會IEA主持)。我國自2007年開始的義務教育階段學習質(zhì)量監(jiān)測體系即創(chuàng)建和發(fā)展于這一時代背景下,該體系通過在全國范圍內(nèi)對小學四年級和初中二年級學生進行全方位的測試,獲取有關中國基礎教育質(zhì)量以及影響因素的大量數(shù)據(jù),從而為決策制定提供依據(jù)和建議。作為質(zhì)量監(jiān)測體系的重要組成部分,英語學業(yè)質(zhì)量監(jiān)測(以下簡稱“英語監(jiān)測”)涵蓋紙筆測試(聽、讀、寫)和口語測試兩個部分。
《義務教育英語課程標準》(2011年版)[3](以下簡稱《課程標準》)明確指出口語能力的培養(yǎng)和評價是英語教學中的重要部分。但就口語測試來說,人力、物力及財力等實施方面的種種困難一直制約著英語口語測試的大規(guī)模開展,長久以來在中國,高考、中考等大規(guī)模高風險測試由于受制于上述因素,也多不包含大規(guī)模的口語測試。作為一項國家層面的大規(guī)模低風險測試,英語監(jiān)測項目克服重重困難,采用分層不等概率抽樣方法,從參加紙筆測試的大樣本考生中,抽出一小部分考生(如2011年年底口語測試中,各年級均抽出900名考生)來進行口語測試。
英語監(jiān)測項目的初中口語測試屬于標準參照性測試,旨在檢測初二學生的口語交際能力,并為教和學提供反饋信息,試題的命制依據(jù)是:《課程標準》相應級別對“說”的能力標準描述,英語監(jiān)測指標體系對“說”這一表達能力的指標描述。測試目的是考查學生使用英語進行交際的能力,表1介紹了2011年初中英語口語測試試題的任務結(jié)構(gòu)。
本研究從2011年口語測試中獲取的真實口試語料出發(fā),根據(jù)測試的構(gòu)念來制定分項評分標準,對考生的口試表現(xiàn)進行不同層面的精確評分,可以更加清楚地理解分數(shù)的意義,進而對考生的口語能力作出更有效的推斷,也為本測試的效度論斷提供實證證據(jù)。再者,本分項評分標準的制定過程和具體內(nèi)容可用于課堂口語評價,有助于教師為學生的口語表現(xiàn)提供明晰、具體的反饋。
評分標準在口語測試中至關重要。無論采用什么形式,評分標準都是抽象的口語測試構(gòu)念在具體評分過程中的可操作的判斷標準,反映出測試設計者對不同水平考生的語言表現(xiàn)的理解[4-5]。制定評分標準的方法總體上有3類:(1)基于直覺和經(jīng)驗的方法(intuitive approach),如美國外語教學委員會外語能力標準指南(the American Council on the Teaching of Foreign Language Guidelines,ACTFL)。(2)量化方法(quantitative approach)。即對眾多語言能力指標描述語進行量化統(tǒng)計,如CEFR。CEFR產(chǎn)生于歐洲獨特的社會經(jīng)濟和教育文化的情境下,適應了歐盟社會經(jīng)濟和教育文化的發(fā)展[6],但它是通過對大量現(xiàn)成的、基于直覺的評分標準描述語(descriptor pool)進行多面Rasch分析統(tǒng)計來制定的[7],本質(zhì)上同上述第一類評分標準一樣。(3)基于考生的測試表現(xiàn)數(shù)據(jù)來制定評分標準,主要倡導者有Fulcher,Upsher和Turner等。大致又可以細分為兩種:第一種傾向于盡可能精細入微地描述不同水平考生的表現(xiàn)(thick description approach),F(xiàn)ulcher[8-9]具體報告了這種方法的研究過程?!霸敿?、具體”這一優(yōu)勢同時也帶來了操作性較差的弊端,因為過細的評分標準會加重評分員的記憶負擔,影響評分信度[10]。第二種基于考生真實語料的評分標準制定方法是基于實證的、二元選擇性的、邊界定義式的概念評分標準制定方法(empirically derived,binary-choice,boundary definition scales,以下簡稱EBB)[11-12]。它與前述所提到的評分標準的區(qū)別在于它不是通過細致地分析考生語料來制定,而是借鑒了Thurstone的成對比較方法(Thurstone’s Method of Paired Comparisons)和凱利網(wǎng)格技術(shù)(Kelly’s Repertory Grid Technique)[13],由專家對考生的真實口試語料進行水平評判,并擬定能夠?qū)颖緞潪樘囟墑e的關鍵特征,即EBB中的一系列“二元選擇問題”或能力指標描述語。之后通過反復討論和協(xié)商,最終達成對描述語所表達的內(nèi)涵的一致看法[14],形成能夠判定不同級別的二元是非問題,或有關區(qū)別性關鍵語言特征(criterial features)的描述語,最終形成的評分標準如圖1所示。
表1 初中英語口語測試試卷結(jié)構(gòu)
圖1 EBB評分標準
由此可見,EBB不同于傳統(tǒng)評分標準線性地描述考生口語能力的做法,而是盡可能客觀地給出不同水平的考生具體能夠用語言做什么樣的評判標準。其主要優(yōu)勢在于:(1)設計原理簡單,可被用來制定特定口語或?qū)懽鳒y試任務的評分標準;(2)制定出的評分標準便于使用,特別是當由參與標準制定的人員來評分時,會實現(xiàn)更為理想的評分信度;(3)針對每一特定任務而生成的評分標準若用在教學情境中,可準確反映學生的表現(xiàn)并為學生提供反饋。
總之,評分標準應該根據(jù)特定的測試目的以及測試對象,根據(jù)基于分數(shù)意義所欲作出的決策來制定[15-16]。因此,本研究采用EBB標準制定方法,為英語監(jiān)測項目的口語測試制定分項評分標準。目前國內(nèi)大規(guī)??谡Z測試評分標準多是依憑專家經(jīng)驗并借鑒已有評分標準來制定,基于考生真實測試表現(xiàn)數(shù)據(jù)來制定評分標準的相關研究幾乎沒有,本研究是對這一缺陷的彌補,也是對評分標準制定方法的嘗試和創(chuàng)新。
本研究旨在回答以下3個研究問題:
(1)分項評分標準的效度如何?
(2)考生在語音語調(diào)、準確性、交際有效性、任務完成度這4個評分維度上的表現(xiàn)如何?
(3)評分標準各分數(shù)段在以上4個維度是否發(fā)揮了預期的作用?
3.1 制定EBB評分標準
3.1.1 確定構(gòu)念
本研究中,EBB評分標準的制定依據(jù)考生的口試錄音語料,通過明確能夠區(qū)分不同水平考生的“顯著語言特征”這一指標來制定。同時參照《課程標準》四級及本測試項目的監(jiān)測指標體系對口語能力要求的水平描述,確定了評分時需關注的4個方面(見表2),實現(xiàn)了測試構(gòu)念的可操作化。
對每一個維度的具體指標描述通過采用EBB標準制定方法。
3.1.2 確定級別數(shù)
通??谡Z評分標準有4~6個水平或分數(shù)檔[9]。CEFR認為4個維度和5個維度就開始增加評分員的認知負荷,而7是心理學上的記憶負荷上限。同時由于分項評分標準是概念獨立的,所以至少從某種程度上來說,5~6個水平已經(jīng)接近評分員的認知負荷極限。本研究所制定的評分標準包括1~6這6個分數(shù)級別。
3.1.3 參與人員
表2 評分標準的4個維度
從本研究的樣本數(shù)量及研究目的出發(fā),參照Turner&Upshur[12]的EBB評分標準制定方法,最終決定參與評分標準制定的研究人員共4位,包括研究者本人。其中一位是有15余年教齡的中學英語教師(高級職稱,英語語言測試方向博士),一位是英語測試研究方向的在讀博士生,一位是高校英語教師(應用語言學方向碩士)。
3.1.4 研究對象及語料
考生群體為參加口語測試的來自全國5個省份的900名初三年級新生(測試于2011年9月進行,學生剛剛結(jié)束初二學習),從中抽取了140位考生的錄音樣本進行轉(zhuǎn)寫(用于后續(xù)的會話分析子研究),在其中又抽取16位考生的錄音樣本,代表不同水平考生的口試表現(xiàn),據(jù)此制定EBB分項評分標準;之后在剩余的124個樣本中隨機抽出24位考生的錄音樣本,使用新制定的EBB標準對其進行評分,驗證評分標準的信效度;最后,對剩下的100個考生錄音樣本,使用分項評分標準進行評分,進一步驗證評分標準的效度。
3.1.5 具體步驟
制定評分標準分為初步制定標準、修訂、專家審閱、試評、試評數(shù)據(jù)分析、討論修訂,以及形成最終的評分標準6個主要階段,如圖2所示。
在具體的EBB標準制定中(第1步),評判標準是通過提出標準制定人員都認同的可以區(qū)分兩個水平的二元判定問題(binary questions)來實現(xiàn)。如:“Are grammatical errors present in the sample?”,在對此問題回答“是”或“不是”后,進入下一層級的區(qū)別特征判斷。具體操作過程如下:
(1)標準制定人員各自獨立精聽所有的樣本(共16個)并做記錄,之后等分出“較好”和“較差”兩組錄音,每組各8個樣本,記下能區(qū)別這兩大組的區(qū)別性語言特征。提出一個可以區(qū)分這兩組樣本的主要二元判定問題。
(2)通過充分討論和協(xié)商,盡可能對此劃分標準達成一致。
(3)各人在“較好”一組的錄音樣本中,分出級別為4、5、6三個自低向高的等級,每個等級下有2~3個樣本。
(4)確定能區(qū)別級別4與級別5、6的區(qū)別性語言特征,寫出二元判定問題,或描述出可區(qū)別這兩個水平的顯著語言特征。
(5)通過充分討論和協(xié)商,盡可能對此劃分標準達成一致。
(6)確定能區(qū)別5、6兩個級別的區(qū)別性語言特征,寫出二元判定問題,或可以區(qū)別這兩個水平的顯著特征描述語。
(7)通過充分討論和協(xié)商,盡可能對此劃分標準達成一致。
(8)重復以上環(huán)節(jié),對“較差”的一組語料樣本,確定能區(qū)別1、2、3三個級別的二元判定問題或區(qū)別性特征描述語。
評分標準的最終呈現(xiàn)形式是對應于語音語調(diào)、準確性、交際有效性和任務完成度4個維度的4個圖示型分項評分標準。為更直接、直觀地呈現(xiàn)判定標準,沒有采用二元判定問題的形式,而是用描述區(qū)別性語言特征的短語(如“幾乎所有語法使用都不準確”)。
圖2 評分標準制定流程
4.1 評分標準效度的初步驗證
使用這一分項評分標準,請3位語言測試專業(yè)的研究生作為評分員,對24個被試錄音文件進行試評分,之后使用統(tǒng)計分析軟件FACETS 3.68[17],對評分進行了多層面Rasch模型分析。由于本次評分中3位評分員從整體上對3個口試任務從4個維度來評分,所以本多面Rasch模型包括考生、評分員、評分標準3個層面。3個層面之間的關系可用以下數(shù)學模型來表示:
其中,pnjik表示評卷人j在題目i上給考生n評分為k分數(shù)段的概率;pnji( ) k-1表示評卷人j在題目i上給考生n評分為k-1分數(shù)段的概率;Bn為考生n的能力;Di為題目i的難度;Cj為評卷人j評分的嚴厲程度;而Fik為對于題目i取得k分數(shù)段的難度。表3是評分量表4個維度的多面Rasch分析結(jié)果。
從表3可看出,表達的準確性(測量值為0.48洛基)是考生失分最多的評分方面,實際上也沒有考生在該維度上得到滿分,是考生口語表達中的難點;在語音語調(diào)方面考生最容易得到分數(shù)(測量值為-0.54洛基)。評分標準4個維度的分隔指數(shù)為2.16,分割信度為0.82(χ2=16.3,d.f.=3,p<0.01),4個維度整體上有顯著區(qū)別,表明4個評分維度分別考查的構(gòu)念層面不同,且4個方面相對獨立。此外,4個維度的加權(quán)均方擬合統(tǒng)計量(InFit MnSq)介于0.70和1.00之間,且多都基本接近理想值1,說明觀測值與模型期望的情況擬合較好,說明4個維度雖然側(cè)重于不同的方面,但都屬于“口語能力”這一整體構(gòu)念。任務完成度維度的擬合值偏低(0.70),應是由于試評分時不分任務、評分員對該維度的標準難以把握,進而引起較多評分差異所致。因此,在進一步修訂評分標準時,分3個任務分項評分。對4個分項維度層面的具體分析結(jié)果如下。
4.1.1 任務完成度
表4為任務完成度維度的多面Rasch數(shù)據(jù)分析情況。主要關注兩個測量指標,即第4列的平均測量值(average measures)以及第5列的未加權(quán)均方擬合統(tǒng)計量(Outfit MnSq)。平均測量值應從低分數(shù)段向高分數(shù)段單向遞增[18-19]。
從表4可以看出,6個分數(shù)段的平均測量值從-6.82洛基單向遞增到4.67洛基。這種單向遞增的趨勢從圖3也可以看出。
表3 評分量表的4個維度統(tǒng)計結(jié)果
表4 任務完成度維度的分數(shù)段統(tǒng)計
圖3 評分量表分數(shù)段的概率密度曲線圖(任務完成度維度)
從圖3可以看出,6條概率密度曲線(分別代表6個分數(shù)段)分布較均勻,而且都有一定的尖頂,表明能力處于該分數(shù)段的考生很有可能獲得這個分數(shù)段的分數(shù)[20]。雖然,1~6個分數(shù)段的曲線間間隔距離不是很均勻,但從左到右依次排列,呈現(xiàn)出單向遞增趨勢。
此外,未加權(quán)的均方擬合指數(shù)不可超過2,否則此分數(shù)段就不能正確反映考生的實際能力[18]。表4第5列顯示,6個分數(shù)段的未加權(quán)均方指數(shù)值均小于2,說明這6個分數(shù)段均起到了它們應有的評判作用。另外一個和評分量表有關的特征是分數(shù)段標定(step calibration)[21],該指標也應從低分數(shù)段向高分數(shù)段單向遞增。從表4第6列可以看出,分數(shù)段標定測量值隨分數(shù)的升高呈單向遞增趨勢。一般來說,每個分數(shù)段標定之間應至少有1.0洛基的間隔[17]。表4顯示,6個分數(shù)段之間基本符合這個要求,但第2級和第3級之間的間隔過大(4.71洛基),3級和4級之間的間隔又小于1.0洛基,這一情況從圖3也可以直觀地看出。所以可在2分和3分級別之間進一步區(qū)分,并考慮合并3分和4分的分數(shù)段,或修改評分量表的指標描述語。
總體來看,在任務完成度這一維度上,平均測量值單向遞增,且各分數(shù)段的未加權(quán)的均方指數(shù)都在可接受的范圍之內(nèi),表明該評分標準在任務完成度維度上的表現(xiàn)尚可。
4.1.2 語音和語調(diào)維度
語音語調(diào)方面的多面Rasch分析數(shù)據(jù)如表5所示。
從表5可以看出,6個分數(shù)段的平均測量值(第4列)從-7.75洛基單向遞增至5.57洛基,這種單向遞增的趨勢從圖4也可以看出。
圖4 評分量表分數(shù)段的概率密度曲線圖(語音語調(diào)維度)
表5 語音語調(diào)維度的分數(shù)段統(tǒng)計
6條分數(shù)段概率密度曲線從左到右依次整齊地排列過去,呈現(xiàn)出單向遞增的趨勢;表明能力處于各個分數(shù)段的考生得到這個分數(shù)段的概率較高。此外,各曲線之間的間隔非常均勻,這一特征對應于表5的第6列的分數(shù)段標定指標。分數(shù)段標定呈單向遞增趨勢,且之間的間隔均勻,并都大于1.0洛基值。在未加權(quán)的均方指數(shù)指標方面,表5第5列顯示,6個分數(shù)段的未加權(quán)的均方指數(shù)均小于2,說明這6個分數(shù)段起到了預期的評分作用。因此,在語音語調(diào)維度上,本口語測試評分量表的表現(xiàn)非常好。
4.1.3 語言準確性維度
語言準確性維度的多面Rasch分析數(shù)據(jù)如表6所示。
語言準確性維度的多面Rasch分析數(shù)據(jù)只有5個分數(shù)段。從表6可以看出,1~5個分數(shù)段的平均測量值(第4列)從-5.29洛基單向遞增至4.24洛基,這種單向遞增的趨勢從圖5也可以看出。
圖5的5條概率曲線自左向右分別代表1~5個分數(shù)段,呈現(xiàn)出單向遞增的趨勢。此外,表6第5列顯示,5個分數(shù)段的未加權(quán)均方擬合指數(shù)均小于2,說明這5個分數(shù)段都發(fā)揮了預期的評分作用。此外,從表6第6列可以看出,分數(shù)段標定也呈單向遞增趨勢,且各分數(shù)段標定之間的間隔都大于1.0洛基,只是2分和3分之間的間隔稍大,6分這一分數(shù)段沒有使用到。從對3位評分員的訪談中可以得知,在表達的準確性方面,幾乎沒有考生能夠得到滿分(6分),印證了這一數(shù)據(jù)分析結(jié)果。從表6可以看出,分數(shù)段2使用頻率過高(26%),其余分數(shù)段使用頻率相當。因此在進一步修改評分標準時,考慮了對分數(shù)段2的指標描述進行細化和拆分。總體來說,在語言準確性維度,評分量表的表現(xiàn)較好。
4.1.4 交際有效性維度
交際有效性的多面Rasch分析數(shù)據(jù)如表7所示。
從表7可以看出,6個分數(shù)段的平均測量值(第4列)從-6.37洛基單向遞增至4.49洛基,這種單向遞增的趨勢從圖6也可以看出。
圖5 評分量表分數(shù)段的概率密度曲線圖(語言準確性維度)
表6 語言準確性維度的分數(shù)段統(tǒng)計
圖6中的6條概率密度曲線都有自己獨立的尖峰,且呈現(xiàn)出單向遞增的趨勢。此外,在未加權(quán)的均方指數(shù)指標方面,表7第5列顯示,6個分數(shù)段的上的作答表現(xiàn)來評出各維度得分,所以本維度的評分結(jié)果易受到考生在朗讀文段任務上的表現(xiàn)的影響。此外,評分員基本上都反映如果考生在朗讀時的語音語調(diào)較差,會影響對考生在交際有效性方面的評分。因此,在正式評分時采用分任務評分,可從一定程度上解決這一問題。未加權(quán)均方擬合統(tǒng)計量均小于2,說明這6個分數(shù)段起到了預期的評判作用。分數(shù)段標定方面(第6列),除了分數(shù)段4之外,其余分數(shù)段標定都呈單向遞增趨勢,且分數(shù)段之間間隔都大于1??傮w來說,在交際有效性維度上的評分標準具有較好的效度。此外,分數(shù)段3和6的使用頻率過低,分別僅為8%和4%。因此,在進一步修改評分標準時,考慮將分數(shù)段3和4、分數(shù)段5和6合并,并可結(jié)合評分員的反饋意見調(diào)整分數(shù)段3和4的指標描述語。
表7 交際有效性評分量表分數(shù)段統(tǒng)計
圖6 評分量表分數(shù)段的概率密度曲線圖(交際有效性維度)
此外,通過對3位評分員的訪談發(fā)現(xiàn),“交際有效性”這一維度主要體現(xiàn)在對任務1(交際會話)和任務3(看圖說話)的評分上,而任務2為朗讀文段,不涉及“交際有效性”方面的表現(xiàn)。由于本次評分時要求評分員不分任務、從考生在整個口語測試
4.2 EBB評分標準修訂
在請3位評分員使用分項評分標準試評24個錄音樣本的同時,請他們隨時記下使用評分標準評分時遇到的任何問題、或想到的可改進之處。在完成各自的評分任務后,研究者召集評分員,對其進行集體訪談并共同討論評分情況,請其匯報對評分標準的看法及使用心得。3位評分員都表示,相對于傳統(tǒng)的文字描述式的評分標準,這種圖示型的分項評分標準看起來更加直觀、簡潔,更便于操作。尤其是在熟悉評分標準內(nèi)容之后,可以大幅度提高評分速度,聽錄音的同時即可完成評分任務。此外,本評分過程是一個不斷地進行“是”與“否”的“二元判定”過程,評分員經(jīng)過首次判定即可確定考生所屬分數(shù)段,保證了評分不會產(chǎn)生過大誤差。在對評分標準的修訂討論會上,評分員基于各自的評分實踐,對評分標準提出了以下建議:第一,圖示型評分標準應以語音語調(diào)、準確性、交際有效性和任務完成度這一先后順序來排列4個所評維度;第二,修改語音語調(diào)維度的指標描述語,使表述更加清楚。第三,評分標準在形式上應更加便于評分員使用??刹扇∪缦麓胧航y(tǒng)一圖形中判定指標的“是”“否”箭頭指向;將4個維度的評分標準放在一頁紙上,統(tǒng)一調(diào)整箭頭方向。第四,分任務評分,對朗讀文段的評分只關注語音語調(diào)和任務完成度兩個維度,具體評分維度如表8所示。
表8 修訂后的分項評分標準對各任務的評分維度
基于此,研究者和3位評分員使用分項評分標準,隨機挑選4個口試錄音樣本分任務評分,發(fā)現(xiàn)分任務、分維度評分更易操作,評分速度更快,并且3位評分員在每個任務的每一維度上的給分也較為一致(由于樣本過少,無法做量化分析)。雖然評分結(jié)果與不分任務所評得分在各維度上的結(jié)果差異很小,但3位評分員反映:分任務評分時,可專注于對每一個具體任務的評判,減少了認知負擔;在不分任務評分過程中遇到的許多問題也得到了解決,對分項評分標準的把握更加清楚,從而提高了評分效率。
第五,在準確度和交際有效性兩個維度上,3位評分員和研究者一致認為,考生在回答問題時若句子不完整,只要所答與所問意義相關,那么在準確性和交際有效性維度都可得一定分值,將這一具體說明也寫入了評分標準。
基于以上反饋信息以及多面Rasch的分析結(jié)果,研究者對評分標準的內(nèi)容進行了修訂,對其呈現(xiàn)形式也進行了優(yōu)化,并調(diào)整評分過程的具體要求和評分員計分表。
4.3 評分標準的二次驗證
基于以上多面Rasch分析結(jié)果以及評分員的反饋信息,對評分標準進行了較大調(diào)整,并經(jīng)過一位測試學專家的審讀和修改,形成了最終的評分標準。使用新的評分標準,請3位參加分項標準制定的成員對隨機抽取的100名考生的口語錄音進行重新評分。將使用新評分標準所評總分與原基于經(jīng)驗的總體印象評分標準評分進行相關分析,進而驗證新評分標準的效度。獲得結(jié)果如表9所示。
表9 新舊評分標準相關研究描述性統(tǒng)計量
原始評分標準為整體評分標準,分3個任務來評,總分為10分,平均得分為4.80分,標準差為3.37;新的評分標準為分任務分項評分標準,總分為6分,考生最終得分平均分為3.12分,標準差為2.09分。相關統(tǒng)計量如表10所示。
表10 新舊評分標準相關統(tǒng)計量
兩次評分結(jié)果顯著相關(r=0.926,p=0.000<0.01),這一分析結(jié)果進一步印證了新評分標準的效度。
從考生真實的測試表現(xiàn)出發(fā)制定評分標準,是一種自上而下的數(shù)據(jù)驅(qū)動的標準制定方式。使用多面Rasch分析可以驗證評分標準的質(zhì)量,結(jié)果表明,考生在語言準確性方面還需要提高;語音語調(diào)、語言準確性、交際有效性、任務完成度4個維度獨立測量了不同的方面,且都隸屬于“口語能力”這一總的測量構(gòu)念,表明該評分量表具有較好的效度。此外,擬合統(tǒng)計分析結(jié)果表明,6個分數(shù)段的劃分合理,每一個分數(shù)段都發(fā)揮了預期的評分功效。基于初次驗證結(jié)果,修訂了任務完成維度2級、3級和4級的描述語,細化了語言準確性維度2級的描述語,合并了交際有效性維度的3級和4級的描述語,并決定在評分中采用分任務評分(對3個任務分別從語音語調(diào)、語言準確性、交際有效性和任務完成度4個維度評分)。對新修訂的評分標準的相關分析印證了本EBB評分標準的效度。
本研究的結(jié)果為英語質(zhì)量監(jiān)測口語測試的效度論斷提供了來自“分數(shù)解釋”層面的證據(jù)支持[22],更對評分標準的研制有非常重要的意義:因為不再使用相對模糊的描述語,而是采用二元判定的方法,減少評分員通過參照上下不同級別的考生表現(xiàn)評分的現(xiàn)象,提高了評分信度;這一標準制定方法簡單易行,在日??谡Z教學中,英語教師可以基于所教學生的口語表現(xiàn)、所評任務的特點,制定具體的、有針對性的EBB口語測評標準,不僅能夠獲得關于學生口語表現(xiàn)的更準確等信息,更能夠基于標準對學生的口語表達水平作出有效的反饋。
未來研究首先需通過更大的樣本對評分標準進行進一步的驗證,此外可以通過觀察、訪談等質(zhì)性研究手段探究EBB評分標準在課堂評價和形成性評價中所發(fā)揮的反饋作用。
[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學出版社,2012.
[2]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012(6):647-657.
[3]中華人民共和國教育部.義務教育英語課程標準(2011年版)[M].北京:北京師范大學出版社,2011.
[4]DAVIES A,BROWN A,ELDER C,et al.Dictionary of Language Testing[Z].Cambridge:Cambridge University Press,1999.
[5]MISLEVY R,STEINBERG L,ALMOND R.On the structure of educational assessments[J].Measurement:Interdisciplinary Research and Perspectives.2003,1(1):3-62.
[6]FULCHER G.Testing Second Language Speaking[M].London:Longman,2003.
[7]NORTH B.The Development of a Common Framework Scale of Language Proficiency[M].Peterlang,2000.
[8]FULCHER G.Test of oral performance:The need for data-based criteria[J].English Language Teaching Journal,1987,41(4):287-291.
[9]FULCHER G.Does thick description lead to smart tests?A databased approach to rating scale construction[J].Language Testing, 1996,13(2):208-238.
[10]LUOMA S.Assessing Speaking[M].Cambridge:Cambridge University Press,2004.
[11]TURNER C E.Listening to the voices of rating scale developers: identifying salient features for second language performance assessment[J].CanadianModernLanguageReview,2000,56(4):555-584.
[12]TURNER C E,UPSHUR J A.Rating scales derived from student samples:effects of the scale maker and the student sample on scale contentandstudentscores[J].TESOLQuarterly,2002,36(1):49-70.
[13]POLLITT A,MURRAY N.What raters really pay attention to[C]// MILANOVIC M,SAVILLE N.Studies in Language Testing 3:Performance testing,cognition and assessment.Cambridge:University of Cambridge Local Examinations Syndicate and Cambridge University Press,1996:74-91.
[14]UPSHUR J A,TURNER C.Constructing rating scales for second language tests[J].English Language Teaching Journal,1995,49(1):3-12.
[15]CHALHOUB-DEVILLE M.Deriving oral assessment scales across different tests and rater groups[J].Language Testing,1995, 12(1):16-33.
[16]FURNER G.Scoring performance tests[C]//FULCHER G,DAVIDSON F.The Routledge Handbook of Language Testing.Routledge, 2012:378-392.
[17]LINACRE J.A User’s guide to FACETS Rasch-Model Computer Programs[M].Chicago,IL:MESA Press,2011.
[18]LINACRE J M.Investigating rating scale category utility[J].Journal of Outcome Measurement,1999,3(2):103-122.
[19]PIQUERO A R,MACINTOSH R,HICKMAN M.Applying Rasch modeling to the validity of a control balance scale[J].Journal of Criminal Justice,2001,29(6):493-505.
[20]PARK T.Investigation of an ESL placement test of writing using Many-facet Rasch Measurement[J].Working papers in TESOL& Applied Linguistics,2004,4(1):1-21.
[21]BOND T G,FOX C M.Applying the Rasch Model:Fundamental Measurement in the Human Sciences[M].Mahwah,NJ:Lawrence Erlbarm Associates,2001.
[22]BACHMAN L F,PALMER A S.Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford:Oxford University Press,2010.
A Study of Constructing and Validating an EBB Rating Scale for a Large-scale and Low-stakes English Oral Test of 8th Graders
GAO Miao
Rating scale is actually the operationalization of the construct of a test.This article first introduces what EBB is and states its advantages by comparing it with other ways of constructing scales.Then how to construct EBB scale based on students’test performance data is introduced by presenting the procedure and the selection of data. Lastly,the scale is validated by utilizing the Multi-facet Rasch analysis and revisions are made accordingly.The results indicates that the EBB scale is both valid and reliable and of practicality.
EBB Scale;Oral Test;Multi-facet Rasch Analysis;Validity
G405
A
1005-8427(2016)12-0029-11
(責任編輯:周黎明)
本研究得到國家社科基金項目“中國初中英語教師評價素養(yǎng)量表研制與驗證研究”(批準號:15CYY022)及“中央財經(jīng)大學外國語學院2014年度院級課題”的資助。
高淼,女,中央財經(jīng)大學外國語學院,講師(北京 100081)