• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    劍橋英語Compact First考試口語部分評析

    2014-03-27 09:38:50蔡常石
    黃山學(xué)院學(xué)報 2014年2期
    關(guān)鍵詞:試卷可靠性口語

    蔡常石

    (英國利物浦大學(xué) 語言學(xué)院,利物浦L69 3BX)

    一、引 言

    Compact First考試是劍橋國際英語認證考試系列(FCE:First Certificate in English)中的一種模擬測試。[1]6該考試旨在幫助考生達到CEFR(歐洲共同語言參考標準)的B2水平。該考試能夠全面反映考生現(xiàn)實生活中實際運用語言的能力,如普通綜合能力、社交和旅游能力以及工作和學(xué)習(xí)能力等??荚囉晌鍌€部分組成:閱讀理解(1小時)、寫作(1小時 20分鐘)、英語應(yīng)用(45分鐘)、聽力(40分鐘)及口語(14分鐘),每個部分各占總分值的20%。分析研究Compact First考試的口語部分對該考試形式和內(nèi)容的可靠性、有效性和真實性以及能否反映考生語言應(yīng)用能力進行評估。

    二、試卷分析的理論依據(jù)

    運用試卷分析學(xué)理論對Compact First考試口語部分進行分析,主要從語言測試的可靠性、有效性和真實性入手。

    (一)語言測試的可靠性

    可靠性是一種不受非系統(tǒng)性波動影響的概念。Hughes認為要想一個測試是有效的,必須以系統(tǒng)準確的評分為前提,即確保語言測試的可靠性。[2]36

    根據(jù)不可靠性的來源可將可靠性分為以下三種類型:

    1.評分人的可靠性

    評分人搜集到的信息中的不穩(wěn)定性(非系統(tǒng)性波動)將會影響到評分結(jié)果,即測試中評分人的可靠性。對于同一考生的試卷,不同的評分人可能會給出大相徑庭的評分。評分人的可靠性除了受評分者之間的差異影響外,還包括評分人自身的不可靠性。如:同一評分人在一天中的不同時段由于受到情緒或其他因素的影響,對同一考生也會給出不同的評分。

    2.與考生相關(guān)的可靠性

    考生自身的情況也會對可靠性造成影響。例如,由于考生生理或心理的狀況不同,或受到其他測試范圍以外的因素的影響,可能會有不同的應(yīng)試表現(xiàn)。

    3.與測試方式有關(guān)的可靠性

    可靠性還與測試的方式相關(guān)。語言水平相當?shù)目忌?,參加不同題型的考試,其結(jié)果也會大不相同。例如,對于一些善于猜題的考生,在多項選擇題型的考試中就有可能獲得較高的分數(shù)。

    (二)語言測試的有效性

    語言測試中的另一個重要的概念是有效性。Borsboom和Van提出有效性是指一個測試是否測試了想要測試的內(nèi)容。[3]145Hughes亦認為:“如果一個測試能按照其計劃進行準確評估,那么此測試就是有效的?!盵2]143

    有效性可分為內(nèi)容有效性、結(jié)構(gòu)有效性和考生認可度有效性。

    1.內(nèi)容有效性

    內(nèi)容有效性涉及到測試是否涵蓋了被測試知識和技能的足夠范圍?!叭绻粋€測試的內(nèi)容包含了它打算包含的語言技能和結(jié)構(gòu)等具有代表性的范例,那么此測試就做到了內(nèi)容有效性?!盵2]50例如,如果綜合語法能力測試包含兩個練習(xí):一個練習(xí)要求學(xué)生將10個句子改為過去時,另一個練習(xí)要求學(xué)生將10個句子改為否定形式,其內(nèi)容有效性就不容樂觀。因為過去時和否定形式只是整個語法范圍中的一個小部分,而該測試的目的是測試考生的綜合語法能力。沒有達到測試的目標,就意味著該測試的內(nèi)容有效性很低。

    2.結(jié)構(gòu)有效性

    Hughes認為:“‘結(jié)構(gòu)’這個詞存在于語言能力理論中的假設(shè),是指(語言學(xué)習(xí)者)任何潛在的(語言相關(guān)的)能力?!盵2]46此概念關(guān)注試卷所能測試到的考生潛在語言相關(guān)能力的深度。例如,如果閱讀理解測試要求學(xué)生在閱讀的基礎(chǔ)上寫出總結(jié),然后按語言和內(nèi)容的準確性進行評分,該測試的結(jié)構(gòu)有效性就較低。原因在于這種測試過多涉及考生的寫作總結(jié)能力而非閱讀理解能力。

    3.考生認可度有效性

    Hughes指出:“如果某測試被考生視作能夠測出它應(yīng)該測試的內(nèi)容,那么此測試就具有考生認可度有效性。”[2]151它反映考生對于試卷的態(tài)度。例如,一個原本準備測試教學(xué)綱要里規(guī)定內(nèi)容的考試卻測試了此范圍以外的內(nèi)容,則會引起考生的不滿,從而導(dǎo)致較低的考生認可度有效性。

    (三)語言測試的真實性

    語言存在于某一特定的語境中,而非孤立存在的。一個測試能否反映考生實際生活中可能使用語言的情境以及在何種程度上反映,則與語言測試中的真實性概念相關(guān)。例如,測試材料是不是從使用該種目標語言的人群的現(xiàn)實生活中所選取的?測試項中的活動是不是現(xiàn)實生活中存在的?

    三、測試與分析

    (一)測試的組織與實施

    為了對Compact First考試試卷的實際使用效果進行考察,由應(yīng)用語言學(xué)專業(yè)研究生組成了4人測試小組,對40名最近一次雅思成績均為6.5分的利物浦大學(xué)在校生進行集中的口語測試。測試試卷為Compact First考試中的模擬考試2(口語部分),測試過程嚴格按模擬考試規(guī)定的流程進行。

    1.準備階段

    為了使測試工作順利開展,除了應(yīng)提前通知考生考試信息外,還應(yīng)考慮選擇考生較佳的應(yīng)試狀態(tài)(如考生的空閑時間、熟悉的地點、健康的身體狀況和較佳的心態(tài)等)進行測試。為此,測試小組選擇了考生的課余時間,并在考生就讀的大學(xué)圖書館進行測試。測試小組在測試之前還做了其他一些必要的準備工作,包括準備錄音設(shè)備、熟悉試卷內(nèi)容和考試流程、研讀評分標準等。

    2.測試階段

    考生兩兩一組,由4名評分人對每組考生依次進行測試。測試過程中注重不同類型的互動行為,包括考生之間及考生與評分人之間的對話(3分鐘)、考生的個人陳述(1分鐘)、考生之間協(xié)作完成一個任務(wù)(3分鐘)和考生之間的討論(4分鐘)。評分的標準涉及Grammar and Vocabulary(語法和詞匯)、Discourse Management(話語能力)、 Pronunciation(語音)、Interactive Communication(交際能力)和Global Achievement(綜合能力)等五個方面。該階段在14分鐘內(nèi)完成,并全程進行了錄音。

    3.評分階段

    該階段由評分人依據(jù)Compact First口語考試的評分標準對考生進行評分 (4名評分人獨立評分)。為了增強評分人的可靠性,進行了兩次評分。第一次是根據(jù)考生的現(xiàn)場表現(xiàn)評分,第二次是根據(jù)錄音的內(nèi)容評分。

    (二)試卷分析

    根據(jù)測試過程中反映出的情況和測試結(jié)果,主要從語言測試的可靠性、有效性和真實性的角度對Compact First考試試卷(口語部分)中存在的缺點和不足做出分析。

    1.14 分鐘(14minutes)的口語測試時間是不充分的。近乎50%的考查對象不能在規(guī)定的時間內(nèi)自然表達其想法,或是說話不多,或是條理不清,或是被評分人打斷。實際情況是這短短的14分鐘不可能全部用于對考生的口語能力測試。如:整個時間段內(nèi)考生不可能一直說話,因為參試者需要時間考慮說什么怎么組織語言,并且這14分鐘是兩個考生和一個評分人一起使用而非考生獨自使用的。時間的嚴重缺乏限制了測試的范圍和深度,大大影響了測試的有效性,包括內(nèi)容的有效性(如在口語測試中缺乏測試范例,例如在Part1中,僅僅給了5個例子)、結(jié)構(gòu)的有效性(如測試深度因為時間缺乏而不夠)和考生認可度的有效性(如由于讓考生感覺到時間短缺而無法表現(xiàn)他們真實的口語能力)。建議增加該口語測試在整個測試(包括聽說讀寫)中所占的時間比例。

    2.由于試卷中談話或討論部分提出的問題并沒有正確或者錯誤的答案(open test),此測試是一個主觀性測試而非客觀性測試,通常融入了評分人的主觀性。因此不可避免的降低了評分人的可靠性。雖然這是所有主觀性測試都不可避免的誤差,但并不意味著不可能降低該影響。建議盡量避免選取偏題怪題,力求內(nèi)容積極豐富(如Part4部分的內(nèi)容雖然夠不上偏題怪題,但話題比較狹窄,都是與危險“risks”有關(guān)的,包括“accidents in kitchens”, “safer roads”, “risks in danger”,“extreme sports”,“rescued”and“safety rules”)而有意義,讓考生有話說并且愿意交流,同時也一定程度上為評分者評分降低難度。

    3.該口語測試在構(gòu)建良好的結(jié)構(gòu)有效性方面也存在問題。例如,由于考生的圖片解釋能力不足,或者在聽的過程中不能領(lǐng)悟來自其他伙伴的信息,而導(dǎo)致該考生無法繼續(xù)說下去,致使所測試的是該考生的其他能力,如圖片解釋能力(in Part 2&3)和聽力能力(in Part 3)而非其目標語言的口語能力。建議選擇更為純粹的考題,其職能是考察考生的目標語言能力而非其他能力。此外,由于該測試某種程度上無法反映出考生的真實口語能力(受其他能力的影響,如解釋圖片能力和聽力能力),讓考生感到測試不公正,導(dǎo)致考生認可度的有效性在第2部分和第3部分被降低了。

    4.該測試的大部分設(shè)計脫離了真實語境而只是表現(xiàn)出與現(xiàn)實世界目標語應(yīng)用較為松散的聯(lián)系,因此真實性較不理想。例如,在Part 2&3中出現(xiàn)的場景(pictures interpretation)在現(xiàn)實世界中幾乎不存在,同樣Part 4中關(guān)于“risks”的一系列提問在日常生活中亦很少以這種方式提及,如“Who should pay if people who take risks have to be rescued?”(人們也很少談?wù)摗罢l應(yīng)該為那些冒險受傷的人付醫(yī)療費? ”這樣的話題)。 “Which health and safety rules do you think are unnecessary?”(一般人對健康安全條例都未必清楚,更不會知道問題所關(guān)注的其中哪些條例是非必須的。)因缺乏真實的語境使得對語言準確性的評估極為困難,進而影響了評分人的可靠性。建議通過設(shè)計更多真實生活環(huán)境中存在的話題來提高目標語言測試的真實性。Part 1在這一點上做得較好,因為它提出了一些在日常生活中很可能出現(xiàn)的更真實的問題。

    5.Part 1到Part 4為參試者提供了就不同話題回答的機會[如Part 1、2&3考生有機會被問到或分到不同的題目,Part 4考生有自行選擇(“select”)考題的機會]。因為是在不同問題的答案上去評定不同的考生,這就削弱了評分人的可靠性,因而致使主觀評定變得更難。同時,由于讓考生有了避免回答其不喜歡的或者不擅長的問題的機會,內(nèi)容有效性也被降低了,從而進一步縮小了測試類型的范圍。建議適度控制考生自由選擇考題的比例,或者在評分標準上做出相應(yīng)的調(diào)整。

    表1 對比測試1

    表2 對比測試2

    測試小組還做了一個對比測試:測試1和測試2。由2名評分人對40名考生(每10人一組)進行測試。采用附錄-1試題,5分制計分。測試1:評分人在Part 1的5個簡答題中任選2題提問,在Part 4的6個問答題中由考生任選1題回答。測試2:評分人在Part 1的5個簡答題中任選3題提問,在Part 4的6個問答題中由考生任選2題回答。兩次測試的結(jié)果已分別列于表1和表2(表中分數(shù)為各組考生的平均得分)。

    對比表1和表2可以看出:適量在Part 1中增加評分人提問題的數(shù)量以及在Part 4中增加考生任選題的數(shù)量,可縮小不同評分人對同一考生的評分差距,即增強了“評分人的可靠性”。

    6.小組討論(如Part 3)會影響到考生認可度的有效性與考生相關(guān)的可靠性以及與測試方式有關(guān)的可靠性。因為每個考生的表現(xiàn)都可能嚴重依賴于其伙伴,而這種情況可能發(fā)生在各種合作中,如主題針對的是考生不熟悉甚至不喜歡的方面,或者因為考生之間的口語能力迥異而給對方很大的壓力,或考生之間無法達成共識。在這些情況下,考生有理由認為測試是不公平的。正如Ahmad Abdulrahman所說:“可靠性從屬于考生認可度有效性”。[4]143建議讓考生有機會在一次考試中接觸不同的合作伙伴。另外,該測試沒有給考生提供就測試內(nèi)容不理解或者疑慮和考官進行交流的機會 (如果考生提問,也許會影響到評分,也耽誤時間),而只是被動的回答,這讓考生在測試中陷入了不同于平時正常交流的劣勢處境。建議題目設(shè)計中給考生留出適當?shù)奶釂柨臻g。

    7.由于一個評分人也可以作為談話者 (as an interlocutor)與考生對話,這也會因為涉及到評分人自身的表現(xiàn)而影響到評分人的可靠性,或者致使某些考生存在必須將評估者作為談話伙伴的壓力而降低主觀可靠性和與測試方式相關(guān)的可靠性。建議對評分人的自身素質(zhì)進行培訓(xùn),使他們能最大程度的配合考生。

    Compact First考試口語部分采用的是一種趨向于鼓勵考生使用交際性目標語的測試方法,能在一定程度上保證測試的可靠性、有效性和真實性,因而是一種能夠比較全面反應(yīng)考生在現(xiàn)實生活中實際運用英語口語能力的考試。但通過對其使用效果的實際考察,發(fā)現(xiàn)它還存在著一些不夠完善的地方,因此需要相應(yīng)的調(diào)整和改革。

    附錄:

    本文分析對象(CompactFirst考試中模擬測試2的口語部分)

    Part 1 3 minutes(5 minutes for groups of three)

    The examiners introduce themselves;the interlocutor ask the candidates their names and collects the mark sheets.

    Interlocutor:First,we'd like to know something about you.These are examples of the kind of questions the interlocutor might ask each candidate:

    ·Do you ever play any sports?(Why?/Why not?)·Which city would you most like to visit?(Why?)

    ·Do you spend more time with your family or with your friends?(Why?)

    ·Do you prefer going out to places with other people or on your own?(Why?)

    Part 2 4 minutes(6 minutes for groups of three)

    Interlocutor:In this part of the test,I'm going to give each of you two photographs.I'd like you to talk about your photographs on your own for about a minute,and also to answer a short question about your partner's photographs.(Candidate A),it's your turn first.Here are your two photographs(Indicate the photographson page 34).They showpeople learning to do things.I'd like you to compare the photographs,and saywhat you think is difficult about learning to do these things.All right?

    Candidate A:[One minute]

    Interlocutor:Thank you.(Candidate B),do you enjoy learning to do new things?

    Candidate B:[Approximately twenty seconds]

    Interlocutor:Thank you.Now, (Candidate B), here are your two photographs(Indicate the photographs on page 35).They show people watching films.I'd like you to compare the photographs,and say how enjoyable you think it is to watch a film in these ways.All right?

    Candidate B:[One minute]

    Interlocutor:Thank you.(Candidate A),do you often go to the cinema?

    Candidate A:[Approximately twenty seconds]

    Interlocutor:Thank you.

    Parts 3 and 4 7 minutes(9 minutes for groups of three)Part 3

    Interlocutor:Now,I'd like you to talk about something together for about three minutes.(4 minutes for groups of three)Here are some pictures ofthings thathelp protectpeople from injury.(Indicate the photographs on page 36 and 37)First,talk to each other about how these objects can help keep people safe.Then decidewhich two are the most important safety items.All right?

    Candidates:[Three or four minutes]

    Part 4

    Interlocutor:Select any of the following questions,as appropriate.·Why do so many accidentshappen in people's kitchens?

    ·What do you think we can do to make the roads safer?

    ·Why do some people take risks that put them in danger?

    ·Why are extreme sportsbecoming more popular among young people?

    ·Who should pay if people who take risks have to be rescued?

    ·Which health and safety rules do you think are unnecessary?

    Select any of the following prompts,as appropriate:·What do you think?·Do you agree?·And you?

    [1]May,P.Cambridge English Compact First[M].UK Cambridge:Cambridge University Press,2012.

    [2]Hughes,A.Testing for Language Teachers[M].UK Cambridge:Cambridge University Press,2002.

    [3]Borsboom, D.Mellenbergh, G.J.&Van Heerden.The concept of validity[J].Psychological Review, 2004,111(4).

    [4]Ahmad Abdulrahman,A.An Investigation into the Construct Validityofan AcademicWritingTestin English with Special Reference to the Academic Writing Module of the IELTS Test[M].UK Exeter:University of Exete,2013.

    猜你喜歡
    試卷可靠性口語
    可靠性管理體系創(chuàng)建與實踐
    酒中的口語詩
    文苑(2018年22期)2018-11-19 02:54:18
    Module5 A Trip Along the Three Gorges
    Module5 Great People and Great Inventions of Ancient China
    Module 4 Sandstorms in Asia
    Module 1 Europe
    提高口語Level 讓你語出驚人
    電子制作(2017年2期)2017-05-17 03:55:06
    口語對對碰
    基于可靠性跟蹤的薄弱環(huán)節(jié)辨識方法在省級電網(wǎng)可靠性改善中的應(yīng)用研究
    電測與儀表(2015年6期)2015-04-09 12:01:18
    偃师市| 革吉县| 肇州县| 黎川县| 西乌珠穆沁旗| 宁明县| 崇阳县| 育儿| 浦东新区| 绥德县| 麻城市| 鄄城县| 崇左市| 疏勒县| 威海市| 无为县| 新巴尔虎左旗| 新龙县| 江阴市| 凤翔县| 三江| 宁明县| 景泰县| 贵德县| 庆元县| 武胜县| 云和县| 武宁县| 工布江达县| 永泰县| 疏勒县| 通道| 尖扎县| 滨州市| 揭西县| 昌图县| 铁岭县| 合肥市| 固镇县| 正安县| 黄浦区|