鄭慧
一、Explain the validation theory at the conceptual level
1.效度簡單地說是指測試的有效性,指測試的內(nèi)容是不是試題設(shè)計者想要測試的,比如測試書寫,是不是成功地測試了考生的書寫水平。
效度是語言測試中最重要的指標(biāo),一份沒有效度或者效度很低的試題是沒有意義的,而且無論對于題目設(shè)計者還是參加測試的考生而言,都是在浪費時間。
2.效度有幾個方面:內(nèi)容效度、理論效度、評分效度。
(1)內(nèi)容效度(context validity)
①任務(wù)布置
a.題目,題目應(yīng)該沒有任何歧義、友好、容易理解、明確、簡短、簡單。這一點很好理解,如果題目產(chǎn)生了歧義,或者答題者不理解題目,就無法進行有效地答題,什么是有效地答題?答題者能夠根據(jù)題目回答問題,在這個過程中被測試了題目設(shè)計者想要測試的相應(yīng)的語言的某種能力,才能稱作有效答題。所以對題目的設(shè)定有基本要求。
b.目的,被測者應(yīng)該被提供明確的要求,從而他們才能夠選擇最合適的策略去進行理解和輸出。
一個清晰的目標(biāo)可以幫助被測者設(shè)定目標(biāo)和進行自我監(jiān)控。
比方說在進行閱讀測試之前,知道問題,能夠增強學(xué)生的閱讀注意力以及提高閱讀的目的性和計劃性。
c.答題形式,多項選擇題(MCQ)、簡答題(SAQ)。多項選擇題不一定能夠測試特定的語言能力。
d.已知標(biāo)準(zhǔn)
e.權(quán)重
f.問題順序
g.時間限制
②任務(wù)要求
a.寫作
b.閱讀
c.口語
③設(shè)置和測試管理
a.實際條件
b.統(tǒng)一管理
c.保密性
(2)理論效度(Theory-based Validity)
是指測試結(jié)果對考生的語言能力及相關(guān)的心理機制進行解釋的程度。
比如滿分10分,A考生3分,但是3分不足以說明考生A的語言能力,說明該測試的理論效度低。
(3)答題形式(Response Formats)
①間接測試類型-選詞填空
本來要測試寫作能力,題目設(shè)計成選詞填空從而造成更像是在測試閱讀能力。
②直接測試類型-簡答題
本來要測試閱讀能力,題目設(shè)計成簡答題從而造成更像是在測試寫作能力。
(4)評分效度(Scoring Validity)
實際上是以前所指的信度(reliablity),指的是測試的可靠性。
評分效度體現(xiàn)在:測試復(fù)測信度;平行試題信度;內(nèi)部一致性(分半信度);評分信度。
所以從測試本身來說:足夠的樣本、不要給被測者太多的選擇、不給有歧義的名詞、提供清晰明確的指示、確保試題完整排版和易讀性、另候選人熟悉答題形式和測試技巧、提供一致的、不分散注意力的管理環(huán)境、盡可能地使用客觀的評分細則、盡可能地對候選人進行直接比較。從設(shè)計者來說:提供詳盡的評分要點、培訓(xùn)評分者、一開始就允許可接受的回答和適當(dāng)?shù)姆謹(jǐn)?shù)、提出無法區(qū)分能力高低的題目、用號碼來區(qū)別候選人而不是名字、應(yīng)用多樣的獨立的評分方法。
二、Explain the validation theory at thepractice level
1.內(nèi)容效度在實際的應(yīng)用,簡單地說來就是分析一份試卷的分?jǐn)?shù)有沒有效。更直白一點就是,這份試卷能不能測試出題人想要測試的考生的能力,以及區(qū)分考生的水平。
比如出題人要測試考生口語能力,但是題目是要求考生寫作,那么這道題就是沒有內(nèi)容效度的。再者,出題人要測試考生寫作能力,給出的寫作題目學(xué)生無法理解,這套題目也沒有內(nèi)容效度。
2.評分效度是有計算公式的,而且應(yīng)該注意的參數(shù)上述已經(jīng)提到。
現(xiàn)在市面上大部分都是通過各種測試來篩選和區(qū)分人才, 所以效度理論的實際應(yīng)用范圍和方式顯而易見。
三、Analyze a self-selected exam task/section/paper with the validation theory
我選擇了新HSK口試(中級)測試來分析。
大綱:從新HSK口試(中級)大綱中得到新HSK中級的口語的詞匯量約900,代表的是國際漢語能力標(biāo)準(zhǔn)是三級和四級。通過HSK口語(中級)的考生可以聽懂并用漢語較為流利地與漢語為母語者進行口頭交流。試題數(shù)量14,時間約21分鐘。采取“聽說結(jié)合”“讀說結(jié)合”的模式來考察。
新HSK口試(中級)測試分三部分。
1、聽后重復(fù)(10題,3分鐘)
分析:
1)目的不明確,不知道是在測試漢語語音還是瞬時記憶能力還是漢語聽力。在題目中并沒有提供評分細則,考生不知道評分細則就不知道側(cè)重點在哪里。
2)題目使用的是漢語,是目標(biāo)語言,一定程度上是在測試閱讀能力。
3)10道題用時3分鐘,時間分配不合理。
2、看圖說話(2題,4分鐘)
分析:
1)這兩道題用的圖片是一個白人,一個黃種人,沒有顧及到種族多樣性。
2)題目沒有寫明準(zhǔn)備時間,沒有給足夠的提示。
3)題目使用的是目標(biāo)語言而不是考生的第一語言,不利考生。
3、回答問題(2題,4分鐘)
分析:
1)題目使用漢語且?guī)в衅匆簦恢罏槭裁匆@么處理,如果考生不認識中文,看拼音也不一定就能讓考生看懂題目。如果擔(dān)心考生看不明白題目可以直接使用考生的第一語言作為題目而非漢語。
2)題目沒有給出任何提示,沒有對考生進行鼓勵。也沒有提醒考生在答題過程中需要注意要點。
3)題目沒有給出評分細則,比如對流利度和準(zhǔn)確度的評分以及權(quán)重如何一概沒有提出。對考生選取相應(yīng)答題策略及答題技巧不利。
4)答題形式上,是根據(jù)已經(jīng)給出的題目進行回答,類似于一個小型演講,沒有提供草稿紙進行梗概的準(zhǔn)備,也沒有回收草稿紙作為證明考生能力的證據(jù)。
5)題目13:題目缺少真實性和針對性,真實環(huán)境中,作為成年人,很少談?wù)撐覀兿矚g和什么樣的人做朋友這種話題,這類話題更適合測試兒童,但是兒童一般不需要這種語言測試。
綜上所述,從內(nèi)容效度來看,這個新HSK口試(中級)測試內(nèi)容效度低,很大程度上并沒有考到想考的。從評分效度來看,由于時間有限,無法進行樣本測試以及數(shù)據(jù)收集分析,只能進行初步的估計,我估計該測試的評分效度高。意思是口語沒有達到中級的漢語學(xué)習(xí)者就算進行第二次的測試,也會得到差不多的分?jǐn)?shù)。以及這份試卷沒有進行國別化處理,題目全部是漢語,對測試考生口語能力的情況下這樣是不公平的。endprint