劉香東 王一波 于魯泉 龔佑文
目前,我國心理與教育測量的關(guān)注重點在于高考改革,對中小學教育的研究并不多[1]。這是因為我國的中小學教育往往受高考評價指標影響,教育改革常常是依賴對中考、高考進行改革,進而影響中小學教育內(nèi)容。在美國,雖然類似中國的高考SAT(Scholastic Aptitude Test) 和 ACT(American College Testing)也有一定的影響,但是州級(美國的州相當于中國的?。y驗(State Assessment)是教育問責制(Educational Accountability)主要的評價指標。美國州級測驗有三個核心特色,分別是同行評審(Peer Review)、技術(shù)報告(Technical Report)及(心理測量)技術(shù)咨詢委員會(Technical Advisory Committee,TAC)。在這三個核心特色上,具有教育測量學或相關(guān)領(lǐng)域的資深背景心理測量研究員(Psychometrician)發(fā)揮著關(guān)鍵作用。體現(xiàn)了心理測量專業(yè)的應(yīng)用性。本文針對這三個方面的內(nèi)容加以探討。
美國對州級測驗的重視要從聯(lián)邦《初等和中等教育法案》(The Federal Elementary and Secondary Education Act,ESEA)談起。從 2005 年開始,該法案要求每個州的教育廳對中小學3-8 年級及高中的語文、數(shù)學、科學三門課的州級測驗提交同行評審報告,同行評審報告包括六個方面的內(nèi)容[2]:
第一,州課程標準與州測驗。要求證明州測驗與本州的課程標準(Curriculum Standards)相一致。一般來講,主要的證據(jù)包括州級測驗與州課程標準的一致性評估(Alignment Evaluation),而且一致性評估一般由外部專業(yè)的考試公司來進行,以實現(xiàn)評估的客觀性。
第二,州測驗的實施與管理。包括州測驗的設(shè)計與開發(fā)、試題開發(fā)、考試實施、考試實施的監(jiān)測、考試安全等。主要提供的證據(jù)包含:州測驗的設(shè)計與試題的開發(fā)是否符合標準化的程序——教育與心理測驗標準(2014 版)[3],是否采用一致性評估的結(jié)果,是否有一套完善的考試政策來保障考試安全,是否采用一些工具來監(jiān)測考試作弊等。
第三,州測驗的技術(shù)質(zhì)量——效度(Validity)。包括州測驗總體效度、基于內(nèi)容的效度、基于認知處理的效度、基于內(nèi)部結(jié)構(gòu)的效度、基于與其他變量關(guān)系的效度等。這些基于不同內(nèi)容的效度來自教育與心理測驗標準(2014 版)對效度的定義。例如,在基于內(nèi)部結(jié)構(gòu)的效度方面,州教育廳要提供州測驗的維度分析(Dimensionality Analysis)、試題質(zhì)量分析、項目功能差異(Differential Item Functioning)分析等來證明測驗的總體效度;在基于與其他變量關(guān)系的效度方面,如果一些4 年級的學生在州數(shù)學測驗中得到優(yōu)秀(Advanced)的水平,而且他們的成績在國家教育進展評估((National Assessment of Educational Progress)4 年級數(shù)學考試中也取得好的成績,即州數(shù)學考試成績與國家教育進展評估數(shù)學成績高度相關(guān),就會為州測驗的整體效度提供一個有利的證據(jù)。
第四,州測驗的技術(shù)質(zhì)量——其他維度。包括州測驗的信度、公平性與可及性(Accessibility)、評分(Scoring)、測驗的多個試卷、測驗的不同版本等。例如,在州測驗的信度方面,州教育廳需要提供試卷的總信度(Test Reliability)、條件測驗標準誤差(Conditional Standard Error of Measurement)、判別準確性(Classification Accuracy)與判別一致性(Classification Consistency)等;在公平性與可及性方面,州教育廳需要提供證據(jù)表明試題的開發(fā)經(jīng)過了偏見與敏感性審查(Bias and Sensitivity Item Reviews),在試卷開發(fā)過程中盡可能地避免了使用有項目差異的試題,以及在試卷使用后進行的項目差異分析;在州測驗的多個試卷方面,強調(diào)州測驗要保持成績說明的一致性,即跨年度的試卷是類似或者相當?shù)模–omparable),這是因為以對學生成績跨年度的比較來作為教師業(yè)績評估指標之一,是教育責任制實施的基礎(chǔ),如果跨年度試卷不同,而且沒有等值的設(shè)計,對學生成績跨年度的比較既不準確也不科學,因此州教育廳要提供證據(jù)證明每個試卷的開發(fā)都遵循一致的試卷藍圖(Test Blueprint)、具體而詳盡的等值與鏈接(Linking)的過程,以及對等值的評估;在州測驗的不同版本方面,如果有同一年級的紙質(zhì)考試與計算機考試,教育廳要提供考試模式比較分析(Test Mode Effect Analysis)來證明紙質(zhì)考試與計算機考試具有可比較性。
第五,包容所有學生(Inclusion of All Students)。要求證明州測驗考慮到殘疾學生、英語非母語的學生的特殊需要。州教育廳需要為殘疾學生提供調(diào)節(jié)性(Accommodation)政策,如提供州測驗的盲文版本。州教育廳需要證明對英語非母語的學生是否在州測驗上需要調(diào)節(jié)性政策進行了調(diào)查,以及這些調(diào)節(jié)性政策是否適合英語非母語的學生。
第六,課程標準與成績報告。包括采用嚴謹?shù)膶W術(shù)課程標準、制定規(guī)范的標準設(shè)定(Standard Setting)、撰寫合理的成就水平描述(Achievement Level Description)及有意義的成績報告。以標準設(shè)定為例,同行評審要求標準設(shè)定的過程必須符合科學的設(shè)計方法,由具有代表性的專家小組討論決定。以撰寫成就水平描述為例,例如一個學生在4 年級的數(shù)學達到掌握(Mastery)的水平該具有什么樣的知識與技能,這些都是經(jīng)過有經(jīng)驗的教師組討論起草的。在成績報告(Reporting)方面,同行評審要求成績報告要能幫助家長、教師、教育政策制定者理解學生的成績。成績報告要體現(xiàn)不同成就水平(Achievement Level)學生的比例與人數(shù)。一些報告要包括試卷的每道試題的成績及子科目(Subcategory)的成績,有利于家長與教師有的放矢地針對學生需要提高的地方實施補救措施。成績報告要體現(xiàn)學校、學區(qū)、州整體在各個成就水平上的學生的比例,這有利于州教育廳與學區(qū)對薄弱學校實施有針對性的支持性政策。
值得一提的是,同行評審要求各州測驗除了在首次提交評審外,每次對州測驗的重點進行改革時都需要重新提交評審。一般情況下教育部的同行評審團給出的反饋是:通過、補充材料、不通過。如果不能通過同行評審,那么將會影響ESEA 法案對該州的撥款,因此各州教育廳對通過評審都非常重視。
州測驗的技術(shù)報告是各州教育廳提交同行評審的核心證據(jù)。技術(shù)報告是州測驗依據(jù)教育與心理測驗標準(2014 版)開發(fā)的重要證明。技術(shù)報告的內(nèi)容通常包括:州測驗的設(shè)計與開發(fā)、州測驗的實施與考試安全、評分與成績報告、心理測量分析(Psychometric Analyses)、標準設(shè)定、州測驗的效度、測驗的信度等若干章節(jié)。在州聯(lián)盟中小學考試(Partnership for Assessment of Readiness for College and Careers,簡稱PARCC)的技術(shù)報告[4]中還包含質(zhì)量控制(Quality Control)與量表分數(shù)(Scale Score)兩部分內(nèi)容。一般來講3-8 年級與高中(9-12)年級的技術(shù)報告是單獨生成的。下面就技術(shù)報告的主要內(nèi)容予以介紹,重點介紹同行評審中未詳細說明的部分。
在州測驗的設(shè)計與開發(fā)這一章節(jié)中,首先強調(diào)的是測驗與課程標準的一致性。美國目前有41 個州都使用共同核心州立標準(The Common Core State Standards)。測驗的開發(fā)由有經(jīng)驗的教師、研究者、心理測量師和科目內(nèi)容專家共同參與。測驗的開發(fā)過程包括:測驗的設(shè)計、試題與閱讀段落的審查、質(zhì)量的監(jiān)測以及公平性的審查等。其中試題的審查包括:試題內(nèi)容的審查、偏見與敏感性的審查、編輯的審查(語法錯誤)、技術(shù)性審查(試題難易程度、年齡適宜性等)。試卷的組合(Test Construction)包括:試卷符合考試藍圖(Test Blueprint)、鏈接的設(shè)計(保證跨年度的不同試卷具有可比性),以及調(diào)節(jié)性試卷(Accommodation Form)。這一章還包括田野測試(Field Testing)的設(shè)計:隨機排列在正式考題中,還是單獨組成一部分放在正式考題之后。
在測試的實施與考試安全這一章主要包括適宜的調(diào)節(jié)性考試政策與考試安全。以內(nèi)布拉斯卡州的技術(shù)報告[5]為例,針對考生安全,首先聘請了專門的網(wǎng)絡(luò)公司監(jiān)測是否有考試內(nèi)容在網(wǎng)絡(luò)與社交媒體上泄露,其次通過統(tǒng)計分析進行監(jiān)測,具體監(jiān)測方法有:響應(yīng)時間(Response Time)、正式試題(Operational Items)與田野試題得分差異(田野試題通常是新的試題,如果差異很大表明考生提前知道試題內(nèi)容)、試題表現(xiàn)的變化(如果試題在考試期間變得簡單,表明試題有可能已經(jīng)泄露)、不尋常的提高(Unusual Gain)(通過統(tǒng)計方法監(jiān)測出一個考點考生的成績比去年的考生成績意外提高)、雷同卷等。
在評分這一章,以州聯(lián)盟中小學考試的技術(shù)報告為例,分成三部分:機器評分(Machine-Scored)、人工評分(Human or Hand-scored)、智能化評分(Automated or AI Scored)。 對于評分來說,保證評分的質(zhì)量與一致性非常重要,除了對人工評分者的培訓外,人工評分與智能評分都有10%-20%的重讀(Read Behind),同時對評分者間一致性信度(Inter-rater Agreement)也有嚴格的要求,如果一致性信度低于一定的比例,那么會增加對這個評分者的重讀比例或者重新培訓等。
在心理測量分析這一部分,州聯(lián)盟中小學考試的技術(shù)報告分為三章:經(jīng)典測驗分析、項目功能差異分析、項目反應(yīng)理論校準(Item Response Theory Calibration)與鏈接。而內(nèi)布拉斯卡州的技術(shù)報告只把心理測量分析列為一章。這一章是心理測量師工作的核心部分。
在經(jīng)典測試分析(Classical Item Analysis)上,以州聯(lián)盟中小學考試的技術(shù)報告為例,該章列舉了考試結(jié)束(Post Administration)后,對試題難度與區(qū)分度的分析。如果發(fā)現(xiàn)有問題的試題,心理測量師與科目專家等在數(shù)據(jù)分析結(jié)果的基礎(chǔ)上討論是否在評分時去除該試題。這些紅色警示的標準(Flag Criteria)與田野試驗的試題警示標準或者試卷組成的試題警示標準[6]可能略有不同。除此之外,技術(shù)報告還包括試卷總體的描述性統(tǒng)計結(jié)果(如試題的難度、區(qū)分度的平均值、最大與最小值)
以下是考試結(jié)束后,心理測量師與科目專家需要審視的試題紅色警示的標準[7]:
(1)客觀或主觀題試題難度低于0.25 或者高于0.95。
(2)試題的點二列相關(guān)系數(shù)(Item-total Corre-lation)小于 0.15。
(3)任何干擾選項的點二列相關(guān)系數(shù)(選項與總分)為正數(shù)的。
(4)對于總體考試成績前20%的考生,對某個試題干擾項的選擇超過對正確選項的選擇。
(5)任何一個試題,如果客觀題的放棄或未選擇的比例超過5%,主觀題放棄比例超過15%。
(6)主觀試題的任何一個分數(shù)(0,1,2,3 等等)的得分比例少于3%。
在項目功能差異分析這一章,主要介紹了項目功能差異的公式(客觀題與主觀題的公式不同)及警示線的標準。項目功能差異的分組一般分為:性別差異,男女考生的比較;種族差異,白人考生與黑人考生的比較、白人考生與拉丁美裔考生的比較;經(jīng)濟水平,貧困學生(Economically Disadvantaged)與非貧困學生的比較;英語水平,英語非母語與英語第一語言考生的比較;殘疾考生與正??忌谋容^。技術(shù)報告會包括目前試卷中含有項目功能差異試題的數(shù)量與嚴重程度(B or C)等。
在項目反應(yīng)理論校準與鏈接這一章,首先主要介紹項目反應(yīng)理論的公式,有采用Rasch 模型的,也有采用2PL 的。其次介紹項目反應(yīng)理論的假設(shè)條件是否成立,包括單一維度(Unidimensionality)和局部獨立性(Local Independence)。第三,介紹模型擬合度,對于 Rasch 模型,Infit 和 Outfit 是 Winsteps軟件使用的兩個衡量Rasch 模型是否能很好預測學生成績的指標。對于2PL 或者3PL,Q1 統(tǒng)計數(shù)據(jù)和試題擬合圖表(Item Fit Plot)是判斷模型是否能很好預測學生成績的指標。第四,預測的試題難度參數(shù)(Difficulty Parameter)與試題區(qū)分度參數(shù)(Discrimination Parameter)的描述性統(tǒng)計結(jié)果。最后,鏈接參數(shù)估計,跨年度試卷的鏈接是把新的試卷的試題參數(shù)(難度參數(shù)與區(qū)分度參數(shù))轉(zhuǎn)換到基準試卷的同一尺度上。這樣學生在跨年度的兩個試卷上的成績就可以直接進行比較。這個鏈接通常依賴的是兩個試卷擁有一部分共同的試題(Common Item Sets)??缒甓仍嚲淼逆溄油ǔJ褂肧TUIRT(Kim & Kolen,2004)[8]這個軟件來完成。
在標準設(shè)定這一章,教育與心理測驗標準(2014 版)強調(diào)標準設(shè)定需要選擇一個適合州測驗的標準設(shè)定的方法。目前有兩個比較常用的標準設(shè)定方法:Angoff 和Bookmark 方法。州聯(lián)盟中小學考試在中小學設(shè)立了5 個成就水平:超越期望(Exceeded Expectations),符合期望(Met Expectations),接近期望(Approached Expectations),部分符合期望(Partially Met Expectations),未符合預期。標準設(shè)定的專家組根據(jù)標準設(shè)定的方法來設(shè)定每個成就水平分數(shù)線(Cut Score)。標準設(shè)定通常會在正式討論前舉行一個摸底調(diào)查(Pre-policy Meeting),從而使分數(shù)線的設(shè)定也考慮到教育政策制定者、一線校長與教師的聲音。在標準設(shè)定過程中,針對每個水平,標準設(shè)定的專家組起草政策與范圍成就水平描述。這樣使學生、家長、教師明確達到相應(yīng)水平獲得什么樣的知識、技能,以及什么樣的學生需要幫助。
在成績報告一章,值得關(guān)注的是,技術(shù)報告包含了學生在每個成就水平上的百分比,以及對比上一年考試在每個成就水平的百分比的變化,例如學生人數(shù)在符合預期上是否比前一年更多了,有的州把學生在前兩個成就水平的百分比之和,即超越期望和符合期望,作為學校和教師評價的一個指標。技術(shù)報告還包含效度與信度兩章,因為這兩章在同行評審中已經(jīng)介紹,這里不再贅述。
州教育廳每年花大約5-10 萬美元請考試機構(gòu)撰寫技術(shù)報告(3-8 年級和高中),技術(shù)報告是心理測量師與內(nèi)容專家共同合作的成果,技術(shù)報告確保州測驗的開發(fā)遵循了教育與心理測驗標準(2014版)的合理程序,保證了測驗開發(fā)的規(guī)范化,證明了測驗的質(zhì)量(信度與效度),同時也為同行評審提供重要文件(當然同行評審不只需要技術(shù)報告,還需要其他文件材料的證明)。
心理測量技術(shù)咨詢委員會與同行評審和技術(shù)報告密切相關(guān),技術(shù)咨詢會的會議紀要可以作為提交同行評審的重要證據(jù)。在會議中如果討論了州測驗在等值和鏈接上的設(shè)計,那么這是保障州測驗跨年度試卷可比性的重要依據(jù)。心理測量師在技術(shù)報告中對州測驗效度與信度的數(shù)據(jù)或證據(jù)的收集,常常也是技術(shù)咨詢會討論的重要內(nèi)容。下面主要介紹技術(shù)咨詢委員會的使命、組成與會議的形式等。
內(nèi)布拉斯卡州教育廳技術(shù)委員會的宗旨是:“審視本州州測驗計劃,州測驗的質(zhì)量,教育問責體系”[9]。智能平衡(Smarter Balanced)測驗是美國十四個州采用的考試,其(心理測量)技術(shù)咨詢委員會的目標是對州測驗的效度、信度、準確性和公平性方面提供技術(shù)指導。技術(shù)咨詢委員會的成員是來自心理測量領(lǐng)域有一定科研成果的專家。這些專家的研究領(lǐng)域包括:測驗設(shè)計,計算機自適應(yīng)考試,對特殊教育學生的考試,考試的使用,數(shù)學及語文專業(yè)知識等。例如內(nèi)布拉斯卡州教育廳技術(shù)委員會包括5 名大學心理測量學相關(guān)專業(yè)的教授與5 名考試機構(gòu)或獨立咨詢?nèi)说取?/p>
美國各州基本上很少有自己開發(fā)的試卷,一般是通過外包的形式由專業(yè)的考試公司來進行。專業(yè)的考試公司一般都擁有由心理測量師與內(nèi)容專家組成的團隊,而且有的公司承攬多個州測驗的合同,擁有規(guī)?;c專業(yè)化的優(yōu)勢。技術(shù)咨詢委員會會議上一般由考試公司的心理測量師以PPT 的形式提出問題,這些問題一般都有一定的前期研究,建立在數(shù)據(jù)分析的基礎(chǔ)上,然后由技術(shù)委員會委員提出指導意見。技術(shù)咨詢委員會通常設(shè)一名會議主持人,同時負責記錄各委員的意見,會議結(jié)束后再監(jiān)督各考試公司的心理測量師根據(jù)委員會的意見予以實施。一般來講,技術(shù)咨詢委員會每年春節(jié)(3-4 月份)和秋季(10-11 月份)召開兩次會議。由于疫情,今年許多州采取遠程視頻會議的方式舉行技術(shù)咨詢委員會會議。
實例問題一:內(nèi)布拉斯卡州對學生增長百分比(Student Growth Percentile ,SGP)的方法比較感興趣,認為SGP 比量表分數(shù)(Scale Score)和Z-分數(shù)能更好地測量學生的成長。對技術(shù)咨詢委員會的問題:技術(shù)咨詢委員會的委員是否可以談?wù)劜捎肧GP作為評價學校和學區(qū)表現(xiàn)的優(yōu)勢和劣勢?實例問題二:內(nèi)布拉斯加州準備進行3-8 年級的標準設(shè)定,某某考試公司提交了標準設(shè)定的計劃書(包括標準設(shè)定的方法、專家組的招募等),請問技術(shù)咨詢會委員對這個計劃書(包括標準設(shè)定的方法及過程)有什么反饋意見?委員對范圍成就水平描述草案有什么反饋意見?請委員對于設(shè)定分數(shù)線需要三輪判決(Judgment)還是一輪判決提出指導意見。值得一提的是,有的問題專家委員會會一直跟蹤及反饋。例如教育責任制的模型問題,是內(nèi)布拉斯卡州技術(shù)委員會連續(xù)3-4 年討論的主題。
從教育政策制定者的角度來看,首先要重視中小學3-8 年級的教育問責制。我國當前中小學教育受高考、中考的影響較大,這導致有的地方教育主管部門過度關(guān)注高考與中考的升學率,而忽視低年級學生的成長。美國3-8 年級的教育問責體系是一個參考,美國有的州甚至把學前班至小學二年級也放入教育問責體系當中。跨年度試卷(Across Year Form)的等值是教育問責體系的基礎(chǔ),否則第一年的試卷簡單,而第二年的試卷難,這樣就無法衡量學生的學習成績是否有進步。開發(fā)具有高質(zhì)量(效度與信度)的測驗,并通過等值與鏈接保證跨年試卷的可比性需要大量的投入,這不是一個省教育考試院能完成的,最好通過國家層面推動,由幾個省教育考試院共同參與或聯(lián)盟。如美國州聯(lián)盟中小學考試與智能平衡測試都是美國教育部投巨資啟動,然后多個州參與資助運行的。其次,探索省級測驗的同行評審制度與技術(shù)報告要求。美國教育部把州測驗是否通過同行評審與教育資金撥款聯(lián)系起來,使各州教育廳必須重視州測驗的質(zhì)量,從而保證了教育問責制的有效實施。我國教育部或教育部考試中心,也可以在幾個省試驗與探索同行評審制度與省級測驗的技術(shù)報告制度。需要明確的是,如果沒有撥款或資金的鼓勵,很難調(diào)動省級考試院對省級測驗進行改革(如推行跨年度試卷的等值等)的積極性。對省級測驗的改革需要有3-5 年試驗、探索、總結(jié)和完善的過程。在這個過程中,來自教育一線的反饋和心理測量專家的跟進指導都是必不可少的,待經(jīng)驗成熟后才能推廣至全國。
從各省級教育考試院的角度來看,首先可以開發(fā)有質(zhì)量的省級測驗。應(yīng)當認識到3-8 年級教育問責制的重要性(發(fā)現(xiàn)薄弱的學校,及時予以支持與幫助),認識到提高省級測驗的質(zhì)量與跨年度試卷等值對實施教育問責制的重要性。推動跨年度試卷等值的難度不小,這需要各省級教育考試院進行探索,而且需要心理測量師在測驗的設(shè)計開發(fā)、等值與鏈接上進行大量的工作。其次,改革需要循序漸進??缒甓仍嚲黹_發(fā)后,先在小范圍的地方進行試驗,待跨年度試卷等值的模式比較成熟、效果也很好的情況下再在省級范圍內(nèi)推廣,推廣也要循序漸進,例如先從初一示范,然后第二年推廣到小學六年級與初中二年級,然后推廣到小學三年級至初中三年級,最后推廣到高中。最后,有條件的教育考試院可建立(心理測量)技術(shù)咨詢委員會。國內(nèi)目前的模式常常是考試院與某大學的心理學系達成合作框架協(xié)議,或者共同創(chuàng)建考試研究中心。這是一個很好的開端,同時,亦可考慮聘請外國教育測量專家。
最后,需要推動我國心理測量學科的發(fā)展。美國有大約135 所教育測量學博士、碩士授予點,而我國心理測量學博碩士授予點并不多。以美國醫(yī)生資格考試認證中心(National Board of Medical Examiners,NBME))為例,該中心擁有 30 多名心理測量及相關(guān)專業(yè)博士學位的心理測量師。如果師資力量缺乏,可以考慮聘請海外教育測量專家遠程授課。也可以由教育部考試中心牽頭建立一個心理測量國內(nèi)外專家?guī)?,向海?nèi)外招募(心理測量)技術(shù)咨詢委員會的后備人員,然后向各個教育考試院推薦。只有在心理測量專家指導下,才能保證開發(fā)出高質(zhì)量的省級測驗。