孔傅鈺
中國政府獎學金本科來華留學生預科教育結業(yè)漢語綜合統(tǒng)一考試(以下簡稱漢語預科考試),旨在評價來華留學生在接受了一學年預科教育后,其漢語水平是否達到了進入我國本科專業(yè)學習的要求。不同于一般的語言水平考試,預科考試既要測量學生的日常語言交際能力,又要考查其學習本科專業(yè)知識時的漢語運用能力[1]。其中,作文是重要的組成部分,其目的是考查學生書面敘述一件事情或簡單說明一個問題的能力,而對考生寫作能力的判斷則以評分員評判的分數(shù)為基礎,因此,作文評分質(zhì)量問題一直備受關注。一般來說,在整體評分中,評分員數(shù)量越多,越有可能減少因個體認知差異而產(chǎn)生的評分偏差。然而,受人力和經(jīng)濟等條件的限制,實際操作時需要在評分員數(shù)量和評分信度之間尋找平衡。早期的研究多在經(jīng)典測量理論(Classical Test Theory,CTT)的框架下進行,主要聚焦評分的一致性,然而CTT依賴具體測試樣本且無法解釋評分者數(shù)量、試題形式等因素帶來的誤差。概化理論(Generalizability Theory,GT)和多面Rasch 模型(Many-Facet Rasch Model,MFRM)則在一定程度上能夠?qū)@些誤差來源進行有效評估,因而成為目前探討作文評分問題的主要理論方法。本研究將使用這兩種方法,以5名評分員對120 份漢語預科考試作文實測卷的評分結果為樣本展開信度研究。
概化理論(GT)整合了經(jīng)典測量理論與方差分析技術,將隨機誤差分解為不同的來源成分納入到影響測試結果的模型中。GT 通常包含兩個研究階段:G 研究(概化研究)和D 研究(決策研究)。前者主要估計不同的測量側(cè)面及其交互作用對考試分數(shù)的影響,后者則是對G 研究階段所得分數(shù)的轉(zhuǎn)換與解釋。當涉及作文評分時,GT 可以從總體、宏觀的角度審視數(shù)據(jù),提供測量目標與不同側(cè)面各自的主效應以及交互效應[2]。此外,相較于CTT,GT 的優(yōu)勢在于能夠識別得分方差和誤差的來源,同時估計這些方差成分對評分一致性和準確性的影響[3]。
Rasch 模型是項目反應理論(IRT)的模型之一,其中考生能力和試題參數(shù)完全獨立。其不足之處在于只考慮了項目難度參數(shù),對多種誤差來源的解釋效果欠佳?;诖?,多面Rasch 模型(MFRM)將多個層面納入評估框架中。根據(jù)不同的考試以及研究需要,可以對MFRM 進行拓展。拓展之后的MFRM 可將考生能力、題目難度、評分員嚴厲度、評分量表中相鄰等級的階梯難度等多個層面納入同一個數(shù)學模型,共同決定考生取得某一分值的概率大小[4]。假設考試中的寫作部分由某個特定的項目(如一篇作文)組成,同時考慮不同的評分員具有不同的評分嚴厲度,則MFRM方程表示為:
在上述方程式中,Pnijk表示考生n 在項目i 上被評分者j評為k的概率,Pnij(k-1)表示考生n在項目i上被評分者j評為k-1的概率。Bn代表考生n的能力參數(shù),Di代表項目i 的難度參數(shù),Cj是評分者的嚴厲程度,F(xiàn)k是評分等級k相對于k-1的難度。MFRM 可以使各層面相互分離,即考生的能力值不受其他層面的影響。同時,它不僅能夠判斷層面內(nèi)部的因素(如考生能力)是否具有顯著差異,還能夠檢驗各層面是否具有交互作用,如評分員是否對某一群體的考生特別嚴格或?qū)捤?。此外,通過擬合度統(tǒng)計參數(shù),可以發(fā)現(xiàn)異常的原始分數(shù),也可以發(fā)現(xiàn)其他各個面上的異質(zhì)點[5]??傊?,MFRM 在研究寫作評分方面具有極大的優(yōu)勢。
目前,考試寫作評分的信度及誤差評估方法主要有三種。第一,基于概化理論的評分研究。Gebril 將新型綜合寫作和傳統(tǒng)獨立式寫作進行了對比,對測量結構組合的搭建提出建議[6]。朱宇等人估計了試題、評分員、評卷速度效應及其交互效應的方差分量,考察了HSK5 級書寫成績的可靠性[7]。第二,利用多面Rasch 模型進行評分研究。李清華等對TEM-4 寫作新分項式評分標準質(zhì)量進行了檢驗[8];張文星等則從嚴厲度、集中趨勢、隨機效應等角度探究了TEM-4 作文評分員的評分效應[9]。第三,考慮到概化理論和多面Rasch 模型各自的特點以及它們的互補性,越來越多的寫作評分研究將這兩種方法結合起來。李航對CET-6 實考作文的結果進行了分析,GT 發(fā)現(xiàn)評分員層面以及包含評分員與考生之間交互作用的殘差占有一定的比重,MFRM 則發(fā)現(xiàn)評分員在嚴厲度上存在較大差異[10]。關丹丹研究了碩士入學考試能力測試的寫作評分,GT 表明評分者和題目對評分準確性影響不大,MFRM 顯示評分者之間在寬嚴度上不存在顯著差異,但在特定考生特定題目上表現(xiàn)出特殊偏向[11]。徐鷹對CET-4 模擬作文的分數(shù)進行了分析,GT 表明考生能力是測試總變異的主要來源,MFRM 表明評分人嚴厲度差異性顯著,但自我一致性較好[12]。林椿等探究了漢語母語與英語母語評分員在寫作評分信度和評分行為上的差異,GT 和MFRM 分別證明了在趨中度方面,兩類評分員的評分質(zhì)量無差別,而在信度系數(shù)、評分員一致性、對評分量表的把握等方面,前者的評分質(zhì)量更高一些[13]。
總的來說,上述研究已經(jīng)對影響寫作評分信度的各個方面及其交互作用進行了一定的探索,同時意識到概化理論和多面Rasch 模型可以分別從測量組別和個體層面對信度檢驗的過程進行說明和互補,后者還能夠?qū)Ω呕碚摰难芯拷Y果進行驗證,這在一定程度上提高了研究結果的科學性。然而,國內(nèi)的相關研究多集中于英語測試,對漢語測試的關注度不足。漢語預科考試對留學生而言是一項高利害測試,考試成績對他們是否有資格進入中國大學進行本科學習具有較大影響,而作文分數(shù)①預科試卷構成:聽力理解45題、綜合閱讀65題、書面表達11題(寫漢字10題、看圖作文1題),共計121題。聽力和閱讀為客觀題,每題計1 分;寫漢字每題滿分1.5 分;看圖作文滿分為15 分。試卷總分為140 分。作文分數(shù)約占總分的11%,占書面表達的50%。也直接影響著總體得分,因此作文評分的質(zhì)量顯得十分重要。目前尚未有人綜合運用上述兩種方法來探討預科考試作文評分情況,對其評分信度的研究顯得尤為必要。
本研究對漢語預科考試作文的評分信度進行實證研究。該部分共計1 題,題型為運用關鍵詞,根據(jù)圖片寫作文??忌柙?5 分鐘內(nèi)完成一篇不少于60 字的作文,滿分為15 分。根據(jù)字數(shù)、理解度和準確度,每3 分形成一個檔次,共有5 個檔次。具體的評分標準見表1。
在正式評分階段,每篇作文由兩位評分員進行獨立評分,當他們的分差不大于3 分時,取其平均分;當其分差大于3 分時,則請第三位專家評分員獨立給出最終分數(shù)。
本研究基于概化理論和多面Rasch模型展開,研究問題分為兩部分。在概化理論階段,主要分析以下兩個問題:
(1)考生面、評分員面以及兩者交互作用的殘差對測量總變異有什么影響?
(2)增加評分人數(shù)將會在多大程度上改變評分信度?
多面Rasch模型將回答另外兩個問題:
(1)評分員嚴厲度、內(nèi)在一致性以及和考生的偏差情況如何?
(2)評分量表的表現(xiàn)如何?
本研究的作文均來自2019 年6 月在17 個考點施測的漢語預科考試試卷。為確保研究效果,從實測卷中分層隨機抽取了120 份試卷用作實驗樣本。為了讓作文分數(shù)覆蓋所有的評分檔位,根據(jù)實測各分數(shù)段的比例,9分以下抽取了36份,9-12分抽取了48 份,13-15 分抽取了36 份。對上述樣本的描述性統(tǒng)計分析顯示,1-15 分均有涉及,平均分為9.93,標準差為3.776。
本研究聘請了5 位評分員參與實驗,他們均具有至少一次的預科作文正式評分的經(jīng)驗,其中一位為預科作文評分組長。評分之前,所有評分員都接受了與正式評分階段無異的培訓,進一步熟悉并理解評分標準。培訓之后進行了試評,效果良好。所有評分員均在3小時內(nèi)完成了評分工作。
漢語預科考試的作文試題只有1 題,鑒于此,本研究采用概化理論最基礎的p*r隨機單面交叉模式。p 為考生的寫作能力,r 為評分員,共有5 個水平。在G 研究階段,主要探索考生、評分員側(cè)面、以及這兩者之間交互作用和隨機誤差的殘差的方差分量對測量總變異的影響。在D 研究階段,主要討論評分員數(shù)量與G 系數(shù)之間的關系。多面Rasch 模型研究則包含考生和評分員兩個層面,同時還將對考生和評分員層面的偏差及評分量表的表現(xiàn)進行分析。
本研究采用EduG(瑞士教育研究學會教育測量研究小組設計,可通過https://www.irdp.ch/institut/english-program - 1968. html 免費下載使用)和MINIFAC 軟件進行數(shù)據(jù)處理。Facets 軟件是進行多面Rasch 模型分析的主流軟件,由John Michael Linacre 于20 世紀90 年代研發(fā)。MINIFAC 是Facets的縮減版本,它擁有Facets 的全部功能,但處理的數(shù)據(jù)量上限為2000,可通過官方網(wǎng)站免費下載使用(https://www.winsteps.com/minifac.htm)。
概化理論的G 研究估算了考生、評分員和他們的交互作用的殘差方差分量以及占總方差的百分比,詳見表2。
表2 方差分析
考生面的方差分量所占的比例最大,為83.1%,這屬于全域分數(shù)的方差分量,說明得分變異的最大部分來自考生本身的漢語寫作能力,目標測量的準確性較高。評分員面的方差分量僅占5.2%,代表評分員因素給分數(shù)變異帶來的誤差不大,但也有可能在評分的寬嚴方面存在一定的差別。考生與評分員交互效應的方差成分雖遠遠不及考生層面,但仍占11.8%,意味著評分者可能在自身一致性方面存在一定的問題,如評分時對某些考生趨于嚴格,對某些考生又趨于寬松。
概化理論的D 研究階段,通過對評分人數(shù)量的操控來觀察相對概化系數(shù)和絕對概化系數(shù)的變化,詳見表3。
表3 評分員數(shù)量與概化系數(shù)之間的變化
相對概化系數(shù)涉及相對誤差(測量對象與其他側(cè)面之間交互產(chǎn)生的誤差),用于常模參照的測驗,絕對概化系數(shù)則涉及絕對誤差(除了測量對象之外的所有誤差),用于標準性參照測驗。兩者的取值范圍都在0~1 之間,由于涉及誤差的不同,絕對概化系數(shù)一般小于相對概化系數(shù)。漢語預科考試屬于標準性參照測驗,因此本研究參考絕對概化系數(shù)。從研究結果來看,只有1 名評分員的情況下,絕對概化系數(shù)就已經(jīng)達到了0.8306,如果兩位評分員進行評分,則能夠達到0.90746。將評分員個數(shù)分別增加到3、4、5 個的時候,系數(shù)均不斷增大,但不及由1 名評分員增至2 名時明顯。上述結果表明,在一評條件下,評分信度已經(jīng)達到比較理想的狀態(tài),雙評的結果更好。在正式的預科作文閱卷過程中,采用的就是雙評的規(guī)則,在實際可行的條件下保證了最大化的評分信度。
1. 總體分析
有關考生、評分員和評分維度這三者的綜合信息詳見圖1。圖中共有4 列,左起分別為:邏輯量尺(logit,模型所使用的測試單位,平均值設為0,下文的能力數(shù)值單位均為logit)、考生的寫作能力、評分員信息、評分維度的表現(xiàn)??忌鷮懽髂芰χ档姆秶鸀?5.06 至6.42,基本呈正態(tài)分布。對考生而言,度量值越大,能力越強。與考生相反的是,評分員方面的數(shù)值是負向的,即度量值越大,評分員越嚴厲。5位評分員的取值范圍為-0.73至1.08,除4號評分員,其他評分員都集中在量尺0 的附近,說明評分員們掌握評分標準的尺度基本較一致。最右列中的橫線代表相鄰兩個分值的臨界能力值,能力值大于該臨界值的容易被評為更高的分數(shù),反之則可能被得到更低的分數(shù)。
圖1 評分總體信息
2. 考生層面
在多面Rasch模型中,測試的信度可參考個人分隔信度(person separation reliability)和個人分隔指數(shù)(person separation index),兩者的數(shù)值越大,信度則越高。一般來說,分隔指數(shù)大于2 時被認為具有顯著差異[14]。本研究考生層面的分隔指數(shù)為6.58,分隔信度為0.98,卡方檢驗值為6053.2(df=119,p=0.00),表明考生之間的成績存在統(tǒng)計上的顯著差異性,此次作文考試的區(qū)分度很好??忌芰Ψ植嫉目ǚ街禐?16.5(df=118,p=0.52),說明考生的能力呈正態(tài)分布。
在所有考生中,能力最強的是85 號(6.42),能力最弱的是82 號(-5.07),兩者相差了11.84。平均能力值為1.64,標準差為2.8,標準誤平均值為0.41,標準差為0.08??忌募訖嗑綌M合度(Infit MnSq)平均值為0.97,標準差為0.8。Infit 值通??梢宰鳛榕袛鄠€體是否擬合模型的依據(jù),一般來說,對其取值范圍沒有嚴格的規(guī)定。這里采用Myford & Wolfe 提出的判斷標準,當Infit 值>3.0 時,為非擬合,即評分之間的差異顯著大于模型預測值,Infit 值<0.5 時,為過度擬合(overfitting),即評分之間的差異顯著小于模型預測值[15]。據(jù)此,共有13 號(4.51)、120 號(3.91)、37 號(3.25)這3 位考生存在非擬合問題。值得注意的是,這3 名考生都屬于評分員與考生交互存在顯著偏差的例子,說明這些考生的分數(shù)受到了評分員評分偏差的影響。過度擬合的考生人數(shù)則高達37名。此外,|Z|>2也被認為是超出可接受的范圍[16]。3名非擬合考生的Z 值均大于2,為顯著非擬合;在過度擬合的37 名考生中,有4 名的Z 值小于-2,為顯著過度擬合。上述結果表明,考生分數(shù)只存在輕微的非擬合問題,而過度擬合的現(xiàn)象相較稍多,這意味著評分員可能一定程度上有評分趨中的傾向。
3. 評分員層面
評分員層面的數(shù)據(jù)詳見表4。從整體上看,5 位評分員的分隔指數(shù)為8.26。分隔信度為0.99,卡方檢驗值為262.9(df=4,p=0.00),平均嚴厲度為0.00,標準差為0.67,這說明評分員在嚴厲度方面有顯著差異。在所有的評分員中,最嚴厲的是4 號(1.09),最寬松的為1號(-0.74),二者的嚴厲度相差了1.83。
表4 評分員層面的結果
通過觀察加權均方擬合度,可以得出評分員自身一致性的信息。Bonk & Ockey 提出,Infit 的取值范圍在0.7~1.3 之間可以認為評分員具有較好的自身一致性[17];Lincare 和Weigle 則認為該范圍也可以適當擴大至0.6~1.4 或者0.5~1.5[18-19]??紤]到漢語預科考試是一項重要的標準化考試,故采取0.7~1.3這一更嚴格的標準。據(jù)此,3 號評分員(Infit=1.5,Z=3.2)和1 號評分員(Infit=0.56,Z=-3.7)未達標,前者自身一致性較差,后者評分差異性過小,評分具有一定的趨于中性。此外,還需要關注評分員的點二列相關系數(shù),若在平均值±2SD 內(nèi)則視為可接受[20]。本研究的可接受范圍是(0.91,0.99),3號評分員剛好處于最低值的臨界點(0.91),這意味著與其他評分員相比,該評分員評分時具有輕微的隨機性,使用某些分數(shù)段時有不一致的情況。
上述對評分員的分析顯示,評分員在嚴厲度方面有顯著差異,有個別評分員在自身一致性方面存在問題,有一定的隨機性,還有個別評分員存在評分趨中的問題。需要關注的是,上文在概化理論的G研究階段發(fā)現(xiàn)評分員的方差分量占有少量比例(5.2%),但Rasch 模型的研究結果表明,不存在非擬合和過度擬合狀態(tài)的評分員(Infit 均在0.5 至3.0 之間),換言之,評分員層面的嚴厲度差異不會對測試分數(shù)產(chǎn)生整體影響[21]。
4. 評分量表的使用情況
多面Rasch模型能對評分量表進行有效的分析,如檢驗各評分員是否使用了評分標準的所有分值,各分值是否能體現(xiàn)相應的能力以及是否具有足夠的區(qū)分度[17]。漢語預科作文評分量表0-15分的使用情況詳見表5。
表5 評分量表的使用結果
第一,計數(shù)和百分比顯示了各分數(shù)的使用頻率,每個分值均有涉及,7-14各分數(shù)的使用頻率相當,在10%左右,總體不存在對某一分數(shù)過度使用的情況。第二,實際得分平均度量值(Avge Meas)從低到高依次遞增(-4.55至5.44),與Linacre 提出的評分標準質(zhì)量的基本要求相符[22],這也表明了評分員整體上能夠較準確地使用各分數(shù)來區(qū)分不同能力的考生。第三,未加權均方擬合度(Outfit MnSq)也是分值使用情況的檢驗指標。若該值>2.0,則表明得到該分值的考生其預測分數(shù)和實際分數(shù)之間有較大差距,即該分數(shù)不能準確地反映考生的水平[23]。表5 中所有分數(shù)的未加權均方擬合度都小于2,基本處于1 附近,從這個角度來看,各分值可以區(qū)分不同能力的考生。第四,分階校準值顯示了各分數(shù)的起始值。除3、4、5、6、11、12分之外,其余分數(shù)都呈現(xiàn)由低到高遞增的趨勢。3、4、5分使用的頻率較少,模型估計的誤差相應地也會增加,起始值的無序性可能就是由此導致的。同時,相鄰分數(shù)的間隔數(shù)值也應作為參考,如表6所示。
表6 相鄰分數(shù)的間隔數(shù)值
Linacre認為各分數(shù)的間隔應該在1.4~5之間[23],除了2-1、5-4、7-6、8-7、11-10分之間的起始值間隔達到了該標準,其他分數(shù)未滿足,即這些分數(shù)之間的區(qū)別并不十分明顯。漢語預科作文考試的評分標準共有5檔,每檔包含3個分值(詳見表1)。評分時先定檔,然后在相應的檔位里選擇合適的分數(shù)。此時取每個檔位的中位數(shù),對各檔位之間起始值的間隔進行計算,結果見表6。2檔與1檔、4檔與3檔的間隔值落在了1.4~5 內(nèi),說明這些檔位的差別很明確。3 檔與2檔、5檔與4檔的結果則相反,它們之間的差別不太明顯。綜合上述分析,評分檔次之間以及總體相鄰分數(shù)差別的準確性有待提高,這也在一定程度上解釋了個別評分員具有評分隨意性的問題。
此外,還應關注各分值概率曲線,如圖2所示。
圖2 評分量表各分數(shù)段概率曲線圖
圖中的每個波形對應一個分值,各波形的交點即相鄰分值的臨界點。若概率曲線有獨立的且有一定間隔的波峰,說明每個分數(shù)值各自對應一個明顯的能力區(qū)域,在此區(qū)域內(nèi)的考生最容易獲得該分值[24]。圖2 顯示,除了兩端有較明顯的獨立波峰,其余能力段考生的概率曲線處于重疊狀態(tài),尤其是中間偏左側(cè)(3 分到5 分)和中間偏右側(cè)(11 分到12分),這說明該評分標準需要改進,如合并某些分值。
5. 偏差分析
偏差分析可以用來判斷各個面之間的交互作用。通過比較觀測值和模型期望值之間的差異來對評分員與考生之間的偏差進行分析。評分員與考生之間的實驗偏差項目(empirically bias terms)共有600 個。若Z 值>2,則該評分員對該考生更為嚴厲;若Z 值<-2,則該評分員對該考生更為寬松。本研究共存在16 個顯著偏差,10 個偏嚴格,6 個偏寬松,共占所有偏差項目(600)的2.67%,符合偏差比率在5%之內(nèi)的要求[20]。表7 顯示了評分員與考生之間的顯著偏差信息。
表7 評分員與考生之間的偏差分析
5 位評分員均表現(xiàn)出了一定的偏差性,其中3 號評分員的偏差情況最為嚴重,與5 個不同能力值范圍(每1logit 間隔算一個能力范圍)的考生發(fā)生了7次偏差。能力值在0之上的5個考生,評分全部偏嚴格,能力值在0 之下的2 個考生,評分全部偏寬松。實際得分為8 的5 號、46 號這兩位考生之間的能力值、期望得分都相差甚遠,7 號、13 號考生也是相同的情況,這也印證了4.2.1小節(jié)中的結果,即3號評分員自身一致性偏差,評分存在隨機性,使用分數(shù)時存在前后標準不一的問題。
總體來看,評分偏嚴格的情況多于偏寬松的情況。在8 個不同的考生能力區(qū)間中,分數(shù)顯著偏嚴覆蓋了6 個區(qū)間,其中有5 個區(qū)間相互聯(lián)結,即1 至6。分數(shù)顯著寬松覆蓋了4 個區(qū)間(-3 至-2、-1 至0、1 至2、3 至4),彼此之間沒有聯(lián)結。由此,共有11 個顯著偏差(68.75%)發(fā)生在1至6之間,可能是因為所有考生中共有67.5%的人屬于這個能力區(qū)間,二者比例接近。這一結果也表明了顯著偏差出現(xiàn)在能力較高考生中的比例高于能力一般和較差的考生,評分員在對前者進行評分時,出現(xiàn)偏差的概率更大。同時,評分員總體呈現(xiàn)出對較高能力考生評分嚴格而對較低能力考生評分寬松的趨勢。上述研究結果表明,一方面要提醒所有的評分員注意對高、低能力考生進行評分時的嚴厲度差異,另一方面要加強對類似3 號的評分員群體的培訓,關注評分結果并糾正其隨意性。
基于概化理論和多面Rasch 模型研究了5 名評分員對120 份漢語預科實測作文考卷的評分結果,對其信度進行了檢驗。綜合上述分析,可以得到以下結論。
第一,概化理論的G 研究階段提供了考生、評分員以及二者交互作用所占的方差分量。考生能力差異是總變異的主要來源(83.1%),評分員層面占比5.2%,總體表現(xiàn)較為穩(wěn)定。評分員與考生之間的交互作用占比11.8%,評分員在評分嚴厲度上存在差異,對某些考生的評分存在前后不一致的情況。
第二,在概化理論的D 研究階段發(fā)現(xiàn),一位評分員評分時就能達到可接受的概化系數(shù)(0.83),具有較高的信度,而采用雙評則可以將系數(shù)提高到0.91,隨著評分員的繼續(xù)增多,系數(shù)也在逐步提高,但幅度不大,所以在正式評分時應保持目前的兩位評分員評分的狀態(tài)。
第三,多面Rasch模型對考生、評分員、考生及評分員的交互作用、評分量表這四個方面進行了詳細的解釋,主要有以下發(fā)現(xiàn):(1)漢語預科作文考試能有效地區(qū)分不同能力的考生;(2)評分員在嚴厲度方面存在顯著差異,總體一致性較好,有兩位評分員未達標,3 號評分員評分時具有一定的隨機性,1 號評分員存在評分趨中的問題;(3)考生與評分員的交互作用表明,評分偏嚴格的情況比偏寬松的情況要多,較高能力考生出現(xiàn)顯著評分偏差的概率更大,評分員總體對該群體更嚴格,對能力一般及較差的考生更寬松,對3 號評分員的探討也進一步證明了其存在的評分問題,需要重點關注;(4)評分量表大致可以區(qū)分不同能力的考生,評分員整體上也能夠較準確地使用各分數(shù)來達到此目的,然而有兩組評分檔位之間以及各相鄰分數(shù)的差別不太明顯,其準確性有待提高。
總的來說,概化理論和多面Rasch模型從不同的角度對評分信度進行了考察,具有較好的互補性。需要明確的是,作文評分屬于一項復雜的心理活動,評分員表現(xiàn)出來的嚴厲度傾向、一致性差異都是正常的現(xiàn)象,偏差顯著的交互作用同樣無法避免?;诖嘶菊J知和研究結果,可以通過加強對評分員的培訓、檢測并糾正評分員的評分活動、改進評分量表等行為來減小偏差,同時采用質(zhì)性手段來印證并補充數(shù)據(jù)分析的結果,從而最大化地保證評分信度。