?
k系列指數、g2、錯同率的抄襲識別效能比較研究*
甘媛源1,2,余嘉元2
(1.江蘇省教育評估院,南京 210024;2.南京師范大學心理學系,南京 210097)
摘要:采用蒙特卡洛模擬的方法進行k系列指數、g2、錯同率的抄襲識別效能比較實驗,探討影響五種抄襲統計量抄襲識別效能的因素。結果表明:(1)在被試樣本量、項目數、被抄者的能力水平、抄襲率四個因素中,抄襲率對抄襲識別效能的影響最大,被抄者的能力水平、項目數次之,被試樣本量的影響最小;(2)在上述因素相當的情況下,g2的抄襲識別經驗I型錯誤率遠高于α 水平,抄襲識別率也最高,k1、k2的經驗I型錯誤率遠低于α 水平,抄襲識別率較高,錯同率的經驗I型錯誤率略高于α 水平,抄襲識別率較低,k*′的經驗I型錯誤率幾乎均為0,抄襲識別率最低;(3)在被懷疑的被抄者已確定的情況下,k1、k2的抄襲識別效能最高,是較理想的抄襲統計量;(4)在同等條件下,當被懷疑的被抄者和抄襲者均未確定時,五種抄襲統計量的抄襲識別效能較被懷疑的被抄者已確定的情形均大幅下降;(5)在缺乏被懷疑者信息的情況下,需設定更為保守的指標臨界值,以降低誤判風險。
關鍵詞:k系列指數;g2;錯同率;經驗I型錯誤率;抄襲識別率
1引言
從古至今,考試和作弊就像一對孿生兄弟一樣形影不離,在古代的科考中,最為常見的作弊手段是夾帶、賄賂主考官及請人代考,隨著社會的不斷進步,各種高科技作弊工具不斷涌現,作弊現象就更加泛濫。作弊現象的存在不僅降低了考試的信效度,破壞了考試的公平、公正性,而且制約了考試評估、選拔功能的正常發(fā)揮,因此,它引起了考生、家長、教育機構、考試中心、政府部門的廣泛關注。在眾多的作弊方式中,抄襲是最難以識別的一種作弊方式,它是指一個考生從另一個考生那里得到部分試題答案或全部試題答案的行為,最終呈現為兩份試卷作答反應的雷同。
從20世紀20年代開始,國外研究者陸續(xù)構建了一些用于考試抄襲識別的統計量,如:ESA(Bay,1995)、Bm(Bay,1995)、g2(Frary,1997)、k(Holland,1996;Belov,2010)、s2(Sotaridona,2006)、ω(Wollack,2004;van der Linden,2009)、kappa(Sotaridona,2006)等,有的統計量還在實際考試情景中得以應用,如:k指數在SAT中的應用(Lewis,1998)、ω指數在MPRE中的應用等(Wollack,2003)。但在國內,查處考試作弊的方式多為考場監(jiān)測,對試后抄襲甄別方法的探究非常有限:韓丹等對國外學者構建的抄襲統計量的綜述并對其中的一些指標進行了模擬實驗研究(韓丹,2009),劉景玉對g2、ω進行的抄襲識別效能比較模擬實驗(劉景玉,2008),胡艷對轉換二項式、kappa進行了抄襲識別效能比較研究(胡艷,2009),關丹丹等對kappa的抄襲識別能力進行了驗證(關丹丹,2009),張穎等結合醫(yī)師資格考試數據,對錯同率的抄襲識別效能進行了初步探討(張穎,2002;甘媛源,2012)。由此可見,國內關于抄襲統計量的探究才剛剛起步,模擬研究的實驗條件單一、零散,沒有與國內考試實際相結合,本文的主要目的在于設計系統的實驗比較k系列指數、g2及錯同率的抄襲識別效能,之所以選擇這五種抄襲統計量是基于以下考慮:(1)在國外,k已經被用于實際考試的抄襲甄別,然而,無論Holland的研究還是韓丹的研究,都沒有明確提出計算k所涉及的參數b的方法(Holland,1996;韓丹,2009);(2)Sotaridona認為k1、k2較k的抄襲識別效能更高(Sotaridona,2002),韓丹的研究也支持這一結論(韓丹,2009),然而他們的研究設計都建立在已知被懷疑范圍的抄襲者和被抄者基礎上,但在國內一些高利害考試中會出現大規(guī)模的集團作弊,這樣的作弊方式可能使得被懷疑的被抄者和抄襲者均不確定,而這一點可能會對它們的抄襲識別性能產生影響;(3)在以往的比較實驗研究中,常將ω作為一種“好”的統計量,用于評估其他甄別方法的優(yōu)劣,然而,ω是建立在項目反應理論基礎上的,在國內的適用范圍有限,而g2識別抄襲的基本思路與ω相同,它既是基于經典測量理論的方法,又是同時考慮錯同(兩考生做出相同錯誤反應的數目)和對同(兩考生做出相同正確反應的數目)的方法(甘媛源,2012);(4)錯同率是唯一已經在國內的考試實際中得以應用的方法。因此,研究嘗試結合國內考試實際設計實驗條件,對這五個抄襲統計量進行比較,探討影響其抄襲識別效能的因素,以期推進我國心理測量學的發(fā)展。
2研究方法與過程
2.1五種抄襲統計量簡介
2.1.1抄襲統計量的統計原理
抄襲統計量的基本原理是在假設沒有抄襲的條件下建立被試反應概率的模型,在此基礎上可以得到被試間存在相似回答模式的概率,進而發(fā)現異常的相似回答模式,存在這一模式的被試就被認為是可能的抄襲者。
任何兩個獨立的被試都存在一些相同的作答反應,例如,被試選擇相同的正確答案是非常普遍的,相應地,任何兩個被試也有可能選擇相同的錯誤答案,因為那些具有良好區(qū)分度的多項選擇題一般都會設置一些誘惑性強的錯誤選項來吸引能力較低的被試,讓他們趨于選擇這一錯誤選項,因此,兩個獨立的被試選擇了相同的錯誤選項是正常的。但是,某些類型的一致回答卻是異常的,例如,能力很低的被試不可能連續(xù)正確回答出非常難的項目,這就是所謂的異常相似反應模式。當然,一些偶然因素也可能造成這種異常相似反應模式,但如果這種異常模式很多,就具有了統計學意義。抄襲統計量就是基于以上假定提出來的,因此,所有的抄襲統計量的計算依據都是被懷疑抄襲者和被抄者得分模式的相似概率。
2.1.2k系列指數
在k指數的計算中,首先將具有相同錯誤答案數目的被試分成一組,所有被試就被分為R組,第r組(r=1,2,…R)中的被試記為j(j=1,2,…Jr),也就是說,在第r組中的Jr個被試有相同的錯誤項目數,將含有被懷疑抄襲者(c)的被試組定義為第c′組,用Jc′表示第c′組中所包含的被試人數,因此,rj表示在r組中的被試j,Uirj為在r組中的被試j對項目i的反應,設ws為被抄者(s)的錯誤項目數,對于每一個被試rj就有一個指示變量Airj,當第r組中的被試j對項目i的反應與s對項目i的反應相同時,Airj=1,否則,Airj=0,設Mrj為被試rj與s錯誤答案匹配的數目,因此,Mrj=ΣAirj,因為在計算k指數時指出是哪一個被試所對應的與抄襲來源的錯誤答案匹配數目是不必要的,以下將Mrj簡記為M,用二項分布近似的估計M的分布,數學表達式如(1),
(1)
其中,ws為s錯誤回答的數目,mc′c為c與s做出相同錯誤反應的數目,Pc′是第c′組中的被試與s做出相同錯誤反應的平均數目在s做錯的項目數中所占比例。所以,k即是在偶然因素條件下的錯誤答案匹配比mc′c大的概率。當k值較小時,c抄襲s的可能性較大。在求k的過程中,Holland建議用Qc′的分段線性回歸來估計Pc′,用數學表達式如(2),
(2)
其中,Qc′表示c的錯誤反應數占總項目數的比率,b恒大于零并隨考試類型的變化而隨之變化,但在Holland的研究中并沒有明確提出參數b的求取方法,在研究中,先將Qc′和Pc′的經驗值代入式(2)求對應的b值,然后取這些值中的最大者作為調節(jié)變量b的值,由于該方法有別于Holland通過畫圖進行估計的方式,因此通過這一方法求得的k另記為k*′。
實際上,k1、 k2主要在Pc′估計方法方面進行了改進,它們分別通過一次線性回歸和二次回歸來估計Pc′;并通過R2和RSE來評價回歸方程的有效性。
2.1.3g2
g2指數是s和c作出相同反應的數目(hcs)的標準化,因此,該抄襲指標的計算分三步:(1)求E(hcs),(2)求σhcs2,(3)其標準化。具體計算過程如下:
(1)在計算期望時,假設s的作答反應Us固定,隨后確定c與s選擇了相同答案的概率Pc(uis),hcs的期望即為在考試所有項目n上的匹配概率之和,其數學表達式如(3),
(3)
(2)因為被試對項目的回答只有正確和錯誤兩種,所以被試間的項目答案匹配服從二項分布,那么,s與c做出相同反應的數目的方差如(4),
(4)
(3)將hcs標準化即為g2的值,其數學表達式如(5),
(5)
一般地,g2近似服從均值為0,標準差為1的標準正態(tài)分布,因此,其值可用標準正態(tài)分布來進行顯著性檢驗,其值越大,c從s處抄襲答案的可能性就越大。
2.1.4錯同率
錯同率是指c與s都答錯并且選擇相同錯誤答案的項目數占s答錯項目數的比例,它基于經驗分布,其臨界值需要根據每個樣本分布來定。這一指標是抄襲統計量中算法最簡單、操作最容易的一種方法,張穎的研究也證明,錯同率可以作為一種有效的抄襲識別統計量在實際考試情景中加以應用,但是,正是由于該指標的計算過于簡單,并沒有考慮到被試間的能力水平差異,也沒有用到除c和s外的被試樣本信息,可能會在一定程度上影響它的抄襲識別效能。
2.2實驗設計
采用模擬實驗比較k系列、g2及錯同率在已知被懷疑范圍的c、s和c、s均不確定的情況下的抄襲識別性能,實驗考察的因素有7個:測驗長度、樣本量大小、被抄襲者的能力水平、抄襲者的抄襲率、理論I型錯誤率、抄襲統計量及被懷疑對象是否確定。實驗包括兩部分(1)實驗一至實驗五對應具備被懷疑對象確定的情況;(2)實驗六對應被懷疑對象不確定的情況,具體設計如下:
實驗一:測驗長度對k系列、g2及錯同率的抄襲識別性能的影響,在具備被懷疑對象信息的情況下,將樣本量、被抄襲者的能力水平、抄襲者的抄襲率、理論I型錯誤率分別固定為500人、60百分等級、30%、0.01,考察測驗長度對五種抄襲統計量的抄襲識別性能的影響。測驗項目數分別?。?0(短)、80(中)、120(長)。
實驗二:樣本量對k系列、g2及錯同率的抄襲識別性能的影響,在具備被抄襲對象信息的情況下,將測驗長度、被抄者的能力水平、抄襲者的抄襲率、理論I型錯誤率分別固定為80題、60百分等級、30%、0.01,考察樣本量對五種抄襲統計量的抄襲識別性能的影響。測驗人數分別取:200(少)、500(中)、1000(多)。
實驗三:被抄者的能力水平對k系列、g2及錯同率的抄襲識別性能的影響,將測驗長度、樣本量、抄襲者的抄襲率、理論I型錯誤率分別固定為80題、500人、30%、0.01,考察被抄者的能力水平對五種抄襲統計量的抄襲識別性能的影響。被抄襲者的能力水平分別?。?0百分等級(低)、90百分等級(高)。
實驗四:抄襲者的抄襲率對k系列、g2及錯同率的抄襲識別性能的影響。將測驗長度、樣本量、被抄襲者的能力水平、理論I型錯誤率分別固定為80題、500人、60百分等級、0.01,考察抄襲率對五種抄襲統計量的抄襲識別性能的影響。抄襲率分別?。?0%(低)、30%(中)、50%(高)。
實驗五:在不同的α水平下,k系列、g2及錯同率的抄襲識別性能。將測驗長度、樣本量、被抄襲者的能力水平、抄襲者的抄襲率分別固定為80題、500人、60百分等級、30%,考察五種抄襲統計量在不同理論I型錯誤率下的抄襲識別性能。理論I型錯誤率由大到小分別取:0.01、0.008、0.006、0.004、0.002。
實驗六:為了考察五種抄襲統計量在被懷疑對象不確定情況下的可行性,本實驗設樣本量為500人、項目數為80題、被抄者的能力水平為60百分等級,計算在不同的理論I型錯誤率下,不同抄襲率下五種抄襲統計量的抄襲識別性能,并與被懷疑范圍確定情況下的識別性能作比較。
2.3實驗方法
(1)采用Montecarlo模擬數據方法生成模擬數據。測驗長度分別為40、80、120,樣本量分別為200、500、1000,共6種實驗條件。用稱名反應模型(nominalresponsemodel,NRM)生成被試模擬反應矩陣。實驗中,測驗采用四選一多項選擇題,相應地,每個項目分別生成4個區(qū)分度和難度,其區(qū)分度服從以0為均值,1為標準差的對數正態(tài)分布,難度服從標準正態(tài)分布,被試的能力水平也服從標準正態(tài)分布。每種實驗條件重復模擬100次。
(2)按照被試的能力水平排序,確定被抄者s(隨機選取90百分等級和60百分等級的被試),每一個數據文件對應唯一的被抄者。
(3)在能力水平低于s的被試中隨機抽取5%的被試作為模擬抄襲者c。c在抄襲項目上的反應通過如下步驟取得:從全部項目中隨機選取10%、30%、50%的項目,將c在這些項目上的反應替換為s的反應。
(4)區(qū)分度值最大的選項即為項目的正確答案,將被試的反應與正確反應進行對比取得被試的得分矩陣,計算每個被試的正確及錯誤反應數目,并根據被試錯誤反應數目進行分組,把錯誤數相同的被試分在同一組。
(5)在被懷疑對象確定的條件下,s不參與計算,實驗目的在于通過比較其他被試與s的反應矩陣找出抄襲者;在被懷疑對象不確定的條件下,s參與計算,實驗目的在于通過被試間的兩兩比較找出抄襲者。
(6)各抄襲統計量的抄襲性能用經驗I型錯誤率(I)和識別率(P)來衡量,I型錯誤率即為被抄襲統計量誤判為抄襲者的被試在被試樣本量中所占比例,抄襲識別率即為被抄襲統計量識別出的抄襲者在抄襲者中所占比例。為降低隨機誤差,I、P均取100次實驗的均值。
3研究結果
3.1被懷疑的被抄者確定
3.1.1實驗一至實驗四研究結果
表1 測驗長度對五種抄襲統計量的抄襲識別性能的影響(α=0.01)
表2 樣本量對五種抄襲統計量的抄襲識別性能的影響(α=0.01)
表3 被抄者的能力水平(百分等級)對五種抄襲統計量的抄襲識別性能的影響(α=0.01)
表4 抄襲率對五種抄襲統計量的抄襲識別性能的影響(α=0.01)
3.1.2實驗五研究結果
圖1 經驗I型錯誤率與抄襲識別率(500人、80題、60百分等級、抄襲30%)
3.2被懷疑的被抄者與抄襲者均未確定(實驗六)
表5 被懷疑的被抄者是否確定對五種抄襲統計量的抄襲識別性能的影響(α=0.01)
表6 在無前期信息條件下,五種抄襲統計量的臨界值(經驗I型錯誤率設為0.01)
4結果討論
4.1被懷疑的被抄者已確定
4.1.1被試樣本、項目數、被抄者能力水平、抄襲率對抄襲識別效能的影響
表1表明,在被抄者的能力水平、抄襲者的抄襲率固定的情況下,隨著項目數的增加,無論是k系列指數、g2還是錯同率的抄襲識別率均不斷提高,經驗I型錯誤率變化不顯著;表2表明,在項目數、被抄者的能力水平及抄襲者的抄襲率固定的情況下,隨著被試樣本量的增加,五種抄襲統計量的抄襲識別率均不斷提高,經驗I型錯誤率略微降低;表3表明,在項目數、被試樣本、抄襲者的抄襲率固定的情況下,隨著被抄者能力水平的提高,五種抄襲統計量的抄襲識別率均不斷降低,經驗I型錯誤率不斷提高;表4表明,在項目數、被試樣本、被抄者的能力水平固定的情況下,隨著抄襲者抄襲率的提高,五種抄襲統計量的抄襲識別率均不斷提高,經驗I型錯誤率不斷降低。比較發(fā)現,抄襲率是對抄襲效能影響最大的因素,被抄者的能力水平、項目數次之,被試樣本量對抄襲統計量的抄襲效能影響最小。
4.1.2k系列指數、g2及錯同率的抄襲識別效能比較
表1至表4的研究結果還表明,(1)從經驗I型錯誤率來看,g2的經驗I型錯誤率是α水平的4倍以上,錯同率在除項目數最大(120個項目)、抄襲率最高(50%)的情況下,其經驗I型錯誤率均略高于α水平,k系列指數的經驗I型錯誤率均低于α水平,其中,k*′的經驗I型錯誤率幾乎全為0,這表明,用k*′進行抄襲識別的準確性最高,幾乎不存在將未抄襲者誤判為抄襲者的情況;k1、k2也能將誤判率控制在α水平以下;用錯同率進行抄襲識別的誤判率與α水平基本相當;只有g2的經驗I型錯誤率數倍于α水平,使得其抄襲識別的準確性降低,存在將被試誤判為抄襲者的高風險,因此,在將g2作為抄襲識別指標時,應設置更為嚴格的α水平,選取更大的指標臨界值,以降低其將被試誤判為抄襲者的風險。(2)從抄襲識別率來看,在同等條件下,g2的抄襲識別率最高,k2次之,k1略低于k2,錯同率第四,k*′最低。由于g2是這些抄襲統計量中唯一既考慮被試間的錯誤答案匹配又考慮正確答案匹配的指標,能獲得更多被試間匹配的信息,因此,它更易于將抄襲者從被試樣本中甄別出來;前已述及,k系列指數的區(qū)別僅在于二項分布的參數P的求取方法的差異,k*′用分段線性函數求P,而分段線性函數的調節(jié)變量b選取了通過經驗P、Q求得的b值中的最大者,b越大,參數P越大,k*′的值越大,在臨界值不變的條件下,就越容易出現漏判抄襲者的情況,因此,k*′的抄襲識別率較低;k1、k2分別用線性函數和二次函數取代分段線性函數,通過分析兩回歸方程的R2和RSE可知,兩回歸方程均有效,相對而言,二次回歸模型擬合更優(yōu),因此,k1、k2較k*′更不易出現漏判,相應地,k2的抄襲識別率略高于k1;錯同率的計算相對簡單,也沒有將被試按能力進行分組,可能會漏掉一些有用的信息,其抄襲識別率也較低。
4.1.3α水平對抄襲識別效能的影響
前已述及,經驗I型錯誤率是指將未抄襲者誤判為抄襲者的比例,因此,經驗I型錯誤率不高于α水平即表示該抄襲統計量能很好地控制I型錯誤,在抄襲者甄別中趨于保守估計,這也使得其抄襲識別率將會下降。圖1A和圖1B分別表示在被試樣本為500、項目數為80、被抄者的能力水平為60百分等級、抄襲率為30%情況下,各個抄襲統計量的經驗I型錯誤率和抄襲識別率,在圖1A中的分界線表示α水平和經驗I型錯誤率相等,可將五種抄襲統計量的經驗I型錯誤率連線與之比較,由圖可知,k系列指數的經驗I型錯誤率連線均在分界線之下,表明k系列指數將被試判定為抄襲者的標準很好,據此作出的被試抄襲判定非常謹慎;而錯同率和g2的經驗I型錯誤率連線均在分界線之上,相對而言,g2對應連線向上遠離分界線更多,表明g2在抄襲者甄別中趨于放松估計,其將被試判定為抄襲的標準較低,由于把未抄襲被試誤判為抄襲者對個體發(fā)展將產生非常嚴重的后果,因此,如前所述,在采用g2進行抄襲甄別時應設定更嚴格的α水平以降低其經驗I型錯誤率。圖1B直觀地顯示了五種抄襲統計量的抄襲識別率高低:g2的抄襲識別率最高,k1、k2的抄襲識別率也較高,錯同率和k*′的抄襲識別率較低,綜合考慮經驗I型錯誤率和抄襲識別率這兩個反映抄襲識別效能的指標可知,k1、k2是較為理想的抄襲統計量。
4.2被懷疑的被抄者與抄襲者均未確定
4.2.1被懷疑的被抄者是否確定對抄襲識別效能的影響
表5表明,在同等條件(500人,80題,60百分等級,抄襲30%,α=0.01)下,當被懷疑的被抄者與抄襲者均未確定時,五種抄襲統計量的經驗I型錯誤率和抄襲識別率均大幅提高,由此可知,將抄襲識別建立在已知被懷疑范圍的被抄者和抄襲者基礎上是非常重要的,據此做出的抄襲判定才具有較高的準確性,若只能在被試樣本中進行兩兩比較,而無法確定被懷疑的被抄者與抄襲者,五種抄襲統計量的抄襲識別效能均下降,據此將未抄襲被試誤判為抄襲者的風險很大,因此,在這種情況下,五種抄襲統計量都需設置更嚴格的α水平,調整指標臨界值,以降低誤判率,提高抄襲判定的準確性和嚴謹性。
4.2.2五種抄襲統計量的臨界值
表6列出了在被試樣本為500、項目數為80、被試能力水平為60百分等級、抄襲率為30%條件下,將抄襲識別的經驗I型錯誤率設定在0.01左右時,各抄襲統計量的臨界值,由表6可知,當將誤判率設定為0.01時,k系列指數的臨界值均縮小到小數點后第六位,其抄襲識別率均在0.3~0.4之間;錯同率的臨界值為0.5842,抄襲識別率最低,g2的臨界值為5.3,其抄襲識別率最高,達到了0.8以上。當然,當被試樣本、項目數、被試能力水平、抄襲率發(fā)生變化時,這些抄襲統計量的臨界值也會隨之變化,因此,針對跨區(qū)域的高科技團伙作弊,需參照真實的被試作答數據規(guī)模,設定更為保守的臨界值,以達到不誤判每一個考生的目的。
5研究結論
采用蒙特卡洛模擬的方法進行了k系列指數、g2、錯同率的抄襲識別效能比較實驗研究。結果表明:(1)在被試樣本量、項目數、被抄者的能力水平、抄襲率四個因素中,抄襲率對抄襲識別效能的影響最大,被抄者的能力水平、項目數次之,被試樣本量的影響最小;(2)在上述因素相當的情況下,g2的抄襲識別經驗I型錯誤率遠高于α水平,抄襲識別率也最高,k1、k2的經驗I型錯誤率遠低于α水平,抄襲識別率較高,錯同率的經驗I型錯誤率略高于α水平,抄襲識別率較低,k*′的經驗I型錯誤率幾乎均為0,抄襲識別率最低;(3)在被懷疑的被抄者已確定的情況下,k1、k2的抄襲識別效能最高,是較理想的抄襲統計量;(4)在同等條件下,當被懷疑的被抄者和抄襲者均未確定時,五種抄襲統計量的抄襲識別效能較被懷疑的被抄者已確定的情形均大幅下降;(5)在缺乏被懷疑者信息的情況下,需設定更為保守的指標臨界值,以降低誤判風險。
當然研究是采用蒙特卡洛模擬的方法進行的比較實驗,實際考試的數據可能更加復雜,因此,結合真實考試數據對各個抄襲統計量的抄襲識別效能進行比較是未來研究的方向;同時,限于篇幅,研究只討論了k系列指數、g2及錯同率的考試抄襲識別效能,對于s系列指數、kappa、個人擬合指數、人工神經網絡等抄襲統計量的抄襲識別效能均未涉及,這些也有待于更進一步的探討。
參考文獻
甘媛源,田金亭,余嘉元.(2012).兼顧兩種匹配的抄襲統計量研究評述.心理學探新,32(1),86-90.
甘媛源,余嘉元,張穎,等.(2012).K系列指數在執(zhí)業(yè)醫(yī)師資格考試抄襲識別中的應用.中國衛(wèi)生事業(yè)管理,10,760-761.
關丹丹,孫曉敏.(2009).考試抄襲識別的統計方法—kappa統計量.中國考試,11,8-13.
韓丹.(2009).考試抄襲識別的心理測量學研究.碩士論文.遼寧師范大學.
胡艷.(2009).查作答抄襲的兩種新指標的比較研究.碩士論文.江西師范大學.
劉景玉,肖立宏.(2008).甄別多項選擇題考試中答案抄襲的不同方法的比較.考試研究,4(3),90-101.
張穎,趙世明,等.(2002).多選題雷同的判定標準研究.考試研究,9,15-17.
Bay,L.G.(1995).Detectionofcheatingonmultiple-choicetestsexaminations.Annual Meeting of the American Educational Research Association.
Belov,I.D.(2010).Armstrong R D.Automatic detection of answer copying via kullback-leibler divergence and k-index.AppliedPsychologicalMeasurement,34(6),379-392.
Frary,R.B.(1997).Comparison of two indices of answer copying and development of a spliced index.EducationalandPsychologicalMeasurement,57(1),20-32.
Holland,P.W.(1996).Assessingunusualagreementbetweentheincorrectanswersoftwoexamineesusingthekindex:Statisticaltheoryandempiricalsupport.Princeton,NJ:Education Testing Service.
Lewis,C.,& Thayer,D.T.(1998).Thepowerofthekindextodetect.Princeton,NJ:Education Testing Service.
Sotaridona,L.S.,& Meijer,R.R.(2002).Statistical properties of k-index for detecting answer copying.JournalofEducationalMeasurement,39,115-132.
Sotaridona,L.S.,& Van der Linden,W.J.(2006).Detecting answer copying when the regular response process follows a known response model.AppliedPsychologicalMeasurement,31(3),283-304.
Sotaridona,L.S.,Van der Linden,W.J.,& Meijer,R.R.(2006).Detecting answer copying using the kappa statistic.AppliedPsychologicalMeasurement,30,412-431.
van der Linden,W.J.(2009).A bivariate lognormal response-time model for the detection of collusion between test takers.JournalofEducationalandBehavioralStatistics,34(3),378-394.
Wollack,J.A.(2003).Comparison of answer copying indices with real data.MeasurementinEducation,40,189-205.
Wollack,J.A.(2004).Detecting answer copying on high-stakes tests.TheBarExaminer,73,35-45.
Comparision of Series ofk-index,g2-index,and
False Same Rate of Answer Copying
Gan Yuanyuan1,2,Yu Jiayuan2
(1.Jiangsu Agency for Educational Evaluation,Nanjing 210024;
2.Psychology Department,Nanjing Normal University,Nanjing 210097)
Abstract:In order to compare the power of answer copying detection of the answer copying statistics such as series of k-index,g2-index,and false same rate,the comparison experiment was carried out under various copying conditions,sample size,test length,source’s ability,and copier’s detection rate.Which one was the most influencing factor of their answer copying detection power and which one was the best answer-copying statistics were investigated.The results indicated the following:(1)among sample size,test length,source’s ability,and copier’s detection rate,the copier’s detection rate was the most influential factor of their answer-copying detection power,test length and source’s ability were the second ones,and sample size was the least one.(2)With the same sample size,test length,source’s ability,and copier’s detection rate,the empirical type I error rate of g2-index was above the nominal α level,and the detection rate of it was the highest;k1-index and k2-index were able to hold the empirical type I error rates below the nominal α level,and their detection rates were the second higher;the empirical type I error rate of k*′-index was close to 0,and its detection rate was the lowest;the empirical type I error rate of false same rate was slightly above the nominal α level,and its detection rate was the second lower.(3)k1-index and k2-index were the best answer-copying statistics when the source under suspicion was determined,because their powers of answer copying detection were the highest.(4)With the same sample size,test length,source’s ability,and copier’s detection rate,the powers of answer copying detection of series of k-index,g2-index,and false same rate were sharp decreased when the source and copier under suspicion were undetermined.(5)In order to reduce misjudgment risk,the conservative critical value of the answer-copying statistics would be determined when the examinees under suspicion were undetermined.
Key words:series of k-index;g2-index;false same rate;empirical type I error rate;detection rate
中圖分類號:B841.2
文獻標識碼:A
文章編號:1003-5184(2015)05-0464-07
基金項目:*國家社會科學基金“十一五”規(guī)劃課題(BBA080050)。