梁綺紅,陳昭宇,張 崢,黃 爽,安勝利
1南方醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系,廣東 廣州 510515;2廣州血液中心,廣東 廣州510095
在醫(yī)學(xué)診斷實(shí)踐中,通常需要用不同的測量方法或不同的評價者對測量對象的結(jié)果進(jìn)行判斷,對測量方法或評價者組間、組內(nèi)偏差的評價稱為一致性評價[1]。目前,國內(nèi)外有學(xué)者提出多種方法進(jìn)行一致性評價,對于無序多分類結(jié)局,1955 年提出了π index[2,3],1960 年、1968 年先后提出了Kappa 系數(shù)、加權(quán)Kappa 系數(shù)[4,5],1973年對加權(quán)Kappa系數(shù)進(jìn)行擴(kuò)展到多測量者的評價中[6]。然而,有研究[7]于1990年首先提出了Kappa悖論,指出其在特殊情況下存在缺陷。2008年提出的AC1系數(shù),解決了Kappa悖論[8]的問題,具有更好的統(tǒng)計(jì)評價效果[9]?;贏C1系數(shù),本課題組于2018年提出了一種針對二分類結(jié)局的一致性評價系數(shù)(CEA),其準(zhǔn)確性、穩(wěn)定性都較AC1系數(shù)高[10]。此外,已對CEA系數(shù)在三分類資料中的應(yīng)用效果進(jìn)行評價,但其在指定事件在總體的占比接近偶然評價率時下會產(chǎn)生較大偏差[11],且缺少對CEA方差的估計(jì)與置信區(qū)間的計(jì)算。目前對CEA系數(shù)在無序多分類資料的應(yīng)用尚未見研究,本研究將CEA系數(shù)的應(yīng)用拓展到無序多分類資料,確定其置信區(qū)間計(jì)算方法并對其應(yīng)用效果進(jìn)行評價,完善CEA系數(shù)在一致性評價中的應(yīng)用。
在兩評價者無序多分類資料中,評價者分別為Rater A、Rater B,有k種類型,即無序多分類評價結(jié)果為1,…,k,可得列聯(lián)表(表1),其中nij代表評價者A把測量對象判為i類且評價者B把測量對象判為j類的數(shù)量[12]。
表1 兩評價者判別結(jié)果列聯(lián)表Tab.1 Contingency table to assess agreement by two raters
一致性評價系數(shù)的構(gòu)建思想是在觀察一致性中扣除偶然因素的影響,進(jìn)而衡量兩評價者在無序多分類結(jié)局間的一致性程度[13],其基本構(gòu)建公式為,其中p0為觀察一致率,pe為偶然一致率。Kappa系數(shù)、AC1系數(shù)的觀察一致率計(jì)算公式均為其區(qū)別在于偶然一致率pe的估計(jì)方法不同[14]。不同一致性評價系數(shù)對偶然一致率pe的定義見表2。
表2 兩種一致性評價系數(shù)對pe的定義Tab.2 Definition of two consistency evaluation coefficients for pe
CEA系數(shù)的構(gòu)建在表1中引入了偶然評價與確定評價的概念。當(dāng)任意一個評價者不確定將測量對象判別到哪一類型時,稱評價者做出偶然評價,反之稱為確定評價。在偶然評價中,假定評價者從k個判別類型中隨機(jī)等可能地選取一個判別類型作為評價結(jié)果,則把測量對象判別到正確類型的概率為1/k,即偶然正確率為1/k。只要有任意一個評價者做出偶然評價,評價者A和評價者B就會出現(xiàn)偶然一致性或偶然非一致性。在確定評價中,評價者A和評價者B對測量對象都做出了確定的判斷,因此兩評價者的判別結(jié)果將完全一致,只有確定一致性,而沒有非一致性。根據(jù)兩個評價者做出的偶然評價與確定評價,可得表3,其中nijCR代表評價者A做確定評價把測量對象判為i類且評價者B做偶然評價把測量對象判為j類的數(shù)量,以此類推。
假定判別類型“1”為k個判別結(jié)果中的指定事件,作以下定義:pr為指定事件在總體中的占比,即在所有事件中發(fā)生指定事件“1”的概率;ra、rb分別為評價者A、評價者B作出偶然評價的概率;pa、pb分別為評價者A、評價者B把所有測量對象判別到指定事件“1”的概率;p0為評價者A和評價者B同時把同一測量對象判別到同一類型的概率,即觀察一致率,其構(gòu)成包含偶然一致性與確定一致性;pe為偶然一致率;pd為偶然非一致率。
基于上述定義,由表1、表3,可得p0、pe的計(jì)算公式:
根據(jù)二分類CEA系數(shù)的構(gòu)建思想[15],CEA的基本
其中,pe*為針對CEA的偶然一致率估計(jì)值,表1可由真實(shí)數(shù)據(jù)所得,因此計(jì)算CEA即可轉(zhuǎn)化為求偶然一致率pe估計(jì)值的問題。
表1中的觀察一致性與觀察非一致性,兩者均有偶然和確定兩部分,即:觀察一致率+觀察非一致率=1、觀察一致=偶然一致+確定一致、觀察非一致=偶然非一致+確定非一致。對應(yīng)表3,偶然一致為niiRC/RR/CR,確定一致為njjCC,偶然非一致為nijRC/RR/CR(i≠j),確定非一致為0,故有p0+pd=1。
表3 區(qū)分偶然評價和確定評價的判別結(jié)果Tab.3 Results of distinguishing the random evaluation and the certain evaluation
考慮評價者做出偶然評價的概率ra、rb,有以下關(guān)
式子可理解為:任意一個評價者做出偶然判斷即為偶然評價,三種情況對應(yīng)公式(4)的三部分;對于同一個觀察單位,評價者A、B分別將其歸到1,…,k類,則一共有k2種情況,其中A、B評價一致的情況有k種,非一致的有k2-k種,所以兩評價者一致的概率為k/k2=1/k,非一致的概率為(k2-k)/k2=(k-1)/k。
評價者A、評價者B把測量對象判別到正確類的概率由確定評價和偶然評價組成。當(dāng)樣本量足夠大時,確定評價的正確率可近似用指定事件在總體的占比pr代
因此求解pe的問題可轉(zhuǎn)化為求一元二次方程f(pr)=0的解pr的問題。由于0
根據(jù)Gwet構(gòu)建AC1系數(shù)的思想[7],當(dāng)一致性評價推廣到多個評價者時,測量者關(guān)于不同評價者的判別結(jié)果分布按表4展示,其中,r代表評價者數(shù),n代表測量對象的樣本數(shù),rik代表把第i個測量對象判別到第k類的評價者數(shù)。本研究只考慮在兩評價者的條件下推導(dǎo)CEA系數(shù)的方差,即r=2。
表4 按測量對象與判別類型的多評價者結(jié)果分布Tab.4 Distribution of participants and categories by multiple raters
參考Gwet使用的線性近似方法估計(jì)方差[16],通過構(gòu)建一個包含所有項(xiàng)的樣本方差去逼近真實(shí)方差,在大樣本的情況下,近似方差與真實(shí)方差一致,其計(jì)算式如下:
SMA是一種骨架密實(shí)型結(jié)構(gòu)混合料,經(jīng)大量實(shí)踐證明,SMA型結(jié)構(gòu)具有優(yōu)異的高溫穩(wěn)定性,適合用于長大縱坡路段路面施工。本文所用SMA—16型級配礦料配比如表3所示。
綜合上述公式,樣本量較大時,通過構(gòu)建表4得到CEA系數(shù)方差的估計(jì)值。
Gwet在研究AC1系數(shù)方差估計(jì)與置信區(qū)間構(gòu)建的文章通過模擬指出,基于上述思想構(gòu)建的系數(shù)在大樣本情況下具有近似正態(tài)性,因此保證了置信區(qū)間的有效性[12]。當(dāng)樣本量足夠大時,計(jì)算出CEA系數(shù)的估計(jì)值和方差后,其95% 的置信區(qū)間即為
使用Monte Carlo模擬評價CEA系數(shù)的有效性,并對Kappa、AC1、CEA三種系數(shù)的方差估計(jì)值進(jìn)行比較。模擬基于兩評價者A、B,參數(shù)包括樣本量n、類別數(shù)k、指定事件在總體中占比pr、兩評價者的偶然評價率ra和rb。模擬步驟如下:(1)隨機(jī)抽樣產(chǎn)生一個樣本量為n、包含1,…,k的數(shù)列,其中指定事件“1”的概率為pr,其余為(1-pr)/(k-1);(2)從步驟(1)中產(chǎn)生的數(shù)據(jù)中分兩次隨機(jī)抽取ra*100%、rb*100%的樣本作為兩評價者做出偶然評價樣本,每種判別類型的概率均為1/k;(3)以含有偶然評價的樣本作為原始樣本,用Bootstrap法進(jìn)行重抽樣500次,算出每個重抽樣樣本的一致性評價系數(shù)及其方差。參數(shù)設(shè)置為n=20、60、100,k=3、4、5,pr=0.05~0.95(間隔0.01),ra=0.05、0.20,rb=0.05、0.20。
對CEA系數(shù)進(jìn)行敏感性分析。由于CEA系數(shù)的構(gòu)造與各類別所占比例有關(guān),在實(shí)際研究,某一診斷評價中不同疾病在總體中的占比往往大不相同,即對于同一個多分類結(jié)局資料,指定事件有多種選擇,其在總體的占比pr會有不同的取值,因此模擬部分探究pr在不同樣本量n、不同偶然評價率(ra、rb)及不同類別數(shù)k下對CEA系數(shù)的影響。采用500次重抽樣得到的一致性評價系數(shù)的均方誤以評價其準(zhǔn)確度。
對CEA系數(shù)的方差進(jìn)行評價。探討指定事件在總體的占比、偶然評價率與樣本量對Kappa、AC1、CEA三種系數(shù)的影響并進(jìn)行對比。采用500次重抽樣得到的一致性評價系數(shù)的方差和方差的期望評價估計(jì)值的穩(wěn)定性。
為了考察CEA系數(shù)的分布情況,從總體中隨機(jī)抽樣生成一組樣本量n=50、100,類別數(shù)k=3,指定事件在總體中占比分別為pr=0.05、0.25、0.75、0.95的樣本,計(jì)算相應(yīng)的CEA系數(shù)。重復(fù)上述過程1000次,得到給定參數(shù)下1000個CEA系數(shù)的分布,繪制分布直方圖驗(yàn)證CEA系數(shù)在不同樣本下的漸近正態(tài)性行及置信區(qū)間的有效性。
由圖1、2知樣本量對CEA系數(shù)影響較大,樣本量為60與100時CEA均方誤接近,因此下述模擬中樣本量分別取n=20、100(圖3、4)。結(jié)果顯示不同樣本量下,兩評價者偶然評價率不一致時(ra≠rb)的均方誤都比偶然一致率相等時(ra=rb)高。當(dāng)樣本量較大(n=100)、偶然評價率有差異(ra≠rb)的情況下(圖4),均方誤隨著pr的變化出現(xiàn)較大波動,但當(dāng)pr大于0.5后,波動趨于平緩,且CEA系數(shù)的均方誤始終保持在較小數(shù)值(0.005)以下。
圖1 不同樣本量及類別數(shù)下pr對CEA的影響Fig.1 Influence of pr on CEA under different sample sizes and type numbers(ra=rb=0.05).
圖2 不同樣本量及類別數(shù)下pr對CEA的影響Fig.2 Influence of pr on CEA under different sample sizes and type numbers(ra=0.05,rb=0.20).
圖3 不同類別數(shù)及偶然評價率下pr對CEA的影響Fig.3 Influence of pr on CEA under different type numbers and the accidental evaluation rates(n=20).
圖4 不同類別數(shù)及偶然評價率下pr對CEA的影響Fig.4 Influence of pr on CEA under different type numbers and the accidental evaluation rates(n=100).
對比圖5、6,兩種類別數(shù)下(k=3、k=5),CEA的均方誤變化情況接近,受類別數(shù)k的影響較小。樣本較?。╪=20)、偶然評價率不一致(ra≠rb)情況下的均方誤在包括前述所有參數(shù)設(shè)置中最高。
圖5 不同樣本量及偶然評價率下pr對CEA的影響Fig.5 Influence of pr on CEA under different sample sizes and the accidental evaluation rates(k=3).
綜上,CEA系數(shù)在各種參數(shù)設(shè)置下,其均方誤都保持在0.02以下,幾乎不受類別數(shù)k的影響,且隨著指定事件在總體占比pr的變化無明顯變化趨勢。偶然評價率(ra、rb)對其影響最大,樣本量次之,小樣本與較高的非一致偶然評價率(ra≠rb)會導(dǎo)致均方誤較高。
圖6 不同樣本量及偶然評價率下pr對CEA的影響Fig.6 Influence of pr on CEA under different sample sizes and the accidental evaluation rates(k=5).
2.2.2 方差比較 參考Gwet對方差進(jìn)行Monte Carlo模擬的思路[9],對CEA、AC1、Kappa進(jìn)行比較,x表示三種一致性評價系數(shù)。在特定參數(shù)下,從總體中抽樣所獲得的一份樣本,每一次重抽樣都可得到一個系數(shù)的估計(jì)值xs及其方差vs(x)(s指第s次重抽樣)。Var(x)表示500次重抽樣所得系數(shù)的方差,即用以評價系數(shù)的波動情況,其值越小越好;E[v(x)]表示這500 次重抽樣方差的期望,即(x)可通過公式(11)估計(jì),E[v(x)]與Var(x)越接近說明方差的估計(jì)值與真實(shí)值越接近。前述結(jié)果提示類別數(shù)k對CEA系數(shù)的影響最小,因此本部分模擬全部取k=3,研究樣本量n與偶然一致率(ra、rb)對方差的影響,模擬結(jié)果見表5。
表5 不同參數(shù)下各一致性評價系數(shù)的方差及方差估計(jì)值的期望Tab.5 Variance and the expectation of estimators of each consistency evaluation coefficient under different parameters(%)
上述任意一種參數(shù)設(shè)置下,CEA系數(shù)的方差均比AC1系數(shù)、Kappa系數(shù)小,Kappa系數(shù)的方差最大,且樣本量越大,方差越小。三種一致性評價系數(shù)在偶然評價率不一致時(Line4~Line6、Line10~Line12)的方差均比偶然評價率一致時(Line1~Line3、Line7~Line9)高。雖然指定事件的占比處于極端值時(pr=0.05、pr=0.95),但CEA系數(shù)和AC1系數(shù)在其方差和方差的期望均不會出現(xiàn)較大變化,而Kappa系數(shù)在指定事件的占比較高時(pr=0.95),方差的期望則發(fā)生較大提高。隨著樣本量的提高,CEA系數(shù)和AC1系數(shù)方差的期望受樣本量的影響不大,Kappa系數(shù)方差的期望不僅相對較前者高,且變化趨勢不穩(wěn)定。
綜上,CEA、AC1、Kappa受偶然一致性的影響最大,樣本量次之。CEA 系和AC1無論在何種情況下均比Kappa系數(shù)更加穩(wěn)定。即便是在小樣本的情況下,CEA的方差和方差的期望要比AC1、Kappa更接近。
2.2.3 CEA 系數(shù)的分布 固定模擬的樣本量n=50、100,類別數(shù)k=3,不同pr(0.05、0.25、0.75、0.95)下隨機(jī)抽樣1000 次所得的CEA 系數(shù)分布直方圖均服從正態(tài)分布(圖略),且樣本量越大,CEA 系數(shù)越趨近服從正態(tài)分布,與AC1系數(shù)的結(jié)論相同。因此用作為CEA系數(shù)95%的置信區(qū)間是有效的。
數(shù)據(jù)來自美國國家精神健康研究所一個包含不同醫(yī)生在5種精神疾病類型中對30名患者進(jìn)行診斷的數(shù)據(jù)[17]。本文對數(shù)據(jù)中兩名醫(yī)生的診斷結(jié)果(表6)進(jìn)行一致性檢驗(yàn),通過R軟件實(shí)現(xiàn)一致性評價[18],參數(shù)設(shè)置為2個評價者、5分類資料。3種一致性評價方法的結(jié)果如表7,CEA系數(shù)的置信區(qū)間范圍要比AC1、Kappa系數(shù)更小。
表6 兩名醫(yī)生診斷結(jié)果Tab.6 Result of diagnosis by two physicians
表7 3種一致性評價系數(shù)的估計(jì)結(jié)果Tab.7 Results of three consistency evaluation coefficients
有文獻(xiàn)通過模擬研究比較了Kappa系數(shù)和AC1系數(shù)在無序多分類結(jié)果中的應(yīng)用效果[19],得出AC1系數(shù)比Kappa系數(shù)更穩(wěn)健的、受發(fā)病率影響更小的結(jié)論[20-22]。本課題組前期所提出的CEA系數(shù)也顯示了較Kappa更為穩(wěn)健的優(yōu)勢[11,15]。然而,少有研究人員使用AC1或CEA作為一致性評價方法特別是在醫(yī)學(xué)領(lǐng)域,Kappa系數(shù)仍被普遍應(yīng)用[23]。本研究完善了CEA系數(shù)在無序多分類資料中的應(yīng)用,并對3種一致性評價方法進(jìn)行了對比評價。
設(shè)置不同的影響一致性評價的因素:類別數(shù)k、指定事件在總體的占比pr、偶然評價率(ra、rb)和樣本量n,Monte Carlo模擬研究結(jié)果顯示:(1)無論何種情況,類別數(shù)對CEA系數(shù)幾乎沒有影響;(2)指定事件的占比在各種情況下對CEA系數(shù)影響較小,其影響程度與樣本量、偶然評價率有關(guān)。當(dāng)兩評價者偶然評價率一致時,指定事件的影響程度較?。划?dāng)樣本量較?。╪=30)、偶然評價率不一致時,CEA系數(shù)受指定事件的影響程度隨著其占比的提高而減緩;(3)CEA系數(shù)受偶然評價率的影響相對較大,偶然評價率不一致的情況會導(dǎo)致CEA系數(shù)的偏差變大;(4)樣本量越大,CEA系數(shù)越穩(wěn)定。
對比Kappa系數(shù)、AC1系數(shù)、CEA系數(shù)的穩(wěn)定性結(jié)果顯示:(1)3種一致性評價系數(shù)均受樣本量、偶然評價率的影響,樣本量越大,系數(shù)越穩(wěn)定;偶然評價率不一致會導(dǎo)致系數(shù)的波動程度較大,其中Kappa系數(shù)所受的影響相對其余兩者要大;(2)CEA系數(shù)和AC1系數(shù)受指定事件占比pr的影響較小,而Kappa系數(shù)指定事件的占比取極端值的情況下(pr=0.05、pr=0.95)會出現(xiàn)方差不穩(wěn)定的現(xiàn)象(即Kappa悖論);(3)即便是在小樣本(n=30)的情況下,CEA系數(shù)的穩(wěn)定性也較AC1系數(shù)、Kappa系數(shù)好。此外,CEA系數(shù)的分布接近于正態(tài)分布,其置信區(qū)間的構(gòu)建是可靠性的。
綜上,對于兩評價者在無序多分類結(jié)局的一致性評價中,均顯示本研究所提出的CEA系數(shù)具有更為穩(wěn)定的特性。
本研究的前提假設(shè)是評價者在進(jìn)行偶然評價時隨機(jī)等可能地將觀測對象判別到某一類型中,沒有額外考慮評價者先驗(yàn)信息的影響,后續(xù)對CEA系數(shù)的改進(jìn)中擬考慮診斷經(jīng)驗(yàn)的影響。此外,本研究僅對CEA在兩評價者的無序多分類結(jié)果中的應(yīng)用效果進(jìn)行研究評價,對于CEA系數(shù)的假設(shè)檢驗(yàn)仍有待補(bǔ)充。軟件實(shí)現(xiàn)上,Kappa系數(shù)和AC1系數(shù)在多評價者間[24]和有序多分類資料均有較多軟件可以實(shí)現(xiàn)[25,26],包括SPSS、SAS,CEA系數(shù)在以上方面的理論推廣和程序?qū)崿F(xiàn)值得進(jìn)一步完善。