劉雪晴 周曉華,2,3△
【提 要】 目的 本文旨在探討自由響應ROC(free-response ROC,FROC)方法和變異FROC(alternative FROC,AFROC)方法相對傳統ROC方法的優(yōu)勢與局限性,并提出生成平均AFROC曲線的非參數方法。方法 通過FROC曲線和AFROC曲線的定義,從理論角度闡述兩種方法的聯系與優(yōu)缺點。闡述在MRMC研究中生成平均AFROC曲線的方法,并證明平均AFROC曲線下的面積與平均AFROC-AUC相等。在實際數據中應用以上方法并對結果進行比較。結果 與FROC曲線不同,不同的診斷試驗產生的AFROC曲線具有相同的長度,因此能夠進行多個曲線間的比較。平均AFROC曲線能夠反映不同診斷試驗的準確度大小,且與回歸模型得到的結果一致。結論 FROC研究更適合涉及多病變檢測和定位任務的診斷試驗。改進后的AFROC曲線能解決原始FROC曲線不利于比較的問題?;诜菂捣椒ǖ玫降钠骄鵄FROC曲線能直觀地反映出診斷準確度,可在進行診斷試驗評價時輔助其他結果共同報告。
在傳統的受試者操作特征(receiver operating characteristic,ROC)方法中,閱片者為每個病例賦分,并判斷其是否患病,而無需定位病變的位置[1]。對于涉及多病變的檢測和定位的影像診斷試驗的臨床評價,使用ROC方法可能產生位置偏差,即患者被診斷為有病,但是病變的定位錯誤,導致靈敏度被高估[2]。已有研究提出了ROC的擴展方法,稱為定位ROC(location-specific ROC)方法,包括LROC(localization ROC)法[3]、ROI(region-of-interest)法[4]和自由響應ROC(free-response ROC,FROC)法[5-6]。其中FROC研究更具靈活性,它把病變作為基本的診斷單位,并允許閱片者自由標記出所有的可疑區(qū)域。AFROC方法是對FROC分析的改進,它通過對正常病例中的所有假陽性標記得分取最大值,使得生成的曲線控制在單位區(qū)域中,有利于多個診斷試驗的比較。
本文將具體介紹FROC方法和AFROC方法,并在真實多讀者多病例(multi-reader multi case,MRMC)FROC實例研究中說明和比較兩種方法。在進行診斷準確度研究時,研究者往往會在報告平均AFROC-AUC時,同時展示AFROC曲線。相比多個單獨的AFROC曲線,平均AFROC曲線顯然更加直觀,且能夠綜合多個閱片者的信息。因此,本文提出生成平均AFROC曲線的非參數方法,在實際數據中應用并與回歸模型的結果進行比較。
1.FROC方法
在FROC研究中,閱片者自由標記出所有可疑的區(qū)域并賦分。研究者根據“金標準”提供的信息將標記分類為真陽性(TP)或假陽性(FP)。假陽性標記可能同時出現在患病或正常病例中,而真陽性標記僅存在于患病病例中。
FROC數據是以病變(或假陽性標記)為單位收集的。假設研究包括K個病例,其中患病病例為k1個,正常病例為k0個。FROC數據的格式[7]可以記為
(1)
FROC分析方法存在兩個主要問題。第一,從橫坐標的定義不難看出,其長度可能趨于無窮,使得FROC曲線下面積難以定義[8]。第二,由于不同診斷試驗的FROC曲線長度不同,診斷試驗間難以進行直觀的比較。目前已經有多種改進方法用于解決這些問題,其中最常用的就是AFROC方法。
2.AFROC方法
變異FROC(alternative FROC,AFROC)分析對原始FROC方法做出改進[6],通過在正常病例中對所有假陽性標記的得分取最大值,得到以病例為分析單位的假陽性率,進而將AFROC曲線限制在單位區(qū)域內,使得多個診斷試驗之間的比較具有可行性。
首先我們將FROC數據轉換為在AFROC分析中所應用的數據格式。我們定義
AFROC曲線中縱坐標的定義仍與FROC曲線中相同,即以病變?yōu)榉治鰡挝坏腡PR,它的非參數估計可以表示為
(2)
其中ξ為該研究所選定的閾值。經過取最大值的變換后,AFROC曲線的橫坐標與傳統的ROC曲線相似,它的非參數估計可以表示為
(3)
(4)
AFROC分析很好地解決了FROC曲線長度不一甚至可能趨于無窮的問題。但目前對于AFROC曲線的研究仍然十分有限,比如目前仍沒有較好地能夠生成AFROC曲線的參數模型,已有的模型面臨著參數可識別性的問題或是存在較強的獨立性假設。盡管非參數估計會系統性地低估AFROC-AUC,但由于不需要過多的假設而在研究中被普遍使用,其方差的估計往往需要借助重抽樣的方法[9]。
3.多讀者多病例FROC研究
在完全交叉的多讀者多病例(multi-reader multi-case,MRMC)研究中,全部病例接受所有診斷試驗的檢測,然后每個閱片者對所有的病例影像進行解釋和賦分。這種設計的好處在于可以有效地增加統計效能,減少研究所需的樣本量[1]。然而,完全交叉的MRMC設計產生了互相關的數據結構:同一閱片者、同一病例或同一診斷試驗產生的檢測結果分別是相關的。當數據是以病變?yōu)閱挝皇占?FROC數據),則產生的數據結構更加復雜,因為同一病例/影像上不同可疑區(qū)域的得分也存在一定的相關性。目前存在多種統計方法用于MRMC研究分析[10-11],然而這些方法都是基于MRMC ROC研究提出和發(fā)展的。本文首先介紹了一種使用回歸模型分析MRMC FROC數據的方法[12],該方法不僅能夠在估計參數時考慮數據間復雜的相關性,還能調整影響準確度的其他協變量。此外,本文提出了一種生成平均AFROC曲線的非參數方法,用于提供多個診斷試驗間的直觀比較。
(1)統計方法
我們提出了一種利用邊際回歸模型分析MRMC FROC數據的方法[12],該方法對相關性結構進行了全面分析,并借用了用于“稀疏相關”的估計方法,得到了回歸參數的相合性和漸近正態(tài)估計。這種基于回歸模型的方法是對AFROC-AUC建立回歸模型。當診斷試驗結果為連續(xù)變量時,模型可以表示為
(5)
(2)平均AFROC曲線
現有的對于MRMC FROC研究的討論往往是關于如何得到平均診斷準確度指標的估計和如何進行假設檢驗以判斷診斷試驗的優(yōu)劣。然而,AFROC曲線本身也能提供直觀的準確度信息并進行多個診斷試驗間的比較。本文提出利用一種非參數的方法得到平均AFROC曲線,而且該曲線下面積恰好等于平均AFROC-AUC。該方法是對平均ROC曲線的一個擴展[13]。
曲線下面積與平均AFROC-AUC相等的平均AFROC曲線并不是唯一的。例如,可以在不同的FPR取值下對TPR取平均,也可以在不同的TPR下對FPR取平均。更一般地,我們可以按照如下方式得到平均AFROC曲線。
首先,我們將坐標系中的(FPR(ξ),TPR(ξ),逆時針旋轉θ度,從而得到
我們進一步通過實例研究闡釋和討論上述方法。本文所用數據來自乳腺斷層攝影(breast tomosynthesis,BT)和數字乳腺X線攝影(digital mammography,DM)兩個設備的準確度比較研究。該研究包括5名閱片者,185名病例(其中包括89名患病病例)。在研究中,每個閱片者獨立地使用BT和DM兩個設備下分別對CT影像進行標記和賦分。研究的金標準由專家小組確定。根據是否接近金標準提供的病變位置,專家后期將標記分為真陽性和假陽性。實例研究的數據結構如公式(1)所示。
本文的分析全部使用R軟件。我們首先繪制了5個閱片者單獨的FROC曲線和AFROC曲線,如圖1和圖2所示??梢钥闯?,5個閱片者的FROC曲線長度不同,特別是有使用BT和使用DM時的FROC曲線長度不一致,從而難以進行兩個診斷試驗之間的直觀比較。AFROC曲線的橫軸在(0,1)范圍內,對于同一閱片者,在橫坐標相同時,BT比DM的AFROC曲線高。
圖1 經驗FROC曲線
圖2 經驗AFROC曲線
應用回歸模型的方法對MRMC數據進行分析,所得結果如表1所示。BT與DM的AFROC-AUC的差異為0.144(95%置信區(qū)間:[0.074,0.215]),從而可以得出BT比DM的準確度高。
表1 BT與DM準確度比較研究的結果
圖3 平均AFROC曲線
本文探討了FROC方法和AFROC方法。相比傳統的ROC方法,這兩種方法將病變的位置信息納入分析,更適合涉及多病變檢測和定位的影像診斷試驗的準確度研究。此外,我們簡單介紹了一種新的回歸模型方法,并著重介紹了如何生成平均AFROC曲線。目前關于平均AFROC曲線的討論較少,我們的研究彌補了這一空白。實例分析很好地說明了平均AFROC曲線能夠提供較多的信息和直觀的比較,能夠輔助以AFROC-AUC為準確度指標得到的結論。
FROC方法和AFROC方法仍然處在發(fā)展階段,與ROC方法相比,仍有很多不完善的地方。第一,目前對于曲線下面積的計算主要基于非參數方法,而參數模型的研究相對較少。第二,同一病例中多個標記診斷結果存在著相關性,如何在FROC分析中很好地處理相關性問題也值得進一步研究。
總之,FROC研究收集的數據包含更多的信息,通常認為在分析中考慮這些信息能夠提高統計效能。在影像診斷試驗的準確度研究中,應當更多地使用考慮病變位置的方法。