• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      正態(tài)總體決策曲線參數(shù)估計(jì)方法及其應(yīng)用

      2023-08-30 22:09:27趙超群余昊楊建萍
      關(guān)鍵詞:參數(shù)估計(jì)收益

      趙超群 余昊 楊建萍

      摘 要: 為了給需要平衡收益與風(fēng)險(xiǎn)的決策者提供一種簡(jiǎn)單有效的風(fēng)險(xiǎn)模型評(píng)估方法,提出了一種基于極大似然估計(jì)的正態(tài)總體決策曲線參數(shù)估計(jì)方法,并從理論研究、仿真分析和實(shí)際應(yīng)用等三方面研究其特性。首先,從統(tǒng)計(jì)理論上對(duì)該方法的特性進(jìn)行了研究,結(jié)果表明該方法不僅具有簡(jiǎn)單易于實(shí)踐的數(shù)學(xué)表達(dá)式,而且具有相合漸近正態(tài)性等良好的統(tǒng)計(jì)性質(zhì);然后,對(duì)該方法在實(shí)際應(yīng)用中的性能進(jìn)行了仿真,并與現(xiàn)有的非參數(shù)估計(jì)方法比較,發(fā)現(xiàn)該方法在正態(tài)總體下具有更高的準(zhǔn)確性和可操作性;最后通過(guò)實(shí)例說(shuō)明,應(yīng)用此方法能夠有效篩選出乳腺癌的高鑒別性能生物標(biāo)志物。該研究結(jié)果可為決策者評(píng)估臨床模型和篩選高鑒別性能生物標(biāo)志物提供參考。

      關(guān)鍵詞:決策曲線;正態(tài)總體;模型評(píng)估;收益;參數(shù)估計(jì)

      中圖分類號(hào):O212.1

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1673-3851 (2023) 05-0379-09

      引文格式:趙超群,余昊,楊建萍. 正態(tài)總體決策曲線參數(shù)估計(jì)方法及其應(yīng)用[J]. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)),2023,49(3):379-387.

      Reference Format: ZHAO Chaoqun, YU Hao, YANG Jianping. Parameter estimation of decision curve based on normal population and its applications[J]. Journal of Zhejiang Sci-Tech University,2023,49(3):379-387.

      Parameter estimation of decision curve based on normal population and its applications

      ZHAO Chaoquna, YU Haoa, YANG Jianpingb

      (a.School of Computer Science and Technology; b.School of Science, Zhejiang Sci-Tech University, Hangzhou 310018, China)

      Abstract: In order to provide a simple and effective evaluation method of risk model for decision makers who need to balance benefits and risks, a parameter estimation method of decision curve based on normal population is proposed based on maximum likelihood estimation, and its advantages are also discussed from the three different aspects of theory of statistics, simulated analysis and practical application. First of all, the properties of this method are studied based on the theory of statistics. It is shown that the method not only involves a simple mathematical expression, but it also has some good statistical properties such as consistent? asymptotic normality. Then, the performance of the method in practical application is simulated. Compared with the existing non-parametric estimation methods, it is found that this method has higher accuracy and operability under normal population. Finally, it is demonstrated from examples that this method can effectively screen biomarkers of breast cancer with high differential performance. The research results can provide reference for decision makers to evaluate clinical models and screen biomarkers with high differential performance.

      Key words:decision curve; normal population; model evaluation; benefit; parameter estimation

      0 引 言

      受試者工作特征(Receiver operating characteristic curve,ROC)曲線等傳統(tǒng)分類模型評(píng)估方法在二分類決策中具有良好的應(yīng)用價(jià)值[1。ROC曲線是在測(cè)試數(shù)據(jù)集下,根據(jù)不同閾值所得結(jié)果,以假陽(yáng)性率為橫坐標(biāo)、真陽(yáng)性率為縱坐標(biāo)畫(huà)出的圖形[2。研究人員常通過(guò)計(jì)算ROC曲線下的面積(Area under curve,AUC)評(píng)估分類器的準(zhǔn)確率,并通常選擇AUC值較大的分類器[3-4。類似的分類準(zhǔn)確率指標(biāo)如敏感性、特異性、綜合判別改善指數(shù)、凈重新分類指數(shù)和Brier評(píng)分等[5-8只考慮了診斷測(cè)試的準(zhǔn)確性,卻沒(méi)有考慮實(shí)踐中診斷結(jié)果帶來(lái)的收益和潛在風(fēng)險(xiǎn)的關(guān)系,這可能導(dǎo)致過(guò)度診斷的發(fā)生,因此在實(shí)踐應(yīng)用中的效果并不理想。

      2006年,Vickers等[9提出了一種基于決策曲線分析(Decision curve analysis,DCA)的方法,該方法考慮了收益與風(fēng)險(xiǎn)的關(guān)系,能有效評(píng)估模型、診斷測(cè)試和篩選生物標(biāo)志物[10。DCA方法已越來(lái)越多地用于評(píng)估臨床醫(yī)學(xué)研究中診斷測(cè)試的準(zhǔn)確性和預(yù)測(cè)模型的價(jià)值。Moran等11通過(guò)決策曲線研究了乳酸作為膿毒癥和膿毒癥休克的生物標(biāo)志物的可行性。Han等[12建立了初始原發(fā)性肺癌幸存者患第二原發(fā)性肺癌的預(yù)測(cè)模型,并通過(guò)DCA方法來(lái)評(píng)估該模型在臨床應(yīng)用上的價(jià)值。Liang等[13用DCA方法證實(shí)了肝內(nèi)膽管癌預(yù)測(cè)模型的分類判別能力。

      本文提出了一種正態(tài)總體決策曲線參數(shù)估計(jì)方法。首先,基于極大似然估計(jì)得到了該方法關(guān)于樣本均值與方差的數(shù)學(xué)表達(dá)式,并從統(tǒng)計(jì)理論上給出了一些特性;其次,利用R軟件對(duì)該方法在實(shí)際應(yīng)用中的評(píng)估性能進(jìn)行仿真,并與已有的非參數(shù)估計(jì)方法進(jìn)行了性能比較;最后,將這一方法用于篩選高鑒別性能的乳腺癌生物標(biāo)志物,以說(shuō)明決策曲線及本文提出的方法在實(shí)際應(yīng)用中的過(guò)程和價(jià)值。

      1 決策曲線分析

      DCA方法可以協(xié)助臨床研究,將臨床效用量化為凈收益,通過(guò)凈收益篩選對(duì)受試者采取何種治療措施。D=1和D=0分別表示個(gè)體患病和不患病的兩種狀態(tài),λ=P(D=1)和1-λ=P(D=0)分別表示患病率和未患病率。對(duì)于給定個(gè)體X,設(shè)p=P(D=1|X)為患病概率。閾值pd∈[0,1],當(dāng)p≥pd時(shí),受試者被判定為陽(yáng)性,并接受治療;當(dāng)pd時(shí)受試者被判定為陰性而不接受治療,將判定的結(jié)果用示性函數(shù)T(pd)表示:

      設(shè)ukj為對(duì)受試者的不同檢驗(yàn)結(jié)果的效用,其中k∈{0,1}是判定結(jié)果,j∈{0,1}是真實(shí)的疾病狀態(tài)。根據(jù)期望效用理論[14,受試者治療的期望效用為u11pd+u10(1-pd),受試者不進(jìn)行治療的期望效用為u01pd+u00(1-pd)。當(dāng)受試者接受診斷測(cè)試,得到的閾值與患病概率相同時(shí),即p=pd,在這個(gè)臨界值下,將受試者歸入患病類別與將受試者歸入正常類別的期望效用是相同的,因此可以得到:

      結(jié)合受試者所有結(jié)果的效用,該測(cè)試的期望效用可以表示為:

      UA=P(T(pd)=1|D=1)P(D=1)u11+P(T(pd)=0|D=1)P(D=1)u01+P(T(pd)=1|D=0)P(D=0)u10+P(T(pd)=0|D=0)P(D=1)u00

      不治療任何受試者的效用可以表示為:

      U0=P(D=1)u01+P(D=0)u00(3)

      因而,治療受試者與不治療任何受試者比較,該測(cè)試的效用是:

      UA-U0=P(T(pd)=1|D=1)P(D=1)(u11-u01)+P(T(pd)=1|D=0)P(D=0)(u10-u00)。

      為不失一般性,假設(shè)u11-u01=1,得到:

      用P(T(pd)=1|D=1)表示敏感性se,P(T(pd)=1|D=0)表示1-特異性sp,凈收益ф表示UA-U0,那么式(4)可以寫(xiě)為:

      DCA方法通過(guò)不同閾值畫(huà)出決策曲線,可以用于比較一個(gè)模型是否優(yōu)于另一個(gè)模型。兩個(gè)模型的決策曲線如圖1所示,從圖1可以看出,模型2的預(yù)測(cè)效果在閾值范圍內(nèi)具有較高凈收益,優(yōu)于模型1。此外,圖1中兩條虛線代表兩種極端情況,平行于橫軸的虛線表示所有樣本都是陰性,即凈收益為0,“對(duì)受試者不做任何治療”;另一條斜率為負(fù)的虛線表示所有樣本都是陽(yáng)性,即“對(duì)所有受試者進(jìn)行治療”。

      2 正態(tài)總體下決策曲線參數(shù)估計(jì)方法推斷

      假設(shè)在某種疾病患病率為λ的人群中,抽取一個(gè)樣本容量為n的隨機(jī)樣本。令未患病總體X0~N(μ0,σ20),X01,…,X0n0為未患病個(gè)體樣本,n0為未患病樣本數(shù)量;患病總體X1~N(μ1,σ21),X11,…,X1n1為患病個(gè)體樣本,n1為患病樣本數(shù)量,樣本總數(shù)n=n0+n1。對(duì)測(cè)試樣本X和p用貝葉斯定理可得:

      X0與X1的概率密度函數(shù)之比f(wàn)0(x)/f1(x)為:

      二元決策規(guī)則將患病概率高于閾值的受試者被判定為接受治療,所以事件p≥pd等價(jià)于:

      為方便計(jì)算,不妨假設(shè)A=σ2021,B=μ0σ211σ20,C=μ21σ2020σ21,于是

      令h1和h2是與μ0、μ1、σ0、σ1有關(guān)的函數(shù):

      因此,由式(5)可得,正態(tài)總體下,凈收益被估計(jì)為:

      3 仿真分析

      本文對(duì)正態(tài)總體決策曲線參數(shù)估計(jì)方法進(jìn)行仿真,利用R軟件包Plotrix中的函數(shù)對(duì)該方法的性能進(jìn)行評(píng)估,并與Sande等[10提出的非參數(shù)估計(jì)方法的準(zhǔn)確性進(jìn)行比較。

      為確保研究的可靠性,進(jìn)行兩次不同均值、方差和患病率的仿真實(shí)驗(yàn)。另外,設(shè)定(n0,n1)=(25,25),(50,50),(100,100),(250,250),(500,500),pd=0.2,0.3,0.4,0.5,0.6,0.7,0.8。第一次仿真中,在X0~N(3,1.52)、X1~N(2,0.22)的條件下生成1000組λ=0.48的數(shù)據(jù),運(yùn)行得到ф、ф^、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)誤差和非參數(shù)估計(jì)方法的凈收益估計(jì)值NE,結(jié)果見(jiàn)表1。ф^在不同樣本量和閾值的情況下都接近真實(shí)凈收益ф;同時(shí),與相同數(shù)據(jù)下得到NE相比,正態(tài)總體決策曲線參數(shù)估計(jì)方法得到的ф^比NE更接近真實(shí)凈收益。此外,由本文提出的方法得到的凈收益標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤差的平均值較小,說(shuō)明估計(jì)結(jié)果準(zhǔn)確性較高。

      第二次仿真中,在X0~N(4,52),X1~N(0.5,1.22)的條件下生成1000組λ=0.44的數(shù)據(jù),結(jié)果見(jiàn)表2。當(dāng)pd≥0.5時(shí),NE與真實(shí)凈收益值誤差較大,ф^誤差較小。

      通過(guò)仿真結(jié)果可知,本文提出的方法可以作為評(píng)估模型實(shí)用性的標(biāo)準(zhǔn),且比已有的非參數(shù)方法準(zhǔn)確性更高。

      4 應(yīng)用分析

      本文用一個(gè)乳腺癌實(shí)例來(lái)說(shuō)明本文方法在現(xiàn)實(shí)中可用于選取高鑒別能力的生物標(biāo)志物。乳腺癌是威脅女性健康較嚴(yán)重的惡性腫瘤之一,通常發(fā)生在乳腺腺體組織或乳腺導(dǎo)管襯細(xì)胞的小葉里,是由乳房細(xì)胞變異生長(zhǎng)引發(fā)的癌癥,變異后的細(xì)胞相較健康細(xì)胞分裂更快,經(jīng)過(guò)積累形成占位或腫塊,并且癌細(xì)胞可能通過(guò)乳房擴(kuò)散到淋巴結(jié)或身體的其他部位。在早期發(fā)現(xiàn)這種疾病的時(shí)候,乳腺癌的治療可能非常有效,因此為臨床醫(yī)生提供準(zhǔn)確的生物標(biāo)志物信息來(lái)做出治療決定極為重要?;贒CA方法的效用研究可為乳腺癌的治療提供必要的依據(jù)。

      本文選擇的數(shù)據(jù)集來(lái)自加州大學(xué)歐文分校的機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的威斯康星州預(yù)后乳腺癌診斷(Wisconsin Prognostic Breast Cancer,WPBC)數(shù)據(jù)集[15。該數(shù)據(jù)集中的生物標(biāo)志物通過(guò)乳腺腫塊的細(xì)針穿刺得到的數(shù)字化圖像計(jì)算得出,生物標(biāo)志物描述了樣本圖像中細(xì)胞核的形態(tài)特征。該數(shù)據(jù)集收集了198例乳腺癌的患者記錄,包含32個(gè)生物標(biāo)志物。前30個(gè)生物標(biāo)志物描述了圖像中細(xì)胞核的半徑、紋理、細(xì)胞核周長(zhǎng)和緊湊度等特征,最后兩個(gè)生物標(biāo)志物是腫瘤的大小和陽(yáng)性淋巴結(jié)的數(shù)量。為便于說(shuō)明,本文使用V1,…,V32來(lái)表示這32個(gè)生物標(biāo)志物。

      首先進(jìn)行數(shù)據(jù)預(yù)處理,分別對(duì)患病和健康群體的數(shù)據(jù)進(jìn)行Shapiro-Wilk檢驗(yàn)[17。正態(tài)性檢驗(yàn)顯示,WPBC數(shù)據(jù)集在0.05的顯著水平上均未滿足正態(tài)性假設(shè)。為提高正態(tài)性,對(duì)數(shù)據(jù)進(jìn)行Box-Cox轉(zhuǎn)換,轉(zhuǎn)換后的數(shù)據(jù)再次進(jìn)行Shapiro-Wilk檢驗(yàn),并刪除不符合正態(tài)分布的數(shù)據(jù)。圖2是用R軟件繪制的數(shù)據(jù)處理前后的DCA曲線對(duì)比圖,由圖可知,轉(zhuǎn)換后的生物標(biāo)志物決策曲線凈收益顯著提高。其次對(duì)篩選出的生物標(biāo)志物結(jié)合參數(shù)估計(jì)方法計(jì)算凈收益,最后選出6個(gè)能顯著分類乳腺癌的生物標(biāo)志物,分別是V2(紋理-平均值)、V7(凹陷度-平均值)、V11(半徑-標(biāo)準(zhǔn)差)、V25(平滑度-最大值)、V27(凹點(diǎn)-最大值)和V31(切除腫瘤直徑)。使用R軟件中的pROC包計(jì)算出AUC值排名前10的生物標(biāo)志物如表3所示。由表3可知,用正態(tài)總體決策曲線參數(shù)估計(jì)方法篩選出的生物標(biāo)志物與表中的排序不完全吻合。其原因是DCA方法考慮了決策者的偏好,因此在實(shí)際應(yīng)用中AUC評(píng)價(jià)指標(biāo)雖然簡(jiǎn)單但并不能取代DCA方法,AUC注重評(píng)價(jià)模型的區(qū)分度,而DCA方法偏向于評(píng)價(jià)臨床的實(shí)用性。

      5 結(jié) 論

      本文提出了一種基于極大似然估計(jì)的正態(tài)總體決策曲線參數(shù)估計(jì)方法,能有效地幫助決策者評(píng)估模型和篩選生物標(biāo)志物。通過(guò)嚴(yán)密的理論推導(dǎo),得到該方法的顯式表達(dá)式僅與正態(tài)總體的方差和均值有關(guān)且具有相合性、漸近正態(tài)性等良好的統(tǒng)計(jì)性質(zhì)。通過(guò)仿真計(jì)算出估計(jì)凈收益值與真實(shí)凈收益值,并且估計(jì)凈收益值的標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤差較小,說(shuō)明該方法具有較高的準(zhǔn)確性。此外,該方法應(yīng)用于篩選乳腺癌生物標(biāo)志物,結(jié)果表明篩選出的生物標(biāo)志物與通過(guò)AUC方法得到的結(jié)果不完全吻合,由于本文提出的方法考慮了風(fēng)險(xiǎn)與收益的關(guān)系,選取的生物標(biāo)志物將具有更好的臨床診斷效果。

      本文提出的是二分類下的決策曲線參數(shù)估計(jì)方法,對(duì)三分類及以上的多元參數(shù)估計(jì)方法還有待研究。

      參考文獻(xiàn):

      [1]Pepe M S. The Statistical Evaluation of Medical Tests for Classification and Prediction [M]. Oxford: Oxford University Press, 2003:28.

      [2]Wan S W, Zhang B. Comparing correlated ROC curves for continuous diagnostic tests under density ratio models[J]. Computational Statistics & Data Analysis, 2008, 53(1):233-245.

      [3]Bradley A P. ROC curve equivalence using the Kolmogorov-Smirnov test[J]. Pattern Recognition Letters, 2013, 34(5):470-475.

      [4]Wang S H, Zhang B. Semiparametric empirical likelihood confidence intervals for AUC under a density ratio model[J]. Computational Statistics & Data Analysis, 2014, 70:101-115.

      [5]Zhang Z H, Rousson V, Lee W C, et al. Decision curve analysis: a technical note[J]. Annals of Translational Medicine, 2018, 6(15):308.

      [6]Hu B, Palta M, Shao J. Properties of R2statistics for logistic regression[J]. Statistics in Medicine, 2006, 25(8): 1383-1395.

      [7]Leening M J G, Steyerberg E W, van Calster B, et al. Net reclassification improvement and integrated discrimination improvement require calibrated models: relevance from a marker and model perspective[J]. Statistics in Medicine, 2014, 33(19): 3415-3418.

      [8]Pencina M J, D'Agostino R B S, D' Agostino R B Jr, et al. Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond[J]. Statistics in Medicine, 2008, 27(2): 157-172.

      [9]Vickers A J, Elkin E B. Decision curve analysis: a novel method for evaluating prediction models[J]. Medical Decision Making, 2006, 26(6): 565-574.

      [10]Sande S Z, Li J L, D'Agostino R, et al. Statistical inference for decision curve analysis, with applications to cataract diagnosis[J]. Statistics in Medicine, 2020, 39(22): 2980-3002.

      [11]Moran J L, Santamaria J. Reconsidering lactate as a sepsis risk biomarker[J]. PLoS One, 2017, 12(10): e0185320.

      [12]Han S S, Rivera G A, Tammemgi M C, et al. Risk stratification for second primary lung cancer[J]. Journal of Clinical Oncology, 2017, 35(25): 2893-2899.

      [13]Liang W J, Xu L, Yang P, et al. Novel nomogram for preoperative prediction of early recurrence in intrahepatic cholangiocarcinoma[J]. Frontiers in Oncology, 2018, 8: 360.

      [14]Vickers A J, Cronin A M, G?nen M. A simple decision analytic solution to the comparison of two binary diagnostic tests[J]. Statistics in Medicine, 2013, 32(11): 1865-1876.

      [15]Mangasarian O L, Street W N, Wolberg W H. Breast cancer diagnosis and prognosis via linear programming[J]. Operations Research, 1995, 43(4): 570-577.

      [16]Street W N, Mangasarian O L, Wolberg W H. An inductive learning approach to prognostic prediction[J]. Machine Learning, 1995, 522-530.

      [17]Yang J P, Kuan P F, Li J L. Non-monotone transformation of biomarkers to improve diagnostic and screening accuracy in a DNA methylation study with trichotomous phenotypes[J]. Statistical Methods in Medical Research, 2020, 29(8): 2360-2389.

      (責(zé)任編輯:康 鋒)

      猜你喜歡
      參數(shù)估計(jì)收益
      基于新型DFrFT的LFM信號(hào)參數(shù)估計(jì)算法
      不完全觀測(cè)下非線性非齊次隨機(jī)系統(tǒng)的參數(shù)估計(jì)
      螃蟹爬上“網(wǎng)” 收益落進(jìn)兜
      一種GTD模型參數(shù)估計(jì)的改進(jìn)2D-TLS-ESPRIT算法
      追求騎行訓(xùn)練的邊際收益
      怎么設(shè)定你的年化收益目標(biāo)
      海峽姐妹(2017年6期)2017-06-24 09:37:34
      Logistic回歸模型的幾乎無(wú)偏兩參數(shù)估計(jì)
      基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
      基于競(jìng)爭(zhēng)失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
      2015年理財(cái)“6宗最”誰(shuí)能給你穩(wěn)穩(wěn)的收益
      金色年華(2016年1期)2016-02-28 01:38:19
      安龙县| 常山县| 平和县| 濉溪县| 资阳市| 阳西县| 峡江县| 石渠县| 菏泽市| 南漳县| 若羌县| 修文县| 嵊泗县| 台东市| SHOW| 信丰县| 祁门县| 资中县| 德化县| 民乐县| 邳州市| 佛教| 聂荣县| 泰宁县| 新竹市| 瓦房店市| 江陵县| 宣汉县| 郴州市| 凤阳县| 乃东县| 海林市| 南靖县| 莱阳市| 龙南县| 天峻县| 囊谦县| 巴南区| 喀喇沁旗| 仁寿县| 北碚区|