摘要:考慮在帶有碎片協(xié)變量的右刪失數(shù)據(jù)下比例風險模型的模型平均問題,先利用極大似然估計方法對模型中的參數(shù)進行估計,再采用基于信息準則的模型平均方法選取權(quán)重。模擬結(jié)果表明,模型平均方法相比于模型選擇方法預測精度更高。并通過乳腺癌實例分析驗證了該方法的優(yōu)越性和可行性.
關(guān)鍵詞:右刪失數(shù)據(jù);碎片協(xié)變量;模型平均;比例風險模型;信息準則
中圖分類號:O212文獻標志碼:A文章編號:1671-5489(2024)05-1091-11
Model Averaging Method for Right-Censored Datawith Fragmentary Covariates
WANG Shuying,ZHOULifang,CHENGYunfei
(School of Mathematics and Statistics,Changchun University of Technology,Changchun 130012,China)
Abstract:We considered the model averaging problem of the proportional hazard model in the right-censored data with fragmentary covariates.We first used the maximum likelihood estimation method to estimate the parameters in the model,and then used the model averaging method based on the information criterion to select the weights.The simulation results show that the model averaging method has higher prediction accuracy than the model selection method,and the superiority and feasibility of the proposed method are verified by the analysis of breast cancer examples.
Keywords:right-censoreddata;fragmentarycovariate;modelaveraging;proportional hazard model;information criterion
在生存分析中,由于獲得生存數(shù)據(jù)的實驗設計、觀測時間的局限,以及觀測對象在進入或退出實驗時個體差異等因素的影響,使得所關(guān)注的事件通常不能獲得精確的觀測時間,這類數(shù)據(jù)稱為刪失數(shù)據(jù).其中右刪失數(shù)據(jù)是指在進行隨訪中,只能獲取到個體的起始時間,無法準確觀測到事件終點的時間,即個體生存時間未知,只已知大于觀察時間.比例風險模型(proportional hazards(PH)model)]是右刪失數(shù)據(jù)回歸問題中的一種常見模型,它可以同時考慮多種因素對個體生存時間的影響,且不同受試者組的危險率成比例,與時間無關(guān),因此得到廣泛關(guān)注[2-5]
在傳統(tǒng)統(tǒng)計建模中,存在模型不確定性的問題,處理該類問題目前常用的方法是模型選擇,通常先利用如AIC(Akaike information criterion)和BIC(Bayesian information criterion)等準則從候選模型集中選出預測誤差最小的單個模型,再對單個模型進行一系列的統(tǒng)計推斷,但模型選擇過程中存在不確定性,會嚴重影響建模的科學性和穩(wěn)健性,降低預測精度.為克服模型選擇方法的不足,減少有用信息的遺失,一種有效的解決方法是模型平均,模型平均主要包括Bayes模型平均(Bayesian modelaveraging,BMA)和頻率模型平均(frequentist model averaging,F(xiàn)MA)[6].目前,Bayes模型平均方法已得到廣泛關(guān)注,但其模型假設十分復雜,并難以從理論上證明其漸近性質(zhì),因此越來越多的研究者開始關(guān)注頻率模型平均.例如:Buckland等7]在基于AIC和BIC信息準則的基礎(chǔ)上,提出了光滑的AIC(S-AIC)和光滑的BIC(S-BIC)模型平均方法;Hjort等考慮了建模偏差,在極大似然估計的框架下證明了頻率模型平均的漸近性;Hansen提出了基于Mallows準則的權(quán)重選擇方法,從組合嵌套模型中獲得最小二乘估計值;Deng等10]引入了一個新的模型選擇標準,即FIC(focused informationcriterion);朱容等研究了部分函數(shù)線性模型的模型平均方法,提出了該模型下最優(yōu)權(quán)重的選擇準則,并證明了模型平均估計量的漸近最優(yōu)性.
上述模型平均方法均假設個體協(xié)變量都是完全觀測到的,而近年來碎片數(shù)據(jù)應用越來越廣泛,其主要特征是并非每個個體都有相同的協(xié)變量.這種碎片數(shù)據(jù)在統(tǒng)計學中也稱為分塊缺失數(shù)據(jù)[2].處理這類數(shù)據(jù)最簡單的方法是刪除所有具有缺失值的樣本,但這會丟棄大量有用的信息并極大減少分析中的樣本數(shù)量.因此,研究者們提出了各種插補方法,通過可用數(shù)據(jù)估計缺失值[13-15],Lin等[16]提出了迭代最小二乘估計(ILSE),用于估計有個體特定缺失模式和高比例缺失數(shù)據(jù)的回歸系數(shù).Fang等研究表明,碎片數(shù)據(jù)中并非所有抽樣對象都有相同的預測變量,并提出了一種基于頻率模型平均的新方法;Yuan等[18]基于這類碎片數(shù)據(jù)為經(jīng)典Mallows模型平均(MMA)中的Mallows準則引入了偏差,提出了一種新的Mallows模型平均方法,并將該方法從線性回歸模型推廣到廣義線性模型[9],基于上述研究結(jié)果,本文考慮在帶有碎片協(xié)變量右刪失數(shù)據(jù)的框架下,使用基于信息準則的模型平均方法對比例風險模型進行統(tǒng)計推斷,以避免選擇單一模型產(chǎn)生的誤差,并為帶碎片協(xié)變量刪失數(shù)據(jù)的分析開辟一個新思路.
1數(shù)據(jù)、模型及似然函數(shù)
本文主要考慮帶有碎片協(xié)變量的右刪失數(shù)據(jù),其示例列于表1.隨機樣本由n個受試者組成,T為生存時間,在生存分析中假設刪失時間為C,T和C是獨立的連續(xù)隨機變量.記T為個體i的生存時間,C為個體i的刪失時間.個體觀測時間T=min{T,C},8=I(T≤C)是示性變量,6=1表示精確觀測,否則為右刪失.D={X,j=1,2,··,p}表示協(xié)變量集.響應指標R={1,2,·,K},其中R=k(k=1,2,·,K)表示可觀察到協(xié)變量{X,j∈△},△是D={1,2,··,p}的子集,K是所有響應變量類型的個數(shù).
表1中有K=4種響應模式,令D為受試者i觀察到的協(xié)變量集合,則
以此類推.={i:D1=△}表示具有響應模式R=k的個體集,因此{1.2.,n}=,且當k≠l時,=O.S={:D1△}表示可用協(xié)變量△的個體集,表1中,
本文考慮帶碎片協(xié)變量右刪失數(shù)據(jù)下的比例風險模型:
其中i=1,2,·,n,ho(t)表示任意的基準風險率,h(t|X1)表示第i個個體t時刻的風險率,β為p維未知參數(shù)向量.
假設事件發(fā)生時間內(nèi)不存在“結(jié)”,將患者的生存時間按增長的順序排列:t1lt;t2lt;..lt;t,定義時間t1時的風險集R(t1)為{j:t≥t1},它表示在t;時刻前仍處于研究中所有個體的集合,d;表示在t1時刻失效的個體數(shù).則模型(1)對應的生存函數(shù)為
其中
進一步,若R(t;)中的某個個體在t;時刻死亡,則具有協(xié)變量X1的個體在t;時刻死亡的條件概率為
右刪失數(shù)據(jù)下的偏似然函數(shù)為
對數(shù)似然函數(shù)為
其中β為未知參數(shù).對β求偏導數(shù):
由非線性方程)0可得的大似然估計
下面基于S-AIC(smoothed AIC)和S-BIC(smoothed BIC)的模型平均方法分別對包含所有協(xié)變量的個體(R=1)和包含部分協(xié)變量的個體(Rgt;1)進行預測.
2對R=1的個體進行預測
在帯有碎片協(xié)變量的右刪失數(shù)據(jù)2={(xr,6),i=1,2.……n,j∈D}下對包含所有協(xié)變量的個體(R=1)進行預測,其中x,r分別表示對變量X1和響應模式R的觀測值,D;表示第i個個體觀察到的協(xié)變量集合.對R=1的個體,考慮K個候選模型(即所有響應變量類型的個數(shù)),第k個候選模型為
其中k=1,2,……,K表示候選模型的個數(shù),B表示第k個候選模型中協(xié)變量的回歸系數(shù),X=(xy:iES,jEA)ER“XP,且n=”S“表示某種類型響應變量可用的個體數(shù),p=”△|表示某種類型響應變量包含的協(xié)變量個數(shù).則第k個候選模型下的對數(shù)似然函數(shù)為
再通過極大化對數(shù)似然函數(shù)獲得B=(,,……,B),得到每個候選模型下的對數(shù)似然函數(shù)估計值為
其中xi=(x:iEξ,jEΔ).
實踐中的建模策略是首先基于信息標準從K個候選模型中選擇一個最合適的模型,然后使用選擇的模型推斷潛在的生存函數(shù).在模型選擇中,最常用的是AIC和BIC準則,其表達式分別為
其中2.表示模型k的極大似然函數(shù)估計值,M,表示模型k中未知參數(shù)的個數(shù).根據(jù)AIC,值和BIC值分別對所有模型進行排序,最小的AIC,值和BIC,值所對應的模型即為最優(yōu)模型.
使用模型選擇方法可能會遺失一些重要信息,導致模型預測結(jié)果不準確,為解決該問題,本文選用模型平均的方法得到參數(shù)估計值,然后采用基于S-AIC和S-BIC的模型平均方法計算組合權(quán)重:
其中k表示第k個候選模型,c是模型平均中第k個候選模型的權(quán)重,xIC表示AIC或BIC.設ω=(ω),……,ωK)T是K個模型的權(quán)重向量,并限制在如下集合中:
其中v表示K個模型的權(quán)重向量集合,則模型平均后參數(shù)β的估計值為
3對Rgt;1的個體進行預測
下面考慮對包含部分協(xié)變量的個體(R=1)進行預測,即D\"=△,此時可用的協(xié)變量為(X,,jEA,),并將不屬于△,的協(xié)變量除外,在基于(X,,jEA)協(xié)變量的基礎(chǔ)上進行模型平均.
為驗證本文方法,考慮對表1中R=2的個體進行預測,此時可用的協(xié)變量為D*=(X1,X2,X3,X4,Xs),模型平均過程中將不屬于△2的協(xié)變量除外,因此產(chǎn)生一個新的碎片數(shù)據(jù)2(2)如表2所示.表2中,
因此當對R=2的個體進行預測時,考慮K2)=3個候選模型,第k個候選模型可用的協(xié)變量為{x:iES2),jEΔ2)},其中
下面在給定碎片數(shù)據(jù)Q0=1(x,r,8),i=1,2,……,n,jEDP)下對R=1的個體進行預測,其中D表示第;個個體所觀察到協(xié)變量△,的集合.對R=1的個體,考慮K0個候選模型,第k個候選模型所用的協(xié)變量為x=(xg:iES,jE△)ERPxPP,其中SP=(i:D①2△P),n=“S”表示某種類型的響應變量可用的個體數(shù),p=“△”表示某種類型的響應變量包含的協(xié)變量個數(shù).先用極大似然法得到第k個候選模型的參數(shù)估計值B,然后針對R=l的個體得到各候選模型下的對數(shù)似然函數(shù)值為
其中x=(x:i∈5,j∈)
下面采用基于S-AIC和S-BIC的模型平均方法計算組合權(quán)重:
其中w表示對R=l的個體進行預測時第k個候選模型的權(quán)重,k表示第k個候選模型,xIC表示AIC或BIC.設の=(……o)是K個模型的權(quán)重向量,并限制在如下集合中
則模型平均后參數(shù)βD的估計值為
4模擬研究
下面用模擬研究驗證模型平均方法的有效性,并將其與模型選擇方法進行比較.數(shù)據(jù)T由以下模型生成:
其中i∈En,n=||表示某種類型響應變量包含的個體數(shù),基準風險函數(shù)設為h。(t)=0.04t,j∈△k,pA=“△”表示某種類型響應變量包含的協(xié)變量數(shù),這里考慮共有8個協(xié)變量,即j=8,且變量(xn,x,·,x)由E(x)=0,Var(x)=1的標準正態(tài)分布生成.本文考慮3種情形,在每種情形下8個協(xié)變量均分成4組,則K=8,并對每種類型的個體分別進行預測.令C服從均勻分布U~(0,c),其中c控制刪失率,在樣本量為300和600的條件下令刪失比例分別約為10%和45%,模擬循環(huán)1000次.
情形1)僅包含1個必選協(xié)變量.第一組包含的協(xié)變量僅有變量X1,并始終可用,第二組包含的協(xié)變量為X2,X3,第三組包含的協(xié)變量為X4,X5,第四組包含的協(xié)變量為X6,X7,X8.當X2lt;0.3,X4lt;0.3,Xglt;0.3時,第二、三、四組包含的協(xié)變量分別可用.必選協(xié)變量的參數(shù)真值均設為0.4,其他候選協(xié)變量的參數(shù)真值均設為0.1.
情形2)包含2個必選協(xié)變量.第s組包含的協(xié)變量為X2(-1)+1~X23(5=1,2,3,4),第一組協(xié)變量始終可用.當X3lt;0.3,X3lt;0.3,X7lt;0.3時,第二、三、四組包含的協(xié)變量分別可用.必選協(xié)變量的參數(shù)真值均設為0.4,其他候選協(xié)變量的參數(shù)真值均設為0.1.
情形3)包含3個必選協(xié)變量.第一組包含的協(xié)變量為X1,X2,X3,并始終可用,第二組包含的協(xié)變量為X4,X5,第三組包含的協(xié)變量為Xg,X2,第四組包含的協(xié)變量為Xg.當X4lt;0.3,Xlt;0.3,X3lt;0.3時,第二、三、四組包含的協(xié)變量分別可用.必選協(xié)變量的參數(shù)真值均設為0.4,其他候選協(xié)變量的參數(shù)真值設為0.1,0.1,0.1,-0.1,0.2.
在模擬研究中,先分別計算每種情形下各候選模型的AIC和BIC值,并利用S-AIC和S-BIC法計算每種情形下各候選模型的權(quán)重,再計算模擬循環(huán)1000次后不同方法感興趣指標的均方根誤差(root mean squared error,RMSE),即
其中K①表示對第1個個體進行預測時候選模型的個數(shù),表示第1個個體第j次循環(huán)中感興趣參數(shù)的估計值,表示第1個個體第j次循環(huán)中感興趣參數(shù)的真值,表示對第1個個體進行預測時第k個候選模型第j次循環(huán)的權(quán)重.
本文主要考慮兩個指標:估計協(xié)變量參數(shù)的歐氏距離‖a‖=√+··+和當協(xié)變量為0.2、時間為5時的生存概率S(·)={S0(t)}(x).最終模擬結(jié)果分別列于表3~表5.
表3~表5分別列出了4種方法S-AIC,S-BIC,AIC,BIC對不同類型個體的預測結(jié)果,由于對3種情形中第8種類型的個體進行預測時,候選模型的個數(shù)均僅有一個,無法體現(xiàn)模型平均方法的優(yōu)勢,因此在模擬中不考慮對這類個體的預測.其中,S-AIC和S-BIC為模型平均方法,AIC和BIC為模型選擇方法.由表3~表5可得以下結(jié)論:
1)無論哪種情形,基于S-AIC和S-BIC模型平均方法的RMSE值在大多數(shù)情況下都比模型選擇方法的RMSE值小,說明S-AIC和S-BIC的模型平均方法優(yōu)于基于AIC和BIC的模型選擇方法.
2)由模擬結(jié)果可見,S-AIC比S-BIC的RMSE值普遍小,表明基于S-AIC的模型平均方法優(yōu)于基于S-BIC的模型平均方法.
3)當樣本量不變,增加刪失比時,基于模型平均和模型選擇方法兩種指標下的RMSE值在大多數(shù)情況下有一定幅度的增大,而當刪失比不變,增加樣本量時,上述4種方法下各指標的RMSE值基本都逐漸減小,表明參數(shù)估計值更接近真值,不同類型個體的生存概率預測值也更接近真實的生存概率值,說明這4種方法隨著樣本量的增加估計效果都變得更好,估計精度均有提高.
模擬結(jié)果表明,無論在哪種情形下,基于S-AIC和S-BIC的模型平均方法均比基于AIC和BIC的模型選擇方法更有優(yōu)勢,這主要是因為模型平均方法考慮了所有協(xié)變量的信息,避免了模型選擇過程帶來的不確定性.
5實例分析
下面利用Schumacher等[20]分析的乳腺癌數(shù)據(jù)集進行實例分析,以進一步驗證模型平均方法相比于模型選擇方法的優(yōu)越性.該數(shù)據(jù)來自一項原發(fā)性乳腺癌實驗:從1984年7月到1989年12月,德國乳腺癌研究組(German breast cancer study group,GBSG)招募了686例原發(fā)性淋巴結(jié)陽性乳腺癌患者,以研究乳腺癌的治療和臨床試驗中的重要預后因素.
該數(shù)據(jù)集可在R軟件survival包中找到,原始數(shù)據(jù)集中共有686名患者,10個變量分別為rfstime(患者的生存時間)、status(生存狀態(tài))、age(年齡)、meno(更年期狀態(tài),0表示更年期前,1表示更年期后)、tsize(腫瘤大小/mm)、tgrade(腫瘤水平因子,水平1lt;水平2lt;水平3)、pnodes(正節(jié)點個數(shù))、pgr(孕酮受體個數(shù))、er(雌激素受體個數(shù))、horTH(是否進行激素治療).本文考慮其中8個變量(age,meno,tsize,tgrade,pnodes,pgr,er,horTH)預后因素的相對重要性.結(jié)合文獻[20]的研究發(fā)現(xiàn),pnodes,pgr,horTH3個變量對乳腺癌疾病有重要影響,因此本文將上述變量作為必選協(xié)變量,并對連續(xù)性變量(age,tsize,pnodes,pgr,er)進行標準化處理.同時,考慮到原始數(shù)據(jù)集中不存在任何缺失值,因此設置隨機數(shù)種子并選擇隨機刪除部分數(shù)據(jù)使其變得碎片化,缺失率為40%,最終產(chǎn)生25=32個候選模型.
本文主要對D=(age,meno,tsize,tgrade,pnodes,pgr,er,horTH)的個體進行分析,分別用S-AIC,S-BIC,AIC和BIC方法計算每個變量的系數(shù)估計值及其置信水平為95%的置信區(qū)間,由于在模型選擇過程中AIC和BIC均選擇了同一個候選模型,因此將這兩種方法的結(jié)果合并在同一列中,所得結(jié)果列于表6.
由表6可見:變量pnodes系數(shù)估計值較大,表明正節(jié)點數(shù)與乳腺癌的發(fā)生呈正相關(guān),即正節(jié)點數(shù)越多,患乳腺癌的風險越大;變量pgr和horTH的系數(shù)估計值為負值,表明孕酮受體個數(shù)越多患乳腺癌的可能性越小,接受激素治療也可降低患乳腺癌的風險,這與Sauerbrei等[21]的研究結(jié)果一致.此外,Sauerbrei等[21]和Royston等[22]的研究充分肯定了變量age,meno,tsize,tgrade,er對患者患乳腺癌風險的影響.Sauerbrei等[21]指出40歲前,患者年齡越小,患乳腺癌的風險越高,同時,腫瘤越大,腫瘤水平越高,患乳腺癌的可能性也越大.Royston等[22]研究表明,患者處在更年期或者雌激素受體個數(shù)越少時患乳腺癌的風險也越高.而在基于AIC和BIC的模型選擇過程中均不包括變量age,meno,tsize,tgrade,er,說明模型選擇過程中遺失了重要信息的影響.
為比較4種方法AIC,BIC,S-AIC和S-BIC的預測性能,本文從每種類型的個體中分別依次隨機抽取75%,80%,85%的個體,將其組合成訓練數(shù)據(jù)進行模型擬合,再利用極大似然估計方法對未知參數(shù)進行估計.將剩余個體作為測試數(shù)據(jù)進行預測,其中訓練集數(shù)據(jù)的樣本量設為n。,所占比例為π,則測試集的樣本量為n-n,所占比例為1-π,n為整體樣本量.然后,使用基于信息準則的模型選擇和模型平均方法對D=(age,meno,tsize,tgrade,pnodes,pgr,er,horTH)的個體生存概率進行預測,對該過程循環(huán)500次,并計算生存概率預測值的均值、中位數(shù)和標準差,結(jié)果列于表7.
由表7可見,隨著訓練集樣本量的增加,基于模型平均方法預測得到的患者生存概率值標準差低于基于模型選擇方法得到的生存概率值標準差,其中基于S-AIC的模型平均方法小于基于S-BIC的模型平均方法預測得到的生存概率值標準差,表明基于S-AIC的模型平均方法預測結(jié)果更穩(wěn)健.這主要是因為模型平均方法考慮了所有變量信息,而模型選擇方法只考慮了部分變量信息.因此,基于S-AIC和S-BIC的模型平均方法估計穩(wěn)健性更強.
綜上,本文主要研究了帶有碎片協(xié)變量的右刪失數(shù)據(jù)下比例風險模型的模型平均方法,先使用極大似然估計法對模型中的未知參數(shù)進行估計,再使用基于信息準則的模型平均方法對候選模型的權(quán)重進行計算.模擬和實例研究結(jié)果表明,基于S-AIC和S-BIC的模型平均方法普遍優(yōu)于基于S-AIC和S-BIC的模型選擇方法,其中S-AIC方法估計效果更好,這主要是因為模型平均考慮了所有變量的信息,而模型選擇只考慮了部分協(xié)變量的影響。在傳統(tǒng)的模型平均方法中,一般在樣本量相同的情況下根據(jù)協(xié)變量的個數(shù)構(gòu)建候選模型,而本文提出的方法各候選模型在參數(shù)估計時使用不同的樣本量,且候選模型的個數(shù)依賴響應變量類型的個數(shù),同時對每種類型的個體分別進行預測,當個體類型數(shù)較多時,可能使計算更復雜.
參考文獻
[1]COX D R.Regression Models and Life-Tables[J].Journal of the Royal Statistical Society:Series B(Methodological),1972,34(2):187-202.
[2]GENTLEMAN R,CROWLEY J.Local Full Likelihood Estimation for the Proportional Hazards Model[J].Biometrics,1991,47(4):1283-1296.
[3] GU C.Penalized Likelihood Hazard Estimation:A General Procedure[J].Statistica Sinica,1996,6(4):861-876.
[4]FAN J Q,GIJBELS I,KING M.Local Likelihood and Local Partial Likelihood in Hazard Regression[J].The Annals of Statistics,1997,25(4):1661-1690.
[5] SLEEPER L A,HARRINGTON D P.Regression Splines in the Cox Model with Application to Covariate Effects in Liver Disease[J].Journal of the American Statistical Association,1990,85:941-949.
[6]張新雨,鄒國華.模型平均方法及其在預測中的應用[J].統(tǒng)計研究,2011,28(6):97-102.(ZHANGXY,ZOU G H.Model Averaging Method and Its Application in Forecast[J].Statistical Research,2011,28(6):97-102.)
[7]BUCKLAND S T,BURNHAM K P.AUGUSTIN N H.ModelSelection:An Integral Part of Inference[J].Biometrics,1997,53(2):603-618.
[8]HJORT N L,CLAESKENS G.Frequentist Model Average Estimators[J].Journal of the American Statistical Association,2003,98:879-899.
[9]HANSEN B E.Least Squares Model Averaging[J].Econometrica,2007,75(4):1175-1189.
[10]DENG G H,LIANG H.Model Averaging for Semiparametric Additive Partial Linear Models[J].Science China Mathematics,2010,53(5):1363-1376.
[11]朱容,鄒國華,張新雨,部分函數(shù)線性模型的模型平均方法[J].系統(tǒng)科學與數(shù)學,2018,38(7):777-800.(ZHU R,ZOU G H,ZHANG X Y.Optimal Model Averaging Estimation for Partial Functional Linear Models[J].Journal of Systems Science and Mathematical Sciences,2018,38(7):777-800.)
[12]FANG F.BAO S L.FragmGAN:Generative Adversarial Nets for Fragmentary Data Imputation and Prediction[J].Statistical Theory and Related Fields,2024,8(1):15-28.
[13]SCHNEIDER T.Analysis of Incomplete Climate Data:Estimation of Mean Values and Covariance Matrices and Imputation of Missing Values[J].Journal of Climate,2001,14(5):853-871.
[14]SCHOTT J M,BARTLETT J W,BARNES J,etal.Reduced Sample Sizes for Atrophy Outcomes in Alzheimer's Disease Trials:Baseline Adjustment[J].Neurobiology of Aging,2010,31(8):1452-1462.
[15]ZHU X F.ZHANG S C,JIN Z,etal.Missing Value Estimation for Mixed-Attribute Data Sets[J].IEEE Transactions on Knowledge and Data Engineering,2010,23(1):110-121.
[16]LIN H Z,LIU W,LAN W.Regression Analysis with Individual-Specific Patterns of Missing Covariates[J].Journal of Businessamp;Economic Statistics,2021,39(1):179-188.
[17]FANG F.LAN W,TONG J J.et al.Model Averaging for Prediction with Fragmentary Data[J].Journal of Business Economic Statistics,2019,37(3):517-527.
[18]YUAN C X,F(xiàn)ANG F,NI L.Mallows Model Averaging with Effective Model Size in Fragmentary Data Prediction[J].Computational Statisticsamp;.Data Analysis,2022,173(9):107497-1-107497-18.
[19]YUAN C X.WU Y,F(xiàn)ANG F.Model Averaging for Generalized Linear Models in Frag mentary Data Prediction[J].Statistical Theory and Related Fields,2022,6(4):344-352.
[20]SCHUMACHER M,BASTERT G,BOJAR H,etal.Randomized 2X2 Trial Evaluating Hormonal Treatment and the Duration of Chemotherapy in Node-Positive Breast Cancer Patients.German Breast Cancer Study Group[J].Journal of Clinical Oncology,1994,12(10):2086-2093.
[21]SAUERBREI W,ROYSTON P,BOJAR H,etal.Modelling the Effects of Standard Prognostic Factors in Node-Positive Breast Cancer[J].British Journal of Cancer,1999,79(11/12):1752-1760.
[22]ROYSTON P.ALTMAN D G.External Validation of a Cox Prognostic Model:Principles and Methods[J].BMC Medical Research Methodology,2013,13:31-1-31-15.
(責任編輯:李琦)