單得志 楊 柳 梁 英 張海悅 張玉海 尚 磊△ 譚志軍△
【提 要】 目的 比較復雜抽樣條件下不同傾向評分匹配法的EQ-5D代答效應估計效果。方法 基于2013年度陜西省衛(wèi)生健康服務調(diào)查中EQ-5D量表的測量數(shù)據(jù),構(gòu)建單因素、多因素、復雜抽樣分析及不同PSM法,對EQ-5D量表的5個維度、VAS及EQ-5D得分的代答效應進行估計,比較代答者相對于自答者在EQ-5D維度報告健康問題的優(yōu)勢比及VAS和EQ-5D得分的差異。結(jié)果 代答人群和自答人群在人口學特征、健康行為等方面存在較大差異。六種方法估計的維度代答效應(OR值)分別為:MO(1.470、1.611、1.732、1.573、1.606、1.533),SC(2.174、2.253、2.490、2.266、2.245、2.171),UA(1.819、1.916、2.050、1.864、1.897、1.777),PD(0.898、1.162、1.178、1.177、1.189、1.093),AS(1.135、1.379、1.377、1.480、1.468、1.372),EQ-5D VAS(0.666、-1.524、-1.298、-1.509、-1.550、-1.326),EQ-5D得分(-0.014、-0.023、-0.016、-0.023、-0.023、-0.017)。結(jié)論 代答者有將被代答者健康問題嚴重化的傾向。大樣本調(diào)查中,只要混雜因素能夠均衡,PS估計階段是否考慮抽樣權(quán)重不影響效應估計結(jié)果,但效應估計階段需要考慮抽樣權(quán)重。復雜抽樣多因素分析需要考慮群效應,否則將低估抽樣誤差。
傳統(tǒng)的傾向評分(propensity score,PS)法假設數(shù)據(jù)來源于完全隨機樣本[1]。復雜抽樣調(diào)查(complex survey,CS)通常采用分層、整群、不等概率和多階段等相結(jié)合的抽樣設計方法,為PS法在復雜抽樣調(diào)查數(shù)據(jù)中的應用帶來了諸多挑戰(zhàn)[2-3]。文獻回顧顯示,CS-PS法研究主要關(guān)注抽樣權(quán)重和群效應兩個因素的影響,即PS估計和效應估計兩個階段是否需要考慮和如何考慮權(quán)重以及群效應[4]。目前的研究并未在這兩個問題上形成一致結(jié)論。前期,我們基于陜西省國家衛(wèi)生服務調(diào)查數(shù)據(jù),采用多因素回歸和傳統(tǒng)的傾向評分匹配法,發(fā)現(xiàn)代答(proxy response)會顯著影響EQ-5D量表的報告結(jié)果[5-7]。由于陜西省國家衛(wèi)生服務調(diào)查采用了復雜抽樣設計,前期結(jié)果需要通過CS-PSM法進一步驗證。為此,本文構(gòu)建了3種傾向評分法分析策略和3種傳統(tǒng)分析策略,通過比較不同傾向評分法和不同傳統(tǒng)分析法的結(jié)果,為傾向評分法在復雜抽樣調(diào)查數(shù)據(jù)中的應用提供參考。
1.數(shù)據(jù)來源
數(shù)據(jù)來源于2013年陜西省國家衛(wèi)生服務調(diào)查(National Health Service Survey,NHSS),該調(diào)查采用分層、多階段、整群、不等概率抽樣方法,共抽取了32個樣本縣區(qū)、160個鄉(xiāng)鎮(zhèn)/街道、320個村/居委會、20702戶,共57532名調(diào)查對象。經(jīng)過缺失數(shù)據(jù)、不合格數(shù)據(jù)整理剔除12196名參與者后,本研究納入45336例調(diào)查對象進行分析。
2.EQ-5D量表及轉(zhuǎn)換
EQ-5D量表的內(nèi)容見表1。為了便于分析,將EQ-5D量表中的各維度三水平結(jié)果轉(zhuǎn)換為兩水平結(jié)果。EQ-5D得分采用日本標準權(quán)重計算[8]。
表1 EQ-5D量表內(nèi)容及重分類
3.混雜因素
調(diào)查表中包含13個混雜因素:是否為戶主、年齡、性別、婚姻狀況、文化程度、就業(yè)情況、吸煙情況、喝酒情況、體育鍛煉情況、是否患慢性病、前兩周患病情況、住院情況等。
4.統(tǒng)計分析方法
(1)抽樣權(quán)重計算方法
觀察個體的抽樣概率π的倒數(shù)應該為該個體的抽樣權(quán)重w,即w=1/π。陜西省第五次國家衛(wèi)生服務調(diào)查個體的基礎(chǔ)抽樣權(quán)重可用公式計算:
wbase=w縣區(qū)×w鄉(xiāng)鎮(zhèn)/街道|縣區(qū)×w村/居委會|鄉(xiāng)鎮(zhèn)/街道×w戶|村/居委會
上式中,w縣區(qū)為縣區(qū)的抽樣權(quán)重,w鄉(xiāng)鎮(zhèn)/街道|縣區(qū)為樣本縣區(qū)中鄉(xiāng)鎮(zhèn)/街道的權(quán)重,w村/居委會|鄉(xiāng)鎮(zhèn)/街道為樣本鄉(xiāng)鎮(zhèn)/街道中村/居委會的抽樣權(quán)重,w戶|村/居委會為樣本村/居委會中戶的抽樣權(quán)重[9]。
(2)分析方法
方法1:單因素回歸分析法(SL法),以是否代答為自變量,以EQ-5D量表中的每個維度或EQ-5D VAS和EQ-5D Score為應變量,構(gòu)建單因素效應分析模型。
方法2:多因素回歸分析法(ML法),以EQ-5D量表中的每個維度或EQ-5D VAS和EQ-5D Score為應變量,以是否代答為自變量,是否為戶主、年齡、性別、婚姻狀況、文化程度、就業(yè)情況、吸煙情況、喝酒情況、體育鍛煉情況、是否患慢性病、前兩周患病情況、住院情況等13個混雜因素為協(xié)變量,構(gòu)建logistic回歸模型和一般線性模型。
方法3:復雜抽樣多因素回歸分析法(CS法),回歸模型模型中的應變量、自變量和協(xié)變量與方法2相同,用SAS軟件中的Surveylogistic過程和Surveyreg過程構(gòu)建模型,模型中考慮抽樣權(quán)重和群效應。
方法4、5、6為傾向評分匹配方法。方法4(PSM法)為傳統(tǒng)傾向評分匹配法,PS計算采用多因素logistic回歸模型,效應估計采用單因素logistic回歸模型和一般線性模型。方法5(CS-PSM1法)的PS計算采用抽樣權(quán)重加權(quán)的多因素logistic回歸模型,效應估計方法與方法4相同。方法6(CS-PSM2)的PS計算采用抽樣權(quán)重加權(quán)的多因素logistic回歸模型,效應估計采用抽樣權(quán)重加權(quán)的單因素logistic回歸模型和線性回歸模型。以上三種方法均采用應用最廣泛的最鄰近匹配法,綜合考慮兩組和樣本量和匹配效率選擇1∶2進行匹配,卡鉗范圍設置為0.2。
上述效應分析的模型中,均以代答標識變量為自變量且以“自答”為參照水平,logistic模型的OR值大于1、一般線性模型或回歸模型的系數(shù)估計值小于0,表示代答會降低EQ-5D的報告結(jié)果,反之表示代答會提高EQ-5D的報告結(jié)果。
(3)均衡性評價方法
由于研究樣本為大型觀察性研究樣本,運用標準化差異(standardized mean difference,SMD)比較傾向評分匹配前和兩種傾向評分匹配后協(xié)變量在處理因素中的均衡性,按照文獻標準,以SMD=0.1為界限,當SMD<0.1時,表明協(xié)變量在處理變量中均衡,否則表明不均衡[10]。
運用SAS 9.4 m5統(tǒng)計分析軟件進行統(tǒng)計分析,并運用此軟件執(zhí)行Psmatch、logistic回歸、Surveylogistic回歸和Surveyreg回歸等過程。
1.代答與自答人群特征
代答與自答人群的特征見表2。與自答人群相比,代答人群中的非戶主、年輕、未婚、在校學生、較高文化程度的人群占比較高。此外,代答人群的健康行為明顯比自答人群要好,表現(xiàn)為吸煙、飲酒的比例更低,而體育鍛煉頻率更高。同時,代答人群在健康狀況方面表現(xiàn)較好,患慢性病、前兩周患病和住院比例相對較低。
表2 自答和代答人群特征[n(%)]
2.自答與代答人群EQ-5D自報健康情況比較
在EQ-5D量表的五個維度中,代答人群在MO、SC、UA、AS等四個維度自報有健康問題的占比高于自答人群,EQ-5D VAS維度自報健康評分較高;而在PD維度中自報有疼痛的相對占比較低,EQ-5D Score得分也略低。
表3 EQ-5D自報指標在自答和代答人群中分布情況比較[n(%)]
3.兩種傾向評分匹配的組間均衡性評價結(jié)果
表4顯示,傾向評分匹配前,在是否為戶主、婚姻情況中已婚、年齡中45歲~64歲階段、就業(yè)情況中在校學生等方面SMD>0.1,表明在以上方面代答組與自答組不均衡,經(jīng)過傾向評分匹配后,僅有婚姻狀況中已婚情況的尚未得到均衡。在傾向評分過程中考慮抽樣權(quán)重后,同樣僅有婚姻狀況中已婚情況尚未得到均衡。同時,在SMD>0.05的協(xié)變量中,經(jīng)過傾向評分匹配后,均SMD<0.05。
表4 傾向評分匹配前、傾向評分匹配后、加權(quán)傾向評分匹配后均衡性比較
4.代答效應估計結(jié)果
圖1和圖2分別為6種方法得到的EQ-5D維度和評分的代答效應估計結(jié)果。單因素效應分析結(jié)果顯示,EQ-5D各維度及評分的代答效應的方向并不一致。其他五種方法效應估計結(jié)果可以看出,代答效應分析結(jié)果在分類的五個維度中OR值均大于1,在EQ-5D VAS和EQ-5D SCORE中方向一致,點估計結(jié)果相似,但在可信區(qū)間范圍中,CS方法的范圍明顯比其他方法更寬。而PSM法分析結(jié)果和CS-PSM1分析結(jié)果基本一致。
圖1 EQ-5D五個分類維度OR值估計結(jié)果
圖2 VAS、EQ-5D Score維度回歸系數(shù)估計結(jié)果
本研究結(jié)果顯示,多因素方法和傾向評分匹配法較好地校正了混雜因素,同時考慮了復雜抽樣特征,獲得了較為準確的代答效應估計結(jié)果,發(fā)現(xiàn)代答者有將被代答者健康問題嚴重化的傾向。
1.不同傾向評分匹配方法的均衡性比較
不同的傾向評分匹配方法均能較好地均衡混雜因素。匹配前有4個協(xié)變量的SMD>0.1,6個協(xié)變量SMD在0.05~0.1之間,匹配后,4個SMD>0.1的協(xié)變量均衡了3個,剩余1個也接近0.1,而6個SMD>0.05的協(xié)變量SMD也降到0.05以下,其他混雜因素的SMD均有不同程度的下降。通過比較PSM和CS-PSM1匹配后各協(xié)變量的SMD,發(fā)現(xiàn)在傾向評分匹配過程中,是否考慮抽樣權(quán)對均衡性的影響并不大。這與Lenis等研究者的研究結(jié)論一致[11]。
2.不同效應估計方法的代答效應比較
(1)單因素方法的代答效應估計不夠準確。EQ-5D 的五個維度估計結(jié)果顯示,PD與MO、SC、UA、AS的代答效應方向相反,VAS與EQ-5D得分的代答效應方向相反。這種內(nèi)部的不一致性,反映出單因素方法未校正混雜因素、未考慮復雜抽樣特征,估計結(jié)果存在較大偏倚,說明復雜抽樣調(diào)查數(shù)據(jù)分析中,一方面需要校正較多的混雜因素,另一方面需要考慮復雜抽樣特征,否則分析結(jié)果出現(xiàn)偏差的幾率將會上升。
(2)傾向評分估計階段是否納入抽樣權(quán)重,對效應估計結(jié)果的影響不大,但效應估計階段不納入抽樣權(quán)重可能會導致很大的效應估計偏差[11]。PSM、CS-PSM1兩種效應分析結(jié)果顯示,兩種效應分析法的代答效應點估計和回歸系數(shù)并無太大差別,而CS-PSM1、CS-PSM2兩種效應分析結(jié)果顯示,兩種效應的點估計和回歸系數(shù)有差別,表明混雜因素的均衡并不意味著權(quán)重的均衡,權(quán)重納入效應估計模型后提升了代答效應的估計精度。
(3)群效應影響效應估計的置信區(qū)間。CS法考慮了抽樣權(quán)重和群效應,其效應估計值的95%置信區(qū)間明顯要比其他方法寬,提示如采用復雜抽樣多因素分析方法,應該考慮群效應,否則將低估模型參數(shù)的變異程度。本研究的匹配方法允許跨群匹配,匹配后群聚集的特征將會被打破,因此效應估計階段無需考慮群效應。采用群內(nèi)匹配的方法,并在效應估計階段考慮群效應是否會增大模型參數(shù)的變異度,還有待進一步研究。
3.代答效應偏倚的意義及應對措施建議
國家衛(wèi)生服務調(diào)查(NHSS)的代答率約為20%,如不考慮代答效應,分析結(jié)果可能存在較大的偏倚。對于如何控制代答效應產(chǎn)生偏倚,有以下兩點建議:(1)嚴格代答機制的觸發(fā)條件。在調(diào)查期間,如果受調(diào)查人員不滿足代答條件,可以運用電子版調(diào)查表、調(diào)查app等手段完成調(diào)查任務。(2)統(tǒng)計分析方法控制偏倚。將是否代答作為混雜因素納入分析模型,從而做到控制偏倚的效果[12]。