胡晶 劉衛(wèi)紅 張會娜
摘要 中醫(yī)藥治療效果需要科學(xué)的評價方法彰顯。當(dāng)前單指標(biāo)評價法不足以全面體現(xiàn)中醫(yī)藥治療優(yōu)勢,“病證結(jié)合”的多主要終點(diǎn)評價法為全面客觀顯示中醫(yī)藥療效提供可能。盡管近年來多主要終點(diǎn)評價在統(tǒng)計學(xué)方法領(lǐng)域上有較大發(fā)展,但在其方法選擇、樣本量計算、統(tǒng)計軟件使用等方面仍有很多挑戰(zhàn)。因此本文對幾種多主要終點(diǎn)評價方法進(jìn)行介紹,以期指導(dǎo)中醫(yī)藥臨床研究者正確選擇和使用多主要終點(diǎn)評價法,為全面評價中醫(yī)藥特色與優(yōu)勢提供方法學(xué)支撐。
關(guān)鍵詞 病證結(jié)合;多主要終點(diǎn);隨機(jī)對照試驗;中醫(yī)藥
Abstract The development of a scientific evaluation tool is a prerequisite to reflect the efficacy of traditional Chinese medicine (TCM). At present, separate analysis of each outcome is the most commonly used method in randomized controlled trials (RCTs) of TCM, while this method has been reported to have some limitations. Evaluation of multiple primary endpoints which include diseases and symptoms outcomes can reflect the effectiveness of TCM comprehensively and objectively. In recent years, despite the great development of multiple primary endpoints in the field of statistical methods, there are still some challenges in choosing methods, calculating sample size and employing statistical software. In this article, we introduced several multiple primary endpoints evaluation methods, in the expectation of appropriate use of those methods by TCM researchers as well as methodological support for comprehensive assessment of the characteristics and advantages of TCM.
Key Words Combination of diseases and syndromes; Multiple primary endpoints; Randomized controlled trials; Traditional Chinese medicine
中圖分類號:R241文獻(xiàn)標(biāo)識碼:Adoi:10.3969/j.issn.1673-7202.2017.06.002
隨機(jī)對照試驗(Randomized Controlled Trials,RCTs)是目前被國際上公認(rèn)為評價臨床干預(yù)措施有效性的金標(biāo)準(zhǔn)。自1983年第1篇中醫(yī)藥RCT報告以來[1],RCTs方法已廣泛運(yùn)用于評價中醫(yī)藥臨床療效,但隨著RCTs在中醫(yī)藥領(lǐng)域的應(yīng)用,其局限性也逐漸暴露出來,而缺乏能達(dá)成中西醫(yī)共識的療效評價方法更是成為制約中醫(yī)藥國際化進(jìn)程的重要瓶頸。近年來圍繞這一領(lǐng)域的研究已成為各方學(xué)者關(guān)注的熱點(diǎn)問題[2-4]。
1 單指標(biāo)評價法難以從整體反映中醫(yī)藥的治療優(yōu)勢
基于統(tǒng)計學(xué)的假設(shè)檢驗理論,ICH E9[5]建議臨床試驗的主要終點(diǎn)指標(biāo)最好只設(shè)一個,因此,現(xiàn)階段進(jìn)行的中醫(yī)藥RCTs等臨床試驗設(shè)計中,療效評價通常是將西醫(yī)客觀指標(biāo)(例如病理、生化指標(biāo)等)作為主要療效指標(biāo),在次要指標(biāo)中添加一些中醫(yī)特色指標(biāo)(例如中醫(yī)證候、患者報告結(jié)局等),分析時對各指標(biāo)單獨(dú)評價并做出結(jié)論。
但由于中醫(yī)和西醫(yī)在臨床治療理論、藥物研發(fā)模式等方面存在差異,中醫(yī)更注重患者癥狀的改善,而西醫(yī)更強(qiáng)調(diào)病理、生化等實(shí)驗室指標(biāo)的改變。如果采用現(xiàn)行的療效評價方法,很可能會出現(xiàn)在主要療效指標(biāo)上中藥效果接近甚至劣于西藥、而在次要指標(biāo)上優(yōu)于西藥的結(jié)果。
另外,中醫(yī)藥理論強(qiáng)調(diào)整體觀,傳統(tǒng)中醫(yī)藥就治病目的而言是多維度干預(yù),既控制病情活動,又改善患者的生命質(zhì)量;既改善患者主觀感受的不適癥狀,又注重客觀指標(biāo)的恢復(fù)。由于臨床試驗中次要指標(biāo)僅用于探索或參考目的,對療效評價作用有限[5]。因此,中醫(yī)藥RCTs若僅用西醫(yī)療效標(biāo)準(zhǔn)作為主要指標(biāo),無法全面客觀地反映中醫(yī)藥的特色治療優(yōu)勢,應(yīng)把中醫(yī)特色指標(biāo)與西醫(yī)常規(guī)指標(biāo)放到同等位置對待,即將對“病”的療效評價結(jié)果和對“證”的評價結(jié)果相結(jié)合進(jìn)行分析。
2 “病證結(jié)合”的多主要終點(diǎn)為整體、客觀評價中醫(yī)藥療效提供可能
目前各方學(xué)者廣泛認(rèn)可的觀點(diǎn)是,完善的中醫(yī)藥臨床療效評價指標(biāo)體系應(yīng)包括[6-8]:1)對于疾病的常規(guī)西醫(yī)療效評價指標(biāo);2)反映中醫(yī)證候的指標(biāo);3)生命質(zhì)量評價指標(biāo)。
鑒于此,本文提出體現(xiàn)中醫(yī)特色的“病證結(jié)合”的多終點(diǎn)療效評價法,即將以上3種不同屬性的測量指標(biāo)共同作為主要終點(diǎn)進(jìn)行分析,建立既能讓現(xiàn)代醫(yī)學(xué)界認(rèn)可、又能體現(xiàn)中醫(yī)藥特色治療優(yōu)勢的評價方法。
盡管近年來多主要終點(diǎn)評價在統(tǒng)計技術(shù)上有較大發(fā)展,但至今在中醫(yī)藥領(lǐng)域仍然應(yīng)用較少,可能原因:1)目前國內(nèi)對幾種多主要終點(diǎn)評價方法的理論和實(shí)際應(yīng)用介紹較少,大多數(shù)學(xué)者還不熟悉該評價方法;2)多主要終點(diǎn)評價方法大多對統(tǒng)計理論和軟件水平要求較高,研究者不易實(shí)現(xiàn);3)多主要終點(diǎn)評價雖然方法較多,但目前尚沒有公認(rèn)的方法,幾種方法各有利弊(表1),且各有其適用范圍和應(yīng)用條件[9]。使得研究者在實(shí)際應(yīng)用時無從選擇。因此本文對幾種多主要終點(diǎn)評價方法進(jìn)行介紹,以期指導(dǎo)中醫(yī)藥臨床研究者正確選擇和使用多主要終點(diǎn)評價法,為全面評價中醫(yī)藥特色治療優(yōu)勢提供方法學(xué)支持。
3 多主要終點(diǎn)評價法的介紹
3.1 檢驗水準(zhǔn)校正法
檢驗水準(zhǔn)校正法(Alpha-adjustment Procedures)是對多主要終點(diǎn)中每個終點(diǎn)的檢驗水準(zhǔn)進(jìn)行調(diào)整的一類方法[10],包括Bonferroni校正、Simes檢驗、Hochberg法等,其中Bonferroni法是最為經(jīng)典也是最簡單的方法[11],其公式為a*=a/K(K為終點(diǎn)個數(shù))。Hochberg法的原理是先將各個終點(diǎn)檢驗的P(i)值進(jìn)行排序,P(i)(K)≥P(K-1)≥…≥P(1)(K為終點(diǎn)個數(shù)),對應(yīng)的檢驗水準(zhǔn)a(i)分別為a,a/2,…a/k,隨后按P(i)值由大到小的順序逐步檢驗,直到出現(xiàn)第一個P(i)檢驗水準(zhǔn)校正法優(yōu)勢:1)可以對單個終點(diǎn)的療效進(jìn)行分析,控制試驗總Ⅰ類錯誤率(Family-wise TypeⅠError Rate,F(xiàn)WER)膨脹。2)當(dāng)干預(yù)措施對一個結(jié)局指標(biāo)效應(yīng)較強(qiáng)時具有較高統(tǒng)計檢驗效能[12]。
檢驗水準(zhǔn)校正法不足:1)無法對多個終點(diǎn)療效進(jìn)行整體評價,另外當(dāng)多終點(diǎn)間結(jié)果不一甚至相反時,無法得出確切結(jié)論[13]。2)當(dāng)多終點(diǎn)間相關(guān)程度較高時結(jié)論過于保守。
3.2 多變量檢驗
多變量檢驗(Multivariate Test)是對多個終點(diǎn)的聯(lián)合分布進(jìn)行一次假設(shè)檢驗,對組間差別進(jìn)行推斷的方法。包括Hotelling′s T2檢驗、針對多組比較的多變量方差分析(MANOVA)等[14]。多變量檢驗的計算比較繁瑣,但用SPSS或SAS軟件計算則非常簡單。在大多數(shù)情況下,多變量檢驗結(jié)論與對K個多終點(diǎn)進(jìn)行K次單變量假設(shè)檢驗的結(jié)論是一致的,即多變量假設(shè)檢驗拒絕H0,K次單變量假設(shè)檢驗至少有一次拒絕H0。但單變量假設(shè)檢驗不能代替多變量假設(shè)檢驗,主要理由:1)K次單變量假設(shè)檢驗增加假陽性錯誤的概率。2)單變量假設(shè)檢驗只說明某一變量在數(shù)軸分布上的組間差別,不能反映多個變量在平面或空間上的差別。有可能會出現(xiàn)K個多終點(diǎn)在進(jìn)行單變量假設(shè)檢驗時均無統(tǒng)計學(xué)意義,但多變量假設(shè)檢驗卻檢驗出有差異。
多變量檢驗優(yōu)勢:1)避免多次單變量檢驗增加假陽性錯誤的概率;2)在校正過程中充分考慮了多終點(diǎn)間的相關(guān)結(jié)構(gòu)。
多變量檢驗不足:1)缺乏對多個終點(diǎn)療效整體評價的結(jié)果;2)對多終點(diǎn)聯(lián)合概率分布的數(shù)學(xué)假設(shè)前提要求較高[15]。
3.3 多層統(tǒng)計分析模型
多層統(tǒng)計分析模型(Hierarchical Model)是同時對多個終點(diǎn)進(jìn)行分析,包括多元混合效應(yīng)模型、潛變量模型、貝葉斯模型等[16]。多層統(tǒng)計分析模型利用添加一個虛擬1水平進(jìn)行分析,將幾個終點(diǎn)作為1水平上的觀察單位,將受試者作為2水平單位。HLM和MLwin是專門用于多層模型的分析軟件。SAS軟件的PROC MIXED程序也廣泛地應(yīng)用于連續(xù)型結(jié)局變量的多層模型分析,PROC GLIMMIX和PROC NLMIXED程序可用于分類結(jié)局變量和計數(shù)數(shù)據(jù)的多層模型分析。
多水平模型優(yōu)勢:1)能將不同類型的數(shù)據(jù)聯(lián)合進(jìn)行分析,包括連續(xù)變量和分類變量;2)考慮了多終點(diǎn)間相關(guān)性,同時可以有效處理缺失數(shù)據(jù)[17]。
多水平模型不足:1)無法證實(shí)模型所采用假設(shè)的準(zhǔn)確性,尤其是關(guān)于多終點(diǎn)間相互關(guān)系的假設(shè);2)潛變量或超參數(shù)等含義不易被臨床醫(yī)生所理解。
3.4 綜合評價法
綜合評價(Comprehensive Evaluation Method)是對一個復(fù)雜系統(tǒng)多個指標(biāo)進(jìn)行總評價的特殊方法。目前已經(jīng)逐漸應(yīng)用于中醫(yī)藥臨床研究中,例如層次分析法[18]和TOPSIS法[19]等。綜合評價法的實(shí)施過程類似,包括篩選評價指標(biāo)、根據(jù)指標(biāo)重要性賦予權(quán)重、采用相應(yīng)方法建立綜合評價模型并進(jìn)行指標(biāo)合并等。
綜合評價法的優(yōu)勢:1)可以將西醫(yī)常規(guī)指標(biāo)、中醫(yī)證候、患者報告結(jié)局等多個指標(biāo)組合成一個綜合指標(biāo)進(jìn)行分析,對綜合指標(biāo)進(jìn)行檢驗,適應(yīng)中醫(yī)療效多維度的特點(diǎn);2)統(tǒng)計檢驗效能較高。
綜合評價法的不足:1)指標(biāo)權(quán)重的確定或過于依賴主觀判斷,或把指標(biāo)重要性同等化,造成權(quán)重系數(shù)不合理,導(dǎo)致最終結(jié)果的不確定性[20];2)目前綜合評價法雖多,但沒有完美的方法,多方法間結(jié)論存在較大差異[21];3)對綜合評價指標(biāo)的解釋存在一定困難。
3.5 全局檢驗法
全局檢驗法(Global Statistical Test,GST)是將多個終點(diǎn)綜合為一個檢驗統(tǒng)計量進(jìn)行分析的方法[22]。在GST中,O′Brien法是各方學(xué)者較為認(rèn)可、應(yīng)用較為廣泛的一種方法[23],可采用一般最小二乘法、廣義最小二乘法、非參數(shù)法進(jìn)行分析。其中非參數(shù)法可以針對非正態(tài)分布的多終點(diǎn),適用范圍較廣。全局治療效應(yīng)(Global Treatment Effect,GTE)是GST中定量反映試驗組間療效差異的指標(biāo)[22]。GTE的數(shù)值固定,不隨終點(diǎn)測量方法的改變而變化,取值范圍為“-1~1”,“0”代表試驗組和對照組間療效無差異,“1”代表試驗組完全優(yōu)于對照組,“-1”代表對照組完全優(yōu)于試驗組。GTE可作為結(jié)局指標(biāo)的效應(yīng)值,采用Splus軟件進(jìn)行樣本含量的估算。
全局檢驗法的優(yōu)勢:1)可以檢驗多個終點(diǎn)的全局治療效應(yīng),將GST應(yīng)用于中醫(yī)藥RCTs最大的優(yōu)勢是可以凸顯中醫(yī)藥的整體治療優(yōu)勢;2)在分析時充分考慮多終點(diǎn)間的相關(guān)結(jié)構(gòu);3)當(dāng)多終點(diǎn)間結(jié)果不一致甚至相反時更利于結(jié)果的解釋。
全局檢驗法的不足:只能發(fā)現(xiàn)試驗組間整體療效是否有差異,無法對單個終點(diǎn)的療效得出結(jié)論[24]。
針對多主要終點(diǎn)指標(biāo)的樣本量計算問題,有學(xué)者建議在樣本量計算時可對每個主要終點(diǎn)分別計算,然后取最大值作為臨床試驗所需的樣本量[25]。Sozu等探討了用SAS軟件對同時包含連續(xù)變量和二分類變量的多主要終點(diǎn)進(jìn)行樣本含量估計[26]。楊衛(wèi)嬌對多終點(diǎn)指標(biāo)的兩階段適應(yīng)性設(shè)計的樣本量再估計進(jìn)行了探討[27]。
4 結(jié)語
中醫(yī)藥治療效果需要科學(xué)的評價方法彰顯,在中醫(yī)藥臨床研究中,如何科學(xué)、客觀的選擇結(jié)局指標(biāo)對于療效評價至關(guān)重要。作為臨床試驗的統(tǒng)計學(xué)指導(dǎo)規(guī)范,雖然ICH E9[5]建議主要終點(diǎn)指標(biāo)最好只設(shè)一個,但這種考量主要是基于統(tǒng)計學(xué)的假設(shè)檢驗理論,由于中醫(yī)“整體觀”的理論特點(diǎn),在中醫(yī)藥臨床試驗中,一個主要終點(diǎn)難以全面體現(xiàn)中醫(yī)藥治療優(yōu)勢,此時通常需要通過多主要終點(diǎn)評價來解決,其優(yōu)勢是可以將對于疾病的常規(guī)西醫(yī)療效評價指標(biāo)以及反映中醫(yī)證候的指標(biāo)等共同作為主要終點(diǎn)進(jìn)行分析,能全面、客觀的體現(xiàn)中醫(yī)藥特色治療優(yōu)勢。盡管多主要終點(diǎn)比單個終點(diǎn)在中醫(yī)藥療效評價中體現(xiàn)出更多的優(yōu)勢,其隨之而來的一系列統(tǒng)計學(xué)問題卻不容忽視,統(tǒng)計的2類錯誤都需要進(jìn)行控制。本文對幾種多主要終點(diǎn)評價方法進(jìn)行介紹,以期指導(dǎo)中醫(yī)藥臨床研究者了解和使用多主要終點(diǎn)評價法,為全面評價中醫(yī)藥特色治療優(yōu)勢提供方法學(xué)支持。
參考文獻(xiàn)
[1]單平,毛如寶,徐濟(jì)民,等.黃楊寧治療冠心病—用雙盲法觀察110例臨床療效分析[J].中醫(yī)雜志,1983,24(5):37-40.
[2]Li Zhang,Junhua Zhang,Jing Chen,et al.Clinical research of traditional Chinese medicine needs to develop its own system of core outcome sets[J].Evid Based Complement Alternat Med,2013,2013(2013):202703.
[3]潘萬旗,鄧素玲,楊英豪,等.關(guān)于中醫(yī)藥標(biāo)準(zhǔn)化的思考[J].中醫(yī)學(xué)報,2015,30(6):795-797.
[4]Pritzker S,Hui KK.Building an evidence-base for TCM and integrative east-west medicine:a review of recent developments in innovative research design[J].J Tradit Complement Med,2012,2(3):158-163.
[5]ICH Topic E9 Statistical Principles for Clinical Trials (CPMP/ICH/363/96),www.emea.europa.eu,1998.Accessed 8th April 2013.
[6]王賢良,毛靜遠(yuǎn),侯雅竹.病證結(jié)合、系統(tǒng)分段、多維指標(biāo)中醫(yī)臨床效應(yīng)評價方法建立初探[J].中國中西醫(yī)結(jié)合雜志,2013,33(2):270-273.
[7]高凡珠,謝雁鳴,王永炎.中醫(yī)復(fù)雜干預(yù)與療效綜合評價[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2010,16(6):527-529.
[8]李建生,余學(xué)慶.病證結(jié)合模式下療效評價指標(biāo)體系建立的思考[J].中華中醫(yī)藥雜志,2011,26(8):1666-1670.
[9]Huang P,Goetz CG,Woolson RF,et al.Using global statistical tests in long-term Parkinson′s disease clinical trials[J].Mov Disord,2009,24(12):1732-1739.
[10]Sankoh AJ,SrdrB,Huque MF.Efficacy endpoint selection and multiplicity adjustment methods in clinical trials with inherent multiple endpoint issues[J].Stat Med,2003,22(20):3133-3150.
[11]Leon AC,Heo M.A comparison of multiplicity adjustment strategies for correlated binary endpoints[J].J Biopharm Stat,2005,15(5):839-855.
[12]Dmitrienko A,D′Agostino RB Sr,Huque MF.Key multiplicity issues in clinical drug development[J].Stat Med,2013,32(7):1079-1111.
[13]Alosh M,Bretz F,Huque M.Advanced multiplicity adjustment methods in clinical trials[J].Stat Med,2014,33(4):693-713.
[14]Olson CL.Comparative robustness of six tests in multivariate analysis of variance[J].J Am Stat Assoc,1974,69(348):894-908.
[15]Johnson JL,Muller KE,Slaughter JC,et al.POWERLIB:SAS/IML Software for Computing Power in Multivariate Linear Models[J].J Stat Softw,2009,30(5):1-27.
[16]Leiby BE,Ten Have TR,Lynch KG,et al.Bayesian multivariate growth curve latent class models for mixed outcomes[J].Stat Med,2014,33(20):3434-3452.
[17]Teixeira-Pinto A,Mauri L.Statistical analysis of noncommensurate multiple outcomes[J].Circ Cardiovasc Qual Outcomes,2011,4(6):650-656.
[18]李景.糖尿病腎病中醫(yī)藥療效綜合評價體系研究[D].北京:北京中醫(yī)藥大學(xué),2012.
[19]陳磊,梁偉雄,呂志平.生脈膠囊治療慢性充血性心力衰竭臨床療效的TOPSIS 法綜合評價[J].南方醫(yī)科大學(xué)學(xué)報,2010,30(4):820-822.
[20]Freemantle N,Calvert M,Wood J,et al.Composite endpoints in randomized trials:greater precision but with greater uncertainty[J].JAMA,2003,289(19):2554-2559.
[21]Rauch G,Jahn-Eimermacher A,Brannath W,et al.Opportunities and challenges of combined effect measures based on prioritized outcomes[J].Stat Med,2014,33(7):1104-1120.
[22]Huang P,Woolson RF,O′Brien PC.A rank-based sample size method for multiple outcomes in clinical trials[J].Stat Med,2008,27(16):3084-3104.
[23]O′Brien PC.Procedures for comparing samples with multiple endpoints[J].Biometrics,1984,40(4):1079-1089.
[24]Baraniuk S,Seay R,Sinha AK,et al.Comparison of the global statistical test and composite outcome for secondary analyses of multiple coronary heart disease outcomes[J].Prog Cardiovasc Dis,2012,54(4):357-361.
[25]Cook RJ,F(xiàn)arewell VT.Guidelines for monitoring effieaey and toxieity responses in clinieal trials[J].Biometrics,1994,50(4):1146-1152.
[26]Sozu T,Sugimoto T,Hamasaki T.Sample size determination in clinical trials with multiple co-primary endpoints including mixed continuous and binary variables[J].Biom J,2012,54(5):716-729.
[27]楊衛(wèi)嬌.多終點(diǎn)指標(biāo)下兩階段適應(yīng)性設(shè)計的樣本量再估計[D].上海:華東師范大學(xué),2011.
(2017-05-10收稿 責(zé)任編輯:徐穎)