郭春雪,胡良平,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com )
?
試驗設(shè)計類型之單因素設(shè)計
郭春雪1,胡良平1,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com )
本文目的是全面介紹與單因素設(shè)計有關(guān)的問題。通過詳細分析單因素設(shè)計的幾種亞型和由配對設(shè)計退化而成的單組設(shè)計,全面而深入地呈現(xiàn)出合理選用單因素設(shè)計的要領(lǐng);通過對“組別”真相的揭示,提高讀者識別“假單因素設(shè)計”的能力。真正的單因素設(shè)計只涉及一個專業(yè)上可以清楚命名的影響因素,其他任何非試驗因素對評價指標的影響在該影響因素各水平組之間是均衡的,其與影響因素之間的交互作用在客觀上是可以忽略不計的。
單組設(shè)計;同質(zhì)性;單因素K(≥2)水平設(shè)計;析因設(shè)計;正交設(shè)計
1.1 單因素設(shè)計之概述
在一個試驗研究項目中,研究者僅關(guān)注一個影響因素,它既可能是一個試驗因素,也可能是一個重要的非試驗因素。它的所有水平不需要用“組別”或“分組”或“處理”或“方案”之類含糊其辭的詞語才能表達清楚,而是可以方便地以不言自明的專業(yè)名稱言簡意賅地描述出來。例如“藥物種類”“某藥的劑量大小”“某藥的作用時間”“抑郁癥的類型”“有無自殺性意念”等。
單因素設(shè)計可分為兩種亞型:即單組設(shè)計和單因素K(≥2)水平設(shè)計;但根據(jù)人們對定量數(shù)據(jù)進行統(tǒng)計分析方法來劃分,單因素設(shè)計也可分為三種亞型:單組設(shè)計、成組設(shè)計(其學(xué)名為單因素兩水平設(shè)計)和單因素K(≥3)水平設(shè)計(或單因素多水平設(shè)計)。
1.2 與單組設(shè)計有關(guān)的問題[1]
1.2.1 何為單組設(shè)計
所謂單組設(shè)計,就是研究者僅關(guān)注影響因素的一個特定水平,由它定義了一個特定的“總體”,從該總體中隨機抽取一定數(shù)量的受試對象形成一個被研究的“樣本”。于是,人們就稱這個“樣本”構(gòu)成了一個單組設(shè)計下的“受試對象”。
1.2.2 單組設(shè)計隱含的前提條件
隱含的前提條件是:在單組設(shè)計中的“受試對象”相對于特定的“評價指標”而言,他們或它們應(yīng)具有很好的“同質(zhì)性”。
例如,假定有人發(fā)現(xiàn):長期生活在海拔>3 000米山區(qū)的大部分正常成年人(假定無性別之間的差異)平均每分鐘脈搏次數(shù)大約為68次,而由基本常識得知,不居住在前述特定環(huán)境下的絕大多數(shù)正常成年人平均每分鐘脈搏次數(shù)大約為72次。要想通過科學(xué)嚴謹?shù)脑囼炑芯?,并假定?2次/分鐘”為“標準值”或“理論值”,則研究者就可以依據(jù)某些先驗知識估算出合適的樣本含量,并只需要從長期生活在海拔>3 000米山區(qū)的正常成年人中進行隨機抽樣,當(dāng)獲得足夠樣本含量的受試對象并在特定的條件(如靜坐半小時)下測定出他們各自的脈搏次數(shù),這些數(shù)據(jù)就構(gòu)成了一個來自單組設(shè)計的樣本數(shù)據(jù)。
就上面這個例子,如何理解來自單組設(shè)計的受試對象應(yīng)具備“同質(zhì)性”呢? 即只要受試對象滿足“長期生活在海拔>3 000米山區(qū)的正常成年人”這個特定的前提條件,他們脈搏次數(shù)的數(shù)據(jù)波動完全取決于他們的“個體差異”,而與“性別”“家族”“血型”或其他任何可說出名稱的“影響因素”無關(guān)。換言之,從專業(yè)或其他角度來考量,沒有理由和任何有力的證據(jù)將來自單組設(shè)計的全部受試對象劃分成兩組或多組。但是,若進一步研究發(fā)現(xiàn):在“長期生活在海拔>3 000米山區(qū)的正常成年人”中,“經(jīng)常按一定強度鍛煉身體”與“不經(jīng)常按一定強度鍛煉身體”的兩類人,其脈搏次數(shù)之間存在明顯區(qū)別,此時,前述所獲得的“樣本”就不具備“同質(zhì)性”了,也就是說,前述的“單組設(shè)計的樣本”就不成立了,而應(yīng)該被稱為“單因素兩水平設(shè)計的樣本”了。其試驗因素的名稱為“是否經(jīng)常按一定強度鍛煉身體”,它的兩個水平分別為“是”與“否”。
1.2.3 單組設(shè)計中究竟有沒有對照組
在“單組設(shè)計”中,似乎沒有“對照組”,而沒有對照的研究是沒有說服力的!事實上,在“單組設(shè)計”中是有一個“隱含對照組”的(有人稱其為“外部對照組”),它就是與評價指標的標準值或理論值相對應(yīng)的那個總體,而來自“單組設(shè)計的樣本”應(yīng)該被視為是與其自身所代表的“抽樣總體”對應(yīng)的“隨機樣本”。由此可知,在評價指標為一元定量變量時,單組設(shè)計及其一元定量資料差異性分析問題不應(yīng)該被叫做“樣本均值與總體均值的比較問題”,而應(yīng)該被稱為“一個未知總體均值與一個已知總體均值的比較問題”。
1.2.4 何時適合選用單組設(shè)計
由直觀判斷可知,在一個試驗研究中,若選用單組設(shè)計,所需要的樣本含量會相對較少。人們不禁要問:何時適合選用單組設(shè)計?由統(tǒng)計學(xué)中的“對照原則”可知,在絕大多數(shù)場合下,不適合也不應(yīng)隨意選擇單組設(shè)計,這是因為通常并不存在主要評價指標的“理論值或標準值”。一般來說,僅在下列兩種場合下,才可考慮或借助“單組設(shè)計”(注意:絕對不是最佳或最優(yōu)選擇)來設(shè)計試驗:其一,找不到或不允許(例如在醫(yī)學(xué)上,若設(shè)立對照組將嚴重違反倫理道德或?qū)嵺`上根本無法操作)設(shè)立對照組,但可以找到主要評價指標的“公認標準值或理論值”;其二,找不到合理的或合適的對照組,但某項試驗若能獲得成功,其試驗研究本身的價值十分重大,同時,主要評價指標的“理論值或標準值”是客觀存在的或由基本常識就可得到“公認”的。例如“換頭手術(shù)”,迄今為止的理論和實踐都已明確認為:“換頭手術(shù)的成功率幾乎為零”,于是,“0”就是“換頭手術(shù)”成功率的“理論值或標準值”。若臨床試驗研究的成功率在統(tǒng)計學(xué)上被證明明顯高于“0”,就表明單組設(shè)計取得了預(yù)期的效果;又例如,心臟驟停且胸腔骨折又非常嚴重的患者,若采用常規(guī)按壓胸部的急救手術(shù)使患者心臟復(fù)蘇,其成功率幾乎為零(注意:腹部提壓的心臟復(fù)蘇儀可能是提高此種困境下心臟復(fù)蘇成功率的有益嘗試與實踐),此時,若想開展臨床試驗,在得到倫理委員會同意的前提下,也可以選用單組設(shè)計來安排試驗。
1.2.5 單組設(shè)計的奇特之處
單組設(shè)計是所有試驗設(shè)計類型中最簡單的一種設(shè)計類型,然而,用于處理單組設(shè)計資料的統(tǒng)計分析方法的種類卻遠遠多于其他任何一種設(shè)計類型資料所對應(yīng)的統(tǒng)計分析方法。這是由于絕大多數(shù)多元(包括多因素)統(tǒng)計分析方法僅適用于單組設(shè)計多元定量資料或定性資料或定量與定性混合型資料,特別是聚類分析、主成分分析、因子分析、路徑分析、結(jié)構(gòu)方程模型分析、潛在類別分析和項目反應(yīng)模型分析,甚至連回歸分析(注意:人們在實際使用回歸分析時并沒有去關(guān)注資料是否來自單組設(shè)計,而是把定量和定性自變量全部默認為定量變量,把全部受試對象視為滿足“同質(zhì)性”要求,其實,這是不夠妥當(dāng)?shù)?也是如此。
1.3 與單因素K(≥2)水平設(shè)計有關(guān)的問題
1.3.1 何為單因素K(≥2)水平設(shè)計
所謂單因素K(≥2)水平設(shè)計,就是在一個試驗研究中,只考慮在一個影響因素(通常是試驗因素,但也可以是重要的非試驗因素)的兩個或兩個以上的水平條件下,從受試對象身上測定某些評價指標的數(shù)值,以評價該影響因素各水平對結(jié)果的影響大小及其差異性情況。例如在文獻[2]中,研究者把抑郁癥患者分為“單相抑郁型”“雙相Ⅰ型”與“雙相Ⅱ型”三類,屬于單因素三水平設(shè)計問題。
1.3.2 單因素K(≥2)水平設(shè)計隱含的前提條件
隱含的前提條件是:各水平組中受試對象在其他任何非試驗因素方面均衡一致,且任何非試驗因素與所考察的影響因素之間對評價指標影響的交互作用在本質(zhì)上是可以忽略不計的。
1.3.3 單因素K(≥2)水平設(shè)計中的對照組
一般來說,在單因素K(≥2)水平設(shè)計中可能會有兩種對照形式之一:第1種,有一個“空白或標準或試驗對照組”;第2種,全部K個組之間形成“相互對照”(例如考察某藥物4個不同劑量療效之間的差別)。
在一項試驗研究中,由研究目的確定的影響因素只有一個且至少具有兩個水平,其他的非試驗因素對評價指標的影響可通過以下三個途徑使其降至最低:其一,在有根據(jù)地估算出最少樣本含量基礎(chǔ)上適當(dāng)增大樣本含量;其二,制訂嚴格的關(guān)于受試對象的納入標準和排除標準,并通過完全隨機的方式將全部符合納入標準且不符合排除標準的受試對象均分入擬考察影響因素的各水平組中去;其三,當(dāng)樣本含量并非特別大(1 000例以上,才可被稱為較大樣本含量)時,應(yīng)該盡可能找準找全對評價指標有影響的重要非試驗因素,并按其對全部符合納入標準且不符合排除標準的受試對象進行分層,再將各層中的受試對象隨機均分入擬考察影響因素的各水平組中去。
1.4 由配對設(shè)計退化而成的單組設(shè)計
1.4.1 何為配對設(shè)計
所謂配對設(shè)計,就是與同一個定量評價指標對應(yīng)的兩組數(shù)據(jù)成對出現(xiàn),這些成對數(shù)據(jù)有4種可能的來源:其一,來自同一個個體,故被稱為自身配對設(shè)計;其二,來自母體相同的兩個個體(如雙胞胎),故被稱為同源配對設(shè)計;其三,來自屬性因素(如性別、年齡等)取值相同或接近的兩個個體,故被稱為屬性因素相近者配對設(shè)計;其四,來自外部環(huán)境因素(如以“夫妻”為配對條件)取值相同或接近的兩個個體,故被稱為外部環(huán)境因素接近者配對設(shè)計。
1.4.2 如何使配對設(shè)計退化成單組設(shè)計
上述4種形式的配對設(shè)計一元定量資料,在對其進行差異性分析時,首先要求出每對數(shù)據(jù)的差量,再求差量的平均值并與其“理論值0”進行比較。由此可知,對原始數(shù)據(jù)而言,屬于“配對設(shè)計一元定量資料”;而在對其實施差異性分析時,由“差量”形成的一組數(shù)據(jù)就自動地退化成為“單組設(shè)計一元定量資料”了。
1.4.3 兩種單組設(shè)計之間的區(qū)別是什么
由前面“1.3節(jié)”中介紹的“單組設(shè)計”可以被稱為“標準型單組設(shè)計”;而本節(jié)中介紹的由配對設(shè)計退化而來的“單組設(shè)計”,可以被稱為“退化型單組設(shè)計”。這兩種“單組設(shè)計”在本質(zhì)上是一樣的,其區(qū)別在于:“標準型單組設(shè)計”通常存在非零的“理論值或標準值”;而“退化型單組設(shè)計”的“理論值或標準值”一定是“0”。
該功能主要面向有圖書館借閱證的校內(nèi)師生,通過綁定圖書證,可以將微信公眾號和校園網(wǎng)站服務(wù)結(jié)合起來,讓廣大師生享有更便利、功能更全的信息服務(wù),同時該平臺也向師生開放了解綁圖書證的功能,給用戶更多的自主選擇權(quán)。
1.4.4 如何合理選擇配對的形式
在原本屬于“單因素兩水平設(shè)計”的試驗研究中,根據(jù)該因素兩個水平的具體情況,當(dāng)條件允許時,選擇配對設(shè)計要比選擇非配對設(shè)計效果好,因為在相同樣本含量的前提下,檢驗效能會有較大提升;換句話說,在相同檢驗效能的前提下,可以節(jié)省較多的樣本含量。
問題是適合選用配對設(shè)計的“條件”究竟是什么?
情形一:當(dāng)2水平影響因素中的一個水平為0水平時,選用自身配對設(shè)計是比較合適的。例如,某人研究出一種穴位針灸方法改善受試對象的記憶力,在使用穴位針灸前后分別檢測每位受試對象的記憶力。此時,影響因素為“是否使用穴位針灸(未用與使用)”,其中,“未用”就是該影響因素的“0水平”。使用自身配對設(shè)計時,兩個水平之間的“時間間隔”不應(yīng)過長,因為一旦時間間隔過長,受試對象自身的體內(nèi)變化和受到外界的影響都很大。
情形二:當(dāng)2水平影響因素的兩個水平都是非0水平,即兩個水平都會產(chǎn)生一定效應(yīng)的“真實水平”(例如在每位受試對象身上某個穴位采取針灸治療)且已知治療的效果明顯受到“遺傳因素”的影響時,選用同源配對設(shè)計的效果為好。
情形三:當(dāng)2水平影響因素的兩個水平都是非0水平,即兩個水平都是會產(chǎn)生一定效應(yīng)的“真實水平”且很肯定已經(jīng)找準找全對評價指標有影響的重要非試驗因素,同時,也能找到足夠多的受試對象來按前述提及的全部重要非試驗因素分別形成對子時,選用屬性因素相近者配對設(shè)計是可行的。
說明:以“家庭”或“班級”或“社區(qū)”等為配對條件,實施配對設(shè)計的試驗研究,其應(yīng)用場合(例如研究每對夫妻智商之間是否有差異等)非常少,此處就不細究了。
2.1 “組別”常常是假單因素設(shè)計的“套牌”
當(dāng)今,人們經(jīng)常會從電視新聞上看到:交警常會發(fā)現(xiàn)少數(shù)私人汽車后部掛著“假牌照”,甚至還出現(xiàn)了一些“克隆的出租車”。然而,在一些學(xué)術(shù)論文中,人們經(jīng)??梢钥吹接媒y(tǒng)計表呈現(xiàn)的科研資料會以“組別”或“處理”或“方案”等籠統(tǒng)的詞語,作為若干個試驗條件或試驗分組的“總稱”。部分論文的作者便想當(dāng)然地將自己的科研資料視為“單因素設(shè)計資料”,進而不假思索地選擇單因素統(tǒng)計分析方法對科研資料進行差異性分析。這種以假亂真、混淆視聽的做法,在學(xué)術(shù)論文中具有相當(dāng)?shù)钠毡樾浴?/p>
下面就從學(xué)術(shù)期刊或?qū)W術(shù)論著中摘錄有關(guān)案例,揭示出假單因素設(shè)計的常見表現(xiàn),以便提高人們識別其真面目的能力。
2.2 “組別”是多個因素水平的全面組合
【例1】某臨床醫(yī)生將12例缺鐵性貧血患者隨機分入4個組接受不同的治療,4種治療方案分別列入表1的第1列“組別”之下,主要評價指標為治療后紅細胞數(shù)的增加量。見表1。
表1 4種不同療法治療缺鐵性貧血1個月后紅細胞平均增加數(shù)
剖析:首先,應(yīng)當(dāng)指出的是,表1中的總樣本含量12是如何確定的,提供數(shù)據(jù)者似乎沒有交代理論依據(jù)是什么。然而,在選擇統(tǒng)計分析方法對表1中的資料進行差異性分析時,相當(dāng)多的人將表1中的“組別”視為一個影響因素,“很自然地”選擇了單因素4水平設(shè)計分析方法。事實上,此處“組別”應(yīng)該是全部患者在一般療法基礎(chǔ)上,分別接受了4種不同處理之一的處理。這4種處理正好是兩個2水平因素的全部水平組合所形成的治療方案,即甲乙藥均不用、僅用甲藥、僅用乙藥和甲乙藥都用。它們正是“甲藥用否”與“乙藥用否”的全面組合。將表1改寫成表2的形式,不僅概念清晰,而且與設(shè)計有關(guān)的內(nèi)容(兩個因素,各有兩個水平且它們的水平全面組合)不言自明。
表2 4種不同療法治療缺鐵性貧血1個月后紅細胞平均增加數(shù)
容易看出:在表1中,“組別”是一個“假單因素”的“萬能名稱”;而在表2中,可以清楚地看出:“甲藥用否”與“乙藥用否”才是表1中“組別”的“真相”。當(dāng)表2中的兩個因素對評價指標的影響同等重要時,由這兩個因素所決定的“架構(gòu)”可被稱為兩因素析因設(shè)計。
事實上,在學(xué)術(shù)期刊或?qū)V希敖M別”的“內(nèi)容與含義”更是“千姿百態(tài)”,下面將進一步揭示其“真相”。
2.3 “組別”是多個因素水平的部分組合
2.3.1 部分組合是依據(jù)高階交互作用分解方法從全部組合中分割出來的
在分式析因設(shè)計[3]中,被挑選出來的試驗點是與其相對應(yīng)的完整“析因設(shè)計”的一部分,若將這一部分試驗點冠以“組別”作為其總稱,當(dāng)然,會給人以“假象”。這就屬于“部分組合是依據(jù)高階交互作用分解方法從全部組合中分割出來的”。
2.3.2 部分組合是依據(jù)組合原理拼湊出來的
有一種被稱為組合設(shè)計[4]的方法:在因素的編碼空間中選擇幾類具有不同特點的試驗點,將它們適當(dāng)?shù)亟M合起來形成的試驗安排。若將這些試驗點冠以“組別”作為其總稱,當(dāng)然,也會給人以“假象”。這就屬于“部分組合是依據(jù)組合原理拼湊出來的”。
2.3.3 部分組合是依據(jù)正交性原理從全部組合中挑選出來的
基于正交性原理[5],從原本屬于析因設(shè)計的全部水平組合中挑選出一部分試驗點,若將這些試驗點冠以“組別”作為其總稱,當(dāng)然,也會給人以“假象”。這就屬于“部分組合是依據(jù)正交性原理從全部組合中挑選出來的”。
2.3.4 部分組合是依據(jù)均勻性準則從全部組合中挑選出來的
基于均勻性準則[6],從原本屬于析因設(shè)計的全部水平組合中挑選出一部分試驗點,若將這些試驗點冠以“組別”作為其總稱,當(dāng)然,也會給人以“假象”。這就屬于“部分組合是依據(jù)均勻性準則從全部組合中挑選出來的”。
2.3.5 部分組合是依據(jù)優(yōu)良性準則從全部組合中挑選出來的
基于優(yōu)良性準則[7],從原本屬于析因設(shè)計的全部水平組合中挑選出一部分試驗點,若將這些試驗點冠以“組別”作為其總稱,當(dāng)然,也會給人以“假象”。這就屬于“部分組合是依據(jù)優(yōu)良性準則從全部組合中挑選出來的”。
2.3.6 部分組合是憑主觀臆斷從全部組合中盲目抓取的
【例2】某研究者在研究透明質(zhì)酸(HA)及其受體在不同皮膚組織創(chuàng)面愈合過程中的表達及意義時,從多種不同的皮膚上取樣,共形成了8個組,檢測各組受試對象皮膚中HA含量,其資料格式如表3所示[8]。
表3 幾種不同標本中HA含量的檢測結(jié)果
剖析:顯然,表3中“組別”所代表的是一個“復(fù)合型因素”,它究竟由多少個獨立影響因素的哪些水平組合而成,需要仔細推敲。這種“組別”所代表的試驗安排不應(yīng)被稱為某種標準的多因素設(shè)計類型,而應(yīng)該被稱為“多因素非平衡組合試驗”。原研究者將表3中的8個組冠以“組別”作為其總稱,給人以“單因素8水平設(shè)計的假象”。這就屬于“部分組合是憑主觀臆斷從全部組合中盲目抓取的”。
欲對此類定量資料進行差異性分析,需要先對“組別”進行合理地拆分,再結(jié)合分析目的、基本常識和專業(yè)知識對拆分后的某些組進行合理“組合”,具體如何操作,可參閱有關(guān)文獻[8],此處從略。
[1] 胡良平. 實用醫(yī)學(xué)統(tǒng)計學(xué)[M]. 北京: 金盾出版社, 2014: 111-121, 183-272.
[2] 林康廣, 盧睿, 陳玲玉, 等. 單雙相抑郁患者的情感氣質(zhì)特征及其與抗抑郁治療反應(yīng)的關(guān)系[J]. 四川精神衛(wèi)生, 2016,29(3): 211-215.
[3] Douglas CM. Design and Analysis of Experiments[M]. 北京: 人民郵電出版社, 2007:282-346.
[4] 任露泉. 試驗優(yōu)化設(shè)計與分析[M]. 2版. 北京: 高等教育出版社, 2001: 246-278.
[5] 田口玄一. 實驗設(shè)計法(上)[M]. 北京: 機械工業(yè)出版社, 1987:170-325.
[6] 方開泰, 馬長興. 正交與均勻試驗設(shè)計[M]. 北京: 科學(xué)出版社, 2001: 83-211.
[7] 王萬中. 試驗的設(shè)計與分析[M]. 北京: 高等教育出版社, 2004: 333-357.
[8] 胡良平. 統(tǒng)計學(xué)三型理論在實驗設(shè)計中的應(yīng)用[M]. 北京: 人民軍醫(yī)出版社, 2006: 139-165.
(本文編輯:陳 霞)
Types of experimental design: a single factor design
GuoChunxue1,HuLiangping1,2*
(1.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China;2.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)
The aim of this article is to comprehensively introduce some questions related to a single-factor design for an experimental research. A detailed introduction is provided for several subtypes of a single-factor experimental design and a special case which demonstrates a single-group design degenerated from a paired-group design. This introduction intends to present the key points of accurate selection of the single-factor design type for a matched experiment in a comprehensive and in-depth way. Through revealing the true nature of a commonly used concept "group", the paper helps readers improve their ability to identify "a fake single-factor design". A true single-factor design involves only a single factor that can be clearly and scientifically identified and the effect of other non-experimental factors on the evaluation index are balanced among all levels of the factor. The interactions between it and the other influencing factors are negligible.
A single group design; Homogeneity; A single factor design with K(K≥2) levels; Factorial design; Orthogonal design
國家高技術(shù)研究發(fā)展計劃課題資助(2015AA020102)
R195.1
A
10.11886/j.issn.1007-3256.2017.01.002
2017-02-11)