胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
由于析因設(shè)計(jì)所需要的水平組合數(shù)很多,不可避免地增大了樣本含量。當(dāng)研究者對(duì)試驗(yàn)研究涉及的眾多因素的情況了解甚少時(shí),即使選用正交設(shè)計(jì),其所需要的樣本含量仍然較多。此時(shí),可考慮選用分式析因設(shè)計(jì)。本文將介紹分式析因設(shè)計(jì)相關(guān)的基本概念、具體實(shí)施方法以及采用SAS實(shí)現(xiàn)定量資料方差分析和回歸分析的方法。
將一個(gè)標(biāo)準(zhǔn)的析因設(shè)計(jì)按某種規(guī)則拆分成幾部分,其中,每一部分稱為原先析因設(shè)計(jì)的一個(gè)分式析因設(shè)計(jì)或分?jǐn)?shù)析因設(shè)計(jì)[1-2]。
在一個(gè)多因素試驗(yàn)研究中,若高階交互作用效應(yīng)不存在或可以忽略不計(jì),采用分式析因設(shè)計(jì)可以大幅度減少因素的水平組合數(shù),即所需的樣本含量更少。那么,減少的樣本含量多少取決于研究者對(duì)試驗(yàn)結(jié)果精確度的要求。若對(duì)精確度要求較高,所需要的樣本含量就相對(duì)較大。
由于分式析因設(shè)計(jì)可在較大幅度地減少因素水平組合數(shù)的前提條件下,盡可能容納較多的因素,這就不可避免地導(dǎo)致某些因素或交互作用項(xiàng)的效應(yīng)出現(xiàn)混雜。所謂“效應(yīng)混雜”,就是某些效應(yīng)項(xiàng)重疊在一起,例如,在設(shè)計(jì)表上,當(dāng)交互作用AB與CD出現(xiàn)在同一列上時(shí),從該列上計(jì)算出來不同水平之間的離均差平方和,就分不清它們各自的數(shù)量分別是多少。
分式析因設(shè)計(jì)中的混雜情況有三類:分解Ⅲ設(shè)計(jì)、分解Ⅳ設(shè)計(jì)和分解Ⅴ設(shè)計(jì)[1,3]。
分解Ⅲ設(shè)計(jì)精確度最低,所需樣本含量較少。在此類設(shè)計(jì)中,主效應(yīng)彼此之間沒有混雜,但主效應(yīng)與兩因素交互作用效應(yīng)混雜,且兩因素交互作用效應(yīng)相互混雜。二水平因素的分解Ⅲ設(shè)計(jì)有很多種,例如
分解Ⅳ設(shè)計(jì)精確度居中,所需樣本含量居中。在此類設(shè)計(jì)中,主效應(yīng)彼此之間沒有混雜,主效應(yīng)與兩因素交互作用效應(yīng)之間沒有混雜,但兩因素交互作用效應(yīng)彼此之間存在混雜,例如設(shè)計(jì)和設(shè)計(jì)。二水平因素的分解Ⅳ設(shè)計(jì)還有如下幾種:設(shè)計(jì)[3]。
分解Ⅴ設(shè)計(jì)精確度最高,所需樣本含量較多。在此類設(shè)計(jì)中,主效應(yīng)或兩因素交互作用效應(yīng)與其他主效應(yīng)或兩因素交互作用效應(yīng)之間沒有混雜,但兩因素交互作用效應(yīng)與三因素交互作用效應(yīng)存在混雜,例如設(shè)計(jì)。二水平因素的分解Ⅴ設(shè)計(jì)還有設(shè)計(jì)[3]。
分解Ⅴ設(shè)計(jì)以上的設(shè)計(jì),其精確度更高,但所需要的水平組合數(shù)也更多,例如設(shè)計(jì)(即分解Ⅵ設(shè)計(jì),水平組合數(shù)為32)和設(shè)計(jì)(即分解Ⅶ設(shè)計(jì),水平組合數(shù)為64)。
以上是二水平因素的分式析因設(shè)計(jì),此外,還有三水平因素和混合水平因素的分式析因設(shè)計(jì)[3-4]。因篇幅所限,此處從略。
根據(jù)試驗(yàn)因素的數(shù)目、水平數(shù)以及對(duì)計(jì)算結(jié)果精確度的要求,分式析因設(shè)計(jì)的種類非常多;由于不同的分式析因設(shè)計(jì)在設(shè)計(jì)表各列上出現(xiàn)的混雜情況不同,因此,不可能采用一個(gè)統(tǒng)一的方差分析公式解決所有分式析因設(shè)計(jì)定量資料的分析問題。
方差分析的基本思想:針對(duì)每個(gè)特定的分式析因設(shè)計(jì),在接受其基本假設(shè)(例如,某些高階交互作用效應(yīng)不存在或可以忽略不計(jì))成立的前提條件下,首先查看設(shè)計(jì)表中是否有空列,若有空列,則可用于估計(jì)第一類試驗(yàn)誤差,也就具備進(jìn)行方差分析的基本條件;其次,查看設(shè)計(jì)表的各行上是否進(jìn)行了2次及以上獨(dú)立重復(fù)試驗(yàn),若已進(jìn)行,則可用于估計(jì)第二類試驗(yàn)誤差;第三,應(yīng)明確設(shè)計(jì)表各列上估計(jì)的效應(yīng)是否混雜。
若兩類試驗(yàn)誤差都無法估計(jì),就不能進(jìn)行方差分析;出現(xiàn)混雜的列上得出的計(jì)算結(jié)果是不正確的,因?yàn)樗皇窃摿兴淼囊蛩氐男?yīng)或某個(gè)交互作用項(xiàng)的效應(yīng)的真實(shí)值,而是混雜在一起的多個(gè)項(xiàng)的綜合效應(yīng)。
一般來說,若從設(shè)計(jì)表中無法直接估計(jì)試驗(yàn)誤差,可先計(jì)算各列不同水平對(duì)應(yīng)結(jié)果的平均值,采用最大值減去最小值求出極差。將設(shè)計(jì)表中極差最小的一列或多列視為“空白列”(因?yàn)樗鼈兊男?yīng)很小,對(duì)試驗(yàn)結(jié)果的影響微乎其微),它們將被用于估計(jì)第一類試驗(yàn)誤差。
【例1】某化學(xué)試驗(yàn)涉及4個(gè)二水平因素:溫度(A)、壓力(B)、甲醛的濃度(C)和攪拌速度(D)。若采用24析因設(shè)計(jì),因素的水平組合數(shù)為16,擬采用設(shè)計(jì),即進(jìn)行24析因設(shè)計(jì)的二分之一實(shí)施。試驗(yàn)安排與結(jié)果見表1[3]。試分析4個(gè)因素對(duì)過濾率的影響是否有統(tǒng)計(jì)學(xué)意義。
表1 4個(gè)二水平因素的試驗(yàn)設(shè)計(jì)及結(jié)果Table 1 Design and the experimental results of four two-level factors
【例2】一項(xiàng)關(guān)于潤(rùn)滑油質(zhì)量的試驗(yàn),涉及4個(gè)三水平因素:A、B、C和D(它們的專業(yè)含義從略)。各因素均取相同間隔的水平1、2、3。由于這是一個(gè)預(yù)試驗(yàn),擬采用-34設(shè)計(jì),即34-1設(shè)計(jì),實(shí)際上就是4個(gè)三水平因素析因設(shè)計(jì)的三分之一實(shí)施。試驗(yàn)安排與結(jié)果見表2[4]。試分析4個(gè)因素對(duì)定量試驗(yàn)結(jié)果的影響是否有統(tǒng)計(jì)學(xué)意義,并分別分析因素的線性部分和二次項(xiàng)部分是否有統(tǒng)計(jì)學(xué)意義。
表2 4個(gè)三水平因素析因設(shè)計(jì)的三分之一實(shí)施及試驗(yàn)結(jié)果Table 2 One-third implementation and the experimental results of four three-level factorial designs
3.2.1 對(duì)例1的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】第一個(gè)和第二個(gè)過程步(PROC UNIVARIATE和PROC PRINT)用于計(jì)算各列因素的兩個(gè)水平下過濾率平均值之差量(簡(jiǎn)稱為“效應(yīng)”);第三個(gè)過程步(PROC GLM)用于進(jìn)行方差分析[5];第四個(gè)過程步(PROC REG)用于進(jìn)行多重線性回歸分析[5]。
【SAS輸出結(jié)果及解釋】
以上是各列的效應(yīng)輸出結(jié)果,其中,第2~5列對(duì)應(yīng)4個(gè)因素各自的效應(yīng),后3列對(duì)應(yīng)3個(gè)兩因素之間的交互作用的效應(yīng)。因素B的效應(yīng)和交互作用AB的效應(yīng)很小,故可以將它們合并到誤差項(xiàng)中去。
由第三個(gè)過程步輸出的結(jié)果可知,因素x1(A)、因素x3(C)、因素x4(D)、交互作用x1*x3和交互作用x1*x4這5項(xiàng)對(duì)過濾率的影響均有統(tǒng)計(jì)學(xué)意義,與它們對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì)量F值和P值如下。x1:F=222.15,P=0.004 5;x3:F=120.62,P=0.008 2;x4:F=167.54,P=0.005 9;x1*x3:F=210.62,P=0.004 7;x1*x4:F=222.15,P=0.004 5。
由第四個(gè)過程步輸出的結(jié)果可知,多重線性回歸模型中的各項(xiàng)均有統(tǒng)計(jì)學(xué)意義?;诨貧w系數(shù)的計(jì)算結(jié)果,可寫出多重線性回歸模型:
基于上述多重線性回歸方程,可以對(duì)過濾率進(jìn)行預(yù)測(cè)。例如,當(dāng)3個(gè)因素都取1水平時(shí),則有:
文獻(xiàn)[3]給出了與此例對(duì)應(yīng)的完全析因設(shè)計(jì)(24析因設(shè)計(jì))資料及回歸方程如下:
基于上述多重線性回歸方程,可以對(duì)過濾率進(jìn)行預(yù)測(cè)。例如,當(dāng)3個(gè)因素都取1水平時(shí),則有:Y?=70.06+10.81+4.94+7.31-9.06+8.31=92.37(%)。
由此可知,采用24析因設(shè)計(jì)的二分之一的設(shè)計(jì)(即24-1設(shè)計(jì)),可以獲得與原設(shè)計(jì)(指24析因設(shè)計(jì))十分近似的統(tǒng)計(jì)分析結(jié)果和結(jié)論。
3.2.2 對(duì)例2的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS輸出結(jié)果及解釋】
由第一個(gè)過程步定義的總模型的方差分析輸出結(jié)果可知,總模型有統(tǒng)計(jì)學(xué)意義(F=11.87,P<0.000 1)。
由第一個(gè)過程步定義的總模型中各因素的方差分析輸出結(jié)果可知,因素A(F=16.34,P<0.000 1)、因素B(F=10.06,P=0.001 2)和因素C(F=20.06,P<0.000 1)對(duì)定量結(jié)果的影響均有統(tǒng)計(jì)學(xué)意義,而因素D(F=1.03,P=0.377 2)則無統(tǒng)計(jì)學(xué)意義。
由第二個(gè)過程步的輸出結(jié)果可知,就4個(gè)因素對(duì)結(jié)果影響的線性部分(分別為AL、BL、CL和DL)的方差分析結(jié)果而言,因素A(F=31.98,P<0.000 1)、因素B(F=20.06,P<0.000 1)和因素 C(F=40.09,P<0.000 1)的線性部分均有統(tǒng)計(jì)學(xué)意義,因素D(F=1.55,P=0.228 8)的線性部分無統(tǒng)計(jì)學(xué)意義。
由第三個(gè)過程步的輸出結(jié)果可知,4個(gè)因素對(duì)定量結(jié)果影響的二次方部分(分別為AQ、BQ、CQ和DQ)的方差分析結(jié)果均無統(tǒng)計(jì)學(xué)意義(具體的F值和P值從略)。
由第四個(gè)過程步的輸出結(jié)果可知,因素B(即x2)(F=21.11,P=0.000 1)、因素 C(即 x3)(F=43.98,P<0.000 1)和因素A的平方項(xiàng)(即x12)(F=35.85,P<0.000 1)對(duì)結(jié)果的影響均有統(tǒng)計(jì)學(xué)意義。對(duì)應(yīng)的多重線性回歸方程如下:
與相同規(guī)模的析因設(shè)計(jì)相比,一個(gè)特定的分式析因設(shè)計(jì)可安排的因素個(gè)數(shù)相同,但因素的水平組合數(shù)更少。對(duì)于二水平因素而言,通??梢詼p少二分之一或四分之三或八分之七;對(duì)于三水平因素而言,通常可以減少三分之一或九分之八或二十七分之二十六。然而,其結(jié)果的精確度會(huì)降低:減少的組合數(shù)越多,精確度越低。一系列分式析因設(shè)計(jì)的表格見文獻(xiàn)[3,6]。
本文介紹了分式析因設(shè)計(jì)的基本概念以及二水平因素和三水平因素的分式析因設(shè)計(jì)的具體實(shí)施,基于SAS軟件實(shí)現(xiàn)了二分之一24析因設(shè)計(jì)和三分之一34析因設(shè)計(jì)定量資料一元方差分析,并對(duì)定量資料進(jìn)行多重線性回歸分析,給出了可用于預(yù)測(cè)的多重線性回歸方程。