戴建國
(廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州,510006)
對數(shù)線性模型的選擇方法及其應(yīng)用
戴建國
(廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州,510006)
為構(gòu)造最佳對數(shù)線性模型,通過λ系數(shù)構(gòu)造λ相關(guān)系數(shù)矩陣,將其作為對數(shù)線性模型中交互項選擇的方法,并用于分析肺癌治療數(shù)據(jù)。結(jié)果表明,選出的交互項可以構(gòu)造最佳的模型對數(shù)據(jù)進(jìn)行準(zhǔn)確的分析,因此在應(yīng)用對數(shù)線性模型分析前,先用相關(guān)系數(shù)矩陣進(jìn)行探索性研究分析是很有必要的。
對數(shù)線性模型;相關(guān)系數(shù)矩陣;交互項
對數(shù)線性模型是處理非線性相關(guān)離散數(shù)據(jù)常用的一種分析方法[1],而分類離散數(shù)據(jù)通常以列聯(lián)表的形式呈現(xiàn),在醫(yī)療數(shù)據(jù)和社會調(diào)查數(shù)據(jù)中尤為常見。列聯(lián)表有二維、三維或者更高維的形式,其表達(dá)的是多個分類變量交叉計數(shù)的資料,對數(shù)線性模型是處理這類數(shù)據(jù)的有效工具。對數(shù)線性模型分為飽和模型、條件獨立模型、部分條件獨立模型、相互獨立模型(即只含主效應(yīng))[2]。對于最簡單的二維列聯(lián)表,其由2個屬性變量構(gòu)成,分別表示成行和列,具有2個主效應(yīng)和1個交互效應(yīng)。對于三維或者更高維的情況,主效應(yīng)增加,交互效應(yīng)也隨之增加,這時就需要選擇有用的效應(yīng)構(gòu)造合適的模型。之前也有一些文獻(xiàn)討論過對數(shù)線性模型的選擇方法,如:張巖波等[3]利用了 Brown’s偏關(guān)聯(lián)檢驗篩選模型;崔靜等[4]通過自適應(yīng) Lasso對對數(shù)線性模型中的變量進(jìn)行選擇;李春紅等[5]探討了 Adaptive elastic net方法在Poisson對數(shù)線性模型選擇中應(yīng)用;唐先勇[6]將3維列聯(lián)表中所有可能的HLLM模型分成2大類,然后運用AIC準(zhǔn)則從接受類中挑選出“最佳”模型。
本文以3維列聯(lián)表為例,引入λ系數(shù),并構(gòu)造λ相關(guān)系數(shù)矩陣對交互效應(yīng)進(jìn)行選擇,通過擬合優(yōu)度統(tǒng)計量和BIC、AIC準(zhǔn)則[1-7]對模型進(jìn)行評價。
λ系數(shù)是Leo A Goodman與William H Kruskal在1954年提出來的[8],其基本原理是假定有2離散變量X、Y分別有I和J個類別,可構(gòu)成2維聯(lián)合分布,對樣本中個體進(jìn)行隨機選擇,將一半分配到Y(jié)變量上,另一半分配到X變量上。按照相對減少誤差比例的規(guī)則對變量作出預(yù)測,在未知另一個變量的情況下,猜Y變量類別時,猜測個體最有可能出現(xiàn)在π+M類別上,即Y邊緣概率最大的那一類,猜對的概率為π+M/2。同理,猜測X變量時,猜測個體最有可能出現(xiàn)在πM+類別上,猜對的概率為πM+/2(M為最大行列邊緣概率對應(yīng)的行與列),則總的猜錯概率為 1?(πM++π+M)/2;而在已知另一半的情況下進(jìn)行猜測時,猜測Y變量最好的預(yù)測是(其中m表示在給定行列下最大聯(lián)合概率對應(yīng)的列與行),即X每個類別下Y最大概率的總和的一半,猜測X變量最好的預(yù)測是即Y每個類別下X最大概率的總和的一半,因此猜錯總概率為則相對減少誤差比例。其中π表示頻率,n表示頻數(shù)。下面舉例說明,數(shù)據(jù)聯(lián)合分布見表1。其中X有3個類別,Y有3個類別。即X、Y的λ相關(guān)系數(shù)為0.152 8。當(dāng)有多個變量時,各變量間的λ系數(shù)則可構(gòu)造λ相關(guān)矩陣。
表1 簡單的二維列聯(lián)表
設(shè)一個3維列聯(lián)表有X、Y、Z3個屬性變量,Xi、Yj、Zk(i=1,2,…,R;j=1,2,…,C;k=1,2,…,T)分別表示各屬性變量的類別,期望頻數(shù)mijk=E(nijk)。3維列聯(lián)表的所有對數(shù)線性模型如表2所示。
表2 3維列聯(lián)表的各類模型
在模型表達(dá)式中:μ是指總平均;為X在i時的主效應(yīng);為相應(yīng)的主效應(yīng);為Xi與Yi的二次交互效應(yīng);為相應(yīng)的二次效應(yīng);為三次交互效應(yīng)。
表3 小細(xì)胞肺癌實驗數(shù)據(jù)
在一項治療小細(xì)胞肺癌的試驗中,患者被隨機地分成2組。連續(xù)治療組在每一個治療周期使用相同的化學(xué)藥物聯(lián)合療法,交替治療組在不同治療周期使用不同的藥物組合,分析不同性別,治療組的療效有無差別。3個屬性變量分別記為X、Y、Z,數(shù)據(jù)[9]見表3。通過R軟件計算三者的λ相關(guān)系數(shù)矩陣如表4所示。從λ相關(guān)系數(shù)矩陣來看,Y、Z存在交互關(guān)系,另外2對變量關(guān)系幾乎為0,所以模型中只要考慮Y、Z交互效應(yīng)。表5給出了所有可能的對數(shù)線性模型,以及相應(yīng)的似然比擬合優(yōu)度統(tǒng)計量、皮爾森卡方擬合優(yōu)度統(tǒng)計量、自由度、p值以及BIC、AIC的值。
表4λ相關(guān)系數(shù)矩陣
表5 各種對數(shù)線性模型擬合結(jié)果
由表5可知,簡單模型(X,YZ)的AIC、BIC值最小,分別為94.635、101.588,并且擬合優(yōu)度統(tǒng)計量的p值均接受原假設(shè)。雖然模型(YX,YZ)、(ZX,ZY)、(XY,XZ,YZ)擬合優(yōu)度統(tǒng)計量的p值均接受原假設(shè),但其比模型(X,YZ)更為復(fù)雜,并且AIC、BIC準(zhǔn)則值均比模型(X,YZ)的值大,從而不宜作為最佳模型。而對于飽和模型一般沒有多大意義,因為該模型的參數(shù)個數(shù)和列聯(lián)表單元格一樣多。這說明選(X,YZ)作為最佳模型是合理的,與用λ相關(guān)系數(shù)矩陣選出的結(jié)果完全一樣,即性別對療效幾乎無影響,主要是受到治療方式的影響。
通過λ相關(guān)系數(shù)構(gòu)造了相關(guān)系數(shù)矩陣,其可作為探索性研究分析的有工具,使得各變量間的關(guān)系一目了然,因此在進(jìn)行構(gòu)造對數(shù)線性模型前,可以先通過λ相關(guān)矩陣進(jìn)行分析,找出變量間的關(guān)系,選擇合適的交互項假如對數(shù)線性模型。這樣可以為選擇最優(yōu)的對數(shù)線性模型提供有力的依據(jù),提高模型的預(yù)測能力。除此之外,還可構(gòu)造一種與文獻(xiàn)[10]類似特征選取的算法,但有待進(jìn)一步研究。
[1]Alan Agresti.An Introduction to Categorical Data Analysis [M].New York:Wiley-Interscience,2007.
[2]趙平.定性數(shù)據(jù)的統(tǒng)計分析[M].北京:社會科學(xué)文獻(xiàn)出版社,2014:75-78.
[3]張巖波,何大衛(wèi).對數(shù)線性模型的最優(yōu)模型篩選策略[J].中國衛(wèi)生統(tǒng)計,1996,13(6):4-7.
[4]崔靜,郭鵬江,夏志明.自適應(yīng)Lasso在Poisson對數(shù)線性回歸模型下的性質(zhì)[J].西北大學(xué)學(xué)報(自然科學(xué)版),2011,41(4):565-568.
[5]李春紅,黃登香,覃朝勇.一種改進(jìn)的 Lasso方法及其在對數(shù)線性模型中的應(yīng)用[J].廣西大學(xué)學(xué)報(自然科學(xué)版),2015,40(3):758-765.
[6]唐先勇.3維列聯(lián)表中對數(shù)線性模型的選擇策略[J].湖南科技學(xué)院學(xué)報,2003,1(1):155-159.
[7]Edwards D,Abreu G C D,Labouriau R.Selecting high-dimensional mixed graphical models using minimal AIC or BIC forests [J].BMC Bioinformatics,2010,11(1):158-180.
[8]Goodman L A,Kruskal W H.Measures of Association for Cross Classification [J].Journal of the American Statistical Association,1954,49:742-744.
[9]胡良平.SAS統(tǒng)計分析教程[M].北京:電子工業(yè)出版社,2010:162-163.
[10]胡佩姍,孫吉康,王平.基于改進(jìn)最小冗余最大相關(guān)及私有化預(yù)測用于抗菌肽活性的QSAR研究[J].湖南文理學(xué)院學(xué)報(自然科學(xué)版),2016,28(1):29-34.
(責(zé)任編校:劉剛毅)
Logarithmic linear model selection method and its application
Dai Jianguo
(Mathematics and Information Science Department,Guangzhou University,Guangzhou 510006,China)
In order to construct the best logarithm linear model,that making the coefficient of correlation coefficient matrix as interaction item selection of a logarithmic linear model is used to analyze the lung cancer treatment data.Results show that the interaction item which had selected can construct the best model,the analysis of the data is accurate,so before the application of logarithmic linear model analysis,correlation coefficient matrix analysis of exploratory research is necessary.
logarithm linear model;the correlation coefficient matrix;interactive items
O 212.1
A
1672-6146(2017)02-0021-03
戴建國,1012894435@qq.com。
2017-02-18
10.3969/j.issn.1672-6146.2017.02.006