★ 郭慧玲 曾輝 閆柏屹 趙曉娟 高文軍 胡律江,2**
(1.江西中醫(yī)學(xué)院 南昌 330004;2.湖南中醫(yī)藥大學(xué) 長(zhǎng)沙 410208)
常用主變量篩選方法及其應(yīng)用特性分析
★ 郭慧玲1*曾輝1閆柏屹1趙曉娟1高文軍1胡律江1,2**
(1.江西中醫(yī)學(xué)院 南昌 330004;2.湖南中醫(yī)藥大學(xué) 長(zhǎng)沙 410208)
本文通過對(duì)幾種常用主變量篩選方法及其應(yīng)用特性進(jìn)行分析可知,在選擇主變量篩選方法時(shí),要充分根據(jù)回歸模型的屬性、樣本數(shù)據(jù)的大小、實(shí)現(xiàn)的難易程度及各主變量篩選方法的應(yīng)用特性綜合考慮選擇合適的方法。
主變量篩選;應(yīng)用特性;結(jié)合法
在數(shù)據(jù)分析的回歸模型中,當(dāng)所研究的問題涉及較多的自變量時(shí),很難想象事先選定的全部自變量對(duì)因變量的影響都有顯著性意義;也不敢保證全部自變量之間是相互獨(dú)立的。因此,變量篩選問題就顯得尤為重要。目前常用的主變量篩選方法有多元線性回歸(MLR)法、主成分回歸(PCA)法、偏最小二乘回歸(PLS)法、人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)法、遺傳算法(GA)等[1,2],本文針對(duì)常用的變量篩選方法、結(jié)合法及其應(yīng)用特性進(jìn)行綜合分析。
多元線性回歸方法是使用最廣泛的建立模型的方法。它的一般形式為:Y = a+b1X1+b2X2+……+bnXn式中,Y為因變量,X1至 Xn為自變量,b1至 bn為自變量的系數(shù)。由公式可知,自變量有多個(gè), 因此在建立多元線性回歸方程時(shí),因根據(jù)各自變量對(duì)因變量的貢獻(xiàn)大小進(jìn)行變量篩選,剔除貢獻(xiàn)小的以及與其他自變量有密切關(guān)系的自變量,從而求出精練的、穩(wěn)定的回歸方程。假設(shè)因變量Y受K個(gè)獨(dú)立變量的影響,對(duì)K個(gè)獨(dú)立變量進(jìn)行篩選后,只選取P個(gè)變量(P 主成分回歸法是在使得數(shù)據(jù)信息損失最小的情況下,對(duì)高維數(shù)據(jù)進(jìn)行降維的一種方法。數(shù)據(jù)的信息一般指的是數(shù)據(jù)的變異程度,用方差來衡量數(shù)據(jù)的信息,方差越大,表示數(shù)據(jù)所包含的信息越豐富。主成分回歸主要采用主成分提取的方法從解釋變量中提取主成分,利用主成分與因變量建立回歸模型,選擇的主成份應(yīng)是數(shù)據(jù)中方差最大的方向,并且主成份之間不相關(guān)。由于主成分的正交性,主成分回歸可有效避免自變量之間的多重共線性問題,減少了回歸變量的個(gè)數(shù),提高了預(yù)測(cè)的精確度,把復(fù)雜的問題簡(jiǎn)單化,防止了過度擬合的情況,為數(shù)據(jù)找到了真實(shí)的維度。 主成分回歸的本質(zhì)就是降維的過程,尋找互不相關(guān)的主成分的過程。主成分分析步驟可概括如下[4]:①將原始數(shù)據(jù)矩陣進(jìn)行中心化與標(biāo)準(zhǔn)化預(yù)處理;②構(gòu)造新的協(xié)方差矩陣;③計(jì)算協(xié)方差矩陣的特征值與特征向量,并將特征值按從大到小排列;④計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率,根據(jù)累計(jì)貢獻(xiàn)率要求(一般大于70%), 選擇前面的r個(gè)特征向量就能近似表示原始的數(shù)據(jù); ⑤計(jì)算主成分載荷。 偏最小二乘回歸法在提取主成分時(shí),既要考慮主成分要包含數(shù)據(jù)的信息,還要與因變量的相關(guān)程度達(dá)到最大,使得主成分對(duì)因變量的解釋程度達(dá)到最大。 偏最小二乘回歸分析在建模過程中集中了主成分分析、典型相關(guān)分析和線性回歸分析等方法的優(yōu)點(diǎn),在分析結(jié)果中,除可提供合理的回歸模型外,還可以同時(shí)完成類似于主成分分析和典型相關(guān)分析的研究?jī)?nèi)容,提供更豐富、更深入的一些信息。偏最小二乘分析方法可以有效地將回歸建模、主成分分析以及典型相關(guān)分析的基本功能有機(jī)地結(jié)合起來,一般認(rèn)為“偏最小二乘 = 典型相關(guān)分析+主成分分析+多元回歸”。目前,國(guó)外的很多專家學(xué)者,把偏最小二乘回歸譽(yù)為第二代多元統(tǒng)計(jì)分析方法[5-7]。與傳統(tǒng)多元線性回歸模型相比,偏最小二乘回歸能夠在各自變量之間存在嚴(yán)重多重相關(guān)性的條件下繼續(xù)進(jìn)行回歸建模,也可以在樣本點(diǎn)個(gè)數(shù)少于變量數(shù)的條件下進(jìn)行回歸建模。偏最小二乘回歸在最終模型中包含原有的所有自變量,因此,更易于辨識(shí)應(yīng)用系統(tǒng)的信息與噪聲(甚至一些非隨機(jī)性的噪聲),每一個(gè)自變量的回歸系數(shù)也更容易解釋其意義[8]。 偏最小二乘回歸還提供了一種多對(duì)多線性回歸建模的方法,特別是當(dāng)自變量和因變量?jī)山M變量的個(gè)數(shù)均很多,且還存在多重相關(guān)性,而觀測(cè)數(shù)據(jù)的數(shù)量(樣本量)又較少時(shí),用偏最小二乘回歸建立的模型具有傳統(tǒng)的回歸分析等方法所不具有的優(yōu)點(diǎn)[9]。 人工神經(jīng)網(wǎng)絡(luò)(ANN) 是一門集神經(jīng)科學(xué)、信息科學(xué)、計(jì)算機(jī)科學(xué)于一體的交叉性邊緣學(xué)科,是一種模擬人類大腦思維方式的數(shù)學(xué)模型,它是由大量處理單元(神經(jīng)元)互相連接組成的大規(guī)模、非線性、自適應(yīng)系統(tǒng)。通過模擬人的智能行為,對(duì)樣本數(shù)據(jù)信息的不斷訓(xùn)練學(xué)習(xí),可以擬合輸入和輸出之間的復(fù)雜的不確定的聯(lián)系,處理非線性問題的能力一般高于傳統(tǒng)統(tǒng)計(jì)分析[10-12]。因此,人工神經(jīng)網(wǎng)絡(luò)的變量篩選方法,可避免在建模過程中如何正確設(shè)定函數(shù)形式難點(diǎn);還可擴(kuò)充回歸建模研究中的函數(shù)類型,使變量選擇研究更具一般性,為在結(jié)構(gòu)未知下的變量篩選開辟了途徑。近年來,基于人工神經(jīng)網(wǎng)絡(luò)的變量篩選在參數(shù)優(yōu)化[13]、工藝優(yōu)化、影響因子的主次分析[14]等領(lǐng)域得到了廣泛的應(yīng)用。 支持向量機(jī)法是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新的分類和回歸的工具[15-16]。通過結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理來提高泛化能力,較好的解決了小樣本、非線性、局部極小點(diǎn)、高維數(shù)等實(shí)際問題,并在模式識(shí)別、信號(hào)處理函數(shù)逼近等領(lǐng)域得到了應(yīng)用[17-18]。 SVM其基本思想是:首先通過非線性變換將輸入空間變換到一個(gè)高維的特征空間,然后在這個(gè)特征空間中求取最優(yōu)線性分類面使分類邊界,即分類平面和最近點(diǎn)(支持向量)之間的距離最大,并且這種非線性變換是通過定義合適的核函數(shù)來實(shí)現(xiàn),然后將SVM問題轉(zhuǎn)化為一個(gè)二次規(guī)劃問題,從而求解。 遺傳算法[19]是仿照生物進(jìn)化和遺傳的規(guī)律,利用復(fù)制、交換、突變等操作,使優(yōu)勝者繁殖,劣敗者消失,一代一代地重復(fù)同樣的操作,最終找出最優(yōu)解。它具有智能式搜索、漸進(jìn)式優(yōu)化、全局最優(yōu)解、并行式算法等特點(diǎn)。 遺傳算法主要執(zhí)行了以下步驟:(1)編碼;(2)初始群體的生成;(3)計(jì)算適應(yīng)度;(4)執(zhí)行遺傳操作;(5)反復(fù)執(zhí)行(3)和(4)后,一旦達(dá)到終止條件,選擇最佳個(gè)體作為遺傳算法的結(jié)果[20]。 近年來,遺傳算法由于具有全局尋優(yōu)、自組織、自適應(yīng)和自學(xué)習(xí)性等特性及其計(jì)算量也明顯小于所有可能回歸法的計(jì)算量,故廣泛用于處理維數(shù)較大的數(shù)據(jù)[21],是一種較實(shí)用的變量篩選方法。 結(jié)合法,即將不同的變量篩選方法聯(lián)合使用的一種變量篩選方法。如PLS-BP法:偏最小二乘回歸方法能有效地提取對(duì)系統(tǒng)最佳解釋能力的新綜合變量,較好地克服自變量間的多重線性相關(guān)性,但不能有效處理因變量與自變量間復(fù)雜的非線性問題,而神經(jīng)網(wǎng)絡(luò)方法是解決非線性問題的有力工具,但由于輸入數(shù)據(jù)的多重相關(guān)性使得網(wǎng)絡(luò)的求解變得不穩(wěn)定及收斂速度慢,因此將2種方法結(jié)合起來對(duì)變量進(jìn)行篩選,既提高模型的穩(wěn)定性,又?jǐn)U展了模型的應(yīng)用范圍?,F(xiàn)較常用的結(jié)合法有PCA-ANN[22]、PLS-ANN[23]、ANN-GA[24]、PLS-GA[25]等。 綜上所述,處理回歸模型的主變量進(jìn)行篩選時(shí),不同的變量篩選方法各有其特點(diǎn),因根據(jù)模型的屬性(線性模型與非線性模型)、樣本數(shù)據(jù)的大小、實(shí)現(xiàn)的難易程度等因素選擇合適的變量篩選方法。必要時(shí),可以采用結(jié)合法,使得篩選的變量更符合要求。 [1]Blanco M, Villarreal I. NIR spectroscopy: A rapid-response analytical tool[J].Trends Anal Chen, 2002, 21(4):240-250. [2]褚小立,許育鵬,陸婉珍.用于近紅外光譜分析的化學(xué)計(jì)量學(xué)方法研究與應(yīng)用進(jìn)展[J].分析化學(xué)評(píng)述與進(jìn)展,2008,36(5):702-709. [3]金浩,高素英.最佳多元線性回歸模型的選擇[J].河北工業(yè)大學(xué)學(xué)報(bào),2002,31(5):10-13. [4]Shen, HP,Huang, JHZ.Sparse principal component analysis via regularized low rank matrix approximation[J].Journal of Multivariate Analysis,2008,99(6):1 015-1 034. [5]張新安,田澎.購(gòu)后行為意向的偏最小二乘建模與分析[J].工業(yè)工程與管理,2003,8(3):14-19. [6]Oliver R L.ACognitive Model of theAntecedents and Consequences of Satisfaction Decisions[J]. Journal of Marketing Research, 1980, 17(4):460-470. [7]Westbrook RA, Reilly M D.An Alternative to Disconfirmation of Expectations Theory of Consumer Satisfaction[J].Advanced in Consumer Research, 1983, 6(3):256-261. [8]黃敏杰,葉昊,王桂增.基于投影的回歸分析方法綜述[J].控制理論與應(yīng)用,2001,18(z1):1-6. [9]楊棟.基于PLS回歸方法的中國(guó)高技術(shù)產(chǎn)品進(jìn)口影響因素分析[J].經(jīng)濟(jì)研究導(dǎo)刊,2009,(25):172-174. [10]Snow PB,Kerr DJ,Brandt JM,et al. Neural network and regression Predictions of 5-year Survival after colon carcinoma treatment[J].Cancer,2001,91(8):2 003-2 009. [11]Santos-Garcfa,Varela G,Sovoa N,et al. Prediction of postoperative morbidity after lung resection using an artificial neural network ensemble[J]. Artif Intell Med,2004,30(1):61-69. [12]Mehmed Kantardzic (USA). Data Mining Concepts,Models,Methods,and Algorithms [M].閃四清等,譯.北京:清華大學(xué)出版社,2003. [13]徐富強(qiáng),劉相國(guó).基于優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)的變量篩選方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2012,21(3):206-208. [14]周偉,王建軍,李繼銳. 基于人工神經(jīng)網(wǎng)絡(luò)的影響高速公路社會(huì)效益量化的變量選擇方法[J].西安公路交通大學(xué)學(xué)報(bào),2000,20(3):63-66. [15]陳永義,俞小鼎,高學(xué)浩,等.處理非線性分類和回歸問題的一種新方法(I)-支持向量機(jī)方法簡(jiǎn)介[J].應(yīng)用氣象學(xué)報(bào),2004,15(3):345-354. [16]Vapnik V. An Overview of Statistical Learning Theory [J].IEEE Trans. on Neural Network, 1999,10(5):988-999. [17]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào), 2000,26(1):32-42. [18]梁路宏,艾海舟,張鈸.基于模板匹配與支持向量機(jī)的人臉檢測(cè)[J].計(jì)算機(jī)學(xué)報(bào), 2002, 25(1):22-29. [19]Dominique M. and Alistair B. .Nonlinear Blind Source Separation Using Kernels [J].IEEE Trans. On Neural Networks, 2003, 14(1):228-235. [20]YUN Qing-Xia,HUANG Guang-Qiu,WANG Zhan-Quan. Genetic Algorithms and Genetic Programming[M].Beijing: Metallurgy Industry press,1997:11,21. [21]章元,朱爾一,莊峙廈,等. 遺傳算法用于變量篩選[J].高等學(xué)?;瘜W(xué)學(xué)報(bào), 1999,20(9):1 371-1 375. [22]張雪伍,常晉義.PCA-BP在城市汽車保有量預(yù)測(cè)中的應(yīng)用研究[J].計(jì)算機(jī)仿真,2012,29(12):376-379. [23]劉波平,榮菡,鄧澤元,等.基于PLS-自組織競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)近紅外光譜技術(shù)對(duì)鮮乳和摻假乳的檢測(cè)方法研究[J].分析測(cè)試學(xué)報(bào),2008,27(11):1 147-1 150,1 156. [24]劉德玲,關(guān)曉穎,黃艷萍,等.基于BP神經(jīng)網(wǎng)絡(luò)和改進(jìn)遺傳算法的鉤藤堿提取工藝優(yōu)化研究[J].計(jì)算機(jī)與現(xiàn)代化,2012,(8):17-20. [25]褚小立,袁洪福,王艷斌,等.遺傳算法用于偏最小二乘方法建模中的變量篩選[J].分析化學(xué),2001,29(4):437-442. 征稿啟事 《江西中醫(yī)藥》所設(shè)的重點(diǎn)欄目有《明醫(yī)心鑒》、《滕王閣醫(yī)話》等?!睹麽t(yī)心鑒》以介紹名老中醫(yī)經(jīng)驗(yàn)和中醫(yī)臨證心得為主,重點(diǎn)刊載中醫(yī)關(guān)于疑難病的診療經(jīng)驗(yàn),要求觀點(diǎn)、方法新,經(jīng)驗(yàn)獨(dú)到?!峨蹰w醫(yī)話》主要反映中醫(yī)教學(xué)、科研、臨床的一得之見,要求以小見大,有感而文,語(yǔ)言生動(dòng)流暢,可讀性強(qiáng),富于知識(shí)性、趣味性。 TheCommonPrimaryVariableSelectionMethodsandItsApplicationCharacteristics GUOHui-ling1,ZENGHui1,YANBai-yi1,ZHAOXiao-juan1,GAOWen-jun1,HULv-jiang1,2 1.JiangxiUniversityofTraditionalChineseMedicine,Nanchang, 330004; 2.HunanAcademyofChineseMedicine,Changsha, 410208 This article through analysis the several common primary variable selection methods and its application characteristics, we can find that, it is necessary to select the appropriate method fully based on the properties of regression model, the size of sample data, the implementation of the difficult degree and the application features of primary variable selection methods. Primary Variable Selection; Application Features; Binding Method 郭慧玲,女,教授;從事中藥制劑新技術(shù)研究,Tel:13870934562,E-mail:ghl6262@126.com。 **通訊作者:胡律江,男,博士研究生,講師,從事中藥制劑新技術(shù)研究,Tel:13767104131;E-mail:380085581@qq.com。 O 212 A 2013-05-31)2 主成分回歸(PCA) 法
3 偏最小二乘回歸(PLS) 法
4 人工神經(jīng)網(wǎng)絡(luò)(ANN) 法
5 支持向量機(jī)(SVM) 法
6 遺傳算法(GA)
7 結(jié)合法