任佳佳,李海洋,張 倩
(西安工程大學(xué) 理學(xué)院,陜西 西安 710048)
基于TL1罰的稀疏主成分分析
任佳佳,李海洋,張 倩
(西安工程大學(xué) 理學(xué)院,陜西 西安 710048)
在稀疏主成分分析的基礎(chǔ)上,用TL1罰替代稀疏主成分分析中的L1罰,提出TL1罰稀疏主成分分析,并給出TL1罰稀疏主成分分析的閾值迭代算法.最后,以蔬菜選擇為例進(jìn)行數(shù)值模擬,結(jié)果表明TL1罰稀疏主成分分析效果更優(yōu).
稀疏主成分分析;TL1罰;閾值迭代算法
主成分分析[1]是考察多個(gè)變量間相關(guān)性的一種多元統(tǒng)計(jì)方法,通過幾個(gè)主成分來揭示多個(gè)變量間的內(nèi)部結(jié)構(gòu),即從原始變量中導(dǎo)出幾個(gè)主成分,使其盡可能多地保留原始變量的信息,且彼此間互不相關(guān). 該方法被廣泛應(yīng)用于金融、經(jīng)濟(jì)、管理等領(lǐng)域[2-5]. 但通過主成分分析所得的每個(gè)主成分為所有原始變量的線性組合,使所得主成分難于解釋,而解決實(shí)際問題時(shí),有時(shí)只需考慮與主成分關(guān)系比較密切的一些原始變量. 為了凸顯主成分和原始變量的關(guān)系,一些學(xué)者將稀疏性引入主成分分析. 2003年,Jolliffe受Lasso[6]的啟發(fā),將L1罰引入主成分[7],提出了模型
(1)
該模型實(shí)現(xiàn)主成分對原始變量的自動(dòng)選擇,保留與主成分關(guān)系密切的原始變量,剔除與主成分關(guān)系不密切的原始變量. 2005年,Zou[8]等將模型(1)中主成分的求解問題直接轉(zhuǎn)化為Lasso回歸問題,有效地把主成分的求解轉(zhuǎn)化為線形模型的變量選擇問題. 但當(dāng)觀測變量的個(gè)數(shù)遠(yuǎn)遠(yuǎn)大于樣本的個(gè)數(shù)時(shí),通過L1罰所得的解過于稀疏,導(dǎo)致大量信息被損失. 為了克服該缺點(diǎn),Zou將“elastic net”懲罰結(jié)構(gòu)引入主成分,提出了稀疏主成分分析[9]. 其模型為
(2)
其中,A是通過主成分分析得到的前k個(gè)主成分的系數(shù)組成的矩陣,βj為矩陣B中第j列.
稀疏主成分分析具有L1罰和L2罰的優(yōu)點(diǎn),能凸顯所得主成分與原始變量的關(guān)系,并有效解決變量個(gè)數(shù)大于樣本個(gè)數(shù)的優(yōu)化問題. 在稀疏主成分分析中,L1罰是保證所得主成分系數(shù)稀疏,L2罰是為了克服當(dāng)樣本量小于變量個(gè)數(shù)時(shí),所得的主成分系數(shù)過稀疏的缺點(diǎn). 一些學(xué)者將稀疏主成分分析應(yīng)用到綜合評價(jià)、股票研究及其他方面[10-12],取得較好的效果. 然而,基于L1罰的優(yōu)化問題仍存在至少兩方面的不足:第一,數(shù)據(jù)之間可能存在很大的冗余難以去除;第二,無法區(qū)分稀疏尺度的位置,即會(huì)出現(xiàn)低尺度的能量轉(zhuǎn)移到高尺度的現(xiàn)象,因而易出現(xiàn)高頻震蕩現(xiàn)象.
本文將TL1罰應(yīng)用于稀疏主成分分析,即用TL1罰替代稀疏主成分分析中的L1罰,對稀疏主成分分析進(jìn)行改進(jìn),以克服基于L1罰優(yōu)化問題的不足,并給出優(yōu)化模型.然后通過2-范數(shù)的性質(zhì)把TL1罰稀疏主成分分析的求解進(jìn)行轉(zhuǎn)化.最后利用閾值迭代算法對優(yōu)化問題(4)進(jìn)行求解,并將該方法應(yīng)用到蔬菜選擇實(shí)例中,結(jié)果表明TL1罰稀疏主成分分析具有效果更優(yōu).
(3)
其中,Yi是第i個(gè)主成分,λ1,λ2,a是參數(shù).
利用2-范數(shù)的性質(zhì),TL1罰稀疏主成分分析可轉(zhuǎn)換為
(4)
為了求解優(yōu)化問題(4),利用文獻(xiàn)[15-16]中提出的閾值迭代算法,給出該問題的閾值迭代函數(shù),即
其中,
下面,給出TL1罰稀疏主成分分析的閾值迭代算法,具體步驟如下:
(1) 對原始數(shù)據(jù)進(jìn)行主成分分析,并按方差累計(jì)貢獻(xiàn)率提取k個(gè)主成分;
(2) 初始化:將第i主成分的系數(shù)初始為x0,給一個(gè)合適的a,ε,μ0;
(3) 計(jì)算zn=Bμ(xn)=xn+μAT(y-Axn),令λ2=λ0,μ=μ0;
(5) 重復(fù)步驟(3)~(4),當(dāng)|xn+1(i)-xn(i)|<ε,或n>3 000時(shí),停止迭代,輸出xn+1.
對研究數(shù)據(jù)(2014年數(shù)學(xué)建模D題中常見蔬菜營養(yǎng)成分表中數(shù)據(jù))進(jìn)行處理,將蔬菜的種類作為樣本,蔬菜中所含的各種膳食纖維的含量作為變量,分別進(jìn)行主成分分析、稀疏主成分分析和TL1罰稀疏主成分分析.分析時(shí),按方差累計(jì)貢獻(xiàn)率的80%來提取主成分,提取主成分的個(gè)數(shù)為4. 在此基礎(chǔ)上,利用閾值迭代算法對所提取的主成分進(jìn)行稀疏主成分分析,得到稀疏主成分對應(yīng)的系數(shù)矩陣及相應(yīng)的方差貢獻(xiàn)率,如表1所示.
表 1 稀疏主成分的系數(shù)矩陣和方差貢獻(xiàn)率
稀疏主成分形式為
(5)
其中,Fi為第i個(gè)主成分,αi為第i個(gè)主成分的系數(shù),i=1,2,3,4,x=(x1,x2,…,x16)′.
由表1和式(5)可知,稀疏主成分分析的稀疏性表現(xiàn)在稀疏主成分的系數(shù)上,系數(shù)中零的個(gè)數(shù)越多,稀疏主成分越稀疏.
由得到的稀疏主成分和方差貢獻(xiàn)率,可以得到稀疏主成分分析的模型為
F=0.531F1+0.209F2+0.135F3+0.125F4.
利用TL1罰稀疏主成分分析的閾值迭代函數(shù)對主成分分析的主成分進(jìn)行處理,得到TL1罰稀疏主成分對應(yīng)的系數(shù)及相應(yīng)的方差貢獻(xiàn)率,如表2所示.
表 2 TL1罰稀疏主成分分析的系數(shù)矩陣和方差貢獻(xiàn)率
TL1罰稀疏主成分的形式為
與表1相同,表2中主成分具有稀疏性,且零的個(gè)數(shù)越多,稀疏主成分越稀疏.由表1和表2可知,稀疏主成分分析和TL1罰稀疏主成分分析都具有稀疏性,且兩者稀疏性基本相同,但在方差累計(jì)貢獻(xiàn)率方面,TL1罰稀疏主成分分析略高于稀疏主成分分析.
根據(jù)所得的稀疏主成分和方差貢獻(xiàn)率,可以得到TL1罰稀疏主成分分析的模型為
由上述所得的兩種模型,根據(jù)常見蔬菜各種膳食纖維營養(yǎng)的含量,計(jì)算每種蔬菜的各主成分得分,再利用主成分分析(PCA)、稀疏主成分分析(SPCA)和TL1罰稀疏主成分分析(TLPCA)的主成分模型對已知的蔬菜主成分得分進(jìn)行排序.結(jié)果如表3所示.
由表3可知,主成分分析、稀疏主成分分析和TL1罰稀疏主成分分析對蔬菜的排序結(jié)果相差不大.其中,排名前五的蔬菜均為蘑菇、榨菜、木耳、香菇和茄子.
表 3 3種分析方法的主成分得分排序
[1] 何曉群.現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M].第三版.北京:中國人民大學(xué)出版社,2004:115-141.
HE X Q.Method and application of modern statistical analysis[M].3 ed.Beijing:China Renmin University Press,2004:115-141.
[2] 李靖華,郭耀煌.主成分分析用于多指標(biāo)評價(jià)的方法研究——主成分評價(jià)[J].管理工程學(xué)報(bào),2002,16(1):39-44.
LI J H,GUO Y H.Principal component evaluation——A multivariate evaluate method expanded from principal component analysis[J].Journal of Industrial,2002,16(1):39-44.
[3] 侯圓圓,王禮李.基于主成分分析基礎(chǔ)上的中國家庭蔬菜消費(fèi)預(yù)測[J].統(tǒng)計(jì)與決策,2010(23):91-93.
HOU Y Y,WANG L L.Base on principal component analysis on the basis of Chinese family vegetable consumption forecast[J].Statistics and Decision,2010(23):91-93.
[4] 李莉,孫永霞.基于均值化主成分分析的霧霾環(huán)境分析與研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(5):1373-1375.
LI L,SUN Y X.Haze environment analysis and research based on equalization of principal component analysis[J].Application Research of Computers,2015,32(5):1373-1375.
[5] 趙希男.主成分分析法評價(jià)功能淺析[J].系統(tǒng)工程,1995,13(2):24-27.
ZHAO X N.Analysis of the evaluation effect on the principal component analysis method[J].Systems Engineering,1995,13(2):24-27.
[6] TIBSHIRANI R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society:Series B(Methodological),1996,58(1):267-288.
[7] JOLLIFFE I T,TRENDAFILOV N T,UDDIN.A modified principal component technique based on the LASSO[J].Journal of Computational and Graphical Statistics,2003,12(3):531-547.
[8] ZOU H,HASTIE T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society:Series B(Statistical Methodilogy),2005,67(2):301-320.
[9] ZOU H,HASTIE T,THBSHIRANI R.Sparse principal component analysis[J].Journal of Computational and Graphical Statistics,2006,15(2):265-285.
[10] 喻勝華,張新波.稀疏主成分在綜合評價(jià)中的應(yīng)用[J].財(cái)經(jīng)理論與實(shí)踐,2009,30(161):106-109.
YU S H,ZHANG X B.The application of sparse principal component analysis in comprehensive assessment[J].The Theory and Practice of Finance and Economics,2009,30(161):106-109.
[11] 周靜.武忠祥.基于稀疏主成分的股票指數(shù)追蹤研究[J].工程數(shù)學(xué)學(xué)報(bào),2013,30(2):159-168.
ZHOU J,WU Z X.Research of tracking stock index with sparse principal component[J].Chinese Journal of Engineering Mathematics,2013,30(2):159-168.
[12] 沈?qū)幟?李靜,周培云,等.一種基于稀疏主成分的基因表達(dá)數(shù)據(jù)特征提取方法[J].計(jì)算機(jī)科學(xué),2015,42(6A):453-458.
SHEN N M,LI J,ZHOU P Y,et al.Feature extraction method based on sparse component for gene expression data[J].Computer Science,2015,42(6A):453-458.
[13] NIKOLOVA M.Local strong homogeneity of a regularized estimator[J].SIAM J Appl Math,2000,61(2):633-658.
[14] LYU J,FAN Y.A unified approach to model selection and sparse recovery using regularized least squares[J].Annals of Statistics,2009,37(6A):3498-3528.
[15] 常象宇,饒過,吳一戎,等.如何在壓縮感知中正確使用閾值迭代算法[J].中國科學(xué),2010,40(1):1-12.
CHANG X Y,RAO G,WU Y R,et al.How to correct use in compression perception thresholding iterative algorithm[J].Science in Chinese,2010,40(1):1-12.
[16] ZHANG S,XIN J.Minimization of transformedL1penalty:Theory difference of covex function algorithm,and robust application in compressed sensing[J].Cornell University Library,arXiv:1411.5735.
編輯、校對:師 瑯
Sparse principal component analysis based on transformedL1penalty
RENJiajia,LIHaiyang,ZHANGQian
(School of Science, Xi′an Polytechnic University, Xi′an 710048, China)
TransformedL1penalty sparse principal component analysis was proposed by replacingL1penalty with transformedL1penalty based on sparse principal component analysis, and a thresholding iteration algorithm was given for transformedL1penalty sparse principal component analysis. Finally, taking vegetable selection as an example, the numerical simulation results show that transformedL1penalty sparse principal component analysis performs better.
sparse principal component analysis;transformedL1penalty; iterative thresholding algorithm
1006-8341(2016)04-0478-06
10.13338/j.issn.1006-8341.2016.04.011
2016-04-18
國家自然科學(xué)基金資助項(xiàng)目 (11271297);陜西省自然科學(xué)基金資助項(xiàng)目(2015JM1012)
李海洋(1975—),男,陜西省富平縣人,西安工程大學(xué)教授,博士,研究方向?yàn)橄∈栊畔⑻幚?量子邏輯及格上拓?fù)鋵W(xué).E-mail:fplihaiyang@126.com
任佳佳,李海洋,張倩.基于TL1罰的稀疏主成分分析[J].紡織高?;A(chǔ)科學(xué)學(xué)報(bào),2016,29(4):478-483.
REN Jiajia, LI Haiyang,ZHANG Qian.Sparse principal component analysis based on transformedL1penalty[J].Basic Sciences Journal of Textile Universities,2016,29(4):478-483.
O 213
A