米吉提·阿不里米提,吾米提·尤努斯,艾斯卡爾·艾木都拉
(新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046)
PCA(Principle Component Analysis)是一個有效、應(yīng)用廣泛的信號轉(zhuǎn)換方法。因為簡單、無需多余的附加信息就能從復(fù)雜數(shù)據(jù)中抽取最重要的信息。PCA為降低維度、解開隱藏信息提供了捷徑。較少數(shù)據(jù)冗余度,轉(zhuǎn)換結(jié)果比轉(zhuǎn)換前減少至少一個成分。能量集中在前部分。轉(zhuǎn)換結(jié)果是個不相關(guān)的正交基,即是個正交線性變換。
PCA變換,在不同的應(yīng)用場合有不同的名字,如Hotelling變換、KL變換POD變換、SVD變換等[1]。它是最簡單的特征向量為基礎(chǔ)的分析方法,他是通過方差分析數(shù)據(jù)的方法。由于能量集中在前部分,通過主要部分就可以代表整個多維數(shù)據(jù),并達(dá)到很好的降維目的。但是,PCA和多個抽象概念領(lǐng)域有密切關(guān)系,因此需要簡單案例來解釋才能達(dá)到最佳教學(xué)效果[2]。
雖然有很多這方面的資料[3-4],但是要么是過于抽象、難以理解并實現(xiàn),要么就是概念模糊,所以本文以通俗易懂的方式講解PCA變換。
我們的目的是找到一種變換Z=XW使得ZZT=I,最終使變換后的數(shù)據(jù)是個對角矩陣,這樣變換后相關(guān)性就會消除。提取特征向量最好的辦法是找出一個對稱矩陣。Covariance協(xié)方差是很好的對稱矩陣,它是正定矩陣,所以有正交特征向量,及實數(shù)特征值。
設(shè)X_由n個樣本構(gòu)成,每個樣本的維數(shù)是p,則X_是n行p列,n*p,矩陣。設(shè)轉(zhuǎn)換矩陣W是p*p方陣,X_歸一化后的PCA變換是Z=XW。轉(zhuǎn)換前及轉(zhuǎn)換后的數(shù)據(jù)方差為:
covZ,covX都是p*p方陣。covX是對稱矩陣,covZ是對角矩陣,即消除了 covX的互相關(guān)性。特別需要說明的是,方差的計算方法covX=XTX需要先對樣本X_進(jìn)行歸一化后才是正確的。歸一化是指,從X_的每列減去該列的平均值。
即:
因為,協(xié)方差矩陣是個對稱矩陣,它的特征向量之間是互相正交的[2]。這里需要些線性代數(shù)知識,尤其是特征向量(eigenvector)分解方法。簡單特征向量求解方法如下:
A=cov則Avi=λivi其中λi是特征值,vi是對應(yīng)的特征向量
VTA=VTLI=AV=LIV,其中,L是由特征值構(gòu)成的一行[…λi…]
求解方法是:AV=LIV→det(A-LI=)0
V對應(yīng)的特征向量集,每列一個向量vi
I是單位對角矩陣;V是正交集,對每個向量進(jìn)行標(biāo)準(zhǔn)化,就變成了標(biāo)準(zhǔn)正交集(orthonormal),我們直接取W=V。標(biāo)準(zhǔn)正交矩陣有性質(zhì)W-1=WT。
對于對稱矩陣 covXW=WTcovX=LW
WTcovXW=LWW-1→WTcovXW=LI=diag(λi)
簡單PCA變換步驟是:
①對X_的標(biāo)準(zhǔn)化。
②covX特征向量的求解,并由大到小排序,排序依據(jù)是對應(yīng)的特征值幅度的大小。
③轉(zhuǎn)換矩陣W的構(gòu)造。
④計算Z=XW。
假設(shè)有三個樣本數(shù)據(jù)X_,對每列歸一化變成X,然后計算 covX。
要計算特征值和特征向量,可以用行列式方法
大家可以用Python或MATLAB獲得結(jié)果。也可以根據(jù)行列式的算法構(gòu)成一個多項式函數(shù),然后求解。
特 征 值L=[λ1λ2λ3λ4]=[9.8630.32400.003]對應(yīng)的特征向量是:
我們將特征值根據(jù)幅度從大到小排列L=[λ1λ2λ4λ3]=[9.8630.3240.0030],對應(yīng)的特征向量也要換位置。
然后計算PCA變換Z=XW
我們可以看到能量集中在前2列,我們將后2列設(shè)置成0,然后進(jìn)行反變換。
我們可以看到X的值比原始值變化很小。因此,通過小小的損失,將原來的樣本的特征從4個減少到2個,有效消除了數(shù)據(jù)冗余。
本文我們用簡單概念講解及實例來詳細(xì)介紹了PCA轉(zhuǎn)換的方法和步驟。雖然相關(guān)資料很多,但大部分資料要么概念形過于抽象,要么實例模糊。我門盡量用最簡單的概念和典型的例子將概念和實踐聯(lián)系起來,為學(xué)生提供了教學(xué)案例。本文可能有不足之處,希望大家給予批評指正。