孫一然
【摘 要】主成分分析法,是對(duì)多變量大樣本數(shù)據(jù)的一種有效的研究方法。本文首先介紹主成分分析法的應(yīng)用背景、定義和基本步驟,進(jìn)一步介紹其內(nèi)在本質(zhì),即數(shù)學(xué)中的降維思想。并通過(guò)主成分分析法在經(jīng)濟(jì)、金融中的應(yīng)用,說(shuō)明數(shù)學(xué)知識(shí)對(duì)于各個(gè)社會(huì)領(lǐng)域的重要的應(yīng)用意義。
【關(guān)鍵詞】主成分分析法;經(jīng)濟(jì)金融;應(yīng)用
一、主成分分析法
在許多領(lǐng)域中,往往涉及多變量大樣本的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)時(shí),不能僅僅考慮單個(gè)變量的影響,而需要多個(gè)變量協(xié)同考慮。然而,多個(gè)變量又相互作用,這就給分析和預(yù)測(cè)帶來(lái)了一定的難度。對(duì)此,需要引入合適的方法,將變量的數(shù)目簡(jiǎn)化,從而用較少的綜合指標(biāo)來(lái)反映多個(gè)變量中存放的信息。主成分分析就是這樣一種方法。
(一)主成分分析法的定義
主成分分析法(principal component analysis,PCA)是一種數(shù)學(xué)變換的方法,它把給定的一組相關(guān)變量通過(guò)線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學(xué)變換中保持變量的總方差不變,使第一變量具有最大的方差,稱(chēng)為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱(chēng)為第二主成分。依次類(lèi)推,I個(gè)變量就有I個(gè)主成分。
(二)主成分分析法的具體步驟
1)將原始數(shù)據(jù)按行排列組成矩陣X;
2)對(duì)X進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,也就是使其均值變?yōu)榱悖?/p>
3)求X的協(xié)方差矩陣C;
4)將特征向量按特征值由大到小排列,取前k個(gè)按行組成矩陣P;
5)通過(guò)計(jì)算Y=PX,得到降維后數(shù)據(jù)Y;
6)計(jì)算每個(gè)特征根的貢獻(xiàn)率,貢獻(xiàn)率的大小一般用該特征根對(duì)應(yīng)的特征值占特征值總和的比重來(lái)表示。
(三)主成分分析法所體現(xiàn)的數(shù)學(xué)思想
運(yùn)用主成分分析的目標(biāo),是希望用較少的變量去解釋原來(lái)資料中的大部分變量,通常是選出比原始變量個(gè)數(shù)少,能解釋大部分資料中變量的幾個(gè)新變量,即所謂主成分。由此可見(jiàn),主成分分析法實(shí)際上是一種降維方法。
降維思想,是數(shù)學(xué)這門(mén)科學(xué)中,最為重要而基本的思想之一。在高中的學(xué)習(xí)中,我們已經(jīng)接觸到了二維空間和三維空間,知道可以用N維向量來(lái)表示N維空間中的點(diǎn)。事實(shí)上,不僅限于空間幾何領(lǐng)域,在數(shù)學(xué)上,任何一組不完全重疊的多維向量,都可以構(gòu)成一個(gè)多維空間?!案呔S空間”的概念,大大提高了人們用數(shù)字這種抽象化手段來(lái)描述現(xiàn)實(shí)的能力。數(shù)學(xué)來(lái)源于實(shí)際而又高于實(shí)際,在實(shí)際問(wèn)題中,面對(duì)眾多的變量,其取值往往構(gòu)成高維向量,因此,處理它們之間的關(guān)系,并加以應(yīng)用,就需要使用高維空間。而對(duì)高維空間最為重要的處理方式,就是簡(jiǎn)化其維度,化繁為簡(jiǎn),提取核心,實(shí)現(xiàn)降維。在降維過(guò)程中,我們提取了高維數(shù)據(jù)中有用的信息,而忽視了冗余或重復(fù)的信息,從而使得其接下來(lái)的數(shù)學(xué)處理變得簡(jiǎn)單。例如,在常見(jiàn)的二元一次方程組中,“消元”的過(guò)程就是把二維問(wèn)題轉(zhuǎn)化成一維問(wèn)題,從而用低維度的思想去解決的一個(gè)典型例子。主成分分析中所體現(xiàn)出的降維思想,與這種方法一脈相承。
二、應(yīng)用
經(jīng)濟(jì)和金融領(lǐng)域是典型的自然科學(xué)與社會(huì)科學(xué)相結(jié)合的領(lǐng)域,經(jīng)濟(jì)金融系統(tǒng)具備典型的“復(fù)雜”、“高維”、“相關(guān)性強(qiáng)”等特征。當(dāng)我們想要對(duì)其中的某個(gè)關(guān)鍵指標(biāo)進(jìn)行預(yù)測(cè)時(shí),該指標(biāo)往往受到多方面因素的共同作用,而這多方面的因素又存在很強(qiáng)的相關(guān)性。這種情況,正適合用主成分分析法來(lái)精簡(jiǎn)數(shù)據(jù)結(jié)構(gòu),并做出進(jìn)一步預(yù)測(cè)。
(一)經(jīng)濟(jì)領(lǐng)域的應(yīng)用
主成分分析法應(yīng)用于經(jīng)濟(jì)學(xué)領(lǐng)域,適用于做多變量的時(shí)間序列預(yù)測(cè)。經(jīng)濟(jì)數(shù)據(jù)中大部分?jǐn)?shù)據(jù)為時(shí)間序列數(shù)據(jù),單一指標(biāo)時(shí)間序列的預(yù)測(cè)問(wèn)題已經(jīng)在理論上得到了深入的研究,并在各類(lèi)實(shí)際問(wèn)題中得到了廣泛的應(yīng)用。常用的ARMA,GARCH等模型,幾乎可以解決大部分的預(yù)測(cè)問(wèn)題,對(duì)于數(shù)據(jù)結(jié)構(gòu)也會(huì)有清晰的描述。然而實(shí)際的經(jīng)濟(jì)問(wèn)題中往往需要對(duì)多個(gè)經(jīng)濟(jì)指標(biāo)同時(shí)預(yù)測(cè),且需要考慮這些指標(biāo)之間的相互關(guān)系。此時(shí),單變量的時(shí)間序列模型就不再適用。一個(gè)自然的想法是將多個(gè)指標(biāo)簡(jiǎn)化為不相關(guān)的少數(shù)幾個(gè)指標(biāo),主成分分析法可以適用于這類(lèi)問(wèn)題。
(二)金融領(lǐng)域的應(yīng)用
在金融領(lǐng)域,一個(gè)典型的應(yīng)用主成分分析法的例子是在量化投資領(lǐng)域的多因子選股體系中。在用多因子的方法進(jìn)行選股時(shí),需要通過(guò)財(cái)務(wù)數(shù)據(jù)、量?jī)r(jià)數(shù)據(jù)、資金數(shù)據(jù)等多方面的數(shù)據(jù)(稱(chēng)為因子),來(lái)預(yù)測(cè)下一期股票收益率的走勢(shì),從而判斷是否將該股票納入股票池。這就需要準(zhǔn)確的尋找出對(duì)股票收益率有顯著貢獻(xiàn)的因子。然而,多個(gè)因子間往往存在共線性,也就是相關(guān)性較強(qiáng),起到的作用類(lèi)似。例如財(cái)務(wù)因子中的PB和PE,分別代表市盈率和市凈率,本質(zhì)上都是該股票估值的體現(xiàn)。除此之外,過(guò)多的因子會(huì)使得股票收益率的預(yù)測(cè)變得更為復(fù)雜,從而難以進(jìn)行股票篩選。因此,一個(gè)比較理想的處理方案就是將這些因子降維,重新組合成少數(shù)幾個(gè)相互獨(dú)立的因子。這樣的因子雖然沒(méi)有明顯的經(jīng)濟(jì)學(xué)意義,但對(duì)于選股卻有顯著的效果。而這個(gè)過(guò)程,正是進(jìn)行主成分分析的過(guò)程。
三、小結(jié)
不難發(fā)現(xiàn),在經(jīng)濟(jì)金融領(lǐng)域,由于涉及大量的高維數(shù)據(jù)需要進(jìn)行分析和預(yù)測(cè),所以非常適用于主成分分析法這種降維分析方法。事實(shí)上,主成分分析法在工業(yè)領(lǐng)域、環(huán)保領(lǐng)域等各個(gè)方面,都有廣泛的應(yīng)用。這也進(jìn)一步說(shuō)明了數(shù)學(xué)對(duì)其他領(lǐng)域的重要的應(yīng)用意義。
【參考文獻(xiàn)】
[1]范明明.基于主成分分析的多變量混沌時(shí)間序列預(yù)測(cè)研究[D].大連理工大學(xué),2006
[2]劉超.基于主成分分析的多維時(shí)間序列預(yù)測(cè)[J].中央民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2016.25(04):27-29+33