• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    改進(jìn)主成分分析(PCA)魯棒性的算法比較

    2015-03-15 09:59:56葉明喜
    關(guān)鍵詞:主成分分析

    葉明喜,黃 鈺,蔣 昊

    (蘭州商學(xué)院,甘肅 蘭州 730101)

    改進(jìn)主成分分析(PCA)魯棒性的算法比較

    葉明喜,黃鈺,蔣昊

    (蘭州商學(xué)院,甘肅蘭州730101)

    摘要:與傳統(tǒng)的PCA算法相比較,基于分布特征算法的主成分分析,由于量測的不精確使特性或參數(shù)的實(shí)際值會(huì)偏離它標(biāo)稱值,另一個(gè)是受環(huán)境因素影響而引起特性或參數(shù)的緩慢漂移,這樣得到的分析結(jié)果在很大程度上受到異常值的干擾.本文通過對比幾種算法,提出改善主成分分析(PCA)算法魯棒性的一種實(shí)現(xiàn)途徑,去除或者減少異常點(diǎn)影響,以提高PCA的精度.

    關(guān)鍵詞:主成分分析;PCA魯棒性;標(biāo)稱值;異常點(diǎn);馬氏距離

    1 PCA的原理和魯棒性

    傳統(tǒng)PCA算法是一種基于空間坐標(biāo)的降維技術(shù),將高維數(shù)據(jù)按照線性投影的方式投影到低維空間,在保留過程變量間關(guān)系結(jié)構(gòu)的同時(shí),去除了噪聲以及變量之間的相關(guān)性,但傳統(tǒng)主成分基于特征值分解的PCA方法存在嚴(yán)重魯棒性問題,這大大影響了PCA的運(yùn)算精度.如PCA算法給出ai在隨機(jī)向量x的第i主方向,根據(jù)盡可能地靠近原始數(shù)據(jù)x,則所有的ai都應(yīng)該調(diào)整大道MSE,則有下列公式:

    其中:vivj=0,i≠j;x為n維的零均值的隨機(jī)向量,若給定一個(gè)數(shù)據(jù)集{xi},i=1,2,3…n;求的x的相關(guān)系數(shù)解為:

    協(xié)方差矩陣:

    var(F)=AXXTAT=Λ,

    矩陣A為構(gòu)造的正交陣,傳統(tǒng)PCA算法是對隨機(jī)向量x的協(xié)方差陣進(jìn)行特征值分解來獲得x的協(xié)方差矩陣var (F),其為一對角矩陣,而對角元素恰好是原始數(shù)據(jù)集相關(guān)矩陣的特征值.其中樣本數(shù)據(jù)集協(xié)方差陣的估計(jì)值:

    它存在n個(gè)不同的正特征值λi,Ai就是第i主成分Fi對應(yīng)于特征值為λi所對應(yīng)的特征向量,也即統(tǒng)計(jì)含義上的經(jīng)過變換后主軸的方差.滿足:

    但現(xiàn)在從主成分分析數(shù)學(xué)模型需要滿足的條件出發(fā)(Fi,F(xiàn)j互不相關(guān)),為了改善PCA算法精度,對PCA魯棒性改善需要從兩個(gè)角度出發(fā):一是如何能夠達(dá)到輸出的各主成分之間互不相關(guān),上面的PCA算法獲得的各主成分互不相關(guān)當(dāng)且僅當(dāng)輸入x服從零均值、協(xié)方差為n維高斯分布,當(dāng)不服從此條件下高斯分布,相關(guān)文獻(xiàn)提出了獨(dú)立成分分析(ICA)來解決此問題[1].

    另外,傳統(tǒng)PCA算法基于協(xié)方差陣的二階方面考慮,因此得到的主成分只能做到互不相關(guān),而不能做到相互獨(dú)立.為提高PCA算法的魯棒性,必須去除或者減少異常點(diǎn)樣本污染對算法的影響.異常點(diǎn)的產(chǎn)生原因是多方面的,例如突發(fā)的隨機(jī)噪聲,測量或者記錄的偶爾出錯(cuò)等等.很自然地要考慮如何找出樣本集中的異常點(diǎn)樣本,在求解協(xié)方差矩陣時(shí)將其排除在外.因此首先需要確定異常點(diǎn)樣本的判據(jù),下文的三種算法判別異常點(diǎn)樣本將作比較介紹.

    算法二:是開始設(shè)定一個(gè)可能的參考異常值,初始化時(shí)將第一個(gè)點(diǎn)和第二點(diǎn)之間的馬氏距離作為標(biāo)稱值,將所有點(diǎn)計(jì)算出到均值點(diǎn)的馬氏距離,計(jì)算出樣本點(diǎn)中大于參考標(biāo)稱值點(diǎn)所占的比例,如果大于參考標(biāo)稱值的比例比初設(shè)異常值在樣本數(shù)據(jù)中比例大,則需要將標(biāo)稱值減少一個(gè)比例系數(shù),最終使得在一個(gè)事先設(shè)置的的精度范圍內(nèi).則讓程序?qū)^大數(shù)據(jù)點(diǎn)進(jìn)行排序,剔除較大的數(shù)據(jù)點(diǎn)之后,同時(shí)重新計(jì)算協(xié)方差陣和新的樣本容量,使得留下的點(diǎn)都是非離群點(diǎn),如果剔除的比例和自設(shè)的初識(shí)異常值比例近似相等,則中止該過程.然而,經(jīng)過模擬之后發(fā)現(xiàn)算法二比算法一改進(jìn)很多,但仍不理想,表現(xiàn)出算法對于異常值樣本比較敏感.

    算法三:是引入?yún)?shù)作為統(tǒng)計(jì)距離的測度,而該參數(shù)取自相關(guān)系數(shù)Rij,它度量變量之間的線性相關(guān)性.這樣通過對原始數(shù)據(jù)的標(biāo)準(zhǔn)化處理后,相關(guān)系數(shù)陣的變換使得在不同維度之間變量大小具有了可比性,經(jīng)過這樣一個(gè)過程處理,最終還原為原始的變量.算法三比起算法二在魯棒性上有改進(jìn).

    2改進(jìn)魯棒性PCA算法

    2.1判別異常點(diǎn)樣本的理論基礎(chǔ)

    基于誤差最小準(zhǔn)則是判別異常點(diǎn)樣本的理論基礎(chǔ),在剔除異常點(diǎn)樣本中應(yīng)用較為廣泛.故令e=x-u為誤差,定義誤差平和函數(shù)的估計(jì)表達(dá)式:

    ||e||2最小所對應(yīng)的矩陣A就是輸入隨機(jī)向量x的m維PCA子空間,即A各列向量構(gòu)成的子空間的就是x的前m個(gè)主方向所組成的子空間.ε>0為給定的標(biāo)稱值,一個(gè)實(shí)際樣本xi稱為異常點(diǎn)樣本.若||xi-AATxi||>ε就可以對原PCA算法進(jìn)行修正,提出新的魯棒的PCA算法.下文三種算法也是基于此原理,對重構(gòu)的ε方法不同,則PCA算法魯棒性就不一樣.

    2.2魯棒PCA算法描述

    PCA算法是主分量按順序一個(gè)個(gè)以連續(xù)提取方式從降級(jí)退化的輸入中被提取,它適用于提取出全部的特征空間.例如對一樣本進(jìn)行計(jì)算,計(jì)算出均值E、協(xié)方差Q,并計(jì)算每個(gè)樣本點(diǎn)距離中心的馬氏距離,對樣本點(diǎn)和馬氏距離進(jìn)行排序篩選,根據(jù)所選擇的標(biāo)稱值ε,排除大于標(biāo)稱值ε的樣本點(diǎn).

    期初給出W的估計(jì)值就是因?yàn)閷?shí)際很難做到精確,以估計(jì)值來剔除異常點(diǎn),從而達(dá)到精確W估計(jì)值,再剔除異常點(diǎn),這樣循環(huán)下去.

    初始化迭代步數(shù)k=0,設(shè)定樣本集中異常點(diǎn)樣本數(shù)L(k) =0;利用QΛ得到樣本估計(jì)矩陣.

    根據(jù)上面得到的PCA變換矩陣,利用式(3)計(jì)算原始樣本集E中每個(gè)樣本xi在本步k的誤差,迭代步數(shù)k+1,設(shè)樣本集中異常點(diǎn)樣本數(shù)L(k+1)=L(k)+1,也就是從樣本集中刪除上一步重構(gòu)誤差最大的L(k+1)個(gè)樣本,并由剩下的樣本構(gòu)成新的待處理樣本集;判斷w(k+1)是否滿足收斂條件,若滿足則迭代結(jié)束,否則轉(zhuǎn)第2步.使得所有的樣本點(diǎn)馬氏距離都在給定的標(biāo)稱值ε范圍內(nèi),并且無論怎樣循環(huán)下去,現(xiàn)有的樣本點(diǎn)不再被剔除,則中止循環(huán).

    算法二,主要針對的是在算法一中需要初識(shí)需要設(shè)置一個(gè)距離標(biāo)稱值,在實(shí)踐中操作極為不方便,因此引入了一個(gè)可能性的壞點(diǎn)的比例,具體算法如下,計(jì)算出初識(shí)兩個(gè)點(diǎn)之間的統(tǒng)計(jì)距離作為參考的標(biāo)稱值距離ε,初識(shí)輸入?yún)?shù)猜測的異常值數(shù)據(jù)的比例θ,計(jì)算出每個(gè)樣本點(diǎn)到均值點(diǎn)的距離,如果大于標(biāo)稱值距離,那么就對該樣本點(diǎn)作一個(gè)標(biāo)記,計(jì)算出所有標(biāo)記的點(diǎn)在樣本點(diǎn)中所占的比例φ,如果計(jì)算出的比例值φ大于θ,需要修正參考的標(biāo)稱.給出循環(huán)條件是ABS|φ-θ|>ε,根據(jù)修正后剔除了大于標(biāo)稱值的數(shù)據(jù)點(diǎn),最后得到的是理想的沒有異常值點(diǎn)的新的樣本數(shù)據(jù),我們根據(jù)這個(gè)樣本數(shù)據(jù),完成普通的主成分分析.算法三與算法二之間,算法三是以相關(guān)系數(shù)矩陣作為統(tǒng)計(jì)距離的空間度量.

    3 仿真實(shí)驗(yàn)和結(jié)果分析

    3.1仿真實(shí)驗(yàn)

    傳統(tǒng)PCA算法和修正后的魯棒PCA算法,對不含異常點(diǎn)和包含異常點(diǎn)的樣本集進(jìn)行主成分分析.在這里考慮輸入為2維樣本,提取其最大主成分,即n=2,m=1.隨機(jī)均勻產(chǎn)生500個(gè)含有異常點(diǎn)的二維樣本集,記為樣本集x(如下圖所示);傳統(tǒng)的PCA算法對樣本集x分別進(jìn)行統(tǒng)計(jì)主成分分析,得到的主方向?yàn)镕x=[0.9020,0.4317]T.可以看出傳統(tǒng)PCA對于無異常點(diǎn)的樣本集計(jì)算精度還是很高的,F(xiàn)x基本等于實(shí)際主方向.但是魯棒性很差,只要樣本集中存在少量的異常點(diǎn)樣本,主方向計(jì)算結(jié)果誤差非常大.

    以下三個(gè)算法基于R軟件繪制如下,具體為算法一:是在我們會(huì)發(fā)現(xiàn),如果d太小,變換后的信息有所失,如果d太大,變換后的數(shù)據(jù)收到異常點(diǎn)改變其穩(wěn)定的與坐標(biāo)軸平行垂直橢圓形狀.旋轉(zhuǎn)角度后在5~7范圍內(nèi)較為穩(wěn)定(如圖1).

    圖1

    算法二:取異常值的比例為0.1~0.9變化后繪制其主成分變換后的圖像,發(fā)現(xiàn)不是一個(gè)與坐標(biāo)軸垂直平行的橢球體,因?yàn)槭褂玫氖菙?shù)據(jù)集的協(xié)方差陣,沒有采用相關(guān)系數(shù)陣(如圖2).

    圖2

    算法三:剔除了較多的異常點(diǎn)數(shù)據(jù)點(diǎn)后,使得數(shù)據(jù)具有較強(qiáng)的魯棒性,具備改善PCA算法魯棒性和高效的數(shù)據(jù)壓縮特性,使得算法三在與以上兩種算法上比較上,采取相關(guān)系數(shù)構(gòu)造標(biāo)稱值,較為理想(如圖3).

    圖3

    3.2結(jié)論分析

    理想的PCA算法,應(yīng)先計(jì)算相關(guān)系數(shù)矩陣,而不是協(xié)方差陣進(jìn)行統(tǒng)計(jì)距離度量.單從數(shù)據(jù)的魯棒性角度出發(fā),可以采用相關(guān)系數(shù)矩陣進(jìn)行統(tǒng)計(jì)距離度量作PCA,然而考慮到數(shù)據(jù)點(diǎn)異常點(diǎn)的去除,采用算法三的算法可以對原始數(shù)據(jù)的特征進(jìn)行高效的轉(zhuǎn)換,且PCA魯棒性也比其他兩種算法較好,另外該算法對于初始的異常點(diǎn)比例的預(yù)測也無聯(lián)系. 但PCA魯棒性改善不僅僅是單純從剔除數(shù)據(jù)異常點(diǎn)一種方式而得到改善,本文僅從算法上比較得出改善之舉,難免有不妥之處.

    ——

    參考文獻(xiàn):

    〔1〕ComonP. Independent component analysis,a new concept?.Signal Processing,1994,36(3):287-314.

    〔2〕張媛.一種PCA算法及其應(yīng)用.2005,15-2.

    〔3〕孫文榮.基于直方圖均衡化PCA和SVM算法的人臉識(shí)別.2014,38(8).

    〔4〕傅德印.Excel與多元統(tǒng)計(jì)分析[M].北京:中國統(tǒng)計(jì)出版社,2007.

    中圖分類號(hào):TP391

    文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):1673-260X(2015)07-0017-03

    猜你喜歡
    主成分分析
    Categorizing Compiler Error Messages with Principal Component Analysis
    關(guān)于AI上市公司發(fā)展水平評(píng)價(jià)
    大學(xué)生創(chuàng)業(yè)自我效能感結(jié)構(gòu)研究
    塔里木河流域水資源承載力變化及其驅(qū)動(dòng)力分析
    我國上市商業(yè)銀行信貸資產(chǎn)證券化效應(yīng)實(shí)證研究
    基于NAR模型的上海市房產(chǎn)稅規(guī)模預(yù)測
    主成分分析法在大學(xué)英語寫作評(píng)價(jià)中的應(yīng)用
    江蘇省客源市場影響因素研究
    SPSS在環(huán)境地球化學(xué)中的應(yīng)用
    考試周刊(2016年84期)2016-11-11 23:57:34
    長沙建設(shè)國家中心城市的瓶頸及其解決路徑
    定结县| 秭归县| 镇巴县| 招远市| 凌源市| 临夏县| 昌乐县| 桑日县| 根河市| 始兴县| 长丰县| 广昌县| 兴业县| 东港市| 太保市| 长沙市| 黔南| 湛江市| 杂多县| 四平市| 平湖市| 左贡县| 鄂州市| 水富县| 白银市| 中江县| 离岛区| 呼和浩特市| 米林县| 浠水县| 江门市| 长武县| 集贤县| 饶平县| 莎车县| 清徐县| 靖江市| 驻马店市| 耿马| 抚顺市| 临汾市|