高雪云
一、引 言
給缺失數(shù)據(jù)填補(bǔ)一個(gè)合理的估計(jì)值,可以減小由數(shù)據(jù)缺失而導(dǎo)致的估計(jì)量偏差,結(jié)合一定的方法,為數(shù)據(jù)的缺失值尋找一個(gè)或多個(gè)盡可能相似的值進(jìn)行填補(bǔ),得到完整的數(shù)據(jù),由于填補(bǔ)值畢竟是“假信息”,因此,利用不同的信息進(jìn)行填補(bǔ),所要追求的只是確定填補(bǔ)方法的有效性和合理性,使估計(jì)的填補(bǔ)值盡可能地接近原始的缺失數(shù)據(jù)值.
二、基于核空間非線性距離敏感重構(gòu)的主動(dòng)學(xué)習(xí)
在大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)問題中可能涉及的數(shù)據(jù)量規(guī)模是非常龐大的,完全標(biāo)注所有數(shù)據(jù)是不現(xiàn)實(shí),也是不必要的.在這一部分,我們將提出一種有效的主動(dòng)學(xué)習(xí)算法.該算法可以選擇出那些最重要的、最有信息含量的數(shù)據(jù)點(diǎn)進(jìn)行標(biāo)注,使得數(shù)據(jù)標(biāo)注更加有效.然后,我們進(jìn)一步推廣了胡堯等人的工作,提出了一種基于核空間非線性距離敏感重構(gòu)的主動(dòng)學(xué)習(xí)算法,能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)分布的非線性關(guān)系,通過非線性重構(gòu)進(jìn)一步擴(kuò)大標(biāo)注點(diǎn)的表達(dá)能力,從而減少所需要標(biāo)注的數(shù)據(jù)點(diǎn)的規(guī)模[1].
(一)主成分分析(PCA)原理及其應(yīng)用
在實(shí)際問題研究中,多變量問題是經(jīng)常會(huì)遇到的.變量太多,無疑會(huì)增加分析問題的難度與復(fù)雜性,而且在許多實(shí)際問題中,多個(gè)變量之間是具有一定的相關(guān)關(guān)系的.
為了解決這些問題,最簡單和最直接的解決方案是削減變量的個(gè)數(shù),但這必然又會(huì)導(dǎo)致信息丟失和信息不完整等問題的產(chǎn)生.為此,人們希望探索一種更為有效的解決方法,它既能大大減少參與數(shù)據(jù)建模的變量個(gè)數(shù),同時(shí)也不會(huì)造成信息的大量丟失.主成分分析正式這樣一種能夠有效降低變量維數(shù),并已得到廣泛應(yīng)用的分析方法.
(二)奇異值分解(SVD)與主成分分析(PCA)的關(guān)系
PCA的全部工作簡單點(diǎn)說,就是對原始的空間中順序地找一組相互正交的坐標(biāo)軸,第一個(gè)軸是使得方差最大的,第二個(gè)軸是在與第一個(gè)軸正交的平面中使得方差最大的,第三個(gè)軸是在與第1、2個(gè)軸正交的平面中方差最大的,這樣假設(shè)在N維空間中,我們可以找到N個(gè)這樣的坐標(biāo)軸,我們?nèi)∏皉個(gè)去近似這個(gè)空間,這樣就從一個(gè)N維的空間壓縮到r維的空間了,但是我們選擇的r個(gè)坐標(biāo)軸能夠使得空間的壓縮使得數(shù)據(jù)的損失最小.
還是假設(shè)我們矩陣每一行表示一個(gè)樣本,每一列表示一個(gè)feature,用矩陣的語言來表示,將一個(gè)m×n的矩陣A的進(jìn)行坐標(biāo)軸的變化,P就是一個(gè)變換的矩陣從一個(gè)N維的空間變換到另一個(gè)N維的空間,在空間中就會(huì)進(jìn)行一些類似于旋轉(zhuǎn)、拉伸的變化.
Am×nPn×n=A~m×n.
而將一個(gè)m×n的矩陣A變換成一個(gè)m×r的矩陣[2],這樣就會(huì)使得本來有n個(gè)feature的,變成了有r個(gè)feature了(r Am×nPn×r=A~m×r. 但是這個(gè)怎么和SVD扯上關(guān)系呢?SVD得出的奇異向量是從奇異值由大到小排列的,按PCA的觀點(diǎn)來看,就是方差最大的坐標(biāo)軸就是第一個(gè)奇異向量,方差次大的坐標(biāo)軸就是第二個(gè)奇異向量,由下面的SVD式子: Am×n≈Um×r∑r×rVTr×n. 在矩陣的兩邊同時(shí)乘上一個(gè)矩陣V,由于V是一個(gè)正交的矩陣,所以V轉(zhuǎn)置乘V得到單位陣I,所以可以化成后面的式子 Am×nVr×n≈Um×r∑r×rVTr×nVr×n, Am×nVr×n≈Um×r∑r×r. 將后面的式子與A×P那個(gè)m×n的矩陣變換為m×r的矩陣的式子對照看看,在這里,其實(shí)V就是P,也就是一個(gè)變化的向量.這里是將一個(gè)m×n的矩陣壓縮到一個(gè)m×r的矩陣,也就是對列進(jìn)行壓縮,如果我們想對行進(jìn)行壓縮,同樣我們寫出一個(gè)通用的行壓縮例子: Pr×mAm×n=A~r×n. 這樣就從一個(gè)m行的矩陣壓縮到一個(gè)r行的矩陣了,對SVD來說也是一樣的,我們對SVD分解的式子兩邊乘U的轉(zhuǎn)置 UTr×mAm×n≈∑r×rVTr×n. 這樣我們就得到了對行進(jìn)行壓縮的式子.可以看出,其實(shí)PCA幾乎可以說是對SVD的一個(gè)包裝,如果我們實(shí)現(xiàn)了SVD,那也就實(shí)現(xiàn)了PCA了,而且更好的地方是,有了SVD,我們就可以得到兩個(gè)方向的PCA,如果我們對A′A進(jìn)行特征值的分解,只能得到一個(gè)方向的PCA. (三)利用奇異值分解(SVD)進(jìn)行圖像處理 先對圖像進(jìn)行灰度處理,轉(zhuǎn)化為二維圖像,然后利用SVD算法,對圖片進(jìn)行壓縮處理,結(jié)果分析如下: 秩k越大,圖像重構(gòu)越完善,圖像越清晰,但壓縮后圖片比較大; 秩k越小,圖像重構(gòu)越粗糙,圖像越模糊,但壓縮后圖像比較小. (四)結(jié)語與展望 1.結(jié)論 眾所周知,國內(nèi)外學(xué)者已提出了很多方法來處理成分?jǐn)?shù)據(jù)的缺失值.本文考慮到成分?jǐn)?shù)據(jù)的特殊幾何結(jié)構(gòu)和成分?jǐn)?shù)據(jù)間存在多重共線性和異常值的情況,在K.Hrmn等人提出的k近鄰填補(bǔ)法和基于k近鄰的迭代回歸填補(bǔ)法的基礎(chǔ)上,對成分?jǐn)?shù)據(jù)的缺失值填補(bǔ)提出了幾種新方法. (1)針對成分?jǐn)?shù)據(jù)存在多重共線性的問題,提出了主成分填補(bǔ)法(PCA).通過實(shí)例分析和實(shí)驗(yàn)?zāi)M可看出無論數(shù)據(jù)間是否含有多重共線性,PCA填補(bǔ)法的填補(bǔ)效果都比其他幾種填補(bǔ)法好. (2)針對成分?jǐn)?shù)據(jù)中含有異常值的問題,提出了基于MCD的穩(wěn)健主成分填補(bǔ)法(MPCA),用來解決含有異常值的問題,并驗(yàn)證了該方法的穩(wěn)健性和準(zhǔn)確性. 2.展望 當(dāng)然,仍有一些問題沒有得到有效解決,需要進(jìn)行進(jìn)一步的研究: 一般地,對含缺失值的多元成分?jǐn)?shù)據(jù)來說,多變量填補(bǔ)法比單變量填補(bǔ)法結(jié)果更為準(zhǔn)確.然而,這樣的方法是建立在對多元數(shù)據(jù)結(jié)構(gòu)的一個(gè)合理假設(shè)上的,它們有的是基于模型的,有的是基于協(xié)方差結(jié)構(gòu)的或是基于距離的.而在實(shí)際的應(yīng)用中,這種假設(shè)一般是不合理的.