• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    淺談流形學(xué)習(xí)及其算法

    2018-01-31 16:52:56郝晨輝
    中國(guó)科技縱橫 2018年1期
    關(guān)鍵詞:映射算法

    郝晨輝

    摘 要:流形學(xué)習(xí)是借助幾何學(xué)中子流形的概念,利用流形的結(jié)果和性質(zhì)來(lái)挖掘嵌入在高維空間中的數(shù)據(jù)集的真實(shí)的低維結(jié)構(gòu)。本文在介紹流形學(xué)習(xí)具體算法的基礎(chǔ)上,通過(guò)MATLAB分析了不同算法的特點(diǎn),對(duì)不同算法之間的關(guān)系進(jìn)行了比較?;诖朔治?,我們對(duì)現(xiàn)有流行學(xué)習(xí)的缺點(diǎn)及局限提出了優(yōu)化方法及改進(jìn)方法。

    關(guān)鍵詞:流形學(xué)習(xí);算法;映射;數(shù)據(jù)集

    中圖分類(lèi)號(hào):TP301.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2018)01-0219-04

    1 引言

    對(duì)于如今的機(jī)器學(xué)習(xí)來(lái)說(shuō),面臨著所需處理的數(shù)據(jù)量、數(shù)據(jù)特征遞增的趨勢(shì),但是有效的數(shù)據(jù)特征相對(duì)較少,為了減輕不必要的時(shí)間消耗,在處理數(shù)據(jù)之前都要對(duì)數(shù)據(jù)的特征進(jìn)行稀疏化,一種方法是直接對(duì)數(shù)據(jù)的維數(shù)進(jìn)行降維,來(lái)達(dá)到重要特征提取的目的。另一種是對(duì)數(shù)據(jù)的特征進(jìn)行稀疏化,把沒(méi)用的特征信息都設(shè)置為零,從而達(dá)到特征稀疏的目的。本文主要從降維這個(gè)角度來(lái)進(jìn)行探討。

    早期主要的降維方法是線(xiàn)性降維算法主成分分析法PCA[6],其主要過(guò)程是研究一個(gè)線(xiàn)性降維映射,將高維空間中的樣本點(diǎn)集投影到低維空間中。PCA[6]通過(guò)最大化數(shù)據(jù)點(diǎn)集之間的協(xié)方差矩陣來(lái)選取數(shù)據(jù)點(diǎn)集分布的最主要的特征,從而達(dá)到降維的目的。這種算法適用于處理的數(shù)據(jù)集呈現(xiàn)線(xiàn)性分布。但是針對(duì)分布呈現(xiàn)復(fù)雜的非線(xiàn)性分布,PCA很難達(dá)到較好的降維效果。非線(xiàn)性分布的高維樣本點(diǎn)集,其所在的非線(xiàn)性空間可以看成是嵌入在高維空間的低維非線(xiàn)性子空間。在機(jī)器學(xué)習(xí)中通常采用kernel函數(shù)的方法來(lái)進(jìn)行處理,稱(chēng)之為kernel PCA[7]。這種算法存在的問(wèn)題是很難選擇一個(gè)合適的kernel函數(shù),如果kernel選擇的不合適反而會(huì)對(duì)學(xué)習(xí)過(guò)程造成很大的影響,增加學(xué)習(xí)的時(shí)間消耗,且最終的降維效果也不會(huì)很好。

    針對(duì)復(fù)雜的非線(xiàn)性分布的數(shù)據(jù)點(diǎn)集,雖然全局結(jié)構(gòu)無(wú)法獲得,但我們可以看出數(shù)據(jù)點(diǎn)集的很小的局部鄰域結(jié)構(gòu)還是呈現(xiàn)出線(xiàn)性分布結(jié)構(gòu)。對(duì)于這種局部呈現(xiàn)出線(xiàn)性結(jié)構(gòu)而全局呈現(xiàn)出非線(xiàn)性結(jié)構(gòu)的數(shù)據(jù)點(diǎn),我們將其假設(shè)成分布在某個(gè)流形上,其降維過(guò)程稱(chēng)為流形學(xué)習(xí)。

    流形學(xué)習(xí)是一類(lèi)借鑒拓?fù)淞餍胃拍畹慕稻S方法。“流形”是在局部與歐氏空間同胚的空間,直觀(guān)上來(lái)說(shuō)“流形”的局部鄰域可以近似的看成是歐氏空間結(jié)構(gòu)。根據(jù)流形的這個(gè)性質(zhì)所設(shè)計(jì)出的流形學(xué)習(xí)算法都是從流形的局部結(jié)構(gòu)出發(fā)通過(guò)保持流形的局部線(xiàn)性結(jié)構(gòu)來(lái)對(duì)高維樣本點(diǎn)集進(jìn)行降維。當(dāng)然流形的全局結(jié)構(gòu)也是從局部結(jié)構(gòu)出發(fā)來(lái)獲取全局的結(jié)構(gòu)。流形學(xué)習(xí)算法,大致可以分為兩大類(lèi),都是在假設(shè)流形的局部鄰域?yàn)榫€(xiàn)性空間基礎(chǔ)上進(jìn)行的。一類(lèi)是保持全局結(jié)構(gòu)的非線(xiàn)性降維算法,如Isomap[2]:Isomap又稱(chēng)為等距映射算法,目的是保持降維前后任意兩點(diǎn)之間的真實(shí)的距離結(jié)構(gòu)。在流形上,任意兩點(diǎn)之間的真實(shí)的距離不是兩點(diǎn)之間的歐氏距離,而是兩點(diǎn)之間的測(cè)地線(xiàn)距離。所以Isomap旨在保持任意兩點(diǎn)之間的測(cè)地線(xiàn)距離。另一類(lèi)是保局部結(jié)構(gòu)的降維算法,如LLE[1],LEP[3],LPP[9],LTSA[5],HLLE[4]等。LLE算法旨在保持樣本點(diǎn)局部鄰域的線(xiàn)性組合結(jié)構(gòu),通過(guò)假設(shè)高維樣本點(diǎn)的局部鄰域是線(xiàn)性結(jié)構(gòu),然后計(jì)算每個(gè)樣本點(diǎn)與其鄰域點(diǎn)之間的線(xiàn)性相關(guān)系數(shù),由此在低維空間中鄰域點(diǎn)之間還保持相同的線(xiàn)性相關(guān)性。LEP算法旨在保持局部樣本點(diǎn)之間的結(jié)構(gòu),降維的主要思想是距離較近的點(diǎn)降維后還是距離較近,在算法設(shè)計(jì)中通過(guò)建立樣本點(diǎn)集之間的局部鄰域圖結(jié)構(gòu),任意兩點(diǎn)之間的邊賦予相應(yīng)的權(quán)重,通過(guò)權(quán)重來(lái)體現(xiàn)局部鄰域點(diǎn)之間的距離關(guān)系。LPP繼承了LEP算法的思想,給出保持局部結(jié)構(gòu)的線(xiàn)性降維算法。LTSA算法也是將流形的局部鄰域假設(shè)成線(xiàn)性空間,然后在局部鄰域上利用PCA進(jìn)行降維。

    2 基本知識(shí)介紹

    流形學(xué)習(xí)算法的共有的前提假設(shè)是,所要降維的高維樣本點(diǎn)集分布在某個(gè)非線(xiàn)性流形F上,此流形是嵌入在高維歐氏空間中的一個(gè)子流形。流形學(xué)習(xí)的目的是從高維空間中挖掘出子流形F的真實(shí)的低維表示結(jié)構(gòu)。為了算法的需求,我們假設(shè)高維樣本點(diǎn)集表示為{x1,x2,…,xN}∈FRD,其中N表示樣本點(diǎn)集的個(gè)數(shù),D表示高維樣本點(diǎn)集的維數(shù)。對(duì)應(yīng)的低維樣本點(diǎn)集表示為{y1,y2,…,yN}∈YRd,其中d表示低維樣本點(diǎn)集的維數(shù)?;诖四康模覀兘o出流形學(xué)習(xí)的形式化定義。

    流形學(xué)習(xí)的目的是挖掘高維樣本點(diǎn)集產(chǎn)生的機(jī)制,表示為映射f,具體的表示形式如下:f:Y→FRD。

    在降維過(guò)程中,流形的全局或局部幾何結(jié)構(gòu)得到保持。

    3 算法描述

    3.1 等距映射

    Isomap[2]又稱(chēng)等距映射算法,其目的是保持降維前后所有樣本點(diǎn)集之間的全局距離結(jié)構(gòu)。Isomap借助MDS[8]來(lái)挖掘高維樣本點(diǎn)集之間真實(shí)的內(nèi)在結(jié)構(gòu)。MDS[8]是保持降維后高維樣本點(diǎn)集之間的歐氏距離結(jié)構(gòu)。而Isomap旨在保持樣本點(diǎn)集之間真實(shí)的距離結(jié)構(gòu)。在流形上,兩點(diǎn)之間真實(shí)的距離不是歐氏距離,而是兩點(diǎn)之間的測(cè)地線(xiàn)距離。在此算法中,通過(guò)構(gòu)造樣本點(diǎn)之間的局部圖結(jié)構(gòu),然后任意兩點(diǎn)之間的測(cè)地線(xiàn)距離通過(guò)尋找兩點(diǎn)之間的最短路徑來(lái)獲得。

    算法步驟如下:

    (1)確定原空間每個(gè)點(diǎn)的鄰域點(diǎn)(找樣本點(diǎn)的近鄰點(diǎn)方法有兩種:1)是規(guī)定k的值即取距離樣本點(diǎn)最近的k個(gè)近鄰點(diǎn)。2)是規(guī)定一個(gè)球的半徑E,以樣本點(diǎn)為球心,找出這個(gè)球覆蓋的樣本點(diǎn)。)

    (2)估算測(cè)地線(xiàn)距離(高維空間中較近點(diǎn)之間的測(cè)地線(xiàn)距離用歐式距離代替,較遠(yuǎn)點(diǎn)距離用測(cè)地線(xiàn)距離,最短路徑逼近,計(jì)算公式為dG(i,j)=min{dG(i,k)+dG(k,j)},其中dG(i,j)表示點(diǎn)i與點(diǎn)j之間的歐氏距離),從而構(gòu)造所有數(shù)據(jù)點(diǎn)之間的距離矩陣D。

    (3)用MDS在低維歐式空間找到點(diǎn)間距符合第一步中距離的點(diǎn){y1,y2,…,yN}∈Rd。

    MDS算法:

    輸入主對(duì)角線(xiàn)元素為零的距離矩陣D。endprint

    (2)計(jì)算B矩陣的譜分解

    (3)通過(guò)求出形成矩陣

    (4),我們?nèi)【仃嘪的前d個(gè)列向量所組成的矩陣XN×d作為低維輸出。

    其中H是半正定矩陣,D是非負(fù)對(duì)稱(chēng)矩陣,B是格拉姆矩陣

    此種算法的優(yōu)點(diǎn)是:1)具有估計(jì)低維空間維數(shù)的作用,不用給定低維空間的維數(shù)。2)整體等距映射到低維空間,無(wú)需考慮局部坐標(biāo)之間的相容性。3)很好的識(shí)別了非線(xiàn)性流形結(jié)構(gòu)。

    3.2 局部線(xiàn)性嵌入映射

    LLE[1]又稱(chēng)局部線(xiàn)性嵌入映射,此算法假設(shè)樣本點(diǎn)所在的子流形的局部鄰域是線(xiàn)性結(jié)構(gòu)。與Isomap算法不同,LLE算法旨在保持樣本點(diǎn)集的局部鄰域的線(xiàn)性結(jié)構(gòu),其基本思想可以簡(jiǎn)單的表示如下:流形上任意數(shù)據(jù)點(diǎn)p∈M,都可以用其K-鄰域內(nèi)的K個(gè)鄰近點(diǎn)近似線(xiàn)性表示,然后在低維歐式空間中重構(gòu)一組低維樣本點(diǎn)表示{y1,y2,…,yN},使得這些低維樣本點(diǎn)集的局部鄰域點(diǎn)之間也滿(mǎn)足原始數(shù)據(jù)點(diǎn)之間的線(xiàn)性組合關(guān)系。

    算法步驟如下:

    (1)找每個(gè)樣本點(diǎn){x1,x2,…,xN}的近鄰點(diǎn)(方法同Isomap)。

    (2)計(jì)算高維鄰域點(diǎn)之間的局部權(quán)值矩陣Wij,其中xij為xi的k個(gè)近鄰點(diǎn)。滿(mǎn)足代價(jià)函數(shù)并滿(mǎn)足約束條件。

    定義一個(gè)誤差函數(shù),如下:

    誤差函數(shù)值越小,說(shuō)明局部權(quán)值矩陣重建的越好,說(shuō)明xi越接近其近鄰點(diǎn)的線(xiàn)性組合的點(diǎn)。

    (3)在低維空間重構(gòu)一組樣本點(diǎn){y1,y2,…,yN},使得其保持高維鄰域點(diǎn)之間的線(xiàn)性相關(guān)關(guān)系。

    此種算法的優(yōu)點(diǎn)是:1)算法中建立的權(quán)值矩陣是一個(gè)稀疏矩陣,計(jì)算量較小;2)算法具有整體最優(yōu)解(低維歐式空間所對(duì)應(yīng)的所有數(shù)據(jù)點(diǎn)表示),不需要迭代,減少了計(jì)算的復(fù)雜性。

    3.3 拉普拉斯特征映射

    拉普拉斯特征映射(LEM)[3]借助Laplace矩陣的性質(zhì)來(lái)對(duì)高維樣本點(diǎn)集進(jìn)行降維。其與LLE算法思想基本相似,保持高維樣本點(diǎn)集的局部幾何結(jié)構(gòu)。LEM的目的就是尋找原始數(shù)據(jù)流形在低維歐式空間的對(duì)應(yīng)表示,LEP算法有著很直觀(guān)的降維目標(biāo),即在高維空間中離得很近的點(diǎn)投影到低維空間中的像也應(yīng)該離得很近,這能夠保持局部幾何結(jié)構(gòu)不變?;诖耍琇EM算法所要優(yōu)化的目標(biāo)函數(shù)為。

    其中Y表示低維數(shù)據(jù)點(diǎn)集的矩陣表示形式,矩陣L=D-W是拉普拉斯矩陣。限制條件YTY=I保證優(yōu)化問(wèn)題有非奇異解,并且保證映射后的數(shù)據(jù)點(diǎn)不會(huì)被“壓縮”到一個(gè)小于m維的子空間中?;谶@樣的算法思想,我們給出LEP算法的基本步驟。

    算法步驟:

    (1)根據(jù)K-鄰域法選擇每一點(diǎn)處的k個(gè)近鄰點(diǎn)集。

    (2)將每個(gè)樣本點(diǎn)的k個(gè)近鄰點(diǎn)連接成鄰接圖。

    (3)構(gòu)造數(shù)據(jù)點(diǎn)集上的權(quán)值矩陣W,W的每個(gè)分量表示相應(yīng)兩點(diǎn)之間的權(quán)重。

    (4)計(jì)算拉普拉斯矩陣L的特征向量與特征值。

    使用最小的d個(gè)非零特征值對(duì)應(yīng)的特征向量作為降維后的輸出結(jié)果,其中d表示低維空間的維數(shù)。

    此種算法的優(yōu)點(diǎn)是:通過(guò)求解稀疏矩陣的特征值可以求出整體最優(yōu)解。

    4 算法實(shí)踐及分析

    分別選取兩類(lèi)數(shù)據(jù)集對(duì)各類(lèi)流形學(xué)習(xí)算法的降維效果進(jìn)行對(duì)比分析。一類(lèi)數(shù)據(jù)集為仿真數(shù)據(jù)集,我們分別選取兩組仿真數(shù)據(jù)集:Swiss Roll和Punctured Sphere。另一類(lèi)數(shù)據(jù)集為真實(shí)世界中的數(shù)據(jù)集,USPS手寫(xiě)體識(shí)別數(shù)據(jù)集。首先對(duì)仿真數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,然后對(duì)USPS數(shù)據(jù)集進(jìn)行分析。

    4.1 仿真數(shù)據(jù)集

    Swiss Roll以及Punctured Sphere為兩組三維數(shù)據(jù)點(diǎn)集,其每一個(gè)數(shù)據(jù)點(diǎn)都是由一個(gè)三維向量進(jìn)行表示。在本實(shí)驗(yàn)中,我們分別采取800個(gè)Swiss Roll數(shù)據(jù)點(diǎn)以及1000個(gè)Puncture Sphere數(shù)據(jù)點(diǎn)進(jìn)行實(shí)驗(yàn)。所有這些數(shù)據(jù)點(diǎn)所在的非線(xiàn)性流形是嵌入在三維空間中的二維流形。我們分別采用三種流形學(xué)習(xí)算法對(duì)這兩組數(shù)據(jù)集進(jìn)行降維,將其降維到二維空間中。這三類(lèi)算法分別為等距映射(Isomap)、局部線(xiàn)性嵌入(LLE)、拉普拉斯特征映射(LEP)。由于這三類(lèi)算法都受局部鄰域因子K值的影響,所以在實(shí)驗(yàn)階段,我們分別選取不同的K值,然后來(lái)分析在不同的K值下三類(lèi)算法的降維效果。

    4.1.1 實(shí)驗(yàn)過(guò)程

    首先給出Swiss Roll數(shù)據(jù)集的實(shí)驗(yàn)過(guò)程。此數(shù)據(jù)集包含800個(gè)三維數(shù)據(jù)點(diǎn),我們分別選取鄰域因子K=8,12,16。其對(duì)應(yīng)的降維結(jié)果如下圖1所示,其中圖中第一行表示K=8時(shí)三個(gè)算法的降維結(jié)果,第二行表示K=12時(shí)的降維結(jié)果,第三行表示K=16時(shí)的降維結(jié)果。

    Puncture Sphere數(shù)據(jù)集是一組采樣與二維球面上的三維數(shù)據(jù)點(diǎn)集。我們采取1000個(gè)數(shù)據(jù)點(diǎn),與Swiss Roll相同,我們分別選取K=8,12,16。其相應(yīng)的降維結(jié)果如圖2所示。

    4.1.2 實(shí)驗(yàn)結(jié)果

    由Swiss Roll圖可知,Isomap降維的效果明顯好于其他兩種算法。LLE和LEP這兩種方法降維后的圖形較為相似,這是由于兩種算法都是假設(shè)樣本點(diǎn)所在的子流形的局部鄰域是線(xiàn)性結(jié)構(gòu)。但我們并不能從LLE和LE兩種方法降維后的圖形辨認(rèn)出原始流形,之所以瑞士卷降維后呈現(xiàn)這樣的圖形是因?yàn)檫@兩種算法只是保持了流形的局部結(jié)構(gòu),對(duì)于全局結(jié)構(gòu)沒(méi)有得到很好的保持,所以降維后的結(jié)果只是在局部鄰域中效果比較好,從算法來(lái)看,這兩種算法對(duì)流形的全局結(jié)構(gòu)并沒(méi)有做約束。當(dāng)K值增大到16時(shí),這兩種局部線(xiàn)性嵌入方法降維后的準(zhǔn)確度降低,降維的效果變得不好。這是因?yàn)镵是局部鄰域的大小,當(dāng)K增大時(shí),局部鄰域范圍就會(huì)變大,所以表面上局部鄰域已經(jīng)不呈現(xiàn)出線(xiàn)性結(jié)構(gòu),但潛在的原因是降維過(guò)程中并沒(méi)有考慮到局部鄰域的曲率結(jié)構(gòu),所以會(huì)出現(xiàn)這些結(jié)果。

    針對(duì)Puncture Sphere數(shù)據(jù)集,LEP算法的降維效果明顯好于其余兩個(gè)算法。且隨著K值的增加,LEP的降維效果并沒(méi)有明顯的降低。從算法本身分析其結(jié)果我們可以看出,LLE算法目的是要保持降維前后數(shù)據(jù)點(diǎn)鄰域的線(xiàn)性結(jié)構(gòu),而針對(duì)Puncture Sphere數(shù)據(jù)集,其是采樣與球面的數(shù)據(jù)集,所以每個(gè)數(shù)據(jù)點(diǎn)的局部鄰域的線(xiàn)性結(jié)構(gòu)非常的弱。而針對(duì)Isomap算法,其是為了保持樣本點(diǎn)集降維前后的全局結(jié)構(gòu),所以從降維結(jié)果可以看出,雖然在全局上,降維后的流形依然保持球面的整體結(jié)構(gòu),但是每個(gè)數(shù)據(jù)點(diǎn)的局部鄰域結(jié)構(gòu)在降維過(guò)程中并沒(méi)有得到很好的保持。endprint

    4.2 真實(shí)世界數(shù)據(jù)集

    對(duì)流形學(xué)習(xí)的算法做進(jìn)一步實(shí)驗(yàn),用局部線(xiàn)性嵌入(LLE)、主成分分析(PCA)以及拉普拉斯特征映射(LEP)三種方法對(duì)USPS手寫(xiě)體的圖像數(shù)據(jù)集進(jìn)行降維,然后再對(duì)降維后的數(shù)據(jù)點(diǎn)進(jìn)行分類(lèi)識(shí)別。USPS手寫(xiě)體數(shù)據(jù)集包含9298個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)都由一張手寫(xiě)體數(shù)字圖像表示。此數(shù)據(jù)集一共包含十類(lèi)手寫(xiě)體分別為從0到9,每張圖像像素經(jīng)過(guò)處理表示為16×16的像素矩陣。所以在降維階段,我們將每個(gè)像素矩陣按行排列成一個(gè)256維的行向量來(lái)表示一張圖像的特征。

    4.2.1 實(shí)驗(yàn)過(guò)程

    實(shí)驗(yàn)過(guò)程主要分為兩步進(jìn)行。第一步是利用降維算法對(duì)數(shù)據(jù)集進(jìn)行降維,在本實(shí)驗(yàn)中我們分別采用三類(lèi)降維算法:PCA,LLE,LEP對(duì)數(shù)據(jù)集進(jìn)行降維。其中降維后的低維空間維數(shù)選擇為d=10。第二步是對(duì)降維后的數(shù)據(jù)集進(jìn)行分類(lèi)識(shí)別,在此步中我們采用K近鄰分類(lèi)器來(lái)進(jìn)行訓(xùn)練,然后采用交叉驗(yàn)證法來(lái)進(jìn)行測(cè)試。由于在降維過(guò)程中,流形學(xué)習(xí)算法受鄰域因子取值的影響。所以在此實(shí)驗(yàn)中,我們同樣采取不同的鄰域因子K的值來(lái)進(jìn)行實(shí)驗(yàn),其中K=1:5:31。其相應(yīng)的實(shí)驗(yàn)結(jié)果表示如下圖3所示。

    4.2.2 實(shí)驗(yàn)結(jié)果

    從圖3可以看出,三種方法中LLE和LEP的識(shí)別準(zhǔn)確率都隨著K值的增大而減小,而PCA算法的準(zhǔn)確率則隨著Knn的值增大而呈現(xiàn)穩(wěn)定的狀態(tài),其具體的實(shí)驗(yàn)分析如下。

    LLE算法識(shí)別準(zhǔn)確率的趨勢(shì)較為明顯,當(dāng)Knn初始值為5時(shí)識(shí)別準(zhǔn)確率的值為0.9800,隨著Knn值的增大識(shí)別準(zhǔn)確率逐漸降低一直到0.9200(Knn=25)。LEP算法在Knn=5的情況下,數(shù)據(jù)集的分類(lèi)準(zhǔn)確率最高。而隨著鄰域因子的增大,其實(shí)別準(zhǔn)確率也呈現(xiàn)出下降的趨勢(shì)。PCA算法的目的是學(xué)習(xí)一個(gè)全局的線(xiàn)性降維映射,所以其算法過(guò)程與鄰域因子之間沒(méi)有任何關(guān)系,所以其在不同的鄰域因子下分類(lèi)的準(zhǔn)確率基本上保持不變。

    5 結(jié)論與展望

    本文主要給出了流形學(xué)習(xí)的三類(lèi)算法,通過(guò)三組實(shí)驗(yàn)結(jié)果來(lái)分析了不同降維算法的降維效果。通過(guò)對(duì)各個(gè)算法的理論分析以及實(shí)驗(yàn)結(jié)果分析可以看出,這些流形學(xué)習(xí)算法雖然有很多優(yōu)點(diǎn),但是其本身還存在很多的缺點(diǎn)。(1)三類(lèi)算法都對(duì)鄰域因子K非常的敏感,當(dāng)K值非常大的時(shí)候,三類(lèi)算法的降維效果就非常的差。(2)三類(lèi)算法對(duì)流形真實(shí)的維度不能進(jìn)行很好的估計(jì),很多情況下都需要我們事先給定低維維度的取值。這對(duì)于挖掘流形真實(shí)的幾何結(jié)構(gòu)非常的不利。造成這些局限性的一個(gè)重要的原因是,這三類(lèi)算法并沒(méi)有準(zhǔn)確的挖掘流形真實(shí)的局部幾何結(jié)構(gòu)。如Swiss Roll數(shù)據(jù)集,當(dāng)K值非常大的時(shí)候,三類(lèi)算法的降維效果都非常的差,造成這種結(jié)果的一個(gè)很重要的原因是,三類(lèi)算法都假定流形的局部鄰域?yàn)榫€(xiàn)性空間,而并沒(méi)有考慮流形真實(shí)的曲率結(jié)構(gòu)。

    所以針對(duì)這些局限性,我們接下來(lái)的工作將會(huì)嘗試設(shè)計(jì)新的算法,挖掘流形的局部曲率結(jié)構(gòu),來(lái)對(duì)傳統(tǒng)的流形學(xué)習(xí)算法進(jìn)行修正。

    參考文獻(xiàn)

    [1]Roweis, S. And Saul, L. “Nonlinear dimensionality reduction by locally linear embedding”.Science,290(5500):2323-2326,2000.

    [2]Tenenbaum, J., de Silva, V., and Langford, J.“A global geometric framework for nonlinear dimensi-onreduction”.Science,290(5500):2319-2323,2000.

    [3]Belkin, M. and Niyogi, P.“Laplacian eigenmaps and spectral technique for embedding and clusteri-ng”.In Advances in Neural Information Processing Systems 14, pp. 585-591,2001.

    [4]Donoho,D.L. And Grimes,C.E.“Hessian eigenmaps: Locally linear embedding techniques for hig-h-dimensional data”.Proceedings of the National Academy of Sciences of the United States of America,100(10):5591-5596,2003.

    [5]Z, Zhang and H,Zha.“Principal Manifolds and Nonlinear Dimension Reduction via Local Tangent Space Alignment”.SIAM J. ScientificComputing, vol. 26, no. 1, pp. 313-338, 2005.

    [6]Jolliffe, I.T. “Principal Component Analysis”. Springer-Verlag, New York, 1989.

    [7]Scholkopf, B., A. Smola and K.-R. Muller.“Nonlinear component analysis as a kernel eigenvalue problem”, Neural Computation,10(5):1299-1319.

    [8]Cox T. F. and M. A. Cox. “Multidimensional Scaling”. Chapman & Hall/CRC, London, UK.

    [9]Xiaofei He,ParthaNiyogi.“Locality Preserving Projections”,Int. Conf. Advances in Neural Information Processing Systems,2003.endprint

    猜你喜歡
    映射算法
    基于MapReduce的改進(jìn)Eclat算法
    Travellng thg World Full—time for Rree
    進(jìn)位加法的兩種算法
    算法初步兩點(diǎn)追蹤
    從映射與運(yùn)算的角度定義線(xiàn)性空間
    RMI原則在代數(shù)學(xué)教學(xué)中的應(yīng)用
    基于增強(qiáng)隨機(jī)搜索的OECI-ELM算法
    論美國(guó)動(dòng)畫(huà)電影題材變化及現(xiàn)實(shí)映射意義
    試論泰國(guó)文化對(duì)外來(lái)廣告的映射
    東方教育(2016年3期)2016-12-14 20:50:00
    概念隱喻在構(gòu)建語(yǔ)篇連貫中的作用探析
    考試周刊(2016年85期)2016-11-11 00:44:35
    舟山市| 招远市| 连城县| 大洼县| 枞阳县| 西吉县| 黑山县| 班戈县| 密山市| 仁寿县| 和平区| 辽源市| 获嘉县| 壤塘县| 翁牛特旗| 彭泽县| 江北区| 墨玉县| 武乡县| 江山市| 商河县| 信宜市| 延寿县| 东丰县| 天全县| 天柱县| 万源市| 三亚市| 崇仁县| 寻乌县| 靖宇县| 河西区| 永康市| 滨州市| 丰宁| 恭城| 仁寿县| 胶州市| 高尔夫| 石阡县| 武平县|