• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于格拉斯曼流形子空間融合的多視圖聚類

    2022-12-18 08:10:56管嬌嬌錢雪忠周世兵姜凱彬
    計算機(jī)應(yīng)用 2022年12期
    關(guān)鍵詞:流形集上視圖

    管嬌嬌,錢雪忠,周世兵,姜凱彬,宋 威

    (江南大學(xué) 人工智能與計算機(jī)學(xué)院,江蘇 無錫 214122)

    0 引言

    在信息時代,數(shù)據(jù)呈指數(shù)級爆炸式增長,對模擬對象進(jìn)行合理的分類,減小數(shù)據(jù)的混淆程度格外重要。目前,聚類被廣泛應(yīng)用于數(shù)據(jù)挖掘、計算機(jī)視覺、模式識別和人工智能領(lǐng)域。一些著名的單視圖聚類算法如k-means算法、譜聚類算法發(fā)揮著越來越重要的作用;然而經(jīng)過多年的發(fā)展,傳統(tǒng)單視圖聚類研究幾乎達(dá)到了瓶頸,主要原因是從單個方面描述對象得到的數(shù)據(jù)不能準(zhǔn)確掌握對象的全面信息,特別是觀測不充分或數(shù)據(jù)嚴(yán)重受損的情況下。

    多視圖數(shù)據(jù)的大量出現(xiàn)意味著從不同的角度描述相同的對象,不同的視圖可以提供互補(bǔ)信息。一個網(wǎng)頁可以劃分為兩個視圖,分別顯示出現(xiàn)在給定頁面上的單詞和在超鏈接中的單詞;同一個單詞可以使用多種語言描述,圖像可以使用形狀、顏色、紋理等描述。多視圖聚類假設(shè)所有視圖共享相同的底層聚類結(jié)構(gòu),通過組合來自不同視圖的信息,試圖獲得比簡單特征串聯(lián)更準(zhǔn)確的聚類結(jié)果?,F(xiàn)有的多視圖聚類算法可以分為以下幾種:基于協(xié)同訓(xùn)練的多視圖聚類算法、基于多核學(xué)習(xí)的多視圖聚類算法、基于子空間的多視圖聚類算法。

    基于協(xié)同訓(xùn)練的多視圖聚類算法旨在通過交替訓(xùn)練來最大化不同視圖之間的一致性,代表算法有:Co-reg(Coregularized multi-view spectral clustering)[1]假設(shè)每個樣本在所有視圖中共享同一個聚類結(jié)果,將不同視圖之間的拉普拉斯算子的特征向量最小化;Co-train(Co-training approach for multi-view spectral clustering)[2]假設(shè)最優(yōu)聚類會將同一個樣本的所有視圖劃分到同一個聚類中,利用其他視圖返回的聚類信息對圖結(jié)構(gòu)進(jìn)行交替修改。

    基于多核學(xué)習(xí)的多視圖聚類算法把每個核看作一個視圖,將這些核進(jìn)行線性或非線性組合,以此提高聚類性能,代表算法有:SMSCK(Smoothness regularized Multiview Subspace Clustering with Kernel learning)[3]將多視圖數(shù)據(jù)點映射到高維核空間中,并引入平滑正則化項來提高聚類性能;一步核多視圖子空間聚類(One-step Kernel Multi-view Subspace Clustering,OKMSC)[4]將親和矩陣的非負(fù)性和判別性融合到計算過程中。

    多視圖子空間聚類算法是由單視圖子空間聚類算法發(fā)展而來的,單視圖子空間聚類的代表性算法有:SSC(Sparse Subspace Clustering)[5]、LRR(Robust Recovery of subspace structures by Low-rank representation)[6]、LRSSC(Low-Rank Sparse Subspace Clustering)[7]等 。MVSC(Multi-View Subspace Clustering)[8]對每個視圖的子空間表示同時進(jìn)行聚類并保證了不同視圖之間的一致性。MLRSSC(Multi-view Low-Rank Sparse Subspace Clustering)[9]利用低秩正則化和稀疏正則化,從每個視圖的子空間表示學(xué)習(xí)一個共有表示矩陣,一步構(gòu)造親和矩陣。LMSC(Latent Multi-view Subspace Clustering)[10]通過挖掘多視圖數(shù)據(jù)的潛在表示,獲得了良好的聚類性能。DiMSC(Diversity-induced Multi-view Subspace Clustering)[11]利用希爾伯特施密特獨立準(zhǔn)則來探索多視圖數(shù)據(jù)的底層聚類結(jié)構(gòu)。ECMSC(Exclusivity-Consistency regularized Multi-view Subspace Clustering)[12]引入一個新的位置感知排他項,利用不同視圖之間的互補(bǔ)信息實現(xiàn)聚類。DALIGA(Direct Affinity Learning via Integrative Grassmann Alignment)[13]保留了視圖的幾何結(jié)構(gòu),取得了較好的性能。LT-MSC(Low-rank Tensor constrained Multiview Subspace Clustering)[14]將不同視圖的子空間表示矩陣視為一個張量,使用低秩張量約束來捕獲多視圖數(shù)據(jù)的高階相關(guān)性。GLTA(Graph regularized Low-rank representation Tensor and Affinity matrix)[15]采用奇異值分解的張量核范數(shù)來探索高階相關(guān)性。GNLTA(Generalized Nonconvex Low-rank Tensor Approximation for multi-view subspace clustering)[16]采用低秩張量近似來捕獲多視圖之間的高階相關(guān)性,提出廣義非凸低秩張量范數(shù)。WTSNM(Weighted Tensor Schatten p-Norm Mininization)[17]提出加權(quán)增強(qiáng)張量核范數(shù)?;诘椭染仃嚪纸獾闹纫恢滦哉T導(dǎo)多視圖子空間聚類RC-MSC(Rank Consistency induced Multiview Subspace Clustering via low-rank matrix factorization)[18]追求視圖特定自表示系數(shù)矩陣之間的一致低秩結(jié)構(gòu)。MSCBDR(cauchy loss induced Block Diagonal Representation for robust Multi-view Subspace Clustering)[19]對嵌入在多視圖數(shù)據(jù)中的噪聲和離群值提供優(yōu)越的魯棒性。

    然而,現(xiàn)有的方法大多在以下方面還存在不足:1)現(xiàn)有方法旨在解決線性子空間的聚類問題,但大多數(shù)真實世界的數(shù)據(jù)集可能表現(xiàn)出非線性;2)在原始特征空間中相近的兩個數(shù)據(jù)點在對應(yīng)的表示空間中不一定相近,這破壞了表示矩陣的幾何特性,影響聚類性能;3)來自不同視圖的數(shù)據(jù)通常具有不同的結(jié)構(gòu),直接在歐氏空間中融合得到一致性親和矩陣過于單調(diào),無法對學(xué)習(xí)到的子空間進(jìn)行對齊。因此,本文提出了基于格拉斯曼流形融合子空間的多視圖聚類算法。該算法利用局部流形結(jié)構(gòu)和內(nèi)核技巧來學(xué)習(xí)每個視圖對應(yīng)的子空間表示,然后將每個視圖的子空間表示矩陣在格拉斯曼流形上對齊,得到一致性親和矩陣,并通過譜聚類得到最終的聚類結(jié)果。

    本文的主要工作有:1)提出基于格拉斯曼流形融合子空間的多視圖聚類算法;2)利用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)優(yōu)化本文模型。該模型有3 個優(yōu)點:一是將原始特征空間的數(shù)據(jù)點映射到高維核空間,并保留了局部流形結(jié)構(gòu);二是對每個視圖學(xué)習(xí)到的子空間表示在格拉斯曼流形上對齊,得到一致性親和矩陣,保證了幾何一致性;三是對一致性親和矩陣施加秩約束,使一致性親和矩陣的連通分量等于聚類的個數(shù)。與核多視圖低秩稀疏子空間聚類(KMLRSSC)算法相比,所提算法的聚類精度在MSRCV1、Prokaryotic、Not-Hill 數(shù)據(jù)集上分別提高了20.83 個百分點、9.47 個百分點和7.33 個百分點。

    1 相關(guān)工作

    1.1 符號與定義

    在本文中,標(biāo)量用小寫字母表示,向量用粗體小寫字母表示,矩陣用粗體大寫字母表示。表1 中列出了常用符號及其定義,其中矩陣的Frobenius 范數(shù)的符號定義為:‖· ‖F(xiàn),矩陣的跡定義為tr (·),矩陣的秩定義為rank (·)。

    表1 常用符號及其定義Tab.1 Common symbols and their definitions

    1.2 核學(xué)習(xí)

    根據(jù)自表示性質(zhì),每一個數(shù)據(jù)點都可以被表示為其他數(shù)據(jù)點的線性組合。這種線性組合表明了樣本之間的相似性,自表示矩陣可以通過求解式(1)得到:

    但實際生活中,數(shù)據(jù)點之間的非線性關(guān)系廣泛存在,根據(jù)文獻(xiàn)[3],內(nèi)核技巧可將原始數(shù)據(jù)空間中的非線性數(shù)據(jù)映射到高維核空間中,將輸入空間的非線性問題轉(zhuǎn)換成特征空間的線性分析問題。在式(1)的基礎(chǔ)上使用內(nèi)核技巧,得到:

    ?(X)是一個非線性特征映射,可以將數(shù)據(jù)映射到希爾伯特空間。假設(shè)核Gram 矩陣K=?(X)T?(X),則式(2)可表示為:

    1.3 局部流形結(jié)構(gòu)

    假設(shè)xi和xj是特征空間的數(shù)據(jù)點,zi和zj是xi和xj對應(yīng)的表示。根據(jù)文獻(xiàn)[20],在特征空間中相近的兩個點在表示空間中也應(yīng)有相近的表示,設(shè)S∈Rn×n為測量數(shù)據(jù)點之間的相似度,則有:

    其中:Ls=D-S是拉普拉斯矩陣,D是度矩陣。當(dāng)Θ(Z)最小化時,sij越小將會導(dǎo)致zi和zj的表示越近。由式(4)可知,學(xué)習(xí)到的表示矩陣符合原始特征空間的相似關(guān)系。

    1.4 格拉斯曼流形融合子空間

    格拉斯曼流形[13]被定義為n維歐氏空間的g維線性空間的集合。格拉斯曼流形結(jié)構(gòu)的元素可以用一個標(biāo)準(zhǔn)正交矩陣U∈Rn×g來表示,其列可以張成對應(yīng)的g維線性子空間span(U)。兩個子空間的距離被定義為連接格拉斯曼流形的最短測地線的距離。兩個g維線性子空間span(U1) 和span(U2)之間的投影距離為:

    2 基于格拉斯曼流形融合子空間的多視圖聚類

    本章詳細(xì)講述基于格拉斯曼流形融合子空間的多視圖聚類算法的模型,該模型首先將核學(xué)習(xí)和局部流形學(xué)習(xí)相結(jié)合,將原始特征空間的數(shù)據(jù)點映射到高維核空間,并保證原始特征空間相近的點在表示空間中也相近;然后基于格拉斯曼流形將學(xué)習(xí)到的子空間表示融合得到一致性親和矩陣,并約束一致性親和矩陣有k個連通分量,保證幾何特性。

    2.1 目標(biāo)函數(shù)

    對于單一視圖Xv,通過核學(xué)習(xí)得到視圖的子空間表示矩陣Zv(v=1,2,…,nv),在式(3)的基礎(chǔ)上加入局部流形結(jié)構(gòu)的學(xué)習(xí),推廣到多視圖子空間有:

    每個學(xué)習(xí)到的子空間表示Zv(v=1,2,…,nv)都是線性的,因此可以由一組基Uv張成。希望集成子空間到每一個子空間的測地線距離都最小化,即通過在格拉斯曼流形上將基向量對齊。集成子空間也是線性的,可以由一個基矩陣U張成。因此,在集成子空間中的樣本親和度由W=UUT給出。忽略常數(shù)項,可以得到:

    與歐氏距離中常用的相似性度量方法相比,格拉斯曼流形上的投影距離度量子空間之間的關(guān)系具有穩(wěn)定性和魯棒性。結(jié)合式(8),提出基于格拉斯曼流形融合子空間的多視圖聚類算法,目標(biāo)函數(shù)如下:

    其中:αv是子空間表示學(xué)習(xí)和親和矩陣學(xué)習(xí)之間的平衡參數(shù),β是局部流形結(jié)構(gòu)學(xué)習(xí)的平衡參數(shù)。此外,希望一致性親和矩陣W應(yīng)該有精確的k個連通分量,即數(shù)據(jù)點可以直接劃分到k個聚類中,利用文獻(xiàn)[21]中的定理實現(xiàn)。

    定理1拉普拉斯矩陣L的零特征值的重數(shù)k等于相似圖矩陣S的連通分量的個數(shù)。

    由定理1 可知,如果滿足約束rank (Lw)=n-k,則親和矩陣W恰好有k個連通分量。則式(9)的模型可重新表示為:

    2.2 優(yōu)化過程

    2.2.1 固定W、F,求解Zv

    式(11)去除無關(guān)項,則對于單一視圖Zv有:

    更新B1給定B2和Y2,將式(20)中的目標(biāo)函數(shù)最小化得到B1的更新規(guī)則如下:

    更新Y2給定B1和B2,則Y2的更新規(guī)則如下:

    2.2.3 固定Zv、W,求解F

    固定Zv、W時,認(rèn)為式(11)的前三項為常數(shù),則優(yōu)化式(11)等價于優(yōu)化:

    通過計算Lw的前k個最小特征值對應(yīng)的特征向量,可以得到最優(yōu)解F。

    2.2.4 實現(xiàn)細(xì)節(jié)

    在對Zv子問題和W子問題的進(jìn)行交替方向最小化時,為了解決式(15)和(21)中的交互部分的問題,將式(15)中的更新修改為:

    將式(21)中的更新修改為:

    2.3 格拉斯曼流形融合子空間的多視圖聚類

    基于格拉斯曼流形融合子空間的多視圖聚類算法如下。

    算法1 基于格拉斯曼流形融合子空間的多視圖聚類算法。

    3 實驗與結(jié)果分析

    3.1 實驗設(shè)置

    3.1.1 對比算法

    將本文算法與單視圖聚類算法和多視圖聚類算法進(jìn)行比較,對比算法包括以下幾種。

    1)單視圖算法:SC(Subspace Clustering)[23]對每個視圖執(zhí)行譜聚類算法,報告最優(yōu)結(jié)果作為實驗結(jié)果。

    2)多視圖算法:Co-reg[1]、Co-train[2]、MLRSSC[9]、KMLRSSC(Kernel Multi-view Low-Rank Spare Subspace Clustering)[9]、MLAN(Multi-view Learning with Adaptive Neighbors)[24]、LMSC[10]、DiMSC[11]、ECMSC[12]和DALIGA[13]。

    3.1.2 數(shù)據(jù)集概述

    本文在6 個公開數(shù)據(jù)集上進(jìn)行了實驗,分別是:MSRCV1數(shù)據(jù)集、Yale 數(shù)據(jù)集、Prokaryotic 數(shù)據(jù)集[9]、HW2sources 數(shù)據(jù)集、Not-Hill 數(shù)據(jù)集[25]和WebKB 數(shù)據(jù)集。#dv表示第v個視圖的維數(shù),具體情況如表2 所示。

    表2 實驗數(shù)據(jù)集Tab.2 Experimental datasets

    1)MSRCV1 數(shù)據(jù)集。該數(shù)據(jù)集選取了樹、建筑、飛機(jī)、牛、人臉、汽車和自行車的7 類圖像共210 個樣本,提取6 種圖像特征組成視圖,詳見http://research.microsoft.com/en-us/projects/objectclassrecognition。

    2)Yale 數(shù)據(jù)集:該數(shù)據(jù)集包含165 張GIF 格式的15 個人的灰度圖像。每個人有11 張圖片,每張圖片對應(yīng)不同的面部表情或配置:中光、戴眼鏡、開心、左光、不戴眼鏡、正常、右光、悲傷、困倦、驚訝和眨眼,提取3 種圖像特征作為視圖,詳見http://cvc.yale.edu/projects/yalefaces/yalefaces.html。

    3)Prokaryotic 數(shù)據(jù)集。該數(shù)據(jù)集中有3 個視圖,每個視圖包含551 種原核生物種類。此數(shù)據(jù)集和其他數(shù)據(jù)集的區(qū)別在于不同的聚類中物種的數(shù)量有很大不同,即33 個物種在一個大的簇中,35 個物種在一個小的簇中。

    4)HW2sources 數(shù)據(jù)集。手寫數(shù)字?jǐn)?shù)據(jù)集(HW_2)包含2 000 個樣本,實驗中的兩個視圖來自于MNIST 手寫數(shù)據(jù)集(0~9)和USPS 手寫數(shù)據(jù)集(0~9),詳見https://cs.nyu.edu/~roweis/data.html。

    5)Not-Hill 數(shù)據(jù)集。該數(shù)據(jù)集包含4 660 張面部圖像,這里選擇5 個類別的面部圖像,每個類別抽取110 張人臉圖像組成3 個視圖用于實驗。

    6)WebKB 數(shù)據(jù)集。該數(shù)據(jù)集由4 個類別的203 個網(wǎng)頁組成。每個網(wǎng)頁都由頁面的內(nèi)容、超鏈接的錨文件和標(biāo)題中的文本來組成3 個視圖。

    3.1.3 算法參數(shù)

    對比算法的參數(shù)設(shè)置如表3 所示,其中SC、Co-train 和MLAN 算法沒有參數(shù)。由于沒有視圖重要性的先驗信息,因此假設(shè)α=αv。在核學(xué)習(xí)中,使用高斯核K(x,y)=,其中h在對{0.5,1,5,10,50}中搜索,其他參數(shù)保持不變。設(shè)置最大迭代次數(shù)為100,并報告最佳結(jié)果。

    表3 對比算法參數(shù)設(shè)置Tab.3 Parameters setting of algorithms to be compared

    3.1.4 評價指標(biāo)

    根據(jù)文獻(xiàn)[26],利用標(biāo)準(zhǔn)化交互信息(Normalized Mutual Information,NMI)、精度(Accuracy,ACC)、蘭德調(diào)整系數(shù)(Adjusted Rand Index,ARI)、F-score、Precision 和Recall六個指標(biāo)來評價聚類性能,每一個指標(biāo)都度量聚類的特定屬性,對于這些指標(biāo),值越高表示性能越好。

    由于譜聚類算法都是基于k-means 算法的,不同初始化可能產(chǎn)生不同的結(jié)果,因此對實驗運(yùn)行20 次,并報告平均值和標(biāo)準(zhǔn)差。表4 給出了不同算法在6 個公開數(shù)據(jù)集上的聚類結(jié)果。在大多數(shù)情況下,本文算法都取得了較好的性能。

    3.2 實驗結(jié)果及分析

    3.2.1 與經(jīng)典算法進(jìn)行比較

    1)在大多數(shù)的情況下,本文算法優(yōu)于對比算法或足以與對比算法相媲美,特別是在MSRCV1 數(shù)據(jù)集、HW2sources 數(shù)據(jù)集和Prokaryotic 數(shù)據(jù)集上的實驗效果。在MSRCV1 數(shù)據(jù)集上,本文算法相較于次優(yōu)算法分別提高了6.47(NMI)、7.62(ACC)、8.53(ARI)、7.25(F-score)、8.69(Recall)、5.62(Precision)個百分點。在HW2sources 數(shù)據(jù)集上,本文算法相較于次優(yōu)算法分別提高了3.41(NMI)、7.86(ACC)、8.09(ARI)、7.24(F-score)、9.97(Recall)、4.14(Precision)個百分點。在Prokaryotic 數(shù)據(jù)集上,本文算法相較于次優(yōu)算法分別提高了7.14(NMI)、9.13(ACC)、11.08(ARI)、7.90(F-score)、7.13(Precision)個百分點,僅在Recall 指標(biāo)上低于MLAN 算法。

    2)在Prokaryotic數(shù)據(jù)集上,基于單視圖的譜聚類算法優(yōu)于大多數(shù)多視圖方法,這一結(jié)果可能是因為噪聲或異常值引起視圖多樣性,多視圖聚類受到較差視圖的影響導(dǎo)致結(jié)果不佳。在其余5個數(shù)據(jù)集上,大多數(shù)多視圖算法優(yōu)于單視圖算法。

    3)對比多視圖子空間算法,DiMSC 和ECMSC 在WebKB和Prokaryotic 數(shù)據(jù)集上效果不佳,可能是因為DiMSC 旨在從不同的視圖中學(xué)習(xí)互補(bǔ)信息,如果視圖之間存在較大的不一致,則DiMSC 可能得出不正確的結(jié)果;ECMSC 算法效果較差可能是因為兩個數(shù)據(jù)集的多視圖特征來自于多個來源,而不是像Yale 數(shù)據(jù)集中多視圖特征是人工從同一對象中提取的。MLRSSC、KMLRSSC、DALIGA 算法采用低秩稀疏正則化,但均忽略了數(shù)據(jù)的局部流形結(jié)構(gòu),可能會獲得較差的性能。

    4)在表4 中,WebKB 數(shù)據(jù)集由大學(xué)計算機(jī)科學(xué)系收集的網(wǎng)頁組成,包含203 個網(wǎng)頁,分為4 個類別。每個網(wǎng)頁由頁面的內(nèi)容、超鏈接的錨文本和標(biāo)題中的文本組成。N/A 表示W(wǎng)ebKB 數(shù)據(jù)集不適用于LMSC 和ECMSC 算法,得不到有效的聚類結(jié)果。

    表4 MSRCV1、Yale、Prokaryotic、HW2sources、Not-Hill、WebKB數(shù)據(jù)集上不同算法的聚類表現(xiàn)Tab.4 Clustering performance on MSRCV1,Yale,Prokaryotic,HW2sources,Not-Hill,WebKB datasets among different algorithms

    續(xù)表

    3.2.2 收斂性和計算復(fù)雜度

    根據(jù)文獻(xiàn)[27],交替方向乘子法的全局收斂性在理論上保證了式(11)中的線性約束凸優(yōu)化問題。本文算法的時間復(fù)雜度為Ο(nvTn3),其中:nv是視圖個數(shù),T是迭代次數(shù),n是樣本個數(shù)。

    為了更直觀顯示本文算法的收斂性,式(11)中目標(biāo)函數(shù)的值隨著迭代次數(shù)的變化如圖1 所示。在經(jīng)過20 次迭代后,本文算法的目標(biāo)函數(shù)值達(dá)到穩(wěn)定狀態(tài)。相較于對比算法,以MSRCV1 數(shù)據(jù)集為例,MLRSSC 算法在第76 次時達(dá)到收斂,LMSC 在129 次迭代時收斂,其余算法迭代次數(shù)均在10~30,很明顯,本文算法收斂效率比較高,這也進(jìn)一步表明了基于格拉斯曼流形融合子空間的多視圖聚類的有效性。

    圖1 本文算法在6個數(shù)據(jù)集上的收斂曲線Fig.1 Convergence curves on 6 datasets of the proposed algorithm

    3.2.3 參數(shù)敏感性分析

    圖2為本文算法在MSRCV1、Yale、Prokaryotic數(shù)據(jù)集上的ACC值,因篇幅有限,未畫出其余數(shù)據(jù)集的參數(shù)分析圖。本文算法總共有α、β和γ這3個平衡參數(shù)需要調(diào)整。3個參數(shù)均從{1E-7,1E-6,1E-5,…,1E-1,1}中選取。根據(jù)文獻(xiàn)[28],首先,固定參數(shù)α和β,采用不同的γ值來觀察γ對聚類指標(biāo)ACC的影響。從圖2第一行可知,當(dāng)γ>1E-3時,ACC顯著下降。這是因為γ太大,一致性項可能會破壞每個視圖的多樣性;說明合適的γ取值可以讓一致性項發(fā)揮更好的作用,促進(jìn)一致性親和矩陣的連通分量等于聚類個數(shù)。圖2第二行顯示了在固定γ(這里選取γ=0.001)時,不同的α和β的ACC值。結(jié)果表明,本文算法對α和β敏感,不同的數(shù)據(jù)集需要不同的參數(shù)組合才能達(dá)到最佳性能。合適的α和β可以使原始特征空間的相近的點在子空間中也相近,同時促進(jìn)子空間表示在格拉斯曼流形上進(jìn)行對齊。實際應(yīng)用中,由于γ對聚類性能不敏感,所以可以先確定γ的取值,再通過交叉驗證找到最優(yōu)的α和β。

    圖2 本文算法在MSRCV1、Yale、Prokaryotic數(shù)據(jù)集上的參數(shù)敏感性Fig.2 Sensitivity of parameters on MSRCV1、Yale、Prokaryotic datasets of the proposed algorithm

    在本文算法的實驗中,MSRCV1 數(shù)據(jù)集最優(yōu)參數(shù)的取值為{0.01,0.001,0.001},Yale 數(shù)據(jù)集最優(yōu)參數(shù)的取值為{0.1,0.001,0.001},Prokaryotic 數(shù)據(jù)集最優(yōu)參數(shù)的取值為{0.1,0.001,0.001},WebKB 數(shù)據(jù)集最優(yōu)參數(shù)的取值為{1,0.01,0.1},HW2sources 數(shù)據(jù)集 最優(yōu)參 數(shù)的取值為{1,0.001,0.001},Not-Hill 數(shù)據(jù)集最優(yōu)參數(shù)的取值為{1,0.001,0.001}。

    3.2.4 t-SNE可視化

    本節(jié)使 用 t-SNE(t-distributed Stochastic Neighbor Embedding)可視化直觀比較本文算法得到的一致性親和矩陣和LMSC 算法得到的一致性潛在表示。LMSC算法既不能捕獲多視圖數(shù)據(jù)點之間的非線性關(guān)系,在學(xué)習(xí)潛在表示時也不能保留原始特征空間的局部性,所以選擇該算法做可視化的對比實驗。使用t-SNE將LMSC算法獲得的潛在表示和本文算法獲得的一致性親和矩陣映射到一個2D空間,并繪制成圖。由于篇幅限制,僅給出MSRCV1、Prokaryotic 和HW2sources 數(shù)據(jù)集的t-SNE圖。從圖3可以看出,本文算法相較于LMSC算法更好地揭示了聚類的底層結(jié)構(gòu),即本文算法得到的聚類邊界比LMSC算法得到的聚類邊界清晰。可視化的結(jié)果進(jìn)一步證明了捕獲非線性關(guān)系和保留局部結(jié)構(gòu)的重要性。

    圖3 本文算法與LMSC算法在MSRCV1、Prokaryotic、HW2sources數(shù)據(jù)集上的可視化Fig.3 Visualization on MSRCV1、Prokaryotic、HW2sources datasets of the proposed algorithm and LMSC algorithm

    4 結(jié)語

    本文提出了一種新的多視圖子空間聚類算法,將核學(xué)習(xí)和局部流形學(xué)習(xí)相結(jié)合,得到每個視圖的子空間表示矩陣,保證了原始特征空間中相近的數(shù)據(jù)點在子空間中也相近;然后將這些子空間表示矩陣在格拉斯曼流形上對齊,得到一致性親和矩陣,并對一致性親和矩陣施加秩約束,使一致性親和矩陣的連通分量數(shù)等于聚類個數(shù),從而提高聚類性能。本文提出的算法在6 個公開數(shù)據(jù)集上均取得了較好的效果,相較于其他9 種聚類算法,本文算法在6 個聚類指標(biāo)上取得了更優(yōu)的聚類結(jié)果。實驗結(jié)果驗證了基于格拉斯曼流形融合子空間的多視圖聚類算法的有效性和良好性能。

    本文算法雖然具有較好的聚類性能,但還有以下幾個問題有待解決:

    1)本文算法的時間復(fù)雜度很大程度上取決于樣本的大小。在未來的研究中,可以利用基于錨圖[29]的策略來提高本文算法的可擴(kuò)展性。

    2)根據(jù)文獻(xiàn)[30],在網(wǎng)頁聚類和疾病診斷等實際應(yīng)用中,不同視圖的樣本可能會缺失;如何將本文算法擴(kuò)展到不完整多視圖聚類將成為未來的一項重要工作。

    3)基于低秩張量表示的多視圖學(xué)習(xí)被廣泛研究,例如文獻(xiàn)[17],如何在本文算法的基礎(chǔ)上加入張量核范數(shù)來探索高階相關(guān)性,從而進(jìn)一步提高算法效率也值得深入探索。

    猜你喜歡
    流形集上視圖
    Cookie-Cutter集上的Gibbs測度
    緊流形上的Schr?dinger算子的譜間隙估計
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
    Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
    復(fù)扇形指標(biāo)集上的分布混沌
    5.3 視圖與投影
    視圖
    Y—20重型運(yùn)輸機(jī)多視圖
    SA2型76毫米車載高炮多視圖
    永善县| 玛曲县| 延川县| 兰坪| 吉木萨尔县| 方城县| 岑巩县| 萨嘎县| 科技| 桃园市| 敦化市| 尉犁县| 吴忠市| 阿勒泰市| 沙洋县| 巴东县| 武冈市| 扶沟县| 凤台县| 淮安市| 宝山区| 山东| 泽普县| 邹平县| 奉新县| 克东县| 南皮县| 通江县| 龙岩市| 竹溪县| 高台县| 延津县| 读书| 涟源市| 滦平县| 工布江达县| 乌审旗| 靖西县| 承德市| 柏乡县| 栖霞市|