• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用稀疏自編碼的局部譜聚類映射算法*

      2018-01-24 07:53:41陳秀宏何佳佳
      傳感器與微系統(tǒng) 2018年1期
      關(guān)鍵詞:鄰域聚類編碼

      萬 月, 陳秀宏, 何佳佳

      (江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122)

      0 引 言

      深度學(xué)習(xí)能發(fā)現(xiàn)高維數(shù)據(jù)中深層次復(fù)雜結(jié)構(gòu)特征,并提取數(shù)據(jù)從低維到高維的層次特征,最終提升對數(shù)據(jù)的分類以及預(yù)測的準(zhǔn)確性[1]。文獻(xiàn)[2]通過神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),文獻(xiàn)[3]探究了深度學(xué)習(xí)可以幫助特征學(xué)習(xí)獲取更佳的特征表示。

      譜聚類算法由于能識別任意形狀結(jié)構(gòu)數(shù)據(jù),且收斂于全局最優(yōu)解而被廣泛應(yīng)用[4,5]。傳統(tǒng)譜聚類通過高斯核函數(shù)建立鄰接矩陣,而高斯核參數(shù)σ均由人工設(shè)置[6]。文獻(xiàn)[7]在基于圖嵌入的半監(jiān)督算法中提出了具有局部差異的圖嵌入算法。文獻(xiàn)[8]將譜聚類應(yīng)用到圖像處理中,提出了一種彩色圖像分割算法。

      考慮到深度學(xué)習(xí)和譜聚類算法各自的優(yōu)勢,本文提出了一種利用稀疏自編碼的局部譜聚類映射算法,利用稀疏自編碼提取數(shù)據(jù)高層特征代替原始數(shù)據(jù);構(gòu)建鄰接矩陣時(shí)拋棄了傳統(tǒng)高斯核函數(shù)建立方法,避免了參數(shù)調(diào)節(jié),利用數(shù)據(jù)的流形性質(zhì)建立更能反映數(shù)據(jù)鄰域結(jié)構(gòu)的相似矩陣,算法在聚類同時(shí)引入數(shù)據(jù)映射的協(xié)同訓(xùn)練實(shí)現(xiàn)了映射與聚類的協(xié)同學(xué)習(xí)與訓(xùn)練,并更新類指標(biāo),進(jìn)而獲得更精確的聚類結(jié)果。

      1 稀疏自編碼

      1.1 反向傳播算法

      稀疏自編碼建立在反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的具有三層的神經(jīng)網(wǎng)絡(luò)模型如圖1所示。

      圖1 基本的三層神經(jīng)網(wǎng)絡(luò)模型

      (1)

      n個(gè)數(shù)據(jù)的樣本集{x1,x2,…,xn},設(shè)與輸入值xi對應(yīng)的目標(biāo)值yi,則對全部n個(gè)樣本數(shù)據(jù)的代價(jià)函數(shù)為

      (2)

      式中nl為網(wǎng)絡(luò)總層數(shù);sl為第l層的節(jié)點(diǎn)數(shù)(不包括偏置)。第一項(xiàng)為均方差項(xiàng),第二項(xiàng)為權(quán)重衰減項(xiàng),用以防止過擬合。

      1.2 稀疏性

      (3)

      (4)

      其中稀疏性參數(shù)ρ為充分小的正數(shù)。于是,稀疏自編碼的目標(biāo)函數(shù)可以表示為

      (5)

      2 譜聚類

      2.1 譜聚類思想與算法

      定義Y=[y1,y2,…,yn]T∈{0,1}n×C,其中yi∈{0,1}C為xi的聚類指標(biāo)向量,若xi屬于第C類,則yij=1;否則,yij=0,j=1,2,…,C,i=1,2,…,n。定義標(biāo)量化的聚類指標(biāo)矩陣[9]F=[F1,F2,…,Fn]T=Y(YTY)-1/2,其中Fi為xi的標(biāo)量化聚類指標(biāo)向量,F(xiàn)的第j列為

      (6)

      式中nj為屬于第j類數(shù)據(jù)的個(gè)數(shù)。則譜聚類可表示為以下優(yōu)化問題

      min tr(FTLF),s.t.F=Y(YTY)-1/2

      (7)

      傳統(tǒng)譜聚類中,由高斯核建立鄰接矩陣

      (8)

      式中Nk(·)為數(shù)據(jù)的k近鄰。由于式(7)中的F為離散量,直接求解比較困難,所以需要對F進(jìn)行松弛轉(zhuǎn)換為連續(xù)量后聚類。

      2.2 局部譜聚類

      以上譜聚類的鄰接矩陣并未考慮數(shù)據(jù)的流形性質(zhì),以及局部鄰域結(jié)構(gòu),文獻(xiàn)[10]以每個(gè)數(shù)據(jù)與其鄰域點(diǎn)的線性組合進(jìn)行線性重構(gòu),并利用重構(gòu)的權(quán)值矩陣Sl建立數(shù)據(jù)的相似矩陣,其目標(biāo)函數(shù)為

      (9)

      (10)

      (11)

      3 局部譜聚類與映射的協(xié)同訓(xùn)練

      局部譜聚類雖然考慮了數(shù)據(jù)的局部流形結(jié)構(gòu),但只是單一聚類,借鑒文獻(xiàn)[11]的思路,本文每個(gè)樣本與其所屬類別可以建立一個(gè)明確的映射關(guān)系,即在聚類過程中將樣本映射到類指標(biāo)矩陣上修正聚類指標(biāo)。對于數(shù)據(jù)集X∈Rd×n,通過XTW將數(shù)據(jù)集映射到類指標(biāo)矩陣F上,誤差最小化的問題可以用如下線性回歸模型來進(jìn)行

      (12)

      式中 回歸系數(shù)W∈Rd×c;Ω(W)為對回歸系數(shù)的正則約束;β為約束系數(shù)。使用‖W‖2,1作為W的正則約束項(xiàng)。結(jié)合局部譜聚類,聚類算法與映射可以同時(shí)得到學(xué)習(xí)與調(diào)整,協(xié)同訓(xùn)練算法的目標(biāo)函數(shù)轉(zhuǎn)換為

      s.t.FTF=I

      (13)

      定義一個(gè)d×d的對角矩陣U,其第j個(gè)對角元素Ujj為

      (14)

      則式(13)轉(zhuǎn)換為

      s.t.FTF=I

      (15)

      目標(biāo)函數(shù)關(guān)于W求偏導(dǎo)數(shù)并令其為零得到

      W=α(αX(XT)+βU)-1XF

      (16)

      令A(yù)=α(αX(XT)+βU)-1,則W=AXF,代入式(15)

      βtr(FTXTATUAXF)s.t.FTF=I

      (17)

      式(13)可簡化為

      min tr(FTHF),s.t.FTF=I

      (18)

      式中H=(L1-αXTAX+αL)。通過對H進(jìn)行特征分解,再用k-means對特征向量聚類即可。

      4 利用稀疏自編碼的局部譜聚類映射算法

      首先對數(shù)據(jù)進(jìn)行稀疏自編碼提取高層特征,并以此類特征數(shù)據(jù)作為輸入進(jìn)行局部譜聚類與映射(local spectral clustering mapping,LSCMS)協(xié)同訓(xùn)練。算法的具體過程如下:

      1)預(yù)處理階段:對于來自真實(shí)世界的圖片,采用ZCA白化算法對數(shù)據(jù)X進(jìn)行預(yù)處理,消除數(shù)據(jù)冗余度,得到新的數(shù)據(jù)X1。在X1上進(jìn)行稀疏自編碼訓(xùn)練,選擇合適的隱含層個(gè)數(shù),得到訓(xùn)練后提取的高層特征trainFeatures。

      2)協(xié)同訓(xùn)練階段:用提取的數(shù)據(jù)高層特征trainFeatures作為輸入數(shù)據(jù)X進(jìn)行局部譜聚類和協(xié)同訓(xùn)練。

      b.由式(16)計(jì)算對角矩陣U,計(jì)算A=α(αX(XT)+βU)-1和H=(L1-αXTAX+αI);

      c.利用H的前C個(gè)特征向量來更新F;

      d.由W=AXF更新W,若某收斂條件滿足則停止迭代;否則,轉(zhuǎn)步驟(b);

      4)對得到的F的每一行進(jìn)行k-means聚類,得到最終聚類結(jié)果。

      5 實(shí)驗(yàn)與結(jié)果分析

      5.1 數(shù)據(jù)集以及實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)中所使用的數(shù)據(jù)集包括6個(gè)UCI(University of California,Irvine)數(shù)據(jù)集、MNIST手寫數(shù)據(jù)集以及ORL和Yale人臉數(shù)據(jù)集,如表1所示。參數(shù)α和β取值均為1,并將本文算法與k-means算法[12]、模糊c均值[13](fuzzyc-means,F(xiàn)CM,隸屬度值為2)算法、傳統(tǒng)譜聚類(spectral clustering,SC)算法[14]以及通過高斯核建立鄰接矩陣的本文算法(spectral clustering and mapping algorithm using sparse autoencoders,SCMSA)進(jìn)行對比。每種算法均重復(fù)20次后取平均結(jié)果。實(shí)驗(yàn)硬件為Interl(R)Xeon(R)CPU E5-4607,2.60GHz(2)處理器,內(nèi)存為32GB,軟件為Win764位操作系統(tǒng)和MATLAB2014b。

      表1 數(shù)據(jù)集描述

      5.2 零相位成分分析白化

      零相位成分分析(zero-phase component analysis,ZCA)白化處理即將圖像相鄰像素間的冗余除去,使得白化后數(shù)據(jù)的特征之間相關(guān)性較低,并具有相同的方差。

      5.3 評價(jià)指標(biāo)

      為了評價(jià)聚類效果,采用了以下兩種標(biāo)準(zhǔn)評價(jià)方法,兩個(gè)指標(biāo)均值越大效果越好。

      1)F-measure

      (19)

      式中P為精確率(precision);R為召回率(recall);TP為正類被判定為正類的個(gè)數(shù);FP為負(fù)類被判定為正類的個(gè)數(shù);FN為正類判定為負(fù)類的個(gè)數(shù)。

      2)歸一化互信息

      兩個(gè)隨機(jī)向量X與Y間的歸一化互信息(normalized mutual information,NMI)為

      (20)

      式中I(X,Y)為X和Y之間的互信息;H(X)和H(Y)分別為X和Y的熵。

      5.4 實(shí)驗(yàn)結(jié)果與分析

      表2、表3分別為數(shù)據(jù)集在不同算法中的F-measure值與NMI值的對比結(jié)果;圖2為在鄰域k的不同取值下,相關(guān)數(shù)據(jù)F-measure值與NMI值的變化情況,由于Wine和Seeds的鄰域選擇較少時(shí)聚類效果很差,所以,k從5開始,Olivetti 研究室(Olivetti research laboratory,ORL)與Yale人臉庫則從2開始取值。圖3為在k=5,α,β分別取10-4~104,間隔102時(shí)人臉數(shù)據(jù)ORL與Yale的聚類結(jié)果。

      圖2 鄰域k的取值對NMI與F-measure的影響

      圖3 α和β的取值對NMI與F-measure的影響

      圖2看出,UCI數(shù)據(jù)集中,當(dāng)k值從5開始增加,Wine和Seeds的聚類效果逐漸提升,k=25時(shí)達(dá)最大值,k超過25后聚類效果下降。人臉數(shù)據(jù)集中,k=5時(shí),Yale與ORL數(shù)據(jù)庫聚類效果達(dá)到最佳,k超過25后,Yale數(shù)據(jù)集的聚類效果略下降,ORL數(shù)據(jù)集基本保持不變。所以k的選取對最終聚類效果有很大的影響。

      圖3中當(dāng)α,β過大時(shí)聚類效果很差,當(dāng)α=1,β=100時(shí)兩個(gè)數(shù)據(jù)集的NMI與F-measure值均最佳,由此看出數(shù)據(jù)映射對聚類效果有一定程度影響。

      從表2,表3可以看出LSCMS算法效果相較于其他聚類算法有明顯提高。證實(shí)了局部譜聚類與數(shù)據(jù)映射的協(xié)同訓(xùn)練有助于提升最終聚類效果。

      6 結(jié)束語

      提出了利用稀疏自編碼的局部譜聚類映射算法。首先對圖片進(jìn)行ZCA白化處理消除圖片的冗余信息,然后進(jìn)行稀疏自編碼特征提取代替原始數(shù)據(jù),通過鄰域重構(gòu)相似矩陣,并結(jié)合數(shù)據(jù)映射的協(xié)同訓(xùn)練進(jìn)行聚類,驗(yàn)證了本文算法的有效性與可行性。

      [1] 余 凱,賈 磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天,今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.

      表2 相關(guān)算法的F-measure值

      表3 相關(guān)算法的的NMI

      [2] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.

      [3] Bengio Y,Courville A,Vincent P.Representation learning:A review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.

      [4] Jia H,Ding S,Xu X,et al.The latest research progress on spectral clustering[J].Neural Computing and Applications,2014,24(7-8):1477-1486.

      [5] 李昌興,黃艷虎,支曉斌,等.基于加速k均值的譜聚類圖像分割算法改進(jìn)[J].傳感器與微系統(tǒng),2016,35(9):137-140.

      [6] Ng A Y,Jordan M I,Weiss Y.On spectral clustering:Analysis and an algorithm[J].Advances in Neural Information Processing Systems,2002,2:849-856.

      [7] 梁興柱,林玉娥,林玉榮.半監(jiān)督有局部差異的圖嵌入算法[J].傳感器與微系統(tǒng),2014,33(7):144-146.

      [8] 張 琦,盧志茂,徐 森,等.基于相似度矩陣的譜聚類集成圖像分割[J].傳感器與微系統(tǒng),2013,32(10):21-23.

      [9] Ye J,Zhao Z,Wu M,et al.Discriminativek-means for cluste-ring[C]∥Proceedings of the Annual Conference on Advances in Neural Information Processing Systems,2007:1649-1656.

      [10] Wang F,Zhang C.Label propagation through linear neighborhood-s[J].IEEE Transactions on knowledge and Data Engineering,2008,20(1):55-67.

      [11] 汪荊琪,徐林莉.一種基于多視圖數(shù)據(jù)的半監(jiān)督特征選擇和聚類算法[J].數(shù)據(jù)采集與處理,2015,30(1):106-116.

      [12] Jain A K.Data clustering:50 years beyondk-means[J].Pattern recognition letters,2010,31(8):651-666.

      [13] Bezdek J C,Ehrlich R,Full W.FCM:The fuzzyc-means clustering algorithm[J].Computers & Geosciences,1984,10(2-3):191-203.

      [14] Ng A Y,Jordan M I,Weiss Y.On spectral clustering:Analysis and an algorithm[J].Advances in Neural Information Processing Systems,2002,2:849-856.

      猜你喜歡
      鄰域聚類編碼
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      《全元詩》未編碼疑難字考辨十五則
      稀疏圖平方圖的染色數(shù)上界
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      Genome and healthcare
      基于鄰域競賽的多目標(biāo)優(yōu)化算法
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      關(guān)于-型鄰域空間
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      皮山县| 连云港市| 泾阳县| 长兴县| 三门峡市| 扶绥县| 绥宁县| 霸州市| 舟山市| 衡阳县| 太谷县| 太原市| 右玉县| 武邑县| 壶关县| 改则县| 兴海县| 牟定县| 简阳市| 赤壁市| 阳山县| 沙湾县| 水城县| 岳阳县| 陆丰市| 望都县| 正宁县| 枝江市| 鱼台县| 凤凰县| 信阳市| 横峰县| 南投市| 崇州市| 东宁县| 名山县| 通化县| 象州县| 楚雄市| 泾阳县| 康乐县|