• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      參數(shù)字典稀疏表示的完全無(wú)監(jiān)督域適應(yīng)*

      2019-07-18 01:07:36余歡歡陳松燦
      計(jì)算機(jī)與生活 2019年5期
      關(guān)鍵詞:源域字典聚類(lèi)

      余歡歡,陳松燦

      南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106

      1 引言

      域適應(yīng)學(xué)習(xí)(domain adaptation learning,DAL)[1]作為遷移學(xué)習(xí)[2]的子問(wèn)題,近幾年在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域受到了越來(lái)越多的關(guān)注,并被應(yīng)用于自然語(yǔ)言[3-6]、計(jì)算機(jī)視覺(jué)[7-8]、醫(yī)療健康和生物信息學(xué)[9-10]等領(lǐng)域。DAL不同于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,其無(wú)需假設(shè)訓(xùn)練/源域(記為S)樣本和測(cè)試/目標(biāo)域(記為T(mén))樣本服從相同的概率分布,即PS(X)≠PT(X),因此能有效解決因概率分布不同而產(chǎn)生的學(xué)習(xí)性能退化問(wèn)題。

      無(wú)監(jiān)督域適應(yīng)(unsupervised DA,UDA)作為域適應(yīng)學(xué)習(xí)的一個(gè)研究分支,通常用于解決標(biāo)記稀缺、無(wú)標(biāo)記小樣本、個(gè)性化設(shè)計(jì)等問(wèn)題。其中,無(wú)標(biāo)記小樣本問(wèn)題備受關(guān)注,一般采用聚類(lèi)方法進(jìn)行建模,但因樣本量少易導(dǎo)致聚類(lèi)性能較差。因此,嘗試借助相關(guān)域(與目標(biāo)域分布不同)中的“知識(shí)”來(lái)提高目標(biāo)域的學(xué)習(xí)性能。而在現(xiàn)實(shí)場(chǎng)景中,獲得大量有標(biāo)記源域樣本成本較高,并且源域樣本的標(biāo)記有時(shí)可能難以獲取。例如,校園網(wǎng)頁(yè)文本分類(lèi)中,不同學(xué)校的網(wǎng)頁(yè)文本數(shù)據(jù)的分布可能存在差異(如已建立的校A網(wǎng)和新建立的校B網(wǎng)可分別作為源域和目標(biāo)域),A網(wǎng)和B網(wǎng)的文本數(shù)據(jù)可能因標(biāo)記成本的原因?qū)е码y以獲得樣本標(biāo)記,同時(shí)B網(wǎng)建立時(shí)間較短,則可能僅有少量訓(xùn)練樣本能獲取。然而,針對(duì)此類(lèi)問(wèn)題,現(xiàn)有的基于參數(shù)[11-13]和非參數(shù)[4,14-22]域適應(yīng)的方法可能難以直接對(duì)其建模。因此,在這種缺少監(jiān)督信息(即完全無(wú)監(jiān)督)的情況下,尋找源域和目標(biāo)域間的共性并實(shí)現(xiàn)“知識(shí)”遷移更成為了無(wú)監(jiān)督域適應(yīng)研究的極大挑戰(zhàn)。

      為了應(yīng)對(duì)上述問(wèn)題,受先前軟大間隔聚類(lèi)[23](soft large margin clustering,SLMC)啟發(fā),提出了一種靈活的參數(shù)遷移新方法——參數(shù)字典稀疏表示的完全無(wú)監(jiān)督域適應(yīng)(whole UDA,WUDA)。該方法不僅擴(kuò)充了文獻(xiàn)[2]中的參數(shù)遷移方法,還擴(kuò)展了參數(shù)遷移在域適應(yīng)學(xué)習(xí)中的應(yīng)用范圍。本文中,WUDA的核心思想是源域和目標(biāo)域的參數(shù)(決策函數(shù)的權(quán)重矩陣)借助一個(gè)參數(shù)公共字典上的稀疏表示實(shí)現(xiàn)選擇性的互適應(yīng)學(xué)習(xí)。此種基于參數(shù)字典稀疏表示的選擇性域適應(yīng)方法還未見(jiàn)發(fā)表。本文所提出的WUDA避免了現(xiàn)有參數(shù)遷移方法[11-13]的典型缺陷,如:(1)現(xiàn)有方法直接在域間作參數(shù)傳遞[11],或者通過(guò)線性變換[12]和參數(shù)微調(diào)[13]進(jìn)行,而WUDA利用學(xué)得的參數(shù)公共字典作為橋梁實(shí)現(xiàn)了兩個(gè)域的關(guān)聯(lián)。(2)現(xiàn)有方法無(wú)法或難以進(jìn)行參數(shù)的適應(yīng)性選擇學(xué)習(xí),而WUDA則利用參數(shù)公共字典的稀疏表示加以實(shí)現(xiàn),使得各域參數(shù)可被適應(yīng)性選擇。

      總之,本文的主要貢獻(xiàn)如下:

      (1)借助源域的知識(shí),從參數(shù)公共字典的角度,對(duì)兩個(gè)域的權(quán)重經(jīng)參數(shù)字典進(jìn)行互適應(yīng)學(xué)習(xí),并通過(guò)系數(shù)的稀疏約束進(jìn)行各域權(quán)重的適應(yīng)性選擇,從而實(shí)現(xiàn)域適應(yīng)并提高目標(biāo)域的聚類(lèi)性能。

      (2)為現(xiàn)有參數(shù)遷移方法提供了一個(gè)更大的靈活框架,能克服現(xiàn)有參數(shù)遷移方法無(wú)法適應(yīng)性選擇參數(shù)的缺陷,并擴(kuò)展了參數(shù)遷移在完全無(wú)監(jiān)督域適應(yīng)上的應(yīng)用。

      (3)采用網(wǎng)格搜索法尋找最佳參數(shù),有效克服了無(wú)標(biāo)記樣本無(wú)法使用交叉驗(yàn)證選擇超參數(shù)的問(wèn)題,同時(shí)合適的參數(shù)也避免了負(fù)遷移的產(chǎn)生。

      (4)通過(guò)在多個(gè)模擬和真實(shí)數(shù)據(jù)集上與相關(guān)算法的比較,驗(yàn)證了本文方法在聚類(lèi)性能上的顯著有效性。

      2 相關(guān)工作

      域適應(yīng)學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的重要研究方向之一。在源域有標(biāo)記的條件下,根據(jù)目標(biāo)域是否包含樣本標(biāo)記,域適應(yīng)學(xué)習(xí)可分為監(jiān)督型[3,24]、半監(jiān)督型[25-27]和無(wú)監(jiān)督型[14-16,28]。例如,Daumé[3]提出了特征增廣的監(jiān)督型方法。那么,對(duì)于給定特征向量x,定義源域和目標(biāo)域中樣本的增廣特征分別為和,然后根據(jù)訓(xùn)練分類(lèi)器。但該方法需目標(biāo)樣本有標(biāo)記,不適用于現(xiàn)實(shí)場(chǎng)景。針對(duì)這種問(wèn)題,Daumé等人[25]對(duì)EDA(easy domain adaptation)算法做出改進(jìn),使其可用于半監(jiān)督域適應(yīng)學(xué)習(xí)。此外,考慮到無(wú)標(biāo)記樣本更易獲得,且標(biāo)記樣本通常需要較高的代價(jià),則為了提升機(jī)器學(xué)習(xí)算法在這種無(wú)標(biāo)簽?zāi)繕?biāo)域中的學(xué)習(xí)性能,無(wú)監(jiān)督域適應(yīng)和無(wú)監(jiān)督遷移學(xué)習(xí)(unsupervised transfer learning,UTL)分別被提出。前者針對(duì)的是源域有標(biāo)記而目標(biāo)域無(wú)標(biāo)記的學(xué)習(xí)問(wèn)題,而后者解決的是源域和目標(biāo)域均無(wú)標(biāo)記的學(xué)習(xí)問(wèn)題,其與本文提出的WUDA的主要區(qū)別[2]是:DAL針對(duì)的是不同域(D={X,P(X)})但任務(wù)(T={Y,P(Y|X)})相同的問(wèn)題(DS≠DT但TS=TT)。例如,源域樣本為來(lái)自Webcam的電腦圖片,目標(biāo)域樣本為來(lái)自Amazon的電腦圖片。顯然,兩個(gè)域的樣本分布不同,但任務(wù)均為電腦識(shí)別。但UTL解決的是學(xué)習(xí)任務(wù)不同但相似的問(wèn)題(TS≠TT)。因此,建立在聚類(lèi)基礎(chǔ)上的STC(self-taught clustering)[29]、TSC(transfer spectral clustering)[30]和TFCM(transfer fuzzy C-means)[31]算法先后被提出。其中,STC建立在雙聚類(lèi)的基礎(chǔ)上,利用互信息學(xué)習(xí)兩個(gè)域間的共有特征空間,從而提高目標(biāo)域的聚類(lèi)性能;TSC是一種譜聚類(lèi)方法,它不僅與聚類(lèi)任務(wù)的數(shù)據(jù)流形相關(guān),還與聚類(lèi)任務(wù)間共享的特征流形相關(guān);TFCM則通過(guò)對(duì)齊源域和目標(biāo)域的聚類(lèi)中心來(lái)實(shí)現(xiàn)簇與簇的對(duì)齊,從而提高了FCM的聚類(lèi)性能。

      基于非參數(shù)遷移的域適應(yīng)是解決UDA核心方法之一,主要包括特征遷移和實(shí)例遷移兩種方法。第一種方法通常需將原始域中特征進(jìn)行變換,使得變換后的域間差異減小。因此,文獻(xiàn)[4]提出了結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)算法(structural correspondence learning,SCL)來(lái)促進(jìn)不同域的特征對(duì)應(yīng),其有效性取決于兩個(gè)域中核心特征的啟發(fā)式選擇。雖然SCL算法在NLP(natural language processing)上獲得了顯著效果,但核心特征選擇的啟發(fā)式準(zhǔn)則對(duì)不同應(yīng)用極為敏感。鑒于此不足,基于對(duì)齊方式的UDA被提出。其中,F(xiàn)ernando等人[14]提出的子空間對(duì)齊(subspacealignment,SA)是一種實(shí)例對(duì)齊方法,該方法通過(guò)在子空間中學(xué)得變換矩陣來(lái)實(shí)現(xiàn)子空間基的對(duì)齊。但是,SA算法易在投影時(shí)產(chǎn)生代價(jià)。為了避免該問(wèn)題,相關(guān)性對(duì)齊[15](correlation alignment,CORAL)和基于深度神經(jīng)網(wǎng)絡(luò)的深度CORAL[16](Deep CORAL)方法先后被Sun等人提出,CORAL通過(guò)對(duì)齊數(shù)據(jù)的二階統(tǒng)計(jì)矩來(lái)學(xué)習(xí)一個(gè)線性變換矩陣,Deep CORAL建立在CORAL的基礎(chǔ)上,解決了CORAL算法無(wú)法實(shí)現(xiàn)端對(duì)端計(jì)算的問(wèn)題。雖然CORAL和Deep CORAL算法實(shí)現(xiàn)了較好的實(shí)驗(yàn)性能,但它們忽略了協(xié)方差矩陣是對(duì)稱(chēng)正定矩陣(symmetric positive definite,SPD)的屬性——SPD矩陣不是歐氏空間的子空間。因此,Morerio等人[17]提出了基于黎曼度量的相關(guān)性對(duì)齊(log D-CORAL)方法,即采用似然歐氏度量[18]來(lái)衡量協(xié)方差矩陣的距離。盡管一階矩[19](均值)、二階矩[15-16](方差)對(duì)齊方法先后實(shí)現(xiàn)了較好的域適應(yīng)性能,但Zellinger等人[20]提出了更強(qiáng)的對(duì)齊方法——中心距對(duì)齊(central moment discrepancy,CMD)。該方法實(shí)現(xiàn)了源域和目標(biāo)域樣本的各階矩(包括一階矩、二階矩、三階矩等)對(duì)齊,從而大大減小了分布間的差異。第二種方法基于重加權(quán)實(shí)現(xiàn)了模型建立。其中,核均值匹配(kernel-mean matching,KMM)[21]最具代表性,該方法通過(guò)匹配源域和目標(biāo)域的核均值來(lái)直接學(xué)習(xí)權(quán)重,實(shí)現(xiàn)了域適應(yīng)學(xué)習(xí)。但該方法僅關(guān)注了源域樣本的重加權(quán)。因此,Li等人[22]從目標(biāo)數(shù)據(jù)的角度實(shí)現(xiàn)了目標(biāo)數(shù)據(jù)預(yù)測(cè)的重加權(quán)(prediction reweighting for domain adaptation,PRDA)。

      不同于非參數(shù)方法,基于參數(shù)遷移的域適應(yīng)則通過(guò)參數(shù)傳遞實(shí)現(xiàn)知識(shí)遷移。例如,Evgeniou等人[11]提出了一種參數(shù)直接遷移的方法,該方法借鑒了層次貝葉斯(hierarchical Bayesian,HB)框架[32]的思想,將SVM在源域和目標(biāo)域?qū)W習(xí)的參數(shù)wS和wT分別表示為wS=w0+vS和wT=w0+vT,然后利用共享參數(shù)w0實(shí)現(xiàn)域間“連接”。除此之外,基于神經(jīng)網(wǎng)絡(luò)的參數(shù)遷移方法也逐漸受到關(guān)注。因此,通過(guò)參數(shù)微調(diào)[13]和變換[12](domain adaption with parameter transfer,DAPT)的方法先后被提出,參數(shù)微調(diào)法針對(duì)遷移權(quán)重實(shí)現(xiàn)微調(diào),而DAPT的目標(biāo)是學(xué)習(xí)一個(gè)變換矩陣W,將目標(biāo)域上的分類(lèi)器參數(shù)投影到源域參數(shù)空間中,使得域間參數(shù)分布相同。雖然RMTL(regularized multitask learning)和DAPT實(shí)現(xiàn)了部分參數(shù)的遷移,但它們不能靈活地選擇各域參數(shù)和公共參數(shù),更無(wú)法進(jìn)行選擇性適應(yīng)。

      綜上所述,目前大部分域適應(yīng)學(xué)習(xí)僅面向源域有標(biāo)記的學(xué)習(xí)問(wèn)題而設(shè)計(jì),然而對(duì)于源域和目標(biāo)域均無(wú)標(biāo)記的域適應(yīng)學(xué)習(xí)研究相對(duì)較少。為彌補(bǔ)現(xiàn)有參數(shù)遷移方法的不足并擴(kuò)展域適應(yīng)方法的應(yīng)用范圍,本文提出了一種基于參數(shù)字典稀疏表示的完全無(wú)監(jiān)督域適應(yīng)方法(WUDA)。

      3 模型建立與優(yōu)化

      WUDA與在樣本空間中直接學(xué)習(xí)字典的SIUDA[33]和S-LOW[34]不同,它通過(guò)樣本學(xué)習(xí)參數(shù)(決策函數(shù)的權(quán)重矩陣),然后從學(xué)習(xí)參數(shù)公共字典的角度,在源域和目標(biāo)域的權(quán)重間進(jìn)行互適應(yīng)參數(shù)字典學(xué)習(xí)。通過(guò)對(duì)系數(shù)的l2,1范數(shù)約束,不僅避免了文獻(xiàn)[11-12]中的問(wèn)題,而且實(shí)現(xiàn)了參數(shù)的選擇性域適應(yīng)。實(shí)際上,RMTL和DAPT能視為WUDA的特例,故而WUDA為基于參數(shù)遷移的域適應(yīng)方法提供了一個(gè)更大的框架。

      圖1顯示了WUDA的算法框架圖。因此,針對(duì)給定的源域樣本,通過(guò)SLMC實(shí)現(xiàn)聚類(lèi),學(xué)得源域權(quán)重矩陣WS。那么,當(dāng)給定目標(biāo)域樣本時(shí),WUDA不僅實(shí)現(xiàn)聚類(lèi),而且通過(guò)源域參數(shù)和目標(biāo)域參數(shù)矩陣學(xué)習(xí)一個(gè)公共參數(shù)字典A=(a1,a2,…,ar),該參數(shù)字典實(shí)現(xiàn)了源域到目標(biāo)域的知識(shí)遷移,同時(shí)對(duì)參數(shù)字典的系數(shù)矩陣做行稀疏約束,使得各域權(quán)重參數(shù)可從A中互適應(yīng)選擇。

      Fig.1 System diagram of proposed WUDA圖1WUDA系統(tǒng)圖

      3.1 軟大間隔聚類(lèi)(SLMC)

      軟大間隔聚類(lèi)是一種結(jié)合了大間隔聚類(lèi)[35](maximum margin clustering,MMC)和模糊聚類(lèi)[36](fuzzy C-means,F(xiàn)CM)優(yōu)點(diǎn)的方法,但其本身不同于FCM和MMC:第一,SLMC采用分類(lèi)學(xué)習(xí)的原則在輸出(標(biāo)記)空間中實(shí)現(xiàn)聚類(lèi),該方法通過(guò)One-Of-C標(biāo)記編碼準(zhǔn)則將輸出空間中的聚類(lèi)中心固定,并確定樣本的決策函數(shù)和隸屬度。第二,SLMC允許樣本屬于多個(gè)簇。因此,給定數(shù)據(jù)集X=[x1,x2,…,xn](xi∈Rd),令f(x)=WTx(W∈Rd×c表示權(quán)重矩陣)為決策函數(shù),則在原始空間中SLMC的優(yōu)化問(wèn)題為:

      其中,U=[uki]C×n(uki表示第i個(gè)樣本屬于第k個(gè)簇的隸屬度),{l1,l2,…,lC}表示C個(gè)簇的標(biāo)記編碼,且lk=[0,…,0,1,0,…,0]T∈RC(對(duì)應(yīng)第k個(gè)類(lèi))表示第k個(gè)元素為1,其余元素均為0。

      SLMC實(shí)際上是對(duì)樣本標(biāo)記的聚類(lèi),那么決策函數(shù)和隸屬度可同時(shí)確定給定樣本的預(yù)測(cè)值。而當(dāng)給定實(shí)例的隸屬度相等但簇標(biāo)記不相等時(shí),為了保證期望一致性,SLMC總是將樣本分配給簇標(biāo)記更小或更大的簇。

      3.2 WUDA模型的建立

      對(duì)于完全無(wú)監(jiān)督域適應(yīng)問(wèn)題,給定無(wú)標(biāo)記的源域樣本XS=[x1,x2,…,xnS]∈ Rd×nS和目標(biāo)域樣本XT=[x1,x2,…,xnT]∈ Rd×nT,其中nT?nS。假設(shè)源域DS和目標(biāo)域DT不同:XS=XT但P(XS)≠P(XT),源任務(wù)TS和目標(biāo)任務(wù)TT相同:YS=YT且P(YS|XS)=P(YT|XT)。因此,本文從學(xué)習(xí)參數(shù)公共字典的角度,實(shí)現(xiàn)了源域和目標(biāo)域知識(shí)的關(guān)聯(lián),并通過(guò)對(duì)字典系數(shù)的稀疏約束實(shí)現(xiàn)各域參數(shù)的適應(yīng)性選擇。故WUDA的優(yōu)化問(wèn)題如下:

      其中,WS和WT為d×C矩陣,分別表示源域和目標(biāo)域的權(quán)重矩陣;A∈Rd×r表示源域和目標(biāo)域公共字典;VS和VT為r×C矩陣,分別表示源域和目標(biāo)域的系數(shù)矩陣,然后引入l2,1范數(shù)來(lái)約束系數(shù),體現(xiàn)了權(quán)重矩陣可由字典稀疏表示的特性;λ、β1、β2和α為權(quán)衡參數(shù)。

      對(duì)于式(2),第一項(xiàng)和第二項(xiàng)繼承了原始的SLMC算法,主要用于目標(biāo)域數(shù)據(jù)的聚類(lèi);第三項(xiàng)和第四項(xiàng)為參數(shù)的公共字典學(xué)習(xí),實(shí)現(xiàn)了源域和目標(biāo)域“知識(shí)”的連接;最后兩項(xiàng)為字典系數(shù)的約束,并通過(guò)行稀疏約束實(shí)現(xiàn)了選擇性域適應(yīng)。

      該模型基于SLMC在輸出(標(biāo)記)空間中進(jìn)行聚類(lèi),通過(guò)學(xué)習(xí)參數(shù)公共字典實(shí)現(xiàn)域間知識(shí)連接,并由稀疏系數(shù)實(shí)現(xiàn)各域參數(shù)(權(quán)重)在公共字典中的適應(yīng)性選擇。此外,本文提出的參數(shù)遷移新方法,對(duì)于無(wú)監(jiān)督模型(FCM及其衍生算法)、監(jiān)督模型(SVM及其衍生算法)和神經(jīng)網(wǎng)絡(luò)模型,亦可分別對(duì)聚類(lèi)中心和權(quán)重進(jìn)行參數(shù)字典學(xué)習(xí)實(shí)現(xiàn)域適應(yīng)。因此,本文提出的WUDA框架有著較廣泛的擴(kuò)展。

      3.3 模型優(yōu)化

      WUDA是關(guān)于(WT,u,A,VS,VT)塊凸的優(yōu)化問(wèn)題,則根據(jù)文獻(xiàn)[37]可保證迭代優(yōu)化的收斂性。故而,本文使用交替迭代法優(yōu)化目標(biāo)變量,即在優(yōu)化過(guò)程中,固定其他變量,只優(yōu)化一個(gè)變量。因此,式(2)的優(yōu)化問(wèn)題可重寫(xiě)為以下5個(gè)子優(yōu)化問(wèn)題:

      對(duì)于式(3)中的5個(gè)子優(yōu)化問(wèn)題,分別令關(guān)于uki、WT、A、VS、VT的偏導(dǎo)為0,即有:

      因此,關(guān)于uki、WT、A、VS、VT的閉式解如下:

      那么,具體算法如下:

      輸入:XS、XT,源域和目標(biāo)域數(shù)據(jù)集;λ、β1、β2、α,權(quán)衡參數(shù);r,字典的詞匯量;ε,迭代停止參數(shù);Max_iter,迭代最大次數(shù)。

      輸出:U,隸屬度矩陣;,決策函數(shù)。

      4 實(shí)驗(yàn)與結(jié)果

      4.1 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)中,采用RI(rand index)和NMI(normalized mutual information)指標(biāo)評(píng)估WUDA算法的聚類(lèi)性能。通常,RI和NMI的定義如下:

      子美千古大俠,司馬遷之后一人。 子長(zhǎng)為救李陵而下腐刑,子美為救房琯幾陷不測(cè),賴張相鎬申救獲免。 坐是蹉跌,卒老劍外,可謂為俠所累。 然太史公遭李陵之禍而成《史記》,與天地相終始; 子美自《發(fā)秦州》以后諸作,泣鬼疑神,驚心動(dòng)魄,直與《史記》并行。 造物所以酬先生者,正自不薄。

      其中,n為樣本數(shù),a和b分別表示實(shí)際標(biāo)記和預(yù)測(cè)標(biāo)記屬于相同類(lèi)別的元素對(duì)數(shù)和不同類(lèi)別的元素對(duì)數(shù)。ni,j表示簇i和簇j一致的樣本量,ni和nj分別表示簇i和簇j的樣本量。RI和NMI的取值范圍均為[0,1],并且它們的值越大說(shuō)明聚類(lèi)效果越好。

      在WUDA優(yōu)化模型中,字典的詞匯量r和多個(gè)權(quán)衡參數(shù)(λ、β1、β2、α)需要確定,β1和β2分別權(quán)衡源域和目標(biāo)域所提供“知識(shí)”的程度。因此,這些參數(shù)值的確定對(duì)提高WUDA的聚類(lèi)性能至關(guān)重要。同時(shí),本文的研究問(wèn)題是從完全無(wú)監(jiān)督(源域和目標(biāo)域中的數(shù)據(jù)均無(wú)標(biāo)記)的角度考慮,而交叉驗(yàn)證法主要面向監(jiān)督型方法確定參數(shù)。因此,在實(shí)驗(yàn)過(guò)程中采用網(wǎng)格搜索法來(lái)尋找最佳參數(shù),避免了不佳參數(shù)產(chǎn)生的負(fù)遷移問(wèn)題。

      本文關(guān)注的是無(wú)標(biāo)記小樣本問(wèn)題。因此,對(duì)目標(biāo)域數(shù)據(jù)做以下處理:從給定的真實(shí)數(shù)據(jù)集中隨機(jī)抽取各類(lèi)的部分樣本作為目標(biāo)域的實(shí)驗(yàn)數(shù)據(jù)。

      實(shí)驗(yàn)均在配置為Intel?CoreTMi5-3470 CPU,16 GB內(nèi)存的計(jì)算機(jī)上運(yùn)行,且實(shí)驗(yàn)代碼均由python編寫(xiě)實(shí)現(xiàn)。

      4.2 實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證WUDA算法的有效性,本文分別在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比算法包括聚類(lèi)算法(FCM、SLMC)和無(wú)監(jiān)督遷移學(xué)習(xí)算法(STC、TSC、TFCM),并且為了避免實(shí)驗(yàn)的偶然性,分別在各數(shù)據(jù)集上運(yùn)行10次,以它們的均值作為最后的實(shí)驗(yàn)結(jié)果。

      (1)模擬數(shù)據(jù)集

      在模擬數(shù)據(jù)集中,分別模擬高斯分布和雙月分布。在高斯分布的情況下,源域樣本數(shù)為600(每個(gè)類(lèi)為200),目標(biāo)域樣本數(shù)為90(每個(gè)類(lèi)為30)且特征維度均為2。而在雙月分布的情況下,源域樣本數(shù)為400(每個(gè)類(lèi)為200),目標(biāo)域樣本數(shù)為60(每個(gè)類(lèi)為30),且特征維度也為2。由圖2知,源域和目標(biāo)域的邊際概率P(X)不同,但條件概率P(Y|X)相同。

      Fig.2 Simulated data sets圖2 模擬數(shù)據(jù)集

      Table 1 Performance comparison of simulated data sets表1 模擬數(shù)據(jù)集性能比較

      (2)真實(shí)數(shù)據(jù)集

      真實(shí)數(shù)據(jù)集包括Office+Caltech、Mnist+Usps和PIE數(shù)據(jù)集,分別為目標(biāo)識(shí)別、手寫(xiě)數(shù)字和人臉識(shí)別數(shù)據(jù)集。如表2所示。

      Table 2 Real data sets表2 真實(shí)數(shù)據(jù)集

      (1)Office+Caltech數(shù)據(jù)集總共包括2 533個(gè)圖片和4個(gè)域,分別為Webcam、Amazon、Caltech和Dslr,且這4個(gè)域的邊際分布(P(X))不同但描述的均為相同的物體。在實(shí)驗(yàn)中,分別以Caltech和Webcam作為源域,以Amazon和Dslr作為目標(biāo)域。

      (2)Mnist+Usps數(shù)據(jù)集共有3 800個(gè)樣本和2個(gè)域,這兩個(gè)域中的手寫(xiě)數(shù)字的表現(xiàn)形式不同。實(shí)驗(yàn)中,以Mnist為源域,Usps為目標(biāo)域?qū)崿F(xiàn)完全無(wú)監(jiān)督域適應(yīng)。

      (3)PIE數(shù)據(jù)集是人臉識(shí)別數(shù)據(jù)集,該數(shù)據(jù)集根據(jù)不同的拍攝角度劃分域。實(shí)驗(yàn)中,選取PIE05作為源域,PIE07作為目標(biāo)域?qū)崿F(xiàn)完全無(wú)監(jiān)督自適應(yīng)。綜上,數(shù)據(jù)如圖3所示。

      在實(shí)驗(yàn)中,為了驗(yàn)證WUDA的可行性僅僅是因?yàn)橛蜻m應(yīng)而不是樣本是否線性可分,以線性決策函數(shù)f(x)=WTx為代表進(jìn)行算法驗(yàn)證和比較。因此,本文通過(guò)減少類(lèi)別數(shù)來(lái)降低非線性情況的概率。那么,在 Caltech→Amazon、Webcam→Dslr、Mnist→Usps、PIE05→PIE07數(shù)據(jù)集中,分別從它們的10、10、10和68個(gè)類(lèi)中隨機(jī)選擇3、4、3和8個(gè)類(lèi)作為實(shí)驗(yàn)類(lèi)別,故實(shí)驗(yàn)結(jié)果的好壞完全驗(yàn)證了域適應(yīng)的程度。

      對(duì)于非線性問(wèn)題,本文的WUDA也可解決。但WUDA的優(yōu)化函數(shù)需做以下修改:將核化后樣本的決策函數(shù)表示成f(x)=WTφ(x)=αK,然而,直接對(duì)參數(shù)W進(jìn)行字典學(xué)習(xí)會(huì)因φ(x)未知而導(dǎo)致問(wèn)題無(wú)法優(yōu)化。故而,需對(duì)參數(shù)α進(jìn)行互適應(yīng)公共字典學(xué)習(xí),從而可以解決樣本線性不可分的問(wèn)題。因本文的主旨是驗(yàn)證WUDA在概念上的可行性,所以僅對(duì)線性情況做了實(shí)驗(yàn),免去了非線性的實(shí)驗(yàn),原因是兩者實(shí)現(xiàn)方式上完全一致。因此,給出了非線性情況的理論說(shuō)明,同時(shí)線性情況的實(shí)驗(yàn)已充分驗(yàn)證了WUDA不僅可行,而且聚類(lèi)效果顯著。

      由于本文針對(duì)的是無(wú)標(biāo)記小樣本問(wèn)題,且原始樣本數(shù)過(guò)多,故從對(duì)應(yīng)類(lèi)中隨機(jī)刪除部分?jǐn)?shù)據(jù),得到了滿足要求的數(shù)據(jù)。

      在真實(shí)的域適應(yīng)數(shù)據(jù)集上,分別與5種算法進(jìn)行比較,得到表3,并據(jù)此得出以下結(jié)論:

      Fig.3 Real data sets圖3 真實(shí)數(shù)據(jù)集

      Table 3 Performance comparison of real data sets表3 真實(shí)數(shù)據(jù)集性能比較

      (1)在Office+Caltech數(shù)據(jù)集和PIE人臉識(shí)別數(shù)據(jù)集上,提出的WUDA明顯優(yōu)于其他算法,主要得益于源域和目標(biāo)域間公共字典的連接及其選擇性適應(yīng)。STC和TSC均從實(shí)例和特征兩個(gè)角度實(shí)現(xiàn)知識(shí)遷移,由于其無(wú)選擇能力,導(dǎo)致不利元素也被遷移致使性能變?nèi)?;而TFCM受源域和目標(biāo)域間的類(lèi)中心和隸屬度的影響,若源域?qū)δ繕?biāo)域的類(lèi)中心和隸屬度指導(dǎo)性差,則同樣因其無(wú)選擇能力而導(dǎo)致遷移能力變?nèi)酢4送?,?duì)比2016年提出的TFCM,在Office+Caltech數(shù)據(jù)集上,WUDA的RI指標(biāo)高出約15%;在PIE數(shù)據(jù)集上,NMI指標(biāo)高出約35%。

      (2)在Mnist+Usps數(shù)據(jù)集上,TSC的聚類(lèi)性能最佳,但WUDA明顯優(yōu)于TFCM,且與STC的聚類(lèi)性能相當(dāng)。究其原因:Mnist和Usps數(shù)據(jù)集間參數(shù)的相關(guān)性較弱,導(dǎo)致Usps和Mnist互適應(yīng)學(xué)得的公共“知識(shí)”較少,致使各域參數(shù)的選擇能力變?nèi)酰识鳺UDA的聚類(lèi)性能達(dá)不到最佳。TSC在原始樣本空間中實(shí)現(xiàn)譜聚類(lèi)遷移學(xué)習(xí),由于受參數(shù)相關(guān)性影響相對(duì)較小,因此域適應(yīng)效果優(yōu)于WUDA。

      (3)在所有數(shù)據(jù)集上,提出的WUDA均優(yōu)于原始聚類(lèi)算法SLMC,說(shuō)明通過(guò)調(diào)節(jié)域適應(yīng)參數(shù)β1、β2和α,可有效地抑制負(fù)遷移的產(chǎn)生。

      4.3 參數(shù)和收斂性

      (1)參數(shù)選擇

      本文所提的WUDA的目標(biāo)函數(shù)有多個(gè)參數(shù)需要確定,在完全無(wú)監(jiān)督的情況下,采用網(wǎng)格搜索法尋找最佳參數(shù)。在參數(shù)選擇的過(guò)程中,以PIE數(shù)據(jù)集為例進(jìn)行參數(shù)確定。

      首先是參數(shù)α,它用于權(quán)衡字典稀疏系數(shù)的重要性,搜索范圍為[0.01,0.10,1.00,2.00,5.00,8.00,10.00,20.00,50.00]。觀察圖4(a)發(fā)現(xiàn):當(dāng)α=1.00時(shí),NMI的值最大;同時(shí),α在[2.00,5.00,8.00,10.00]上并未對(duì)結(jié)果產(chǎn)生顯著性影響。

      Fig.4 Parameter setting ofαandr圖4 α和r的參數(shù)設(shè)置

      然后是參數(shù)r,它表示字典的詞匯量。從圖4(b)易知,詞匯量的大小顯著地影響聚類(lèi)性能,搜索范圍為1~10,當(dāng)r為5時(shí),NMI取最大值0.665;當(dāng)r超過(guò)5時(shí),NMI趨于穩(wěn)定。說(shuō)明r超過(guò)一定值時(shí),超出的字典對(duì)域適應(yīng)學(xué)習(xí)影響較小。然而總體的NMI變化較大,則說(shuō)明字典詞匯量過(guò)小,會(huì)影響WUDA的聚類(lèi)性能。

      最后,對(duì)于參數(shù)β1和β2,分別用于權(quán)衡源域和目標(biāo)域中參數(shù)W的重要性,搜索范圍均為[0.000 1,0.001 0,0.010 0,0.100 0,1.000 0,5.000 0,10.000 0]。觀察圖5發(fā)現(xiàn):當(dāng)β1=5.000 0,β2=0.010 0時(shí),NMI取最大值,說(shuō)明目標(biāo)域從源域中適應(yīng)性學(xué)得了可遷移“知識(shí)”,提高了目標(biāo)域的聚類(lèi)性能。

      Fig.5 Parameter setting ofβ1andβ2圖5 β1和β2的參數(shù)設(shè)置

      (2)收斂性

      Fig.6 Convergence of data sets圖6 數(shù)據(jù)集的收斂性

      5 總結(jié)與展望

      本文受軟大間隔聚類(lèi)的啟發(fā),結(jié)合字典學(xué)習(xí)的理論,在源域和目標(biāo)域的權(quán)重間進(jìn)行互適應(yīng)參數(shù)公共字典學(xué)習(xí),并引入l2,1范數(shù)來(lái)約束字典系數(shù),使各域參數(shù)可從公共字典中適應(yīng)性選擇,從而實(shí)現(xiàn)域適應(yīng)學(xué)習(xí)。最后通過(guò)相關(guān)實(shí)驗(yàn)驗(yàn)證了WUDA的可行性和顯著有效性。除此之外,本文的算法思想不僅適用于SLMC,對(duì)于傳統(tǒng)的無(wú)監(jiān)督算法(如FCM及其衍生算法)、監(jiān)督型算法(如SVM及衍生算法)和神經(jīng)網(wǎng)絡(luò),可對(duì)聚類(lèi)中心v和參數(shù)W分別進(jìn)行互適應(yīng)公共字典學(xué)習(xí),亦可實(shí)現(xiàn)域適應(yīng)學(xué)習(xí)。故下一步工作中,將對(duì)此算法做以下擴(kuò)展:(1)目標(biāo)域類(lèi)別是源域類(lèi)別的子類(lèi)問(wèn)題;(2)多個(gè)源域和多個(gè)目標(biāo)域的互適應(yīng)學(xué)習(xí)問(wèn)題(既有虛漂移也有實(shí)漂移),同時(shí)包括源域和源域、目標(biāo)域和目標(biāo)域的互學(xué)習(xí)。

      猜你喜歡
      源域字典聚類(lèi)
      多源域適應(yīng)方法綜述
      開(kāi)心字典
      家教世界(2023年28期)2023-11-14 10:13:50
      開(kāi)心字典
      家教世界(2023年25期)2023-10-09 02:11:56
      基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
      基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
      我是小字典
      正版字典
      讀者(2016年14期)2016-06-29 17:25:50
      基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
      可遷移測(cè)度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
      一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
      获嘉县| 年辖:市辖区| 浦城县| 屏山县| 泾阳县| 中卫市| 深州市| 满城县| 化德县| 呼和浩特市| 龙口市| 乳山市| 织金县| 安仁县| 洛南县| 益阳市| 玛曲县| 德格县| 乐平市| 伊春市| 丰台区| 星座| 客服| 儋州市| 天门市| 莱西市| 大连市| 龙胜| 太康县| 明溪县| 麦盖提县| 宜都市| 县级市| 嘉峪关市| 河间市| 泸溪县| 太和县| 泸州市| 花莲县| 南京市| 西平县|