• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于反向偽標簽最優(yōu)化傳輸?shù)臒o監(jiān)督域自適應

      2023-08-15 02:53:46韓忠義尹義龍
      計算機研究與發(fā)展 2023年8期
      關鍵詞:瑟斯源域分類器

      孫 昊 韓忠義 王 帆 尹義龍

      (山東大學軟件學院 濟南 250000)(202215230@mail.sdu.edu.cn)

      近年來,無監(jiān)督域自適應成為一個備受關注、重要且有價值的問題,它可以解決現(xiàn)實世界中數(shù)據(jù)分布不同導致模型性能下降的問題.在機器學習中,大量的方法都是基于訓練數(shù)據(jù)和測試數(shù)據(jù)屬于獨立同分布的假設,但在實際情況下它們的分布往往是相似但不同的.因此,在富有監(jiān)督信息的訓練數(shù)據(jù)上訓練好的模型在面對實際測試數(shù)據(jù)時無法適應分布差異[1],導致模型的性能大幅度下降[2].在這種背景下,無監(jiān)督域自適應(unsupervised domain adaptation)被提出來解決這類現(xiàn)實問題.

      有標簽的訓練數(shù)據(jù)的分布被稱作源域,沒有標簽的測試數(shù)據(jù)的分布被稱作目標域,無監(jiān)督域自適應研究的是如何把源域上學習到的知識轉移到目標域上,解決模型由于分布偏移而在目標域數(shù)據(jù)上性能下降的問題[2].與傳統(tǒng)監(jiān)督學習相比,無監(jiān)督域自適應不需要目標域監(jiān)督信息,減免了手動給目標域標注標簽這種耗時且昂貴的工作,也展現(xiàn)出了非??捎^的應用價值,它將傳統(tǒng)機器學習從有限的封閉環(huán)境向現(xiàn)實的開放環(huán)境發(fā)展,實現(xiàn)了機器學習的應用化和實用化,在自動駕駛、智慧醫(yī)療等方面發(fā)揮了重要的作用.例如在自動駕駛領域,車輛會面臨不同時間、不同天氣、不同城市等不斷變化的環(huán)境,給模型做判斷提高了難度.無監(jiān)督域自適應增強了模型應對不同場景的適應力,保證了安全性,因此無監(jiān)督域自適應已經成為機器學習領域一個非常熱門的話題.

      近年來,無監(jiān)督域自適應引起了越來越多國內外研究者的關注,得到了較為深入的研究,取得了較大的發(fā)展.目前無監(jiān)督域自適應問題的解決方法主要有4個方面:1)提取域不變特征[3-4].它考慮的是盡管源域和目標域分布不同,但存在可以用來判別樣本類別的域不變的特征,神經網絡通過提取域不變特征來實現(xiàn)知識從源域到目標域的轉移.2)加權重采樣[5-7].它的主要思想是通過給每個源域樣本分配一個權重,使加權重采樣后的源域和目標域盡可能相似,從而源域和目標域可以被近似地認為滿足獨立同分布,使模型可以在目標域上表現(xiàn)出很好的效果.3)基于對抗的方法[8-10].它的主流思想是訓練一個域判別器,讓特征提取器和域判別器形成對抗訓練,使特征提取器盡可能提取域判別器無法區(qū)分的特征,從而提取到2個域的共同特征,實現(xiàn)知識遷移.4)基于偽標簽(自訓練)[3,11-12]的方法.用在源域樣本上訓練的分類器在目標域上標注偽標簽,再通過不斷給目標域偽標簽提純來增強偽標簽的可信度,最終將偽標簽視為模型預測的標簽進行輸出.

      盡管已有的無監(jiān)督域自適應方法取得了一定程度的效果提升,卻仍存在一些問題有待解決,包括2個方面:1)如何獲得更魯棒的公共特征.在基于度量分布距離來進行特征對齊的方法中,如何合理準確地度量源域和目標域之間的差異,以便模型能夠學習到更好的公共特征,是一個值得不斷探索的問題.無論是基于核函數(shù)的MMD (maximum mean discrepancy )[13],JMMD[14],DAN(deep adaptation network )[15],基于均值和協(xié)方差矩陣的CORAL[16],Deep CORAL[17],基于能量和信息論的KL散度[18],還是H-divergence[19]和MDD(margin disparity discrepancy)[20],它們都關注于2個域之間的數(shù)據(jù)點的分布差異,但忽略了源域和目標域之間的結構相似性和拓撲信息.2)如何更有效地利用偽標簽.基于偽標簽的方法包括為每個樣本分配標簽的硬標簽方法[21-23]和對每個樣本分配一個向量的軟標簽[24]方法,它們都存在一個問題:由于存在分布偏移,根據(jù)高置信度來選取的目標域偽標簽的可信性大大降低.由于目標域缺乏真實標簽信息,無法利用監(jiān)督學習的損失函數(shù)來糾正錯誤的偽標簽,也無法得知模型遷移知識的能力.

      在本文中,為了更準確地度量2個分布之間的距離以及更有效地利用偽標簽來驗證模型知識遷移的能力,本文提出了反向驗證標簽最優(yōu)化傳輸方法BPLOT.BPLOT主要包含3個部分:1)最優(yōu)化特征-拓撲傳輸.該部分從特征層面和拓撲結構層面來度量分布之間的距離.主要思想是融合利用瓦瑟斯坦距離(Wasserstein distance,WD)和格羅莫夫-瓦瑟斯坦距離(Gromov-Wasserstein distance,GWD).通過將WD和GWD的傳輸方案共享,在利用WD度量分布間特征距離的同時,利用GWD度量分布間拓撲信息的差異,從而最終計算距離更準確的反應分布差異.2)反向驗證偽標簽部分.該部分通過使用偽標簽來驗證模型知識遷移能力.其主要思想是將用目標域偽標簽訓練的分類器反向在源域進行驗證,最小化分類器在源域數(shù)據(jù)上的損失.由于源域數(shù)據(jù)有真實標簽,解決了無法驗證模型知識遷移能力的問題.模型知識遷移能力越強,目標域分類器在源域上的表現(xiàn)越好.3)Tsallis熵部分.它既增強了模型在目標域上的分類信心,減小分類的不確定性,又保證了模型在訓練過程中能夠糾正分類錯誤的偽標記.其主要思想是通過Tsallis熵來對目標域分類輸出進行正則化,動態(tài)調整對模型不確定性的懲罰力度,達到模型最優(yōu)的效果.

      本文的主要貢獻可以總結為3點:

      1)針對無監(jiān)督域自適應問題,提出了基于反向偽標簽最優(yōu)化傳輸方法,該方法進一步提高了模型在目標域上的性能和魯棒性.

      2)從最優(yōu)化運輸?shù)慕嵌瘸霭l(fā),考慮了特征距離和拓撲差異,更準確地計算了分布之間的距離,從而提取出更加魯棒的公共特征;同時,通過反向驗證偽標簽,驗證了模型知識遷移的能力,提高了偽標簽質量,實現(xiàn)知識從源域向目標域的轉移.

      3)本文將BPLOT在多個無監(jiān)督域自適應數(shù)據(jù)集上進行驗證,結果顯示其效果超過了基準方法.通過消融實驗,對每個單獨測試部分進行分析,也證明了本文提出的各個部分的有效性和合理性.

      1 相關工作

      本節(jié)主要介紹了無監(jiān)督域自適應、自訓練學習、最優(yōu)化傳輸?shù)难芯糠椒ê脱芯窟M展.

      1.1 無監(jiān)督域自適應方法研究進展

      目前,在所有無監(jiān)督域自適應的方法中,學習域不變特征表示是一種非常重要的方法,本文的方法也屬于這一種.域不變特征表示的學習主流方法有3種:

      1)基于分布距離特征對齊的方法.其基本思想是計算兩個分布之間的差異,顯式地減少2個域之間的距離[4,14,25].基本方法是使用一種度量2個域之間差異性的計算方法,通過明確的公式計算出2個域之間的距離,然后通過調整特征提取器減小這個距離.已被廣泛利用的有MMD[13],JointMMD[21],MDD[20]等距離,此外還有最近被應用于無監(jiān)督域自適應的最優(yōu)化傳輸算法.

      2)基于對抗學習[26-28]的方法.其基本思想是在對抗的過程中學習2個域之間的不變特征,即用域判別器度量2個域之間的差異程度.其中意義重大的工作是DANN模型[29].其基本方法是訓練一個二分類器作為域判別器,判斷樣本屬于源域還是目標域.同時,也訓練特征提取器,盡量使得特征提取器提取的特征無法被域判別器區(qū)分,從而形成對抗訓練,使得域判別器和特征提取器對抗學習.最后提取器提取的特征就被認為是域不變特征.

      3)基于半監(jiān)督學習中偽標簽(自訓練)的方法用在源域數(shù)據(jù)上,訓練的源域分類器給目標域數(shù)據(jù)標注偽標簽,并不斷修改提純偽標簽,且特征提取器不斷學習提取域不變特征.

      1.2 分布距離度量方法在無監(jiān)督域自適應中的應用

      基于分布距離度量的特征對齊方法是無監(jiān)督域自適應中非常基本的一種方法.其主要的思想是通過特征提取網絡或者映射,將源域和目標域的樣本從輸入空間提取到特征空間或者映射到可再生核希伯爾特空間中,使2個分布中的樣本在新空間中的分布變得相似,從而使得后面的分類器可以根據(jù)在源域上學習到的知識給目標域樣本進行正確分類.

      KMM (kernel mean matching )方法[24]是該方向中較早使用的方法之一.KMM提出了給每個源域的訓練樣本分配一個權重,使得分配權重后的源域分布近似于目標域分布,減少特征距離.后來, MMD距離[13]在KMM上繼續(xù)發(fā)展,直接計算并最小化源域和目標域在核希伯爾特空間中的距離.DDC (deep domain confusion )方法[25]將MMD距離加入深度神經網絡,對模型的自適應層進行調整;而DAN方法[12]則在DDC的基礎上進一步發(fā)展,提出MK-MMD距離,將DDC中的MMD距離適應層從1層增加到了3層,并且計算MMD距離時使用了多個核函數(shù).

      除MMD距離外,文獻[14]還通過對多個特征連同logit輸出連續(xù)做乘法的方式計算JointMMD距離[21]來度量2個分布之間的距離,考慮特征的同時考慮了類別信息.MDD 距離[8]則是在距離度量方面提出新的理論,將評分函數(shù)和損失結合在了一起,進一步提升了模型的表現(xiàn).但是文獻[8,12-14,21,24-25]的方法都沒有單獨考慮2個分布之間的拓撲信息差異.BPLOT從最優(yōu)化傳輸理論出發(fā),利用了衡量特征差異的瓦瑟斯坦距離和衡量拓撲差異的格羅莫夫-瓦瑟斯坦距離來進行2個分布之間的特征對齊,實現(xiàn)了更好的效果,并通過實驗證明了在度量分布差異時拓撲差異不可忽視.

      1.3 偽標簽學習在無監(jiān)督域自適應中的應用

      近年來,半監(jiān)督學習的方法被引入到無監(jiān)督域自適應問題中.與傳統(tǒng)的半監(jiān)督學習相似,偽標簽學習利用源域無標簽數(shù)據(jù)Dsou訓練一個源域分類器fsou,然后利用fsou在目標域數(shù)據(jù)Dtar上標注偽標簽.模型通過利用源域的標簽信息和目標域的偽標簽信息進行訓練,實現(xiàn)對目標域大量無標簽數(shù)據(jù)的利用.

      此外,文獻[30]提出通過保持樣本的流形結構來實現(xiàn)域自適應,即在保持流形結構的基礎上,利用標簽傳播來預測目標域的偽標簽.文獻[31]通過逐漸增加目標域訓練樣本和不確定性的樣本數(shù)量來逐步學習跨域關系,在無監(jiān)督域自適應中提出了偽標簽引導的對不確定性的探索.文獻[32]提出了選擇性偽標簽(selective pseudo labeling,SPL),它基于監(jiān)督局部投影不變性來學習域不變和域特殊特征,并通過選擇偽標簽來訓練分類器.但文獻[30-32]的方法都有一些問題,由于分布偏移,偽標簽的可信度很低,比如在數(shù)據(jù)集VisDA-2017上,偽標簽會朝某一些類偏移得很嚴重,導致偽標簽完全不可信,而且這些方法存在理論上的不足.

      本文認為,如果特征提取器訓練得好,提取到了不變特征,使得偽標簽準確,那么目標域偽標簽訓練的目標域分類器在源域數(shù)據(jù)上同樣應該表現(xiàn)得很好.為了更有效利用偽標簽,文獻[3]提出了循環(huán)偽標簽算法.BPLOT基于此方法做出改進,利用最優(yōu)化特征-拓撲傳輸拉近分布距離,再將偽標簽訓練的目標域分類器反向在源域數(shù)據(jù)上測試,利用源域真實標簽驗證了模型知識遷移的能力,在多個數(shù)據(jù)集上達到了更好的效果.

      1.4 最優(yōu)化傳輸在無監(jiān)督域自適應中的應用

      瓦瑟斯坦距離也稱推土機距離,是一種度量2個概率分布之間差異的距離度量,在機器學習相關任務上已經獲得了廣泛的應用.傳統(tǒng)的最優(yōu)化傳輸問題(Kantorovich問題)可以用瓦瑟斯坦距離來描述,但在高維情況下,直接應用瓦瑟斯坦距離可能會導致傳輸方案不規(guī)則.因此,文獻[33]提出將傳輸約束條件放松,加入正則化,放松這種稀疏性來尋找更平滑的傳輸形式.文獻[34]在開集域自適應中提出了聯(lián)合最優(yōu)傳輸,在利用源域的標簽信息的同時,也利用目標域中未知類的鑒別表示,不僅使得類內更加緊致,也使得類間更加可分.此外,文獻[35]采用結合加權最優(yōu)傳輸?shù)牟呗裕瑴p少了源域的決策邊界上的樣本所帶來的負遷移影響.在圖神經網絡方向,文獻[36]提出了混合瓦瑟斯坦(FGW)距離.FGW在圖神經網絡上度量結構化數(shù)據(jù),例如分子模型、社會關系等,同時使用WD和GWD對圖結構進行計算.

      本文則將GWD拓展至無監(jiān)督域自適應中.在計算瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離時,融合兩者的傳輸方案,保證了相同的優(yōu)化方向.通過最優(yōu)化特征-拓撲傳輸,BPLOT更合理地拉近了源域和目標域,提取到更魯棒的公共特征,在多個數(shù)據(jù)集中表現(xiàn)出更好的效果.

      2 方 法

      2.1 符號設置

      本文的任務是利用Dsou中的有標簽數(shù)據(jù)和Dtar中的無標簽數(shù)據(jù)訓練f中的特征提取網絡φ來提取Dsou和Dtar中的共同特征,也就是經過特征提取網絡φ后,Dsou和Dtar的特征盡量相近,從而源域分類器θsou的知識可以轉移到目標域分類器θtar上,使得目標域分類器θtar在目標域上的分類正確率接近源域分類器θsou的分類正確率.

      2.2 方法總覽

      BPLOT的目的在于有效利用偽標簽來驗證模型知識遷移能力和合理度量分布差異,其主要包含3個部分:1)最優(yōu)化特征-拓撲傳輸,融合瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離,減小2個分布之間的特征距離和拓撲差異;2)反向驗證偽標簽部分,將目標域分類器在源域進行驗證,增強特征提取器提取公共特征;3)使用Tsallis熵來調節(jié)對模型不確定性的懲罰力度,使得模型前期可以糾正錯誤偽標簽,后期可以對預測有信心.BPLOT的整體框架如圖1所示.

      Fig.1 The calculation process of BPLOT model and optimal feature-topological transport圖1 BPLOT模型和最優(yōu)化特征-拓撲傳輸?shù)挠嬎懔鞒?/p>

      2.2.1 最優(yōu)化特征-拓撲傳輸

      源域和目標域的分布差異中,特征差異是現(xiàn)在大多數(shù)方法普遍考慮的差異點,但是受文獻[37]的啟發(fā),源域和目標域分布不僅在特征層面存在差異,其拓撲信息之間的差異在對齊源域和目標域,促進特征提取器提取公共特征的工作中也發(fā)揮重要作用.在消融實驗部分,本文也通過實驗證明:源域和目標域之間的差異中,特征差異占主要部分,但是拓撲信息差異也發(fā)揮了重要的作用,是不可忽視的.但是現(xiàn)有的無監(jiān)督域自適應中度量分布差異的方法都沒有考慮源域和目標域之間的拓撲信息差異,導致模型在計算分布差異時仍然不夠準確.BPLOT的最優(yōu)化特征-拓撲傳輸部分的主要思想是用最優(yōu)化傳輸理論顯式地計算并減小2個分布之間的特征距離和拓撲差異,拉近分布之間的距離,使特征提取器可以提取到域不變特征.

      BPLOT選擇對最優(yōu)化傳輸理論中的瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離進行融合利用以計算特征距離和拓撲差異.瓦瑟斯坦距離是最優(yōu)化傳輸理論最先提出的距離度量,度量的是將一個分布傳輸成另一個分布所需要的最小代價.格羅莫夫-瓦瑟斯坦距離在圖結構中用來計算2個圖之間的相似程度,度量的是點與點之間連邊的相似程度.在無監(jiān)督域自適應問題中,分布內的拓撲信息差異和圖之間的結構差異有相似性,因此BPLOT在度量分布差異時引入格羅莫夫-瓦瑟斯坦距離,用來匹配分布之間的拓撲差異.

      2.2.2 瓦瑟斯坦距離度量特征距離

      近年來,瓦瑟斯坦距離在域自適應方面獲得了越來越多的關注,在跨域對齊方面有很好的表現(xiàn).本文也用瓦瑟斯坦距離對齊2個域之間的特征距離.瓦瑟斯坦距離的定義為:

      讓μ∈Psou,ν∈Qtar代表了2個分布,Π(μ,ν)代表了所有的由μ和ν形成的聯(lián)合分布,c(x,y)表示x到y(tǒng)的距離函數(shù),具體可以用余弦距離來表示.2個分布μ,ν之間的距離可以表示為:

      其中,T是聯(lián)合分布空間中能使總代價最小的一個聯(lián)合分布,同時也代表了傳輸計劃,Ti,j表示從xi轉移到y(tǒng)j的質量.DisW代表分布μ到分布ν的瓦瑟斯坦距離,是對2個分布之間每一對樣本特征的傳輸代價的累加和,用來衡量特征距離.

      在所有的可能的傳輸方案中找尋2個分布之間的最優(yōu)傳輸方案是非常困難的[35],所以,最優(yōu)化傳輸問題被轉換為搜索能夠使得2個分布之間點距離最小的聯(lián)合概率測度T,其邊緣分布分別為μ,ν.能夠使得計算后的代價最小的聯(lián)合分布就被稱為傳輸方案,該傳輸方案對應的總代價就是瓦瑟斯坦距離.

      但直接尋找這個最優(yōu)的聯(lián)合概率測度仍然是困難的,為了更方便計算出傳輸方案,引入熵正則化.熵正則化不僅可以作為防止模型過擬合的一個常見方法,還可以引導出一些性質來更好地解決問題,文獻[38]提出通過概率耦合的熵對最優(yōu)傳輸問題的表達進行正則化.引入正則化后新的問題變成了:

      其中,C代表由式(1)中的c(,)組成的矩陣,T代表可能的傳輸方案,計算了T上的負熵,加入這種正則化項的目的有2個:一個是由于T0中大部分的元素很可能為0,因此可以通過增加它的熵來使得傳輸更加地平滑均勻,降低傳輸方案的稀疏性.最優(yōu)傳輸方案T在分布之間的傳輸將會更加稠密.另一個是加入熵正則化后的結果是推導出了辛克霍恩-克諾普縮放矩陣[39]的方法從而快速高效計算求解最優(yōu)化傳輸問題.

      綜上所述,本文通過利用辛克霍恩算法來計算瓦瑟斯坦距離,如算法1:

      算法1.瓦瑟斯坦距離計算算法.

      輸出:轉移方案T,瓦瑟斯坦距離DisW.

      ③ for k = 1,2,…,do; /*sinkhorn算法*/

      ⑤ end for

      ⑥T=diag(δ)Kdiag(σ) ;

      ⑧ returnT,DisW.

      2.2.3 格羅莫夫-瓦瑟斯坦距離度量拓撲差異

      不同但是相似于瓦瑟斯坦距離,本文通過格羅莫夫-瓦瑟斯坦距離衡量的是2個分布之間的拓撲信息差異.通過計算2個分布內2個點形成的邊之間的最優(yōu)傳輸距離,可以衡量2個分布中特征之間關系的差異性.通過最小化這個距離,可以對齊2個域之間的拓撲距離.格羅莫夫-瓦瑟斯坦距離的定義和瓦瑟斯坦距離的定義類似:

      其中L(xi,yi,xi′,yi′)=‖c1(xi,xi′)-c2(yi,yi′)‖,作為損失函數(shù),評估2個分布之間內部2個點(xi,xj) 和(yi,yj)連線的相似度作為衡量2個分布拓撲差異程度的依據(jù).和是傳輸方案,i是樣本索引.和瓦瑟斯j坦距離相似,在格羅莫夫-瓦瑟斯坦距離的設置中,c1(x,y)和c2(x,y)都是距離函數(shù),使用余弦相似度來衡量域內2點的距離(邊),域間作差得到每條邊傳輸?shù)木嚯x代價.學習到的T′仍然代表傳輸方案.文獻[40]認為格羅莫夫-瓦瑟斯坦距離實際上可以把點看成邊,把邊看成點,這樣就和傳統(tǒng)的瓦瑟斯坦距離相同.由于在計算傳輸方案時,依據(jù)的是2個分布之間內部邊的距離,所以最后的總代價就衡量了2個分布之間的拓撲差異程度.

      格羅莫夫-瓦瑟斯坦距離成功地應用在了包括無監(jiān)督自然語言處理[41]、位于不同維度空間中的對象的生成學習[42]等方面.非凸優(yōu)化方法已被證明在實踐中成功地將格羅莫夫-瓦瑟斯坦距離用于機器學習問題,包括交替最小化[43]和熵正則化[44].

      本文考慮格羅莫夫-瓦瑟斯坦距離的計算,格羅莫夫-瓦瑟斯坦距離是采用2個分布的內部點構成的邊之間的相似程度作為距離代價,所以最后求得的總代價為邊的傳輸總代價,從而衡量了2個分布之間的拓撲相似度而沒有考慮特征的關系.針對格羅莫夫-瓦瑟斯坦距離的計算,文獻[37]提出通過算法2中展示的方法,即通過利用瓦瑟斯坦距離的計算方法計算了格羅莫夫-瓦瑟斯坦距離.

      算法2.格羅莫夫-瓦瑟斯坦距離計算算法

      輸出:轉移方案T,格羅莫夫-瓦瑟斯坦距離DisGW.

      ③ fort= 1,2,…,do

      ⑤ 應用算法1計算轉移方案T;

      ⑥ end for

      ⑧ returnT,DisGW.

      2.3 聯(lián)合優(yōu)化特征-拓撲傳輸

      瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離的計算關鍵是傳輸方案,如果分開計算,對源域和目標域分別進行特征傳輸和拓撲信息傳輸,會導致分布間的特征和拓撲信息分離,二者不統(tǒng)一.

      如何將瓦瑟斯坦距離和格羅姆夫-瓦瑟斯坦距離融合計算,使求得的距離可以同時衡量特征,本工作受到了文獻[37]所提方法的啟發(fā),使瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離共享傳輸方案T,如圖1所示,不僅可以只計算1次傳輸方案,降低了計算復雜度,還可以更好地衡量2個分布之間的差異.用共享的傳輸方案T,計算出新的距離DisWGW使瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離能夠更好地相互調節(jié),傳輸方案T能夠同時結合2個分布特征之間的關系和拓撲信息之間的關系.結合后的算法如算法3所示.

      算法3.BPLOT計算方法

      ① forepoch= 0 toMaxIterdo:

      ② 將用不同α訓練的不同目標域模型在源域驗證,選出最好的α用作之后的訓練;

      ④Ci,j=cos(xi,yj); /*計算2個分布之間的相似度*/

      ⑤ 將算法2中行④偽代價矩陣換為Cfused=λC+(1-λ)C′;

      ⑥ 將Cfused帶入算法2計算T和DisWGW;

      ⑨ 計算出薩利斯熵lTsallis,Q?;

      ⑩φ←φ-η?φ[?P?(θsou,φ)+?P?(θtar,φ)+?Q?,Tsallis,α(θsou)+DisWGW]; /*更新特征提取器*/

      ? θsou←θsou-η?θsou[?P?(θsou,φ)+?Q?,Tsallis,α(θsou)] ;/*更新源于分類器*/

      ? end for

      2.4 反向驗證偽標簽

      在顯式地拉近2個分布之間的距離后,本文考慮如何進一步利用拉近的距離.受文獻[3]提出的循環(huán)自訓練方法的啟發(fā),不斷循環(huán)驗證源域分類器和目標域分類器,本文使用反向驗證偽標簽的方式來驗證模型的知識遷移能力.

      自訓練學習會根據(jù)有監(jiān)督信息的數(shù)據(jù)來訓練一個分類器,并用分類器給沒有監(jiān)督信息的數(shù)據(jù)標注偽標簽,將置信度大于某個閾值的偽標簽作為該樣本的真實標簽,將樣本加入訓練,再一次訓練分類器后繼續(xù)在沒有標簽的樣本上標注偽標簽,并選擇“可信的”加入作為樣本真實標簽加入訓練,直到訓練完成.

      自訓練學習的方法由于存在分布偏移而沒有辦法直接應用到無監(jiān)督域自適應中,但是可以按照方法思路來簡單獲得第1次訓練時的目標域偽標簽,雖然因為分布偏移使得第1次目標域偽標簽準確率不高,但是源域模型可以在后來的不斷迭代中更新每個樣本的偽標簽使其更加可信.按照標準的自訓練方法,利用源域的有標簽數(shù)據(jù),在源域上訓練一個源域分類器,使得在源域上的錯誤率最?。?/p>

      其中[i]是模型輸出x屬于第i類的概率.本文選取概率最高的類別作為目標域的偽標簽.傳統(tǒng)的偽標簽方法會利用手動設置的置信度閾值,只保留置信度高于所設置的閾值的偽標簽作為真實標簽加入訓練.后來文獻[28]提出的方法加入了熵來根據(jù)置信度進行重新加權.然而,傳統(tǒng)的偽標簽方法存在分布偏移的問題,源域和目標域之間的分布差異會使得偽標簽非常的不可信.概率最高的類別很有可能和其真實的類別并不相同,分布偏移越嚴重,這種可能性越大;而且使用設置閾值等方法,為了獲得最好的閾值,通常會有非常昂貴的調試參數(shù)的代價,而且每次遇到新任務時都需要重新調整閾值.

      為了解決文獻[28]的這個問題,本文通過反向驗證偽標簽,提高目標域分類器在源域上的表現(xiàn),可以逐步提高偽標簽的質量和提高偽標簽的可信程度,同時,本文提出的方法將所有偽標簽加入訓練,去掉了手動設置閾值環(huán)節(jié),降低了成本.反向驗證偽標簽還可以在迭代中不斷驗證知識的遷移水平、隱式的對齊特征,逐步提高偽標簽正確率.

      本文考慮如果特征提取器提取到了域間不變特征,就使得知識可以從源域遷移到目標域,即利用源域數(shù)據(jù)訓練的源域分類器能夠在目標域數(shù)據(jù)上有非常好的表現(xiàn).知識的遷移是雙向的,知識很容易從源域遷移到目標域,那么自然也可以從目標域遷移到源域.所以,能夠實現(xiàn)源域到目標域知識遷移的特征也能夠實現(xiàn)目標域到源域的知識遷移,導致利用目標域偽標簽數(shù)據(jù)訓練的目標域分類器也能在源域上有很好的表現(xiàn).驗證源域到目標域知識遷移情況不可行的主要原因是目標域沒有真實標簽,而反向驗證目標域到源域的知識遷移情況就解決了這個問題,因為源域數(shù)據(jù)是有標簽的.

      為了實現(xiàn)反向驗證偽標簽,進行隱式地域對齊,本文按照這個思路,在得到利用源域分類器在目標域數(shù)據(jù)上標注好的目標域偽標簽后,在特征提取器的基礎上訓練一個目標域分類器,使得在偽標簽上的錯誤率最?。?/p>

      遵從反向驗證偽標簽的思路,本文希望通過將目標域分類器學習到的知識轉移到源域上來訓練特征提取網絡,從而縮小2個分布在特征空間的差異,使得φ提取到的特征能夠將源域的知識轉移到目標域上.由于源域有監(jiān)督信息,要使目標域分類器θtar在源域上的經驗風險最?。?/p>

      其中,y是樣本i的真實標簽,l()是交叉熵損失函數(shù).總的來說,首先要最小化源域分類器在源域上的損失,然后得到偽標簽后再最小化目標域分類器在源域上的損失,以此來調整特征提取器,從而實現(xiàn)反向驗證偽標簽,進行隱式地特征對齊,損失函數(shù)如式(9)所示.

      在每一次迭代中,都用源域數(shù)據(jù)再次訓練源域分類器,用源域分類器去給目標域數(shù)據(jù)標注偽標簽,用目標域偽標簽訓練目標域分類器;然后反向在源域數(shù)據(jù)上驗證目標域分類器的效果,從而驗證知識從目標域轉移到源域的能力.這個能力側面反映了在訓練的過程中模型將知識從源域轉移到目標域的能力,以此進行特征提取器的調整,增強知識遷移的能力.

      2.5 Tsallis熵約束模型的不確定

      通過反向驗證偽標簽和最優(yōu)化特征-拓撲傳輸分別隱式和顯式拉近源域和目標域之間的距離后,為了使偽標簽訓練過程更加合理,便于模型調整錯誤的偽標簽,相比于直接使用吉布斯熵,本文引入了Tsallis熵[45]來對目標域偽標簽的自信程度進行約束.

      首先介紹Tsallis熵,其定義為:

      其中y∈RK是模型經過softmax層后的輸出,α是熵指數(shù),當α趨近于1時,Tsallis熵退化為吉布斯熵,當α =2時,Tsallis退化為基尼不純度.由式(10)可見,較小的α對模型、對目標域數(shù)據(jù)的不確定性的懲罰程度更高,而較大的α則會允許模型對多個類的預測概率相似,也就是懲罰力度低.這種可變的懲罰力度在模型的訓練過程中可以發(fā)揮很好的調整作用.如果在訓練初期α就近似等于1,那么模型做出的錯誤分類可能永遠也得不到改正,所以要在訓練的過程中動態(tài)調整α的大小.在訓練初期的時候,α設置得比較大,使模型可以容易改正錯誤的偽標簽,在訓練后期α會設置得比較小,使模型可以做出明確而不是模糊的預測.

      對于如何動態(tài)選取最好的α,同樣選擇通過反向在源域驗證的方法來尋找最合適的α,首先在訓練源域分類器θsou時加入Tsallis熵來限制模型對目標域數(shù)據(jù)的不確定性:

      其中,l(θ)是Tsallis熵損失,也就是式(10)中的Sα.約束的是θsou在目標域數(shù)據(jù)上的熵.用訓練好的源域分類器θ?sou,α來給目標域的數(shù)據(jù)標注偽標簽,方法仍然是選取置信度最高的預測類別作為樣本的偽標簽,繼續(xù)用目標域偽標簽訓練一個目標域分類器,為了找到當前最合適的α,將目標域分類器根據(jù)不同的α大小在源域驗證:

      將α等距地分成11份[1.0,1.1,1.2,…,2.0],在其中選擇出在源域損失最小的α作為接下來一段時間的訓練所用的α,為了保證模型的訓練效率,而且考慮到每次都重新計算α會對計算資源造成浪費,本文每隔幾個epoch重新選擇α,既保證了模型訓練的效率,又保證了最合適的對模型不確定性的懲罰力度.

      綜上所述,本文的模型結合反向驗證偽標簽和最優(yōu)化傳輸度量分布差異這2種方式,加以Tsallis熵正則項動態(tài)懲罰模型的不確定性.反向驗證偽標簽使得在分布偏移下不可信的偽標簽得到了更好的利用,可以衡量模型知識遷移的能力,也能夠顯式計算2個分布之間的距離時同時考慮特征相似度和拓撲相似度,更好地度量了分布之間的相似的程度; 同時也動態(tài)調整模型信心的懲罰力度,既可以糾正錯誤偽標簽,又可以提高最終模型的預測信心.最終的優(yōu)化目標如式(13)所示.總算法流程如算法3所示.

      3 實驗研究

      為了驗證本文提出的BPLOT方法的效果,本文在Office-31,Office-Home,VisDA-2017等數(shù)據(jù)集上進行實驗,將BPLOT與現(xiàn)有的域自適應方法進行比較,并通過消融實驗深入分析了BPLOT中每一部分的作用.

      3.1 實驗設置

      3.1.1 數(shù)據(jù)集

      1)Office-31數(shù)據(jù)集包含了31個類的數(shù)據(jù),根據(jù)數(shù)據(jù)來源不同分為了3個域,Amazon(A)、DSLR(D)和Webcam(W).這3個域可以組成6種源域-目標域組合.Amazon中每個類平均包含了90張圖片,共計2 817張圖片.這些圖片是從網上商家的網站上獲取的,是在干凈的背景下以統(tǒng)一的比例拍攝的.DSLR包含498幅低噪聲高分辨率(4 288×2 848)圖像,每個類別有5個物品,每個物體平均從不同的視角拍攝3次.Webcam包含了795張顯示出明顯的噪聲和顏色以及白平衡偽影的低分辨率(640×480)圖像[46].

      2)Office-Home數(shù)據(jù)集包含4個域,每個域由65個類別組成,可以組成12種遷移場景.這4個領域分別是:素描、繪畫等形式的藝術形象Art(A-r);剪貼畫圖像Clipart(Cl);沒有背景的物品圖像Product(Pr);常規(guī)相機拍攝的現(xiàn)實世界中的物體圖像Real-World(Rw).該數(shù)據(jù)集共包含15 500張圖片[47].

      3)VisDA-2017數(shù)據(jù)集是一個大型的無監(jiān)督域自適應的數(shù)據(jù)集,包含2個域Synthetic和Real,分別是3D建模合成的圖片和現(xiàn)實生活中的圖片.該數(shù)據(jù)集包含了12個類別的超過20萬張圖片[48].

      3.1.2 基準方法

      本文比較了無監(jiān)督域自適應中比較成功的工作:對比的基于特征對齊的方法:DAN[15]、DANN[29](對抗學習)、CDAN[28](考慮偽標簽的信息)、MDD[20](利用Margin Theory來設計損失)、DSAN[49](基于LMMD在不同域上對齊域特定層激活的相關子域分布來學習傳輸網絡).

      對比的基于自訓練的方法:使用了半監(jiān)督學習中的FixMatch[50]并加入跨域對齊手段來減少分布偏移造成的偽標簽準確率下降的問題.本文還測試了CST[3]作為單純使用循環(huán)自訓練方法進行對比,以及最新的利用類原型的工作PGLS[51]、利用可遷移的正則化和歸一化的TRN[52].

      3.1.3 實現(xiàn)條件

      本文使用預訓練好的ResNet-50作為特征提取器,使用交叉熵損失作為分類的損失函數(shù).每個任務都會運行3次,并取正確率的平均值作為評價指標.本文在訓練的工程中使用了SAM (sharpness-aware minimization)技巧[53]來幫助提高效果.部分實驗結果采用其原論文中的結果.

      3.2 實驗結果

      表1報告了在Office-31數(shù)據(jù)集上的結果,本文提出的BPLOT方法在多個任務上都表現(xiàn)出了最好的效果,對一些比較困難的任務,如D-A,有了最高的提升.和距離度量中的方法對比,相比于基于MKMDD進行域特征對齊的DAN方法報告的平均80.4%的正確率,本文提出的BPLOT提高了9.3%的正確率,說明BPLOT中的反向驗證偽標簽和最優(yōu)化理論衡量分布距離是成功的;和對抗學習中的方法相比,DANN[29]表現(xiàn)出了82.2%的正確率,BPLOT與之相比提高了7.5%的正確率,表明相比于對抗學習混淆域判別器,BPLOT中直接驗證知識遷移能力的反向驗證偽標簽方法有更明顯的作用,達到了更好的效果;和基于循環(huán)自訓練的CST方法表現(xiàn)出的89.1%的正確率相比,BPLOT仍然提高了0.6%,表明盡管CST達到了很好的效果,但是BPLOT通過最優(yōu)化傳輸理論實現(xiàn)了更準確地度量2個分布的距離并縮小了這個距離,使得最終的效果仍然有所提高.模型效果即使是與最新的工作TRN和PGLS相比,也同樣有優(yōu)勢.

      Table 1 Accurancy of Each Method Tested on All 6 Tasks in Office-31 Dataset表1 測試的各個方法在Office-31數(shù)據(jù)集上全部6個任務上的準確率%

      表2報告了各個方法在Office-Home中12個任務上的結果.DAN等度量分布距離的方法由于沒有考慮分布之間的拓撲差異,導致模型在目標域驗證時準確率大幅度下降.DANN等基于對抗學習的方法在對抗訓練的過程中為了混淆域判別器,會導致特征提取器提取的特征舍棄了部分目標域樣本的類別信息,從而使模型在目標域樣本上的分類準確率有所下降.FixMatch和CDAN+VAT+Entropy等方法沒有明確的手段在訓練的過程中測試偽標簽的質量,導致最終效果不理想.CST方法使用循環(huán)自訓練的方法來增強偽標簽的質量,但缺少顯式度量分布差異的方法,沒有明確縮小2個分布之間距離,本文提出的BPLOT網絡通過解決這2個問題,在12個任務中都表現(xiàn)出了更好的效果,并且平均準確率超過了所有對比的方法:相比于DANN報告的平均57.6%的準確率,BPLOT提高了15.4%的準確率,說明BPLOT對于偽標簽的輔助性利用非常有效;相比于FixMatch報告的67.7%的準確率,BPLOT提高了6%的準確率,說明反向驗證偽標簽的方法比傳統(tǒng)的偽標簽利用方法更加出色,驗證偽標簽質量是成功的;相比于CST報告的73.0%的準確率,BPLOT提高了0.7%的準確率,達到了最高的準確率,說明同時度量特征距離和拓撲差異在顯式地減小2個分布之間的距離方面發(fā)揮了作用,進一步提高了偽標簽的準確率;而相比于最新的工作TRN和PGLS,更有4.2%和3.9%的提升.

      Table 2 Accurancy of Each Method Tested on All Tasks in Office-Home Dataset表2 測試的各個方法在Office-Home數(shù)據(jù)集上全部任務上的準確率%

      表3報告了本文測試的方法在VisDa-2017數(shù)據(jù)集上的結果.本文同樣測試了傳統(tǒng)的特征對齊方法,DANN,CDAN在遇到分布偏移時出現(xiàn)了不同程度的準確率下降;同樣,本文對傳統(tǒng)偽標簽方法和偽標簽加特征對齊的方法進行了對比測試,加入特征對齊的效果要優(yōu)于加入偽標簽的方法,證明了顯式縮小域差異的合理性.本文提出的BPLOT進一步通過反向驗證偽標簽結合同時縮小2個分布的特征距離和拓撲差異的方法,達到了最好的效果.在ResNet-101的基礎上和基于對抗學習的方法進行對比,DANN報告的準確率是79.5%,BPLOT提高了7.9個百分點,說明反向驗證偽標簽方法在存在合成圖片和現(xiàn)實圖片的分布偏移下仍然發(fā)揮作用,并表現(xiàn)出了比域判別器更好的效果,展示了BPLOT在現(xiàn)實中的實用價值;FixMatch等基于傳統(tǒng)偽標簽方法的準確率達到了79.5%,BPLOT與之相比仍提高了7.9個百分點,不僅少了手動調整閾值超參數(shù)的復雜,而且達到了更好的效果;MDD+FixMatch作為特征對齊與傳統(tǒng)偽標簽結合的方法,將準確率提高到了82.4%,而BPLOT通過反向驗證偽標簽和最優(yōu)化傳輸理論來提純偽標簽并縮小2個分布之間的距離的方法更有效,實現(xiàn)了對偽標簽更有效地利用和對2個分布之間的距離更好地度量,相比之將結果提高了5個百分點;CST基于循環(huán)自訓練進行偽標簽提純,達到了86.5%的準確率,BPLOT通過最優(yōu)化傳輸理論顯式度量并縮小2個分布之間的特征距離和拓撲差異,將結果提高了0.9個百分點,證明BPLOT顯式縮小2個分布的距離的有效性.

      Table 3 Accurancy of Each Method Tested on VisDA-2017 Dataset表3 測試的各個方法在VisDA-2017數(shù)據(jù)集上的準確率

      3.3 消融實驗

      本文通過消融實驗對BPLOT的每個部分單獨進行分析,包括去掉反向驗證偽標簽部分、去掉最優(yōu)化傳輸顯式縮小域距離部分和去掉Tsallis熵部分.

      3.3.1 去掉反向驗證偽標簽

      以Office-Home中的Rw-Cl任務為例,可以從圖2中看到,存在反向驗證偽標簽時,當超參數(shù)β在0.5~2.0之間變化時,模型在目標域上的準確率變化只有0.2%,即在β變化的過程中,模型效果表現(xiàn)穩(wěn)定,反向驗證偽標簽部分對β不敏感,具有魯棒性;而去掉反向驗證偽標簽,β= 0時,模型在目標域上的準確率只有61.4%,下降了1.3個百分點,證明了本文提出的反向驗證偽標簽的合理性和有效性,即該模塊更有效地利用了偽標簽,通過反向驗證偽標簽的方式,在訓練的過程中可以度量偽標簽質量、衡量模型知識遷移能力,以此指導模型訓練,達到了更好的效果.

      Fig.2 Accuracy for different β on Rw-Cl task in Office-Home dataset圖2 在Office-Home數(shù)據(jù)集中Rw-Cl任務上對不同β的準確率

      3.3.2 去掉瓦瑟斯坦距離+格羅莫夫-瓦瑟斯坦距離

      針對瓦瑟斯坦距離+格羅莫夫-瓦瑟斯坦距離的消融實驗,本文驗證了2個部分.第1部分驗證瓦瑟斯坦距離+格羅莫夫-瓦瑟斯坦距離,衡量2個分布之間差異的有效性是否能夠有效顯式地度量2個分布之間的距離,從而指導模型在訓練過程中調整特征提取網絡,縮小2個分布之間的距離,實現(xiàn)更好的特征對齊;2)驗證瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離在共同發(fā)揮作用時各自的重要程度,即探究度量分布差異時,特征差異和拓撲差異的重要程度.具體的實現(xiàn)方式是通過調整瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離之間的權重參數(shù),控制它們分別指導模型學習的能力,然后通過對比最終模型在目標域上的準確率來比較不同距離在縮小2個分布差異時的作用.

      結果如表4所示,表4中最后一列表示BPLOT去掉了最優(yōu)化特征-拓撲傳輸部分的結果.可以看到,在所有的遷移任務上,引入同時考慮特征距離和拓撲差異的最優(yōu)化傳輸,模型的準確率均有所提高.在Office-Home的Ar-Pr任務上提高程度最大,提高了2個百分點的準確率.通過實驗分析可以清楚地了解,引入瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離顯式計算源域和目標域的差異程度,并調整特征網絡減小距離,模型能夠更有效地進行特征對齊,從而學習到更魯棒的域不變特征,最終提升模型在目標域上的效果.去掉瓦瑟斯坦距離+格羅莫夫-瓦瑟斯坦距離這一部分后,僅依靠反向驗證偽標簽和Tsallis熵的方法,模型只能隱式地進行特征對齊,而沒有顯式距離計算來明確分布差異大小,導致模型的準確率下降.由此可見,BPLOT中的瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離同時把握特征距離和拓撲差異是合理的、有效的.

      Table 4 Ablation Study Results on Optimal Feature-Topological Transport表4 關于最優(yōu)化特征-拓撲傳輸?shù)南趯嶒灲Y果%

      第2部分的結果如圖3所示,λ是公式DisFGW=λDisW+(1-λ)DisGW中2個距離的權重參數(shù).λ越大,代表衡量2個分布之間的特征距離的瓦瑟斯坦距離占比越高,即模型對2個分布之間的特征距離更感興趣;λ越小,說明格羅莫夫-瓦瑟斯坦距離占比越高,模型對2個分布之間的拓撲相似程度更感興趣.結果表明,λ在0.6~0.9變化時,模型的準確率隨著λ的增大而上升:在Office-31數(shù)據(jù)集中A-W任務上,準確率從λ= 0.6時的92.3%上升到λ = 0.9時的94.8%;在VisDa-2017數(shù)據(jù)集上,準確率從λ= 0.6時的85.8%,上升到λ = 0.9時的87.4%.這符合本文的分析,之前度量分布之間的距離如MMD都只考慮了特征距離,對抗學習訓練的域判別器依據(jù)的也只是樣本在特征空間中的映射,說明特征相似程度在度量2個分布差異時起到至關重要的作用,如果在度量分布距離時特征距離占比太少,會導致無法成功進行特征對齊,模型也就很難學習到域不變的特征,導致模型的知識遷移能力下降.λ在0.9~0.99變化時,準確率隨著λ的上升反而下降了,這同樣符合本文的分析,當λ =0.9時特征距離對于度量2個分布的差異起到的效果已經到達了飽和,而分布差異是包括拓撲差異的.這時候隨著λ的增大,模型繼續(xù)增大對2個分布特征距離的關注程度,忽視2個分布之間的拓撲信息的差異,損失了2個分布之間部分的度量信息,導致無法更準確地進行特征對齊,模型的效果也會有所降低.當λ = 0.99時,在Office-31中A-W任務上準確率反而降低到了92.8%;而在VisDa-2017任務上模型的準確率同樣下降了0.2個百分點,只有87.2%.

      Fig.3 Accuracy of the BPLOT model with different λ values圖3 不同λ值時BPLOT模型的準確率

      通過在A-W和VisDA-2017這2個任務上的分析實驗,證明了在度量2個分布之間的差異程度時,特征距離發(fā)揮至關重要的作用,在度量分布差異中起到了大部分的影響,但是只考慮特征距離是不夠的.2個分布之間的差異程度應該也包括拓撲信息的差異,拓撲距離作為特征距離的補充,占比不高,但同樣發(fā)揮著重要的作用,特征距離和拓撲差異的結合,才能夠更好地度量分布的不同.

      3.3.3 去掉Tsallis 熵

      為了驗證BPLOT中Tsallis熵的作用,本文通過在Office-Home數(shù)據(jù)集中Rw-Cl任務上設置Tsallis熵不同的權重來觀察模型的結果.如圖4所示可以看到,當權重WTsallis設置為0,去掉Tsallis熵后,模型出現(xiàn)了大幅度的準確率的下降.WTsallis不為0時,模型對參數(shù)不敏感,可以保持魯棒性.這是因為去掉Tsallis熵后,去掉了模型在目標域的熵正則化,而Tsallis熵正則化對于偽標簽的挑選起到了格外重要的作用.去掉了Tsallis熵正則化,導致模型對輸出失去信心,類別的區(qū)分度較小.從區(qū)分度低的幾個類別中選擇概率略大的類別作為偽標簽,出錯的可能性大大增加,偽標簽一旦錯誤,對模型會造成很大的負面影響.目標域分類器在源域上的表現(xiàn)和特征對齊的程度會失去相關性,從而無法以目標域分類器在源域樣本的效果作為模型遷移知識能力的證明,導致錯誤地指引模型的訓練方向,使得模型難以收斂至很好的效果.而加入Tsallis熵后,在訓練初期,Tsallis熵對于softmax輸出后的調整是溫和的,允許2個類結果是相似的,保留出錯后調整的可能,使模型在特征不斷對齊的過程中能夠將標注錯誤的偽標簽進行調整.在訓練后期,特征對齊的效果比較成熟,Tsallis熵對softmax的調整逐漸嚴格,使得模型對自己的輸出有信心,降低由于模型搖擺不定的預測而導致的概率略低的類也很可能是正確的類,提高模型最終的效果.

      Fig.4 Accuracy with different Tsallis entropy weights on Rw-Cl task in Office-Home圖4 Office-Home中Rw-Cl上不同Tsallis熵權重下的準確率

      通過本節(jié)的消融實驗驗證了BPLOT中反向驗證偽標簽部分、瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離、Tsallis熵的有效性和合理性,分析了其存在的原因,并以多個實驗結果來支撐本文的分析,說明了這3個部分均對模型解決無監(jiān)督域自適應問題起到了正面、積極的作用.

      3.4 擴展實驗

      本節(jié)比較了BPLOT的計算效率.我們在Office-31數(shù)據(jù)集上進行實驗并比較了BPLOT和CST的運行時間的差異,實驗結果如表5所示.結果表明,雖然本文的方法技術較為復雜、優(yōu)化目標較多,但各部分計算量并不多,完全可以承擔實際運行中的計算.

      Table 5 Running Time for Each Task on Office-31表5 Office-31上每個任務的運行時間

      4 結論與展望

      本文提出了一個解決無監(jiān)督域自適應問題的基于反向驗證偽標簽和最優(yōu)化傳輸網絡BPLOT,同時從2個方面改進了無監(jiān)督域自適應存在的不足:1)如何更有效利用偽標簽,驗證知識遷移的效果并指導訓練.2)如何更準確度量2個分布之間的距離,同時考慮特征信息和拓撲信息.針對第1個方面,本文提出的BPLOT通過反向在源域數(shù)據(jù)上驗證目標域偽標簽訓練的分類器,實現(xiàn)驗證知識從目標域向源域的轉遷能力,從側面展示模型將知識從源域遷移到目標域的能力,解決目標域沒有標簽而沒有辦法驗證源域到目標域的知識遷移的困難.針對第2個方面,本文提出的BPLOT通過同時利用瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離同步計算2個分布的特征距離和拓撲差異,從而更好地度量2個分布之間的差異程度.在3個公開的數(shù)據(jù)集Office-31,Office-Home和VisDA-2017上的實驗結果驗證了BPLOT的合理性和有效性,并通過對BPLOT多個部分進行消融實驗驗證了反向驗證偽標簽、最優(yōu)化傳輸理論對齊分布的特征信息和拓撲信息、Tsallis熵的有效性.

      本文提出的BPLOT中,選擇通過瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離進行特征和拓撲信息的對齊,但在如何更好地度量2個分布之間的距離方面仍然有可探索的價值.僅從拓撲信息的角度考慮,格羅莫夫-瓦瑟斯坦距離從邊相似度的角度衡量了2個分布之間的拓撲相似程度,但是拓撲信息不應該只包含邊的相似程度信息,還包括邊與邊之間夾角的信息.在進行拓撲信息的差異度量過程中,同時考慮邊的角度和邊的長度差異可以更詳細地對分布拓撲信息進行度量,這將是我們未來關注的一個方向.

      同時,本文發(fā)現(xiàn)不管是在度量分布差異還是在驗證偽標簽質量方面,分布內樣本的數(shù)量和質量起到了很關鍵的作用.如何獲得更多更高質量的源域分布和目標域分布數(shù)據(jù),也是進一步提高模型進行特征對齊效果、學習域不變特征的能力的關鍵.因此,數(shù)據(jù)增強也是值得探索的方向.在目標域分布和源域分布都是從整體的真實分布下采樣得到的分布的假設下,通過數(shù)據(jù)增強可以還原數(shù)據(jù)的真實分布,模型可以直接在真實分布上進行訓練,使得模型在目標域上有很好的表現(xiàn),從而更好地解決無監(jiān)督域自適應問題.

      作者貢獻聲明:孫昊提出了算法思路并進行了實驗;韓忠義負責改進方案并修改論文;王帆負責改進方案;尹義龍?zhí)岢鲋笇б庖姴⑿薷恼撐?

      猜你喜歡
      瑟斯源域分類器
      多源域適應方法綜述
      基于參數(shù)字典的多源域自適應學習算法
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      美男子綁架鄰居只因其洗衣服太吵
      奧秘(2015年9期)2015-09-30 07:12:38
      可遷移測度準則下的協(xié)變量偏移修正多源集成方法
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      卡梅隆·迪亞茲撞見狗仔 我閃
      電影畫刊(2013年3期)2013-04-25 05:14:00
      風信子
      海安县| 崇左市| 扶余县| 广南县| 巴彦淖尔市| 宣城市| 项城市| 新密市| 库伦旗| 比如县| 建德市| 泰兴市| 南丰县| 顺昌县| 桑日县| 河北区| 博爱县| 汶上县| 高雄县| 肇源县| 永寿县| 望都县| 韶山市| 阳曲县| 波密县| 南川市| 临朐县| 甘孜县| 左云县| 英德市| 宁乡县| 汕尾市| 邻水| 民丰县| 东城区| 楚雄市| 磐石市| 丹巴县| 鄄城县| 宜昌市| 贵德县|