• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      小樣本下基于Wasserstein距離的半監(jiān)督學(xué)習(xí)算法

      2022-04-09 07:04:40馬幪浩
      關(guān)鍵詞:標(biāo)簽樣本監(jiān)督

      馬幪浩,王 喆

      華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237

      越來越多的機(jī)器學(xué)習(xí)模型,包括神經(jīng)網(wǎng)絡(luò),開始關(guān)注最大化小樣本條件下的未標(biāo)記數(shù)據(jù)的效用。這些未標(biāo)記數(shù)據(jù)獨(dú)立同分布地從與有標(biāo)記數(shù)據(jù)相同的數(shù)據(jù)源中采樣,旨在幫助模型提高性能[1-3]。做出數(shù)據(jù)假設(shè),例如流形假設(shè)和平滑假設(shè),能夠更好地利用未標(biāo)記數(shù)據(jù)的隱含數(shù)據(jù)分布信息,因此是半監(jiān)督學(xué)習(xí)中不可或缺的處理步驟。利用數(shù)據(jù)假設(shè)的生成方法通常假設(shè)所有數(shù)據(jù)都是由一個(gè)潛在數(shù)學(xué)模型生成,然后使用基于期望最大化算法的最大似然估計(jì)來解決問題[4-5]。然而,依賴沒有先驗(yàn)知識(shí)的模型假設(shè)并不總是可靠的。半監(jiān)督支持向量機(jī)和基于圖的方法在過去的幾十年里已經(jīng)得到了廣泛的研究。前者是一個(gè)混合整數(shù)規(guī)劃問題,依賴于低密度分離假設(shè)[6-8]。后者必須解決復(fù)雜圖規(guī)模和傳播造成的大量開銷[9-11]?;诜制绲姆椒ㄔ诎氡O(jiān)督學(xué)習(xí)中同樣扮演著重要角色,有理論證明,當(dāng)兩個(gè)視圖充分且條件獨(dú)立時(shí),分類器的泛化性能可以被未標(biāo)記樣本提升到任意高。當(dāng)然,由于對(duì)視圖和分類器的嚴(yán)格要求,這通常相當(dāng)困難?;诜制绲姆椒ㄒ揽繑_動(dòng)來有效地調(diào)節(jié)模型的中間表示和輸出,將模型預(yù)測(cè)訓(xùn)練成與在擾動(dòng)下的預(yù)測(cè)一致。S?rel?等[12]提出了一種框架,稱為去噪源分離(DSS),決策支持系統(tǒng)在他們提出的框架中圍繞去噪過程構(gòu)建源分離算法。Ladder Network[13]利用無監(jiān)督部分來補(bǔ)充監(jiān)督部分。它產(chǎn)生噪聲預(yù)測(cè)和干凈預(yù)測(cè),然后應(yīng)用來自決策支持系統(tǒng)的去噪層從噪聲預(yù)測(cè)中預(yù)測(cè)干凈的預(yù)測(cè)。Cheng等[14]提出了一種保持多樣性的協(xié)同訓(xùn)練算法。該方法在標(biāo)記未標(biāo)記數(shù)據(jù)的過程中不使用類別分類器,而是使用屬性分類器對(duì)其進(jìn)行凸聚類標(biāo)記。Π模型[15]訓(xùn)練網(wǎng)絡(luò)在相同輸入的多個(gè)增強(qiáng)上保持一致,Mean Teacher[16]通過使用平均模型權(quán)重構(gòu)建教師模型來改進(jìn)Π模型,以將時(shí)間集成擴(kuò)展到大數(shù)據(jù)集和在線學(xué)習(xí)。從貝葉斯的觀點(diǎn)來看,一個(gè)好的模型應(yīng)該適應(yīng)各種不改變樣本性質(zhì)的擾動(dòng),即學(xué)習(xí)到擾動(dòng)下的不變性以平滑輸出。然而,這些方法有一個(gè)嚴(yán)重的缺點(diǎn):強(qiáng)制一致性導(dǎo)致的神經(jīng)網(wǎng)絡(luò)崩潰,強(qiáng)制平滑使網(wǎng)絡(luò)學(xué)習(xí)到最后過于相似。為了緩解這個(gè)挑戰(zhàn),Qiao等將多個(gè)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練成不同的視圖,并使用對(duì)抗樣本來實(shí)現(xiàn)視圖差異[17]。后來的Tri-net[18]觀察到深度協(xié)同訓(xùn)練中兩個(gè)網(wǎng)絡(luò)的局限性。因此,他們考慮在三個(gè)不同的網(wǎng)絡(luò)下同時(shí)進(jìn)行模型初始化、多樣性增強(qiáng)和偽標(biāo)簽編輯。但是由于tri-net使用了額外的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,因此具有較高的時(shí)間成本。

      1 方法

      1.1 方法概述

      本文提出了一種半監(jiān)督學(xué)習(xí)方法WCT,WCT首先最小化兩個(gè)網(wǎng)絡(luò)在無標(biāo)記數(shù)據(jù)集上的預(yù)測(cè)之間的Jensen-Shannon散度來建模協(xié)同訓(xùn)練,同時(shí)在有標(biāo)記數(shù)據(jù)上強(qiáng)制一致性輸出,并不斷為無標(biāo)記數(shù)據(jù)分配偽標(biāo)簽,將半監(jiān)督問題轉(zhuǎn)化為監(jiān)督問題。由于訓(xùn)練約束鼓勵(lì)兩個(gè)網(wǎng)絡(luò)對(duì)有標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)據(jù)都做出類似的預(yù)測(cè),這會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)崩潰,因?yàn)橛?xùn)練兩個(gè)相同的模型不是有益的。為了防止協(xié)同訓(xùn)練的兩個(gè)網(wǎng)絡(luò)相互碰撞,WCT之后通過快速梯度符號(hào)攻擊施加的對(duì)抗攻擊來生成對(duì)抗樣本以鼓勵(lì)視圖的差異,最后將Wasserstein距離作為網(wǎng)絡(luò)視圖差異約束的度量,以防止深度神經(jīng)網(wǎng)絡(luò)相互崩潰,使網(wǎng)絡(luò)在低維流形空間上平滑輸出。本文所提方法的整體框架如圖1所示。

      圖1 WCT方法模型框架Fig.1 Framework of WCT model

      1.2 Jensen-Shannon散度假設(shè)

      本文首先學(xué)習(xí)由偽標(biāo)簽標(biāo)記未標(biāo)記數(shù)據(jù)產(chǎn)生的確認(rèn)偏差的判別表示。然而,獲取這樣的表示并不容易,因?yàn)橛赡P蜕傻臉?biāo)簽很可能是不正確的,并且可能導(dǎo)致偽標(biāo)記樣本具有錯(cuò)誤的類別而阻止了新信息的學(xué)習(xí)。偽標(biāo)簽不能100%正確地反映真實(shí)標(biāo)簽。因此,實(shí)現(xiàn)本文策略的關(guān)鍵是平衡標(biāo)記樣本和偽標(biāo)記樣本之間的權(quán)重。隨著分類網(wǎng)絡(luò)的更新,偽標(biāo)記數(shù)據(jù)的權(quán)重需要更新,以使網(wǎng)絡(luò)的訓(xùn)練指向正確的方向。方法總體的目標(biāo)函數(shù)是:

      其中,α(t)是平衡目標(biāo)函數(shù)的超參數(shù)。使用偽標(biāo)簽實(shí)現(xiàn)以激活進(jìn)入飽和區(qū)域的方式來規(guī)范網(wǎng)絡(luò)。這個(gè)過程相當(dāng)于熵正則化,并促進(jìn)了訓(xùn)練過程中表示的不變性或魯棒性。偽標(biāo)簽也有助于類之間的低密度分離。本文將利用Jensen-Shannon散度假設(shè)來改進(jìn)方法的訓(xùn)練。首先,在監(jiān)督數(shù)據(jù)集上使用標(biāo)準(zhǔn)交叉熵?fù)p失:

      其中,H(p,q)是分布p和q之間的標(biāo)準(zhǔn)交叉熵,y是分布輸入x的標(biāo)簽。在標(biāo)準(zhǔn)交叉熵?fù)p失下,通過從初始標(biāo)記數(shù)據(jù)集構(gòu)造監(jiān)督學(xué)習(xí)部分。

      對(duì)于未標(biāo)記集合U中的x,最小化兩個(gè)網(wǎng)絡(luò)的預(yù)測(cè)分布之間的Jensen-Shannon散度,可以將其定義如下:

      然而,通過直接使用Jensen-Shannon散度假設(shè)的協(xié)同訓(xùn)練過程會(huì)造成一個(gè)嚴(yán)重的問題:兩個(gè)分類網(wǎng)絡(luò)會(huì)在協(xié)同訓(xùn)練的過程中越來越相似。本文使用了不同的噪聲和數(shù)據(jù)擴(kuò)充來維持網(wǎng)絡(luò)之間的多樣性,而長(zhǎng)時(shí)間的訓(xùn)練下網(wǎng)絡(luò)間的差異性是不穩(wěn)定的,容易出現(xiàn)網(wǎng)絡(luò)的相互碰撞。在接下來的部分中,本文將在訓(xùn)練網(wǎng)絡(luò)的過程中施加網(wǎng)絡(luò)差異約束,通過對(duì)抗樣本和Wasserstein距離來構(gòu)建更好的網(wǎng)絡(luò)。

      1.3 對(duì)抗樣本生成

      本文的目標(biāo)是以高精度標(biāo)記樣本,通過Jensen-Shannon散度建模協(xié)同訓(xùn)練得到了兩個(gè)精確的分類網(wǎng)絡(luò),并且更有效率地利用了小樣本條件下的有標(biāo)記數(shù)據(jù),之后通過偽標(biāo)記無標(biāo)簽數(shù)據(jù)為模型帶來了更大的改進(jìn)。然而為了更好地指導(dǎo)這兩個(gè)分類網(wǎng)絡(luò)的學(xué)習(xí),必須考慮到它們會(huì)越來越相似,因?yàn)樗鼈兌际菑南嗤臄?shù)據(jù)訓(xùn)練得到。這是基于分歧的方法無法避免的問題。

      為了防止F1網(wǎng)絡(luò)和F2網(wǎng)絡(luò)在訓(xùn)練中無限接近而導(dǎo)致的相互碰撞,本文建立了Wasserstein距離下的網(wǎng)絡(luò)差異約束來解決這個(gè)問題。深度網(wǎng)絡(luò)中一個(gè)眾所周知的缺點(diǎn)是卷積神經(jīng)網(wǎng)絡(luò)特征經(jīng)常被用作歐幾里德距離的空間來近似感知距離。如果具有不可測(cè)量的小的感知距離的圖像對(duì)應(yīng)于網(wǎng)絡(luò)表示中完全不同的類別,這種相似性將導(dǎo)致災(zāi)難性的后果。利用這一特點(diǎn),通過快速梯度符號(hào)法生成對(duì)抗樣本。主要利用對(duì)抗樣本和Wasserstein距離來推動(dòng)F1網(wǎng)絡(luò)和F2網(wǎng)絡(luò)分開。

      神經(jīng)網(wǎng)絡(luò)易受對(duì)抗性擾動(dòng)影響的主要原因是其線性性質(zhì)。高維空間中的線性行為足以生成對(duì)抗樣本。本文應(yīng)用這種技術(shù)作為生成模型來生成對(duì)抗樣本[19-22]。對(duì)于一個(gè)樣本,生成它的對(duì)抗樣本,這些對(duì)抗樣本是通過對(duì)原始樣本施加小而有意的擾動(dòng)而形成的:

      其中,θ表示模型的參數(shù),y是輸入樣本x的標(biāo)簽或偽標(biāo)簽,δ是最壞情況擾動(dòng),||δ||p是?p-范數(shù)距離度量δ。之后計(jì)算生成對(duì)抗樣本:

      其中,l(θ,x,y)是損失函數(shù)。將擾動(dòng)添加到梯度中,沿著梯度反向傳播,以可靠地生成網(wǎng)絡(luò)差異約束所需的對(duì)抗樣本。這些對(duì)抗樣本與原始數(shù)據(jù)樣本非常接近,肉眼無法區(qū)分,但神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)其所屬類別做出完全不同的判斷。

      1.4 Wasserstein距離

      上述協(xié)同訓(xùn)練成功的關(guān)鍵條件是兩個(gè)網(wǎng)絡(luò)的不同,在本文的建模中,使用了Jensen-Shannon散度假設(shè)使兩個(gè)分類網(wǎng)絡(luò)對(duì)無標(biāo)簽數(shù)據(jù)做出相同的預(yù)測(cè)。其次,在有監(jiān)督部分,有標(biāo)簽數(shù)據(jù)使兩個(gè)網(wǎng)絡(luò)的訓(xùn)練向正確的方向收斂。這種強(qiáng)制一致性的方法可能會(huì)帶來一個(gè)嚴(yán)重的問題:不能保證兩個(gè)網(wǎng)絡(luò)提供的視圖是不同和互補(bǔ)的。只有在兩個(gè)分類網(wǎng)絡(luò)提供不同且互補(bǔ)視圖的情況下,協(xié)同訓(xùn)練才是有益的,因?yàn)橛?xùn)練兩個(gè)相同的分類網(wǎng)絡(luò)是沒有意義的。當(dāng)無法保證這一點(diǎn)時(shí),兩個(gè)分類網(wǎng)絡(luò)不再基于分歧,而是會(huì)不斷趨于相似并碰撞。本文使用了對(duì)抗樣本和Wasserstein距離來施加網(wǎng)絡(luò)差異約束以防止深度神經(jīng)網(wǎng)絡(luò)的碰撞。

      本文通過快速梯度符號(hào)攻擊方法生成對(duì)抗樣本,由于圖像的分布可以看作高維空間的低維流形,原始樣本和對(duì)抗樣本在高維空間的分布重疊可以忽略,這帶來一個(gè)問題,使用傳統(tǒng)散度作為距離度量的情況下,距離值可能為常數(shù),無法實(shí)現(xiàn)對(duì)樣本距離的有效度量。本文引入了新的衡量分布差異的方法——Wasserstein距離。使用Wasserstein距離度量F1網(wǎng)絡(luò)對(duì)于原始樣本的預(yù)測(cè)和由F2網(wǎng)絡(luò)生成的對(duì)抗樣本的預(yù)測(cè)的距離,以控制兩個(gè)網(wǎng)絡(luò)不會(huì)相互碰撞,距離評(píng)價(jià)方法為:

      其中,F(xiàn)(x)代表兩個(gè)網(wǎng)絡(luò)對(duì)樣本x的預(yù)測(cè)輸出F∈1-Li pschitz約束著網(wǎng)絡(luò)的平滑輸出,使網(wǎng)絡(luò)對(duì)于原始樣本的預(yù)測(cè)和其協(xié)同訓(xùn)練網(wǎng)絡(luò)對(duì)抗樣本的預(yù)測(cè)不會(huì)無限放大導(dǎo)致訓(xùn)練無法收斂。對(duì)于Lipschitz函數(shù)的約束實(shí)現(xiàn),約束F(x)的梯度,因?yàn)镕(x)是受限于1-Lipschitz,那就表示對(duì)于所有的x,有:

      其中‖?x F(x)‖為F(x)的梯度,在上述近似下,距離度量等價(jià)于:

      實(shí)際上,不能保證對(duì)于所有樣本x都能施加上述約束。因此上式使用梯度懲罰進(jìn)行等價(jià)轉(zhuǎn)換:

      其中,Ppenalty為原始樣本和對(duì)抗樣本中間區(qū)域的采樣分布。參數(shù)是通過F(x)梯度進(jìn)行更新,中間區(qū)域即為更新的方向。但是在實(shí)際實(shí)驗(yàn)策略下,直接使用max(0,‖?x D(x)‖-1)進(jìn)行懲罰過于直接,對(duì)于上式的梯度懲罰進(jìn)一步優(yōu)化為:

      對(duì)抗樣本可以作為正則化技術(shù)來平滑輸出,收緊決策邊界以抵御對(duì)抗攻擊。本文通過使用網(wǎng)絡(luò)對(duì)原始樣本和對(duì)抗樣本的預(yù)測(cè)差異約束協(xié)同網(wǎng)絡(luò)以維持多樣性,鼓勵(lì)網(wǎng)絡(luò)對(duì)其協(xié)同訓(xùn)練網(wǎng)絡(luò)的對(duì)抗樣本施加距離約束。

      2 實(shí)驗(yàn)設(shè)置與結(jié)果

      2.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文在MNIST、CIFAR-10和CIFAR-100三個(gè)公開數(shù)據(jù)集進(jìn)行了相關(guān)實(shí)驗(yàn)與討論。MNIST數(shù)據(jù)集是真實(shí)的手寫圖像數(shù)據(jù)集。它包含60 000張灰度訓(xùn)練圖像和10 000張大小為28×28的測(cè)試圖像。CIFAR-10是由10個(gè)類別的60 000個(gè)32×32的彩色圖像組成,每個(gè)類別有6 000個(gè)圖像。它有50 000張訓(xùn)練圖像和10 000張測(cè)試圖像。CIFAR-100類似于CIFAR-10,它包含100個(gè)類,每個(gè)類包含600張圖像。每個(gè)類別有500張訓(xùn)練圖像和100張測(cè)試圖像。在本文實(shí)驗(yàn)中,為CIFAR-10使用了50 000張訓(xùn)練圖像中的4 000張有標(biāo)簽的圖像。對(duì)于CIFAR-100,使用50 000張訓(xùn)練圖像中有標(biāo)簽的10 000張圖像。對(duì)于測(cè)試部分,10 000張測(cè)試圖像全部用于測(cè)試兩個(gè)數(shù)據(jù)集。

      2.2 網(wǎng)絡(luò)架構(gòu)

      為了進(jìn)行公平的比較,本文采用了深度半監(jiān)督學(xué)習(xí)中通用的網(wǎng)絡(luò)框架,如表1所示。其他半監(jiān)督方法對(duì)該網(wǎng)絡(luò)體系結(jié)構(gòu)進(jìn)行了或多或少的調(diào)整,例如使用不同的卷積核大小、不同的殘差塊和不同的深度,本文不會(huì)像其他方法那樣改變體系結(jié)構(gòu)。

      表1 網(wǎng)絡(luò)框架Table 1 Network framework

      2.3 實(shí)驗(yàn)設(shè)置

      在本文的實(shí)驗(yàn)中,最大訓(xùn)練輪數(shù)在CIFAR-10和CIFAR-100中設(shè)置為600輪,在MNIST中為100輪。在最初的80輪訓(xùn)練中,對(duì)平衡系數(shù)進(jìn)行了預(yù)熱。更具體地說,逐漸增加無監(jiān)督部分的平衡系數(shù)α(t)=α(t)max·exp(-5(1-T/80)2),其中α(t)max=10。實(shí)驗(yàn)中使用動(dòng)量為0.9,權(quán)重衰減為0.000 1的SGD。對(duì)于學(xué)習(xí)速率,本文考慮對(duì)每個(gè)批次進(jìn)行余弦退火,如下所示:

      在本文的工作中,T是實(shí)驗(yàn)中的訓(xùn)練輪數(shù),設(shè)置ηt=0.05×(1.0+cos((T-1)×π/600))。實(shí)驗(yàn)還使用了Batch Normalization和Dropout(p=0.5)。考慮了輸入圖像的隨機(jī)平移和水平翻轉(zhuǎn),以及數(shù)據(jù)集輸入層上的高斯噪聲,batch size設(shè)置為100。

      2.4 實(shí)驗(yàn)結(jié)果

      為了公平比較,本文只報(bào)告所提模型的平均性能,即使在整個(gè)訓(xùn)練過程中有性能更好的模型輸出結(jié)果,本文也不會(huì)集成方法的模型,另外本文也不使用預(yù)先訓(xùn)練好的模型。將所提方法與其他有代表性的半監(jiān)督學(xué)習(xí)方法進(jìn)行了比較:包括Ladder network、GAN[23]、CatGAN[24]、Improved GAN[25]、Triple GAN[26]、Πmodel、Temporal ensembling和Mean Teacher。本文方法優(yōu)于其他代表性的方法。

      在表2中,展示了在MNIST和CIFAR-10上的實(shí)驗(yàn)的主要結(jié)果。對(duì)于MNIST,本文僅僅使用了100個(gè)標(biāo)記數(shù)據(jù),CIFAR-10使用了50 000張中隨機(jī)挑選的4 000張圖像作為標(biāo)記數(shù)據(jù)。總體而言,本文所提方法在這兩個(gè)數(shù)據(jù)集的錯(cuò)誤率指標(biāo)上均排名第一。詳細(xì)地說,在所有比較的方法中,在MNIST數(shù)據(jù)集中的改進(jìn)是有限的。所提方法的錯(cuò)誤率僅有0.85%。但是,所提方法在更有挑戰(zhàn)性的CIFAR-10數(shù)據(jù)集上比其他方法好得多。在這種情況下,它獲得了錯(cuò)誤率僅有11.96%的最佳結(jié)果。對(duì)于其他比較方法,CatGAN、Improved GAN、Triple GAN都相對(duì)于GAN具有一定的提升,但是它們都缺乏明顯的優(yōu)勢(shì)?;跀_動(dòng)的三個(gè)方法:Πmodel、Temporal ensembling和Mean Teacher,作為最著名的半監(jiān)督的學(xué)習(xí)方法,在CIFAR-10數(shù)據(jù)集上都獲得了明顯高于其他方法的結(jié)果。Ladder network似乎很難通過有限的數(shù)據(jù)來擬合監(jiān)督部分和非監(jiān)督部分,與其他方法相比,Ladder network的性能相對(duì)較差。

      表2 MNIST和CIFAR-10上方法的錯(cuò)誤率Table 2 Error rates of methods on MNIST and CIFAR-10%

      表3展示了CIFAR-100上的方法結(jié)果。CIFAR-100是深度半監(jiān)督學(xué)習(xí)領(lǐng)域的一個(gè)難點(diǎn)數(shù)據(jù)集,包含100類圖像。從表3的結(jié)果可知,本文所提方法在使用數(shù)據(jù)增強(qiáng)與不使用數(shù)據(jù)增強(qiáng)兩個(gè)實(shí)驗(yàn)中都有了一定的準(zhǔn)確率上的提升,在不使用數(shù)據(jù)增強(qiáng)的條件下,相較于Πmodel提升了0.76個(gè)百分點(diǎn)。在使用數(shù)據(jù)增強(qiáng)的條件下,分類錯(cuò)誤率為38.44%,相較于Πmodel和Temporal model分別提升了0.75個(gè)百分點(diǎn)和0.21個(gè)百分點(diǎn)。在標(biāo)記數(shù)據(jù)更少的情況下,使用僅僅2 500個(gè)標(biāo)記數(shù)據(jù)時(shí),所提方法通過更復(fù)雜的預(yù)訓(xùn)練、網(wǎng)絡(luò)框架的微調(diào)和輸入增強(qiáng)方法,可以具有更好的性能。這些結(jié)果證明了所提方法的有效性。

      表3 CIFAR-100上方法的錯(cuò)誤率Table 3 Error rates of methods on CIFAR-100%

      2.5 擾動(dòng)依賴分析

      所提方法通過對(duì)兩個(gè)分類網(wǎng)絡(luò)在擾動(dòng)下進(jìn)行強(qiáng)制平滑來學(xué)習(xí)擾動(dòng)下的不變性以提升泛化性能。這實(shí)際上是一種隱式的自集成,這種策略依賴于擾動(dòng)來維持訓(xùn)練過程。為了正確探索不同擾動(dòng)帶來的效果,本文設(shè)計(jì)了消融實(shí)驗(yàn)來檢測(cè)本文的訓(xùn)練策略是否對(duì)擾動(dòng)敏感。在每個(gè)實(shí)驗(yàn)中,只移除噪聲,增強(qiáng)和dropout中的一項(xiàng),并計(jì)算每個(gè)設(shè)置下的五次運(yùn)行的平均值。結(jié)果如圖2所示??梢钥吹剑诿糠N情況下,在所有實(shí)驗(yàn)數(shù)據(jù)集上,移除不同擾動(dòng)都會(huì)給性能帶來較為顯著的下降。

      圖2 消融策略Fig.2 Ablation strategy

      2.6 時(shí)間復(fù)雜度分析

      2.7 超參數(shù)分析

      WCT依賴于兩個(gè)關(guān)鍵超參數(shù):平衡目標(biāo)函數(shù)中有監(jiān)督和無監(jiān)督權(quán)重的α(t),以及對(duì)1-Li pschitz約束進(jìn)行等價(jià)轉(zhuǎn)換時(shí)的λ。為了更好地探究所提方法對(duì)超參數(shù)的敏感性,在CIFAR-10上進(jìn)行了4 000個(gè)有標(biāo)簽數(shù)據(jù)的驗(yàn)證實(shí)驗(yàn),一次改變其中一個(gè)超參數(shù),同時(shí)保持其他所有參數(shù)變量不變。統(tǒng)計(jì)了訓(xùn)練不同時(shí)期下的實(shí)驗(yàn)結(jié)果,結(jié)果如圖3所示。

      圖3 超參數(shù)評(píng)估Fig.3 Hyperparameter evaluation

      對(duì)于α(t),本文使用的方案是不等權(quán)分配。首先給偽標(biāo)簽數(shù)據(jù)分配一個(gè)較低的權(quán)重,在訓(xùn)練的早期階段,有標(biāo)簽數(shù)據(jù)的權(quán)重占主導(dǎo)地位。隨著訓(xùn)練的進(jìn)行,偽標(biāo)簽數(shù)據(jù)的權(quán)重逐漸增加。在改變?chǔ)?t)最大值的情況下可以看出,標(biāo)記樣本和偽標(biāo)記樣本之間的訓(xùn)練平衡對(duì)于網(wǎng)絡(luò)性能至關(guān)重要,在α(t)取值為10時(shí)模型性能最優(yōu),良好的取值在5到15之間,范圍之外的取值為導(dǎo)致性能的迅速降低。對(duì)于實(shí)現(xiàn)約束轉(zhuǎn)換的λ,可以看出在不同訓(xùn)練時(shí)期時(shí)WCT性能對(duì)λ均不敏感,模型性能只會(huì)隨著λ的改變輕微波動(dòng)。這也證明了使用梯度懲罰進(jìn)行等價(jià)轉(zhuǎn)換的魯棒性。

      3 結(jié)束語

      本文提出了一種小樣本條件下的半監(jiān)督學(xué)習(xí)方法WCT,通過聚集充分的視圖信息,并將其集成到一個(gè)魯棒的訓(xùn)練中,實(shí)現(xiàn)防止網(wǎng)絡(luò)崩潰和提高分類泛化性能。首先通過Jensen-Shannon散度來模擬協(xié)同訓(xùn)練,使用一致性增強(qiáng)鼓勵(lì)兩個(gè)分類網(wǎng)絡(luò)做出相似的預(yù)測(cè),再利用對(duì)抗攻擊生成的對(duì)抗樣本,在Wasserstein距離下構(gòu)造網(wǎng)絡(luò)差異約束,以保持協(xié)同訓(xùn)練網(wǎng)絡(luò)之間的多樣性,從而實(shí)現(xiàn)穩(wěn)健的訓(xùn)練過程。為了驗(yàn)證該方法的有效性,本文在常用的圖像分類數(shù)據(jù)集MNIST、CIFAR10和CIFAR100中開展了相關(guān)實(shí)驗(yàn)研究,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提方法的優(yōu)秀性能。

      本文首次使用Wasserstein距離作為強(qiáng)制一致性平滑下的網(wǎng)絡(luò)距離控制,這種策略很容易訓(xùn)練兩個(gè)差異化的網(wǎng)絡(luò)。如何防止協(xié)同訓(xùn)練的網(wǎng)絡(luò)相互崩潰是基于分歧的半監(jiān)督學(xué)習(xí)未來有趣的研究方向。

      猜你喜歡
      標(biāo)簽樣本監(jiān)督
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      推動(dòng)醫(yī)改的“直銷樣本”
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      監(jiān)督見成效 舊貌換新顏
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      夯實(shí)監(jiān)督之基
      標(biāo)簽化傷害了誰
      村企共贏的樣本
      外汇| 虹口区| 茶陵县| 监利县| 崇礼县| 忻州市| 绥阳县| 依安县| 重庆市| 项城市| 克拉玛依市| 广宗县| 晋中市| 浙江省| 和田县| 昌乐县| 阿拉善左旗| 武山县| 乐都县| 邛崃市| 凌云县| 宜川县| 德清县| 长岛县| 柳林县| 延庆县| 奉节县| 响水县| 屏边| 安乡县| 江北区| 荥阳市| 广饶县| 儋州市| 新闻| 尼玛县| 徐水县| 河北区| 元朗区| 阳东县| 房山区|