楊雨龍,郭田德,2,韓叢英,2?
(1 中國科學院大學數(shù)學科學學院, 北京 100049; 2 中國科學院大數(shù)據(jù)挖掘與知識管理重點實驗室, 北京 100190)
深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用在計算機視覺和自然語言處理等許多領(lǐng)域,都取得了優(yōu)秀效果。然而,訓練一個深度神經(jīng)網(wǎng)絡(luò)需要數(shù)以百萬計的標注樣本和大量的計算資源,而對大量數(shù)據(jù)進行標注是很困難的。學術(shù)界已經(jīng)研究了幾種替代方案來緩解這一問題,如半監(jiān)督學習(semi-supervised learning,SSL)、無監(jiān)督學習和自監(jiān)督學習。
半監(jiān)督學習方法[1-2]是為解決海量無標簽數(shù)據(jù)和高代價標注工作之間的矛盾而產(chǎn)生的。在半監(jiān)督學習中,含有大量的未標注數(shù)據(jù),只有小部分有標簽數(shù)據(jù)。隨著研究的深入,半監(jiān)督學習算法在圖像分類[3-4]、語義分割[5-6]、自然語言處理[7-8]等領(lǐng)域都取得了不錯的結(jié)果。
本文主要研究基于偽標簽(pseudo-labeling)的半監(jiān)督學習圖像分類算法。這類方法用輸入圖像在訓練過程中的歷史輸出生成偽標簽,并將其作為監(jiān)督信號,然后以有監(jiān)督的模式進行學習。
現(xiàn)有的偽標簽方法存在“認知偏誤(confirmation bias)”[9-10]的問題?!罢J知偏誤”,也稱為噪聲積累,即模型的錯誤由于使用了自身提供的錯誤偽標簽進行訓練而得到加深。這種錯誤累積是由于偽標簽方法僅使用單個樣本自身的預測進行監(jiān)督,一旦模型對樣本預測錯誤,這一錯誤將被當作監(jiān)督信號,而這個錯誤的監(jiān)督信號無法通過與其他樣本的比較得到修正。PLCB[11]通過使用MixUp[12]引入成對圖像的信息,在一定程度上緩解了認知偏誤。然而,成對圖像提供的流形信息有限,PLCB依然會受到認知偏誤的影響。
本文提出一種新的特征修正模型,即原型注意力模型,由于和神經(jīng)網(wǎng)絡(luò)結(jié)合,又稱為原型注意力層(prototype attention layer, PAL)。假設(shè)在每一類樣本的數(shù)據(jù)流形中存在P個具有代表性的點,即原型,所有樣本都可找到某一原型與之相近。通過學習原型,得到數(shù)據(jù)流形的壓縮表示,使得每個樣本在訓練時都能參考整個數(shù)據(jù)流形,從而緩解“認知偏誤”。在特征空間中隨機初始化C×P個向量作為原型,即每類有P個原型。將樣本分類到某一原型的過程稱為原型分配(prototypes assignment,PA)。把每個樣本在當前迭代中的原型分配向量作為下一次迭代的偽標簽,通過優(yōu)化帶正則項的交叉熵損失,來訓練樣本的原型。用學習到的原型合并樣本特征,共同構(gòu)建包括原型向量和樣本特征的圖,然后通過可學習的圖注意力[13]模型來獲得更好的特征。將PAL分別應(yīng)用于2個偽標簽半監(jiān)督學習框架,得到2種使用原型學習改進的偽標簽半監(jiān)督學習算法(prototype attention improved pseudo-labeling, PAIPL):一種應(yīng)用到軟偽標簽的自訓練(self-training[14])框架,得到PAIPL-S算法;一種應(yīng)用到偽標簽的PLCB框架,得到PAIPL-P。為了更好地使用偽標簽,本文還提出相互混合的監(jiān)督技巧,用于偽標簽生成,從而使生成的偽標簽既能在早期相對迅速地收斂,又具備了好的流形表示。PAIPL-S和PAIPL-P算法在不增加圖像預處理技術(shù)、而且訓練使用小批量數(shù)據(jù)情形下,于CIFAR-10與CIFAR-100數(shù)據(jù)庫上取得了很好的結(jié)果。本文提出的PAIPL算法架構(gòu)如圖1所示。
本文的貢獻主要有以下3個方面:
1)克服了現(xiàn)有半監(jiān)督學習方法對不同數(shù)據(jù)之間的關(guān)系信息利用不足的問題,提出一種基于原型的圖注意力模型來生成特征:即通過訓練學習原型,得到數(shù)據(jù)流形的一個壓縮表示,通過圖注意力模型,從原型中獲得對樣本分類有用的信息,合并原有特征,得到參考數(shù)據(jù)流形修正的特征;
圖1 PAIPL算法架構(gòu)Fig.1 A schema of PAIPL
2) 將原型注意力模型應(yīng)用到2種偽標簽半監(jiān)督學習框架中,得到2種新的偽標簽半監(jiān)督學習算法:PAIPL-S和PAIPL-P。相對于沒有加入原型注意力模型的基線方法,算法的準確率得到顯著的提升;
3)提出一種相互混合監(jiān)督的偽標簽生成方法。傳統(tǒng)的偽標簽生成方法使用同一數(shù)據(jù)的歷史輸出作為偽標簽,收斂速度快,但存在“認知偏誤”問題。單純基于流形信息的偽標簽生成能通過鄰域信息校正偽標簽的錯誤,但可能出現(xiàn)過分平滑的現(xiàn)象。本文通過綜合二者的優(yōu)缺點,提出以二者的隨機線性組合作為偽標簽,使得模型既能獲得前期的收斂速度,又能防止后期的過分平滑。同時,融合這2種方式的相互學習也能防止它們各自陷入自己的局部最優(yōu)解。
關(guān)于深度半監(jiān)督學習的工作主要有2個分支,即一致性正則化和偽標簽方法。在下面的討論中,將深度神經(jīng)網(wǎng)絡(luò)(卷積神經(jīng)網(wǎng)絡(luò))特征提取器記為f(·),它將輸入圖像映射到一個高維特征向量f(x)。分類器(全連接層后接softmax函數(shù))c(·)將特征向量作為輸入,并輸出分布向量p(y|x)=c(f(x))。
一致性正則化方法對同一樣本的不同數(shù)據(jù)增廣進行預測,并最小化它們之間的差異。之前的研究在無標簽數(shù)據(jù)上大多應(yīng)用以下一致性正則化損失:
(1)
其中:Aug1(·)和Aug2(·)是2種不同的隨機圖像增廣。π-model[15]應(yīng)用隨機數(shù)據(jù)增廣,要求模型對同一數(shù)據(jù)在2種不同數(shù)據(jù)增廣下的預測結(jié)果相近。在此基礎(chǔ)上,為保留更多的歷史信息并穩(wěn)定訓練,文獻[15]的Temporal Ensemble將歷史預測的指數(shù)平均作為監(jiān)督信號,最小化當前預測與歷史平均預測的差異。另一種保留歷史信息并穩(wěn)定訓練的算法是Mean Teacher[10],以模型的參數(shù)的指數(shù)平均作為教師模型,用教師模型的預測來指導訓練過程。然而,Mean Teacher中教師模型會逐漸收斂到學生模型,使得一致性正則化損失的作用隨著訓練的進行而減小。Dual Student[16]為解決這一問題,提出分別訓練2個學生模型,以在樣本點穩(wěn)定的一個學生模型的預測作為在該點不穩(wěn)定的另一個學生模型的監(jiān)督信號。然而,這幾種方法的數(shù)據(jù)增廣只使用了常規(guī)的圖像數(shù)據(jù)增廣,多樣性有限。虛擬對抗訓練(virtual adversarial training, VAT)[17]應(yīng)用對抗訓練來生成對抗樣本,得到與傳統(tǒng)圖像增廣不同的增廣數(shù)據(jù),并要求模型在對抗樣本和原始樣本上的預測相似。VAT還使用熵最小化作為額外的正則化,使模型在未標記的數(shù)據(jù)上做出明確的預測。但對抗樣本只集中在數(shù)據(jù)點的附近,且不能很好地覆蓋數(shù)據(jù)流形。最近,一些研究引入MixUp正則化作為訓練信號,ICT[18]和MixMatch[19]要求成對樣本的線性插值的預測和其標簽(或偽標簽)的相應(yīng)插值之間的一致性。ICT應(yīng)用Mean Teacher生成偽標簽,而MixMatch則使用不同數(shù)據(jù)增廣的預測的均值生成偽標簽。在MixMatch中也應(yīng)用了熵最小化。上述文獻只建模成對樣本,對數(shù)據(jù)流形的利用仍然不足。UDA[20]專注于重度數(shù)據(jù)增廣,通過元學習來選擇數(shù)據(jù)增廣方法,然后最小化原始樣本和增廣樣本之間的預測差異來實現(xiàn)一致性正則化。但UDA的性能高度依賴于數(shù)據(jù)增廣方法庫的合理性和多樣性。
偽標簽方法通過對未標記的數(shù)據(jù)生成偽標簽,再以有監(jiān)督學習的形式訓練。Lee[21]直接將模型的預測作為偽標簽。他們對模型進行預訓練,在微調(diào)過程中使用偽標簽。這種只考慮樣本自身歷史預測的偽標簽算法受到認知偏誤問題的嚴重影響。Self-training[14]首先用有標簽數(shù)據(jù)訓練模型,然后用訓練好的模型對無標簽數(shù)據(jù)標注,將預測概率最大值大于某一閾值的數(shù)據(jù)加入有標簽數(shù)據(jù)再次訓練,反復如此直至再也不能向有標簽數(shù)據(jù)集中添加數(shù)據(jù)。雖然通過逐步添加可信樣本避免了使用明顯錯誤的樣本進行訓練,但由于錯誤數(shù)據(jù)一經(jīng)加入有標簽數(shù)據(jù)集后就無法糾正,受到認知偏誤的嚴重影響。還有一些研究考慮了生成偽標簽的不確定性[22-23],使用k個最近鄰點的距離作為不確定性的衡量標準,通過優(yōu)化損失來縮小類內(nèi)距離、擴大類間距離,但這樣只能利用局部的流形信息。PLCB[11]引入MixUp,使模型能利用成對數(shù)據(jù)線性插值的信息。一些研究通過在PLCB中加入dropout[24]、權(quán)重歸一化[25]、類別分布對齊[26]、熵最小化[27],并在同一批次以固定比例加載有標簽和無標簽數(shù)據(jù),在許多圖像分類問題上都獲得了顯著的提升。然而,PLCB只能使用成對圖像的信息,對數(shù)據(jù)流形整體的利用不足。另有一些學者提出結(jié)合基于圖的標簽傳播來獲得更好的偽標簽[28],此算法交替進行2個過程:1)用有標簽數(shù)據(jù)和偽標簽數(shù)據(jù)來訓練模型;2)用從模型中得到的特征來構(gòu)建最近鄰圖,并應(yīng)用標簽傳播算法來調(diào)整偽標簽。文獻[28]雖然成功利用了整個數(shù)據(jù)流形,但這種方法需要對所有樣本的特征建圖,計算量過大,不適用于稍大的數(shù)據(jù)集。
與文獻[11]類似,在訓練時,每個批次中按照固定比例加載有標簽數(shù)據(jù),其余是無標簽的數(shù)據(jù),同時優(yōu)化2個損失:主分支的損失Lm和用來學習原型的損失Lp。
2.1.1 通過原型分配學習原型向量
圖2 原型分配過程Fig.2 Prototypes assignment
(2)
(3)
(4)
其中T是溫度參數(shù)。使用交叉熵損失作為原型學習目標的主要損失
(5)
在原型損失中添加2個正則項,類別分布對齊損失RA[26]和熵最小化損失RH[27]。類別分布損失要求無標簽樣本中的原型分布與先驗一致,即每個原型代表了數(shù)量均等的樣本。熵最小化損失要求模型做出足夠明確的判斷,即每個樣本歸屬于特定的某個原型。類別分布對齊損失RA為
(6)
(7)
其中:wij是xi被模型分配到原型Pj的概率。
本文還提出一個損失來匹配原型分配的偽標簽和主分支產(chǎn)生的分類的偽標簽
(8)
因此,總的原型損失為
Lp=Lprotos+λARA+λHRH+λPMRPM.
(9)
2.1.2 原型注意力層構(gòu)造
(10)
其中:softmax(·)應(yīng)用于所有原型的權(quán)重向量,a(·)是用于計算未歸一化注意力系數(shù)的線性映射。用原型向量的加權(quán)平均對所有原型的信息進行聚合:
圖3 原型注意力層Fig.3 Prototypes attention layer
(11)
將輸入圖像的嵌入ex和聚合嵌入eagg作為新的特征,投影回原來的低維特征空間:
(12)
其中ψ(·)是一個2層非線性網(wǎng)絡(luò)。使用了殘差塊來降低訓練難度。
PLCB使用MixUp緩解“認知偏誤”。MixUp使用樣本標簽對((xp,yp),(xq,yq))的凸組合訓練神經(jīng)網(wǎng)絡(luò):
xmix=δxp+(1-δ)xq,
(13)
(14)
其中δ~B(α,α),即參數(shù)為(α,α)的Beta分布。于是交叉熵損失變?yōu)?/p>
(15)
MixUp要求神經(jīng)網(wǎng)絡(luò)在訓練樣本對之間盡量近似于局部線性函數(shù),從而實現(xiàn)決策邊界的線性變化以實現(xiàn)更好的泛化。
PLCB在MixUp損失的基礎(chǔ)上同樣增加了類別分布對齊損失RA和熵最小化損失RH。值得注意的是,由于PLCB使用的數(shù)據(jù)經(jīng)過了MixUp變換,RA和RH中所用到的模型fθ(xi) 都是對線性組合后的樣本xi的預測。但在模型預測線性的假設(shè)下,2個正則項的假設(shè)仍然成立。
故正則化MixUp的總損失函數(shù)為
Lm=Lmix+λARA+λHRH,
(16)
其中λA和λH是超參數(shù)。
除了使用MixUp以外,PLCB還應(yīng)用了以下技巧:在每批次樣本中同時加載有標簽和無標簽數(shù)據(jù)。每個批次中固定比例的樣本是有標簽的,而其余的是無標簽的。在PLCB中,對于不同有標簽數(shù)據(jù)數(shù)量的不同數(shù)據(jù)集,每個批次中有標簽數(shù)據(jù)的比例是一個重要的超參數(shù),對模型的結(jié)果有不小的影響。這是為了防止有標簽數(shù)據(jù)的采樣過度和采樣不足。為了獲得無噪聲的偽標簽,生成偽標簽時不引入隨機性,即不做圖像增廣且不使用dropout,而訓練時使用圖像增廣和dropout。
將原型注意力層應(yīng)用在PLCB上:1)在特征提取過程加入了原型注意力層,改變了特征提取器hθ(·);2)加入了原型學習訓練損失Lp??倱p失為
L=Lm+λLp,
(17)
其中λ為超參數(shù)。
使用軟偽標簽的自訓練模型是經(jīng)典的偽標簽半監(jiān)督算法之一。對于有標簽數(shù)據(jù),模型使用交叉熵損失進行有監(jiān)督訓練。而對于無標簽數(shù)據(jù),模型使用軟偽標簽,用交叉熵損失進行訓練。軟偽標簽由模型上一次迭代的預測得到。
(18)
在此基礎(chǔ)上,同樣增加了類別分布對齊損失RA和熵最小化損失RH。
正則化軟偽標簽自訓練的總損失函數(shù)為
Lm=LCE+λARA+λHRH,
(19)
其中λA和λH是超參數(shù)。
將原型注意力層應(yīng)用在軟偽標簽的自訓練框架上:1)在特征提取過程加入了原型注意力層,改變了特征提取器hθ(·);2)加入了原型學習訓練損失Lp??倱p失為:
L=Lm+λLp,
(20)
其中λ為超參數(shù)。
為進一步提升模型性能,本文提出相互混合監(jiān)督學習的技術(shù)。為了同時使用偽標簽和相互學習[30]的方法,將2個分支的偽標簽進行隨機線性組合。一個分支是使用原型注意力層修正的傳統(tǒng)神經(jīng)網(wǎng)絡(luò),另一個分支是基于規(guī)范化余弦相似度的原型分配,詳見2.1.1。當?shù)玫?.1.1中的原型分配wij后,PAIPL通過將每個原型向量分配到某個類中,將來自同一類的所有原型的概率相加,得到分類預測lPA,如圖2所示。采用線性預熱(linear warm-up)的方式,每一個分支在一開始的時候都會注重于來自自己分支的監(jiān)督,以達到訓練初期較為迅速的收斂。在預熱過程結(jié)束后,用2個分支的監(jiān)督的隨機線性組合對每個分支進行訓練。具體來說:
δ~U(0,1),
(21)
(22)
α=δ, (i>warm),
(23)
(24)
(25)
本文將加入原型注意力層和相互混合監(jiān)督技術(shù)的偽標簽半監(jiān)督學習算法稱為PAIPL。將其在PLCB和軟標簽自訓練上的應(yīng)用分別稱為PAIPL-P和PAIPL-S。
首先在幾個標準的半監(jiān)督學習基準上評估算法PAIPL,包括各種不同有標簽數(shù)據(jù)比例的CIFAR-10和CIFAR-100。PAIPL比原始框架PLCB表現(xiàn)更好,并且較性能優(yōu)異的一致性算法MixMatch也有顯著的提升。
對2個常用的半監(jiān)督學習數(shù)據(jù)集CIFAR-10和CIFAR-100進行實驗。PAIPL在不同數(shù)量的有標簽數(shù)據(jù)下進行了測試。CIFAR-10和CIFAR-100分別是10類和100類的自然圖像數(shù)據(jù)集。CIFAR-10包含50 000張訓練圖像和10 000張測試圖像,大小為32×32,平均分布在10個不相交的類上。CIFAR-100包含50 000張訓練圖像和10 000張測試圖像,大小為32×32,均勻分布在100個不相交的類上。與文獻[11]類似,我們?yōu)镃IFAR-10和CIFAR-100都留出了5 000個樣本作為驗證集來調(diào)整超參數(shù)。而在與其他方法進行比較時,使用所有的50 000個訓練樣本。
實驗使用不同比例的有標簽數(shù)據(jù)。在CIFAR-10中,Nl=250,500,1 000,4 000。在CIFAR-100中,Nl=500,1 000,4 000,Nl+Nu=50 000。Nl表示標記樣本的數(shù)量,Nu表示未標記樣本的數(shù)量。采用“13-CNN”[31]來提取特征,以便與前人的研究進行比較。
PAIPL只使用非常簡單的圖像預處理:圖像填充、顏色擾動、隨機裁剪、水平翻轉(zhuǎn)、圖像歸一化和高斯噪聲。首先添加2個像素的邊緣填充,并裁剪回原尺寸,得到2個像素的隨機平移。然后進行顏色擾動,以增加數(shù)據(jù)的多樣性。再以0.5的概率對圖像進行水平翻轉(zhuǎn)。用整個數(shù)據(jù)集的平均值和標準差對所有圖像進行歸一化。最后,加入均值為0,標準差為0.15的高斯噪聲。
使用隨機動量梯度下降優(yōu)化器訓練模型,動量為0.9,權(quán)重衰減為10-4。所有實驗在對整個訓練集進行訓練之前都會進行預熱。首先在有標簽數(shù)據(jù)上預訓練模型,只用10次迭代來獲得后續(xù)訓練的初始權(quán)重。訓練了400次迭代,在250次和350次迭代時進行學習率衰減。
本文沒有對正則化權(quán)重λA和λH進行大量的調(diào)參,只按照文獻[11]設(shè)置為0.8和0.4。使用了dropout,并在所有網(wǎng)絡(luò)中使用權(quán)重歸一化。
首先展示在CIFAR-10和CIFAR-100上不同數(shù)量的有標簽數(shù)據(jù)集的結(jié)果,見表1。PAIPL-P比目前最好的基于偽標簽的方法PLCB有明顯的改進,并且準確率比一致性方法MixMatch更高。
將PAIPL-S和PAIPL-P與它們對應(yīng)的基線方法比較,結(jié)果顯示,PAIPL-S和PAIPL-P相較于軟偽標簽自訓練和PLCB都有明顯提升。這說明PAIPL對2種偽標簽半監(jiān)督學習框架都是有效的。
表1 與其他方法的精度比較Table 1 Accuracy comparison with previous methods
我們將PAIPL-P與在CIFAR-10和CIFAR-100中使用13-CNN[31]架構(gòu)的其他方法進行比較,盡管只使用小的批次以及基本的數(shù)據(jù)預處理和簡單的預熱策略,PAIPL-P仍然取得了優(yōu)異的結(jié)果。ICT和MixMatch通過引入MixUp,緩解了半監(jiān)督學習中的認知偏誤。PLCB不僅引入了MixUp,還加入了類別分布對齊和熵最小化等許多額外技術(shù)。PAIPL引入了更復雜的流形信息,從而獲得更好的性能提升。這表明本文提出的算法有效地緩解了偽標簽學習的認知偏誤問題。
通過消融實驗(ablation study),測試PAIPL的不同模塊的效果。表2展示了PAIPL-P在CIFAR-100上的使用4 000和10 000個有標簽數(shù)據(jù)的實驗。由于PAIPL-P是基于PLCB改進的,本文將實驗結(jié)果與PLCB進行比較。在PLCB的基礎(chǔ)上,增加了2個模塊:原型注意力層(PAL)和相互混合監(jiān)督(MM)。
表2 消融實驗結(jié)果Table 2 Results of ablation study
由于提供的數(shù)據(jù)非常有限,有監(jiān)督學習(Supervised)只能得到較低的準確率。在有監(jiān)督學習中加入MixUp后(Supervised(M)),由于MixUp的正則化要求邊界更平滑,結(jié)果得到了改善。PLCB加入了無標簽數(shù)據(jù),形成半監(jiān)督學習框架,與有監(jiān)督方法相比,準確率有較大的提高。本文通過增加原型注意力層(PLCB+PAL),可以獲得比PLCB更高的準確率。這是由于原型注意力層提供了更復雜的流形信息,而不僅僅是成對數(shù)據(jù)的信息。加入相互混合監(jiān)督(PLCB+MM),結(jié)合了2個分支的優(yōu)點,比PLCB準確率有所提升,但相對原型注意力層帶來的提升效果較弱。將2種結(jié)構(gòu)同時加入后(PAIPL-P)得到了最好的結(jié)果。
首先展示PAIPL的有效性。圖4比較了PLCB和PAIPL-P精度曲線和損失曲線。PLCB的訓練損失持續(xù)下降,測試精度在學習率第2次下降前持續(xù)上升,而在學習率第2次下降后,測試精度反而下降了,而PAIPL-P的精度不斷提高。這說明在訓練后期PLCB出現(xiàn)了過擬合問題,這意味著PAIPL-P提供了比PLCB更充分的正則化。
實驗在4 000個有標簽數(shù)據(jù)的CIFAR-100上進行。圖4 PLCB和PAIPL的曲線對比Fig.4 Comparison curves between PLCB and PAIPL (ours)
然后展示PAIPL-P的t-SNE[32]降維可視化結(jié)果。在500個有標簽樣本的CIFAR-10上訓練模型,并將所有測試樣本映射到特征空間。特征向量和原型向量都用t-SNE映射到二維空間。圖5顯示了t-SNE的可視化結(jié)果。所有的原型都位于它們所屬的真實聚類中,并且較為均勻的分布在整個聚類區(qū)域。這表示學習的原型能用很小的成本,較好地表達大部分的數(shù)據(jù)流形。PAIPL利用學習到的原型捕捉到數(shù)據(jù)流形的全局壓縮信息,而基于MixUp的方法,如MixMatch和PLCB,只能使用成對數(shù)據(jù)信息。
不同顏色表示不同的類別,三角形表示學到的原型。圖5 測試樣本特征的t-SNE可視化結(jié)果Fig.5 Visualization result of t-SNE of test sample features
圖6展示了飛機這個大類中,不同特征空間中原型附近的樣本圖像。首先用帶500個有標簽數(shù)據(jù)的CIFAR-10上訓練模型,并將所有測試樣本映射到特征空間。每個原型的2個近鄰樣本被挑選出來,每個原型周圍的圖像非常相似,而不同原型周圍的圖像,雖然來自同一類,看起來差異更大。這表示PAIPL學到的原型可以看作是子聚類的中心,原型注意力層可以看作是細粒度分類。這對于更復雜的數(shù)據(jù)集更加重要,所以PAIPL在CIFAR-100的改進比在CIFAR-10上的改進更加明顯。
圖6 飛機圖像部分原型近鄰樣本Fig.6 Images near different prototypes of airplane class
最后討論相互混合監(jiān)督學習的作用機理。PAIPL中有2個分支,主分支是加入原型注意力層的傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò),在訓練早期,該分支會在偽標簽的監(jiān)督下快速收斂。然而,隨著訓練的進行,它將受到認知偏誤的影響。另一個分支是原型分配,在訓練早期,由于原型尚未充分訓練,該分支使用質(zhì)量較差的原型進行預測,結(jié)果較差。隨著訓練的進行,原型會得到更好的訓練,該分支會變得更強。但訓練后期若只使用原型分配分支又會出現(xiàn)預測過于平滑的現(xiàn)象。所以本文使用線性預熱來獲得偽標簽。在訓練初期,每個分支更傾向于受到來自該分支的監(jiān)督。而在預熱過程結(jié)束后,用2個分支預測的隨機線性組合對每個分支進行訓練。
本文提出一種新型的特征修正模型PAL。這種特征修正模型可以廣泛應(yīng)用在偽標簽半監(jiān)督學習框架中,并與相互混合監(jiān)督結(jié)合,得到基于原型學習改進的偽標簽半監(jiān)督學習算法。PAIPL包含2部分:1)用于改善特征的可學習的原型注意力層;2)用于結(jié)合修正特征偽標簽和原型分配偽標簽的相互混合監(jiān)督。本文將PAIPL算法應(yīng)用到2種不同的偽標簽半監(jiān)督學習框架上,軟偽標簽的自訓練框架和偽標簽的PLCB框架,得到2種新的偽標簽半監(jiān)督學習算法PAIPL-S和PAIPL-B。實驗結(jié)果顯示PAIPL-P優(yōu)于最新的偽標簽方法和一致性正則化方法。根據(jù)本文的研究可以看出偽標簽方法可以和一致性訓練方法一樣,在半監(jiān)督學習中起到重要作用。未來的工作可以使用更大批量的數(shù)據(jù)和更強的圖像預處理來獲得更好的效果,也可以考慮將自監(jiān)督學習的成果移植到半監(jiān)督學習中。