宮辰 張闖 王啟舟
摘 要:在機器學(xué)習(xí)領(lǐng)域,監(jiān)督學(xué)習(xí)算法在理論層面和工程應(yīng)用中均取得了豐碩的成果,但此類算法的效果嚴(yán)重依賴訓(xùn)練樣本的標(biāo)簽質(zhì)量,在實際問題中獲取具有高質(zhì)量標(biāo)簽的訓(xùn)練樣本通常費時費力。為節(jié)省人力物力,網(wǎng)絡(luò)爬蟲、眾包方法等替代方法被用于對訓(xùn)練數(shù)據(jù)的采集。不幸的是,這些替代方法獲取的數(shù)據(jù)往往存在大量的錯誤標(biāo)注,即標(biāo)簽噪聲,由此帶來了很多潛在的問題。因此,對標(biāo)簽噪聲魯棒學(xué)習(xí)算法的研究,在推廣機器學(xué)習(xí)工程應(yīng)用、降低機器學(xué)習(xí)算法部署成本方面具有重要的意義。本文對標(biāo)簽噪聲魯棒學(xué)習(xí)算法的最新研究成果進展進行了全面綜述,分別從標(biāo)簽噪聲的產(chǎn)生、影響、分類等方面進行了詳細(xì)的總結(jié),對每類標(biāo)簽噪聲的處理方法進行了介紹,并對每類處理方法的優(yōu)缺點進行分析。
關(guān)鍵詞: 人工智能;機器學(xué)習(xí);弱監(jiān)督學(xué)習(xí);標(biāo)簽噪聲;深度學(xué)習(xí);魯棒學(xué)習(xí)算法
中圖分類號: TJ760;TP18文獻標(biāo)識碼:A文章編號: 1673-5048(2020)03-0020-07
0 引言
監(jiān)督學(xué)習(xí)分類算法在醫(yī)療、金融、交通等領(lǐng)域中已經(jīng)取得了巨大的成功。此類算法通常從大量訓(xùn)練樣本中學(xué)習(xí)出一個分類模型,然后將其用于預(yù)測新樣本的標(biāo)簽。具體來說,每個訓(xùn)練樣本都對應(yīng)一個事件/對象,并由兩部分組成: 一個描述該事件/對象的特征向量(或?qū)嵗?,一個表示該事件/對象真實類別的標(biāo)簽。監(jiān)督學(xué)習(xí)分類算法利用大量有標(biāo)簽的訓(xùn)練數(shù)據(jù)在假設(shè)空間下,尋找特定任務(wù)下的最優(yōu)分類器模型,然后將其部署用于預(yù)測新測試樣本的標(biāo)簽。但是在實際應(yīng)用場景中,考慮到人力、物力成本或分類任務(wù)本身具有的主觀性,實際的訓(xùn)練數(shù)據(jù)通常受到外部噪聲影響。
訓(xùn)練數(shù)據(jù)所受到的外部噪聲被定義為數(shù)據(jù)實例特征和數(shù)據(jù)標(biāo)簽錯誤的對應(yīng)關(guān)系[1]或非系統(tǒng)錯誤的集合[2]。外部噪聲通常分為兩類,即特征噪聲和標(biāo)簽噪聲[2-4]。對于分類問題,特征噪聲指訓(xùn)練樣本的實例特征本身與其真實特征間的偏差。此類噪聲通常對目標(biāo)分類器性能影響較小,甚至人為引入的特征噪聲能夠提高目標(biāo)分類器泛化能力或?qū)刽敯粜?。類似地,?biāo)簽噪聲通常指分類學(xué)習(xí)算法中用于訓(xùn)練的目標(biāo)標(biāo)簽與相應(yīng)實例本身的真實標(biāo)簽的偏差。
與特征噪聲相比,許多工作從實驗和理論的角度證明了標(biāo)簽噪聲對目標(biāo)分類器性能有著更為嚴(yán)重的負(fù)面影響。Frénay等人[5]指出,這種現(xiàn)象可能由兩個因素造成: (1)實例標(biāo)簽維度遠(yuǎn)小于其特征維度;(2)特征對模型訓(xùn)練的重要性或大或小,而標(biāo)簽總是對模型訓(xùn)練有很大的影響。Quinlan[2]的研究也得出了類似的結(jié)論: 相對于特征噪聲,標(biāo)簽噪聲對分類器的影響更大。因此,本文著重討論標(biāo)簽噪聲問題。
標(biāo)簽噪聲在實際應(yīng)用場景中廣泛存在。 在軍事目標(biāo)識別場景中,模型的訓(xùn)練往往依賴于準(zhǔn)確的目標(biāo)標(biāo)注。但是在目標(biāo)標(biāo)注過程中,一些外觀相似的軍事目標(biāo)經(jīng)常容易被標(biāo)注錯誤,比如坦克和自行榴彈炮等。類似地,在紅外或雷達圖像場景中,成像質(zhì)量或者是照射角的變化也經(jīng)常導(dǎo)致目標(biāo)標(biāo)注錯誤,也就造成了本文所討論的標(biāo)簽噪聲,這些標(biāo)簽噪聲將不可避免地對訓(xùn)練模型帶來負(fù)面影響。因此, 標(biāo)簽噪聲魯棒學(xué)習(xí)算法的研究對機器學(xué)習(xí)應(yīng)用于實際工程領(lǐng)域具有重要意義。
為研究各類標(biāo)簽噪聲對目標(biāo)分類器/分類算法的影響,研究者通常會將噪聲標(biāo)簽、真實標(biāo)簽、實例特征三者看作隨機變量,進而對三者的依賴關(guān)系做出假設(shè)。就有向概率圖的角度而言[5],大部分工作研究的標(biāo)簽噪聲可以分為三類: 隨機標(biāo)簽噪聲(Random Classification label Noise,RCN)、類相關(guān)標(biāo)簽噪聲(Class-Conditional label Noise,CCN)以及實例相關(guān)標(biāo)簽噪聲(Instance-Dependent label Noise,IDN)。三者分別假定標(biāo)簽錯誤與實例特征和真實標(biāo)簽均無關(guān)、標(biāo)簽錯誤僅與真實標(biāo)簽相關(guān)、標(biāo)簽錯誤與實例特征相關(guān)。
三者的概率圖表示如圖1所示。其中,x表示實例特征,y表示其真實標(biāo)簽(不可觀測且完全正確的標(biāo)注),y~表示其噪聲標(biāo)簽(可觀測但不完全正確的標(biāo)注)。此外,與文獻[5-6]等類似,本文額外引入隱變量e用于指示該實例是否受標(biāo)簽噪聲帶來的錯誤影響。
值得注意的是,已有工作通常限定在一種標(biāo)簽噪聲對監(jiān)督學(xué)習(xí)算法的影響,而實際場景下標(biāo)簽數(shù)據(jù)噪聲可能是三種情況的混合。此外,其他研究工作嘗試研究開放情形下的標(biāo)簽噪聲問題,即部分實例樣本真實標(biāo)簽不存在于訓(xùn)練樣本的標(biāo)簽空間中的情況。本文僅考慮RCN,CCN,IDN三種標(biāo)簽噪聲分別對目標(biāo)分類器的影響以及如何設(shè)計特定類型噪聲下的魯棒分類算法。
本文將從標(biāo)簽噪聲的產(chǎn)生和標(biāo)簽噪聲的影響闡述標(biāo)簽噪聲魯棒學(xué)習(xí)算法研究的重要意義,并從上述標(biāo)簽噪聲的三個分類進一步闡述處理標(biāo)簽噪聲的前沿算法,最后對標(biāo)簽噪聲學(xué)習(xí)進行總結(jié)并展望其發(fā)展趨勢。
1 標(biāo)簽噪聲的產(chǎn)生
標(biāo)簽噪聲廣泛存在于交通、金融等多個領(lǐng)域,以及雷達目標(biāo)檢測、紅外目標(biāo)識別等關(guān)鍵應(yīng)用場景。很多因素可能導(dǎo)致標(biāo)簽噪聲[5-6]: (1)標(biāo)注過程中可獲取的信息不夠充分,實例特征不足以充分描述目標(biāo)類別的數(shù)據(jù)[7-9]。(2)待標(biāo)注樣本任務(wù)本身具有主觀性,不同標(biāo)注人員從不同角度出發(fā)會給出不同的標(biāo)簽[10-11]。(3)待標(biāo)記樣本自身可辨識度較低,對于一些難以標(biāo)記的樣本,即使專家也無法給出正確標(biāo)注[1]。(4)標(biāo)注算法本身質(zhì)量/精度較低[12-15]。(5)通信/編碼問題或數(shù)據(jù)集處理過程也有可能導(dǎo)致樣本標(biāo)簽出現(xiàn)錯誤[3, 7, 16]。(6)在大規(guī)模標(biāo)注數(shù)據(jù)中,即使標(biāo)注算法質(zhì)量較高,獲取的標(biāo)簽也可能存在噪聲問題[17]。
2 標(biāo)簽噪聲的影響
標(biāo)簽噪聲在實際應(yīng)用中廣泛存在。為了降低機器學(xué)習(xí)算法的部署成本、保障算法的穩(wěn)定性,研究者不得不研究標(biāo)簽噪聲對分類學(xué)習(xí)算法的影響。首先,標(biāo)簽噪聲會嚴(yán)重影響分類學(xué)習(xí)算法的性能。例如,在RCN或CCN情形下,文獻[18-19]從理論角度證明了線性分類器及二次型分類器會受到標(biāo)簽噪聲的影響。類似地,Okamoto等人[20]證明了k-NN分類器同樣受標(biāo)簽噪聲影響。
此外,從實驗角度來講,決策樹[2]、支持向量機[21]、AdaBoost等方法[22]效果也會受標(biāo)簽噪聲的負(fù)面影響。近年來,隨著深度學(xué)習(xí)算法的廣泛應(yīng)用,標(biāo)簽噪聲對深度模型的影響也受到了廣泛的關(guān)注。例如,Zhang等人[23]發(fā)現(xiàn)深度模型可以擬合隨機標(biāo)簽,即深度模型自身不具有區(qū)分正誤標(biāo)簽樣本的能力。基于其結(jié)果,文獻[24-25]從實驗角度提出了深度模型的記憶/泛化性質(zhì)。
其次,標(biāo)簽噪聲會導(dǎo)致分類器需要更多的訓(xùn)練樣本才能達到指定的性能指標(biāo)[16, 26]。類似地,有標(biāo)簽噪聲的訓(xùn)練數(shù)據(jù)會導(dǎo)致目標(biāo)分類器模型復(fù)雜度大大增加[2, 27]。Dawid 等人[9]則指出標(biāo)簽噪聲下觀測的類別頻率可能會改變。舉例來說,在醫(yī)學(xué)研究中,醫(yī)學(xué)研究者通常很關(guān)注某種疾病的發(fā)病率,但是發(fā)病率有很大可能性被標(biāo)簽噪聲影響。最后,對于一些其他的任務(wù),例如,特征選擇[28]以及特征排序[29]等也受標(biāo)簽噪聲的嚴(yán)重影響。
3 標(biāo)簽噪聲問題分類
為了能夠從理論層面分析標(biāo)簽噪聲對各種分類器/分類算法的影響,研究者通常會假設(shè)標(biāo)簽噪聲的生成過程,并據(jù)此設(shè)計相應(yīng)的噪聲魯棒算法。
3.1 隨機標(biāo)簽噪聲(RCN)
RCN假設(shè)噪聲標(biāo)簽的生成過程是完全隨機的,標(biāo)簽噪聲與真實標(biāo)簽或者實例均不相關(guān)。例如,在眾包場景下,部分沒有責(zé)任心的標(biāo)注員會對數(shù)據(jù)胡亂標(biāo)注,得到的標(biāo)簽就是完全隨機的。該設(shè)定較為簡單,相應(yīng)的研究工作也比較徹底。
針對RCN,研究者主要關(guān)注常用損失函數(shù)的固有魯棒性,或如何設(shè)計新的RCN魯棒損失函數(shù)。在理論上,文獻[30]證明了0-1損失函數(shù)自身對RCN問題魯棒,而使用交叉熵?fù)p失函數(shù)(cross entropy loss)[31]和合頁損失函數(shù)(hinge loss)[32]得到的分類器將明顯受到標(biāo)簽噪聲的負(fù)面影響(見圖2)。此外,基于無偏估計的思想,Ghosh等人[31]提出損失函數(shù)對RCN問題魯棒的充分條件: 對稱條件(symmetric condition)。
基于此,為得到RCN問題下的魯棒分類器,一般建議在二分類問題下使用非合頁損失函數(shù)(unhinged loss)[33]、斜坡?lián)p失函數(shù)(ramp loss)[30]或S型損失函數(shù)(sigmoid loss)[30];在多分類問題下使用平均絕對誤差(mean absolute error)[31]作為損失函數(shù)。值得注意的是,對于C類分類問題,上文所述損失函數(shù)對RCN問題魯棒的充要條件是訓(xùn)練數(shù)據(jù)噪聲率小于1-1C。另外,從優(yōu)化的角度來講,上文所述的許多損失函數(shù)實際上難以訓(xùn)練 [34],例如,0-1損失函數(shù)和斜坡?lián)p失函數(shù)。
近期,Zhang等人[34]提出了截斷的Lq損失(Truncatedloss)。Lq損失函數(shù)可以看作平均絕對誤差和交叉熵?fù)p失的一般化,因此, 一定程度上同時繼承了平均絕對損失對RCN問題固有的魯棒性和交叉熵?fù)p失函數(shù)收斂速度快的特點。此外,該方法建議在訓(xùn)練過程中動態(tài)地剔除交叉熵?fù)p失值較大的樣本(即損失截斷),以此得到更加緊湊的收斂性上界保證。與其他RCN損失函數(shù)相比,該方法在理論層面上對數(shù)據(jù)噪聲的類型(即RCN和CCN)要求更松馳,可以容忍更嚴(yán)重的噪聲數(shù)據(jù)比例。然而,該方法估算誤差上界并不緊湊,且本身受噪聲數(shù)據(jù)比例和超參影響。
3.2 類相關(guān)標(biāo)簽噪聲(CCN)
CCN假設(shè)觀測的噪聲標(biāo)簽與潛在真實標(biāo)簽相關(guān),但與實例特征本身無關(guān)。相較于RCN問題,CCN的設(shè)定更符合真實數(shù)據(jù)集的情況。例如,對于圖片標(biāo)注任務(wù),由于主觀認(rèn)知上的偏差,一個真實標(biāo)簽為“狗”的圖片被誤標(biāo)為“貓”的概率會遠(yuǎn)遠(yuǎn)大于誤標(biāo)為“飛機”的概率。CCN問題的研究也較為徹底。研究者通常使用噪聲變換矩陣(noise transition matrix)來描述特定數(shù)據(jù)集或標(biāo)注任務(wù)下的標(biāo)簽噪聲性質(zhì)。該矩陣元素表示給定真實標(biāo)簽情況下特定噪聲標(biāo)簽出現(xiàn)的概率,即
式中: T為噪聲變換矩陣,下標(biāo)i, j分別為其第i行第j列的元素取值,通常假設(shè)Ti, i>Ti, j(i≠j,i, j)。
給定噪聲變換矩陣和噪聲訓(xùn)練樣本,研究者通常利用無偏估計策略來設(shè)計滿足風(fēng)險一致性(risk-consistent)條件的損失函數(shù)。針對標(biāo)簽噪聲問題,無偏估計策略研究在僅給定有標(biāo)簽噪聲的訓(xùn)練樣本條件下,如何估計其未知的無噪聲訓(xùn)練樣本在特定損失函數(shù)下風(fēng)險的期望(即無偏風(fēng)險)。通常來講,給定原損失函數(shù)l(s, y),希望設(shè)計新的損失函數(shù)l~(s, y)以滿足:
接著,可以通過最小化無偏風(fēng)險
來訓(xùn)練對噪聲魯棒的目標(biāo)分類器s(x)。該策略通常通過對原損失函數(shù)的重加權(quán)(reweighting)方法來實現(xiàn)。例如,文獻[35]提出在給定噪聲變換矩陣和噪聲數(shù)據(jù)分布條件下實例相關(guān)權(quán)重的計算方法;文獻[36]將該策略擴展到多分類問題下,然而需要使用目標(biāo)分類器預(yù)測概率(干凈數(shù)據(jù)分布)而非噪聲數(shù)據(jù)分布概率。為了避免對數(shù)據(jù)分布的依賴;文獻[33, 37]從噪聲生成正向/反向過程角度出發(fā)設(shè)計類相關(guān)的權(quán)重計算方法,并將方法應(yīng)用到深度神經(jīng)網(wǎng)絡(luò)框架。此外,與上述方法不同,文獻[38]提出了基于數(shù)據(jù)清洗的標(biāo)簽噪聲魯棒算法,證明了當(dāng)數(shù)據(jù)分布滿足特定條件下清洗后數(shù)據(jù)相應(yīng)風(fēng)險的無偏一致性質(zhì)。雖然無偏估計方法流程簡單,但是僅適用于較溫和的噪聲條件和較簡單的分類器模型。
此類方法估算誤差上界受到標(biāo)簽噪聲程度的嚴(yán)重影響: 標(biāo)簽噪聲越嚴(yán)重,估算誤差上界越大,甚至趨近于無窮。為此,研究者從分類器一致性(classifier-consistent)角度出發(fā)研究CCN問題下的標(biāo)簽噪聲魯棒方法,此類算法需滿足:
在標(biāo)簽噪聲問題下,研究者通常使用噪聲變換矩陣污染目標(biāo)分類器預(yù)測標(biāo)簽概率,再使用噪聲標(biāo)簽作為污染后預(yù)測標(biāo)簽概率的優(yōu)化目標(biāo)。該方法的一致性保證可以從概率論角度[39-40]和優(yōu)化角度[37]得以證明。與風(fēng)險一致性方法不同,分類器一致性方法的估算誤差上界與標(biāo)簽噪聲程度無關(guān)。不過從實驗結(jié)果來看,即使給出精確的噪聲變換矩陣,大噪聲數(shù)據(jù)訓(xùn)練得到的分類器精度仍然很低。
在實際應(yīng)用中,還需要估計噪聲變換矩陣中元素的值。例如,文獻[33]中將噪聲變換矩陣中元素作為超參,并使用交叉驗證進行估計;文獻[37, 41]對部分噪聲標(biāo)簽樣本重新標(biāo)注,并使用這些準(zhǔn)確標(biāo)注后的樣本估算噪聲變換矩陣。另外,文獻[35,37]在噪聲標(biāo)簽數(shù)據(jù)下訓(xùn)練的分類器尋找“錨點”,若實例為“錨點”,其滿足:
p(y=yi|x=xi)=1
給定類別為j的“錨點”(yi=j),則可以直接估計噪聲變換矩陣中第j列元素。雖然該方法省去了調(diào)參或數(shù)據(jù)標(biāo)注帶來的額外人力、物力成本,但是“錨點”并不總在數(shù)據(jù)集中存在。因此,文獻[38]首先利用噪聲數(shù)據(jù)訓(xùn)練分類器,該分類器預(yù)測概率的排序被用于估算噪聲變換矩陣。在數(shù)據(jù)滿足可分條件的前提下,可以證明其估算噪聲變換矩陣的一致性。此外,即使在溫和的標(biāo)簽噪聲條件下,估算噪聲變換矩陣中微小的誤差極有可能影響目標(biāo)魯棒分類器的性能[41]。因此,一些文獻[36, 40, 42-43]建議使用聯(lián)合優(yōu)化技術(shù)(joint optimization)、交替優(yōu)化方法(alternating optimization)或EM算法在訓(xùn)練目標(biāo)分類器的同時,估算噪聲變換矩陣中元素的值。然而這種思路通常沒有嚴(yán)格的理論保障,且依賴參數(shù)初始化或特殊的正則化項以避免平凡解的出現(xiàn)。
3.3 實例相關(guān)標(biāo)簽噪聲(IDN)
IDN假設(shè)噪聲標(biāo)簽與實例本身相關(guān)。這種一般化的標(biāo)簽噪聲問題通常難以建模,僅有的理論工作通常會對噪聲實例分布做出嚴(yán)格的限制。例如,文獻[44]假設(shè)任一實例標(biāo)簽錯誤的概率有統(tǒng)一的上界;文獻[45]假設(shè)離決策邊界(decision boundary)越近的實例越容易錯分。
這些假設(shè)限制了其實際工程中的應(yīng)用,因此,一些研究試圖在深度學(xué)習(xí)框架下設(shè)計啟發(fā)式算法來識別/修正潛在的錯誤標(biāo)簽。這些方法通常不對標(biāo)簽噪聲的生成過程做出假設(shè),然而通常會隱式地處理實例相關(guān)的標(biāo)簽噪聲。
一些文獻嘗試為每個訓(xùn)練樣本賦予一個權(quán)重,該權(quán)重在訓(xùn)練過程中反映了學(xué)習(xí)算法對相應(yīng)樣本的重視程度。通常來講,某一實例權(quán)重越大,該實例的標(biāo)簽正確的可能性越大。權(quán)重計算的方法可以基于額外的無偏干凈數(shù)據(jù)。例如,文獻[46]利用有準(zhǔn)確標(biāo)注的噪聲數(shù)據(jù)訓(xùn)練額外的網(wǎng)絡(luò)模塊,用于預(yù)測訓(xùn)練樣本標(biāo)簽正確的概率;文獻[47-48]在嵌入空間(embedding space)下計算有標(biāo)簽噪聲的訓(xùn)練數(shù)據(jù)和干凈數(shù)據(jù)間的歐式距離或余弦相似度,并賦予小距離/大相似度的實例更大的權(quán)重;文獻[49]利用隨機梯度下降(SGD)優(yōu)化算法給出分類器在噪聲數(shù)據(jù)下參數(shù)的更新方向,并根據(jù)更新后分類器在干凈數(shù)據(jù)下的表現(xiàn)對更新方向進行加權(quán)。
權(quán)重設(shè)計方法也可以不利用額外干凈數(shù)據(jù)。例如,文獻[50]使用基于密度的無監(jiān)督聚類算法來測量每個訓(xùn)練樣本的復(fù)雜度,然后對簡單樣本賦予較小的權(quán)重,對復(fù)雜樣本賦予較大的權(quán)重;文獻[46, 51]假設(shè)損失值較小的樣本標(biāo)簽更有可能是正確的,據(jù)此賦予損失值較小的樣本以較大的權(quán)重。
值得注意的是,上述加權(quán)方法可以看作是數(shù)據(jù)清洗方法[52-54]的一般化,因此,此類算法或多或少存在數(shù)據(jù)分布偏差(distribution bias)的問題。其一,某些樣本的標(biāo)簽本身正確,然而對于優(yōu)化器/分類器來講,難以訓(xùn)練的樣本(例如,處于數(shù)據(jù)分布的決策邊界附近)也可能被賦予較小權(quán)重甚至被直接刪除,顯然這會嚴(yán)重影響分類器的泛化能力。其二,即使權(quán)重的計算正確,在標(biāo)簽噪聲較為嚴(yán)重的情況下,大量的樣本在訓(xùn)練過程中幾乎不起作用(例如,錯誤標(biāo)簽樣本權(quán)重設(shè)為零)。
為此,許多方法嘗試是否可以直接預(yù)測真實標(biāo)簽,其通常利用深度神經(jīng)網(wǎng)絡(luò)的泛化/記憶性質(zhì)。例如,文獻[24]指出,深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程前期主要嘗試學(xué)習(xí)抽象的/一般化的概念,而在訓(xùn)練過程后期會嘗試記住每一個訓(xùn)練樣本的輸出結(jié)果;文獻[25]的實驗結(jié)果表明,在學(xué)習(xí)率足夠大時,深度神經(jīng)網(wǎng)絡(luò)對標(biāo)簽噪聲有一定的抵抗能力。
據(jù)此,針對每個訓(xùn)練樣本,文獻[55]融合分類器的預(yù)測標(biāo)簽和原始噪聲標(biāo)簽作為優(yōu)化目標(biāo);文獻[56]在緩存訓(xùn)練過程中對于每個訓(xùn)練樣本分類器預(yù)測標(biāo)簽,并且使用超參從預(yù)測標(biāo)簽均值中學(xué)習(xí)和從原始噪聲標(biāo)簽中學(xué)習(xí)進行權(quán)衡;文獻[57]將真實標(biāo)簽看成隨機變量,在模型訓(xùn)練過程中進行優(yōu)化,并且作為優(yōu)化目標(biāo)。另一些方法嘗試?yán)妙~外的干凈數(shù)據(jù)對噪聲標(biāo)簽進行修正。例如,文獻[58]在小規(guī)模干凈數(shù)據(jù)下訓(xùn)練額外的分類器模型,該分類器的預(yù)測標(biāo)簽和原始噪聲標(biāo)簽融合用于大規(guī)模噪聲數(shù)據(jù)下對噪聲標(biāo)簽的修正;文獻[59]假設(shè)預(yù)先可以得到部分有重新標(biāo)注的噪聲樣本,并且利用額外的殘差網(wǎng)絡(luò)模塊學(xué)習(xí)噪聲標(biāo)簽到干凈標(biāo)簽的映射。與上述方法不同,文獻[60]針對具體任務(wù)引入業(yè)務(wù)相關(guān)的先驗知識對噪聲標(biāo)簽進行修正。
此類方法可以避免加權(quán)方法中數(shù)據(jù)分布偏差的問題。然而對于原本正確的標(biāo)簽,上述方法仍然會對其標(biāo)簽進行修正。這會導(dǎo)致原本正確的標(biāo)簽質(zhì)量有所下降,進而影響最終分類器的性能。為此,一些方法嘗試從圖論的角度出發(fā),通過探索拉普拉斯矩陣所表示的實例間鄰接關(guān)系來設(shè)計標(biāo)簽噪聲的清洗方法[41]或修正策略[61]。
3.4 小結(jié)
本節(jié)從標(biāo)簽噪聲的生成過程出發(fā),分別討論了隨機標(biāo)簽噪聲(RCN)、類相關(guān)標(biāo)簽噪聲(CCN)以及實例相關(guān)標(biāo)簽噪聲(IDN),對每類標(biāo)簽噪聲解決方案做了詳細(xì)闡述并分析了其優(yōu)缺點。具體來說,對于RCN,關(guān)注點在于分析RCN損失函數(shù)的固有魯棒性;對于CCN,關(guān)注點在于設(shè)計無偏估計策略進而對損失函數(shù)重加權(quán),其中一個比較重要的參數(shù)是噪聲轉(zhuǎn)換矩陣,該參數(shù)可以通過交叉驗證、數(shù)據(jù)重標(biāo)注等一系列方法進行估計;對于IDN,關(guān)注點在于對每個訓(xùn)練樣本加權(quán),從而反映學(xué)習(xí)算法對不同樣本的重視程度。此外,還有一些方法借助小規(guī)模干凈數(shù)據(jù)輔助模型訓(xùn)練,或是采用圖論的方法進行數(shù)據(jù)清洗等。圖3詳細(xì)展示了本節(jié)所討論的標(biāo)簽噪聲前沿方法。
4 發(fā)展趨勢與展望
4.1 發(fā)展趨勢
關(guān)于標(biāo)簽噪聲學(xué)習(xí)的發(fā)展趨勢,本文對近五年(2015-2019年)發(fā)表在人工智能與機器學(xué)習(xí)相關(guān)的頂級會議(NeurIPS,ICML,AAAI,IJCAI,CVPR)上的論文進行調(diào)研,統(tǒng)計分析了研究標(biāo)簽噪聲的相關(guān)論文,統(tǒng)計結(jié)果如表1所示。
近5年來,共有182篇關(guān)于標(biāo)簽噪聲學(xué)習(xí)的論文發(fā)表在上述關(guān)于機器學(xué)習(xí)的頂級國際會議中,統(tǒng)計調(diào)查后發(fā)現(xiàn):
(1) 總體而言,標(biāo)簽噪聲學(xué)習(xí)是當(dāng)前機器學(xué)習(xí)以及人工智能領(lǐng)域的一個研究熱點。關(guān)于標(biāo)簽噪聲學(xué)習(xí)的論文在2015-2017年每個學(xué)術(shù)會議僅有屈指可數(shù)的幾篇,在2018年有38篇,但在2019年卻翻倍增長到了75篇。
(2) 關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究呈現(xiàn)出快速增長趨勢,且增長速度越來越快。2015-2017年僅有少量的關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究,但隨后每年以相對于上一年成倍的速度增長。2019年關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究已經(jīng)達到了75篇??梢灶A(yù)測,隨后幾年關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究會越來越多。
(3) 上述在人工智能頂級會議各大機器學(xué)習(xí)的論文中,既包含了理論又包含了應(yīng)用,每年關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究論文在理論和應(yīng)用上分布都比較均勻,體現(xiàn)了標(biāo)簽噪聲學(xué)習(xí)的理論研究價值和實際應(yīng)用價值,進而從側(cè)面體現(xiàn)了標(biāo)簽噪聲學(xué)習(xí)的重要性。
4.2 展望
監(jiān)督學(xué)習(xí)算法在工程領(lǐng)域和理論層面都取得了豐碩的成果。然而,此類算法需要強監(jiān)督信息的支持,例如,有高質(zhì)量標(biāo)簽的訓(xùn)練樣本。但是在實際工程應(yīng)用中,高質(zhì)量標(biāo)簽難以獲取或成本較高。
根據(jù)標(biāo)簽噪聲的生成方式,本文依次介紹了處理隨機標(biāo)簽噪聲、類相關(guān)標(biāo)簽噪聲、實例相關(guān)標(biāo)簽噪聲三種問題的前沿方法。雖然這些方法取得了一定的進展,但是仍存在許多問題。
(1) 本文介紹方法通常僅在標(biāo)簽噪聲程度較為溫和的條件下生效。當(dāng)標(biāo)簽錯誤數(shù)據(jù)規(guī)模接近或大于正確數(shù)據(jù)規(guī)模時,多數(shù)算法無法從訓(xùn)練樣本中學(xué)習(xí)正確的數(shù)據(jù)分布模式。此外,在理論層面下許多一致性方法在極端噪聲情形下泛化能力極差,甚至估算誤差上界可能趨近于無窮,然而在實際應(yīng)用中,極端標(biāo)簽噪聲經(jīng)常出現(xiàn)。因此,如何處理極端情形下的標(biāo)簽噪聲問題值得深入研究。
(2) 本文介紹的三種標(biāo)簽噪聲形式并不能包含真實數(shù)據(jù)下的所有可能情況。一方面,噪聲的來源可能不唯一,真實噪聲標(biāo)簽數(shù)據(jù)中的噪聲形式可能是隨機標(biāo)簽噪聲、類相關(guān)標(biāo)簽噪聲和實例相關(guān)標(biāo)簽的混合。另一方面,特別是基于網(wǎng)絡(luò)爬蟲等技術(shù)的標(biāo)簽生成方法存在開集問題。即部分訓(xùn)練樣本的真實標(biāo)簽不在給定標(biāo)簽空間內(nèi)。
(3) 本文介紹的標(biāo)簽噪聲處理方法通常隱式地假設(shè)分類器模型有一定識別噪聲數(shù)據(jù)的能力,然而當(dāng)分類器所在假設(shè)空間足夠大時,最優(yōu)分類器可能直接學(xué)習(xí)噪聲標(biāo)簽。例如,分類器/風(fēng)險一致性方法和重加權(quán)方法。一個十分有潛力的替代方法是對數(shù)據(jù)分布作出假設(shè),然而此類型的已有方法太過簡單且不具有一般性。如何對數(shù)據(jù)分布做出一般化假設(shè),并據(jù)此設(shè)計標(biāo)簽噪聲魯棒算法是值得深入思考的問題。
(4) 更多標(biāo)簽噪聲問題的應(yīng)用場景還有待探索。標(biāo)簽噪聲問題在實際應(yīng)用場景中廣泛存在,本文討論了許多處理標(biāo)簽噪聲的前沿算法,它們在醫(yī)療、交通、金融等領(lǐng)域中已經(jīng)取得了不錯的表現(xiàn)。接下來,探索和發(fā)揮標(biāo)簽噪聲魯棒算法在軍事、材料、航空航天等關(guān)鍵領(lǐng)域的作用是標(biāo)簽噪聲學(xué)習(xí)的一個重要研究方向。
參考文獻:
[1] Hickey R J. Noise Modelling and Evaluating Learning from Examples[J]. Artificial Intelligence, 1996, 82(1-2): 157-179.
[2] Quinlan J R. Induction of Decision Trees[J]. Machine Learning, 1986, 1(1): 81-106.
[3] Zhu X Q, Wu X D. Class Noise vs. Attribute Noise: A Quantitative Study[J]. Artificial Intelligence Review, 2004, 22(3): 177-210.
[4] Wu X D. Knowledge Acquisition from Databases[M]. United States: Greenwood Publishing Group Inc., 1995.
[5] Frénay B, Verleysen M. Classification in the Presence of Label Noise: A Survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 845-869.
[6] Frénay B, Kabán A. A Comprehensive Introduction to Label Noise[C]∥ European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning,Bruge, Belgium,2014.
[7] Brodley C E, Friedl M A. Identifying Mislabeled Training Data[J]. Journal of Artificial Intelligence Research, 1999, 11: 131-167.
[8] Brazdil P, Clark P. Learning from Imperfect Data[M]. Machine Learning, Meta-Reasoning and Logics, Boston: Springer, 1990: 207-232.
[9] Dawid A P, Skene A M. Maximum Likelihood Estimation of Observer Error-Rates Using the EM Algorithm[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28(1): 20-28.
[10] Smyth P, Fayyad U, Burl M, et al. Inferring Ground Truth from Subjective Labelling of Venus Images [C]∥ Proceedings of the 7th International Conference on Neural Information Processing Systems, 1994: 1085-1092.
[11] Malossini A, Blanzieri E, Ng R T. Detecting Potential Labeling Errors in Microarrays by Data Perturbation[J]. Bioinformatics, 2006, 22(17): 2114-2121.
[12] Kovashka A, Russakovsky O,F(xiàn)ei-Fei L, et al. Crowdsourcing in Computer Vision[J]. Foundations and Trends in Computer Graphics and Vision, 2016, 10(3): 177-243.
[13] Li W, Wang L M, Li W, et al. WebVision Database: Visual Learning and Understanding from Web Data[EB/OL]. (2017-08-09) [2020-01-15]. https:∥arxiv.xilesou.top/pdf/ 1708.02862.pdf.
[14] Kittur A, Chi E H, Suh B. Crowdsourcing User Studies with Mechanical Turk[C]∥ Proceedings of the SIGCHI Conference on Human Factors in Computing Systems,2008: 453-456.
[15] Xiao T, Xia T, Yang Y, et al. Learning from Massive Noisy Labeled Data for Image Classification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015: 2691-2699.
[16] Angluin D, Laird P. Learning from Noisy Examples[J]. Machine Learning, 1988, 2(4): 343-370.
[17] Northcutt C G, Jiang L, Chuang I L. Confident Learning: Estimating Uncertainty in Dataset Labels[EB/OL].(2019- 10-31)[2020-01-15]. https:∥arxiv.sou.top/pdf/1911.00068.pdf.
[18] Heskes T. The Use of Being Stubborn and Introspective[M].Studies in Cognitive Systems,Boston: Springer, 1994:1184-1200.
[19] Lachenbruch P A. Note on Initial Misclassification Effects on the Quadratic Discriminant Function[J]. Technometrics, 1979, 21(1): 129-132.
[20] Okamoto S, Nobuhiro Y. An Average-Case Analysis of the K-Nearest Neighbor Classifier for Noisy Domains[C]∥Proceedings of 15th International Joint Conferences on Artificial Intelligence,1997: 238-245.
[21] Nettleton D F, Orriols-Puig A, Fornells A. A Study of the Effect of Different Types of Noise on the Precision of Supervised Learning Techniques[J]. Artificial Intelligence Review, 2010, 33(4): 275-306.
[22] Dietterich T G. An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization[J]. Machine Learning, 2000, 40(2): 139-157.
[23] Zhang C Y, Bengio S, Hardt M, et al. Understanding Deep Learning Requires Rethinking Generalization[C]∥ International Conference on Learning Representation (ICLR), Toulon, France, 2017.
[24] Arpit D, Jastrzebski S, Ballas N, et al. A Closer Look at Memorization in Deep Networks[C]∥Proceedings of the 34th International Conference on Machine Learning, 2017: 233-242.
[25] Krueger D, Ballas N, Jastrzebski S, et al. Deep Nets Dont Learn via Memorization[C]∥International Conference on Learning Representation(ICLR), Toulon, France, 2017.
[26] Aslam J A, Decatur S E. On the Sample Complexity of Noise-Tolerant Learning[J]. Information Processing Letters, 1996, 57(4): 189-195.
[27] Brodley C E, Friedl M A. Identifying Mislabeled Training Data[J]. Journal of Artificial Intelligence Research, 1999, 11: 131-167.
[28] Frénay B, Doquire G, Verleysen M. Feature Selection with Imprecise Labels: Estimating Mutual Information in the Presence of Label Noise[J]. Computational Statistics & Data Analysis, 2014, 71: 832-848.
[29] Shanab A A, Khoshgoftaar T M, Wald R. Robustness of Thre-shold-Based Feature Rankers with Data Sampling on Noisy and Imbalanced Data[C]∥Proceedings of Twenty-Fifth International Florida Artificial Intelligence Research Society Conference, 2012.
[30] Ghosh A, Manwani N, Sastry P S. Making Risk Minimization To-lerant to Label Noise[J]. Neurocomputing, 2015, 160: 93-107.
[31] Ghosh A, Kumar H, Sastry P S. Robust Loss Functions under Label Noise for Deep Neural Networks[C]∥ Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence,2017.
[32] Manwani N, Sastry P S. Noise Tolerance under Risk Minimization[J]. IEEE Transactions on Cybernetics, 2013, 43(3): 1146-1151.
[33] Natarajan N, Dhillon I S, Ravikumar P K, et al. Learning with Noisy Labels[C]∥ Proceedings of the International Conference on Neural Information Processing Systems(NIPS), 2013: 1196-1204.
[34] Zhang Z L, Sabuncu M. Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels[C]∥ Proceedings of theInternational Conference on Neural Information Processing Systems(NIPS),2018: 8778-8788.
[35] Liu T L, Tao D C. Classification with Noisy Labels by Importance Reweighting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(3): 447-461.
[36] Xia X B, Liu T L, Wang N N, et al. Are Anchor Points Really Indispensable in Label-Noise Learning? [C]∥ Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2019.
[37] Patrini G, Rozza A, Krishna Menon A, et al. Making Deep Neural Networks Robust to Label Noise: A Loss Correction Approach[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1944-1952.
[38] Northcutt C G, Wu T L, Chuang I L. Learning with Confident Examples: Rank Pruning for Robust Classification with Noisy Labels[EB/OL]. (2017-08-09)[2020-01-15]. https:∥arxiv.xilesou.top/pdf/1705.01936.pdf.
[39] Yu X Y, Liu T L, Gong M M, et al. Learning with Biased Complementary Labels[C]∥Proceedings of the European Conference on Computer Vision (ECCV), 2018: 68-83.
[40] Goldberger J, Ben-Reuven E. Training Deep Neural- Networks Using a Noise Adaptation Layer[C]∥International Conference on Learning Representation (ICLR), Toulon, France, 2017.
[41] Wei Y, Gong C, Chen S, et al. Harnessing Side Information for Classification under Label Noise[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019.
[42] Jindal I, Nokleby M, Chen X. Learning Deep Networks from Noisy Labels with Dropout Regularization[C]∥ IEEE International Conference on Data Mining (ICDM), Barcelona, Spain,2016: 967-972.
[43] Khetan A, Lipton Z C, Anandkumar A. Learning from Noisy Singly-Labeled Data[EB/OL]. (2017-12-13)[2020- 01-15]. https:∥arxiv.xilesou.top/pdf/1712.04577.pdf.
[44] Cheng J C, Liu T L, Ramamohanarao K, et al. Learning with Bounded Instance-and Label-Dependent Label Noise [EB/OL]. (2017-09-12) [2020-01-15]. https:∥arxiv.xilesou. top/ pdf/ 1709.03768.pdf.
[45] Menon A K, Van Rooyen B, Natarajan N. Learning from Binary Labels with Instance-Dependent Corruption [EB/OL]. (2016-05-04) [2020-01-15]. https:∥arxiv.org/pdf/1605.00751.pdf.
[46] Jiang L, Zhou Z Y, Leung T, et al. MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels[C]∥International Conference on Machine Learning(ICML), Stockholm, Sweden, 2018.
[47] Lee K H, He X D, Zhang L, et al. CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 5447-5456.
[48] Wang Y S, Liu W Y, Ma X J, et al. Iterative Learning with Open-Set Noisy Labels[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 8688- 8696.
[49] Ren M Y, Zeng W Y, Yang B, et al. Learning to Reweight Examples for Robust Deep Learning [EB/OL]. (2018-06-08) [2020-01-15]. https:∥arxiv.xilesou.top/pdf/1803.09050.pdf.
[50] Guo S, Huang W L, Zhang H Z, et al. Curriculumnet: Weakly Supervised Learning from Large-Scale Web Images[C]∥Proceedings of the European Conference on Computer Vision (ECCV), 2018: 135-150.
[51] Han B, Yao Q M, Yu X R, et al. Co-Teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels[C]∥ Conference on Neural Information Processing Systems(NIPS), Montreal ,Canada,2018: 8527-8537.
[52] Angelova A, Abu-Mostafam Y, Perona P. Pruning Training Sets for Learning of Object Categories[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2005: 494-501.
[53] Sun J W, Zhao F Y, Wang C J, et al. Identifying and Correcting Mislabeled Training Instances[C]∥Future Generation Communication and Networking (FGCN), Jeju-Island, Korea, 2007: 244-250.
[54] Zhu X Q, Wu X D, Chen Q J. Eliminating Class Noise in Large Datasets[C]∥Proceedings of the International Conference on Machine Learning (ICML), 2003: 920-927.
[55] Reed S, Lee H, Anguelov D, et al. Training Deep Neural Networks on Noisy Labels with Bootstrapping [EB/OL]. (2014-12-20) [2020-01-15]. https:∥arxiv.xilesou.top/pdf/ 1412.6596.pdf.
[56] Tanaka D, Ikami D, Yamasaki T, et al. Joint Optimization Framework for Learning with Noisy Labels[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 5552-5560.
[57] Yi K, Wu J X. Probabilistic End-to-End Noise Correction for Learning with Noisy Labels[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2019.
[58] Li Y C, Yang J C, Song Y L, et al. Learning from Noisy Labels with Distillation[C]∥Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2017: 1910-1918.
[59] Veit A, Alldrin N, Chechik G, et al. Learning from Noisy Large-Scale Datasets with Minimal Supervision[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017: 839-847.
[60] Gao B B, Xing C, Xie C W, et al. Deep Label Distribution Learning with Label Ambiguity[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2825-2838.
[61] Gong C, Zhang H M, Yang J, et al. Learning with Inadequate and Incorrect Supervision[C]∥IEEE International Conference on Data Mining (ICDM), New Orleans, LA, USA, 2017: 889-894.
A Survey of Label Noise Robust Learning Algorithms
Gong Chen 1,2*,Zhang Chuang 1,2,Wang Qizhou 1,2
(1. Key Lab of Intelligent Perception and Systems for High-Dimensional Information of Ministry of Education, School of
Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China;
2. Jiangsu Key Lab of Image and Video Understanding for Social Security, School of Computer Science and
Engineering, Nanjing University of Science and Technology,Nanjing 210094,China)
Abstract:
In the field of machine learning, supervised learning algorithm has achineved fruitful results both in theory and engineering application.
However, such fully supervised learning algorithms are severely dependent on the label quality of the training sample, and reliably labeled data are often expensive and time consuming to obtain in real-world applications. Some surrogate approaches such as web crawler and crowd-sourcing methods, are widely used to collect training data. Unfortunately, there are usually lots of misannotations (i.e. label noise) in the data obtained by these surrogate methods, which result in many potential negative consequences. Therefore, the research on label noise robust learning algorithm is of great significance in promoting the application of machine learning engineering and reducing the deployment cost of machine learning algorithm. In this paper, the latest research progress of label noise robust learning algorithm is comprehensively reviewed. The generation, influence and classification of label noise are summarized in detail. The processing methods of each kind of label noise are introduced, and the advantages and disadvantages of each kind of processing methods are analyzed.
Key words: artificial intelligence;machine learning;weakly supervised learning;label noise;deep learning;robust learning algorithm
收稿日期: 2020-01-15
基金項目:國家自然科學(xué)基金項目(61973162);江蘇省自然科學(xué)基金項目(BK20171430)
作者簡介: 宮辰(1988- ),男,教授,吳文俊人工智能優(yōu)秀青年獎獲得者, 研究方向是弱監(jiān)督機器學(xué)習(xí)。
E-mail: chen.gong@njust.edu.cn
引用格式: 宮辰,張闖,王啟舟.標(biāo)簽噪聲魯棒學(xué)習(xí)算法研究綜述[ J].
航空兵器,2020, 27( 3): 20-26.
Gong Chen, Zhang Chuang, Wang Qizhou. A Survey of Label Noise Robust Learning Algorithms[ J]. Aero Weaponry,2020, 27( 3): 20-26.( in Chinese)