• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于實例相關(guān)標簽噪聲的消除算法綜述

      2022-02-07 09:19:50蔡宇佳陳麗綿
      智能計算機與應(yīng)用 2022年12期
      關(guān)鍵詞:實例標簽損失

      蔡宇佳,陳 旋,覃 芹,陳麗綿,張 利,2

      (1 貴州大學 大數(shù)據(jù)與信息工程學院,貴陽 550025;2 貴州大學 省部共建公共大數(shù)據(jù)國家重點實驗室,貴陽 550025)

      0 引言

      目前,在機器學習領(lǐng)域,例如圖像分類等各種視覺問題在深度學習方面相繼涌現(xiàn)出一批科研成果,盡管計算機硬件系統(tǒng)在圖像處理等方面得到提升,網(wǎng)絡(luò)訓練方面的技術(shù)也在不斷取得突破,但要獲得良好的性能卻需要大量的數(shù)據(jù)作為支撐。隨著大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,各種分類系統(tǒng)也日趨成為研究熱點,這些系統(tǒng)也需要大量的標注數(shù)據(jù)才能得到充分的訓練,但標注過程困難、且昂貴。在一些分類模型中,若使用標注大量錯誤信息的數(shù)據(jù)集,則會導致其結(jié)果準確性并不高。而諸如眾包[1]等情況在現(xiàn)實世界中將會產(chǎn)生大量的標簽噪聲,盡管在數(shù)十年前就已開始對其進行研究[2-7],但迄今為止卻依然存在各種各樣的問題。

      在文獻[4-5]中,將標簽噪聲分成2 種類型:特征噪聲和標簽噪聲。其中,特征噪聲影響該特征的觀測值,標簽噪聲則改變分配給實例的觀測標簽。有研究表明[5],標簽噪聲比特征噪聲更為復(fù)雜。并且,標簽噪聲問題也是當前學界面臨的重大挑戰(zhàn),比如在醫(yī)療圖像領(lǐng)域中,幾乎通過醫(yī)學設(shè)備診斷測試出的數(shù)據(jù)都不是完全正確的[3-4];在射電天文圖像處理模型的訓練過程中[8-9],通常會依賴正確的標簽,從而對模型訓練帶來影響。在標簽噪聲分類問題中,基于實例相關(guān)的標簽噪聲更接近于真實世界的情況,因此基于實例相關(guān)的標簽噪聲學習算法的研究具有重要意義。

      現(xiàn)如今,基于實例標簽噪聲消除問題在深度學習領(lǐng)域已取得可觀研究進展,而現(xiàn)有的方法通常在許多實際應(yīng)用中存在不實用的先驗條件,如需要干凈標簽的鋪助設(shè)備[1]或大量的先驗信息[10],這些方法耗時、耗力,較為麻煩。一般情況下,使用顯式和隱式兩種處理方式對實例標簽噪聲結(jié)構(gòu)模型進行分類研究。在顯式處理方式中,主要有2 種經(jīng)典方法:基于標簽分布來監(jiān)督網(wǎng)絡(luò)學習方法[11-13]和通過處理小損失情況[14-17]。同樣,在隱式處理方式中也有2 種經(jīng)典方法:基于損失函數(shù)方法[18-19]和基于圖論的方法[20-21]。本文的工作則擬對實例標簽噪聲的消除算法展開研究綜述。

      研究中僅考慮實例相關(guān)標簽噪聲對目標分類器的影響,并對其進行綜述。針對實例相關(guān)標簽噪聲消除算法加以研究,通過顯式和隱式的方法進行分析和總結(jié),選取部分算法對其進行實驗對比,并做出展望。

      1 實例相關(guān)標簽噪聲的產(chǎn)生及影響

      在現(xiàn)實世界的圖像分類處理、目標識別等各類應(yīng)用中廣泛存在著基于實例相關(guān)的標簽噪聲。產(chǎn)生標簽噪聲的因素有很多,例如數(shù)據(jù)獲取過程中通信設(shè)備本身帶有錯誤標簽[22];成像本身質(zhì)量的變化也會導致標注錯誤[2];在射電天文領(lǐng)域,干涉儀等設(shè)備獲取天文信息數(shù)據(jù)時,傳輸過程中會不可避免地帶有嘈雜的便簽;在一些標注中,信息不足也會導致標注錯誤等[23]。

      近年來,基于實例相關(guān)標簽噪聲問題在深度學習領(lǐng)域引發(fā)了廣泛關(guān)注[24-27]。Heskes[24]、Lachenbruch[25]證明了分類器受標簽噪聲的影響。Arpit 等人[28]提出了深度模型的泛化用于處理標簽噪聲帶來的影響。Zhang 等人[29]能夠擬合隨機標簽。Angluin 等人[30]和Wu 等人[31]證明了標簽噪聲不僅降低了分類精度,且對算法模型產(chǎn)生誤導性。此外,F(xiàn)rénay 等人[32]、Shanab 等人[33]則指出標簽噪聲影響特征選擇及排序。

      Frénay 等人[32]提出了概率模型概念的方法去捕獲圖像,簡稱有向概率圖,把標簽噪聲、地面實況標簽和噪聲類型之間的關(guān)系有效聯(lián)系起來,將標簽噪聲分為隨機標簽噪聲(Random Classification label Noise,RCN)、類相關(guān)標簽噪聲(Class-Conditional label Noise,CCN)和實例相關(guān)標簽噪聲(Instance-Dependent label Noise,IDN),如圖1 所示。其中,x,y,y 分別為實例特征、真實標簽、相應(yīng)的標簽噪聲,e為隨機變量[34-35]。

      圖1 標簽噪聲類型圖Fig. 1 Label noise type diagram

      2 相關(guān)算法

      在實例標簽噪聲學習算法的國內(nèi)外的各項成果中,皆是對不同的分類情況進行研究[34-36]。在一些研究中,會根據(jù)實例數(shù)據(jù)去創(chuàng)建基礎(chǔ)模型,或基于實例數(shù)據(jù)制定相關(guān)決策,本文主要圍繞通過顯式處理和隱式處理對實例相關(guān)噪聲結(jié)構(gòu)進行分類探討,有關(guān)實例相關(guān)標簽噪聲處理算法如圖2 所示。

      圖2 實例相關(guān)標簽噪聲處理算法Fig. 2 Instance-related label noise processing algorithm

      2.1 顯式處理

      在實例相關(guān)標簽噪聲中,顯式處理通過對實例相關(guān)標簽噪聲進行建模,通常在學習的過程中,主模型對IDN 進行清理,從而消除訓練數(shù)據(jù)中錯誤的標簽。表1 展現(xiàn)了顯式處理算法所存在的一些缺陷。在顯式處理方式中,主要有2 種方法對實例標簽噪聲算法進行綜述,分別是:標簽概率分布的方法和處理小損失情況的方法。對此可做闡釋分述如下。

      表1 顯式處理算法的缺陷總結(jié)Tab.1 A summary of explicit processing algorithms defects

      2.1.1 標簽概率分布的方法

      文獻[11]提出了一種深度標簽分布學習方法(Deep Label Distribution Learning,DLDL),通過有效地利用了特征學習和分類器學習中的標簽?zāi):?,防止在訓練集很小的情況下產(chǎn)生過擬合,由于DLDL 的標簽分布較為穩(wěn)定,需要大量的先驗信息,導致無法更新的情況,且對不同的應(yīng)用場景設(shè)計不同,泛化性不強。文獻[12]提出網(wǎng)絡(luò)參數(shù)和標簽聯(lián)合優(yōu)化的框架,通過交替更新網(wǎng)絡(luò)參數(shù)和標簽來糾正訓練中的標簽,對網(wǎng)絡(luò)噪聲數(shù)據(jù)的訓練改寫損失值,通過修改損失函數(shù),對網(wǎng)絡(luò)進行更新。但在學習率較低時,得到的準確率不高。該損失函數(shù)可由如下公式進行描述:

      其中,Lc為分類損失,是損失函數(shù)L的主要組成部分;le為一個正則化項;lρ為另一個正則化項;α和β為超參數(shù)。

      文獻[13]提出一種端到端的框架(Probabilistic End-to-end Noise Correction for Learning with noisy labels,PENCIL),可以同時更新網(wǎng)絡(luò)參數(shù)和數(shù)據(jù)標簽,是DLDL 方法的變體。與文獻[12] 相似,PENCIL 同樣不需要清潔數(shù)據(jù)集或有關(guān)噪聲的先驗信息,直接利用反向傳播來概率地更新和校正圖像標簽,在訓練過程中,PENCIL 引入了損失函數(shù)(2),其中l(wèi)c沿用了KL-divergence 的形式,并將其改為對稱形式,取得不錯的性能。該函數(shù)的數(shù)學公式見如下:

      PENCIL 的框架雖然能獨立于任何模型進行訓練,但對非平衡樣本的處理較為困難,在實際情況中既存在噪聲數(shù)據(jù)、又存在不均衡類別的情況也十分常見。

      2.1.2 處理小損失情況的方法

      文獻[14]提出一種學習數(shù)據(jù)驅(qū)動課程的新方法(M-Net),利用小批量隨機梯度下降法進行深度網(wǎng)絡(luò)課程學習,通過學習另一個神經(jīng)網(wǎng)絡(luò)(Mentor Net)來監(jiān)督基礎(chǔ)深度網(wǎng)絡(luò)(Student Net)訓練的新技術(shù),用來解決過擬合的問題,但在訓練過程中容易積累錯誤信息。文獻[15] 提出了一種簡單有效的學習范式(Co-teaching),通過同時訓練2 個深度神經(jīng)網(wǎng)絡(luò),并令其在每一個小批中相互教學,則能很好地解決積累的錯誤信息。Co-teaching 通過在小批量數(shù)據(jù)中過濾噪聲樣本傳遞給對等網(wǎng)絡(luò)來更新參數(shù),訓練時間較長,可能會導致神經(jīng)網(wǎng)絡(luò)記憶泛化產(chǎn)生誤差,使得網(wǎng)絡(luò)之間達成收斂,就會得到較差的訓練結(jié)果。針對Co-teaching 的問題,文獻[16]對其進行了改進,提出了一種新策略來訓練網(wǎng)絡(luò)(Coteaching+),能夠使得神經(jīng)網(wǎng)絡(luò)抵御標簽噪聲的魯棒性,但該方法只適用于數(shù)據(jù)集噪聲率較低的情況,當噪聲率極高時會導致小批量訓練變得困難。而文獻[17]是在訓練之前通過利用GMM 模型將訓練數(shù)據(jù)分為有標簽數(shù)據(jù)和無標簽數(shù)據(jù),對其進行訓練,使2個網(wǎng)絡(luò)彼此互斥,即解決了Co-teaching 的共識問題,在噪聲率較高的情況下,訓練效果較好,但相較而言還是不夠理想。

      在每個小批量處理下的相應(yīng)網(wǎng)絡(luò)訓練結(jié)構(gòu)(MentorNet(M -Net )[14],Coteaching[15],Coteaching+[16]和Divide MIX[17])如圖3 所示。假設(shè)錯誤流來自訓練實例的偏選,網(wǎng)絡(luò)A和網(wǎng)絡(luò)B的錯誤流分別用黑色實線箭頭和虛線箭頭表示。左面板中,M-Net 只訓練一個網(wǎng)絡(luò)(A);中間偏左面板中,Coteaching 同時訓練2 個網(wǎng)絡(luò)(A和B);中間偏右面板中,Coteaching+訓練2 個網(wǎng)絡(luò)(A和B),當2 個網(wǎng)絡(luò)的預(yù)測不一致時(?。剑逻@2 個網(wǎng)絡(luò)的參數(shù);右面板中,Divide MIX 同時訓練2 個網(wǎng)絡(luò)(A和B),每個網(wǎng)絡(luò)使用從另一個網(wǎng)絡(luò)的數(shù)據(jù)集劃分,以半監(jiān)督的方式進行訓練。

      圖3 Mini-batch 相關(guān)網(wǎng)絡(luò)Fig. 3 Mini-batch related network

      2.2 隱式處理

      隱式處理方法利用更加通用的算法來消除噪聲的影響。該處理方法主要通過損失函數(shù)去處理標簽噪聲,使標簽噪聲訓練過程中有較好的魯棒性。由于IDN 建模困難,許多研究者們對其進行假設(shè),但在一些實際應(yīng)用中,假設(shè)的方法會產(chǎn)生許多限制。因此,一些研究者[18-21,37]提出了隱式地處理實例相關(guān)的標簽噪聲的方法,該方法不需要對標簽噪聲的生成過程做出假設(shè)。

      在實例相關(guān)標簽噪聲中,由于一些隱式的清潔處理方法會一起處理原有的干凈標簽,最終導致分類器性能變差,圖像質(zhì)量下降。為此,學者們提出從圖論方向出發(fā),通過探索矩陣所表示的實例相鄰關(guān)系來設(shè)計標簽噪聲的修正處理方法。Wei 等人[20]提出了一種通過邊緣信息的標簽噪聲處理方法(LNSI),將觀察到的標簽矩陣分解為2 部分。其中,一部分揭示真實的標簽,一部分采用行稀疏矩陣對不正確的標簽進行建模,這適用于二值分類,但需要很充分的先驗知識。在隱式處理方式中,同樣有2種方法對實例標簽噪聲算法進行綜述,分別是基于損失函數(shù)的方法和基于圖論的方法。對此可給出重點論述如下。

      2.2.1 基于損失函數(shù)的方法

      文獻[18]提出了一個理論上的噪聲魯棒損失函數(shù)集(GCE),一種基于理論和易于使用的噪聲魯棒損失函數(shù)類,可以很容易地應(yīng)用于任何現(xiàn)有的DNN 體系結(jié)構(gòu)和算法,同時在廣泛的標簽噪聲場景中產(chǎn)生良好的性能。但在噪聲率較高時,測試精度較低。

      文獻[19]提出了對稱交叉熵(Symmetric cross entropy Learning,SL)的方法,該方法是反向交叉熵(Reverse Cross Entropy,RCE)和交叉熵(Cross Entropy,CE)結(jié)合體,不僅充分利用了兩者的優(yōu)點,還彌補了彼此的不足,利用噪聲魯棒對應(yīng)的反向交叉熵(RCE)對稱增強CE,避免CE 存在標簽噪聲的欠學習和過度擬合問題,但在實際應(yīng)用中容易產(chǎn)生混淆。

      2.2.2 基于圖論的方法

      實際數(shù)據(jù)集往往包含各種人為因素或測量誤差引起的標簽噪聲,導致訓練過程中可能產(chǎn)生錯誤標注,從而誤導分類器的訓練,嚴重降低分類性能?,F(xiàn)有的隱式處理的方法中,通常是在經(jīng)驗風險最小化框架下通過各種替代損失函數(shù)去解決,但需要充分的先驗信息。

      文獻[20]提出一種新的半監(jiān)督學習范式、一種基于圖的SSL 算法,稱為不充分和不正確監(jiān)督下的半監(jiān)督學習(SIIS),通過一個圖來鏈接數(shù)據(jù)點,使標簽信息可以沿著圖的邊緣從缺乏標簽的實例傳播到?jīng)]有標簽的實例。SIIS 采用圖趨勢濾波(GTF)和平滑特征基追蹤(SEP)對初始的帶噪標簽進行過濾,可以同時處理標簽不足和標簽不準確的問題。適用于圖像、文本和音頻等實例,當有限標記實例被錯誤標記過多時,訓練時則稍顯困難。

      將實例特征視為邊信息,并將標簽噪聲去除問題定義為矩陣恢復(fù)問題,方法稱為通過側(cè)信息處理標簽噪聲。具體地,將觀察到的標簽矩陣分解2 兩部分之和。其中,第一部分揭示了真實的標簽,可以通過對邊信息進行低秩映射得到;第二部分采用行稀疏矩陣對不正確的標簽進行建模。分析可知,該方法的優(yōu)點體現(xiàn)在3 個方面:

      (1)該策略具有較強的恢復(fù)能力,并通過大量的邊信息使理論工作得到了充分的論證。

      (2)借助學習到的投影矩陣,可以直接處理多類情況。

      (3)模型設(shè)計只需要非常弱的假設(shè),使得LNSI適用于廣泛的實際問題。

      此外,本次研究從理論上推導了LNSI 的泛化界,并證明了LNSI 的期望分類誤差是上界的。在多種數(shù)據(jù)集(包括UCI 基準數(shù)據(jù)集和實際數(shù)據(jù)集)上的實驗結(jié)果證實了LNSI 在標簽噪聲處理方面的優(yōu)越性。

      文獻[21]提出一類損失函數(shù)的若干充分條件,使多類別分類問題在該損失函數(shù)下的風險最小化,能夠內(nèi)在地容忍標記噪聲(LNSI),該方法通過研究深度網(wǎng)絡(luò)中廣泛使用的損失函數(shù),證明其基于誤差的平均絕對值的損失函數(shù)對標記噪聲具有魯棒性,適用于任何多類分類器學習且風險最小化。但當數(shù)據(jù)集過于復(fù)雜會直接導致分類器的性能變差。表2即展示了隱式學習的去噪方法中存在的缺陷。

      表2 隱式處理算法缺陷總結(jié)Tab.2 Summary of implicit processing algorithms defects

      綜上所述,在實例相關(guān)標簽噪聲算法研究中,顯式和隱式方法對其處理都有各自的優(yōu)點。顯式處理會對噪聲本身進行建模,并在訓練過程中使用建模后的信息來獲得更好的性能;而隱式處理則通過圖論或魯棒性等方式對其進行研究。通過顯式和隱式處理方法可以看出,基于實例相關(guān)標簽噪聲算法的研究中還存在許多不足,在未來,對于大噪聲率的處理還需要做更進一步的探討研究。

      3 不同算法的對比實驗

      (1)數(shù)據(jù)集及參數(shù)設(shè)置。通過使用2 種基準數(shù)據(jù)集對實例相關(guān)標簽噪聲的算法進行對比驗證,文中使用CIFAR10 和CIFAR100,見表3。這些數(shù)據(jù)集在文獻中被廣泛用于標簽噪聲的評估。為了更好地分析和比較算法的性能,對于所有實驗,選取其動量為0.9,初始學習率為0.001,批處理大小為128,運行200epoch。由于所有數(shù)據(jù)集都是干凈的,所以本文通過手動標注錯誤標簽,噪聲率選為20%、50%和80%。

      表3 數(shù)據(jù)集參數(shù)Tab.3 Data set parameters

      (2)性能測試。多是使用2 種方式:測試精確度和標簽精確度。其中,測試精確度是正確預(yù)測數(shù)和測試數(shù)據(jù)集數(shù)之比,而標簽精確度則是干凈標簽數(shù)和所有選定標簽數(shù)之比。本文只使用測試精確度對所有算法進行測試,選取5 種算法進行實驗,并對比各類算法的最后50 個epoch的精確度,見表4。

      表4 中展示了CIFAR-10 和CIFAR-100 基線方法的實驗對比結(jié)果。在噪聲率為0.2、0.5 和0.8的情況下,驗證了每種方法的性能。其中,顯式方法有PENCIL、Divide MIX,隱式方法包含GCE、SL。即如在2 個數(shù)據(jù)集上看到的,所有方法都不適用于高噪聲的情況,總地來看,顯式方法中Divide MIX 方法相較于顯式方法中其他2 個方法的測試精度較高,在數(shù)據(jù)集CIFAR-10 噪聲率為20%上測試精度達到94.53%。在隱式方法中,SL 方法比GCE 方法較好,但在CIFAR-10 噪聲率為80%的訓練上失效,在CIFAR-100 噪聲率為80%上的測試精度較為理想。

      表4 基于實例相關(guān)標簽噪聲算法測試精度Tab.4 Test accuracy of the algorithm based on instance-related label noise %

      4 結(jié)束語

      本文主要討論基于實例相關(guān)標簽噪聲處理算法問題,通過顯式處理和隱式處理方法系統(tǒng)性分析可知,基于實例相關(guān)標簽噪聲問題更接近于實際應(yīng)用,但也存在一些不足?,F(xiàn)階段,基于實例相關(guān)標簽噪聲的消除算法都不適用于數(shù)據(jù)集噪聲率較大的情況,當噪聲率極大時可能會導致無法工作。盡管標簽噪聲接近實際問題的處理,但并不能泛化為實際數(shù)據(jù)的各類情況。雖然能夠處理錯誤的標簽,但一些相鄰的正確標簽也會一并加以處理,若想得到較為干凈的標簽,過度清潔還會使得分類器性能下降。

      標簽噪聲消除問題在大數(shù)據(jù)人工智能領(lǐng)域一直都是研究熱點,然而標簽噪聲消除研究旨在將其應(yīng)用于現(xiàn)實生活中,基于實例相關(guān)標簽噪聲消除問題的研究能夠很好地鏈接實際應(yīng)用,解決現(xiàn)實世界中存在的噪聲問題?,F(xiàn)階段,對于實例相關(guān)標簽噪聲消除的研究仍在繼續(xù),且具有廣泛性、實用性、可實現(xiàn)性等特點,未來有關(guān)基實例相關(guān)標簽噪聲的各類研究也會越來越多。

      猜你喜歡
      實例標簽損失
      少問一句,損失千金
      胖胖損失了多少元
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      標簽化傷害了誰
      一般自由碰撞的最大動能損失
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      完形填空Ⅱ
      完形填空Ⅰ
      明水县| 虎林市| 兰考县| 东安县| 西青区| 安陆市| 和田市| 泸州市| 惠安县| 萨嘎县| 满城县| 凤阳县| 廊坊市| 景德镇市| 渝中区| 开阳县| 河北省| 香河县| 兴城市| 新昌县| 阳西县| 文山县| 棋牌| 南开区| 收藏| 堆龙德庆县| 丰原市| 丰台区| 阳原县| 伊吾县| 纳雍县| 天门市| 南京市| 固安县| 乌兰察布市| 宽城| 咸阳市| 泰安市| 乌拉特中旗| 松原市| 油尖旺区|