姜高霞 王文劍,2
1(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 太原 030006)2 (計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué)) 太原 030006)
數(shù)據(jù)質(zhì)量是決定機(jī)器學(xué)習(xí)模型可靠性的關(guān)鍵因素之一,尤其在高風(fēng)險(xiǎn)智能應(yīng)用(如癌癥檢測(cè)、貸款分配等)中數(shù)據(jù)質(zhì)量至關(guān)重要.然而數(shù)據(jù)質(zhì)量在機(jī)器學(xué)習(xí)中起到的作用正在被低估,“每個(gè)人都想做模型工作,而不是數(shù)據(jù)工作”[1].監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中比較成熟的學(xué)習(xí)模式,在人臉表情識(shí)別、醫(yī)學(xué)診斷等領(lǐng)域不斷取得成功應(yīng)用,但都特別依賴以較高成本獲得的大規(guī)模、高質(zhì)量標(biāo)注數(shù)據(jù)[2-4].實(shí)際中的多數(shù)數(shù)據(jù),包括大量公開的標(biāo)準(zhǔn)數(shù)據(jù)集(如MNIST,CIFAR,ImageNet等),可能存在大量的標(biāo)簽噪聲,QuickDraw數(shù)據(jù)的標(biāo)簽錯(cuò)誤率甚至超過(guò)10%[5].諾貝爾獎(jiǎng)得主Kahneman認(rèn)為噪聲是影響人類判斷的黑洞,實(shí)際存在的噪聲遠(yuǎn)比人們預(yù)期的要多[6].加州大學(xué)的知名專業(yè)學(xué)者都將噪聲的干擾列為人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的重要挑戰(zhàn)之一[7].
監(jiān)督學(xué)習(xí)根據(jù)輸出數(shù)據(jù)類型分為分類和回歸任務(wù).標(biāo)簽噪聲在兩類任務(wù)中分別對(duì)應(yīng)了類別型標(biāo)簽噪聲(如將性別標(biāo)簽“男”誤標(biāo)為“女”)和數(shù)值型標(biāo)簽噪聲(如將年齡標(biāo)簽“3”誤標(biāo)為“20”).通常數(shù)值型標(biāo)簽噪聲問(wèn)題更為復(fù)雜也更難解決,主要原因是數(shù)值型噪聲取值范圍更廣、分布類型更復(fù)雜[8-10].實(shí)際中人們不知道一個(gè)數(shù)據(jù)集中是否有標(biāo)簽噪聲,即使有噪聲也不知道哪些樣本有噪聲、噪聲有多大、噪聲有多少、噪聲服從什么分布等.因此解決回歸任務(wù)中的數(shù)值型標(biāo)簽噪聲問(wèn)題是一項(xiàng)具有挑戰(zhàn)性的任務(wù).
對(duì)于標(biāo)簽噪聲問(wèn)題主要有2種解決思路:1)從算法層通過(guò)重構(gòu)損失函數(shù)、樣本加權(quán)或集成方式建立噪聲魯棒模型[11-13],這些模型并非對(duì)噪聲完全魯棒,還會(huì)在一定程度上受到噪聲干擾[14],在未知噪聲和強(qiáng)噪聲情況下這些模型表現(xiàn)不夠滿意[15];2)從數(shù)據(jù)層面實(shí)施噪聲過(guò)濾或糾正,也就是要將錯(cuò)誤標(biāo)簽數(shù)據(jù)去除或改正[16].相比于魯棒建模方法,噪聲過(guò)濾方法只需要給出樣本過(guò)濾結(jié)果,不需要對(duì)模型進(jìn)行任何改動(dòng),因此噪聲過(guò)濾的普適性更強(qiáng)、門檻更低.這類方法雖能降低數(shù)據(jù)噪聲水平,但無(wú)法保證模型泛化能力,而且難以適應(yīng)不同噪聲環(huán)境.
針對(duì)回歸任務(wù)中的數(shù)值型標(biāo)簽噪聲問(wèn)題,本文從泛化誤差界視角分析了數(shù)據(jù)因素(樣本量和噪聲水平)對(duì)模型泛化能力的影響,并據(jù)此構(gòu)建了樣本過(guò)濾框架和噪聲過(guò)濾算法.本文工作的主要貢獻(xiàn)包括4個(gè)方面:
1) 修正了標(biāo)簽噪聲環(huán)境下回歸模型的泛化誤差界,明確了影響模型泛化能力的關(guān)鍵因素,為提升模型泛化能力的樣本過(guò)濾算法提供了理論指導(dǎo).
2) 以降低泛化誤差界為目標(biāo),提出一種關(guān)于相對(duì)噪聲水平和相對(duì)樣本量的可解釋樣本過(guò)濾框架,它可以與一般噪聲估計(jì)方法結(jié)合,形成新的過(guò)濾算法.
3) 分析了噪聲與覆蓋區(qū)間中心和半徑的單調(diào)關(guān)系,據(jù)此提出一種相對(duì)噪聲估計(jì)方法,并與前面所提樣本過(guò)濾框架結(jié)合設(shè)計(jì)了相對(duì)噪聲過(guò)濾算法.
4) 在標(biāo)準(zhǔn)數(shù)據(jù)集和真實(shí)人臉年齡估計(jì)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提算法可以有效提升數(shù)據(jù)質(zhì)量和模型的泛化能力.
標(biāo)簽噪聲過(guò)濾通過(guò)去除噪聲樣本提升含標(biāo)記數(shù)據(jù)的質(zhì)量,進(jìn)而提高監(jiān)督學(xué)習(xí)模型的預(yù)測(cè)性能.
由于k近鄰模型對(duì)標(biāo)簽噪聲較為敏感,k近鄰模型常用于檢測(cè)和過(guò)濾標(biāo)簽噪聲.其主要思想是,如果一個(gè)樣本的標(biāo)簽與其多數(shù)近鄰的標(biāo)簽不一致,則認(rèn)為出現(xiàn)標(biāo)簽噪聲.典型算法有編輯近鄰(edited nearest neighbor, ENN)過(guò)濾器、全編輯近鄰(all edited nearest neighbor, ANN)過(guò)濾器[17]、近鄰感知(perception of nearest neighbor, PNN)過(guò)濾器[18].在回歸任務(wù)中,如果模型誤差超過(guò)一定閾值,則認(rèn)為出現(xiàn)數(shù)值型標(biāo)簽噪聲,這是一種面向回歸的編輯近鄰過(guò)濾算法(edited nearest neighbor for regression, RegENN)[9].
集成過(guò)濾方法利用多個(gè)分類模型產(chǎn)生樣本預(yù)測(cè)標(biāo)簽,如果多數(shù)預(yù)測(cè)標(biāo)簽與其實(shí)際標(biāo)簽不一致,則認(rèn)為標(biāo)簽存在錯(cuò)誤應(yīng)當(dāng)去除[19-20].這些基模型可以采用不同類模型(如多數(shù)投票過(guò)濾),也可能是經(jīng)不同子集訓(xùn)練過(guò)的同類模型(如迭代劃分過(guò)濾).
受到特征選擇的啟發(fā),文獻(xiàn)[21]提出一種基于互信息(mutual information, MI)的噪聲過(guò)濾算法.如果樣本去除其近鄰后特征與標(biāo)簽之間的互信息均發(fā)生明顯的變化(超過(guò)某個(gè)閾值),則認(rèn)為此樣本存在標(biāo)簽噪聲.
回歸任務(wù)的標(biāo)簽可以通過(guò)離散化的方式將其轉(zhuǎn)化為分類任務(wù),這樣就可以利用分類標(biāo)簽噪聲過(guò)濾算法來(lái)識(shí)別回歸中的數(shù)值型標(biāo)簽噪聲.離散編輯近鄰(edited nearest neighbor based on discretization, DiscENN)對(duì)數(shù)值型標(biāo)簽做離散化處理后采用近鄰過(guò)濾來(lái)識(shí)別噪聲[22].
多數(shù)噪聲過(guò)濾算法雖然能夠降低數(shù)據(jù)的噪聲水平,但無(wú)法保證提升模型預(yù)測(cè)性能.為此文獻(xiàn)[10]從泛化誤差界視角提出一種噪聲過(guò)濾的最優(yōu)樣本過(guò)濾框架和覆蓋距離過(guò)濾(covering distance filtering, CDF)算法.此框架為降低過(guò)濾后模型的泛化誤差界提供了理論保障,對(duì)指導(dǎo)噪聲過(guò)濾具有重要意義.
上述方法中,MI,RegENN,DiscENN,CDF是面向回歸任務(wù)的數(shù)值型標(biāo)簽噪聲過(guò)濾算法.部分算法的過(guò)濾效果比較依賴閾值,而閾值通常根據(jù)經(jīng)驗(yàn)指定,缺乏對(duì)噪聲數(shù)據(jù)的自適應(yīng)性.閾值設(shè)置不當(dāng)容易導(dǎo)致過(guò)度清洗,也就是去掉大量無(wú)噪樣本.雖然文獻(xiàn)[10]給出了過(guò)濾的理論依據(jù),但過(guò)濾目標(biāo)函數(shù)中包含參數(shù)較多且形式復(fù)雜,不利于直觀理解和實(shí)際應(yīng)用.在這些參數(shù)中,誤差界的置信度對(duì)結(jié)果影響不大,但增加了目標(biāo)函數(shù)復(fù)雜度;有些模型的VC維是無(wú)窮或不可計(jì)算,在實(shí)際應(yīng)用中需要根據(jù)經(jīng)驗(yàn)指定.
本節(jié)通過(guò)修正無(wú)噪條件下的學(xué)習(xí)理論得到含標(biāo)簽噪聲情況下的泛化誤差界,并據(jù)此提出含噪數(shù)據(jù)的過(guò)濾框架.
(1)
定義1.真實(shí)經(jīng)驗(yàn)誤差.回歸模型f(x)經(jīng)數(shù)據(jù)D訓(xùn)練后基于無(wú)噪標(biāo)簽的真實(shí)經(jīng)驗(yàn)誤差:
(2)
定義2.實(shí)際經(jīng)驗(yàn)誤差.模型在第i個(gè)樣本的實(shí)際誤差ri=f(xi)-yi,基于含噪標(biāo)簽的實(shí)際經(jīng)驗(yàn)誤差:
(3)
引理1[23-25].對(duì)于平方損失下的無(wú)噪回歸任務(wù),以下泛化誤差(上)界以1-δ概率成立:
R(f,D)≤Remp(f,D)×ε(D),
(4)
(5)
證明.含標(biāo)簽噪聲時(shí)的真實(shí)經(jīng)驗(yàn)誤差:
2Cov(ei,ri)+2ED(ei)ED(ri)=
(6)
其中模型誤差ri=f(xi)-yi,E(·)為期望函數(shù),Cov(ei,ri)表示噪聲ei與模型誤差ri的協(xié)方差.
ε(D)不受標(biāo)簽噪聲的影響.由引理1可得模型具有泛化誤差(上)界:
(7)
證畢.
本節(jié)利用定理1的結(jié)果確定影響泛化誤差界的關(guān)鍵因素,并據(jù)此來(lái)構(gòu)造合理的噪聲過(guò)濾目標(biāo)函數(shù).
噪聲過(guò)濾的目的是通過(guò)去除含噪樣本來(lái)提升數(shù)據(jù)質(zhì)量和模型泛化能力.將原始數(shù)據(jù)D經(jīng)過(guò)過(guò)濾后的數(shù)據(jù)記為D*.為使得回歸模型f(x)經(jīng)數(shù)據(jù)D*訓(xùn)練后的泛化性能最佳,根據(jù)定理1可得誤差界最低的目標(biāo):
(8)
其中Var(·)和ρ(·,·)分別表示方差和相關(guān)系數(shù).將協(xié)方差代入目標(biāo)函數(shù)可得:
(9)
(10)
式(10)利用相對(duì)樣本量和相對(duì)噪聲水平來(lái)獲得較低的泛化誤差界,因此只需給出每個(gè)樣本的噪聲相對(duì)估計(jì)值即可計(jì)算出目標(biāo)函數(shù)值.式(10)可以與任意的噪聲相對(duì)估計(jì)方法和絕對(duì)估計(jì)方法相結(jié)合,因此它是一種適用面較廣的噪聲過(guò)濾框架.相比于文獻(xiàn)[10]中的過(guò)濾框架,式(10)放棄了次要因素(誤差界的置信度和模型VC維),精簡(jiǎn)了目標(biāo)函數(shù),使其可解釋性更強(qiáng),且其中不需要預(yù)先指定任何參數(shù).
圖1給出了噪聲過(guò)濾框架的模擬結(jié)果.圖中橫坐標(biāo)表示去噪比例γ=1-n*/n,直線表示相對(duì)樣本量隨γ的變化趨勢(shì),曲線表示相對(duì)噪聲水平隨γ的變化趨勢(shì).其中樣本量設(shè)為1 000,噪聲比例為25%,噪聲服從正態(tài)分布N(0,0.52).由于實(shí)際中無(wú)法將所有噪聲準(zhǔn)確估計(jì)和排序,這里設(shè)定75%的噪聲能夠正確排序.按照噪聲先大后小的順序依次去除,重復(fù)200次后得到平均相對(duì)噪聲水平曲線.
Fig. 1 Simulation of noise filtering framework圖1 噪聲過(guò)濾框架模擬
總體上,隨著γ增大,過(guò)濾后數(shù)據(jù)集的相對(duì)樣本量變少,噪聲水平也變低,但噪聲水平的變化一般遵從先快后慢的規(guī)律.這是因?yàn)閯傞_始去除較大的噪聲,噪聲水平下降較快;后面噪聲較小后難以準(zhǔn)確去除明顯很大的噪聲,故噪聲水平下降緩慢;當(dāng)噪聲水平相差不大或噪聲估計(jì)難以區(qū)分低噪聲樣本時(shí),噪聲水平趨于穩(wěn)定.實(shí)際上,當(dāng)噪聲水平下降較慢時(shí)應(yīng)當(dāng)停止樣本去除,這個(gè)位置處于兩條線的最大間隔處,也就是使得式(10)達(dá)到最優(yōu)的過(guò)濾結(jié)果.圖1中約為γ=0.16,即應(yīng)當(dāng)去除16%的具有較大噪聲的樣本.
本節(jié)提出一種相對(duì)噪聲估計(jì)方法,結(jié)合所提過(guò)濾框架得出新的過(guò)濾算法.
真實(shí)標(biāo)簽有一定概率落入模型預(yù)測(cè)值之間.令:
(11)
則其覆蓋概率:
(12)
(13)
顯然J越大,覆蓋概率越大.但過(guò)大的J值可能使得訓(xùn)練子集規(guī)模過(guò)小,模型預(yù)測(cè)誤差過(guò)大.實(shí)際中取J=5以平衡訓(xùn)練數(shù)據(jù)規(guī)模和覆蓋概率,此時(shí)覆蓋概率pC=0.937 5.
(14)
其中區(qū)間半徑s=(v-u)/2,實(shí)際標(biāo)簽到區(qū)間中心的距離d=|yi-c|.
證明.期望絕對(duì)噪聲:
(15)
不妨設(shè)yi>c,則實(shí)際標(biāo)簽到區(qū)間中心的距離d=yi-c>0,
(16)
由奇偶函數(shù)積分的性質(zhì)可知:
(17)
(18)
因此有:
(19)
根據(jù)函數(shù)求導(dǎo)法則可得:
(20)
(21)
(22)
此時(shí)覆蓋概率
(23)
其中,Φ(·)表示標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù).
由J為正整數(shù)可知-Φ-1(2-J)>0,因此:
(24)
當(dāng)yi 證畢. 定義4.相對(duì)噪聲的定義為 (25) 其中,c和s分別為式(11)區(qū)間的中心和半徑,即c=(u+v)/2,s=(v-u)/2,實(shí)際標(biāo)簽到區(qū)間中心的距離d=|yi-c|. 式(25)中對(duì)s做開方處理是由于其影響比d弱.公式中考慮了噪聲與其關(guān)鍵因素的正反比關(guān)系,并未設(shè)定噪聲與d和s的比例常數(shù),因此是一種相對(duì)噪聲估計(jì)方法.直觀上,標(biāo)簽噪聲越大,則yi到區(qū)間中心的距離越遠(yuǎn)(d越大);噪聲越大,則分布的方差和區(qū)間半徑越大.總體上相對(duì)噪聲與d和s成正比. 通常大噪聲樣本應(yīng)當(dāng)先被去掉以獲得較低的噪聲水平.利用式(25)來(lái)估計(jì)所有標(biāo)簽噪聲,然后逐個(gè)去除剩余子集中的最大噪聲樣本,并計(jì)算式(10)中的目標(biāo)函數(shù)值.根據(jù)最大目標(biāo)函數(shù)值即可找到最佳過(guò)濾結(jié)果. 算法1.相對(duì)噪聲過(guò)濾(RNF)算法. 輸出:過(guò)濾后數(shù)據(jù)集D*. ① 將數(shù)據(jù)集D隨機(jī)劃分為5個(gè)子集,然后用每個(gè)子集數(shù)據(jù)對(duì)回歸模型f(x)進(jìn)行訓(xùn)練,并在全部數(shù)據(jù)上進(jìn)行預(yù)測(cè); ② 根據(jù)式(11)計(jì)算覆蓋區(qū)間[u,v],并用式(25)計(jì)算噪聲估計(jì)值; ③ 將數(shù)據(jù)按照噪聲從大到小順序排列得到D′; ④ fort=0 ton-1 ⑥ end for 算法1在有限集合中求解固定的優(yōu)化目標(biāo)函數(shù),因此一定存在最優(yōu)解.實(shí)際中采用3近鄰回歸作為基模型.算法1中模型訓(xùn)練和預(yù)測(cè)的時(shí)間復(fù)雜度為O(nlogn),其余部分均為線性時(shí)間復(fù)雜度,因此算法總時(shí)間復(fù)雜度為T(RNF)=O(nlogn).如果基模型采用其他模型,則算法總時(shí)間復(fù)雜度與基模型復(fù)雜度相同. 本節(jié)首先介紹了過(guò)濾算法在標(biāo)準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)框架、理論結(jié)果驗(yàn)證、實(shí)驗(yàn)結(jié)果與分析,然后在真實(shí)人臉年齡估計(jì)數(shù)據(jù)上做了標(biāo)簽噪聲檢測(cè)和泛化性能分析. 實(shí)驗(yàn)中首先將原始標(biāo)準(zhǔn)回歸數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集,兩者的樣本比例為7∶3;然后隨機(jī)在訓(xùn)練集的部分輸出標(biāo)簽上添加人工噪聲,并用各種噪聲過(guò)濾算法來(lái)識(shí)別噪聲和過(guò)濾樣本;最后將回歸模型在過(guò)濾后的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在測(cè)試集上測(cè)試其泛化能力.實(shí)驗(yàn)中每輪數(shù)據(jù)劃分、加噪聲、過(guò)濾和預(yù)測(cè)環(huán)節(jié)均重復(fù)5次以獲得穩(wěn)定結(jié)果. 表1列出了實(shí)驗(yàn)中使用的15個(gè)標(biāo)準(zhǔn)回歸數(shù)據(jù)集[26-27].數(shù)據(jù)的數(shù)值型特征均被歸一化到區(qū)間[-1,1]. Table 1 Dataset Information表1 數(shù)據(jù)集信息 實(shí)驗(yàn)中包括8種數(shù)值型標(biāo)簽噪聲,分別服從均勻分布U(-1,1)、均勻分布U(-1.5,1.5)、高斯分布N(μ=0,σ=1)、高斯分布N(μ=0,σ=1.5)、拉普拉斯分布Lp(μ=0,σ=1)、拉普拉斯分布Lp(μ=0,σ=1.5)、高斯混合分布N(μ=1,σ=0.3)+N(μ=-1,σ=0.3)、高斯混合分布N(μ=1,σ=0.1)+N(μ=-1.2,σ=0.5).最后2個(gè)混合分布中單個(gè)高斯分布噪聲各占50%.噪聲比例NR=0.1,0.2,0.3,0.4. 對(duì)比過(guò)濾算法包括基于互信息(MI,閾值為0.05,近鄰數(shù)為9)的過(guò)濾[21]、回歸近鄰過(guò)濾(RegENN,閾值為5,近鄰數(shù)為9)[9]、離散近鄰過(guò)濾(DiscENN,近鄰數(shù)為9)[22]、覆蓋距離過(guò)濾(CDF,子集數(shù)為5)[10].此外,所提相對(duì)噪聲過(guò)濾算法(RNF)還與未過(guò)濾(NoF)數(shù)據(jù)做了對(duì)比分析. 測(cè)試模型包括k近鄰回歸模型(kNN)、支持向量回歸模型(SVR)、高斯過(guò)程回歸(GPR)和隨機(jī)森林(RF).模型在測(cè)試集上的泛化能力采用均方誤差(mean square error,MSE)來(lái)度量: (26) 圖1噪聲過(guò)濾框架模擬結(jié)果顯示,當(dāng)相對(duì)樣本量和相對(duì)噪聲水平具有最大間隔時(shí),式(10)取得最優(yōu)解,此時(shí)的去噪比例較為合適,能夠使模型獲得較好的泛化能力.為驗(yàn)證此結(jié)論,在2個(gè)數(shù)據(jù)集上人工添加2類噪聲,并在不同去噪比例下測(cè)試了模型的預(yù)測(cè)誤差.具體設(shè)置為:1)對(duì)表1中第7個(gè)數(shù)據(jù)訓(xùn)練集30%的標(biāo)簽添加服從均勻分布U(-1.5,1.5)的噪聲;2)對(duì)表1中第9個(gè)數(shù)據(jù)訓(xùn)練集30%的標(biāo)簽添加服從高斯分布N(μ=0,σ=1)的噪聲.2種情況下均設(shè)置去噪比例γ=0∶0.02∶0.5對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,然后使用SVR,GPR和RF模型進(jìn)行訓(xùn)練(kNN的測(cè)試誤差較大),并在無(wú)噪測(cè)試集上測(cè)試模型誤差. 圖2顯示了2種設(shè)置下模型測(cè)試誤差(MSE)在不同去噪比例下的變化趨勢(shì).各模型最低測(cè)試誤差采用實(shí)心圓點(diǎn)標(biāo)出.目標(biāo)函數(shù)曲線對(duì)應(yīng)右側(cè)坐標(biāo)軸,在目標(biāo)函數(shù)最大值(即相對(duì)樣本量與相對(duì)噪聲水平的最大間隔)處用豎虛線標(biāo)出.圖2(a)中,GPR模型在目標(biāo)函數(shù)最大值處具有最小測(cè)試誤差,其余2個(gè)模型在目標(biāo)函數(shù)最大值處的誤差非常接近最小測(cè)試誤差.圖2(b)中,3個(gè)模型在目標(biāo)函數(shù)最大值附近具有最小測(cè)試誤差.由此可見,模型最小測(cè)試誤差下的去噪比例通常位于目標(biāo)函數(shù)最大值附近.根據(jù)目標(biāo)函數(shù)最大值來(lái)確定去噪比例,能夠使模型獲得最低或較低的測(cè)試誤差,實(shí)驗(yàn)證實(shí)了所提框架的有效性. Fig. 2 Model test errors under different denoising ratios圖2 不同去噪比例下的模型測(cè)試誤差 定理2表明期望噪聲與d和s均成正比,其中覆蓋區(qū)間半徑s=(v-u)/2,實(shí)際標(biāo)簽到覆蓋區(qū)間中心的距離d=|yi-c|.為驗(yàn)證此結(jié)論,在表1所有數(shù)據(jù)上添加6種人工噪聲,并構(gòu)造覆蓋區(qū)間.根據(jù)絕對(duì)噪聲|ei|和區(qū)間特征s,d可以分別計(jì)算出它們的Pearson相關(guān)系數(shù)及其相關(guān)性檢驗(yàn)的p值.相關(guān)系數(shù)和p值在所有數(shù)據(jù)上的平均值在表2中列出,其中p值越小表明相關(guān)性越顯著. Table 2 Correlations Between Noise and the Characteristics of Covering Interval表2 噪聲與覆蓋區(qū)間特征的相關(guān)性 由表2可見,所有噪聲情況下2組相關(guān)性檢驗(yàn)的p值均<0.05且相關(guān)系數(shù)為正值,表明|ei|與s,d均顯著正相關(guān);|ei|與d的相關(guān)系數(shù)明顯大于|ei|與s的相關(guān)系數(shù),表明前者的相關(guān)性更強(qiáng);從噪聲分布來(lái)看,拉普拉斯分布噪聲所對(duì)應(yīng)的相關(guān)系數(shù)最大,均勻分布噪聲的相關(guān)系數(shù)較小.表2的實(shí)驗(yàn)結(jié)果表明定理2所表達(dá)的正反比關(guān)系在實(shí)際中是成立的. 表3列出了不同噪聲比例下各數(shù)據(jù)集上不同過(guò)濾算法的測(cè)試誤差結(jié)果.通常噪聲比例越大,測(cè)試誤差也越大.當(dāng)噪聲水平較低(NR=0.1,0.2)時(shí),所提RNF過(guò)濾算法能夠使得模型的測(cè)試誤差最小,且有明顯優(yōu)勢(shì);當(dāng)噪聲水平較高(NR=0.3,0.4)時(shí),RNF算法在大多數(shù)數(shù)據(jù)上取得了最小測(cè)試誤差. Table 3 Average Test Error ±Standard Deviation of Four Models with Different Noise Ratios表3 不同噪聲比例下4種模型的平均測(cè)試誤差±標(biāo)準(zhǔn)差 續(xù)表3 圖3給出各模型測(cè)試誤差的臨界差異圖(critical difference, CD).CD圖不僅能給出不同算法的排名,還能顯示算法之間的差異是否顯著.圖3中算法排名越小表示算法對(duì)應(yīng)的測(cè)試誤差越小;算法平均排名之間的距離不超過(guò)CD值時(shí)使用橫線連接,表示算法之間差異不顯著.圖3中算法的平均排名是基于15個(gè)數(shù)據(jù)集和8種噪聲水平的模型測(cè)試誤差. Fig. 3 CD diagram of each regression model error圖3 各回歸模型誤差CD圖 由圖3可見,所提RNF算法在各個(gè)模型上都取得了最小測(cè)試誤差.在kNN模型中,RNF與CDF算法無(wú)顯著性差異;在其他模型中,RNF比其他算法均有顯著性優(yōu)勢(shì).已有過(guò)濾算法中,CDF表現(xiàn)最佳,RegENN,DiscENN和MI無(wú)明顯差異.所有過(guò)濾算法均比未過(guò)濾數(shù)據(jù)(NoF)效果更好,即過(guò)濾能夠提升模型泛化能力,所提RNF算法的提升效果最明顯. 表4列出了不同噪聲比例下各模型平均測(cè)試誤差.總體上噪聲比例越大,測(cè)試誤差也越大.所提RNF算法的測(cè)試誤差最小.同時(shí)注意到,當(dāng)噪聲比例較低時(shí),RNF的測(cè)試誤差明顯小于其他算法的誤差;當(dāng)噪聲比例較大(NR=0.4)時(shí),RNF的測(cè)試誤差略微優(yōu)于CDF算法.總之,在低噪聲比例情況下RNF的優(yōu)勢(shì)更加明顯. Table 4 Average Test Error of Each Model表4 各模型平均測(cè)試誤差 圖4顯示了各個(gè)過(guò)濾算法在5個(gè)不同數(shù)據(jù)規(guī)模上的過(guò)濾運(yùn)行時(shí)間.其中MI算法運(yùn)行時(shí)間最長(zhǎng);RegENN和DiscENN運(yùn)行時(shí)間略短;CDF和RNF的運(yùn)行時(shí)間最短,而且比其他算法快至少一個(gè)數(shù)量級(jí).在小規(guī)模數(shù)據(jù)上,RNF的效率比CDF略高,兩者一般相差不大. Fig. 4 Runtime of filtering algorithms圖4 過(guò)濾算法的運(yùn)行時(shí)間 人臉年齡估計(jì)是一個(gè)具有挑戰(zhàn)性的監(jiān)督學(xué)習(xí)問(wèn)題,ICCV和CVPR等計(jì)算機(jī)視覺頂會(huì)在競(jìng)賽任務(wù)中曾公開過(guò)人臉圖像和年齡標(biāo)注數(shù)據(jù)[28-29].每個(gè)圖像的年齡標(biāo)簽是多個(gè)標(biāo)記者所給年齡估計(jì)的均值,這些數(shù)據(jù)中存在部分標(biāo)記與人臉圖像不匹配的情況.通過(guò)RNF噪聲過(guò)濾可以找到這些標(biāo)簽噪聲數(shù)據(jù),進(jìn)而提升模型預(yù)測(cè)性能. 原始數(shù)據(jù)來(lái)自ICCV 2015和CVPR 2016[28-29],共有18 424張圖像和對(duì)應(yīng)年齡標(biāo)簽,其中2個(gè)數(shù)據(jù)子集中存在一些重復(fù)圖像,每個(gè)圖像通過(guò)左右翻轉(zhuǎn)做了增強(qiáng).圖像特征采用經(jīng)典的VGG16深度網(wǎng)絡(luò)提取特征.重復(fù)執(zhí)行5次RNF得到平均年齡標(biāo)簽噪聲估計(jì)結(jié)果,表5列出了平均相對(duì)噪聲排名前60的部分年齡標(biāo)簽噪聲,圖像按照相對(duì)噪聲從大到小排列.表5中部分圖像相同(如編號(hào)為4,7的圖像),但它們所屬子集不同,年齡標(biāo)簽也不同. Table 5 Age Label Noises Recognized by Relative Noise表5 根據(jù)相對(duì)噪聲識(shí)別的年齡標(biāo)簽噪聲 續(xù)表5 表5中既有年齡標(biāo)簽偏高的情況(如編號(hào)為1,5,8的圖像),也有年齡標(biāo)簽偏低的情況(如編號(hào)為4,6,18的圖像).在因特爾8核3.6 GHz處理器8 GB內(nèi)存的單機(jī)上進(jìn)行實(shí)驗(yàn),每輪RNF過(guò)濾的時(shí)間不超過(guò)10 s.可見RNF過(guò)濾算法能夠快速準(zhǔn)確地找到標(biāo)簽噪聲. 經(jīng)RNF過(guò)濾后的數(shù)據(jù)集大約包括86%的原始樣本,回歸模型在過(guò)濾后的數(shù)據(jù)集上訓(xùn)練后,在另一個(gè)wiki年齡數(shù)據(jù)[30]上進(jìn)行測(cè)試.表6中列出了誤差較小的k近鄰和隨機(jī)森林模型的測(cè)試結(jié)果.年齡測(cè)試誤差采用平均絕對(duì)誤差(mean absolute error,MAE)度量. Table 6 Comparison of Test Errors with Various Filters表6 各種過(guò)濾算法的測(cè)試誤差比較 表6中對(duì)比了2個(gè)模型經(jīng)未過(guò)濾原始數(shù)據(jù)(NoF)、CDF和RNF過(guò)濾數(shù)據(jù)訓(xùn)練后的測(cè)試誤差.對(duì)比的測(cè)試樣本集包括wiki全部有效年齡在0~80歲樣本集、不過(guò)濾情況下測(cè)試誤差大于5和10的樣本集.結(jié)果表明,與不過(guò)濾NoF原始數(shù)據(jù)相比,RNF在所有情況下都能夠降低模型測(cè)試誤差,在多數(shù)情況下能顯著降低測(cè)試誤差(t檢驗(yàn)的p<0.05).與CDF過(guò)濾算法相比,RNF在wiki全部樣本上與其無(wú)顯著差異,在大噪聲樣本MAE>10上有明顯優(yōu)勢(shì). 總體上,RNF過(guò)濾算法在人臉年齡數(shù)據(jù)上檢測(cè)出許多標(biāo)簽噪聲數(shù)據(jù),能夠有效提升數(shù)據(jù)質(zhì)量和模型預(yù)測(cè)性能. 數(shù)值型標(biāo)簽噪聲問(wèn)題給回歸任務(wù)帶來(lái)嚴(yán)峻挑戰(zhàn).噪聲過(guò)濾可以有效識(shí)別噪聲數(shù)據(jù),但缺乏模型泛化能力提升的理論保障,實(shí)際中還存在過(guò)度清洗、自適應(yīng)差、依賴參數(shù)設(shè)置等問(wèn)題.本文根據(jù)無(wú)噪回歸任務(wù)中的學(xué)習(xí)理論給出了面向數(shù)值型標(biāo)簽噪聲數(shù)據(jù)的泛化誤差界,從而明確了影響模型泛化能力的關(guān)鍵數(shù)據(jù)因素(數(shù)據(jù)量和噪聲水平).在此基礎(chǔ)上提出一種可解釋的噪聲過(guò)濾框架,其目標(biāo)是以較小的樣本去除代價(jià)最大程度地降低噪聲水平.此框架不僅適用于普通噪聲估計(jì)方法,也適用于相對(duì)噪聲估計(jì),只需知道噪聲之間的比值關(guān)系即可. 針對(duì)噪聲估計(jì)問(wèn)題,從理論上分析了噪聲與覆蓋區(qū)間關(guān)鍵指標(biāo)之間的變化趨勢(shì),進(jìn)而構(gòu)建了相對(duì)噪聲估計(jì)方法.此方法與所提框架結(jié)合形成了RNF過(guò)濾算法.在標(biāo)準(zhǔn)數(shù)據(jù)集和真實(shí)人臉年齡估計(jì)數(shù)據(jù)上均驗(yàn)證了算法的有效性.所提框架和相對(duì)噪聲估計(jì)方法均有理論支撐,可以確保算法取得良好的過(guò)濾效果.實(shí)驗(yàn)結(jié)果證實(shí)了RNF算法在不同噪聲分布、不同噪聲比例、不同數(shù)據(jù)集、不同回歸模型等復(fù)雜情況下具有較好的適應(yīng)性. 所提過(guò)濾框架可用于解決其他過(guò)濾算法的超參數(shù)優(yōu)化和適應(yīng)性問(wèn)題;所提噪聲估計(jì)和過(guò)濾算法為有序回歸或分類任務(wù)中的標(biāo)簽噪聲問(wèn)題提供了新思路.3.2 相對(duì)噪聲過(guò)濾
4 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)框架
4.2 理論結(jié)果驗(yàn)證
4.3 實(shí)驗(yàn)結(jié)果與分析
4.4 年齡標(biāo)簽噪聲過(guò)濾
5 結(jié) 論