孫 俏, 凌衛(wèi)新
(華南理工大學(xué)數(shù)學(xué)學(xué)院,廣州 510640)
遷移學(xué)習(xí)打破了傳統(tǒng)機(jī)器學(xué)習(xí)中訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)服從獨(dú)立同分布的這一基本假設(shè),允許訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)不同分布。同時(shí),遷移學(xué)習(xí)可以解決傳統(tǒng)機(jī)器學(xué)習(xí)中因數(shù)據(jù)缺乏標(biāo)注帶來的模型泛化能力不強(qiáng)的問題,它的引入使得機(jī)器學(xué)習(xí)算法具有更強(qiáng)的應(yīng)用價(jià)值。遷移學(xué)習(xí)的核心問題是如何確定源領(lǐng)域和目標(biāo)領(lǐng)域的相關(guān)性,以及如何把有用的知識(shí)從源領(lǐng)域遷移到目標(biāo)領(lǐng)域中去。源領(lǐng)域和目標(biāo)領(lǐng)域之間的相關(guān)性越高,數(shù)據(jù)分布差異程度越小,源領(lǐng)域中有用的遷移知識(shí)就越多,對(duì)目標(biāo)領(lǐng)域?qū)W習(xí)任務(wù)的幫助也就越大。如果源領(lǐng)域和目標(biāo)領(lǐng)域相關(guān)性很低卻仍舊強(qiáng)制遷移,那么,遷移后訓(xùn)練得到的學(xué)習(xí)器表現(xiàn)性能可能比未遷移的還要差,這種情況稱作“負(fù)遷移(negative transfer)”。故而,研究如何合理地度量源領(lǐng)域和目標(biāo)領(lǐng)域之間的相似度,依據(jù)相似度的大小選擇適合的源領(lǐng)域進(jìn)行知識(shí)遷移,對(duì)遷移學(xué)習(xí)的有效性是十分重要的。
自遷移學(xué)習(xí)的初步概念于1995年被提出[1]以來,遷移學(xué)習(xí)已經(jīng)有了20多年的發(fā)展歷史。目前對(duì)遷移學(xué)習(xí)的研究可以歸納為基于遷移知識(shí)如何進(jìn)行遷移[2-9]、如何避免負(fù)遷移[10-12]以及遷移學(xué)習(xí)的應(yīng)用[13-14]3個(gè)方面。
根據(jù)遷移方法的不同,可以將遷移學(xué)習(xí)分為實(shí)例遷移[1-4]、特征遷移[1, 5-7]和參數(shù)遷移[8-9]。實(shí)例遷移主要通過重采樣或者重賦權(quán)的方法提取源領(lǐng)域中對(duì)目標(biāo)領(lǐng)域?qū)W習(xí)任務(wù)有用的知識(shí)。經(jīng)典的實(shí)例遷移方法包括TrAdaBoost算法[2]、TrResampling算法[3]和核均值匹配方法[4]等。特征遷移企圖尋找源領(lǐng)域和目標(biāo)領(lǐng)域的共享特征表示,以減小源領(lǐng)域和目標(biāo)領(lǐng)域的分布差異,使用具有共享特征的源領(lǐng)域數(shù)據(jù)輔助目標(biāo)領(lǐng)域的模型訓(xùn)練。文獻(xiàn)[5]提出一種通過降維進(jìn)行遷移學(xué)習(xí)的MMDE算法,Pan等[6]提出TCA算法,將原始特征映射到RKHS空間學(xué)習(xí)遷移知識(shí)。參數(shù)遷移把已有的模型參數(shù)遷移到目標(biāo)任務(wù)的模型訓(xùn)練中,認(rèn)為相關(guān)領(lǐng)域模型的參數(shù)相近。TL-SVM算法[8]把源領(lǐng)域SVM分類器參數(shù)值以正則項(xiàng)的形式增加到目標(biāo)領(lǐng)域SVM目標(biāo)函數(shù)中,以實(shí)現(xiàn)知識(shí)遷移。Chen等[9]提出一種基于投影模型的極限學(xué)習(xí)機(jī)參數(shù)遷移。
為了避免負(fù)遷移,Yao等[10]提出一種多源實(shí)例遷移算法MultiTrAdaBoost,卞則康等[11]提出一種基于相似度學(xué)習(xí)的多源參數(shù)遷移算法SL-MSTL,周國(guó)華等[12]對(duì)文獻(xiàn)[8]中的TL-SVM算法進(jìn)行改進(jìn),提出SATL-SVM算法,通過增加約束,理論上可以避免TL-SVM算法可能出現(xiàn)的負(fù)遷移問題。
目前的遷移學(xué)習(xí)研究基本建立在源領(lǐng)域和目標(biāo)領(lǐng)域的相似度較高的全局約束下,對(duì)如何選擇合適的源領(lǐng)域缺乏研究。針對(duì)這一問題,研究在進(jìn)行遷移學(xué)習(xí)之前,如何選擇合適的源領(lǐng)域用于目標(biāo)領(lǐng)域的學(xué)習(xí),以避免為獲得最大性能提升需要多次遷移學(xué)習(xí)嘗試,提升遷移學(xué)習(xí)效率,減小“負(fù)遷移”現(xiàn)象發(fā)生的概率。
研究在進(jìn)行遷移學(xué)習(xí)時(shí),如何自適應(yīng)地從候選源領(lǐng)域集合DS中選擇合適源領(lǐng)域,以避免不太理想的源領(lǐng)域,從而避免“負(fù)遷移”現(xiàn)象,提升遷移效率。
式(4)中:n=min(NT,NS(k))。距離方差越大,分布差異越大。
定義2[等級(jí)排序函數(shù)Rank(a,A)]:已知集合A,元素a∈A,函數(shù)Rank(a,A)將集合A中元素的值進(jìn)行升序(或降序)排序,并輸出排序后的集合中元素a所對(duì)應(yīng)的位置序數(shù),則稱Rank(a,A)為等級(jí)排序函數(shù),其中,進(jìn)行升序排序的稱為等級(jí)升序函數(shù),進(jìn)行降序的稱為等級(jí)降序函數(shù)。
式(6)中:Rank(·,·)為等級(jí)降序函數(shù)。域間相似度序數(shù)MMD_SR的取值范圍為[1,M],且為整數(shù)。當(dāng)MMD_SR取最小值1時(shí),表示其所對(duì)應(yīng)的候選源領(lǐng)域與目標(biāo)領(lǐng)域間的相似度最小,MMD_SR取最大值M時(shí),所對(duì)應(yīng)的候選源領(lǐng)域與目標(biāo)領(lǐng)域間的相似度最大??梢缘弥?MMD方差距離越小,域間相似度序數(shù)越大,表明域間相似度越大,即領(lǐng)域間分布差異越小。
基于域間相似度序數(shù)MMD-SR,提出一種遷移學(xué)習(xí)源域自適應(yīng)選擇策略(MMD-SR_SDSS方法),策略的主要思想為:確定源領(lǐng)域數(shù)目p(p≤M)后,計(jì)算目標(biāo)領(lǐng)域與候選源領(lǐng)域集合之間的相似度序數(shù),由于相似度序數(shù)越大,分布差異越小,所以選取前p大相似度序數(shù)所對(duì)應(yīng)的候選源領(lǐng)域作為用于遷移學(xué)習(xí)的源領(lǐng)域。MMD-SR_SDSS方法原理結(jié)構(gòu)框圖如圖1所示。算法具體步驟如下:
圖1 MMD-SR_SDSS算法流程框圖Fig.1 MMD-SR_SDSS algorithm flow chart
1972年,中國(guó)派代表團(tuán)出席了聯(lián)合國(guó)第一次人類環(huán)境會(huì)議。1973年,中國(guó)首次召開了全國(guó)環(huán)境保護(hù)會(huì)議,通過了“全面規(guī)劃、合理布局、綜合利用、化害為利、依靠群眾、大家動(dòng)手、保護(hù)環(huán)境、造福人民”的環(huán)境保護(hù)方針(即32字方針),會(huì)后迅即成立了國(guó)務(wù)院環(huán)境保護(hù)領(lǐng)導(dǎo)小組并設(shè)辦公室,敦促各地成立相應(yīng)的環(huán)保機(jī)構(gòu),開啟了以污染防治為主要目標(biāo)的當(dāng)代中國(guó)環(huán)保事業(yè)的歷史進(jìn)程。
步驟3根據(jù)式(6)計(jì)算域間相似度序數(shù)MMD_SR(DT,DS(k))。
為了驗(yàn)證本文所提方法的有效性和可行性,使用人工數(shù)據(jù)集、圖像數(shù)據(jù)集Caltech-Office和文本數(shù)據(jù)集20NewsGroups進(jìn)行實(shí)證分析。為了使數(shù)據(jù)集適用于本文設(shè)定的遷移學(xué)習(xí)場(chǎng)景,如特征空間相同、類別空間一致,對(duì)以上3種數(shù)據(jù)集進(jìn)行了以下處理。
3.1.1 人工數(shù)據(jù)集
人工生成一個(gè)包含250個(gè)實(shí)例的二維雙月形數(shù)據(jù)集作為目標(biāo)領(lǐng)域數(shù)據(jù)集,其中正、負(fù)實(shí)例各一半。在目標(biāo)領(lǐng)域數(shù)據(jù)的基礎(chǔ)上,分別運(yùn)用旋轉(zhuǎn)和平移兩種方法構(gòu)造具有不同分布差異的候選源領(lǐng)域數(shù)據(jù)集:①將目標(biāo)領(lǐng)域數(shù)據(jù)順時(shí)針旋轉(zhuǎn)不同的度數(shù)并加上高斯噪聲構(gòu)成不同的候選源領(lǐng)域數(shù)據(jù)集;②將目標(biāo)領(lǐng)域數(shù)據(jù)平移不同的坐標(biāo)單位并加上高斯噪聲構(gòu)成不同的候選源領(lǐng)域數(shù)據(jù)集。使用方法①得到的原始數(shù)據(jù)散點(diǎn)圖如圖2所示,圖2中圖例標(biāo)注為1代表正類,0代表負(fù)類。圖2(a)為目標(biāo)領(lǐng)域數(shù)據(jù)集,圖2(b)為順時(shí)針旋轉(zhuǎn)45°并伴有高斯噪聲的候選源領(lǐng)域數(shù)據(jù)集。人工數(shù)據(jù)集實(shí)驗(yàn)的詳細(xì)構(gòu)造參數(shù)如表1所示,其中實(shí)驗(yàn)組M2中的參數(shù)值(a,b)中的a和b分別表示目標(biāo)領(lǐng)域數(shù)據(jù)向X軸正方向和Y軸正方向平移的單位坐標(biāo)量。
圖2 雙月形人工數(shù)據(jù)集Fig.2 Double moon shaped toy dataset
表1 雙月形人工數(shù)據(jù)集實(shí)驗(yàn)設(shè)置Table 1 Experimental setup of double moon shaped toy dataset
3.1.2 圖像數(shù)據(jù)集
數(shù)據(jù)集Caltech-Office由數(shù)據(jù)集Caltech-256和Office-31中的10個(gè)公共類別標(biāo)簽的數(shù)據(jù)構(gòu)成,包含4個(gè)不同的領(lǐng)域:Caltech(C)、Amazon(A)、DSLR(D)和Webcam(W)。不同領(lǐng)域中的圖像在被拍攝過程中由于分辨率、光線、位置和背景等的不同導(dǎo)致分布差異。對(duì)圖像抽取SURF特征,并向量化為800維的直方圖特征。表2給出了該圖像數(shù)據(jù)集的描述。分別以C、A、D、W為目標(biāo)領(lǐng)域,其余3個(gè)領(lǐng)域?yàn)楹蜻x源領(lǐng)域,設(shè)置4組實(shí)驗(yàn),實(shí)驗(yàn)組分別記為C1、C2、C3和C4。
表2 Caltech-Office數(shù)據(jù)集說明Table 2 Description of Caltech-Office dataset
3.1.3 文本數(shù)據(jù)集
20NewsGroups數(shù)據(jù)集由約2 000個(gè)新聞文檔組成,選取該數(shù)據(jù)集中的兩個(gè)父類:comp和rec進(jìn)行實(shí)驗(yàn),每個(gè)父類下有4個(gè)子類,其中每個(gè)子類約有1 000個(gè)實(shí)例,對(duì)文本數(shù)據(jù)進(jìn)行特征提取得到23 453維的TF-IDF特征。將comp記為正類,rec記為負(fù)類,構(gòu)造成二分類問題,分別以子類comp.sys.mac.hardware (Ch)和rec.autos (Ra)作為目標(biāo)領(lǐng)域(記為Ch_Ra)的正類和負(fù)類,Cx_Rb、Cg_Rh、Cm_Rm作為候選源領(lǐng)域。實(shí)驗(yàn)組記為N1,數(shù)據(jù)集的具體構(gòu)造參數(shù)如表3所示。
表3 20NewsGroups數(shù)據(jù)集實(shí)驗(yàn)設(shè)置Table 3 Experimental setup of 20NewsGroups dataset
進(jìn)行如下實(shí)證分析實(shí)驗(yàn):①利用實(shí)驗(yàn)組M1和M2驗(yàn)證MMD方差距離在度量領(lǐng)域間分布差異的有效性;②域間相似度序數(shù)MMD_SR與遷移算法準(zhǔn)確率之間的相關(guān)性驗(yàn)證;③MMD-SR_SDSS方法在各經(jīng)典遷移學(xué)習(xí)算法(TrAdaBoost[2]、TCA[6]、BDA[7]、MultiTraAdaBoost[10]、SL-MSTL[11])源領(lǐng)域選擇上的有效性驗(yàn)證實(shí)驗(yàn)。遷移算法的基學(xué)習(xí)器均為1近鄰算法(記為1-NN)。
為了對(duì)算法的性能作出評(píng)估,以域間相似度序數(shù)和遷移算法分類準(zhǔn)確率等級(jí)之間的斯皮爾曼相關(guān)系數(shù)作為評(píng)價(jià)指標(biāo),斯皮爾曼等級(jí)相關(guān)系數(shù)用于估計(jì)兩個(gè)變量之間的相關(guān)性,其取值范圍為[-1,1],其值越大,說明變量間的相關(guān)性越高。目標(biāo)領(lǐng)域測(cè)試集的分類準(zhǔn)確率記為Acc,其表達(dá)式為
m=1,2,…,|Dt| (7)
式(7)中:Dt表示目標(biāo)領(lǐng)域測(cè)試集;f(·)表示分類預(yù)測(cè)函數(shù);ym表示x′m的真實(shí)標(biāo)注。
對(duì)遷移學(xué)習(xí)準(zhǔn)確率Acc使用定義2中的等級(jí)升序函數(shù)Rank(·,·)進(jìn)行分級(jí),得到的分類準(zhǔn)確率等級(jí)記為R_acc,域間相似度序數(shù)和遷移算法分類準(zhǔn)確率等級(jí)之間的斯皮爾曼相關(guān)系數(shù)記為ρ,其計(jì)算方法為
式(8)中:vi為成對(duì)變量MMD_SR和R_acc的等級(jí)差數(shù);M為候選源領(lǐng)域的數(shù)目。
所有實(shí)驗(yàn)均通過網(wǎng)格搜索方式確定最優(yōu)參數(shù),采用五折交叉驗(yàn)證,取運(yùn)行10次的實(shí)驗(yàn)結(jié)果均值作為分類準(zhǔn)確率。
實(shí)驗(yàn)環(huán)境:Inter Core i5-8250U 1.80 GHz CPU,8.0GB RAM,Windows10 64位操作系統(tǒng),Python3.6等。
表4 實(shí)驗(yàn)組M1下域間的MMD距離距離方差MMD方差距離及遷移準(zhǔn)確率AccTable 4 The value of MMD distance distance accuracy Acc under experimental group M1
表5 實(shí)驗(yàn)組M2下域間的MMD距離距離方差MMD方差距離及遷移準(zhǔn)確率AccTable 5 The value of MMD distance distance accuracy Acc under experimental group M2
表6 MMD_SR與遷移算法分類準(zhǔn)確率之間的相關(guān)性 Table 6 Correlation between MMD_SR and classification accuracy of transfer learning algorithm
圖3 MMD距離方差距離和域間相似度序數(shù)MMD_SR隨雙月形數(shù)據(jù)集分布差異的變化趨勢(shì)Fig.3 The trend of MMD distance MMD variance distance and domain similarity rank MMD_SR with different distribution in double moon shaped toy dataset
次實(shí)驗(yàn)遷移算法最高準(zhǔn)確率所對(duì)應(yīng)的候選源領(lǐng)域都是域間相似度序數(shù)最大的候選源領(lǐng)域。這也驗(yàn)證了當(dāng)ρ=1,即單源遷移時(shí),MMD-SR_SDSS方法的可行性。
在實(shí)驗(yàn)組N1的基礎(chǔ)上,對(duì)候選源領(lǐng)域進(jìn)行組合,使用多源遷移算法MultiTrAdaBoost和SL-MSTL進(jìn)行遷移,實(shí)驗(yàn)結(jié)果如表7所示。當(dāng)p=2時(shí),按照MMD-SR_SDSS方法,結(jié)合表6中實(shí)驗(yàn)組N1的MMD_SR排序結(jié)果,應(yīng)該優(yōu)先選擇Cx_Rb, Cm_Rm作為源領(lǐng)域,即實(shí)驗(yàn)組N2中的遷移組合。觀察表7可知,MultiTrAdaBoost在N2遷移準(zhǔn)確率最高,SL-MSTL 算法在實(shí)驗(yàn)組N2的遷移準(zhǔn)確率排第2,但是遷移效果十分接近最高準(zhǔn)確率。當(dāng)p=3時(shí),p=M,選擇全部候選源領(lǐng)域作為源領(lǐng)域。綜上可知,MMD-SR_SDSS方法在遷移學(xué)習(xí)過程中確定源領(lǐng)域是具有有效性的。
表7 p源遷移下不同源領(lǐng)域組合下的遷移準(zhǔn)確率Table 7 Accuracy of p-source transfer learning under different source domain combinations
遷移學(xué)習(xí)能有效解決目標(biāo)領(lǐng)域數(shù)據(jù)缺乏標(biāo)注的問題,極具應(yīng)用價(jià)值。在進(jìn)行遷移學(xué)習(xí)前,選擇合適的源領(lǐng)域用于目標(biāo)領(lǐng)域的學(xué)習(xí),能避免為獲得最大性能提升需要多次遷移學(xué)習(xí)嘗試,提升遷移學(xué)習(xí)效率,減小“負(fù)遷移”現(xiàn)象發(fā)生的概率。為此,定義了一種衡量各候選源領(lǐng)域和目標(biāo)領(lǐng)域相似度的度量方法:域間相似度序數(shù)MMD-SR。基于MMD-SR提出一種在候選源領(lǐng)域集合中自適應(yīng)選擇源域的策略MMD-SR_SDSS,對(duì)于p源遷移,該策略選取前p大的MMD_SR所對(duì)應(yīng)的候選源領(lǐng)域作為源領(lǐng)域。通過3.3節(jié)中在人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以看出,隨著分布差異的增加,遷移準(zhǔn)確率呈下降趨勢(shì)。域間相似度序數(shù)MMD_SR與遷移算法準(zhǔn)確率之間成正相關(guān)關(guān)系。MMD-SR_SDSS方法在遷移學(xué)習(xí)過程中確定源領(lǐng)域是具有可行性的。
本文的不足在于:度量候選源領(lǐng)域與目標(biāo)領(lǐng)域的相似度時(shí),使用領(lǐng)域中的全部數(shù)據(jù),而未對(duì)干擾信息進(jìn)行篩除。因此,如何對(duì)候選源領(lǐng)域中的干擾信息進(jìn)行篩除將是未來研究的重點(diǎn)之一。