張汗靈,湯隆慧,周 敏
(1.湖南大學信息科學與工程學院,湖南長沙 410082;2.國家安全生產(chǎn)監(jiān)督管理總局,北京 100713)
基于KMM匹配的參數(shù)遷移學習算法*
張汗靈1?,湯隆慧1,周 敏2
(1.湖南大學信息科學與工程學院,湖南長沙 410082;2.國家安全生產(chǎn)監(jiān)督管理總局,北京 100713)
當訓練數(shù)據(jù)和測試數(shù)據(jù)來自不同的領(lǐng)域或任務(wù)以至于訓練數(shù)據(jù)和測試數(shù)據(jù)的分布不相同時,需要進行知識的遷移.本文提出一種基于實例KMM匹配的參數(shù)遷移學習方法.利用KMM算法估計每個源領(lǐng)域?qū)嵗臋?quán)重,再利用得到的權(quán)重,把這些實例應用到基于參數(shù)的遷移學習方法中.把該遷移學習算法應用到無線網(wǎng)絡(luò)定位問題中時,該方法的定位準確度要高于單獨從實例或是從參數(shù)出發(fā)的遷移學習方法.
遷移;實例;權(quán)重;參數(shù)
數(shù)據(jù)挖掘和機器學習技術(shù)已經(jīng)應用于許多知識工程技術(shù)領(lǐng)域[1].但是,大多數(shù)機器學習技術(shù)都存在一個相同的假設(shè),那就是訓練數(shù)據(jù)和測試數(shù)據(jù)服從相同的分布.當這些分布發(fā)生變化的時候,統(tǒng)計模型需要重新收集訓練數(shù)據(jù)來重建,但是重新收集這些訓練數(shù)據(jù)或重建這個模型的花費是比較昂貴的.我們希望能夠設(shè)計出一種算法以減少重新收集訓練數(shù)據(jù)所花費的開銷,在這種情況下,不同任務(wù)或領(lǐng)域間的知識遷移或遷移學習就顯得十分重要了.
遷移學習按照遷移的對象不同可以分為4類:第1類,基于實例的遷移學習算法[2-3];第2類,基于特征表征的遷移學習算法[4-5];第3類,基于參數(shù)的遷移學習算法[6-7];第4類,基于關(guān)聯(lián)知識的遷移學習算法[8].這些遷移學習算法各有利弊:基于實例的遷移學習算法,遷移效果較為明顯,但是它只能對非常相似的數(shù)據(jù)進行遷移;基于特征的遷移學習算法,效果不是很明顯,但是它可以從很不相似的數(shù)據(jù)中遷移知識;基于模型參數(shù)的遷移學習方法是傳統(tǒng)機器學習方法比較自然的擴展,但是這種方法是一種比較被動的方法.事實上,基于實例的遷移學習方法一般發(fā)生于模型訓練之前,而基于模型參數(shù)的遷移學習方法剛好是在模型訓練階段,基于此,提出一種基于實例匹配KMM的參數(shù)遷移方法,在參數(shù)遷移方法的模型訓練之前先對實例進行權(quán)重的重新估計,在模型訓練階段再采用基于參數(shù)的遷移方法,從而不僅能利用源領(lǐng)域數(shù)據(jù)還能利用模型訓練階段因為參數(shù)而共享的信息.一般來說,如果能更多地利用兩個領(lǐng)域的共享信息,就能得到更好的遷移學習效果,本文提出的這種遷移學習方法,在重新估計實例的權(quán)重的同時,也從它的模型參數(shù)出發(fā)進行遷移.
參數(shù)遷移一般假設(shè)相關(guān)聯(lián)任務(wù)的模型共享一些參數(shù),它們都是在多任務(wù)學習框架下設(shè)計的,可以很容易地被修改成遷移學習.在多任務(wù)學習中,源數(shù)據(jù)和目標數(shù)據(jù)的損失函數(shù)的權(quán)重是一樣的;相反,遷移學習中,不同領(lǐng)域的損失函數(shù)的權(quán)重是不一樣的,為了目標領(lǐng)域能達到更好的性能,一般為目標領(lǐng)域分配更大的權(quán)重.Law rence和Platt[9]提出了一個高效的算法M T-IVM,它基于高斯過程解決多任務(wù)學習問題.M T-IVM[10]通過共享相同的GP優(yōu)先在多任務(wù)學習中學習高斯過程的參數(shù).
Evgeniou和Pontil[7]為多任務(wù)學習借鑒了分層貝葉斯的思想并把它應用到SVM s中.假設(shè)在SVM s中每項任務(wù)的參數(shù)ω可以被分成兩部分,一部分是任務(wù)間共有的,另外一個是每個任務(wù)特有的,這種方法是對傳統(tǒng)學習方法的自然擴展.因此,在本文的遷移學習框架中采用這種基于參數(shù)的遷移方法.
式中:S表示源任務(wù);T表示目標任務(wù);wS和w T分別為源任務(wù)和目標任務(wù)學習中SVM s的參數(shù);w0為共有的參數(shù);vS和vT分別為源任務(wù)和目標任務(wù)特有的參數(shù).假定每個任務(wù)t的超平面f t=w t?x, SVM s擴充到多任務(wù)學習中可以表示為式(3):
通過最小化期望風險來學習模型優(yōu)化參數(shù)θ*.
式中:Θ為θ的取值范圍;l(x,y,θ)為取決于參數(shù)θ的損失函數(shù),由于估計概率分布P是一個很難的問題,因此選擇最小化經(jīng)驗風險來代替:
式中:n為訓練數(shù)據(jù)的大小.
在直推式遷移學習環(huán)境下,通過最小化期望風險來學習一個優(yōu)化模型
但是由于在目標領(lǐng)域沒有被標記的數(shù)據(jù)在訓練時可以被觀察到,因此需要從源領(lǐng)域數(shù)據(jù)學習一個模型來代替.如果P(DS)=P(DT),則可以簡單地通過求解式(7)的優(yōu)化問題來學習模型用于目標領(lǐng)域.
通過為每一個具有相應權(quán)重PT(xTI,yTi)/ PS(xSi,ySi)的實例(xSi,ySi)增加懲罰值,可以為目標領(lǐng)域?qū)W到一個精確的模型.更進一步地,既然P(YT|XT)=P(YS|XS),這樣P(DS)和P(DT)之間的差異由P(XS)和P(XT)引起,并且PT(xTi, yTi)/PS(xSi,ySi=P(xSi/P xTi).如果可以為每個實例估計P(xSi)/P(xTi),則可以解決直推式遷移學習問題.Zadrozny[11]通過構(gòu)造簡單的分類問題來分別估計P(xSi)和P(xTi).
本文采用Huang等人提出的核均值匹配算法(KMM),通過在核希爾伯特空間(RKHS)匹配源領(lǐng)域和目標領(lǐng)域的平均值來直接學習P(xSi)/P(xTi). KMM可以表示為式(9)的二次規(guī)劃優(yōu)化問題.
式中:K S,S和K T,T分別為源領(lǐng)域數(shù)據(jù)和目標領(lǐng)域數(shù)據(jù)的核矩陣,
xi∈XS∪XT,xTj∈XT.可以證明βi= P(xSi)/P(xTi)[3].采用KMM的優(yōu)點是它可以避免P(xSi)和P(xTi)的密度估計,當數(shù)據(jù)集很小的時候密度估計是很難的.
在軟邊緣支持向量回歸框架下,基于參數(shù)遷移的學習問題為式(10):
KMM的風險估計通過兩點來說明,一是對于期望風險l(x,θ):=Ey|x l(x,y,θ),利用系數(shù)βi得到一個低偏差的風險估計;二是隨機變量∑iβi l(xi,yi,θ)集中于∑iβi l(xi,θ)附近.
不等式右邊具有上限Cε.
假設(shè)l(x,y,θ)也可以通過〈Φ(x,y),Θ〉來表示,其中‖Θ‖≤C,‖Φ(x,y)‖≤R.與M:= m2/‖β‖2,則可以得到式(16):
式(17)表明:最小化重新估計權(quán)重后的訓練樣本集的經(jīng)驗風險將以很大概率就是最小化測試樣本集上的期望風險的上限.由于核均值匹配KMM產(chǎn)生的風險存在一個上限,并且基于參數(shù)遷移的支持向量回歸問題通過上面的推導可以看出它最終還是一個普通的支持向量回歸問題,而支持向量回歸本身就是基于經(jīng)驗風險最小化原則的,它的經(jīng)驗風險能夠趨向其期望風險.從而在本文的遷移學習過程中,風險函數(shù)也能夠存在一個上界.
在室內(nèi)無線局域網(wǎng)定位問題中[12],它的目標是基于以前收集到的無線局域網(wǎng)數(shù)據(jù)來檢測用戶的當前位置.一個大規(guī)模的環(huán)境里校準無線局域網(wǎng)數(shù)據(jù)建立定位模型是費用非常昂貴的,因為用戶需要在每一個定位處標記大量的無線網(wǎng)絡(luò)數(shù)據(jù),而一段時間或一種裝置訓練好的模型將會引起另外一段時間或另外一種裝置的定位估計性能的下降.為了減少重新校準的精力,希望能夠把一段時間訓練好的模型用于另外一段時間,或一個移動裝置訓練好的模型用于另外一個裝置.
在實驗中,將本文的遷移學習方法應用到這種無線局域網(wǎng)定位問題中,當對于兩種不同的裝置獲得的定位標記數(shù)據(jù),需要利用A裝置的標記數(shù)據(jù)來幫助B裝置所獲得的數(shù)據(jù)的標記,這可以看成是兩個任務(wù)的學習或是不同領(lǐng)域之間的遷移學習問題.由于兩個設(shè)備不一樣,因此兩者所獲得的數(shù)據(jù)分布是不一樣的.這些數(shù)據(jù)是從64 m×50 m區(qū)域107個位置得到的訓練測試數(shù)據(jù),在每個位置每個設(shè)備獲得20個樣本.對于每個設(shè)備,隨機地把數(shù)據(jù)一半用于訓練,一半用于測試,實驗的效果用平均錯誤距離來衡量.
首先,在求β時,在核分類或回歸中,要用到一個高斯核函數(shù),-‖xi-xj‖2/σ,σ取9,其他參數(shù).圖1和圖2為X軸和Y軸上的平均錯誤距離與B裝置的訓練數(shù)據(jù)量多少的關(guān)系,圖中縱坐標單位為m,實線表示的是本文的遷移學習方法(KMM regularized),虛線為基于參數(shù)的遷移學習方法(regularized),點劃線為基于實例的遷移學習方法KMM.從圖中可以看出,當只用到B裝置的很少一部分數(shù)據(jù)即取全部數(shù)據(jù)的10%時,用本文的遷移學習方法得到的X軸和Y軸上的平均錯誤比原來兩種遷移學習方法都要小很多,隨著B裝置的訓練樣本的增大,3種遷移學習方法的效果漸漸相差不大,當B裝置的樣本達到30%時,這3種遷移學習方法的結(jié)果都達到趨向最好的效果.可見,本文的遷移學習方法相對于原來單獨的遷移學習方法能取得更好的遷移效果,特別是當目標領(lǐng)域的樣本數(shù)比較少時,效果更明顯.
圖1 X軸的平均錯誤距離Fig.1 The average error distance of X-axis
圖2 Y軸的平均錯誤距離Fig.2 The average error distance o f Y-axis
但是當B裝置的樣本超過30%時,本文的遷移學習方法與原來的單獨遷移學習方法的效果相差不大,這是因為當B裝置的樣本數(shù)量達到一定程度時,即使不通過遷移學習僅僅利用B裝置的這些已標記樣本也能獲得較好的學習效果.這時,遷移也就沒必要了.
另外,本實驗是在512M內(nèi)存的機器上采用MATLAB進行仿真實驗.經(jīng)過10次運行,本文的遷移學習方法的平均時間消耗為800 s左右,基于實例的遷移學習KMM方法的平均消耗時間為680 s左右,而基于參數(shù)的遷移學習方法所消耗的平均時間為1 800 s左右.因此,本文的算法在提高了學習性能的情況下并沒有付出相對過多的時間代價.
本文提出了一種基于實例匹配KMM的參數(shù)遷移學習方法,該方法能夠在模型訓練之前利用源領(lǐng)域?qū)嵗齺磉w移知識,同時在模型訓練階段利用參數(shù)來遷移共享的信息,從而能夠比較充分地利用兩個領(lǐng)域或是兩個任務(wù)之間的共同信息.通過對無線局域網(wǎng)定位實驗可以看出,本文的遷移學習方法的定位準確度要明顯高于單獨從實例或是從參數(shù)出發(fā)的遷移學習方法,尤其是當目標領(lǐng)域數(shù)據(jù)特別少時.
在以后的工作中,可以把這種方法應用到像文本分類,網(wǎng)頁自動分類以及圖像識別等領(lǐng)域中.
[1] PAN S J,YANG Q.A su rvey on transfer learning[J].IEEE T ransactions on Know ledge and Data Engineering,2010,22 (10):1345-1359.
[2] DA IW,YANG Q,XUE G,et al.Boosting for transfer learning[C]//Proceedings of the 24 th International Conference on Machine Learning,Oregon:ACM,2007:193-200.
[3] HUANG J,SMOLA A,GRETTON A,eta l.Correcting sample selection bias by unlabeled data[C]//Proceedings of the 19th Annual Conference on Neu ral Information Processing Systems,San Jose,CA,DS:ACM,2007:1133-1138.
[4] DA IW,XUEG,YANG Q,eta l.Co-clustering based classification for out-of-domaindocumen ts[C]//Proceedings of the 13th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,California:ACM,2007:210-219.
[5] ARGYRIOU A,EVGENIOU T,PON TILM.M u lti-task feature learning[C]//Proceedingsof the 19th Annual Conference on Neu ral Information Processing Systems,Vancouver, British Columbia,Canada,M IT Press,2007:41-48.
[6] SCHWA IGHOFER A,TRESP V,YU K.Learning gaussian p rocesskernels via hierarchical bayes[C]//Proceedings of the 17th Annual Conference on Neural Information Processing Systems.Cambridge,M A:M IT Press,2005:1209-1216.
[7] EVGENIOU T,PONTIL M.Regularized multi-task learning [C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Seattle,W ashington:ACM,2004:109-117.
[8] M IHALKOVA L,MOONEY R J.T ransfer learning by mapping w ithm inimal targetdata[C]//Proceedingsof theAAA I-2008 Wo rkshop on Transfer Learning for Complex Tasks, Chicago,Illinois:AAA I,2008:31-36.
[9] LAWRENCE N D,PLATT JC.Learning to learn with the informative vectorm achine[C]//P roceedingsof the 21st International Conference on Machine Learning.Banff,A lberta: ACM,2004:512-519.
[10]BONILLA E,CHA I K M,WILLIAMSC.Multi-task gaussian process prediction[C]//Proceedings of the 20th Annual Conference on Neu ral Information Processing Sy stems.Cambridge,MA:M IT Press,2008:153-160.
[11]ZADROZNY B.Learning and evaluating classifiersunder sample selection bias[C]//Proceedings of the 21st International Conference on Machine Learning,A lberta:ACM,2004:903-910.
[12]ZHEN VW,PAN S J,YANG Q,etal.T ransferringmu ltidevice localization models using latent mu lti-task learning [C]//Proceedingsof the 23rd AAA IConference on A rtificial Intelligence,Chicago,Illinois:AAAI,2008:1427-1432.
KMM-based Learning A lgorithm for Parameter Transfer
ZHANG Han-ling1?,TANG Long-hui1,ZHOU M in2
(1.College of Computer and Communication,H unan Univ,Changsha,H unan 410082,China; 2.State Adim inistration o f Work Safety,Beijing 100713,China)
A majorassumption in many machine learning algorithm s is that the training dataand testing data have the same distribution.However,inmany real-world app lications,this assumptionmay nothold. T ransfer learning add resses this p rob lem and utilizes plenty of labeded data in a source domain to so lve related but differentproblem s in a targetdomain.This paper proposed a parameter-transfer learningmethod based on KMM(KernelMean M atching)algorithm.First,we weighed each source instance using KMM and then applied the rew eighted instances to the learningm ethod based on parameters.We app lied this method to the localization of w ireless network.Experiment results have dem onstrated that the proposed method outperform s themethods based on instances or param eters,especially when the target training data are relatively few.
transfer;instance;weighing;parameters
TP18
A
1674-2974(2011)04-0072-05 *
2010-08-18
國家林業(yè)公益性行業(yè)科研專項經(jīng)費資助項目(201104090);長沙科技計劃項目(K 1003046-11)
張汗靈(1968-),男,湖南邵陽人,湖南大學副教授
?通訊聯(lián)系人,E-mail:zhang_hl2002@hotmail.com