• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多步橋接精化遷移學習*

      2011-01-24 06:20:50覃姜維鄭啟倫馬千里韋佳林古立
      關鍵詞:精化分類器標簽

      覃姜維 鄭啟倫 馬千里 韋佳 林古立

      (華南理工大學計算機科學與工程學院,廣東廣州510006)

      傳統(tǒng)機器學習方法基于假設訓練數(shù)據(jù)和測試數(shù)據(jù)分布一致的前提,這大大限制了其應用范圍[1].當假設條件不滿足的時候,傳統(tǒng)分類器的性能可能出現(xiàn)下降.最常見的情況是對一個新領域數(shù)據(jù)進行分類時,由于幾乎沒有標記數(shù)據(jù),傳統(tǒng)機器學習方法無法訓練出可靠的分類器.比如說,大量研究發(fā)掘的生物信息數(shù)據(jù)和快速增長的網(wǎng)絡信息數(shù)據(jù)都包含著豐富的待挖掘信息,但是由于這些數(shù)據(jù)缺乏標記,而人工進行標記也費時費力,要分析這些數(shù)據(jù)隱含的信息就變得非常困難.此外,在相關領域存在大量的標記數(shù)據(jù)卻無法直接使用[1].因此,有必要探尋相關領域數(shù)據(jù)與目標領域數(shù)據(jù)的聯(lián)系,并利用相關領域中的監(jiān)督信息來指導目標領域中的任務學習.

      近來,受到人類認知學習過程中遷移學習的啟發(fā)[2],相關學者提出了機器學習中的遷移學習方法[3-5],目的是解決跨領域、跨任務的學習問題.早期關于遷移學習的工作有 learning to learning[3]、lifelong learning[4]、learning one more thing 和多任務學習[5-6].其中和遷移學習最為相似的是多任務學習,但多任務學習研究的是若干個任務共同學習的情況,并沒有考慮對與源數(shù)據(jù)分布不一致的目標數(shù)據(jù)的學習.一般來說,遷移學習方法可以分為實例遷移、特征遷移、參數(shù)遷移和關聯(lián)知識遷移[7].在這幾類遷移方法中,實例遷移和特征遷移被廣泛地進行研究.其中,實例遷移強調(diào)對樣本層面的信息進行重用,而特征遷移著重研究特征層面上的聯(lián)系.

      研究者們從不同的角度來研究遷移機制的實現(xiàn).由于數(shù)據(jù)散布在不同的領域,遷移的前提是找尋可供遷移的共同映射,并建立這個映射的橋梁.Mahmud[8]定義了一種任務相似度的衡量機制,并以此為基礎來定量地決定任務間遷移的信息量.Ruckert等[9]提出了一種基于核方法的遷移算法,即先在源數(shù)據(jù)上學習一系列泛化性能良好的核函數(shù),然后以最小化準則將其結合起來用于預測目標數(shù)據(jù)的標簽.Dai等[10]定義出源數(shù)據(jù)和目標數(shù)據(jù)的共同特征,并以此為橋梁執(zhí)行協(xié)同聚類算法,使源數(shù)據(jù)的標簽結構影響目標數(shù)據(jù)的標簽結構.Dai等[11]還將該算法擴展到源領域數(shù)據(jù)標簽缺失的情況,提出了一種無監(jiān)督遷移學習方法.Ling等[12]提出一種基于譜分類的遷移框架,目標是在源數(shù)據(jù)的監(jiān)督信息和目標領域的自有結構當中找到一個平衡.文獻[13]提出的方法也是基于譜分析的方法,歸納了幾種遷移學習的情形,得出了一種遷移框架.這些方法以找尋源和目標領域的共同表示為目標,但忽略了目標領域數(shù)據(jù)的自身特性.Daume等[14]假設源和目標領域包含相同和不同的組成成分,提出利用混合模型來進行學習.他們將兩個來自不同領域的數(shù)據(jù)看成是3個不同分布數(shù)據(jù)的混合結果,并共享一個相同的分布數(shù)據(jù).Storkey等[15]考慮了一種更為普遍的情況,認為源領域和目標領域共享多個混合成分,從而更為細致地考慮了混合模型的組成.這兩種方法在求解一個公共模型的基礎上再使用期望最大化(EM)算法來對目標領域的模型進行修正.

      大部分研究通過參數(shù)化的估計方法來學習模型,當數(shù)據(jù)量小的時候,存在參數(shù)估計困難的問題.為避免對分布參數(shù)進行估計,本研究提出了一種非參數(shù)化的遷移學習算法——多步橋接精化(Multi-Step Bridged Refinement,簡稱MSBR)來解決訓練數(shù)據(jù)和測試數(shù)據(jù)分布不一致的分類問題.首先通過構造一系列中間模型來建立源領域和目標領域之間的連接,進而進行標簽傳播,最終完成從源領域到目標領域的判別信息的遷移.由于構造的中間模型兩兩間的數(shù)據(jù)分布相似,原來被認為較難的遷移過程被分解成為一系列相對容易解決的子遷移.

      1 多步橋接精化遷移

      1.1 問題定義

      1.2 交互精化

      本研究借助標簽傳播的原理來求目標領域數(shù)據(jù)的標簽[16].標簽傳播受到 PageRank 算法的啟發(fā)[17].PageRank算法通過網(wǎng)頁間的鏈接關系來對網(wǎng)頁的重要性進行評分,一個網(wǎng)頁的權值受到鏈接到該網(wǎng)頁的頁面的影響.假設u為一個網(wǎng)頁,其權值評估公式為

      式中:R表示頁面的權值;E表示網(wǎng)頁的初始權值;Bu為指向u的頁面集合;Nu為集合u指向的網(wǎng)頁集合的數(shù)量;η為平衡因子.公式(1)利用頁面間相互連接的關系來表明指向一個頁面的鄰居頁面的權值越高,其頁面權值也就越大.公式(1)包含了交互精化的思想,頁面的權值被其鄰居頁面的權值精化,同時又對其鄰居頁面的權值進行精化.更進一步,可以認為相似的網(wǎng)頁間具有相互鏈接的關系.本研究以此為基礎得到一個基于交互精化的標簽傳播模型.在圖1中,假設有標記數(shù)據(jù) x1、x2、x3屬于類別a,標記數(shù)據(jù) x4、x5、x6屬于類別 b.其中,x1、x3、x5是u1的鄰居,而x2、x4、x6是 u2的鄰居.如果每個鄰居對未標記數(shù)據(jù)的標簽貢獻程度一致,那么可以認為u1屬于a的概率大于屬于b的概率,而u2屬于b的概率大于屬于a的概率.

      圖1 標簽傳播Fig.1 Label propagation

      因此,一個樣本的鄰居所屬類別的情況反映出該樣本所屬類別的情形.也就是說,當一個樣本的鄰居屬于某個類別的概率越大,則這個樣本屬于該類別的概率也就越大.然而,該模型的討論是在數(shù)據(jù)分布一致的前提下進行的,在本研究的問題中,源數(shù)據(jù)和目標數(shù)據(jù)的分布并不相同,為此,本研究將模型應用到遷移問題的場景中.

      1.3 多步橋接精化

      為了讓目標數(shù)據(jù)獲得源數(shù)據(jù)的標簽信息,本研究借助中間模型在兩個領域數(shù)據(jù)間執(zhí)行交互精化算法來進行標簽傳播.一般來說,很難直接在不同分布的數(shù)據(jù)間執(zhí)行交互精化算法,但是當分布非常相似的時候,可以認為標簽傳播條件近似成立,從而達到標簽結構遷移的目的.通過引進一個中間模型M,將整個遷移過程分成兩步,首先是從源數(shù)據(jù)到中間模型的遷移,其次是從中間模型到目標數(shù)據(jù)的遷移.由于中間模型M由源數(shù)據(jù)和目標數(shù)據(jù)構成,其分布DM與DS和DT的距離相對接近,因而在DS和DM或者在DM和DT之間進行遷移相對于在DS和DT之間遷移要容易.雖然源數(shù)據(jù)和目標數(shù)據(jù)來源于不同分布的領域,但由于領域間相關,它們存在一定的聯(lián)系.假設P(c|d)表示數(shù)據(jù)的所屬類別的條件概率,給定樣本d,有

      這是由源數(shù)據(jù)和目標數(shù)據(jù)共享相同的標簽空間決定的.因此能夠在M中利用這個關系讓源數(shù)據(jù)對目標數(shù)據(jù)的標簽進行精化.借助中間模型,能夠在遷移的過程中分步實施交互精化算法,從而達到標簽傳播的目的.

      通過引入中間模型M,使得在不同領域間的數(shù)據(jù)間的標簽傳播成為可能.但是,當數(shù)據(jù)分布具有顯著差異的時候,僅僅依靠單個中間模型是不夠的.為此,需要提供更為可靠的遷移環(huán)境.對中間模型進行變換,構造一系列的橋接模型,這些模型中兩兩的分布更為接近.由于相似的數(shù)據(jù)分布讓遷移成為可能,那么本研究中構造的近似分布中間模型可以使得遷移更加平滑和可靠.具體來說,本研究是在構造的中間模型中兩兩相互執(zhí)行交互精化算法,進而實現(xiàn)從源數(shù)據(jù)到目標數(shù)據(jù)的標簽傳播.

      圖2 多步橋接精化模型Fig.2 Multi-step bridged refinement model

      具體的中間模型的構造過程見圖2,中間模型都由標記數(shù)據(jù)和未標記數(shù)據(jù)構成,他們的比例由λ進行控制.定義模型中的數(shù)據(jù)組成為

      近鄰的模型在分布上相似,可以執(zhí)行交互精化來進行標簽傳播,其過程如下.令 f為精化結果,f0是初始值,fi,j為樣本 di屬于類別 j的概率,O(i)為di的鄰居集合,K為鄰居個數(shù),則模型間執(zhí)行交互精化的過程為

      在交互精化的過程中,fi作為下一步精化過程的初始輸入f0.在完成n次精化過程后,根據(jù)對樣本的標簽進行賦值.

      MSBR算法偽碼描述如下:

      1.4 算法的收斂性

      根據(jù)文獻[14],式(4)可以重寫為式(6)或(7),其中L是根據(jù)樣本鄰居構造的鄰接矩陣.

      每步精化過程的結果都會收斂到一個穩(wěn)定值f*.在多步精化的過程中,可以將全部的精化過程定義為:

      式中:Fi表示第i次精化的結果.將式(8)-(10)的左右相乘,得到式(11),算法最終收斂于Fn.

      2 實驗

      2.1 數(shù)據(jù)集

      本研究采用兩個標準文本數(shù)據(jù)20Newsgroup(http:∥people.csail.mit.edu/jrennie/20Newsgroups)和 SRAA(http:∥www.cs.umass.edu/~ mccallum/code-data.html)作為實驗數(shù)據(jù)集.為了使數(shù)據(jù)集滿足遷移場景,本研究對數(shù)據(jù)集進行了重構.由于以上選擇的數(shù)據(jù)集都包含分屬不同頂層類別的子主題,可以將相同頂層類別的子主題劃分出來與不同頂層類別的子主題構成不同的領域數(shù)據(jù).基于這種重構,本研究認為由于源領域數(shù)據(jù)和目標領域數(shù)據(jù)來源于不同的子主題,所以存在差異,但因為其中的子主題共享頂層主題,因此兩個領域數(shù)據(jù)間又存在聯(lián)系.本研究分別對20Newsgroup和SRAA做如下重構:

      (1)20Newsgroup是一個包含近20000個新聞組的文檔集,大約分成20類,包含6個頂層類別.將其中的空白類別刪除掉,利用剩余的數(shù)據(jù)生成數(shù)據(jù)集(見表1).

      表1 基于20Newsgroup構建的數(shù)據(jù)集Table 1 Data sets constructed from 20Newsgroup

      (2)SRAA是一個包含73218篇文檔的文本數(shù)據(jù)集,可以分成 simuauto、simuavation、realauto和realavation 4個類別.根據(jù)文檔內(nèi)容的描述,本研究選擇任意的兩個主題作為源領域數(shù)據(jù)而剩余的主題作為目標領域數(shù)據(jù),生成的數(shù)據(jù)集見表2.

      表2 基于SRAA構建的數(shù)據(jù)集Table 2 Data sets constructed from SRAA

      本研究利用向量空間模型(VSM)對文本數(shù)據(jù)進行處理[18].整個過程包括大小寫轉(zhuǎn)換、提取詞干、去除停用詞、特征選擇和計算 TF/IDf值[19].此外,將詞頻設為5.

      2.2 實驗方法

      本研究利用傳統(tǒng)分類器求得目標數(shù)據(jù)的初始標簽,然后利用文中提出的算法對目標數(shù)據(jù)的初始標簽進行精化.本研究選擇了3種經(jīng)典的監(jiān)督分類器和半監(jiān)督分類器,即支持向量機(SVM)[20],樸素貝葉斯(NB)和轉(zhuǎn)導式支持向量機(TSVM)[21-22].為了知道遷移是否起作用,本研究同時也將文中提出的算法的結果與傳統(tǒng)分類器做對比.

      實驗策略為:

      (1)在源數(shù)據(jù)上利用傳統(tǒng)分類器訓練分類模型,并將其直接用于目標數(shù)據(jù)的分類;

      (2)在傳統(tǒng)分類器對目標數(shù)據(jù)的分類結果上,利用BRTL對傳統(tǒng)分類器的結果進行精化[23];

      (3)在傳統(tǒng)分類器對目標數(shù)據(jù)的分類結果上,利用文中提出的算法對傳統(tǒng)分類器的結果進行精化,為了與BRTL做對比,本研究將參數(shù)α設置為0.7;

      (4)直接利用BRTL和文中提出的MSBR對目標數(shù)據(jù)進行精化.

      2.3 實驗結果和討論

      表3-5給出了4種不同策略上的計算結果,從表中可以看到,傳統(tǒng)分類器在跨領域的數(shù)據(jù)分類中性能較差,而兩種遷移學習方法在學習精度上要優(yōu)于傳統(tǒng)分類器.對比傳統(tǒng)分類器(SVM、NB、TSVM)和遷移分類器(BRTL、MSBR)在所有問題上的平均分類精度,BRTL相對傳統(tǒng)分類器提高了22%,而文中提出的MSBR相對傳統(tǒng)分類器提高了48%.可以看到遷移算法對跨領域環(huán)境下的數(shù)據(jù)分類精度與傳統(tǒng)分數(shù)器相比有很明顯的提升.

      表3 傳統(tǒng)分類器SVM、NB、TSVM在數(shù)據(jù)集上的分類精度Table 3 Classification accuracy of the traditional classifiers SVM,NB,TSVM on the data sets %

      表4 BRTL在數(shù)據(jù)集上的分類精度Table 4 Classification accuracy of BRTL on the data sets %

      表5 MSBR在數(shù)據(jù)集上的分類精度Table 5 Classification accuracy of MSBR on the data sets %

      從表4可以看出,BRTL敏感于初始分類器的選擇,因此對同樣的數(shù)據(jù)集在不同的初始條件下得到的結果是不一樣的.比如說,TSVM在ng1上的結果要優(yōu)于SVM和NB,因此BRTL在基于TSVM初始結果上的精化結果要優(yōu)于基于SVM和NB的精化結果.由于對初始分類器的選擇較敏感,使得BRTL的結果變得不可靠.而表5中,MSBR對于每個問題的最終精化結果是一致的.

      圖3 精化步數(shù)對結果的影響Fig.3 Effect of different refinement steps on the results

      為了探討中間模型的變化對目標數(shù)據(jù)分類精度的影響,本研究分別繪出多步情況下MSBR算法在各數(shù)據(jù)集上的精度變化曲線,如圖3所示.由圖3可見,對于每個問題來說,MSBR算法最后得到的精度一致.換句話說,初始分類器的選擇沒有影響MSBR算法的最后結果.這有別于文獻[21]認為遷移效果受限于初始分類器的選擇的結論.本研究認為在精化步數(shù)足夠的條件下,算法在每個問題上的結果應該是一致的,這是由于從源數(shù)據(jù)遷移到目標數(shù)據(jù)的監(jiān)督信息是一定的.然而兩步精化不足以優(yōu)化目標數(shù)據(jù)的標簽結構,在多個中間模型的橋接下,源數(shù)據(jù)的標簽信息才能完全地被用來影響目標領域的標簽結構.

      由圖3還可知,借助相關領域數(shù)據(jù)的監(jiān)督信息可以改善目標領域在沒有標記數(shù)據(jù)情況下的分類精度,但是并不是在所有情況下都是如此.如圖3(b)所示,隨著精化步數(shù)n的增大,精度略微出現(xiàn)了下降.本研究認為這是由于ng2中的源數(shù)據(jù)和目標數(shù)據(jù)分布非常相似,因此傳統(tǒng)的分類器表現(xiàn)出較好的性能,而利用MSBR算法在橋接精化的過程中出現(xiàn)了標簽信息的損失,從而造成精度下降.

      由圖3還可知,當n大于15時,算法精度趨于穩(wěn)定,而后n的繼續(xù)增大并不能改變算法的效果.由此可見,15步精化對MSBR來說已經(jīng)足夠.

      由圖4可見,對于MSBR來說,當α的取值范圍在0.6到0.8之間時,算法精度J有較好的效果,本研究的實驗中將α設置為0.7.

      圖4 α對MSBR結果的影響Fig.4 Effect of α on the results of MSBR

      4 結語

      本研究探討了跨領域數(shù)據(jù)分類的問題,以橋接精化為基礎,提出了一種遷移環(huán)境下的學習算法MSBR.即通過構造一系列中間模型建立起源數(shù)據(jù)與目標數(shù)據(jù)之間的連接,在此基礎上對鄰近的模型間執(zhí)行交互精化,最終實現(xiàn)從源數(shù)據(jù)到目標數(shù)據(jù)的標簽傳播.該算法的優(yōu)點是能夠充分利用源數(shù)據(jù)的標簽信息來影響目標數(shù)據(jù)的標簽結構,并且不敏感于初始分類器的選擇.實驗表明,該算法在效果上優(yōu)于對比的幾個傳統(tǒng)分類器和BRTL,是有效可行的.

      進一步研究將探討任務間的相似度如何影響遷移效果,同時也會考慮將MSBR應用到如從文本到圖片或者視頻的跨媒體場景中.

      [1] Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years[J].Machine Learning,2008,73(1):3-23.

      [2] Brown A L,Kane M J.Preschool children can learn to transfer:learning to learn and learning from example[J].Cognitive Psychology,1998,20(4):493-523.

      [3] Thrun S,Pratt L Y.Learning to learn[M].Boston:Kluwer Academic Publishers,1998:1-13.

      [4] Thrun S.Is learning the n-th thing any easier than learning the first?[C]∥Proceedings of the 12th Neural Information Processing Systems.Cambridge:MIT Press,1995:640-646.

      [5] Thrun S,Mitchell T M.Learning one more thing[C]∥Proceedings of the 14th International Joint Conference on Artificial Intelligence.Quebec:IJCAI,1995:1217-1225.

      [6] Caruana R.Multitask learning [J].Machine Learning,1997,28(1):41-75.

      [7] Pan S,Yang Q.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2009,22(10):1345-1359.

      [8] Mahmud M M H.On universal transfer learning[J].Theoretical Computer Science,2009,410(19):1826-1846.

      [9] Ruckert U,Kramer S.Kernel-based inductive transfer[C]∥Machine Learning and Knowledge Discovery in Databases.Belgium:Springer,2008:220-233.

      [10] Dai W,Xue G R,Yang Q,et al.Co-clustering based classification for out-of-domain documents[C]∥Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2007:210-219.

      [11] Dai W,Yang Q,Xue G R,et al.Self-taught clustering[C]∥Proceedings of the Twenty-Fifth International Conference of Machine Learning.Helsinki:ACM,2008:200-207.

      [12] Ling X,Dai W,Xue G R,et al.Spectral domain transfer learning[C]∥Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Nevada:ACM,2008:488-496.

      [13] Dai W,Jin O,Xue G R,et al.EigenTransfer:a unified framework for transfer learning[C]∥Proceedings of the 26th International Conference on Machine Learning.Montreal:ACM,2009:193-200.

      [14] Daume III H,Marcu D.Domain adaptation for statistical classiers[J].Journal of Artificial Intelligence Research,2006,26(1):101-126.

      [15] Storkey A J,Sugiyama M.Mixture regression for covariate shift[C]∥Proceedings of the 21st Neural Information Processing Systems.Cambridge:MIT Press,2007:1337-1344.

      [16] Wang F,Zhang C S.Label propagation through linear neighborhoods[J].IEEE Transactions on Knowledge and Data Engineering,2008,20(1):55-67.

      [17] Page L,Brin S,Motwani R,et al.The PageRank citation ranking:bringing order to the web[R].Stanford:Stanford Digital Library,1998.

      [18] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.

      [19] Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Survey,2002,34(1):1-47.

      [20] Joachims T.Making large-scale SVM learning practical[C]∥Advances in Kernel Methods:Support Vector Learning.Cambridge:MIT Press,1999:169-184.

      [21] Rish I.An empirical study of the Naive Bayes classifier[C]∥Proceedings of IJCAI-01 Workshop on Empirical Methods in Artificial Intelligence.Washington:IJCAI,2001:41-46.

      [22] Joachims T.Transductive inference for text classification using support vector machines[C]∥Proceedings of the 16th International Conference on Machine Learning.Slovenia:ACM,1999:200-209.

      [23] Xing D,Dai W,Xue G R,et al.Bridged refinement for transfer learning[C]∥Proceedings of 11th European Conference on Practice of Knowledge Discovery in Databases.Warsaw:Springer,2007:324-335.

      猜你喜歡
      精化分類器標簽
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      n-精化與n-互模擬之間相關問題的研究
      n-精化關系及其相關研究
      電子世界(2017年2期)2017-02-17 00:54:00
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      標簽化傷害了誰
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      Petri網(wǎng)結點精化及其應用
      通榆县| 荔浦县| 曲周县| 清新县| 巴塘县| 汕尾市| 咸阳市| 南皮县| 天镇县| 吴江市| 乐安县| 茌平县| 庐江县| 台前县| 嵊州市| 宿迁市| 阿鲁科尔沁旗| 盐山县| 灵山县| 香河县| 阳曲县| 万盛区| 阳新县| 林口县| 前郭尔| 淅川县| 四子王旗| 清水县| 宁远县| 二连浩特市| 东乌| 威信县| 蒙城县| 醴陵市| 澄城县| 封丘县| 静宁县| 弋阳县| 福海县| 肥西县| 泸西县|