周 勝, 劉三民
(安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院, 安徽 蕪湖 241000)
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,數(shù)據(jù)流挖掘在許多領(lǐng)域得到了廣泛應(yīng)用,如天氣預(yù)報(bào)、金融預(yù)測(cè)、電子商務(wù)等。在這些應(yīng)用領(lǐng)域中,每時(shí)每刻都有大量的數(shù)據(jù)產(chǎn)生,因此需要對(duì)這些數(shù)據(jù)進(jìn)行實(shí)時(shí)分類(lèi),從而在這些不斷產(chǎn)生的數(shù)據(jù)流中挖掘有價(jià)值的信息。傳統(tǒng)的數(shù)據(jù)流分類(lèi)方法需要大量的標(biāo)簽樣本訓(xùn)練分類(lèi)模型,這種方法實(shí)時(shí)性低,無(wú)法有效解決數(shù)據(jù)流中的概念漂移和噪聲問(wèn)題。
目前,遷移學(xué)習(xí)受到了廣泛的關(guān)注和研究。遷移學(xué)習(xí)是指運(yùn)用已存有的知識(shí)對(duì)不同但相關(guān)領(lǐng)域問(wèn)題進(jìn)行求解的一種新的機(jī)器學(xué)習(xí)方法[1],能夠解決目標(biāo)域標(biāo)注樣本不足的問(wèn)題。遷移學(xué)習(xí)根據(jù)源領(lǐng)域個(gè)數(shù)可分為單源遷移和多源遷移。單源遷移學(xué)習(xí)使用一個(gè)與目標(biāo)領(lǐng)域較為相似的源領(lǐng)域進(jìn)行知識(shí)遷移,如Dai等[2]建立一種基于樣本遷移的TrAdaBoost遷移學(xué)習(xí)算法,通過(guò)Boosting方法增加有效數(shù)據(jù)權(quán)重的同時(shí)降低無(wú)效數(shù)據(jù)的權(quán)重,解決源領(lǐng)域和目標(biāo)域數(shù)據(jù)不匹配的問(wèn)題。文獻(xiàn)[3]為了顯著地減少域分布之間的距離,提出一種降維框架。Zhao等[4-5]設(shè)計(jì)基于集成學(xué)習(xí)策略的方案來(lái)解決同構(gòu)域上的單源遷移學(xué)習(xí)問(wèn)題,實(shí)驗(yàn)結(jié)果顯示該方法具有較高的準(zhǔn)確率。當(dāng)前絕大多數(shù)單源遷移學(xué)習(xí)算法都有先決條件,即是必須獲得與目標(biāo)領(lǐng)域較為相似的源領(lǐng)域才能進(jìn)行知識(shí)遷移,但是在現(xiàn)實(shí)環(huán)境中,獲得與目標(biāo)領(lǐng)域較為相似的源領(lǐng)域比較困難。針對(duì)單源遷移學(xué)習(xí)方法的不足,眾多國(guó)內(nèi)外學(xué)者提出使用多個(gè)源領(lǐng)域進(jìn)行遷移的多源遷移學(xué)習(xí)算法。Ge等[6]建立一種多源遷移學(xué)習(xí)算法OMS-TL,根據(jù)二部圖實(shí)現(xiàn)對(duì)目標(biāo)領(lǐng)域樣本的預(yù)測(cè),通過(guò)對(duì)數(shù)據(jù)樣本進(jìn)行重用來(lái)進(jìn)行遷移學(xué)習(xí)。針對(duì)概念漂移數(shù)據(jù)流分類(lèi)中的概念重現(xiàn)問(wèn)題,一種重現(xiàn)概念漂移數(shù)據(jù)流分類(lèi)算法RC-OTL被提出[7],算法根據(jù)領(lǐng)域相似度挑選最適合的源領(lǐng)域分類(lèi)器,實(shí)驗(yàn)結(jié)果證明該方法能夠有效克服“負(fù)遷移”。文獻(xiàn)[8]構(gòu)建一種多源迭代自適應(yīng)算法MSIDA,根據(jù)貪婪思想實(shí)現(xiàn)最佳源領(lǐng)域的選擇,同時(shí)通過(guò)創(chuàng)建額外的偽標(biāo)記實(shí)例解決樣本標(biāo)注問(wèn)題。文獻(xiàn)[9]設(shè)計(jì)算法OTLMS,提出將集成源領(lǐng)域分類(lèi)器和目標(biāo)領(lǐng)域分類(lèi)器組合在一起構(gòu)建預(yù)測(cè)分類(lèi)器的方案,解決與目標(biāo)學(xué)習(xí)任務(wù)無(wú)關(guān)的噪聲源數(shù)據(jù)影響分類(lèi)精度的問(wèn)題。文獻(xiàn)[10]通過(guò)將目標(biāo)特征空間分成源領(lǐng)域的同構(gòu)和異構(gòu)兩個(gè)部分,將基分類(lèi)器加權(quán)組合獲得多個(gè)源領(lǐng)域分類(lèi)器,并將多個(gè)源領(lǐng)域分類(lèi)器組合成一個(gè)集成模型來(lái)解決多源異構(gòu)遷移學(xué)習(xí)問(wèn)題。Yan等[11]構(gòu)建算法OHTWC,通過(guò)計(jì)算異構(gòu)域中同現(xiàn)數(shù)據(jù)的異構(gòu)相似性,解決異構(gòu)域上的數(shù)據(jù)流分類(lèi)問(wèn)題。文獻(xiàn)[12]通過(guò)求解每個(gè)源領(lǐng)域?qū)?yīng)的權(quán)值向量,并用對(duì)應(yīng)的權(quán)值向量來(lái)表示源領(lǐng)域和目標(biāo)領(lǐng)域之間的相似度,顯著地提高遷移學(xué)習(xí)效率以及分類(lèi)性能。文獻(xiàn)[13]設(shè)計(jì)一種基于自適應(yīng)棄權(quán)策略的數(shù)據(jù)流分類(lèi)方法,該方法通過(guò)將每個(gè)源領(lǐng)域分類(lèi)器對(duì)新到樣本的確定性與給定閾值進(jìn)行比較,從而選擇合適的源領(lǐng)域分類(lèi)器參與集成決策,該方法能夠?qū)υ搭I(lǐng)域分類(lèi)器集成的多樣性進(jìn)行選擇性控制。文獻(xiàn)[14]通過(guò)調(diào)整每個(gè)源領(lǐng)域分類(lèi)器對(duì)應(yīng)的權(quán)重,同時(shí)用目標(biāo)領(lǐng)域分類(lèi)器更換權(quán)重最大的源領(lǐng)域分類(lèi)器,該方法能夠在出現(xiàn)概念漂移后快速地恢復(fù)集成分類(lèi)器的分類(lèi)準(zhǔn)確率,從而改善集成分類(lèi)器的分類(lèi)性能。
綜上可知,數(shù)據(jù)流分類(lèi)采用多源遷移學(xué)習(xí)技術(shù)具有明顯優(yōu)勢(shì),而在遷移學(xué)習(xí)過(guò)程中如何從多個(gè)源領(lǐng)域分類(lèi)器中挑選最合適的源領(lǐng)域分類(lèi)器,是本文關(guān)注點(diǎn)所在。本文基于互近鄰的動(dòng)態(tài)分類(lèi)器選擇方法設(shè)計(jì)出一種局部分類(lèi)精度計(jì)算方案能夠有效地挑選出最合適的源領(lǐng)域分類(lèi)器,從而有效解決數(shù)據(jù)流中的概念漂移和噪聲問(wèn)題。
K近鄰算法[15]通過(guò)計(jì)算新到樣本xt和樣本集合中訓(xùn)練樣本之間的距離,挑選與新到樣本xt距離最近的K個(gè)樣本構(gòu)造新到樣本xt的鄰域,然后基于鄰域的類(lèi)別信息,根據(jù)投票的準(zhǔn)則對(duì)新到樣本進(jìn)行分類(lèi)。
定義1K-近鄰指與新到樣本xt距離最近的K個(gè)樣本集合,記Nk(xt)。
然而,K近鄰算法僅通過(guò)度量樣本之間的距離(忽略了樣本之間是否互為近鄰)來(lái)預(yù)測(cè)新到樣本的類(lèi)別標(biāo)簽,會(huì)導(dǎo)致偽近鄰現(xiàn)象的產(chǎn)生。偽近鄰現(xiàn)象如圖1所示,如N3(x1)={x2,x3,x4}表示x1的3個(gè)近鄰,N3(x6)={x7,x8,x9}表示x6的3個(gè)近鄰,N3(x7)={x6,x8,x9}表示x7的3個(gè)近鄰,N3(x5)={x1,x6,x7} 表示x5的3個(gè)近鄰,但x5卻不在x1、x6、x7的近鄰中,原因是x1、x6、x7實(shí)際上距離x5很遠(yuǎn)。
圖1 樣本x5的3-近鄰分布圖
定義2K-互近鄰指互相作為對(duì)方的K近鄰,令Nk(xt)表示xt的K個(gè)近鄰,Nk(xi)表示xi的K個(gè)近鄰,Mk(xt)表示xt的K-互近鄰,可記為Mk(xt)={xi|xi∈Nk(xt)∩xt∈Nk(xi)}。
用互近鄰進(jìn)行數(shù)據(jù)流分類(lèi)可以防止偽近鄰現(xiàn)象產(chǎn)生,提高分類(lèi)的準(zhǔn)確率,這也是本文的出發(fā)點(diǎn)之一。
根據(jù)聚類(lèi)的思想,相鄰樣本間的樣本相似度較大,如果基分類(lèi)器對(duì)新到樣本周?chē)鷧^(qū)域內(nèi)的數(shù)據(jù)樣本分類(lèi)準(zhǔn)確率較高,那么基分類(lèi)器對(duì)新到樣本的類(lèi)別預(yù)測(cè)也會(huì)比較準(zhǔn)確?;诖?,本文提出一種局部分類(lèi)精度計(jì)算方法,利用該方法來(lái)挑選最合適的源領(lǐng)域分類(lèi)器。
基于局部分類(lèi)精度[16]的動(dòng)態(tài)分類(lèi)器選擇方法,假設(shè)基分類(lèi)器在新到樣本周?chē)鷧^(qū)域的分類(lèi)精度不同,從而通過(guò)局部分類(lèi)精度方法挑選局部分類(lèi)精度最高的基分類(lèi)器,并用局部分類(lèi)精度最高的基分類(lèi)器的輸出結(jié)果作為分類(lèi)器集合的輸出。局部分類(lèi)精度計(jì)算方法可以分為兩類(lèi):基于類(lèi)別無(wú)關(guān)的方法和基于類(lèi)別相關(guān)的方法,本文提出的局部分類(lèi)精度計(jì)算方法是基于類(lèi)別相關(guān)的方法,其公式如下:
(1)
其中,K為鄰域的樣本個(gè)數(shù),xt為目標(biāo)領(lǐng)域數(shù)據(jù)塊中的樣本,Mk(xt)為目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本集合,yi為目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本的真實(shí)類(lèi)別,fsj(Mk(xt))為源領(lǐng)域分類(lèi)器對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本的預(yù)測(cè)類(lèi)別,dis(Mk(xt),xt)為目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本與目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本之間的距離,本文采用的是歐式距離。I(x)為示性函數(shù),其定義如下:
(2)
若某源領(lǐng)域分類(lèi)器能夠正確預(yù)測(cè)目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本的類(lèi)別,那么示性函數(shù)的值為1,否則,示性函數(shù)的值為0。
在目標(biāo)領(lǐng)域數(shù)據(jù)塊中挑選與目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本互為近鄰的K個(gè)樣本構(gòu)造其鄰域,從而將訓(xùn)練得到的多源領(lǐng)域分類(lèi)器在目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的K-互近鄰樣本集合Mk(xt)計(jì)算局部分類(lèi)精度LCA。
在上述互近鄰思想和局部分類(lèi)精度計(jì)算方法基礎(chǔ)上,給出基于互近鄰的多源遷移學(xué)習(xí)算法(Multi-source Transfer Learning based on Mutual Nearest Neighbor,MNNTL)描述。算法利用互近鄰思想求得目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本集合Mk(xt),然后計(jì)算各源領(lǐng)域分類(lèi)器對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本集合Mk(xt)的局部分類(lèi)精度,最后將局部分類(lèi)精度最高的源領(lǐng)域分類(lèi)器fs與目標(biāo)領(lǐng)域分類(lèi)器ft加權(quán)集成對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊進(jìn)行分類(lèi),并更新分類(lèi)器對(duì)應(yīng)的權(quán)重以及目標(biāo)領(lǐng)域分類(lèi)器。
MNNTL算法的輸入包括目標(biāo)域數(shù)據(jù)流DS、源領(lǐng)域分類(lèi)器集合CS、近鄰樣本數(shù)量K;輸出為集成分類(lèi)模型對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊的分類(lèi)準(zhǔn)確率。其詳細(xì)過(guò)程為:
step 1參數(shù)初始化K,緩存兩個(gè)規(guī)模大小相等的數(shù)據(jù)塊,并分別在數(shù)據(jù)塊上訓(xùn)練源領(lǐng)域分類(lèi)器。
step 2Forj=1,2,...,20,對(duì)后續(xù)數(shù)據(jù)塊Dj依次循環(huán)處理。
step 3基于目標(biāo)領(lǐng)域數(shù)據(jù)塊Dj構(gòu)建目標(biāo)領(lǐng)域分類(lèi)器ftj。
step 4計(jì)算目標(biāo)領(lǐng)域數(shù)據(jù)塊Dj中樣本之間的距離。
step 5在目標(biāo)領(lǐng)域數(shù)據(jù)塊Dj中求每個(gè)樣本的K-近鄰樣本集合Nk(xt)。
step 6在每個(gè)樣本的K-近鄰樣本集合Nk(xt)中求每個(gè)樣本的K-互近鄰樣本集合Mk(xt)。
step 7計(jì)算各源領(lǐng)域分類(lèi)器對(duì)每個(gè)樣本的K-互近鄰樣本集合Mk(xt)的局部分類(lèi)精度LCAj:
step 8將局部分類(lèi)精度最高的源領(lǐng)域分類(lèi)器fs與目標(biāo)領(lǐng)域分類(lèi)器ftj加權(quán)組合成分類(lèi)器f對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊Dj進(jìn)行分類(lèi):
其中:xt為目標(biāo)領(lǐng)域樣本;ωs和ωt分別為源領(lǐng)域分類(lèi)器和目標(biāo)領(lǐng)域分類(lèi)器對(duì)應(yīng)的權(quán)值向量;α1,t和α2,t分別為源領(lǐng)域分類(lèi)器和目標(biāo)領(lǐng)域分類(lèi)器對(duì)應(yīng)的權(quán)重,初始化
為映射函數(shù)[4]。
step 9更新分類(lèi)器權(quán)重α1,t和α2,t:
其中:st(u)=exp{-ηl*(Π(uTxt),Π(yt))},η=0.5,?u∈Rm;分類(lèi)器損失函數(shù)l*(z,y)=(z-y)2;xt為目標(biāo)領(lǐng)域樣本,yt為目標(biāo)領(lǐng)域樣本的真實(shí)類(lèi)別。
step 10更新目標(biāo)領(lǐng)域分類(lèi)器ftj。
step 11End For.
算法過(guò)程中:step 1表示算法初始化,初始化參數(shù)K以及初始化源領(lǐng)域分類(lèi)器;step 3表示基于目標(biāo)領(lǐng)域數(shù)據(jù)塊構(gòu)建目標(biāo)領(lǐng)域分類(lèi)器;step 4~step 6表示求目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本集合;step 7表示計(jì)算各源領(lǐng)域分類(lèi)器對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本集合的局部分類(lèi)精度;step 8表示選取局部分類(lèi)精度最高的源領(lǐng)域分類(lèi)器與目標(biāo)領(lǐng)域分類(lèi)器加權(quán)集成對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊進(jìn)行分類(lèi);step 9表示分類(lèi)器權(quán)重的更新;step 10表示目標(biāo)領(lǐng)域分類(lèi)器的更新。這里,step 8使用的分類(lèi)方法和step 9使用的分類(lèi)器權(quán)重調(diào)整方案與文獻(xiàn)[4]提出的分類(lèi)方法和分類(lèi)器權(quán)重調(diào)整方案類(lèi)似。
為驗(yàn)證研究目標(biāo),本文把所提方法與現(xiàn)有文獻(xiàn)采用基于K-近鄰思想計(jì)算局部分類(lèi)精度的多源在線(xiàn)遷移學(xué)習(xí)方法(Multi-source Online Transfer Learning based on K-nearest Neighbor,KNNOTL)進(jìn)行對(duì)比。實(shí)驗(yàn)采用Bayes分類(lèi)器作為基分類(lèi)器,采用批處理模式訓(xùn)練生成,其中源領(lǐng)域數(shù)據(jù)塊大小為5000,源領(lǐng)域數(shù)據(jù)塊個(gè)數(shù)為2,訓(xùn)練2個(gè)源領(lǐng)域分類(lèi)器,同時(shí)基于目標(biāo)域數(shù)據(jù)流DS形成20個(gè)數(shù)據(jù)塊,數(shù)據(jù)塊大小設(shè)為500,求得各源領(lǐng)域分類(lèi)器對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本集合Mk(xt)的局部分類(lèi)精度,將局部分類(lèi)精度最高的源領(lǐng)域分類(lèi)器fs與目標(biāo)領(lǐng)域分類(lèi)器ft加權(quán)集成對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊進(jìn)行分類(lèi)。
實(shí)驗(yàn)1驗(yàn)證近鄰樣本數(shù)量參數(shù)影響
為驗(yàn)證近鄰樣本數(shù)量對(duì)算法的影響,本文選擇三個(gè)近鄰樣本數(shù)值通過(guò)平均準(zhǔn)確率和標(biāo)準(zhǔn)差統(tǒng)計(jì)量來(lái)說(shuō)明它們之間的關(guān)系,見(jiàn)表1。
表1 MNNTL與近鄰樣本數(shù)量間的關(guān)系
從表1可以看出,當(dāng)近鄰樣本數(shù)值為7時(shí),此時(shí)平均準(zhǔn)確率和標(biāo)準(zhǔn)差統(tǒng)計(jì)量是最好的。當(dāng)近鄰樣本數(shù)值較大時(shí),每次迭代求得的近鄰樣本與目標(biāo)領(lǐng)域數(shù)據(jù)塊中的樣本差異性較大,而近鄰樣本數(shù)值較小時(shí),會(huì)使得計(jì)算出來(lái)的各源領(lǐng)域分類(lèi)器對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本集合的局部分類(lèi)精度差異性較小。顯然,近鄰樣本數(shù)值較大或較小都會(huì)影響局部分類(lèi)精度的計(jì)算,導(dǎo)致無(wú)法挑選出最合適的源領(lǐng)域分類(lèi)器。
實(shí)驗(yàn)2驗(yàn)證MNNTL分類(lèi)能力
無(wú)噪聲環(huán)境下的實(shí)驗(yàn)現(xiàn)象如圖2所示。在無(wú)噪聲的情況下,隨著數(shù)據(jù)塊數(shù)量的增加,兩種方法的分類(lèi)準(zhǔn)確率都在不斷地提升。這是由于兩種方法在挑選最優(yōu)源領(lǐng)域分類(lèi)器的同時(shí),在對(duì)目標(biāo)領(lǐng)域樣本完成分類(lèi)后,都對(duì)目標(biāo)領(lǐng)域分類(lèi)器進(jìn)行了更新,因此能夠更快地適應(yīng)新到概念。同時(shí)相對(duì)于KNNOTL,MNNTL的分類(lèi)準(zhǔn)確率沒(méi)有明顯的提高,這是由于在無(wú)噪聲的情況下,MNNTL使用互近鄰思想求得的互近鄰樣本集合與KNNOTL使用K近鄰思想求得的近鄰樣本集合幾乎相等,導(dǎo)致大多數(shù)情況下挑選出來(lái)的源領(lǐng)域分類(lèi)器相同,因此分類(lèi)準(zhǔn)確率差別不大。
圖2 數(shù)據(jù)集D1實(shí)驗(yàn)結(jié)果
噪聲環(huán)境下的實(shí)驗(yàn)現(xiàn)象如圖3與圖4所示。從圖3和圖4可以看出,在分類(lèi)初期MNNTL和KNNOTL的分類(lèi)準(zhǔn)確率均較低,這是因?yàn)樵诜诸?lèi)初期能獲得的目標(biāo)領(lǐng)域數(shù)據(jù)塊較少。在有噪聲的情況下,不僅MNNTL的分類(lèi)準(zhǔn)確率要優(yōu)于KNNOTL,尤其在分類(lèi)的初始階段優(yōu)勢(shì)明顯,而且隨著數(shù)據(jù)塊的增加,MNNTL分類(lèi)準(zhǔn)確率比KNNOTL增長(zhǎng)的幅度要快,這是由于相對(duì)于KNNOTL只使用K近鄰思想求近鄰樣本集合,MNNTL使用了互近鄰思想求互近鄰樣本集合,其策略消除了噪聲數(shù)據(jù)的影響,因此能夠更快地適應(yīng)概念漂移,使分類(lèi)模型面對(duì)概念漂移具有更好的泛化能力。
圖3 數(shù)據(jù)集D2實(shí)驗(yàn)結(jié)果
圖4 數(shù)據(jù)集D3實(shí)驗(yàn)結(jié)果
綜上分析可知,MNNTL數(shù)據(jù)流分類(lèi)方法是可行的,分類(lèi)準(zhǔn)確率優(yōu)于基于K近鄰的數(shù)據(jù)流分類(lèi)方法。這是由于MNNTL方法在目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的K近鄰樣本集合的基礎(chǔ)上求得互近鄰樣本集合,避免了偽近鄰現(xiàn)象的產(chǎn)生,即排除了近鄰樣本集合中存在噪聲數(shù)據(jù)的可能,提高了分類(lèi)模型的預(yù)測(cè)精度,同時(shí)MNNTL方法是基于類(lèi)別相關(guān)的方法求局部分類(lèi)精度,能夠從近鄰樣本中挑選出與目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本類(lèi)別相同的樣本,能夠更準(zhǔn)確地求得各源領(lǐng)域分類(lèi)器對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本集合的局部分類(lèi)精度,從而更準(zhǔn)確地挑選出最合適的源領(lǐng)域分類(lèi)器。兩種方法的平均準(zhǔn)確率與標(biāo)準(zhǔn)差統(tǒng)計(jì)見(jiàn)表2。
表2 平均準(zhǔn)確率和標(biāo)準(zhǔn)差統(tǒng)計(jì)量
分析表2中的統(tǒng)計(jì)數(shù)據(jù)可知,MNNTL算法明顯優(yōu)于KNNOTL算法,平均準(zhǔn)確率約高出9%,在噪聲環(huán)境下仍然具有較高的準(zhǔn)確率,說(shuō)明MNNTL算法能夠有效地處理數(shù)據(jù)流中的噪聲,能夠更快地適應(yīng)概念漂移現(xiàn)象。隨著噪聲數(shù)據(jù)的增加,MNNTL方法的分類(lèi)準(zhǔn)確率下降程度明顯小于KNNOTL方法,說(shuō)明MNNTL方法面對(duì)噪聲數(shù)據(jù)流時(shí)具有更好的穩(wěn)定性和更強(qiáng)的抗噪性。同時(shí)MNNTL方法的標(biāo)準(zhǔn)差明顯大于KNNOTL方法,說(shuō)明MNNTL方法的分類(lèi)準(zhǔn)確率比KNNOTL方法增長(zhǎng)的幅度要快,MNNTL方法能夠更快地適應(yīng)噪聲數(shù)據(jù)流。這是因?yàn)镸NNTL算法利用互近鄰思想求得目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的互近鄰樣本集合,能夠有效避免偽近鄰現(xiàn)象的產(chǎn)生,使分類(lèi)模型保持較高的分類(lèi)精度以及較好的穩(wěn)定性。綜上所述,基于互近鄰的多源遷移學(xué)習(xí)方法是可行的,能夠從K近鄰樣本集合中進(jìn)一步挑選出互近鄰樣本集合,能夠有效解決數(shù)據(jù)流中的概念漂移和噪聲問(wèn)題。
本文結(jié)合互近鄰思想和局部分類(lèi)精度計(jì)算方法,提出了一種新的多源遷移數(shù)據(jù)流分類(lèi)學(xué)習(xí)方法。該方法能夠有效利用互近鄰思想,從目標(biāo)領(lǐng)域數(shù)據(jù)塊中挑選合適的樣本作為目標(biāo)領(lǐng)域數(shù)據(jù)塊中每個(gè)樣本的真近鄰,同時(shí)構(gòu)建出局部分類(lèi)精度計(jì)算方法從源領(lǐng)域分類(lèi)器集合中挑選最合適的源領(lǐng)域分類(lèi)器與目標(biāo)領(lǐng)域分類(lèi)器加權(quán)集成。實(shí)驗(yàn)結(jié)果表明所設(shè)計(jì)的方案能夠排除近鄰樣本集合中存在噪聲數(shù)據(jù)的可能,有效消除噪聲數(shù)據(jù)的影響。本文研究表明,遷移學(xué)習(xí)方法能夠解決數(shù)據(jù)流中概念變化和樣本標(biāo)注的難題。