季夢遙 袁磊
摘 要:數(shù)據(jù)流廣泛存在于現(xiàn)實(shí)應(yīng)用中,重現(xiàn)概念漂移和數(shù)據(jù)分布不平衡性是其重要特性,它們會導(dǎo)致傳統(tǒng)數(shù)據(jù)流分類器負(fù)偏離、性能下降及學(xué)習(xí)時間倍增。針對重現(xiàn)概念漂移和數(shù)據(jù)分布不平衡的特點(diǎn),本文提出重現(xiàn)概念漂移不平衡數(shù)據(jù)流的隨機(jī)平衡采樣集成分類算法(RBSRISEA),首先用隨機(jī)平衡采樣算法重新平衡數(shù)據(jù)分布,之后對預(yù)處理的數(shù)據(jù)流再進(jìn)行重現(xiàn)概念漂移探測。實(shí)驗(yàn)表明,RBSRISEA對重現(xiàn)概念漂移有較強(qiáng)的敏感性和泛化能力。RBSRISEA可以處理帶重現(xiàn)概念漂移的不平衡數(shù)據(jù)流分類問題。
關(guān)鍵詞:重現(xiàn)概念漂移;不平衡流數(shù)據(jù);隨機(jī)采樣;集成分類器
中圖分類號:TP311.11
文獻(xiàn)標(biāo)識碼: A