• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種改進(jìn)的不平衡數(shù)據(jù)流集成分類算法

    2018-06-11 06:57:04劉劍橋
    關(guān)鍵詞:數(shù)據(jù)流實(shí)例分類器

    劉劍橋

    (阜陽(yáng)師范學(xué)院 語(yǔ)言實(shí)驗(yàn)室,安徽 阜陽(yáng) 236037)

    當(dāng)今信息技術(shù)快速發(fā)展,計(jì)算機(jī)需要處理的數(shù)據(jù)量越來(lái)越大,數(shù)據(jù)格式也多種多樣。這類數(shù)量巨大,并且動(dòng)態(tài)變化、不斷到來(lái)的數(shù)據(jù)稱為數(shù)據(jù)流[1]。在電子商務(wù)、傳感器網(wǎng)絡(luò)和網(wǎng)絡(luò)實(shí)時(shí)監(jiān)控等方面,數(shù)據(jù)流分類有著廣泛的應(yīng)用。但是,在這些應(yīng)用中,很多時(shí)候類分布是不平衡的。這種類分布不平衡的數(shù)據(jù)流稱之為不平衡數(shù)據(jù)流[2]。

    這些類分布不平衡的數(shù)據(jù)使得傳統(tǒng)的數(shù)據(jù)挖掘分類算法[3-4]甚至已有的數(shù)據(jù)流分類算法[5-7]面臨嚴(yán)峻的挑戰(zhàn)?,F(xiàn)有的數(shù)據(jù)流分類算法總是假定類分布是均勻的,很少有算法假定類分布是不平衡的。在這些類分布不平衡數(shù)據(jù)流的應(yīng)用中,用戶往往更關(guān)注系統(tǒng)對(duì)于少數(shù)類的分類性能。如果分類系統(tǒng)對(duì)多數(shù)類的分類性能很好,即使對(duì)少數(shù)類的分類性能很差,總體的分類性能也表現(xiàn)為較好,仍然具有較高的分類精度,這種較高的分類精度是沒有意義的。例如網(wǎng)絡(luò)入侵絕大多數(shù)是正常訪問(wèn),非正常訪問(wèn)概率一般為0.1%,如果全部檢測(cè)識(shí)別為正常訪問(wèn),精度也可以達(dá)到99.9%,很明顯這一精度對(duì)網(wǎng)絡(luò)入侵檢測(cè)是沒有意義的。

    因此,如何適應(yīng)不平衡數(shù)據(jù)流環(huán)境下構(gòu)建具有較強(qiáng)泛化能力的在線分類方法成為現(xiàn)實(shí)應(yīng)用領(lǐng)域數(shù)據(jù)處理的關(guān)鍵且具有挑戰(zhàn)的研究任務(wù)。針對(duì)數(shù)據(jù)流的類分布不平衡,本文提出了一種集成分類算法(unbalanced data stream classification algorithm,UDSC)。實(shí)驗(yàn)結(jié)果表明該算法不僅對(duì)正類有較好的分類性能,對(duì)整體也有較好的分類性能。

    1 相關(guān)工作

    1.1 不平衡數(shù)據(jù)集成分類方法

    對(duì)于不平衡數(shù)據(jù)的處理,一般是通過(guò)過(guò)抽樣和欠抽樣對(duì)不平衡數(shù)據(jù)進(jìn)行處理,使少數(shù)類實(shí)例和多數(shù)類實(shí)例的數(shù)目達(dá)到平衡。過(guò)抽樣是通過(guò)增加少數(shù)類實(shí)例的數(shù)目使少數(shù)類和多數(shù)類實(shí)例的數(shù)據(jù)平衡[8]。欠抽樣和過(guò)抽樣的處理不同,欠抽樣是減少多數(shù)類實(shí)例的數(shù)目使多數(shù)類和少數(shù)類實(shí)例的數(shù)目平衡[9]。還有一些研究重新設(shè)計(jì)或者直接改進(jìn)已有的分類算法去提高對(duì)少數(shù)類實(shí)例的分類性能[10-11]。

    1.2 WE集成分類模型

    由于集成分類器綜合了多個(gè)分類器的分類結(jié)果,通常集成分類器的分類性能好于單個(gè)分類器。Boosting[12]和Bagging[13]是兩種比較有效的集成分類方法,在靜態(tài)數(shù)據(jù)集的分類上取得較好的效果,但是不太適用于數(shù)據(jù)流環(huán)境下的數(shù)據(jù)分類。WE集成分類模型也稱為橫向集成分類模型,是一種適用于數(shù)據(jù)流環(huán)境下的分類模型。因此,本文使用基于WE集成分類模型,如圖1。WE集成分類模型對(duì)連續(xù)到達(dá)的n個(gè)數(shù)據(jù)塊D1,D2,…,Dn分別構(gòu)建相應(yīng)的分類器,每個(gè)分類器根據(jù)其分類精度進(jìn)行不同的加權(quán),分類器加權(quán)集成的結(jié)果作為最后的分類結(jié)果。隨著新數(shù)據(jù)塊的不斷到來(lái),集成分類器將會(huì)根據(jù)某種策略進(jìn)行更新。

    4.5 嚴(yán)格餐飲具清洗消毒。餐飲服務(wù)單位應(yīng)配備洗碗機(jī)或以蒸汽、煮沸等方式,嚴(yán)格落實(shí)餐飲具和工用具使用后清洗,使用前消毒,消毒后的餐飲具應(yīng)符合GB14934的規(guī)定。餐飲服務(wù)單位應(yīng)配備專用、密閉餐飲具保潔設(shè)施,消毒后餐飲具和工用具并在保潔設(shè)施內(nèi)存放。已消毒和未消毒的餐飲具和工用具應(yīng)分開存放,保潔設(shè)施內(nèi)不得存放其他物品。

    1.3 不平衡數(shù)據(jù)流分類性能的評(píng)價(jià)標(biāo)準(zhǔn)

    在分類類別為二分類的情況下,少數(shù)類一般稱之為正類,多數(shù)類稱之為負(fù)類。對(duì)類分布不平衡的數(shù)據(jù)流進(jìn)行分類,評(píng)價(jià)分類器的分類性能,僅僅使用分類精度是不夠的。通常對(duì)類分布不平衡的數(shù)據(jù)流的分類算法,評(píng)價(jià)分類器的分類性能的指標(biāo)還有查全率、查準(zhǔn)率、F-value值和G-mean等[14]。實(shí)際為正類的樣本,被正確分類的樣本數(shù)為TP,被錯(cuò)誤分類的樣本數(shù)為FN;實(shí)際為負(fù)類的樣本,被正確分類的樣本數(shù)為TN,被錯(cuò)誤分類的樣本數(shù)為FP。分類性能指標(biāo)的計(jì)算公式如下:

    公式(3)中,參數(shù)β是可以調(diào)整的,通常β值設(shè)置為1。F-value反映的是分類器對(duì)正類的分類性能,只有當(dāng)查準(zhǔn)率和查全率都增大時(shí),F(xiàn)-value的取值才會(huì)增大。G-mean反映的是分類器的總體分類性能,只有當(dāng)正類的分類精度和負(fù)類的分類精度都比較大時(shí),G-mean的取值才會(huì)增大。

    2 面向不平衡數(shù)據(jù)流的集成分類算法

    首先對(duì)本文提出的UDSC算法中涉及的符號(hào)進(jìn)行說(shuō)明:Dm是最新到達(dá)的數(shù)據(jù)塊,Dm+1是下一時(shí)刻到達(dá)的數(shù)據(jù)塊,Ei是數(shù)據(jù)塊中的第i個(gè)實(shí)例。Dm=Pm+Nm,Pm是Dm中的正類實(shí)例,Nm是Dm中的負(fù)類實(shí)例,k是集成分類器中基分類器的個(gè)數(shù),errInstP是被錯(cuò)誤分類的正類實(shí)例集合,d是更新集成分類器的閾值。

    2.1 重采樣策略

    對(duì)不平衡數(shù)據(jù)流進(jìn)行分類處理時(shí),數(shù)據(jù)預(yù)處理是一個(gè)主要的處理策略。已有的重采樣方法中隨機(jī)復(fù)制增加小類樣本容易造成過(guò)擬合和隨機(jī)刪除大類樣本易丟失有用信息,而啟發(fā)式的上采樣方法或者利用K-mean算法選擇負(fù)類樣本的下采樣方法則由于相對(duì)耗時(shí)不太適合數(shù)據(jù)流環(huán)境下的采樣操作。

    受文獻(xiàn)[15-16]的啟發(fā),本文對(duì)重采樣方法進(jìn)行改進(jìn),總的思想是對(duì)數(shù)據(jù)塊中的負(fù)類集合進(jìn)行劃分,使訓(xùn)練子集中負(fù)類實(shí)例和正類實(shí)例的數(shù)目達(dá)到平衡。具體的做法是:對(duì)當(dāng)前的數(shù)據(jù)塊Dm的負(fù)類Nm進(jìn)行劃分,劃分成k(k=|Nm|/|Pm|)個(gè)負(fù)類子集合,且互不相交。然后,子集合和當(dāng)前數(shù)據(jù)塊的正類集合Pm組合一個(gè)類分布平衡的訓(xùn)練子集。由于沒有進(jìn)行欠抽樣,沒有減少負(fù)類實(shí)例,所以,負(fù)類實(shí)例的信息沒有丟失。因?yàn)闆]有進(jìn)行不同數(shù)據(jù)塊的正類實(shí)例合并,正類實(shí)例和負(fù)類實(shí)例是在同一個(gè)數(shù)據(jù)塊中進(jìn)行合并的,所以,不會(huì)將不同數(shù)據(jù)塊中不同概念的正類實(shí)例合并到一個(gè)訓(xùn)練子集中,最大程度上保持了原有數(shù)據(jù)塊的概念分布。為了使分類器能夠適應(yīng)數(shù)據(jù)塊中新的概念,在進(jìn)行重采樣時(shí),被錯(cuò)誤分類的正類往往代表著數(shù)據(jù)流中新的概念,因此,把被錯(cuò)誤分類的正類實(shí)例加入到各個(gè)訓(xùn)練子集中。

    2.2 集成分類器的建立與更新

    通過(guò)上述重采樣策略得到k個(gè)數(shù)據(jù)分布平衡的子訓(xùn)練集后,采用支持向量機(jī)在k個(gè)子訓(xùn)練集上建立k個(gè)基分類器,基分類器的權(quán)重根據(jù)分類結(jié)果的F-value值大小確定,然后加權(quán)組合成集成分類器EC。EC對(duì)數(shù)據(jù)塊Dm+1進(jìn)行預(yù)測(cè)分類,如果數(shù)據(jù)塊的實(shí)例預(yù)測(cè)錯(cuò)誤,并且實(shí)例是正類,把該實(shí)例加入錯(cuò)誤集合errInstP。預(yù)測(cè)分類結(jié)束后,計(jì)算前一個(gè)數(shù)據(jù)塊的F-value值pF和當(dāng)前數(shù)據(jù)塊的F-value值nF,如果兩個(gè)F-value值之差小于給定閾值d,表明該集成分類器的分類性能還可以繼續(xù)使用,只需使用F-value值調(diào)整各基分類器的權(quán)重即可進(jìn)行預(yù)測(cè)下一個(gè)數(shù)據(jù)塊的分類;如果其差大于等于d,表明該集成分類器的分類性能變得較差,不能繼續(xù)使用,需要更新該集成分類器。

    在集成分類器的更新中,確定d是一個(gè)重要的問(wèn)題。如果d設(shè)置太大,集成分類器的更新條件將會(huì)變得放松,分類性能就會(huì)變差;如果d設(shè)置太小,集成分類器的更新條件將會(huì)變得苛刻,時(shí)間性能將會(huì)降低。因此,設(shè)置閾值的取值時(shí),需要考慮時(shí)間性能和分類性能的平衡。

    2.3 算法框架

    UDSC算法的總體框架如圖2所示。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 數(shù)據(jù)集

    圖2 UDSC算法框架

    為驗(yàn)證本文提出的算法UDSC對(duì)不平衡數(shù)據(jù)流分類的有效性,選取文[17]的SE算法和文[18]的ClusterS算法作為對(duì)比算法。實(shí)驗(yàn)使用具有代表性的 SEA、Hyperplane、LED、Waveform 等基準(zhǔn)人工數(shù)據(jù)集均由開源資源MOA中相應(yīng)的數(shù)據(jù)生成器生成。這些生成數(shù)據(jù)集本身不具有不平衡性,為了模擬不平衡數(shù)據(jù)流,本文從原始的數(shù)據(jù)流中抽取了正類實(shí)例數(shù)目比例為p%(p=5,10,15)、塊大小為1K的100個(gè)數(shù)據(jù)塊組成不平衡數(shù)據(jù)流。

    3.2 分類性能

    為驗(yàn)證本文提出的UDSC算法對(duì)不平衡數(shù)據(jù)流的分類性能,本文將UDSC算法與SE算法和ClusterS算法在數(shù)據(jù)集SEA、Hyperplane、LED和Waveform上進(jìn)行對(duì)比實(shí)驗(yàn)。對(duì)于d的取值,很難從理論上確定設(shè)置多少比較合適,為此,本文進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明d的取值為0.1時(shí)分類效果較好。因此,d取0.1,其他基準(zhǔn)算法采用相應(yīng)文獻(xiàn)中設(shè)置的參數(shù)值。評(píng)價(jià)指標(biāo)為F-value值和G-mean值,F(xiàn)-value值的大小反映的是分類器的正類分類性能,G-mean值的大小反映的是分類器的整體分類性能。下面對(duì)不同正類比例條件下的不平衡數(shù)據(jù)流進(jìn)行實(shí)驗(yàn)。

    實(shí)驗(yàn)結(jié)果如圖3所示??煽闯?,本文提出的算法對(duì)正類的分類性能優(yōu)于其他基準(zhǔn)算法;在實(shí)驗(yàn)數(shù)據(jù)集上,本文提出的算法對(duì)整體的分類性能優(yōu)于其他基準(zhǔn)算法。

    從上述的實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法對(duì)不同正類比例的不同數(shù)據(jù)集在F-value和G-mean評(píng)價(jià)指標(biāo)上都獲得了較好的結(jié)果。分析上述實(shí)驗(yàn)結(jié)果,其原因是本文采用的重采樣方法,沒有進(jìn)行欠抽樣,也沒有進(jìn)行不同數(shù)據(jù)塊的正類實(shí)例合并,最大程度上保持了原有數(shù)據(jù)塊的概念分布;本文采用的WE集成分類模型是一種比較適用于數(shù)據(jù)流環(huán)境的分類模型,最終的分類結(jié)果是依據(jù)多個(gè)基分類器的分類結(jié)果綜合確定的,這在一定程度上減弱了噪音數(shù)據(jù)對(duì)分類精度的影響。因此,本文提出的UDSC算法不僅對(duì)正類有較好的分類性能,對(duì)整體也有較好的分類性能。

    圖3 不同比例的正類實(shí)例測(cè)試結(jié)果

    4 小結(jié)

    目前大多數(shù)數(shù)據(jù)流分類算法都是針對(duì)類分布平衡的數(shù)據(jù)流,而實(shí)際應(yīng)用中存在大量類分布不平衡的數(shù)據(jù)流。對(duì)于類分布不平衡的數(shù)據(jù)流,不僅關(guān)注整體的分類性能,而且還關(guān)注少數(shù)類的分類性能。針對(duì)類分布不平衡的數(shù)據(jù)流,本文提出一種改進(jìn)的集成分類算法。首先,針對(duì)數(shù)據(jù)流的類分布不平衡,采用改進(jìn)的重采樣方法,建立平衡的訓(xùn)練子集;然后,采用支持向量機(jī)在平衡的訓(xùn)練子集上建立基分類器;最后,采用WE集成模型組合基分類器,構(gòu)建不平衡數(shù)據(jù)流的集成分類器。該算法通過(guò)設(shè)定相鄰數(shù)據(jù)塊的F-value的差值大于等于某一閾值作為更新分類器的標(biāo)準(zhǔn),同時(shí)在更新分類器時(shí)引入錯(cuò)分正類實(shí)例重新訓(xùn)練基分類器。實(shí)驗(yàn)結(jié)果表明該算法不僅對(duì)正類有較好的分類性能,對(duì)整體也有較好的分類性能。

    猜你喜歡
    數(shù)據(jù)流實(shí)例分類器
    汽車維修數(shù)據(jù)流基礎(chǔ)(下)
    BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
    一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
    北醫(yī)三院 數(shù)據(jù)流疏通就診量
    完形填空Ⅱ
    完形填空Ⅰ
    基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
    喀喇| 德阳市| 梧州市| 黔西县| 九龙城区| 科技| 宣恩县| 巴东县| 金乡县| 云霄县| 灵川县| 安陆市| 深泽县| 永福县| 丰原市| 松桃| 合江县| 望都县| 禹州市| 方正县| 宣武区| 图们市| 北京市| 陆丰市| 都江堰市| 通山县| 芮城县| 大姚县| 黎平县| 靖宇县| 游戏| 宜都市| 安新县| 霍城县| 开远市| 勃利县| 瓮安县| 北宁市| 余干县| 泽普县| 历史|