申 彥, 朱玉全, 宋新平
(1. 江蘇大學(xué) 管理學(xué)院, 江蘇 鎮(zhèn)江 212013; 2. 江蘇大學(xué) 計算機科學(xué)與通信工程學(xué)院, 江蘇 鎮(zhèn)江 212013)
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及交互式智能終端的大量普及,建立在這些平臺上的應(yīng)用以數(shù)據(jù)流的方式產(chǎn)生了大量的數(shù)據(jù)集.以數(shù)據(jù)流形式積累下來的大數(shù)據(jù)特點是其數(shù)據(jù)生成的概率分布是不斷變化的,由此引出了非穩(wěn)定環(huán)境中累積大數(shù)據(jù)的分類挖掘問題.
非穩(wěn)定環(huán)境中對累積大數(shù)據(jù)進行的分類挖掘在實際應(yīng)用中非常常見與典型.比如在推薦系統(tǒng)中,系統(tǒng)根據(jù)用戶的購買記錄以及瀏覽歷史進行分類學(xué)習(xí)與預(yù)測,根據(jù)預(yù)測結(jié)果向用戶推送其可能購買的其他物品.顯然,用戶的購買與瀏覽行為受到季節(jié)、潮流趨勢、自身年齡的影響,是典型的非穩(wěn)定環(huán)境中產(chǎn)生的數(shù)據(jù).再比如國家電網(wǎng)管理中的能源需求預(yù)測.隨著智能電表的普遍安裝,國家電網(wǎng)管理系統(tǒng)中已經(jīng)積累了大量的用戶用電數(shù)據(jù),可用于能源消耗預(yù)測與管理.各用戶的用電數(shù)據(jù)也是典型的非穩(wěn)定環(huán)境中產(chǎn)生的流式數(shù)據(jù),受到新技術(shù)、行業(yè)周期、供給需求、季節(jié)以及人口等因素的影響.
在分類學(xué)習(xí)的算法研究方面,學(xué)者們先期已經(jīng)進行了大量深入、細(xì)致地工作.然而,傳統(tǒng)的分類學(xué)習(xí)算法在數(shù)據(jù)集發(fā)生改變時,要求再次讀取全部數(shù)據(jù)集,重新進行分類學(xué)習(xí).傳統(tǒng)增量分類學(xué)習(xí)算法沒有特別處理環(huán)境所發(fā)生的變化.新近出現(xiàn)的一些增量分類學(xué)習(xí)算法雖然能夠處理非穩(wěn)定環(huán)境下產(chǎn)生的數(shù)據(jù)流,但對環(huán)境的變化提出了諸多限制,比如只能處理漸變的、非周期性的環(huán)境所產(chǎn)生的數(shù)據(jù).此外,在一定條件下,如分類準(zhǔn)確率、召回率下降到預(yù)設(shè)值時,算法要求再次讀取全部數(shù)據(jù)進行分類知識的重新學(xué)習(xí).針對非穩(wěn)定環(huán)境中累積產(chǎn)生的大數(shù)據(jù)直接應(yīng)用傳統(tǒng)的分類學(xué)習(xí)算法往往達(dá)不到預(yù)期的分類效果,因此,針對該類型的大數(shù)據(jù)研發(fā)新型的分類學(xué)習(xí)算法十分必要且具有實用價值.
由于典型應(yīng)用眾多,近期針對非穩(wěn)定環(huán)境中累積產(chǎn)生的大數(shù)據(jù)進行分類學(xué)習(xí)的研究日益增多,成為大數(shù)據(jù)挖掘研究領(lǐng)域的熱點.在該研究領(lǐng)域,相繼涌現(xiàn)出一批新型的有效的分類學(xué)習(xí)算法,如采用了環(huán)境變化主動檢測機制的ADWIN2[1],CUSUM[2]以及ICI-based JIT[3]等算法,以及采用了環(huán)境變化被動檢測機制的OLIN[4],SEA[5],DWM[6],Learn++.NSE[7]等算法.在這些算法中,值得關(guān)注的是新近提出的一種采用了多分類器時序集成的Learn++.NSE分類學(xué)習(xí)算法.如文獻(xiàn)[7]所述,在針對非穩(wěn)定環(huán)境中產(chǎn)生的多種數(shù)據(jù)集進行分類學(xué)習(xí)的過程中,Learn++.NSE取得了比SEA以及DWM更高的分類準(zhǔn)確率.然而,Learn++.NSE算法僅考慮了依據(jù)各基分類器的分類準(zhǔn)確率進行多時間步驟加權(quán),最終多數(shù)投票集成,但是各基分類器之間相互獨立,并沒有形成幫助機制.該集成分類器的分類準(zhǔn)確率有待進一步提高.
因此,筆者針對非穩(wěn)定環(huán)境中累積大數(shù)據(jù)的分類挖掘問題,在Learn++.NSE算法的基礎(chǔ)之上,提出一種采用漸進學(xué)習(xí)模式的SBS-CLearning分類算法.該算法在各階段基分類器的學(xué)習(xí)過程中,考慮基分類器之間的依存關(guān)系,后階段基分類器在前階段基分類器的基礎(chǔ)之上進行增量學(xué)習(xí)產(chǎn)生,并最終時序加權(quán)集成.新的分類學(xué)習(xí)方法更接近人類的學(xué)習(xí)思維過程,能提高針對非穩(wěn)定環(huán)境中累積大數(shù)據(jù)分類學(xué)習(xí)的準(zhǔn)確率.
假定數(shù)據(jù)產(chǎn)生環(huán)境η會定期以不確定的聯(lián)合分布概率p(xt,yt)產(chǎn)生元組序列(xt,yt),xt表示數(shù)據(jù),yt表示數(shù)據(jù)類別.如果后驗概率p(yt|xt)滿足p(yt|xt)≠p(yt+1|xt+1),則定義為環(huán)境η發(fā)生了變化,這樣的環(huán)境η稱為非穩(wěn)定環(huán)境.
近年來,針對非穩(wěn)定環(huán)境中產(chǎn)生的大數(shù)據(jù),提出了一批新穎、有效的分類學(xué)習(xí)算法.這些算法依據(jù)對環(huán)境變化適應(yīng)機制的不同可以分為主動檢測和被動學(xué)習(xí)2類.
主動檢測類型的算法內(nèi)含環(huán)境變化檢測機制,在檢測到環(huán)境發(fā)生變化時,觸發(fā)適應(yīng)機制,調(diào)整產(chǎn)生新的分類器,屬于檢測-響應(yīng)類型的方法.環(huán)境變化檢測方法通過觀測生成數(shù)據(jù)的值以及分類器的錯誤率去判斷環(huán)境是否有變化發(fā)生.常見的環(huán)境變化檢測方法有假設(shè)檢驗、變動點檢測、序列假設(shè)檢驗、變動檢驗等.常見的算法有CUSUM以及ICI-based JIT等.CUSUM是一種基于控制圖譜主動檢測技術(shù)的分類算法.該算法通過不斷評估數(shù)據(jù)概率密度函數(shù)的似然率去判斷數(shù)據(jù)的產(chǎn)生環(huán)境是否發(fā)生了變化,從而觸發(fā)調(diào)節(jié)分類器的機制.ICI-based JIT算法利用置信區(qū)間的交集(ICI)檢測環(huán)境的變化,利用環(huán)境變化發(fā)生的時刻點到現(xiàn)階段的數(shù)據(jù)樣本訓(xùn)練分類器.此外,還有基于置信區(qū)間的LOLIN算法以及其他基于統(tǒng)計技術(shù)的方法等[8].這些算法把非穩(wěn)定環(huán)境下的學(xué)習(xí)問題看成是一種環(huán)境變化的預(yù)測問題或者看成是一種分類器懲罰函數(shù)的最小化問題[9].
被動學(xué)習(xí)算法則認(rèn)為環(huán)境會時刻發(fā)生變化,算法本身無需進行環(huán)境變化檢測,但需要時時調(diào)整自身以適應(yīng)環(huán)境的變化.被動學(xué)習(xí)類型的算法可進一步分為單分類器算法和多分類器集成算法.單分類器算法針對非穩(wěn)定環(huán)境產(chǎn)生的變化數(shù)據(jù)集僅建立單一分類器,通過調(diào)整單一分類器的參數(shù)及結(jié)構(gòu)適應(yīng)環(huán)境的變化.相比多分類器集成算法,單分類器被動學(xué)習(xí)算法計算量較低,但適應(yīng)性較差,其中典型的算法有CVFDT[10],ELM-TV[11]等.CVFDT算法對變化的數(shù)據(jù)增加自適應(yīng)的滑動窗口,利用窗口內(nèi)的數(shù)據(jù)動態(tài)訓(xùn)練快速決策樹VFDT以處理非穩(wěn)定環(huán)境.EML-TV算法對快速學(xué)習(xí)算法ELM進行時變加權(quán)以滿足在非穩(wěn)定環(huán)境中進行分類學(xué)習(xí).在針對非穩(wěn)定環(huán)境的分類學(xué)習(xí)算法中,多分類器集成算法相比單分類器算法更受歡迎.理論分析與試驗驗證表明,多分類器集成算法相比單分類器算法可以提供更穩(wěn)定的結(jié)果[12].多分類器之間的差異性可以更好地追蹤環(huán)境發(fā)生的變化.SEA(streaming ensemble algorithm)算法[5]是典型的多分類器集成算法.SEA算法針對非穩(wěn)定環(huán)境產(chǎn)生的每一批數(shù)據(jù)集建立一個分類器并加入到集成分類器當(dāng)中.SEA算法固定集成分類器的容量,當(dāng)超過預(yù)設(shè)的容量值后,SEA會根據(jù)分類器的性能,如建立時間、分類準(zhǔn)確率等,利用新分類器替換出集成中最弱的分類器.DWM[6]也是經(jīng)典的多分類器集成算法之一.DWM利用多分類器的加權(quán)多數(shù)投票產(chǎn)生最終的分類結(jié)果.與SEA不同的是,DWM允許自適應(yīng)的調(diào)整集成容量的大小.
在針對非穩(wěn)定環(huán)境的分類學(xué)習(xí)算法中,值得關(guān)注的是最近由R. ELWELL等[7]提出的Learn++.NSE算法,研究結(jié)果表明,相比較SEA以及DWM算法,Learn++.NSE獲得了更高的分類準(zhǔn)確率.此外,Learn++.NSE算法還能夠處理上述算法不能很好處理的變速率以及周期性變化的環(huán)境.Learn++.NSE算法利用sigmoid時序調(diào)整的損失函數(shù)加權(quán)不同時期產(chǎn)生的基分類器,使得近期分類準(zhǔn)確率較高的基分類器獲得更高的投票權(quán)重.文獻(xiàn)[13]的研究結(jié)果表明直接進行分類器的修剪會降低集成分類器的分類準(zhǔn)確率,因此,Learn++.NSE保留所有已產(chǎn)生的分類器,并不進行修剪.試驗結(jié)果證明了Learn++.NSE是目前針對非穩(wěn)定環(huán)境的一種有效增量分類學(xué)習(xí)方法,適用于分階段、遞進處理大數(shù)據(jù).
筆者以Learn++.NSE算法作為優(yōu)化對象,修改其基分類器的訓(xùn)練機制,使得原來每個基分類器的獨立訓(xùn)練模式優(yōu)化成為相互依存的漸進學(xué)習(xí)模式,進一步提高算法的分類準(zhǔn)確率,滿足大數(shù)據(jù)挖掘應(yīng)用的需求.
Learn++.NSE是一種批處理的集成學(xué)習(xí)分類算法.集成中每個基分類器的權(quán)重是根據(jù)該分類器近期以及過去的分類準(zhǔn)確率進行時序加權(quán)計算得出.最后根據(jù)多個基分類器進行加權(quán)的多數(shù)投票,產(chǎn)生最終的集成學(xué)習(xí)結(jié)果.Learn++.NSE是典型的被動學(xué)習(xí)算法.該算法不對環(huán)境可能產(chǎn)生的變化進行檢測,而是根據(jù)環(huán)境的不同變化時刻更新集成學(xué)習(xí)的結(jié)果.此外,Learn++.NSE是一種純增量學(xué)習(xí)算法,僅需讀取數(shù)據(jù)集一遍即可產(chǎn)生分類學(xué)習(xí)的結(jié)果,無需再次訪問已經(jīng)讀取過的數(shù)據(jù)集.Learn++.NSE是針對非穩(wěn)定環(huán)境而提出的分類學(xué)習(xí)算法,可處理各種環(huán)境變化,包括漸進的、周期性的、突發(fā)的環(huán)境變化,對變速率的非穩(wěn)定環(huán)境也能很好地處理,并且允許數(shù)據(jù)集增添、刪減類別.
定義如下判斷函數(shù):
則Learn++.NSE算法的詳細(xì)流程如下:
輸入: 每個數(shù)據(jù)集dt,t=1,2,…,n, (dt的表達(dá)式為xt(i),xt(i)∈X)以及類別值yt(i)(yt(i)=Y∈{1,2,…,c},i=1,2,…,mt);一種監(jiān)督學(xué)習(xí)算法;sigmoid的取值范圍參數(shù)a以及交叉點參數(shù)b.
輸出: 綜合分類結(jié)果Ht.
① 計算出當(dāng)前集成分類器在新數(shù)據(jù)集上的錯誤率:
② 更新以及規(guī)范化實例權(quán)重:
④ 在新數(shù)據(jù)集dt上計算現(xiàn)有所有基分類器的分類性能,即
k=1,2,…,t.
⑤ 計算時刻k產(chǎn)生的分類器在時刻t時的加權(quán)平均規(guī)范化錯誤率,即
⑥ 計算每個基分類器的投票權(quán)重:
⑦ 得到最終的分類結(jié)果為
產(chǎn)生最終集成的基分類器BaseClassifier,建議采用強分類器.可根據(jù)應(yīng)用的需求靈活選擇.參數(shù)a,b用于控制sigmoid函數(shù)的形態(tài).
試驗結(jié)果表明了Learn++.NSE算法相比單分類器算法、SEA以及DWM算法大幅提高了分類的準(zhǔn)確率[7].
分析Learn++.NSE的算法細(xì)節(jié)可以看出,在Learn++.NSE中,前一個階段的基分類器和后一個階段的基分類器都是由該階段的數(shù)據(jù)集獨立訓(xùn)練產(chǎn)生,彼此之間沒有依存關(guān)系.也就是說,前一階段產(chǎn)生的基分類器并沒有對后一階段基分類器的產(chǎn)生提供幫助,僅在形成最終結(jié)果時進行了時序集成,如圖1所示.這與一般人類學(xué)習(xí)的過程不同.人類總是善于學(xué)習(xí)、總結(jié)知識,利用已經(jīng)掌握的知識幫助后續(xù)知識的學(xué)習(xí),知識之間存在依存性.這樣才能在前人的基礎(chǔ)之上,不斷學(xué)習(xí)新知識,不斷提高,形成良性循環(huán),使人類在成長過程中接受海量的信息.因此,借鑒人類的學(xué)習(xí)過程,優(yōu)化Learn++.NSE算法基分類器的訓(xùn)練過程,提出了一種采用漸進學(xué)習(xí)模式的SBS-CLearning分類算法.
圖1 Learn++.NSE算法分析
SBS-CLearning算法本質(zhì)上是把圖1所示的Learn++.NSE的學(xué)習(xí)模式轉(zhuǎn)變?yōu)閳D2所示的漸進學(xué)習(xí)模式.
圖2 SBS-CLearning算法分析
借鑒人類的學(xué)習(xí)過程,采用漸進學(xué)習(xí)模式的SBS-CLearning算法不僅可以依靠采用時序加權(quán)的多分類器集成方法處理各種復(fù)雜非穩(wěn)定環(huán)境中產(chǎn)生的數(shù)據(jù),而且可以依靠在每階段進行漸進學(xué)習(xí)所產(chǎn)生的基分類器,進一步提高分類學(xué)習(xí)的準(zhǔn)確率.
使用文獻(xiàn)[7]所描述的數(shù)據(jù)集(http:∥users.rowan.edu/~polikar/research/nse/)對SBS-CLear-ning算法的性能進行測試,在分類準(zhǔn)確率方面與Learn++.NSE算法、單分類器算法進行對比分析.試驗環(huán)境為ThinkPad T460P,CPU為Core i7-6700@2.6 GHz,8 GB內(nèi)存,64位Win10操作系統(tǒng).所有的試驗遵循以下設(shè)定: ① 試驗從時刻點t=0開始,執(zhí)行到時刻點t=1截止.在這個單位時間段內(nèi)將有T批數(shù)據(jù)集逐步到達(dá),進行分類器的訓(xùn)練.這T批數(shù)據(jù)將由不同的非穩(wěn)定環(huán)境產(chǎn)生.非穩(wěn)定環(huán)境的變化情況、產(chǎn)生數(shù)據(jù)的概率分布事先均不知.較小數(shù)值的T表示單位時間內(nèi)算法遇到較少批數(shù)量的數(shù)據(jù)集,因而代表算法遇到了較大的環(huán)境變化.反之,則表示環(huán)境變化較小.② 試驗時,SBS-CLearning與Learn++.NSE、單分類器算法均使用相同的參數(shù),相同的基分類器NativeBayesUpdateable.NativeBayesUpdateable采用Weka中樸素貝葉斯的增量學(xué)習(xí)實現(xiàn).③ 每個算法獨立運行50次,記錄下每個時刻點的分類準(zhǔn)確率,求其平均值.因為單分類器算法僅需在最新一批數(shù)據(jù)集上進行訓(xùn)練,因而能夠最快速地追蹤環(huán)境的變化,然而也會部分丟失原有已學(xué)習(xí)的分類知識.所以,加入單分類器算法進行對比,可知SBS-CLearning與Learn++.NSE能否從多分類器集成中獲益.
SEA數(shù)據(jù)集是由提出SEA算法的文獻(xiàn)引入的數(shù)據(jù)集[7],現(xiàn)在已經(jīng)成為了測試非穩(wěn)定環(huán)境的基準(zhǔn)測試數(shù)據(jù)集.該數(shù)據(jù)集由3個數(shù)值型屬性與1個2值類標(biāo)簽組成.3個屬性中前2個屬性與類標(biāo)簽直接相關(guān),如果兩者之和大于預(yù)設(shè)閾值σt,則類標(biāo)簽為1,反之類標(biāo)簽則為2.第3個屬性也為數(shù)值型屬性,但與類標(biāo)簽無關(guān),在此引入僅為增加分類學(xué)習(xí)的難度.在預(yù)設(shè)的時刻點,σt將會突發(fā)變化.因此,該數(shù)據(jù)集用于模擬環(huán)境發(fā)生突然變化的情況.在本次試驗中,閾值σt分別在時刻點T=50次,T=100次,T=150次發(fā)生了3次改變(8.0→9.0→7.5→9.5).試驗過程如文獻(xiàn)[7]所述:總共50 000條記錄分批用于模擬突變環(huán)境,共分200批數(shù)據(jù)(T=200).從對應(yīng)批次環(huán)境中抽取獨立的500 000條無噪音數(shù)據(jù)組成測試數(shù)據(jù)集,用于驗證算法的分類準(zhǔn)確率.試驗結(jié)果如圖3所示.
圖3 SEA數(shù)據(jù)集的分類準(zhǔn)確率
由圖3可見,因為數(shù)據(jù)環(huán)境的不斷變化,單分類器算法分類結(jié)果不穩(wěn)定.相反,Learn++.NSE和SBS-CLearning受益于時序加權(quán)的多分類器集成,在非穩(wěn)定環(huán)境中獲得了相對穩(wěn)定的分類準(zhǔn)確率.此外,在發(fā)生突變的3個時刻點,3種算法的分類準(zhǔn)確率均下降,但Learn++.NSE以及SBS-CLearning算法可以很快在其后的穩(wěn)定環(huán)境中恢復(fù)性能,并獲得比單分類器更高的分類準(zhǔn)確率,體現(xiàn)出了多分類器集成的優(yōu)勢.最后,在整個試驗過程中,SBS-CLearning相比Learn++.NSE算法獲得了更加穩(wěn)定的分類準(zhǔn)確率,并且隨著學(xué)習(xí)過程的累積,SBS-CLearning相比Learn++.NSE在準(zhǔn)確率方面的提升更加明顯.
計算得出3種算法在不同時刻分類準(zhǔn)確率的平均值如下:Single,0.954;Learn++.NSE,0.976;SBS-CLearning,0.982.可見SBS-CLearning相比Learn++.NSE在總體上提高了非穩(wěn)定環(huán)境下的分類準(zhǔn)確率.
旋轉(zhuǎn)棋盤數(shù)據(jù)集是一個二維旋轉(zhuǎn)棋盤的非高斯數(shù)據(jù)集,如圖4所示.
圖4 旋轉(zhuǎn)棋盤分類問題
棋盤不同的旋轉(zhuǎn)速率使得識別紅黑區(qū)域的樣本成為非穩(wěn)定環(huán)境下的一個富有挑戰(zhàn)性的分類學(xué)習(xí)問題.參數(shù)α表示抽樣窗口中旋轉(zhuǎn)棋盤左下角的旋轉(zhuǎn)角度.值得注意的是該分類場景為一個周期性的分類場景,每隔π rad旋轉(zhuǎn)角度分類場景會重復(fù)出現(xiàn),也就是說π~2πrad的分類場景等同于0~πrad.為了避免出現(xiàn)完全相同的分類場景,增加分類學(xué)習(xí)的難度,原數(shù)據(jù)集中增加了10%的噪音數(shù)據(jù).每批數(shù)據(jù)由抽樣窗口中的25個實例組成.每次的測試數(shù)據(jù)集由當(dāng)前抽樣窗口,按照32×32解析度抽取的1 024個帶有真實類標(biāo)簽的數(shù)據(jù)點組成.
試驗中T設(shè)置為400次,即從時刻t=0到時刻t=1共分為400個時隙,旋轉(zhuǎn)2π rad,但旋轉(zhuǎn)速率變化不同.本次試驗共測試了如下3種不同的變化率: ① Constant變化,每次勻速旋轉(zhuǎn)2π/400 rad; ② Sinusoidal變化,旋轉(zhuǎn)的速率變化符合Sinusoidal函數(shù); ③ Pulse變化,旋轉(zhuǎn)速率的變化符合Pulse高斯函數(shù).3種不同的旋轉(zhuǎn)變化率函數(shù)如圖5所示,而分類準(zhǔn)確率見圖6-8,表1給出了分類準(zhǔn)確率均值.
圖5 棋盤的旋轉(zhuǎn)變化率
圖6 Constant變化的分類準(zhǔn)確率
圖7 Sinusoidal變化的分類準(zhǔn)確率
圖8 Pulse變化的分類準(zhǔn)確率
旋轉(zhuǎn)變化分類準(zhǔn)確率均值SingleLearn++.NSESBS-CLearningConstant0.5300.5930.624Sinusoidal0.5270.6330.655Pulse0.5200.6290.662
觀察試驗結(jié)果(圖6-8)可見,采用了多分類器時序集成的Learn++.NSE以及SBS-CLearning算法均取得了比單分類器算法更高的分類準(zhǔn)確率.另外,集成分類器的分類準(zhǔn)確率與棋盤旋轉(zhuǎn)的快慢成反比.比如在Pulse旋轉(zhuǎn)變化率的兩端及Sinusoida旋轉(zhuǎn)變化率的中部,Learn++.NSE和SBS-CLear-ning算法提高分類準(zhǔn)確率的幅度更加顯著.值得注意的是,SBS-CLearning采用增量學(xué)習(xí)算法形成了漸進學(xué)習(xí)模式,使得被集成的基分類器不但學(xué)習(xí)到了新數(shù)據(jù)集所蘊含的信息,還保留了大部分原來已學(xué)習(xí)到的信息,因而更具適應(yīng)性.在旋轉(zhuǎn)棋盤試驗的3種不同旋轉(zhuǎn)變化率下,SBS-CLearning算法均進一步提高了分類的準(zhǔn)確率,并且可以看出,依靠漸進學(xué)習(xí)模式其分類準(zhǔn)確率的提高存在積累性,這體現(xiàn)出了算法優(yōu)化的效果.
基于Learn++.NSE算法,優(yōu)化算法內(nèi)部學(xué)習(xí)機制,轉(zhuǎn)變原來的獨立學(xué)習(xí)模式為漸進學(xué)習(xí)模式,提出了一種采用漸進學(xué)習(xí)模式的SBS-CLearning分類算法.SBS-CLearning內(nèi)部采用增量學(xué)習(xí)算法,使得被集成的基分類器在學(xué)習(xí)了新一批數(shù)據(jù)集的分類知識后仍然大部分保留了原來的知識,更進一步提高了針對分批而至、逐步積累的大數(shù)據(jù)的分類準(zhǔn)確率.
雖然通過試驗證明了SBS-CLearning分類算法能夠提高針對非穩(wěn)定環(huán)境產(chǎn)生的累積數(shù)據(jù)的分類準(zhǔn)確率,但是目前的測試數(shù)據(jù)集采用的是人工生成數(shù)據(jù)集,對分類準(zhǔn)確率的提高也沒有進行理論分析,筆者將在后續(xù)的工作過程中對算法進行深入研究,探究算法提高分類準(zhǔn)確率的理論依據(jù)并將該算法投入到更多實際的應(yīng)用當(dāng)中.