陳風(fēng)妹
摘要:本文針對(duì)目前人們對(duì)分類性能的高要求和多分類器集成實(shí)現(xiàn)的復(fù)雜性,從分類器分類錯(cuò)誤的分布特性和識(shí)別性能出發(fā),對(duì)基于核聚類的多分類器選擇算法內(nèi)容及應(yīng)用要點(diǎn)進(jìn)行了探討。這種算法是圍繞核的可能性聚類算法作為核心構(gòu)建的,找出各分類器在特征空間中局部性能較好的區(qū)域,并利用具有最優(yōu)局部性能的分類器的輸出作為最終的集成結(jié)果。理論分析和實(shí)驗(yàn)結(jié)果表明:該算法具有很好的分類性能。
關(guān)鍵詞:多分類器集成;核聚類;分類器的選擇
1 引言
近年來(lái),分類器集成化成為了計(jì)算機(jī)行業(yè)相關(guān)設(shè)備及機(jī)器識(shí)別技術(shù)的研究新方向,并且隨著學(xué)者的深入研究,也促成了計(jì)算機(jī)技術(shù)水平的提高和多分類集成器的改革與優(yōu)化。傳統(tǒng)的多分類集成模式采用的均是分類器輸出的綜合,其輸出端設(shè)計(jì)是根據(jù)測(cè)試樣本的類型而確定的,采用合適的集成算法集成多分類器輸出的每一個(gè)結(jié)果,最終得出決策的最終結(jié)果。多分類器輸出的集成是在分類器相互獨(dú)立的假設(shè)下進(jìn)行分類的,而為了更好地解決集成算法設(shè)計(jì)與實(shí)際使用需求之間存在的矛盾問(wèn)題,需要憑借現(xiàn)有技術(shù)設(shè)計(jì)和優(yōu)化采用全新計(jì)算路徑的集成算法。同時(shí)也可以從另外一個(gè)角度來(lái)考慮,這就是設(shè)計(jì)多分類器選擇的模式識(shí)別系統(tǒng)。
由于分類器在特征空間中不同區(qū)域的性能參數(shù)往往不盡相同,因此分類器選擇模式識(shí)別系統(tǒng)的核心技術(shù)便是通過(guò)對(duì)樣本所在區(qū)域的特征分析,實(shí)現(xiàn)對(duì)分類器性能選擇方案的最優(yōu)化處理。并以該分類器的輸出作為整個(gè)集成系統(tǒng)的輸出結(jié)果。
本文提出了一種新的多分類集成算法一一基于可能性核聚類的多分類器集成算法。這種算法的創(chuàng)新性在于將核的可能性聚類作為算法運(yùn)行時(shí)參照的主要標(biāo)準(zhǔn),能夠科學(xué)地對(duì)樣本特征空間進(jìn)行識(shí)別與分類,然后根據(jù)分類器對(duì)各聚類中的測(cè)試樣本的分類誤判率決定每個(gè)聚類的特征區(qū)域上的最優(yōu)分類器;測(cè)試樣本周圍局部性能最優(yōu)的分類器的輸出作為最后的集成結(jié)果。
2 可能性核聚類算法原理
2.1 聚類分析
與傳統(tǒng)模式識(shí)別方式相比,聚類分析方法對(duì)于具有一定“相似度”的特征模式的劃分更加高效而科學(xué),這對(duì)于解決實(shí)際的預(yù)算問(wèn)題提供了很大的幫助。聚類分析的主要特點(diǎn)在于,它所劃分出的不同特征模式之間既在某種度量上保持了較好的相似關(guān)系,同時(shí)又將不同集合和特征模式之間的區(qū)分度變得更加明顯,因此脫離了傳統(tǒng)而簡(jiǎn)單的分類效果。聚類分析方法的應(yīng)用優(yōu)勢(shì)是能夠不依靠對(duì)分類數(shù)據(jù)屬性的依賴,在無(wú)監(jiān)督的學(xué)習(xí)環(huán)境下自主探尋目標(biāo)的分類屬性值,對(duì)于分析對(duì)象之間相似性與差異性的更為全面和客觀。同時(shí),聚類分析是通過(guò)獲取研究對(duì)象的真實(shí)參數(shù)和屬性值作為進(jìn)一步計(jì)算的理論基礎(chǔ),因此運(yùn)行算法后得出的結(jié)果與事物本身的實(shí)際情況存
2.3可能性核聚類算法定義及內(nèi)容描述研究
KPCM[3]算法以是核函數(shù)與PCM的聚類算法作為融合基礎(chǔ)形成的一種復(fù)合算法。在該算法的運(yùn)行環(huán)境下能夠有效發(fā)揮出核函數(shù)的價(jià)值,將在觀察空間線性不可分的樣本非線性映射到高維的特征空間而變得線性可分,這樣樣本特征經(jīng)很好的分辨、提取并放大后,可以實(shí)現(xiàn)更為準(zhǔn)確的聚類。而且只要非線性映射是連續(xù)和光滑的,觀察空間中樣本的拓?fù)浣Y(jié)構(gòu)將會(huì)在高維特征空間中得到保持,并且基于核的聚類算法在類分布不為超球體或超橢圓體時(shí)依然有效。
高斯核函數(shù)作為可能性核聚類算法中組成內(nèi)容發(fā)揮了不可或缺的重要作用,在計(jì)算其目標(biāo)函數(shù)時(shí)應(yīng)按照以下公式進(jìn)行:
3 基于核聚類的多分類器的選擇算法
多分類器選擇系統(tǒng)[4]從多個(gè)分類器中參照樣本識(shí)別的結(jié)果選擇分類標(biāo)準(zhǔn)最科學(xué)的一種分類器,并且為了便于對(duì)數(shù)據(jù)進(jìn)行管理還要在樣本類別中添加分類器運(yùn)算結(jié)果。圖1為多分類器選擇的基本模型。
本文給出的基于核聚類的多分類器選擇算法。首先利用bagging方法[5]訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器,之后以樣本特征空間的分布情況作為作為參照標(biāo)準(zhǔn)實(shí)現(xiàn)聚類分析,然后按照分析得出的原始數(shù)據(jù)結(jié)果對(duì)每個(gè)聚類的識(shí)別率進(jìn)行計(jì)算和比較,將其中具有最高識(shí)別率的分類器作為整個(gè)綜合運(yùn)算的決策結(jié)果:
3.1用bagging方法訓(xùn)練分類器
利用bagging方法對(duì)訓(xùn)練樣本集進(jìn)行多次抽樣,產(chǎn)生新的新的樣本子集。用所得的樣本子集對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,產(chǎn)生多個(gè)神經(jīng)網(wǎng)絡(luò)分類器。
3.2 空間特征的聚類方法
對(duì)于大部分空間特征而言,基于核的可能性原理聚類分析方法大多是以聚類中心的數(shù)目C作為識(shí)別對(duì)象和運(yùn)算目標(biāo)的,在運(yùn)算時(shí)按照分類方法與聚類分析的原理逐步進(jìn)行求解。在完成對(duì)不同特征空間的聚類后,要按照聚類中心的數(shù)目C為數(shù)量標(biāo)準(zhǔn)劃分區(qū)域,同時(shí)對(duì)每個(gè)特征區(qū)進(jìn)行標(biāo)注以確保特征空間聚類分析達(dá)到標(biāo)準(zhǔn)化要求。
3.3 選擇每一局部區(qū)域的最優(yōu)分類器。
3.4 聚類分析的最終決策
根據(jù)對(duì)目標(biāo)特征空間樣本進(jìn)行聚類和分析后所選擇的最優(yōu)分類器類型,進(jìn)一步檢驗(yàn)輸出結(jié)果的準(zhǔn)確性和可行性,若判斷無(wú)誤后則確定該輸出結(jié)果為預(yù)測(cè)樣本的最終決策。
4 實(shí)驗(yàn)分析
在對(duì)基于核聚類的多分類器進(jìn)行實(shí)際應(yīng)用研究和選擇性集成效果分析時(shí),說(shuō)采用的方法是將GASEN代碼[6]作為算法的運(yùn)行基礎(chǔ)。通過(guò)對(duì)該算法的標(biāo)準(zhǔn)化運(yùn)行產(chǎn)生相應(yīng)的分類器,并與bagging方法生的的分類器一起對(duì)同一測(cè)試樣本進(jìn)行選擇性集成,最后比較測(cè)量結(jié)果和集成效果判斷所選擇的集成方案是否科學(xué)。其實(shí)驗(yàn)過(guò)程流程圖如圖2所示。
實(shí)驗(yàn)中采用bagging方法來(lái)訓(xùn)練產(chǎn)生基分類器,而在生成分類器的過(guò)程中為了確保核的可能性聚類應(yīng)用優(yōu)勢(shì)得到充分的發(fā)揮,還可以配合使用BP神經(jīng)網(wǎng)絡(luò)技術(shù)大幅度提高運(yùn)算的速度和保障結(jié)果準(zhǔn)確性。
BP神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用主要作用于分類器的訓(xùn)練與生成階段,在BP神經(jīng)網(wǎng)絡(luò)模式下所形成的分類器主要是由輸入層、輸出層和中間隱含層構(gòu)成。在該分類器中每一層的節(jié)點(diǎn)數(shù)都反映了不同的數(shù)據(jù)類別,例如輸入和輸出節(jié)點(diǎn)數(shù)目反映的分別是數(shù)據(jù)的屬性數(shù)和類別數(shù),而隱含層節(jié)點(diǎn)數(shù)則需要根據(jù)分類器的實(shí)際使用需求自定義值,通??稍O(shè)置為5個(gè)節(jié)點(diǎn)。另外還需要MATLAB軟件中的神經(jīng)網(wǎng)絡(luò)工具箱[7],對(duì)訓(xùn)練步數(shù)和其他參數(shù)進(jìn)行設(shè)置。
而在按照和可能性聚類方法時(shí)則大多采用的是MATLAB軟件中的SVM工具箱[8],函數(shù)結(jié)構(gòu)的主體通常為高斯核函數(shù),并將聚類中心數(shù)目設(shè)置為對(duì)數(shù)據(jù)類別數(shù)的反映。
本實(shí)驗(yàn)中的數(shù)據(jù)主要來(lái)自UCI數(shù)據(jù)庫(kù)的“l(fā)etter”數(shù)據(jù)集和來(lái)自ELENA數(shù)據(jù)庫(kù)的“Phoneme”數(shù)據(jù)集。同時(shí),這些數(shù)據(jù)在測(cè)試分類器性能和比較選擇性分類結(jié)果和聚類分析最終決策的科學(xué)性過(guò)程中,也體現(xiàn)出了較高的應(yīng)用價(jià)值和特性水平。例如Letter數(shù)據(jù)集包括A-Z 26個(gè)大寫字母,共26類。當(dāng)將提取的特征目標(biāo)數(shù)設(shè)置為16時(shí),從數(shù)據(jù)集中調(diào)取的不同類別樣本數(shù)平均值達(dá)到了800個(gè),而樣本總數(shù)更是超過(guò)了20000:而Phoneme數(shù)據(jù)庫(kù)則主要由鼻元音Nasa和非鼻元音Oral組成,在實(shí)驗(yàn)過(guò)程中分別抽取兩個(gè)不同類別的元音組成總數(shù)為5000的數(shù)據(jù)集,再將數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行隨機(jī)分類形成六個(gè)實(shí)驗(yàn)組,以五組數(shù)據(jù)集的并集作為初始訓(xùn)練數(shù)據(jù)集合,剩余的一組作為測(cè)試集用于和初始訓(xùn)練集進(jìn)行對(duì)照。
表1數(shù)據(jù)顯示,基于核聚類的選擇器算法相較于由bagging方法生成的多分類器,在進(jìn)行選擇性集成時(shí)效果更為明顯并且效率更高。同時(shí)該算法的誤判率和僅有一個(gè)最優(yōu)分類器相比也得到了大幅度的降低,這說(shuō)明基于核聚類的算法所測(cè)得的數(shù)據(jù)結(jié)果對(duì)于分類準(zhǔn)確性與局部有效性的考慮更為全面,因此分類結(jié)果的可信度和科學(xué)性水平也更高。
5 結(jié)論
為了提高分類器系統(tǒng)的性能,簡(jiǎn)化系統(tǒng)的設(shè)計(jì),本文將核學(xué)習(xí)方法的思想應(yīng)用于多分類器的選擇中,提出了一種新的用于分類的基于核的可能性聚類的多分類器選擇算法,該算法既考慮了分類器錯(cuò)誤的分布特性,又考慮了分類器的分類識(shí)別能力。從而通過(guò)對(duì)基于核的可能性聚類算法的應(yīng)用與優(yōu)化,實(shí)現(xiàn)了對(duì)聚類效果準(zhǔn)確性與用于區(qū)域性分類器選擇科學(xué)性的充分掌握。
參考文獻(xiàn)
[1]張莉,周偉達(dá),焦李成,核聚類算法[J].計(jì)算機(jī)學(xué)報(bào),2002,25 (6):587-590.
[2]劉賽雄,耿霞,陸虎,基于深度自動(dòng)編碼器的小麥種子聚類識(shí)別方法[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,41(03):294-300.
[3] UCL Machine Learning Group ELENA database.
[4]張松燦,普杰信,司彥娜,孫力帆.蟻群算法在移動(dòng)機(jī)器人路徑規(guī)劃中的應(yīng)用綜述[J],計(jì)算機(jī)工程與應(yīng)用,2020,56 (08):10-19.
[5]鄧磷,王琳.盛步云,蕭箏,基于變鄰域蟻群算法的自動(dòng)光學(xué)檢測(cè)路徑規(guī)劃[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(02):354-360.
[6]李飛.基于多核概念分解的聚類方法研究[D].山西大學(xué),2019.
[7]侯文太,普運(yùn)偉,郭媛蒲,馬藍(lán)宇.基于高斯平滑與模糊函數(shù)等高線的雷達(dá)輻射源信號(hào)分選[J/OL].自動(dòng)化學(xué)報(bào)1-10 [2020-07-28].
[8]吳一全,李海杰,宋昱.基于引導(dǎo)核聚類的非局部均值圖像去噪算法[J].電子科技大學(xué)學(xué)報(bào),2016,45 (01):36-42.
作者簡(jiǎn)介
陳鳳妹(1979-),女,講師。研究方向?yàn)槿斯ぶ悄堋⒋髷?shù)據(jù)應(yīng)用技術(shù)。