黨帥濤, 柯 堅(jiān), 吳文海, 王 奇
(西南交通大學(xué) 機(jī)械工程學(xué)院,四川 成都 610031)
針對(duì)故障診斷、異常檢測(cè)等實(shí)際問題,由于種種客觀條件的限制,模式空間中往往只含有正常類樣本,異常類樣本的規(guī)模相對(duì)較少或嚴(yán)重不足,將會(huì)致使傳統(tǒng)的二分類方法得到的分類超平面產(chǎn)生偏移,泛化能力下降,很難滿足實(shí)際應(yīng)用的需求。而單分類的學(xué)習(xí)方法只針對(duì)正常樣本進(jìn)行學(xué)習(xí)建立分類超平面,并形成診斷策略,對(duì)于異常檢測(cè)可取得很好的效果。
支持向量數(shù)據(jù)描述(support vector data description,SVDD)作為一種經(jīng)典的單分類方法,其以支持向量機(jī)和統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),繼承了支持向量機(jī)的優(yōu)點(diǎn),具有堅(jiān)實(shí)的理論基礎(chǔ)和學(xué)習(xí)能力[1]。但經(jīng)典的SVDD對(duì)一些離群點(diǎn)及異常點(diǎn)較為敏感,在訓(xùn)練過程中容易產(chǎn)生過學(xué)習(xí)的問題;且SVDD構(gòu)造的數(shù)據(jù)描述邊界間隔為零,造成學(xué)習(xí)器魯棒性相對(duì)不高。針對(duì)此類問題,近些年許多學(xué)者做出了有益的貢獻(xiàn),文獻(xiàn)[2]考慮到數(shù)據(jù)集本身的分布信息,構(gòu)造了基于樣本本身分布信息的模糊數(shù)據(jù)描述輪廓,在一定程度上改善了經(jīng)典SVDD的數(shù)據(jù)敏感問題;Chen G等人[3]利用有限的負(fù)類樣本并引入不敏感損失函數(shù)的概念,構(gòu)造了一個(gè)間隔,在一定程度上解決了分類間隔為零的問題;Nguyen P等人[4]受單分類支持向量機(jī)和SVDD啟發(fā)提出Distant SVDD,在SVDD的最小包圍球的基礎(chǔ)上最大化球心與原點(diǎn)之間的距離,文獻(xiàn)[6]改進(jìn)了Nguyen P[4]的方法,推廣構(gòu)建了此方法的最小二乘形式,提高了SVDD的泛化能力。
上述方法多針對(duì)SVDD的某一缺陷進(jìn)行改進(jìn),沒有進(jìn)行綜合考慮,且對(duì)于典型樣本不足的問題研究較少,結(jié)果不太理想,因此,本文設(shè)計(jì)一種雙超球數(shù)據(jù)域描述(double surround hypersphere datadomain description,DSHDD)模型,受Nguyen P[4]方法啟發(fā),在SVDD最小化包圍球的基礎(chǔ)之上優(yōu)化一個(gè)最大超球使其包含更多的樣本,并將絕大部分異常樣本排除在大超球之外。
對(duì)于n個(gè)訓(xùn)練樣本x,SVDD的目的是尋找一個(gè)最小超球R使絕大部分樣本都位于這個(gè)超球體之內(nèi),極少部分異常樣本被排除在超球體之外[1],可表達(dá)為
(1)
式中a為超球中心,ε為松弛變量,C為正則化參數(shù)。為改善數(shù)據(jù)描述性能通常引入核函數(shù)把原始數(shù)據(jù)映射到高維特征空間,并在高維特征空間中最小化包圍球。
考慮到在某些特殊應(yīng)用的場(chǎng)合,對(duì)漏警率(或虛警率)的要求十分嚴(yán)苛(如入侵檢測(cè)等),傳統(tǒng)的SVDD及其改進(jìn)算法只能通過調(diào)整正則化參數(shù)來減小(或增大)超球半徑,減小(或增大)超球半徑必然帶來更多的樣本位于超球體之外(或內(nèi)),增加了虛警率(或漏警率),經(jīng)典SVDD通過最小化包圍球的思想來最大限度地提高決策的確信度,但位于決策邊界處的樣本的決策信息與分割閾值十分接近,處理起來十分困難,造成SVDD精度下降。
(2)
上述優(yōu)化問題的解通過式(3)Lagrange函數(shù)給出
(3)
Lagrange乘子α≥0,β≥0,λ≥0,η≥0,進(jìn)一步的得到
(4)
將式(4)代入式(3)化簡(jiǎn)并引入核函數(shù)k(x,y)映射到高維特征空間求解,進(jìn)而將上述優(yōu)化問題的對(duì)偶問題轉(zhuǎn)換為二次規(guī)劃(QP)問題,即
(5)
求解這個(gè)QP問題可以得到Lagrange乘子αi,而且分析可知DSHDD把樣本集分隔成正常區(qū)域、異常區(qū)域、拒絕區(qū)域。根據(jù)KKT條件,可以得到下述結(jié)論:
1)αi=0對(duì)應(yīng)的數(shù)據(jù)點(diǎn)位于小超球邊界內(nèi);
2)0<αi 3)αi=C對(duì)應(yīng)的數(shù)據(jù)點(diǎn)位于小超球邊界外且位于大超球邊界內(nèi),即拒絕區(qū)域; 4)C<αi<δC對(duì)應(yīng)的數(shù)據(jù)點(diǎn)位于大超球邊界上,為大超球支持向量SVB; 5)αi=δC對(duì)應(yīng)的數(shù)據(jù)點(diǎn)位于大超球邊界外。 (6) (7) 實(shí)驗(yàn)中選取表1中6個(gè)數(shù)據(jù)集作為本文的實(shí)驗(yàn)數(shù)據(jù)集,實(shí)驗(yàn)中把樣本點(diǎn)最多的幾類合并作為目標(biāo)樣本點(diǎn)及把剩下的一類樣本點(diǎn)作為離群點(diǎn)。 表1 實(shí)驗(yàn)使用的UCI數(shù)據(jù)集 使用10次10折交叉驗(yàn)證的網(wǎng)格搜索算法來搜索優(yōu)化SVDD與本文DSHDD方法的參數(shù),由于時(shí)間等諸多因素限制,高斯核函數(shù)σ的搜索范圍僅設(shè)置為[1~300],搜索間隔為1;懲罰參數(shù)C的搜索范圍僅設(shè)置為[0.01~0.8],搜索間隔為0.01;懲罰參數(shù)放大因子δ搜索范圍為[1.5~15],搜索間隔為0.5,大超球控制參數(shù)k的搜索范圍僅設(shè)置為[-1~1),搜索間隔為0.1。對(duì)參數(shù)網(wǎng)格內(nèi)的任一組參數(shù),使用10次10折交叉驗(yàn)證方法得到的分類精度的平均值作為此組參數(shù)下的精度ACC。在同一個(gè)數(shù)據(jù)集上,不同模型間核函數(shù)寬度基本相同,因此,DSHDD使用SVDD搜索到的核函數(shù)寬度參數(shù)以減少時(shí)間的消耗,并統(tǒng)計(jì)最優(yōu)參數(shù)時(shí)位于拒絕區(qū)域的樣本所占比例的平均值p作為檢測(cè)率。 搜索到的結(jié)果如表2所示(計(jì)算DSHDD的檢測(cè)精度時(shí)假設(shè)位于拒絕或粗糙區(qū)域的樣本已經(jīng)過分類后處理,是分類正確的),從表2的分類精度ACC可以明顯看出在6個(gè)數(shù)據(jù)集上,與經(jīng)典的SVDD方法相比本文提出DSHDD方法通過拒絕做出決策使得分類性能具有有明顯的提高,但是同時(shí)可以看出,該方法卻意外地使檢測(cè)率下降,而檢測(cè)率明顯下降意味著模型能給出明確判斷的樣本數(shù)目的減少,同時(shí)也意味著后期對(duì)這些沒有明確分類的樣本進(jìn)一步的檢測(cè)而做出的工作量的增加。 表2 數(shù)據(jù)描述模型的參數(shù)及檢測(cè)精度 為了進(jìn)一步說明所提方法的有效性并實(shí)現(xiàn)可視化分析,采用二維人造數(shù)據(jù)集分別訓(xùn)練SVDD和本文提出的DSHDD方法,比較SVDD與DSHDD性能的差異。結(jié)果分別如圖1所示。 圖1 SVDD與DSHDD性能比較 由圖1(a)看出,SVDD通過最小包圍球數(shù)據(jù)描述邊界把數(shù)據(jù)分割成兩個(gè)部分,對(duì)于任一樣本只有異?;蛘煞N可能,且輪廓內(nèi)有許多空白區(qū)域,很可能把異常樣本包含在內(nèi),使得漏警率較高,性能較差,通過調(diào)整正則化參數(shù)C可減小數(shù)據(jù)描述的輪廓半徑,可減小輪廓半徑又可能使得部分正常樣本被排除在描述輪廓之外,造成虛警率較高。 由圖1(b)看出,DSHDD通過最小包圍球和最大包圍球,把樣本數(shù)據(jù)分割成正常區(qū)域、異常區(qū)域和拒絕區(qū)域,而不是SVDD確定的“非黑即白”的數(shù)據(jù)分割模式,邊界輪廓更加緊湊,對(duì)位于拒絕區(qū)域的樣本其可能是正常數(shù)據(jù)也可能是異常數(shù)據(jù)。導(dǎo)致虛警和漏警, DSHDD通過雙包圍球引入拒絕區(qū)域,在這個(gè)區(qū)域內(nèi),樣本與超球中心之間的距離和超球半徑相差較小,根據(jù)不同的應(yīng)用場(chǎng)合,著重關(guān)注兩類錯(cuò)誤中的一類,可以把過渡區(qū)域的樣本看成相應(yīng)的類別。 相比于把過渡區(qū)域的所有樣本看成某一類,更推薦“拒絕做出決策”的策略。避免做出決策不是放棄決策,而是在模型決策之后,對(duì)那些位于過渡區(qū)域的所有樣本利用其他測(cè)試手段進(jìn)行處理。同時(shí)也可以看出致使DSHDD方法性能明顯提高的最主要原因是該方法提供了一個(gè)拒絕區(qū)域,模型對(duì)拒絕區(qū)域內(nèi)的樣本拒絕做出決策,并通過專家及其他后續(xù)處理手段對(duì)模型拒絕做出決策的樣本進(jìn)行處理,如果一味的追求正確率必然帶來檢測(cè)率的下降及后處理工作量的增加,因此,進(jìn)一步地對(duì)于某些特定的實(shí)際問題可以通過調(diào)整參數(shù)k在檢測(cè)率和正確率之間取得折中。 針對(duì)訓(xùn)練樣本異常數(shù)據(jù)相對(duì)較多及SVDD方法魯棒性不強(qiáng)易產(chǎn)生過學(xué)習(xí)等缺陷,提出一種DSHDD模型,結(jié)果表明能很好地解決SVDD的上述缺陷。 由于算法求解二次規(guī)劃問題的時(shí)間復(fù)雜性,DSHDD運(yùn)行時(shí)占據(jù)了大量的存儲(chǔ)空間并消耗大量的時(shí)間,進(jìn)一步應(yīng)借鑒SVM及SVDD方法研究DSHDD快速求解的問題。3 實(shí)驗(yàn)驗(yàn)證
4 結(jié)束語