基于最小化界外密度的SVDD參數(shù)優(yōu)化算法

2015-08-17 11:23:58王靖程張彥斌任志文

系統(tǒng)工程與電子技術(shù) 2015年6期

關(guān)鍵詞：分率邊界向量

王靖程，曹暉，張彥斌，任志文

（1．西安熱工研究院有限公司，陜西西安710043；2．西安交通大學(xué)電氣工程學(xué)院，陜西西安710049）

基于最小化界外密度的SVDD參數(shù)優(yōu)化算法

王靖程1，曹暉2，張彥斌2，任志文1

（1．西安熱工研究院有限公司，陜西西安710043；2．西安交通大學(xué)電氣工程學(xué)院，陜西西安710049）

支持向量數(shù)據(jù)描述（support vector data description，SVDD）是一種具有單類數(shù)據(jù)描述能力的數(shù)據(jù)分類算法，因具有結(jié)構(gòu)風(fēng)險最小化的特性而受到廣泛關(guān)注。SVDD的參數(shù)優(yōu)化是影響其分類效果的關(guān)鍵問題，本文通過引入樣本點的密度信息，提出了以界外密度最小化為目標(biāo)的參數(shù)優(yōu)化函數(shù)，避免了漏檢率的計算問題，可充分利用訓(xùn)練數(shù)據(jù)的分布信息，提高數(shù)據(jù)描述能力，降低錯分率。仿真實驗和UCI標(biāo)準(zhǔn)數(shù)據(jù)庫的對比驗證表明，優(yōu)化后的SVDD算法能夠有效降低漏檢率和錯分率，提高算法性能。

支持向量數(shù)據(jù)描述；參數(shù)優(yōu)化；密度

0 引言

支持向量數(shù)據(jù)描述（support vector data description，SVDD）算法是由Tax和Duin于1999年提出的一種單分類算法［1］。SVDD期望獲得最小化包含樣本數(shù)據(jù)的超球體，用以區(qū)分正常數(shù)據(jù)和異常數(shù)據(jù)。由于異常數(shù)據(jù)采集困難，單分類算法在故障診斷、圖像處理、異常檢測、醫(yī)學(xué)信號處理等多個領(lǐng)域有大量研究，具有廣闊的應(yīng)用前景［2－4］。

眾多學(xué)者針對SVDD的性能優(yōu)化提出了多種思路：文獻(xiàn)［5］提出通過核主成分分析（principal component analysis，PCA）將訓(xùn)練數(shù)據(jù)映射為單位方差的對稱球形分布，再訓(xùn)練SVDD模型提升算法性能；文獻(xiàn)［6］仿照支持向量機(jī)參數(shù)優(yōu)化方法，通過加入或構(gòu)造異常樣本數(shù)據(jù)，計算最小錯分率獲取最優(yōu)參數(shù)；文獻(xiàn)［7］提出通過最近鄰算法增加支持向量數(shù)目，從而改善邊界形狀的算法；文獻(xiàn)［8］考慮了樣本點的密度信息，提出了一種基于相對密度指數(shù)加權(quán)的新距離測度，提高算法性能；文獻(xiàn)［9］考慮到樣本協(xié)方差矩陣的信息，提出利用馬氏距離替代歐式距離的方法；文獻(xiàn)［10］又進(jìn)一步提出在馬氏距離的基礎(chǔ)上，加入模糊C均值聚類思想度量樣本點距離關(guān)系，改進(jìn)SVDD性能；文獻(xiàn)［11］提出采用超橢球體替代超球體，以增強(qiáng)SVDD對不同數(shù)據(jù)分布的適應(yīng)能力。上述方法通過對訓(xùn)練數(shù)據(jù)的處理或距離量度的改進(jìn)，提高了SVDD的分類準(zhǔn)確率，但是對于算法中參數(shù)的選取缺少研究，算法性能難以達(dá)到最優(yōu)。

SVDD中一般采用高斯核函數(shù)以滿足不同數(shù)據(jù)分布下的邊界曲線要求，因此SVDD中有兩個調(diào)節(jié)參數(shù)：懲罰參數(shù)C與核參數(shù)σ，邊界曲線的形狀同時受到兩個參數(shù)的影響。Tax等人對參數(shù)影響進(jìn)行了分析，提出通過支持向量的數(shù)目近似估計虛警率，并假設(shè)懲罰參數(shù)C的影響較小，通過迭代方法優(yōu)化核參數(shù)σ，按照支持向量數(shù)目百分比接近設(shè)定虛警率的目標(biāo)，得到參數(shù)的最優(yōu)值［1］。進(jìn)一步研究表明，采用高斯核函數(shù)的SVDD算法與單類支持向量機(jī)等價，參數(shù)C的取值范圍可設(shè)為C≤（N和ν分別為樣本數(shù)和虛警率），然后通過迭代方法尋找支持向量數(shù)百分比最接近設(shè)定虛警率的σ值［12］。由于單分類問題缺乏其他類樣本數(shù)據(jù)，無法利用交叉檢驗最小化錯分率的方法優(yōu)化參數(shù)，Tax又提出了一種基于模型復(fù)雜度的優(yōu)化方法，通過調(diào)整參數(shù)σ控制模型復(fù)雜度的增加，從而避免邊界曲線過擬合［13］。鑒于單類支持向量機(jī)的虛警率可通過ν值設(shè)定，而采用高斯核函數(shù)的SVDD又與單類支持向量機(jī)等價，因此一些文獻(xiàn)采用C＝確定參數(shù)C。文獻(xiàn)［14］提出在設(shè)定的虛警率下，用支持向量百分比替代實際虛警率的期望值，尋找支持向量數(shù)最小的σ值。文獻(xiàn)［15］指出，核函數(shù)的作用是將訓(xùn)練數(shù)據(jù)映射到高維空間，成為超球形分布后再構(gòu)造包含目標(biāo)數(shù)據(jù)的超球體，通過選取合適的核參數(shù)將使得高維空間中的數(shù)據(jù)分布更接近超球形，從而取得更好的分類效果。文獻(xiàn)［16］提出利用Bootstrap方法，通過最小化超球體半徑與支持向量百分比之和優(yōu)化核參數(shù)。上述方法均基于C＝假設(shè)，從核參數(shù)優(yōu)化的角度考慮了參數(shù)選取問題。但在SVDD算法中，訓(xùn)練數(shù)據(jù)的虛警率根據(jù)支持向量的百分比確定，懲罰參數(shù)C與核參數(shù)σ都對支持向量數(shù)目有著重要影響，固定參數(shù)C的取值縮小了參數(shù)尋優(yōu)的范圍，無法保證算法性能最優(yōu)。

文獻(xiàn)［17］采用模擬退火算法優(yōu)化SVDD參數(shù)。文獻(xiàn)［18］從理論上證明了SVDD受參數(shù)影響導(dǎo)致超球體半徑的不唯一性，并指出了半徑的優(yōu)化區(qū)間。文獻(xiàn)［19］詳細(xì)描述了參數(shù)C和σ分別改變時邊界形狀和支持向量數(shù)的變化趨勢。文獻(xiàn)［20］提出，為了獲取參數(shù)的最優(yōu)值，需通過交叉檢驗搜索不同參數(shù)對下的錯分率，從而選擇出最優(yōu)參數(shù)對。文獻(xiàn)［21］研究了SVDD與核密度估計的關(guān)系，指出SVDD中無界支持向量是為了保證魯棒性而拒絕的假設(shè)異常樣本點，因此應(yīng)盡量位于低密度區(qū)以使邊界曲線緊密包圍高密度區(qū)樣本點。

本文首先對SVDD參數(shù)調(diào)整的影響進(jìn)行了分析，定義相對密度指數(shù)代表樣本點聚集程度，提出了以界外密度最小化為目標(biāo)的參數(shù)優(yōu)化函數(shù)，避免了漏檢率的計算問題，并通過仿真實驗和UCI數(shù)據(jù)庫對比驗證了不同參數(shù)優(yōu)化方法的效果。

1 SVDD參數(shù)影響分析

由SVDD公式可知，SVDD的邊界形狀完全由αi＞0的支持向量確定，因此本文首先分析參數(shù)調(diào)節(jié)對支持向量及邊界形狀的影響，然后提出一種新的參數(shù)優(yōu)化方法。

懲罰參數(shù)C能夠控制支持向量數(shù)目，從而影響算法錯分率，在不考慮核函數(shù)的情況下，當(dāng)C＝時，所有樣本點

都成為支持向量，模型嚴(yán)重過擬合，無法接受任何新的數(shù)據(jù)樣本。隨著參數(shù)C的增加，更多樣本被超球體包圍，支持向量數(shù)目逐漸減少，直至C＝，達(dá)到設(shè)定的樣本拒絕率。繼續(xù)增大參數(shù)C，會使得支持向量數(shù)目持續(xù)減少至構(gòu)成超球體的最小數(shù)目，C＝1時，所有訓(xùn)練樣本點都在超球體內(nèi)，模型嚴(yán)重欠擬合。因此C的取值范圍是

引入高斯核函數(shù)K后，核參數(shù)σ能夠改變映射到高維空間后的樣本點之間的距離，從而影響超球體的半徑和原始空間的邊界形狀。當(dāng)σ非常小時，K（xi，xj）≈0，所有樣本點都成為支持向量。隨著參數(shù)σ的增加，邊界形狀變得越來越平坦，支持向量數(shù)目逐漸減少。由文獻(xiàn)［12］可知，當(dāng)取C′＝2C／σ2時可以近似獲得與未加入核函數(shù)時相同的SVDD表達(dá)式?？梢钥闯觯聟?shù)C′同時受到σ的影響，因此加入核參數(shù)后，參數(shù)C取值范圍也會受到σ的影響。

為了直觀描述參數(shù)對邊界形狀的影響，本文利用100個二維Banana數(shù)據(jù)樣本對SVDD模型進(jìn)行訓(xùn)練，參照支持向量機(jī)中的參數(shù)優(yōu)化過程，參數(shù)C和σ的變化范圍分別為2－5～25和20～210，預(yù)設(shè)的樣本拒絕率為10%。圖1顯示了不同參數(shù)組合下SVDD的邊界形狀，其中同一行的子圖像具有相同的C值，而同一列的具有相同的σ值。從圖1可以看出，隨著σ的增加，邊界曲線明顯平坦，模型復(fù)雜度降低，包圍的樣本空間范圍更大。而隨著C值的增加，更多的樣本點被包圍在了邊界曲線內(nèi)，支持向量的數(shù)目明顯減少。

4.3.1 選擇健薯，提早育苗。選用健康種薯，剔除病、雜、退薯塊，確保品種純度。日平均氣溫穩(wěn)定在7～8 ℃開始育苗。在薯苗發(fā)芽出土階段，床土溫度控制在32～35 ℃；齊苗后夜催日煉，采苗前5～7 d進(jìn)行煉苗，苗高20 cm以上時，及時采苗。

圖1 不同參數(shù)下的SVDD邊界形狀

圖2描述了不同參數(shù)組合下支持向量數(shù)目的等高線圖，支持向量的數(shù)目被標(biāo)在了圖中的等高線上。由圖可見，對于確定的支持向量數(shù)，存在C和σ的最低界限值。因此對于設(shè)定的樣本拒絕率存在一個調(diào)節(jié)區(qū)間，在該區(qū)間內(nèi)C和σ共同作用影響支持向量的實際數(shù)目，超過該區(qū)間后，C或σ到達(dá)最低界限值，支持向量數(shù)受參數(shù)極值影響無法達(dá)到設(shè)定的數(shù)目。從圖2中還可以看出，在滿足預(yù)設(shè)虛警率的前提下，可通過網(wǎng)格搜索找到多組滿足要求的參數(shù)對，在僅有單類數(shù)據(jù)的情況下如何確定尋找最優(yōu)參數(shù)組的目標(biāo)函數(shù)成為優(yōu)化的關(guān)鍵問題。一些研究中將參數(shù)C按照期望的虛警率固定后，只調(diào)節(jié)參數(shù)σ，此種方法縮小了參數(shù)的調(diào)整范圍，只能達(dá)到局部最優(yōu)。

圖2 支持向量數(shù)的等高線圖

圖3和圖4分別展示了參數(shù)C和σ對SVDD模型超球體半徑的影響。從圖3中可以看出，在確定的σ值下，參數(shù)C僅在數(shù)值較小時對超球體半徑產(chǎn)生影響，達(dá)到σ值對應(yīng)的最小支持向量數(shù)后，半徑不再發(fā)生明顯變化，此時σ對超球體半徑的控制作用較為明顯，參數(shù)C的調(diào)整幾乎無法改變邊界形狀。當(dāng)參數(shù)C確定時，σ的增加使得超球體半徑明顯減小，而且超球體半徑的大小幾乎不因C值變化而改變。由圖1結(jié)論可知，隨著σ的增大邊界形狀明顯趨于平坦，映射到高維空間的數(shù)據(jù)間距會隨之降低，造成超球體半徑的減小，但同時原始空間中的邊界曲線變得松弛，對目標(biāo)數(shù)據(jù)的包圍曲線趨向于球形，無法隨數(shù)據(jù)分布的變化而貼切描述，會導(dǎo)致虛警率升高。因此參數(shù)優(yōu)化時應(yīng)盡量考慮σ值較小的參數(shù)組合，從而獲得緊湊的邊界形狀。

圖3 參數(shù)C對超球體半徑的影響

圖4 參數(shù)σ對超球體半徑的影響

2 SVDD參數(shù)優(yōu)化

綜合上述分析，為了在預(yù)設(shè)的虛警率下選擇邊界描述緊湊的SVDD參數(shù)組，提高SVDD算法性能，需充分利用樣本分布信息。本文通過估計樣本點分布密度，提出了最小化界外密度的參數(shù)優(yōu)化算法，尋找平均密度最小的無界支持向量，將非支持向量樣本點信息納入尋優(yōu)過程，使得參數(shù)選擇中優(yōu)先考慮將密度較大的樣本點包圍在超球體內(nèi)，獲得包含大多數(shù)高密度樣本點的緊湊邊界。

本文首先定義相對密度指數(shù)，用以代表樣本點的聚集程度，由于該指數(shù)僅僅用來表示樣本點密度的相對大小，因此采取高斯函數(shù)獲取平滑的密度估計，按如下形式計算：

式中，d（xi，xj）為xi與xj兩點間的歐氏距離；Deni為第i個樣本點的相對密度指數(shù)，該指數(shù)是點xi與其他所有點的相對密度估計之和。從式（2）可以看出，樣本點xi與周圍樣本點距離越近，Deni數(shù)值越高，表示xi所處位置相對其他樣本點的密度越高。由于通過支持向量數(shù)估計的虛警率并不連續(xù)，具有跳躍性，在支持向量數(shù)無法滿足預(yù)設(shè)的虛警率時，本文定義了容許值ε＝max（1，0．1νN），ν和N分別為預(yù)設(shè)虛警率和樣本數(shù)，則優(yōu)化參數(shù)的目標(biāo)函數(shù)為

步驟1 采集訓(xùn)練樣本，設(shè)定樣本拒絕率ν；

步驟3 按照網(wǎng)格搜索法，計算當(dāng)前參數(shù)組合下的SVDD模型，并由式估算虛警率；

步驟4 若虛警率滿足式（3）中的條件，則進(jìn)入下一步計算，否則執(zhí)行步驟6；

步驟5 記錄無界支持向量的平均相對密度指數(shù)和當(dāng)前的參數(shù)組合，繼續(xù)下一步；

步驟6 按照設(shè)定步長改變參數(shù)值，返回步驟3繼續(xù)運算，若參數(shù)搜索完畢，則結(jié)束搜索過程；

步驟7 根據(jù)所得結(jié)果分析步長是否合適，若需調(diào)整步長則返回步驟2；

步驟8 在滿足式（3）條件的參數(shù)組合里，選擇平均相對密度指數(shù)最小的一組參數(shù)組合為最優(yōu)參數(shù)組，若有多對參數(shù)組合的平均相對密度指數(shù)是相同的最小值，則選取σ最小的一組為最優(yōu)參數(shù)組。

3 仿真實驗及結(jié)果分析

為了驗證參數(shù)優(yōu)化方法的有效性，本文分別利用人工數(shù)據(jù)集和UCI數(shù)據(jù)庫進(jìn)行了對比驗證。人工數(shù)據(jù)集采用二維Banana型分布數(shù)據(jù)，通過不同算法選擇最優(yōu)參數(shù)，比較了在同一樣本拒絕率下不同優(yōu)化方法得到的SVDD模型邊界形狀。UCI數(shù)據(jù)作為機(jī)器學(xué)習(xí)領(lǐng)域算法測試的標(biāo)準(zhǔn)平臺，常被用來比較不同優(yōu)化算法的虛警率和漏檢率，本文選擇UCI數(shù)據(jù)庫中的Iris、Wine、Sonar和Breast Cancer Wisconsin數(shù)據(jù)集進(jìn)行測試，將一類數(shù)據(jù)作為目標(biāo)數(shù)據(jù)，其他類數(shù)據(jù)作為異常數(shù)據(jù)，采用10次獨立循環(huán)的10折交叉檢驗算法計算分類效果。本文采用的SVDD參數(shù)優(yōu)化對比算法分別是：利用確定參數(shù)C值，再通過搜索σ尋找最接近ν時的σ值，獲得最優(yōu)參數(shù)的方法（OS－VDD）；利用網(wǎng)格搜索計算參數(shù)C和σ不同組合下的計算虛警率，因此3個SVDD模型的支持向量數(shù)近似相同，分別為12、10和10，3種方法得到的優(yōu)化參數(shù)組分別為OSVDD（C＝0．1，σ＝6．498 0）、CSVDD（C＝0．287 2，σ＝4．287 1）、DSVDD（C＝0．176 8，σ＝5．278 0）。由圖可見，OSVDD方法因參數(shù)C值較小，需增大σ值才能使支持向量數(shù)接近預(yù)設(shè)的虛警率，但σ值過大造成邊界曲線平坦，形狀趨向于球形邊界，使得Banana型數(shù)據(jù)中間凹陷部分也被SVDD邊界包圍，增大了將其他類數(shù)據(jù)識別為同類數(shù)據(jù)的可能性。CSVDD方法明顯加強(qiáng)了描述邊界的緊湊性，邊界曲線隨訓(xùn)練樣本的分布變化而改變，在中間凹陷部分有效貼近數(shù)據(jù)，獲得了接近香蕉形狀的邊界曲線，但左側(cè)邊界值，將最接近ν時的參數(shù)組挑選出來，選擇σ最小的參數(shù)優(yōu)化方法（CSVDD）；以及本文提出的最小化界外密度方法（DSVDD）。

將OSVDD、CSVDD、DSVDD 3種方法分別應(yīng)用于具有100個樣本的二維Banana型分布數(shù)據(jù)上，設(shè)定ν＝0．1，所得邊界形狀如圖5所示。由于3種參數(shù)優(yōu)化方法都按照曲線所包圍面積較大。DSVDD方法加入了樣本點密度信息，避免了選取中間凹陷部分密度較大的點作為支持向量，使得邊界曲線沒有過分向中間凹陷，保持了兩端邊界的適度描述，與其他兩種方法相比，DSVDD的邊界形狀最為貼近香蕉型分布，各部分描述恰當(dāng)，按DSVDD優(yōu)化所得的參數(shù)組是網(wǎng)格搜索中較為合適的一組。

圖5 不同參數(shù)優(yōu)化方法對邊界形狀的影響

為了進(jìn)一步驗證參數(shù)優(yōu)化方法對SVDD模型邊界及分類效果的影響，本文選擇了4組UCI數(shù)據(jù)檢驗3種參數(shù)優(yōu)化方法的錯分率（錯分樣本占總樣本數(shù)的比例）、虛警率（目標(biāo)樣本被拒絕的比例）及漏檢率（非目標(biāo)樣本被接受的比例）。4組UCI數(shù)據(jù)樣本的信息可見表1。

將3種參數(shù)優(yōu)化方法應(yīng)用于UCI數(shù)據(jù)，所有訓(xùn)練模型均采用10%的樣本拒絕率，將數(shù)據(jù)中的一類作為目標(biāo)類，其余作為非目標(biāo)類，僅用目標(biāo)類數(shù)據(jù)訓(xùn)練SVDD所得結(jié)果如表2所示。表中結(jié)果為10次獨立循環(huán)結(jié)果的平均值，括號內(nèi)的數(shù)據(jù)則是10次獨立循環(huán)結(jié)果的標(biāo)準(zhǔn)差，每次獨立循環(huán)內(nèi)都要進(jìn)行10折交叉檢驗，其均值作為一次獨立循環(huán)的最終值。

表2 不同優(yōu)化方法下的UCI數(shù)據(jù)檢驗結(jié)果

從表2可見，Iris數(shù)據(jù)中OSVDD的錯分率較高，盡管在訓(xùn)練時OSVDD選擇了最接近樣本拒絕率的σ值，但參數(shù)C的固定限制了優(yōu)化區(qū)間，使得另外兩種參數(shù)優(yōu)化方法均取得了優(yōu)于OSVDD的分類效果。從虛警率和漏檢率上可以更清楚地發(fā)現(xiàn)，OSVDD的C值無法調(diào)整使得虛警率較高，從而造成了其較差的分類效果。CSVDD降低了虛警率，DSVDD則更進(jìn)一步壓縮邊界包圍中樣本聚集密度較低的區(qū)域，使得模型邊界優(yōu)先包圍高密度區(qū)域，從而能夠更好地發(fā)揮SVDD數(shù)據(jù)描述能力，在保持漏檢率基本相同的情況下，DSVDD比CSVDD進(jìn)一步降低了虛警率。Wine數(shù)據(jù)中，3種方法的錯分率相差較小，但OSVDD的C值固定使得訓(xùn)練時樣本拒絕率高于預(yù)設(shè)值，從而造成虛警率過高和漏檢率下降，CSVDD和DSVDD的虛警率都在預(yù)設(shè)值附近，所以漏檢率和錯分率反而有所增加。但SVDD訓(xùn)練時需首先保證虛警率滿足要求，在此基礎(chǔ)上盡量降低漏檢率和錯分率，因此OSVDD的結(jié)果并不是最優(yōu)的。DSVDD在第1類和第2類目標(biāo)樣本中，都有效降低了漏檢率，使得錯分率低于CSVDD，但在第3類目標(biāo)樣本中略高于CSVDD，表明此時的優(yōu)化空間有限，原始空間中其他類樣本與目標(biāo)樣本較為貼近，使得邊界曲線的調(diào)整對漏檢率影響較大。Sonar數(shù)據(jù)中的第1類目標(biāo)數(shù)據(jù)和Wine數(shù)據(jù)情況類似，都是虛警率過高而漏檢率較低，使得錯分率下降。從第2類目標(biāo)數(shù)據(jù)中可以看出，CSVDD和DSVDD的網(wǎng)格搜索擴(kuò)大了參數(shù)優(yōu)化區(qū)間，能夠在滿足樣本拒絕率要求的前提下，盡量降低錯分率。但數(shù)據(jù)維數(shù)較高，目標(biāo)類數(shù)據(jù)和其他類數(shù)據(jù)比較貼近，也使得DSVDD的描述效果與CSVDD近似相同。在Breast Cancer Wisconsin的第1類目標(biāo)數(shù)據(jù)中，OSVDD由于較高的虛警率而使得錯分率較低，CSVDD獲得了滿足要求的虛警率，但參數(shù)組并不合適使得漏檢率較高，DSVDD優(yōu)化調(diào)整了參數(shù)組，在與CSVDD近似的虛警率時，獲得了較低的漏檢率，使得分類性能提高。在Breast Cancer Wisconsin的第2類目標(biāo)數(shù)據(jù)中，CSVDD和DSVDD均能進(jìn)一步優(yōu)化參數(shù)組合，調(diào)整邊界形狀，從而獲得了比OSVDD更低的漏檢率和錯分率。

4組數(shù)據(jù)的仿真結(jié)果表明，本文所提的基于最小化界外密度的參數(shù)優(yōu)化算法能夠挖掘樣本數(shù)據(jù)信息，在預(yù)設(shè)虛警率下獲得較低的漏檢率和錯分率，有效提高SVDD分類性能。

4 結(jié) 論

本文針對SVDD參數(shù)優(yōu)化問題進(jìn)行了研究，深入分析SVDD參數(shù)變化對模型邊界的影響，在此基礎(chǔ)上提出相對密度指數(shù)代表樣本點的聚集程度，按照模型邊界曲線盡量包圍高密度區(qū)樣本點的原則，提出最小化界外密度函數(shù)進(jìn)行參數(shù)尋優(yōu)，并通過仿真實驗對比不同參數(shù)優(yōu)化方法對SVDD分類結(jié)果的影響。結(jié)果表明，本文提出的參數(shù)優(yōu)化方法能夠有效降低SVDD的漏檢率和錯分率，提高SVDD模型的可靠性。

［1］Tax D M J，Duin R P W．Support vector domain description［J］．Pattern Recognition Letters，1999，20（11／13）：1191－1199．

［2］Xie Y X，Chen X G，Yu X M，et al．Fast SVDD－based Outlier detection approach in wireless sensor networks［J］．Chinese Journal of Scientific Instrument，2011，32（1）：46－51．（謝迎新，陳祥光，余向明，等．基于快速SVDD的無線傳感器網(wǎng)絡(luò)Outlier檢測［J］．儀器儀表學(xué)報，2011，32（1）：46－51．）

［3］Shin J H，Lee B，Park K S．Detection of abnormal living patterns for elderly living alone using support vector data description［J］．IEEE Trans．on Information Technology in Biomedicine，2011，15（3）：438－448．

［4］Xie L，Liu X Q，Zhang J M，et al．Non－Gaussian process monitoring based on NGPP－SVDD［J］．Acta Automatic Sinica，2009，35（1）：107－112．（謝磊，劉雪芹，張建明，等．基于NGPPSVDD的非高斯過程監(jiān)控及其應(yīng)用研究［J］．自動化學(xué)報，2009，35（1）：107－112．）

［5］Tax D M J，Juszczak P．Kernel whitening for one－class classification［J］．International Journal of Pattern Recognition and Artificial Intelligence，2003，17（3）：333－347．

［6］Tao X M，Liu F R，Zhou T X．A novel approach to intrusion detection based on support vector data description［C］∥Proc．of the Industrial Electronics Society，2004：2016－2021．

［7］Guo S M，Chen L C，Tsai J S H．A boundary method for outlier detection based on support vector domain description［J］．Pattern Recognition，2009，42（1）：77－83．

［8］Lee K，Kim D W，Lee D，et al．Improving support vector data description using local density degree［J］．Pattern Recognition，2005，38（10）：1768－1771．

［9］Wei X K，Huang G B，Li Y H．Mahalanobis ellipsoidal learning machine for one class classification［C］∥Proc．of the 6th International Conference on Machine Learning and Cybernetics，2007：3528－3533．

［10］Zhang Y，Xie F D，Huang D，et al．Support vector classifier based on fuzzy c－means and Mahalanobis distance［J］．Journal of Intelligent Information Systems，2010，35（2）：333－345．

［11］GhasemiGol M，Monsefi R，Yazdi H S．Intrusion detection by new data description method［C］∥Proc．of the UKSim／AMSS First International Conference on Intelligent Systems，2010：1－55．

［12］Tax D M J，Duin R P W．Support vector data description［J］．Machine Learning，2004，54（1）：45－66．

［13］Tax D M J，Muller K R．A consistency－based model selection for one－class classification［C］∥Proc．of the 17th International Conference on Pattern Recognition，2004：363－366．

［14］Banerjee A，Burlina P，Diehl C．A support vector method for anomaly detection in hyperspectral imagery［J］．IEEE Trans．on Geoscience and Remote Sensing，2006，44（8）：2282－2291．

［15］Zhao F，Zhang J Y，Liu J．An optimizing kernel algorithm for improving the performance of support vector domain description［J］．Acta Automatic Sinica，2008，34（9）：1122－1127．（趙峰，張軍英，劉敬．一種改善支撐向量域描述性能的核優(yōu)化算法［J］．自動化學(xué)報，2008，34（9）：1122－1127．）

［16］Brereton R G，Lloyd G R．Support vector machines for classification and regression［J］．Analyst，2010，135（2）：230－267．

［17］Xing H J，Zhao H X．Feature extraction and parameter selection of SVDD using simulated annealing approach［J］．Computer Science，2013，40（1）：302－305．（邢紅杰，趙浩鑫．基于模擬退火的SVDD特征提取和參數(shù)選擇［J］．計算機(jī)科學(xué)，2013，40（1）：302－305．）

［18］Wang X M，Chung F L，Wang S T．Theoretical analysis for solution of support vector data description［J］．Neural Networks，2011，24（4）：360－369．

［19］Brereton R G．One－class classifiers［J］．Journal of Chemometrics，2011，25（5）：225－246．

［20］Wang C K，Ting Y，Liu Y H，et al．A novel approach to generate artificial outliers for support vector data description［C］∥Proc．of the IEEE International Symposium on Industrial Electronics，2009：2168－2173．［21］Chen B，Li B，F(xiàn)eng A，et al．Essential relationship between domain－based one－class classifiers and density estimation［J］．Transactions of Nanjing University of Aeronautics ＆Astronautics，2008，25（4）：275－281．

E－mail：wangjingcheng＠tpri．com．cn

曹暉（1978－），男，副教授，博士，主要研究方向為工業(yè)智能控制、數(shù)據(jù)挖掘技術(shù)。

E－mail：huicao＠m(xù)ail．xjtu．edu．cn

張彥斌（1952－），男，教授，主要研究方向為工業(yè)智能控制、信息融合。

E－mail：ybzhang＠m(xù)ail．xjtu．edu．cn

任志文（1962－），男，教授級高級工程師，主要研究方向為工業(yè)自動化。

E－mail：renzhiwen＠tpri．com．cn

Parameter optimization algorithm of SVDD based on minimizing the density outside

WANG Jing－cheng1，CAO Hui2，ZHANG Yan－bin2，REN Zhi－wen1
（1．Xi’an Thermal Power Research Institute Limited Liability Company，Xi’an 710043，China；2．School of Electrical Engineering，Xi’an Jiaotong University，Xi’an 710049，China）

Support vector data description（SVDD）is a data classification algorithm of one－class data description，which has the minimum structure risk and attracts much attention recently．The SVDD performance of classification results is determined by the parameter optimization．As the sample point density is defined，a parameter optimization function based on minimizing the density outside is proposed．The proposed algorithm can avoid the calculation of miss detection rate during the optimization，and make full use of sample data distribution information to improve the SVDD performance．Compared with the UCI database，the simulation results confirm that the parameter optimization algorithm can reduce the miss detection rate and miss classification rate effectively．

support vector data description（SVDD）；parameter optimization；density

TP 391

10．3969／j．issn．1001－506X．2015．06．33

王靖程（1982－），男，工程師，博士，主要研究方向為模式識別。

1001－506X（2015）06－1446－06

2014－06－13；

2014－10－22；網(wǎng)絡(luò)優(yōu)先出版日期：2014－11－20。

網(wǎng)絡(luò)優(yōu)先出版地址：http：／／www．cnki．net／kcms／detail／11．2422．TN．20141120．1831．005．html

國家自然科學(xué)基金（61375055）；新世紀(jì)優(yōu)秀人才支持計劃（NCET－12－0447）；陜西省自然科學(xué)基金（2014JQ8365）；華能集團(tuán)科技項目（HNKJ13－H20－04）資助課題

基于最小化界外密度的SVDD參數(shù)優(yōu)化算法

0 引 言

1 SVDD參數(shù)影響分析

2 SVDD參數(shù)優(yōu)化

3 仿真實驗及結(jié)果分析

4 結(jié) 論

0 引言