張瑞,楊曉,譚秀林
(山東理工大學(xué) 理學(xué)院,山東 淄博 255049)
核函數(shù)是支持向量機(jī)重要的組成部分,近些年在分類和回歸等問(wèn)題中得到了廣泛的應(yīng)用[1-10],基于蓋根鮑爾多項(xiàng)式,我們提出了蓋根鮑爾核函數(shù).通過(guò)對(duì)蓋根鮑爾核函數(shù)性態(tài)研究以及在雙螺旋集和標(biāo)準(zhǔn)的UCI數(shù)據(jù)集上的實(shí)驗(yàn),表明蓋根鮑爾核函數(shù)比常用的核具有更強(qiáng)的魯棒性,并且在泛化性能上有更好或相當(dāng)?shù)谋憩F(xiàn).
定義1 (核函數(shù))設(shè)Χ是Rn的一個(gè)子集,稱定義在Χ×Χ上的函數(shù)是核函數(shù),如果存在著從Χ到某個(gè)Hilbert空間 H 的映射Φ,使得Κ(x,z)=〈Φ(x),Φ(z)〉.(其中〈,〉表示內(nèi)積).
定理1 設(shè)K1(x,z)與K2(x,z)是X×X 上的核函數(shù),則
(1)K(x,z)=K1(x,z)+K2(x,z) (2)K(x,z)=K1(x,z)×K2(x,z)均是X×X上的核函數(shù).
先介紹蓋根鮑爾多項(xiàng)式:
先把蓋根鮑爾多項(xiàng)式推廣成廣義的蓋根鮑爾多項(xiàng)式:
其中d表示向量x與z的維數(shù),下面證明(1)式定義的函數(shù)為函數(shù).
表1 0階到2階的蓋根鮑爾核函數(shù)Table 1 List of the Gegenbauer kernel function up to second order
3階的蓋根鮑爾核函數(shù)為:
圖1-圖2分別顯示了0階到3階的蓋根鮑爾核函數(shù)在x?[-4,-4],z=-0.8,0以及α=1.0,0.5對(duì)應(yīng)的圖形.
圖1 蓋根鮑爾核函數(shù)在z=-0.8,α=1.0對(duì)應(yīng)的圖形Fig.1 Figures of Gegenbauer kernel when z=-0.8,α=1.0
圖2 蓋根鮑爾核函數(shù)在z=0,α=0.5對(duì)應(yīng)的圖形Fig.2 Figures of Gegenbauer kernel when z=0,α=0.5
實(shí)驗(yàn)中我們對(duì)有噪聲與無(wú)噪聲的雙螺旋集分別進(jìn)行了實(shí)驗(yàn)(圖3、圖4,P32).
由于多項(xiàng)式核不能將雙螺旋集正確分類[9-10],所以我們?cè)谠搶?shí)驗(yàn)中選擇了高斯核與蓋根鮑爾核做對(duì)比實(shí)驗(yàn).表2列出了該試驗(yàn)中核函數(shù)參數(shù)的取值.表3和表4顯示了核函數(shù)能將雙螺旋集正確分類相對(duì)應(yīng)的最大間隔和支持向量個(gè)數(shù).
表2 實(shí)驗(yàn)中所用的核函數(shù)及參數(shù)的取值Table 2 Kernels and their parameter values used in the experiments
表3 在無(wú)噪聲下條件最大間距,支持向量的個(gè)數(shù)Table 3 The Number of maximum margin and support vectors on the no-noise bi-spiral problem
表4 有噪聲條件下最大間隔,支持向量個(gè)數(shù)Table 4 The Number of maximum margin and support vectors on the noisy bi-spiral problem
由表3和表4可以看出,蓋根鮑爾核對(duì)應(yīng)的間隔最大,而支持向量個(gè)數(shù)最少.
圖3 2階蓋根鮑爾核函數(shù)在無(wú)噪聲雙螺旋集上的分類邊界Fig.3 Boundary with 2order Gegenbauer kernel on no-noise bi-spiral data
圖4 2階蓋根鮑爾核函數(shù)在有噪聲雙螺旋集上的分類邊界Fig.4 Boundary with 2order Gegenbauer kernel on noisy bi-spiral data
該實(shí)驗(yàn)中,我們?cè)跇?biāo)準(zhǔn)的UCI數(shù)據(jù)集上做分類對(duì)比實(shí)驗(yàn),用到的數(shù)據(jù)集見(jiàn)表5.蓋根鮑爾核與高斯核的參數(shù)取值見(jiàn)表5,多項(xiàng)式核參數(shù)n取值從自然數(shù)1到5.實(shí)驗(yàn)結(jié)果列在表6(P33).
表5 實(shí)驗(yàn)中的核函數(shù)在標(biāo)準(zhǔn)UCI數(shù)據(jù)集Table 5 UCI benchmark data sets used in the experiments
表6 實(shí)驗(yàn)中的函數(shù)在標(biāo)準(zhǔn)UCI數(shù)據(jù)集對(duì)應(yīng)的最大精度Table 6 Maximum accuracy on the UCI benchmark data sets
由表6可以看出,在banana與breast-cancer數(shù)據(jù)集上,蓋根鮑爾核函數(shù)與高斯核、多項(xiàng)式核相當(dāng),在其它的數(shù)據(jù)集,蓋根鮑爾核比高斯核與多項(xiàng)式核具有更好的表現(xiàn).
本文基于蓋根鮑爾多項(xiàng)式,提出了蓋根鮑爾核函數(shù),在雙螺旋集及UCI數(shù)據(jù)集上與常用的核函數(shù)(多項(xiàng)式核,高斯核)做了分類實(shí)驗(yàn)對(duì)比.實(shí)驗(yàn)表明,蓋根鮑爾核函數(shù)與最常用核函數(shù)(高斯核與多項(xiàng)式核)進(jìn)行對(duì)比,具有更好的魯棒性,有更好或相當(dāng)?shù)姆夯阅?由此可看出,本文提出的蓋根鮑爾核函數(shù)可以作為一般的核函數(shù),取代上述常用的核函數(shù).
[1]Vapnik V.Statictical Learning Theory[M].New York:Wiley,1998.
[2]Artan Y,Huang X.Combining Multiple 2nu-SVM Classifiers for Tissue Segmentation[C]//IEEE ISBI,2008:488-491.
[3]Chen C H,Ho P G P.Statistical Pattern Recognition in Remote Sensing[J].Pattern Recognition41,2008,9:2731-2741.
[4]Wu Z L,Li C H,Ng J K Y,et al.Location Estimation Via Support Vector Regression[J].IEEE Trans Mobile Comput,2007,6(3):311-321.
[5]Zhang R,Wang W J.Facilitating the Applications of Support machine by Using a new kernel[J].Expert Systems with Application,2011,38:14225-14230.
[6]Zhang R,Wang W J.Learning Linear and Nonlinear PCA with Linear programming[J].Neural Processing Letters,2011,33:151-170.
[7]Zhang R,Wang W J.Approximations of the Standard Principal Components Analysis and Kernel PCA[J].Expert Systems with Applications,2010,37(9):6531-6537.
[8]Zhang R,Wang W J,Ma Y C.Least Square Transduction Support Vector Machine[J].Neural Processing Letters,2009,29(2):133-142.
[9]張瑞,高紅,張立偉.一類新的支撐向量機(jī)核函數(shù)-埃爾半特核函數(shù)[J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2012,35(1):38-42.
[10]張瑞,王文劍,張亞丹,等.基于支持向量機(jī)分類問(wèn)題的勤讓德核函數(shù)[J].計(jì)算機(jī)科學(xué),2010,39(7):222-224.