哈明虎,黃澍,王超,王曉麗
(1.河北大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,河北保定 071002;2.河北大學(xué)物理科學(xué)與技術(shù)學(xué)院,河北保定 071002)
研究報(bào)告
直覺模糊支持向量機(jī)
哈明虎1,黃澍1,王超2,王曉麗1
(1.河北大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,河北保定 071002;2.河北大學(xué)物理科學(xué)與技術(shù)學(xué)院,河北保定 071002)
傳統(tǒng)的模糊支持向量機(jī)難以區(qū)分具有相同隸屬度的稀疏樣本點(diǎn)和稠密樣本點(diǎn),進(jìn)而可能降低分類精度.為了解決此類問題,利用直覺模糊集和模糊支持向量機(jī),構(gòu)建了直覺模糊支持向量機(jī).仿真實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)的支持向量機(jī)和模糊支持向量機(jī)相比,直覺模糊支持向量機(jī)的分類結(jié)果更精確.
模糊支持向量機(jī);直覺模糊集;直覺模糊支持向量機(jī)
MSC 2010:90-04
支持向量機(jī)(support vector machine,SVM)是Vapnik[1]基于統(tǒng)計(jì)學(xué)習(xí)理論提出的一種通用機(jī)器學(xué)習(xí)方法,目前已成為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)重要的研究方向[2].一般的SVM在訓(xùn)練的時(shí)候?qū)λ杏?xùn)練點(diǎn)同等對(duì)待,將每一訓(xùn)練點(diǎn)的全部信息加以學(xué)習(xí),這就產(chǎn)生一定的局限性.例如:由于樣本中的每一個(gè)訓(xùn)練點(diǎn)起的作用不同,支持向量起決定性作用,非支持向量基本不起作用,而噪音點(diǎn)或野點(diǎn)則對(duì)正確分類起負(fù)面作用,所以分類時(shí)應(yīng)對(duì)訓(xùn)練點(diǎn)區(qū)別對(duì)待,盡可能保留支持向量,剔除非支持向量,消除噪音點(diǎn)及野點(diǎn).針對(duì)這種情況,Lin等[3-4]構(gòu)建了模糊支持向量機(jī)(fuzzy support vector machine,F(xiàn)SVM),根據(jù)不同輸入樣本對(duì)分類的貢獻(xiàn)不同,賦以不同的隸屬度,從而削弱了噪聲或野點(diǎn)對(duì)分類的影響.如何確定訓(xùn)練樣本的隸屬度是FSVM方法的關(guān)鍵點(diǎn),目前較為常用的方法是根據(jù)樣本到聚類中心的距離來確定隸屬度的大?。?],但這種方法的局限性在于沒有考慮樣本之間的緊密程度.若給定稀疏、稠密2類樣本點(diǎn),則前者比后者更有可能成為野點(diǎn).如果兩者到聚類中心的距離相等,則兩者都被賦予了相同的隸屬度,從而易造成較大分類誤差.模糊集是構(gòu)建模糊支持向量機(jī)的基礎(chǔ),是Zadeh[6]于1965年提出的,已在現(xiàn)代社會(huì)的眾多領(lǐng)域得到了廣泛應(yīng)用[7].然而,模糊集中元素的隸屬度僅是一個(gè)實(shí)數(shù),它在決策等實(shí)際應(yīng)用中,只能表示支持(肯定)、反對(duì)(否定)和猶豫(不確定)之一的程度,不能同時(shí)表示支持(肯定)、反對(duì)(否定)和猶豫(不確定)3者的程度.例如:在各種投票活動(dòng)中,除了支持與反對(duì)2個(gè)方面,經(jīng)常有棄權(quán)情況發(fā)生.故單獨(dú)使用隸屬度模糊集在一些實(shí)際問題應(yīng)用中存在一定的局限,基于此,Atanassov[8]拓展了Zadeh的模糊集,提出了基于隸屬度、非隸屬度和猶豫度這3個(gè)方面信息的直覺模糊集,使直覺模糊集比傳統(tǒng)模糊集能夠更細(xì)膩地描述和刻畫客觀世界中模糊性的本質(zhì)[9].Deschrijver等[10]研究了不精確框架下的直覺模糊集,Tamalika等[11]把直覺模糊理論應(yīng)用在了邊緣分析中.Vahid等[12-14]把直覺模糊集應(yīng)用到了模式識(shí)別中取得了很好的效果,徐澤水[15]在直覺模糊集理論及應(yīng)用方面也取得了系統(tǒng)的成果.本文把直覺模糊集應(yīng)用到支持向量機(jī)中,提出了一種新的支持向量機(jī)簡稱為直覺模糊支持向量機(jī)(intuitionistic fuzzy support vector machine,IFSVM).通過樣本在高維空間的分布確定樣本的隸屬度和猶豫度,將樣本直覺模糊化,再利用支持向量機(jī)對(duì)直覺模糊化的樣本進(jìn)行分類.
定義1[6]設(shè)X是一個(gè)非空集合,則稱
為模糊集,其中μF是模糊集F的隸屬函數(shù),μF∶X→[0,1],μF(x)為x屬于F的隸屬度,且μF(x)在[0,1]取值.
定義2[9]設(shè)χ是一個(gè)給定論域,則χ上的一個(gè)直覺模糊集定義為
其中,μA∶x→[0,1]和νA∶x→[0,1]分別稱為A的隸屬函數(shù)和非隸屬函數(shù),則μA(x)對(duì)于A上所有x∈χ,0≤μA(x)+νA(x)≤1成立.對(duì)于χ中的每一個(gè)直覺模糊子集,稱πA(x)=1-μA(x)為-νA(x)x屬于A的直覺指數(shù),是x屬于A的猶豫度或不確定度.
顯然,模糊集是直覺模糊集的一個(gè)特例.
在傳統(tǒng)的支持向量機(jī)中,最優(yōu)分類面往往由少量的位于類邊緣支持向量決定,而含野點(diǎn)的樣本常常也位于類邊緣,所以SVM在訓(xùn)練過程中對(duì)于外圍野點(diǎn)數(shù)據(jù)十分敏感.為了減小傳統(tǒng)支持向量機(jī)中異常數(shù)據(jù)點(diǎn)對(duì)SVM訓(xùn)練模型的影響,Lin等[3]構(gòu)建了模糊支持向量機(jī),其原理就是有區(qū)別地對(duì)待每一個(gè)訓(xùn)練數(shù)據(jù),根據(jù)其貢獻(xiàn)不同分配不同的權(quán)重,即為每一個(gè)樣本確定一個(gè)隸屬度.給定的訓(xùn)練數(shù)據(jù)集為{x i,y i,si},其中i=1,2,…,l,相應(yīng)的類標(biāo)簽為yi={-1,1}.于是FSVM的最優(yōu)分類面的目標(biāo)函數(shù)的最優(yōu)解
其中si為每個(gè)訓(xùn)練樣本點(diǎn)的隸屬度,在具體應(yīng)用中采用不同方法生成.最后得到最優(yōu)判別函數(shù)為
給定訓(xùn)練樣本集T={(x1,y1,μ1,π1),(x2,y2,μ2,π2),…,(x l,y l,μl,πl(wèi))},其中μi為樣本x i的隸屬度,πi為樣本x i的直覺指數(shù).
3.1 聚類中心的確定
3.2 原始數(shù)據(jù)的直覺模糊化
1)樣本點(diǎn)之間的距離
2)樣本點(diǎn)的同類點(diǎn)密度、異類點(diǎn)密度分別為
式中||表示集合的勢,即集合中元素的個(gè)數(shù),R為可調(diào)節(jié)的樣本點(diǎn)鄰域半徑.
如圖2,虛線內(nèi)的樣本為不存在異類樣本的區(qū)域,錯(cuò)分率很低,賦予一個(gè)很大隸屬度,虛線與實(shí)線間的樣本為存在錯(cuò)分的樣本賦予一個(gè)小的隸屬度,同時(shí)賦予直覺指數(shù).
圖1 數(shù)據(jù)的聚類中心Fig.1 Cluster center of data samples
圖2 隸屬度與猶豫度的表示 Fig.2 Expression of membership degree and hesitation degree
3)定義樣本的隸屬度
其中m為[0,1]的可調(diào)參數(shù).
4)定義直覺指數(shù)
其中ρ++為正類中同類密度,ρ+-為正類中異類密度,ρ-+為負(fù)類中同類密度,ρ--為負(fù)類中異類密度,R為樣本點(diǎn)的臨域.
3.3 數(shù)據(jù)分類算法
其中t為可調(diào)參數(shù)(t可以大于1,但要滿足μi+tπi≤1).
引入Lagrange乘子
由此求解問題變?yōu)橄旅娴亩蝺?yōu)化問題
其中C>0為懲罰參數(shù),表示對(duì)錯(cuò)分樣本懲罰的程度;μi為樣本點(diǎn)的模糊隸屬度;εi≥0為松弛變量;K(xi,y j)=φ(x i)·φ(x j)為滿足Mecer核定理的核函數(shù).
采用MATLAB編程語言在PC機(jī)上對(duì)人工數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).如圖3所示,實(shí)驗(yàn)所用數(shù)據(jù)集為人工數(shù)據(jù)集,選取59個(gè)樣本,取t=2,R=0.2,m=0.5,正類用□表示,負(fù)類用×表示,核函數(shù)為多項(xiàng)式核函數(shù)d=1,C=5000,黑線為直覺模糊支持向量機(jī),紅線為模糊支持向量機(jī),綠線為支持向量機(jī).從圖3可以看出,雖然有幾個(gè)負(fù)類樣本散落在正類中但由于樣本點(diǎn)間的距離比較大,成為野點(diǎn)的可能性更大.而靠近負(fù)類的那3個(gè)正類樣本比較緊密,成為野點(diǎn)的可能性較小,從圖中可明顯看出,SVM明顯把那3個(gè)正類樣本點(diǎn)歸于負(fù)類,F(xiàn)SVM雖然較SVM有所修正但仍把那3個(gè)正類樣本點(diǎn)歸為負(fù)類,IFSVM則把邊界那3個(gè)正類樣本點(diǎn)歸為正類,更符合人的判斷的習(xí)慣
圖3 人工數(shù)據(jù)集的分類結(jié)果Fig.3 Classification of artificial data sets
為了較好地解決基于模糊集的模糊支持向量機(jī)存在的一類問題,基于直覺模糊集和模糊支持向量機(jī),本文構(gòu)建了直覺模糊支持向量機(jī),它是模糊支持向量機(jī)的一種有意義的拓廣.它通過樣本點(diǎn)到聚類中心的距離確定樣本點(diǎn)的隸屬度,再通過單個(gè)樣本附近樣本點(diǎn)的緊密程度確定該樣本的直覺指數(shù),從而更準(zhǔn)確地區(qū)分隸屬度相同的不同樣本點(diǎn)對(duì)該類的貢獻(xiàn)程度,這樣就使支持向量機(jī)對(duì)邊緣樣本點(diǎn)有所取舍,降低了野點(diǎn)的影響,提高了支持向量機(jī)分類的精度.仿真實(shí)驗(yàn)驗(yàn)證了該算法的有效性.把本算法應(yīng)用到真實(shí)數(shù)據(jù)集及推廣到多類問題是作者未來的研究方向.
[1]VAPNIK V N.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag,1995.
[2]哈明虎,王超,張植明,等.不確定統(tǒng)計(jì)學(xué)習(xí)理論[M].北京:科學(xué)出版社,2010.
[3]LIN C F,WANG S D.Fuzzy support vector machines[J].IEEE Transaction on Neural Networks,2002,13:464-471.
[4]LIN C F,WANG S D.Fuzzy support vector machines with automatic membership setting[J].Studies in Fuzziness and Soft Computing,2005,177:233-254.
[5]張翔,肖小玲,徐光佑.模糊支持向量機(jī)中隸屬度的確定與分析[J].中國圖象圖形學(xué)報(bào),2006,11(8):1188-1192.
[6]ZADEH L A.Fuzzy sets[J].Information and Control,1965,8:338-353.
[7]陳水利,李敬功,王向公.模糊集理論及其應(yīng)用[M].北京:科學(xué)出版社,2005.
[8]ATANASSOV K.Intuitionistic fuzzy sets[J].Fuzzy Sets and Systems,1986,20:87-96.
[9]ATANASSOV K T.New operations defined over the intuitionistic fuzzy sets[J].Fuzzy Sets and Systems,1994,61:137-142.
[10]DESCHRIJVER G,ETIENNE E.On the position of intuitionistic fuzzy set theory in the framework of theories modelling imprecision[J].Information Sciences,2007,177:1860-1866.
[11]TAMALIKA C.A new measure using intuitionistic fuzzy set theory and its application to edge detection[J].Applied Soft Computing,2008,8:919-927.
[12]VAHID K,GHOLAM A M.Intuitionistic fuzzy set vs.fuzzy set application in medical pattern recognition[J].Artificial Intelligence in Medicine,2009,47:43-52.
[13]HUNG W L,YANG M S.On the J-divergence of intuitionistic fuzzy sets with its application to pattern recognition[J].Information Sciences,2008,178:1641-1650.
[14]IOANNIS K V,GEORGE D S.Intuitionistic fuzzy information-Applications to pattern recognition[J].Pattern Recognition Letters,2007,28:197-206.
[15]徐澤水.直覺模糊信息集成理論及應(yīng)用[M].北京:科學(xué)出版社,2008.
Intuitionistic Fuzzy Support Vector Machine
HA Ming-h(huán)u1,HUANG Shu1,WANG Chao2,WANG Xiao-li1
(1.College of Mathematics and Computer,Hebei University,Baoding 071002,China;2.College of Physics Science and Technology,Hebei University,Baoding 071002,China)
Since the traditional fuzzy support vector machine hardly distinguishes between sparse sample points and dense sample points with the same membership,it may further reduce the classification accuracy.In order to solve the problem,by using the fuzzy support vector machine and intuitionistic fuzzy sets,the intuitionistic fuzzy support vector machine is constructed.The simulation experiment shows that the classified result by using the intuitionistic fuzzy support vector machine is more accurate than the traditional fuzzy support vector machine and the fuzzy support vector machine.
fuzzy support vector machine;intuitionistic fuzzy set;intuitionistic fuzzy support vector machine
TP 181
A
1000-1565(2011)03-0225-05
2010-09-27
國家自然科學(xué)基金資助項(xiàng)目(60773062;61073121);河北省自然科學(xué)基金資助項(xiàng)目(2008000633);河北大學(xué)自然科學(xué)基金資助項(xiàng)目(2008-125)
哈明虎(1963-),男,河北肅寧人,河北大學(xué)教授,博士生導(dǎo)師,主要從事廣義測度、不確定統(tǒng)計(jì)學(xué)習(xí)理論和智能管理方面的研究. E-mail:mhha@hbu.edu.cn
王蘭英)