梁飛豹,陳婷婷
(福州大學數(shù)學與計算機科學學院,福建福州350108)
基于投影的組合判別方法
梁飛豹*,陳婷婷
(福州大學數(shù)學與計算機科學學院,福建福州350108)
摘要:由于數(shù)據(jù)的復雜性,一般的投影判別方法在應用上有一定的局限性,本文引入權重因子對不同投影方法進行組合,從而提出一種組合判別方法,以提高判別回代正確率與預測效果.通過實際例子和模擬數(shù)據(jù)驗證了組合判別模型的判別效果良好,回代正確率比單一判別方法高,預測效果也優(yōu)于單一判別方法.
關鍵詞:Fisher判別;內聚外散;回代;正確率;權重;組合判別
判別分析是一種判斷個體所屬類別的統(tǒng)計方法,在已知觀測對象的分類結果和若干表明觀測對象特征的變量值的情況下,建立一定的判別準則,利用判別準則對新的觀測對象的所屬類別進行判斷.判別分析方法多樣,思路不盡相同,常見的判別法有距離判別分析法、最大后驗概率準則、Fisher判別分析法和Bayes判別分析法等.由于數(shù)據(jù)類型的復雜性,距離判別并不能很好地體現(xiàn)數(shù)據(jù)所在總體潛在的幾何特性.Fisher判別的決定因素是樣本中心,隱含了數(shù)據(jù)是高斯分布的假設,當數(shù)據(jù)不是高斯分布時,經(jīng)過任何的投影變換,都無法使其各類的組內差小、組間差大,造成各類數(shù)據(jù)分辨不清,判別效果不好.目前,并沒有一種判別方法能夠適用于所有的數(shù)據(jù)類型.
我們知道在預測模型中,由于建模機制和出發(fā)點不同,通常同一問題有不同的預測方法,不同的預測方法提供不同的有用信息,其預測精度往往也是不同的.如果簡單地將預測誤差較大的一些方法舍棄,將會丟失一些有用的信息,那么,一種更為科學的做法就是將一些不同的預測方法進行適當?shù)慕M合,從而形成所謂的組合預測方法,它將有利于綜合各種方法提供有用的信息,有利于提高預測的精度[1].
在判別中,可以考慮引入組合的思想,較大限度地綜合利用各種判別方法所提供的信息,盡可能地提高回代正確率.它比單個預測模型考慮問題更系統(tǒng)、更全面、更科學,更能有效地減少單個判別模型判斷過程中一些環(huán)境因素的影響.
對于新的測試樣本所屬類別的判斷,不同的判別方法有著不同的回代正確率和預測精度,本文嘗試引入權重因子,將多種判別方法進行線性組合,構造一種組合判別方法,經(jīng)過數(shù)據(jù)模擬,驗證其廣泛適應性,且對復雜數(shù)據(jù)判別問題有實際應用價值,理論和方法上也具有一定的創(chuàng)新性.
由于Fisher判別通過投影將多維的特征降到只有一維,又保證了類別能夠“清晰”地反映在低維數(shù)據(jù)上.因此,本文考慮將基于投影變換的幾種判別方法進行組合,既能保留投影判別的優(yōu)良性,又能考慮到單個投影方向無法判別的數(shù)據(jù)經(jīng)過多種判別得到較準確的結果.
1基于投影的判別方法
本文主要分析兩個總體的情況,多總體的判別問題可以轉換成雙總體的判別分析.現(xiàn)考慮有n個來自總體G1,G2的p維樣本
其中ni(i=1,2)表示第i個總體的樣本數(shù),n=n1+n2.在介紹投影方法之前,先定義幾個必要的基本參量.
樣本組間離差陣:
樣本組內離差陣:
總體G2“相對于”總體G1的離差陣:
總體G1的離差陣:
總體G2的離差陣:
1)Fisher投影
將p維空間上的點x經(jīng)投影后變?yōu)橐痪S實數(shù)上的點z,并希望投影后的數(shù)據(jù)其組內差盡量小,組間差盡量大,即所求投影向量w1為:
則判斷樣品x∈Gt.
2) 改進的Fisher投影
同樣作投影,將p維投影到一維,但我們只希望投影后的數(shù)據(jù)的組間差盡量大,而不考慮組內差(這主要是為了避免p維空間上樣本矩陣的組內離差陣Sw奇異),即所求的投影向量w2為:
顯然w2是Sb的最大的特征值所對應的特征向量.由此投影的判別準則與Fisher投影的判別準則一致,即對于給定的任一樣品x,如果
則判斷樣品x∈Gt.
3) “內聚外散”投影[2]
同樣,將p維投影到一維,我們希望投影后的數(shù)據(jù),屬于第1類G1的樣本聚集在一起,而不屬于第1類G2的樣本遠離第1類G1(即“內聚外散”投影),即所求的投影向量w3為:
4) 改進的“內聚外散”投影
思想同上,還是希望投影后的數(shù)據(jù),屬于第1類G1的樣本聚集在一塊,而不屬于第1類G2的樣本盡可以地分散,即所求的投影向量w4為:
基于不同投影得到的判別方法是適用于不同的數(shù)據(jù)類型.Fisher投影判別在處理2個總體的樣本數(shù)據(jù)均為高斯分布的時,效果好.而當2個總體的樣本數(shù)據(jù)呈現(xiàn)一個集中,另一個相對分散時,“內聚外散”投影則具有更明顯的優(yōu)點.因此,可以說并沒有一種能夠適用于所有的數(shù)據(jù)類型的判別方法,下面我們將尋找一種組合方式,使得能夠較好地適用于不同的數(shù)據(jù)類型做判別.
2組合判別模型
本文建立的組合判別模型擬將4種投影判別方法所得到的回代正確率作為權重,進行加權的判別方法:例如,設對某一待判樣品x,2個總體G1,G2利用4個判別方法得到4個模型的回代正確率值分別為ρt(t=1,2,3,4),利用這些回代正確率值構成一個對x的最終判別結果,即x所屬的類別k=φ(ρ1,ρ2,ρ3,ρ4),這種組合判別方法建立在對各個方向投影的基礎上,它集多種單一判別模型所包含的信息,進行最優(yōu)組合.因此,在大多數(shù)情況下,通過組合判別可以達到提高回代正確率的目的.
值得注意的是,高維的樣本數(shù)據(jù)經(jīng)過不同的投影降到一維后,并不能直接加權組合,而是需要處理成具有統(tǒng)一的標準后才能進行組合.我們采取的處理方式是:將總體G1經(jīng)投影后重心(均值)落在“0”處,而總體G2的重心落在了“1”處.
組合判別方法的算法如下:
1) 選取一類樣本為指定的“第1類G1”,以2個總體樣本方差(取方差矩陣的行列式)大小來衡量它們的“集中”度,哪個方差行列式越小,就選擇這一類為“第1類G1”;
即將投影后的G1的重心落在“0”處,G2的重心落在“1”處;
4) 建立組合判別模型:
如果b=0,則判斷樣品x∈G1,否則x∈G2.
3數(shù)據(jù)分析
3.1實例分析
對全國30個省市自治區(qū)1994年影響各地區(qū)經(jīng)濟增長差異的制度變量[3]:經(jīng)濟增長率(%)x1、非國有化水平(%)x2、開放度(%)x3、市場化程度(%)x4.第1組的樣本方差矩陣行列式D1=5.884 5×106,第2組的樣本方差矩陣行列式D2=1.321 4×108,故第1組樣本確定為“第1類G1”,第2組樣本確定為“第2類G2”.
可以得到4個投影方向:
w1=(0.000 5-0.291 2-0.347 7-0.891 2)T,
w2=(-0.016 30.738 50.471 80.481 4)T,
w3=(0.958 8-0.265 2-0.036 60.095 5)T,
w4=(-0.959 60.257 20.036 6-0.108 2)T.
將2組樣本分別向w1,w2,w3,w4上投影,并對投影后的數(shù)據(jù)進行“對折”和重心“移動”處理,得到4組一維向量如表1所示.同時我們可以得到4個投影判別的回代正確率分別是:
ρ1=0.814 8,ρ2=0.777 8,
ρ3=0.555 6,ρ4=0.592 6,
建立組合判別模型:
C=0.814 8y1+0.777 8y2+0.555 6y3+
0.592 6y4,
易得,組合判別后的回代正確率為ρC=0.851 9.
表1 4個方向投影后的數(shù)據(jù)
從回代正確率的角度看,2個“內聚外散”投影判別效果不佳,Fisher判別和改進的Fisher判別效果較好,但經(jīng)過組合判別后,回代正確率得到了提高,說明該方法較單一的判別方法效果好.
3.2模擬分析
本文通過模擬數(shù)據(jù)實驗來驗證組合判別模型的可行性并分析其優(yōu)良性.首先,構造來自2個類別的隨機數(shù)據(jù)X=(X1,X2,X3,X4,X5)~Np(0,Σ),且Σ=(σij)p×p,σij=0.5|i-j|(i,j=1,2,…,p).對于每次生成的一組樣本量n=400的數(shù)據(jù),建立模型:
Y為n×1,對Y作如下變換:
以pi為概率,自動生成一次伯努利實驗,所得的值作為該樣品的屬類(即取值為0,作為第1類,取值為1,作為第2類),由此,可以把X分成X(1),X(2).將X(1),X(2)各自前1/2的樣本作為訓練樣本,剩余的部分做測試樣本.
對此作大量的隨機實驗,組合判別均表現(xiàn)優(yōu)良.表2隨機給出了其中5次模擬實驗的訓練樣本的回代正確率與測試樣本的平均判對率.
由表2數(shù)據(jù)可知,組合判別方法充分表現(xiàn)出它的優(yōu)良性.1)擬合度高,每次實驗的回代正確率都相對較高;2)預測效果好,每次實驗的預測數(shù)據(jù)的正確率也是相對較高的;3)穩(wěn)定性好,每次實驗的誤判率都處于低水平,且波動較小.
4結論
與單一的判別模型相比,引入權重的組合判別法提高了判別的回代正確率與預測精度,而且得到的判別模型也更加穩(wěn)定.
表2 模擬數(shù)據(jù)判別結果比較
注:方法1為Fisher投影,方法2為改進的Fisher,方法3為 “內聚外散”,方法4為改進的“內聚外散”.
但本文提出的組合判別方法存在待改進的地方.首先,本文只用了2種投影及其簡單的推廣;其次,權重的確定為回代正確率,是否還可以選擇其他權重;最后,本文為今后研究提供了一個新思路,如選擇其他判別方法的組合、采用非線性的組合方式等.
參考文獻:
[1]石云霞.組合預測模型的權重研究及其應用[D].銀川:寧夏大學,2008:2-12.
[2]梁飛豹.多次線性判別方法[J].福州大學學報 (自然科學版),1992(1):9-15.
[3]任雪松,于秀林.多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,2011:15-129.
[4]游華,郭福星.最優(yōu)組合因子Fisher判別法[J].福州大學學報(自然科學版),2001,29(3):1-4.
[5]黃國宏,劉剛.一種新的基于Fisher準則的線性特征提取方法[J].計算機技術與發(fā)展,2008,18(5):227-230.
[6]周舒冬,李麗霞,郜艷暉,等.加權Fisher線性判別法在非平衡醫(yī)學數(shù)據(jù)集中的應用[J].數(shù)理醫(yī)藥學雜志,2009,22:59-61.
[7]黃利文,梁飛豹.改進的Fisher判別方法[J].福州大學學報(自然科學版),2006,34(4):473-477.
[8]苗春玉.線性判別分析改進算法的分析與研究[D].大連:遼寧師范大學,2012:5-10.
[9]趙麗娜.Fisher判別法的研究及應用[D].哈爾濱:東北林業(yè)大學,2013:24-26.
[10]ZHANGB,QIAOY.Facerecognitionbasedongradientgaborfeatureandefficientkernelfisheranalysis[J].NeuralComputing&Applications,2010,19(4):617-623.
[11]MARTINEZAM,KAKAC.PCAversusLDA[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2001,23(2):228-233.
Based on Projection of the Combination Discriminant Method
LIANG Feibao*,CHEN Tingting
(College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350108,China)
Abstract:Because of the complexity of the data,the general projection discriminant method suffers from certain limitations in applications.For the purpose of taking correct rates of back substitution as the standard,this article gives a combination discriminant method by introducing weighting factors and combining different projection in order to improve accuracy and prediction effects.Simulated data are checked,and it is found that their correct rates of back substitution are better than those of the general linear discriminate method.The prediction effect is superior to other methods.
Key words:fisher discriminant;assembling inside and spreading;back substitution;correct rates;weighting;combination discriminant
doi:10.6043/j.issn.0438-0479.2016.03.011
收稿日期:2015-07-09錄用日期:2015-11-28
基金項目:國家自然科學基金(11301084);福建省自然科學基金(2014J01010)
*通信作者:fbliang@163.com
中圖分類號:O 212
文獻標志碼:A
文章編號:0438-0479(2016)03-0366-05
引文格式:梁飛豹,陳婷婷.基于投影的組合判別方法.廈門大學學報(自然科學版),2016,55(3):366-370.
Citation:LIANG F B,CHEN T T.Based on projection of the combination discriminant method.Journal of Xiamen University(Natural Science),2016,55(3):366-370.(in Chinese)