黃雅楠,
(寧夏大學 數(shù)學統(tǒng)計學院,銀川 750021)
傳統(tǒng)的統(tǒng)計分析方法多數(shù)針對實值數(shù)據(jù),然而實際問題經(jīng)常需要分析除實值數(shù)據(jù)外的其他類型數(shù)據(jù),例如人們對某一事物的觀點、看法、評級結(jié)果等并不總是用實數(shù)表示的。為此,統(tǒng)計學家們提出向量值數(shù)據(jù)、刪失數(shù)據(jù)、集值數(shù)據(jù)和函數(shù)數(shù)據(jù)等多種數(shù)據(jù)類型,并發(fā)展了相應的分析方法[1]。此外,人們經(jīng)常需要處理用自然語言表述的信息,例如當被調(diào)查者進行滿意度評估時,通常以“非常滿意”“滿意”“一般”等回答來描述,這些語義信息不能用精確的數(shù)值來表達,而模糊數(shù)已被證明可以很好地刻畫語義信息的不精確性[2]。
目前關(guān)于模糊數(shù)據(jù)的統(tǒng)計分析已成為數(shù)據(jù)分析中的一個熱點問題[3]。數(shù)據(jù)去模糊化作為模糊數(shù)據(jù)分析中一種簡單便捷的方法,使得模糊數(shù)據(jù)可應用多變量分析法則進行分析。文獻[4]建立了基于模糊定積分“去模糊化”的Choquet積分和基于遺傳算法(Genetic Algorithm,GA)的自適應分類器學習算法模型,其將模糊數(shù)據(jù)投影到虛擬變量的實軸上,并采用最優(yōu)條件進行分類,使總錯分率最小。文獻[5]應用全部模糊信息,提出用特定的函數(shù)值隨機變量來識別模糊數(shù)據(jù),并在函數(shù)型數(shù)據(jù)分析的背景下,討論了基于非參數(shù)核密度估計的判別分析方法。文獻[6]研究一種將回歸與模糊邏輯相結(jié)合的分類方法,用于測定野生魚類的采樣地點,該方法采用logistic回歸模型,對所涉及的變量進行統(tǒng)計分析,構(gòu)建模糊推斷系統(tǒng)變量的規(guī)則基礎和模糊聚類,從而得到對野生魚類采樣點的有效分類結(jié)果。
判別分析是特殊的分類問題,其理論目前已比較完善[7-8]。然而針對模糊數(shù)據(jù),構(gòu)建與之相適應的判別分析模型成為近年來模糊統(tǒng)計數(shù)據(jù)分析的一個重要內(nèi)容。文獻[9]針對區(qū)間數(shù)的分類問題,建立區(qū)間型數(shù)據(jù)的Fisher線性判別分析模型,其主要目標在于找到一個方向向量,使得類間離散程度與類內(nèi)離散程度之比達到最大。文獻[10]比較了3種區(qū)間數(shù)的線性判別分析方法,并以一個弧菌的真實數(shù)據(jù)集為例討論其優(yōu)劣性。為了克服傳統(tǒng)判別分析只能處理清晰觀測數(shù)據(jù)的缺點,文獻[11-12]將數(shù)據(jù)包絡分析(Data Envelopment Analysis,DEA)方法的優(yōu)勢與判別分析相結(jié)合,構(gòu)建以L-R模糊數(shù)作為觀測數(shù)據(jù)的DEA-DA模型,該模型可以對L-R型模糊數(shù)據(jù)進行處理,并在模糊控制中保持其判別能力。
本文針對三角模糊數(shù)分類中的判別分析問題,構(gòu)建基于相似性度量的Fisher線性判別分析模型。首先依據(jù)三角模糊數(shù)的相似度刻畫類內(nèi)離散程度,利用三角模糊數(shù)的距離量化類與類之間的離散程度;然后尋找一個投影方向向量,使得投影之后數(shù)據(jù)的類間離散程度與類內(nèi)離散程度之比達到最大;最后通過具體胃病實例說明該分類模型的適用性。
目前多數(shù)模糊數(shù)研究都是以三角模糊數(shù)作為開端進行分析,因此,對三角模糊數(shù)的研究在模糊數(shù)據(jù)分析中擁有著不可替代的地位,本文首先介紹三角模糊數(shù)的相關(guān)基本內(nèi)容。
則稱A為三角模糊數(shù),簡記為(al,am,au)且al≤am≤au。若am-al=au-am,則稱A為對稱三角模糊數(shù)[13]。
設有a=(al,am,au)、b=(bl,bm,bu)和實數(shù)k,根據(jù)模糊集的擴張原理,有如下運算規(guī)則:
a+b=(al+bl,am+bm,au+bu)
a·b=(albl,ambm,aubu)
(2)
設2個三角模糊數(shù)a=(al,am,au)和b=(bl,bm,bu),令:
(3)
為a、b之間的距離。該距離為模糊數(shù)之間的一個合適的指標,可以用來量化數(shù)據(jù)的平均變化,是一個Hausedorff距離[14],并為許多學者所運用。選擇文獻[13]所提出的具有普適性的2個三角模糊數(shù)相似度:
(4)
顯然,0≤S(a,b)≤1,S(a,b)越大,表示a、b越相似。若S(a,b)=1,則a=b。
本文將取值為模糊數(shù)的隨機變量定義為模糊隨機變量,對模糊隨機變量的研究角度不同,其具體的定義也不盡相同,本文主要參照1978年KAWKERNAAK H提出的定義[15],具體如下:
定義2設(Ω,A,P)為一概率測度空間,令u1,u2,…,un為模糊變量,對于Ω中的每個事件ωi,ξ(ω)是一個模糊隨機變量,如果ω=ωi,i=1,2,…,n,則ξ(ω)=ui。
(6)
是實值隨機變量,即Borel測度下的實值函數(shù)。α截集在ξ上的限制為:
ξα(ω)=[inf(ξ(ω))α,sup(ξ(ω))α]
(7)
(8)
其中,L1(Ω,A,P)是(Ω,A,P)上的可積函數(shù)類。
定理1設X為概率測度空間(Ω,A,P)上的有界可積模糊隨機變量,則對?α∈[0,1]有以下結(jié)論成立:
inf(E=E(infXα)
sup(E=E(supXα)
(9)
定義5設X為一模糊隨機變量,在概率測度空間(Ω,A,P)上的平方積分有界,且EX存在,則令:
DXE(X-EX)2
(10)
為模糊隨機變量X的方差。由于EX是一個有界模糊數(shù),而方差DX描述了數(shù)據(jù)之間的離散程度,因此也為模糊數(shù)。
定義6設X、Y為模糊隨機變量,在概率測度空間(Ω,A,P)上X2、Y2積分有界,則X、Y也是(Ω,A,P)上的模糊隨機變量,且X、Y積分有界,令:
cov(X,Y)E(X-EX)(Y-EY)
(11)
為模糊隨機變量X、Y的協(xié)方差,cov(X,Y)為一模糊數(shù)。
如果有一個新的觀測值U0,筆者想要決定這個新的觀測值屬于哪個類。為得到分類過程,把經(jīng)典的Fisher線性判別方法擴展到模糊隨機變量的框架下,先討論2個類的情況,隨后擴展到多個類。
類比于經(jīng)典的Fisher線性判別分析模型,現(xiàn)有nk個三角模糊數(shù)投影Vi,此時Vi不再是標量。根據(jù)LDA的主要思想,筆者想要選取一個w*,它可以使各類之間的分離度達到最大且各類內(nèi)之間的分離度最小,即使得:
達到最大。其中,SB為類間離散程度,SW為類內(nèi)離散程度。由于每個類的投影其均值是一個模糊數(shù),因此分離度依賴的是樣本均值之間的距離。
(15)
為得到J(w)中的分母,需要計算模糊數(shù)的類內(nèi)離散程度。在本例中,屬于第k個類(k=1,2)的模糊數(shù)據(jù)的樣本協(xié)方差矩陣為:
(16)
即三角模糊數(shù)之間的相似度代替總體方差與協(xié)方差,這樣,Sk即為一矩陣,其中的每個元素均為實數(shù)。
定義模糊數(shù)的類內(nèi)離散程度為:
通過模仿Fisher線性判別分析進程,可獲得如下分離度:
同樣,也可定義模糊數(shù)的類間離散程度SB=D·DT。引理1建立了一個與式(7)等價的J(w)表示方法:
引理1對任意p維向量w=(w(1),w(2),…,w(p))T及SB=D·DT,其中D由式(15)定義,有如下結(jié)論成立:
(wTD)2=wTSBw
(19)
證明:一方面,由式(15)可知表達式(wTD)2可以寫為式(20)。
(20)
另一方面,有式(21)存在。
其中:
因此,通過式(21)和式(22),可檢驗wTSBw與式(20)等價,由此引理1得證。
通過引理1,J(w)可被等價表示為:
這說明,對于三角模糊數(shù)據(jù)之間的分離度是類間離散程度與類內(nèi)離散程度之比,這一點與經(jīng)典的Fisher判別類似。
為找到一個最優(yōu)的方向w*使得J(w)達到最大,與經(jīng)典情況類似,可直接得出在下述情況J(w)最大:
(24)
因此,綜上可得2個類的情況下三角模糊數(shù)的分類法則,即給定一個新的模糊數(shù)U0和其在方向w*上的投影V0,如果:
另一方面,如果有多個類,即G>2,則本文目標是找到G-1個投影方向向量{w1,w2,…,wG-1}按列排列為投影矩陣W,使得類間離散程度與類內(nèi)離散程度之比達到最大。因此,通過計算WTUj,每個觀測值Uj都可轉(zhuǎn)換成G-1個投影。
針對多個類的情況,類內(nèi)離散程度和類間離散程度可由式(27)和式(28)計算。
對比于經(jīng)典情況,考慮:
多個類的判別法則如下:給定一個新的模糊觀測值U0,若式(31)成立,則將其分到第Ch個類中h,l={1,2,…,G},h≠l。
醫(yī)生通過一些化驗指標來判斷就診人員是否患病的問題,本例是在已知確診為胃癌和萎縮性胃炎及非胃病者的化驗數(shù)據(jù)的前提下,給出鑒別胃病的方法,并用所給數(shù)據(jù)進行檢驗。人體是否患有胃病可從以下4種生化指標中判斷:血清蛋白(X1),藍色反應(X2),尿吲哚乙酸(X3),中性硫化物(X4)。表1是從病例中隨機抽取的部分資料,其來源于2011年寶雞文理學院數(shù)學建模競賽。數(shù)據(jù)集由來自3種不同種類的胃病的50個觀察值組成,其中75%的數(shù)據(jù)被劃分到訓練樣本中,25%的數(shù)據(jù)被保存為測試樣本。從訓練數(shù)據(jù)集中的3種胃病類型中選取并展示15個病人的生化指標,其中1號~5號病例是已經(jīng)確診為胃癌病人的化驗結(jié)果,6號~10號病例是已經(jīng)確診為萎縮性胃炎病人的結(jié)果,10號~15號是非胃病者的化驗數(shù)據(jù),每人化驗4項生化指標,具體數(shù)值如表1所示。
表1 3種類型胃病病人的4項生化指標數(shù)值
采用經(jīng)典的Fisher判別分析模型,以訓練數(shù)據(jù)的所有生化指標為自變量進行分析,建立傳統(tǒng)的Fisher判別函數(shù),用測試數(shù)據(jù)對判別函數(shù)進行驗證,得到的判對率為93.3%,其中誤判只發(fā)生在原本是正常人的身上。
醫(yī)生在判斷一個人是否患胃病是根據(jù)例子中所提到的4種生化指標在人體內(nèi)的含量來判定的。根據(jù)實際情況可知,當人機體內(nèi)發(fā)生某些病變時會導致人機體的生理和生化功能發(fā)生很大的變化,進而會引起人體內(nèi)某些物質(zhì)含量發(fā)生變化。但是這些物質(zhì)的含量的變化并沒有一個相似的規(guī)律。進一步檢查這些物質(zhì)含量的高低是否會引起病變是非常耗時的。相反地,根據(jù)醫(yī)學專家的以往經(jīng)驗和簡單的診斷則可通過模糊的尺度來表達對語言標簽(高、中、低)的感知,從而快速便捷地判斷患者是否患有胃病。根據(jù)收集到的生化指標信息和專家的語義描述標準,將每個病人被抽樣的指標含量劃分為高、中、低。在本例中可簡單地根據(jù)專家對上述數(shù)據(jù)中前三個指標用具體三角模糊數(shù)描述語義,如表2所示。例如:專家通過以往的經(jīng)驗,對病人1其血清蛋白含量的描述是“中”,對藍色反應含量的描述是“低”,對尿吲哚乙酸含量的描述是“低”,可分別用三角模糊數(shù)(0.50,0.72,0.82)、(0.12,0.33,0.82)、(0.30,0.48,0.66)來表示。
表2 專家對生化指標的語義描述
通過數(shù)據(jù)計算,3種胃病的樣本均值分別為:
由上文所選擇的三角模糊數(shù)距離公式及求類間散布公式可求得類間距為:
通過計算,可得到具體的判別法則。作為試點研究,由于本例樣本量較小(20個胃癌患者、10個萎縮性胃炎患者、20個非胃病患者),因此本文用1 000個隨機-3折的交叉驗證來估計正確分類的百分比,即每個類對應的樣本被隨機分成3個子折疊,大小大致相同。首先,將所有類的子折疊組合在一起,以構(gòu)成第一個折疊,以此類推。整個數(shù)據(jù)集被分割成3個大小大致相同的折疊,使得每個類的觀測值在每個折疊中所占的比例約等于整個樣本中原始的比例。每一折疊都作為測試樣本,而不包括在該折疊中的觀測值作為訓練樣本。在此過程中,樣本中的每個數(shù)據(jù)點都被分類。最后,為避免對3個特定的折疊項的依賴,整個過程重復1 000次,隨機選擇不同的折疊組合。這樣,每一疊都至少包含3個觀測值。估計本文方法的正確分類百分比,考慮1 000個隨機-3折的交叉驗證,其結(jié)果正確分類百分比的總結(jié)如下:最小值為95.11%,中位數(shù)為95.30%,均值為95.14%,最大值為96.11%,偏差僅為0.36%。
處理既包含隨機性又包含模糊性的復雜數(shù)據(jù),構(gòu)建與之相適應的判別模型,是模糊統(tǒng)計數(shù)據(jù)分析中的重要內(nèi)容。針對三角模糊數(shù)的分類問題,本文構(gòu)建基于相似性度量的Fisher線性判別分析模型,該模型是經(jīng)典Fisher線性判別分析模型的推廣。同時通過具體實例說明所得分類法則在語義化描述胃病診斷結(jié)果中的適用性。由于現(xiàn)實中經(jīng)常存在線性不可分的判別問題,因此下一步將針對三角模糊數(shù)非線性的核判別問題進行研究。