王 慧 簡紹勇 李 娟 周文惠
(新余學(xué)院 江西新余 338000)
數(shù)學(xué)建模競賽等與樣本數(shù)據(jù)相關(guān)的問題都需要進(jìn)行數(shù)據(jù)的統(tǒng)計預(yù)處理,在此過程中,涉及的數(shù)據(jù)以及變量較多,因此增加了數(shù)據(jù)處理的復(fù)雜程度,在處理時希望把多變量轉(zhuǎn)換為較少的綜合變量,從而能夠反映出相應(yīng)的變量信息。而主成分分析、因子分析以及獨立成分分析方法可以處理多變量、大樣本的數(shù)據(jù)信息,同時能夠進(jìn)行降維處理,在數(shù)學(xué)建模競賽當(dāng)中得到了較為廣泛的應(yīng)用。因此,對這三種統(tǒng)計分析方法進(jìn)行研究具有實際的應(yīng)用意義。
主成分分析法(PCA)就是指通過正交變換,把分量相關(guān)的多個變化轉(zhuǎn)化為分量不相關(guān)的綜合變量的過程。其中,被選擇出來的變量叫作主成分,可以對數(shù)據(jù)的各種指標(biāo)進(jìn)行解釋;而綜合變量不僅要能夠反映出原變量的信息,還要保證互不相關(guān)。主成分分析法是一種數(shù)學(xué)變換方法,在變換的過程中,變量的方差是不變的,還要以方差遞減的形式把變換后的綜合變量進(jìn)行排序。
因子分析法(FA)是主成分分析法的推廣,主要是把原始的變量通過一些公共的因子變量來表示,是一種研究把多個觀測變量轉(zhuǎn)變?yōu)樯贁?shù)的不相關(guān)的綜合變量的一種統(tǒng)計分析方法。此種方法主要針對在大量觀測數(shù)據(jù)當(dāng)中得到一部分有價值的、難以直接測量的、相對獨立的因子。
獨立成分分析法(ICA)是主成分分析法以及因子分析法的延伸,此種方法應(yīng)用效果較好,一旦其他的統(tǒng)計方法失效,那么依然可以找出支持觀測數(shù)據(jù)的內(nèi)在因子。獨立成分分析法就是在大量的觀測數(shù)據(jù)當(dāng)中恢復(fù)、分離獨立的數(shù)據(jù)信息。
主成分分析、因子分析以及獨立成分分析方法都可以處理多變量、大樣本的數(shù)據(jù)信息,同時能夠進(jìn)行降維處理,在數(shù)學(xué)建模競賽當(dāng)中得到了較為廣泛的應(yīng)用。
在某年數(shù)學(xué)建模夏令營當(dāng)中有如下問題:對水資源風(fēng)險的主要因子進(jìn)行識別,對風(fēng)險帶來的危害進(jìn)行等級劃分,對不同風(fēng)險的因子進(jìn)行控制以便維護(hù)社會的和諧與穩(wěn)定。根據(jù)水資源的相關(guān)信息,求得影響水資源短缺的主要風(fēng)險因子,其影響因素包括工業(yè)用水、農(nóng)業(yè)用水、氣候條件、人口規(guī)模等等,根據(jù)已知的數(shù)據(jù),利用降維的方式,通過主成分分析法進(jìn)行研究分析。
首先,將影響因素的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,建立數(shù)據(jù)的標(biāo)準(zhǔn)化模型。然后對數(shù)據(jù)進(jìn)行主成分的計算,再根據(jù)累計貢獻(xiàn)率求得主成分因素。根據(jù)主成分當(dāng)中各因子的數(shù)據(jù),判斷出影響水資源的主要因素。
在某年全國大學(xué)生數(shù)學(xué)建模競賽當(dāng)中有如下的問題:根據(jù)數(shù)據(jù)分析重金屬污染的主要原因,究其根本就是求得產(chǎn)生重金屬污染的因子,從而研究其原因,所以在這一問題當(dāng)中可以用因子分析法。
以生活區(qū)域為示例,分析過程為:首先,求得生活區(qū)重金屬之間的相關(guān)系數(shù)矩陣I,根據(jù)此矩陣并且利用SPASS 軟件將因子的特征值以及累積貢獻(xiàn)率求出。根據(jù)分析可知當(dāng)因子為6時的累積貢獻(xiàn)率為91%左右,因此可以選6 個成分因子來分析產(chǎn)生社區(qū)污染的因素。其次,再對旋轉(zhuǎn)后因子載荷矩陣進(jìn)行計算,從而判斷因子對重金屬的影響。
根據(jù)最終結(jié)果,可以判斷出6 個因子所對應(yīng)的變量有哪些,同時說明造成生活區(qū)污染的主要原因。
在某年全國研究生數(shù)學(xué)建模競賽當(dāng)中有如下的問題:按照已知數(shù)據(jù),如何根據(jù)基因和腫瘤的關(guān)系來選擇出優(yōu)秀的分類因素。我們可以把基因組作為區(qū)別正常人和腫瘤患者之間的分類因素,利用獨立成分分析法基于數(shù)據(jù)進(jìn)行分析,找出獨立的基因組。
假定基因數(shù)據(jù)矩陣為1 900 個,均為相互獨立的基因組信號,分析過程為:首先,將基因數(shù)據(jù)矩陣A 進(jìn)行中心化處理和白化處理過程。然后隨機生成可逆的歸一化初始矩陣B,并且對初始矩陣進(jìn)行迭代運算。其次,當(dāng)?shù)瓿芍?,可以求得相互獨立的基因組矩陣:X=AB。對基因數(shù)據(jù)矩陣以及求得的相互獨立的基因組矩陣進(jìn)行分析,從而找出獨立的基因組[1-4]。
本文通過對三種統(tǒng)計分析方法在數(shù)學(xué)建模中的應(yīng)用探析,使我們了解到了,多元統(tǒng)計分析方法在數(shù)據(jù)處理過程中得到了較為廣泛的應(yīng)用,而主成分分析、因子分析以及獨立成分分析方法作為其基本的數(shù)據(jù)處理方法,在數(shù)學(xué)建模當(dāng)中具有重要的應(yīng)用。對于大量的數(shù)據(jù)而言,首先就是要進(jìn)行降維、去相關(guān)等數(shù)據(jù)預(yù)處理過程,所以一定會用到三種統(tǒng)計分析方法當(dāng)中的一種或者幾種,因此,在具體的應(yīng)過程中,要根據(jù)實際情況選擇合適的分析方法,保證數(shù)據(jù)處理的正確性。