論聚類分析中聚類標準化與正交化的必要性

2012-09-26 09:10:30杜子芳劉亞文徐一丁

統(tǒng)計與決策 2012年11期

杜子芳，劉亞文，徐一丁

聚類分析是三大多元統(tǒng)計分析方法之一，在許多領(lǐng)域都有廣泛的應(yīng)用，聚類分析不僅表現(xiàn)活躍，而且分支眾多。首先有樣品聚類與變量聚類之分，其中樣品聚類又有面向大樣本量情形的快速聚類與面向樣本量不大情形的常規(guī)聚類兩個分支。對于這其中的常規(guī)聚類，還可細分為有序樣品聚類與非有序樣品聚類，而對于非有序樣品聚類，有聚類類數(shù)由少而多的分解法與由多而少的歸并法的區(qū)別。歸并法最為常用，也稱譜系聚類。

聚類家族人丁興旺，其共同的基因可以歸納為兩個：一是“模型”限于處理數(shù)值型變量尤其是非離散變量；二是“模型”的基礎(chǔ)除變量聚類少數(shù)場合外其余概為距離計算。不妨回顧一下聚類分析的過程與細節(jié)，容易知道無論是譜系聚類還是快速聚類，任何場合的距離計算不外乎三種：樣品之間的距離、樣品到類的距離以及類與類之間的距離。而這些計算的唯一依據(jù)是樣品之間的距離，簡稱樣品間距，只有譜系聚類的ward方法例外。

距離首先是一個幾何概念，其中最為人熟悉的是二維和三維幾何空間的歐幾里德距離。在其后的發(fā)展中，距離在維數(shù)、冪次數(shù)等方面被推廣了，距離被抽象為滿足下列性質(zhì)的一個函數(shù)族：（1）非負性；（2）對稱性；（3）三角可加性。

值得提醒人們特別關(guān)注的是，三角可加性雖然是一種特殊的可加性，但畢竟還是可加性，而可加性意味著幾何距離中向量的各分量量綱必須一致；至于可加性前面要加上“三角”做修飾，則意味著幾何距離中向量的各分量在笛卡爾坐標系里必須正交。這是幾何距離定義中所隱含的兩個重要特性。

樣品間距完全脫胎于幾何中的距離概念，這是毋庸置疑的，但樣品間距在幾何距離隱含的上述兩個關(guān)鍵特性上或許是被人們有意或許是不經(jīng)意地被模糊了。假如詢問學過回歸分析的學生，需要進行多重共線性的診斷嗎？回答肯定的。而假如詢問學過聚類分析的學生，聚類分析需要進行量綱不一致和變量不正交的診斷嗎？回答“是”的恐屬鳳毛麟角。還有一個明證是統(tǒng)計軟件的聚類分析程序中既無量綱一致和變量正交化的獨立模塊，在內(nèi)容相關(guān)的模塊里，缺省設(shè)置也不是能使量綱一致和變量正交化的手段選項。在迄今所見的文獻中未見任何有關(guān)主題研究的文獻。

被人們有意或許是不經(jīng)意地被模糊的兩個關(guān)鍵特性，一是幾何距離中向量的各分量量綱是一致的，故各分量的量值是可加的，可樣品距離中各個變量許多場合量綱并非一致。多元統(tǒng)計分析中關(guān)于消除量綱的方法是比較豐富的，主要有標準化變換、極差標準化變換和極差規(guī)格化變換三種。但人們往往將這些方法與中心化變換和對數(shù)變換之類變換方法并列，且對三種消除量綱影響的方法孰優(yōu)孰劣只字不提，其結(jié)果是量綱一致化的必要性被嚴重地淡化了，以致聚類分析里完全缺少判別分析那種將馬氏距離作為距離判別唯一選項的明快。

何況，若記兩個p維樣品x=[x1,…,xp]′和 y=[y1,…,yp]′之間的歐氏距離為：

而相同的兩個p維樣品之間的統(tǒng)計距離或馬氏距離為：

q其中S為樣本協(xié)方差矩陣，則正如Richard A.Johnson和Dean W.Wichern所說：“但是，沒有關(guān)于不同類的先驗知識。這些樣本量就無法計算。由于這個原因，在聚類問題中更傾向于采用歐氏距離”。也就是說，由于“類”在聚類開始的階段尚不存在，類內(nèi)的方差S無從談起，所以歐氏距離就替代了似乎更合理的統(tǒng)計距離或馬氏距離。

被人們有意或許是不經(jīng)意地被模糊兩個關(guān)鍵特性之二，是幾何距離中向量的各分量在笛卡爾坐標系里都是正交的，而樣品距離中各變量間往往存在一定程度的相關(guān)，很多場合不能滿足正交條件，費歇爾感覺到了這一點，在與聚類分析關(guān)聯(lián)緊密的姊妹方法判別分析中提出了著名的費歇爾變換。費歇爾變換是一種正交變換，可以很好解決不同變量不正交的問題?？上У氖牵癫⑽从腥藝L試將此移植到聚類分析。當然有必要指出的是，即使移植了，量綱一致及可加性的要求并不能因此獲得滿足。

樣品間距迄今存在的量綱不一致和變量不正交這兩個固有缺陷，第一個缺陷量綱不一致無法真正消除，例如試圖將血壓與身高的量綱差異消除的努力在科學的范疇里恐怕永遠不會成功。通過標準化進行矯正也許是人們能夠想到的理想方法，只有規(guī)格化可能與其相比。第二個缺陷變量不正交或變量間存在相關(guān)性，假如不考慮量綱不一致的影響，其實完全可以真正消除，而且矯正的手段非常簡單：正交化。有些多元統(tǒng)計分析教科書非常重視變量不正交或變量相關(guān)性問題，并提供了馬氏距離、斜交空間距離兩種解決方法，但也未明確宣示正交化不可或缺的必要性。

本文的主旨在于研究兩個問題，一是從聚類分析結(jié)果(取決于樣品間距)看，是否有必要進行正交化矯正；二是假如需要，那么應(yīng)該如何進行正交化。

對于第一個問題，可以通過證偽的方法輕易得到解決。本文選取兩個熟悉度很高的且各變量量綱可以看作相同的案例，按未正交化的一般方法計算樣品距離陣，再按正交化的方法重新計算距離陣，正交化的方法是對 p個變量求主成分，模型為：

這樣得到的各主成分是相互正交的，即

以各主成分的值Y1,…,Yp作為新的變量，重新計算距離。

計算比對兩種結(jié)果。由于聚類分析的原理是先將樣品距離小的樣品聚在一起，因此距離的絕對數(shù)沒有實際意義，本文主要通過比較距離的大小和排序（秩）來比對兩種距離。比對的具體做法是：

（1）如果有n個樣品，則可得到原始距離和正交后距離各C2n個。將兩個距離矩陣分別按列排成C2n維的向量，分別求兩個向量的秩xi，yi(i=1,…,C2n)，計算兩種方法的距離之間的斯皮爾曼相關(guān)系數(shù)rd：

其中，di=xi-yi，m為距離向量維數(shù)。

假如不正交不影響樣品間距的順序和聚類分析結(jié)果，兩者應(yīng)該正相關(guān)，且斯皮爾曼相關(guān)系數(shù)rd為1，因此1-rd可以視為兩者差異大小的一個量度。

（2）比較兩種距離的秩xi，yi的差異。如果正交不影響樣品間距的順序和聚類分析結(jié)果，那么兩種應(yīng)該是完全一致的。

（3）按照矩陣先行后列的順序計算樣品間距，將兩種方法計算的樣品間距的大小順序進行比較。若正交不影響樣品間距的順序和聚類分析結(jié)果，那么樣品間距的大小順序應(yīng)該是一致的。例如，不正交計算的樣品間距d1,2大于d3,5，若正交不影響樣品間距的順序和聚類分析結(jié)果，那么正交化變換后的樣品間距d1,2也應(yīng)該大于d3,5。

這里引入逆序?qū)Γ╠ifferent ordered pair）的概念來進行比較。設(shè)原始距離秩為向量x，正交后的距離秩為向量y，第i個距離秩為(xi,yi)，第 j個距離秩為(xi,yi)，i,j=1,…C2n,如果 xi＞xj，而 yi＜yj；或者 xi＜xj，而yi＞yj，則稱i和 j是逆序?qū)?，逆序?qū)χ灰髕變化方向和y變化方向相反，并不要求i和j中x的變化量|xi-xj|與y的變化量|xi-xj|相等。

類似的，同序?qū)Γ╯ame ordered pair）的概念為如果xi＞xj，且 yi＞yj；或者 xi＜xj，而 yi＜yj，則稱 i和 j是同序?qū)ΑＡ硗?，若i和 j，有 xi=xj或 yi=yj的情況，則i和 j是同分對（tied pair）。

若原始距離和正交后的距離各C2n個，則可計算出逆序?qū)Α⑼驅(qū)?、同分對的個數(shù)共個，計算逆序?qū)Φ谋壤梢院饬績煞N距離差異大小。

例1：鳶尾花數(shù)據(jù)

鑒于全部150個樣品的樣品間距陣的元素總數(shù)為149*75，過于冗長，既不容易突出問題也不便于表達，為此只隨機選出10個樣品（表1）的計算結(jié)果列在表2中，這樣足以清晰地反映問題的實質(zhì)所在。

表1 隨機抽取的10個樣品

（1）依斯皮爾曼相關(guān)系數(shù)得到兩者的套算差異率為9.53%；（2）按間距順序變化情況衡量，45個間距中正交與

表2 隨機抽取的10個樣品間距

否未產(chǎn)生影響的有8個，未正交排序后移的有23個，前移的有14個。（3）兩者存在明顯差異以致順序顛倒的也不鮮見，如表中帶陰影的3對6個樣品即是如此，此即為逆序?qū)Α?5個間距計算出的逆序?qū)Α⑼驅(qū)?、同分對見?。

表3 逆序?qū)?、同序?qū)?、同分對個數(shù)

例2：頭蓋骨數(shù)據(jù)

針對32個頭蓋骨樣品數(shù)據(jù)計算的（1）斯皮爾曼系數(shù)為97.9%，兩者的套算差異率為2.1%；（2）按間距順序變化情況衡量，496個間距中正交與否未產(chǎn)生影響的有12個，正交排序后移的有266個，前移的有218個。（3）496個間距計算出的逆序?qū)?、同序?qū)?、同分對見?。

表4 逆序?qū)?、同序?qū)?、同分對個數(shù)

兩個例子的比對結(jié)果表明，不僅未正交化與正交化的兩種樣品間距自身的數(shù)值不同，而且樣品間距的大小順序也存在明顯的差異。

盡管表中所展示的只是不正交與采用主成分法正交化的兩者的樣品間距順序發(fā)生變化的結(jié)果，但由于這種順序變化必然導致聚類分析結(jié)果產(chǎn)生差異，所以進行正交化矯正完全是有必要的。

那么應(yīng)該如何進行正交化呢？關(guān)于正交化的實施途徑有許多現(xiàn)成方案可供選擇，最直接兩個正交化方法——主成分分析與格蘭姆—施密特方法。前者與聚類分析同屬多元統(tǒng)計分析；后者較少統(tǒng)計色彩但更具一般性。

主成分的正交方法前文已述，格蘭姆—施密特方法具體計算方法為：

先取Y1=X1，然后令Y2=X2-h21Y1使(Y2,Y1)=0，即選h21使(X2-h21Y1,Y1)=0，即h21=(X2,Y1)/(Y1,Y1)，再令Y3=X3-h32X2-h31X1使 (Y3,Y2)=(Y3,Y1)=0，定出系數(shù)h32,h31；一般地，令

Yi=Xi-hi(i-1)Yi-1-…-hi1Y1使(Yi,Yi-1)=(Yi,Yi-1)=…=(Yi,Y1)=0，這樣就可以求出一組兩兩正交的向量。

有必要指出的是：雖然施密特正交化方法似乎因更具一般性而容易令人產(chǎn)生其統(tǒng)計色彩比較淡些的印象，從而會使人們忽視格蘭姆——施密特正交化方法在統(tǒng)計分析中的作用。格蘭姆——施密特正交化方法不同于主成分的最重要的地方在于，主成分變換是粉碎性的，變換后原有變量幾乎面目全非（除非再進行因子旋轉(zhuǎn)），而格蘭姆——施密特正交化方法是將原有變量中一個原封不動予以保留，以此作為變換的主軸。正如格蘭姆——施密特正交化方法在統(tǒng)計學中受到忽視一樣，這一點也是容易被視為當然如此而最終滑過人們的視野。其實，正是這微不足道的一點，在統(tǒng)計中可能甚為有用。例如可將某個最重要的變量作為主軸予以保留，這樣至少可以部分達到因子旋轉(zhuǎn)的目標，一定程度上減少主成分難以解釋之弊。

以上幾種方式都是普通的或成熟的正交化方法，不必懷疑是否能夠達成我們的初衷。疑問也許在于，依據(jù)這幾種方法計算的樣品距離與馬氏距離和斜交空間距離是否具有一致性，會不會因不具一致性導致?lián)诉M行的聚類結(jié)果也不一致。使用上面提到的兩個案例，計算結(jié)果發(fā)現(xiàn)，格蘭姆——施密特方法與主成分分析的結(jié)果完全一致，并無例外。這在理論上也是有根據(jù)的。對一個向量空間而言，標準正交基的變換相當于坐標軸的平移與旋轉(zhuǎn)，平移對距離沒有任何影響，而壓縮與膨脹都是線性的和成比例的，會改變距離的大小而不會改變距離的順序。

另外，格蘭姆——施密特方法和主成分分析與馬氏距離和斜交空間距離的結(jié)果（指距離的順序）也是完全一致的。因而我們需要決定的是，究竟應(yīng)優(yōu)先考慮哪種方法為好；或者說各有千秋，只是場合不同。

單從公式或表達方式看，馬氏距離最為簡單，且與統(tǒng)計淵源最深，既然效果一樣，似乎應(yīng)優(yōu)先選擇。有些文獻對馬氏距離的指責系因馬氏距離不具穿透性，即樣品間距的結(jié)果無法用于樣品與類之間的距離。斜交空間距離比馬氏距離比較復(fù)雜，但具有所謂穿透性，即可兼顧樣品間距與樣品與類之間的距離。相比之下，格蘭姆——施密特方法和主成分分析明顯要復(fù)雜很多，看似必定出局。然而，公式或表達方式的復(fù)雜不等于計算復(fù)雜。事實上，格蘭姆——施密特方法和主成分分析只是進行變量的正交化，并不直接涉及樣品間距的計算。在其基礎(chǔ)上的樣品間距完全是獨立進行的，允許多種選擇。反觀馬氏距離和斜交空間距離，正交化與距離計算是融合進行的，總的計算量實際要大于施密特方法和主成分分析兩種方法。因此，綜合考慮聚類結(jié)果、總的計算量大小、統(tǒng)計學者的熟悉程度以及對樣品與類之間距離的潛在影響，主成分分析是應(yīng)該優(yōu)先選擇的。也就是說，正交化在程序中宜作為必選項而非普通備選項，而主成分分析應(yīng)作為正交化的缺省設(shè)置。

不選擇馬氏距離或統(tǒng)計距離作為樣品間距標準方法的理由還在于其為樣品到類之間距離的廣義距離構(gòu)成中的一項，而這一項的協(xié)差陣是各類的而非總體的，換言之，如此要涉及兩種意義不同的馬氏距離計算，容易混淆，且實際計算量會增大。斜交空間距離與此相類似，無法避免廣義距離計算中要重新計算馬氏距離的浪費現(xiàn)象。與此相對照的是主成分分析，由于變量已經(jīng)正交，各類馬氏距離的計算過程變得非常簡單，且不存在混淆的可能，當然應(yīng)被視為最佳選擇。格蘭姆——施密特方法與主成分分析十分相似，唯一不足是與統(tǒng)計學的淵源不夠。

盡管上述對于標準化或規(guī)格化以及正交化的討論對于正確理解與應(yīng)用聚類分析是有益的，然而我們必須指出，在相關(guān)領(lǐng)域，至少還有以下問題尚未解決：

（1）標準化或規(guī)格化使量綱一致化，只是在數(shù)學層面或形式上解決了問題，但無法使問題的實質(zhì)有任何改變：一個隨機變量標準化后的量綱實際上是該隨機變量的標準差，不同隨機變量標準化后的量綱只是形式上的相同，并非實質(zhì)上的一樣。

（2）主成分分析是在樣本基礎(chǔ)上進行的，如何解決其統(tǒng)計顯著性問題。

筆者認為，這些問題的解決有助于改進聚類分析效果，并使聚類分析具有濃郁的統(tǒng)計學特色。

[1]Anderson,E.The Irises of the GaspéPeninsula[J].Bulletin of the American Iris Socity,1939，（59）.

[2]Efron,B.The Efficiency of Logistic Regression Compared to Normal Discriminant Analysis[J].Journal of the American Statistical Associa?tion,1975，(81).

[3]Lachenbruch,P.A.Discriminant Analysis[M].New York:Hafner Press,1975.

[4]Ganesalingam,S.Classification and Mixture Approaches to Clustering Via Maximum Likelihood[J].Applied Statistics,1989,(38).