吳翌琳,林寅,陳昊
(中國人民大學(xué)統(tǒng)計學(xué)院,北京100872)
基于色差法的高維數(shù)據(jù)展示方法初探
吳翌琳,林寅,陳昊
(中國人民大學(xué)統(tǒng)計學(xué)院,北京100872)
隨著計算機(jī)技術(shù)的普及,我們面向的數(shù)據(jù)越來越趨于高維化,而從理論上說直觀描述高維數(shù)據(jù)是一件比較困難的事情。文章通過對幾種高維數(shù)據(jù)展示方法的總結(jié)和創(chuàng)新,成功構(gòu)造了一種全新的描述高維數(shù)據(jù)的方法即色差法(MCD)。
高維數(shù)據(jù);色差;色階;RGB
隨著計算機(jī)技術(shù)的高速發(fā)展及其在統(tǒng)計應(yīng)用領(lǐng)域的普及,目前統(tǒng)計學(xué)者面對的數(shù)據(jù),無論是經(jīng)濟(jì)領(lǐng)域、商業(yè)管理領(lǐng)域、工程領(lǐng)域,還是教育心理領(lǐng)域等,都是高維度的數(shù)據(jù)矩陣。對這些數(shù)據(jù)的分析,入手點(diǎn)落在對高維度數(shù)據(jù)的一個直觀描述上面。
多維數(shù)據(jù)比二維和三維數(shù)據(jù)在展示上存在著諸多困難。傳統(tǒng)的笛卡爾坐標(biāo)系在展示二維三維數(shù)據(jù)上存在著優(yōu)勢,但是在三維以上就無能為力。然而目前幾乎所有科學(xué)、工程和商業(yè)領(lǐng)域的數(shù)據(jù)都是高維的,即數(shù)據(jù)集通常都包含多于三維的變量。高維數(shù)據(jù)的產(chǎn)生,迫切需要開發(fā)處理這些數(shù)據(jù)的工具和方法??梢暬歉呔S數(shù)據(jù)分析的重要且必不可少的工具,它可以觀測到數(shù)據(jù)的復(fù)雜結(jié)構(gòu)和模式。許多數(shù)據(jù)處理方法實(shí)質(zhì)上是基于可視化的,如散點(diǎn)圖和直方圖,但多數(shù)可視化方法只能同時表示兩個變量,這些傳統(tǒng)方法的弱點(diǎn)也給其他學(xué)科的研究帶來了諸多的不便。
我們以一個經(jīng)濟(jì)學(xué)上的例子來闡述高維數(shù)據(jù)可視化的意義。我們知道一個地區(qū)的經(jīng)濟(jì)發(fā)展的快慢會由很多的諸如GDP、失業(yè)率等指標(biāo)來反應(yīng)。如果我們僅選取一個或者兩個因素,尚可通過散點(diǎn)圖、直方圖等來比較經(jīng)濟(jì)的發(fā)展水平。但是如果選擇了3個指標(biāo)或者更多的指標(biāo),就很難畫出高維的散點(diǎn)圖來比較了,所以這個時候就不得不使用一些高維數(shù)據(jù)的可視化方法來幫助比較。
因此,本文旨在對已有的高維數(shù)據(jù)直接描述方法進(jìn)行比較分析,同時提出利用計算機(jī)色階和色差來展示高維數(shù)據(jù)的方法,以期為高維數(shù)據(jù)的模型研究提供前期較為直觀的數(shù)據(jù)展示。
色差法的基本原理為:每個樣本按照維度分段,然后在每段色帶上根據(jù)樣本的數(shù)值分布來體現(xiàn)為不同的顏色。從而,一個樣本就是一個橫向的色帶,所有的樣本組成一個色板。
色差法可以根據(jù)需要進(jìn)行分段長度以及樣本寬度的調(diào)整,考慮到人眼對顏色的識別效應(yīng)我們建議最小的可識別色塊面積應(yīng)該大于10×10像素。由于形狀對于色差法沒有數(shù)據(jù)上的意義,所以我們建議使用色差法的研究學(xué)者可以采取放大的方法來觀察局部差異,也采取縮小的方法來觀察整體差異。這就是色差法優(yōu)于臉譜法和安德魯曲線方法之處。
從理論上說,色階是顏色亮度的指數(shù)指標(biāo),從白到黑一種是256種亮度。目前表示顏色有著多種方法,像最常見的RGB示色法,HSL示色法以及CMYK四色印刷表示法等。一方面為了讓色階的變化能夠保存連續(xù)性,另一方面根據(jù)理論研究表示在黑白兩色的相近色方面人類肉眼的判讀力比在尋常色譜圖上的判讀力小。此外,為了避開色階的循環(huán)性,我們采取RGB的標(biāo)示法,以紫色表示數(shù)據(jù)中的最大值,紅色表示數(shù)據(jù)中的最小值,結(jié)合人們對顏色以及熱度的差別,從暖色開始到冷色就是極小值到極大值的過程。
由于顏色的表示方法取決于各種不同的系統(tǒng)環(huán)境(包括數(shù)值范圍),我們采用的是被廣泛使用的RGB坐標(biāo)表示方法,每一種原色的強(qiáng)度依照8比特的最高值分為256個值。實(shí)際上我們采用RGB方法忽略了部分的顏色。正常來講RGB方法能夠表示1670萬種顏色,不過人眼只能識別其中100萬種。而本文的色差法選擇的顏色范圍基本滿足HSL方法中的色相變化規(guī)律,不過由于HSL編碼在不同的設(shè)備上可能會對飽和度等的定義存在差異,類似的方法還有HSV顏色編碼方法,而實(shí)際上本文采用色差法的RGB色階就是HSL定義的純色階(不包含白色以及黑色以及灰色等與飽和度亮度有關(guān)的數(shù)值),這是肉眼能夠清晰辨別級別的基礎(chǔ)。所以說色差法并不僅僅是把數(shù)值映射到顏色板上,還考慮了人眼的識別效率,從而能夠更好展示數(shù)據(jù)特點(diǎn),達(dá)到滿足高維數(shù)據(jù)展示的要求。
從RGB表示方法來看,紫色是R:255,G:0,B:255,然后從R開始遞減,最后的紅色是R255G0B0。根據(jù)色譜的分界點(diǎn)我們做出了如表1的表格。
從色階變化來看,我們發(fā)現(xiàn)盡管RGB是連續(xù)的一個色階,但是RGB的變化并不是一味增長,但是為了數(shù)據(jù)表示的方便我們還必須進(jìn)行單一的連續(xù)化,所以我們定義了如表2的轉(zhuǎn)化關(guān)系。
根據(jù)研究對象和目的的不同,色差法有兩種使用方式,精細(xì)使用以及粗糙使用,雖然使用的方式不同,但是其原理都是相同的。
精細(xì)使用就是先確定某個具體維度的最大值和最小值,然后轉(zhuǎn)化為0到1275的一個位置參數(shù),總共1276個位置,最小值賦值1,最大值賦值1275,允許中間有空值。精細(xì)使用的方法中顏色對應(yīng)的是數(shù)據(jù)的水平。以此類推,每一組數(shù)據(jù)都按照此法來進(jìn)行轉(zhuǎn)化,從數(shù)據(jù)變?yōu)閷?yīng)的顏色,畫成一個色帶。那么N組數(shù)據(jù)就對應(yīng)有N條色帶,組成一個色板。該使用方法適用于數(shù)據(jù)跨度比較大的定距變量。
粗糙使用則是把單維度的所有數(shù)據(jù)排序,然后再根據(jù)位置映射到0至1275之間,粗糙使用的方法中顏色對應(yīng)的是數(shù)據(jù)的相對位置。其他的均與精細(xì)使用相同。這種使用方法主要關(guān)心的是數(shù)據(jù)的秩,適用于排名數(shù)據(jù)或者一些非參數(shù)模型的數(shù)據(jù)展示。
(1)當(dāng)數(shù)據(jù)比較“稀疏”的時候,采用精細(xì)方法對于數(shù)據(jù)的水平很敏感,如果有差異能夠很快看出來;當(dāng)數(shù)據(jù)比較“密集”的時候,采用粗糙的方法對于數(shù)據(jù)的相對位置很敏感,如果有差異能夠很快看出來。
(2)粗糙使用對于樣本量比較小的數(shù)據(jù),由于采用相對位置,能夠擴(kuò)大顏色的跨度,從而相對來說差異會顯得更“明顯”,尤其是對于相鄰的數(shù)據(jù),這時候可能會對數(shù)據(jù)的差異程度產(chǎn)生誤判(從顏色角度看)。
(3)精細(xì)和粗糙僅僅是針對數(shù)據(jù)度量的兩個尺度,即實(shí)際水平和相對水平來談的,跟最后的結(jié)果并無直接關(guān)系。
為了能更加清楚地闡述色差法的作用,我們使用的數(shù)據(jù)是一個隨機(jī)模擬的6維數(shù)據(jù),樣本數(shù)為12。數(shù)據(jù)表1。我們用臉譜法、平行坐標(biāo)軸法、安德魯斯曲線法、色差法這四種方法分別描述此高維數(shù)據(jù)如表3。
表1 數(shù)據(jù)分位點(diǎn)與顏色表示
表2 數(shù)值與顏色轉(zhuǎn)化表
表3 模擬生成的數(shù)據(jù)
臉譜圖、平行坐標(biāo)軸法、安德魯斯曲線法分別見圖1、2、3。對比這三種方法,我們不難發(fā)現(xiàn)每一種方法都各有其優(yōu)點(diǎn),比如臉譜圖發(fā)容易發(fā)現(xiàn)異常樣本點(diǎn),平行坐標(biāo)法直觀展示同一樣本在不同維度上的變化,安德魯斯曲線法利用巧妙的降維體現(xiàn)樣本之間的近似程度。總體而言,雖然以上每一種的方法都能有效的描述出高維數(shù)據(jù),但是通過圖形是難以對于數(shù)據(jù)的分布有個大體的判斷。而我們所提出的色差法則可以通過顏色的不同,對于總體數(shù)據(jù)的分布有個初步的認(rèn)識。
3.2.1 相對水平
首先對數(shù)據(jù)使用色差法進(jìn)行相對水平的展示。根據(jù)每個維度數(shù)據(jù)特征,按照自身維度內(nèi)部的大小,進(jìn)行0~1標(biāo)準(zhǔn)化,這樣表示出來的分布特征是每個維度內(nèi)部的特征。其圖像特點(diǎn)是每一列都會有最小值(紅色)和最大值(紫色)。這樣,單列抽出來分析的時候,能夠看清楚每個維度分布。相對水平的主要缺點(diǎn)就是不同列之間不能夠直接的比較。
為了以防讀者遺忘,我們把色帶的顏色所包含的意義再次闡述一下。依照下圖:隨著顏色由紅色向紫色過渡,數(shù)據(jù)從大到小過渡,紅色代表最小的數(shù),紫色代表最大的數(shù)。則相對水平色板如圖4。
相對水平色板展示的是樣本在不同維度下的相對位置,為樣本整體水平的相對位置和均衡度給出相應(yīng)的判斷,比如這個色板展示的結(jié)果看來,樣本1在第4、5、6個維度上顯示出較弱水平,而前面第1、2、3維度也沒有表示較高位置的冷色系出現(xiàn),因此可以斷定樣本1在這12個樣本的比較中相對水平較低。而再看看樣本3,其六個維度的數(shù)據(jù)分布在兩端,可見該樣本的均衡度較差,數(shù)據(jù)較為極端化??傮w而言,相對水平色板類似于平行坐標(biāo)法,但比之更為直觀易懂。
從應(yīng)用角度看來,相對水平的色板適用于展示經(jīng)濟(jì)方面競爭力評價或者指標(biāo)體系評價的高維數(shù)據(jù),以顏色漸變直觀看出比較對象間的競爭關(guān)系,水平差異以及發(fā)展結(jié)構(gòu),為進(jìn)一步指標(biāo)選取和模型構(gòu)建打下基礎(chǔ)。
3.2.2 絕對水平
另一種常用的色板是絕對水平的色板,其構(gòu)建方法如下:首先按照每個維度計算出標(biāo)準(zhǔn)差,然后數(shù)據(jù)除以標(biāo)準(zhǔn)差以便去除量綱,不需要進(jìn)行中心化。從而所有的數(shù)據(jù)現(xiàn)在呈現(xiàn)于同一個“度量范圍”。然后進(jìn)行0~1化后再映射到0~1276。其圖像特點(diǎn)是整個色板只有一個最小值(紅色)和最大值(紫色),其應(yīng)用特點(diǎn)是全部數(shù)據(jù)可比,可以看出每一列的最值與其他值的區(qū)別(看出偏離程度),此外還可以看出不同的列之間數(shù)據(jù)水平的差異。絕對水平的缺點(diǎn)主要是削弱了每一列內(nèi)部的分布色彩差異,數(shù)據(jù)量擴(kuò)大導(dǎo)致了相鄰的數(shù)據(jù)色階差異程度縮小。絕對水平色板如圖5。
我們可以看出來,這12樣本6維度的數(shù)據(jù)中,最大值為第2行第2列的數(shù),最小值為第2行第6列的數(shù),整個色板淺藍(lán)和綠色為主,說明中間的數(shù)據(jù)較多,數(shù)據(jù)分布相對均衡。絕對水平色板適用于進(jìn)行維度方向的比較,比如從第一維度和第二維度的比較看來,第二維度的水平要顯著的高于第一維度,如果維度表示的是時間序列,則通過色板可以看出第二年比第一年有顯著的增長。
從應(yīng)用角度看來,絕對水平色板適應(yīng)于對樣本在不同維度上的變化趨勢做分析,因此,尤其適用于時間序列數(shù)據(jù),每個維度即為一個時間點(diǎn),從上圖可以顯著看出,假設(shè)這批數(shù)據(jù)為時間序列數(shù)據(jù)的話,第2期是一個峰值,第4和第6期分別為兩個低谷,可以看出樣本數(shù)據(jù)的波動性。同時,該色板也適用于分析同一口徑的高維數(shù)據(jù),比如說心里研究的量表或者問卷調(diào)查的分類數(shù)據(jù)等,看出不同指標(biāo)間的水平差異。
雖然色差法克服了多個維度之間的展示問題,但是本身卻有著一個嚴(yán)峻的缺陷,那就是因素水平。每一個維度,色差法最多能夠提供的水平位置數(shù)目是1275,再多的水平已經(jīng)超過了人眼的識別范圍。而且,如果考慮人眼的識別效率,當(dāng)一組數(shù)據(jù)的個數(shù)大于500個的時候,人眼可能很難分辨出顏色的細(xì)微差異。這一點(diǎn)可能是制約色差法推廣使用的最大弱點(diǎn)。因?yàn)槲覀冎?,多元統(tǒng)計分析常常要與超高維數(shù)據(jù),超大量數(shù)據(jù)打交道,僅僅500個可識別水平可能很難滿足研究學(xué)者的需要。
不過,由于現(xiàn)在精密儀器的推廣與使用,我們可以借助儀器的判斷來辨別出實(shí)際顏色的差異,因而在實(shí)際的使用中,我們可以處理的水平數(shù)是可以達(dá)到色差法理論允許的最大值的,即1275個水平。這個承受水平對于一般的研究來說應(yīng)該是可以滿足的。
面對規(guī)模宏大,結(jié)構(gòu)復(fù)雜的數(shù)據(jù)海洋,如何能夠在不損失數(shù)據(jù)信息的前提下刻畫數(shù)據(jù)系統(tǒng)特征的變化,是統(tǒng)計學(xué)者面臨的一個重要課題。高維數(shù)據(jù)的可視化表示具有形象直觀的特點(diǎn),易于學(xué)者發(fā)現(xiàn)隱含于高維數(shù)據(jù)中的模式。
該方法可以廣泛應(yīng)用于經(jīng)濟(jì)數(shù)據(jù)、教育心理數(shù)據(jù)、商業(yè)行為數(shù)據(jù)等不同研究主題的分析,也適用于展示時間維度、區(qū)域維度、多指標(biāo)維度的數(shù)據(jù)信息,能夠更好地協(xié)助系統(tǒng)分析人員的思維和判斷,及時發(fā)現(xiàn)大規(guī)模數(shù)據(jù)中隱含的普遍規(guī)律與特殊現(xiàn)象,提高數(shù)據(jù)分析的效率。
本文提出了基于色差法來展示高維數(shù)據(jù)的方法,并且給出了色差法的理論基礎(chǔ),應(yīng)用背景以及使用說明,最后還給了一個基于其他三種成熟方法和色差法的實(shí)證分析。通過小規(guī)模的實(shí)證分析,我們可以清楚地看出色差法的使用價值,進(jìn)一步開發(fā)可以使之成為高維數(shù)據(jù)可視化的一個新方法。
[1](美)斯滕伯格(Sternberg,R.J.).認(rèn)知心理學(xué)[M].北京:中國輕工業(yè)出版社,2006.
[2]賈俊平.統(tǒng)計學(xué)(第二版)[M].北京:清華大學(xué)出版社,2007.
[3]約翰遜(Johnson,R.A.).威克恩(Wichern,D.W.).實(shí)用多元統(tǒng)計分析(第6版)[M].北京:清華大學(xué)出版社,2008.
[4]余肖生.高維數(shù)據(jù)可視化方法研究[J].情報科學(xué),2007,(1).
[5]彭紅毅.一種改進(jìn)的高維數(shù)據(jù)可視化模型[J].計算機(jī)科學(xué),2007,(4).
[6]王家亮.基于局部適應(yīng)性的高動態(tài)范圍圖像顯示方法[J].計算機(jī)應(yīng)用,2007,(4).
[7]王德青.高維數(shù)據(jù)可視化在統(tǒng)計分析中的作用[J].數(shù)據(jù),2009,(7).
[8]孟輝.基于徑向坐標(biāo)可視化的高維數(shù)據(jù)分析方法[J].軟件技術(shù)與數(shù)據(jù)庫,2010,(1).
[9]Richard A,Johnson,Dean W,Wichern.Applied Multivariate Statistical Analysis(5thEdition)[M].Oxford:Oxford Press,2005.
[10]Wolfgang Hardle,Leopold Simar.Applied Multivariate Statistical Analysis(2ndEdition)[M].New York:Springer,2007.
F064.1
A
1002-6487(2011)07-0035-03
吳翌琳(1983-),女,廣東潮州人,博士研究生,研究方向:經(jīng)濟(jì)統(tǒng)計分析。
(責(zé)任編輯/亦民)