戚森昱 杜京霖 錢沈申 殷復(fù)蓮
摘 要:隨著大數(shù)據(jù)技術(shù)、信息可視化技術(shù)的飛速發(fā)展,數(shù)據(jù)可視化的概念正在不斷的演變發(fā)展。在對(duì)現(xiàn)有研究資料進(jìn)行分析的基礎(chǔ)上,梳理了國(guó)內(nèi)外多維數(shù)據(jù)可視化領(lǐng)域的成熟技術(shù),并從應(yīng)用角度對(duì)其進(jìn)行了評(píng)價(jià)。同時(shí)評(píng)價(jià)了近幾年來國(guó)內(nèi)外學(xué)者在多維可視化技術(shù)方面的研究與應(yīng)用成果,并展望了多維可視化技術(shù)的未來研究方向和挑戰(zhàn)。
關(guān)鍵詞:數(shù)據(jù)可視化;多維數(shù)據(jù);可視化技術(shù)
DOIDOI:10.11907/rjdk.151339
中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2015)007-0015-03
0 引言
近年來,人類產(chǎn)生與獲取數(shù)據(jù)的能力越來越強(qiáng),儲(chǔ)存的信息總量也日益龐大。為了讓這些數(shù)據(jù)得以直觀呈現(xiàn),人類對(duì)數(shù)據(jù)可視化技術(shù)的需求日益增加。數(shù)據(jù)可視化技術(shù)是跨領(lǐng)域的技術(shù),被廣泛應(yīng)用于商業(yè)智能分析、數(shù)據(jù)分析、數(shù)據(jù)挖掘、統(tǒng)計(jì)等領(lǐng)域。它也是一門橫跨計(jì)算機(jī)圖形學(xué)、人機(jī)交互、統(tǒng)計(jì)學(xué)、心理學(xué)的綜合學(xué)科,主要研究如何利用人的感知能力以貼近人類自然感知的圖形化展現(xiàn)方式,對(duì)數(shù)據(jù)交互進(jìn)行可視化表達(dá),以增強(qiáng)人的認(rèn)知,呈現(xiàn)數(shù)據(jù)中隱含的信息,發(fā)掘數(shù)據(jù)中所包含的規(guī)律[1]。數(shù)據(jù)可視化目前有3個(gè)分支:①科學(xué)可視化,主要面向自然科學(xué),如物理、化學(xué)、氣象、航空航天等,對(duì)其數(shù)據(jù)和模型進(jìn)行解釋、操作與處理,尋找其中的科學(xué)規(guī)律和異常等;②信息可視化,主要處理非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),如金融交易、社交網(wǎng)絡(luò)和文本日志數(shù)據(jù)等,主要關(guān)注如何在有限的展現(xiàn)空間中,以直觀有效的方式傳達(dá)大量的抽象信息;③可視化分析,它是以可視交互界面為研究對(duì)象的分析推理科學(xué),綜合了圖形學(xué)、數(shù)據(jù)挖掘分析和人機(jī)交互等技術(shù)[2]。
多維數(shù)據(jù)可視化是信息可視化下的子研究領(lǐng)域,是將多維的原始數(shù)據(jù)或處理后的數(shù)據(jù)進(jìn)行直觀呈現(xiàn)的技術(shù)。目前,多維數(shù)據(jù)可視化技術(shù)被廣泛應(yīng)用于各領(lǐng)域的商業(yè)智能分析與輔助決策中。本文將整理比較幾種主流的多維數(shù)據(jù)可視化技術(shù),分析一些基于這些可視化技術(shù)的技術(shù)迭代與應(yīng)用實(shí)例,并從應(yīng)用角度評(píng)價(jià)這些多維數(shù)據(jù)可視化技術(shù)。人類的直觀感知能力受限于真實(shí)世界,難以直接理解超過三維的多維抽象事物,多維數(shù)據(jù)可視化技術(shù)就是研究如何將多維數(shù)據(jù)通過各種方法呈現(xiàn)使之成為人類易于理解的二維或三維圖形圖像。到目前為止,國(guó)內(nèi)外學(xué)者在這方面已經(jīng)提出了很多基礎(chǔ)性與迭代的多維可視化技術(shù),根據(jù)其可視化原理不同,可將其大致分成基于幾何的技術(shù)、基于降維映射的技術(shù)、基于層次的技術(shù)、基于像素的技術(shù)、基于圖標(biāo)的技術(shù)和基于圖形的技術(shù)等[3]。
1 基于幾何的技術(shù)
平行坐標(biāo)系技術(shù)[4]是基于幾何的多維數(shù)據(jù)可視化技術(shù)中最具代表性的一個(gè)。其基本思想是將多維數(shù)據(jù)的N個(gè)維度屬性以等距豎直的N條平行坐標(biāo)軸的形式來表現(xiàn),每條平行軸線對(duì)應(yīng)于一個(gè)屬性維。多維數(shù)據(jù)的各維屬性值在N條坐標(biāo)軸上都能找到對(duì)應(yīng)的點(diǎn),將這N個(gè)點(diǎn)連接成一條折線,就代表了一個(gè)多維數(shù)據(jù)點(diǎn)。這種方法適用于數(shù)據(jù)量較小但維數(shù)較多的數(shù)據(jù)集,在離群點(diǎn)的挖掘上有相當(dāng)好的表現(xiàn),一旦數(shù)據(jù)量大到一定程度,折線交疊問題就相當(dāng)嚴(yán)重,同時(shí)在維數(shù)較大時(shí),難以分辨各維屬性間的相關(guān)關(guān)系。并且由于人眼的可視范圍與最小分辨能力,平行坐標(biāo)系技術(shù)實(shí)際上具有維數(shù)上限。平行坐標(biāo)系可視化技術(shù)還演化發(fā)展出了圓形平行坐標(biāo)系技術(shù)[5]、Radvi[6]以及星型坐標(biāo)系技術(shù)[7]等,彌補(bǔ)了平行坐標(biāo)系法存在的不足,進(jìn)一步提升了可視化質(zhì)量。但是受限于以多條軸線表現(xiàn)多維度空間的基本原理,其在大數(shù)據(jù)可視化應(yīng)用中表現(xiàn)一般。
Chambers提出的散點(diǎn)圖思想適用于二維或三維數(shù)據(jù)的可視化,能發(fā)掘出兩個(gè)變量之間的關(guān)系與聯(lián)系。而在多維數(shù)據(jù)可視化領(lǐng)域,散點(diǎn)圖思想衍生出了散點(diǎn)圖矩陣。其基本思想是將多維數(shù)據(jù)的各維變量?jī)蓛山M合作為矩陣中的一個(gè)元素,在每一個(gè)元素中繪制相應(yīng)變量的散點(diǎn)圖,以此對(duì)各維度變量進(jìn)行兩兩比較,進(jìn)而得到隱含的信息。這種方法的一大優(yōu)點(diǎn)在于不易受到數(shù)據(jù)集大小的限制,而且由于是從兩兩比較中獲得信息,因而并不一定要求同時(shí)將所有元素呈現(xiàn)在視區(qū)內(nèi),大大降低了因維數(shù)增加而導(dǎo)致的可視化難度。但是由于其元素總是在兩個(gè)維度之間展開,所以在更多維度關(guān)系、聯(lián)系上的挖掘略顯疲軟。由此衍生出的技術(shù)包括Hyperslice方法[8]與Hyperbox[9],前者運(yùn)用投影的思想,用N-2維的切片來替代散點(diǎn)圖矩陣元素,在顯示效果上表現(xiàn)突出;后者則用平行四邊形代替正方形作為圖形元素,雖然有利于調(diào)節(jié)元素的方向與大小,突出重要變量,但因人為選擇各元素的大小與方向,在隱含關(guān)系挖掘上表現(xiàn)不佳。除了上述兩大類技術(shù)外,基于幾何的多維可視化技術(shù)還包括Andrews曲線法、Star Coordinate法等。基于幾何的多維可視化技術(shù)在小數(shù)量的多維數(shù)據(jù)集可視化中應(yīng)用較廣且最終圖像較為直觀易于理解,但即使是對(duì)大數(shù)據(jù)接受程度最好的散點(diǎn)圖矩陣技術(shù)也難以避免數(shù)據(jù)點(diǎn)交疊的問題。
2 基于層次的技術(shù)和面向像素的技術(shù)
基于層次的多維數(shù)據(jù)可視化技術(shù)的基本思想是將多維空間劃分為多個(gè)子空間,并對(duì)這些子空間以層次結(jié)構(gòu)進(jìn)行組織,并整合呈現(xiàn)在一個(gè)圖形上。例如嵌套坐標(biāo)系法[10],其核心思想是把一個(gè)坐標(biāo)系嵌套在另一個(gè)坐標(biāo)系中,在內(nèi)層坐標(biāo)系中可視化數(shù)據(jù)集。數(shù)據(jù)集點(diǎn)根據(jù)其在內(nèi)層坐標(biāo)系中的位置,有一組唯一確定的外層坐標(biāo)系坐標(biāo),此坐標(biāo)即表現(xiàn)更高維數(shù)的值。這種方法適用于連續(xù)的數(shù)據(jù)集,但是一旦維數(shù)超過一定程度,極容易引起視覺混亂且難以理解各層坐標(biāo)間的相互關(guān)系。從易讀性的角度來講,這是一種門檻較高的多維數(shù)據(jù)可視化技術(shù)。
與基于層次的技術(shù)類似,面向像素的多維可視化技術(shù)的基本思想是根據(jù)多維數(shù)據(jù)的維數(shù),將高維空間劃分成多個(gè)子窗格。不同的是它用每一個(gè)窗格對(duì)應(yīng)該多維數(shù)據(jù)集的一個(gè)維度,并把每個(gè)像素點(diǎn)作為一個(gè)多維數(shù)據(jù)點(diǎn),在不同的窗格中根據(jù)不同的屬性值賦予不同的顏色。像素點(diǎn)的位置排布根據(jù)需求的不同,可以按照某一屬性順序從左到右逐行排列或從上到下逐列排列,也可以根據(jù)數(shù)據(jù)項(xiàng)與某一屬性的關(guān)聯(lián)度從中心發(fā)散排列,例如圓形分段技術(shù),將多維數(shù)據(jù)各屬性數(shù)據(jù)以像素為單位在不同扇形區(qū)域內(nèi)按照順序從圓心向圓周排列。這些扇形拼合成的一個(gè)圓,表示整個(gè)高維空間。圓形分段技術(shù)兼顧了像素點(diǎn)與屬性之間的相關(guān)關(guān)系順序和各個(gè)維度之間的關(guān)系,對(duì)一定維數(shù)的大數(shù)據(jù)集的可視化效果極佳,在分類與多維屬性相關(guān)關(guān)系的挖掘上有較好應(yīng)用。
3 基于圖標(biāo)的技術(shù)和基于圖形的技術(shù)
基于圖標(biāo)的多維數(shù)據(jù)可視化技術(shù)的基本思想是用具有多個(gè)易于識(shí)別的特征的圖標(biāo)來表達(dá)多維度信息,一組圖標(biāo)的每一個(gè)特征都可以用來表示多維信息的一維。常用的此類技術(shù)有Chernoff面法[11]和星繪法[12]。此類技術(shù)適用于維數(shù)不多的多維數(shù)據(jù)集,結(jié)果直觀,在具有特別維度屬性時(shí)有特別好的表現(xiàn)。其缺點(diǎn)在于適應(yīng)度不夠高。
在基于圖標(biāo)的可視化技術(shù)中,每一個(gè)圖標(biāo)(臉譜、星狀圖)都是一個(gè)多維數(shù)據(jù)點(diǎn),而基于圖形的技術(shù)往往可視化呈現(xiàn)得到一張完整的圖形,圖形中的點(diǎn)與線的類型、大小、顏色等都可以用來表示數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。此類技術(shù)有多線圖法和SurveyPlot等。這類技術(shù)適用面較廣,可視化結(jié)果往往色彩豐富,易于理解。例如有學(xué)者通過基于圖形的可視化技術(shù),將汽車行駛的多維數(shù)據(jù)(包括時(shí)間、地理坐標(biāo)、行駛速度、行駛方向等)可視化呈現(xiàn)在一個(gè)平面坐標(biāo)系中[13]。如圖1是汽車行駛數(shù)據(jù)可視化的初步結(jié)果,圖2是運(yùn)用彩色映射后得到的前4圈汽車行駛數(shù)據(jù)的可視化結(jié)果。
圖1 使用DSAE建立的行車駕駛多維數(shù)據(jù)集
圖2 使用DSAE為訓(xùn)練集建立的駕駛彩色地圖(前4圈)
4 基于降維映射的技術(shù)
上述方法都是將多維數(shù)據(jù)集的全部數(shù)據(jù)進(jìn)行完整的可視化呈現(xiàn),基于降維映射的技術(shù)與上述不同,其基本思想是將多維數(shù)據(jù)看作是同一維度空間中的點(diǎn),其坐標(biāo)根據(jù)相應(yīng)的維度屬性值來確定,再將該維度空間中的點(diǎn)映射到低維可視空間中,同時(shí)盡可能保持?jǐn)?shù)據(jù)點(diǎn)間的某種關(guān)系不變[14]。這種技術(shù)包括主成分分析、多維尺度變換、自組織映射、等距映射、局部線性嵌套等。
這種技術(shù)通過降維映射,有選擇地省略部分維度數(shù)據(jù),最終在二、三維空間中盡可能不損失太多信息地可視化呈現(xiàn)數(shù)據(jù)集。而降維映射可以分成線性(如主成分分析)與非線性降維技術(shù)(如自組織映射、等距映射)兩大類,基本實(shí)現(xiàn)途徑有特征選擇與特征提取[15]。目前,該技術(shù)可分為線性(如主成分分析)與非線性降維技術(shù)(如自組織映射、等距映射)兩大類。其中特征選擇是通過選擇現(xiàn)有維度屬性中有能力代表其它維度屬性的1~3個(gè)維度屬性(稱為優(yōu)勢(shì)維),來實(shí)現(xiàn)降維映射。而特征提取則適用于沒有明顯優(yōu)勢(shì)維的數(shù)據(jù)集,對(duì)數(shù)據(jù)集的眾多維度屬性進(jìn)行重組來構(gòu)建優(yōu)勢(shì)維,并在此基礎(chǔ)上實(shí)現(xiàn)降維映射。
該技術(shù)因其能在低維空間出色地呈現(xiàn)多維數(shù)據(jù)集的整體結(jié)構(gòu)與分布,并且支持進(jìn)一步的數(shù)據(jù)挖掘,因而得到了廣泛應(yīng)用。近年來,有很多學(xué)者對(duì)這些技術(shù)進(jìn)行了改進(jìn)與應(yīng)用,例如用遺傳算法對(duì)自組織映射網(wǎng)絡(luò)進(jìn)行改進(jìn)[16],運(yùn)用自組織映射與聚類算法結(jié)合對(duì)高維電網(wǎng)數(shù)據(jù)進(jìn)行降維[17],改進(jìn)了主成分分析法并用于多因子地質(zhì)風(fēng)險(xiǎn)評(píng)估中[18],提出了基于等距映射非線性流形學(xué)習(xí)與加權(quán)KNN分類器相結(jié)合的旋轉(zhuǎn)機(jī)械故障診斷方法[19],等等。圖3為學(xué)者在文獻(xiàn)[19]中,嘗試用ISOMAP降維方法得到流形結(jié)構(gòu)并比較選擇出最合適的降維方法。
圖3 ISOMAP降維方法得到的初始流形結(jié)構(gòu)
5 結(jié)語
多維數(shù)據(jù)可視化從20世紀(jì)60年代發(fā)展至今,已經(jīng)積累了大量的研究成果與技術(shù)思路,從基于幾何的多維數(shù)據(jù)可視化技術(shù)到基于降維映射的可視化技術(shù),人類一直在為突破受限于真實(shí)世界的認(rèn)知能力而努力,但是大部分學(xué)者的可視化技術(shù)研究仍然習(xí)慣于將多維數(shù)據(jù)放在二維空間進(jìn)行呈現(xiàn)。相信隨著虛擬現(xiàn)實(shí)技術(shù)的迅猛發(fā)展,該問題將得到解決。同時(shí),隨著數(shù)據(jù)挖掘門檻的不斷降低,加上商業(yè)智能、數(shù)據(jù)決策支持理念的不斷推廣,越來越多的非研究人員開始接觸到數(shù)據(jù)可視化技術(shù)。如何讓可視化結(jié)果易讀又具有良好的交互性,是亟待解決的問題。相比數(shù)據(jù)挖掘等相關(guān)領(lǐng)域的飛速發(fā)展,多維數(shù)據(jù)可視化的發(fā)展水平還亟待提高。伴隨著物聯(lián)網(wǎng)時(shí)代的到來,數(shù)據(jù)可視化領(lǐng)域還將面臨更大挑戰(zhàn)。有人認(rèn)為,該領(lǐng)域未來的挑戰(zhàn)主要是大數(shù)據(jù)可視化和以人為中心的探索式可視分析[2];也有人認(rèn)為,新的可視化技術(shù)應(yīng)用標(biāo)準(zhǔn)應(yīng)該繼續(xù)向直觀化、關(guān)聯(lián)化、藝術(shù)化、交互性等4個(gè)方面努力[20]。相信隨著各領(lǐng)域?qū)?shù)據(jù)可視化新需求的不斷增加,數(shù)據(jù)可視化技術(shù)發(fā)展將會(huì)日新月異。
參考文獻(xiàn):
[1] 張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù),2014(11):1240-1248.
[2] 陳為,沈則潛,陶煜波,等.大數(shù)據(jù)叢書: 數(shù)據(jù)可視化[M].北京: 電子工業(yè)出版社,2013:29-37.
[3] KEIM DA,ANKERST M.Visual data mining and exploration of largedatabases[Z].Freiburg:PKDD,2001.
[4] INSELBERG A.The plane with parallel coordinates[J].The Visual Computer,1985,1(2):69-91.
[5] HOFFMAN P E.Table visualizations:a formal model and its applications[D].Massachusetts:University of Massachusetts,1999.
[6] HOFFMAN P E,GRINSTEIN G G,MARX K,et al.DNA visual and analytic data minin[C].IEEE Visualization'97,1997.
[7] KANDOGAN E.Visualizingmulti-dimensionalclusters,trends and outliers using star coordinates[Z].San Francisco:KDD 01.CA,2001.
[8] VAN WIJK J J,VAN LIERE R.Hyperslice-visualization of scalarfunction of many variables[C].San Jose:IEEE Visualization'93,1993.
[9] ALPERN B,CARTER L.Hyperbox[C].California:IEEE Visualization'91.1991.
[10] SHAIK J S,YEASIN M.Visualization of high dimensional data u-sing an automated 3d star coordinate system[C].Vancouver:2006 International Joint Conference on Neural Networks Sheraton Vancou-ver Wall Centre Hotel,2006.
[11] CHERNOFF H.The use of faces to represent points in n-dimen-sional space graphically[D].Stanford: Stanford University,1971.
[12] CHAMBERS J M,CLEVELAND W S,KLEINER B,et al.Graphical methods for data analysis[Z].Belmont,CA,1983.
[13] HAILONG LIU,TADAHIRO TANIGUCHI,TOSIAKI TAKANO,et al.Visualization of driving behavior using deep sparse autoencoder[C].Michigan:2014 IEEE Intelligent Vehicles Symposium (IV),2014.
[14] 孫揚(yáng),封孝生,唐九陽,等.多維可視化技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2008(11):1-7,59.
[15] 宋楓溪,高秀梅,劉樹海,等.統(tǒng)計(jì)模式識(shí)別中的維數(shù)削減與低損降維[J].計(jì)算機(jī)學(xué)報(bào),2005(11):159-166.
[16] 任軍號(hào),吉沛琦,耿躍.SOM神經(jīng)網(wǎng)絡(luò)改進(jìn)及在遙感圖像分類中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2011(3):1170-1172,1182.
[17] GUO XIAO-LI,F(xiàn)ENG LI,GUO PING.Research and application n visual data mining based on SOM clustering[J].Journal of Convergence Information Technology,2013,8(2):695-703.
[18] 盛秀杰,金之鈞,王義剛.一種新的面向多元統(tǒng)計(jì)分析的信息可視化技術(shù)[J].石油地球物理勘探,2013(3):488-496,506.
[19] 陳法法,湯寶平,蘇祖強(qiáng).基于等距映射與加權(quán)KNN的旋轉(zhuǎn)機(jī)械故障診斷[J].儀器儀表學(xué)報(bào),2013(1):215-220.
[20] 張浩,郭燦.數(shù)據(jù)可視化技術(shù)應(yīng)用趨勢(shì)與分類研究[J].軟件導(dǎo)刊,2012(5):169-172.
責(zé)任編輯(責(zé)任編輯:孫 娟)