孫海
(遼寧省科學(xué)技術(shù)情報(bào)研究所)
【摘要】人類對(duì)大量的數(shù)據(jù),甚至海量信息的理解能力有限,這就需要計(jì)算機(jī)從各種角度對(duì)人腦的思維能力進(jìn)行輸出,其中數(shù)據(jù)可視化技術(shù)可以幫助人們理解大量的數(shù)據(jù)信息,發(fā)現(xiàn)數(shù)據(jù)中隱含的規(guī)律,從而提高數(shù)據(jù)的使用效率。面對(duì)大數(shù)據(jù)深?yuàn)W的面貌,如何才能讓大型數(shù)據(jù)集變得親切和易于理解,可視化無疑是最有效的途徑。對(duì)大數(shù)據(jù)背景下的數(shù)據(jù)可視化應(yīng)用展開研究,將有助于我們發(fā)展和創(chuàng)新數(shù)據(jù)可視化技術(shù)。
【關(guān)鍵詞】大數(shù)據(jù) Web 可視化
一、大數(shù)據(jù)時(shí)代的機(jī)遇
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、手機(jī)、平板電腦、PC 以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。隨著社交網(wǎng)絡(luò)的普及,使得人們的行為和情緒的細(xì)節(jié)化測(cè)量成為可能。挖掘用戶的行為習(xí)慣和喜好,凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習(xí)慣的產(chǎn)品和服務(wù),并對(duì)產(chǎn)品和服務(wù)進(jìn)行針對(duì)性地調(diào)整和優(yōu)化,這就是大數(shù)據(jù)的價(jià)值。大數(shù)據(jù)也日益顯現(xiàn)出對(duì)各個(gè)行業(yè)的推進(jìn)力。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
二、數(shù)據(jù)可視化技術(shù)及主要特點(diǎn)
數(shù)據(jù)可視化(Data Visual)技術(shù)是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。它能夠提供多種同時(shí)進(jìn)行數(shù)據(jù)分析的圖形方法,反映信息模式、數(shù)據(jù)關(guān)聯(lián)或趨勢(shì),幫助決策者直觀地觀察和分析數(shù)據(jù),實(shí)現(xiàn)人與數(shù)據(jù)之間直接的信息傳遞,從而發(fā)現(xiàn)隱含在數(shù)據(jù)中的規(guī)律。數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素來表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析。
三、基于Web的數(shù)據(jù)可視化的參考模型
(1)在服務(wù)器端生成描述數(shù)據(jù)的圖形,然后在客戶端實(shí)現(xiàn)圖形的顯示,客戶端用瀏覽器來顯示;(2)服務(wù)器端經(jīng)過可視化映射后,輸出VRML(Virtual Reality Modeling Language,簡(jiǎn)稱VRML)成Java 3D格式的3D模型,返回給客戶,客戶端利用支持VRML或Java 3D的瀏覽器來繪制和操縱3D模型,這種方式的交互局限于繪制階段;(3)客戶下載數(shù)據(jù),在客戶端執(zhí)行可視化流水線,利用Java Applet實(shí)現(xiàn)可視化計(jì)算,客戶還可以下載可視化軟件。雖然客戶端可以完全控制可視化過程,但對(duì)客戶端的硬件、軟件資源要求高,并且對(duì)大規(guī)模過程的控制。
模型2和模型3需要針對(duì)具體的應(yīng)用編制Java繪圖程序,模型4采用了復(fù)雜的可視化計(jì)算在服務(wù)器端處理,避免了客戶端較高的資源要求,同時(shí)客戶端又能完成可視化結(jié)果的交互繪制,具有較好的交互性以及計(jì)算負(fù)荷分?jǐn)偟膬?yōu)點(diǎn),但同樣編制程序復(fù)雜。而模型1使用TeeChart Pro AetiveX控件,可以直接安裝在服務(wù)器端,在服務(wù)器端動(dòng)態(tài)生成圖形文件(JPEG格式),然后將圖形傳回客戶端,在瀏覽器中顯示出來,方法可以適用于任何流行的客戶端瀏覽器。
四、大數(shù)據(jù)的Web數(shù)據(jù)可視化方法流程
1、發(fā)現(xiàn)問題
數(shù)據(jù)可視化都是為了解決某個(gè)問題的。所以,面對(duì)海量的數(shù)據(jù),首先要思考如何針對(duì)領(lǐng)域問題合理抽取對(duì)應(yīng)的數(shù)據(jù)。為創(chuàng)建信息可視化而提出問題時(shí),我們應(yīng)該盡可能地關(guān)注以數(shù)據(jù)為中心的問題。那些以“在哪里”、“什么時(shí)間”“有多少”或者“有多頻繁”開頭的問題通常是不錯(cuò)的開始,這些問題使我們專注于在特定的參數(shù)集合內(nèi)查找數(shù)據(jù),因此更有可能找到適用于可視化的數(shù)據(jù)。
2、收集數(shù)據(jù)
數(shù)據(jù)的收集和整理則是數(shù)據(jù)可視化的重中之重。然而準(zhǔn)確地找到所需要的數(shù)據(jù)是一個(gè)非常困難的任務(wù)。通常,最好從已經(jīng)可用的數(shù)據(jù)著手并盡量找到一種方式來描繪它,而不是嘗試自己去收集數(shù)據(jù)。得到原始數(shù)據(jù)之后.則要著手于數(shù)據(jù)的解析、組織、分組或者修改,對(duì)數(shù)據(jù)進(jìn)行再加工。
3、選擇一種可視化方式展現(xiàn)數(shù)據(jù)
在明確想要展現(xiàn)的內(nèi)容后,就要綜合運(yùn)用視覺元素的造型,色彩的選取,動(dòng)態(tài)等賦予圖表更好的視覺體驗(yàn)。數(shù)據(jù)可視化的過程要始終圍繞著數(shù)據(jù)可視化的核心目標(biāo):幫助讀者更好更準(zhǔn)確的理解數(shù)據(jù)。web常見的的可視化有:地圖、時(shí)間軸、網(wǎng)絡(luò)圖、樹狀圖、矩陣圖、散點(diǎn)圖、氣泡圖、流程圖、折線圖、標(biāo)簽云、數(shù)據(jù)表、雷達(dá)圖、熱力圖、平行坐標(biāo)軸等等。
五、大數(shù)據(jù)的Web數(shù)據(jù)可視化展現(xiàn)方式
1、尺寸:這是最常用的可視化展現(xiàn)方式。當(dāng)辨別兩個(gè)對(duì)象時(shí),我們可以通過尺寸對(duì)比快速地區(qū)分它們。此外,使用尺寸可以加快理解兩組不熟悉的數(shù)字之間的區(qū)別。如百度統(tǒng)計(jì),這個(gè)應(yīng)用指在通過對(duì)網(wǎng)站流量的專業(yè)分析,幫助用戶不斷從網(wǎng)站流量數(shù)據(jù)中挖掘有價(jià)值的信息,指導(dǎo)網(wǎng)站運(yùn)營。如這個(gè)網(wǎng)頁目錄的訪客數(shù)統(tǒng)計(jì)圖,采用了氣泡面積的可視化展現(xiàn)方式,通過氣泡尺寸面積對(duì)比,直觀的展現(xiàn)出各網(wǎng)頁目錄的訪客數(shù)多少。
2、色彩:色彩是展現(xiàn)大數(shù)據(jù)集的一種優(yōu)秀方式,我們可以通過色彩識(shí)別出很多層次和色調(diào)。這一點(diǎn)使得色彩成為展現(xiàn)宏觀趨勢(shì)的必然選擇。運(yùn)用色彩進(jìn)行可視化創(chuàng)作時(shí)要特別注意的是要確保讀者能夠區(qū)分出在45%和55%的數(shù)據(jù)點(diǎn)。
3、位置:基于位置的展現(xiàn)方式就是把數(shù)據(jù)和某些類型的地圖關(guān)聯(lián)起來,或者把它和一個(gè)真實(shí)或虛擬地方相關(guān)的可視化元素進(jìn)行關(guān)聯(lián)。
六、結(jié)論
數(shù)據(jù)可視化通過圖像、圖形技術(shù)對(duì)數(shù)據(jù)進(jìn)行形象化處理,通過信息技術(shù)對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確、實(shí)時(shí)、自動(dòng)化的高度透明的處理。在實(shí)際項(xiàng)目中,將大量的數(shù)據(jù)以圖形人的方式在Web頁面上展現(xiàn)出來,有助于分析數(shù)據(jù),揭示數(shù)據(jù)內(nèi)部規(guī)律。隨著計(jì)算機(jī)圖形學(xué)、多媒體技術(shù)、人機(jī)交互技術(shù)及各應(yīng)用領(lǐng)域的需要,數(shù)據(jù)可視化將會(huì)有更加廣闊的發(fā)展空間。
參考文獻(xiàn):
[1]Nathan Yau、向怡寧譯. 鮮活的數(shù)據(jù)—數(shù)據(jù)可視化指南 [M].人民郵電出版社,2012
[2]楊彥波、劉濱、祁明月. 信息可視化研究綜述 [J].河北科技大學(xué)學(xué)報(bào),2014