夏 玲
(廣州南方學(xué)院,廣東廣州 510970)
在計(jì)算機(jī)學(xué)科的分類中,利用人眼的感知能力對(duì)數(shù)據(jù)進(jìn)行交互的可視表達(dá)以增強(qiáng)認(rèn)知的技術(shù),稱為可視化。[1]公元6200年,人類使用幾何圖表和地圖來(lái)展示重要的信息,是可視化的萌芽時(shí)期。隨著可視化方法和技術(shù)的持續(xù)發(fā)展,信息傳遞方式從單向灌輸走向雙向交互,從被動(dòng)接收信息到主動(dòng)獲取信息。到20世紀(jì)80年代末,信息可視化這一學(xué)科名稱確立。隨著計(jì)算機(jī)的普及和互聯(lián)網(wǎng)的快速發(fā)展,現(xiàn)代的數(shù)據(jù)可視化是一門涉及計(jì)算機(jī)圖形圖像學(xué)、計(jì)算機(jī)交互設(shè)計(jì)、圖像處理等領(lǐng)域的綜合技術(shù),運(yùn)用程序?qū)⒉豢梢娀螂y以直接顯示的數(shù)據(jù)轉(zhuǎn)化為可感知的圖形、符號(hào)、顏色、紋理等,增強(qiáng)數(shù)據(jù)識(shí)別效率,為用戶傳遞有價(jià)值的信息。[1]數(shù)據(jù)可視化有時(shí)引導(dǎo)用戶的看法,有時(shí)是為了影響其行為。例如,19世紀(jì)50年代,南丁格爾用其繪制的“南丁格爾玫瑰圖”打動(dòng)政府高層,獲得醫(yī)院醫(yī)療支持,最終使得英軍死亡率得到下降。
人眼對(duì)可視化符號(hào)的感知和認(rèn)知能力遠(yuǎn)高于對(duì)文本和數(shù)字的直接識(shí)別。[1]所謂一圖勝千言,可視化促使用戶迅速獲取信息。因此,面向用戶,傳播與發(fā)布信息的最有效途徑是將數(shù)據(jù)可視化。[1]數(shù)據(jù)可視化涉及數(shù)據(jù)的收集、數(shù)據(jù)的篩選與變換、視覺編碼、人機(jī)交互、用戶感知等流程。視覺編碼是整個(gè)數(shù)據(jù)可視化流程的核心,本文重在探討可視化視圖呈現(xiàn)的方式方法。視覺編碼是指將處理后的數(shù)據(jù)信息映射成可視化元素的過程,[1]且同一數(shù)據(jù)集合可能對(duì)應(yīng)多種視覺呈現(xiàn)形式??梢暬Y(jié)果可以理解為一組圖形元素的組合,這些圖形元素?cái)y帶了被編碼的信息,而當(dāng)用戶從這些圖形元素中讀取信息時(shí),可以稱我們解碼了一些信息。[2]例如,非洲的面積是3022萬(wàn)平方千米,“非洲到底多大”,設(shè)計(jì)師凱?克勞斯(Kai Krause)設(shè)計(jì)了一張圖表,將西班牙等15國(guó)的地圖填充進(jìn)非洲大陸中,組合成非洲地圖。這張圖表是被編碼的信息,15國(guó)面積之和是非洲的真實(shí)大小,這是我們解碼的信息。
標(biāo)記和用于控制標(biāo)記的視覺特征的視覺通道是可視化編碼元素的兩個(gè)方面,兩者結(jié)合對(duì)數(shù)據(jù)信息進(jìn)行完整的可視化表達(dá),從而完成可視化映射這一過程。[1]在可視化中,標(biāo)記可以分為點(diǎn)、線、面等。1967年,雅克?貝爾廷(JacquesBertin)在他出版的《圖形符號(hào)學(xué)》一書中提出了位置、大小、數(shù)值、紋理、顏色、方向和形狀等7個(gè)圖形符號(hào)及其與信息的對(duì)應(yīng)關(guān)系。將這些圖形符號(hào)映射到點(diǎn)、線、面之后,可以衍生出21種編碼可用的視覺通道。[4]人們?cè)谥蟮膶?shí)踐中增加了角度、體積、長(zhǎng)度、透明度、動(dòng)畫等其他幾種視覺通道,可用的視覺通道越來(lái)越多。視覺通道各有特點(diǎn),位置占用空間少,能夠一眼識(shí)別出趨勢(shì)、群集和離群值;大小能夠直觀比較數(shù)值差;方向可以傳達(dá)增長(zhǎng)、下降和波動(dòng)等變化趨勢(shì);形狀易于區(qū)分不同類別顏色;顏色常用于表示分類數(shù)據(jù)和數(shù)據(jù)間的變化等。
在可視化編碼之前,需要了解編碼的數(shù)據(jù)類型,數(shù)據(jù)分為基本三種類型:定量數(shù)據(jù)、有序/定性數(shù)據(jù)、分類數(shù)據(jù)。[1]定量數(shù)據(jù),有確切數(shù)字的對(duì)象。例如,每日運(yùn)動(dòng)時(shí)長(zhǎng):1,2,3。持續(xù)天數(shù):1,15,365。有序/定性數(shù)據(jù):可以比較和排序的對(duì)象。例如,故事優(yōu)先級(jí):優(yōu)、良、中、差。緊急程度:一級(jí)、二級(jí)、三級(jí)、四級(jí)。分類數(shù)據(jù),可以區(qū)分對(duì)象。例如,性別:男性和女性。年齡:青年、中年、老年。有些視覺編碼擅于傳遞與數(shù)值相關(guān)的信息,例如位置、方向、區(qū)域面積、直線的長(zhǎng)度、顏色飽和度和亮度、圖案等,有些視覺編碼擅于傳遞與分類相關(guān)的信息,例如形狀、色相、空間位置、圖案等。
通過一些實(shí)際案例的分析以更好地掌握視覺通道的運(yùn)用。例如,澎湃新聞“數(shù)說”2021年6月22日發(fā)布的報(bào)道《為什么名校都喜歡異地辦學(xué)?》,報(bào)道中以柱狀圖的形式將全國(guó)至今異地辦學(xué)機(jī)構(gòu)的調(diào)查結(jié)果進(jìn)行了可視化呈現(xiàn)。視覺編碼變量分析,X軸:年份作為定量數(shù)據(jù)映射到位置的視覺通道;Y軸:異地辦學(xué)機(jī)構(gòu)數(shù)是一個(gè)定量數(shù)據(jù),映射到矩形的長(zhǎng)度。本圖是1:1的映射關(guān)系,圖表顯示全國(guó)至今已有兩輪異地辦學(xué)潮。例如,美國(guó)作家Nathan Yau在flowingdata發(fā)布的《加州野火時(shí)間表》中,使用符號(hào)時(shí)間表可視化了2004年至2020年間加州火災(zāi)燒毀面積情況。X和Y軸:年份和月份作為定量數(shù)據(jù)映射到位置;過火面積作為定量數(shù)據(jù)映射到符號(hào)大小,同時(shí)顏色越深代表燃燒的面積越大。所以,過火面積的映射存在兩個(gè)視覺通道1:n。例如,《數(shù)據(jù)新聞大趨勢(shì)》[3]一書中使用樹圖對(duì)英國(guó)廣播公司BBC營(yíng)業(yè)收入進(jìn)行可視化呈現(xiàn)和分析。營(yíng)業(yè)額作為定量數(shù)據(jù)則映射為矩形面積;各業(yè)務(wù)線為分類數(shù)據(jù)則映射成色相;子業(yè)務(wù)線營(yíng)業(yè)額越大,飽和度越高。業(yè)務(wù)名稱和營(yíng)業(yè)額共同決定了顏色映射,所以此映射是n:1的關(guān)系。
通過對(duì)視覺編碼的分析,可以看出數(shù)據(jù)類型和視覺通道的多樣性使得一個(gè)數(shù)據(jù)集可以有多種可視化呈現(xiàn)形式和視覺編碼方案。一個(gè)數(shù)據(jù)類型可以對(duì)應(yīng)一個(gè)(1:1)或多個(gè)(1:n)視覺通道,多個(gè)數(shù)據(jù)類型對(duì)應(yīng)著一個(gè)(n:1)視覺通道。每種可視化方式都各有所長(zhǎng),也各有所短。不同視覺通道的使用影響用戶對(duì)可視化結(jié)果的信息獲取,錯(cuò)誤編碼數(shù)據(jù)信息反而會(huì)導(dǎo)致用戶對(duì)可視化結(jié)果的誤解,因此合適的編碼形式顯得尤為重要。陳為在《數(shù)據(jù)可視化》一書中指出,視覺通道的表現(xiàn)力和有效性對(duì)挑選合適的視覺通道具有指導(dǎo)性,主要體現(xiàn)在下面幾個(gè)方面[5]:1.精確性,能否精確的還原數(shù)據(jù)信息及表達(dá)數(shù)據(jù)間的變化。2.可辨認(rèn)性,同一個(gè)視覺通道的不同取值編碼的數(shù)據(jù)信息能否輕易區(qū)分。3.可分離性,不同視覺通道的編碼對(duì)象放置到一起,是否容易分辨。在可視化設(shè)計(jì)中,應(yīng)盡量選擇可分離性好的視覺通道進(jìn)行可視編碼。4.視覺突出,用戶能否在短時(shí)間內(nèi)識(shí)別到重要的信息。常用的方法是用突出的視覺通道編碼重要的信息,如明亮大膽的顏色,繪制邊框,或線加粗,使其在視覺上更為突出,引人注目。
本文以Tableau為開發(fā)工具,根據(jù)Tableau自帶的超市數(shù)據(jù)集為例做超市運(yùn)營(yíng)分析,結(jié)合數(shù)據(jù)類型和視覺編碼原則,指定任務(wù)目標(biāo),詳細(xì)說明視覺編碼在數(shù)據(jù)可視化中的應(yīng)用。
圖1顯示了產(chǎn)品類別和所屬的銷售地區(qū),其中圖1-1采用了柱狀圖的可視化形式,使用長(zhǎng)度編碼銷量數(shù)據(jù),鑒于柱狀圖主要用于表達(dá)數(shù)值信息而不是分類信息,圖中東北地區(qū)對(duì)應(yīng)于垂直軸上的辦公用品、技術(shù)、家具等多個(gè)產(chǎn)品類別,這并不合理。而圖1-2采用了氣泡圖的可視化形式,能夠表達(dá)一一的對(duì)應(yīng)關(guān)系,圓的面積表示銷售額的高低,這樣避免了左圖中所產(chǎn)生的錯(cuò)誤信息。圖2-1展示了子類別銷售額和時(shí)間的關(guān)系和變化,使用了形狀和顏色編碼不同的類別,形狀越大表示銷售額越高,可視化結(jié)果出現(xiàn)信息元素重疊,顏色和形狀的可分離性弱。而圖2-2采用了杠鈴圖的可視化形式,能夠快速識(shí)別線上兩端數(shù)值的關(guān)系,并進(jìn)行比較,提高了可視化結(jié)果的有效性。
人的視覺系統(tǒng)對(duì)于不同的視覺通道會(huì)解碼出不同的信息。圖3從不同的維度可視化了“2018年和2021年超市運(yùn)營(yíng)的變化”。圖3-1使用了長(zhǎng)度、顏色和位置這些視覺通道編碼了2018年和2021年間的變化,蝴蝶圖的條形越長(zhǎng)表示數(shù)值越大。在這個(gè)圖中,我們可以看到西北地區(qū)的利潤(rùn)是最少的,而增長(zhǎng)最緩慢的是西南地區(qū)。圖3-2使用了面積和位置,水平軸和垂直軸分別對(duì)應(yīng)數(shù)值信息(利潤(rùn))和分類信息(地區(qū)),灰色和藍(lán)色的圓點(diǎn)分別代表2018年和2021的運(yùn)營(yíng)情況,兩個(gè)點(diǎn)在同一水平線上,用直線連接,直線越長(zhǎng)表示兩年間的變化越大?;疑珗A點(diǎn)到藍(lán)色圓點(diǎn)給出一種方向感,如果藍(lán)色圓點(diǎn)在灰色圓點(diǎn)左側(cè),則該地區(qū)的利潤(rùn)在下降,這里所有的地區(qū)都是增長(zhǎng)的。圖3-3使用了位置、方向、顏色編碼的斜率圖來(lái)呈現(xiàn)2018年和2021年各地區(qū)利潤(rùn)排名情況,水平軸上的數(shù)值按年份分類,各個(gè)地區(qū)的利潤(rùn)排名顯示在垂直軸上,左邊表示2018年各地區(qū)的利潤(rùn)情況,右邊則表示2021年的情況,用一條直線連接同一地區(qū),斜率越大表示變化越大,顏色作為視覺突出的通道,對(duì)利潤(rùn)最高的中南地區(qū)做高亮顯示,還可以增加一個(gè)變量,線的粗細(xì)表示利潤(rùn)的大小。在這個(gè)圖中,可以看到整體的趨勢(shì)變化,華東、東北和西南地區(qū)相比2021年利潤(rùn)排名有所下滑。綜合實(shí)踐,不同的視覺通道組合編碼出不一樣的可視化視圖,用戶理解和獲取的信息也會(huì)不同。
無(wú)論是橫向比較還是縱向比較,每種可視化方式都各有利弊。好的數(shù)據(jù)可視化能清晰、準(zhǔn)確、高效地傳達(dá)信息。在設(shè)計(jì)可視化方案時(shí),根據(jù)目標(biāo)來(lái)分析數(shù)據(jù)類型,挑選合適、易于理解、高表現(xiàn)力的視覺通道編碼數(shù)據(jù),確保用戶在更短的時(shí)間解碼出可視化元素所攜帶的信息,是優(yōu)秀數(shù)據(jù)可視化的表現(xiàn)。視覺編碼是數(shù)據(jù)可視化的核心內(nèi)容,合理的視覺編碼是設(shè)計(jì)優(yōu)秀數(shù)據(jù)可視化的關(guān)鍵因素[1],研究視覺編碼有著重要的意義。隨著數(shù)據(jù)可視化技術(shù)的發(fā)展,可視化呈現(xiàn)的方式越來(lái)越豐富多樣,在信息過載的時(shí)代,如何可視化數(shù)據(jù)為用戶提供有價(jià)值的信息值得不斷研究與探討。