王佳 付榮 李明東 姜飛 李雪竹
摘 要:數(shù)據(jù)可視化能夠把數(shù)據(jù)中隱藏的規(guī)律和特征以圖形的方式呈現(xiàn)出來(lái),使得用戶可以快速地、直觀地了解數(shù)據(jù)中的信息,多維數(shù)據(jù)可視化是對(duì)海量的多維數(shù)據(jù)進(jìn)行分類是一項(xiàng)復(fù)雜的工作,本文提出了一種多維時(shí)空數(shù)據(jù)協(xié)同可視分析的方法。
關(guān)鍵詞:多維數(shù)據(jù);可視化;關(guān)聯(lián)性
一、數(shù)據(jù)可視分析概述
(一)數(shù)據(jù)可視原理介紹。數(shù)據(jù)可視化綜合運(yùn)用計(jì)算機(jī)圖形學(xué)、圖像處理、人機(jī)交互等技術(shù),將原始數(shù)據(jù)變換為可識(shí)別的圖形符號(hào)、圖像、視頻或動(dòng)畫(huà),并以此呈現(xiàn)對(duì)用戶有價(jià)值的信息。用戶使用可視化交互工具進(jìn)行數(shù)據(jù)分析,通過(guò)對(duì)可視化結(jié)果的感知獲取知識(shí),并進(jìn)一步提升為智慧。因此,數(shù)據(jù)可視化的終極目的是對(duì)事物規(guī)律的洞悉,即從數(shù)據(jù)中發(fā)現(xiàn)、決策、解釋、分析、探索和學(xué)習(xí),而非所繪制的可視化結(jié)果本身。在數(shù)據(jù)可視化的工作中更關(guān)注數(shù)據(jù)和圖形,由此建立的數(shù)據(jù)可視化領(lǐng)域模型如圖1所示。
“數(shù)據(jù)可視分析”是指實(shí)時(shí)的、人機(jī)互動(dòng)的、更加直觀的數(shù)據(jù)分析工具,讓人和機(jī)器進(jìn)行真正的交流,給予企業(yè)真正的“大數(shù)據(jù)認(rèn)知能力”。在大數(shù)據(jù)時(shí)代,可視化在數(shù)據(jù)的獲取、處理和分析階段都發(fā)揮著重要的作用。以大數(shù)據(jù)為基礎(chǔ),以可視化和數(shù)據(jù)分析模型作為兩翼,共同為用戶創(chuàng)造價(jià)值,三者缺一不可,相輔相成。
(二)數(shù)據(jù)可視與數(shù)據(jù)挖掘之間的關(guān)聯(lián)。數(shù)據(jù)可視化與數(shù)據(jù)分析和數(shù)據(jù)挖掘的目標(biāo)都是從數(shù)據(jù)獲得信息與知識(shí),但方式有異。數(shù)據(jù)可視化將數(shù)據(jù)呈現(xiàn)為可以直觀感知的圖形圖像,用戶可以通過(guò)交互操作發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律和特征;而數(shù)據(jù)分析和數(shù)據(jù)挖掘根據(jù)特定的模型,自動(dòng)地獲取數(shù)據(jù)中隱藏的信息,并把最后的結(jié)果直接交給用戶,缺乏交互性。為了充分利用可視化技術(shù),數(shù)據(jù)挖掘領(lǐng)域已提出了可視數(shù)據(jù)挖掘的方法,其核心是將數(shù)據(jù)挖掘的結(jié)果用可視化方法予以呈現(xiàn)
二、數(shù)據(jù)可視過(guò)程
(一)數(shù)據(jù)可視化的環(huán)節(jié)。學(xué)可視化和信息可視化均設(shè)計(jì)了可視化流程的參考體系結(jié)構(gòu)模型,并被廣泛應(yīng)用于數(shù)據(jù)可視化系統(tǒng)中。它描述了從數(shù)據(jù)空間到可視空間的映射,包含串行處理數(shù)據(jù)的各階段:數(shù)據(jù)分析、數(shù)據(jù)濾波、數(shù)據(jù)的可視映射和繪制??梢暬J剑菏侵笓?jù)展現(xiàn)形式的概括。數(shù)據(jù)可視化的首要任務(wù)是選擇合適的視覺(jué)編碼,采用何種視覺(jué)編碼由感知系統(tǒng)的特性、數(shù)據(jù)的屬性和任務(wù)目標(biāo)等因素決定。在大數(shù)據(jù)時(shí)代,由于采集的數(shù)據(jù)量大而且數(shù)據(jù)具有動(dòng)態(tài)性,這就要求可視化方法不僅能靜態(tài)展示還能夠高效地進(jìn)行動(dòng)態(tài)展示。
(二)多維時(shí)序數(shù)據(jù)趨勢(shì)性分析問(wèn)題的描述。多維時(shí)序數(shù)據(jù)趨勢(shì)性分析的難點(diǎn)在于當(dāng)數(shù)據(jù)量很龐大時(shí),如何對(duì)大量客觀對(duì)象的變化趨勢(shì)進(jìn)行同時(shí)展示,在有限的空間內(nèi)如果對(duì)數(shù)據(jù)的各個(gè)屬性都進(jìn)行展示則會(huì)導(dǎo)致圖形或圖像相互覆蓋的問(wèn)題。假設(shè)每個(gè)對(duì)象在一個(gè)時(shí)間段內(nèi)有一個(gè)數(shù)據(jù)記錄,共有n個(gè)時(shí)間段,可以得到時(shí)間和數(shù)據(jù)的二元組集合:
? ? ? ? ? ? ? ? ? ? ? ? (1)
si為ti時(shí)間段的數(shù)據(jù)值,i=1,2,… ,n。在此基礎(chǔ)上計(jì)算出每個(gè)對(duì)象在t1
到tn時(shí)間段內(nèi)階段數(shù)據(jù)值的相關(guān)信息,數(shù)據(jù)結(jié)構(gòu)如下:
(2)
(三)可視分析中數(shù)據(jù)降維設(shè)計(jì)。對(duì)于具有多維性和時(shí)序性的數(shù)據(jù)如果不能有效地進(jìn)行投影,將使可視結(jié)果混亂,如交易數(shù)據(jù)。數(shù)據(jù)走勢(shì)圖可以讓用戶直觀的了解對(duì)象的數(shù)據(jù)走勢(shì),通過(guò)時(shí)間和階段值二元組可以繪制出走勢(shì)圖。
(四)規(guī)程變化中性能趨勢(shì)預(yù)測(cè)。波動(dòng)性反映對(duì)象的變化趨勢(shì)是否平穩(wěn),數(shù)據(jù)值是否存在較大波動(dòng);動(dòng)力性反映對(duì)象的數(shù)據(jù)量是否具有較好的持續(xù)性以及數(shù)據(jù)值的增長(zhǎng)是否比較強(qiáng)勁。通過(guò)這兩個(gè)指標(biāo)用戶對(duì)觀察對(duì)象的前景有一個(gè)預(yù)期,可以提前做好預(yù)測(cè)和計(jì)劃。
三、多維數(shù)據(jù)流CCA跟蹤算法
(一)算法基本思路。TCCA建立在滑動(dòng)窗口模型基礎(chǔ)上。根據(jù)滑動(dòng)窗口模型,時(shí)間流逝過(guò)程中,窗框持續(xù)前滾,每步刪掉窗框內(nèi)一條最早到達(dá)的記錄,同時(shí)新增一條當(dāng)前時(shí)刻到達(dá)的新記錄。若窗框中的兩組數(shù)據(jù)都有相同的記錄數(shù)見(jiàn)而第一組數(shù)據(jù)的維數(shù)為p第二組數(shù)據(jù)的維數(shù)為W則第/時(shí)刻窗框中的記錄構(gòu)成的矩陣表示如下:
(4)
(二)算法穩(wěn)定性分析。實(shí)驗(yàn)主要考察算法TCCA的穩(wěn)定性,評(píng)估時(shí)用算法運(yùn)行時(shí)間的標(biāo)準(zhǔn)差大小度量其穩(wěn)定性。為求解算法TCCA的執(zhí)行時(shí)間標(biāo)準(zhǔn)差,需多次重復(fù)執(zhí)行算法。實(shí)驗(yàn)在人工合成的數(shù)據(jù)集DSG上進(jìn)行。算法執(zhí)行過(guò)程中所產(chǎn)生的數(shù)據(jù)維數(shù)較低,而數(shù)據(jù)規(guī)模則為中小規(guī)模,確切地說(shuō),第一組數(shù)據(jù)是5維,第二組數(shù)據(jù)是8維,兩組數(shù)據(jù)的總?cè)萘拷詾?100,而窗框長(zhǎng)度固定為100。共進(jìn)行了兩個(gè)實(shí)驗(yàn),第一個(gè)實(shí)驗(yàn)在一次隨機(jī)產(chǎn)生的數(shù)據(jù)上觀察,結(jié)果如圖2所示;而第二個(gè)實(shí)驗(yàn)則考察算法在重復(fù)15次產(chǎn)生的數(shù)據(jù)上的平均執(zhí)行時(shí)間。
四、總結(jié)
提出的多維時(shí)空數(shù)據(jù)的多維屬性協(xié)同可視分析方法,該方法可以對(duì)多層次屬性的值分布及其相互關(guān)系進(jìn)行分析;對(duì)隱藏在時(shí)空數(shù)據(jù)中的時(shí)序特征也設(shè)計(jì)了可視分析方法,利用MDS算法進(jìn)行空間變換,把原始的多維時(shí)空數(shù)據(jù)按時(shí)間順序映射到時(shí)序坐標(biāo)軸上,通過(guò)坐標(biāo)軸空間的放縮增強(qiáng)用戶對(duì)數(shù)據(jù)的理解;為了解決平行坐標(biāo)中大量曲線無(wú)法識(shí)別的問(wèn)題,設(shè)計(jì)了層次聚類算法對(duì)數(shù)據(jù)按類別進(jìn)行特征分析,以使用戶可以快速對(duì)大量數(shù)據(jù)的時(shí)空演變規(guī)律進(jìn)行總體分析。
參考文獻(xiàn):
[1] 張怡,熊朝陽(yáng),張加萬(wàn).多維數(shù)據(jù)的不確定性可視相關(guān)分析[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2018,30(06):1089-1099.
[2] 不確定性數(shù)據(jù)管理技術(shù)研究綜述[J]. 徐震.中國(guó)新通信.2018(02)
[3] 王雄斌. 面向大規(guī)模多源傳感流數(shù)據(jù)的關(guān)聯(lián)在線檢測(cè)方法[D].北方工業(yè)大學(xué),2017.
基金項(xiàng)目:2020年宿州學(xué)院虛擬仿真實(shí)驗(yàn)教學(xué)項(xiàng)目(編號(hào):szxy2020xnfz02);2021年國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(編號(hào):202110379027);2020年安徽省教育廳高等學(xué)校省級(jí)質(zhì)量工程項(xiàng)目(編號(hào):2020szsfkc1004);2020年宿州學(xué)院校級(jí)質(zhì)量工程項(xiàng)目(編號(hào):szxy2020xxkc07);2020年宿州學(xué)院專創(chuàng)融合重點(diǎn)課程項(xiàng)目(編號(hào):szxy2020zckc22)。