譚珅 楊亞楠
摘要:在大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)可視化的應(yīng)用的范圍愈加廣泛,重視程度更是在不斷提高。本文通過(guò)對(duì)數(shù)據(jù)可視化研究領(lǐng)域發(fā)表的相關(guān)文獻(xiàn)進(jìn)行挖掘,借助社會(huì)網(wǎng)絡(luò)分析方法,對(duì)數(shù)據(jù)可視化研究領(lǐng)域的主題演化和研究現(xiàn)狀進(jìn)行分析。
Abstract: Under the background of large data era, the application of data visualization is more and more extensive, and the degree of attention is constantly improving. In this paper, by mining the relevant literature published by domestic scholars in the field of data visualization, with the help of social network analysis method, the topic evolution and research status of data visualization research are analyzed.
關(guān)鍵詞:數(shù)據(jù)可視化;社會(huì)網(wǎng)絡(luò)分析;研究主題
Key words: data visualization;social network analysis;research topic
中圖分類號(hào):TP311.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2018)36-0215-02
0? 引言
新一代信息和互聯(lián)網(wǎng)技術(shù)與社會(huì)各領(lǐng)域的深度融合,使得人類生產(chǎn)和獲取數(shù)據(jù)的能力在以指數(shù)倍數(shù)增長(zhǎng)[1],人類社會(huì)逐漸進(jìn)入一個(gè)信息爆炸的時(shí)代[2]。當(dāng)海量的數(shù)據(jù)充斥著世界,那么如何從海量的數(shù)據(jù)中甄別有價(jià)值的數(shù)據(jù)和垃圾數(shù)據(jù)[3],這就必然給信息處理技術(shù)帶來(lái)了更高的要求。在此背景之下,數(shù)據(jù)可視化作為數(shù)據(jù)呈現(xiàn)和數(shù)據(jù)分析的理論和方法被各行業(yè)越發(fā)重視。對(duì)于海量的數(shù)據(jù),傳統(tǒng)技術(shù)無(wú)法直接進(jìn)行分析,可視化技術(shù)借助計(jì)算機(jī)將原始數(shù)據(jù)、信息轉(zhuǎn)換更易于人類理解和接受[4],能夠更加快速的獲得具有價(jià)值的知識(shí)[5];與此同時(shí),在某些情況下數(shù)據(jù)挖掘技術(shù)會(huì)造成數(shù)據(jù)遺失,一些更具價(jià)值“小數(shù)據(jù)”很容易被大量的數(shù)據(jù)所淹沒,如網(wǎng)絡(luò)安全的黑客攻擊、醫(yī)療數(shù)據(jù)的患者病例信息等,而將可視化技術(shù)和數(shù)據(jù)挖掘技術(shù)結(jié)合起來(lái)是更加有效地解決方法??傮w上看,從數(shù)據(jù)的采集、數(shù)據(jù)的存儲(chǔ)與管理、數(shù)據(jù)的分析與挖掘、數(shù)據(jù)展現(xiàn)與應(yīng)用,可視化技術(shù)是作為大數(shù)據(jù)產(chǎn)業(yè)架構(gòu)最終呈現(xiàn)環(huán)節(jié),對(duì)于之前環(huán)節(jié)起到了至關(guān)重要的作用,可以說(shuō)數(shù)據(jù)可視化決定了數(shù)據(jù)資源管理的水平的高低。
本文旨在通過(guò)對(duì)學(xué)者們?cè)跀?shù)據(jù)可視化領(lǐng)域的研究成果進(jìn)行梳理,借助社會(huì)網(wǎng)絡(luò)分析方法,呈現(xiàn)出我國(guó)數(shù)據(jù)可視化研究領(lǐng)域的研究現(xiàn)狀,對(duì)學(xué)者們接下來(lái)的研究方向選擇具有指導(dǎo)意義。
1? 數(shù)據(jù)獲取
本文選取中國(guó)知網(wǎng)(CNKI)為數(shù)據(jù)源,將主題、關(guān)鍵詞、篇名、摘要的檢索詞設(shè)定為“數(shù)據(jù)可視化”,并且為精確模式,四者之間為或者關(guān)系;期刊來(lái)源選定為SCI、EI和CSSCI;檢索時(shí)間設(shè)定為2002年到2017年,經(jīng)檢索獲得642篇文獻(xiàn)。發(fā)文量趨勢(shì)線擬合方程為y=0.07x3-1.0131x2+4.1689x+18.533,其中R2=0.847,表明擬合程度較好,可信度較高。
2002年以來(lái)數(shù)據(jù)可視化的發(fā)文量比較穩(wěn)定,每年50篇維持在以下,2014年發(fā)文量開始出現(xiàn)快速增長(zhǎng),反應(yīng)出數(shù)據(jù)可視化的研究熱度在不斷升高。鑒于此,根據(jù)年發(fā)文量的變化,本文將數(shù)據(jù)可視化的研究劃分為2002-2013年和2014-2017年兩個(gè)階段。
2? 研究方法選擇
本文使用主要社會(huì)網(wǎng)絡(luò)分析方法對(duì)數(shù)據(jù)可視化技術(shù)研究情況進(jìn)行探討,借助BICOMB從原始文件挖掘出中數(shù)據(jù),使用Pajek繪制出網(wǎng)絡(luò)圖后,對(duì)獲取到的屬性數(shù)據(jù)進(jìn)行深入分析??紤]到網(wǎng)絡(luò)中各衡量指標(biāo)的特性,筆者選取接近度中心性作為網(wǎng)絡(luò)圖中的衡量指標(biāo),其計(jì)算公式為:
其中Cc(vm)表示節(jié)點(diǎn)vm接近度中心性,N表示節(jié)點(diǎn)數(shù),dmn表示節(jié)點(diǎn)vm到vn的最短距離。
3? 研究結(jié)果分析
3.1 主要關(guān)鍵詞分析
借助BICOMB軟件對(duì)從文獻(xiàn)中提取到的關(guān)鍵詞進(jìn)行提取,并且對(duì)于同義、大小寫等表達(dá)方式不同的關(guān)鍵詞進(jìn)行合并處理,最后按關(guān)鍵詞進(jìn)行排序統(tǒng)計(jì)。經(jīng)統(tǒng)計(jì),第一階段獲得關(guān)鍵詞907個(gè),頻次大于等于2的關(guān)鍵詞有118個(gè),累計(jì)占比37.68%,前三位的是可視化、數(shù)據(jù)可視化、信息可視化;第二階段共計(jì)獲得關(guān)鍵詞1093個(gè),頻次大于等于2的關(guān)鍵詞數(shù)為120個(gè),累計(jì)占比37.91%,頻次位于前三位的是可視化、大數(shù)據(jù)、數(shù)據(jù)可視化。從位于前三位的關(guān)鍵詞變化中可以發(fā)現(xiàn),大數(shù)據(jù)在研究中地位得到突顯,涉及信息可視化研究的在減少。
3.2 關(guān)鍵詞中心性分析
通過(guò)計(jì)算兩個(gè)階段關(guān)鍵詞的中心性,將中心性劃分為三個(gè)層次:Cc(vm)≥0.60的節(jié)點(diǎn)為核心節(jié)點(diǎn)用;Cc(vm)≥0.50并且Cc(vm)<0.60的節(jié)點(diǎn)為中間節(jié)點(diǎn);Cc(vm)<0.50的節(jié)點(diǎn)為邊緣節(jié)點(diǎn)用。
第一階段(2002-2013年):在本階段,詞頻大于等于3的關(guān)鍵詞共計(jì)41個(gè),其中核心節(jié)點(diǎn)有兩個(gè)分別是可視化和信息可視化,中心性分別為0.66和0.61;處于中間節(jié)點(diǎn)的關(guān)鍵詞是數(shù)據(jù)可視化、數(shù)據(jù)挖掘、知識(shí)可視化和科學(xué)計(jì)量學(xué),占總數(shù)的9.76%;邊緣節(jié)點(diǎn)共計(jì)35個(gè),在總數(shù)中為85.37%。對(duì)各層次節(jié)點(diǎn)的數(shù)量對(duì)比可以發(fā)現(xiàn)邊緣層節(jié)點(diǎn)占比很高,這反映出在數(shù)據(jù)可視化研究較早階段研究關(guān)注點(diǎn)比較分散。在邊緣節(jié)點(diǎn)中,可視化分析、可視分析、空間分析等分析類詞頻和信息檢索、信息資源、信息系統(tǒng)等信息類詞頻都較多,反應(yīng)出數(shù)據(jù)可視化研究在這些方面的關(guān)注度較高。進(jìn)一步分析,發(fā)現(xiàn)節(jié)點(diǎn)間連線粗細(xì)進(jìn)行觀察可以發(fā)現(xiàn),數(shù)據(jù)可視化與大數(shù)據(jù)、數(shù)據(jù)新聞、數(shù)據(jù)挖掘和在線數(shù)據(jù)服務(wù)4個(gè)詞關(guān)聯(lián)度較高,反應(yīng)出在初期階段與數(shù)據(jù)可視化聯(lián)系緊密的研究領(lǐng)域。
第二階段(2014-2017年):本階段詞頻大于和等于3的關(guān)鍵詞共計(jì)49個(gè),有2個(gè)核心節(jié)點(diǎn)分別為可視化和大數(shù)據(jù),中心性分別為0.65和0.62;中間節(jié)點(diǎn)有7個(gè),分別為信息可視化、數(shù)據(jù)新聞、數(shù)據(jù)可視化、可視分析、數(shù)據(jù)挖掘、社會(huì)網(wǎng)絡(luò)分析、云計(jì)算,合計(jì)占比為14.29%;邊緣節(jié)點(diǎn)共計(jì)40個(gè),合計(jì)占比為81.63%。較第一階段相比可以看出,中間節(jié)點(diǎn)的占比升高,數(shù)據(jù)可視化研究?jī)?nèi)容上有集中趨勢(shì);信息可視化由第一階段的核心節(jié)點(diǎn)演化為第二階段中間節(jié)點(diǎn);數(shù)據(jù)新聞、可視分析、數(shù)據(jù)分析等逐漸成為變?yōu)橹虚g節(jié)點(diǎn),說(shuō)明這些領(lǐng)域的關(guān)注度在不斷升高;數(shù)據(jù)可視化領(lǐng)域研究?jī)?nèi)容的主要范圍已經(jīng)逐漸形成。此外,節(jié)點(diǎn)聯(lián)系最為密切的是數(shù)據(jù)新聞和可視化兩個(gè)節(jié)點(diǎn)之間,并且數(shù)據(jù)新聞和大數(shù)據(jù)與數(shù)據(jù)可視化節(jié)點(diǎn)聯(lián)系度也較高。
3.3 網(wǎng)絡(luò)特性分析
經(jīng)計(jì)算得到兩個(gè)階段關(guān)鍵詞網(wǎng)絡(luò)的網(wǎng)絡(luò)密度、平均度和集聚系數(shù),如表2所示。通過(guò)數(shù)據(jù)對(duì)比發(fā)現(xiàn),關(guān)鍵詞網(wǎng)絡(luò)的網(wǎng)絡(luò)密度、平均度和集聚系數(shù)在不斷升高,反映出數(shù)據(jù)可視化研究領(lǐng)域內(nèi)關(guān)鍵詞緊密程度和聯(lián)系程度不斷升高,并且研究?jī)?nèi)容整體上有集中趨勢(shì)。
4? 結(jié)論
我國(guó)的數(shù)據(jù)可視化研究雖然稍晚于國(guó)外,但是我國(guó)學(xué)者在這方面取得了許多研究成果,本文通過(guò)借助社會(huì)網(wǎng)絡(luò)分析方法,從關(guān)鍵詞詞頻、關(guān)鍵詞中心性和網(wǎng)絡(luò)特性分析等四個(gè)方面對(duì)2002-2017年間的數(shù)據(jù)可視化研究領(lǐng)域的研究文獻(xiàn)進(jìn)行梳理,梳理出以下結(jié)論:
①在研究初期學(xué)者們對(duì)數(shù)據(jù)可視化研究的關(guān)注度較低,較長(zhǎng)時(shí)間內(nèi)年發(fā)文量在50篇以下,但隨著學(xué)者們對(duì)該領(lǐng)域關(guān)注度不斷升高,發(fā)文量逐年上升,尤其是近年來(lái)增長(zhǎng)迅速。
②數(shù)據(jù)可視化領(lǐng)域的研究主題呈現(xiàn)出由關(guān)注于數(shù)據(jù)挖掘和可視化呈現(xiàn)演化為關(guān)注于數(shù)據(jù)挖掘和基于可視化進(jìn)行相關(guān)分析,如在第二階段中數(shù)據(jù)分析、可視分析、社會(huì)網(wǎng)絡(luò)分析等分析類詞頻熱度較高,此外,大數(shù)據(jù)、云計(jì)算等具有時(shí)代特征的關(guān)鍵詞被學(xué)者們較為關(guān)注。
③我國(guó)數(shù)據(jù)可視化的研究主題內(nèi)容不斷集中,核心節(jié)點(diǎn)之間的關(guān)聯(lián)性在升高,邊緣節(jié)點(diǎn)占比在降低,主要研究?jī)?nèi)容已經(jīng)逐漸形成;并且網(wǎng)絡(luò)密度、平均度和集聚系數(shù)等網(wǎng)絡(luò)特性指標(biāo)在升高,研究主題之間關(guān)系越發(fā)緊密。
參考文獻(xiàn):
[1]張金磊,張寶輝,劉永貴.數(shù)據(jù)可視化技術(shù)在教學(xué)中的應(yīng)用探究[J].現(xiàn)代遠(yuǎn)程教育研究,2013(06):98-104,11.
[2]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014,48(06).
[3]耿學(xué)華,傅德勝.可視化數(shù)據(jù)挖掘技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2006(02).
[4]HABER R B. Visualization idioms : A conceptual model for scientific visualization systems [J]. Visualization in Scientific Computing, 1990.
[5]孫秋年,饒?jiān)?基于關(guān)聯(lián)分析的網(wǎng)絡(luò)數(shù)據(jù)可視化技術(shù)研究綜述[J].計(jì)算機(jī)科學(xué),2015,42(S1).