• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)可視化工具比較及應(yīng)用

      2018-06-27 07:52:58陳小燕干麗萍郭文平
      計(jì)算機(jī)教育 2018年6期
      關(guān)鍵詞:開源可視化工具

      陳小燕,干麗萍,郭文平

      (臺(tái)州學(xué)院 數(shù)學(xué)與信息工程學(xué)院,浙江 臨海 317000)

      1 研究背景

      隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等諸多新技術(shù)的發(fā)展,數(shù)據(jù)呈爆炸式增長(zhǎng)。根據(jù)國(guó)際數(shù)據(jù)公司(International Data Corporation,IDC)在2012年發(fā)布的報(bào)告顯示,全球數(shù)字資源在2010年首次突破了ZB(Zettabyte, 1 ZB=240 GB)級(jí)別,進(jìn)入ZB時(shí)代[1]。IDC在2017年發(fā)布的《數(shù)據(jù)時(shí)代2025》報(bào)告顯示2016年全球數(shù)據(jù)信息總量已達(dá)到16.1 ZB,并預(yù)測(cè)2025年將會(huì)升至163 ZB,是目前的10倍之多[2]。

      大數(shù)據(jù)是一個(gè)寬泛的新概念,一般是指通過快速獲取、處理、分析以從中提取價(jià)值的海量、多樣化的交易數(shù)據(jù)、交互數(shù)據(jù)與傳感數(shù)據(jù),其最終目標(biāo)就是從復(fù)雜的數(shù)據(jù)集中發(fā)現(xiàn)新的模式與知識(shí),挖掘得到有價(jià)值的新信息。大數(shù)據(jù)具有體量巨大(volume)、類型繁多(variety)、時(shí)效性高(velocity)以及價(jià)值密度低(value)的特征[3],這給大數(shù)據(jù)分析帶來極大的挑戰(zhàn)。隨著各行業(yè)和部門產(chǎn)生的數(shù)據(jù)量急劇增長(zhǎng),工業(yè)界和學(xué)術(shù)界共同努力,提出了各種數(shù)據(jù)分析方法,如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、智能算法、統(tǒng)計(jì)分析等,但這些方法對(duì)專業(yè)知識(shí)要求較高,普通用戶難以利用并從中挖掘數(shù)據(jù)信息。

      人類對(duì)信息的吸收能力非常有限,而從外界獲得的信息約有80%以上來自于視覺系統(tǒng)[4]。當(dāng)數(shù)據(jù)通過可視化工具以直觀的圖表形式展示,人們往往能一眼識(shí)別出圖形特征并轉(zhuǎn)化為有特殊含義的信息。大數(shù)據(jù)可視化工具為人類利用大數(shù)據(jù)提供了極大便利。

      2 大數(shù)據(jù)可視化研究現(xiàn)狀

      2.1 國(guó)內(nèi)外可視化研究團(tuán)隊(duì)

      為更好地利用大數(shù)據(jù),國(guó)外許多知名高校如麻省理工學(xué)院、斯坦福大學(xué)、卡耐基梅隆大學(xué)、佐治亞理工學(xué)院等將大數(shù)據(jù)可視化作為研究課題。麻省理工學(xué)院的研究團(tuán)隊(duì)專門研究城市信息的可視化,出版刊物總計(jì)744篇并廣為引用。斯坦福大學(xué)正在進(jìn)行的項(xiàng)目包括用于交互式可視化的新語言、理論模型、探索性分析工具和設(shè)計(jì)工具、評(píng)估可視化工作的感知實(shí)驗(yàn)以及大規(guī)模文本分析、人口基因組學(xué)等領(lǐng)域的可視化分析系統(tǒng)。

      國(guó)內(nèi)也有不少高校成立了相關(guān)研究團(tuán)隊(duì),如北京大學(xué)可視化與可視分析研究組、浙江大學(xué)可視分析小組等。浙江大學(xué)可視化分析小組與國(guó)內(nèi)外高校和科研機(jī)構(gòu)廣泛合作,有DataV數(shù)據(jù)可視化組件庫(kù)、全球尺度三維數(shù)值大氣可視分析系統(tǒng)等多項(xiàng)成果。

      除了學(xué)術(shù)研究機(jī)構(gòu)以外,企業(yè)、媒體、個(gè)人、工作室等都積極參與數(shù)據(jù)可視化研究中,特別是新媒體,他們自發(fā)地開始相關(guān)嘗試,將數(shù)據(jù)通過敘事的方式展現(xiàn)給目標(biāo)受眾。國(guó)內(nèi)外相關(guān)研究團(tuán)隊(duì)的官網(wǎng)及主要成果見表1。

      表1 國(guó)內(nèi)外主要的可視化研究團(tuán)隊(duì)

      2.2 數(shù)據(jù)可視化相關(guān)會(huì)議

      IEEE VIS是可視化領(lǐng)域最具權(quán)威的國(guó)際性學(xué)術(shù)會(huì)議,由三大學(xué)術(shù)會(huì)議組成:IEEE Visual Analytics Science and Technology(VAST)、IEEE Information Visualization(InfoVis)和 IEEE Scientific Visualization(SciVis)。隨著數(shù)據(jù)可視化的研究成為大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn),越來越多的可視化會(huì)議在2018年召開,見表2。

      表2 主要的數(shù)據(jù)可視化學(xué)術(shù)會(huì)議

      2.3 大數(shù)據(jù)可視化研究綜述

      隨著大數(shù)據(jù)可視化研究的進(jìn)展,國(guó)內(nèi)有不少學(xué)者撰寫了大數(shù)據(jù)可視化方面的綜述論文。文獻(xiàn)[5]分析支持大數(shù)據(jù)可視分析的基礎(chǔ)理論,包括支持分析過程的認(rèn)知理論、信息可視化理論、人機(jī)交互與用戶界面理論,并在此基礎(chǔ)上討論面向大數(shù)據(jù)主流應(yīng)用的信息可視化技術(shù)--面向文本、網(wǎng)絡(luò)(圖)、時(shí)空、多維的可視化技術(shù)。文獻(xiàn)[6]圍繞大數(shù)據(jù)分析的本質(zhì),對(duì)大數(shù)據(jù)可視化技術(shù)的內(nèi)涵進(jìn)行剖析,然后從人的視覺原理和可視化兩個(gè)角度對(duì)可視化分析技術(shù)原理進(jìn)行綜述,最后介紹大數(shù)據(jù)可視化在新聞傳媒和態(tài)勢(shì)感知兩個(gè)領(lǐng)域的應(yīng)用情況。文獻(xiàn)[7]總結(jié)生命科學(xué)研究領(lǐng)域中不同類型生物大數(shù)據(jù)的可視化研究進(jìn)展,最后討論目前生物大數(shù)據(jù)可視化所面臨的挑戰(zhàn)并提出可能的解決方案。

      3 大數(shù)據(jù)可視化工具

      3.1 開源工具

      數(shù)據(jù)可視化的實(shí)現(xiàn)一般依賴開源程序作為支柱。學(xué)術(shù)界的數(shù)據(jù)可視化大多基于R語言進(jìn)行靜態(tài)繪圖,主要適用于統(tǒng)計(jì)學(xué)家。在商業(yè)環(huán)境中的可視化主要是面向普通大眾,因?yàn)榫哂薪换バ缘腜rocessing、D3.js等主流工具更適用于交互性數(shù)據(jù)展示,見表3。

      開源工具在一定程度上推動(dòng)了可視化的進(jìn)步,許多工具都是在現(xiàn)有的基礎(chǔ)上進(jìn)行改進(jìn)和完善。以D3.js為例,其是由Mike Bostock和斯坦福可視化組的Jeff Heer制作的,而以此為基礎(chǔ)而開發(fā)的可視化工具舉不勝舉,如Data.js、RAWGraphs等。

      表3 常用開源可視化工具

      3.2 商業(yè)工具

      開源的可視化工具通常需要一定的編程能力,且在資源共享上有不便之處,往往不適合企業(yè)用于商業(yè)用途。有許多公司帶領(lǐng)團(tuán)隊(duì)推出了商業(yè)性質(zhì)的數(shù)據(jù)可視化工具,如Tableau、Excel、Splunk等,見表4,其中Excel是微軟推出的辦公軟件之一,可以快速瀏覽數(shù)據(jù)并創(chuàng)建可視化圖形,但由于樣式及顏色的限制,難以在專業(yè)刊物、網(wǎng)站等場(chǎng)合使用;而Tableau作為一個(gè)專業(yè)的可視化工具,模板豐富,操作簡(jiǎn)單,上手容易,可以直接通過對(duì)數(shù)據(jù)的操縱完成可視化。

      表4 常用商業(yè)可視化工具

      3.3 差異分析

      數(shù)據(jù)可視化應(yīng)用領(lǐng)域的廣泛性及數(shù)據(jù)可視化的普遍性,使得可視化工具側(cè)重領(lǐng)域、操作特性、受眾群體也各不相同。

      在某個(gè)研究領(lǐng)域內(nèi),存在表現(xiàn)形式的差異性。例如,在地理分析方面,地理信息可視化有地圖(圖形)、多媒體、虛擬現(xiàn)實(shí)等多種表現(xiàn)內(nèi)容,有二維、三維、多維動(dòng)態(tài)等多種空間維數(shù)可視化效果。解決實(shí)際問題時(shí),往往需要針對(duì)具體問題進(jìn)行具體分析并選擇合適的可視化工具。

      針對(duì)同一個(gè)數(shù)據(jù)集的可視化,也可能因?yàn)橛脩舻牟町惗卸喾N選擇。用戶一般分為普通大眾和專家學(xué)者。前者在進(jìn)行可視化工作時(shí)更傾向于選擇操作簡(jiǎn)易、入門門檻低的可視化工具,如一些由企業(yè)開發(fā)的商業(yè)工具Tableau等;而具有相關(guān)基礎(chǔ)的專家學(xué)者或具備一定能力的用戶,通常選擇一些開源的工具進(jìn)行相關(guān)研究。

      4 典型可視化工具教學(xué)實(shí)例

      4.1 Tableau

      4.1.1 連接數(shù)據(jù)

      Tableau對(duì)數(shù)據(jù)的導(dǎo)入和加載都是向?qū)降摹ableau支持連接到文件(包含Excel、文本文件、Access、JSON文件、PDF文件、空間文件、統(tǒng)計(jì)文件等)、服務(wù)器(包含Tableau Sever、Microsoft SQL Server、MySQL、Oracle、Amazon Redshift等)。單擊數(shù)據(jù)選項(xiàng)卡中的新建數(shù)據(jù)源功能,可以根據(jù)向?qū)崾就瓿蓴?shù)據(jù)的連接。

      4.1.2 可視化分析實(shí)例

      表5中4個(gè)二維數(shù)據(jù)點(diǎn)集的單維度均值、最小二乘法回歸線方程、誤差的平方和、方差的回歸和、均方誤差的誤差和、相關(guān)系數(shù)等統(tǒng)計(jì)屬性均相同,因此,傳統(tǒng)的統(tǒng)計(jì)方法難以對(duì)它們直接進(jìn)行區(qū)分并發(fā)現(xiàn)其數(shù)據(jù)模式。

      表5 4個(gè)二維數(shù)據(jù)點(diǎn)集

      利用Tableau,通過簡(jiǎn)單的拖拽,將實(shí)際的數(shù)據(jù)分布情況用二維可視化呈現(xiàn),觀察者可迅速地從圖1中發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的不同模式和規(guī)律。

      圖1 利用Tableau進(jìn)行可視化分析

      4.2 Power BI

      4.2.1 連接數(shù)據(jù)

      Power BI Desktop可以連接到來自許多不同

      源的數(shù)據(jù)。在主頁功能區(qū)中選擇“獲取數(shù)據(jù)”,可以選擇文件、數(shù)據(jù)庫(kù)、Azure、Online Services、其他五大類數(shù)據(jù)源。此外,Power BI Desktop還支持直接輸入數(shù)據(jù)。數(shù)據(jù)源以數(shù)據(jù)表形式呈現(xiàn),該軟件提供了“查詢編輯器”幫助用戶進(jìn)行數(shù)據(jù)的預(yù)處理。

      4.2.2 可視化分析實(shí)例

      以表6數(shù)據(jù)(第39次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》)[8]為例,對(duì)內(nèi)地各省網(wǎng)民人數(shù)情況進(jìn)行可視化。完成數(shù)據(jù)源的連接之后,可以在字段窗格看到該表下的兩個(gè)字段“省份”與“網(wǎng)民數(shù)/萬人”。通過Power BI可以將網(wǎng)民的地理位置進(jìn)行可視化,迅速發(fā)現(xiàn)我國(guó)的網(wǎng)民分布情況。

      4.3 D3(Data-Driven Documents)

      4.3.1 引用文件

      D3.js是一個(gè)JavaScript函數(shù)庫(kù),因此在使用時(shí)需要在html頁面中進(jìn)行引用。D3的官方網(wǎng)站(http://d3js.org)下載d3.zip文件,解壓后可得d3.js、d3.min.js、LICENSE(版權(quán)許可證)文件,在開發(fā)調(diào)試時(shí)一般使用d3.js。

      在index.html中引用d3.js,以d3文件夾所在目錄為index.html文件所在目錄的上一層目錄為例,代碼如下:

      4.3.2 數(shù)據(jù)處理與繪制

      以英語教學(xué)中的非謂語動(dòng)詞知識(shí)點(diǎn)為例,制作思維導(dǎo)圖,主要步驟如下。

      表6 2016年中國(guó)內(nèi)地分省網(wǎng)民規(guī)模

      (1)讀取與index.html文件同一目錄下的learn.json文件數(shù)據(jù),主要代碼如下:

      (2)綁定數(shù)據(jù)并處理,主要代碼如下:

      (3)進(jìn)行繪制,主要代碼如下:

      4.3.3 結(jié)果分析

      非謂語動(dòng)詞思維導(dǎo)圖如圖2所示,使用D3.js,利用網(wǎng)頁編程,可將具有層次結(jié)構(gòu)的文本數(shù)據(jù)以可視化圖表形式展出,使知識(shí)結(jié)構(gòu)更加清晰。完成的網(wǎng)頁易于傳播,可以為學(xué)生提供在線復(fù)習(xí)資料,在實(shí)踐教學(xué)中有一定意義。

      5 結(jié) 語

      大數(shù)據(jù)可視化分析工具為人類分析大數(shù)據(jù)隱含的知識(shí)帶來便利。筆者從是否開源的角度,對(duì)大數(shù)據(jù)可視化工具進(jìn)行了比較分析,并介紹了3個(gè)典型可視化工具的教學(xué)實(shí)例,從中發(fā)現(xiàn),開源可視化工具需要用戶具備一定的編程基礎(chǔ),如JavaScript基礎(chǔ)知識(shí)等,其易用性還需進(jìn)一步提高。為了更好地利用大數(shù)據(jù),還需要學(xué)術(shù)界和工業(yè)界合作,開發(fā)更多開源且適于普通用戶使用的可視化工具。

      圖2 非謂語動(dòng)詞思維導(dǎo)圖

      [1]Gantz J, Reinsel D. The digital universe in 2020: Big data, bigger digital shadows, and biggest growth in the far east[J]. IDC Analyze the future, 2012(12): 1-16.

      [2]Reinsel D, Gantz J, Rydning J. Data age 2025: The evolution of data to life-critical[EB/OL]. [2017-12-29]. https://www.seagate.com/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf.

      [3]劉智慧, 張泉靈. 大數(shù)據(jù)技術(shù)研究綜述[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2014(6): 957-972.

      [4]Ren L. Research on interaction techniques in information visualization[D]. Beijing: The Chinese Academy of Sciences, 2009.

      [5]任磊, 杜一, 馬帥, 等. 大數(shù)據(jù)可視分析綜述[J]. 軟件學(xué)報(bào), 2014, 25(9): 1909-1936.

      [6]付長(zhǎng)軍, 喬宏章. 大數(shù)據(jù)可視化技術(shù)探析[J]. 無線電通信技術(shù), 2017(5): 1-5.

      [7]周琳, 孔雷, 趙方慶. 生物大數(shù)據(jù)可視化的現(xiàn)狀及挑戰(zhàn)[J]. 科學(xué)通報(bào), 2015(增刊1): 547-557.

      [8]中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組辦公室 國(guó)家互聯(lián)網(wǎng)信息辦公室 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心. 中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL]. [2017-12-29]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201701/P020170123364672657408.pdf.

      猜你喜歡
      開源可視化工具
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      波比的工具
      波比的工具
      基于CGAL和OpenGL的海底地形三維可視化
      五毛錢能買多少頭牛
      “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
      “巧用”工具
      讀者(2017年18期)2017-08-29 21:22:03
      大家說:開源、人工智能及創(chuàng)新
      開源中國(guó)開源世界高峰論壇圓桌會(huì)議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
      新安县| 邹平县| 中西区| 德保县| 鸡泽县| 东光县| 麻城市| 津市市| 德惠市| 高陵县| 修文县| 翁牛特旗| 黎平县| 明光市| 桓台县| 闵行区| 吉木萨尔县| 丹阳市| 昆明市| 准格尔旗| 西乡县| 大姚县| 兴宁市| 青冈县| 舞钢市| 宕昌县| 陇南市| 贺州市| 延庆县| 永顺县| 从化市| 康定县| 苏尼特右旗| 永德县| 会昌县| 错那县| 汤原县| 新安县| 陆良县| 商洛市| 滨州市|