• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Excel、Spss、R在數(shù)據(jù)分析中的比較研究

      2017-04-10 07:57:46王新宇
      電腦知識與技術(shù) 2017年4期
      關(guān)鍵詞:工作環(huán)境比較分析大數(shù)據(jù)

      王新宇

      摘要:隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)分析成了一個熱門的話題。市場上有各種各樣的數(shù)據(jù)分析工具,如何選擇數(shù)據(jù)分析工具就成了很多數(shù)據(jù)分析工作者的一個難題。而數(shù)據(jù)分析工具的選擇應(yīng)主要依據(jù)具體的業(yè)務(wù)邏輯,并沒有最好的數(shù)據(jù)分析工具,而只有最適合的分析工具。全文選擇Excel,Spss和R語言這三個數(shù)據(jù)分析工具進行比較分析。觀察他們在平時的學習和工作中,特別是在數(shù)據(jù)分析過程中的表現(xiàn),以得出他們最適合的工作環(huán)境。

      關(guān)鍵詞: 大數(shù)據(jù);分析工具;業(yè)務(wù)邏輯;比較分析;工作環(huán)境

      中圖分類號:TP317.3 文獻標識碼:A 文章編號:1009-3044(2017)04-0235-02

      統(tǒng)計分析軟件是數(shù)據(jù)分析的主要工具。無論在工作還是學習中,我們都需要使用這些軟件來進行數(shù)據(jù)分析,而分析的過程主要分為數(shù)據(jù)的整理,數(shù)據(jù)的分析,數(shù)據(jù)的報告 。而市場上有很多的軟件來供我們選擇,如何選擇一款合適的軟件就成了我們需要考慮的問題。

      1 工具簡介

      Excel是微軟的office系列辦公軟件中比較常用的一款數(shù)據(jù)處理軟件。我們可以通過Excel進行數(shù)據(jù)錄入,儲存和分析的相關(guān)操作。Excel提供了大量的函數(shù)功能,為我們的數(shù)據(jù)分析工作提供了便捷。而且強大的VBA編程能力,也讓我們處理起數(shù)據(jù)更加個性化和多樣化。

      Spss(Statistical Product and Service Solutions),相比Excel這樣的辦公軟件,人們更加傾向于稱Spss為統(tǒng)計軟件。因為它的數(shù)據(jù)處理能力更加強大,Excel只能做一些最基本的數(shù)據(jù)操作,而Spss則可以做一些比較高級的數(shù)理統(tǒng)計工作。

      R語言(R Language)相比前兩者最大的不同之處在于他是非窗口操作軟件,更確切地說他是一款腳本語言。用戶需要輸入相應(yīng)的指令才可以操作數(shù)據(jù)。R語言的強大之處在于他的包。R語言平臺上提供了各種各樣的數(shù)理統(tǒng)計包,這些包可以直接由用戶使用,而并不用關(guān)心它的底層實現(xiàn)機制。

      2 三種軟件在數(shù)據(jù)儲存階段的比較分析

      數(shù)據(jù)存儲是指分析員在搜集數(shù)據(jù)之后,把相應(yīng)的數(shù)據(jù)有條理的儲存起來,以便在以后的分析工作中使用。數(shù)據(jù)存儲是數(shù)據(jù)處理過程的第一個階段,也是最重要的階段,因為他直接影響著以后的操作。如果在數(shù)據(jù)的存儲階段出了問題,那么整個數(shù)據(jù)分析的過程也就是有問題的。可見數(shù)據(jù)存儲過程是需要分析員特別重視的階段。

      在此階段Excel和Spss提供了可視化的操作界面,所以分析員可以很容易的對數(shù)據(jù)進行錄入處理。而R語言則沒有提供相應(yīng)的圖形操作界面,分析員只能通過在控制臺建立數(shù)據(jù)框這樣的方式,把數(shù)據(jù)儲存起來??梢暬僮鹘缑娴膬?yōu)點是直觀,分析員可以像在實體的紙質(zhì)表格上寫字一樣在虛擬的表里填入數(shù)據(jù),這樣可以減少分析員在抽象腳本語言可能出現(xiàn)的失誤。

      雖然R沒有提供簡單的圖形操作界面,使得數(shù)據(jù)的輸入沒有Excel與Spss軟件這么直觀,但是R語言這種輸入方式卻有一個比較強勢的功能,就是編程。雖然Excel和Spss也有編程功能,但是語法過于復(fù)雜。在R語言中分析員可以編寫自己的腳本文件,實現(xiàn)數(shù)據(jù)的重復(fù)錄入,從而可以節(jié)省出大量的時間,減少不必要的時間浪費。

      他們?nèi)咦詈蠖伎梢园褦?shù)據(jù)保存為CSV格式或者TXT格式,這樣就為數(shù)據(jù)的傳輸帶來了方便。保存為這兩種格式后三個軟件可以實現(xiàn)數(shù)據(jù)的共享操作。

      綜上所述,Excel和Spss強在可視化的操作界面,而R語言則強在編程語言。至于最后數(shù)據(jù)的保存,三者則表現(xiàn)出了一致性,實現(xiàn)了數(shù)據(jù)在軟件之間的傳輸。

      3 三種軟件在數(shù)據(jù)分析階段的比較分析

      數(shù)據(jù)分析傳統(tǒng)上都認為是統(tǒng)計分析,而廣義的數(shù)據(jù)分析則包含了更高級的算法比如機器學習、數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘(Data Minning)是指從大量的數(shù)據(jù)中通過一些特定的算法,計算出隱藏在其中的有意義的信息的過程。主要的數(shù)據(jù)挖掘算法包括:人工神經(jīng)網(wǎng)絡(luò),支持向量機,KNN算法,隨機深林、決策樹、回歸分析等。

      Excel在數(shù)據(jù)分析階段的強大之處在于它有很強大的函數(shù)庫,利用這些函數(shù)庫里的函數(shù),可以幫助我們方便地進行簡單的數(shù)據(jù)分析,比如求平均數(shù),求和等。當然也可以對數(shù)據(jù)進行優(yōu)化和篩選。函數(shù)功能是Excel的靈魂,有了函數(shù),Excel就可以組合變化出多種統(tǒng)計方式,來分析數(shù)據(jù)。

      但是,Excel只能進行簡單的數(shù)理統(tǒng)計分析,而不能進行比較高級的算法分析。 Spss相比Excel則可進行比較高級的數(shù)據(jù)分析,比如生存分析、Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)等。雖然Spss能進行這些算法分析,但是它本身也有局限性。由于Spss是一款可視化軟件,它的載體在軟件開發(fā)的階段就已經(jīng)被設(shè)計好了,分析員很難再根據(jù)自己的需要對里面的算法進行更改。這也就意味著,分析員只能使用設(shè)計者提供的方法,而設(shè)計者沒有提供的方法,分析員就不能使用了。因為現(xiàn)在算法更新比較快,而且對具體的業(yè)務(wù)對算法的要求也是不盡相同的,這樣就要求算法的個性化,而Spss則很難滿足這一點。

      R語言相比前兩者在數(shù)據(jù)分析階段則有很強大的優(yōu)勢,因為R語言是一個開源軟件。有很多R語言的愛好者,在R語言的社區(qū)貢獻自己利用R語言的語法寫成的包,免費的供所有人使用。這樣分析員就可以直接從R的官方網(wǎng)站上下載相對應(yīng)的包。R語言的包基本包含了所有數(shù)據(jù)分析的算法。

      R語言的另一個強大之處,在于分析者不僅能下載相應(yīng)的包,更能查看包的內(nèi)部信息。通過查看包的內(nèi)部信息來確定自己是否需要這個包。而且如果遇到自己所處理的問題不合適的包,分析員可以在自己所找到的包的基礎(chǔ)上自己再設(shè)計新的算法,來滿足自己的業(yè)務(wù)需要。

      綜上所述,在數(shù)據(jù)處理階段,Excel只能滿足最基本的數(shù)據(jù)處理,而Spss和R語言則可以滿足更高層次的數(shù)據(jù)處理。而且R語言在算法的選擇和使用上相對Spss則更具有個性化。

      4 三種軟件在數(shù)據(jù)報告方面的比較分析

      數(shù)據(jù)報告是指在經(jīng)過數(shù)據(jù)搜集,數(shù)據(jù)存儲,數(shù)據(jù)分析之后,對得到的結(jié)果進行歸納總結(jié),形成報告的方式呈現(xiàn)出來的過程。數(shù)據(jù)報告可以分為文字報告和圖形報告。

      而近些年來數(shù)據(jù)可視化越來越受到人們的關(guān)注,數(shù)據(jù)可視化將復(fù)雜的數(shù)據(jù)表展示為直觀的圖形,可以讓聽眾更加準確的抓住數(shù)據(jù)的要害,進而分析數(shù)據(jù)。而隨著科學技術(shù)的不斷發(fā)展,數(shù)據(jù)可視化的手段越來越豐富,除了傳統(tǒng)的柱狀圖,餅圖等等之外,現(xiàn)在的可視化工具,更為我們提供了其他豐富的圖形。比如,詞云,雷達圖等。

      在文字報告方面三者都可以根據(jù)自己的所能處理的報告生成相應(yīng)的圖表。Excel只能生成餅圖,柱狀圖等簡單的數(shù)理統(tǒng)計圖,當然這和它所能處理的對象是一致的。Spss則能生成更高級的圖形,比如線性回歸圖等。R語言也提供了相應(yīng)的作圖函數(shù),這樣的作圖函數(shù)和Excel與Spss的作圖原理是相通的。

      而R語言不僅提供了傳統(tǒng)的繪圖功能,而且更提供了高級的繪圖功能。傳統(tǒng)的繪圖軟件的原理類似與我們直接在紙面上畫畫,一旦畫上去就無法更改。這就給作圖帶來了很大的麻煩,不能隨意更改視圖,更不能在圖形生成后在后期對圖形做出整改。R語言提供了一款名叫“ggplot”的包,這個作圖包的原理是基于圖層,也就是說每一次畫圖動作都新建了一個圖層。在最后繪圖完成之后,將一個個圖層相互覆蓋。這樣作圖的好處就是我們可以直接更改一個圖層,來修改我們某一步的作圖操作。這樣我們控制最后的輸出圖就更加的靈活了。

      綜上所述,R語言在數(shù)據(jù)報告,特別是可視化這個過程中,相比Excel和Spss更加具有優(yōu)勢。但是R語言并不是完美的,我們在使用包的時候,并不能完全的隨心所欲。因為包的設(shè)計者也對一些功能進行的限制。但是如果我們確實需要某項功能,我們可以通過改寫代碼來實現(xiàn)。從這一點來說,R語言數(shù)據(jù)可視化功能還是很完整的。

      5 結(jié)論

      通過以上的比較分析,我們不難發(fā)現(xiàn)他們之間的區(qū)別和聯(lián)系,也讓我們在平時的學習和生活中有了選擇的參考。但是我們?nèi)匀灰涀?,沒有最好的軟件,只有最合適的軟件。我們在選擇軟件的時候要根據(jù)自己的實際需要來選擇,而不能認為某種軟件是最強的,就把所有的數(shù)據(jù)處理工作都交給一種工具來處理。通常結(jié)合多種工具來處理數(shù)據(jù),我們會得到最好的效果。

      參考文獻:

      [1] 張文霖.數(shù)據(jù)分析初體驗[J].數(shù)據(jù),2013(5):46-47.

      [2] 段昕宏.巧用Excel編制銀行存款余額調(diào)節(jié)表[J].財會通訊,2005(8):74.

      [3] 鄧振偉.SPSS軟件在正交試驗設(shè)計、結(jié)果分析中的應(yīng)用[J].電腦學習,2009(5):15-17.

      [4] 關(guān)彥輝.R軟件在《概率統(tǒng)計》教學中的應(yīng)用[J].現(xiàn)代計算機(專業(yè)版),2009(12):87-90.

      [5] 姜忠尉.統(tǒng)計分析軟件SPSS的特點和應(yīng)用分析[J].中國證券期貨,2012(4):291.

      [6] 尚新利.利用EXCEL軟件進行線性回歸分析[J].氣象與環(huán)境科學,2007(S1):188-189.

      [7] 羅鳳明.如何使用統(tǒng)計軟件SPSS進行回歸分析[J].電腦知識與技術(shù),2008(2):293-294+304.

      [8] 楊霞.R語言在大數(shù)據(jù)處理中的應(yīng)用[J].科技資訊,2013(23):19-20.

      猜你喜歡
      工作環(huán)境比較分析大數(shù)據(jù)
      高校二級團組織服務(wù)型工作體系的建設(shè)
      未來英才(2016年22期)2016-12-28 13:36:18
      比較視角下的國家治理模式及其理論構(gòu)建
      善意取得制度的比較分析
      人間(2016年30期)2016-12-03 20:39:32
      基于Zigbee無線網(wǎng)絡(luò)傳感器工作環(huán)境監(jiān)測系統(tǒng)的設(shè)計
      對國內(nèi)外企業(yè)的科技中介的思考
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      經(jīng)管類本科生就業(yè)期望與實際就業(yè)的比較分析
      淺談在新形勢下如何發(fā)揮人力資源的主觀能動性
      中國市場(2016年27期)2016-07-16 04:18:03
      基于工作環(huán)境的高校民族預(yù)科英語教學改革探討
      科技視界(2015年35期)2016-01-04 09:59:37
      旌德县| 中阳县| 南汇区| 福清市| 巴楚县| 山西省| 碌曲县| 玛曲县| 南昌市| 平遥县| 正蓝旗| 南通市| 长兴县| 全椒县| 玛多县| 深圳市| 河北区| 广州市| 津南区| 泽州县| 安陆市| 敖汉旗| 洛隆县| 平邑县| 城口县| 建阳市| 朔州市| 望谟县| 财经| 班戈县| 溆浦县| 皮山县| 出国| 伽师县| 中宁县| 遂宁市| 宝兴县| 含山县| 从江县| 象州县| 蕉岭县|