王新宇
摘要:隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)分析成了一個熱門的話題。市場上有各種各樣的數(shù)據(jù)分析工具,如何選擇數(shù)據(jù)分析工具就成了很多數(shù)據(jù)分析工作者的一個難題。而數(shù)據(jù)分析工具的選擇應(yīng)主要依據(jù)具體的業(yè)務(wù)邏輯,并沒有最好的數(shù)據(jù)分析工具,而只有最適合的分析工具。全文選擇Excel,Spss和R語言這三個數(shù)據(jù)分析工具進行比較分析。觀察他們在平時的學習和工作中,特別是在數(shù)據(jù)分析過程中的表現(xiàn),以得出他們最適合的工作環(huán)境。
關(guān)鍵詞: 大數(shù)據(jù);分析工具;業(yè)務(wù)邏輯;比較分析;工作環(huán)境
中圖分類號:TP317.3 文獻標識碼:A 文章編號:1009-3044(2017)04-0235-02
統(tǒng)計分析軟件是數(shù)據(jù)分析的主要工具。無論在工作還是學習中,我們都需要使用這些軟件來進行數(shù)據(jù)分析,而分析的過程主要分為數(shù)據(jù)的整理,數(shù)據(jù)的分析,數(shù)據(jù)的報告 。而市場上有很多的軟件來供我們選擇,如何選擇一款合適的軟件就成了我們需要考慮的問題。
1 工具簡介
Excel是微軟的office系列辦公軟件中比較常用的一款數(shù)據(jù)處理軟件。我們可以通過Excel進行數(shù)據(jù)錄入,儲存和分析的相關(guān)操作。Excel提供了大量的函數(shù)功能,為我們的數(shù)據(jù)分析工作提供了便捷。而且強大的VBA編程能力,也讓我們處理起數(shù)據(jù)更加個性化和多樣化。
Spss(Statistical Product and Service Solutions),相比Excel這樣的辦公軟件,人們更加傾向于稱Spss為統(tǒng)計軟件。因為它的數(shù)據(jù)處理能力更加強大,Excel只能做一些最基本的數(shù)據(jù)操作,而Spss則可以做一些比較高級的數(shù)理統(tǒng)計工作。
R語言(R Language)相比前兩者最大的不同之處在于他是非窗口操作軟件,更確切地說他是一款腳本語言。用戶需要輸入相應(yīng)的指令才可以操作數(shù)據(jù)。R語言的強大之處在于他的包。R語言平臺上提供了各種各樣的數(shù)理統(tǒng)計包,這些包可以直接由用戶使用,而并不用關(guān)心它的底層實現(xiàn)機制。
2 三種軟件在數(shù)據(jù)儲存階段的比較分析
數(shù)據(jù)存儲是指分析員在搜集數(shù)據(jù)之后,把相應(yīng)的數(shù)據(jù)有條理的儲存起來,以便在以后的分析工作中使用。數(shù)據(jù)存儲是數(shù)據(jù)處理過程的第一個階段,也是最重要的階段,因為他直接影響著以后的操作。如果在數(shù)據(jù)的存儲階段出了問題,那么整個數(shù)據(jù)分析的過程也就是有問題的。可見數(shù)據(jù)存儲過程是需要分析員特別重視的階段。
在此階段Excel和Spss提供了可視化的操作界面,所以分析員可以很容易的對數(shù)據(jù)進行錄入處理。而R語言則沒有提供相應(yīng)的圖形操作界面,分析員只能通過在控制臺建立數(shù)據(jù)框這樣的方式,把數(shù)據(jù)儲存起來??梢暬僮鹘缑娴膬?yōu)點是直觀,分析員可以像在實體的紙質(zhì)表格上寫字一樣在虛擬的表里填入數(shù)據(jù),這樣可以減少分析員在抽象腳本語言可能出現(xiàn)的失誤。
雖然R沒有提供簡單的圖形操作界面,使得數(shù)據(jù)的輸入沒有Excel與Spss軟件這么直觀,但是R語言這種輸入方式卻有一個比較強勢的功能,就是編程。雖然Excel和Spss也有編程功能,但是語法過于復(fù)雜。在R語言中分析員可以編寫自己的腳本文件,實現(xiàn)數(shù)據(jù)的重復(fù)錄入,從而可以節(jié)省出大量的時間,減少不必要的時間浪費。
他們?nèi)咦詈蠖伎梢园褦?shù)據(jù)保存為CSV格式或者TXT格式,這樣就為數(shù)據(jù)的傳輸帶來了方便。保存為這兩種格式后三個軟件可以實現(xiàn)數(shù)據(jù)的共享操作。
綜上所述,Excel和Spss強在可視化的操作界面,而R語言則強在編程語言。至于最后數(shù)據(jù)的保存,三者則表現(xiàn)出了一致性,實現(xiàn)了數(shù)據(jù)在軟件之間的傳輸。
3 三種軟件在數(shù)據(jù)分析階段的比較分析
數(shù)據(jù)分析傳統(tǒng)上都認為是統(tǒng)計分析,而廣義的數(shù)據(jù)分析則包含了更高級的算法比如機器學習、數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘(Data Minning)是指從大量的數(shù)據(jù)中通過一些特定的算法,計算出隱藏在其中的有意義的信息的過程。主要的數(shù)據(jù)挖掘算法包括:人工神經(jīng)網(wǎng)絡(luò),支持向量機,KNN算法,隨機深林、決策樹、回歸分析等。
Excel在數(shù)據(jù)分析階段的強大之處在于它有很強大的函數(shù)庫,利用這些函數(shù)庫里的函數(shù),可以幫助我們方便地進行簡單的數(shù)據(jù)分析,比如求平均數(shù),求和等。當然也可以對數(shù)據(jù)進行優(yōu)化和篩選。函數(shù)功能是Excel的靈魂,有了函數(shù),Excel就可以組合變化出多種統(tǒng)計方式,來分析數(shù)據(jù)。
但是,Excel只能進行簡單的數(shù)理統(tǒng)計分析,而不能進行比較高級的算法分析。 Spss相比Excel則可進行比較高級的數(shù)據(jù)分析,比如生存分析、Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)等。雖然Spss能進行這些算法分析,但是它本身也有局限性。由于Spss是一款可視化軟件,它的載體在軟件開發(fā)的階段就已經(jīng)被設(shè)計好了,分析員很難再根據(jù)自己的需要對里面的算法進行更改。這也就意味著,分析員只能使用設(shè)計者提供的方法,而設(shè)計者沒有提供的方法,分析員就不能使用了。因為現(xiàn)在算法更新比較快,而且對具體的業(yè)務(wù)對算法的要求也是不盡相同的,這樣就要求算法的個性化,而Spss則很難滿足這一點。
R語言相比前兩者在數(shù)據(jù)分析階段則有很強大的優(yōu)勢,因為R語言是一個開源軟件。有很多R語言的愛好者,在R語言的社區(qū)貢獻自己利用R語言的語法寫成的包,免費的供所有人使用。這樣分析員就可以直接從R的官方網(wǎng)站上下載相對應(yīng)的包。R語言的包基本包含了所有數(shù)據(jù)分析的算法。
R語言的另一個強大之處,在于分析者不僅能下載相應(yīng)的包,更能查看包的內(nèi)部信息。通過查看包的內(nèi)部信息來確定自己是否需要這個包。而且如果遇到自己所處理的問題不合適的包,分析員可以在自己所找到的包的基礎(chǔ)上自己再設(shè)計新的算法,來滿足自己的業(yè)務(wù)需要。
綜上所述,在數(shù)據(jù)處理階段,Excel只能滿足最基本的數(shù)據(jù)處理,而Spss和R語言則可以滿足更高層次的數(shù)據(jù)處理。而且R語言在算法的選擇和使用上相對Spss則更具有個性化。
4 三種軟件在數(shù)據(jù)報告方面的比較分析
數(shù)據(jù)報告是指在經(jīng)過數(shù)據(jù)搜集,數(shù)據(jù)存儲,數(shù)據(jù)分析之后,對得到的結(jié)果進行歸納總結(jié),形成報告的方式呈現(xiàn)出來的過程。數(shù)據(jù)報告可以分為文字報告和圖形報告。
而近些年來數(shù)據(jù)可視化越來越受到人們的關(guān)注,數(shù)據(jù)可視化將復(fù)雜的數(shù)據(jù)表展示為直觀的圖形,可以讓聽眾更加準確的抓住數(shù)據(jù)的要害,進而分析數(shù)據(jù)。而隨著科學技術(shù)的不斷發(fā)展,數(shù)據(jù)可視化的手段越來越豐富,除了傳統(tǒng)的柱狀圖,餅圖等等之外,現(xiàn)在的可視化工具,更為我們提供了其他豐富的圖形。比如,詞云,雷達圖等。
在文字報告方面三者都可以根據(jù)自己的所能處理的報告生成相應(yīng)的圖表。Excel只能生成餅圖,柱狀圖等簡單的數(shù)理統(tǒng)計圖,當然這和它所能處理的對象是一致的。Spss則能生成更高級的圖形,比如線性回歸圖等。R語言也提供了相應(yīng)的作圖函數(shù),這樣的作圖函數(shù)和Excel與Spss的作圖原理是相通的。
而R語言不僅提供了傳統(tǒng)的繪圖功能,而且更提供了高級的繪圖功能。傳統(tǒng)的繪圖軟件的原理類似與我們直接在紙面上畫畫,一旦畫上去就無法更改。這就給作圖帶來了很大的麻煩,不能隨意更改視圖,更不能在圖形生成后在后期對圖形做出整改。R語言提供了一款名叫“ggplot”的包,這個作圖包的原理是基于圖層,也就是說每一次畫圖動作都新建了一個圖層。在最后繪圖完成之后,將一個個圖層相互覆蓋。這樣作圖的好處就是我們可以直接更改一個圖層,來修改我們某一步的作圖操作。這樣我們控制最后的輸出圖就更加的靈活了。
綜上所述,R語言在數(shù)據(jù)報告,特別是可視化這個過程中,相比Excel和Spss更加具有優(yōu)勢。但是R語言并不是完美的,我們在使用包的時候,并不能完全的隨心所欲。因為包的設(shè)計者也對一些功能進行的限制。但是如果我們確實需要某項功能,我們可以通過改寫代碼來實現(xiàn)。從這一點來說,R語言數(shù)據(jù)可視化功能還是很完整的。
5 結(jié)論
通過以上的比較分析,我們不難發(fā)現(xiàn)他們之間的區(qū)別和聯(lián)系,也讓我們在平時的學習和生活中有了選擇的參考。但是我們?nèi)匀灰涀?,沒有最好的軟件,只有最合適的軟件。我們在選擇軟件的時候要根據(jù)自己的實際需要來選擇,而不能認為某種軟件是最強的,就把所有的數(shù)據(jù)處理工作都交給一種工具來處理。通常結(jié)合多種工具來處理數(shù)據(jù),我們會得到最好的效果。
參考文獻:
[1] 張文霖.數(shù)據(jù)分析初體驗[J].數(shù)據(jù),2013(5):46-47.
[2] 段昕宏.巧用Excel編制銀行存款余額調(diào)節(jié)表[J].財會通訊,2005(8):74.
[3] 鄧振偉.SPSS軟件在正交試驗設(shè)計、結(jié)果分析中的應(yīng)用[J].電腦學習,2009(5):15-17.
[4] 關(guān)彥輝.R軟件在《概率統(tǒng)計》教學中的應(yīng)用[J].現(xiàn)代計算機(專業(yè)版),2009(12):87-90.
[5] 姜忠尉.統(tǒng)計分析軟件SPSS的特點和應(yīng)用分析[J].中國證券期貨,2012(4):291.
[6] 尚新利.利用EXCEL軟件進行線性回歸分析[J].氣象與環(huán)境科學,2007(S1):188-189.
[7] 羅鳳明.如何使用統(tǒng)計軟件SPSS進行回歸分析[J].電腦知識與技術(shù),2008(2):293-294+304.
[8] 楊霞.R語言在大數(shù)據(jù)處理中的應(yīng)用[J].科技資訊,2013(23):19-20.