張春龍
摘 要:目前,計算機(jī)已經(jīng)成為人們生活中必不可少的工具之一,最早使用計算機(jī)的學(xué)科就是統(tǒng)計學(xué)。隨著計算機(jī)的應(yīng)用,大量計算機(jī)分析工具和程序語言被開發(fā)出來,統(tǒng)計分析工具和程序語言在科學(xué)研究中的應(yīng)用已經(jīng)越來越廣泛。文章通過比較常見統(tǒng)計分析工具與R語言在具體應(yīng)用分析中的優(yōu)點(diǎn)與缺點(diǎn),希望能夠?yàn)閺V大科研工作者學(xué)習(xí)和使用提供一些借鑒作用。
關(guān)鍵詞:統(tǒng)計分析 R語言 科學(xué)研究應(yīng)用
中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2017)11(a)-0113-02
在概念方面,統(tǒng)計是指數(shù)據(jù)收集、數(shù)據(jù)分析和由相應(yīng)數(shù)據(jù)得出最終結(jié)論的一組原則和方法。在應(yīng)用方面,統(tǒng)計可以為各個領(lǐng)域服務(wù)(包括科研領(lǐng)域),當(dāng)然,統(tǒng)計與數(shù)據(jù)是密不可分的。因此,計算機(jī)必須用于服務(wù)統(tǒng)計學(xué)分析。隨著“大數(shù)據(jù)”時代的到來,大規(guī)模數(shù)據(jù)分析使得早期的“理論統(tǒng)計”已經(jīng)慢慢淡出了人們的視線。目前,計算機(jī)已經(jīng)成了人們身邊必不可少的工具之一,但最早使用計算機(jī)的學(xué)科就是統(tǒng)計。隨著計算機(jī)的應(yīng)用和普及,大量計算機(jī)分析工具和程序語言被開發(fā)出來,受到了科研工作者的青睞。
1 統(tǒng)計分析工具的應(yīng)用
統(tǒng)計分析工具的開發(fā)使統(tǒng)計被更多的人所接受,在科研工作中亦是如此。多數(shù)科研人員選擇相對簡單的方式來做統(tǒng)計分析,得出相應(yīng)的結(jié)論。例如功能富集分析,臨床科研人員通常會選擇DAVID工具來做功能或通路識別。只需輸入分析數(shù)據(jù),點(diǎn)擊幾下鼠標(biāo),設(shè)定簡單的參數(shù)選項(xiàng),就能得到相應(yīng)的分析結(jié)果。由于操作簡單、無需統(tǒng)計背景和結(jié)果輸出方便等優(yōu)點(diǎn),統(tǒng)計工具在各類科學(xué)研究中頗受喜愛。統(tǒng)計工具的種類很多,有些是針對特定研究方向的分析工具,只處理具體的分析問題。其中,SPSS是一個很受歡迎的統(tǒng)計工具,它具有操作簡易、功能齊全、結(jié)果輸出完善等優(yōu)點(diǎn)[1,2]。該統(tǒng)計工具可以對各種類型的數(shù)據(jù)進(jìn)行常規(guī)的統(tǒng)計分析,對于不具備統(tǒng)計背景知識的科學(xué)研究人員是很好的選擇。另外,Excel作為數(shù)據(jù)表格軟件,也有一定的統(tǒng)計計算功能,包括圖標(biāo)統(tǒng)計和函數(shù)計算功能。但是,Excel的函數(shù)計算只能進(jìn)行簡單的運(yùn)算,例如計算均值和標(biāo)準(zhǔn)差等功能,卻不能進(jìn)行較復(fù)雜的數(shù)據(jù)分析和計算。此外,還有一些具體應(yīng)用方向的統(tǒng)計工具,例如Minitab、Statistica和Eviews等。科研人員也可以根據(jù)不同的分析問題,學(xué)習(xí)和應(yīng)用這些工具來獲得相應(yīng)的統(tǒng)計結(jié)果。
另外,在使用統(tǒng)計分析工具來進(jìn)行運(yùn)算時,不可以完全拋棄統(tǒng)計背景知識。例如,分析數(shù)據(jù)的整理、分析方法的選擇、軟件輸出結(jié)果的理解都需要統(tǒng)計理論知識。這正是科研工作者需要慎重面對和特別注意的,同時,統(tǒng)計分析工具也存在一些問題。首先,分析工具無法得到計算過程的中間結(jié)果,因此無法在算法中插入其他分析過程。其次,統(tǒng)計軟件得出的結(jié)果通常很多,而且,同樣的分析方法下,不同的分析工具輸出的結(jié)果可能還不一樣,同樣的結(jié)果內(nèi)容也會存在差異。對于分析數(shù)據(jù),如果選擇統(tǒng)計工具適合該數(shù)據(jù)的選項(xiàng)全部輸出,那么其中可能包含沒有意義或相關(guān)性很低的結(jié)果。有些結(jié)果即使是相關(guān)領(lǐng)域?qū)<乙膊荒芡耆忉屒宄?/p>
最后,基于統(tǒng)計分析工具,科研人員無法實(shí)現(xiàn)研究方法和計算的創(chuàng)新。目前,創(chuàng)新性是科學(xué)研究的立足之本,也正是現(xiàn)成統(tǒng)計軟件使用過程中需要面對的缺陷。為了解決上述統(tǒng)計軟件存在的問題,只有編程語言才能檢驗(yàn)結(jié)果真實(shí)意義、優(yōu)化分析流程和提高方法的創(chuàng)新性。
2 R語言的應(yīng)用
在眾多編程語言中,許多科學(xué)研究人員使用R語言進(jìn)行各種統(tǒng)計分析。R語言是在20世紀(jì)80年代后期由AT&T實(shí)驗(yàn)室開發(fā)的,完全免費(fèi)、資源公開的語言系統(tǒng)[3,4]。R語言可以在Unix、Window和Macintosh環(huán)境運(yùn)行,具有內(nèi)在的幫助系統(tǒng)、畫圖功能和強(qiáng)大的、容易學(xué)習(xí)的語法,以及許多內(nèi)在統(tǒng)計函數(shù)。因此,R語言基本上可以滿足所有方面科研工作的需求,是一門極容易學(xué)習(xí)的編程語言。不僅是生物信息學(xué)研究人員,臨床醫(yī)學(xué)研究人員也常常運(yùn)用R語言來從事科學(xué)研究。擁有多年編程經(jīng)驗(yàn)的Roger Peng教授曾指出,“R語言已經(jīng)成為統(tǒng)計領(lǐng)域最具人氣的語言選項(xiàng)”。此外,R語言具備可擴(kuò)展能力且擁有豐富的功能選項(xiàng),可以在原有的算法基礎(chǔ)上,研究人員構(gòu)建自己的工具及方法,從而實(shí)現(xiàn)數(shù)據(jù)分析與挖掘。目前,很多機(jī)器學(xué)習(xí)算法以R語言作為主要實(shí)現(xiàn)手段。
同時,R語言也有一定缺點(diǎn):它畫圖結(jié)果輸出不如S-Plus,而且沒有商業(yè)支持。另外,基于R語言無法開發(fā)Web類或者互聯(lián)網(wǎng)應(yīng)用程序。通??蒲腥藛T使用R語言處理分析任務(wù),然后利用JavaScript等其它語言來完成最終結(jié)果的顯示。
3 比較分析
以SPSS為代表比較統(tǒng)計分析工具與R語言在應(yīng)用范圍、適合領(lǐng)域、適合人員、擴(kuò)展性、數(shù)據(jù)的處理、分析方法和靈活性等方面的差異性,結(jié)果如表1所示。
4 結(jié)語
總之,統(tǒng)計分析工具與R語言在處理分析數(shù)據(jù)時具有各自不同的優(yōu)點(diǎn)與缺陷,統(tǒng)計分析工具簡單便捷,R語言更具靈活性。因此,對于不同的科學(xué)研究任務(wù),應(yīng)該選擇合適的工具或編程語言來實(shí)現(xiàn)統(tǒng)計分析。
參考文獻(xiàn)
[1] 姜忠尉.統(tǒng)計分析軟件SPSS的特點(diǎn)和應(yīng)用分析[J].中國證券期貨,2012(4):291.
[2] 鄧建紅.醫(yī)院統(tǒng)計中SPSS軟件的應(yīng)用分析[J].中國民族民間醫(yī)藥,2009,18(9):161-162.
[3] 張哲,張豪.淺談R語言在生物統(tǒng)計學(xué)教學(xué)中的應(yīng)用[J]. 教育教學(xué)論壇,2013(27):54-55.
[4] 奚寧.R語言在統(tǒng)計學(xué)教學(xué)中的運(yùn)用[J].科技資訊,2012 (1):197.endprint