徐鋒 蔣遠(yuǎn)營
摘 ?要:在統(tǒng)計(jì)學(xué)類專業(yè)的教學(xué)中常常涉及多個(gè)軟件,導(dǎo)致學(xué)生們把精力分散到多個(gè)軟件的學(xué)習(xí)中,而沒有真正掌握好一款軟件。文章分析目前市場上各種統(tǒng)計(jì)軟件的優(yōu)缺點(diǎn),介紹R語言的特點(diǎn),并結(jié)合例子探討其在教學(xué)中的優(yōu)勢。在統(tǒng)計(jì)學(xué)專業(yè)的教學(xué)中結(jié)合R語言,能夠更好地滿足社會需求將學(xué)生培養(yǎng)為綜合性和應(yīng)用型的人才。
關(guān)鍵詞:R語言;統(tǒng)計(jì)軟件;教學(xué)
中圖分類號:G642 ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? ? ? ?文章編號:2096-000X(2022)13-0010-04
Abstract: In the teaching of the major of Statistics, many softwares are often involved, which lead students to disperse their energy into the study of many softwares without really being good at a software. By analyzing the advantages and disadvantages of various statistical software in the current market, this paper introduces the characteristics of R language, and discusses its advantages in teaching with examples. Integrating R language into the teaching of Statistics can better meet the needs of society and train students into comprehensive and applied talents.
Keywords: R language; statistical software; teaching
一、統(tǒng)計(jì)學(xué)類專業(yè)教學(xué)中軟件使用的基本情況
如今是大數(shù)據(jù)時(shí)代,各行各業(yè)無不都在分析和應(yīng)用數(shù)據(jù)來管理和運(yùn)行自己的公司。數(shù)據(jù)的分析和應(yīng)用與統(tǒng)計(jì)學(xué)專業(yè)有著密不可分的聯(lián)系。隨著計(jì)算機(jī)的普及和統(tǒng)計(jì)軟件的廣泛使用,了解和運(yùn)用統(tǒng)計(jì)學(xué)知識的人也越來越多。為了適應(yīng)時(shí)代的發(fā)展,迎接大數(shù)據(jù)時(shí)代,抓住時(shí)代所給的機(jī)遇。2011年,國務(wù)院學(xué)位委員會和教育部批準(zhǔn)印發(fā)了《學(xué)位授予和人才培養(yǎng)學(xué)科目錄(2011年)》。新目錄將統(tǒng)計(jì)學(xué)由原來的經(jīng)濟(jì)學(xué)二級學(xué)科調(diào)整為理學(xué)的一級學(xué)科,并可授予經(jīng)濟(jì)學(xué)和理學(xué)學(xué)位[1]。這意味著統(tǒng)計(jì)學(xué)在時(shí)代的發(fā)展中有著舉足輕重的地位。統(tǒng)計(jì)學(xué)專業(yè)是培養(yǎng)數(shù)據(jù)分析人才的基本單元,統(tǒng)計(jì)軟件是提升學(xué)生實(shí)踐能力的有效載體[2]。統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生想要提升數(shù)據(jù)分析能力,滿足市場的需求,掌握一款統(tǒng)計(jì)軟件是最基本的要求。然而由于市場上統(tǒng)計(jì)軟件多樣化,授課老師往往根據(jù)自己的喜好或者根據(jù)教材使用的統(tǒng)計(jì)軟件而選擇相應(yīng)的統(tǒng)計(jì)軟件,導(dǎo)致每門課使用不同的統(tǒng)計(jì)軟件。例如,計(jì)量經(jīng)濟(jì)學(xué)課程一般采用Eviews;回歸分析課程一般采用SPSS;涉及到矩陣或數(shù)學(xué)建模的課程一般采用Matlab。當(dāng)然,不同的課程采用不同的軟件也是由于不同軟件自身適合各自課程的特點(diǎn)導(dǎo)致的。但是過多的軟件導(dǎo)致學(xué)生花費(fèi)大量的精力學(xué)習(xí)多種軟件,而往往又沒有真正地掌握好一款統(tǒng)計(jì)軟件。山西財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院的調(diào)查也證明了這一點(diǎn)。同學(xué)們普遍認(rèn)為粗淺的學(xué)習(xí)多個(gè)統(tǒng)計(jì)軟件太分散精力,倒不如精通一款統(tǒng)計(jì)軟件[2]。在目前的統(tǒng)計(jì)學(xué)專業(yè)的教學(xué)體系中,如何做到在不影響專業(yè)課教學(xué)任務(wù)和效果的基礎(chǔ)上,讓學(xué)生把分散到多個(gè)軟件的精力集中到一款軟件的學(xué)習(xí)中就顯得特別重要。如何在眾多的統(tǒng)計(jì)軟件中選擇一兩款合適教學(xué)的統(tǒng)計(jì)軟件是統(tǒng)計(jì)學(xué)類專業(yè)面臨的一項(xiàng)新課題。
二、統(tǒng)計(jì)學(xué)類專業(yè)教學(xué)中軟件的選擇
目前市場上能進(jìn)行數(shù)據(jù)分析的軟件很多。例如,收費(fèi)的軟件有SAS、SPSS、Matlab、Stata、Eviews等。開源免費(fèi)的軟件有R語言和Python等。SAS是一款標(biāo)準(zhǔn)的商業(yè)軟件,統(tǒng)計(jì)功能完善,社會上也有比較認(rèn)可的考級證書。但是其體積龐大,費(fèi)用較高,升級頻繁,命令較多,編程困難。Matlab是數(shù)值計(jì)算和圖像處理的首選,它的矩陣運(yùn)算能力強(qiáng),但是它的統(tǒng)計(jì)方法有限,需要編程,費(fèi)用也較高。SPSS是一款非統(tǒng)計(jì)人員使用的軟件,主要是因?yàn)樗哂胁藛问降拿睿芏嘟?jīng)典的方法通過點(diǎn)擊鼠標(biāo)即可得出結(jié)果。人文社科類的工作者比較常用。然而,其優(yōu)點(diǎn)也是其缺點(diǎn),一旦涉及工作者自己提出的方法就需要進(jìn)行編程,并且這種編程極其困難。其他非編程類的軟件也都有類似的缺點(diǎn)。后起之秀的R語言和Python由于開源、免費(fèi)的緣故,在世界編程語言排行榜中一路飆升。目前各大公司招聘的數(shù)據(jù)分析崗位都會要求熟悉R語言或Python。TIOBE公布的2020年7月份編程語言排行榜中R語言排名第8,這說明社會對R語言的認(rèn)可和需求。
教學(xué)目的之一也是為了學(xué)生能夠適應(yīng)和滿足社會需求。因此為了讓分散到多個(gè)軟件的精力集中到一個(gè)統(tǒng)計(jì)軟件的學(xué)習(xí)上,在眾多的軟件中選擇一款好的統(tǒng)計(jì)軟件就變得尤為重要。當(dāng)前教學(xué)中常用軟件的優(yōu)缺點(diǎn)見表1。從表1中可以看出,R語言是一款優(yōu)秀的軟件。隨著人們對知識產(chǎn)權(quán)的保護(hù)意識不斷提高,開放源代碼逐漸開始形成一種市場,而R語言也正是在這樣的背景下不斷發(fā)展的,也漸漸正成為數(shù)據(jù)分析中相當(dāng)標(biāo)準(zhǔn)的統(tǒng)計(jì)軟件[3-4]。R語言軟件不僅在社會上的影響力逐漸提升,它自身的特點(diǎn)在統(tǒng)計(jì)學(xué)類專業(yè)的教學(xué)中也具有非常大的優(yōu)勢,在很多高校的教學(xué)中逐漸被重視。
(一)R語言軟件的特點(diǎn)
R語言是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件,它是集統(tǒng)計(jì)計(jì)算、數(shù)據(jù)分析與統(tǒng)計(jì)制圖為一體的統(tǒng)計(jì)軟件[5]。具體有如下的一些特點(diǎn)。
1. 免費(fèi)、開源。R的開源性使得它自從20世紀(jì)90年代被開發(fā)出來至今,其發(fā)展就一直沒有間斷過。它是完全免費(fèi)的,并且源代碼是開放的,托管在GitHub上。
2. 擴(kuò)展性強(qiáng)、更新快。這里的擴(kuò)展性是指R有著豐富的包,可以隨時(shí)安裝和調(diào)用貢獻(xiàn)者發(fā)布的R鏡像里的包,并且這些包的源代碼絕大部分都是公開的,鏡像上的每一個(gè)包都有相應(yīng)的使用說明文檔,方便學(xué)生查看和使用。R的擴(kuò)展包更新極快,它來自全球的科研和數(shù)據(jù)分析工作者的貢獻(xiàn)。
3. 可編程、入門快。R語言是一款編程語言,入門簡單??删幊痰奶攸c(diǎn)使其可以實(shí)現(xiàn)自己提出的新方法,改進(jìn)存在的方法。其入門比較簡單,很多命令都是利用統(tǒng)計(jì)方法的名字來命名的,例如t檢驗(yàn)的函數(shù)為t.test()、kmeans聚類的函數(shù)為kmeans()。
4. 制圖功能強(qiáng)。R語言的制圖能力是極高的,特別是R中的ggplot2擴(kuò)展包。很多軟件都借鑒ggplot2的思想。R語言強(qiáng)大的繪圖能力有助于將數(shù)據(jù)進(jìn)行可視化,方便學(xué)生理解數(shù)據(jù)和分析數(shù)據(jù)。R語言軟件也可以繪制動態(tài)的網(wǎng)頁圖,為結(jié)果匯報(bào)錦上添花。
5. 交互性強(qiáng)。R語言的shiny包可以實(shí)現(xiàn)網(wǎng)頁交互功能。該功能在數(shù)據(jù)分析完之后進(jìn)行匯報(bào)時(shí)特別有用。它不需要知道HTML、Javascript等網(wǎng)頁語言即可構(gòu)造自己的交互功能。另外,還有一些Rnotebook、Rmarkdown等可生產(chǎn)分析報(bào)告,也可以生成實(shí)時(shí)的演示文檔,教師可以一邊講解,一邊演示代碼。讓學(xué)生能及時(shí)地獲取到數(shù)據(jù)分析的結(jié)果。
(二)R語言在教學(xué)中的優(yōu)勢
數(shù)據(jù)分析的過程大概可以分為以下五個(gè)階段:收集數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、展示數(shù)據(jù)和報(bào)告撰寫。統(tǒng)計(jì)學(xué)的教學(xué)工作也大致是按照這五個(gè)步驟相應(yīng)展開[6]。在R語言還沒被大家所熟知的早些年,大部分的教師都選擇自己的偏好軟件進(jìn)行教學(xué)。各式各樣的軟件在數(shù)據(jù)分析的整個(gè)過程都或多或少有一些不如意的地方,不像R語言這樣能包攬數(shù)據(jù)分析的整個(gè)過程(從數(shù)據(jù)收集到最后的報(bào)告撰寫)。R語言不僅是數(shù)據(jù)分析的利劍,對教學(xué)工作也極具優(yōu)勢。
在教學(xué)中,教師不僅僅只是教授理論知識,關(guān)鍵的是能將理論知識運(yùn)用到實(shí)際案例中去。R語言在這方面就表現(xiàn)很優(yōu)秀。首先,從基礎(chǔ)條件上來看,R語言的開源、免費(fèi)能使得學(xué)生使用正版的軟件,保證統(tǒng)計(jì)分析的標(biāo)準(zhǔn)性。小巧的軟件方便安裝和攜帶,也方便了教師在更換教學(xué)場地的時(shí)候能夠立馬安裝進(jìn)行代碼演示。其次,R語言強(qiáng)大的繪圖功能能夠?qū)?shù)據(jù)進(jìn)行可視化,更加直觀地展示給學(xué)生,使抽象的理論變得形象化,方便學(xué)生理解。再次,結(jié)合R語言是一款編程語言的特點(diǎn),在講授理論知識的時(shí)候可以利用R語言自己編寫統(tǒng)計(jì)方法的代碼,結(jié)合案例分析,進(jìn)一步地體會統(tǒng)計(jì)方法背后的思想,并且代碼簡潔。這一點(diǎn)在如今的大數(shù)據(jù)時(shí)代顯得尤為重要,不僅讓學(xué)生掌握了統(tǒng)計(jì)方法,也鍛煉了學(xué)生的編程能力,在今后的數(shù)據(jù)處理中能夠?qū)崿F(xiàn)自己的想法并改進(jìn)存在的方法。最后,R語言也能寫成動態(tài)的報(bào)告,最大限度地進(jìn)行數(shù)據(jù)分析的可視化,增加學(xué)生的積極性。另外,R語言的開放性給數(shù)據(jù)分析帶來更多的可能性,R鏡像上的擴(kuò)展包包含了成千上萬種方法,并且持續(xù)地更新,這能夠刺激學(xué)生想進(jìn)一步了解統(tǒng)計(jì)方法的欲望和拓展統(tǒng)計(jì)學(xué)的前沿知識。
總之,R語言在教學(xué)中能夠很好地將理論知識、案例分析與統(tǒng)計(jì)軟件有效地結(jié)合起來。此外,R語言的可視化報(bào)告展示能夠增加學(xué)生學(xué)習(xí)理論知識的積極性,最大限度地調(diào)動學(xué)生的主觀性,以軟件促進(jìn)理論學(xué)習(xí),能獲得最優(yōu)的學(xué)習(xí)效果,將來學(xué)生也能滿足社會對數(shù)據(jù)分析的要求。
三、R語言用于統(tǒng)計(jì)學(xué)類專業(yè)教學(xué)的案例
統(tǒng)計(jì)相關(guān)性是一個(gè)重要的概念,如今大數(shù)據(jù)時(shí)代很多統(tǒng)計(jì)都不再追求因果性而是尋求兩者之間的相關(guān)關(guān)系。皮爾遜相關(guān)系數(shù)是最基本也是最重要的指標(biāo)之一。在R語言中可以利用cor(x,y)函數(shù)直接得出兩者的皮爾遜相關(guān)系數(shù)值。然而在教學(xué)中,我們可以根據(jù)公式先自己編寫函數(shù)來求解相關(guān)系數(shù)。假設(shè)有一組數(shù)據(jù)身高(x)和體重(y),其具體數(shù)值如下:
從上述可知,R語言代碼簡潔,不會因?yàn)檐浖枰幊潭绊懤碚撝R的講解。最后,R 語言可視化可以展示模型擬合的效果,進(jìn)一步幫助學(xué)生理解回歸模型,如圖1所示。從圖中可以看出,數(shù)據(jù)大致分布在擬合線周圍,說明模型擬合的較好。相關(guān)代碼如下:
上面的例子是回歸分析中最簡單的一元線性模型,但在教學(xué)中結(jié)合R語言能夠體現(xiàn)出多個(gè)優(yōu)勢。第一,編寫了函數(shù),加強(qiáng)學(xué)生對軟件的使用;第二,通過編程公式加深對理論知識的理解;第三,模型檢驗(yàn)的代碼簡單方便,不會因?yàn)榫幊誊浖氖褂枚绊懤碚撝R的講解;第四,模型擬合的可視化能夠幫助學(xué)生進(jìn)一步地理解回歸模型。
四、結(jié)束語
當(dāng)今在統(tǒng)計(jì)學(xué)類專業(yè)教學(xué)中涉及多個(gè)軟件,常常會分散學(xué)生的精力,導(dǎo)致學(xué)生沒能掌握、熟練用好其中的一款軟件。而掌握好一款統(tǒng)計(jì)軟件又是每一個(gè)統(tǒng)計(jì)學(xué)專業(yè)學(xué)生的重要任務(wù)。隨著信息存儲和檢索技術(shù)的進(jìn)步,想要從海量的數(shù)據(jù)中獲取價(jià)值就不得不借助一些統(tǒng)計(jì)軟件來實(shí)現(xiàn),這使得統(tǒng)計(jì)學(xué)類的學(xué)生不得不掌握好統(tǒng)計(jì)軟件的使用。R語言的免費(fèi)、開源、入門簡單等優(yōu)點(diǎn),使得其在教學(xué)中具有極大的優(yōu)勢:第一,通過編程加深對理論知識的理解;第二,代碼簡單不影響教師對理論知識的講解;第三,強(qiáng)大的可視化幫助學(xué)生進(jìn)一步地理解理論知識;第四,編程的過程中加強(qiáng)軟件的使用,滿足社會的需求。在教學(xué)過程中補(bǔ)充R語言內(nèi)容,可以從根本上提高教學(xué)的質(zhì)量,培養(yǎng)學(xué)生的數(shù)據(jù)分析能力,從而使其適應(yīng)社會的需求,成為綜合性和應(yīng)用型的人才。
參考文獻(xiàn):
[1]李曼.統(tǒng)計(jì)學(xué)調(diào)整為一級學(xué)科后人才培養(yǎng)目標(biāo)和模式改革研究[J].教育教學(xué)論壇,2014(11):43-44.
[2]朱波,劉曉艷.R語言融入統(tǒng)計(jì)專業(yè)課程教學(xué)的探索與實(shí)踐——以山西財(cái)經(jīng)大學(xué)為例[J].教育教學(xué)論壇,2020(12):210-211.
[3]張哲,張豪.淺談R語言在生物統(tǒng)計(jì)學(xué)教學(xué)中的應(yīng)用[J].教育教學(xué)論壇,2013(27):54-55.
[4]奚寧.R語言在統(tǒng)計(jì)學(xué)教學(xué)中的運(yùn)用[J].科技資訊,2012(1):197.
[5]王斌會.多元統(tǒng)計(jì)分析及R語言建模[M].廣州:暨南大學(xué)出版社,2010.
[6]李雄英.基于R語言的統(tǒng)計(jì)教學(xué)應(yīng)用初探[J].高教學(xué)刊,2017(1):50-51.