程曉燕,趙有益,武若飛,馬 鈺,黎 虹
(甘肅農(nóng)業(yè)大學(xué) 理學(xué)院,甘肅 蘭州 730070)
《SAS及其應(yīng)用》是本校應(yīng)用統(tǒng)計學(xué)專業(yè)開設(shè)的一門專業(yè)核心課程,主要內(nèi)容包括SAS編程基礎(chǔ)和數(shù)據(jù)預(yù)處理、利用SAS進(jìn)行描述統(tǒng)計分析、利用SAS進(jìn)行參數(shù)統(tǒng)計推斷和非參數(shù)統(tǒng)計推斷分析、利用數(shù)據(jù)之間的統(tǒng)計關(guān)系通過SAS建立方程模型等.本?!禨AS及其應(yīng)用》課程在理論教學(xué)和實踐教學(xué)學(xué)時(32+16)分配中,占有較大的比例.《SAS及其應(yīng)用》課程的開設(shè)為應(yīng)用統(tǒng)計學(xué)專業(yè)學(xué)生在政府、銀行、航空、保險、精算、電子商務(wù)等部門從事數(shù)據(jù)分析等相關(guān)工作打下了堅實的基礎(chǔ).
SAS(Statistics Analysis System)軟件以其高效、快捷、可靠等特點在眾多統(tǒng)計分析軟件中脫穎而出,是目前全球最流行的數(shù)學(xué)統(tǒng)計軟件之一[1].SAS軟件是模塊集成化的大型應(yīng)用軟件,有訪問數(shù)據(jù)、管理儲存數(shù)據(jù)、處理圖形、開發(fā)應(yīng)用、分析數(shù)據(jù)等方面的強大功能,應(yīng)用范圍廣泛,操作容易上手,編程語句簡潔,通常只需短小的語句即可完成一些復(fù)雜的運算和擬合[2].SAS軟件的分析功能強大,統(tǒng)計方法新穎,分析問題準(zhǔn)確度高.軟件實現(xiàn)了從基本統(tǒng)計數(shù)量的計算到各種各樣試驗設(shè)計因子的方差分析、相關(guān)分析及回歸分析、多變量之間分析、模型擬合等分析.
數(shù)學(xué)建模是一種通過將現(xiàn)實問題轉(zhuǎn)化為數(shù)學(xué)問題,運用數(shù)學(xué)的抽象性和準(zhǔn)確性,深入研究問題的本質(zhì)規(guī)律和特征,得出解決實際問題的有效方法和策略[3].數(shù)學(xué)建模是培養(yǎng)大學(xué)生應(yīng)用能力、創(chuàng)新能力和實踐能力的一個重要途徑和有效載體[4].研究表明,有競賽經(jīng)驗的大學(xué)生創(chuàng)新能力強于沒有競賽經(jīng)驗的大學(xué)生.參加數(shù)學(xué)建模競賽獲獎的大學(xué)生,尤其是國家級獎項獲得者創(chuàng)新能力水平高于未參加競賽的大學(xué)生創(chuàng)新能力水平[5].大數(shù)據(jù)時代背景下,數(shù)學(xué)建模中任何割裂分析問題能力與數(shù)據(jù)執(zhí)行能力聯(lián)系的做法已經(jīng)無法應(yīng)對大數(shù)據(jù)對數(shù)學(xué)建模能力提出的挑戰(zhàn).因此,軟件的應(yīng)用和編程是必然的應(yīng)對選擇[6].SAS軟件在數(shù)學(xué)建模中可用于模型的擬合、求解、檢驗和圖表的繪制[7].SAS以一個通用的數(shù)據(jù)步(DATA步)產(chǎn)生數(shù)據(jù)集,然后調(diào)用不同的過程(PROC步)完成數(shù)據(jù)分析.《SAS及其應(yīng)用》課程在數(shù)學(xué)建模中的作用至關(guān)重要,已成為不可或缺的機(jī)器學(xué)習(xí)課程.
本文以2021年和2022年全國大學(xué)生數(shù)學(xué)建模競賽題為背景,運用SAS軟件進(jìn)行分析和解決問題,展示SAS統(tǒng)計軟件在數(shù)值分析、繪圖、建立方程模型等方面的優(yōu)勢,體現(xiàn)《SAS及其應(yīng)用》在數(shù)學(xué)建模過程中的重要作用,為培養(yǎng)大學(xué)生利用SAS軟件和相關(guān)統(tǒng)計知識解決實際問題的能力、創(chuàng)新能力和實踐能力提供參考.
2021年全國大學(xué)生數(shù)學(xué)建模競賽B題:
乙醇制備過程中,催化劑組合(即:Co負(fù)載量、Co/SiO2和HAP裝料比、乙醇濃度的組合)和溫度都會對C4烯烴的選擇性及C4烯烴收率產(chǎn)生影響.研究分析乙醇催化偶合制備C4烯烴的工藝條件有著很重要的價值.因此,需要建模解決不同催化劑的組合下,乙醇轉(zhuǎn)化率、C4烯烴的選擇性分別與溫度的關(guān)系;探討給定溫度時不同的催化劑組合在不同的時間下的結(jié)果;選擇催化劑組合與溫度,使得在相同實驗條件下C4烯烴收率盡可能高.
2022年全國大學(xué)生數(shù)學(xué)建模競賽C題:
風(fēng)化是文物發(fā)掘和保護(hù)過程中最大的難題.由于空氣中各種氧化類物質(zhì)的存在,出土的文物必然受到自然界中各種不利因素的破壞.玻璃是絲綢之路早期貿(mào)易往來的寶貴物證,但古代玻璃極易受埋藏環(huán)境的影響而風(fēng)化,在風(fēng)化過程中,內(nèi)部元素與環(huán)境元素進(jìn)行大量交換,導(dǎo)致其成分比例發(fā)生變化,從而影響對其類別的正確判斷.因此,需建立相關(guān)數(shù)學(xué)模型,對玻璃文物的類型,紋飾和顏色進(jìn)行對比分析,由玻璃的類型分析化學(xué)成分含量的規(guī)律及所給數(shù)據(jù)預(yù)測文物風(fēng)化前的化學(xué)成分含量,并對其敏感性和合理性進(jìn)行合理分析.
由于SAS軟件不能直接識別題目中所提供的Excel數(shù)據(jù)文件,因此需要建立SAS數(shù)據(jù)集.其具體方法是通過SAS軟件菜單欄里‘file’的下拉菜單中‘Import Data’導(dǎo)入數(shù)據(jù)并保存為SAS數(shù)據(jù)集sasuser.model1和sasuser.model2,生成SAS數(shù)據(jù)文件.
2.2.1 SAS軟件繪圖
作為一種數(shù)據(jù)分析的簡單有效工具,統(tǒng)計圖形能直觀顯示數(shù)據(jù)信息和結(jié)構(gòu).
(1)繪制散點圖
散點圖主要用于考察兩個變量之間的關(guān)系.針對2021年全國大學(xué)生數(shù)學(xué)建模競賽B題,建立關(guān)于不同催化劑組合下,乙醇轉(zhuǎn)化率、C4烯烴的選擇性分別與溫度的關(guān)系和給定溫度時不同的催化劑組合在不同時間下的模型.利用SAS程序“proc gplot data=sasuser.model1; plot(乙醇轉(zhuǎn)化率C4烯烴選擇性)*溫度;run;”和“proc gplot data=sasuser.model1;plot(C4烯烴選擇性、乙烯選擇性、乙醛選擇性、乙醇轉(zhuǎn)化率、碳數(shù)4-12脂肪醇選擇性、甲基苯甲醛和甲基苯甲醇)*時間;run;”繪制出乙醇轉(zhuǎn)化率、C4烯烴的選擇性與溫度和給定溫度時不同的催化劑組合在不同時間下的散點圖(圖1-圖4).
圖1 溫度與乙醇轉(zhuǎn)化率(%)和 C4烯烴選擇性的EXPDEC2擬合及EXPDEC2擬合
圖2 時間與C4烯烴選擇性和乙烯選擇性的SINE擬合及LOGISTIC擬合
圖3 時間與乙醛選擇性和乙醇轉(zhuǎn)化率的LOGISTIC擬合及EXPDEC2擬合
圖4 時間與碳數(shù)為4-12脂肪醇選擇性和甲基苯甲醛和甲基苯甲醇的LOGISTIC擬合及GAUSS擬合
(2)繪制直方圖
直方圖用于顯示變量取值的頻數(shù)分布.針對2022年全國大學(xué)生數(shù)學(xué)建模競賽C題,首先利用SAS程序“proc corr data=sasuser.model2 spearman kendall hoeffding; var變量名;run;”分析表面無風(fēng)化與其玻璃類型、紋飾和顏色的相關(guān)關(guān)系.再通過“proc univariate data=sasuser.model2; histogram分化玻璃所含成分;run;”繪制無分化玻璃所含成分的直方圖(圖5-圖6).
以生活中的實例作為思考,讓學(xué)生認(rèn)識到數(shù)學(xué)來源于生活并應(yīng)用于生活,生活中處處有數(shù)學(xué).教學(xué)中本著以學(xué)生發(fā)展為本的理念,通過學(xué)生合作探究、展示方法、共享成果、體驗樂趣,發(fā)展學(xué)生的數(shù)學(xué)觀察能力,培養(yǎng)學(xué)生思維的發(fā)散性和嚴(yán)謹(jǐn)性.
2.2.2 SAS軟件擬合模型表達(dá)式
(1)非線性回歸模型
根據(jù)所繪制的散點圖可以明顯看出,隨著溫度的上升,乙醇轉(zhuǎn)化率和C4烯烴的選擇性也明顯以非線性趨勢上升.隨著時間的推移,C4烯烴選擇性、乙烯選擇性、乙醛選擇性、乙醇轉(zhuǎn)化率、碳數(shù)為4-12脂肪醇選擇性和甲基苯甲醛和甲基苯甲醇分別呈現(xiàn)正弦函數(shù)圖像變化、生物生長趨勢變化和高斯函數(shù)圖像變化.因此,選擇過程名nlin和過程選項data=sasuser.model1,method=marquardt,convergeparm=1e-8,converge=1e-8,alpha=0.05及以下模型:
擬合乙醇轉(zhuǎn)化率和C4烯烴的選擇性隨著溫度變化的趨勢(圖1)以及在給定溫度350 ℃度條件下,C4烯烴選擇性、乙烯選擇性、乙醛選擇性、乙醇的轉(zhuǎn)化率、碳數(shù)為4-12脂肪醇、甲基苯甲醛和甲基苯甲醇隨時間變化的趨勢(圖2-圖4).
(2)概率模型
根據(jù)所繪制的直方圖,發(fā)現(xiàn)無分化玻璃所含成分符合正態(tài)分布、指數(shù)分布、對數(shù)正態(tài)分布和韋布爾分布,故選擇程序“proc univariate data=sasuser.model2;var分析數(shù)據(jù)的變量;histogram / normal(mu=est sigma=est)lognormal(zeta=est sigma=est theta=est)exponential(sigma=est theta=est)weibull(sigma=est c=est theta=est);run;”建立文物表面有無風(fēng)化化學(xué)成分含量的模型并對風(fēng)化點檢測數(shù)據(jù)進(jìn)行了風(fēng)化前化學(xué)成分含量的預(yù)測(圖5-圖6).
圖5 高鉀無分化玻璃二氧化硅和氧化鉀含量分布圖
圖6 鉛鋇無分化玻璃氧化鉛和氧化鈣含量分布圖
從整理數(shù)據(jù)提升到方法強化,由軟件程序延伸到數(shù)學(xué)模型,變“知識本位”為“學(xué)生本位”,提高學(xué)生的模型識別的能力,培養(yǎng)學(xué)生思維的深刻性和靈活性,使《SAS及其應(yīng)用》的學(xué)習(xí)成為提高學(xué)生數(shù)學(xué)素養(yǎng)的有效途徑.
2.2.3 SAS軟件檢驗?zāi)P惋@著性
(1)判定系數(shù)檢驗法
判定系數(shù)是表示一個隨機(jī)變量與多個隨機(jī)變量關(guān)系的數(shù)字特征,用來反映回歸模型中因變量變化可靠程度的一個統(tǒng)計指標(biāo),一般用符號“R2”表示.通過程序“proc nlin data=sasuser.model1 plot=fit;parms alpha1=6 beta1=20 beta2=-2,alpha2=1 beta3=0.02;model因變量=模型表達(dá)式;run;”運行結(jié)果發(fā)現(xiàn),乙醇轉(zhuǎn)化率、C4烯烴的選擇性與溫度的EXPDEC2模型的判定系數(shù)分別為R2=0.99664和R2=0.99775.給定溫度時,C4烯烴選擇性、乙烯選擇性、乙醛選擇性、乙醇的轉(zhuǎn)化率、碳數(shù)為4-12脂肪醇、甲基苯甲醛和甲基苯甲醇隨時間變化的SINE、LOGISTIC、LOGISTIC、EXPDEC2、LOGISTIC、GAUSS模型的判定系數(shù)為R2=0.73552,R2=0.97071,R2=0.99623,R2=0.97072,R2=0.98296,R2=0.86036,R2均大于0.5,擬合效果顯著.
(2)偏差檢驗法
在顯著性水平0.05下,模型均通過程序“proc univariate data=sasuser.model2;var分析數(shù)據(jù)的變量;histogram/noplot normal(mu=est sigma=est)lognormal(zeta=est sigma=est theta=est)exponential(sigma=est theta=est)weibull(sigma=est c=est theta=est);ods select goodnessoffit;run;”實現(xiàn)Kolmogorov-Smirnov,Cramer-von Mises和Anderson-Darling檢驗,并通過
模型得到了對應(yīng)的預(yù)測值(見表1,表2),預(yù)測值和實測值之間的偏差均小于10%,模型擬合效果顯著.
表1 高鉀無風(fēng)化玻璃二氧化硅氧化鉀實測實值和預(yù)測值
表2 鉛鋇無風(fēng)化氧化鉛和氧化鈣實測實值和預(yù)測值
教學(xué)中本著以學(xué)生發(fā)展為本的理念,引導(dǎo)學(xué)生主動參與、積極探索,培養(yǎng)學(xué)生的數(shù)學(xué)應(yīng)用意識和實踐能力.讓學(xué)生利用現(xiàn)實生活學(xué)數(shù)學(xué),同時把學(xué)到的數(shù)學(xué)知識運用到現(xiàn)實生活中去,真正體現(xiàn)數(shù)學(xué)知識源于生活,而最終服務(wù)于生活.
通過《SAS及其應(yīng)用》在以上兩個數(shù)學(xué)建模中的應(yīng)用發(fā)現(xiàn),一是深刻體現(xiàn)了SAS統(tǒng)計分析軟件在數(shù)學(xué)建模過程中重要的作用.實際上,在已有明確的解題思路的情況下,SAS統(tǒng)計分析軟件可高效完成高強度的運算和高精度的擬合;在沒有相關(guān)思路和方法的情況下,SAS統(tǒng)計分析軟件可以通過直觀的圖形輔助引導(dǎo)建模進(jìn)一步實施,尋找最優(yōu)的建模思路和方法.二是實現(xiàn)了理論教學(xué)與實際問題的融合、軟件方法與數(shù)學(xué)知識的融合、課內(nèi)教學(xué)與課外實踐的融合.三是清晰明了的運行結(jié)果增強了學(xué)生對SAS程序的深刻理解,建模全過程的成功體驗加深了建模過程的記憶,全面提升課堂教學(xué)的廣度、深度和效度.四是激發(fā)了學(xué)生學(xué)習(xí)《SAS及其應(yīng)用》課程的積極性和主動性,鼓勵學(xué)生大膽嘗試、勇于探索、敢于創(chuàng)新,磨練思維品質(zhì).總之,《SAS及其應(yīng)用》課程在數(shù)學(xué)建模中的應(yīng)用,提高了學(xué)生解決實際問題的能力,順應(yīng)了就業(yè)市場的需求,有助于促進(jìn)大學(xué)生成為當(dāng)代社會所需要的應(yīng)用型人才.