雷萌,李菀茹,張強(qiáng),亓?xí)增?/p>
摘要:為了挖掘高校校園卡系統(tǒng)中數(shù)據(jù)的有效價(jià)值,本文以中國礦業(yè)大學(xué)信電2015屆大學(xué)生為研究對(duì)象,采用皮爾遜相關(guān)分析法和灰色關(guān)聯(lián)分析法分析了其校園卡消費(fèi)信息與學(xué)習(xí)成績的相關(guān)性,并建立了基于多元線性回歸分析法和雙對(duì)數(shù)回歸分析法的擬合模型,可根據(jù)學(xué)生的消費(fèi)情況估測(cè)其學(xué)習(xí)狀態(tài),為高校學(xué)生工作管理部門實(shí)時(shí)掌握學(xué)生的學(xué)習(xí)動(dòng)態(tài)提供了新途徑。
關(guān)鍵詞:數(shù)據(jù)挖掘;校園卡消費(fèi);學(xué)習(xí)成績;相關(guān)分析法;回歸分析法
中圖分類號(hào):G647 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2017)45-0045-03
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)與數(shù)據(jù)庫技術(shù)的不斷發(fā)展,人們已步入一個(gè)信息爆炸的大數(shù)據(jù)時(shí)代,“大數(shù)據(jù)”的概念受到越來越多的關(guān)注。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并在商業(yè)、教育、科研等領(lǐng)域得到了廣泛應(yīng)用。大數(shù)據(jù)具有規(guī)模大、生成速度快、潛在價(jià)值高的特點(diǎn),數(shù)據(jù)挖掘即利用數(shù)據(jù)分析的方法,從海量數(shù)據(jù)中提取有效信息,為用戶決策提供輔助參考,從而實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的過程[1]。近年來,高校數(shù)字信息化程度逐步提高,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校校園卡消費(fèi)系統(tǒng)中,提取學(xué)生刷卡記錄并結(jié)合學(xué)生的消費(fèi)行為、學(xué)習(xí)成績、身心狀況等其他信息進(jìn)行分析,能充分發(fā)揮現(xiàn)有數(shù)據(jù)的作用為決策服務(wù)[2],有效地推動(dòng)高校學(xué)生管理、教學(xué)改革、后勤服務(wù)的發(fā)展。
本研究通過相關(guān)分析法分析了中國礦業(yè)大學(xué)信電2015屆學(xué)生在校四年間的校園卡消費(fèi)信息與學(xué)習(xí)成績的相關(guān)性,并利用回歸分析法建立了二者的回歸模型,為高校學(xué)生管理部門通過學(xué)生的消費(fèi)情況估測(cè)學(xué)生的學(xué)習(xí)狀態(tài)提供了新途徑。
一、研究對(duì)象
本研究以中國礦業(yè)大學(xué)信電學(xué)院2015屆大學(xué)生為研究對(duì)象,采用ACCESS、EXCEL、SPSS等軟件對(duì)其大學(xué)四年的一百多萬條消費(fèi)記錄進(jìn)行了初步的統(tǒng)計(jì)、篩選與分析,結(jié)果如表1、表2所示。
由表1可知,有效樣本為401個(gè),其中男生占比很高,達(dá)到90.3%。消費(fèi)情況中,男生的月平均消費(fèi)金額比女生高9.9%,且消費(fèi)次數(shù)比女生高6.5%,可見男生的校園平均消費(fèi)水平高于女生。
由表2可知,研究對(duì)象在大一、大二、大三的年度消費(fèi)額、消費(fèi)次數(shù)較高,而在大四較低;研究對(duì)象在大一學(xué)年的年度加權(quán)平均分較高,而在大三較低。
二、研究方法
(一)相關(guān)分析法
相關(guān)關(guān)系是指在某種意義下不同變量間所存在的聯(lián)系與規(guī)律,其目的在于探尋數(shù)據(jù)集里所隱藏的相關(guān)關(guān)系網(wǎng)[3]。相關(guān)系數(shù)是一種對(duì)變量線性相關(guān)關(guān)系的強(qiáng)度及方向的測(cè)量,r為樣本相關(guān)系數(shù),x為解釋變量,y為響應(yīng)變量,數(shù)據(jù)用有序數(shù)對(duì)(x,y)表示,則計(jì)算r的公式為:
r=■(1)
本研究主要利用了皮爾遜相關(guān)系數(shù)指標(biāo),計(jì)算了消費(fèi)額、消費(fèi)次數(shù)與加權(quán)平均分的相關(guān)系數(shù)。為了提高結(jié)論的可靠度,輔以灰色關(guān)聯(lián)分析法。灰色關(guān)聯(lián)分析的基本思想是根據(jù)序列曲線幾何形狀的相似或相異程度來衡量其關(guān)聯(lián)是否緊密,曲線越接近即發(fā)展趨勢(shì)越接近,則相應(yīng)序列之間的關(guān)聯(lián)度越大,反之越小[4]。
(二)回歸分析法
回歸分析法是在大量數(shù)據(jù)的基礎(chǔ)上,根據(jù)實(shí)際要求,考察某個(gè)或幾個(gè)變量與其余變量的相互依賴關(guān)系[5],配合直線或者曲線可以確定相應(yīng)的數(shù)學(xué)表達(dá)式。通過對(duì)消費(fèi)金額、消費(fèi)次數(shù)、加權(quán)平均分這幾個(gè)量建立回歸模型,進(jìn)行擬合度檢驗(yàn),得出結(jié)論。
1.多元線性回歸模型。多元線性回歸分析的基本思想是在確定自變量、因變量及二者間的關(guān)系后,通過設(shè)定自變量參數(shù)的回歸方程來預(yù)測(cè)因變量[6]。二元線性回歸方程式為:
■=a+b1*x1+b2*x2(2)
■為因變量估計(jì)值,a、b1、b2為三個(gè)待定參數(shù)。
通過判定系數(shù)和估計(jì)標(biāo)準(zhǔn)誤差這兩個(gè)變量可以判斷模型的擬合優(yōu)度,判定系數(shù)r2的公式如下:
r2=■=■(3)
估計(jì)標(biāo)準(zhǔn)誤差的公式為:
Syx1x2=■
(4)
2.雙對(duì)數(shù)回歸模型。
假設(shè)有如下函數(shù):
Y■=A*X■■(5)
考慮到該模型不適于采用普通最小二乘法進(jìn)行估計(jì),故對(duì)其作如下變化:
lnY■=lnA+B■*lnX■(6)
繼而,如果令B1=lnA,則有:
lnY■=B■+B■*lnX■+u■(7)
以上模型稱為雙對(duì)數(shù)模型,其中u■為估計(jì)誤差。如果將lnY■和lnX■都看作單獨(dú)的變量,可將雙對(duì)數(shù)模型變?yōu)樽兞烤€性模型。
三、結(jié)果與討論
(一)相關(guān)系數(shù)法
1.皮爾遜相關(guān)分析。相關(guān)系數(shù)是定量描述變量之間相關(guān)關(guān)系密切程度的重要統(tǒng)計(jì)指標(biāo),皮爾遜積距相關(guān)系數(shù)在樣本滿足二元高斯分布時(shí)是最佳選擇[7]。本研究采用皮爾遜相關(guān)系數(shù)法得到消費(fèi)額、消費(fèi)次數(shù)與加權(quán)平均分之間的相關(guān)分析結(jié)果,如表3所示。
表3表明,消費(fèi)額、消費(fèi)次數(shù)與加權(quán)平均分的簡單相關(guān)系數(shù)分別為:-0.457、-0.361,即消費(fèi)額、消費(fèi)次數(shù)與加權(quán)平均分之間存在負(fù)向的相關(guān)關(guān)系。相關(guān)系數(shù)的高低排序?yàn)椋合M(fèi)額>消費(fèi)次數(shù)。
2.灰色關(guān)聯(lián)分析。利用SPSS軟件對(duì)各個(gè)指標(biāo)進(jìn)行灰色關(guān)聯(lián)分析,得到消費(fèi)額、消費(fèi)次數(shù)與加權(quán)平均分的灰色關(guān)聯(lián)度分別為:-0.737、-0.785,即消費(fèi)額、消費(fèi)次數(shù)與加權(quán)平均分之間存在負(fù)向的相關(guān)關(guān)系。灰色關(guān)聯(lián)度的高低排序?yàn)椋合M(fèi)次數(shù)>消費(fèi)額。
(二)回歸分析法
1.線性回歸分析。
模型1:被解釋變量為:加權(quán)平均分(s),解釋變量為:消費(fèi)額(m)、消費(fèi)次數(shù)(f)。
模型1的方程:
s=-0.299*m-0.553*f
利用SPSS進(jìn)行模型的擬合優(yōu)度檢驗(yàn),結(jié)果顯示,模型1的復(fù)相關(guān)系數(shù)R=0.409,通常認(rèn)為,R>0.4則說明線性回歸關(guān)系較密切,F(xiàn)檢驗(yàn)的顯著性Sig.值(0.000)<0.05,表明模型1的方程具有一定的可行性。但模型1的調(diào)整R方較小,表明該模型的擬合效果較差。
由上述方程可知,消費(fèi)額、消費(fèi)次數(shù)對(duì)加權(quán)平均分均具有負(fù)向的影響作用,各自的影響系數(shù)分別為:-0.299、-0.553,即研究對(duì)象在上課期間的消費(fèi)額越高、消費(fèi)次數(shù)越多,其四年的加權(quán)平均分將越低。
2.雙對(duì)數(shù)回歸分析。
模型2:被解釋變量為:加權(quán)平均分(s),解釋變量為:消費(fèi)額(m)、消費(fèi)次數(shù)(f)。
模型2的方程:
由模型2的方程知,消費(fèi)額、消費(fèi)次數(shù)對(duì)加權(quán)平均分均具有負(fù)向的影響作用,各自的影響系數(shù)分別為:-0.124、-0.207,結(jié)論同模型1。
利用SPSS進(jìn)行模型的擬合優(yōu)度檢驗(yàn),結(jié)果顯示,模型2的調(diào)整R方的值為:0.593,調(diào)整R方較大,表明該模型的擬合效果較好。擬合優(yōu)度檢驗(yàn)中Durbin-Watson值為1.797,由于Durbin-Watson檢驗(yàn)的判別區(qū)域是以坐標(biāo)點(diǎn)2對(duì)稱的[8],檢驗(yàn)值接近于標(biāo)準(zhǔn)數(shù)值2,表明模型2的殘差序列存在自相關(guān)性的可能性非常低。
由表4知,模型2方程的顯著性F檢驗(yàn)觀測(cè)值為294.662,顯著性對(duì)應(yīng)的概率值Sig.(0.000)<0.05。這表明在0.05的顯著性水平下,顯著性檢驗(yàn)結(jié)果的所有系數(shù)不全為零,即解釋變量對(duì)響應(yīng)變量的聯(lián)合線性影響是顯著的。
由表5可知,各自變量的VIF值均小于最大容忍數(shù)值10,因此模型2的方程是可行的。從影響系數(shù)顯著性檢驗(yàn)結(jié)果來看,消費(fèi)額、消費(fèi)次數(shù)對(duì)加權(quán)平均分的影響系數(shù)顯著性檢驗(yàn)的Sig.值均小于0.05,表明其具有顯著性。
通過回歸分析驗(yàn)證可得,學(xué)生的消費(fèi)額、消費(fèi)次數(shù)與成績具有一定的負(fù)相關(guān)性。此結(jié)論可用于大學(xué)生管理,通過分析學(xué)生在某段時(shí)間的校園卡消費(fèi)記錄,預(yù)測(cè)其學(xué)習(xí)狀態(tài),從而對(duì)學(xué)習(xí)狀態(tài)不佳的學(xué)生進(jìn)行及時(shí)地引導(dǎo)。
四、結(jié)論
本研究順應(yīng)大數(shù)據(jù)時(shí)代的潮流,運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)中國礦業(yè)大學(xué)信電學(xué)院2015屆畢業(yè)生大學(xué)四年的校園卡消費(fèi)數(shù)據(jù)進(jìn)行了分析。從不同的大學(xué)生群體來看,不同性別、不同學(xué)年的大學(xué)生校園卡消費(fèi)金額和消費(fèi)次數(shù)存在差異,反映了大學(xué)生不同的消費(fèi)需求與消費(fèi)心理。從大學(xué)生整體情況來看,通過相關(guān)分析法發(fā)現(xiàn)大學(xué)生的學(xué)習(xí)成績與校園消費(fèi)額呈一定的負(fù)相關(guān)關(guān)系,利用回歸分析法建立二者的多元線性回歸模型和雙對(duì)數(shù)模型,則可根據(jù)模型由學(xué)生消費(fèi)情況估測(cè)其學(xué)習(xí)狀態(tài)。當(dāng)然,隨著高校的發(fā)展,校園卡消費(fèi)系統(tǒng)的數(shù)據(jù)越來越多,海量的數(shù)據(jù)中蘊(yùn)含的信息遠(yuǎn)不止這些,結(jié)合大學(xué)生心理健康和高校規(guī)劃建設(shè)仍有很大的研究前景。本研究對(duì)學(xué)生消費(fèi)記錄與學(xué)習(xí)成績的分析旨在向讀者說明,數(shù)據(jù)挖掘在校園卡系統(tǒng)中的基本應(yīng)用方法,為高校的學(xué)生管理、后勤保障和校園建設(shè)提供參考。
參考文獻(xiàn):
[1]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013,(S2):216-217.
[2]姜楠,許維勝.基于校園一卡通數(shù)據(jù)的學(xué)生消費(fèi)及學(xué)習(xí)行為分析[J].微型電腦應(yīng)用,2015,31(2):35-36.
[3]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657.
[4]孔令號(hào),焦彥軍,戴志輝.基于灰色關(guān)聯(lián)度的站域保護(hù)原理[J].電網(wǎng)技術(shù),2014,38(8):2274-2275.
[5]韓寶燕.回歸分析模型及聚類分析法[J].科技視界,2014,(07):11-12.
[6]王春輝,周生路,吳紹華,吳瀅瀅.基于多元線性回歸模型和灰色關(guān)聯(lián)分析的江蘇省糧食產(chǎn)量預(yù)測(cè)[J].南京師大學(xué)報(bào)(自然科學(xué)版),2014,(4):106.
[7]徐維超.相關(guān)系數(shù)研究綜述[J].廣東工業(yè)大學(xué)學(xué)報(bào),2012,29(3):12-13.
[8]劉明王,永瑜.Durbin-Watson自相關(guān)檢驗(yàn)應(yīng)用問題探討[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2014,(06):153-160.