張洋瑞 霍光
[摘要]隨著數(shù)字化校園建設(shè)的日益深入,一卡通已成為大學(xué)生不可或缺的生活必需品,它記錄了包括學(xué)習(xí)、生活、消費(fèi)等信息在內(nèi)的海量的學(xué)生數(shù)據(jù)。對(duì)這些數(shù)據(jù)進(jìn)行挖掘和分析,不但可以有效掌握大學(xué)生的在校行為,還能夠通過(guò)構(gòu)建行為分析模型對(duì)大學(xué)生成績(jī)進(jìn)行預(yù)測(cè),為教學(xué)部門(mén)、學(xué)工部門(mén)進(jìn)行差異化教學(xué)和管理提供數(shù)據(jù)支持和決策依據(jù),為教輔部門(mén)更好的為學(xué)生服務(wù)提供改進(jìn)方向。
[關(guān)鍵詞]數(shù)字化校園 校園一卡通
隨著互聯(lián)網(wǎng)應(yīng)用的普及和各高校規(guī)模的擴(kuò)大,各大高校都已經(jīng)初步建成了包括人事、教學(xué)、財(cái)務(wù)、學(xué)工、后勤、招生、一卡通等功能相對(duì)完善的數(shù)字化管理系統(tǒng)。借助這些系統(tǒng),學(xué)校管理人員能夠快捷、高效地對(duì)學(xué)生的學(xué)習(xí)與生活進(jìn)行了解和管理。
作為應(yīng)用最為廣泛的“校園一卡通”系統(tǒng),大部分高校管理人員僅僅關(guān)注了系統(tǒng)所實(shí)現(xiàn)的功能,去忽視了系統(tǒng)內(nèi)部所存儲(chǔ)的學(xué)生信息數(shù)據(jù)。事實(shí)上,“校園一卡通”是集數(shù)據(jù)共享、身份認(rèn)證、金融消費(fèi)等多項(xiàng)功能于一體的信息集成系統(tǒng)。“一卡通”在為師生提供優(yōu)質(zhì)、高效信息化服務(wù)的同時(shí),系統(tǒng)自身也積淀了千萬(wàn)條流水記錄,其中包含有圖書(shū)借閱、上課出勤、食堂消費(fèi)、體育健身等學(xué)生行為記錄,透過(guò)這些記錄學(xué)??梢栽谝欢ǔ潭壬狭私夂驼莆諏W(xué)生在校園內(nèi)的日常生活與學(xué)習(xí)行為,以便及時(shí)、有效的制定出相應(yīng)的措施。
一、數(shù)據(jù)來(lái)源和定義
本文的數(shù)據(jù)來(lái)源于數(shù)字化校園數(shù)據(jù)中心中與一卡通信息相關(guān)聯(lián)的多個(gè)業(yè)務(wù)系統(tǒng)。筆者希望利用數(shù)據(jù)挖掘技術(shù)從紛繁復(fù)雜的一卡通信息中,找出影響學(xué)生成績(jī)的主要因素。如表1所示,前11項(xiàng)為分類(lèi)指標(biāo)參數(shù),第12項(xiàng)為預(yù)期分類(lèi)結(jié)果。為了簡(jiǎn)化分類(lèi)模型的復(fù)雜性,本文將專(zhuān)業(yè)排名進(jìn)行了重新定義。按照比例將專(zhuān)業(yè)排名前10%定義為“A”;中間80%定義為“B”;后10%定義為“C”。
二、預(yù)測(cè)模型的建立
(一)主成分分析
將表1中的指標(biāo)參數(shù)轉(zhuǎn)換列向量,該向量由12個(gè)特征組成,用xi表示每個(gè)學(xué)生樣本的特征列向量,其表示形式如公式1所不:
即把每個(gè)學(xué)生樣本的特征量看作是一組隨機(jī)向量,并用KL變換得到正交變換基,對(duì)應(yīng)其中較大的特征值的基底有著相似的形狀。主成分分析(PCA)算法利用這些基底的線(xiàn)性組合可以描述、表達(dá)和逼近原缺陷圖像,具體實(shí)現(xiàn)步驟如下:
計(jì)算平均值
計(jì)算差值分量
求協(xié)方差矩陣的特征值和特征向量
協(xié)方差矩陣的維數(shù)為(m×n)×(m×n),其維數(shù)較大,可通過(guò)求解MT的特征值和特征向量獲得MT的特征值和特征向量。求出ATA的特征值λi及其正交歸一化特征向量vi,根據(jù)特征值的貢獻(xiàn)率選取前p個(gè)最大特征向量及其對(duì)應(yīng)的特征向量。累計(jì)貢獻(xiàn)率φ是保留部分的累計(jì)方差在方差總和中所占百分比,也可以將其理解為所選取的主成分與原始數(shù)據(jù)的相似程度。φ越大表示所保留的成分與原始數(shù)據(jù)越接近。
本文選取累計(jì)貢獻(xiàn)率φ>90%,并根據(jù)所求出的前p個(gè)特征值和特征向量求出原協(xié)方差矩陣的特征向量。
由其構(gòu)成的新的特征向量為:
(二)SVM分類(lèi)
支持向量機(jī)(support Vector Machine,SVM)是1995年由Vapnik提出的,由于其具有諸多優(yōu)點(diǎn)而得到廣泛研究應(yīng)用和發(fā)展。目前SVM技術(shù)已經(jīng)十分成熟,相應(yīng)的算法軟件包得到了學(xué)術(shù)界的認(rèn)可,其中最為具代表性的要算臺(tái)灣大學(xué)林智仁教授開(kāi)發(fā)的LibSVM軟件包。本文的分類(lèi)預(yù)測(cè)也是應(yīng)用LibSVM軟件包實(shí)現(xiàn)的,核函數(shù)選擇的是徑向基函數(shù)(Radial basis function,RBF),并采用5次交叉驗(yàn)證。
本文實(shí)驗(yàn)樣本取自英語(yǔ)專(zhuān)業(yè)兩個(gè)平行班級(jí),以一班30名學(xué)生的數(shù)據(jù)作為訓(xùn)練樣本構(gòu)建分類(lèi)器,用二班28名學(xué)術(shù)的數(shù)據(jù)作為測(cè)試樣本,驗(yàn)證分類(lèi)預(yù)測(cè)模型的準(zhǔn)確率。
由表2可以看出,分類(lèi)預(yù)測(cè)錯(cuò)誤大部分在將B類(lèi)學(xué)生誤識(shí)為A類(lèi)和將B類(lèi)誤識(shí)為c類(lèi),另外還有一小部分錯(cuò)誤來(lái)自于將A類(lèi)誤識(shí)為B類(lèi)。這表明本文所提預(yù)測(cè)模型對(duì)前10%和后10%學(xué)生的預(yù)測(cè)中混入了部分中等生,即在一定程度上擴(kuò)大了排名靠前和靠后學(xué)生的范圍。
本文所提方法雖然識(shí)別精度不高,但對(duì)于高校教學(xué)改革和學(xué)生管理仍然具有較高的實(shí)際應(yīng)用價(jià)值,比如可以將模型預(yù)測(cè)出的“后10%的學(xué)生名單”導(dǎo)入“學(xué)位預(yù)警系統(tǒng)”,提醒任課教師、學(xué)工人員以及學(xué)生本人盡早采取改進(jìn)措施,避免掛科、降級(jí)等事件的發(fā)生。
三、結(jié)論
“校園一卡通”中存儲(chǔ)或關(guān)聯(lián)的學(xué)生信息,確實(shí)能夠表征學(xué)生的一些特征。對(duì)這些數(shù)據(jù)的挖掘和分析能夠在一定程度上按專(zhuān)業(yè)成績(jī)排名對(duì)學(xué)生進(jìn)行分類(lèi)預(yù)測(cè)。為教學(xué)部門(mén)、學(xué)工部門(mén)進(jìn)行差異化教學(xué)和管理提供數(shù)據(jù)支持、決策依據(jù)和改進(jìn)方向,是高校教學(xué)改革的有效助力工具。