高雅奇, 穆軍妮, 劉培昌
(北京第二外國語學(xué)院,網(wǎng)絡(luò)與信息中心(圖書館), 北京 100024)
高等教育大眾化情境下,全面提升教育質(zhì)量,改進(jìn)本科教育教學(xué)成為國際高等教育界的共識,各高校將重視本科教學(xué)、提高人才培養(yǎng)質(zhì)量放在高校發(fā)展重中之重的地位[1]。隨著中國高等教育的內(nèi)涵式發(fā)展,學(xué)生學(xué)習(xí)的質(zhì)量成為一流本科教育的關(guān)鍵指向[2]?!督逃筷P(guān)于全面提高高等教育質(zhì)量的若干意見》《統(tǒng)籌推進(jìn)世界“雙一流”建設(shè)總體方案[2015]64號》《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》等相關(guān)政策文件都肯定了“質(zhì)量為重”的中心思想。基于教育質(zhì)量評價的內(nèi)部增值觀也體現(xiàn)了教育質(zhì)量提升的結(jié)果[3]。本科生教育階段是高等教育的主要階段,本科生學(xué)習(xí)質(zhì)量的高低是考評高校辦學(xué)質(zhì)量的核心要素[4]。然而,隨著高等教育的大眾化,學(xué)生的學(xué)習(xí)質(zhì)量因各種因素?zé)o法得到保障。因此,如何獲取影響學(xué)生學(xué)習(xí)質(zhì)量的關(guān)鍵因素,進(jìn)而提高學(xué)生的學(xué)習(xí)質(zhì)量是研究的主要目的。
參考國內(nèi)大部分高校通用的績點成績計算方法對本次研究進(jìn)行設(shè)計:某一課程的績點成績=課程分?jǐn)?shù)/10-5;學(xué)分績點成績=學(xué)分×績點即學(xué)分×(課程分?jǐn)?shù)/10-5)(90分以上按90分計算);學(xué)生在校期間總的績點成績=該生所修全部科目的學(xué)分績點成績之和/該生所修全部科目的學(xué)分之和。根據(jù)學(xué)生績點成績生成該生學(xué)習(xí)質(zhì)量(以XXZL命名)字段值,名次在同年級同專業(yè)前20%及以內(nèi)的學(xué)生學(xué)習(xí)質(zhì)量設(shè)為1等, 名次在20%~40%的學(xué)生學(xué)習(xí)質(zhì)量設(shè)為2等,以此類推,名次在后20%的學(xué)生學(xué)習(xí)質(zhì)量為5等,并將最后一等設(shè)定為預(yù)警等級。
本次研究抽取本科生在校期間與研究主題相關(guān)的基礎(chǔ)數(shù)據(jù),構(gòu)建影響學(xué)生學(xué)習(xí)質(zhì)量分類模型,并對模型加以訓(xùn)練。以訓(xùn)練好的模型對本科生的學(xué)習(xí)質(zhì)量進(jìn)行預(yù)測,實現(xiàn)對預(yù)警等級學(xué)生的反饋,從而有效促進(jìn)學(xué)生管理工作開展、為學(xué)校改進(jìn)本科教育教學(xué)和提高學(xué)生質(zhì)量提供可行性的支撐。
與本科生學(xué)習(xí)相關(guān)的數(shù)據(jù)主要涉及學(xué)生基本信息、學(xué)籍信息、校園行為等數(shù)據(jù)。學(xué)生學(xué)習(xí)質(zhì)量建模時需要從北京某高校的一卡通系統(tǒng)、教務(wù)系統(tǒng)、財產(chǎn)系統(tǒng)、圖書館自動化系統(tǒng)、門禁系統(tǒng)、校園網(wǎng)計費系統(tǒng)中抽取如下信息:學(xué)號、國籍、地區(qū)、民族、性別、所在年級、所在院系、所在專業(yè)、學(xué)科門類、學(xué)生類別、培養(yǎng)層次、學(xué)制、是否學(xué)分制、校園日均消費、年均消費天數(shù)、年上網(wǎng)時長、年圖書外借冊數(shù)、年自習(xí)室刷卡次數(shù)。抽取的時間段設(shè)定為2013年1月至2019年12月。研究共收集到9 744位本科生在校期間的數(shù)據(jù)。
1)數(shù)據(jù)清洗
數(shù)據(jù)清洗的主要目的是從業(yè)務(wù)以及模型的相關(guān)需要方面考慮,篩選出需要的數(shù)據(jù)。原始數(shù)據(jù)集中53條數(shù)據(jù)的績點成績?yōu)榭?,為了便于模型分析,對其進(jìn)行過濾處理。因此,研究的樣本量最終確定為9 691位學(xué)生數(shù)據(jù)。
2)缺失值處理
原始數(shù)據(jù)集存在數(shù)據(jù)缺失的情況,若將有缺失值的記錄刪除,會影響樣本的數(shù)據(jù)量。為達(dá)到較好的建模效果,采用取代法對缺失值進(jìn)行插補(bǔ)。對于數(shù)值型的數(shù)據(jù),如日均消費、年均消費天數(shù)等,采用其他記錄的均值插補(bǔ)缺失值;對于字符型的數(shù)據(jù),采用以其他記錄中出現(xiàn)次數(shù)最多的值代替缺失值。
3)數(shù)據(jù)變換
在構(gòu)建模型前,需要將原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)換成適合挖掘任務(wù)及算法需要的格式。采用的數(shù)據(jù)變換方式如下。
(1)數(shù)據(jù)規(guī)約。將分類變量轉(zhuǎn)換為字符型并定義代碼含義,如性別變量,以“0”代表女性、“1”代表男性。各變量指標(biāo)及含義見表1。
表1 本科生學(xué)習(xí)質(zhì)量影響因素及含義
對數(shù)據(jù)樣本采用隨機(jī)抽樣的方法抽取80%作為訓(xùn)練樣本,用于模型訓(xùn)練;余下的20%作為測試樣本,用于模型結(jié)果檢驗。訓(xùn)練數(shù)據(jù)集包含7 752條數(shù)據(jù),測試數(shù)據(jù)集包含1 939條數(shù)據(jù),可通過對訓(xùn)練集和測試集數(shù)值型變量的分布情況對比驗證訓(xùn)練集與測試集的劃分是否合理,具體描述性分析如表2所示。數(shù)值型變量包含上網(wǎng)時長、借書數(shù)量、消費天數(shù)、入館天數(shù)、日均消費。
表2 訓(xùn)練樣本描述性統(tǒng)計
由上述對比可知,訓(xùn)練集數(shù)據(jù)與測試集數(shù)據(jù)的數(shù)據(jù)分布較一致,劃分相對合理,根據(jù)訓(xùn)練集生成的模型可以用測試集數(shù)據(jù)對其進(jìn)行性能評估。
在研究中選擇3種算法進(jìn)行比較,即決策樹算法、隨機(jī)森林算法和Boosting算法。采用R語言中各算法的默認(rèn)參數(shù)構(gòu)建模型,并對三者的擬合結(jié)果進(jìn)行對比,確定研究最終選取的算法。
(1)驗證方法
交叉驗證法是驗證機(jī)器學(xué)習(xí)算法模型效果的常用測試方法。采用最常用的10折交叉驗證法,即將初始采樣分成10個互斥的子樣本,以1個子樣本作為模型的測試數(shù)據(jù),另外9個樣本作為訓(xùn)練數(shù)據(jù)。共進(jìn)行10次訓(xùn)練和測試,以10次結(jié)果的均值作為對算法性能的最終估計。
(2)算法性能評估
表3 三種模型10折交叉驗證結(jié)果
由表3可知,隨機(jī)森林算法的R-squared均值高于決策樹及Boosting算法,其擬合效果最佳。因此,選用隨機(jī)森林算法對本科生學(xué)習(xí)質(zhì)量影響因素進(jìn)行研究。
在模型訓(xùn)練過程中,為了構(gòu)建簡化的、易于理解的模型,需要從全部特征中篩選相關(guān)性強(qiáng)的特征子集作為最優(yōu)特征子集。特征篩選不僅可以縮短模型訓(xùn)練時間,改善模型的通用性,還可以降低模型過擬合的風(fēng)險[5]。
(1)特征篩選
常用的特征選擇方法包括正向選擇法、后退選擇法和逐步回歸法,研究采用正向選擇法選擇特征變量。得出本科生學(xué)習(xí)質(zhì)量的隨機(jī)森林分類模型包含學(xué)科類別代碼、專業(yè)代碼、院系所號、所在年級、上網(wǎng)時長、借書數(shù)量、消費天數(shù)、入館天數(shù)、日均消費、國籍、性別、學(xué)制、地區(qū)碼等13個特征指標(biāo)時擬合程度最好。
(2)特征貢獻(xiàn)度
篩選出特征集后,需要對其各項特征變量在模型中貢獻(xiàn)度機(jī)型進(jìn)行評估,隨機(jī)森林模型的feature importance函數(shù)可評估各個特征變量在模型中的重要性,即以完整的模型性能減去某個特征后的模型性能標(biāo)注特征對模型的貢獻(xiàn)度,計算出的各特征對模型的貢獻(xiàn)度如圖1所示,年借書數(shù)量對模型的貢獻(xiàn)度最高,入館天數(shù)、消費天數(shù)和性別特征對模型分類性能也非常重要。
圖1 隨機(jī)森林分類模型特征貢獻(xiàn)度
(3)特征驗證
為了驗證隨機(jī)森林分類模型篩選出的特征及排序是否合理,可將其與決策樹和Boosting模型的特征篩選情況進(jìn)行對比。決策樹算法篩選出的特征包含9個,用feature importance函數(shù)進(jìn)行排序,前6個特征與隨機(jī)森林模型的特征指標(biāo)及順序相同,之后依次為所在年級、上網(wǎng)時長、院系所號特征。Boosting算法篩選出的分類模型包含11個特征指標(biāo),通過計算各特征的F-score值對特征的貢獻(xiàn)度進(jìn)行排序:前5個與隨機(jī)森林模型的特征指標(biāo)及順序相同,之后依次為上網(wǎng)時長、地區(qū)碼、所在年級、院系所號、學(xué)科分類碼、學(xué)生分類碼特征??梢娫诓煌P椭械奶卣鬟x取和排序情況比較類似,隨機(jī)森林模型的特征篩選和貢獻(xiàn)度是合理的。
模型需要進(jìn)行參數(shù)調(diào)優(yōu)的主要原因在于訓(xùn)練出的模型可能存在過擬合和欠擬合問題。過擬合,一般是指模型缺乏泛化能力;欠擬合,一般指訓(xùn)練出的模型距離擬合曲線較遠(yuǎn),擬合度不高[6]。當(dāng)模型的復(fù)雜度上升會使模型的性能增加,也會增加過擬合的風(fēng)險;當(dāng)模型的復(fù)雜度減小,又可能出現(xiàn)欠擬合情況。綜合以上情況,需要做好對構(gòu)建模型的參數(shù)調(diào)優(yōu)工作。隨機(jī)森林分類模型如果采用默認(rèn)值容易發(fā)生過擬合現(xiàn)象,可對以下參數(shù)采取限制措施。
(1)對樹的深度做限制,防止樹的深度太深。樹的深度越小,計算量越小,模型的計算速度越快。為了找到最佳深度,可增加一個集合驗證集,當(dāng)tree depth=9時,模型準(zhǔn)確率趨于穩(wěn)定并不會隨著tree depth的增加明顯提高,故選定tree depth=9。
(2)限制最小樣本數(shù):當(dāng)節(jié)點包含的節(jié)點過少時就停止分裂節(jié)點。隨機(jī)森林模型的默認(rèn)最小樣本數(shù)為1,經(jīng)實驗當(dāng)minimun node size增大到2時,模型的指標(biāo)狀態(tài)最優(yōu)。
(3)森林中決策樹的數(shù)量限制,隨機(jī)森林模型的默認(rèn)決策樹數(shù)量為1 000,實驗證明,當(dāng)ntree=1 000時模型的錯誤率基本收斂,而再增加ntree的數(shù)量模型效果不會顯著提高,故選定ntree=1 000。
以測試集對構(gòu)建的森林分類模型進(jìn)行評估。
表4 隨機(jī)森林分類模型混淆矩陣
ROC曲線顯示分類模型在所有分類閾值下的效果。ROC空間將假正例率FPR定義為X軸,真正例率TPR定義為Y軸。橫坐標(biāo)為用曲線下面積AUC表示ROC曲線下的面積,AUC的值介于0和1之間,AUC值越大代表分類模型的性能越好[18]。為驗證特征篩選是否提高了分類模型的性能,可將經(jīng)特征篩選與未經(jīng)特征篩選的隨機(jī)森林分類模型進(jìn)行對比,其ROC曲線如圖2所示。圖2(a)為未經(jīng)特征篩選的ROC驗證曲線,平均AUC值為86.12%;圖2(b)為經(jīng)特征篩選后的ROC驗證曲線,平均AUC值為89.76%。經(jīng)過特征篩選后,隨機(jī)森林模型的驗證性能提升了4.22%。
(a) 未經(jīng)特征篩選
(b) 經(jīng)特征篩選圖2 隨機(jī)森林模型驗證ROC曲線
從測試集的1 939條數(shù)據(jù)中隨機(jī)抽取100條數(shù)據(jù),展示模型的預(yù)測效果。以虛線代表學(xué)習(xí)質(zhì)量的真實值,實線代表學(xué)習(xí)質(zhì)量的預(yù)測值,結(jié)果如圖3所示。
圖3 模型預(yù)測對比圖
由圖3可以觀察到模型的預(yù)測準(zhǔn)確率較高,模型的預(yù)測準(zhǔn)確率達(dá)到79.11%。模型本身具有較好的準(zhǔn)確度和穩(wěn)定性,可為改進(jìn)高校教學(xué)管理和提高學(xué)生學(xué)習(xí)質(zhì)量提供參考依據(jù)。
(1)高校應(yīng)著力于學(xué)校學(xué)習(xí)環(huán)境的改善[7],盡可能地為學(xué)生營造良好的學(xué)習(xí)氛圍,多種途徑多種方式引導(dǎo)和鼓勵學(xué)生增加閱讀量和自主學(xué)習(xí)的時間和能力。
(2)地域因素、家庭因素及語言環(huán)境都是影響學(xué)生學(xué)習(xí)質(zhì)量的重要因素,高校應(yīng)關(guān)注不同學(xué)生的需要和個性差異,重點關(guān)注新疆、西藏等少數(shù)民族地區(qū)及海外留學(xué)生。
(3)性別差異也是影響學(xué)生學(xué)習(xí)質(zhì)量的重要因素。高校應(yīng)充分重視性別差異造成的成績分化現(xiàn)象,利用各種有效措施來改善這種局面, 提高學(xué)生學(xué)習(xí)成績和實際的運用能力。
(4)高校應(yīng)建立良好的鼓勵機(jī)制,轉(zhuǎn)變教學(xué)方法、增強(qiáng)課堂氛圍,調(diào)動學(xué)生的學(xué)習(xí)熱情與激情。
(5)合理區(qū)間內(nèi),上網(wǎng)時間的增加不會影響學(xué)生的學(xué)習(xí)質(zhì)量反而會促進(jìn)作用,高校應(yīng)適當(dāng)引導(dǎo)學(xué)生正確使用網(wǎng)絡(luò),指導(dǎo)學(xué)生更好地、更有效地使用各種學(xué)習(xí)資源。
研究基于機(jī)器學(xué)習(xí)算法,以經(jīng)過預(yù)處理的本科生在校期間的相關(guān)數(shù)據(jù)為樣本進(jìn)行模型訓(xùn)練,建立學(xué)習(xí)質(zhì)量和影響因素之間的映射關(guān)系,并就各影響因素對學(xué)生學(xué)習(xí)質(zhì)量的重要程度進(jìn)行排序。實驗效果顯示,隨機(jī)森林算法的學(xué)習(xí)質(zhì)量預(yù)測模型預(yù)測準(zhǔn)確率接近80%。但在學(xué)習(xí)質(zhì)量的影響特征因素選取方面還不全面,未來仍需繼續(xù)改進(jìn),進(jìn)一步提升模型的分類性能。