◆張 戈 朱 儉
套索回歸模型在教師評(píng)分系統(tǒng)中的應(yīng)用研究
◆張 戈 朱 儉通訊作者
(中國(guó)社會(huì)科學(xué)院大學(xué) 北京 102488)
本文主要探討了L1正則化模型和L2正則化模型在大學(xué)教師評(píng)分系統(tǒng)中的應(yīng)用。對(duì)教師評(píng)分已有數(shù)據(jù)進(jìn)行分析,建立擬合預(yù)測(cè)模型,采用嶺回歸和套索回歸兩種線性回歸方法建模,在此基礎(chǔ)上對(duì)模型的優(yōu)化方案進(jìn)行了深入研究。
嶺回歸;套索回歸;過(guò)擬合;調(diào)整參數(shù)
教師評(píng)估系統(tǒng)是各個(gè)高校幾乎都會(huì)用到的一套對(duì)教師教學(xué)水平的評(píng)價(jià)系統(tǒng)。隨著各個(gè)大學(xué)對(duì)教學(xué)評(píng)估系統(tǒng)應(yīng)用的推進(jìn),其評(píng)價(jià)體系和結(jié)構(gòu)日趨完善,評(píng)價(jià)數(shù)據(jù)也像滾雪球一樣逐年累積,數(shù)據(jù)量越來(lái)越龐大。在大數(shù)據(jù)和機(jī)器學(xué)習(xí)背景下,如何能夠有效地利用這些數(shù)據(jù),對(duì)它們加以分析和處理,并在此基礎(chǔ)上得到對(duì)未來(lái)更有價(jià)值的信息和結(jié)果是我們最為關(guān)心的問(wèn)題。因此,我們的研究在已有數(shù)據(jù)基礎(chǔ)上擬合一個(gè)預(yù)測(cè)模型,用該模型給出教師的合理評(píng)分。
在教學(xué)評(píng)估系統(tǒng)中,系統(tǒng)會(huì)根據(jù)該課程的全體學(xué)生的打分給出綜合評(píng)分。打分項(xiàng)的設(shè)計(jì)是在原有系統(tǒng)評(píng)分項(xiàng)基礎(chǔ)上不斷更新迭代得出的評(píng)分項(xiàng),包括“備課認(rèn)真”、“有教材課件”、“有輔助資料”、“有教具”、“遵紀(jì)守時(shí)”、“認(rèn)真負(fù)責(zé)”、“熱情敬業(yè)”、“進(jìn)度適當(dāng)”、“重點(diǎn)突出”、“難易適度”、“有吸引力”、“教學(xué)內(nèi)容完整”、“邏輯清晰”……一共40個(gè)打分項(xiàng)。每個(gè)打分項(xiàng)的取值范圍不等,但40個(gè)單項(xiàng)的最高分總和為50。除了這40個(gè)單項(xiàng)之外,還有一個(gè)“綜合評(píng)價(jià)”分,該項(xiàng)最高分為50。學(xué)生根據(jù)自己的感受對(duì)以上各項(xiàng)打分。收集數(shù)據(jù)后,系統(tǒng)分別算出各單項(xiàng)平均分(無(wú)異常數(shù)據(jù)處理)和“綜合評(píng)價(jià)”的平均分,然后將這些平均分相加,算出來(lái)的分?jǐn)?shù)即為教師評(píng)分(最高100分)。
從目前評(píng)估系統(tǒng)的評(píng)分方法來(lái)看,該評(píng)價(jià)體系存在這樣幾個(gè)問(wèn)題:第一,評(píng)分項(xiàng)過(guò)多(41個(gè)),建立的模型過(guò)于復(fù)雜,容易出現(xiàn)過(guò)擬合現(xiàn)象;第二,各個(gè)單項(xiàng)的權(quán)重均一致,設(shè)計(jì)不合理。比如“有教具”這項(xiàng)對(duì)于不同專業(yè)的老師并不一樣,有的專業(yè)需要教具,有的專業(yè)只用課件講課即可,因此類似這種單項(xiàng),其權(quán)重不應(yīng)和其他單項(xiàng)一致;第三,各個(gè)單項(xiàng)的取值范圍并不相同,有的單項(xiàng)取值在0到10之間,有的單項(xiàng)取值在0到3之間,這樣就造成了各單項(xiàng)數(shù)據(jù)影響力差異過(guò)大,在涉及距離公式計(jì)算的模型中,影響預(yù)測(cè)結(jié)果的準(zhǔn)確度。
針對(duì)以上問(wèn)題,本研究將分析采用哪種回歸擬合數(shù)據(jù),建立預(yù)測(cè)模型。我們先來(lái)看回歸分析中最經(jīng)典的線性模型——線性回歸,也稱為普通最小二乘法(OLS)。它的原理是,當(dāng)訓(xùn)練數(shù)據(jù)集中y的預(yù)測(cè)值和其真實(shí)值的平方差最小的時(shí)候,此時(shí)的w值和b值作為線性函數(shù)的w值和b值。線性回歸模型沒(méi)有參數(shù)可調(diào),也就是說(shuō)模型的復(fù)雜度用戶不可控。在我們選取了500條數(shù)據(jù)進(jìn)行線性回歸測(cè)試,可以看到模型測(cè)試評(píng)分訓(xùn)練集和測(cè)試集得分差異過(guò)大,這表明模型出現(xiàn)了過(guò)擬合,而且訓(xùn)練集測(cè)評(píng)僅為0.5分,模型預(yù)測(cè)結(jié)果準(zhǔn)確率不高,因此我們嘗試使用嶺回歸模型。
嶺回歸是回歸分析中常用的線性模型。它可以有效防止模型的過(guò)擬合現(xiàn)象。在嶺回歸中,模型會(huì)保留所有的特征變量,但是會(huì)減小特征變量的權(quán)重值,特征變量對(duì)預(yù)測(cè)結(jié)果的影響“統(tǒng)一”變小了。這種通過(guò)保留所有特征向量,只降低特征向量的系數(shù)值來(lái)避免過(guò)擬合現(xiàn)象的方法,稱為L(zhǎng)2正則化。L2 正則化公式非常簡(jiǎn)單,直接在原來(lái)的損失函數(shù)基礎(chǔ)上加上權(quán)重參數(shù)的平方和:
套索回歸(lasso)是除了嶺回歸之外的一個(gè)對(duì)線性回歸進(jìn)行正則化的模型。和嶺回歸一樣,它也將特征向量系數(shù)限制在非常接近0的范圍,但是它對(duì)系數(shù)進(jìn)行限制的方式不同,它直接在原來(lái)的損失函數(shù)基礎(chǔ)上加上權(quán)重參數(shù)的絕對(duì)值:
對(duì)于學(xué)生的評(píng)分會(huì)因各種原因存在數(shù)據(jù)異常的情況,比如有的學(xué)生會(huì)根據(jù)自己的喜好、老師給的平時(shí)成績(jī)或者一次和老師的談話,就對(duì)老師打出比較極端的分?jǐn)?shù),少數(shù)過(guò)高或過(guò)低的評(píng)分就是我們所說(shuō)的異常數(shù)據(jù)。這些數(shù)據(jù)并不能合理體現(xiàn)老師的教學(xué)水平,相反,如果這些數(shù)據(jù)的權(quán)重和其他數(shù)據(jù)一樣,可能會(huì)對(duì)老師評(píng)價(jià)得到不相符甚至于相反的結(jié)果。因此,我們需要對(duì)這樣的數(shù)據(jù)對(duì)異常判斷和處理。
圖1 線性函數(shù)方程
首先,我們選取一些過(guò)高或過(guò)低的分?jǐn)?shù),并將它們刪除。但是這“一些”是多少,5%、10%還是15%,不能靠數(shù)據(jù)處理人員一張嘴來(lái)決定,而是靠數(shù)據(jù)說(shuō)話。因此我們?cè)谧鎏幚頃r(shí),依次選取最高和最低的5%、10%和15%的數(shù)據(jù)進(jìn)行刪除,按刪除后的數(shù)據(jù)重新擬合模型,并給出模型評(píng)分,將評(píng)分最高的刪除比例保留,從而得到相對(duì)合理的擬合模型。圖2是采用模型測(cè)評(píng)方法-交叉驗(yàn)證法在去掉15%的兩端數(shù)據(jù)后得到的模型測(cè)評(píng)分?jǐn)?shù)。測(cè)評(píng)分?jǐn)?shù)為0.88,可見(jiàn)在處理掉一些極端數(shù)據(jù)后,模型預(yù)測(cè)的準(zhǔn)確率比較理想。
圖2 異常數(shù)據(jù)處理后模型測(cè)評(píng)分?jǐn)?shù)
在前面我們選擇套索模型對(duì)數(shù)據(jù)進(jìn)行擬合,但模型的測(cè)評(píng)分?jǐn)?shù)并不算高,這樣一來(lái),預(yù)測(cè)結(jié)果即教師評(píng)估分?jǐn)?shù)可能會(huì)出現(xiàn)偏差,因此我們進(jìn)一步調(diào)整套索模型參數(shù)alpha和最大迭代次數(shù)max_iter對(duì)模型進(jìn)行優(yōu)化。我們采用python的sklearn庫(kù)來(lái)建立套索模型,實(shí)驗(yàn)環(huán)境采用jupyter notebook。
圖3是python3編寫的在調(diào)整alpha參數(shù)為1、0.1和0.0001,max_iter參數(shù)為100000時(shí)的代碼。圖4是在上述不同的alpha值,max_iter為100000時(shí)的套索回歸系數(shù)值對(duì)比圖。
圖3 不同alpha值max_iter值為100000時(shí)套索模型代碼
圖4 不同alpha值套索回歸系數(shù)值對(duì)比
從圖中可以看到當(dāng)alpha值為1和0.1的時(shí)候,大部分系數(shù)都為0,這就意味著幾乎所有特征向量均被正則化,對(duì)我們的預(yù)測(cè)結(jié)果均起不到作用。alpha值為0.0001的時(shí)候,只有少數(shù)幾個(gè)系數(shù)為0,這個(gè)就是套索模型自動(dòng)選擇出的可以忽略不計(jì)的特征向量,因此,我們將alpha系數(shù)調(diào)整為0.0001。同理,在alpha值固定的情況下,我們繼續(xù)調(diào)整max_iter參數(shù),這樣就可以使套索模型優(yōu)化到最佳狀態(tài),同時(shí)結(jié)合訓(xùn)練集和測(cè)試集的測(cè)評(píng)分,最終得到最理想的預(yù)測(cè)模型。
我們經(jīng)過(guò)線性模型的分析和研究最終確定套索模型作為系統(tǒng)的擬合模型,解決了由過(guò)多特征向量帶來(lái)的模型過(guò)擬合現(xiàn)象,依靠該模型的自主選擇特征向量機(jī)制自動(dòng)淘汰了一些權(quán)重值不高的幾乎可以忽略的特征,降低了模型復(fù)雜度,使模型更為合理,更利于模型的泛化。在確定回歸模型后,我們進(jìn)一步對(duì)模型的主要參數(shù)進(jìn)行了調(diào)整,使數(shù)據(jù)訓(xùn)練集和測(cè)試集評(píng)分均得到了提高,模型可用度提升,教師的評(píng)分更為準(zhǔn)確。
當(dāng)然,系統(tǒng)中仍存在一些問(wèn)題有待解決,比如特征向量值取值范圍存在差異,會(huì)造成有的特征向量影響力會(huì)明顯高于另外一些特征向量。本研究在今后的工作中會(huì)繼續(xù)研究如何采用數(shù)據(jù)歸一化和標(biāo)準(zhǔn)化的方法使數(shù)據(jù)更為合理、可用。
[1]肖玲玲,鄭華,林爍爍,陳曉文.基于嶺回歸的四帶圖像偏色校正算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019(08):129-135.
[2]王宏偉,黃元生,姜雨晴,劉詩(shī)劍.基于套索算法和高斯過(guò)程回歸的中長(zhǎng)期居民用電量概率預(yù)測(cè)[J/OL].華北電力大學(xué)學(xué)報(bào)(自然科學(xué)版):1-11[2019-08-29]
[3]紅色石頭的專欄.https://blog.csdn.net/red_stone1/article/details/80755144
[4]李克文,周廣悅,路慎強(qiáng),郭俊.一種基于機(jī)器學(xué)習(xí)的有利區(qū)評(píng)價(jià)新方法[J].特種油氣藏,2019,26(03):7-11.
[5]谷慧娟. 基于套索回歸的財(cái)務(wù)危機(jī)預(yù)警模型研究[D].天津財(cái)經(jīng)大學(xué),2010.
[6]湯榮志. 數(shù)據(jù)歸一化方法對(duì)提升SVM訓(xùn)練效率的研究[D].山東師范大學(xué),2017.
[7]張里,王蘭,李紅軍,廖小君,王婷婷,張江林,劉友波.基于聚類分析的風(fēng)電功率預(yù)測(cè)數(shù)據(jù)預(yù)處理方法[J].可再生能源,2018,36(12):1871-1876.
[8]李克文,周廣悅,路慎強(qiáng),郭俊.一種基于機(jī)器學(xué)習(xí)的有利區(qū)評(píng)價(jià)新方法[J].特種油氣藏,2019,26(03):7-11.
[9]Science; Studies Conducted at Georgetown University on Science Recently Reported (Ridge regression estimated linear probability model predictions of O-glycosylation in proteins with structural and sequence data)[J]. Science Letter,2019.
[10]Wen Lei,Shao Hengyang. Analysis of influencing factors of the carbon dioxide emissions in China's commercial department based on the STIRPAT model and ridge regression.[J]. Environmental science and pollution research international,2019.
[11]Gana Rajaram,Vasudevan Sona. Ridge regression estimated linear probability model predictions of O-glycosylation in proteins with structural and sequence data.[J]. BMC molecular and cell biology,2019,20(1).
[12]Wang Chunjie,Li Qun,Song Xinyuan,Dong Xiaogang. Bayesian adaptive lasso for additive hazard regression with current status data.[J]. Statistics in medicine,2019,38(20).
[13]張倩.基于隨機(jī)森林回歸模型的住房租金預(yù)測(cè)模型的研究[D].東北師范大學(xué),2019.
[14]Yaqing Zhao,Howard Bondell. Solution paths for the generalized lasso with applications to spatially varying coefficients regression[J]. Computational Statistics and Data Analysis,2020,142.
中國(guó)社會(huì)科學(xué)院大學(xué)校級(jí)科研項(xiàng)目資助。