徐艷華,周榮亞
(陜西鐵路工程職業(yè)技術學院,陜西渭南 714000)
傳統(tǒng)的學生成績分析通常是統(tǒng)計學生已有的考試成績,通過分析變化趨勢來判斷學生的學習狀況。預測學生的考試成績乃至重大考試的情況,大多是授課老師憑借經(jīng)驗作出判斷[1-2]。但實際上,這種局限于統(tǒng)計性的成績分析過于淺顯,無法挖掘出成績數(shù)據(jù)背后的深層特征與關系,例如學習習慣、推理能力、生活影響等眾多因素。目前的預測模型無法滿足日常教學目的,更無法實現(xiàn)預測學生成績的功能;反之,其他對成績有影響的大量信息,如睡眠狀況、意外情況、偏科等也未考慮進預測模型中[3-4]。
與學生成績的分析和預測類似,已有的大量研究成果均是用于對運動員成績的分析預測。其經(jīng)常采用混沌理論、機器學習、決策樹算法等實現(xiàn)。近年來,隨著大數(shù)據(jù)與人工智能技術研究的愈發(fā)成熟,其已被廣泛應用到更多工業(yè)、生活與教育的場景中。多位學者研究了基于大數(shù)據(jù)的運動員戰(zhàn)術、成績分析等算法和模型[5-7]。在教育領域,已有多篇關于大數(shù)據(jù)下的網(wǎng)絡教育成績預測,提高成績的大數(shù)據(jù)服務、學業(yè)分析預警等文獻[8-9]。大數(shù)據(jù)具有樣本數(shù)量較大、分布均衡、便于分析的特點,這與國內(nèi)學生人數(shù)較多、難以采樣、分析困難的現(xiàn)狀相互吻合,為學生成績分析和預測提供了理想的解決方案[10-12]。
學生的成績不僅與個人的考前準備、考時狀態(tài)有關,還與客觀的試卷難度有關。為了比較學生每個學期的成績變化趨勢,應對數(shù)據(jù)進行預處理,消除客觀因素對分析學生成績時的影響[13]。
一次考試的成績分布包括3 種:正態(tài)分布、正偏態(tài)分布和負偏態(tài)分布。其中正態(tài)分布表明處于中等水平占大多數(shù),高分和低分只占少數(shù),為合理分布情況;正偏態(tài)分布表明高分人數(shù)占優(yōu),可視為由于試卷偏簡單所導致;負偏態(tài)分布表明多數(shù)人成績偏低,可視為試卷偏難導致[14]。成績分布情況如圖1 所示。
圖1 成績分布
文中采集某高校電子信息專業(yè)的在校本科生,前4 個學期的成績作為樣本數(shù)據(jù)進行分析。特征分布如表1 所示。
表1 學生成績數(shù)據(jù)特征
對采集到的數(shù)據(jù)進行偏態(tài)量分布判斷,如下:
其中,SK為Pearson 偏態(tài)量,KU為峰態(tài)系數(shù),M為平均數(shù),N為眾數(shù),Q為標準差。SK=0 時,為正態(tài)分布;SK>0,為正偏態(tài)分布;SK<0,為負偏態(tài)分布。判斷得到的檢驗結(jié)果如表2 所示。
表2 偏態(tài)量檢驗表
從表2 可看出,第4 學期的試卷難度總體偏高,第3 學期的平均成績最高,且分布更加集中。
假設xi為某個學生某一學期的成績,則作如下變換:
得到的是均值為0、方差為1 的正態(tài)分布。因此消除試卷難度產(chǎn)生的客觀誤差,使用作為標準化數(shù)據(jù)對學生成績進行評估。
使用原始數(shù)據(jù)對各分段的人數(shù)進行統(tǒng)計分布,如表3 所示。
表3 成績分布
從表3 可看出,高分段(80~90)的學生波動較小,較為穩(wěn)定;較低分段(<70)的學生波動較大,總體呈現(xiàn)分數(shù)提高的趨勢。
使用經(jīng)過預處理的當前學期成績減去上學期成績,并計算出差值的平均值,即可得到平均成績的進步率。對每位同學的進步率做出散點圖,如圖2所示。
從圖2 中可看出,成績在平均分以下的同學,略有退步;成績在平均分上下的同學進步和退步程度波動較大;成績較優(yōu)的同學進步較小。且成績較差和成績較優(yōu)的同學分布均較稀疏,進步與退步情況變化較小,平均分附近同學的人數(shù)最多。
圖2 學生進步率分布圖
使用層次分析法結(jié)合模糊分類來評價學生的學習狀態(tài)。層次分類如圖3 所示。
圖3 層次分類
首先對所有的成績分析數(shù)據(jù)歸一化,每個數(shù)據(jù)除以該數(shù)據(jù)集的最大值,然后使用層次分析法計算權(quán)值矩陣。
第1 層的權(quán)值矩陣可由成績情況、進步情況、個人情況3 個變量的相對重要程度對比得到:
第1 層的權(quán)值向量為:W1=(0.342 0.576 9 0.081)。經(jīng)過可行性校驗,成立。
第2 層的權(quán)值矩陣由每學期成績考核的重要程度確定:
得到權(quán)值向量為:W2=(0.095 4 0.160 1 0.277 2 0.467 3),可行性檢驗成立。
成績進步度的權(quán)重同樣隨著學期遞增,構(gòu)造的權(quán)重矩陣為:
得到權(quán)值向量為:W3=(0.163 4 0.296 9 0.539 6)。
設成績向量、進步度向量、波動向量為:M=(m1,m2,m3,m4),S=(s1,s2,s3)、U,則綜合成績評價:最終計算出每位學生的綜合評分,進行成績排名等操作。
由第1.4 節(jié)所述的層次分類圖構(gòu)造遺傳神經(jīng)網(wǎng)絡模型,以預測學生的下一次考試成績。模型結(jié)構(gòu)如圖4 所示。
圖4 成績預測模型結(jié)構(gòu)
BP 神經(jīng)網(wǎng)絡為多層前饋神經(jīng)網(wǎng)絡,每層連接的權(quán)值和閾值由網(wǎng)絡訓練得到。神經(jīng)網(wǎng)絡的結(jié)構(gòu)如圖5 所示[15-16]。
圖5 BP神經(jīng)網(wǎng)絡結(jié)構(gòu)
遺傳算法的運算過程如下:
1)算法的初始化,隨機生成一組可行解。
2)對每一組可行解使用適應度函數(shù)計算其適應程度,進而計算進化中該可行解被選中的概率,計算公式為:
3)選擇上一代的兩個可行解,將某一位置切斷,然后再拼接,得到一個新的可行解,最終得到N~M個可行解。
4)在第3)步生成的新可行解中,隨機修改其中幾個變量值,引入變異。
5)選擇上一代適應度最高的M個可行解復制。
6)生成N個可行解,一輪進化完畢,回到第3)步,進行新一輪進化。
7)當進化得到的可行解在誤差范圍內(nèi),則結(jié)束進化;否則,繼續(xù)進化。
在成績預測模型中,引入遺傳算法來求取進化過程中的每一代可行解,從而得到使神經(jīng)網(wǎng)絡的誤差平方和最小的網(wǎng)絡權(quán)值與閾值。遺傳算法和神經(jīng)網(wǎng)絡的關系為:遺傳算法中的適應度函數(shù)與每一個可行解的神經(jīng)網(wǎng)絡訓練誤差成反比:
其中,oi為神經(jīng)網(wǎng)絡輸出預測成績數(shù)據(jù)。
首先根據(jù)上式計算出某代可行解的適應度值fc,然后用該適應度值除以總適應度值。假設共有C個可行解,則選擇單個可行解c作為母基因進化到下一代時的概率為Pc,則Pc可表示為:
采用實數(shù)交叉法進行交叉操作,假設r是可行解,其包含s個變量值,拼接第h個可行解和第v個可行解的過程可表示為:
其中,rhs為第h個可行解的第s位,rvs為第v個可行解的第s位,β∈[0,1]。
對第h個可行解的第s位進行變異,變異方法為:
其中,Δx為取值范圍為[rmin-rhs,rmax-rhs]的隨機數(shù)。引入變異,可防止神經(jīng)網(wǎng)絡陷入某一局部最優(yōu),擴大搜索范圍。
代入測試樣本數(shù)據(jù),訓練神經(jīng)網(wǎng)絡模型。當預測成績誤差小于設定的訓練誤差時,停止迭代。
使用Matlab R2018a 作為仿真環(huán)境,編寫遺傳BP神經(jīng)網(wǎng)絡模型的代碼,對學生平均成績進行預測。仿真的訓練集為采集到的418 位學生的前三學期成績,以及學校后勤、醫(yī)院和教務部門提供的模型設計所需數(shù)據(jù)與相關調(diào)查問卷。并經(jīng)過了標準化數(shù)據(jù)預處理,其余10 位同學的數(shù)據(jù)作為測試集。
遺傳算法仿真時,初始種群規(guī)模設置為100,最大遺傳設置為50 代。交叉概率通常設置為0.3~0.9,若交叉概率過大容易錯失最優(yōu)解,交叉概率過小則不能有效更新種群。因此仿真中將其設置為0.5,通常變異概率設置范圍為0.001~0.2。仿真時為了保證種群的多樣性,且不破壞現(xiàn)有的種群模式,設置變異概率為0.01。得到預測成績與實際成績對比,如圖6 所示。
圖6 預測成績與實際成績對比
從圖6 的分析結(jié)果可看出,實際分數(shù)的走勢與預測分數(shù)的走勢大體相同。每位學生的預測誤差在±6 分的范圍內(nèi),其預測誤差如表4 所示。
表4 預測結(jié)果與誤差數(shù)據(jù)分析
經(jīng)過遺傳BP 神經(jīng)網(wǎng)絡輸出的預測成績與實際成績之間的均方根誤差為:
其中,Q為測試集個數(shù),yi為學生實際的成績,oi為神經(jīng)網(wǎng)絡輸出的預測成績。由此求解出BP 神經(jīng)網(wǎng)絡模型預測的均方根誤差為3.032 5,與實際成績較為接近。
當前對于學生成績的研究多基于統(tǒng)計學方法,對學生主觀層面的影響因素考察較少,且對于成績數(shù)據(jù)的挖掘不夠深入,利用也不全面。得益于校園大數(shù)據(jù)庫的建立,可以得到更多的學生信息來分析、預測學生的成績。該文基于大數(shù)據(jù)技術,首先對學生的綜合成績進行分析,去除了客觀因素的影響,得到學生個人的進步率、綜合評分等信息。然后使用BP 神經(jīng)網(wǎng)絡來實現(xiàn)遺傳算法,求得BP 神經(jīng)網(wǎng)絡的最優(yōu)權(quán)值與閾值,從而建立遺傳神經(jīng)網(wǎng)絡學生成績的預測模型。通過采集某高校428 位學生前三學期的綜合成績作為訓練集和測試集,訓練構(gòu)建的遺傳神經(jīng)網(wǎng)絡學生成績預測模型,并將預測成績與實際成績相對比,仿真誤差處于可接受的范圍內(nèi)。而該文研究的不足之處在于,對于學生的身體健康、情緒波動因素計算并不全面。從長遠來看,雖然兩者對學生成績影響有限,但對單次模型預測會造成一定的誤差,如何減小這種誤差仍有待研究。