王錦 嚴德菊
摘 要:提出一種改進K-means聚類算法——cnnK-means算法,優(yōu)化學生成績分析.分析結果表明,語文和數(shù)學成績聯(lián)系最大,數(shù)學和英語成績聯(lián)系最小,英語成績對學生成績的分類影響最直接和也最明顯.如果想要提高學生的整體成績,教育者需要在英語方面做出更大的努力.
關鍵詞:自動編碼器 ; K-means聚類算法;? 學生成績分析
[中圖分類號]TP391?? [文獻標志碼]A
Student Achievement Evaluation Based on K-meansClustering Algorithm
WANG Jin,YAN DeJu
(China West Normal University,Computer Science,Nanchong 637000,China)
Abstract:An improved K-means clustering algorithm is proposed for better performance analysis.The results show that the relationship between Chinese and mathematics is the largest,the relationship between mathematics and English is the smallest,and the classification effect of English is the most direct and obvious.If you want to improve the overall performance of students,educators need to make greater efforts in English.
Key words:automatic encoder;K-means clustering algorithm;student performance analysis
自動編碼器[1]是神經網絡[2]的一種,是一種常用于機器學習的具有自學習功能的一個訓練模型.K-means算法可以對成績數(shù)據(jù)進行聚類分析.[3]筆者用改進后的自編碼器K-means算法分析學生的成績,明確學科之間的關系,并根據(jù)不同的分類情況采取個性化的教學方法,達到提高學生整體素質的目的,為教育者的教學提供教學改革指導.
1 改進的K-means算法——cnnK-means算法
筆者提出一種與卷積神經網絡[4]相結合的K-means算法[5]——cnnK-means算法.該算法能克服人的主觀偏向,從科目數(shù)據(jù)本身出發(fā),探尋數(shù)據(jù)的隱藏規(guī)律,以此分類.這種算法能更公正地判斷學生的考試結果,并直觀地展示出各科成績及對分類的影響.研究將卷積神經網絡(cnn)加入到自編碼器中去,將自編碼器中的encoder部分換成cnn,對輸入數(shù)據(jù)進行升維以獲取更多的信息,然后再用decoder還原信息.
cnnK-means算法流程如下:
輸入:數(shù)據(jù)集合,k的值.
輸出:k個簇.
步驟:(1)設置k的值;
(2)計算距離,并按最近原則把其他所有數(shù)據(jù)對象分到各個簇;
(3)計算簇內所有數(shù)據(jù)對象的平均值,把數(shù)據(jù)點放到最近的類里;
(4)重復2,3,步,當簇心固定不變時,算法結束,將聚類的結果輸出.
2 實驗結果與分析
本文選擇南充市某小學學生期末成績數(shù)據(jù)作為分析對象,選取學生的語文、數(shù)學、英語成績作為實驗數(shù)據(jù),通過實驗結果對比來驗證cnnK-means的有效性.
實驗包含兩個部分:利用原始的自編碼器處理學生成績,用K-means算法進行聚類;利用改進后的自編碼器對學生成績進行處理,使用K-means算法聚類.
cnnK-means算法的參數(shù)設置:
·n_hidden_1設置為3,n_hidden_2為512,n_hidden_3為1024,n_hidden_4為512,out_put_dim為200;
·聚類數(shù)num_of_clusters設置為2;
·卷積層為6,卷積核大小是2,卷積核數(shù)量為64;
·激活函數(shù)選擇“relu”函數(shù),strides為1,pooling為2,池化步數(shù)ps為2.
成績數(shù)據(jù)包含語文、數(shù)學、英語3科,所以將n_hidden_1設置為3,out_put_dim為200.也就是將三門成績升維為200維,聚類數(shù)num_of_clusters設置為2.聚類結果見圖2.將圖2與原自編碼器處理后的聚類結果圖1對比.可以看出,加入CNN改進后的自編碼器聚類效果更好,特別是對于0類學生成績,聚類結果的分布相當靠攏.雖然1類學生成績數(shù)據(jù)相對來說聚類效果對比不是特別明顯,但是總的效果還是要好一些.
圖2與圖1的矩陣圖對比表明,改進前后的矩陣圖總體上相差不大,說明語文和數(shù)學成績聯(lián)系最大,數(shù)學和英語成績聯(lián)系最小,可能是由于學生理解能力對語文的影響.理解能力是學習的基礎,對問題解決的前提是要理解問題,然后才能分析解決問題.因此,教育者不要單純?yōu)榱颂岣邔W生的成績而僅依靠增加練習來完成,要注意多科之間的關系;不要單純地只提高學生的分數(shù),要注意學生能力的提高,比如理解力、記憶力、表達力等,當學生的各方面的能力提高了,各學科成績自然會提高.
語文、數(shù)學、英語3科考試成績[6]分析表明,英語成績對學生成績的分類影響最直接,也最明顯.除了英語之外,明顯影響學生成績的是語文,最不明顯的是數(shù)學成績.卷積神經網絡做的相關矩陣圖說明,除去英語,數(shù)學對學生成績分類影響要大于語文,但是相差不是特別大.由于英語成績幾乎在很大程度上決定了學生成績的分類,根據(jù)木桶效應,如果想要提高學生的整體成績,教育者需要在英語方面做出更大的努力.
3 結語
本文提出cnnK-means算法,對研究對象的期末成績做了分析.研究結果表明,影響學生成績的因素主要有學校、家庭和學生自己三方面.教育者可根據(jù)不同的分類情況,采取個性化的教學方法教學.建議學校方面要把培養(yǎng)學生的能力放在首位,學生家長要關注孩子記憶力、表達力、理解力和觀察力的提高.
參考文獻
[1]張常華,周雄圖,張永愛,等.深度自編碼器在數(shù)據(jù)異常檢測中的應用研究[J].計算機工程與應用,2019(2):12-16.
[2]肖思宇,吳丁娟.基于神經網絡與模糊理論的模糊自編碼器[J].信息技術,2020(4):5.
[3]田宏,于曉秋.因子分析與聚類分析在學生成績綜合評價中的應用[J].牡丹江師范學院學報:自然科學版,2009(3):09.
[4]孫昭穎.基于卷積神經網絡的文本聚類算法優(yōu)化研究[D].上海:上海交通大學,2018.
[5]Xindong Wu,Vipin Kumar,J.Ross Quinlan,Joydeep Ghosh,Qiang Yang,HiroshiMotoda,Geoffrey J.McLachlan,Angus Ng,Bing Liu,Philip S.Yu,Zhi-Hua Zhou,Michael Steinbach,David J.Hand,Dan Steinberg.Top 10 algorithms in data mining[J].Knowl Info Syst,2008,14:1-37.
[6]殷倩,柳雪雪.基于因子分析和聚類分析的學生成績評價模型[J].牡丹江師范學院學報:自然科學版,2015(3):68.
[7]FLETCHER S.POTTS J.BALLINGER R.The pedagogy of integrated coastal management[J].The geographical journal,2008,174(4):374-386.
[8]陳莊,羅告成.一種改進的 K-means 算法在異常檢測中的應用[J].重慶理工大學學報,2015,29(5):66-70.
[9]馬永梅,龍兵,胡傳雙.基于灰色聚類的大學生課程學習效果評價模型[J].牡丹江師范學院學報:自然科學版,2020(3):62-66.
[10]Tatjana Vasileva-Stojanovska.Impact of satisfaction,personality and learning style on educational outcomes in a blended learning environment[J].Learning and Individual Differences,2015,38:127-135.
[11]李芳芝,慕麗蓉.高校線上教學評價指標體系建構[J].牡丹江師范學院學報:自然科學版)2020(4):19-22.
編輯:吳楠
收稿日期:2020-12-09
基金項目:四川省教育廳重點項目? (13ZA0015)
作者簡介:王錦 (1963-),男,四川成都人.教授,碩士生導師,主要從事數(shù)據(jù)庫技術研究;嚴德菊(1988-)女,重慶開縣人.研究生在讀,主要從事數(shù)據(jù)庫技術研究.