李欣
摘要:在新時代高等教育變革的浪潮下,迫切需要教育工作者將大數(shù)據(jù)、用戶畫像、深度學(xué)習(xí)這些先進的技術(shù)引入到學(xué)生的培養(yǎng)中來。本文已高校學(xué)生第四課堂實踐數(shù)據(jù)為依托,充分利用大數(shù)據(jù)領(lǐng)域Pearson相似性、Apriori關(guān)聯(lián)規(guī)則、GBDT、推薦系統(tǒng)等算法及用戶畫像技術(shù),挖掘大學(xué)生學(xué)習(xí)習(xí)慣、行為興趣偏好,充分發(fā)揮長板,從而形成符合學(xué)生發(fā)展的個性化培養(yǎng)方案。
關(guān)鍵詞:學(xué)生畫像;大數(shù)據(jù)算法;第四課堂
引言
在信息化數(shù)據(jù)化爆發(fā)的社會,人們越來越重視數(shù)據(jù)的價值,而互聯(lián)網(wǎng)的繁榮,又使得數(shù)據(jù)有了行為特性,我們可以廣泛的收集用戶的網(wǎng)絡(luò)行為、興趣偏好等,進而通過機器學(xué)習(xí)、深度學(xué)習(xí)算法標(biāo)簽化處理數(shù)據(jù),準(zhǔn)確解析用戶需求及預(yù)測用戶變化趨勢,從而形成個性化的推薦服務(wù)。隨著高校信息化的日趨完善,在高校積累的知識數(shù)據(jù)越來越豐富,充分發(fā)揮學(xué)生長板,因材施教,進行形成千人千面的智能化教育顯得尤為重要,而新型智能化教育也被提升到了前所未有的高度。本文已高校智慧化校園信息集成數(shù)據(jù)為基礎(chǔ),結(jié)合學(xué)生第四課堂活動數(shù)據(jù),利用Pearson Correlation Coefficient、GBDT、Apriori等機器學(xué)習(xí)算法挖掘分析學(xué)生的學(xué)習(xí)習(xí)慣、興趣偏好、特色長板,形成豐富的個性化的學(xué)生畫像的標(biāo)簽,利用基于內(nèi)容的推薦、基于行為的推薦算法融合深度學(xué)習(xí)算法構(gòu)建推薦系統(tǒng)模型,為學(xué)生推薦個性化的學(xué)習(xí)路徑及培養(yǎng)方案,精準(zhǔn)服務(wù)使得高校教育從大眾教育走向優(yōu)質(zhì)教育,實現(xiàn)個性化培養(yǎng)。
2 基于大數(shù)據(jù)算法的學(xué)生畫像模型構(gòu)建
2.1數(shù)據(jù)的采集及處理
模型整合了大學(xué)生多維度的第四課堂數(shù)據(jù),包括經(jīng)典閱讀、社會實踐、語言表達實踐、文藝活動、體育活動、創(chuàng)新創(chuàng)業(yè)、科研攻關(guān)等13個維度的第四課堂實踐數(shù)據(jù),數(shù)據(jù)來源于線下的結(jié)構(gòu)化數(shù)據(jù)表,并與信息化系統(tǒng)中智慧校園大數(shù)據(jù)相結(jié)合(包括學(xué)生自然屬性信息、教務(wù)系統(tǒng)各門類成績信息、圖書借閱信息、校園消費信息等),形成了線上于線下互補,離線于實時共存的多渠道數(shù)據(jù)源。
數(shù)據(jù)的處理采用規(guī)范化的分析流程,先進行數(shù)據(jù)的探索,根據(jù)探索結(jié)果進行數(shù)據(jù)的預(yù)處理。如學(xué)生第四課堂各項原始數(shù)據(jù),我們可以進行數(shù)據(jù)質(zhì)量分析,如經(jīng)典閱讀實踐活動的缺失值分析、異常值分析、一致性分析等整體把握原始數(shù)據(jù)的質(zhì)量狀況方便數(shù)據(jù)清洗時針對性選擇方法;數(shù)據(jù)特征分析,可對經(jīng)典閱讀實踐活動進行分布分析、統(tǒng)計量分析、對比分析及累積貢獻度分析等,目的是深入掌握數(shù)據(jù)特性,結(jié)合實際進行數(shù)據(jù)變換如數(shù)據(jù)規(guī)范化、連續(xù)屬性離散化、屬性構(gòu)造等。
在異常值分析方面模型根據(jù)特征維度的高低采用不同的算法,對于單維度特征采用6西格瑪原理、箱型圖原理、DBScan 聚類進行多渠道識別加權(quán)融合,高緯度特征采用孤立森林進行識別校準(zhǔn)。對識別的異常值,模型整體采用拉格朗日差值法進行插值處理,較好的保證了數(shù)據(jù)原始的分布狀態(tài)。
2.2分析維度及整體框架
基于大數(shù)據(jù)算法的第四課堂學(xué)生畫像智能教育模型的整體架構(gòu),可分為數(shù)據(jù)的采集,數(shù)據(jù)的預(yù)處理、模型的建立、模型的自我學(xué)習(xí)和優(yōu)化。在模型的建立環(huán)節(jié),可以往單純的利用指標(biāo)訓(xùn)練不同,這里我們增加了大數(shù)據(jù)維度的標(biāo)簽分析,包括第四課堂實踐活動的偏好度、學(xué)生的活躍度、第四課堂實踐活動相關(guān)性分析(Pearson Correlation Coefficient)、受學(xué)生歡迎的第四課堂實踐活動組合(Apriori關(guān)聯(lián)分析)、第四課堂實踐質(zhì)量分析等,通過多維度的大數(shù)據(jù)分析進而構(gòu)造高質(zhì)量的模型訓(xùn)練數(shù)據(jù)集結(jié)合信息化系統(tǒng)中的學(xué)生的學(xué)習(xí)習(xí)慣及風(fēng)格劃分培養(yǎng)方案,利用GBDT算法進行智能預(yù)測,同時利用基于內(nèi)容及行為的推薦算法進行推薦,如隱性因子算法根據(jù)學(xué)生的偏好、長板進行個性化推薦,對于最終的推薦方案結(jié)果,可通過評估樣本集進行自我學(xué)習(xí)調(diào)優(yōu),給出最佳融合權(quán)重。
2.3第四課堂實踐活動Pearson相關(guān)性分析
由于實踐數(shù)據(jù)是數(shù)值型結(jié)構(gòu)化數(shù)據(jù),這里我們可以采用皮爾森相關(guān)系數(shù)(Pearson Correlation Coefficient)法進行相關(guān)的計算,將各項活動間的正相關(guān)、負(fù)相關(guān)、不相關(guān)通過相關(guān)系數(shù)矩陣和熱力圖矩陣進行表示,從而挖掘的較強的實踐活動相關(guān)性規(guī)則。
為了更加準(zhǔn)確的描述變量之間的線性相關(guān)程度,可以通過計算相關(guān)系數(shù)來進行相關(guān)分析,而皮爾森相似度就是其中最為有效的計算方法。一般用于對定距變量的數(shù)據(jù)進行計算,即分析兩個連續(xù)性變量之間的關(guān)系,Pearson皮爾森相似度的計算原理如下:
r(x,y)=cov(x,y)/σx*σy
其中cov(x,y)為協(xié)方差(Covariance)在概率論和統(tǒng)計學(xué)中用于衡量兩個變量的總體誤差,σx、σy為x與y的標(biāo)準(zhǔn)差,用于衡量兩個數(shù)值特征的離散程度。
Pearson皮爾森算法計算特征相似度是有前提條件的,它的約束條件為:1兩個變量間有線性關(guān)系;2均是連續(xù)變量;3變量均符合正態(tài)分布,且二元分布也符合正態(tài)分布兩個變量獨立。而且皮爾森相似度r的計算結(jié)果具有良好的可解釋性,當(dāng)r=1,正相關(guān):r>0;負(fù)相關(guān):r<0;不相關(guān):|r|=0;完全線性相關(guān):|r|=1,進而我們可以通過兩兩見的相似性系數(shù)解讀實踐活動相關(guān)性規(guī)則,提供基于數(shù)據(jù)的科學(xué)可靠的分析結(jié)論。
2.4 受學(xué)生歡迎的第四課堂實踐活動組合Apriori關(guān)聯(lián)分析
受學(xué)生歡迎的實踐活動組合,利用apriori算法進行了關(guān)聯(lián)分析,探索活動間是否具有關(guān)聯(lián)性,即選擇了某項實踐活動的同學(xué),更傾向于選擇哪些實踐活動,了解學(xué)生們的第四課堂實踐偏好,可以適當(dāng)?shù)倪M行活動推薦。
Apriori關(guān)聯(lián)分析核心就是在交易事務(wù)中挖掘頻繁項集及關(guān)聯(lián)規(guī)則,這里需要引入支持度和可信度(置信度)的概念。支持度:一個項集的支持度被定義為數(shù)據(jù)集中包含該項集的記錄所占的比例,支持度是針對項集來說的,因此可以定義一個最小支持度,只保留最小支持度的項集。可信度(置信度):針對如{尿布}->{啤酒}這樣的關(guān)聯(lián)規(guī)則來定義的。計算為支持度{尿布,啤酒}/支持度{尿布},假設(shè)其中{尿布,啤酒}的支持度為3/5,{尿布}的支持度為4/5,所以“尿布->啤酒”的可行度為3/4=0.75,這意味著尿布的記錄中,我們的規(guī)則有75%都適用。
借助Apriori關(guān)聯(lián)規(guī)則算法,我們可以根據(jù)數(shù)據(jù)集中的樣本的記錄數(shù)量,選擇合適支持度、置信度參數(shù),進行算法訓(xùn)練從而挖掘?qū)W生實踐活動的偏好組合。
2.5 GBDT算法智能預(yù)測
在前面的數(shù)據(jù)處理環(huán)節(jié),我們通過多維度的大數(shù)據(jù)分析進而構(gòu)造高質(zhì)量的模型訓(xùn)練數(shù)據(jù)集同時結(jié)合信息化系統(tǒng)中的學(xué)生的學(xué)習(xí)習(xí)慣及風(fēng)格劃分了主流的幾類培養(yǎng)方案,接下來利用GBDT算法進行智能預(yù)測。GBDT算法基本原理是通過多輪迭代,每輪迭代產(chǎn)生一個弱分類器(利用cart回歸樹構(gòu)建),每個分類器在上一輪分類器的殘差基礎(chǔ)上進行訓(xùn)練。GBDT的思想可以用一個通俗的例子解釋,假如有個人30歲,我們首先用20歲去擬合,發(fā)現(xiàn)損失有10歲,這時我們用6歲去擬合剩下的損失,發(fā)現(xiàn)差距還有4歲,第三輪我們用3歲擬合剩下的差距,差距就只有一歲了。如果我們的迭代輪數(shù)還沒有完,可以繼續(xù)迭代下面,每一輪迭代,擬合的歲數(shù)誤差都會減小。主要優(yōu)點:可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值。在相對少的調(diào)參時間情況下,預(yù)測的準(zhǔn)備率也可以比較高。這個是相對SVM來說的。使用一些健壯的損失函數(shù),對異常值的魯棒性非常強。比如 Huber損失函數(shù)和Quantile損失函數(shù)?;谏鲜鰞?yōu)點,我們針對學(xué)生的學(xué)習(xí)習(xí)慣及風(fēng)格劃分了主流的幾類培養(yǎng)方案數(shù)據(jù)集進行智能預(yù)測,通過算法的參數(shù)調(diào)優(yōu)及特征的優(yōu)化,尋找最佳分類推薦模型。
3 結(jié)束語
本文將大數(shù)據(jù)學(xué)生畫像技術(shù)與學(xué)校多年開展的第四課數(shù)據(jù)相結(jié)合,深入挖掘?qū)W生長板,為高校人才培養(yǎng)和個性化教育提供理論支撐。通過基于大數(shù)據(jù)的算法分析學(xué)生第四課堂興趣偏好、活躍度、突出長板等并與學(xué)生的學(xué)習(xí)風(fēng)格、生活習(xí)慣等畫像指標(biāo)數(shù)據(jù)相結(jié)合,對學(xué)生進行多維度畫像,了解學(xué)生的長板,為個性化教育提供數(shù)據(jù)支撐,切實發(fā)揮大數(shù)據(jù)技術(shù)對改進人才培養(yǎng)目標(biāo)、課程體系等培養(yǎng)環(huán)節(jié)的推動作用,為人才培養(yǎng)模式的構(gòu)建提供重要數(shù)據(jù)基礎(chǔ)。
參考文獻
[1]郎波,樊一娜.基于深度神經(jīng)網(wǎng)絡(luò)的個性化學(xué)習(xí)行為評價方法[J].2019.
[2]梁婷婷,李麗琴.基于深度學(xué)習(xí)的資源個性化推薦算法及模型設(shè)[J].智能計算機與應(yīng)用.2018.