羅標 崔艷榮
摘要:網(wǎng)絡時代的發(fā)展使“互聯(lián)網(wǎng)+”模式應用在各個行業(yè),商業(yè)行為的大利潤驅(qū)使下對消費者用戶的分析已經(jīng)非常成熟,教育行業(yè)對大數(shù)據(jù)的應用就顯得有些落后,教育App中的大量學生數(shù)據(jù)可以用來構建智慧學生畫像給老師的教育方式提供指導性,將學生畫像應用在教育上,可以使老師和家長更了解學生的實時動態(tài)和學習狀態(tài),方便老師家長給出更好的指導,學校也可以了解學生,來想出更好的教育方式。
關鍵詞:學生畫像;hadoop分布式文件系統(tǒng);大數(shù)據(jù)平臺;智慧校園;數(shù)據(jù)倉庫
中圖分類號:TP393? ? ? ? ?文獻標識碼: A
文章編號:1009-3044(2021)03-0048-02
Abstract: The development of the Internet age has enabled the "Internet +" model to be applied in various industries. The analysis of consumer users driven by the large profits of business behaviors has been very mature. The application of big data in the education industry appears to be a little behind. A large number of students in education apps Data can be used to construct intelligent student portraits to provide guidance for teachers educational methods. Applying student portraits to education can enable teachers and parents to better understand students real-time dynamics and learning status, and facilitate teachers and parents to give better guidance. Schools can also understand students and come up with better ways of education.
Key words: Student portrait; hadoop distributed file system; big data platform; smart campus; data warehouse
1 引言
隨著智慧校園工程的不斷推進,學校教學工作慢慢信息化、數(shù)字化,各類智慧校園案例應用到實際校園中,類似與家校聯(lián)系、課堂考勤管理、消費數(shù)據(jù)等應用系統(tǒng)也在不斷增加。這些應用中產(chǎn)生了大量的學生數(shù)據(jù),利用這些學生行為數(shù)據(jù)可以為學校管理能力與校園資源利用提供重要的參考作用,例如通過學生的日常食堂消費數(shù)據(jù)來改善校園食堂工作時間以及作為貧困學生助學金等工作的參照。
目前學校的教育方式還是不能跟信息化完全接軌,根據(jù)學生信息來指導教學任務,具體的問題出現(xiàn)在學生的數(shù)據(jù)不能做到集中的管理和有效的可視化。一些傳統(tǒng)教學的工作例如課堂考勤等大多由老師來點名記到,如果能夠有效利用信息化就可以給學生的日常上課記錄和成績以及評優(yōu)評獎等多項工作提供參照,學生出現(xiàn)問題也可以迅速發(fā)現(xiàn)并通知老師和家長,并且信息接軌之后可根據(jù)學生的相似問題或者多發(fā)問題例如多數(shù)學生不喜歡某些課程等來提出指導教學改善群體性問題,所以教育工作結合大數(shù)據(jù)能夠大幅度提高工作效率,做到更有智慧的校園系統(tǒng)。
因此使用大數(shù)據(jù)分析的方法是智慧校園的必經(jīng)之路,是給教育行業(yè)插上了效率的翅膀,才能越飛越高,越走越遠。針對智慧校園信息化建設中數(shù)據(jù)難以有效處理的問題,本文提出一種新的方法,基于學生身份特征的多標簽系統(tǒng),其功能主要包括學生信息收集、數(shù)據(jù)的清理、數(shù)據(jù)歸類及之后顯示學生信息的功能,將數(shù)據(jù)可視化后其結果可以直觀地分析出學生的行為動態(tài)和特征,為學校工作提供指導依據(jù)。本文主要工作是用Hadoop將學生信息模擬用戶畫像建模成學生畫像,通過圖表的形式將給學生打的標簽顯示出來,這樣能夠直觀的顯示出學生在網(wǎng)絡上的動態(tài)將這些信息抽象后得到的畫像能夠整合起來方便學校了解學生網(wǎng)絡動態(tài),實現(xiàn)學生全面教育。
2 用戶畫像系統(tǒng)概述
學生畫像這一概念產(chǎn)生于用戶畫像,“用戶畫像”指的是根據(jù)此用戶的某些特點及行為屬性來代表該用戶。這種高度精煉的用戶描述稱為標簽,例如通過性別、出生年月、籍貫和居住地、教育背景、消費習慣和月消費比這些數(shù)據(jù)組成的一個整體來描述某用戶,這些簡單的標簽已經(jīng)能總結出這個用戶的年齡階段及消費傾向,以此可以針對性的推薦廣告或引導消費。實際上就是通過用戶的數(shù)據(jù)來系統(tǒng)化出來一系列的標簽來描述一個信息化實體。根據(jù)用戶畫像方法來分析學生畫像,建模收集自己的數(shù)據(jù)集進行驗證自己方案是否具有可行性可以為高校建設大數(shù)據(jù)平臺提出的設計方案,為高校信息化建設提供一種新思路。
基于大數(shù)據(jù)挖掘的學生行為數(shù)據(jù),本論文主要工作如下:
(1)對高校需求進行分析,總結出高校數(shù)據(jù)特點,建立高校學生數(shù)據(jù)集。
(2)Hadoop大數(shù)據(jù)及Hive數(shù)據(jù)倉庫相關技術分析介紹。
(3)利用主流的大數(shù)據(jù)框架Hadoop的HDFS文件系統(tǒng)和Hive數(shù)據(jù)倉庫搭建相關平臺架構設計。
(4)設計相關表結構完成數(shù)據(jù)的關聯(lián)使用方法。
針對上述研究內(nèi)容,列出本文研究方案:
(1)模擬大數(shù)據(jù)環(huán)境下數(shù)據(jù)存儲方式,搭建一個基于Hadoop的計算機集群,部署Hadoop分布式文件系統(tǒng)到每臺計算機上,將大數(shù)據(jù)部署在分布式文件系統(tǒng)中,測試數(shù)據(jù)部署方式及負載均衡,組成主從式架構的計算機集群。
(2)根據(jù)數(shù)據(jù)格式,分析用戶數(shù)據(jù)的重點及權重,利用數(shù)據(jù)預處理方法清洗過濾數(shù)據(jù),保證結果的正確性,設計學生畫像的模型和算法結構,組成基于大數(shù)據(jù)的校園行為數(shù)據(jù)創(chuàng)建合理的分析系統(tǒng)總體架構。
(3)根據(jù)數(shù)據(jù)進行實驗,比較數(shù)據(jù)清洗效果得到最合適的數(shù)據(jù)清洗方法,并確保安全性及避免學生隱私問題同時提供高質(zhì)量的數(shù)據(jù)。例如:數(shù)據(jù)匿名保護等。
(4)根據(jù)清洗后的數(shù)據(jù)進行分析,明確對學生數(shù)據(jù)的分析方向,并運用MapReduce分析學生個人特征。
3 學生特征畫像構建
3.1 數(shù)據(jù)的處理
學生在校行為所產(chǎn)生的數(shù)據(jù)多種多樣,皆以數(shù)據(jù)的形式存儲,數(shù)據(jù)結構復雜和數(shù)量龐大是目前校園大數(shù)據(jù)環(huán)境的現(xiàn)狀,數(shù)據(jù)預處理采集到的數(shù)據(jù)量十分龐大,同時由于數(shù)據(jù)的結構性或非結構性之間也存在誤差,需要對學生各項數(shù)據(jù)進行“加工”處理,并且有的數(shù)據(jù)量較大而有的數(shù)據(jù)量較少,所以數(shù)據(jù)的格式也需要按照統(tǒng)一設定的表結構標準化,并且取其更重點的特征才能更好地在分析中取得好的效果。處理流程如圖所示。
3.2 數(shù)據(jù)的分析流程
數(shù)據(jù)分析和特征提?。?當原始數(shù)據(jù)采集完成過后,由于有的數(shù)據(jù)存在一些問題,比如特征編號不一致,字段表意不清,標簽特征不明顯等等這種不完整的數(shù)據(jù),為了提高數(shù)據(jù)集的搜集效率和結果的準確性,給后面的研究提供統(tǒng)一的規(guī)范數(shù)據(jù),我們需要對標簽進行優(yōu)化,使學生的特征能夠更好地被表現(xiàn)出來,一般數(shù)據(jù)清洗的方式有數(shù)據(jù)的歸一化、離散化以及下采樣等方式來使數(shù)據(jù)統(tǒng)一。并且不同應用產(chǎn)生的數(shù)據(jù)往往格式也不同,把它們整合起來歸一化構成一個用戶的完整畫像,需要進行信息關聯(lián),將一些動態(tài)數(shù)據(jù)人工的關聯(lián)到一個人的行為特征上總結概括。
定義約束條件:約束條件是數(shù)據(jù)處理的核心部分,我們需要從動態(tài)信息中得到學生的興趣愛好和性格特點對短文本定義約束,這正好利用了Hadoop的一次寫入多次讀取的文件系統(tǒng)。后續(xù)的數(shù)據(jù)我們可以采用定時上傳的方式傳到相同的文件夾當中用相同的方式再次文本處理得到最新的標簽。
標簽的提取思路如下,我們定義大的標簽所占的權重較大,小的標簽所占權重較小,所以畫像上面的每個標簽大小不同,也更能表現(xiàn)出畫像中的重點,定義規(guī)則學生成績等標簽所占權重為1,動態(tài)信息等標簽的權重為1,標簽的權重隨時間減小,當一段時間后標簽的權重減為0.5時將標簽撤下,實現(xiàn)動態(tài)標簽。
4 結論
智慧校園建設是教育改革的重中之重,利用好信息化平臺的海量數(shù)據(jù)探索學生畫像和信息化教育成為重要途徑。構建出來的學生特征畫像可以挖掘每個學生的特點,讓學校提供有所側重的培養(yǎng),使教育真正變?yōu)橐虿氖┙烫岣呓虒W水平,分配教育資源,加強素質(zhì)教育。通過學生畫像分析學生興趣愛好、學習成績、日常動態(tài)等方面,對這些方面進行總結性歸納成為一個個動態(tài)的標簽,幫助老師對每一位學生有一個正確的并且直觀化的了解做出個性化的教學方案,讓家長對自己的孩子在學習成長方面的表現(xiàn)來加以引導,防止學生過度沉迷網(wǎng)絡游戲或?qū)W習壓力過大等問題,及早發(fā)現(xiàn)及時處理,來讓學生的成長能夠均衡發(fā)展,實現(xiàn)智慧教育和個性化成長。
參考文獻:
[1] 李光耀,宋文廣,謝艷晴.智慧校園學生畫像方法研究[J].現(xiàn)代電子技術,2018,41(12):161-163,167.
[2] 王凱月. 基于隱私保護的校園用戶畫像系統(tǒng)設計與實現(xiàn)[D].北京:北京郵電大學,2018.
[3] 唐燕,劉仁權,王蘋.基于Hadoop的高校大數(shù)據(jù)平臺的設計與實現(xiàn)[J].信息技術,2017,41(12):105-109.
[4] 劉譞.基于學生行為的成績預測模型的研究與應用[D].成都:電子科技大學,2017.
[5] 孫楊博.基于大數(shù)據(jù)挖掘的高校學生行為數(shù)據(jù)分析系統(tǒng)的研究與開發(fā)[D].北京:華北電力大學,2017.
【通聯(lián)編輯:梁書】