張立輝
摘要:隨著“數(shù)據(jù)中國”的深入開展,高校教育管理的信息化、數(shù)據(jù)化成為不可逆轉(zhuǎn)的趨勢。高校數(shù)據(jù)管理的重要任務是挖掘教學數(shù)據(jù)深層次的價值并使其為學校發(fā)展決策提供數(shù)據(jù)支撐。文章提出的大數(shù)據(jù)用戶行為分析平臺通過挖掘海量用戶行為數(shù)據(jù),解析用戶行為喜好并進行智能推薦,能夠從數(shù)據(jù)中精準識別用戶基礎行為及專題行為,通過行為匹配進而分析用戶偏好情況。平臺針對用戶偏好進行智能推薦,對用戶進行行為分類,有效掌握用戶動態(tài);針對預測群體進行精準推薦,為提升產(chǎn)品營銷成功率做出貢獻。
關鍵詞:大數(shù)據(jù);用戶行為;智能推薦;預測
中圖分類號:C37? 文獻標志碼:A
0 引言
隨著大數(shù)據(jù)應用的不斷普及和發(fā)展,學生之間通過網(wǎng)絡來進行信息交流逐漸頻繁,如何有效地對學生行為進行分析是目前行為分析平臺的主要難點之一。為適應高校學生平臺的應用情況,文章提出結合大數(shù)據(jù)技術和互聯(lián)網(wǎng)等多項技術,提出基于高校師生共同使用的基于大數(shù)據(jù)的學生行為分析平臺。
1 平臺的研究現(xiàn)狀
從文明之初的“結繩記事”,到文字發(fā)明后的“文以載道”,再到近現(xiàn)代科學的“數(shù)據(jù)建?!?,數(shù)據(jù)一直伴隨著人類社會的發(fā)展變遷,承載了人類基于數(shù)據(jù)和信息認識世界的努力和取得的巨大進步[1]。國家的多項規(guī)劃中不止一次提到要加快信息化的發(fā)展建設,更要加強基于大數(shù)據(jù)技術的應用建設,大數(shù)據(jù)的應用不僅要實現(xiàn)對大數(shù)據(jù)的管理、大數(shù)據(jù)的清洗與挖掘,更要將基于大數(shù)據(jù)的信息化建設變成國家的發(fā)展戰(zhàn)略。
我國是人口大國,高校林立,在高校的多元管理過程中會產(chǎn)生大量的數(shù)據(jù)信息,比如學生的基本信息管理、學生的成績管理、學生的圖書借閱管理等[2]。學生在學校論壇等平臺會留下大量的數(shù)據(jù)信息。教師的工齡及薪酬管理、上課課件和視頻傳輸、項目管理及經(jīng)費應用等教學科研會產(chǎn)生大量的數(shù)據(jù)信息。除此之外,高校教務及行政系統(tǒng)的設備管理、辦公自動化建設和學校主頁建設也會產(chǎn)生大量的數(shù)據(jù)信息。學校在執(zhí)行教學管理和學生管理的過程中會同時采用多個管理系統(tǒng)進行數(shù)據(jù)維護和管理,多年應用會積累大量的數(shù)據(jù)信息。對這些數(shù)據(jù)進行挖掘和分析尤為有意義。
2 立項的必要性
許多學校每學期都會統(tǒng)計教師和學生的信息,但是傳統(tǒng)的管理模式都是通過Excel表格實行人工數(shù)據(jù)統(tǒng)計,每次的數(shù)據(jù)統(tǒng)計都會產(chǎn)生一定的誤差。為此,使用數(shù)據(jù)平臺實現(xiàn)教師和學生數(shù)據(jù)的統(tǒng)一管理,從已有數(shù)據(jù)中進行統(tǒng)計,不僅可以提高管理的可靠性,還能夠提升管理人員的工作效率,甚至能改變教育領域傳統(tǒng)的授課模式、學習模式和管理模式[3]。對現(xiàn)存海量原始數(shù)據(jù)分析的成果,可應用在科研計算、招生推廣、學科管理、薪資統(tǒng)籌、教師和學生信息跟蹤等多個方面。在新形勢下,多數(shù)高校已經(jīng)形成共識。在信息爆炸時代,開展數(shù)據(jù)的深度分析和應用工作,對高校的發(fā)展而言是非常有必要的一項工作。
2.1 學??茖W決策,需要數(shù)據(jù)深度分析和應用的輔助
完善高校管理大數(shù)據(jù)工程支持體系。一方面,將大數(shù)據(jù)分析分別與高校中的垂直管理和橫向業(yè)務聯(lián)系起來并充分融合,形成“數(shù)描高校”,即通過大數(shù)據(jù)分析方法,將高校中的人、財、物,以及各類事件、活動、過程和現(xiàn)象進行可視化處理,既對高校各類主體、實體進行靜態(tài)“畫像”,也對各類活動或過程開展動態(tài)“攝像”,為推動高校管理科學化提供精準動態(tài)的認識和把握。另一方面,推動建立高??茖W管理體系。建立高校管理決策中教育大數(shù)據(jù)分析結果使用原則和流程;成立專家小組,推動教育大數(shù)據(jù)“數(shù)描方法”與領域?qū)<曳治鱿嘟Y合,助推科學規(guī)劃與科學決策。
2.2 教學質(zhì)量評估,需要科學的數(shù)據(jù)深度分析和應用
每所高校都要定期開展教學評估工作,在評估工作中引入大數(shù)據(jù)分析技術不僅具備管理的依據(jù),可以使教學工作的管理更加科學,還提高了學校數(shù)字化建設的步伐。在教學質(zhì)量評估工作中引入大數(shù)據(jù)挖掘與分析技術,可以有效地提高教師的教學質(zhì)量,還可以從教師教學的業(yè)績、教學手段多樣化、師生的互動、教學場所的使用情況等多個環(huán)節(jié)中尋找數(shù)據(jù)之間的內(nèi)在關系,通過數(shù)據(jù)的分析可以為教學管理部門提供決策支持信息,為教師提供各方面的反饋信息,使教師可以更好地開展教學工作,提高教學質(zhì)量。
2.3 教師教學能力的提升,需要數(shù)據(jù)支持
傳統(tǒng)的教學都是憑教師的感覺進行設計,沒有數(shù)據(jù)支撐,也不能和學生的實際情況契合?,F(xiàn)在,通過深度分析學生在觀看網(wǎng)絡教學視頻過程中的關注頻次和瀏覽量,分析得出學生感興趣或者難理解的課程關鍵節(jié)點,幫助教師有的放矢地改進教學重點、確定教學難點,勢必會引導教師改革教學方式。
2.4 校企融合,解決技術難題
大數(shù)據(jù)分析工作涉及數(shù)據(jù)抽取、清洗、整理、建模與分析、測試優(yōu)化、預警展示、手機App應用等方面,對技術要求很高,可與行業(yè)企業(yè)合作,解決技術難題。這些技術問題將是大數(shù)據(jù)分析工作最大的障礙,需要重點注意兩個方面:(1)大數(shù)據(jù)分析及決策應用與智慧校園平臺的關聯(lián)關系。智慧校園平臺支撐整個學校的運營管理,采集了各類業(yè)務的原始數(shù)據(jù)。已建設有智慧校園平臺的學校,大數(shù)據(jù)分析與決策應用應基于智慧校園平臺;未建設智慧校園平臺的學??芍苯咏ㄔO整合集成大數(shù)據(jù)分析的智慧校園平臺。(2)注意大數(shù)據(jù)分析平臺及展示工具的選型。首先支持的數(shù)據(jù)源應全面,其次是應支持App接入,再者應支持電視、LED等展示終端接入。
3 平臺研究目標
學校是一個育人的搖籃,師生會產(chǎn)生大量的數(shù)據(jù)信息,利用大數(shù)據(jù)技術將產(chǎn)生的這些數(shù)據(jù)進行分析,可以找出數(shù)據(jù)之間的關聯(lián)關系,學校的管理人員通過數(shù)據(jù)即可掌握教師和學生的在校情況,掌握學生在各種活動中的行為規(guī)律,針對有問題的學生進行疏導,培養(yǎng)學生良好的行為習慣,幫助學生樹立合理的學習和行為觀念。通過數(shù)據(jù)的分析可促使學生的管理工作更加有效,在工作中能夠更加切實地解決教師和學生遇到的問題,消除教師和學生之間的矛盾,減輕學生的消極思想,促進學生的良性發(fā)展。
4 平臺研究主要內(nèi)容
大數(shù)據(jù)的學生行為分析平臺主要功能包括9個模塊:(1)地址庫生成模塊基于學校多平臺常用的地址,采取數(shù)據(jù)爬取技術生成地址庫標簽,最終生成便于程序使用的地址庫。(2)數(shù)據(jù)清洗模塊用于實現(xiàn)清洗學校平臺的異常數(shù)據(jù)以及不作為分析范圍的數(shù)據(jù),包括加載基礎數(shù)據(jù)、判斷數(shù)據(jù)字段是否一致、判斷url是否為空。(3)數(shù)據(jù)解析模塊用于識別教師和學生在學校多個平臺的操作行為,匹配出基礎數(shù)據(jù)地址并根據(jù)地址庫標識出訪問標簽。(4)用戶畫像模塊用于對學生操作行為實施匹配后的數(shù)據(jù)進行畫像,識別出學生的不同類別值,便于其他模塊準確掌握學生的操作行為。(5)學生信息分析模塊可實現(xiàn)對學生生源地、各專業(yè)學生性別等信息的統(tǒng)計分析。(6)學生平臺訪問管理模塊負責記錄學生對學校平臺訪問的持續(xù)時間,用于分析學生對平臺的關注度。(7)數(shù)據(jù)統(tǒng)計模塊可對清洗后的標準化數(shù)據(jù)進行可視化處理,通過餅圖、柱狀圖等多種圖形向?qū)W校管理人員展示數(shù)據(jù)分析結果,提供分析決策的數(shù)據(jù)支撐。(8)智能推薦模塊主要用于實現(xiàn)對學生關心課程的推薦,包括加載同類學生喜歡的課程。(9)對外接口模塊可為外系統(tǒng)提供教師和學生的最新狀態(tài)查詢服務,包括接口調(diào)用、驗證調(diào)用權限、查詢調(diào)用請求信息、返回查詢結果。
5 主要關鍵技術及創(chuàng)新點
5.1 關鍵技術
基于大數(shù)據(jù)的用戶行為分析平臺,主要采用Hadoop,MapReduce,HDFS,Python進行數(shù)據(jù)清洗和處理,采用Spark數(shù)據(jù)分析等技術手段來實現(xiàn)學生數(shù)據(jù)分析。
5.1.1 Hadoop集群層
Hadoop是由Apache基金會開發(fā)的大數(shù)據(jù)分布式系統(tǒng)基礎架構。用戶可以在不了解分布式底層細節(jié)的情況下,輕松地在Hadoop上開發(fā)和運行處理大規(guī)模數(shù)據(jù)的分布式程序,充分利用集群的威力高速運算和存儲。
Hadoop是一個數(shù)據(jù)管理系統(tǒng),作為數(shù)據(jù)分析的核心,其匯集了結構化和非結構化的數(shù)據(jù),這些數(shù)據(jù)分布在傳統(tǒng)的企業(yè)數(shù)據(jù)棧的每一層。
Hadoop也是一個大規(guī)模并行處理框架,擁有超級計算能力,定位于推動企業(yè)級應用的執(zhí)行。
5.1.2 HDFS存儲層
HDFS是Hadoop Distribute File System的簡稱,意為Hadoop分布式文件系統(tǒng),是Hadoop核心組件之一,作為最底層的分布式存儲服務而存在。HDFS使用Master和Slave結構對集群進行管理。一般一個HDFS集群只由一個NameNode和一定數(shù)目的DataNode組成。NameNode是HDFS集群主節(jié)點,DataNode是HDFS集群從節(jié)點,兩種角色各司其職,共同協(xié)調(diào)完成分布式的文件存儲服務。
5.1.3 MapReduce計算層
數(shù)據(jù)在進行清洗以后被存儲在HDFS系統(tǒng),使用MapReduce計算框架可對數(shù)據(jù)進行分析。根據(jù)學校管理人員的需求,系統(tǒng)設定分析角度和分析方向,每一個分析方向都需要通過專門的MapReduce程序?qū)崿F(xiàn),主要設定的分析角度有學費的收取情況、學生生源地分布情況、學生的分數(shù)分布情況、學生平臺訪問情況等。
5.1.4 數(shù)據(jù)清洗和處理
數(shù)據(jù)清洗是一項復雜且煩瑣的工作,也是整個數(shù)據(jù)分析過程中最為重要的環(huán)節(jié)。數(shù)據(jù)清洗的目的有兩個,第一是通過清洗讓數(shù)據(jù)可用,第二是讓數(shù)據(jù)變得更適合進行后續(xù)的分析工作。這樣獲取到的原始數(shù)據(jù)不能直接用來分析和處理,因為這些數(shù)據(jù)存在各種各樣的問題,如包含無效信息、列名不規(guī)范、格式不一致、存在重復值、缺失有效值等。數(shù)據(jù)處理理念經(jīng)歷了三大轉(zhuǎn)變過程,第一階段是處理全體數(shù)據(jù)而不是處理抽樣數(shù)據(jù),第二階段是提高效率而不是追求數(shù)據(jù)的絕對精確,第三階段是處理數(shù)據(jù)的相關性而不是尋求數(shù)據(jù)的因果關系。具體的大數(shù)據(jù)處理流程可以概括為4步,分別是數(shù)據(jù)采集、數(shù)據(jù)導入和預處理、數(shù)據(jù)統(tǒng)計和分析以及數(shù)據(jù)挖掘。
(1)數(shù)據(jù)處理指由于數(shù)據(jù)量過于龐大,無法在較短時間內(nèi)迅速解決,或者無法一次性裝入內(nèi)存[4]。解決方案是針對大量數(shù)據(jù)采用巧妙的算法搭配合適的數(shù)據(jù)結構。
(2)數(shù)據(jù)庫存儲層是一個支持多副本的分布式存儲系統(tǒng),包含多個存儲服務器,主要提供數(shù)據(jù)存儲服務。存儲層支持持續(xù)的數(shù)據(jù)更新。數(shù)據(jù)更新是基于日志回放機制,而非傳統(tǒng)數(shù)據(jù)庫的檢查點數(shù)據(jù)頁刷盤機制,因此在CPU資源占用、內(nèi)存帶寬占用、資源峰谷差異等方面有更好的表現(xiàn)。
(3)用戶接口層是整個系統(tǒng)與系統(tǒng)的使用者進行信息交換的媒介。將可視化界面及系統(tǒng)的全貌展示給學校管理人員,學校管理人員通過可視化層展示界面將請求直接發(fā)送給管理人員,用戶層接收到可視化層發(fā)送的請求,將請求傳遞給平臺的后臺其他層,實現(xiàn)請求的處理并將處理結果利用可視化技術展示給管理人員。用戶接口層的主要功能是實現(xiàn)用戶的請求并接收分析結果。
5.2 創(chuàng)新點
技術方面:平臺采用大數(shù)據(jù)技術,通過分布式存儲技術實現(xiàn)數(shù)據(jù)的存儲,在數(shù)據(jù)存儲過程中采用一個NameNode和多個DataNode,利用MapReduce技術實現(xiàn)數(shù)據(jù)的初級處理,利用Spark技術實現(xiàn)數(shù)據(jù)的最終處理。
教學方面:大數(shù)據(jù)的用戶行為分析平臺可以根據(jù)用戶的多種情況進行統(tǒng)計并展示數(shù)據(jù),教師根據(jù)平臺顯示的結果,不僅可以對部分用戶進行有針對性的教育和管理,還可以利用平臺實現(xiàn)對用戶興趣的調(diào)查,尋找用戶的興趣點,在課堂上針對用戶興趣展開教學,提高教學質(zhì)量。
6 結語
綜合需求分析和功能分析可以看出,高校的師生在學生行為分析平臺會產(chǎn)生大量的數(shù)據(jù)。在學生行為分析平臺具體使用的過程中,可以根據(jù)不同的需求對數(shù)據(jù)進行清洗和可視化,為高校的各級領導及平臺使用者提供數(shù)據(jù)支持和數(shù)據(jù)分析結果。
參考文獻
[1]韓冰.大數(shù)據(jù)技術在圖書館讀者借閱行為分析中的應用[J].科技視界,2021(24):61-62.
[2]李春艷.教育大數(shù)據(jù)背景下用戶網(wǎng)絡學習行為機制研究[J].電腦知識與技術,2021(20):41-42.
[3]葉力銘.基于Spark電商用戶行為數(shù)據(jù)的分析與研究[D].沈陽:沈陽師范大學,2020.
[4]羅嘉龍.基于大數(shù)據(jù)分析技術的用戶行為分析平臺設計與實現(xiàn)[J].電腦知識與技術,2019(35):54-56.
(編輯 王永超)
Research and implementation of student behavior analysis platform based on big data
Zhang? Lihui
(Changchun? Polytechnic, Changchun 130033, China)
Abstract: With the in-depth development of “Data China”, the informatization and data transformation of university education management have become an irreversible trend. The important task of university data management is to mine the deep value of teaching data and make it provide data support for school development decisions. The big data user behavior analysis platform can accurately identify user basic behavior and thematic behavior from the data, analyze user behavior through behavior matching make intelligent recommendation for user preference, classify user behavior. It can effectively grasp user dynamics, make accurate recommendation for prediction group and make great contribution to improving the success rate of product marketing.
Key words: big data; user behavior; intelligent recommendation; prediction