◆王利祥
?
大數(shù)據(jù)背景下高校學(xué)生行為分析系統(tǒng)的研究
◆王利祥
(河南護(hù)理職業(yè)學(xué)院 河南 455000)
隨著各大高校數(shù)字化校園建設(shè)工作的推進(jìn),大多數(shù)高校已經(jīng)在數(shù)字化校園階段積累了大量的數(shù)據(jù),如何把這些數(shù)據(jù)進(jìn)行整合為人們所用呢?這便是智慧校園需要推進(jìn)的。本文在深入研究市場(chǎng)中多數(shù)智慧校園建設(shè)方案之后,結(jié)合高校工作實(shí)際,對(duì)學(xué)生行為分析系統(tǒng)需要完成的工作做了深入研究,為后期智慧校園建設(shè)做重要支撐。
大數(shù)據(jù);數(shù)字校園;智慧校園;學(xué)生行為分析系統(tǒng)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息技術(shù)不斷進(jìn)步,至今為止,大多數(shù)高校已經(jīng)完成了對(duì)校園內(nèi)部信息進(jìn)行收集、優(yōu)化處理以及傳遞應(yīng)用,數(shù)字化校園實(shí)現(xiàn)了教育事業(yè)建設(shè)和管理的全面信息化,大幅度提高了校園管理的水平和效率。通過前期數(shù)字化校園階段的建設(shè),學(xué)校的各種資源信息以及師生行為信息大量的產(chǎn)生,并存儲(chǔ)下來,如何將這些信息量大而且是異構(gòu)數(shù)據(jù)源進(jìn)行整合,為后期的分析系統(tǒng)提供數(shù)據(jù)支撐呢?這便是本研究的一個(gè)重要的用途。
人們?cè)诶镁W(wǎng)絡(luò)技術(shù)以及信息技術(shù)的同時(shí),會(huì)產(chǎn)生大量的數(shù)據(jù),人們對(duì)海量數(shù)據(jù)的存儲(chǔ)、分析和處理,不斷挖掘出日常生活中看似沒有關(guān)系的數(shù)據(jù)便會(huì)為我們所用。大數(shù)據(jù)有如下4個(gè)特點(diǎn),分別為:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價(jià)值),一般稱之為4V。
(1)大量:社交網(wǎng)絡(luò)(微博、推特、臉書)、移動(dòng)網(wǎng)絡(luò)、各種智能工具,服務(wù)工具等,都成為數(shù)據(jù)的來源。
(2)多樣。廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的多樣性。
(3)高速。生活中每個(gè)人都離不開互聯(lián)網(wǎng),也就是說每天個(gè)人每天都在向大數(shù)據(jù)提供大量的資料。并且這些數(shù)據(jù)是需要及時(shí)處理的,對(duì)于一個(gè)平臺(tái)而言,也許保存的數(shù)據(jù)只有過去幾天或者一個(gè)月之內(nèi),再久遠(yuǎn)的數(shù)據(jù)也要及時(shí)清理,不然代價(jià)太大。基于這種情況,大數(shù)據(jù)對(duì)處理速度有非常嚴(yán)格的要求,服務(wù)器中大量的資源都用于處理和計(jì)算數(shù)據(jù),很多平臺(tái)都需要做到實(shí)時(shí)分析。
(4)價(jià)值。這也是大數(shù)據(jù)的核心特征?,F(xiàn)實(shí)世界所產(chǎn)生的數(shù)據(jù)中,有價(jià)值的數(shù)據(jù)所占比例很小。相比于傳統(tǒng)的小數(shù)據(jù),大數(shù)據(jù)最大的價(jià)值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對(duì)未來趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù),并通過機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,發(fā)現(xiàn)新規(guī)律和新知識(shí),并運(yùn)用于農(nóng)業(yè)、金融、醫(yī)療等各個(gè)領(lǐng)域,從而最終達(dá)到改善社會(huì)治理、提高生產(chǎn)效率、推進(jìn)科學(xué)研究的目的。
國(guó)內(nèi)高校大多數(shù)已經(jīng)完成了數(shù)字化校園的基礎(chǔ)建設(shè),因此可以利用現(xiàn)有的數(shù)據(jù)平臺(tái),進(jìn)一步完善數(shù)據(jù)源,提高數(shù)據(jù)有效性,搭建起能夠跨業(yè)務(wù)域和跨系統(tǒng)的數(shù)據(jù)分析和展示平臺(tái),并構(gòu)建起適合不同主題不同導(dǎo)向的多類應(yīng)用系統(tǒng)。在當(dāng)前的大數(shù)據(jù)時(shí)代,學(xué)生的各種行為也在不斷地產(chǎn)生各種類型的數(shù)據(jù),因此可以利用這些數(shù)據(jù)對(duì)學(xué)生在校的各個(gè)方面進(jìn)行量化測(cè)評(píng),搭建高校學(xué)生行為管理系統(tǒng)。對(duì)系統(tǒng)的總體要求大致如下:
由于高校中機(jī)構(gòu)設(shè)置比較多,學(xué)生的數(shù)據(jù)存放位置和維度也會(huì)有差異,因此需要將這些分散的、不同維度的信息進(jìn)行整合。如學(xué)生處、教務(wù)處、圖書館等都有學(xué)生的相關(guān)數(shù)據(jù)信息,此時(shí)可以建立數(shù)據(jù)中心,將所有相關(guān)數(shù)據(jù)按照統(tǒng)一的格式進(jìn)行整合并存放到數(shù)據(jù)中心中,打破因?yàn)闃I(yè)務(wù)域的不同而產(chǎn)生的數(shù)據(jù)界限,實(shí)現(xiàn)數(shù)據(jù)“1+1>2”的效果。
在建立數(shù)據(jù)中心之后,對(duì)學(xué)生行為產(chǎn)生的歷史數(shù)據(jù)與當(dāng)前數(shù)據(jù)進(jìn)行整合分析,并將分析結(jié)果以圖形或圖表的直觀化形式展示出來,以便為我們工作增加輔助性工具,提高工作效率。如針對(duì)學(xué)生使用一卡通借書信息、出入操場(chǎng)信息以及每天的步行數(shù)等相關(guān)數(shù)據(jù),綜合評(píng)估學(xué)生心理問題和身體狀況等。
大數(shù)據(jù)技術(shù)最重要的價(jià)值在于從海量數(shù)據(jù)中挖掘出盡量多的類型的數(shù)據(jù)的相關(guān)性,而非單純的人為去考慮事情之間的因果關(guān)系。自然界中萬物均存在聯(lián)系,挖掘出事物之間潛在的關(guān)系,為我們做出決策提供依據(jù)和參考,這才是大數(shù)據(jù)被提出的真正目的。
隨著全國(guó)高校智慧校園建設(shè)的發(fā)展,學(xué)生的信息類型也在不斷被發(fā)現(xiàn)和存儲(chǔ),如學(xué)生上網(wǎng)日志信息、微信微博信息及學(xué)生之間的交友信息等,再加上學(xué)生數(shù)量比較多,因此產(chǎn)生的數(shù)據(jù)量巨大。因此需要構(gòu)建大數(shù)據(jù)處理平臺(tái),來作為大數(shù)據(jù)分析數(shù)據(jù)和存儲(chǔ)數(shù)據(jù)的工具。
系統(tǒng)的設(shè)計(jì)分為系統(tǒng)物理架構(gòu)、系統(tǒng)功能設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)。系統(tǒng)物理架構(gòu)一般是基于多臺(tái)物理服務(wù)器的虛擬機(jī)實(shí)現(xiàn),在此不做贅述。由于大數(shù)據(jù)平臺(tái)中存放的大量的數(shù)據(jù),這些數(shù)據(jù)有些是與分析系統(tǒng)沒有關(guān)聯(lián),數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)主要任務(wù)便是對(duì)數(shù)據(jù)平臺(tái)中有用的數(shù)據(jù)進(jìn)行讀取和存儲(chǔ),通過分析系統(tǒng)將分析結(jié)果在前端界面設(shè)計(jì)中展示出來。此處我們重點(diǎn)介紹系統(tǒng)功能設(shè)計(jì)。
系統(tǒng)的功能架構(gòu)主要有以下4層:支撐功能層、數(shù)據(jù)挖掘?qū)?、智能分析層和信息發(fā)布層。
(1)支撐功能層主要是對(duì)用戶信息和權(quán)限管理以及對(duì)用戶操作的日志進(jìn)行管理。具體功能如下:
①支持對(duì)用戶信息的增刪改查功能以及批量操作。
②根據(jù)用戶不同的需求設(shè)置不同的權(quán)限,如設(shè)置系統(tǒng)管理員賬號(hào),該賬號(hào)具有系統(tǒng)操作的所有權(quán)限,并且可以對(duì)其他管理員以及用戶信息進(jìn)行操作,包括增刪改查等基本功能。
③系統(tǒng)管理員賬號(hào)可以根據(jù)系統(tǒng)維護(hù)的需要對(duì)其他管理員賬號(hào)設(shè)置不同的權(quán)限。
④系統(tǒng)登錄日志功能,系統(tǒng)要根據(jù)需要設(shè)定系統(tǒng)日志記錄的信息,主要包括登錄名、登錄時(shí)間、是否登錄成功、登錄失敗的次數(shù)等信息,并提供檢索查詢導(dǎo)出功能。
(2)數(shù)據(jù)挖掘?qū)又饕菍?duì)大數(shù)據(jù)平臺(tái)中學(xué)生相關(guān)的海量數(shù)據(jù)信息,采用大數(shù)據(jù)技術(shù)構(gòu)建數(shù)據(jù)挖掘模型,利用現(xiàn)有模型評(píng)測(cè)學(xué)生的行為。由于在校學(xué)生活動(dòng)具有區(qū)域性的特點(diǎn),因此可以將挖掘?qū)臃譃橐韵?個(gè)模塊進(jìn)行實(shí)現(xiàn):
①學(xué)生基本信息模塊:該模塊主要展示學(xué)生的一些基本信息,并對(duì)這些基本信息進(jìn)行簡(jiǎn)單的分析。如學(xué)生總數(shù)、學(xué)生民族組成比例、宗教信仰、年齡段分布等。
②圖書館分析模塊:該模塊主要是對(duì)學(xué)生圖書借閱信息、進(jìn)出圖書館信息等進(jìn)行分析。如學(xué)生借閱書籍的類別和名稱、借閱的時(shí)間、借閱的數(shù)量等,可以作為分析學(xué)生學(xué)習(xí)情況、課外活動(dòng)情況、學(xué)生心理情況等的參考。
③餐廳消費(fèi)模塊:這些數(shù)據(jù)大多數(shù)都會(huì)在數(shù)字化校園建設(shè)時(shí)使用的一卡通中有記錄。根據(jù)學(xué)生使用一卡通消費(fèi)情況,如消費(fèi)金額、消費(fèi)時(shí)間、消費(fèi)品種等信息對(duì)學(xué)生情況進(jìn)行判斷,如早飯消費(fèi)時(shí)間和消費(fèi)種類可以用來做學(xué)生健康調(diào)查分析,消費(fèi)金額可以作為判斷貧困生的一個(gè)參考。
④學(xué)生宿舍分析模塊,主要是對(duì)學(xué)生就寢時(shí)間、出入宿舍的次數(shù)等數(shù)據(jù)的分析。如學(xué)生晚上入寢時(shí)間可以作為學(xué)生晚歸的分析依據(jù),早上離開宿舍的時(shí)間可以作為學(xué)生身體健康以及學(xué)習(xí)情況的分析依據(jù)。
⑤綜合分析模塊,這是功能設(shè)計(jì)中的核心價(jià)值,也是能夠根據(jù)用戶需求實(shí)現(xiàn)自定義分析的功能。為了能夠完成對(duì)海量數(shù)據(jù)的處理,項(xiàng)目采用Hadoop生態(tài)圈中的Hive子項(xiàng)目以及Spark平臺(tái)中檢索查詢和統(tǒng)計(jì)分析功能。相對(duì)于關(guān)系數(shù)據(jù)庫(kù)中的SQL語(yǔ)句,該方法執(zhí)行速度更快。
(3)智能分析層主要是將上層所挖掘出來的數(shù)據(jù)進(jìn)行深層次分析,其中包括學(xué)生歷史特征信息以及當(dāng)前信息。根據(jù)學(xué)生歷史特征分析出正常數(shù)據(jù)正常的參數(shù)值,然后根據(jù)此參數(shù)值對(duì)學(xué)生進(jìn)行篩選和匹配。
(4)信息發(fā)布層主要是將分析結(jié)果展示出來,方便人們閱讀。可以采用周期性推送的方式,也可以采用被動(dòng)查詢分析的方式,一般都為兩種方式相結(jié)合使用。
當(dāng)前階段,大多數(shù)高校已經(jīng)基本完成了數(shù)字化校園的建設(shè),正處在智慧校園建設(shè)之中,本文在深入了解市場(chǎng)上已經(jīng)存在的數(shù)據(jù)分析系統(tǒng)之后,結(jié)合學(xué)校工作中經(jīng)常使用的分析結(jié)果,探討了學(xué)生管理工作中行為分析系統(tǒng)的大致架構(gòu)以及經(jīng)常使用的輔助工具的搭建模型,為后期智慧校園建設(shè)提供了理論支撐。
[1]申華.基于大數(shù)據(jù)的高校學(xué)生綜合測(cè)評(píng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京工業(yè)大學(xué),2017.
[2]潘奇.基于Hadoop技術(shù)的高校學(xué)生行為分析系統(tǒng)研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2014.