趙文龍 鄧文雯 張強(qiáng)偉 孫玉
摘? ?要:傳統(tǒng)學(xué)生在校狀態(tài)往往基于一卡通消費數(shù)據(jù)進(jìn)行判斷,存在數(shù)據(jù)質(zhì)量不高、消費隨機(jī)性較大等現(xiàn)象,加上信息時代行為習(xí)慣不同,導(dǎo)致數(shù)據(jù)精準(zhǔn)度不高、預(yù)測性不強(qiáng)、可信度較差。為精準(zhǔn)掌握學(xué)生在校狀態(tài),文章提出一種基于多源數(shù)據(jù)融合的判定模型,結(jié)果表明:行為活動時間長度在篩選時間段長度[60%,80%]之間時,是否在校判定模型的計算結(jié)果與實際在校狀態(tài)基本相符,準(zhǔn)確率可達(dá)98%以上,為疫情防控提供了輔助決策支持,為平安校園建設(shè)提供了一種技術(shù)保證,并根據(jù)ARIMA模型進(jìn)行預(yù)測分析,對學(xué)情管理具有一定的指導(dǎo)價值。
關(guān)鍵詞:數(shù)據(jù)融合;判定模型;數(shù)據(jù)驅(qū)動;輔助決策;預(yù)測分析
中圖分類號:G717;TP391.77 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2021)15-0065-04
一、引言
隨著大學(xué)返校復(fù)學(xué)的推進(jìn),為確保返校學(xué)生生命安全和身體健康,繼續(xù)堅持健康狀況“日報告”和“零報告”制度,積極有效開展線上線下混合式教學(xué)。[1]利用校內(nèi)業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)融合聯(lián)動,達(dá)到用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理的效果,進(jìn)而為實現(xiàn)精準(zhǔn)分析學(xué)情提供輔助決策支持,并將“人民至上、生命至上”政策落實到常態(tài)化學(xué)情管理中。[2]
隨著信息化業(yè)務(wù)深度的拓展,以往精準(zhǔn)學(xué)情分析如學(xué)生是否在校,僅靠一卡通應(yīng)用分析完成,仍存在數(shù)據(jù)質(zhì)量差、分析結(jié)果不準(zhǔn)確、數(shù)據(jù)價值難以實現(xiàn)的情況;[3]鑒于此,基于異構(gòu)數(shù)據(jù)融合,筆者提出一種高等院校學(xué)生是否在校安全判定模型的數(shù)據(jù)解決方案,通過集成異構(gòu)應(yīng)用系統(tǒng)的多源耦合數(shù)據(jù)的采集、清洗、治理,基于預(yù)置設(shè)定模型對數(shù)據(jù)集進(jìn)行計算、可視化展示,并對在校異常情況進(jìn)行特別關(guān)注與處理,進(jìn)而實現(xiàn)對全校學(xué)生在校狀態(tài)實時掌控,為學(xué)校的教學(xué)、管理提供決策支持,實現(xiàn)決策科學(xué)化、學(xué)情治理精準(zhǔn)化。
二、相關(guān)工作
1.數(shù)據(jù)融合
數(shù)據(jù)的多源異構(gòu)性使數(shù)據(jù)共享和綜合應(yīng)用變得比較困難,進(jìn)而導(dǎo)致“數(shù)據(jù)孤島”存在。單一業(yè)務(wù)系統(tǒng)數(shù)據(jù)往往不足以支持特定數(shù)據(jù)集成應(yīng)用研究,因此通過構(gòu)建數(shù)據(jù)平臺,實現(xiàn)不同業(yè)務(wù)平臺內(nèi)數(shù)據(jù)質(zhì)量不一的混合型、離散型整合,打通數(shù)據(jù)孤島,進(jìn)而通過一個多層次、多方面的處理過程,如對多源數(shù)據(jù)進(jìn)行檢測、結(jié)合、相關(guān)、估計和組合,以期實現(xiàn)數(shù)據(jù)冗余減少,數(shù)據(jù)提質(zhì)增效,精確的狀態(tài)估計、身份評估等完整及時的態(tài)勢分析。其按操作級別分為數(shù)據(jù)級融合、特征級融合以及決策級融合。
2.校園安全
疫情防控期間,校園安全成為學(xué)校穩(wěn)定、產(chǎn)生社會影響的關(guān)鍵因素,借助智能信息化技術(shù)對學(xué)生是否在校進(jìn)行精準(zhǔn)的識別與預(yù)警,及時發(fā)現(xiàn)和掌控學(xué)生在校行為的安全異常點,消除化解疫情防控期間的安全隱患,有效做到學(xué)生在校安全的全生命周期的管理和預(yù)警,并利用大數(shù)據(jù)手段對疑似不在校學(xué)生予以重點關(guān)注,為多維度的校園學(xué)情管理提供決策支持,切實履行校園安全保障責(zé)任,落實“校園安全無小事”的常態(tài)化服務(wù)事項。
三、理論模型
基于數(shù)據(jù)清洗與整合平臺,通過ETL工具采集關(guān)聯(lián)業(yè)務(wù)系統(tǒng)產(chǎn)生的原始數(shù)據(jù),經(jīng)清洗、治理、轉(zhuǎn)換后,將以學(xué)生唯一ID標(biāo)識為基準(zhǔn)構(gòu)建的、時間屬性約束下的行為屬性數(shù)據(jù)鏈存儲在共享數(shù)據(jù)中心主題庫。[4]其執(zhí)行流程如圖1所示。
如圖1所示,采集異構(gòu)多源業(yè)務(wù)系統(tǒng)(一卡通消費系統(tǒng)、圖書借閱系統(tǒng)、人臉識別安防系統(tǒng)、上網(wǎng)認(rèn)證系統(tǒng))的數(shù)據(jù),基于異構(gòu)數(shù)據(jù)治理處理采集的數(shù)據(jù),并將治理后的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式,生成學(xué)生在校行為活動統(tǒng)一格式記錄,構(gòu)建數(shù)據(jù)篩選參數(shù)和判別邏輯模型,分析學(xué)生限定時間段內(nèi)在校情況,進(jìn)而判斷學(xué)生在校時段內(nèi)的行為狀態(tài),最終為疫情防控管理提供輔助決策支持。
根據(jù)預(yù)設(shè)參數(shù)從主題庫所存儲學(xué)生的記錄表中篩選出滿足一定條件的在校行為活動記錄,并將在校行為記錄存儲為數(shù)據(jù)鏈,每一數(shù)據(jù)鏈均含有ID號、行為發(fā)生時間、行為屬性等,設(shè)計模型如下:
上面三個公式中:Yi是第i個學(xué)生的行為活動次數(shù);
Ci是預(yù)設(shè)時間內(nèi)行為活動時間長度;
Si是第i個學(xué)生平均活動時間長度;
S是所有學(xué)生平均行為活動時間長度;
N是學(xué)生總數(shù)。
基于上述公式,其判定模型為:
(1)若第i個學(xué)生的活動次數(shù)Yi大于0,則判定預(yù)設(shè)時間段內(nèi)該學(xué)生在校,否則不在校;
(2)若第i個學(xué)生的活動時間長度Ci大于等于閾值A(chǔ),且單次活動時間長度Si小于等于單次活動時間長度平均值,則判定預(yù)設(shè)時間段內(nèi)該學(xué)生全時段在校,否則不在校。
四、模型設(shè)計
基于多源共享分析挖掘數(shù)據(jù)價值,建立決策模型,[5]構(gòu)建一體化、智能化的輔助決策服務(wù)平臺,進(jìn)一步推動高校信息化建設(shè)發(fā)展,本文提出的學(xué)生是否在校判定模型設(shè)計,分?jǐn)?shù)據(jù)采集模塊、數(shù)據(jù)清洗與整合模塊、數(shù)據(jù)轉(zhuǎn)換與篩選模塊、數(shù)據(jù)判定模塊、數(shù)據(jù)可視化展示模塊及數(shù)據(jù)存儲模塊。其總體設(shè)計框圖如圖2所示。
如圖2所示,數(shù)據(jù)采集模塊主要實現(xiàn)關(guān)聯(lián)業(yè)務(wù)原始數(shù)據(jù)采集,并基于增量模式實時存儲數(shù)據(jù);數(shù)據(jù)清洗與整合模塊主要依據(jù)元數(shù)據(jù),規(guī)范統(tǒng)一整合多源異構(gòu)數(shù)據(jù)并進(jìn)行混合存儲;數(shù)據(jù)轉(zhuǎn)換與篩選模塊主要實現(xiàn),行為活動數(shù)據(jù)基于數(shù)據(jù)鏈表轉(zhuǎn)化成統(tǒng)一的格式化要求數(shù)據(jù);數(shù)據(jù)判定模塊根據(jù)判斷模型進(jìn)行數(shù)據(jù)推算;數(shù)據(jù)可視化模塊實現(xiàn)設(shè)定時間段內(nèi)的在校判定結(jié)果實時展示,進(jìn)而為輔助管理提供決策支持,實現(xiàn)決策治理科學(xué)化。
1.模型計算
本文提出的判定模型,設(shè)定共用N個學(xué)生,算法模型規(guī)定如下:
(1)選取第i個學(xué)生的行為活動記錄表Xi(i=1,2,3,...,N),查詢統(tǒng)計出預(yù)設(shè)時間段內(nèi)第i個學(xué)生的行為活動次數(shù)Yi;
(2)按照行為活動時間對行為活動記錄表中的數(shù)據(jù)鏈進(jìn)行排序,用行為活動數(shù)據(jù)鏈中的最大行為活動時間減去數(shù)據(jù)鏈中最小行為活動時間將得到第i個學(xué)生預(yù)設(shè)時間段內(nèi)的行為活動時間長度Ci;
重復(fù)執(zhí)行(1)(2),先分類匯總N個學(xué)生的行為活動次數(shù)、行為活動時間,再分別計算出行為活動次數(shù)平均值、單次行為活動時間長度Si、平均單次行為活動時間長度S。
2.數(shù)據(jù)存儲與展示
學(xué)生行為活動記錄數(shù)據(jù)經(jīng)采集、清洗、轉(zhuǎn)換后存儲在主題庫中,為便于數(shù)據(jù)分類匯總,將篩選后的數(shù)據(jù)鏈表數(shù)據(jù)存儲在Elastic Search搜索引擎數(shù)據(jù)庫中。實時展示學(xué)生在校、疑似不在校統(tǒng)計數(shù)據(jù),并支持“下鉆”級聯(lián)查詢,為疫情防控期間學(xué)情分析提供輔助決策支持。
3.模型實現(xiàn)
先將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一數(shù)據(jù)格式,將原始庫中的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為“學(xué)號、姓名、日期、學(xué)院、行為記錄開始時間、行為記錄結(jié)束時間、行為活動屬性”(各項之間間隔1個字符)數(shù)據(jù)格式,其中行為活動屬性包括“1.校園消費”“2.圖書借閱”“3.人臉識別”“4.上網(wǎng)認(rèn)證”;根據(jù)預(yù)設(shè)屬性如時間段等,對數(shù)據(jù)鏈表進(jìn)行查詢即可獲取相應(yīng)的行為活動記錄。[6][7]利用上述定義的數(shù)據(jù)結(jié)構(gòu)完成行為活動記錄鏈數(shù)據(jù)封裝,根據(jù)預(yù)設(shè)時間段進(jìn)行滿足條件的數(shù)據(jù)鏈表記錄篩選,并存儲篩選記錄,以便對數(shù)據(jù)進(jìn)行可視化展示。
根據(jù)結(jié)構(gòu)體數(shù)據(jù)鏈表數(shù)組模型分別計算出:①每個學(xué)生Xi行為活動次數(shù)Yi、所有學(xué)生X(i=1,…,N)的行為活動記錄平均值;②每個學(xué)生Xi行為活動時間長度Ci;③每個學(xué)生Xi單次行為活動時間長度Si;④所有學(xué)生X(i=1,…,N)的單次行為活動長度均值S。
基于封閉期間線上教學(xué)時間(上午8∶00-下午5∶50)、餐飲供應(yīng)時間(早上7∶00-晚上6∶30)、圖書館特殊時段工作時間(早上8∶00-下午5∶00)等要求,預(yù)設(shè)時間段設(shè)置分別為時間段1(上午7∶00-下午1∶30)、時間段2(下午1∶30-晚上6∶30)、時間段3(晚上6∶30-第二天上午8∶00)、時間段4(整天全時段00∶00-24∶00)。
采用雙向數(shù)據(jù)鏈表的設(shè)計,并將行為活動記錄數(shù)據(jù)項作為數(shù)據(jù)鏈表中的一個節(jié)點,不同數(shù)據(jù)項之間通過指針實現(xiàn),既保持?jǐn)?shù)據(jù)記錄完整性,又保持了數(shù)據(jù)鏈表的連續(xù)性。[8]
五、實驗驗證
基于Ubuntu18.04 Eclipse3.2 IDE集成開發(fā)環(huán)境完成模型分析軟件代碼實現(xiàn)與應(yīng)用部署。根據(jù)數(shù)據(jù)畫像標(biāo)簽可視化,完成每個學(xué)生Xi的預(yù)設(shè)時間段內(nèi)行為活動次數(shù)Yi的判斷,若Yi>0,則預(yù)設(shè)時間段內(nèi)此學(xué)生Xi在校;對Yi為0的學(xué)生集進(jìn)行二次篩選判斷,分別計算第Xi個學(xué)生的行為活動時間長度Ci、單次行為活動時間長度Si、學(xué)生單次行為活動時間長度均值S。
1.預(yù)設(shè)時段計算分析
以14天封閉周期的第一周數(shù)據(jù)為例,不同篩選時段下判定模型計算的所有在校生第一周內(nèi)的校園消費、人臉識別、圖書借閱、上網(wǎng)認(rèn)證數(shù)據(jù)平均結(jié)果統(tǒng)計如表1所示。
如表1所示,從行為活動記錄來看,四個統(tǒng)計時段內(nèi)行為活動記錄主要為上網(wǎng)認(rèn)證,校園消費略高于人臉識別,圖書借閱相對較少,主要和封閉期間減少外出、線上授課等原因相關(guān);從上網(wǎng)時間平均寬度來看,上網(wǎng)時間占時段寬度的30%以上,和上網(wǎng)習(xí)慣、線上授課相關(guān);從疑似不在校率來看,疑似不在率與時段寬度相關(guān),從試驗數(shù)據(jù)可知,若篩選時間寬度越長,疑似不在校率就越低;若篩選時間寬度越窄,疑似不在校率就越高。全時段模型運算流程如圖3所示。
如圖3所示,根據(jù)判定模型,設(shè)置推算時段初值和累進(jìn)步長,經(jīng)多次實驗對推算時間內(nèi)的閾值進(jìn)行推理,發(fā)現(xiàn)閾值寬度和活動時間長度、單次活動時間長度之間具有相關(guān)性,經(jīng)推算得知:閾值∈篩選時間段長度的[60%,80%]范圍內(nèi),學(xué)生是否在校判斷正確率接近實際;若閾值大于篩選時間段長度的80%或小于篩選時間段長度的60%,學(xué)生是否在校判斷正確率偏差較大,與實際不符。
2.模型判定運算結(jié)果分析
根據(jù)模型算法顯示的封閉期內(nèi)14天的在校率統(tǒng)計數(shù)據(jù),本次返???cè)藬?shù)為6000,7個二級學(xué)院平均在校率為99.939%。
如圖4所示,第一批學(xué)生自4月23日返校,4月24開始14天封閉期,根據(jù)判定模型計算出當(dāng)天疑似不在校學(xué)生人數(shù);參照線性模型、2移動平均(雙周期移動平均)模型均顯示疑似不在校趨勢為逐漸減少,其預(yù)測趨勢與實際相符,隨著封閉期結(jié)束,學(xué)生一卡通消費、圖書借閱、人臉識別、上網(wǎng)認(rèn)證和校園生活逐步恢復(fù)正常。
3.ARIMA模型預(yù)測結(jié)果分析
根據(jù)一個封閉期內(nèi)14天的數(shù)據(jù),基于ARIMA模型進(jìn)行時間序列預(yù)測分析。
本文提出的判定模型對14天的運算結(jié)果表明不具有時序季節(jié)性影響、接近卡方近似呈平穩(wěn)分布,經(jīng)多次試驗確定模型ARIMA(p,d,q)中的p為1、d為1、q為1。模型預(yù)測分析結(jié)果如表2、表3、圖5所示。
如表2 所示,R平方為0.915,表明數(shù)據(jù)序列擬合度較高;如表3所示,AR系數(shù)為0.077,MA系數(shù)為0.646,顯著性水平小于0.01;由圖5可知,殘差A(yù)CF、殘差PACF呈現(xiàn)平穩(wěn)狀態(tài);擬合結(jié)果顯示ARIMA(1,1,1)合理。
由多次推算調(diào)整參數(shù)可知,ARIMA模型(1,1,1)與實際相符,預(yù)測疑似不在校人數(shù)隨著校園生活逐步恢復(fù)后趨于平穩(wěn),不會出現(xiàn)較大波動,進(jìn)而表明本文提出的一種校園安全判定模型可為校園安全提供技術(shù)保證和決策支持。
六、結(jié)語
基于需求引領(lǐng)、數(shù)據(jù)驅(qū)動原則整合業(yè)務(wù)系統(tǒng),解決數(shù)據(jù)“孤島”,實現(xiàn)數(shù)據(jù)共享。創(chuàng)建業(yè)務(wù)模型,實現(xiàn)學(xué)情綜合治理,通過學(xué)情深度挖掘,建立數(shù)據(jù)關(guān)聯(lián)關(guān)系,實現(xiàn)多源數(shù)據(jù)分析,并將結(jié)果進(jìn)行可視化展示,為學(xué)生管理提供輔助決策與支持。
本文提出的一種校園安全判斷模型在疫情下返校復(fù)課學(xué)生管理中得以應(yīng)用,充分利用大數(shù)據(jù)手段對疑似不在校學(xué)生予以重點關(guān)注,為多維度的校情學(xué)情管理提供決策支持,切實履行學(xué)生安全保障責(zé)任,積極落實“人民至上、生命至上”常態(tài)化服務(wù)理念。本文設(shè)計的個性化分析模型有效提升了校園安全系數(shù),并根據(jù)ARIMA模型進(jìn)行預(yù)測模型分析,為平安校園建設(shè)提供技術(shù)保證和輔助決策支持。
參考文獻(xiàn):
[1]劉淑英.高職院?;旌鲜骄€上線下教學(xué)模式改革的研究[J].農(nóng)家參謀,2020(16):179.
[2]徐遵義,王俊雪.基于風(fēng)速融合和NARX神經(jīng)網(wǎng)絡(luò)的短期風(fēng)電功率預(yù)測[J].現(xiàn)代電子技術(shù),2020,43(9):166-169,174.
[3]李芳.五年制高職化學(xué)學(xué)情分析及教學(xué)應(yīng)對[J].南方農(nóng)機(jī),2019,50(19):196,210.
[4]李秀.基于校園數(shù)據(jù)中心的數(shù)據(jù)治理與應(yīng)用[D].西安:西安科技大學(xué),2018.
[5]邱國棟,王易.“數(shù)據(jù)-智慧”決策模型:基于大數(shù)據(jù)的理論構(gòu)建研究[J].中國軟科學(xué),2018(12):17-30.
[6]翟書穎,郝少陽,楊琪,李茹,李波,郭斌.多源異構(gòu)數(shù)據(jù)融合的智能商業(yè)選址推薦算法[J].現(xiàn)代電子技術(shù),2019,42(14):182-186.
[7]阿遼沙·葉.用電信息采集系統(tǒng)中多源異構(gòu)通信協(xié)議設(shè)計[J].現(xiàn)代電子技術(shù),2018,41(2):145-147,151.
[8]梁寶華.基于鏈表結(jié)構(gòu)的啟發(fā)式屬性約簡算法[J].計算機(jī)應(yīng)用與軟件,2016,33(3):259-263.
(編輯:王天鵬)